Автор: Ханк Дж.Э. Райтс А. Дж. Уичерн Д.У.
Теги: компьютерные технологии математика экономика бизнес добрая книга управление компаниями экономическая статистика издательский дом вильямс
ISBN: 5-8459-0436-6
Год: 2003
СЕДЬМОЕ ИЗДАНИЕ ЛЬ ЛЬ ЛЬ ЛЬ ЛЬ ЛЬ ЛЬ ЛЬ ль ль ль ль ль ль ль ль ль мгл MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ W W Vtr/ W MF/ MF/ MF/ MF/ БИЗНЕС- ПРОГНОЗИРОВАНИЕ
SEVENTH EDITION ZA\ ZAY ZAY ZAY ZAY ZAY ZAY ZAY ZAY ZAY ZAY ZAY w w w w w/ w/ w w w w w w/ BUSINESS FORECASTING John E. Hanke Arthur G. Reitsch, Eastern Washington University, Emeritus Dean W. Wichern, Texas A&M University Prentice Hall Prentice Hall, Upper Saddle River, New Jersey 07458
СЕДЬМОЕ ИЗДАНИЕ /А\ ЛЛ Лк\ ЛЛ /Л\ /А\ /А\ /А\ /А\ ЛЛ W MF7 W W W/ W W W W W W W W W W W MF/ БИЗНЕС- ПРОГНОЗИРОВАНИЕ Джон Э. Ханк Артур Дж. Райте, Восточный Вашингтонский университет, Эмеритус Дин У. Уичерн, Техасский университет администрирования и менеджмента Издательский дом “Вильямс” Москва • Санкт-Петербург • Киев 2003
ББК 32.973.26-018.2.75 Х19 УДК 681.3.07 Издательский дом “Вильямс” Перевод с английского В.В. Марченко, В.Н. Радченко, А.В. Слепцова, канд.физ.-мат.наук О.М. Ядренко Под редакцией А. В. Слепцова По общим вопросам обращайтесь в Издательский дом “Вильямс” по адресу: info@williamspublishing.com, http://www.williamspublishing.com Ханк Д.Э., Уичерн Д.У., Райте А.Дж. Х19 Бизнес-прогнозирование, 7-е издание. : Пер. с англ. — М.: Издательский дом “Вильямс”, 2003. — 656 с.: ил. — Парал. тит. англ. ISBN 5-8459-0436-6 (рус.) Назначение этой книги состоит в том, чтобы предоставить читателю основной стати- стический аппарат, который он сможет использовать для подготовки индивидуальных деловых прогнозов и далеко идущих планов. Книга написана в простом доступном стиле. В ней широко используются практические деловые примеры, позволяющие увидеть связь между теоретическими концепциями и их практическим применением. Основной акцент делается на применении менеджером изучаемого математического аппарата для принятия деловых решений. Предполагается, что читатель знаком с вводным курсом ма- тематической статистики и владеет компьютером в такой степени, чтобы уметь эффек- тивно работать с пакетами прикладного программного обеспечения, — например, с тек- стовыми процессорами и процессорами электронных таблиц. ББК 32.973.26-018.2.75 Все названия программных продуктов являются зарегистрированными торговыми марками соответ- ствующих фирм. Никакая часть настоящего издания ни в каких целях не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, будь то электронные или механические, включая фо- токопирование и запись на магнитный носитель, если на это нет письменного разрешения издательства Prentice Hall, Inc. Authorized translation from the English language edition published by Prentice Hall, Inc., Copyright © 2001 All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from the Publisher. Russian language edition published by Williams Publishing House according to the Agreement with R&I Enterprises International, Copyright © 2003 ISBN 5-8459-0436-6 (pyc.) ISBN 0-1308-7810-3 (англ.) © Издательский дом “Вильямс”, 2003 © Prentice Hall, Inc., 2001
Оглавление Введение 13 Глава 1. Введение в теорию прогнозирования 17 Глава 2. Обзор основных статистических понятий 33 Глава 3. Исследование наборов данных и выбор метода прогнозирования 83 Глава 4. Методы сглаживания и скользящие средние 133 Глава 5. Временные ряды и их компоненты 191 Глава 6. Простая линейная регрессия 257 Глава 7. Многомерный регрессионный анализ 317 Глава 8. Регрессионный анализ временных рядов 387 Глава 9. Метод Бокса-Дженкинса (ARIMA) 453 Глава 10. Элементы субъективной оценки в прогнозировании 545 Глава 11. Управление процессом прогнозирования 567 Приложение А. Вывод формул 591 Приложение Б. Исходные данные для задания 7.1 593 Приложение В. Таблицы 597 Приложение Г. Наборы и базы данных 611 Предметный указатель 645
Содержание Введение 13 Глава 1. Введение в теорию прогнозирования 17 История прогнозирования 17 Необходимость в прогнозировании 18 Типы прогнозов 20 Макроэкономическое прогнозирование 21 Выбор метода прогнозирования 21 Этапы прогнозирования 22 Управление процессом прогнозирования 23 Компьютерные пакеты для решения задач прогнозирования 24 Пример прогнозирования 25 Резюме 27 Задание 1.1. “Mr. Tux” 28 Задание 1.2. Корпорация Consumer Credit Counseling 29 Применение Minitab 30 Применение Excel 30 Рекомендуемая литература 31 Глава 2. Обзор основных статистических понятий 33 Описание данных с помощью численного суммирования 33 Графическое представление числовой информации 37 Вероятностные распределения 41 Выборочные распределения 46 Выводы, которые можно сделать на основании изучения выборок 48 Оценка 48 Проверка гипотез 49 Корреляционный анализ 52 Диаграммы рассеяния 53 Коэффициент корреляции 56 Аппроксимация данных прямой линией 59 Оценка, имеют ли данные нормальное распределение 63 Применение в менеджменте 65 Глоссарий 66
Содержание 7 Основные формулы 67 Упражнения 68 Задание 2.1. Компания Alcam Electronics 74 Задание 2.2. “Mr. Tux” 75 Задание 2.3. Компания Alomega Food Stores 77 Применение Minitab 79 Применение Excel 81 Рекомендуемая литература 82 Глава 3. Исследование наборов данных и выбор метода прогнозирования 83 Изучение наборов данных, являющихся временными рядами 85 Исследование данных с помощью автокорреляционного анализа 87 Являются ли данные случайными 92 Имеют ли данные тренд 96 Являются ли данные сезонными 101 Выбор соответствующего метода прогнозирования 103 Аппарат прогнозирования для стационарных данных 104 Аппарат прогнозирования для данных, имеющих тренд 105 Аппарат прогнозирования для данных с сезонной компонентой 105 Аппарат прогнозирования для циклических рядов 106 Другие факторы, которые нужно учитывать при выборе метода прогнозирования 106 Эмпирическая оценка методов прогнозирования 108 Измерение ошибки прогноза 109 Оценка адекватности выбранного метода прогнозирования 112 Применение в менеджменте 115 Глоссарий 115 Основные формулы 116 Упражнения 117 Задание 3.1. Сеть мебельных магазинов Murphy Brothers 122 Задание 3.2. “Mr. Tux” 125 Задание 3.3. Корпорация Consumer Credit Counseling 126 Задание 3.4. Компания Alomega Food Stores 127 Применение Minitab 128 Применение Excel 130 Рекомендуемая литература 132 Глава 4. Методы сглаживания и скользящие средние 133 Наивные модели 134 Методы прогнозирования, основанные на усреднении 137 Простые средние 138
8 Содержание Скользящие средние 140 Двойн ые скользящие средние 144 Методы экспоненциального сглаживания 148 Экспоненциальное сглаживание с учетом тренда: метод Хольта 156 Экспоненциальное сглаживание с учетом тренда и сезонных вариаций: метод Винтерса 161 Применение в менеджменте 166 Глоссарий 167 Основные формулы 167 Упражнения 168 Задание 4.1. Компания Solar Alternative 175 Задание 4.2. “Mr. Tux” 176 Задание 4.3. Корпорация Consumer Credit Counseling 178 Задание 4.4. Пятилетний план доходов клиники Downtown Radiology 179 Применение Minitab 187 Применение Excel 189 Рекомендуемая литература 190 Глава 5. Временные ряды и их компоненты 191 Декомпозиция 193 Тренд 195 Некоторые типы трендовых кривых 199 Прогноз тренда 202 Сезонность 203 Данные с устраненными сезонными колебаниями 209 Циклические и нерегулярные изменения 210 Прогноз сезонного временного ряда 217 Метод декомпозиции Census II 219 Применение в менеджменте 222 Приложение: индекс цен 223 Глоссарий 225 Основные формулы 225 Упражнения 226 Задание 5.1. Фирма Small Engine Doctor 235 Задание 5.2. “Mr. Tux” 237 Задание 5.3 Корпорация Consumer Credit Counseling 243 Задание 5.4. Клуб AAA Washington 244 Задание 5.5. Компания Alomega Food Stores 247 Применение Minitab 249 Применение Excel 252 Рекомендуемая литература 255
Содержание 9 Глава 6. Простая линейная регрессия 257 Прямая регрессии 259 Стандартная ошибка оценки 263 Прогнозирование величины У 264 Разложение дисперсии 267 Коэффициент детерминации 272 Проверка гипотез 274 Анализ остатков 277 Результаты компьютерных расчетов 280 Преобразования переменных 282 Применение в менеджменте 288 Глоссарий 289 Основные формулы 289 Упражнения 291 Задание 6.1. Компания Tiger Transport 303 Задание 6.2. Компания Butcher Products, Inc. 306 Задание 6.3. Компания Асе Manufacturing 308 Задание 6.4. “Mr. Tux” 309 Задание 6.5. Корпорация Consumer Credit Counseling 310 Применение Minitab 312 Применение Excel 315 Рекомендуемая литература 316 Глава 7. Многомерный регрессионный анализ 317 Несколько независимых переменных 317 Корреляционная матрица 318 Многомерная регрессионная модель 319 Статистическая модель многомерной регрессии 320 Интерпретация коэффициентов регрессии 322 Статистический анализ модели многомерной регрессии 323 Стандартная ошибка оценки 324 Значимость регрессии 325 Отдельные независимые переменные 328 Прогнозирование будущих значений зависимой переменной 328 Результаты компьютерных расчетов 329 Фиктивные переменные 331 Мультиколлинеарность 335 Выбор “наилучшего” уравнения регрессии 339 Анализ всех возможных регрессий 342
10 Содержание Пошаговая регрессия 344 Заключительные замечания относительно метода пошаговой регрессии 347 Регрессионная диагностика и анализ остатков 348 Предостережения при прогнозировании 351 Прогнозирование вне допустимого множества 351 Полезные регрессии, большие значения F 351 Применение в менеджменте 352 Глоссарий 354 Основные формулы 354 Упражнения 356 Задание 7.1. Рынок облигаций 366 Задание 7.2. Прогнозы в бейсболе (А) 369 Задание 7.3. Прогнозы в бейсболе (Б) 378 Применение Minitab 384 Применение Excel 385 Рекомендуемая литература 386 Глава 8. Регрессионный анализ временных рядов 387 Данные временных рядов и проблема автокорреляции 387 Тест Дарбина-Уотсона для серийной корреляции 392 Решение проблемы автокорреляции 396 Ошибка в спецификации модели (пропуск переменной) 397 Регрессия с разностями 399 Обобщенные разности и итерационный подход 404 Модели авторегрессии 408 Данные временных рядов и проблема гетероскедастичности 409 Использование регрессии для прогноза сезонных данных 412 Эконометрическое прогнозирование 416 Применение в менеджменте 417 Глоссарий 417 Основные формулы 418 Упражнения 419 Задание 8.1. Компания на ваш выбор 429 Задание 8.2. Индекс деловой активности для округа Спокан 430 Задание 8.3. Выручка ресторана 436 Задание 8.4. “Мг. Тих” 439 Задание 8.5. Корпорация Consumer Credit Counseling 441 Задание 8.6. Клуб AAA Washington 443 Задание 8.7. Компания Alomega Food Stores 447 Применение Minitab 449
Содержание 11 Применение Excel 450 Рекомендуемая литература 451 Глава 9. Метод Бокса-Дженкинса (ARIMA) 453 Метод Бокса-Дженкинса 454 Авторегрессионные модели 458 Модели со скользящим средним 459 Модели с авторегрессией и скользящим средним 461 Резюме 462 Реализация стратегии разработки модели 462 Этап 1. Определение модели 462 Этап 2. Оценка модели 464 Этап 3. Проверка модели 465 Этап 4. Прогнозирование на основе выбранной модели 466 Заключение 489 Критерии выбора модели 490 Модели для сезонных данных 491 Простое экспоненциальное сглаживание и модель ARIMA 505 Преимущества и недостатки моделей ARIMA 506 Применение в менеджменте 506 Глоссарий 508 Основные формулы 508 Упражнения 509 Задание 9.1. Выручка ресторана 523 Задание 9.2. “Mr. Tux” 525 Задание 9.3. Корпорация Consumer Credit Counseling 527 Задание 9.4. Компания Lydia Е. Pinkham Medicine 528 Определение модели 530 Оценка модели и проверка ее адекватности 530 Прогноз на основе выбранной модели 531 Итоги и заключения 531 Задание 9.5. Радиостанция студенческого городка 532 Задание 9.6. Отделение Air Finance компании UPS 536 Применение Minitab 539 Применение Excel 542 Рекомендуемая литература 543 Глава 10. Элементы субъективной оценки в прогнозировании 545 Кривые роста 547 Метод Дельфи 549 Метод написания сценария 550
12 Содержание Комбинирование прогнозов 552 Прогнозирование и нейронные сети 553 Заключительные замечания о субъективной оценке в прогнозировании 555 Другие методики, полезные в прогнозировании 557 Основные формулы 561 Задание 10.1. Ресторан Golden Gardens 562 Задание 10.2. Повторный взгляд на компанию Lydia Е. Pinkham Medicine 563 Рекомендуемая литература 566 Глава И. Управление процессом прогнозирования 567 Процесс прогнозирования 567 Контроль за процессом прогнозирования 571 Еще раз об этапах прогнозирования 575 Служба прогнозирования 576 Затраты на прогнозирование 577 Прогнозирование и АСУ 577 Высшее руководство и прогнозирование 578 Будущее прогнозирования 579 Задание 11.1. Компания Boundary Electronics 580 Задание 11.2. Компания Busby Associates 581 Задание 11.3. Корпорация Consumer Credit Counseling 587 Задание 11.4. “Mr. Tux” 588 Задание 11.5. Компания Alomega Food Stores 590 Рекомендуемая литература 590 Приложение А. Вывод формул 591 Корреляционные соотношения 591 Метод наименьших квадратов 591 Частные производные 592 Приложение Б. Исходные данные для задания 7.1 593 Приложение В. Таблицы 597 Приложение Г. Наборы и базы данных 611 Отдельные наборы данных 611 Комплексные наборы данных 626 Предметный указатель 645
/А\ /Ж /Ж /Ж /Ж /Ж /Ж /Ж /Ж /Ж VW VW VW VW VW VW VW VW VW VW VW VW VW Введение Назначение седьмого издания книги Бизнес-прогнозирование, как и всех предыдущих из- даний, — представить читателю основной статистический аппарат, который можно будет использовать для подготовки индивидуальных деловых прогнозов и далеко идущих пла- нов. Книга написана в доступном стиле. В ней широко используются практические дело- вые примеры. В частности, в конце глав приведены сорок шесть заданий, которые долж- ны помочь студентам увидеть связь между теоретическими концепциями и их практиче- ским применением. Основной акцент сделан на применении менеджером изучаемого ма- тематического аппарата для принятия деловых решений. Предполагается, что студенты знакомы с вводным курсом математической статистики и владеют компьютером в такой степени, чтобы уметь эффективно работать с пакетами прикладного программного обес- печения, например текстовыми процессорами и процессорами электронных таблиц. Структура книги Все главы данного издания были переработаны с тем, чтобы повысить ясность изложе- ния и усилить его педагогическую и познавательную эффективность. В главах 1 и 2 содержится подготовительный материал. Здесь освещается природа прогнозирования и дается беглый обзор основных статистических понятий с целью соз- дать основу, необходимую для ясного понимания математического аппарата, излагаемого в последующих главах книги. В главе 3 внимание акцентируется на исследовании набора исходных данных и выборе аппарата прогнозирования. В главах 4 и 5 рассматриваются методы усреднения и сглажива- ния, а также предлагается введение в разложение временных рядов в терминах основных компонентов. В главах 6 и 7 описываются методы причинного прогнозирования, в частно- сти корреляционного, регрессионного и множественного регрессионного анализа. В главах 8 и 9 обсуждается техника прогнозирования временных рядов данных. За- вершающие книгу главы 10 и 11 содержат обсуждение технологической и оценочной тех- ники прогнозирования, а также вопросов управления процессом прогнозирования и контроля над ним. Изменения в седьмом издании Седьмое издание было полностью пересмотрено. Большая часть материала прежних из- даний была сохранена, однако в данном издании сделан акцент на результатах наиболее поздних теоретических исследований и некоторых эмпирических изысканий. Устарев- ший материал был удален, а книга полностью переработана и дополнена новыми задача- ми, примерами, наборами данных и учебными заданиями.
14 Введение Данное издание имеет следующие характерные особенности. • Добавлено девять новых учебных заданий. • В конце глав приведены примеры использования приложения Minitab (версия 13). • В конце глав приведены примеры применения к решению задач прогнозирования приложения Excel 2000. • Наборы данных, используемые в примерах для Minitab, Excel или других программ, могут быть получены через Internet. Важность использования компьютера при чтении книги В первых шести изданиях компьютер рассматривался как мощный инструмент прогно- зирования. Сейчас роль компьютера еще больше возросла, — мы достигли реальной про- стоты доступа к данным в компьютерных сетях и получили широкие возможности вы- полнения самого сложного прогнозирования. Авторы провели несколько бессонных ночей, анализируя, какое следует принять ре- шение в отношении компьютеров. Национальная исследовательская программа всех ор- ганизаций-членов AACSB, руководимая авторами, имела целью определить методы ис- пользования компьютеров при обучении прогнозированию в различных учебных заведе- ниях. Эта программа показала, что в большей части учебных заведений (94,2%) обучение технике прогнозирования заключается в выработке практических навыков непосредст- венного использования компьютера. Кроме того, в итоговом обзоре было отмечено не- сколько статистических и специализированных пакетов по прогнозированию, разрабо- танных для персональных компьютеров. Наиболее часто упоминаемыми пакетами оказа- лись Minitab, SAS, Eviews и процессоры обработки электронных таблиц. В результате для оказания помощи обучающему персоналу и студентам в использова- нии компьютеров для целей прогнозирования авторы выбрали несколько различных подходов. 1. В конце глав приведены инструкции по использованию приложения Minitab и процессора электронных таблиц MS Excel 2000. 2. В Internet доступны три набора данных (для Minitab, Excel и других программ), используемые в примерах и задачах этой книги. Каждый набор содержит также несколько новых рядов данных. Указанные наборы данных можно найти на Web- странице издательства Prentice Hall по адресу: www.prenhall. com/Hanke. 3. По всему тексту книги широко представлены примеры различных компьютерных распечаток. Благодарности Авторы благодарны многим читателям во всем мире, которые дали бесценные предложе- ния по улучшению книги. Отдельные благодарности авторы выражают профессору Фрэнку Форесту (Frank Forest) из университета Маркетта; профессору Вильяму Дарроу (William Darrow) из Государственного университета Таунсенда; Сьюзен Винтерс (Susan
Введение 15 Winters) из Северо-западного государственного университета; профессору Шик Чан Янг (Shik Chun Young) из университета Вашингтона; Марку Крейзу (Mark Craze); Джуди Джонсон (Judy Johnson); Стиву Брендону (Steve Brandon) и Дороти Мерсер (Dorothy Mercer) за предоставление учебных заданий; а также Дженнифер Дол (Jennifer Dahl) за оформление этого издания. Некоторые фрагменты текста, в частности наборы данных, позаимствованы из второго издания книги Understanding Business Statistics Ханка (Hanke) и Райтса (Reitsch), выпушенной издательством Richard D. Irwin, Inc. Выражаем им благодарность за эту возможность. Мы также хотели бы выразить признательность рецензенту Джону Лишти (John Liechty) из университета штата Мичиган; Джону Тэймура (John Tamura) из университета Вашингтона; Тэду Таукахара (Ted Taukahara) из Университета Святой Марии и Дину Уи- черну (Dean Wichem) из Техасского университета за их очень конструктивные коммента- рии, сделанные при просмотре книги. Если бы мы были достаточно талантливы, чтобы реализовать все предложения наших рецензентов, книга улучшилась бы на все 100 про- центов. В действительности, все, что мы оказались способны сделать — это приобщить Дина Уичерна к выпуску нового издания книги. И наконец, мы благодарны нашим компьютерам, и удивительно, как мы раньше пи- сали книги без них. Только мы, но не компьютеры, ответственны за имеющиеся в этой книге ошибки.
rrJL к\/А\ГА\/А\ W/WAVAI ГЛТА F/W4F/W Введение в теорию прогнозирования В этой книге рассматриваются методы, используемые для прогнозирования неопреде- ленного будущего с целью помочь менеджерам в принятии наилучшего решения. Эти ме- тоды состоят в изучении и анализе накопленных данных с целью нахождения моделей, которые могут быть эффективно продолжены в будущее. В этой книге читателю регулярно будут напоминать о том, что для создания хорошего прогноза, наряду с численными результатами, непременно должна быть использована личная оценка. Задания в конце глав подтверждают эту точку зрения. Обсуждение дан- ного вопроса содержится в этой и заключительной главах книги. Кроме того, такую точку зрения подтверждает и пример в этой главе. История прогнозирования Большая часть рассматриваемого в этой книге аппарата прогнозирования, используемого сегодня, была разработана в девятнадцатом столетии. Примером могут служить процеду- ры регрессионного анализа. Однако некоторые из тем, излагаемых в этой книге, при- влекли внимание исследователей и получили свое развитие только в последнее время. В частности, к этой категории относятся процедуры Бокса-Дженкинса (Box-Jenkins) и ней- ронные сети, используемые для целей прогнозирования. С развитием и ростом сложности аппарата прогнозирования, а также с появлением компьютеров — в особенности с широким распространением сетей из небольших персо- нальных компьютеров, оснащенных соответствующим программным обеспечением — прогнозированию уделяется все больше и больше внимания. Сейчас каждый менеджер имеет реальную возможность использовать в целях прогнозирования очень сложный ма- тематический аппарат анализа данных, и знание этого аппарата является для него весьма существенным. По этой же причине люди, непосредственно использующие прогнозы в своей деятельности (менеджеры), должны понимать опасность выбора неадекватных ме- тодов прогнозирования, так как некорректные прогнозы могут привести к принятию не- верных решений. Техника прогнозирования продолжает развиваться, и разрабатываются все новые и новые методы, так как менеджмент сталкивается с растущей потребностью в прогнози-
18 ГЛАВА 1 ровании процессов. Особое внимание при этом сосредоточивается на ошибках, которые являются неотъемлемой частью любой процедуры прогнозирования. Предсказания бу- дущих исходов редко оказываются точными (с точностью до знака), поэтому человек, за- нимающийся прогнозированием, может лишь пытаться, насколько это возможно, смяг- чить последствия от неизбежных ошибок. Необходимость в прогнозировании Почему же прогнозирование необходимо в свете общей недетерминированности естест- венных процессов? Ответ состоит в том, что все организации функционируют в условиях неопределенности, но, вопреки этому, их менеджеры должны принимать решения, ока- зывающие влияние на будущее организации. Обоснованные предположения о будущем более ценны для менеджеров, чем необоснованные. В этой книге обсуждаются пути соз- дания прогнозов, которые основываются на логических методах использования данных, порожденных естественными процессами. Сказанное вовсе не означает, что интуитивный прогноз безусловно плох. Наоборот, “внутреннее” чутье руководителя предприятия часто обеспечивает единственно прием- лемый прогноз. Эта книга обсуждает аппарат прогнозирования, который может исполь- зоваться для того, чтобы помочь обосновать интуитивные решения тем, кто их принима- ет. Элементы оценки в процессе прогнозирования мы будем обсуждать в главе 10. Мы полагаем, что тот, кто принимает решение, опираясь на понимание количественного и качественного аппаратов прогнозирования и разумное их использование, несомненно, имеет преимущество по сравнению с тем, кто пытается планировать будущее без учета какой-либо дополнительной информации. Значение оценочного прогнозирования в последние годы заметно изменилось. До по- явления современного математического аппарата прогнозирования и достаточно мощ- ных компьютеров, оценка менеджера была единственным инструментом в практическом прогнозировании. Благодаря работам Макридакиса (Makridakis, 1986) стало очевидным, что прогнозы, использующие только оценку, не являются такими точными, как те, кото- рые основываются на применении количественных методов оценки. Человек обладает уникальным знанием и внутренней информацией, недоступной количественным методам. Удивительно, однако, что эмпирические исследования и лабораторные эксперименты показали, что построенные на их основе прогнозы не являются такими точными, как те, которые получены посредством численных мето- дов. Человек старается быть оптимистом и недооценивает степень неопределенности будущего. К тому же стоимость прогнозирования, выполняемого оценочными мето- дами, часто оказывается значительно выше, чем при использовании количественных методов.1 Мы верим в то, что человек, искушенный в области прогнозирования, способен эф- фективно свести воедино результаты количественной техники прогнозирования и хоро- шей оценки, избежав крайностей каждого из этих подходов. На одном полюсе мы видим исполнителя, который, игнорируя количественную технику прогнозирования и компью- теры, полностью полагается на собственную интуицию. На другом полюсе находится 1 Макридакис, 1986, с. 17.
Введение в теорию прогнозирования 19 специалист по прогнозам, искушенный в области манипулирования данными и их ана- лиза, совершенно не способный или не желающий соотносить прогнозируемый процесс с нуждами предприятия и его руководителей. Мы рассматриваем количественный аппа- рат прогнозирования, изложению которого посвящена большая часть этой книги, как единственно верную отправную точку в эффективном прогнозировании событий, важ- ных для предприятия. Анализ, оценка, понятие здравого смысла и бизнес-эксперимент должны быть доведены до сведения менеджеров в той мере, в которой этот важный аппа- рат должен влиять на результаты их деятельности. Поскольку мир, в котором функционируют организации, всегда был изменчив, необ- ходимость в прогнозах существовала всегда. Но только в последние годы возросло дове- рие к методам, включающим сложную технику обработки данных. В результате стреми- тельного развития все новых технологий и научных направлений интенсифицируется правительственная активность на всех уровнях, а конкуренция во многих областях дея- тельности становится все более острой. Уровень международной торговли постоянно возрастает практически во всех областях промышленности. Были созданы и начали бур- но развиваться институты социальной помощи и различные сервисные агентства. Все- мирная сеть Internet превратилась в важный источник фактических данных и другой ин- формации для принятия решений. Все это беспрецедентно усложнило “климат” на всех предприятиях, что вынудило их очень быстро реагировать на происходящие изменения и поддерживать более высокий уровень конкурентоспособности, чем когда-либо прежде. Те из них, которые не смогли своевременно отреагировать на изменение условий и пред- видеть будущее с необходимой степенью точности, оказались обречены и прекратили свое существование. Компьютеры, в совокупности с количественными методами расчетов, которые благо- даря им стали общедоступными, для современных организаций являются уже не просто удобным инструментом, а фактически их неотъемлемой частью. Упомянутые выше труд- ности современной жизни породили огромное количество данных, что вызвало острую необходимость научиться извлекать из них различную полезную информацию. Сущест- вующие инструменты прогнозирования, в сочетании с возможностями компьютеров, стали жизненно необходимыми средствами для любых организаций, функционирующих в современном мире. Кому необходимы прогнозы? Практически каждое предприятие, большое или ма- ленькое, частное или государственное, явно или неявно пользуется прогнозами, потому что каждое предприятие должно планировать будущее, о котором оно пока ничего не знает. К тому же необходимость в прогнозах пронизывает все функциональные линии так же, как и все типы организаций. Прогнозы необходимы в финансировании, марке- тинге, подборе кадров и различных производственных областях, в правительственных и коммерческих организациях, в маленьких социальных клубах и национальных политиче- ских партиях. Вот несколько примеров вопросов, для получения ответов на которые не- обходимы те или иные процедуры прогнозирования. • Как повлияет на объемы продаж увеличение финансирования рекламы на 10%? • Какой годовой доход может ожидать государство по истечении следующего двух- летнего периода? • Сколько единиц продукции необходимо продать, чтобы возвратить планируемые капиталовложения в производственное оборудование?
20 ГЛАВА 1 • Как определить факторы, которые помогут объяснить изменчивость в ежемесяч- ных объемах продажи продукции? • Каков ежегодный прогноз на последующие 10 лет в отношении сводного баланса займов нашего банка? • Будет ли экономический спад? Если да, то когда он начнется, насколько сильным он будет и когда он окончится? Типы прогнозов Какие существуют типы прогнозов для менеджера, столкнувшегося с необходимостью принятия решения в условиях неопределенности? Прогнозы могут классифицироваться как долгосрочные и краткосрочные. Долгосрочные прогнозы необходимы для того, что- бы наметить основной курс предприятия на длительный период, поэтому именно на них акцентируется основное внимание менеджеров высшего звена. Краткосрочные прогнозы используются для разработки безотлагательных стратегий. Они чаще всего применяются менеджерами среднего и низшего звена для удовлетворения потребностей ближайшего будущего. Прогнозы также могут классифицироваться относительно их позиции в микро- макроконтинууме, т.е. по отношению к тому, рассматривают ли они отдельные состав- ляющие или же обобщенные показатели. Например, руководитель предприятия может интересоваться прогнозом числа рабочих, которые потребуются в ближайшие несколько месяцев (микропрогноз), в то время как федеральное правительство интересует прогноз числа людей, занятых в производственной сфере в масштабах всей страны (макропрогноз). Кроме того, руководители разных уровней на одном и том же предпри- ятии будут концентрировать свое внимание на разных уровнях микро-макроконтинуума. Например, менеджеров высшего звена будет интересовать прогноз объемов продаж всей компании, в то время как отдельные служащие будут значительно больше заинтересова- ны в прогнозе объема продаж, осуществляемых лично ими. Процедуры прогнозирования могут также классифицироваться как количественные и качественные. На одном полюсе здесь находится чисто качественный аппарат, не тре- бующий явного математического оперирования данными. Используется только “оценка”, предоставляемая составителем прогноза. Конечно, даже в этом случае “оценка” составителя прогноза в действительности является результатом мысленного анализа данных. На другом полюсе находится чисто количественный аппарат, не тре- бующий никакой дополнительной оценки. Это чисто механические процедуры, которые на выходе дают количественные результаты. Конечно, некоторые количественные про- цедуры требуют значительно более изощренной техники оперирования данными, чем другие. Основное внимание в этой книге сосредоточено на аппарате количественного прогнозирования, так как широкое понимание этих очень полезных процедур совершен- но необходимо для эффективного руководства современным предприятием или органи- зацией. Однако, и мы подчеркиваем это еще раз, наряду с механическими процедурами оперирования данными непременно должны применяться оценка и здравый смысл. Только таким способом может быть получен разумный прогноз.
Введение в теорию прогнозирования 21 Макроэкономическое прогнозирование Как правило, под прогнозированием понимается процедура предсказания важных пока- зателей для отдельных компаний или даже одного из подразделений компании. Приме- рами могут служить месячный объем продаж компании, объем продаж отдельных видов продукции для одного из магазинов компании или же количество пропущенных рабочих часов, которое приходится на одного работника фабрики. В противоположность этому, наблюдается растущий интерес к прогнозированию важных параметров экономики всей страны. Была проделана большая работа по оценке методов по- лучения сводных экономических прогнозов подобного типа, называемых макроэкономиче- скими. Например, федеральное правительство США интересует прогноз уровня безработицы, роста национального продукта и значения основной учетной ставки. В частности, вся эконо- мическая политика строится на планировании основных экономических показателей. Поэто- му существует большой интерес к усовершенствованию методов прогнозирования, приме- няемых к общим показателям функционирования экономики всей страны. Одной из основных сложностей в получении точных прогнозов общих показателей экономической деятельности являются неожиданные и важные сдвиги в ключевых эко- номических факторах. Среди таких факторов — серьезные изменения в ценах на нефть, волны инфляции и основные политические изменения в правительстве страны, оказы- вающие глобальное влияние на ее экономику. Возможность таких важных изменений в области экономики поднимает ключевые вопросы макроэкономического прогнозирования в целом. Должен ли прогноз, порож- денный соответствующей моделью, подвергаться модификации на основе оценки чело- века, создающего его? Текущая работа по созданию методологии прогнозирования часто включает в себя этот вопрос. Много работы — как теоретической, так и практической — ведется по проблемам макроэкономического прогнозирования. Этим вопросам посвящен отдельный выпуск журнала International Journal of Forecasting (vol.6, n.3, October, 1990). В будущем можно ожидать повышение роли точного экономического прогнозирования в отношении фор- мирования экономической политики в США и других странах и в связи с этим увеличе- ние внимания к данному типу прогнозирования. Выбор метода прогнозирования В предшествующем обсуждении речь шла о нескольких факторах, которые следует учиты- вать при выборе метода прогнозирования. Следует определить уровень детализации. Нужен ли прогноз определенных деталей (микро-прогноз)? Или же требуется прогноз будущего состояния некоторых всеобъемлющих или обобщенных факторов (макропрогноз)? Необ- ходим ли прогноз некоторой величины в ближайшем будущем (краткосрочный прогноз) или в отдаленном будущем (долгосрочный прогноз)? И в какой степени являются прием- лемыми качественные (оценочные) и количественные (оперирующие данными) методы прогнозирования? Тщательный и всесторонний анализ при выборе метода прогнозирования должен обеспечить упрощение процедуры принятия решения менеджерами организации. Ос- новное требование, следовательно, не в том, чтобы метод прогноза включал в себя слож-
22 ГЛАВА 1 ный математический процесс или представлял собой новейший усложненный метод. Скорее всего, выбранный метод должен давать точный, своевременный и понятный ме- неджменту прогноз, который помог бы в выборе наилучшего решения. Кроме того, ре- зультаты процедуры прогнозирования должны приносить прибыль, которая покрывала бы издержки на ее выполнение. Этапы прогнозирования Все формальные процедуры прогнозирования предусматривают перенос прошлого опыта в неопределенное будущее. Таким образом, все они построены на предполо- жении, что условия, породившие полученные ранее данные, неотличимы от условий будущего. Исключение составляют только те переменные, которые точно распозна- ны моделью прогнозирования. Например, если кто-то строит прогноз показателей производительности служащих, исходя только из множества оценок, выставленных им при испытаниях в процессе приема на работу, то он, очевидно, предполагает, что показатель производительности каждого работника зависит только от них. В дейст- вительности же подобное предположение о неразличимости прошлого и будущего не выполняется в полной мере. Поэтому полученный прогноз будет неточен, если толь- ко он не будет модифицирован на основании оценки, выполненной составителем прогноза. Осмысление того, что аппарат прогнозирования оперирует данными, порожденными естественными событиями, приводит к определению следующих пяти этапов в процессе прогнозирования. 1. Сбор данных 2. Редукция или уплотнение данных 3. Построение модели и ее оценка 4. Экстраполяция выбранной модели (фактический прогноз) 5. Оценка полученного прогноза Этап 1, сбор данных, предполагает получение корректных данных и обязательную проверку того, что они верны. Этот этап часто является наиболее сомнительной ча- стью всего процесса прогнозирования и в то же время наиболее сложен для проверки, поскольку последующие этапы с одинаковым успехом могут производиться с исполь- зованием данных, как соответствующих изучаемой проблеме, так и не соответствую- щих ей. Всякий раз, когда возникает необходимость получить в организации опреде- ленные данные, их сбор и проверка обязательно сопровождаются множеством различ- ных проблем. Этап 2, редукция или уплотнение данных, часто оказывается необходимым, так как для выполнения прогнозирования может быть собрано как слишком много ис- ходных данных, так и слишком мало. Некоторые данные могут не иметь прямого от- ношения к рассматриваемой задаче, а будут лишь снижать точность прогнозирова- ния. Другие данные могут соответствовать проблеме, но только в контексте некото- рого конкретного исторического периода. Например, при прогнозировании продаж
Введение в теорию прогнозирования 23 малолитражных автомобилей целесообразно будет использовать данные о продажах автомобилей только с момента введения эмбарго на нефть в 1970-х годах, а не дан- ные за последние 50 лет. Этап 3, построение модели и ее оценка, состоит в подборе модели прогноза, наибо- лее соответствующей особенностям собранных данных в смысле минимизации ошиб- ки прогноза. Чем проще модель, тем лучше она будет воспринята менеджерами фир- мы, ответственными за принятие решения, и тем выше будет их доверие к полученно- му прогнозу. Часто следует отдавать предпочтение не более сложному подходу к про- гнозированию, предлагающему немного больше точности, а более простому, понят- ному руководителям компании. Когда выбранный метод получает поддержку у менед- жеров, то и результаты прогнозирования активно ими используются. Из сказанного очевидно, что оценка непременно должна применяться в процессе выбора. Поскольку в этой книге обсуждается значительное число различных моделей прогноза наряду с областью их применимости, мы надеемся, что после изучения предложенного мате- риала возможности читателей в отношении подбора моделей прогнозирования и пра- вильной их оценки, несомненно, возрастут. Этап 4, экстраполяция выбранной модели, предусматривает фактическое получе- ние требуемого прогноза, поскольку необходимые данные уже собраны и, возможно, редуцированы, а соответствующая модель прогноза определена. Часто для проверки точности получаемых результатов применяется прогнозирование на недавно прошед- шие периоды, для которых исследуемые величины уже известны. Наблюдаемые ошиб- ки затем определенным образом анализируются. Эта процедура обсуждается ниже, при описании этапа 5. Этап 5, оценка полученного прогноза, состоит в сравнении вычисленных величин с действительно наблюдаемыми значениями. Для этой цели часть наиболее свежей фак- тической информации обычно исключается из множества анализируемых данных. По- сле того как модель прогноза будет подобрана, выполняется прогноз на эти периоды и полученные результаты сравниваются с известными наблюдаемыми значениями. Не- которые процедуры прогнозирования предусматривают суммирование абсолютных значений ошибок и представляют либо эту сумму, либо частное от деления ее на число прогнозируемых значений, представляющее собой значение средней ошибки прогно- за. Другие процедуры используют сумму квадратов ошибок, которая затем сравнивает- ся с аналогичными числами, полученными для альтернативных методов прогнозиро- вания. Некоторые процедуры отслеживают и отмечают величину пределов ошибки за период прогнозирования. Специальные методы измерения ошибок прогноза обсужда- ются в конце главы 3. Управление процессом прогнозирования В этой главе многокра тно подчеркивается, что в процесс прогнозирования непременно должны быть вовлечены способности и здравый смысл руководящего персонала. Спе- циалист, занимающийся прогнозированием, должен рассматриваться как советник ме- неджера, а не как оператор некоего устройства, автоматически принимающего решения. К сожалению, именно эта ситуация чаще всего встречается на практике, особенно в свя- зи с появлением компьютеров. Повторим, что количественный аппарат в процессе про-
24 ГЛАВА 1 гнозирования должен восприниматься как инструмент (чем он в действительности и яв- ляется), используемый менеджером для принятия наилучшего решения. Еще раз проци- тируем Макридакиса (1986). Эффективность и уровень использования прогнозирования могут быть повышены, если менеджмент примет по отношению к нему более реалистичное отношение. Прогнозирование следует рассматривать не как некое пророчество, а скорее, как лучший способ выявления и экстраполяции существующих схем или взаимоотно- шений с целью прогнозирования. Если такое отношение будет воспринято, то ошибки прогноза будут рассматриваться как неизбежные, а обстоятельства, их по- рождающие, непременно подлежащими исследованию? Следовательно, для того чтобы соответствующим образом руководить процессом прогнозирования, следует найти ответы на несколько ключевых вопросов. • Почему необходим прогноз? • Кто будет использовать прогноз, и в чем состоят его основные требования? • Какой уровень — отдельные составляющие или обобщенные показатели — требу- ется и каковы соответствующие временные рамки? • Какие имеются данные и будет ли их достаточно для того, чтобы получить необхо- димый прогноз? • Во что обойдется выполнение прогноза? • Какова ожидаемая точность прогноза? • Будет ли прогноз сделан вовремя, чтобы помочь процессу принятия решения? • Ясно ли понимает создающий прогноз специалист то, как он будет использован на предприятии? • Существует ли обратный процесс, позволяющий оценить прогноз после того, как он был сделан, и внести соответствующие уточнения в процесс прогнозирования? Компьютерные пакеты для решения задач прогнозирования Разработка компьютерных пакетов программного обеспечения, специально предна- значенных для применения различных методов прогнозирования, оказала огромное влияние на развитие прогнозирования в последние несколько лет. Для специалиста, занимающегося прогнозированием, представляют интерес два типа компьютерных па- кетов. Во-первых, это статистические пакеты, позволяющие проводить регрессионный анализ, анализ временных рядов и другие виды математического анализа, часто при- меняемые статистиками. Во-вторых, это пакеты для прогнозирования, специально созданные для подобных целей. Там же, с. 33.
Введение в теорию прогнозирования 25 Для универсальных ЭВМ (мэйнфреймов) и микрокомпьютеров (или персональ- ных компьютеров, часто называемых ПК) были разработаны сотни статистических пакетов и пакетов для решения задач прогнозирования. Менеджеры, знающие аппа- рат прогнозирования и имеющие ПК на своем рабочем столе, уже не зависят от прогнозов своих штатных сотрудников. Современный руководитель активно исполь- зует самые совершенные методы прогнозирования, предоставляемые ему персо- нальными компьютерами. В силу постоянного обновления доступного программного обеспечения, в данной книге не имеет смысла обсуждать в подробностях те пакеты программного обеспечения для целей прогнозирования, которые были выпущены к моменту ее написания. Разра- ботчики программного обеспечения постоянно стремятся усовершенствовать математи- ческий аппарат, используемый в их продуктах, а также максимально упростить их ис- пользование и интерпретацию полученных результатов. Хотя специалисты по прогнози- рованию непременно должны интересоваться новыми разработками в программном обеспечении, им не следует постоянно “перепрыгивать” от одного пакета к другому, они должны понимать, что непрерывные улучшения в программном обеспечении просто не- избежны. Специалисты по прогнозированию должны уметь эффективно использовать все преимущества подобных улучшений. Несмотря на прозвучавшие выше предостережения, использование пакетов программ- ного обеспечения для прогнозирования является актуальным в силу того, что данная про- цедура неизбежно связана с большими вычислениями. По этой причине для иллюстрации значительной части математического аппарата, обсуждаемого в книге, мы выбрали две ти- пичные компьютерные программы: Minitab 13 и Microsoft Excel 2000. Читатель найдет ри- сунки с экранами этих программ практически во всех главах книги. Следует подчеркнуть, что любые пакеты программ, которые вы, возможно, будете использовать, будут выполнять одни и те же основные вычисления, так или иначе запрограммированные в них, даже если входные и выходные экраны этих приложений будут отличаться. Перечень пакетов для решения задач прогнозирования опубликован в The Forum, the Joint Newsletter of the International Association of Business Forecasting and the International Institute of Forecasters,vol.9, n.3, Fall 1996. Пример прогнозирования Материал, изложенный в этой главе, свидетельствует о том, что, наряду с математи- ческой обработкой имеющихся данных, прогнозирование в значительной мере тре- бует и выполнения оценки. Рассуждения, часто предшествующие процессу прогно- зирования в реальной фирме, хорошо иллюстрируют приведенный ниже пример. Отметим, что те значения данных, которые позволяют получить полезные прогнозы (если таковые данные вообще существуют), вовсе не обязательно будут вполне оче- видными в начале процесса прогнозирования; скорее всего, на этот момент они бу- дут еще не определены. Другими словами, первоначальные попытки прогнозирова- ния могут оказаться для менеджмента бесполезными. Результаты процедур прогно- зирования, выполняемых на компьютерах с использованием указанных переменных, не показаны здесь, так как они приводятся при обсуждении отдельных тем по всему тексту книги. Собственно процесс выбора математического аппарата, который еле-
26 ГЛАВА 1 дует применить к этим данным, описан в последних главах. Окончательное решение для примера 11.1 будет приведено в главе 11. На данный момент мы просто надеем- ся, что приведенный ниже пример позволит явно обозначить весь диапазон тех уси- лий, которые менеджер должен предпринять при выполнении прогнозирования в реальных условиях. Пример 1.1 Компания Alomega Food Stores имеет 27 продовольственных магазинов, осуществляющих розничную торговлю продуктами питания в штатах среднего запада. В своей деятельности компания использует различные виды рекламы, но до недавнего времени никогда не изучала реальный эффект от сумм, вложенных в рекламу, и влияние рекламы на рост объема продаж, хотя некоторые данные все же были собраны за последние три года. Руководители компании Alomega приняли решение отслеживать затраты на рекламу на- ряду с фактическими объемами продаж за каждый месяц. Они надеялись, что эти данные, со- бранные за несколько месяцев, после соответствующего изучения позволят выявить некото- рые зависимости, которые позднее можно будет эффективно использовать для планирования дальнейших рекламных расходов. Бухгалтерия компании стала дополнительно регистрировать объем продаж за каждый ме- сяц наряду с расходами на газетную рекламу и на рекламные ролики на телевидении. Кроме того, эти два показателя фиксировались с отставанием в один и два месяца. Это делалось по- тому, что некоторые люди в руководстве считали, что рост объема продаж в ответ на рекламу будет скорее отставать от месяца проведения рекламной кампании, а не следовать за ней точ- но месяц в месяц. Руководство также считало, что объем продаж носит сезонный характер. Поэтому для со- ответствующей характеристики каждого месяца дополнительно использовались специальные переменные его категории. Менеджеры также интересовались наличием какой-либо устой- чивой тенденции в изменении объемов продаж. И наконец, предполагалось, что деньги, вложенные фирмой Alomega в рекламу своих ма- газинов, могут оказать влияние на рекламные затраты их основных конкурентов на следую- щий месяц. Соответственно, рекламная кампания конкурентов в каждом последующем ме- сяце может оцениваться как слабая (I), средняя (2) или обширная (3). После нескольких месяцев сбора данных и анализа накопленной ранее информации бухгалте- рия сформировала набор данных за 48 месяцев, содержащий значения следующих переменных. • Объем продаж. • Суммы, вложенные в газетную рекламу. • Суммы, вложенные в рекламу на телевидении. • Код месяца (январь = 1, февраль = 2,..., декабрь=12). • Группа из 11 переменных для обозначения категории месяца. • Суммы, вложенные в газетную рекламу, с отставанием в один месяц. • Суммы, вложенные в газетную рекламу, с отставанием в два месяца. • Суммы, вложенные в рекламу на телевидении, с отставанием в один месяц. • Суммы, вложенные в рекламу на телевидении, с отставанием в два месяца. • Последовательный номер месяца в наборе данных, от 1 до 48. • Код 1, 2 или 3, оценивающий уровень рекламной кампании конкурентов в следующем месяце.
Введение в теорию прогнозирования ТЛ Руководство компании Alomega, — в частности Джулия Рас (Julie Ruth), президент компа- нии, — желает извлечь из накопленных данных все, что только возможно. Помимо того, как реклама влияет на объемы продаж компании и рекламу конкурентов, Джулия интересуется любыми устойчивыми тенденциями и сезонными изменениями в зафиксированных объемах продаж. Однако исполнительный директор компании, Джексон Тилсон (Jackson Tilson), не разделяет ее энтузиазм. В конце совещания, посвященного планированию процедуры про- гнозирования, он высказал следующее: “Во время совещания я старался молчать, но это уже переходит всякие границы. Я полагаю, что с этим сбором данных и глупостями вокруг ком- пьютера мы теряем слишком много времени сотрудников. Для понимания того, что происхо- дит, все, что вы должны сделать — это поговорить с нашими продавцами и менеджерами ба- калейно-гастрономических отделов. Я уже изучал, что там происходит, а вы опять продол- жаете свои разговоры. Некоторые из вас должны всего лишь оторваться от компьютеров, выйти из ваших любимых офисов и просто поговорить со своими подчиненными”. Резюме Целью создания прогноза является уменьшение того уровня неопределенности, в преде- лах которого менеджер должен принимать решения. Эта цель диктует два основных пра- вила, которым должен следовать процесс прогнозирования. 1. Прогнозирование должно быть технически корректным и должно порождать прогнозы, достаточно точные для того, чтобы отвечать нуждам фирмы. 2. Процедура прогнозирования и ее результаты должны быть достаточно эффектив- но представлены менеджменту, что обеспечит использование прогнозов в процес- се принятия решения во благо фирмы. Результаты прогнозирования также долж- ны быть сбалансированы в отношении затрат/прибыли. Последнее часто понимается неверно, что может мешать работе профессиональных специалистов по прогнозированию. Все же, если прогнозы должны использоваться на благо фирмы, то те, кто ответственен за принятие решений, должны пользоваться ими. Это утверждение поднимает вопрос о том, что следует считать “нормой поведения” в прогнозировании. Существенные, а иногда и основные статьи расходов и распределение ресурсов в фирме чаще всего соответствуют представлению руководства о будущем раз- витии событий. Так как движение ресурсов и средств в организации часто строится на предполагаемом направлении развития будущего (прогнозе), неудивительно, что вокруг процесса прогнозирования обычно ведутся интриги. Это наблюдение подчеркивает зна- чение второго основного правила: “Прогнозы, созданные в пределах фирмы, должны быть поняты и оценены ее руководством в такой степени, которая позволит эффективно использовать эти прогнозы в управлении фирмой”. В этой книге рассматриваются различные модели и процедуры прогнозирования. Прежде всего, дан обзор основных статистических понятий, включая введение в корре- ляционный и регрессионный анализы. Следующая глава посвящена методам сбора дан- ных и исследованию совокупностей данных на наличие в них взаимосвязей. В после- дующих главах подробно обсуждается множество различных методов прогнозирования, а последние две главы книги посвящены процессу прогнозирования в том виде, в каком он должен быть представлен руководству фирмы.
28 ГЛАВА 1 /ж лв /ж /ж /ж /ж /ж /дч /ж /ж /л\ /а\ /ж w w/ w w w w/ w MF/ w w w w/ w Задание 1.1. “Mr. Tux” Джон Мосби (John Mosby) является владельцем нескольких пунктов проката смокингов, функционирующих под вывеской “Mr. Tux”, большинство из которых расположены в городах Спокан и Сиэтл, штат Вашингтон.3 Его пункт проката в Спокане имеет также пошивочный цех, выпускающий сорочки к смокингам, которые рассылаются по осталь- ным пунктам проката по всей стране. Поскольку активность пунктов проката, связанная с количеством проводимых приемов, вечеринок и других торжественных событий, изме- няется в зависимости от сезона, Джон знает, что его бизнес носит явно выраженный се- зонный характер. Он хотел бы оценить этот сезонный эффект, что способствовало бы как улучшению его руководства бизнесом, так и повышению эффективности проведения пе- реговоров о предоставлении ссуд с его банкиром. Еще больший интерес для Джона представляет нахождение способа прогнозирова- ния его месячного дохода. Бизнес Джона продолжает расширяться, что, в свою оче- редь, требует все больше капитальных и долгосрочных вложений. У него есть источни- ки для обоих типов необходимого финансирования, но инвесторы и банкиры интере- суются конкретными способами прогнозирования его будущих доходов. Хотя они до- веряют Джону, его заверения о том, что будущее его бизнеса “великолепно”, не рассеивает их сомнений. Первым шагом в создании требуемой модели прогноза было указание, данное Джо- ном одному из его служащих, Лэйну Мак-Кеннаху (Lane McKennah), в отношении сбора информации о месячных объемах дохода от проката за последние несколько лет. В последующих главах к собранным этим служащим данным применяются различные математические методы прогнозирования. В главе 11 подводится итог и описывается, как Джон Мосби предпринял попытку подобрать аппарат прогнозирования, более всего соответствующий его нуждам. 3 Авторы книги выражают благодарность Джону Мосби, владельцу пунктов проката "Mr. Тих", за по- мощь в подготовке этого задания.
Введение в теорию прогнозирования 29 Задание 1.2. Корпорация Consumer Credit Counseling Корпорация Consumer Credit Counseling, CCC (Совет по кредитованию потребителей) — это частная недоходная корпорация, которая была основана в 1982 году.4 Целью создания ССС было предоставление потребителям помощи в планировании и реализации их бюд- жетов, оказание им помощи в подписании соглашений с кредиторами о выплатах по не- оплаченным долговым обязательствам, а также оказание помощи в отношении обучения в области финансов. Частная финансовая консультация предоставлялась бесплатно тем семьям и отдельным лицам, которые испытывали финансовые трудности, или же тем, кто желал повысить свое умение обращаться с деньгами. Для школ, общественных групп и бизнесменов были разработаны образовательные программы в области финансов. Как альтернатива бан- кротству, была предложена программа работы с долгами. Согласно этой программе, кор- порация ССС вела переговоры с кредиторами в целях заключения специальных платеж- ных соглашений в пользу клиента. Клиент делал единовременный взнос на счет корпо- рации ССС, который затем распределялся между кредиторами. Корпорация ССС имеет штат оплачиваемых работников и некоторый контингент добровольцев. В действительности количество добровольцев в корпорации превосходит штатный персонал в отношении 3:1. Семь оплачиваемых работников осуществляют ру- ководство, выполняют необходимую канцелярскую работу и около половины всей рабо- ты с клиентами. Двадцать один доброволец выполняет оставшуюся часть работы по об- служиванию клиентов. В отношении финансовой поддержки выполняемых операций и предоставляемых ус- луг корпорация ССС зависит преимущественно от корпоративного финансирования. Специальная программа по участию в благотворительном финансировании позволяла кредиторам, получившим выплаты от клиентов по долговым программам ССС, пожерт- вовать корпорации часть денег, которые вернулись к ним благодаря этим программам. Большая часть корпоративной поддержки поступала от локальной деятельности и обеспечивала оплату труда наемных работников, а также эксплуатацию всех офисных помещений, используемых для проведения консультаций. Дополнительным источником финансирования являлись выплаты клиентов. Клиен- ты, участвующие в долговой программе, ежемесячно вносили взнос (15 долларов) на по- крытие административных издержек на эту программу. (Размер взноса периодически со- кращался для тех клиентов, которые оказывались не способны его вносить.) Эта вводная информация будет использоваться нами в последующих главах, где будут обсуждаться проблемы корпорации ССС, связанные с прогнозированием важных для нее переменных. 4 Авторы книги выражают благодарность Мэре Харнишфегер (Marv Hamishfeger), исполнительному директору ССС в Спокане, и Дороти Мерсер (Dorothy Mercer), президенту совета директоров этой компании, за их помощь в подготовке данных заданий. Дороти в прошлом наша студентка. Она постоянно держит нас в курсе дел в отноше- нии практического использования количественных методов прогнозирования в реальном мире бизнеса.
30 ГЛАВА 1 Применение Minitab Приложение Minitab — это сложная статистическая программа, которая совершенствует- ся с каждым выпуском новой ее версии. Здесь описывается работа с версией Minitab 13. На рис. 1.1 отмечены четыре важнейших элемента диалогового окна приложения Minitab. Панель меню — это та панель, на которой выбираются команды. Например, если выбрать меню Stat, то раскроется список, содержащий команды вызова всех поддержи- ваемых программой статистических методов. Панель инструментов содержит кнопки для наиболее часто используемых функций программы. Отметим, что набор этих кнопок из- меняется в зависимости от того, какое именно окно приложения Minitab открыто в дан- ный момент. Главное окно приложения Minitab разделено на две отдельные области — окно данных, в котором вводятся, редактируются и просматриваются столбцы данных для каждой рабочей таблицы, и окно сеанса, которое содержит сообщения и результаты, вы- даваемые программой, например таблицу статистик. Окно данных Рис. 1.1. Главное окно приложения Minitab В последующих главах будут даны конкретные инструкции, как вводить данные в ра- бочую таблицу Minitab и как выполнять процедуры прогнозирования с целью получения требуемых прогнозов. Применение Excel Приложение Microsoft Excel — весьма популярная программа обработки электронных таблиц, часто используемая для целей прогнозирования. На рис. 1.2 представлено откры- тое окно версии Excel 2000. В строки и столбцы таблицы (обратите внимание на то, что на рис. 1.2 ячейка на пересечении строки 1 и столбца А выделена) вводятся данные, а за- тем команды, выполняющие различные операции над введенными данными.
Введение в теорию прогнозирования 31 Рис. 1.2. Основное окно приложения Microsoft Excel 2000 Например, в столбец 1 могут быть введены данные о годовом доходе работников. За- тем Excel сможет вычислить среднее значение этих величин. В качестве другого примера можно предложить ввести в столбец 2 данные о возрасте работников, в результате чего можно будет исследовать взаимосвязь между возрастом и доходом. В последующих главах будет показано, как приложение Excel можно использовать для решения этих и других задач прогнозирования. В Excel реализовано множество статистических функций, которые изначально могут и не быть представлены в раскрывающихся меню приложения. Для активизации этих функций потребуется ввести команду Tools^Add-lns (Сервис=>Надстройки). На экране раскроется диалоговое окно Add-Ins (Надстройки). Выберите в списке значение Analysis ToolPak и щелкните на кнопке ОК. Реализованные в надстройке Analysis ToolPak функ- ции будут подробно описаны в последующих главах. Настоятельно рекомендуется использовать надстройки приложения Excel, что позво- лит справиться со статистическими вычислениями, необходимыми для того математиче- ского аппарата прогнозирования, который обсуждается в этой книге. Надстройка Excel KaddStat будет использоваться нами в главе 9. Рекомендуемая литература Adams F. G. The Business Forecasting Revolution. New York; Oxford University Press, 1986. Barron M., Targett D. The Manager’s Guide to Business Forecasting. New York: Basil Blackwell Inc., 1985. Beaumont C., Mahmoud E., McGee V. E. Microcomputer Forecasting Software: A Surway. Journal of Forecasting, 4 (1985): 305—311. Calbeig C. Use Excel’s Forecasting to Get Terrific Projections. Denver Business Journal 47 (18) (1996): 2B.
32 ГЛАВА 1 GeorgofTD. М., Mardick R. G. Manager’s Guide to Forecasting. Harvard Business Review 1 (1986): 110-120. Hogarth R. M., Makridakis S. Forecasting and Planning: An Avaluation. Management Science 27 (2) (1981): 115-138. Keating B., Wilson J. H. Forecasting — Practices and Teachings. The Journal of Business Forecasting (Winter 1987-88): 10-13. Keating K. Choosing and Using Business Forecasting Software. Creative Computing 11 (1) (1985): 119-135. Makridakis S. The Art and Science of Forecasting. International Journal ofForecasting 2 (1986): 15—39. Perry S. Applied Business Forecasting. (1994): Management Accounting 72 (3) 40. Reid R. A. The Forecasting Process: Guidelines for the MIS Manager. Journal of Systems Management (November 1986): 33—37. Wright G., Ayton P. Judgemental Forecasting. New York: John Wiley & Sons, 1987.
MF/ MF/ MF/ M ГЛАВА F/MF/MF/MF/ Обзор основных статистических понятий ^Большая часть аппарата прогнозирования построена на фундаментальных статистических понятиях, которые являются предметом рассмотрения различных вводных статистических курсов и книг по бизнес-статистике. Эта глава содержит обзор наиболее важных понятий, служащих основой для значительной части материала, рассматриваемого в этой книге. Подавляющее большинство статистических процедур предназначено для того, чтобы дать заключение об интересующих нас объектах, множество которых называется гене- ральной совокупностью. Выбирая из генеральной совокупности группу объектов, для ко- торых известна интересующая нас числовая характеристика, получим выборку, на осно- вании которой и делается заключение о генеральной совокупности в целом. В процедуре статистического вывода с приемлемо низкой степенью риска, важным является тщатель- ный отбор представителей выборки и получение достаточно большого ее объема. В прогнозировании обычно используются реальные данные. Его задача состоит в попытке предсказать или предвидеть неопределенное будущее. В настоящей главе основное внимание будет сосредоточено на изучении выборочных данных, манипулировании этими данными оп- ределенным образом и использовании полученных результатов для создания прогнозов. Описание данных с помощью численного суммирования Целью описательных статистических процедур является краткое описание большого на- бора измерений с помощью нескольких ключевых итоговых значений. Чаще всего такое итоговое значение получают посредством усреднения наблюдений. В статистике процесс усреднения обычно завершается вычислением среднего, которое представляет собой сум- му всех наблюдений, деленную на их количество. Выборочное среднее обозначается X (Xс чертой), оно вычисляется по формуле (2-1) п
34 ГЛАВА 2 где X — выборочное среднее; XX — сумма всех значений выборки; п — объем выборки. Для упрощения вида формул в этой книге используются некоторые краткие обозна- чения. В упрощенном варианте для операции суммирования всех значений A', XX, суммирование понимается в пределах от 1 до п. Более формальное обозначение для этой операции имеет следующий вид: где индекс i изменяется в пределах от своего начального значения 1 до п, увеличиваясь всякий раз на единицу. Поскольку практически во всех суммах суммирование произво- дится от 1 до п, начальный (/ = 1) и конечный (л) индексы будут в дальнейшем опускать- ся, т.е. будет использоваться более простое обозначение, за исключением тех случаев, когда для большей ясности потребуется использование сложных обозначений. Наряду с вычислением среднего, для выяснения тенденции данных к группировке во- круг среднего значения обычно представляет интерес и то, насколько наблюдения раз- бросаны относительно него. Среднеквадратическое отклонение можно рассматривать как меру отклонения наблюдений от среднего значения. Формула для вычисления средне- квадратического отклонения следующая. s-EEHS Хх2-~г- Н п-1 i и-1 Здесь под знаком суммы имеем сумму квадратов разностей между наблюдениями и их средним значением. Многие статистические процедуры используют выборочную дисперсию. Дисперсия по- следовательности измерений представляет собой квадрат среднеквадратического отклоне- ния. Таким образом, выборочная дисперсия (№) вычисляется по следующей формуле. St*-*)’ <* 23> п-1 п-1 Пример 2.1 Рассмотрим следующий набор возрастов людей. 23, 38, 42, 25, 60, 55, 50, 42, 32, 35 Для этой выборки п = 10 и 10 £х,. = X, + Х2 + Х} + Х4 + X, + х6 + х7 + xs + х9 + х)0 = 23 + 38 + 42 + 25 + 60 + 55 + 50 + 42 + 32 + 35 = 402
Обзор основных статистических понятий 35 п 10 л-1 10-1 S= ^/148,84=12,2 Вычисления показаны в табл. 2.1. Выборочное среднее составляет 40,2 года, выборочная дисперсия равна 148,84 и выборочное среднеквадратическое отклонение составляет 12,2 года. Таблица 2.1. Вычисление s (х = 40,2) b v ><* Л < Ъ М 1 X®. *- > -г Ф >- * Z Z Л ы / —\2 X X-X 23 -17,2 295,84 38 -2,2 4,84 42 1,8 3,24 25 -15,2 231,04 60 19,8 392,04 55 14,8 219,04 50 9,8 96,04 42 1,8 3,24 32 -8,2 67,24 35 -5,2 27,04 £(Х-Х)2 =1339,60 Для определения числа единиц данных, свободных друг от друга в том смысле, что они не могут быть получены одно из другого и, следовательно, являются носителями единиц информации, используется термин степень свободы. Предположим, что сформу- лированы следующие три утверждения. Я задумал число 5. Я задумал число 7. Сумма двух чисел, которые я задумал, равна 12. На первый взгляд может показаться, что здесь присутствуют три единицы информа- ции. Однако если любые два из этих утверждений известны, оставшееся может быть од- нозначно определено. Следовательно, можно сделать заключение, что в трех утвержде- ниях есть только две единицы информации, или, используя статистический термин, су- ществуют только две степени свободы, поскольку только два значения свободно изменя- ются, а третье — нет. В примере, представленном в табл. 2.1, возраст десяти людей представляет собой вы- борку с десятью степенями свободы. Возраст любого человека мог быть включен в выборку, и, следовательно, каждый из возрастов независим. Когда вычислялось среднее значение, все десять возрастов участвовали в получении общего среднего, равного 40,2 годам.
36 ГЛАВА 2 Процесс вычисления выборочного среднеквадратического отклонения является иным. Когда вычисляется выборочное среднеквадратическое отклонение, используется оценка среднего значения генеральной совокупности (выборочное среднее X). При ис- пользовании в вычислениях выборочного среднего в качестве оценки среднего значения генеральной совокупности, обычно получается среднеквадратическое отклонение, меньшее среднеквадратического отклонения для всей генеральной совокупности. Одна- ко эта проблема может быть откорректирована путем деления суммы - X )2 на соот- ветствующее количество степеней свободы. Поскольку при вычислении выборочного среднеквадратического отклонения выборочное среднее использовалось в качестве оценки среднего генеральной совокупности, только девять из возрастов при этом изме- нялись свободно. Если девять из возрастов известны, десятый может быть вычислен, по- тому что сумма JI(X -X)должна быть равна нулю. Для получения всей информации необходимо знать только девять возрастов. В общем случае можно утверждать, что если для оценки параметра генеральной совокупности в вычислениях используется выбороч- ная статистика, то одна степень свободы теряется. Степени свободы в наборе данных определяют число единиц данных, независимых друг от друга, которые могут нести единичные фрагменты информации. В табл. 2.2 пред- ставлены символы, используемые для обозначения параметров генеральных совокупно- стей и их выборочных статистик. Степени свободы в наборе данных определяют число единиц данных, независимых друг от друга, которые могут нести отдельные элементы информации. Таблица 2.2. Статистики генеральной совокупности и выборки Статистики Генеральная совокупность Выборка Среднее значение Н X Дисперсия о2 S2 Среднеквадратическое отклонение СТ S Среднее значение и среднеквадратическое отклонение являются наиболее важными характеристиками для описания наборов данных; они кратки и содержательны. Однако наряду с ними часто используются и другие описательные итоговые характеристики. Для определения центрального значения в наборе данных иногда применяется медиана. Ме- диана — это то значение, которое делит выборку так, что одна половина значений в вы- борке будет больше, а другая — меньше. В качестве грубой оценки дисперсии иногда используется размах. Размахом называет- ся разность между максимальным и минимальным значениями выборки. Например, размах возрастов в табл. 2.1 составляет 37 (т.е. 60 - 23). Квартили делят набор данных на четыре равные части после того, как численные зна- чения были упорядочены от наименьшего к наибольшему. Медиана делит выборку на две равные части и часто называется второй квартилью. Первая квартиль (g,) делит нижнюю половину на две равные части, а третья квартиль (£3) делит на две равные части верх-
Обзор основных статистических понятий 37 нюю половину. Для набора возрастов в табл. 2.1 первая квартиль равна 30,25, медиана (вторая квартиль) — 40, а третья квартиль — 51,25. Наконец, межквартилевый размах характеризует изменчивость множества данных. Это просто разность между третьей и первой квартилями, (g3 - £2i), или размах для сред- них 50% значений из набора данных. Для приведенного списка возрастов межквартиле- вый размах составляет 21 (т.е. 51,25 - 30,25). Для вычисления большинства приведенных описательных статистик можно исполь- зовать приложения Minitab и Excel. На рис. 2.1 представлено окно приложения Minitab, содержащее результаты расчета различных статистик для списка возрастов, приведен- ного в табл. 2.1. Инструкции по вычислению описательных статистик с использованием приложений Minitab и Excel приведены в разделах, посвященных применению Minitab и Excel, в конце глав. I MINITAB > Untitled. [Jt hr',» ja1 Qie^i в~а! g| • |вЧ iz:, iTJjliW I Ql? _________ _ __ "T Г7 3 Variable N Mean Median TrMean Stbev SE Mean Ages 10 40.20 40.00 39.88 12.20 3.86 Variable Hininua Maxi&un 01 Q3 Ages 23.00 60.00 30.25 51.25 J Puc. 2.1. Расчет описательных статистик в приложении Minitab Графическое представление числовой информации В прогнозировании мы имеем дело с двумя типами данных: кросс-секционными, когда все наблюдения проведены в одно и то же время, и временными рядами данных, состоящими из последовательности наблюдений, которые проводились с течением времени. В табл. 2.3 приведен пример кросс-секционных данных — чистый доход, выраженный как процент от стоимости акционерного капитала для 209 компаний, представляющих собой выборку из списка наиболее процветающих корпораций “Fortune-500”. Кроме того, примерами могут служить сведения о годовом доходе руководства корпорации или рыночной стоимости до- мов в некотором городе. В качестве примеров временных рядов данных можно привести количество посетителей торгового центра Coulee Dam Visitor Center за каждый месяц, еже- месячный объем продаж компании Sears Corporation, ежедневные данные о цене акций компании IBM, ежегодный объем производства пшеницы в США.
38 ГЛАВА 2 Таблица 2.3. Чистый доход как процент от стоимости акционерного капитала для 209 компаний из списка -Fortune-500" 17 23 22 18 8 7 12 2 49 14 14 36 16 7 3 8 10 И 20 17 15 25 18 12 20 7 5 11 0 22 14 10 14 19 8 12 13 21 3 22 11 18 2 18 14 11 36 16 7 14 12 14 10 8 20 13 8 23 6 21 9 23 7 14 25 12 12 8 И 5 18 13 14 9 16 2 19 21 18 9 14 2 20 17 И 16 13 12 22 16 7 6 14 10 1 21 35 20 18 28 17 15 9 12 5 10 14 1 17 14 14 14 6 22 16 13 14 8 12 6 15 10 22 19 16 4 20 18 2 3 20 7 15 39 4 3 10 7 15 16 12 13 12 И 18 10 13 7 13 12 14 8 11 17 11 22 16 И 12 11 9 11 13 0 12 3 9 9 13 27 1 16 18 12 11 0 10 9 12 22 18 44 4 3 17 12 8 16 7 16 27 И 19 12 22 3 14 14 7 8 И 1 3 17 8 7 5 19 22 Одним из наиболее важных моментов при предварительном исследовании анализи- руемой величины является визуализация данных с помощью графиков и диаграмм. Ос- новные характеристики данных, включая необычные наблюдения и уникальные схемы повторения, лучше всего видны при их графическом представлении. В некоторых случа- ях анализ графика может даже подсказать возможное объяснение тех или иных типов из- менчивости, присутствующих в данных. Точечная диаграмма — один из простейших способов графического изображения дан- ных. На рис. 2.2 на горизонтальной оси изображен размах значений чистого дохода как процента от стоимости акционерного капитала, представленных в табл. 2.3. Каждое на- блюдение изображено точкой над этой осью. Точечная диаграмма позволяет подробно изображать данные и сравнивать два или более множеств данных.
Обзор основных статистических понятий 39 Dot Plot for % of Equity “I-------------Г 40 50 % of Equity Puc. 2.2. Точечная диаграмма для чистого дохода как процента от стоимо- сти акционерного капитала (приложение Minitab) Диаграмма-ящик, называемая также “ящиком с усами”, полезна для отображения ха- рактеристик данных, связанных с их распределением. На рис. 2.3 представлена диаграм- ма-ящик для данных о чистом доходе как о проценте от стоимости акционерного капита- ла. Через “ящик” в точке, равной медиане, проведена прямая. Эта прямая делит данные на две равные части. Нижняя граница ящика — это первая квартиль (g,), а верхняя — третья квартиль (g3). Могут быть построены дополнительные ограничители, отмечающие межквартилевый размах (Q3 - Q(). Нижний предел расположен в точке Qx - l,5(g3 - Q(), а верхний — в точке Q3 + 1,5(g3 - Qt). Выбросами являются точки вне нижнего и верхнего пределов, они изображены звездочками. На рис. 2.3 первая квартиль равна 8, медиана — 13, третья квартиль — 17, а межквартилевый размах равен 9 (т.е. 17-8). Нижний предел равен -5,5 (т.е. 8 - 1,5 х 9), а верхний — 30,5 (т.е. 17 + 1,5 х 9). Отметим, что наименьшее значение, большее нижнего предела-5,5, равно 0, а наибольшее значение, меньшее верхней границы 30,5, — 28. Шесть значений (35, 36, 36, 39, 44 и 49) превышают верхнюю границу 30,5 и называются выбросами. Рис. 2.3. Диаграмма-ящик для значений чистого дохода как процен- та от стоимости акционерного капитала
40 ГЛАВА 2 Гистограмма позволяет сжимать данные, группируя близкие значения в классы. При построении гистограммы рассматриваемая величина откладывается на горизонтальной оси, а частота, относительная частота или процент частоты появления значения в данных — на вертикальной оси. Рассматривая гистограмму, подобную приведенной на рис. 2.4, можно оценить отношение площади прямоугольника над некоторым интерва- лом к общей площади гистограммы над горизонтальной осью. В частности, 61 компания из 209 (или 29,2%) имеет чистый доход, выраженный как процент от стоимости акцио- нерного капитала, в интервале от 7,5% до 12,5%. Таким образом, третий прямоугольник гистограммы на рис. 2.4 составляет 0,292 от общей площади гистограммы. Рис. 2.4. Гистограмма для значений чистого дохода как процента от стоимости акционерного капитала (приложение Minitab) Хотя гистограммы дают хорошее визуальное представление для набора данных в це- лом, в особенности для очень больших наборов данных, идентифицировать отдельные наблюдения они не позволяют. В противоположность этому, на точечной диаграмме просматривается каждое отдельное наблюдение. Диаграммы рассеяния используются для отображения взаимосвязи между двумя пере- менными. Они будут рассматриваться позднее в этой же главе, в разделе, посвященном корреляционному анализу. Для данных, изменяющихся во времени, чаще всего применяется графическая форма, называемая диаграммой временного ряда, на которой данные изображаются в зависимости от времени. На рис. 2.5 представлена диаграмма временного ряда для ежемесячных объемов продаж в продовольственных магазинах компании Alomega, которые обсуждались в приме- ре 1.1. Диаграмма временного ряда показывает изменчивость данных и фиксирует моменты времени, соответствующие пикам и впадинам. Эти диаграммы также демонстрируют отно- сительный размер пиков и впадин в сравнении с остальными значениями ряда.
Обзор основных статистических понятий 41 UJ tc w 750,000 650,000 550,000 450,000 350,000 250,000 150,000 Monthly Sales for Alomega Food Stores Illi 1996 1997 1998 1999 Year Puc. 2.5. Диаграмма ежемесячных объемов продаж в продовольственных магазинах компании Alomega (приложение Minitab — см. пример 2.5) Одним из важных этапов при выборе соответствующего аппарата прогнозирования яв- ляется подбор моделей данных, адекватно отражающих поведение временного ряда. Как только удастся выявить все присутствующие в данных взаимосвязи, можно будет выбрать такой метод прогнозирования, который наиболее подходит для данного случая. Существует четыре типа зависимостей данных во временных рядах: горизонтальные, тренд, цикличе- ские и сезонные. Каждый тип зависимости будет подробно рассмотрен в главе 3. Для выделения различных типов зависимостей, присутствующих во временных рядах данных, чаще всего используется метод построения коррелограммы или автокорреляци- онной функции. Это графический метод представления корреляции между значениями с различными запаздываниями во времени, присутствующими в исходном временном ря- ду. Коррелограммы также будут рассматриваться в главе 3. Вероятностные распределения Случайной величиной называется числовая величина, которая способна принимать в экс- перименте различные значения от испытания к испытанию. Исход отдельного испыта- ния называется случаем или случайным событием. Случайная величина называется дис- кретной, если для нее возможны только отдельные, точно установленные значения. Примерами дискретных величин могут служить количество комнат в доме, число покупа- телей, подходящих к расчетному окну в супермаркете за час, и число дефектных единиц в партии электронных приборов. Если возможно любое значение случайной величины в пределах некоторого интервала, она называется непрерывной. Примерами величин такого типа могут служить вес различных людей, длина произведенной ткани или время между прибытием машин к кассе оплаты дорожного сбора.
42 ГЛАВА 2 Дискретная случайная величина может принимать значения только из предопределен- ного множества. Часто возможные исходы численно обозначаются целыми числами. Непрерывная случайная величина может принимать любые значения в определенном интервале. Численно эти исходы представляются непрерывным интервалом значений. Вероятностное распределение дискретной случайной величины представляет собой список всех значений, которые она может принимать, с указанием вероятности появле- ния каждого из них. Математическим ожиданием случайной величины является то сред- нее значение, которое принимает случайная величина после многих испытаний. Матема- тическое ожидание дискретного вероятностного распределения может быть найдено пу- тем умножения каждого возможного значения X на его вероятность с последующим сум- мированием этих произведений. Формально требуемые вычисления представлены следующей формулой. Е(Х) = 'Е[Х'х. Р(Х)\ (2.4) Пример 2.2 Число дней продавца, когда у него не было продаж в течение месяца, описано вероятностным распределением, которое приведено в табл. 2.4. Эти значения, основанные на прошлом опы- те продавца, можно использовать для прогнозирования его будущей торговой активности. В столбце Xуказаны все возможные значения (дни без продаж), в то время как столбец Р(Х) со- держит соответствующие вероятности. Отметим, что, поскольку перечислены все возможные значениях, сумма вероятностей равна 1,00 или 100%. Это справедливо для всех вероятност- ных распределений, без учета ошибок округления. Таблица 2.4. Вероятностное распределение X Р(Х) 1 0,10 2 0,20 3 0,25 4 0,15 5 0,30 Для вероятностного распределения, представленного в табл. 2.4, математическое ожидание равно следующему. Е(Х) = 1(0,1) + 2(0,2) + 3(0,25) + 4(0,15) + 5(0,3) = 3,35 Таким образом, если этот продавец будет наблюдать и отмечать непродажные дни в тече- ние многих месяцев, среднее значение должно оказаться равным 3,35, при условии, что будущая активность корректно предвидится с помощью наблюдаемых ранее данных, на которых основано вероятностное распределение. Математическое ожидание случайной величины — это среднее значение величины, вычисленное для многих испытаний или наблюдений.
Обзор основных статистических понятий 43 Для непрерывного распределения вероятность получения отдельного конкретного значения приближается к нулю. Например, вероятность того, что кто-то весит 150 фун- тов, может считаться равной нулю, поскольку это будет обозначать, что этот вес равен точно 150,000 фунтов — независимо оттого, насколько точные весы используются. Не- прерывные распределения чаще всего связаны с отысканием вероятности того, что слу- чайно выбранное значение случайной величины попадает в некоторую область или ин- тервал. Например, может быть вычислена вероятность того, что вес человека будет нахо- диться в интервале от 145 до 155 фунтов. Некоторые теоретические распределения вновь и вновь встречаются в практических статистических приложениях, поэтому важно изучить их свойства и область применения. Одним из таких распределений является биномиальное распределение, часто используемое для представления дискретной случайной величины. Биномиальное распределение удов- летворяет следующим требованиям. 1. Выполняется п независимых испытаний, в каждом из которых возможны два ис- хода — “успех” и “неудача”. 2. Вероятность успеха в серии последовательных испытаний остается фиксированной. 3. Результаты отдельных испытаний являются независимыми. Интерес представляет отыскание вероятности получения X успешных результатов в п испытаниях, в каждом из которых получение успешного результата является одним из двух возможных исходов. Различные значения X и их вероятности обра- зуют биномиальное распределение. Эти вероятности могут быть найдены с ис- пользованием следующей биномиальной формулы: P(^) = Qpx(l-p)"'x дляХ=0, 1,2, ...,п, (2.5) где <л) — число сочетаний из п по А"; р — вероятность успеха в каждом испытании; X — соответствующее число интересующих успехов; п — число испытаний. Биномиальным распределением называется вероятностное распределение, описывающее вероятность появления Д'успехов в п испытаниях биномиального эксперимента. Более простой способ отыскания биномиальных вероятностей, в сравнении с использо- ванием уравнения 2.5, состоит в обращении к готовой таблице биномиального распреде- ления — такой, как табл. В.1 в приложении В. В этой таблице данные собраны в блоки, представляющие п групп значений вероятностей. Каждый блок включает столбец, оза- главленный р, и строку, определяемую значением X. Пример 2,3 Предположим, что на производственной линии случайным образом выбрано восемь единиц продукции. Кроме того, известно, что 5% произведенной на ней продукции оказываются де-
44 ГЛАВА 2 фектными. Какова вероятность обнаружить в выборке точно нуль дефектных единиц продук- ции? Ответ находим в таблице биномиального распределения в приложении В, она равна 0,6634 (здесь л = 8,р = 0,05, Х= 0). Особый интерес представляет важное непрерывное распределение, называемое нор- мальным, поскольку многие широко используемые величины могут быть им аппрокси- мированы. Для определения конкретного нормального распределения необходимо зна- ние среднего значения и среднеквадратического отклонения. Кривая нормального рас- пределения является симметричной и имеет форму колокола, как показано на рис. 2.6. Это распределение описывает много реально существующих величин, изменяющихся на непрерывной шкале. Рис. 2.6. График нормального распределения Вероятность попадания значения нормальной случайной величины в некоторый ин- тервал находится путем преобразования этого интервала в единицы среднеквадратиче- ского отклонения. Это преобразование называется /-стандартизацией.1 Z-стандарт лю- бого значения X— это число среднеквадратических отклонений от центрального значе- ния кривой (ц) до этого значения. Таким образом, имеем формулу Z = , (2.6) <7 где X — интересующее нас значение; ц. — среднее значение; <7 — среднеквадратическое отклонение. После того как будет выполнен процесс Z-стандартизации, таблица нормального рас- пределения может быть заполнена посредством вычисления площади под кривой между центром кривой (ц) и интересующим значением X. Нормальное распределение имеет вид колокола и определяется своим средним значени- ем и среднеквадратическим отклонением. ' Можно показать, что если случайная величина X имеет нормальное распределение, то случайная величина Z= (X— Ц)/<7 имеет нормальное распределение со средним значением 0 и среднеквадратическим отклонением 1.
Обзор основных статистических понятий 45 Пример 2.4 Генеральная совокупность веса деталей, выпускаемых на определенном станке, имеет нор- мальное распределение со средним значением 10 фунтов и среднеквадратическим отклоне- нием 2 фунта. Какова вероятность того, что случайно выбранная деталь будет имеет вес от 9 до 12 фунтов? Нормальная кривая с соответствующей заштрихованной областью изображена на рис. 2.7. ст = 2 Рис. 2.7. Область под нормальной кривой, рассматривае- мая в примере 2.4 Поскольку таблицы нормального распределения чаще всего содержат значения площади области под кривой от центра до некоторой точки, следует определить площади двух отдель- ных областей — с двух сторон от среднего значения, а затем сложить их. Результат этой про- цедуры дает вероятность попадания значения в заданный интервал. Для нашего примера два значения Z-стандарта равны следующему. Z|=X^ = 9llO = _o(5o ст 2 Z2=X^=12-10=1>00 ст 2 Следовательно, область между 9 и 12 под нормальной кривой, показанной на рис. 2.4, та- кая же, как и область под нормальной кривойZ (см. сноску 1) между значениями-0,5 и 1. Пользуясь таблицами нормального распределения, которые приведены в этой книге, отрица- тельным знаком перед первым Z-стандартом можно пренебречь, так как область под нор- мальной кривой для Z между -0,5 и 0 такая же, как и между 0 и 0,5. Оба требуемых значения Z-стандарта присутствуют в таблице нормального распределения, приведенной в приложе- нии В (табл. В.2). Они представляют площади двух интересующих нас областей и должны быть просуммированы. Zl=-0,500,50 -> 0,1915 Z2 = 1.00 -» 0.3413 0,5328 Таким образом, доля случаев, когда произвольно выбранная единица продукции будет иметь вес от 9 до 12 фунтов, составляет 53%.
46 ГЛАВА 2 Выборочные распределения В большинстве статистических приложений из рассматриваемой генеральной совокупно- сти формируется случайная выборка; по данным выборки вычисляется статистика, и на ос- новании этих выборочных данных делается заключение о всей генеральной совокупности. Выборочным распределением является распределение всех возможных значений выборочной статистики, которая может быть получена из генеральной совокупности для выборки дан- ного объема. Например, из генеральной совокупности всех людей может быть выбрана слу- чайная выборка из 100 человек, каждый из которых будет взвешен, а затем будет вычислен их средний вес. Это выборочное среднее (X ) может рассматриваться как полученное из ве- роятностного распределения для всех возможных выборочных средних для выборок разме- ром в 100 человек, которые можно получить из генеральной совокупности всех людей. Ана- логично любая выборочная статистика, которая может быть вычислена по выборочным данным, может рассматриваться как полученная из выборочного распределения. Выборочным распределением является массив всех возможных значений выборочной статистики, который может быть получен из генеральной совокупности для выборок данного объема. Центральная предельная теорема утверждает, что с увеличением объема выборки рас- пределение выборочного среднего стремится к нормальному распределению, среднее значение которого равно р, т.е. среднему значению генеральной совокупности, а средне- квадратическое отклонение равно o/Jn (это значение называют стандартной ошибкой выборочного среднего). Важно подчеркнуть, что распределение выборочного среднего стремится к нормальному распределению, независимо от типа распределения генераль- ной совокупности, из которой получена выборка. На рис. 2.8 показано, как может выгля- деть подобное выборочное распределение. Рис. 2.8. График выборочного распределения X Центральная предельная теорема представляет в статистике особый интерес, по- скольку она позволяет сводить вычисление вероятностей различных выборочных ситуа- ций к вычислению вероятностей этих ситуаций с помощью нормальной кривой.
Обзор основных статистических понятий 47 Пример 2.5 Какова вероятность того, что среднее значение случайной выборки из генеральной совокупно- сти, состоящей из 100 значений веса, будет меньше на два фунта, чем истинное среднее значе- ние генеральной совокупности, если среднеквадратическое отклонение для последней оценива- ется в 15 фунтов? График соответствующего выборочного распределения показан на рис. 2.9. Рис. 2.9. Область, ограниченная кривой выборочного рас- пределения, рассматриваемого в примере 2.5 Из того, что стандартная ошибка равна o/Jn = 15/V100 = 1,5 , следует, что Z-стандарт равен Z = (% - X)/(о/Jn'j = 2/1,5 = 1,33 . Тогда, обратившись к таблице, найдем, что соответ- ствующая площадь под нормальной кривой равна 0,4082. Для того чтобы получить площадь общей области с двух сторон от среднего значения, удвоим эту площадь и получим 0,8164. Это означает, что если из генеральной совокупности с оцененной дисперсией <7=15 сделать выборку в 100 элементов, то примерно в 82% случаев выборочное среднее будет на 2 фунта меньше истинного среднего. Ниже будет показано, что возможность вычислять вероятности с помощью выборочных исследований, позволяет статистику получать полезные выводы при оценке или про- верке своих предположений, а это непосредственно применимо к прогнозированию. Особый случай имеет место в статистике, когда объем выборки мал, но можно пред- положить, что генеральная совокупность имеет нормальное распределение с некоторым неизвестным среднеквадратическим отклонением. В этой ситуации среднеквадратиче- ское отклонение должно быть оценено по выборочному среднеквадратическому откло- нению. В приложении В, табл. В.З, приведены значения t-распределения. Отметим, что прежде, чем обращаться к таблицам, следует найти только одно значение — число степе- ней свободы (сокращенно, СС). Как только число степеней свободы станет известно, можно определить /-значения, которые исключают ожидаемое процентное содержание кривой. Например, если рассматриваемое /-распределение имеет 14 степеней свободы, то /-значение, равное 2,145, будет включать 95% площади под кривой с каждой стороны от ее центра и исключать 5% общей площади, т.е. по 2,5% для каждого “хвоста”. Пример 2.6 На производственной линии сделана случайная выборка, включающая взвешивание 12 мешков пшеницы. Средний вес мешка был определен как 102,4 фунта, а выборочное сред- неквадратическое отклонение составило 2,5 фунта. Из выполненных ранее исследований из-
48 ГЛАВА 2 вестно, что вес полных мешков на этой линии может быть достаточно точно аппроксимиро- ван нормальным распределением. Сформулируем следующий вопрос, каково то значение ве- са, которое будет меньше веса 95% полных мешков. Поскольку объем выборки мал (обычно ма- лой считается выборка, включающая менее 30 элементов), а генеральная совокупность имеет нормальное распределение, в качестве оценки неизвестного среднеквадратического отклоне- ния возьмем выборочное среднеквадратическое отклонение. Ответ на поставленный выше вопрос может быть найден с помощью /-распределения. Полагая t = (X-ц)/5 и используя зна- чения /-распределения, приведенные в табл. В.З, получим, что значение /-распределения, ис- ключающее 5% площади под кривой вне его, с количеством степеней свободы п - 1 = 11 рав- но 1,796. Поэтому вес, соответствующий среднему, уменьшенному на произведение коэффи- циента 1,796 на стандартную ошибку, будет оставлять 5% весов ниже себя и 95% выше. X = 102,4 - 1,796(2,5) = 97,9 фунтов. Основываясь на выборочных результатах, использующих малую выборку, можно заклю- чить, что вес большинства (95%) полных мешков на производственной линии составляет бо- лее чем 97,9 фунтов. Выводы, которые можно сделать на основании изучения выборок Оценка Существуют две основные цели изучения выборок в тех случаях, когда реально неосущест- вимо или даже невозможно охарактеризовать всю интересующую нас генеральную сово- купность. Первая из них, называемая оценкой, состоит в использовании выборочных дан- ных для оценки неизвестных характеристик генеральной совокупности. Несмотря на то что оценка является наиболее употребительным статистическим термином для названия этой задачи, она может также именоваться прогнозированием во многих ситуациях, связанных с бизнесом. В этих случаях данные состоят из собранных реальных наблюдений, а значения, для которых необходима оценка или прогноз, относятся к неизвестному будущему. Вторая основная цель изучения выборок будет обсуждаться в следующем разделе. Точечной оценкой параметра генеральной совокупности (прогнозом) называется от- дельное значение, которое оценивает неизвестное значение параметра генеральной сово- купности, вычисленное по выборочным данным. В табл. 2.2 содержатся три параметра генеральной совокупности и выборочные статистики, дающие их точечные оценки. Интервальной оценкой, или доверительным интервалом, называется интервал, в пределах которого, возможно, лежит интересующий нас параметр генеральной совокупности. Его находят, образуя интервал вокруг точечной оценки, и, как правило, вычисляют, используя нормальное или /-распределение. Точечные и интервальные оценки иногда используются в качестве оценок важных значений (см. задание 2.2 “Mr. Тих” в конце этой главы). Пример 2.7 Опрос случайным образом выбранных 500 покупателей торгового центра Northgate Shopping Center был проведен с целью получения выборки для определения среднего расстояния, ко- торое им приходится преодолевать до магазина. Анализ выборочных результатов показал, что X =23,5 мили, а5= 10,4 мили.
Обзор основных статистических понятий 49 Выборочное среднее, точечная оценка неизвестного среднего расстояния для генеральной со- вокупности всех покупателей, составляет 23,5 мили. Интервальная оценка ц, использующая уро- вень значимости в 95%, основана на уравнении 2.7 и может быть определена следующим образом. X±Z-^= (2.7) 23,5 ±1, 96-^lL л/500 23,5 ±1,96(0,465) 23,5 ±0,91 от 22,6 до 24,4 Можно утверждать с достоверностью в 95%, что среднее число миль, которое покупатель из этой генеральной совокупности преодолевает к магазину, расположено где-то между 22,6 и 24,4 милями. В действительности статистик сказал бы, что если получены 100 выборок объемом 500 значений, вычислены среднее и среднеквадратическое отклонение, построены интервальные оценки, то 95 из 100 интервалов будут содержать истинное среднее генеральной совокупности. Точечная оценка представляет собой отдельное значение, оценивающее параметр гене- ральной совокупности; интервальная оценка является численным интервалом, внутри которого, вероятно, расположен неизвестный параметр. Проверка гипотез Во многих статистических задачах, включающих и прогнозирование, интерес представ- ляет не оценка (или прогнозирование) одного из параметров генеральной совокупности, а проверка некоторого утверждения о ней. Эта процедура, представляющая собой вторую важную цель в изучении выборочных данных, называется проверкой гипотез. Проверка гипотез включает в себя следующие этапы. Этап 1. Формулируется проверяемая гипотеза. Назовем ее нулевой гипотезой и обо- значим символом Но. Формулируется альтернативная гипотеза, которая при- нимается, если отвергается гипотеза Но. Обозначим эту гипотезу Н{. Этап 2. Выполняется случайная выборка из генеральной совокупности. Для ее эле- ментов определяются соответствующие числовые характеристики и вычисля- ется требуемая выборочная статистика. Этап 3. Предполагается, что нулевая гипотеза верна; рассматривается распределение выборочной статистики при этом предположении. Этап 4. Вычисляется вероятность того, что подобная выборочная статистика может быть получена из этого выборочного распределения. Этап 5. Если вычисленная вероятность велика, мы не отвергаем нулевую гипотезу; ес- ли же эта вероятность мала, нулевая гипотеза может быть отвергнута с малой вероятностью ошибки. Если следовать указанным этапам, возможны два типа ошибок, представленные в табл. 2.5. Можно надеяться, что верное решение, касающееся нулевой гипотезы, может быть достигнуто после изучения выборочных данных. Однако всегда существует вероят- ность, что вы сможете отвергнуть верную гипотезу Яо и не сумеете отвергнуть ложную Но. Вероятности этих событий обозначаются как а и 0. Значение а иначе называют уровнем значимости критерия.
50 ГЛАВА 2 Таблица 2.5. Результаты проверки гипотез Действительное состояние Действие Не отвергается Не Отвергается Не Но справедлива Верное решение Ошибка типа I: вероятность а Но несправедлива Ошибка типа II: Верное решение вероятность р Пример 2.8 Необходимо проверить гипотезу, что средний вес деталей, изготовляемых на некотором станке, всегда равен 50 фунтам (таким был средний вес единицы продукции в течение прошлых лет). Была сделана случайная выборка, состоящая из 100 единиц продукции. Предположим, что среднеквадратическое отклонение веса деталей составляет 5 фунтов, независимо от среднего значения их веса, поскольку именно это значение среднеквадратического отклонения неизмен- но получалось во всех прошлых исследованиях веса деталей. Если предполагается, что верна ну- левая гипотеза (нулевая гипотеза утверждает, что среднее значение веса детали равно 50 фун- там), то соответствующее выборочное распределение в соответствии с центральной предельной теоремой является нормальным. Механизм действия критерия представлен на рис. 2.10. Гипотеза Но: ц = 50 фунтов (основная) Гипотеза Ц: ц * 50 фунтов (альтернативная) Г ипотеза Но Гипотезу Но Гипотеза Но отклоняется отклонить нельзя отклоняется ^ТЭ6 0 Г96 g-5-о с -/ТОО ’ а и/3: 50 ± 1,96(0,5) а = 0,05 (Выбранный уровень 49,02 и 50,98 значимости) Рис. 2.10. Проверка гипотезы, изложенной в примере 2.8
Обзор основных статистических понятий 51 Правило принятия решения для данного критерия при а = 0,05 состоит в следующем. Если X < 49,02 или X > 50,98, то нулевую гипотезу следует отвергнуть. При такой формулировке правила принятия решения вероятность отвергнуть нуле- вую гипотезу в случае, если она верна, т.е. совершить ошибку I типа, составляет 5% (а = 0,05). Это отражено на кривой, представленной на рис. 2.10, где показана область ве- роятности 0,025 на каждом хвосте выборочного распределения. В завершение примера 2.8 отметим, что если бы выборочное среднее оказалось рав- ным 50,4, то отвергать нулевую гипотезу не стоило бы. В этом случае можно было бы за- ключить, что генеральная совокупность все еще характеризуется средним весом в 50 фунтов. С другой стороны, если бы выборочное среднее было равно 48,1 фунта, можно было бы сделать вывод, что среднее значение веса для генеральной совокупности упало ниже 50 фунтов. Теперь предположим, что среднее значение оказывается равным 51,3 фунта. В соот- ветствии с правилом принятия решения нулевая гипотеза отвергается (поскольку 51,3 > 50,98). Итак, заключаем, что среднее значение веса для генеральной совокупности изменилось. Однако существует и более общий способ получить верный вывод — это вы- числить для критерия p-значение. Под p-значением в критерии проверки гипотезы пони- мается вероятность получить результат, не меньше значения выборочной статистики, вычисленного в предположении, что гипотеза Но справедлива. Следовательно, оно вы- числяется как процентное соотношение выборочного распределения, лежащее правее выборочной статистики. Таким образом, получение малого ^-значения означает сильное отторжение гипотезы Но. В примере 2.8^-значение вычисляется следующим образом. z = 5L3-50= 53 обдасти 0,5 (0,5000 - 0,4953) = ^-значение, составляющее 0,0047 Решение отвергнуть нулевую гипотезу в критерии проверки гипотезы основано на следующем. Вероятность получить выборочный результат 0,0047 (или меньше) очень ма- ла, если выполняется гипотеза Но, утверждающая, что ц =50. Следовательно, очень мала и вероятность того, что гипотеза Но верна. Поэтому она отвергается (нулевая гипотеза от- вергается для любого уровня значимости а, большего 0,0047, включая и а = 0,05)ч По- скольку пакеты прикладных статистических программ часто позволяют вычислять р- значения, их использование в последние годы значительно возросло. p-значение, или значимая вероятность, — это вероятность получить (в предположении справедливости гипотезы) значение, не меньшее значения выборочной статистики. Это эквивалентно следующему утверждению: ^-значение — это наименьшее значе- ние а, для которого наблюдаемая в критерии статистика ведет к отказу от гипотезы Но. Пример 2.9 Рассмотрим критерий проверки гипотезы, когда объем выборки мал и для него соответст- вующим выборочным распределением является /-распределение. Предположим, необходимо проверить гипотезу, что среднее суммы баллов, полученных студентами на государственном экзамене, составляет 500, при альтернативной гипотезе, что оно меньше 500. Проведена вы- борка из этой генеральной совокупности, состоящая из 15 студентов, для которой выбороч-
52 ГЛАВА 2 ное среднее оказалось равным 475. Среднеквадратическое отклонение генеральной совокуп- ности оцениваем выборочным среднеквадратическим отклонением и получаем значение S'=35. Предполагается, что генеральная совокупность экзаменационных оценок аппрокси- мируется нормальным распределением. ^-распределение — это соответствующее выборочное распределение расстояния X от р в единицах стандартной ошибки для малых п (приблизительно меньше 30), о неизвестно (и оценивается с помощью S), и можно предположить, что генеральная совокупность приблизи- тельно нормально распределена. Точное количество степеней свободы и - 1 = 14. Статистика критерия определяется следующим уравнением. = (2.8) о S/Jn Алгоритм тестирования, при предположении, что уровень значимости равен 0,05, приведен на рис. 2.11. Но:ц = 5ОО t-распределение Результаты выборки: п=15 ^<500 df = 14 х=475 s =35 а = 0,05 а = 0,05 Г=-1,761 (Выборочное распределение из (х - pJ/fs/V”з) при допущении, что гипотеза Но верна, и в предположении, что генеральная совокупность имеет нормальное распределение) Г ипотеза Но отклоняется t из t-таблицы с а = 0,05 и df = (п - 1) = 14 = 1,761 У- ц 475-500 sRn 35//fS -2,77 Рис. 2.11. Проверка гипотезы, сформулированной в примере 2.9 Правило принятия решения. Если t < -1,176, отвергаем Но. Вывод. Поскольку -2,77 < -1,176, отвергаем гипотезу Яо. Выборочные данные свидетельствуют, что гипотеза, состоящая в том, что среднее гене- ральной совокупности равно 500 (при 5% уровне значимости), должна быть отвергнута. Корреляционный анализ При построении статистических моделей для целей прогнозирования часто полезно изу- чать взаимосвязь, существующую между двумя анализируемыми величинами. В этом случае могут использоваться два вида математического аппарата— корреляционный
Обзор основных статистических понятий 53 и регрессионный анализы. Дополнительно к общей теории в последующих главах будут рассматриваться и специальные случаи корреляций и регрессий. Такое внимание к кор- реляции и регрессии оправдано тем, что эти методики широко используются во всех приложениях, предназначенных для решения задач прогнозирования. Диаграммы рассеяния Изучение взаимосвязи между величинами начинается с простейшего случая, а именно с взаимосвязей, существующих между двумя величинами. Предположим, что проведены два измерения над каждым из нескольких объектов. Требуется определить, увеличивает- ся или уменьшается одна из этих величин (У), когда изменяется другая величина, обозна- ченная (X). Предположим, определены возраст и доход ряда людей, как показано в табл. 2.6. Что можно сказать о взаимосвязи между величинами X и У? Таблица 2.6. Величина дохода и возраст людей из обследованной группы Лицо Y—доход (долл.) X—возраст 1 2 3 4 5 7 800 22 8 500 23 10 000 26 15 000 27 16 400 35 В результате изучения данных из табл. 2.6 выясняется, что значения величин У иХ определенным образом связаны. С увеличением значения величины X, значение величины У также имеет тенденцию к увеличению. При изучении данной выборки из пяти человек возникает искушение сделать заключение, что чем старше человек, тем больше денег он зарабатывает. Конечно, опасно делать выводы на основании вы- борки несоответствующего объема. Об этом речь пойдет позже. Все же на основании сделанных наблюдений (п = 5) обнаруживается определенная взаимосвязь между ве- личинами У и X. Указанные пять значений данных могут быть изображены на плоскости в виде точек, причем значение величины Xбудет отложено по горизонтальной оси, а значение величи- ны У — по вертикальной оси. Подобное графическое представление называется диаграм- мой рассеяния (рис. 2.12). Диаграмма рассеяния представляет значения величин X и У на плоскости. Диаграмма рассеяния позволяет визуально подчеркнуть то, что предполагается чис- то интуитивно, когда необработанные данные впервые анализируются. Например, эта взаимосвязь может быть представлена линейной зависимостью между величинами У иХ. Существующая зависимость называется положительной, если с увеличением X возрастает и У.
54 ГЛАВА 2 Y $20,000 - о $10,000 $0---------1--------L 20 30 io—x X, возраст Рис. 2.12. Диаграмма рассеяния для определения взаимосвязи между возрастом и доходом В других ситуациях при анализе взаимосвязи двух величин могут быть получены иные типы диаграмм рассеяния. Рассмотрим диаграммы, представленные на рис. 2.13. На диаграмме 2.13, а изображена так называемая совершенная положительная линейная зависимость. С возрастанием значения величины X увеличивается и значение величи- ны Y, причем совершенно предсказуемым способом. В этом случае точки (X, У) оказыва- ются лежащими на прямой. На диаграмме 2.13, б изображена совершенная отрицательная линейная зависимость. С возрастанием значений величины X значения величины Y убы- вают таким образом, что их можно точно предсказать. На рис. 2.13, в, г изображены несовершенная положительная и несовершенная отрица- тельная линейные зависимости. На этих диаграммах рассеяния, когда значения величины^ возрастают, значения величины У или возрастают (2.13, в), или убывают (2.13, г), однако не совершенно предсказуемым способом. Иными словами, значение ве- личины У может быть несколько больше или меньше “ожидаемого” значения. В этом случае точки (X, У) расположены не точно на одной прямой. Диаграммы рассеяния 2.13, а—г представляют линейные зависимости. В этом случае зависимость между значениями величин X и У, независимо от того, является она совер- шенной или нет, может быть изображена прямой линией. Для сравнения на ди- аграмме 2.13, д показан общий вид нелинейной зависимости. И наконец, на диаграмме 2.13, е представлен случай, когда между величинами^ и У вообще не существует какой-либо взаимосвязи. Когда значения величины X возрастают, значения величины У ни возрастают, ни убывают каким-либо регулярным образом. На основании выборочных данных, изображенных на диаграмме 2.13, е, можно заключить, что между реальными процессами, включающими все точки X и У, не существует взаимо- связи, линейной или какой-либо иной.
Обзор основных статистических понятий 55 Y Y о о о о о ----------------------X б) совершенная, отрицательная, линейная Y о о о о о ----------------------х а) совершенная, положительная, линейная Y X X в) несовершенная, положительная, линейная г) несовершенная, отрицательная, линейная Y Y X д)нелинейная о о о о о о о ООО -------------X е) зависимость отсутствует Рис. 2.13. Виды диаграмм рассеяния для наблюдаемых величин Хи Y Теперь давайте рассмотрим две диаграммы рассеяния, показанные на рис. 2.14. Обе диаграммы представляют несовершенную, положительную, линейную зависимость меж- ду величинами Y иХ. Отличие состоит в том, что на рис. 2.14, а эта зависимость является достаточно сильной, поскольку точки, изображающие данные, оказываются относитель- но близко к прямой, проходящей между ними. На рис. 2.14, б изображена более слабая зависимость. Изображающие данные точки располагаются дальше от прямой, проходя- щей между ними, что свидетельствует о более слабой линейной зависимости между ана- лизируемыми показателями. Далее в этой главе будет показано, как измерить величину взаимосвязи, существующей между двумя величинами. Часто хотелось бы обобщить взаимосвязь между двумя величинами, подобрав пря- мую, достаточно близко описывающую точки, изображающие данные, как показано на двух диаграммах рассеяния, изображенных на рис. 2.14. Как это делается, вы узнаете чуть позднее, а на данный момент достаточно будет сказать, что прямая должна быть прове- дена так, чтобы получить “хорошее” приближение для точек данных. Теперь же мы обсу- дим вопрос, насколько быстро эта прямая возрастает или убывает.
56 ГЛАВА 2 Рис. 2.14. Представление сильной (а) и слабой (б) зависимостей между величи- нами XuY Чтобы получить ответ на поставленный вопрос, необходимо определить наклон ли- нии. Наклон любой прямой определяется изменением значения переменной Y при уве- личении значения переменной X на единицу. Подводя итог, можно сказать, что при изучении взаимосвязи между двумя величинами сначала необходимо определить, является ли эта взаимосвязь линейной (прямая линия) или нелинейной. Если она линейна, необходимо установить, является ли она положитель- ной или отрицательной и насколько быстро аппроксимирующая данные прямая возрастает или убывает. Наконец, следует оценить силу взаимосвязи, т.е. насколько близки точки, изображающие данные, к прямой, аппроксимирующей их наилучшим образом. Коэффициент корреляции Для изучения линейной зависимости, существующей между двумя величинами, может быть выбрана некоторая мера силы этой зависимости. Используя правильную термино- логию, можно сказать, что сила зависимости, существующей между двумя величинами, измеряется корреляцией. Сила взаимосвязи оценивается с помощью коэффициента корре- ляции, определяемого следующим образом. Две величины с совершенной отрицательной зависимостью имеют коэффициент корреляции, равный-1 (см. рис. 2.13,6). На другом полюсе — две величины с совершенной положительной зависимостью, которые имеют коэффициент корреляции, равный+1 (рис. 2.13, а). Таким образом, коэффициент кор- реляции может изменяться в пределах от -1 до +1, включительно, и зависит от силы зави- симости, существующей между двумя наблюдаемыми величинами. Коэффициент корреляции измеряет силу линейной зависимости, существующей между двумя величинами. На рис. 2.13, а изображена диаграмма рассеяния, соответствующая ситуации, в кото- рой коэффициент корреляции равен +1. На рис. 2.13, б представлена диаграмма для слу- чая, когда коэффициент корреляции равен -1. На рис. 2.13, д, е изображены диаграммы
Обзор основных статистических понятий 57 для величин, не являющихся линейно зависимыми. Коэффициент корреляции в этом случае равен 0, т.е. никакой линейной зависимости не существует. При прогнозировании очень важно различать две группы точек, с которыми прихо- дится иметь дело. Генеральная совокупность, содержащая все представляющие интерес точки X,У, характеризуется коэффициентом корреляции, обозначаемым греческой бук- вой р (“ро” малое), тогда как коэффициент корреляции для некоторой выборки, состоя- щей из точек X, У, обозначается г. Часто бывает, что Хи У измерены в разных единицах, таких как килограммы и долла- ры, объем продаж в штуках и в долларах либо уровень безработицы и объем националь- ного валового продукта. Несмотря на различие единиц, используемых для измерения значения величин X и У, нам важно определить степень взаимосвязи между этими вели- чинами. Соответствующие оценки выполняются с помощью преобразования величин X и У в стандартизированные единицы, так называемые Z-стандарты. После того как значения величин X и У будут преобразованы в Z-стандарти- зированные показатели, найденные Z-стандарты для каждого измерения (X, У) умножа- ются, образуя перекрестные произведения для каждого элемента. Данные перекрестные произведения и представляют для нас интерес, поскольку среднее значение этих величин — это и есть коэффициент корреляции. Вычисление коэффициента корреляции как среднего значения перекрестных произведений Z-стандартизированных величин да- ет его точное значение, однако в большинстве случаев коэффициент корреляции вычис- ляется прямо с помощью значений X, У. Уравнение 2.9 показывает, как вычислить выбо- рочный коэффициент корреляции г с помощью Z-стандартизированных величин и исхо- дя из значений (X, У). Здесь предполагается, что Zx = (х - X )/sx и Zy = (У - У )/sr . t.^zxzr_ £(х-х)(у-у) _______________________________ (2-9) r’ 7”Xx"-(sx)‘a/»£>'2-(si')' Для вычисления г с использованием этого уравнения необходима таблица значений, подобная табл. 2.7. Пример 2.10 При изучении зависимости между возрастом и доходом может представлять интерес значение коэффициента корреляции г для этих данных. Требуемые вычисления приведены в табл. 2.7. При подстановке в уравнение 2.9 значений из табл. 2.7 получим следующее. п^хг-^х^у 5(1606 100)-(133)(57 700) ^5 (3 643) - (1ЗЗ)2 ^5 (727 050 000) - (57 700)2 8030500-7 674100 356400 л ооос —------—--------— =----------= 0,8885 или 0,89 (22,93)(17 491,71) 401084,91
58 ГЛАВА 2 Таблица 2.7. Вычисление коэффициента корреляции между возрастом и доходом N/N У X У2 X1 XY 1 7 800 22 60 840 000 484 171 600 2 8 500 23 72 250 000 529 195 500 3 10 000 26 100 000 000 676 260 000 4 15 000 27 225 000 000 729 405 000 5 16 400 35 268 960 000 1 225 574 000 Всего 57 700 133 727 050 000 3 643 1 606 1000 Можно сделать вывод, что выборочный коэффициент корреляции подтверждает зависи- мость, наблюдаемую на рис. 2.12. Значение г положительно, что предполагает положитель- ную линейную зависимость между возрастом и доходом. Кроме того, на интервале от 0 до 1 значение г весьма велико (0,89), что указывает на существование сильной линейной зависи- мости. Остается открытым лишь один вопрос, являются ли объем выборки и определенный для нее коэффициент корреляции в совокупности достаточно сильными аргументами, чтобы сделать значимые заключения о всей генеральной совокупности, из которой были получены выборочные данные. Следует отметить два важных момента при обсуждении корреляции. Во-первых, не- обходимо всегда помнить о том, что измеряется корреляция, а не причинность. Исходя из высокого значения коэффициента корреляции, совершенно правильно будет сказать, что две исследуемые величины имеют значительную корреляцию. Однако вовсе не всегда в подобном случае будет правильно сказать, что одна величина является причиной изме- нений, происходящих с другой величиной. Этот вопрос подлежит оценке аналитиком. Например, возможно, что объемы продаж в сельских магазинах, расположенных в мало- заселенных местах, сильно коррелируют со средними ценами на ассортимент товаров в продовольственных магазинах Нью-Йорка. Вывод о наличии высокой корреляции впол- не может быть сделан после изучения большой выборки значений этих двух величин. Однако утверждение, что одна из этих величин является причиной изменения другой, скорее всего, окажется неверным. В действительности, весьма вероятно, что изменения обеих этих величин вызваны иным фактором, — например, общим состоянием экономи- ки страны. Политики, маркетологи и другие специалисты часто совершают ошибку, предполагая наличие причинной связи на основе только лишь наличия корреляции. Во-вторых, коэффициент корреляции характеризует линейную зависимость между двумя величинами. В случае, когда коэффициент корреляции мал, можно заключить, что между двумя величинами не существует сильной линейной зависимости. Тем не менее может оказаться, что они сильно взаимосвязаны некоторым нелинейным образом. По- этому малое значение коэффициента корреляции вовсе не означает, что данные две ве- личины не взаимосвязаны. Это означает лишь то, что линейной или прямой взаимосвязи между ними нет.
Обзор основных статистических понятий 59 Аппроксимация данных прямой линией Как уже упоминалось ранее, зачастую нас интересует задача, состоящая в проведении между точками (X, Y), представляющими данные, такой прямой, которая дает некоторое “хорошее приближение”. В последующих главах будет показано, что такая прямая впол- не может использоваться для прогнозирования представляющих интерес неизвестных значений Y. Линия, которая дает достаточно хорошее приближение к существующей зависимости, может быть нарисована вручную с помощью хорошо заточенного карандаша. Положение проводимой линии должно выбираться так, чтобы она проходила между точками, кото- рые находятся на диаграмме рассеяния. После проведения линии можно определить две ее важнейшие характеристики: наклон и точку пересечения с вертикальной осью (осью Y). Последнее значение называется Y-пересечением. Однако расположение аппроксимирую- щей прямой, построенной подобным образом, является чисто субъективным и вовсе не обязательно будет одинаково для любых двух аналитиков. Существует хорошо разработанная математическая процедура, широко используемая на практике для вычисления как /-пересечения, так и наклона прямой, аппроксими- рующей данные наилучшим образом. Наиболее общим подходом к определению такой наилучшим образом приближающейся прямой является метод наименьших квадратов. Данная процедура состоит в отыскании такой линии, для которой будет минимальной сумма квадратов расстояний между точками, изображающими данные, и самой линией. При этом расстояния измеряются в вертикальном направлении, т.е. в направлении оси Y. В методе наименьших квадратов значения наклона и /-пересечения прямой выбира- ются, исходя из условия минимизации суммы квадратов ошибок (расстояний) — СК.О, между значениями величины У и аппроксимирующей линией (значение уравнения 2.10 минимизируется). ско = £(у-у)2=£(у-л-ьЛ)2 <2-10> Здесь Y = b0 + btX — оценивающее величину Y значение на аппроксимирующей прямой. Выполнив необходимые преобразования (см. приложение А), можно получить специ- альные алгебраические выражения для искомых величин в методе наименьших квадра- тов. В частности, Ц(Х-Х)(Г-/)_^Х/-^Х^У Х(Х-Х)2 ’ иХх2-(Хх)2 ’ п п (2.Н) (2.12) где Ь} — наклон линии; Ьо — /-пересечение. Метод наименьших квадратов используется для получения уравнения прямой линии, минимизирующей сумму квадратов расстояний (измеренных в вертикальном направ- лении по оси У) между точками (X, У), изображающими данные, и этой прямой.
60 ГЛАВА 2 Пример 2.11 В примере 2.10 предполагалось наличие сильной линейной зависимости (г = 0,89) между воз- растом и размером дохода. Подставляя суммы, приведенные в табл. 2.7, в уравнения (2.11) и (2.12), получим уравнение прямой, которая наилучшим образом аппроксимирует точки, представляющие исходные данные. Ъ _5(1606100)-(133)(57 700) ' ИЕХМЕХ)2 5(3645)-(133)2 8 050 500 -7 674100 =---------------= 677,567 526 ^^-^^.-^5..7<133) ° и и 5 5 Уравнение прямой, наилучшим образом аппроксимирующей данные, имеет вид Y=- 6 48Э + 678У. Вид этой прямой показан на рис. 2.15. Regression Plot Рис. 2.15. График уравнения регрессии для данных из примера 2.11 (приложение Minitab) Уравнение, полученное в примере 2.11, а также уравнения для определения других ве- личин, которые возможно вычислить на основе выборочных данных, могут выгодно ис- пользоваться менеджерами для прогнозирования будущих значений важных величин, а также для оценки точности такого прогноза будущего. В следующей главе будет показа- но, как извлечь из выборочных данных максимальное количество информации, а затем использовать ее для создания прогнозов с помощью регрессионного анализа.
Обзор основных статистических понятий 61 Коэффициент наклона, получаемый с помощью метода наименьших квадратов, оп- ределенным образом связан с выборочным коэффициентом корреляции. ь . (2.13) Таким образом, коэффициенты bt и г пропорциональны друг другу и имеют один и тот же знак. Пример 2.12 Используя результаты, полученные в примерах 2.10 и 2.11, выполним вычисления, свидетель- ствующие о том, что коэффициент наклона, полученный с помощью метода наименьших квадратов, и коэффициент корреляции пропорциональны между собой и имеют один и тот же знак. . _ Шу-7)2 Г _ >/61192 000 _ 7 822,5 , , _ и, — —г==^====| ' "" г •“-/ - -—и,ооо2)-(0,оооЭ) — 0/7,0 ^£(Х-Х)2 710V 10,257 Пример 2.13 Предположим, руководство большой конструкторской фирмы заподозрило, что выполнен- ные ранее оценки стоимости конструкторских проектов не соответствуют действительной стоимости их реализации. В табл. 2.8 приведены данные о реальной стоимости нескольких последних проектов. Эти данные предназначены для проведения анализа существующей взаимосвязи между действительной стоимостью проекта и ее предварительной оценкой. По- скольку в распоряжении аналитиков компании имеется приложение Minitab, данные будут анализироваться с помощью этой программы. Таблица 2.8. Оценочная и действительная стоимости реализованных проектов Номер проекта Действительнее стоимость Оценка 1 0,918 0,575 2 7,214 6,127 3 14,577 11,215 4 30,028 28,195 5 38,173 30,100 6 15,320 21,091 7 14,837 8,659 8 51,284 40,630 9 34,100 37,800 10 2,003 1,803 11 20,099 18,048
62 ГЛАВА 2 Окончание табл. 2.8 Номер проекта Действительная стоимость Оценка 12 4,324 8,102 13 10,523 10,730 14 13,371 8,947 15 1,553 3,157 16 4,069 3,540 17 27,973 37,400 18 7,642 7,650 19 3,692 13,700 20 29,522 29,003 21 15,317 14,639 22 5,292 5,292 23 0,707 0,960 24 1,246 1,240 25 1,143 1,419 26 21,571 38,936 В листинге 2.1 показано, что корреляция между оценками стоимости проекта и действи- тельными конструкторскими расходами, исходя из выборочных данных, действительно суще- ствует и выборочный коэффициент корреляции равен г = 0,912. Руководство компании было удивлено тем, что корреляция так высока. Листинг 2.1. Результаты вычислений приложения Minitab для уравнения регрессии, рассматриваемого в примере 2.13 Correlations: Actual, Estimate Pearson correlation of Actual and Estimate = 0.912 Regression Analysis: Actual versus Estimate The regression equation is Actual = 0.68 + 0.922 Estimate Predictor Coef SE Coef T P Constant 0.683 1.691 0.40 0.690 Estimate 0.92230 0.08487 10.87 0.000 S = 5.697 R-Sq = 83.1% R-Sq(adj) = 82.4% Analysis of Variance
Обзор основных статистических понятий 63 Source DE SS MS F P Regression 1 3833.4 3833.4 118.09 0.000 Residual Error 24 779.1 32.5 Total 25 4612.5 На рис. 2.16 эти же данные представлены в виде диаграммы рассеяния и проведена пря- мая, которая наилучшим образом их аппроксимирует: Y = 0,68 + 0,922%. Теперь руководство фирмы может прогнозировать реальные конструкторские расходы (У) после того, как будет готова предварительная оценка стоимости проекта (%). Другие возможности применения рег- рессионного анализа будут исследованы в последующих главах. Regression Plot Рис. 2.16. График уравнения регрессии для данных из примера 2.13 (приложение Minitab) Оценка, имеют ди данные нормальное распределение Преобладающее большинство статистических методов строится на предположении, что набор данных имеет нормальное распределение. Это же замечание касается и некоторых приложений в прогнозировании. По этой причине статистиками было разработано не- сколько способов проверки справедливости предположения о том, что выборочные дан- ные принадлежат генеральной совокупности, имеющей нормальное распределение. Рассмотрим сведения о ежемесячной норме прибыли по фондовой бирже из каталога “S&P 500”, приведенные в табл. 2.9. Справедливо ли предположение, что эти данные имеют нормальное распределение?
64 ГЛАВА 2 Таблица 2.9. Ежемесячная норма прибыли по каталогу “Standard & Poors 500*' Год 1 2 3 4 Январь * 6,87 -7,13 4,07 Февраль 4,10 -2,94 0,85 6,51 Март -3,39 2,06 2,40 2,20 Апрель 0,94 4,89 -2,73 0,03 Май 0,32 3,45 8,80 3,79 Июнь 4,23 -0,80 -0,89 -4,91 Июль -0,54 8,47 -0,52 4,39 Август -3,94 1,54 -9,91 1,95 Сентябрь 3,90 -0,66 -5,25 -1,93 Октябрь 2,56 -2,55 -0,67 1,18 Ноябрь -1,91 1,64 5,82 -4,49 Декабрь 1,46 2,12 2,45 10,58 Прямая линия, изображенная на рис. 2.17, показывает, как будут выглядеть точки со- вершенной нормальной кривой при отображении в данном специальном масштабе.2 Как следует из рисунка, точки, представляющие приведенные в табл. 2.9 данные, расположе- ны очень близко к этой прямой, что предполагает хорошее приближение между данными из каталога “S&P 500” и нормальным распределением. В приложении Minitab можно выполнить различные статистические тесты проверки того, что данные имеют нормальное распределение. По умолчанию выполняется тест Андерсона-Дарлинга (Anderson-Darling), результаты которого приведены на рис. 2.17 в нижнем правом углу. Детали выполнения этого теста нас сейчас не интересуют. Отметим только, что p-значение равно 0,927. Нулевая гипотеза состоит в том, что выборка данных из каталога “S&P 500” получена из генеральной совокупности, имеющей нормальное распределение. Тогда p-значение, равное 0,927, указывает, что если мы отвергнем эту ги- потезу, то практически наверняка совершим ошибку. Следовательно, делаем вывод, что нулевая гипотеза не должна быть отвергнута, и можно обоснованно предположить, что данные имеют нормальное распределение. 2 Существуют и другие нормальные вероятностные диаграммы. Часто используется одна из таких диаграмм, называемая диаграммой стандартного нормального распределения. На всех этих диаграммах нормальность распределения подтверждается в том случае, если представляющие данные точки распо- лагаются близко к прямой.
Обзор основных статистических понятий 65 Rates Average: 1.03 StDev: 4.16342 N: 47 Anderson-Darling Normality Test A-Squared: 0.171 P-Value: 0.927 Puc. 2.17. Нормальная вероятностная диаграмма для ежемесячной нормы прибыли (приложение Minitab) Применение в менеджменте Большую часть понятий, описанных в этой главе, можно рассматривать как подготови- тельный материал, необходимый для понимания более сложного аппарата прогнозиро- вания, обсуждаемого в этой книге. Однако изложенные в этой главе концепции имеют важное значение и во многих чисто статистических приложениях. Хотя некоторые из этих приложений логически трудно отнести к понятию “прогнозирование”, тем не ме- нее, они предполагают использование полученных данных для нахождения ответов на вопросы о неопределенности бизнес-операций; в частности, о неопределенности их ис- хода в будущем. Описательные статистические процедуры, упомянутые ранее в этой главе, широко используются в тех случаях, когда требуется охарактеризовать большие массивы данных с целью их включения в процесс принятия решений. Практически невозможно предста- вить себе ни одну область, использующую численные измерения, в которой данные не обобщались бы тем или иным образом с целью получения описательных статистик. К ним относится, в частности, вычисление среднего значения, обычно понимаемого как среднее арифметическое или, реже, как среднеквадратическое отклонение. Методы ус- реднения наборов данных, понятные каждому, использовались в течение многих лет для определения важнейших характеристик массивов данных. Показатели дисперсии дан- ных, такие как среднеквадратическое отклонение, также все шире используются на прак- тике — по мере того, как эти методы находят все более широкое понимание.
66 ГЛАВА 2 Хорошими примерами теоретических распределений, которые представляют собой адекватные модели многих жизненных ситуаций, являются биномиальное и нормальное распределения. Именно поэтому они широко применяются во многих приложениях, включая прогнозирование. Например, с помощью биномиального распределения может быть получен прогноз количества дефектных изделий в партии. Оценка и проверка гипотез — это два краеугольных камня основных статистических приложений. Прогнозирование и оценка интересующих характеристик некоторой гене- ральной совокупности с использованием численных характеристик случайной выборки широко применяются, когда существующие ограничения во времени и средствах требуют принятия решения на основе некоторой пробной выборки данных. Исследование выбо- рочных характеристик особенно широко применяется при проведении аудита бухгалтер- ского учета. Метод проверки гипотез часто используется для сравнения параметров гене- ральной совокупности за прошедший период с настоящими значениями, для сравнения параметров двух различных отраслей промышленности или двух разных регионов, а так- же для обнаружения изменений в ключевых параметрах производственных процессов. Последнее применение, известное как производственный контроль, во многих случаях является ключевым звеном мероприятий, проводимых фирмой с целью повышения ка- чества продукции. Для изучения взаимосвязей между парами численных величин широко применяется корреляция. Как будет показано в последующих главах, эти взаимосвязи представляют значительный интерес при прогнозировании, поскольку процесс прогнозирования часто включает попытки найти величины, так или иначе связанные с прогнозируемой. В част- ности, методы регрессионного анализа и множественного регрессионного анализа осно- ваны на вычислении корреляции в процессе прогнозирования. Глоссарий Биномиальное распределение. Это распределение дискретной случайной величины, значения которой равны Xуспехам в п испытаниях результата биномиального эксперимента. Выборочное распределение. Это ряд всех возможных значений выборочной статистики, который может быть получен из генеральной совокупности для выборки данного объема. Диаграмма рассеяния. Это изображение данных точками на плоскости X-Y. Дискретная случайная величина. Эта величина может принимать значения только из предопределенного множества. В этом случае возможные исходы часто обозначаются целыми числами. Интервальная оценка. Это числовой интервал, в котором, вероятно, находится некоторый параметр генеральной совокупности. Коэффициент корреляции. Характеризует степень линейной зависимости между двумя величинами. Математическое ожидание. Математическим ожиданием случайной величины называется среднее значение, полученное в результате многих опытов или наблюдений. Метод наименьших квадратов. Этот метод используется для получения уравнения прямой, минимизирующей сумму квадратов расстояний между точками (X, К) и этой прямой, измеренных в вертикальном направлении (по оси У). Непрерывная случайная величина. Данная величина может принимать любое значение в пределах определенного интервала. В этом случае исходы численно представляются некоторым интервалом значений.
Обзор основных статистических понятий 67 Нормальное распределение. Диаграмма нормального распределения имеет форму колокола и определяется математическим ожиданием и среднеквадратическим отклонением. Степени свободы. Степени свободы для набора данных определяют количество единиц данных, независимых друг от друга, т.е. таких, которые могут являться носителями отдельных единиц информации. Точечная оценка. Это единичная оценка параметра генеральной совокупности. ^-значение. Под p-значением (иначе, вероятность значимости) в критерии проверки гипотезы понимается вероятность получить результат, не меньше значения выборочной статистики, вычисленного в предположении, что гипотеза Но справедлива. Это эквивалентно тому, что p-значение может рассматриваться как наименьшее а, для которого наблюдаемая статистика критерия влечет отказ от гипотезы Но. Основные формулы Выборочное среднее п Выборочное среднеквадратическое отклонение и и-1 Выборочная дисперсия Г(х-х)1 и-1 и-1 Математическое ожидание Е(Х) = L[Zx Р(Л)] Биномиальные вероятности wl /(н) (2.1) (2.2) (2.3) (2.4) (2.5) Z-стандартизированная величина, соответствующая случайной величине X Z= (2.6) ст Интервальная оценка для среднего генеральной совокупности (для выборки большого объема) (2.7)
68 ГЛАВА 2 (2.8) (2.9) (2.Ю) (2.11) (2.12) (2.13) t-тестовая статистика _ X -д Коэффициент корреляции г,1Ху. £(х-х)(у-у) Метод наименьших квадратов минимизирует это выражение для Ьо и Ьх ско = £(у-у)2=£(у-й0-^х)2 Коэффициент наклона прямой, которая задана уравнением регрессии _£(x-x)(r-F) __и£ху-£х£у У-пересечение прямой, которая задана уравнением регрессии п п Другая форма определения наклона прямой, заданной уравнением регрессии h &(?-?)' h = * г Упражнения 1. Владелец магазина современного офисного оборудования Дик Гувер (Dick Hoover) бес- покоится о том, что высокая стоимость доставки и неизбежные канцелярские расходы приводят к убыткам в случае малых заказов. Для того чтобы уменьшить эти статьи расхо- дов, он решил ввести систему скидок, поощряющих заказы более $40, с надеждой на то, что это заставит клиентов объединять несколько малых заказов в один большой. Ниже приведены данные, демонстрирующие суммы сделок для выборки из 28 клиентов. 10, 15,20,25, 15, 17,41,50,5,9, 12, 14,35, 18, 19, 17, 28, 29, 11, И, 43,54, 7,8, 16, 13,37, 18 а) вычислите среднее значение общей суммы заказа б) вычислите среднеквадратическое отклонение для общей суммы заказа в) вычислите дисперсию г) будет ли среднее значение распределения уменьшаться, увеличиваться или ос- танется неизменным в случае, если избранная политика успешна?
Обзор основных статистических понятий 69 д) будет ли среднеквадратическое отклонение распределения увеличиваться, умень- шаться или останется неизменным в случае, если избранная политика успешна? е) сделайте прогноз стоимости следующей сделки 2. Сэнди Джеймс (Sandy James) полагает, что цены на дома в последние несколько месяцев стабилизировались. Для того чтобы продемонстрировать это своему боссу, она выяснила в рекламных агентствах цены 12 продаваемых домов и вычислила среднее значение и среднеквадратическое отклонение этих цен. Чему равны эти два итоговых значения? 125 900 253 000 207 500 146 950 121 450 135 450 175 000 200 000 210 950 166 700 185 000 191 950 3. Необходимо сделать прогноз, увеличится ли среднее число рабочих дней, пропу- щенных сотрудниками фирмы за год. В прошлом году этот показатель был ра- вен 12,1. Для выборки из 100 работников было получено среднее значение 13,5 со среднеквадратическим отклонением в 1,7 дня. Проверьте, используя уровень значи- мости 0,05, увеличилось ли среднее генеральной совокупности или же значение 13,5 представляет собой ошибку выборки. 4. Авиакомпания New Horizons Airlines хочет сделать прогноз среднего числа свобод- ных мест в каждом рейсе в Германию на будущий год. Для того чтобы разработать этот прогноз, из файлов, содержащих информацию за прошедший год, была сделана случайная выборка информации о 49 рейсах и записано число свободных мест в ка- ждом из них. Выборочное среднее и среднеквадратическое отклонение составили 8,1 и 5,7 мест. Постройте точечную и интервальную оценки с 95%-ным уровнем значи- мости среднего значения свободных мест в каждом рейсе за прошедший год. Сде- лайте прогноз среднего числа свободных мест в каждом рейсе в Германию на буду- щий год. Оцените точность этого прогноза. 5. Основываясь на прошлом опыте, компания California Power сделала прогноз, что среднее потребление электричества в январе будущего года составит 700 кВт/ч на одного домовладельца. Из данных за январь была сделана простая случайная выбор- ка, охватывающая 50 домовладельцев, и вычислено среднее значение и среднеквад- ратическое отклонение, составившие 715 и 50 кВт/ч. Проверьте, исходя из уровня значимости 0,05, является ли прогноз компании California Power обоснованным. 6. Эксперты, проводившие перепись населения, установили, что за последние не- сколько лет средний размер семьи уменьшился. Десять лет назад среднее количество членов семьи составляло 2,9. Рассмотрите генеральную совокупность, состоящую из данных о 200 семьях, представленную в табл. 2.10. Сделайте случайную выборку из 30 элементов и проверьте гипотезу о том, что среднее значение количества членов семьи за последние 10 лет не изменилось. Таблица 2.10. Сведения о составе 200 семей Л. ' А - . < (1) 3 (35) 1 (69) 2 (Ю2) 1 (135) 5 (168) 6 (2) 2 (36) 2 (70) 4 (ЮЗ) 2 (136) 2 (169) 3 (3) 7 (37) 4 (71) 3 (Ю4) 5 (137) 1 (170) 2 (4) 3 (38) 1 (72) 7 (Ю5) 3 (138) 4 (171) 3 (5) 4 (39) 4 (73) 2 (Ю6) 2 (139) 2 (172) 4
70 ГЛАВА 2 Окончание табл. 2.10 (6) 2 (40) 2 (74) 6 (107) 1 (140) 4 (173) 2 (7) 3 (41) 1 (75) 2 (108) 2 (141) 1 (174) 2 (8) 1 (42) 3 (76) 7 (109) 2 (142) 2 (175) 1 (9) 5 (43) 5 (77) 3 (ИО) 1 (143) 4 (176) 5 (Ю) 3 (44) 2 (78) 6 (111) 4 (144) 1 (177) 3 (И) 2 (45) 1 (79) 4 (И2) 1 (145) 2 (178) 2 (12) 3 (46) 4 (80) 2 (ИЗ) 1 (146) 2 (179) 4 (13) 4 (47) 3 (81) 3 (И4) 2 (147) 5 (180) 3 (14) 1 (48) 5 (82) 5 (И5) 2 (148) 3 (181) 5 (15) 2 (49) 2 (83) 2 (И6) 1 (149) 1 (182) 3 (16) 2 (50) 4 (84) 1 (И7) 4 (150) 2 (183) 1 (17) 4 (51) 1 (85) 3 (118) 2 (151) 6 (184) 2 (18) 4 (52) 6 (86) 3 (И9) 1 (152) 2 (185) 4 (19) 3 (53) 2 (87) 2 (120) 3 (153) 5 (186) 3 (20) 2 (54) 5 (88) 4 (121) 5 (154) 1 (187) 2 (21) 1 (55) 4 (89) 1 (122) 1 (155) 2 (188) 5 (22) 5 (56) 1 (90) 2 (123) 2 (156) 1 (189) 3 (23) 2 (57) 2 (91) 3 (124) 3 (157) 4 (190) 4 (24) 1 (58) 1 (92) 3 (125) 4 (158) 2 (191) 3 (25) 4 (59) 5 (93) 2 (126) 3 (159) 2 (192) 2 (26) 3 (60) 2 (94) 4 (127) 2 (160) 7 (193) 3 (27) 2 (61) 7 (95) 1 (128) 1 (161) 4 (194) 2 (28) 3 (62) 1 (96) 2 (129) 6 (162) 2 (195) 5 (29) 6 (63) 2 (97) 4 (130) 1 (163) 1 (196) 3 (30) 1 (64) 6 (98) 3 (131) 2 (164) 7 (197) 3 (31) 2 (65) 4 (99) 2 (132) 5 (165) 2 (198) 2 (32) 4 (66) 1 (100) 6 (133) 2 (166) 7 (199) 5 (33) 3 (67) 2 (101) 4 (134) 1 (167) 4 (200) 1 (34) 2 (68) 1 7. Управляющий службой ремонта в компании Atlanta Transit Authority Джеймс Доб- бинс (James Dobbins) хотел бы определить, существует ли положительная взаимо- связь между ежегодными расходами на техническое обслуживание автобуса и его “возрастом”. Если такая взаимосвязь существует, Джеймс полагает, что он сделает доброе дело, заранее оценив сумму годовых расходов на техническое обслуживание автобусов. Он собрал данные, приведенные в табл. 2.11.
Обзор основных статистических понятий 71 Таблица 2.11. Сведения о годовых расходах на техническое обслуживание Номер автобуса Расходы на содержание (долл.) Y Возраст (годы) X 1 859 8 2 682 5 3 471 3 4 708 9 5 1094 11 6 224 2 7 320 1 8 651 8 9 1049 12 а) нарисуйте диаграмму рассеяния для этих данных б) какой вид взаимосвязи существует между этими двумя величинами? в) вычислите коэффициент корреляции 8. Анна Шихен (Anna Sheehan) — менеджер сети супермаркетов компании Spandwise. Она хотела бы иметь возможность прогнозировать продажу книг (еженедельную), в за- висимости от объема занимаемого ими демонстрационного пространства (в футах). Анна собрала данные для выборки, составляющей 11 недель, которые приведены в табл. 2.12. Таблица 2.12. Сведения о продаже книг Объем демонстрационного пространства, X Неделя Количество проданных книг, Y 1 275 6,8 2 142 3,3 3 168 4,1 4 197 4,2 5 215 4,8 6 188 3,9 7 241 4,9 8 295 7,7 9 125 3,1 10 266 5,9 11 200 5,0 а) нарисуйте для этих данных диаграмму рассеяния б) каков тип взаимосвязи между этими двумя величинами?
72 ГЛАВА 2 в) вычислите коэффициент корреляции г) нарисуйте аппроксимирующую прямую, используя метод наименьших квадра- тов для вычисления ее наклона и точки У-пересечения. Используйте получен- ное уравнение для прогнозирования числа проданных книг, если демонстраци- онное пространство будет иметь площадь 5,2 фута (т.е. Х= 5,2) 9. Рассмотрите генеральную совокупность из 200 еженедельных наблюдений, пред- ставленных в табл. 2.13. Здесь независимая величинах— это средняя недельная температура (по шкале Фаренгейта) в городе Спокан, шт. Вашингтон. Зависимая ве- личина У — это число акций компании Sunshine Mining Stock, проданных на бирже города Спокан заданную неделю. Выберите случайным образом данные за 16 недель и вычислите для них коэффициент корреляции. (Совет: убедитесь, что выборка по- лучена из генеральной совокупности действительно случайным образом.) Затем с помощью метода наименьших квадратов найдите линию, наилучшим образом ап- проксимирующую данные, и дайте прогноз значения У для средней недельной тем- пературы, равной 63 градуса по Фаренгейту. Таблица 2.13. Данные о средней недельной температуре в г. Спокан (\) и числе проданных акций компании Sunshine Mining Stock (i) Неделя У X Неделя У X Неделя У X Неделя У X (1) 50 37 (51) 54 86 (Ю1) 22 43 (151) 79 85 (2) 90 77 (52) 76 48 (Ю2) 32 5 (152) 79 27 (3) 46 55 (53) 55 48 (ЮЗ) 24 13 (153) 48 61 (4) 47 27 (54) 12 15 (Ю4) 63 3 (154) 5 7 (5) 12 49 (55) 5 70 (Ю5) 16 58 (155) 24 79 (6) 23 23 (56) 2 9 (Ю6) 4 13 (156) 47 49 (7) 65 18 (57) 77 52 (Ю7) 79 18 (157) 65 71 (8) 37 1 (58) 6 71 (Ю8) 5 5 (158) 56 27 (9) 87 41 (59) 67 38 (Ю9) 59 26 (159) 52 15 (Ю) 83 73 (60) 30 69 (ИО) 99 9 (160) 17 88 (И) 87 61 (61) 3 13 (И1) 76 96 (161) 45 38 (12) 39 85 (62) 6 63 (И2) 15 94 (162) 45 31 (13) 28 16 (63) 70 65 (ИЗ) 10 30 (163) 90 35 (14) 97 46 (64) 33 87 (И4) 20 41 (164) 69 78 (15) 69 88 (65) 13 18 (И5) 37 1 (165) 62 93 (16) 87 87 (66) 10 4 (И6) 56 27 (166) 0 51 (17) 15 82 (67) 21 29 (И7) 6 73 (167) 8 68 (18) 52 56 (68) 56 21 (И8) 86 19 (168) 47 30 (19) 15 22 (69) 74 9 (И9) 27 94 (169) 7 81 (20) 85 49 (70) 47 8 (120) 67 5 (170) 48 30 (21) 41 44 (71) 34 18 (121) 22 31 (171) 59 46
Обзор основных статистических понятий 73 Окончание табл. 213 (22) 82 33 (72) 38 84 (122) 32 13 (172) 76 99 (23) 98 77 (73) 75 64 (123) 90 11 (173) 54 98 (24) 99 87 (74) 0 81 (124) 88 50 (174) 95 11 (25) 23 54 (75) 51 98 (125) 35 40 (175) 7 6 (26) 77 8 (76) 47 55 (126) 57 80 (176) 24 83 (27) 42 64 (77) 63 40 (127) 73 44 (177) 55 49 (28) 60 24 (78) 7 14 (128) 13 63 (178) 41 39 (29) 22 29 (79) 6 11 (129) 18 74 (179) 14 16 (30) 91 40 (80) 68 42 (130) 70 40 (180) 24 13 (31) 68 35 (81) 72 43 (131) 9 53 (181) 36 31 (32) 36 37 (82) 95 73 (132) 93 79 (182) 62 44 (33) 22 28 (83) 82 45 (133) 41 9 (183) 77 11 (34) 92 56 (84) 91 16 (134) 17 52 (184) 32 60 (35) 34 33 (85) 83 21 (135) 10 82 (185) 12 82 (36) 34 82 (86) 27 85 (136) 69 37 (186) 85 7 (37) 63 89 (87) 13 37 (137) 5 57 (187) 90 68 (38) 30 78 (88) 6 89 (138) 18 62 (188) 78 10 (39) 31 24 (89) 76 76 (139) 88 21 (189) 60 27 (40) 84 53 (90) 55 71 (140) 99 94 (190) 96 90 (41) 56 61 (91) 13 53 (141) 86 99 (191) 51 6 (42) 48 18 (92) 50 13 (142) 95 45 (192) 9 62 (43) 0 45 (93) 60 12 (143) 78 19 (193) 93 78 (44) 58 4 (94) 61 30 (144) 3 76 (194) 61 22 (45) 27 23 (95) 73 57 (145) 38 81 (195) 5 99 (46) 78 68 (96) 20 66 (146) 57 95 (196) 88 51 (47) 78 79 (97) 36 27 (147) 77 30 (197) 45 44 (48) 72 66 (98) 85 41 (148) 25 59 (198) 34 86 (49) 21 80 (99) 49 20 (149) 99 93 (199) 28 47 (50) 73 99 (ЮО) 83 66 (150) 9 28 (200) 44 49 10. Компании Abbot & Sons необходим прогноз среднего возраста ее работников с по- часовой оплатой труда. Случайная выборка данных из персональных файлов дала приведенные ниже результаты. Получите точечную оценку и доверительный интер- вал с 98%-ным уровнем значимости (интервальную оценку) для среднего возраста всех работников. Х=45,2 5=10,3 «=175
74 ГЛАВА 2 /АЧ /Ж /Ж /Ж /Ж /Ж /Ж /Ж /Ж W w w w w Mr/ w w vir/ MF/ w w w Задание 2.1. Компания Alcam Electronics Джеррик Тилби (Jarric Tilby) недавно получил степень бакалавра в области бизнес- администирирования в маленьком университете и приступил к работе в компании Alcam Electronics, производящей различные детали для электронной промышленности. После того как он проработал несколько недель, его пригласили к Лэбрем Мак-Кеннах (Labrum McKennah), владелице и менеджеру компании Alcam. Мак-Кеннах попросила Джеррика исследовать вопрос, касающийся транзисторов определенного вида, производимых фир- мой Alcam. Причиной послужило то, что большая телевизионная компания заинтересо- валась закупкой значительной партии транзисторов этого вида. Мак-Кеннах хотела получить прогноз среднего времени службы транзисторов, так как это очень интересовало телевизионную компанию. Транзисторы, имеющиеся на складе в настоящий момент, могли бы использоваться как представители той продукции, которая будет выпущена по контракту с телевизионной компанией. Джеррик решил сделать случайную выборку подлежащих изучению транзисторов и составил план выполнения данного задания. На складе он пронумеровал все упа- ковки, содержащие требуемые транзисторы, выбрал случайным образом несколько номеров, после чего транзисторы из отобранных упаковок были включены в состав выборки. Поскольку каждая упаковка содержала около 20 транзисторов и он слу- чайным образом выбрал 10 упаковок, это дало ему окончательный объем выборки в 205 транзисторов. Так как было выбрано 10 упаковок из 55, имевшихся на складе, Джеррик полагал, что им сделана достаточно представительная выборка, позволяю- щая сделать обоснованные выводы как обо всей генеральной совокупности транзи- сторов, уже имеющихся на складе, так и о тех транзисторах, которые будут выпуще- ны по той же технологии позднее. Затем Джеррик проанализировал вопрос о среднем времени жизни транзисторов. Так как время жизни транзистора может составлять несколько лет, он понял, что ни одна из единиц в выборке не может быть корректно протестирована в отношении вре- мени ее жизни. Поэтому он решил связаться с несколькими пользователями этих тран- зисторов и выяснить, имеются ли у них какие-либо сведения о времени их жизни. К счастью, он обнаружил три компании, которые уже использовали эти транзисторы ра- нее и имеют некоторые сведения о времени их жизни. В целом ему были предоставле- ны данные о времени выхода из строя 38 транзисторов. Поскольку процесс их произ- водства был таким же, как и в настоящее время, он заключил, что результаты обследо- вания этой выборки можно перенести на те изделия, которые хранятся на складе и бу- дут произведены впоследствии.
Обзор основных статистических понятий 75 Выполнив необходимые вычисления, Джеррик получил следующие результаты. w = 38 Среднее время жизни X = 4 805 часов Среднеквадратическое отклонение времени жизни S = 675 часов Обнаружив, что среднее время жизни изделия составляет только 4 805 часов, Джеррик был озадачен, так как знал, что другой поставщик электронных компонентов гарантиро- вал среднее время жизни подобных транзисторов 5 000 часов. Хотя его выборочное сред- нее было несколько ниже 5 000 часов, он понял, что объем выборки был слишком мал (равен 38 единицам), поэтому полученные результаты не могут служить доказательством того, что качество продукции компании Alcam ниже, чем у другого поставщика. Он ре- шил проверить гипотезу, что среднее время жизни всех транзисторов составляет 5 000 ча- сов, при альтернативной гипотезе, что оно оказывается меньше этого значения. Джеррик выполнил следующие вычисления, используя значения а = 0,01. Но: |Л = 5 000 Н : Ц < 5 000 Если S' = 675, тогда получим следующее. Критическая точка правила принятия решения. 5 000-2,33-^Д = 4744,9 V38 Правило принятия решения. Если X < 4 744,9 , то отвергаем Н(]. Поскольку выборочное среднее (4 805) не было ниже критической точки правила принятия решения для отказа от гипотезы Нй (4 744,9), Джеррик не отверг гипотезу, что среднее время жизни всех деталей равнялось 5 000 часов. Он знал, что это будет хорошей новостью для Лэбрем Мак-Кеннах, и включил краткое описание своих исследований в окончательный отчет. Несколько дней спустя он представил ей письменный и словесный отчеты. Мак-Кеннах пригласила его в свой кабинет, чтобы похвалить за хорошую работу и в то же время выразить недоумение по поводу его находок. Она сказала: “Я обеспокое- на очень низким уровнем значимости вашего критерия. Вы учитываете только 1% случа- ев отказа от нулевой гипотезы, если она верна. Это кажется мне слишком скромным. Я опасаюсь того, что мы заключим контракт, а затем обнаружим, что наш качественный уровень не соответствует требуемым 5 000 часам, как определено в контракте”. Вопрос Как вы отреагируете на комментарий, сделанный Лэбрем Мак-Кеннах? Задание 2.2. “Mr. Tux” Джон Мосби является владельцем нескольких пунктов проката, функционирующих под вывеской “Mr. Tux”. Он заинтересован в составлении прогноза объемов его ежемесячных доходов от проката (см. задание 1.1 в главе 1). На первом этапе Джон собрал данные о ежемесячных доходах от проката (1989-1996 гг.), которые приведены в табл. 2.14.
76 ГЛАВА 2 Таблица 2.14. Данные о ежемесячных доходах от проката компании “Mr. Tux” 1989 1990 1991 1992 1993 1994 1995 1996 Январь 6,028 16,850 15,395 27,'773 31,416 51,604 58,843 71,043 Февраль 5,927 12,753 30,826 36,653 48,341 80,366 82,386 152,930 Март 10,515 26,901 25,589 51,157 85,651 208,938 224,803 205,559 Апрель 32,276 61,494 103,184 217,509 242,673 263,830 354,301 409,567 Май 51,920 147,862 197,608 206,229 289,554 252,216 328,263 394,747 Июнь 31,294 57,990 68,600 110,081 164,373 219,556 313,647 272,874 Июль 23,573 51,318 39,909 102,893 160,608 149,082 214,561 230,303 Август 36,465 53,599 91,368 128,857 176,096 213,888 337,192 375,402 Сентябрь 18,959 23,038 58,781 104,776 142,363 178,947 183,482 195,409 Октябрь 13,918 41,396 59,679 111,036 114,907 133,650 144,618 173,518 Ноябрь 17,987 19,330 33,443 63,701 113,552 116,946 139,750 181,702 Декабрь 15,294 22,707 53,719 82,657 127,042 164,154 184,546 258,713 Затем Джон вычислил среднее значение ежемесячных доходов от проката для каждого года (т.е. он сложил 12 значений для 1989 года и разделил полученную сумму на 12). Джон также вычислил среднеквадратические отклонения для 12 ежемесячных значений по ка- ждому году. Все полученные им результаты приведены в табл. 2.15. Кроме того, он решил построить диаграмму временного ряда, которая приведена на рис. 2.18. Значения средних ежемесячных доходов откладывались по оси У, а время — по оси X. Таблица 2.15. Средний ежемесячный доход от проката в компании “Mr. Tux’' Год Среднее значение Среднеквадратическое отклонение 1989 22 013 13 165 1990 44 603 35 290 1991 64 841 47 217 1992 103 610 57 197 1993 141 381 70 625 1994 169 432 63 376 1995 213 866 96 387 1996 247 231 99 153
Обзор основных статистических понятий 11 $400,000 $350,000 $300,000 $250,000 $200,000 $150,000 $100,000 $50,000 _-х* „х' Xх X' 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2001 Рис. 2.18. Средний ежемесячный объем доходов компании “Mr. Тих” Вопросы 1. Какие идеи, касающиеся прогнозирования, приходят вам на ум при рассмотрении сведений об объемах средних ежемесячных доходов от проката? 2. Предположим, что Джон решил нарисовать от руки прямую на своей диаграмме рас- сеяния так, чтобы она давала “наилучшее приближение”, а затем продолжить эту пря- мую на будущее, используя ее точки как ежемесячные прогнозы. Как вы думаете, на- сколько точным будет его прогноз? При ответе на этот вопрос используйте значения среднеквадратических отклонений, вычисленные Джоном. Будете ли вы, основываясь на вашем анализе, советовать Джону продолжать поиски более точного метода прогно- зирования? У Джона на его компьютере есть последняя версия приложения Minitab. Думаете ли вы, что он должен использовать регрессионный анализ, реализованный в Minitab, для получения аппроксимирующей прямой по методу наименьших квадратов? Если да, то какой показатель следует использовать как переменную X для получения прогноза будущих ежемесячных продаж (К)? Задание 2.3. Компания Alomega Food Stores В примере 1.1 описано, что Джулия Рас, президент компании Alomega Food Stores, подго- товила данные об операциях своей компании. Были собраны данные о продажах за не- сколько месяцев, а также было определено несколько возможных независимых перемен- ных (вспомните описание данной ситуации в примере 1.1). Пока люди, анализирующие ситуацию, работали с данными с целью составления прогноза ежемесячных продаж, она с нетерпением ожидала окончательных результатов и сведений о том, какая из независи- мых переменных является наилучшей для целей прогнозирования.
78 ГЛАВА 2 Поскольку на ее настольном компьютере была установлена статистическая програм- ма, Джулия решила поработать с данными самостоятельно. Прежде всего, она определи- ла коэффициенты корреляции между объемом ежемесячных продаж и несколькими по- тенциально независимыми переменными. В особенности она интересовалась корреляци- ей между объемом продаж и ежемесячными расходами на рекламу в газетах, на рекламу на телевидении, на рекламу в газетах с запаздыванием в один и два месяца, на телевиде- нии с запаздыванием в один и два месяца, а также с затратами на рекламу у основных конкурентов. Расчетные коэффициенты корреляции г были следующими. Ежемесячные затраты на рекламу в газете 0,45 Ежемесячные затраты на рекламу на ТВ 0,60 Реклама в газете с запаздыванием в один месяц -0,32 Реклама в газете с запаздыванием в два месяца 0,21 Реклама на ТВ с запаздыванием в один месяц -0,06 Реклама на ТВ с запаздыванием в два месяца 0,03 Затраты на рекламу у конкурентов -0,18 Джулия не была удивлена тем, что самая высокая корреляция наблюдалась между ежемесячным объемом продаж и затратами на рекламу по телевидению (г = 0,60); она да- же надеялась на более сильную корреляцию. Она решила использовать регрессионную технику для получения выборочного уравнения регрессии, используя объем продаж как зависимую переменную, а ежемесячные расходы на рекламу по телевидению — как неза- висимую переменную. Результаты были следующими. Объем продаж = 341 663 + 0,336 (ежемесячные расходы на рекламу по телевидению) г-квадрат = 0,36 (36%) р-значение = 0,000 Джулия вынуждена была обратиться к своему учебнику по статистике, который она хранила со времен обучения в колледже, чтобы найти там определение величин “г- квадрат” и “р-значение”, приведенных в распечатке. Прочитав нужный раздел, она вспомнила, что показатель “r-квадрат” (который представляет собой квадрат коэффици- ента корреляции г) характеризует процент от общей изменчивости объема продаж, объ- ясняемый изменениями в ежемесячных затратах на телевизионную рекламу (это будет объяснено в главе 6). Кроме того, ^-значение свидетельствует, что коэффициент наклона весьма велик (0,336). В этом случае гипотеза о том, что он равен нулю для генеральной совокупности, из которой была сделана выборка, может быть отвергнута с практически отсутствующим риском сделать ошибку. В результате Джулия сделала вывод, что полученное ею уравнение регрессии является представительным и может быть использовано для прогнозирования ежемесячных объе- мов продаж при условии, что сумма выделенных на телевизионную рекламу средств из- вестна. Поскольку расходы на телевизионную рекламу находятся под контролем компа- нии, она пришла к заключению, что у нее есть хороший способ прогнозирования буду- щих объемов продаж. Она рассказала о полученных ею результатах Роджеру Джексону (Roger Jackson), руководителю отдела по обработке данных. Он ответил: “Да, мы тоже выявили эту зависимость. Однако дополнительно было установлено, что только около трети уровня изменчивости в объемах продаж объясняется рекламой на ТВ — точнее, 36%. Мы считаем, что этот процент недостаточно высок, и стараемся подобрать несколько переменных в различных сочетаниях для того, чтобы попытаться получить значение “/--квадрат” как можно выше. К тому же мы полагаем, что должны существовать и другие методы, которые будут работать лучше, чем регрессионный анализ.”
Обзор основных статистических понятий 19 Вопросы 1. Что вы думаете об анализе, выполненном Джулией Рас? 2. Определите остатки (ошибки), наблюдаемые между действительными объемами продаж и значениями, прогнозируемыми с помощью прямой линии. Как можно оп- ределить, является ли выбранное Джулией представление с помощью прямой линии адекватным? Применение Minitab Задание. В примере 2.1 набор возрастов анализировался с использованием описательных статистик. Решение в Minitab 1. Введите имя переменной Ages под заголовком С1. 2. Введите данные в столбец С1. 3. На панели меню выберите команду. Stat1*Basic Statistics^Display Descriptive Statistics 4. На экране раскроется диалоговое окно Display Descriptive Statistics, представленное на рис. 2.19. Рис. 2.19. Диалоговое окно Display Descrip- tive Statistics приложения Minitab а) в поле Variables выберите значение Ages (С1) б) щелкните на кнопке Graphs, и на экране раскроется диалоговое окно Display Descriptive Statistics-Graphs в) выберите в списке значение Graphical Summary и щелкните на кнопке ОК г) щелкните на кнопке ОК в диалоговом окне Display Descriptive Statistics, и на экран будут выведены результаты расчета, изображенные на рис. 2.20
80 ГЛАВА 2 Descriptive Statistics 95% Confidence interval for Median Variable: Ages Anderson-Darling Normality Test A-Squared 0.168 P-Value 0.910 Mean 40.2000 StDev 12.2002 Variance 148.844 Skewness 0.203000 Kurtosis -8.2E-01 N 10 Minimum 1st Quartile Median 3rd Quartile Maximum 23.0000 30.2500 40.0000 51.2500 60.0000 95% Confidence Interval for Mu 31.4725 48.9275 95% Confidence Interval for Sigma 8.3917 22.2728 95% Confidence Interval for Median 29.6036 51.7117 Puc. 2.20. Диалоговое окно приложения Minitab с результатами расчета описательных статистик д) для распечатки полученных графиков выберите на панели меню команду: File^Print Graph е) для того чтобы распечатать окно, содержащее результаты расчета описательных статистик, выберите на панели меню команду: File1* Print Session Window Результаты показаны на рис 2.1. 5. Приведенные ниже команды предназначены для получения точечной диаграммы, диаграммы-ящика и гистограммы. Graphs Dotplot Graphs Boxplot Graphs Histograph Инструкции о том, как использовать приложение Minitab для проведения корреля- ционного и регрессионного анализа, представлены в конце главы 6.
Обзор основных статистических понятий 81 Применение Excel Задание. В упр. 2.1 владелец магазина современного офисного оборудования Дик Гувер беспокоился о том, что высокая стоимость доставки и необходимые канцелярские расхо- ды приводят к убыткам в случае малых заказов. Решение в Excel 1. Запустите на выполнение программу Excel, и на экран будет выведена пустая элек- тронная таблица, изображенная на рис. 1.2 в конце главы 1. Переместите курсор так, чтобы выделенной оказалась ячейка в верхнем левом углу таблицы, т.е. ячейка А1. 2. Введите в нее первое значение, 10, и с помощью клавиши <ТаЬ> переместитесь в следующую ячейку. Введите следующее значение из представленного в упражнении набора данных и т.д. 3. После того как все 28 значений данных будут помещены в последовательные ячейки столбца А, переместите курсор в ту ячейку, в которой требуется получить результат первых вычислений, — ячейку АЗО. 4. Среднее значение данных, помещенных в ячейки А1-А28, вычисляется с помощью формулы, которую следует ввести в ячейку АЗО. Ввод любой формулы в ячейку на- чинается с символа Требуемая в нашем случае формула имеет вид: =Average(A1 ;А28). Обратите внимание на то, что номер ячейки АЗО показан в поле, расположенном слева от строки формул, а текст самой формулы =Average(A1 ;А28) — в поле справа над таблицей. 5. Тот же подход используется и для вычисления среднеквадратического отклонения. В этом случае формула =Stdev(A1 ;А28) вводится в ячейку А31. Результаты вычисле- ний показаны на рис. 2.21. Рис. 2.21. Таблица приложения Excel с результатами расчетов из упр. 2.1.
82 ГЛАВА 2 Среднее значение и среднеквадратическое отклонение могут быть также вычис- лены с использованием команды вставки функции или инструмента Data Analysis. Эти подходы будут рассматриваться нами в последующих главах. Инструкции о том, как использовать приложение Excel для выполнения корре- ляционного и регрессионного анализов, приведены в конце главы 6. Если вы намерены использовать программы Excel и Minitab в своей работе, то для быстрого и успешного освоения этих мощных инструментов следует как можно чаще применять их к различным множествам данных и пытаться выполнить с их по- мощью разнообразные статистические вычисления. Умение, которое вы при этом приобретете, окажется очень полезным при дальнейшем обсуждении процедур прогнозирования в данной книге. Рекомендуемая литература Berenson M.L., Levine D.M. Basic Business Statistics: Concepts and Applications, 7th ed. Upper Saddle River, NJ: Prentice-Hall, 1999. Cryer J.D., Miller R.B. Statistics for Business: Data Analysis and Modeling, 2nd ed. Belmont ,CA: Duxbury Press, 1994. Groebner D., Shannon P. Business Statistics. A Decision-Making Approach, 2nd ed. Columbus, OH: Charles E. Merrill Publishing Company, 1985. Hanke J., Reitsch A. Understanding Business Statistics, 2nd ed. Homewood, IL: Richard D. Irwin, Inc., 1994. Johnson R.A., Wichem D.W. Business Statistics: Decision Making with Data. New York: John Wiley & Sons, 1997. Olson C., Picconi M. Statistics for Business Decision Making. Glenview, IL: Scott, Foresman and Company, 1983.
гп1д W/W/WA1 F/W/W/W/ Исследование наборов данных и выбор метода прогнозирования Одним из наиболее сложных этапов прогнозирования, который отнимает много вре- мени и сил, является сбор обоснованных и достоверных данных. Персонал, занимаю- щийся обработкой данных, хорошо понимает смысл выражения “garbage in, garbage out” (“мусор на входе — мусор на выходе”). Это выражение вполне применимо и к прогнози- рованию. Точность любого прогноза ограничивается достоверностью тех данных, на ко- торых он построен. Наиболее сложные модели прогнозирования не сработают, если они будут применяться к недостоверным данным. Распространение компьютерных технологий способствовало накоплению невероят- ного количества данных практически по всем мыслимым показателям. Самая сложная задача из числа тех, с которыми сталкивается большинство создателей прогнозов, заклю- чается в том, как отыскать имеющие отношение к поставленной задаче данные, которые позволят принять обоснованное решение по исследуемой проблеме. Для оценки, будут ли имеющиеся данные полезны для решения поставленной задачи, можно использовать следующие четыре критерия. 1. Данные должны быть достоверными и точными. Необходимо позаботиться о том, чтобы данные были получены из достоверного источника, и обратить внимание на то, чтобы они имели требуемую точность. 2. Данные должны быть значимыми. Данные должны отражать те обстоятельства, для анализа которых они будут использоваться. 3. Данные должны быть согласованными. Если обстоятельства, в отношении которых данные собирались, изменились, необходимо внести корректировки, направлен- ные на сохранение согласованности новых данных с исторически сложившейся структурой. Это может оказаться серьезной проблемой, например, в тех случаях, когда правительственные учреждения изменяют состав “потребительской корзи- ны”, используемой для оценки жизненного уровня населения. Скажем, тридцать лет назад персональные компьютеры не входили в ассортимент товаров, приобре- таемых средними потребителями; а теперь они входят в него.
84 ГЛАВА 3 4. Данные должны собираться через определенные интервалы времени. Данные, соб- ранные и подытоженные в строгом хронологическом порядке, представляют наи- больший интерес для целей прогнозирования. Кроме того, данных может быть либо слишком мало (недостаточно предыстории, на которой базировались бы бу- дущие исходы), либо слишком много (данные периодов отдаленного прошлого, не имеющие отношения к поставленной задаче). Вообще говоря, для создания прогнозов представляют интерес два типа данных. К первому типу относят данные, собранные в фиксированный момент времени. Это может быть конкретный час, день, неделя, месяц или квартал. Второй тип представляют данные наблюдений, произведенных с течением времени. Если все наблюдения выполнены в один и тот же период времени, мы называем их кросс-секционными. Задача состоит в изу- чении таких данных с последующей экстраполяцией или последующим распространени- ем полученных взаимоотношений на большую генеральную совокупность. Одним из примеров может быть получение случайной выборки персональных файлов для изучения данных о работниках компании. Другой пример — набор данных о сроке эксплуатации (Age) девяти автобусов компании Spokane Transit Authority и текущих расходах на их со- держание (Cost). Диаграмма рассеяния, представленная на рис. 3.1, помогает получить визуальное представление о существующей в этом случае взаимосвязи и позволяет соста- вить прогноз в отношении годового бюджета на содержание автобусов. 1,100 - 1,000 - 900 - 800 - и 700 - о 600 - 500 - 400 - 300 - 200 - Cost and Аде for Nine Spokane Transit Buses Аде Рис. 3.1. Диаграмма рассеяния для данных о сроке эксплуатации и рас- ходах на содержание автобусов в компании Spokane Transit Buses (приложение Minitab) 10 5 0 Кросс-секционные данные представляют собой наблюдения, собранные в фиксирован- ный момент времени.
Исследование наборов данных и выбор метода прогнозирования 85 Любая величина, которая представлена набором данных наблюдений, собранных или зафиксированных через последовательные промежутки времени, называется временным рядом. Ежемесячный объем производства пива в США — пример временного ряда. Временной ряд состоит из данных, которые были собраны или зафиксированы через последовательные промежутки времени. Изучение наборов данных, являющихся временными рядами Одним из наиболее важных аспектов в выборе соответствующего метода прогнозирова- ния для временного ряда данных является рассмотрение их соответствия различным мо- делям поведения данных в наборе. Существует четыре основных типа моделей данных: горизонтальная, тренд, сезонная и циклическая. Говорят, что наблюдается горизонтальная модель поведения данных, если наблюдения флуктуируют относительно постоянного уровня или среднего значения. Ежемесячные про- дажи некоторого продукта, которые не возрастают и не убывают значительно с течением времени, могут рассматриваться как хороший пример данных горизонтальной модели. Если наблюдаемые данные возрастают или убывают в течение некоторого, достаточно большого промежутка времени, то говорят, что в них присутствует модель поведения, назы- ваемая трендом. На рис. 3.2 представлен временной ряд с интервалом значений в один год (например, расходы на содержание дома), обладающий долгосрочным ростом (трендом). Для иллюстрации этого роста на рисунке изображена прямая линейного тренда. Хотя сум- ма расходов на содержание дома не увеличивается из года в год, основное смещение значе- ний этой величины в периоды от 1 до 20 направлено вверх. Важнейшими причинами, кото- рые влияют на данный временной ряд и могут объяснять его тренд, являются инфляция, изменения в технологиях, предпочтения потребителей и рост производительности. Рис. 3.2. Тренд и циклические компоненты временного ряда расхо- дов на содержание дома за один год
86 ГЛАВА 3 Многие макроэкономические показатели, такие как совокупный национальный про- дукт и занятость, или показатели промышленного производства демонстрируют наличие тренда. На рис. 3.10 (см. ниже) представлен другой пример временного ряда с превали- рующим трендом. На этом рисунке показан рост годового дохода от основной деятельно- сти компании Sears за 1955—1997 гг. Тренд — это долгосрочная компонента, отражающая возрастание или убывание вре- менного ряда в течение длительного периода времени. Если данные наблюдений характеризуются подъемами и спадами, не имеющими фиксированного периода, говорят, что в них присутствует циклическая модель поведения. Циклическая компонента представляет собой волнообразные флуктуации вокруг тренда, которые обычно вызываются общими экономическими условиями. Циклические флук- туации чаще всего являются следствием периодических изменений в экономике — по- следовательных расширений и сокращений производства, обычно называемых бизнес- циклом. На рис. 3.2 изображен временной ряд с циклической компонентой. Цикличе- ский пик, зафиксированный в момент времени 9, иллюстрирует экономический подъем, а циклическая впадина в момент времени 12 — экономический спад. Циклическая компонента представляет собой волнообразные флуктуации вокруг тренда. Electrical Usage for Washington Water Power: 1980-1991 Year Рис. 3.3. Потребление электроэнергии клиентами компании Washington Water Power за 1980—1991 гг. (приложение Minitab) Если на данные наблюдений влияют сезонные факторы, то в них проявляется сезонная мо- дель поведения. Сезонной компонентой называют периодические изменения в данных, еди- нообразно повторяющиеся из года в год. Для ежемесячных рядов сезонная компонента отра- жает изменчивость значений ряда в каждом январе, каждом феврале ит.д. Для ежекварталь- ных рядов существует четыре сезонных элемента: по одному для каждого квартала. На рис. 3.3
Исследование наборов данных и выбор метода прогнозирования 87 легко заметить тот факт, что потребление электроэнергии (Kilowatts) клиентами компании Washington Water Power выше всего в первом квартале (зимние месяцы) каждого года (Year). Из рис. 3.14 (см. ниже) следует, что ежеквартальный объем продаж компании Outboard Marine, как правило, ниже всего в первом квартале каждого года. На сезонную изменчивость могут влиять погодные условия, праздники или календарная длина отдельных месяцев. Сезонной компонентой называется модель изменений, повторяющаяся из года в год. Исследование данных с помощью автокорреляционного анализа Если изменение величины наблюдается во времени, то часто наблюдения в различные промежутки времени оказываются взаимосвязанными, или коррелированными. Эта кор- реляция измеряется с помощью коэффициента автокорреляции. Автокорреляцией называется корреляция между величиной и ее запаздыванием в один или более периодов времени. С помощью механизма автокорреляции могут изучаться наборы данных, включаю- щие тренд и сезонность. Коэффициенты автокорреляции для различных значений запаз- дывания величин во времени используются для отождествления моделей поведения дан- ных, присутствующих во временных рядах. Понятие автокорреляции иллюстрируется данными, представленными в табл. 3.1. От- метим, что величины К,_, и К,_2 представляют значения величины ¥ с запаздыванием на один и два периода времени. Значения для марта, представленные в строке периода времени 3, отражают объем продаж видеомагнитофонов в марте (К,_, = 125), феврале (У,.] = 130) и янва- ре (Г,_2 = 123). Таблица 3.1. Данные о продаже видеомагнитофонов из примера 3.1 м Исходные Y с запаздыванием Y с запаздыванием Время, г месяц данные, Yt на один период, Yf1 на два периода, Yt2 1 Январь 123 _ 2 Февраль 130 123 _ 3 Март 125 130 "—123 4 Апрель 138 125 130 5 Май 145 138 125 6 Июнь 142 145 138 7 Июль 141 142 145 8 Август 146 141 142 9 Сентябрь 147 146 141 10 Октябрь 157 147 146 11 Ноябрь 150 157 147 12 Декабрь 160 150 157
88 ГЛАВА 3 Уравнение 3.1 представляет собой формулу для вычисления коэффициента автокор- реляции гк с запаздыванием на к моментов наблюдения, т.е. между наблюдениями Y, и У,_ к, которые отстоят друг от друга на к периодов. где гк - коэффициент автокорреляции для запаздывания на к периодов; Y - среднее значение ряда; Y, - наблюдение в момент времени /; Y,.t - наблюдение на к периодов ранее, т.е. в момент времени t -к. Пример 3.1 Гарри Вернон (Harry Vernon) собрал данные о числе продаж видеомагнитофонов в магазине Vernon’s Music Store за последний год. Данные представлены в табл. 3.1. В табл. 3.2 приведены результаты, полученные при вычислении коэффициента автокорреляции с запаздыванием на один период. На рис. 3.4 показана диаграмма рассеяния пар наблюдений (У,_ь У,). Из диаграммы вполне очевидно, что корреляция с запаздыванием на один период будет положительной. Таблица 3.2. Вычисление коэффициента автокорреляции с запаздыванием на один период для данных, представленных в табл. 3.1 Время, t Y, У,-, (У,-У) (У,-! - У) (У,-У)2 (Y-YXY^-Y) 1 123 -19 361 2 130 123 -12 -19 144 228 3 125 130 -17 -12 289 204 4 138 125 -4 -17 16 68 5 145 138 3 -4 9 -12 6 142 145 0 3 0 0 7 141 142 -1 0 1 0 8 146 141 4 -1 15 -4 9 147 146 5 4 25 20 10 157 147 15 5 225 75 11 150 157 8 15 64 120 12 160 150 18 8 324 144 Сумма 1 704 0 1 474 843 Y 1704 = = 142 12 843 = = 0, 572 1474
Исследование наборов данных и выбор метода прогнозирования 89 Scatter diagram for Example 3.1 160 - • 150 - • 140 - * 130 - • 120 - I ( ] j jJ 120 130 140 150 160 Puc. 3.4. Диаграмма рассеяния для данных по магазину Vernon’s Music Store (приложение Minitab) Коэффициент автокорреляции с запаздыванием на один период (rj, или корреляция ме- жду У, и К,.,, вычисляется на основании сумм из табл. 3.2 по уравнению 3.1. Таким образом, получим следующее. ---------2--- >=1 843 „ г, =----= 0,572 1474 Как свидетельствует диаграмма на рис. 3.4, для этого временного ряда существует положи- тельная автокорреляция с отставанием на один период. Корреляция между величинами Y, и Y^, или автокорреляция с отставанием на один период, равна 0,572. Это означает, что объемы по- следовательных ежемесячных продаж видеомагнитофонов каким-то образом коррелированы друг с другом. Эта информация может способствовать пониманию Гарри особенностей данного временного ряда и помочь ему подготовиться к использованию улучшенных методов прогнози- рования, а также может предостеречь его от применения регрессионного анализа к этим дан- ным. Все упомянутые здесь идеи будут подробно обсуждаться в последующих главах. Коэффициент автокорреляции второго порядка (г2), или коэффициент корреляции между К, и Kt_2, для данных Гарри также вычисляется по уравнению 3.1. 1=1 682 1474 = 0,463
90 ГЛАВА 3 Оказывается, что для этого временного ряда существует умеренная автокорреляция с за- паздыванием на два периода. Корреляция между величинами К, и К,_2, или автокорреляция с запаздыванием на два периода, равна 0,463. Отметим, что коэффициент автокорреляции с за- паздыванием на два периода (0,463) меньше коэффициента автокорреляции с запаздыванием на один период (0,572). Вообще говоря, с увеличением периода запаздывания к величина ко- эффициента автокорреляции убывает. На рис. 3.5 показан график автокорреляции в зависимости от времени запаздывания для данных Гарри Вернона, использованных в примере 3.1. Горизонтальная шкала внизу изо- бражает интересующие нас периоды запаздывания (1,2, 3 и т.д.). Вертикальная шкала слева изображает возможный интервал для коэффициента автокорреляции от -1 до +1. Горизон- тальная линия, проходящая посередине графика, представляет автокорреляцию, равную нулю. Вертикальная линия, проходящая вверх через точку, обозначающую запаздывание на один период, изображает коэффициент корреляции 0,57, т.е. г} = 0,57. Вертикальная линия, проходящая вверх через точку, обозначающую запаздывание на два периода, изображает коэффициент корреляции, равный 0,46, т.е. г2 = 0,46. Пунктирные линии и статистики Т и LBQ будут объяснены в примере 3.2. Модели поведения, просматривающиеся на коррело- грамме, используются для того, чтобы проанализировать ключевые особенности данных. Эти понятия будут рассмотрены в следующем разделе. Пакет статистических программ Minitab для персональных компьютеров (конкретные инструкции по работе с ним можно найти в разделе “Применение Minitab” в конце главы) может использоваться для вычисле- ния коэффициентов автокорреляции и построения коррелограмм. Рис. 3.5. Автокорреляционная функция для данных, использо- ванных в примере 3.1 Коррелограммой, или автокорреляционной функцией, является график коэффициентов ав- токорреляции для различных запаздываний во времени для заданного временного ряда.
Исследование наборов данных и выбор метода прогнозирования 91 Используя представления, подобные приведенному на рис. 3.5, можно с помощью ав- токорреляционного анализа изучать наборы данных, включающие тренд и сезонные ко- лебания. Коэффициент автокорреляции для различных запаздываний величины во вре- мени может использоваться для получения ответа на следующие вопросы о наборе дан- ных, являющихся временным рядом. 1. Являются ли данные случайными 2. Имеют ли данные тренд (нестационарность) 3. Являются ли данные стационарными 4. Имеют ли данные сезонные колебания Если ряд данных случаен, коэффициенты автокорреляции между Y, и K,_t для любого запаздывания близки к нулю. Последовательные значения временного ряда не связаны друг с другом. Если у ряда существует тренд, значения Y, и Yl4 имеют сильную корреляцию, причем коэффициенты автокорреляции существенно отличны от нуля для первых нескольких периодов запаздывания, а с увеличением периода постепенно убывают до нуля. Коэф- фициент автокорреляции для времени запаздывания, равного одного периоду, часто очень велик (близок к1). Коэффициент автокорреляции для времени запаздывания, равного двум периодам, также будет большим. Однако он не будет таким большим, как для времени запаздывания в один период. Если ряд имеет сезонную компоненту, значительный коэффициент автокорреляции будет наблюдаться для периодов запаздывания, равных сезонному периоду или кратных ему. Сезонный период запаздывания равен 4 для ежеквартальных данных и 12— для ежемесячных данных. Как аналитик может определить, существенно ли отличается от нуля коэффициент автокорреляции для данных, приведенных в табл. 3.1? Кэнуй (Quenouille) в 1949 году по- казал, что коэффициент автокорреляции случайных данных имеет выборочное распреде- ление, которое может быть аппроксимировано нормальной кривой со средним, рав- ным 0, и среднеквадратическим отклонением \/4п . Зная это, аналитик может сравнить выборочные коэффициенты автокорреляции с этим теоретическим выборочным распре- делением и определить для заданных периодов отставания, взяты ли эти значения из ге- неральной совокупности, среднее значение которой равно нулю. В действительности, как показано в уравнении 3.2, некоторые пакеты прикладных программ используют несколько отличную формулу для вычисления стандартных оши- бок автокорреляционной функции. В этой формуле предполагается, что любая автокор- реляция для запаздывания, меньшего к(к> I), отлична от нуля, а любая автокорреляция для запаздывания, большего или равного к, равна нулю. Для автокорреляции, соответст- вующей запаздыванию в один период, используется стандартная ошибка 1/Jn . Ji-1 1 + 22/2 (3.2) ----, п
92 ГЛАВА 3 где SE(rk) - стандартная ошибка автокорреляции с запаздыванием к; R, - автокорреляция с запаздыванием i; к - время запаздывания; п - количество наблюдений во временном ряде. Эти вычисления будут продемонстрированы в примере 3.2. Если ряд действительно случаен, практически все коэффициенты автокорреляции должны находиться внутри интервала, содержащего нуль, плюс или минус определенное число стандартных ошибок. При определенном уровне значимости ряд может считаться случайным, если вычислен- ные коэффициенты автокорреляции находятся внутри интервала, ограниченного выра- жениями [0 ± t .S'£(rt)]. Вместо проверки всех значений гк по одному, существует иной подход, состоящий в проверке всего множества значений гк одновременно. Для того чтобы определить, значи- тельно ли отличаются, скажем, первых десять значений гк от множества, в котором все десять равны 0, можно использовать искусственный тест. Одним из таких общих критериев является использование модифицированной Q- статистики Бокса-Пирса (Box, Pierce) (уравнение 3.3), предложенное Льюнгом (Ljung) и Боксом. Этот критерий, как правило, применяется к ошибкам модели прогноза. Если ав- токорреляции вычисляются из случайного процесса (белого шума), g-статистика имеет ^-распределение с т степенями свободы (т — число запаздываний, для которого выпол- няется проверка). Для ошибок модели прогноза g-статистика имеет ^-распределение с числом степеней свободы, равным т, минус число оцениваемых в модели параметров. Чтобы проверить, является ли значение g-статистики значимым, можно сравнить его со значениями ^-распределения, приведенными в таблице (табл. В.4). g-статистика, опре- деленная уравнением 3.3, будет рассмотрена в примере 3.3. П 2 2=и(и + 2)У-^— , (3.3) •" п - к где п - число наблюдений во временном ряде; к - время запаздывания; т - число запаздываний во времени, для которого проводится тести- рование; гк - выборочная функция автокорреляции ошибок для запаздывания на к периодов. Являются ли данные случайными Уравнение 3.4 представляет собой простую случайную модель, часто называемую моде- лью белого шума. Наблюдение Y, состоит из двух частей: с — общий уровень и е, — ком- понента, представляющая собой случайную ошибку. Важно отметить, что компонента е, некоррелирована от периода к периоду. Y, = с + е, (3.4) Согласуются ли данные в табл. 3.1 с этой моделью? Этот вопрос будет исследован в примере 3.2.
Исследование наборов данных и выбор метода прогнозирования 93 Пример 3.2 Существует определенный критерий, разработанный для проверки гипотезы о том, является ли ча- стный коэффициент автокорреляции существенно отличным от нуля для изображенной на рис. 3.5 коррелограммы. Приведены нулевая и альтернативная гипотезы проверки значимости коэффици- ента автокорреляции с запаздыванием на один период для генеральной совокупности. /То'- Pi = О И: р^О Для проверки нулевой гипотезы может быть использована /-статистика, определенная урав- нением 3.5. SE(rt) (3.5) Далее приведено правило принятия решения с уровнем значимости, равным 0,05, для данных о продажах видеомагнитофонов. Правило принятия решения. Если / < -2,2 или / > 2,2, гипотезу Но отвергаем. Здесь критические значения ±2,2 являются верхней и нижней точками, соответствующими значению /-распределения, равного 0,025, с и - 1 (т.е. 11-ю) степенями свободы. Стандартная ошибка равна следующему. -7^83 =0,2887 /-статистика равна следующему. / = = °’572~9 = 1 98 SE(j\) 0,2887 Поскольку -2,2 < 1,98 < 2,2, то мы совершим ошибку, если откажемся от нулевой гипотезы. Поэтому заключаем, что коэффициент автокорреляции для запаздывания на один период не является существенно отличным от нуля. Критерий для запаздывания, равного двум периодам, имеет следующий вид. //0: Рг = 0 Н\. р| *0 Используя уравнение 3.2, получим следующее. 1+2Уг2 |1+2Уг2 I, ,----- Ж(Г1). , J—= J5T55 = 0,371 2 у п V 12 V 12 V 12 /-статистика равна следующему. t _ Г2-Р2 0Л63-0 = 1 25 SE(r2) 0,371 Так как -2,2 < 1,25 < 2,2, то мы совершим ошибку, если откажемся от нулевой гипотезы, по- этому делаем вывод, что коэффициент автокорреляции для запаздывания, равного двум пе- риодам, не является существенно отличным от нуля. Более быстрый способ протестировать коэффициенты автокорреляции состоит в сравнении их с пределами доверительного интервала, соответствующими уровню значимости в 95% (рис. 3.4). Пределы доверительного интервала для запаздывания на один период равны следующему.
94 ГЛАВА 3 Верхний предел = /01ЭТ5 х SE(r|) = 2,2 х 0,2887 = 0,635 Нижний предел = /О,о25х SE(zr) = -2,2 х 0,2887 = -0,635 Пределы доверительного интервала для запаздывания на два периода равны следующему. Верхний предел = /0,975 х SE(r2) = 2,2 х 0,371 =0,816 Нижний предел = Го,о25 х SE(r2) = -2,2 х 0,371 = -0,635 Как только коэффициент автокорреляции оказывается вне доверительного интервала, нуле- вая гипотеза о равенстве нулю коэффициента автокорреляции отвергается. Пример 3.3 С помощью приложения Minitab сформирован временной ряд из 40 псевдо-случайных чисел, имеющих размерность три разряда (табл. 3.3). На рис. 3.6 изображен график указанного вре- менного ряда. Поскольку эти данные случайны, теоретически автокорреляции для всех зна- чений запаздывания должны быть равны нулю. Конечно, 40 значений в табл. 3.3 — это только одно множество из большого числа всех возможных выборок объемом 40 чисел. Каждая вы- борка будет давать разные автокорреляции. Большинство же из этих выборок будет давать выборочный коэффициент автокорреляции, близкий к нулю. Однако вполне возможен и та- кой вариант, когда выборка чисто случайно даст коэффициент автокорреляции, существенно отличный от нуля. Таблица 3.3. Временной ряд из 40 случайных чисел для примера 3.3 t У, t У, t К t У, 1 343 И 946 21 704 31 555 2 574 12 142 22 291 32 476 3 879 13 477 23 43 33 612 4 728 14 452 24 118 34 574 5 37 15 727 25 682 35 518 6 227 16 147 26 577 36 296 7 613 17 199 27 834 37 970 8 157 18 744 28 981 38 204 9 571 19 627 29 263 39 616 10 72 20 122 30 424 40 97 Затем с помощью приложения Minitab строится коррелограмма, изображенная на рис. 3.7. Обратите внимание на то, что две пунктирные линии на ней изображают доверительный ин- тервал уровня значимости в 95%. Исследованы 10 запаздываний, и все отдельные коэффици- енты автокорреляции лежат внутри соответствующих пределов. Отсюда следует, что нет при- чины сомневаться в том, что автокорреляции для первых 10 запаздываний одновременно равны нулю. Более того, g-статистика для 10 запаздываний равна 7,75, что меньше %2-значения 18,3 (полученного с уровнем значимости 0,05). Аналитик может сделать заклю- чение, что этот ряд случаен.
Исследование наборов данных и выбор метода прогнозирования 95 Autocorrelation 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0 Время Рис. 3.6. График временного ряда из случайных чисел, описанный в примере 3.3 Lag Corr Т LBQ Lag Corr T LBQ 1 -0.19 -1.21 1.57 8 -0.03 -0.15 7.67 2 -0.01 -0.04 1.58 9 -0.03 -0.18 7.73 3 -0.15 -0.89 2.53 10 0.02 0.12 7.75 4 0.10 0.63 3.04 5 -0.25 -1.50 6.13 6 0.03 0.16 6.17 7 0.17 0.95 7.65 Рис. 3.7. Автокорреляционная функция для данных, использованных в примере 3.3 (приложение Minitab)
96 ГЛАВА 3 Имеют ли данные тренд Если ряд имеет тренд, то существует значительная взаимосвязь между последовательны- ми значениями этого временного ряда. В этом случае для коэффициентов автокорреля- ции типично, что они вначале являются большими для запаздываний в несколько первых периодов, а затем, с увеличением периода запаздывания, постепенно убывают к нулю. Стационарным временным рядом является ряд, для которого основные статистиче- ские характеристики, такие как среднее значение и дисперсия, являются постоянными во времени. Следовательно, стационарным будет тот временной ряд, значения которого с течением времени колеблются вокруг фиксированного уровня, не возрастая и не убы- вая. Считается, что ряд, имеющий тренд, не является стационарным. Коэффициенты ав- токорреляции стационарного ряда убывают до нуля достаточно быстро — в общем слу- чае, уже для запаздывания на два или три периода. С другой стороны, для нестационар- ного ряда выборочные автокорреляции остаются достаточно большими и для запаздыва- ний в несколько периодов. Часто для того, чтобы проанализировать нестационарный ряд, из него удаляется тренд и лишь затем выполняется дальнейшее моделирование. Процедуры, использующие этот подход, описываются в главе 9. Стационарным рядом называется ряд, основные статистические характеристики кото- рого, такие как среднее значение и дисперсия, остаются постоянными во времени. [ffiMicrosnlt 1 xrel В Г"Г Щ.Ча Erft Sjew Insert Fftreat look gata gtrio» КаИ ЦЛ !D_a? q! _ a a 9-; £ ife® ................................................. it Arial U4 Д ~2 3 10 -=151*1 * Z A Nil й-Г- - p). 10! 11 j2 13 14 Yt 1231 125! 7S1 146 142! 141 146 147- 157 150 13П Yt-1 .Differences О—Ё---г 123. 130! 125' 138’ 746! <42‘ 147 146' 147’ 157 150. -5 7з -3 10! -20 Differences 130-123= 7 125-130-5 7 ! 8 . 6 V. |<О>1 shw-l 1 ; • / НГ KAM {BStortp гуГОЯауег______iQXEfrfr Puc. 3.8. Рабочий лист Excel с расчетом разностей для данных из примера 3.1 Для удаления из нестационарного ряда тренда используется метод образования разностей. Данные о продаже видеомагнитофонов, первоначально представленные в табл. 3.1, вновь показаны на рис. 3.8 в столбце А. Значения Y с запаздыванием на один период при- ведены в столбце В. Разности, в которых из первоначальных значений Y, вычитаются значения Y с запаздыванием на один период, УД,, представлены в столбце С. Например,
Исследование наборов данных и выбор метода прогнозирования 97 первое значение разностей есть У2 - = 130 - 123 = 7. Обратите внимание на возрастание значений или тренд в данных о продажах видеомагнитофонов, представленных на диа- грамме А (рис. 3.9). Сравните со стационарной моделью, образованной разностями этих данных, показанными на диаграмме Б. Можно сделать вывод, что образование разностей данных позволило устранить из них тренд. Диаграмма Б -10 - ------1 1 1 1 1 1— 2 4 6 8 10 12 Месяцы Рис. 3.9. Графики временных рядов для данных о продажах видео- магнитофонов и образованных для них разностей
98 ГЛАВА 3 Пример 3.4 Мэгги Тримэйн (Maggie Trymane), аналитику компании Sears, было поручено спрогнозиро- вать доход от основной деятельности компании на 1998 год. Она собрала данные о доходах компании с 1955 по 1997 гг., которые приведены в табл. 3.4. Временной ряд этих данных гра- фически представлен на рис. 3.10. Сначала Мэгги вычислила доверительный интервал с уровнем значимости в 95% для коэффициента корреляции с запаздыванием на один период, используя 0 ± Z ), где для больших выборок точка 0,025 стандартного нормального рас- пределения заменена точкой, выражающей процентное соотношение для 1-распределения. О ±1,96.1— V43 0 ± 0,299 Таблица 3.4. Ежегодный доход от основной деятельности компании Sears Roebuck &Со. за 1955-1997 гг. Год У, Год У, Год У, Год У, 1955 3 307 1966 6 769 1977 17 224 1988 50 251 1956 3 556 1967 7 296 1978 17 946 1989 53 794 1957 3 601 1968 8 178 1979 17 514 1990 55 972 1958 3 721 1969 8 844 1980 25 195 1991 57 242 1959 4 036 1970 9 251 1981 27 357 1992 52 345 1960 4 134 1971 10 006 1982 30 020 1993 50 838 1961 4 268 1972 10 991 1983 35 883 1994 54 559 1962 4 578 1973 12 306 1984 38 828 1995 34 925 1963 5 093 1974 13 101 1985 40 715 1996 38 236 1964 5 716 1975 13 639 1986 44 282 1997 41 296 1965 6 357 1976 14 950 1987 48 440 Затем Мэгги ввела эти данные в приложение Minitab и получила коррелограмму, пока- занную на рис. 3.11. В результате проведенных исследований она обнаружила, что автокорре- ляции для первых трех времен запаздывания вначале значительно отличаются от нуля (0,95; 0,91 и 0,87), а затем их значения постепенно убывают к нулю. В качестве дополнительной проверки Мэгги изучила g-статистику для 10 времен запаздывания. Коэффициент LBQ ра- вен 236,12, что превышает %2-значение, равное 18,3 (оно получено с уровнем значимости 0,05). Мэгги пришла к выводу, что данные имеют значительную автокорреляцию для первых нескольких запаздываний во времени и, следовательно, демонстрируют заметный тренд.
Исследование наборов данных и выбор метода прогнозирования 99 Year Рис. 3.10. График временного ряда ежегодного дохода от основной дея- тельности компании Sears (приложение Minitab) Autocorrelation Function for Sears Operating Revenue I I 23456789 10 Lag Corr Т LBQ Lag Corr T LBQ 1 0.95 6.26 41.96 8 0.45 0.95 224.06 2 0.91 3.57 81.44 9 0.36 0.75 231.55 3 0.87 2.70 118.38 10 0.28 0.57 236.12 4 0.79 2.12 149.69 5 0.72 1.74 175.79 6 0.63 1.44 196.61 7 0.54 1.18 212.76 Puc. 3.11. Функция автокорреляции для данных о доходах от основной деятельно- сти компании Sears (приложение Minitab)
100 ГЛАВА 3 Sears Operating Revenue Data First Differenced Ф -10000 - b -20000 - 1960 1970 1980 1990 Year Puc. 3.12. График временного ряда первых разностей, образованных для данных о доходах от основной деятельности компании Sears (приложение Minitab) Autocorrelation Function for Sears Data First Differenced 1.0 -0.8 -1.0 1 2 3 4 5 6 7 8 9 10 Lag Corr т LBQ Lag Corr T LBQ 1 -0.08 -0.54 0.31 8 -0.09 -0.53 5.60 2 0.06 0.36 0.46 9 -0.09 -0.52 6.04 3 0.30 1.95 4.85 10 -0.02 -0.13 6.07 4 0.02 0.12 4.87 5 -0.04 -0.24 4.95 6 -0.04 -0.25 5.05 7 0.04 0.26 5.15 Puc. 3.13. Автокорреляционная функция ряда первых разностей, образованных для данных о ежегодном доходе от основной деятельности компании Sears (приложение Minitab)
Исследование наборов данных и выбор метода прогнозирования 101 Мэгги решила, что для устранения тренда и получения стационарного ряда необходимо об- разовать ряд, составленный из разностей. Сначала она получила разности на основе имеющихся данных (см. раздел “Применение Minitab” в конце этой главы). Графическое представление этих данных показано на рис. 3.12. Ряд, образованный из разностей, не демонстрирует наличие тренда. Затем Мэгги построила коррелограмму, изображенную на рис. 3.13. Она обратила вни- мание на то, что для запаздывания, равного трем периодам, коэффициент автокорреляции 0,30 значительно отличается от нуля (при тестировании с уровнем значимости 0,05), тогда как авто- корреляции для запаздываний, отличающихся от 3, малы. В результате Мэгги пришла к заклю- чению, что для выявления присутствующей в этих данных модели изменения придется обра- титься к более сложным методикам анализа, описанным ниже, в главе 9. Являются ли данные сезонными Если ряд является сезонным, модель, связанная с календарными изменениями, повторя- ется в течение всего временного интервала (обычно это год). Наблюдения в одном и том же моменте разных сезонных периодов имеют тенденцию к зависимости. Если наблюда- ются ежеквартальные данные с сезонной моделью, значения для первых кварталов име- ют тенденцию быть похожими, значения для вторых кварталов также имеют тенденцию быть похожими и т.д. При этом значительный коэффициент автокорреляции будет обна- ружен для запаздывания на четыре периода. Если анализируются ежемесячные данные, значительный коэффициент автокорреляции появится при временном запаздывании 12, т.е. каждый январь будет коррелирован с другими январями, каждый февраль будет кор- релирован с другими февралями и т.д. Ряд, характеризующийся сезонной моделью изме- нений, рассматривается в примере 3.5. Пример 3.5 Перкин Кендэлл (Perkin Kendell) — аналитик корпорации Outboard Marine. Он всегда пред- полагал, что объемы продаж в компании носят сезонный характер. Перкин собрал данные о ежеквартальных продажах Outboard Marine Corporation с 1984 по 1996 гг., приведенные в табл. 3.5 и представленные в виде графика на рис. 3.14. Затем он вычислил для большой вы- борки доверительный интервал уровня значимости в 95% для коэффициента автокорреляции с запаздыванием в один период. 0 ± 0,272 После этого Перкин вычислил коэффициенты автокорреляции, приведенные на рис. 3.15. Он обнаружил, что коэффициенты автокорреляции для запаздываний в 1 и 4 периода сущест- венно отличны от нуля (rt = 0,39 > 0,272 и г4 = 0,74 > 0,333). В результате Перкин пришел к за- ключению, что продажи корпорации Outboard Marine носят ярко выраженный ежекварталь- ный сезонный характер. Таблица 3.5. Ежеквартальный объем продаж в корпорации Outboard Marine за 1984-1996 гг. Финансовый год 31 декабря 31 марта 30 июня 30 сентября 1984 147,6 1985 139,3 251,8 273,1 249,1 221,2 260,2 259,5
102 ГЛАВА 3 Окончание табл. 3.5 Финансовый год 31 декабря 31 марта 30 июня 30 сентября 1986 140,5 245,5 298,8 287,0 1987 168,8 322,6 393,55 404,3 1988 259,7 401,1 464,6 479,7 1989 264,4 402,6 411,3 385,9 1990 232,7 309,2 310,7 293,0 1991 205,1 234,4 285,4 258,7 1992 193,2 263,7 292,5 315,2 1993 178,3 274,5 295,4 286,4 1994 190,8 263,5 318,8 305,5 1995 242,6 318,8 329,6 338,2 1996 232,1 285,6 291,0 281,4 Источник : “The Value Line Investment Survey” (New York: Value Line, 1988, 1992, 1996), с. 1773. Quarterly Sales for Outboard Marine: 1984-1996 Year Puc. 3.14. График временного ряда объема ежеквартальных продаж в корпорации Outboard Marine (приложение Minitab)
Исследование наборов данных и выбор метода прогнозирования 103 Lag Corr Т LBQ Lag Corr T LBQ 1 0.39 2.83 8.50 8 0.35 1.51 57.72 2 0.15 0.97 9.83 9 -0.18 -0.76 59.90 3 0.29 1.82 14.77 10 -0.43 -1.80 72.53 4 0.74 4.34 47.11 11 -0.32 -1.23 79.33 5 0.15 0.67 48.47 12 0.09 0.35 79.91 6 -0.15 -0.67 49.90 13 -0.35 -1.34 88.90 7 -0.05 -0.21 50.04 Рис. 3.15. Функция автокорреляции для данных корпорации Outboard Marine (приложение Minitab) Выбор соответствующего метода прогнозирования Этот раздел, в основном, посвящен описанию различных методов прогнозирования. Преж- де всего речь пойдет о важности выбора наиболее подходящего метода прогнозирования. При выборе оптимального метода прогнозирования для конкретной задачи предвари- тельно следует получить ответы на следующие вопросы. • Почему появилась потребность в создании прогноза? • Кто будет использовать прогноз? • Каковы характеристики имеющихся данных? • На какой период следует делать прогноз? • Каковы минимальные требования к данным? • Какая точность необходима? • Какова стоимость прогноза? Тот, кто будет составлять прогноз, для правильного выбора метода прогнозирования должен уметь делать следующее. • Определять природу прогнозируемых показателей. • Определять природу изучаемых данных.
104 ГЛАВА 3 • Представлять возможности и знать ограничения потенциально полезной техники прогнозирования. • Вырабатывать некоторые предопределенные критерии, на основании которых мо- жет быть сделан выбор. Основным фактором, влияющим на выбор метода прогнозирования, является иден- тификация и четкое понимание реальных моделей, присутствующих в данных. Если в них удастся распознать тренд, циклическую или сезонную модель, это существенно об- легчит поиск эффективного метода экстраполирования. Аппарат прогнозирования для стационарных данных Ранее стационарный ряд был определен как ряд, среднее значение которого не изменяет- ся с течением времени. Подобная ситуация возникает в том случае, когда внешние воз- действия на значения ряда являются относительно постоянными. Прогнозирование ста- ционарного ряда в своей простейшей форме включает в себя использование его предыс- тории для оценки среднего значения, которое затем становится прогнозом на будущие периоды. Более сложная техника состоит в уточнении оценки с использованием вновь поступившей информации. Эти методы полезны, когда начальные оценки ненадежны или когда постоянство среднего значения под вопросом. К тому же своевременная смена метода прогнозирования может представлять собой реакцию на изменения в основной структуре ряда. Стационарные методы прогнозирования используются в следующих случаях. • Воздействия, порождающие ряд, стабилизировались, и окружающая среда, в которой ряд существует, относительно неизменна. Примерами являются число поломок в неделю на сборочной линии, имеющей постоянную производительность; число продаж продукта или услуг на стадии насыщения их жизненного цикла; число про- даж продукта при постоянном уровне усилий, прилагаемых к его сбыту. • В силу недостатка данных либо для упрощения объяснения или реализации прогноза не- обходимо использовать очень простую модель. Например, это ситуация, когда бизнес или организация являются новыми и доступная предыстория очень мала. • Стабильность может быть достигнута за счет простой корректировки таких фак- торов, как рост населения или инфляция. Примером является переход от общего до- хода к доходу на душу населения или изменения объемов продаж из текущих дол- ларов в неизменные. • Ряд можно преобразовать в стабильный. Примерами являются преобразования ряда с помощью логарифмов, квадратных корней или разностей. • Ряд представляет собой множество ошибок прогноза, полученных в результате при- менения метода прогнозирования, который может считаться неадекватным (см. пример 3.7). Методы прогнозирования, которые могут применяться по отношению к стационар- ным рядам, включают в себя наивные методы, методы простого усреднения, скользящие средние, простое экспоненциальное сглаживание и методы авторегрессионого скользя- щего среднего (методы Бокса-Дженкинса).
Исследование наборов данных и выбор метода прогнозирования 105 Аппарат прогнозирования для данных, имеющих тренд Ряд, обладающий трендом, ранее был определен как ряд, содержащий долгосрочную ком- поненту, которая отражает постоянное возрастание или убывание значений ряда в тече- ние продолжительного периода времени. Другими словами, говорят, что ряд имеет тренд, если ожидается возрастание или убывание его среднего значения в течение того периода времени, для которого создается прогноз. Наличие тренда типично для временных рядов экономических показателей. Методы прогнозирования для рядов, обладающих трендом, используются в следую- щих случаях. • Повышение производительности труда и применение новых технологий ведут к изме- нению стиля жизни. Примерами могут служить потребность в электронных компо- нентах, которая постоянно возрастает в результате продолжающегося распростра- нения компьютеров, или же объем перевозок железнодорожного транспорта, уменьшающийся с ростом возможностей авиации. • Рост населения вызывает увеличение потребностей в товарах и услугах. Примерами являются ежегодные доходы от продажи товаров массового спроса, потребность в энергоснабжении или использование сырьевых ресурсов. • Покупательная способность доллара за счет инфляции оказывает влияние на общие экономические показатели. Примерами являются заработная плата, производствен- ные расходы и цены. • Возрастает признание продукта на рынке. Примером может быть период роста в жизненном цикле нового продукта. Аппарат прогнозирования, который должен использоваться для прогнозирования ря- дов, имеющих тренд, — это метод скользящих средних, метод линейного экспоненци- ального сглаживания Хольта (Holt), простая регрессия, возрастающие кривые, экспо- ненциальные модели и методы авторегрессионых интегрированных скользящих средних (методы Бокса—Дженкинса). Аппарат прогнозирования для данных с сезонной компонентой Сезонный ряд ранее был определен как временной ряд, описывающий изменения, кото- рые повторяются из года в год. Разработка аппарата прогнозирования для сезонных ря- дов обычно включает выбор мультипликативного или аддитивного метода разложения с последующей оценкой сезонных элементов с помощью предыстории ряда. Полученные индексы затем используются для включения сезонности в прогнозы или исключения се- зонных эффектов из наблюдаемых значений. Упомянутый процесс называется сезонной настройкой данных и обсуждается в главе 5. Методы прогнозирования для сезонных данных используются в следующих случаях. • На изучаемую величину влияет погода. Примерами являются потребление электро- энергии, уровень летней и зимней активности (например, для такого вида спорта, как лыжный), одежда и сельскохозяйственные сезоны.
106 ГЛАВА 3 • Рассматриваемая величина определяется годичным циклом. Примерами могут слу- жить розничные продажи, на объем которых влияют ежегодные праздники, трех- дневные уик-энды и школьные расписания. Методы, которые следует использовать для прогнозирования сезонных рядов, вклю- чают классическое разложение, метод Census X-12, экспоненциальное сглаживание Вин- тера (Winter), многомерную регрессию временного ряда и методы Бокса-Дженкинса. Аппарат прогнозирования для циклических рядов Циклический эффект описывался выше как волнообразные флуктуации вокруг линии тренда. Циклические модели имеют тенденцию к повторению шаблона поведения дан- ных каждые два, три или более лет. Циклические компоненты трудно моделировать, так как они не являются устойчивыми. Волнообразные флуктуации вверх-вниз относительно тренда редко повторяются через фиксированные промежутки времени, и амплитуда флуктуаций также является изменчивой. Для анализа циклических данных можно ис- пользовать методы разложения (глава 5). Однако в силу нерегулярного поведения циклов анализ циклической компоненты ряда часто требует отыскания совпадающих или веду- щих экономических показателей. Методы прогнозирования для циклических данных используются в следующих случаях. • На интересующую нас величину влияет бизнес-цикл. Примерами являются экономи- ческие и рыночные показатели, а также уровень конкуренции. • Имеют место изменения в общественных вкусах. Примерами могут быть мода, му- зыка и продукты питания. • Возникают изменения в народонаселении. Примерами могут служить войны, голо- довки, эпидемии и стихийные бедствия. • Происходят сдвиги в цикле производства продуктов потребления. Примерами явля- ются введение продукта, рост и созревание спроса и насыщение рынка продуктом с последующим падением спроса. Аппарат, который необходимо использовать для прогнозирования циклических ря- дов, включает классическое разложение, экономические индикаторы, эконометрические модели, многомерную регрессию и методы Бокса-Дженкинса. Другие факторы, которые нужно учитывать при выборе метода прогнозирования Непосредственное влияние на выбор метода прогнозирования оказывает установленный для прогноза временной горизонт. Для создания краткосрочных и средней длительности прогнозов может использоваться множество количественных методов. Однако с расши- рением горизонта прогнозирования ряд этих методов становится все менее приемлемым. Например, скользящие средние, экспоненциальное сглаживание и модель AR1MA едва ли можно использовать для отыскания и предсказания важных изменений в экономике; для подобных целей более предпочтительными будут эконометрические модели. Регрес- сионные методы более подходят для короткого, среднего и длинного периодов. Средние, скользящие средние, классическое разложение и оценка тренда представляют собой ко-
Исследование наборов данных и выбор метода прогнозирования 107 личественные методы, применимые для коротких и средних временных промежутков. Более сложные методы Бокса-Дженкинса и эконометрическая модель также подходят для краткосрочных прогнозов и прогнозов средней длительности. Для более отдаленных временных горизонтов часто используются качественные методы (см. главу 10). Применимость соответствующего аппарата прогнозирования, вообще говоря, пред- ставляет собой нечто, устанавливаемое в процессе практического применения. Менед- жерам часто необходим прогноз на относительно короткий промежуток времени. В этой ситуации преимущества имеют методы экспоненциального сглаживания, оценки тренда, регрессионные модели и методы классического разложения (табл. 3.6). । Таблица 3.6. Рекомендации по выбору метода прогнозирования Минимальные дань ИМ требования к 1ЫМ Сезонные Метод Модель данных Временная отдаленность Тип модели Несезонные Наивный СТ, т, с К ВР 1 Простые средние ст К ВР 30 Скользящие средние ст к ВР 4-20 Экспоненциальное сглаживание ст к ВР 2 Линейное экспоненциаль- ное сглаживание т к ВР 3 Квадратичное экспоненци- альное сглаживание т к ВР 4 Сезонное экспоненциальное сглаживание с к ВР 2хс Адаптивная фильтрация с к ВР 5хс Простая регрессия т с к 10 Множественная регрессия Ц, с с к ЮхВ Классическое разложение с к ВР 5хс Экспоненциальные трендовые модели т с,д ВР 10 Подгонка S-кривой т с,д ВР 10 Модели Гом перца т с,д ВР 10 Возрастающие кривые т с,д ВР 10 “Перепись-Н" с к ВР бхс Модели Бокса-Дженкинса ст, т, ц, с к ВР 24 Зхс
108 ГЛАВА 3 Окончание табл. 3.6 Минимальные требования к данным Метод Модель данных Временная отдаленность Тип модели Несезонные Сезонные Ведущие индикаторы Ц К К 24 Эконометрические модели ц К К 30 Многомерная регрессия Т, С с.д К бхс временного ряда Модели данных: СТ — стационарные; Т — трендовые; С — сезонные; Ц — циклические. Отдаленность прогноза во времени: К — краткий период (менее трех месяцев); С — средний период; L — большой период. Тип модели: ВР — временной ряд; К — каузальная. Сезонные: с — продолжительность сезонности. Величина: В — количество величин. Стоимость компьютерных расчетов уже не оказывает существенного влияния на вы- бор метода прогнозирования. Настольные компьютеры и пакеты прикладных программ для прогнозирования получили широкое распространение во многих организациях. В ре- зультате, другие критерии практически затмили стоимость применения компьютеров при прогнозировании. В конечном итоге, прогноз будет представлен менеджерам или руководителям для ут- верждения и использования в процессе принятия решения. Следовательно, важнейшим условием прогнозирования является простота понимания и интерпретации результатов. В соответствии с этим критерием самой высокой оценки заслуживают регрессионные модели, метод оценки тренда, классическое разложение и методы экспоненциального сглаживания. Эмпирическая оценка методов прогнозирования Эмпирические исследования показали, что точность прогноза, выполненного простыми методами, практически так же хороша, как точность, полученная при использовании комплексной или статистически сложной методики.' Результаты, полученные при прове- дении тестовых испытаний M3-IJF Competition, когда каждый из привлеченных экспер- тов использовал свою любимую методологию прогнозирования с целью получения про- гнозов для 3 003 различных временных рядов, убедительно подтверждают это утвержде- ние.1 2 Может показаться, что чем сложнее статистическая методика, тем она эффективнее при предсказании модели временных рядов. К сожалению, выбранная модель времен- ного ряда часто может изменяться со временем и действительно изменяется. Таким обра- зом, при использовании модели, которая наилучшим образом представляет уже сущест- вующие данные (мы думаем, что комплексные модели это делают хорошо), мы не полу- чаем надежной гарантии большей точности будущих прогнозов. Конечно же, возможно- сти создающего прогноз также играют важную роль в получении хорошего прогноза. 1 См. Fildes и др., 1997и Makridakis и др., 1993. 2 См. Makridakis, Hibon и др., 2000
Исследование наборов данных и выбор метода прогнозирования 109 Тестовые испытания M3-IJF Competition были проведены в 1997 году. Прогнозы, полу- ченные с помощью различных методов прогнозирования, были сопоставлены на выборке из 3 003 временных рядов с тем уровнем точности, который может быть достигнут за счет применения широкого набора различных показателей. Цель выполненных в 1997 году ис- следований состояла в проверке четырех основных заключений, сделанных в результате предыдущих испытаний M-Competition, на большем наборе данных.3 Макридакис и Гибон (2000) по результатам проведения второго испытания сделали следующие выводы. 1. Как и утверждалось ранее, статистически сложные или комплексные методы прогнозирования действительно не приводят в обязательном порядке к получе- нию более точных прогнозов, чем более простые методы. 2. Разные показатели точности (MAD, MSE, МАРЕ), используемые для оценки раз- личных методов прогнозирования, дают согласованные результаты. 3. Комбинирование результатов трех экспоненциальных сглаживающих методов превосходит, в среднем, отдельные комбинируемые методы и дает наилучший эффект в сравнении с другими методами. 4. Эффективность различных методов прогнозирования зависит от отдаленности прогноза во времени и типа (ежегодные, ежеквартальные, ежемесячные) анализи- руемых данных. Одни методы дают большую точность для короткого промежутка времени, в то время как другие больше подходят для составления длительных прогнозов. Некоторые методы хорошо работают с ежегодными данными, а другие более эффективны для ежеквартальных и ежемесячных данных. По завершении исследования необходимо проверить, насколько каждый метод наде- жен и применим к рассматриваемой проблеме. Кроме того, нужно оценить его стоимост- ную эффективность и точность в сравнении с конкурирующими методами, а также рас- смотреть возможность его применения менеджерами. В табл. 3.6 приведены обобщенные сведения о применимости соответствующего аппарата прогнозирования в отношении наборов данных определенных типов. Эту таблицу полезно использовать в качестве от- правной точки при отборе методов, которые можно использовать для данных с опреде- ленными характеристиками. Как бы там ни было, результаты применения любого вы- бранного метода следует постоянно проверять, чтобы быть уверенным в том, что он дает адекватное решение поставленной задачи. Измерение ошибки прогноза Количественная техника прогнозирования часто применяется к временнь/м рядам данных, в результате чего была выработана соответствующая математическая нотация, позволяю- щая ссылаться на любой крнкретный период времени. Буква У будет использоваться для обозначения значений временного ряда, пока рассматривается не более одной величины. Период времени, соответствующий наблюдению, указывается в виде индекса. Таким обра- зом, обозначение У, определяет значение временного ряда в момент времени t. Ежеквар- тальные данные для компании Outboard Marine Corporation, представленные в примере 3.5, можно было бы обозначить как Ц = 5147,6; У2 = 5251,8; У3 = 5273,1;...; У52 = 5281,4. См. Makridakis и др., 1982
110 ГЛАВА 3 Необходимо также ввести такие математические обозначения, которые позволили бы различать действительные значения временного ряда и прогнозируемые для него значе- ния. С этой целью над значением, обозначающим прогноз, будет помещаться символ “л” (крышечка). Значением прогноза для У является У,. Точность метода прогнозирования часто определяется путем сравнения исходного ряда Уь У2,... с его прогнозом Уь У2, .... Основные обозначения, используемые в прогнозировании, представлены ниже. Основные обозначения, используемые в прогнозировании У, — значение временного ряда в момент t. У, — прогноз значения У,. е,= У,-У,— погрешность или ошибка прогноза. Разработано несколько методов оценки ошибок, присущих отдельным методам про- гнозирования. Большинство этих методов состоит в усреднении некоторых функций от разностей между действительным значением и его прогнозом. Такие разности между на- блюдаемыми значениями и прогнозами часто считаются ошибками прогноза. Ошибкой прогноза является разность между действительным значением и его прогнозом. Для вычисления ошибки прогноза или погрешности для каждого момента времени, в котором рассматривается прогноз, используется уравнение 3.6. е,= У,-У,, (3.6) где е, - ошибка прогноза в момент времени t; У, - действительное значение в момент времени t. В одном из способов оценки метода прогнозирования используется суммирование аб- солютных ошибок. Среднее абсолютное отклонение (Mean Absolute Derivation, MAD) измеряет точность прогноза, усредняя величины ошибок прогноза (абсолютные значе- ния каждой ошибки). Использование MAD наиболее полезно в тех случаях, когда анали- тику необходимо измерить ошибку прогноза в тех же единицах, что и исходный ряд. Ошибка MAD вычисляется с помощью уравнения 3.7. MAD = -£|у - УI (3.7) Среднеквадратическая ошибка (Mean Squared Error, MSE) — это другой способ оцен- ки метода прогнозирования. Каждая ошибка или погрешность возводится в квадрат; эти величины затем суммируются и делятся на количество наблюдений. Поскольку каждое значение отклонения возводится в квадрат, этот метод подчеркивает большие ошибки прогноза. Данная особенность очень важна, так как метод прогнозирования, постоянно дающий средние по величине ошибки, в некоторых случаях может быть предпочтитель- нее другого метода, который обычно дает малые ошибки, но временами может давать очень большие. Ошибка MSE вычисляется с помощью уравнения 3.8. Л/5£ = -У(у-у)2 (3.8) п ~ '
Исследование наборов данных и выбор метода прогнозирования 111 Иногда предпочтительнее вычислять не абсолютные величины ошибок, а их про- центное отношение. Средняя абсолютная ошибка в процентах (Mean Absolute Percentage Error, МАРЕ) вычисляется путем отыскания абсолютной ошибки в каждый момент вре- мени и деления ее на действительно наблюдаемое значение (в этот момент времени) с последующим усреднением полученных абсолютных процентных ошибок. Этот подход полезен в том случае, когда размер или значение прогнозируемой величины важны в оценке точности прогноза. МАРЕ подчеркивает, насколько велики ошибки прогноза в сравнении с действительными значениями ряда. Данный метод в особенности хорош тогда, когда значения У, велики. МАРЕ можно также использовать для сравнения точно- сти одного и того же или различных методов на двух абсолютно разных рядах. Ошибка МАРЕ вычисляется с помощью уравнения 3.9. (3.9) «т/ Y, Часто необходимо определить, является ли метод прогнозирования смещенным (полученный прогноз постоянно оказывается заниженным или завышенным). В этих случаях используется средняя процентная ошибка (Mean Percentage Error, МРЕ). Она вычисляется посредством нахождения ошибки в каждый момент времени и деления ее значения на дейст- вительное значение в этот момент времени с последующим усреднением полученных про- центных выражений ошибок. Если метод прогнозирования является несмещенным, уравне- ние 3.10 будет давать процентное значение, близкое к нулю. Если в результате получается большое отрицательное процентное значение, то метод прогнозирования является последова- тельно переоценивающим. Если получено большое положительное процентное значение, то метод прогнозирования является последовательно недооценивающим. , „ (у _ у) МРЕ = ку^—1 (3.10) "% Y, Часть решения о выборе соответствующего метода прогнозирования состоит в опре- делении того, дает ли данный метод достаточно малые ошибки прогноза. Действительно, естественно ожидать, что правильно подобранный метод будет давать относительно ма- лые ошибки прогноза. Определенные выше четыре способа оценки точности прогноза используются для следующих целей. • Сравнение точности двух различных методов. • Оценка полезности и надежности метода. • Отыскание оптимального метода. В примере 3.6 показано, как вычисляется каждая из определенных выше средних ошибок метода. Пример 3.6 В табл. 3.7 приведены данные о ежедневном количестве клиентов, обращающихся на станцию тех- обслуживания Gary’s Chevron Station по поводу выполнения ремонтных работ (У,), и представлен прогноз этих данных (У,). Выбранный метод прогнозирования предполагал использование количе- ства клиентов, обслуженных за предыдущий период, как прогнозируемое значение на текущий пе- риод. Этот простой метод будет обсуждаться нами в главе 4. Для оценки эффективности этого ме- тода с помощью показателей MAD, MSE, МАРЕ и МРЕ были выполнены следующие вычисления.
112 ГЛАВА 3 Таблица 3.7. Исходные данные и вычисления для оценки метода прогнозирования, применяемого в примере 3.6 Время, t Количество клиентов, Y, Прогноз, Y, Ошибка, е. |е,| \e,\lY,% e,lY,% 1 58 - - - - - - 2 54 58 -4 4 16 7,4 -7,4 3 60 54 6 6 36 10,0 10,0 4 55 60 -5 5 25 9,1 -9,1 5 62 55 7 7 49 11,3 11,3 6 62 62 0 0 0 0,0 0,0 7 65 62 3 3 9 4,6 4,6 8 63 65 -2 2 4 3,2 -3,2 9 70 63 2 2 49 10,0 10,0 Сумма 12 34 188 55,6 16,2 MAD = -У |г, - У,| = — = 4,3 п^1 1 8 MSE = -£(Г, - У, )2 = — = 23,5 и /=i 8 55,6% лпс„ МАРЕ = - > )--! = —--= 6,95% Y, 8 МРЕ = - jffi----) = = 2,03% п% Y, 8 Значение MAD свидетельствует о том, что каждый прогноз отклоняется от реального значе- ния в среднем на 4,3 посетителя. Ошибки MSE (23,5) и МАРЕ (6,95%) следовало бы сравнить с ошибками MSE и МАРЕ, полученными при использовании любого другого метода для прогнозирования этих же данных. И наконец, малое значение ошибки МРЕ (2,03%) свиде- тельствует о том, что данный метод не является систематически переоценивающим или недо- оценивающим количество ежедневно обслуживаемых клиентов. Оценка адекватности выбранного метода прогнозирования Прежде чем использовать некоторый метод прогнозирования, необходимо оценить его соответствие поставленной задаче. Создающий прогноз обязательно должен ответить на следующие вопросы. • Являются ли коэффициенты автокорреляции ошибок показательными для данного временного ряда? На этот вопрос можно ответить, изучив коэффициенты автокорреля- ции для диаграммы ошибок, подобной той, которая будет обсуждаться в примере 3.7.
Исследование наборов данных и выбор метода прогнозирования 113 • Являются ли ошибки приблизительно нормально распределенными? На этот во- прос можно ответить, проанализировав гистограмму для ошибок или нормальный вероятностный график. • Имеют ли все оцениваемые параметры значительные «-значения? Напомним, что t- распределение описывалось в главе 2, а применение «-значений — в примере 3.2 и главах 6-9. • Является ли метод простым в использовании и доступным для понимания тех, кто будет принимать решения? Основное требование, состоящее в том, что множество ошибок должно быть случай- ным, проверяется посредством изучения коэффициентов автокорреляции для временного ряда ошибок. Для этого ряда не должно наблюдаться сколько-нибудь значительных коэф- фициентов автокорреляции. В примере 3.2 было показано, как можно использовать корре- лограмму для выяснения, является ли заданный ряд случайным. С целью проверки, явля- ются ли коэффициенты автокорреляции для всех периодов запаздывания (вплоть до А-го) равными нулю, можно использовать 2-статистику Льюинга-Бокса. В примере 3.7 эта про- цедура проиллюстрирована в отношении ошибок для двух подходящих случаю моделей. Пример 3.7 Мэгги Тримэйн, аналитику компании Sears, было поручено составить прогноз объема продаж в компании на 1998 год. Данные об объемах продаж с 1955 по 1997 гг. приведены в табл. 3.4. Сначала Мэгги подготовила пробный прогноз для уже имеющихся данных, используя метод пятимесячного скользящего среднего (мы познакомимся с этим методом в главе 4). Она вы- числила и записала ошибки прогноза, представляющие собой разность между действитель- ным и прогнозируемым значениями. Коэффициенты автокорреляции для вычисленного ряда ошибок приведены на рис. 3.16. Изучая полученные коэффициенты автокорреляции, можно отметить, что два коэффициента значительно отличаются от нуля (Г) = 0,74 и г2 = 0,56). Суще- ственная величина коэффициентов автокорреляции выявляет некоторую модель поведения значений во множестве ошибок. Более того, 2-статистика для девяти временных запаздыва- ний равна 50,6; это больше х2-квадрат значения с восемью степенями свободы, равного 15,5 (получено при уровне значимости 0,05). Отметим, что в этом случае число степеней свободы равно 9 - 1 (количество изучаемых запаздываний минус число параметров в подходящей для имеющихся данных модели скользящего среднего). Поскольку одно из основных требований, предъявляемых к методу прогнозирования, состоит в том, чтобы множество ошибок, полу- чаемых при его использовании, было случайным, Мэгги пришла к заключению, что метод пятимесячного скользящего среднего не является адекватным данному случаю. Затем Мэгги попробовала применить метод линейного экспоненциального сглаживания Хольта (Holt) (описание этого метода будет дано в главе 4). Коэффициенты автокорреляции для ряда ошибок, порожденных данным методом, приведены на рис. 3.17. Анализ этих коэф- фициентов показывает, что ни один из них существенно не отличается от нуля. Кроме того, была проверена 2-статистика для 10 временных запаздываний. Значение LBQ, равное 8,38, меньше х2-распределения, значение которого при восьми степенях свободы равно 15,5. В данном случае количество степеней свободы равно 10-2 (число изучаемых запаздываний минус число параметров в линейной экспоненциальной сглаживающей модели, соответст- вующей данным). Можно сделать заключение, что метод линейного экспоненциального сглаживания для имеющихся данных дает некоррелированные ошибки для любых значений периода запаздывания. Поэтому Мэгги решила выбрать этот метод в качестве подходящей модели прогнозирования дохода от основной деятельности компании Sears на 1998 год.
114 ГЛАВА 3 Lag Corr Т LBQ 1 0.74 4.58 22.70 2 0.56 2.39 36.05 3 0.41 1.52 43.27 4 0.23 0.82 45.69 5 0.06 0.21 45.86 6 -0.05 -0.16 45.96 7 -0.09 -0.32 46.38 Lag Corr T LBQ 8 -0.17 -0.60 47.92 9 -0.23 -0.77 50.60 Рис. 3.16. Функция автокорреляции для ошибок, не образующих случайного набора (приложение Minitab) c о § Ф 1.0 0.8 0.6 0.4 0.2 2-0.4 <-0.6 -0.8 -1.0 Autocorrelation for the Residuals of Holt's Model Lag Corr T LBQ Lag Corr T LBQ 1 0.00 0.03 0.00 8 0.02 0.09 8.25 2 -0.17 -1.13 1.40 9 -0.00 -0.02 8.25 3 0.31 1.94 5.90 10 0.05 0.26 8.38 4 -0.08 -0.48 6.22 5 -0.17 -0.99 7.69 6 -0.01 -0.07 7.69 7 0.10 0.58 8.24 Рис. 3.17. Функция автокорреляции для ошибок, образующих случайное множество (приложение Minitab)
Исследование наборов данных и выбор метода прогнозирования 115 Применение в менеджменте Изложенные в этой главе концепции предоставляют основу для выбора такого метода прогнозирования, который будет соответствовать рассматриваемой ситуации. В после- дующих главах обсуждается большинство наиболее важных методов прогнозирования и их применимость в той или иной ситуации. Ниже приведено несколько ситуаций, постоянно возникающих в мире бизнеса, при которых адекватно выбранный аппарат прогнозирования способен оказать существен- ную помощь в процессе принятия решений. Изложенный в этой главе материал может быть успешно применен в подобных ситуациях при условии, что в каждом случае будут учтены оба жизненно важных аспекта эффективного прогнозирования, а именно: сбор соответствующих данных и выбор правильного метода прогнозирования. • Компании, выпускающей прохладительные напитки, требуется составить прогноз спроса на свой основной продукт на последующие два года по месяцам. • Крупной телекоммуникационной компании требуется составить прогноз ежеквар- тальных дивидендов своего основного конкурента на последующие три года. • Университету необходимо на последующие четыре года составить прогноз количе- ства часов, выделяемых на получение студентами зачетов, на квартал, чтобы госу- дарственные законодательные учреждения могли планировать соответствующие бюджетные расходы. • Открытой бухгалтерской фирме необходим ежемесячный прогноз курса доллара, чтобы планировать дополнительные учетные позиции и начать их накопление. • Менеджеру по контролю качества предприятия, выпускающего алюминиевые слитки, необходим еженедельный прогноз количества дефектной продукции, кото- рый он должен предоставить высшим менеджерам компании. • Банкиру требуется оценить предполагаемый ежемесячный доход небольшой фаб- рики, выпускающей велосипеды, которая нуждается в значительной ссуде для уве- личения своих производственных мощностей. • Федеральному правительственному агентству необходим ежегодный прогноз сред- него количества миль, которое пройдет автомобиль американского изготовления, израсходовав один галлон бензина, чтобы подготовить соответствующие регули- рующие рекомендации на ближайшие 10 лет. • Менеджеру отдела кадров для планирования расходов на оплату внеурочных часов необходим ежемесячный прогноз числа рабочих дней, пропущенных работниками компании. • Чтобы избежать банкротства, компании, занимающейся предоставлением ссуд, не- обходим прогноз суммы невозвращенных ссуд на последующие два года. • Чтобы планировать бюджет затрат на модернизацию и развитие производства, компании, производящей компьютерные чипы, необходим общеотраслевой про- гноз числа проданных персональных компьютеров на последующие пять лет. Глоссарий Автокорреляция. Это корреляция между величиной и ее запаздыванием на один или более периодов времени. Временной ряд. Временной ряд состоит из данных, собранных, зафиксированных или наблюдаемых в течение последовательных промежутков времени.
116 ГЛАВА 3 Коррелограмма. Коррелограммой временного ряда называется график коэффициентов автокорреляции для различных значений запаздывания во времени. Кросс-секционный. Кросс-секционные данные — это наблюдения, произведенные в один и тот же момент времени. Ошибка прогноза. Представляет собой разность между действительно наблюдаемым значением и его прогнозом. Сезонная компонента. Это модель изменения данных, повторяющаяся из года в год. Стационарный ряд. Это временной ряд данных, основные статистические характеристики которого, такие как среднее значение и дисперсия, остаются постоянными во времени. Тренд. Это долгосрочная компонента, представляющая возрастание или убывание значений временного ряда в течение продолжительного промежутка времени. Циклическая компонента. Это волнообразная флуктуация значений данных вокруг линии тренда. Основные формулы Коэффициент автокорреляции k-го порядка Стандартная ошибка коэффициента автокорреляции SE(rt) = Q-статистика Льюинга-Бокса в=п{п + 2)У\-Л— ^п~к Случайная модель Y, = с + е, /-статистика для проверки значимости коэффициента автокорреляции с запаздыванием к (_гк~ Рк SE(rt) Ошибка прогноза или погрешность et=Yt-Yt Среднее абсолютное отклонение 1 лГ А М4Р = -У|г -fl (3.1) (3.2) (3.3) (3.4) (3.5) (3.6) (3.7)
Исследование наборов данных и выбор метода прогнозирования 117 Среднеквадратическая ошибка mse = -У (г; -y,Y (3-8> Средняя абсолютная ошибка в процентах 1 V' - I (3 9) МАРЕ = - У' л — Yt Средняя процентная ошибка 1 w (Y — Y 'l МРЕ = - У —------- (3-10) Y, Упражнения 1. Объясните различие между качественными и количественными методами прогнози- рования. 2. Что называется временным рядом? 3. Опишите все компоненты временного ряда. 4. Что такое автокорреляция? 5. Что измеряет коэффициент автокорреляции? 6. Опишите, как используются коррелограммы для анализа коэффициентов автокор- реляции, вычисляемых для различных запаздываний временного ряда. 7. Каждое из следующих утверждений описывает стационарный или нестационарный ряд. Определите, к какому типу относится каждый из них. а) ряд, имеющий тренд б) ряд, у которого среднее значение и дисперсия остаются постоянными во времени в) ряд, у которого среднее значение изменяется с течением времени г) ряд, не содержащий ни подъема, ни спада 8. Ниже описано несколько типов рядов: случайные, стационарные, содержащие тренд или сезонные. Определите тип каждого из этих рядов. а) ряд, основные статистические характеристики которого, такие как среднее и дисперсия, остаются постоянными с течением времени б) временной ряд, последовательные значения которого не связаны друг с другом в) между всеми последовательными значениями ряда существует сильная взаимо- связь г) значительный коэффициент автокорреляции появляется для момента запазды- вания, равного 4, и данные являются ежеквартальными д) ряд не содержит ни подъема, ни спада е) коэффициенты автокорреляции значительно отличаются от нуля для первых нескольких запаздываний, а затем постепенно убывают к нулю с увеличением времени запаздывания
118 ГЛАВА 3 9. Перечислите несколько методов прогнозирования, которые следует использовать для прогнозирования значений стационарных рядов. Приведите примеры ситуаций, в которых эти методы применимы. 10. Перечислите несколько методов прогнозирования, которые следует использовать для прогнозирования рядов с трендом. Приведите примеры ситуаций, в которых эти методы применимы. 11. Перечислите несколько методов прогнозирования, которые следует использовать для прогнозирования сезонных рядов. Приведите примеры ситуаций, в которых эти методы применимы. 12. Перечислите несколько методов прогнозирования, которые следует использовать для прогнозирования циклических рядов. Приведите несколько ситуаций, в которых эти методы применимы. 13. В табл. 3.8 приведены сведения о количестве бракосочетаний, зарегистрированных в США. Вычислите первые разности для этих данных. Изобразите исходные данные и данные, представленные разностями в виде временных рядов. Присутствует ли тренд в обоих этих рядах? Обсудите этот вопрос. Таблица 3.8. Данные о количестве бракосочетаний в США Год Количество браков (тыс.) 1985 2413 1986 2407 1987 2403 1988 2396 1989 2403 1990 2448 1991 2371 1992 2362 1993 2334 1994 2362 1995 1954 1996 1840 Источник: Statistical Abstract of the United States, 1998, c.76 14. Найдите доверительный интервал с 95% уровнем значимости для коэффициента ав- токорреляции с запаздыванием в один период для временного ряда, содержащего 80 значений. 15. Какую меру точности прогноза следует использовать в каждой из следующих ситуаций? а) аналитику необходимо определить, является ли метод прогнозирования сме- щенным
Исследование наборов данных и выбор метода прогнозирования 119 б) аналитик предполагает, что размер или абсолютное значение прогнозируемой величины важны в оценке точности прогноза в) аналитику необходимо выявить большие ошибки прогноза 16. Какие из приведенных ниже утверждений в отношении мер точности, используемых для оценки прогнозов, являются верными? а) показатель МАРЕ принимает во внимание действительное значение прогнози- руемой величины б) показатель MSE выявляет большие ошибки в) показатель МРЕ используется для выяснения того, является ли модель система- тически завышающей или занижающей прогноз г) преимущество метода вычисления MAD состоит в том, что он соотносит размер ошибки с действительным наблюдением 17. Элли Вайт (Allie White), руководителю отдела кредита в банке Dominion Bank, требу- ется проанализировать портфель банковских ссуд с 1995 по 2000 гг. Соответствую- щие данные приведены в табл. 3.9. Таблица 3.9. Ежеквартальные ссуды Dominion Bank за 1995-2000 гг. (млн долл.) Годы Март 31 Июнь 30 Сентябрь 30 Декабрь 31 1995 2313 2495 2609 2792 1996 2860 3099 3202 3161 1997 3399 3471 3545 3851 1998 4458 4850 5093 5318 1999 5756 6013 6158 6289 2000 6369 6568 6646 6861 Источник: записи Dominion Bank а) вычислите коэффициенты автокорреляции для запаздываний, равных одному и двум периодам. Проверьте, будут ли эти коэффициенты автокорреляции суще- ственно отличны от нуля для уровня значимости 0,05 б) используйте компьютерную программу для построения графического представ- ления данных и вычисления коэффициентов автокорреляции для первых шести интервалов запаздывания. Является ли данный временной ряд стационарным? 18. Данный вопрос относится к временному ряду, описанному в упр. 17. Вычислите первые разности для ежеквартальных данных о ссудах в банке Dominion Bank. а) вычислите коэффициент автокорреляции при запаздывании в один период для ряда вычисленных разностей б) используйте компьютерную программу для построения графического представ- ления данных и вычисления коэффициентов автокорреляции для первых шести интервалов запаздывания. Является ли данный временной ряд стационарным? 19. Проанализируйте коэффициенты автокорреляции для некоторых рядов, представ- ленные на рис. 3.18—3.21. Кратко опишите характеристики каждого из этих рядов.
120 ГЛАВА 3 о *й 2 о о о Autocorrelation Function for Trade 1.0 - 0.8 - 0.6 - 0.4 - 0.2 - 0.0 - -0.2 - -0.4 - < -0.6 - -0.8 - -1.0 - Рис. 3.18. 1-я функция автокорреляции для упр. 19 (приложение Minitab) Рис. 3.20. 3-я функция автокорреляции для упр. 19 (приложение Minitab)
Исследование наборов данных и выбор метода прогнозирования 121 20. Аналитик хотел бы определить, существует ли некоторая модель изменения в дан- ных о средних доходах из расчета на одну сделку для компании Price Company, кото- рая руководит всеми операциями купли/продажи за наличный расчет во многих штатах под именем Price Club. Указанные данные приведены в табл. 3.10. Охаракте- ризуйте модели, которые присутствуют в этих данных. Таблица 3.10. Ежеквартальные доходы из расчета на одну сделку для компании Price Club за 1986-1993 гг. 4 квартал Годы 1 квартал 2 квартал 3 квартал 1986 0,40 0,29 0,24 0,32 1987 0,47 0,34 0,30 0,39 1988 0,63 0,43 0,38 0,49 1989 0,76 0,51 0,42 0,61 1990 0,86 0,51 0,47 0,63 1991 0,94 0,56 0,50 0,65 1992 0,95 0,42 0,57 0,60 1993 0,93 0,38 0,37 0,57 Источник: The Value Line Investment Survay (New York: Value Line, 1994), c. 1646. а) найдите значение прогноза ежеквартального дохода из расчета на одну сделку для компании Price Club для каждого квартала, используя наивную модель прогнозирования (прогноз для первого квартала 1994 года является значением для четвертого квартала 1993 года, т.е. 0,57) б) оцените прогноз, полученный наивным методом, используя показатель MAD в) оцените прогноз, полученный наивным методом, используя показатель MSE г) оцените прогноз, полученный наивным методом, используя показатель МАРЕ д) оцените прогноз, полученный наивным методом, используя показатель МРЕ е) составьте письменный отчет о полученных результатах
122 ГЛАВА 3 /АЧ lift flft lift /I ft л ft fl ft lift fl ft fl ft lift flft flft MF/ W MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ MF/ Задание 3.1. Сеть мебельных магазинов Murphy Brothers В 1958 году братья Мэрфи (Murphy) открыли мебельный магазин в деловом центре горо- да Даллас. Дела пошли успешно, и со временем они распространили свой бизнес на За- пад и Средний Запад США. К 1996 году сеть их мебельных магазинов прочно укрепилась в 36 штатах. Дочь одного из основателей дела, Джулия Мэрфи (Julie Murphy), недавно закончила бизнес-колледж и присоединилась к управлению фирмой. Ее отец и дядя обладали бога- тым опытом и знаниями во многих областях, но не умели обращаться с количественной информацией. В частности, оба они прекрасно понимали, что не смогут составить точ- ный прогноз объемов продаж мебели в магазинах сети Murphy Brothers с помощью со- временных компьютерных технологий. Поэтому с подобным предложением они обрати- лись к Джулии, представив это как часть ее новых должностных обязанностей. Обучаясь в колледже, Джулия изучала бизнес-прогнозирование, и потому она уже приобрела пакет прикладных программ по прогнозированию и приложение Minitab и ус- тановила их на своем офисном компьютере. Сначала она решила в качестве изучаемой величины выбрать объемы продаж мебели в компании в долларах, но обнаружила, что сведения за несколько лет истории фирмы отсутствуют. Она обратилась с вопросом к от- цу, и он ответил, что в то время “он не предполагал, что эти данные когда-либо окажутся важными”. Джулия предположила, что объем продаж фирмы Murphy Brothers, вероятно, близок к показателям, описывающим объемы продаж в национальном масштабе. Поэтому она решила отыскать соответствующие оценки в одном из многих опубликованных феде- ральных исследований. Просматривая последний выпуск бюллетеня Survey of Current Business, она обнаружила сведения о ежемесячных объемах продаж всех магазинов роз- ничной торговли в США. Джулия решила использовать эти сведения вместо первона- чально выбранного показателя — объемов продаж мебели в долларах в магазинах фирмы Murphy Brothers. Она предположила, что если ей удастся получить точный прогноз для объемов продаж в национальных масштабах, она сможет применить найденную зависи- мость к имеющимся данным об объемах продаж мебели в фирме Murphy Brothers и полу- чить интересующие ее прогнозы. В табл. 3.11 приведены собранные Джулией данные, а на рис. 3.22 представлен соот- ветствующий график, построенный компьютерной программой. Джулия начала свой анализ, воспользовавшись компьютером для построения графика коэффициентов авто- корреляции.
Исследование наборов данных и выбор метода прогнозирования 123 Таблица 3.11. Ежемесячные объемы продаж (млрд долл.) во всех магазинах США, торгующих в розницу, за 1983-1995 гг. 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 Январь 81,3 93,1 98,8 105,6 106,4 113,6 122,5 132,6 130,9 142,1 148,4 154,6 167,0 Февраль 78,9 93,7 95,6 99,7 105,8 115,0 118,9 127,3 128,6 143,1 145,0 155,8 164,0 Март 93,8 103,3 110,2 114,2 120,4 131,6 141,3 148,3 149,3 154,7 164,6 184,2 192,1 Апрель 93,8 103,9 113,1 115,7 125,4 130,9 139,8 145,0 148,5 159,1 170,3 181,8 187,5 Май 97,8 111,8 120,3 125,4 129,1 136,0 150,3 154,1 159,8 165,8 176,1 187,2 201,4 Июнь 100,6 112,3 115,0 120,4 129,0 137,5 149,0 153,5 153,9 164,6 175,7 190,1 202,6 Июль 99,4 106,9 115,5 120,7 129,3 134,1 144,6 148,9 154,6 166,0 177,7 185,8 194,9 Август 100,1 111,2 121,1 124,1 131,5 138,7 153,0 157,4 159,9 166,3 177,1 193,8 204,2 Сентябрь 87,9 104,0 113,8 124,4 124,5 131,9 144,1 145,6 146,7 160,6 171,1 185,9 192,8 Октябрь 100,7 109,6 115,8 123,8 128,3 133,8 142,3 151,5 152,1 168,7 176,4 189,7 194,0 Ноябрь 103,9 113,5 118,1 121,4 126,9 140,2 148,8 156,1 155,6 167,2 180,9 194,7 202,4 Декабрь 125,8 132,3 138,6 152,1 157,2 171,0 176,5 179,7 181,0 204,1 218,3 233,3 238,0 Источник: Бюллетень Survey of Current Busines за разные годы Monthly Sales for all U.S. Retail Stores: 1983-1995 Year Puc. 3.22. График временного ряда объема ежемесячных продаж во всех магазинах США, торгующих в розницу (приложение Minitab) После изучения полученной коррелограммы, показанной на рис. 3.23, Джулии стало ясно, что собранные ею данные имеют тренд. Вначале коэффициенты автокорреляции очень велики, а затем они постепенно убывают к нулю с увеличением периода запазды-
124 ГЛАВА 3 вания. Для того чтобы сделать ряд стационарным, после чего к нему можно будет приме- нять различные методы прогнозирования, Джулия решила получить для имеющихся данных первые разности и посмотреть, поможет ли это устранить из них тренд. Корре- лограмма для первых разностей собранных Джулией данных представлена на рис. 3.24. Autocorrelation Function for Retail Sales Рис. 3.23. Функция автокорреляции для объемов ежемесячных продаж во всех ма- газинах США, торгующих в розницу (приложение Minitab) Autocorrelation Function for Retail Sales First Differenced Puc. 3.24. Функция автокорреляции для первых разностей, образованных из данных об объемах ежемесячных продаж всех магазинов в США, торгующих в розницу (приложение Minitab) Вопросы 1. Какой вывод должна сделать Джулия о ряде данных, представляющих объем ежеме- сячных розничных продаж в США? 2. Существенно ли продвинулась Джулия в выборе метода прогнозирования? 3. Какой метод прогнозирования следует пытаться применить Джулии? 4. Как Джулия сможет определить, какой из методов прогнозирования дает наилучший эффект?
Исследование наборов данных и выбор метода прогнозирования 125 Задание 3.2. “Mr. Tux” Джон Мосби, владелец нескольких пунктов проката, функционирующих под вывеской “Мт. Тих”, решил получить прогноз для показателя, наиболее полно отражающего ус- пешность его бизнеса, — дохода от проката в долларах (см. задание “Mr. Tux” в преды- дущих главах). Одна из его служащих, Виржиния Перо (Virginia Perot), собрала данные о ежемесячных доходах, приведенные в задании 2.2. Джон решил использовать все собранные им данные (за 96 месяцев). Эти данные бы- ли введены в приложение Minitab, после чего для них были вычислены коэффициенты автокорреляции, представленные на рис. 3.25. Поскольку все коэффициенты автокорре- ляции положительны и значения их постепенно убывают, Джон пришел к заключению, что собранные им данные имеют тренд. Autocorrelation Function for Mr. Tux Sales Puc. 3.25. Функция автокорреляции для данных о доходах компании “Mr. Тих” (приложение Minitab) Далее Джон вычислил первые разности для этих данных. На рис. 3.26 представлены коэффициенты автокорреляции для полученных разностей. Коэффициент автокорреля- ции для запаздывания, равного 12 периодам, г12 = 0,68, существенно отличен от нуля. Затем Джон воспользовался еще одной компьютерной программой для вычисления процентного соотношения изменчивости в исходных данных, объясняемого трендом, се- зонностью и случайными компонентами. Вычисленное программой процентное соотношение изменчивости в исходных дан- ных, объясняемое исследуемыми факторами, оказалось следующим. Фактор Процент изменчивости Данные Тренд Сезонность 100 6 45 Случайные факторы 49
126 ГЛАВА 3 Рис. 3.26. Функция автокорреляции для первых разностей, вычисленных для дан- ных о доходах компании “Mr. Тих” (приложение Minitab) Вопросы 1. Обобщите результаты анализа Джона, представив их одной фразой, которую должен понять менеджер, а не тот, кто создавал прогноз. 2. Опишите тренд и сезонные эффекты, которые присутствуют в данных о доходах компании “Mr. Tux”. 3. Как бы вы объяснили смысл строки “Случайные факторы — 49%”? 4. Предположим, коэффициенты автокорреляции г24 и г36 существенно отличны от ну- ля. Можно ли в этом случае сделать заключение, что сезонные явления также имеют тренд? Если да, то поясните, что, по вашему мнению, означает тренд в сезонности. Задание 3.3. Корпорация Consumer Credit Counseling Функционирование корпорации Consumer Credit Counseling (CCC) было описано в гла- ве 1 (задание 1.2). Мэрв Харнишфегер (Marv Hamishfeger), исполнительный директор корпорации, столкнулась с проблемой определения размеров штата сотрудников и составления гра- фиков их работы на оставшуюся часть 1993 года. Она объяснила ситуацию Дороти Мер- сер (Dorothy Mercer), которая недавно была избрана президентом исполнительного ко- митета корпорации. Дороти обдумала проблему и пришла к выводу, что необходимо про- анализировать количество новых клиентов, обращающихся в корпорацию ССС каждый месяц. Дороти, которая занималась оценкой эффективности предоставляемых услуг, бы- ла знакома с различными методами исследования данных и согласилась выполнить соот-
Исследование наборов данных и выбор метода прогнозирования 127 ветствующий анализ. Она попросила Мэрв предоставить ей ежемесячные данные о коли- честве новых клиентов корпорации ССС, и Мэрв передала ей требуемые данные за пери- од с января 1985 года по март 1993 года (табл. 3.12). Таблица 3.12. Количество новых клиентов, обратившихся в корпорацию ССС с января 1985 года по март 1993 года Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь Декабрь 1985 182 136 99 77 75 63 87 73 83 82 74 75 1986 102 121 128 128 112 122 104 108 97 141 97 87 1987 145 103 113 150 100 131 96 92 88 118 102 98 1988 101 153 138 107 100 114 78 106 94 93 103 104 1989 150 102 151 100 100 98 97 120 98 135 141 67 1990 127 146 175 110 153 117 121 121 131 147 121 110 1991 171 185 172 168 142 152 151 141 128 151 121 126 1992 166 138 175 108 112 147 168 149 145 149 169 138 1993 152 151 199 Дороти проанализировала предоставленные ей данные, построив график этого вре- менного ряда и выполнив для него автокорреляционный анализ. Вопросы 1. Объясните, как Дороти могла использовать автокорреляционный анализ при иссле- довании набора данных о количестве новых клиентов корпорации ССС. 2. Какой вывод она должна была сделать после завершения этого анализа? 3. Какой из существующих методов прогнозирования Дороти могла рекомендовать для этого множества данных? Задание 3.4. Компания Alomega Food Stores В примере 1.1 президент компании Alomega Food Stores, Джулия Рас, собрала данные о функционировании своей компании. Она подобрала данные об объемах продаж за не- сколько месяцев наряду с несколькими, возможно влияющими на этот показатель, неза- висимыми величинами (вспомните ситуацию, описанную в примере 1.1). Пока ее коман- да аналитиков работала с этими данными для подготовки прогноза ежемесячных объемов продаж в компании, Джулия проявила нетерпение и заинтересовалась тем, какой из не- зависимых факторов, потенциально влияющих на прогноз, имеет наибольшее значение.
128 ГЛАВА 3 В задании 2.3 Джулия исследовала взаимосвязь между объемом продаж в компании и, возможно влияющими на этот показатель, независимыми величинами. В конце концов она обнаружила, что ее действия были преждевременными, так как она даже не знала, какая модель поведения присутствует в собранных данных о продажах (табл. 3.13). Таблица 3.13. Ежемесячный объем продаж в 27 продовольственных магазинах компании Alomega Food Stores за 1996-1999 гг. Месяц 1996 1997 1998 1999 Январь 425 075 629 404 655 748 455 136 Февраль 315 305 263 467 270 483 247 570 Март 432 101 468 612 429 480 732 005 Апрель 357 191 313 221 260 458 357 107 Май 347 874 444 404 528 210 453 156 Июнь 435 529 386 986 379 856 320 103 Июль 299 403 414 314 472 058 451 779 Август 296 505 253 493 254 516 249 482 Сентябрь . 426 701 484 365 551 354 744 538 Октябрь 329 722 305 989 335 826 421 186 Ноябрь 281 783 315 407 320 408 397 367 Декабрь 166 391 182 784 276 901 269 096 Вопрос 1. Какой вывод сделала Джулия относительно набора данных об объемах продаж в компании Alomega Food Stores? Применение Minitab Задание. В примере 3.4 Мэгги Тримэйн, аналитик компании Sears, желает составить прогноз объема продаж компании на 1998 год. Ей необходимо определить модель изме- нения в данных об объемах продаж с 1955 по 1997 гг. Решение в Minitab 1. Введите данные об объемах продаж компании Sears, представленные в табл. 3.4, в столбец С1. Чтобы построить коррелограмму, выберите команду Stat^Time Se- ries^ Autocorrelation, как показано на рис. 3.27. 2. На экране раскроется диалоговое окно Autocorrelation Function, показанное на рис. 3.28. а) дважды щелкните на переменной Operating Revenue, и ее имя появится справа в поле ввода Series б) введите текст заголовка в поле ввода Title и щелкните на кнопке ОК. Результи- рующая коррелограмма представлена на рис. 3.11
Исследование наборов данных и выбор метода прогнозирования 129 Рис. 3.27. Меню Autocorrelation приложения Minitab Рис. 3.28. Диалоговое окно Autocorrelation Function при- ложения Minitab 3. Для того чтобы вычислить разности данных, выберите команду Stat^Time Se- ries^ Differences. На рис. 3.27 показано, что команда Differences находится в меню выше команды Autocorrelation. 4. На экране раскроется диалоговое окно Differences, представленное на рис. 3.29. а) дважды щелкните на переменной Operating Revenue, и ее имя появится справа в поле ввода Series б) перейдите в поле ввода Store differences in и введите в него имя столбца С2. Ре- зультаты вычисления разностей будут помещены в этот столбец
130 ГЛАВА 3 Рис. 3.29. Диалоговое окно Differences при- ложения Minitab Применение Excel Задание. Гарри Вернон желает использовать приложение Excel для вычисления коэффи- циентов автокорреляции и построения коррелограммы для данных о продажах видео- магнитофонов, представленных в табл. 3.1. Решение в Excel Наилучшим методом решения этой задачи было бы применение специализированной надстройки Excel для выполнения статистического анализа, подобной пакету Kaddstat. Подход к решению задач с использованием надстроек Excel будет обсуждаться нами в конце главы 9. С помощью приведенной ниже последовательности действий можно ре- шить поставленную задачу и без применения надстройки Kaddstat. 1. Создайте новый файл, для чего выберите команду Файл ^Создать. 2. Поместите указатель мыши в ячейку А1. Обратите внимание на то, что как только указатель мыши помещается в какую-либо ячейку, она выделяется. Введите в ячейку А1 заголовок VERNON S MUSIC STORE (^Музыкальный магазин Vernon). Пере- местите курсор в ячейку А2 и введите в нее текст “NUMBER OF VCRS SOLD” (Количество проданных видеомагнитофонов). 3. Поместите курсор в ячейку А4 и введите в нее текст “Month” (Месяц). Нажмите кла- вишу <Enter>, в результате чего выделенной окажется ячейка А5. Введите в нее и последующие 11 ячеек названия всех месяцев, начиная с января. 4. Поместите курсор в ячейку В4 и введите в нее название переменной Y. Затем введите данные из табл. 3.1 в двенадцать последовательных ячеек, начиная с ячейки В5. По- местите курсор в ячейку С4 и введите в нее значение “Z”. 5. Выделите диапазон ячеек В4:С16 и введите команду Insert^Name^Create (Вставка^ Имя ^Создать). В раскрывшемся диалоговом окне Create Names (Создать имена) уста- новите флажок опции Top Row (Верхняя строка) и щелкните на кнопке ОК. В результате диапазону ячеек В5:В16 присваивается имя Y, а диапазону ячеек С5:С16 — имя Z. 6. Выделите ячейку С5 и введите в нее формулу =(B5-AVERAGE(Y))/STDEV(Y). Скопи- руйте значение из ячейки С5 в оставшиеся ячейки этого столбца, для чего выделите эту
Исследование наборов данных и выбор метода прогнозирования 131 ячейку, а затем поместите указатель мыши на манипулятор Fill в нижнем правом углу рамки и перетащите его вниз до ячейки С16. Оставив ячейки С5:С16 выделенными, щелкайте на кнопке Decrease Decimal (Уменьшить разрядность), которая показана на рис. 3.30 вверху справа, пока у значений в столбце С не окажется по три десятичных разряда. Кнопка уменьшения разрядности расположена на панели форматирования. Эту панель можно вывести на экран, щелкнув правой кнопки мыши на команде File и выбрав в раскрывшемся контекстном меню команду Formatting (Форматирование). 7. Введите заголовки LAG и ACF в ячейки Е4 и F4. Для того чтобы получить значения для первых шести временных запаздываний, введите цифры от 1 до 6 в ячейки Е5:Е 10. 8. Выделите ячейку F5 и введите в нее формулу =SUMPRODUCT(OFFSET(Z1E5,0,12- E5),OFFSET(Z,0,0,12-E5))/11. Выделите ячейку F5, поместите указатель мыши на мани- пулятор Fill в нижнем правом углу рамки и перетащите его вниз до ячейки F10. Оставив выделенными ячейки F5.F10, уменьшите разрядность их значений до трех десятичных разрядов. Результат выполнения описанных выше действий представлен на рис. 3.30. £3 Microsoft Excel - fig3-30 ВЬ Е® Insert Fpmat Josh gate IMndcw fiadd t№> x ОйН 314» И -• f-'eiii П 4ft и J, - о - в I л E 5 3 $ % , tag Й8 ijr ip л ’ - A, -. ___ F5 _ ; '! =SUMPRODUCT(OFFSET(ZE5,0,12-E5),OFFSET(Z,0,0,12-E5))/11 ~“ C . . D . E ... F„ | G .. ..H I T VERNON'S MUSIC STORE NUMBER OF VCRS SOLD 2 4 12 13 14 Month j’ January '< February ; March____[ April....] May .....I June I July....Г August j Sepiembej October • November^ December! 123 130 "125" 138 145": 142 J4i'! 1461 1471 157’ 150 160 -1.6411 ..-1 037 ..-1469 •0.346 ...0.259 "~'О.ООбГ ..-0.086 ' " 0.346 ...61432]""'" 1 296 ...616911.. iLAG 2 31 4! 5! 6i 0.5721 0.463! о.ш: 010161 -01033. 0W2! Z zi-'... Рис. 3.30. Заполненная рабочая таблица Excel 9. Для того чтобы получить коррелограмму, выделите ячейки F5:F10. Щелкните на кнопке Chartwizard (Мастер диаграмм), показанной на рис. 3.31 справа вверху. 10. На экране раскроется диалоговое окно Chartwizard (Мастер диаграмм), в котором по- требуется выполнить этапы с 1 по 4. На этапе 1 выберите тип диаграммы Column (Столбчатая) и щелкните на кнопке Next (Далее). На этапе 2 установите флажок опции Series (Ряды) и введите в поле Name (Имя) значение Corr. Щелкните на кнопке Next, и на экране раскроется диалоговое окно этапа 3. В поле Chat title удалите значение Corr. В поле Category (X) axis (Ось категорий (X)) введите Time Lags. Теперь щелкните на кнопке Data Table и установите флажок опции Show data table. Для того чтобы пе- рейти в диалоговое окно этапа 4, щелкните на кнопке Next. Для получения коррело-
132 ГЛАВА 3 граммы, показанной на рис. 3.31, щелкните на кнопке Finish (Конец). Чтобы увели- чить изображение коррелограммы, щелкните на одном из ее углов и потяните за него. 11. Для того чтобы сохранить эти данные для дальнейшего использования в главе 9, вы- берите команду File^Save As (Файл1^Сохранить как). В раскрывшемся диалоговом окне Save As (Сохранить как) введите значение ТаЬЗ-1 в поле File Name (Имя фай- ла). Щелкните на кнопке Save (Сохранить), в результате чего новый файл будет со- хранен надиске под именем ТаЬЗ-1 .xls. L-Mi.io’ull I -к! lui I И к]0е Е* Fffnat 1 2 •3. Я Corr. Г“ Г 0.800 - 0.600 0.400 0.200 0.000 -0.200 0.572 0.463 0.111 0.016 -0.033-0.102 1Г k , Time Lags i Chart Area I / Sheers / Shee‘6 J | « | Chart Area d ____________________________________________ -------A R-----------------C----------5---------Ё----------F" , G . H- —--------R VERNON'S MUSIC STORE Nlf Ре Мс SJMa и 12 :ДЗ И 15 16 Jul Зе Ос No De И < » Н\ Sheetl 1 Puc. 3.31. Отображение коэффициентов автокорреляции в Excel Рекомендуемая литература Ermer С.М. Cost of Error the Forecasting Model Selection. Journal of Business Forecasting (Spring, 1991), 10-12. Fildes R., Hibon M., Makridakis S., Meade N. The Accuracy of Extrapolative Forecasting Methods: Additional Empirical Evidence. International Journal of Forecasting (1997), 13. Makridakis S., Andersen A., Carbone R., Fildes R., Hibon M., Lewandowski R., Newton J., Parzen E., Winkler R. The Accuracy of Extrapolation (Time Series) Methods: Results of Forecasting Competi- tion. Journal of Forecasting, 1 (1982), 111—153. Makridakis S., Chadtfield C., Hibon M., Lawrence M.J., Mills T., Ord K., Simmons I.F. The M2- Competition: A Real Time Judgmentally Based Forecasting Study. International Journal of Fore- casting, 9 (1993), 5—30. Makridakis S., Hibon M. The M-3 Competition: Results, Conclusions and Implications. International Journal of Forecasting, 16 (2000), 451—476. Quenouille M.H. The Joint Distribution of Serial Correlation Coefficients. Annals of Mathematical Statistics, 20 (1949), 561—571. Wilkinson G.F. How a Forecasting Model is Chosen. Journal of Business Forecasting (Summer, 1989), 7-8.
wwwm ГЛАВА г/w/w/w/ Методы сглаживания и скользящие средние В этой главе описываются три простые группы методов прогнозирования временных ря- дов: наивные, усреднения и сглаживания. При наивных методах строятся простые модели прогноза, в которых предполагается, что будущее лучше всего характеризуется последними событиями. Методы усреднения позволяют делать прогнозы, основываясь на среднем зна- чении прошлых наблюдений. Методы сглаживания делают прогноз, усредняя прошлые данные с набором уменьшающихся (экспоненциально) весовых коэффициентов. На рис. 4.1 приведено описание процедуры предсказания для методов, рассматривае- мых в этой главе. На временной шкале наглядно представлены различные периоды. На рисунке точка t соответствует настоящему моменту. Все точки до нее соответствуют про- шлым наблюдениям интересующей нас переменной (К,), а точки после нее — будущим, которые предсказываются. Когда методика прогнозирования выбрана, можно восполь- зоваться известными данными и рассчитать прогнозируемые величины (У,). После того как предсказываемые значения будут получены, следует сравнить их с наблюдаемыми и рассчитать ошибку предсказания (е,). Правильная стратегия для оценки метода прогнозирования состоит из следующих этапов. 1. Метод прогноза выбирается, исходя из природы изучаемых данных. 2. Все данные делятся на две группы — данные инициализации или подгонки и дан- ные проверки или прогноза. 3. Выбранная методика прогнозирования определяет способ подбора значений для части данных, использованных для инициализации. 4. Согласно выбранной методике вычисляется прогноз для тестовой группы данных, а затем рассчитывается и оценивается ошибка предсказания (см. глава 3, “Исследование наборов данных и выбор метода прогнозирования”). 5. Результаты готовы. На их основе можно принимать решение о том, приемлема ли методика для использования в таком виде или потребуется ее модификация. Воз- можно, необходимо будет воспользоваться иной методикой прогноза с целью сравнить полученные результаты.
134 ГЛАВА 4 Текущий момент Данные прошедшего периода t Прогнозируемый период Yt-3. Yt-2, Yt.b Yt, Yt+b Yt+2, Yt+3, здесь Yt— последнее наблюдаемое значение переменной, Yf+1 — ближайшее прогнозируемое значение Рис. 4.1. Описание процесса прогнозирования Наивные модели Часто “молодые” фирмы оказываются в затруднительном положении; они вынуждены делать прогнозы на основе незначительного количества исходных данных. Это является настоящей проблемой, поскольку большинство методик прогнозирования требует доста- точно больших массивов исходных данных. В подобном случае наивные прогнозы — единственно возможное решение, поскольку они базируются только на самой свежей из доступной информации. При наивном прогнозировании полагается, что последний период лучше всего пред- сказывает будущее. Самой простой моделью, таким образом, будет Yl+i = Y., (4.1) где У,+| — это прогноз, сделанный в момент времени t (начальное предсказание) для мо- мента времени t + 1. Наивным прогнозом для каждого периода является непосредственно предшествую- щее ему наблюдение. Текущему значению величины в ряду присваивается стопроцент- ный вес, поэтому наивный прогноз можно назвать “прогнозом без изменений”. Поскольку наивное прогнозирование (уравнение 4.1) отбрасывает все прочие наблю- дения, в этой схеме изменения отслеживаются очень быстро. Проблема этого приближе- ния заключается в том, что случайные флуктуации отслеживаются так явно, как ни в ка- кой другой модели. Пример 4.1 На рис. 4.2 показаны квартальные объемы продаж бензопил в компании Acme Tool. Наивная методика прогнозирует, что объемы продаж в следующем квартале будут такие же, как и в предыдущем. В табл. 4.1 представлены данные об объемах продаж за 1994—2000 гг. Если дан- ные за 1994—1999 гг. взять как начальную часть, а данные за 2000 год — как тестовую, то про- гноз на первый квартал 2000 года будет следующим. Т24+1 = У24 У25 = 650
Методы сглаживания и скользящие средние 135 Таблица 4.1. Объем продаж бензопил в компании Acme Tool за 1994-2000гг. Год Квартал t Объем продаж 1994 1 1 500 2 2 350 3 3 250 4 4 400 1995 1 5 450 2 6 350 3 7 200 4 8 300 1996 1 9 350 2 10 200 3 И 150 4 12 400 1997 1 13 550 2 14 350 3 15 250 4 16 550 1998 1 17 550 2 18 400 3 19 350 4 20 600 1999 1 21 750 2 22 500 3 23 400 4 24 650 2000 1 25 850 2 26 600 3 27 450 4 28 700 Ошибка прогнозирования определяется, исходя из уравнения 3.6. Ошибка для периода 25 будет следующей. е25 = У25 - Г25 = 850 - 650 = 200 В аналогичном случае для периода 26 прогноз даст значение 850 с ошибкой 250. На рис. 4.2 показано, что исходные данные имеют тенденцию к возрастанию, и в то же время в них заметны сезонные колебания (в первый и четвертый кварталы объемы продаж относи- тельно высоки), поэтому выбранную модель следует модифицировать.
136 ГЛАВА 4 Year Рис. 4.2. Уровень продаж бензопил в компании Acme Tool за 1994—2000 гг. (приложение Minitab) Изучение исходных данных из примера 4.1 показывает, что их значения возрастают со временем. Если значение величины изменяется со временем, то ее называют нестацио- нарной, или имеющей тренд. Уравнение 4.1 дает очень низкую степень предвидения. Впрочем, данную методику можно приспособить к учету возможного тренда, приплюсо- вав разницу между текущим и предыдущим периодами. Такой моделью будет следующая. У,+1 = У, + (У, - Ум) (4.2) В уравнении 4.2 учитываются те изменения, которые наблюдаются между кварталами. Уравнение 4.2 для периода, включающего первый квартал 2000 года, даст следующее. ^24+1 = У’4 + (Уг4 ~ У24-1) У25 = У24 + (I24 _ Угз) У25 = 650 + (650 - 400) У25 = 650 + 250 = 900 Ошибка прогнозирования в этой модели будет следующей. е25 = У25 — У25 = 850 — 900 — —50 Иногда знание скорости изменения может оказаться более предпочтительным, чем знание абсолютной величины изменения. В этом случае модель может быть следующей. y,+1=yt^- (4-3) ъ-1 В примере 4.1 прогноз на первый квартал 2000 года (на основе уравнения 4.3) будет следующим. Y Y — У -4 *24+1 “ 124 ~ •*24-1
Методы сглаживания и скользящие средние 137 л Y V — v ^25 - >24 '23 f25 = 650— = 1056 400 Изучение данных из табл. 4.1 показывает, что в них есть сезонные колебания. Объем продаж в первый и четвертый кварталы, как правило, больше, чем в другие кварталы. Ес- ли сезонные вариации достаточно сильны, то модели можно придать следующий вид. Е,+1 = У,-з (4.4) Уравнение 4.4 устанавливает значение переменной в следующем квартале таким же, как и в соответствующем квартале прошлого года. В этом случае в примере 4.1 прогноз на первый квартал 2000 года будет следующим. ^24+1 = ^24-3 Г25 = Г21 У25 = 750 Главным недостатком этой модели является то, что в ней не учитываются события, про- исшедшие за этот год, а также какой-либо тренд. Существует несколько способов учета “свежих” данных. Например, аналитик может скомбинировать обе модели и учесть се- зонные вариации вместе с трендом. Одна из возможных моделей может выглядеть сле- дующим образом. Yl+l = Yl_3+(Y'-Y'-^-+^-Y^ (4.5) 4 Здесь член У,_3 отвечает за сезонные колебания, а последний член учитывает тренд, про- явившийся за последние четыре квартала. На основе уравнения 4.5 прогноз на первый квартал 2000 года для примера 4.1 будет следующим. у _ у , (^24 — ^24-1 ) + • + (1г4_з — Г24_4) '24+1 - '24-3 "I ~----------- 4 у -V . (г24-г23) + (г23-г22) + (г22-г21) + (г21-г2о) 4 v (650-400)+ (400-500)+ (500-750)+ (750-600) 4 У25 = 750 + 12,5 = 762,5 Очевидно, что число и сложность возможных наивных моделей ограничиваются лишь изобретательностью аналитика. Однако использование этих методик требует тщательной проверки. Наивные методы также могут служить основой для принятия решений при сравнении характеристик, полученных с помощью более сложных методов. Методы прогнозирования, основанные на усреднении Зачастую нужно обновлять прогнозы ежедневно, еженедельно или ежемесячно для рее- стров, содержащих сотни или тысячи записей. Чаще всего нет реальной возможности
138 ГЛАВА 4 применить сложный метод к каждому из наименований. Для того чтобы решить подоб- ную задачу, необходимо достаточно быстрое, недорогое и относительно краткосрочное средство прогнозирования. В данном случае аналитик, вероятно, воспользуется методикой, основанной на ус- реднении или сглаживании. При таких методиках взвешенное усреднение данных про- шлых наблюдений применяется для сглаживания случайных флуктуаций. В основу этих методик положено предположение о том, что флуктуации в наблюдениях являются слу- чайными отклонениями от некоторой гладкой кривой. Если вид этой кривой будет опре- делен, то можно рассчитать прогноз для последующих периодов. Простые средние Данные наблюдений можно сгладить различными способами. Целью является построение модели прогнозирования для последующих периодов, исходя из прошлых наблюдений. В этом разделе рассматривается метод простых средних. Как и в наивных моделях, в качестве начальных данных используется значение величины в момент времени t, а в качестве тесто- вой части — остальные. Ниже в уравнении 4.6 выполняется усреднение (вычисляется сред- нее значение) начальных данных и строится прогноз на следующий период. Е,+1 = (4.6) t м Как только новое наблюдение станет доступным, для прогнозирования на следующий период Y/+2 в уравнении 4.6 при вычислении среднего следует учесть и это наблюдение. Если одновременно предсказывается большое количество рядов данных (например, для нужд управления товарно-материальным снабжением), хранение данных может стать серьезной проблемой. Но она перестанет быть таковой, если обратиться к уравнению 4.7. В этом случае потребуется сохранять в принципе только наиболее “свежие” прогнозы и наблюдения; ведь время не стоит на месте. у = +'1 (4.7) г + 1 Метод простых средних приемлем в тех случаях, когда процессы, генерирующие вре- менные ряды, стабилизировались, а окружение, в котором существуют эти ряды, в ос- новном, неизменно. В качестве примеров такого типа рядов могут выступать количество продаж, зависящее от текущего уровня усилий продавца; количество продаж продуктов, достигших стадии насыщения своего жизненного цикла; и число планируемых на неделю визитов к врачу или адвокату, количество клиентов которых постоянно. В методе простого среднего для создания прогноза на следующий период используется среднее значение всех значимых прошлых наблюдений. Пример 4.2 Компания Spokane Transit Authority (STA) эксплуатирует парк автобусов, предназначенных для перевозки пожилых и немощных людей. В табл. 4.2 представлен отчет, сколько бензина закуплено для этих автобусов. Фактическое количество бензина, потребляемое автобусом в какой-либо день, — величина случайная, определяемая характером вызова и маршрута. На рис. 4.3 приведен график закупок бензина. На нем видно, что данные о закупках весьма ста-
Методы сглаживания и скользящие средние 139 бильны. А поскольку данные стабильны, можно применить метод простых средних к данным с 1 по 28 недели, чтобы построить прогноз на 29 и 30 недели. Для 29 недели прогноз будет иметь следующий вид. 1 28 г„-^.281.2 Ошибка прогнозирования будет следующей. е29 = У29 - У29 = 302 - 281,2 = 20,8 В прогнозе для 30 недели данных на одно значение больше (302). Поэтому прогнозирование даст такой результат. v 28У28+1 + У28+1 728+2 ’ 28 + 1 У _ 28(У29) + У29 730--------29 Узо = =281,9 29 Соответственно, ошибка прогнозирования для 30 недели будет следующей. е30 = Узо-?30 = 285-281,9 = 3,1 Тогда для 31 недели метод простых средних даст следующий прогноз. 30 730+1 = У31= — =282 30 Таблица 4.2. Закупки бензина компанией Spokane Transit Authority Неделя, t Количество, Yt Неделя, t Количество, Yt Неделя, t Количество, Yt 1 275 11 302 21 310 2 291 12 287 22 299 3 307 13 290 23 285 4 281 14 311 24 250 5 295 15 277 25 260 6 268 16 245 26 245 7 252 17 282 27 271 8 279 18 277 28 282 9 264 19 298 29 302 10 288 20 303 30 285
140 ГЛАВА 4 Gasoline Purchases for Spokane Transit Authority Рис. 4.3. Недельные закупки бензина в компании Spokane Transit Authority (приложение Minitab) Скользящие средние При использовании метода простых средних прогнозирование выполняется на основе усреднения всех существующих данных. Но иногда аналитика больше интересуют самые последние наблюдения. Тогда можно фиксировать число точек данных, подлежащих ус- реднению, и ограничиться только последними наблюдениями. Для описания такой мо- дели используется термин скользящее среднее. Как только новое наблюдение становится доступным, оно включается в усреднение, а наиболее старое, соответственно, исключа- ется. Вновь вычисленное скользящее среднее используется для создания прогноза на следующий период. Уравнение 4.8 дает простой пример модели скользящего среднего. Скользящее среднее порядка к, СС(к), определяется выражением YM = (Y'+-Y'-'~.Y-2+- + y,-m) ; (4,8) к где У/+1 — прогнозируемая величина на следующий период; Т, — значение величины в текущем периоде; к — число членов в скользящем среднем. Скользящее среднее для периода t — это арифметическое среднее к последних наблюдений. Следует отметить, что всем наблюдениям присваиваются одинаковые весовые коэф- фициенты. Каждое новое наблюдение включается в среднее по мере его появления, а наиболее старые тотчас исключаются. Скорость реакции на изменения в структуре дан- ных зависит от числа периодов к, участвующих в усреднении.
Методы сглаживания и скользящие средние 141 Важно также, что в методике скользящего среднего используются только последние к наблюдений; и число точек, подлежащих усреднению, не меняется со временем. Модель скользящего среднего не очень хорошо учитывает тренд и сезонные вариации, хотя дела- ет это лучше, чем метод простого среднего. Аналитик может изменять число периодов к в скользящем среднем. В скользящем среднем порядка 1, СС(1), последнее наблюдение Y, является прогнозом на следующий период. Этот случай полностью соответствует модели наивного прогнозирования, опре- деленной в уравнении 4.1. Скользящее среднее порядка к — это среднее значение к последовательных наблюдений. Пример 4.3 Прогнозирование на основе методики скользящего среднего демонстрируется в табл. 4.3. Для данных компании Spokane Transit Authority использовано пятинедельное скользящее среднее. Прогноз для 29 недели будет следующим. у _ (^28 ^28-1 '*’^28-2 *’•••*’^28-5+1) у _ (^+^+^+^+^24) - (282 + 271 + 245 + 260 + 250) 1308 , 2 29“ ---------------------- — ---- — 261,6 Таблица 4.3. Закупки бензина компанией Spokane Transit Authority е, f Количество i 275 * * 2 291 * * 3 307 * * 4 281 * * 5 295 * * 6 268 289.8 -21.8 7 252 288.4 -36.4 8 279 280.6 -1.6 9 264 275.0 -11.0 10 288 271.6 16.4 И 302 270.2 31.8 12 287 277.0 10.0 13 290 284.0 6.0
142 ГЛАВА 4 t Количество Y, е, 14 311 286.2 24.8 15 277 295.6 -18.6 16 245 293.4 -48.4 17 282 282.0 0.0 18 277 281.0 -4.0 19 298 278.4 19.6 20 303 275.8 27.2 21 310 281.0 29.0 22 299 294.0 5.0 23 285 297.4 -12.4 24 250 299.0 -49.0 25 260 289.4 -29.4 26 245 280.8 -35.8 27 271 267.8 3.2 28 282 262.2 19.8 29 302 261.6 40.4 30 285 272.0 13.0 Когда действительное значение для 29 недели станет известно, рассчитывается ошибка про- гнозирования. e29=Y29- У29 =302-261,6 = 40,4 Прогноз на 31 неделю будет следующим. у _ (^30 + ^30-1 + Уо-2 +••• + ^30-5+1) 130+1 - ------------------------- у _ (УзО + ^29 + ^28 + ^27 + Уб) Уз.- - - (285 + 302 + 282 + 271 + 245) 1381 Ул = -------------------------- =------ = 277 5 5 Для расчета прогноза методом скользящего среднего можно использовать приложение Minitab (см. раздел “Применение Minitab” в конце главы). На рис. 4.4 изображены графики изменений величины закупок наряду с прогнозами этих величин для соответствующих пе- риодов, выполненными методом скользящего пятинедельного среднего. Также здесь можно видеть, что Minitab позволяет определить среднеквадратическую ошибку {MSE, а в Minitab — MSD), среднюю ошибку в процентах {МАРЕ) и среднее отклонение {MAD).
Методы сглаживания и скользящие средние 143 Рис. 4.4. Прогноз недельных закупок бензина компании Spokane Transit Authority, выполненный с применением метода скользящего пятинедельного среднего (приложение Minitab) На рис. 4.5 представлена автокорреляционная функция остатков для метода скользящего пятинедельного среднего. Выполнив тест Льюинга-Бокса для шести временных интервалов, можно сделать вывод, что полученный ряд не случаен. Действительно, девятинедельная мо- дель дает лучший прогноз для этих данных, поскольку модели больших порядков менее чув- ствительны к флуктуациям в рядах данных. Autocorrelation Function for Example 4.3 Residuals 7.39 10.13 21.81 35.74 37.46 2 3 4 5 6 0.32 -1.21 -2.31 -2.06 -0.61 0.08 -0.30 -0.60 -0.64 -0.22 Рис. 4.5. Автокорреляционная функция остатков при использовании пятинедельного скользящего среднего для данных компании Spokane Transit Authority (приложение Minitab)
144 ГЛАВА 4 Аналитик может самостоятельно определить, сколько дней, недель, месяцев или кварталов нужно учитывать в скользящем среднем. Чем меньше их число, тем больший удельный вес приобретают последние периоды. И наоборот, большее число используе- мых периодов уменьшает удельный вес последних периодов. Если ряды подвержены неожиданным изменениям, то уместно было бы использовать в модели меньшее количество данных. В то же время большее количество данных в модели необходимо в тех случаях, когда в рядах наблюдаются отдельные редкие флуктуации. В главе 5 будет показано, что скользящее среднее зачастую используется для сглаживания компонент внутри самих временных рядов на основе квартальных или месячных данных. Для квартальных данных четырехквартальное скользящее среднее, СС(4), дает среднее значение для четырех кварталов. А для месячных данных 12-месячное скользящее сред- нее, СС(12), усредняет или устраняет сезонные явления. Чем больший порядок скользя- щего среднего, тем ощутимее эффект сглаживания. В примере 4.3 методика скользящего среднего применяется к стабильным данным. Из примера 4.4 видно, что происходит, если метод скользящего среднего применяется к данным, имеющим какой-либо тренд. Ниже рассматривается методика двойного сколь- зящего среднего, разработанная специально для оперирования данными, имеющими су- щественный тренд. Двойные скользящие средние Одним из способов построения прогноза для данных, имеющих линейный тренд, являет- ся использование методики двойных скользящих средних. Этот метод подразумевает именно то, о чем говорит его название: сначала вычисляется ряд значений методом скользящих средних, а потом уже этот набор прогнозов усредняется этим же методом. Ниже в табл. 4.4 представлены данные о доходах от проката видеокассет компании Movie Video Store. Тут же приводятся результаты прогнозирования объемов проката ме- тодом трехнедельного скользящего среднего. Изучив колонку ошибок в этой таблице, можно увидеть, что каждая из записей положительна. Это означает, что подобный метод прогнозирования не учитывает тренда. Таблица 4.4. Недельные доходы от проката для компании Movie Video Store t Сдано в прокат за неделю, У, Скользящий итог за 3 недели Прогноз, е. 1 654 - - - 2 658 - - - 3 665 1997 - - 4 672 1995 659 13 5 673 2010 665 8 6 671 2016 670 1 7 693 2037 672 21 8 694 2058 679 15
Методы сглаживания и скользящие средние 145 Окончание табл. 4.4 t Сдано в прокат за неделю, У, Скользящий итог за 3 недели Прогноз, YM е< 9 701 2088 686 15 10 703 2098 696 7 11 702 2106 699 3 12 710 2115 702 8 13 712 2124 705 7 14 711 2133 708 3 15 728 2151 711 17 16 - 717 MSE= 133 На рис. 4.6 для данных из табл. 4.4 представлены прогнозы, вычисленные по методам скользящего среднего и двойного скользящего среднего. Из графика видно, что прогно- зы, сделанные с помощью скользящего среднего, постоянно отстают от действительных значений соответствующих периодов. Этот пример иллюстрирует результаты примене- ния методики скользящего среднего к данным, в которых есть тренд. Видно также, что прогнозы на основе двойного скользящего среднего запаздывают по сравнению с мето- дом скользящего среднего в той же мере, в какой метод скользящего среднего отстает от реальных величин. Рис. 4.6. Трехнедельное простое и двойное скользящее среднее для данных компании Movie Video Store
146 ГЛАВА 4 Способ расчета двойного скользящего среднего описывается уравнениями 4.9-4.12. Прежде всего для вычисления скользящего среднего используется уравнение 4.8. к Затем для вычисления вторичного скользящего среднего применяется уравнение 4.9. _ (М, +М,, + M,2+...+M,ttl) к Для того чтобы построить прогноз, в уравнении 4.10 к первичному скользящему средне- му прибавляется разница между первичным и вторичным скользящими средними. а, = М, + (И - Л/,) = 2М, - М, (4.10) В уравнении 4.11 вводится дополнительный корректировочный фактор, сходный с ко- эффициентом наклона, который может меняться для различных диапазонов значений в ряду. 2 Ь,= —-{М-М^ (4.11) к-1 И наконец, в уравнении 4.12 делается прогноз нар периодов вперед. Г»? = а, + Ь,р (4.12) Здесь к— количество периодов, задействованных в скользящем среднем; р — количество периодов вперед, на которое делается прогноз. Пример 4.4 Компания Movie Video Store владеет в Денвере, шт. Колорадо, несколькими заведениями по прокату видеофильмов. Компания растет и нуждается в расширении складских помещений, чтобы справиться с увеличением спроса на ее услуги. Президент компании поручил Джил От- тенбрит (Jill Ottenbreit) спрогнозировать доход от проката видеокассет на следующий месяц. Данные о доходах от проката за последние 15 недель приведены в табл. 4.5. Таблица 4.5. Прогноз метадом двойного скользящего среднего для данных компании Movie Video Store t Y, M, at b, a + bp, (P = l) et 1 2 3 4 5 6 7 8 1 654 - - - - - - 2 658 - - - - - - 3 665 659 - - - - - 4 672 665 - - - - - 5 673 670 665 675 5 - 6 671 672 669 675 3 680 -9
Методы сглаживания и скользящие средние 147 ИМ t Y, м, а. b, Окончание табл. 4.5 a + bp, (Р = 1) et 1 2 3 4 5 6 7 8 7 693 679 634 684 5 678 15 8 694 686 679 693 7 689 5 9 701 696 687 705 9 700 1 10 703 699 694 704 5 714 -И 11 702 702 699 705 3 709 -7 12 710 705 702 708 3 708 2 13 712 708 705 711 3 711 1 14 711 711 708 714 3 714 -3 15 728 717 712 722 5 717 11 16 - - - - 727 Значение MSE = 63,7 Джил сначала попыталась сделать прогноз на основе метода трехнедельного скользящего среднего. Для такой модели MSE оказалось равным 133. Поскольку наличие тренда в данных очевидно, она пришла к выводу, что ее прогноз будет недооценивать величину реальных до- ходов. Поэтому она решила применить методику двойного скользящего среднего. Результаты применения этой методики показаны в табл. 4.5. Чтобы пояснить полученное значение про- гноза для 16 недели, ниже приводятся детальные расчеты. Для определения трехнедельного скользящего среднего (колонка 3) использовалось уравнение 4.8. I/ _ у _ (^15 + ^15-1 + ^15-2 + •" + ^15-3+1) ЛЯ 15 - 115+1 - ------------------------ - (728 + 711 + 712) Л/15 = У16 =--------------=717 Для двойного скользящего среднего (столбец 4) применяется уравнение 4.9. = ^15 +^15-1 А/15-2 Л-... + М15 3+1) . (717 + 711 + 708) М]5 - ----------------- = 712 3 Для вычисления разницы между двумя скользящими средними (столбец 5) используется уравнение 4.10. а15 = 2Л/|5 - М15 = 2(717) - 712 = 722 Уравнение 4.11 рассчитывает наклон (столбец 6). 2 bi5= — (Л/15-Л/15) = 2/2(717 -712) = 5
148 ГЛАВА 4 Для прогноза на один период в будущее использовано уравнение 4.12 (столбец 7). + = 722 + 5(1) = 727 Прогноз на четыре недели вперед будет следующим. У15+4 = al5 + Ь15р = 722 + 5(4) = 742 Обратите внимание на то, что в результате MSE уменьшилось с 133 до 63,7. Это подтверждает обоснованность предположения о том, что более “свежие” наблю- дения содержат больше важной информации. В методе, который вводится в следующем разделе, более свежим наблюдениям придается еще больший вес. Методы экспоненциального сглаживания По сравнению с методами скользящих средних, где задействованы только наиболее све- жие данные, в методе простого экспоненциального сглаживания применяется взвешен- ное (экспоненциально) скользящее усреднение всех данных предыдущих наблюдений. Эта модель чаще всего применяется к данным, о которых заранее не известно, имеют ли они тренд. Целью такого подхода является оценка текущего состояния, результаты кото- рой и определят все последующие прогнозы. Экспоненциальное сглаживание предусматривает постоянное обновление модели за счет наиболее свежих данных. Этот метод основывается на усреднении (сглаживании) временных рядов прошлых наблюдений в нисходящем (экспоненциально) направлении. Иными словами, здесь более поздним событиям присваивается больший вес. Вес при- сваивается следующим образом: для последнего наблюдения весом будет величина а, для предпоследнего — (1 - а), для того, которое было перед ним, — (1 - а)2 и т.д. В сглаженном виде новый прогноз (для периода времени /+ 1) можно представлять как взвешенное среднее последнего наблюдения величины в момент времени г и ее прежнего прогноза на этот же период /. Причем вес а присваивается наблюдаемому зна- чению, а вес (1 - а) — прогнозу; при этом полагается, что 0 < а < 1. Это правило в общем виде можно записать следующим образом. Новый прогноз = [ах (последнее наблюдение)] + [(1 - а) х последний прогноз] Более формально данное выражение можно записать так: У/+1 = аУ, + (1-а)У,я (4.13) где У ,+1 — прогнозируемое значение на следующий период; а — постоянная сглаживания (0 < а < 1); Y , — наблюдение величины за текущий период /; У , — прежний сглаженный прогноз этой величины на период t. Чтобы прояснить смысл постоянной а, уравнение 4.13 можно переписать в следую- щем виде. У,+1 = аУ, + (1 - а)У, У,+1 = аУ, + Y, - аУ, У(+1 = У, + а(У, - У,) Экспоненциальное сглаживание — это просто старый прогноз (У,) с уточнением в виде про- изведения а на ошибку последнего прогноза (У, - У,).
Методы сглаживания и скользящие средние 149 Экспоненциальное сглаживание — это процедура для постоянного пересмотра результа- тов прогнозирования в свете самых последних событий. Постоянная сглаживания а является взвешивающим фактором. Ее реальное значение определяется тем, в какой мере текущее наблюдение должно влиять на прогнозируемую величину. Если а близко к 1, значит, в прогнозе существенно учитывается величина ошибки последнего прогнозирования. И наоборот, при малых значениях а прогнозируе- мая величина наиболее близка к предыдущему прогнозу. Можно представить У, как взве- шенное среднее значение всех прошлых наблюдений с весовыми коэффициентами, экс- поненциально убывающими с “возрастом” данных.' Скорость, с которой прошедшие на- блюдения теряют свою значимость, можно проследить по табл. 4.6. Постоянная а является ключом к анализу данных. Если требуется, чтобы спрогнозиро- ванные величины были стабильны и случайные отклонения сглаживались, необходимо вы- бирать малое значение а. Большее значение постоянной а имеет смысл в том случае, если нужна быстрая реакция на изменения в спектре наблюдений. Для оценки оптимального значения а один из методов состоит в минимизации среднеквадратической ошибки (MSE), которая определяется уравнением 3.8. Последовательно вычисляются прогнозы при а, рав- ном 0,1; 0,2;...; 0,9, и рассчитывается величина среднеквадратической ошибки прогнозиро- вания для каждого из них. То значение а, для которого величина ошибки будет наимень- шей, и выбирается для дальнейшего использования в прогнозах. При использовании уравнения 4.13 необходимо оговорить начальное сглаженное зна- чение. Одна из моделей предлагает установить первую оценку равной первому наблюде- нию. Эта модель показана в примере 4.5. В ином методе в качестве начального использу- ется среднее значение первых пяти или шести наблюдений. Пример 4.5 Методика выполнения экспоненциального сглаживания демонстрируется в табл. 4.7 и на рис. 4.7 и 4.8. Для данных компании Acme Tool за 1994—2000 гт. постоянная сглаживания взята равной 0,1 и 0,6. Данные за 2000 год составят тестовую часть; по ним будет сделана оценка эффективности ка- ждой из моделей. Для экспоненциального сглаживания рядов начальное значение У, берется рав- ным 500. Если имеются более ранние данные (до 1994 года), то можно, предварительно сгладив, взять их как начальные. Ниже приведены этапы вычисления прогноза для периода 3. 1. Прогноз на период 3 определяется следующим образом. У,+1 = aY,+ (1 - а)У, У2+1 = аУ2+(1-а)У2 У3 = 0,1(350) + (1 - 0,1)500 = 485 2. Ошибка прогнозирования будет следующей. е3 = У3 - У3 = 250 - 485 = -235 3. Прогноз для периода 4 таков. У4 = 0,1(250) + 0,9(485) = 461,5 1 Поскольку в уравнении 4.13 неявно предполагается, что Y, = CtY,-! + Yt-1, подстановка выражения для Y, в уравнение 4.13 даст Y-l = UY, + (1 — а)[ОД-7 + Yt-1], где коэффициентом перед Y,-l является а(1 - а). Продолжение подстановки позволяет представить Y,-l как сумму текущего и предыдущих значений Y с экспоненциально убывающими весовыми коэффициентами.
150 ГЛАВА 4 4. Для постоянной сглаживания, равной 0,1, прогнозируемая величина для первого кварта- ла 2000 года равна 469. При постоянной сглаживания, равной 0,6, — прогноз дает 576. Таблица 4.6. Сравнение влияния разных значений постоянных сглаживания Период а = 0,1 а = 0,6 Расчет Вес Расчет Вес t 0,100 0,600 Г-1 0,9 х 0,1 0,090 0,4 х 0,6 0,240 Г-2 0,9 х 0,9 х 0,1 0,081 0,4 х 0,4 х 0,6 0,096 Г-3 0,9x0,9x0,9x0,1 0,073 0,4 х 0,4 х 0,4 х 0,6 0,038 Г-4 0,9x0,9x0,9x0,9x0,1 0,066 0,4 х 0,4 х 0,4 х 0,4 х 0,6 0,015 Остальные 0.590 0,011 Всего 1,000 1,000 Таблица 4.7. Экспоненциально сглаженные значения объемов продаж для компании Время Действительное Сглаженное Ошибка Сглаженное Ошибка значение значение У, прогноза значение Yt прогноза Год Квартал Ъ (а = 0,1) е, (а = 0,6) е» 1994 1 500 500,0 0,0 500,0 0,0 2 350 500,0 -150,0 500,0 -150,0 3 250 485,0 -235,0 410,0 -160,0 4 400 461,5 -61,5 314,0 86,0 1995 5 450 455,4 -5,4 365,0 84,4 6 350 454,8 -104,8 416,2 -66,2 7 200 444,3 -244,3 376,5 -176,5 8 300 419,9 -119,9 270,6 29,4 1996 9 350 407,9 -57,9 288,2 61,8 10 200 402,1 -202,1 325,3 -125,3 И 150 381,9 -231,9 250,1 -100,1 12 400 358,7 41,3 190,0 210,0 1997 13 550 362,8 187,2 316,0 234,0 14 350 381,6 -31,5 456,4 -106,4 15 250 378,4 -128,4 392,6 -142,6 16 550 365,6 184,4 307,0 243,0
Методы сглаживания и скользящие средние 151 Окончание табл. 4,7 Время Действительное значение Сглаженное значение Yt Ошибка прогноза Сглаженное значение Y, Ошибка прогноза Год Квартал Y. (а = 0,1) е, (а = 0,6) е, 1998 17 550 384,0 166,0 452,8 97,2 18 400 400,6 -0,6 511,1 -111,1 19 350 400,5 -50,5 444,5 -94,5 20 600 395,5 204,5 387,8 212,2 1999 21 750 415,9 334,1 515,1 234,9 22 500 449,3 -50,7 656,0 -156,0 23 400 454,4 -54,4 562,4 -162,4 24 650 449,0 201,0 465,0 185,0 2000 25 850 469,0 576,0 Рис. 4.7. Экспоненциальное сглаживание с а = 0,1 для данных компании Acme Tool (приложение Minitab)
152 ГЛАВА 4 Simple Exponential Smoothing Using Alpha = .6 Time • Actual a Predicted ----Actual ----Predicted Smoothing Constant Alpha: 0.600 MAPE: 36.5 MAD: 134.5 MSD: 22248.4 Puc. 4.8. Экспоненциальное сглаживание с a =0,6 для данных компании Acme Tool (при- ложение Minitab) Обратите внимание на то, насколько стабильны сглаженные значения данных при постоянной сглаживания, равной 0,1. Если исходить из минимизации среднеквадратиче- ской ошибки MSE (в Minitab она обозначена как MSD), то значение а, равное 0,6, дает лучший результат. Если сравнивать значения средних абсолютных ошибок в процентах (МАРЕ), то значение 0,6 все равно будет лучше. Сравнение прогнозов при каждом значе- нии постоянной сглаживания с действительными объемами продаж за первый квартал 2000 года показывает, что значение постоянной, равное 0,6, также оказывается наиболее эффективным. Если подытожить сказанное, то получится следующая картина. а = 0,1 MSE = 24 264 МАРЕ = 38,9% а = 0,6 MSE = 22 248 МАРЕ = 36,5% Как уже говорилось ранее, еще одним фактором, влияющим на прогнозирование, яв- ляется выбор начальной величины для сглаживания, Y}. Из табл. 4.7 следует, что для примера 4.5 в качестве начальной взята величина = У, = 500. Такой выбор придает ей слишком большой вес в последующих прогнозах. Но, к счастью, влияние начальных данных быстро падает с ростом времени /. В другой модели для получения начального значения для сглаживания предлагается усреднить первые к наблюдений. Тогда сглаживание начнется со следующего значения. 1=1 Пример 4.6 В этом примере рассматривается вычисление начальной величины как среднего значения для данных компании Acme Tool, представленных в табл. 4.5. Если значение к выбрать равным 6, то начальное значение будет следующим.
Методы сглаживания и скользящие средние 153 = 1/6 = 1/6(500 + 350 + 250 + 400 + 450 + 350) = 383,3 ;=i Ниже приведены значения MSE и МАРЕ для различных постоянных сглаживания а при на- чальном значении 383,3. а = 0,1 МЖ=21091 М4Р£=32,1% а = 0,6 MSE = 22 152 МАРЕ = 36,7% Для а = 0,1 выбранное начальное значение уменьшает значение и MSE, и МАРЕ, однако этого не наблюдается при а = 0,6. Поэтому теперь лучшей моделью будет та, в которой а = 0,1, вме- сто а = 0,6. В приложении Minitab для вычисления начального значения коэффициент к берется равным 6, при этом для выбора постоянной сглаживания применяется процедура минимиза- ции. На рис. 4.9 показан результат обработки данных из табл. 4.5 в приложении Minitab (см. раздел “Применение Minitab” в конце главы). С целью оптимизации MSE величина постоян- ной а автоматически взята равной 0,266. При этом MSE уменьшается до 19 477, МАРЕ рав- на 32,2 %, а МРЕ--6,4 %. Прогноз на первый квартал 2000 года — 534. Simple Exponential Smoothing Using Alpha = .266 Time • Actual a Predicted ----Actual ----Predicted Smoothing Constant Alpha: 0.266 MAPE: 32.2 MAD: 117.5 MSD: 19447.0 Puc. 4.9. Экспоненциальное сглаживание с a = 0,26 для данных компании Acme Tool (при- ложение Minitab) На рис. 4.10 показана автокорреляционная функция остатков для простого экспоненци- ального метода сглаживания при а = 0,266. Большое значение LBQ в результате проведения теста Льюинга-Бокса для шести интервалов означает, что ряды не случайны. Во втором и чет- вертом интервалах большие автокорреляционные остатки свидетельствуют о том, что сезон- ные вариации данных не учитываются простым экспоненциальным сглаживанием.
154 ГЛАВА 4 Autocorrelation Function for Example 4.6 Residuals Puc. 4.10. Автокорреляционная функция остатков в методе экспоненциального сглаживания для данных компании Acme Tool (приложение Minitab) Поскольку при экспоненциальном сглаживании неслучайная структура в данных сохра- няется и в будущем, оно применимо для введения нормативов, которые должны опреде- лять, когда следует вносить изменения в схему. Следящий сигнал — это одна из возможно- стей учета изменений. Такой сигнал выполняет две задачи: постоянный расчет степени ошибочности прогнозирования и определение пределов ошибки, выход за которые дол- жен приводить к прерыванию прогнозирования. Следящий сигнал выполняет две задачи: постоянную оценку степени ошибочности прогнозирования и определение предельно допустимой ошибки, выход за которую должен прерывать прогнозирование. Например, с помощью следящего сигнала можно узнать, когда нужно изменять зна- чение постоянной сглаживания а. Поскольку прогноз обычно строится для большого ко- личества наименований, как правило, одно и то же значение а применяется в течение многих периодов, прежде чем будет предпринята попытка проверить необходимость его изменения. К несчастью, сильным аргументом против внесения изменений в значение постоянной а является простота применения отлаженной модели экспоненциального сглаживания. Но иногда действительно возникает необходимость замены а. Когда мо- дель начинает давать прогнозы с большой долей ошибок, изменения просто необходимы. Применение следящего сигнала — это метод отслеживания необходимости измене- ний. В такой системе задан диапазон допустимых отклонений прогноза от реального зна- чения прогнозируемой величины, и пока прогноз попадает в область допустимых значе- ний, необходимости в изменении постоянной сглаживания а нет. В противном случае,
Методы сглаживания и скользящие средние 155 когда полученный прогноз выходит за рамки допустимого диапазона, система сигнали- зирует о необходимости замены значения постоянной а. Например, если дела идут хорошо, методика прогнозирования с одинаковой частотой как переоценивает, так и недооценивает прогнозируемые величины. На этом логичном выводе можно построить следующую методику организации работы следящего сигнала. Пусть U равно числу недооценок в последних п прогнозах. Иными словами, U — это число ошибок из последних k, которые больше нуля. Если ситуация под контролем, то можно ожидать, что U = Л/2; но с учетом вариабельности выборки значение, достаточно близкое к к!2, тоже будет вполне приемлемо. С другой стороны, значение, сильно отли- чающееся от Л/2, сигнализирует, что в прогнозах имеет место перекос. Пример 4.7 Допустим, что в компании Acme Tool решено применить методику экспоненциального сгла- живания с а = 0,1, как показано в примере 4.5. Процесс прогнозирования необходимо кон- тролировать, и аналитик решил отслеживать значение последних 10 ошибок. Предполагаемое значение Uравно 5. В этом случае значения 11= 2, 3, 4, 5,6, 7 или 8 не вызовут особой трево- ги. Напротив, значения 0, 1, 9 и 10 должны вызывать беспокойство, поскольку вероятность появления подобной величины очень мала (0,022, считая распределение биномиальным). Будем считать, что если 8 > U > 2, тогда прогноз адекватен. Если U< 2 или U > 8, то прогнозирование дает недопустимую ошибку. В частности, в нашем примере из 10 прогнозов, сделанных по выбранной методике, толь- ко первый дает положительную ошибку. Так как вероятность обнаружения только одной по- ложительной ошибки крайне мала (0,011), ситуацию следует понимать как недопустимую (прогноз характеризуется переоценкой). Можно сделать обоснованный вывод, что значение постоянной сглаживания а необходимо изменить. Иной способ отслеживания процесса прогнозирования состоит в определении диапа- зона, в который должна попадать ошибка прогнозирования. Это можно реализовать так же, как и в случае оптимизации значения постоянной а. Если методика экспоненциаль- ного сглаживания достаточно точна, то ошибка прогнозирования в среднем близка к ну- лю. При этом существует вероятность (равная 95%), что реальное наблюдение попадет в диапазон приблизительно из 2 стандартных отклонений прогноза. Поэтому для следя- щего сигнала будет достаточно установить приблизительно 95%-ный предел точности. Работа этой модели иллюстрируется в примере 4.8. Пример 4.8 Для приведенных выше данных компании Acme Tool оптимальное значение постоянной сглаживания а было определено как а = 0,266; при этом MSE = 19 447. Среднеквадратическое отклонение ошибки прогнозирования будет равно д/MSE , или V19.447 = 139,5. Если ошиб- ки распределены нормально, в среднем около нуля, то существует 95%-ная вероятность, что реальное наблюдение попадет в диапазон из приблизительно 2 стандартных отклонений прогноза. ±2 -4MSE = ±2-719447 = ±2(139,5) = ±279 Следовательно, допустимое отклонение равно 279. Если для последующих отклонений абсо- лютная ошибка будет больше 279, это может послужить причиной для поисков более подхо- дящего значения а или выбора иной методики прогнозирования.
156 ГЛАВА 4 Тема мониторинга процесса прогнозирования, затронутая выше, в той же мере отно- сится и ко всем остальным методам, рассматриваемым ниже в этой главе. Следует отметить, что в методике экспоненциального сглаживания предполагается, что данные колеблются около уровня, который меняется нечасто. Когда же в данных присутствует значительный тренд, простое экспоненциальное сглаживание постоянно отстает от реальных наблюдений. Далее рассматривается методика линейного экспонен- циального сглаживания Хольта, разработанная для оперирования данными, имеющими существенный тренд. Экспоненциальное сглаживание с учетом тренда: метод Хольта В простом методе экспоненциального сглаживания предполагалось, что уровень значений временных рядов меняется редко; поэтому в нем необходима оценка лишь текущего уров- ня. В некоторых случаях данные наблюдений могут иметь заметный тренд, т.е. включают информацию, которая позволит учитывать возможные будущие повышения. В подобной ситуации необходима функция прогнозирования линейного тренда. Поскольку в экономи- ке или бизнесе временные ряды редко характеризуются фиксированным линейным трен- дом, следует рассмотреть возможность учета локального линейного тренда, меняющегося со временем. В 1957 году Хольт (Holt) разработал метод экспоненциального сглаживания, получивший название двухпараметрического метода Холыпа. В этом методе учитывается ло- кальный линейный тренд, присутствующий во временных рядах. Если во временных рядах имеется тенденция к росту, то вместе с оценкой текущего уровня необходима и оценка наклона. В методике Хольта значения уровня и наклона сглаживаются непосредственно, при этом используются различные постоянные сглажи- вания для каждого из них. Эти постоянные сглаживания позволяют оценить текущий уровень и наклон, уточняя их всякий раз, когда появляются новые наблюдения. Одним из преимуществ методики Хольта является ее гибкость, позволяющая выбирать соотно- шение, в котором отслеживаются уровень и наклон. Ниже приведены три уравнения, составляющие метод Хольта. 1. Экспоненциально сглаженный ряд или оценка текущего уровня. Д=аГ,+ (1-а)(Д_1-Г,_1) (4.14) 2. Оценка тренда. Т, = Р(£/-£,_1) + (1-₽)7’ы (4-15) 3. Прогноз на р периодов вперед. Yl+p = L,+PT„ (4.16) где Lt — новая сглаженная величина; а — постоянная сглаживания для данных (0 < а < 1); К, — новое наблюдение или реальное значение ряда в период г; Р — постоянная сглаживания для оценки тренда (0 < Р < 1); Т, — собственно оценка тренда; р — количество периодов вперед, на которое делается прогноз; Y,+/, — прогноз на р периодов вперед.
Методы сглаживания и скользящие средние 157 Уравнение 4.14 очень похоже на исходное уравнение 4.13 для простого экспоненци- ального сглаживания, за исключением члена, учитывающего тренд (Г,). Тренд оценивает- ся при подсчете разницы между двумя последовательными экспоненциально сглажен- ными значениями уровня (Л,- L^x). Поскольку последовательные величины сглаживают- ся случайно, их разница учитывает весь тренд в данных. Постоянная Р нужна для сглаживания оценки тренда. В уравнении 4.15 оценка трен- да, (L, - L^x), умножается на р и суммируется со старой оценкой тренда, (7)), умноженной на (1 - Р). Уравнение 4.15 очень похоже на уравнение 4.14, однако в нем сглаживанию в первую очередь подвергается тренд, а уже потом данные. В результате уравнение 4.15 дает сглаженный тренд, исключающий всякую случайность. Уравнение 4.16 описывает прогноз на/? периодов вперед. Оценка тренда (Г,) умножа- ется на число периодов р, на которое строится прогноз, а затем это произведение прибав- ляется к текущему уровню L сглаженных данных. Как и при обычном экспоненциальном сглаживании, постоянные аир выбираются субъективно или путем минимизации ошибки прогнозирования, например значения MSE. Чем большие значения весов будут взяты, тем более быстрый отклик на происхо- дящие изменения будет иметь место. И наоборот, если веса будут небольшие, то и реак- ция модели на изменения в данных будет более слабой. Поэтому чем большие веса задей- ствуются, тем большему сглаживанию подвергаются данные. Меньшие веса делают структуру сглаженных значений менее ровной. Для минимизации значения MSE нужно создать сетку значений аир (т.е. все комби- нации а = 0,1, 0,2, ..., 0,9 и Р = 0,1, 0,2, ..., 0,9) и выбрать ту комбинацию, которая даст меньшее значение MSE. Особый случай имеет место, когда а = Р, поскольку здесь в оди- наковой мере проводится сглаживание как текущего уровня значений, так и тренда. Та- кой вариант называется двойным экспоненциальным сглаживанием Брауна (Brown). Для того чтобы воспользоваться алгоритмом уравнения 4.14, нужно иметь набор из начальных величин и тренда. Одно из возможных решений состоит в том, чтобы первую оценку положить равной первому наблюдению. При этом тренд будет равен нулю. Другое решение — это определить начальное значение как среднее для первых пяти или шести наблюдений. Тогда тренд можно оценить наклоном линии, образованной этими пятью или шестью точками. В приложении Minitab используется регрессионное уравнение с пе- ременной Y в роли интересующей величины и переменной X, обозначающей время. Кон- станта в этом уравнении — это начальная оценка сглаженного ряда, или текущий уровень значений. А наклон, или коэффициент регрессии, — это начальная оценка составляю- щей тренда. Пример 4.9 Пример 4.6 показывает, что для данных компании Acme Tool не удается построить хороший прогноз по методу простого экспоненциального сглаживания. Из рис. 4.9 следует, что исход- ные данные имеют заметный тренд, поэтому можно попробовать применить к ним метод Хольта. Чтобы начать вычисления, результаты которых приведены в табл. 4.8, необходимо сделать две оценки, а именно — задать начальное значение тренда и начальную сглаженную величину. В данном примере начальная оценка тренда приравнивается к нулю, а оценке на- чальной величины соответствует первое наблюдение. При расчете результатов, приведенных в табл. 4.8, использовались значения а = 0,3 и (3 = 0,1.
158 ГЛАВА 4 Таблица 4.8. Прогноз продаж для компании Acme Tool, рассчитанный с применением метода Хольта s ™ ~ «чял, у«®» л тмя» -^»в»>ы»ляя Год 1 t 2 К 3 Lt 4 Т, 5 Yl+P 6 е, 7 1994 1 500 500,0 0 500,0 0 2 350 455,0 -4,5 500,0 -150,0 3 250 390,4 -10,5 450,5 -200,5 4 400 385,9 -9,9 379,8 20,2 1995 5 450 398,2 -7,7 376,0 74,0 6 350 378,3 -8,9 390,5 -40,5 7 200 318,6 -14,0 369,4 -169,4 8 300 303,2 -14,1 304,6 - 4,6 1996 9 350 307,4 -12,3 289,1 60,9 10 200 266,6 -15,2 295,1 -95,0 11 150 221,0 -18,2 251,4 -101,4 12 400 262,0 -12,3 202,8 197,2 1997 13 550 339,8 -3,3 249,7 300,3 14 350 340,6 -2,9 336,5 13,5 15 250 311,4 -5,5 337,7 -287,7 16 550 379,1 1,8 305,9 244,1 1998 17 550 431,7 6,9 381,0 169,0 18 400 427,0 5,7 438,6 -38,6 19 350 407,9 3,3 432,7 -82,7 20 600 467,8 8,9 411,2 188,8 1999 21 750 558,7 17,1 476,8 273,2 22 500 553,1 14,8 575,9 -75,9 23 400 517,6 9,8 567,9 -167,9 24 650 564,2 13,5 527,4 122,6 2000 25 850 577,7 MSE =20515,5. Назначение постоянной сглаживания а соответствует ее роли в модели простого экспо- ненциального сглаживания (уравнение 4.13) и состоит в устранении случайностей в значении данных. Назначение постоянной сглаживания /3 подобно назначению постоянной а, но от- носится к сглаживанию тренда. Обе постоянные устраняют флуктуации путем взвешивания данных прошлых наблюдений. Для прогноза на период 3 проводятся следующие вычисления.
Методы сглаживания и скользящие средние 159 1. Корректирование сглаженного ряда или вычисление текущего уровня. L, = аГ, + (1 -а)(Е,_, -Т„х) L2 = 0,3 Г2 + (1 - 0,3)(L2_i + Ггч) Ьг = 0,3(350) + 0,7(500 + 0) = 455 2. Корректирование оценки тренда. 7’, = ₽(Д-Д_,) + (1-Р)7’,_1 7’2 = 0,1(Z2-Z2_i) + (1 -0,1)Т2.1 Г2 = 0,1(455 - 500) + 0,9(0) = -4,5 3. Прогноз на один период вперед. Р/+р = Lt + рТ, ^2+1 = Т.2 + 1Т2 Y3 = 455 + 1 (-4,5) = 450,5 4. Определение ошибки прогнозирования. е3 = Y3 - Y3 = 250 - 450,5 = -200,5 Прогнозирование для периода 25 выглядит следующим образом. 1. Корректирование экспоненциально сглаженного ряда. Л24 = 0,3У24 + (1 - 0,3)(Л24_1 + 724-1) £24 = 0,3(650) + 0,7(517,6 + 9,8) = 564,2 2. Корректирование оценки тренда. Г24 = 0,1 (£24 - Л24_|) + (1 - 0,1)7’24_| Г24 = 0,1(564,2 - 517,6) + 0,9(9,8) = 13,5 3. Прогноз на один период вперед. 7^24+1 = Т24 + 1^24 Г25 = 564,2+1(13,5) = 577,7 В отношении минимизации значения MSE эта модель выглядит не лучше модели про- стого экспоненциального сглаживания, в которой используется а = 0,266. Сравнение значений МАРЕ дает те же результаты. Но если сравнить прогноз и реальные продажи за первый квартал 2000 года, то выяснится, что метод Хольта оказывается более точным. Вот общие достигнутые результаты. а = 0,266 MSE = 19 447 МАРЕ = 32,2% а = 0.3, Р = 0,1 MSE = 20 515,5 М4РЕ = 35,4% Результаты обработки данных согласно этой модели с помощью приложения Minitab2 (при постоянных а = 0,3 и Р = 0,1) показаны на рис. 4.11. Ниже на рис. 4.12 приведена ав- токорреляционная функция остатков линейного экспоненциального сглаживания по ме- тоду Хольта. Тест Лыоинга-Бокса, выполненный для шести временных интервалов, по- казывает большое значение LBQ. Это говорит о том, что ряды данных неслучайны. Большое количество ошибок означает, что данные следует внимательно изучить на предмет сезонных вариаций. В приложении Minitab параметр оценки тренда у идентичен параметру р.
160 ГЛАВА 4 Рис. 4.11. Линейный метод экспоненциального сглаживания Хольта для данных компании Acme Tool (приложение Minitab) Autocorrelation Function for Example 4.9 Residuals Lag Согг т LBQ 1 0.09 0.45 0.23 2 -0.63 -3.06 11.47 3 0.07 0.27 11.63 4 0.60 2.18 22.92 5 -0.07 -0.22 23.08 6 -0.62 -1.90 36.33 Puc. 4.12. Автокорреляционная функция остатков в методе Хольта для данных компании Acme Tool (приложение Minitab) Результаты, полученные в примерах 4.6 и 4.9 (рис. 4.9 и 4.11), не сильно различаются, поскольку постоянная сглаживания а в них одна и та же, а постоянная р в примере 4.9 мала. (Если положить Р = 0, то метод сглаживания Хольта сводится к обычному экспо- ненциальному сглаживанию.)
Методы сглаживания и скользящие средние 161 Экспоненциальное сглаживание с учетом тренда и сезонных вариаций: метод Винтерса Если внимательно изучить данные компании Acme Tool, то можно увидеть, что в первом и четвертом кварталах продажи существенно выше, чем в третьем квартале. Это свиде- тельствует о наличии в структуре данных сезонных колебаний. Для уменьшения ошибок прогнозирования существует трехпараметрическая, линейная и сезонная модель экспо- ненциального сглаживания, предложенная в 1960 году Винтерсом (Winters). Этот подход является расширением метода Хольта. Для учета сезонных колебаний здесь задействуется дополнительное уравнение. Оценка уровня сезонности осуществляется с помощью ко- эффициента сезонности, как это видно из уравнения 4.19. В этом уравнении коэффици- ент сезонности (УД,,) умножается на постоянную у и суммируется со старой оценкой се- зонности (St-d, умноженной на (1 - у). Причина того, что член Y, делится на Lt, заключает- ся в необходимости выразить эту величину как коэффициент, а не как абсолютный член, чтобы его можно было использовать для дальнейших усреднений с коэффициентом се- зонности, сглаженным до периода t - s. Модель Винтерса (мультипликативная) определяется четырьмя следующими уравне- ниями. 1. Экспоненциально сглаженные ряды. Y (4.17) L, = а + (1 - + Т,.д v 4 S, * 7 $i-s Оценка тренда. Г, = 3(Z,z - Z.,-0 + (1 - 3)77., (4.18) Оценка сезонности. 2. 3. 5, = Y^+(1-Y)5,-s Л Прогноз на р периодов вперед. (4.19) Y(+p = (Lt+pTtjS/s+p, (4-20) новое сглаженное значение или оценка текущего уровня; постоянная сглаживания для этого уровня; новое наблюдение или реальное значение величины за период; постоянная сглаживания для оценки тренда; оценка тренда; постоянная сглаживания для оценки сезонности; оценка сезонности; количество периодов в будущем, на которое строится прогноз; длительность периода сезонного колебания; прогноз на р периодов вперед. 4. где L, а Y, Р Т, Y S, Р s YH„ Уравнение 4.17 корректирует сглаженные ряды. Оно слегка отличается от аналогич- ного в модели Хольта (уравнение 4.14). В уравнении 4.17 У, делится на.8',_„ учитывая для Y, сезонность и исключая, таким образом, сезонные эффекты, если они имеют место в исходных данных Y,.
162 ГЛАВА 4 После учета сезонности и тренда оценки сглаживаются в уравнениях 4.18 и 4.19, а в уравнении 4.20 делается прогноз. Это уравнение имеет почти такой же вид, как и уравне- ние 4.16, которое в модели Хольта служит аналогичным целям. Разница лишь в том, что оценка на будущий период, t + р, умножается на величину S,_s+/J. Последняя является ко- эффициентом сезонности, который необходим для сезонной корректировки прогноза. Как и в методе линейного экспоненциального сглаживания Хольта, веса а, 0 и у могут выбираться субъективно или путем минимизации ошибки прогнозирования, например значения MSE. Наиболее подходящей методикой для определения этой величины являет- ся алгоритм нелинейной оптимизации постоянных сглаживания. Прежде чем применять уравнение 4.17, требуется установить начальные значения для сглаженных рядов L„ тренда 7), коэффициентов сезонности S,. Одна из схем предлагает установить начальное значение сглаженного ряда равным первому наблюдению. Тогда тренд равен нулю, а коэффициенты сезонности устанавливаются равными 1,0. В другой схеме в качестве начального используется среднее значение за первый сезон или.? (период сезонности) наблюдений. Тогда тренд определяется наклоном линии, образо- ванной этими наблюдениями. Коэффициенты сезонности определяются следующим от- ношением. S, = YJLS В приложении Minitab строится уравнение регрессии с интересуемой переменной в каче- стве неизвестного Y и временем X. Постоянные в этом уравнении — это начальная оцен- ка сглаженных рядов или составляющей уровня и наклон или коэффициент регрессии в начальной оценке составляющей тренда. Начальное значение сезонной составляющей определяется из регрессии с фиктивной переменной и данными с исключенным трендом (см. главу 8). Пример 4.10 В табл. 4.9 методика Винтерса демонстрируется при а = 0,4, 0 = 0,1 и у = 0,3 в применении к данным компании Acme Tool. Постоянная а здесь аналогична той, которая использовалась в модели простого экспоненциального сглаживания (уравнение 4.13), и также служит для ис- ключения случайностей. Постоянная сглаживания 0 выполняет ту же роль, что и постоян- ная а, но уже для сглаживания тренда в данных. Константа у подобна двум предыдущим, но она нужна для сглаживания эффекта сезонности в данных. Для решения данного примера можно применить приложение Minitab3 (см. раздел “Применение Minitab” в конце главы). Результаты приведены в табл. 4.9 и на рис. 4.13. Про- гноз на первый квартал 2000 года дает значение 778,2. Вычисления, выполняемые для про- гноза на период 25 или первый квартал 2000 года, следующие. 1. Экспоненциально сглаженные ряды. Z,, = а—— + (1 - а)(£(-1 + 7)_i) ‘-‘l-S Л24 = 0,4-^- + (1 - 0,4)(Л24_, + Т’24_1) ^24-4 3 В приложении Minitab параметр оценки тренда у идентичен параметру Д а сезонный параметр 8 идентичен параметру у в уравнениях 4.18 и 4.19.
Методы сглаживания и скользящие средние 163 Ди = 0,4 —+0,6(501,286 + 9,148) 1,39628 V Lu = 0,4(465,52) + 0,6(510,434) = 492,469 2. Корректировка тренда. 7’, = р(Д-Дч) + (1-р)Д_1 Т24 = 0,1(£24-Д4_,) + (1-0,1)^, Г24 = 0,1(492,47 - 501,29) + 0,9(9,1484) 7’24 = 0,1(-8,82) +8,234 = 7,35 3. Корректировка сезонности. S, = y^+(l-y)S,_s 524 = 0,3-^- + (1 - 0,3)S24_4 Д24 S24 = 0,3 -^9 - + 0,7(1’,39628) S24 = 0,3(1,32)+ 0,9774= 1,37 4. Прогноз нар периодов вперед. Д4+1 = (7-24 + 1 Д4)5'24-4-Н Г25 = (492,47 + 1(7,35))1,55691 = 778,17 MINITAB - Untitled - IGView “СЛРгсират Fites\MTB_BETA\OaU\bnok\39ch4\fig4-13 д jfte Ы* Her* S«* Suph E$f« £nai» Htp ,|gf 900 800 700 Forecast _____ Actual Predicted Forecast Actual Predicted 600 600 400 300 200 100 15.21 53.55 7вЗв.8А <л Minaab Instructions: STAT>TWE SER!ES>WNTERS' METHOD JBSlail| *, LL'PVM,|I?<MINITAD - UnMIed-1 . ‘<ЗЖ 4W+M Smoothing Constants Mpha (level): 0.4 Gamma (trend): 0.1 Delta (season): DJ МАРЕ MAD: MSD: Puc. 4.13. Прогноз no методу экспоненциального сглаживания Винтерса для данных компании Acme Tool (приложение Minitab)
164 ГЛАВА 4 Таблица 4.9. Прогноз продаж компании Acme Tool по методу Винтерса Год t Y, Е т, S, Y,+P et 1 2 3 4 5 6 7 1994 1 500 415,459 -41,9541 1,26744 563,257 -63,257 2 350 383,109 -40,9937 0,89040 328,859 21,141 3 250 358,984 -39,3068 0,66431 222,565 27,435 4 400 328,077 -38,4668 1,18766 375,344 24,656 1995 5 450 315,785 -35,8494 1,31471 367,063 82,937 6 350 325,194 -31,3235 0,94617 249,255 100,745 7 200 296,748 -31,0358 0,66721 195,221 4,779 8 300 260,466 -31,5604 1,17690 315,576 -15,576 1996 9 350 243,831 -30,0679 1,35093 300,945 49,055 10 200 212,809 -30,1632 0,94426 202,255 -2,255 11 150 199,515 -28,4764 0,69259 121,863 28,137 12 400 238,574 -21,7228 1,32682 2301,294 198,706 1997 13 550 292,962 -14,1117 1,50886 292,949 257,051 14 350 315,575 -10,4393 0,99371 263,306 86,694 15 250 327,466 -8,2062 0,71385 211,335 38,665 16 550 357,366 -4,3956 1,39048 423,599 126,401 1998 17 550 357,588 -3,9339 1,51763 532,584 17,416 18 400 373,206 -1,9787 1,01713 351,428 48,572 19 350 418,856 2,7843 0,75038 264,999 85,001 20 600 425,586 3,1788 1,39628 586,284 13,716 1999 21 750 454,936 5,7959 1,55691 650,706 99,294 22 500 473,070 7,0297 1,02907 468,626 31,374 23 400 501,276 9,1484 0,76465 360,255 39,745 24 650 492,469 7,3518 1,37336 712,712 -62,712 2000 25 850 778,179 26 600 521,917 27 450 393,430 28 700 716,726 MSE = 7 636,86.
Методы сглаживания и скользящие средние 165 При рассматриваемых значениях параметров методика Винтерса дает более высокие (в смысле минимизации значения MSE) результаты, чем те две модели, которые были рассмотрены ранее. Точно так же сравнение прогнозов на первый квартал 2000 года с реальными продажами за этот период показывает, что методика Винтерса опережает остальные обсуждавшиеся методы. На рис. 4.14 приводится автокорреляционная функция остатков экспоненциального сглаживания для метода Винтерса. Очевидно, что ни один из автокорреляционных коэффициентов остатков не является существенно большим нуля. Тест Льюинга-Бокса дает для всех шести временных интервалов низкое значение LBQ. Отсюда следует, что ряды остатков случайны. А это означает, что метод экспоненциального сглажи- вания Винтерса дает наиболее адекватный прогноз для данных компании Acme Tool. Autocorrelation Function for Example 4.10 Residuals Puc. 4.14. Автокорреляционная функция остатков для метода экспоненциального сглаживания Винтерса для данных компании Acme Tool (приложение Minitab) Метод Винтерса позволяет наиболее просто учесть в модели сезонность, если исход- ные данные имеют сезонную структуру. В альтернативном способе предлагается сначала исключить сезонную составляющую или, наоборот, учесть сезонность в самих данных. Процесс исключения сезонных эффектов состоит в их удалении из последовательности данных и обсуждается в главе 5. Затем при прогнозировании используются данные с ис- ключенной сезонной составляющей, после чего сезонность заново вставляется в данные для корректировки полученного прогноза. Обычно специалисты по прогнозированию с большим успехом применяют метод данных с исключенной сезонностью, чем модель Винтерса, оперирующую подлинными данными. Этот метод сохраняет все преимущества простого экспоненциального сглажи- вания в том случае, если данные имеют сезонность, но не имеют тренда. Экспоненциальное сглаживание представляет собой популярную методику кратко- срочного прогнозирования. Ее преимуществами являются низкие затраты и простота
166 ГЛАВА 4 реализации. Если прогноз делается в отношении списка товаров, содержащего тысячи наименований, методы сглаживания часто оказываются единственно приемлемыми. Простые скользящие средние и экспоненциальное сглаживание основываются на взвешенном усреднении данных прошлых наблюдений. Это мотивируется тем, что про- шедшие события всегда содержат информацию о будущих. Так как прошлые события не- сут в себе случайные флуктуации так же, как и информацию, описывающую общую схе- му изменений, для исключения флуктуаций можно попытаться усреднить эти события. При этом предполагается, что в последовательности наблюдений флуктуации распреде- ляются случайным образом. Скользящие средние требуют вычисления среднего значения для некоторого количе- ства значений переменной. Это среднее значение и становится прогнозом на следующий период. В такой модели всем прошедшим событиям присваивается равный вес. Впрочем, можно привести веские аргументы в пользу преимущества последних наблюдений. Ме- тоды экспоненциального сглаживания и привлекательны тем, что в них прогноз строится на присвоении данным веса, убывающего с “возрастом” данных. Применение в менеджменте Прогнозирование является одной из наиболее важных составляющих в процессе приня- тия менеджером решения. Фактически каждое важное рабочее решение в определенной степени зависит от сделанного прогноза. Формирование запаса товаров на складах зави- сит от предполагаемого спроса; производственный отдел должен планировать загрузку мощностей и поставку сырья на следующий месяц (или два); отдел кадров должен опре- делять потребность в найме или увольнении работников. Список применений методов прогнозирования может быть очень длинным. Управленцы прекрасно осведомлены о необходимости прогнозирования. Несомнен- но, много времени уделяется ими изучению тренда в экономике и политике, а также то- му, насколько происходящие и будущие события могут повлиять на востребованность их продукции и/или обслуживания. Старшие должностные лица заинтересованы в количе- ственном прогнозе для сравнения его со своим собственным мнением. Интерес к про- гнозированию особо повышается в тех случаях, когда происходит падение спроса. Недос- таток методов количественного прогноза — их зависимость от данных прошлых наблю- дений. По этой причине они, вероятно, менее эффективны в определении неожиданных перемен, приводящих к резкому повышению или падению спроса. Компьютеры позво- ляют менеджерам автоматически реагировать на резкие изменения спроса посредством применения адаптивных систем и каузальных моделей. Методы наивного прогнозирования, рассмотренные в этой главе, могут оказаться по- лезными в силу своей простоты. Эти несложные методы не требуют значительных затрат и просты в использовании. Часто затраты и сложность более “изощренных” моделей превышают выгоду, которая может быть получена с их помощью. Поэтому наивные ме- тоды чаще всего применяются в малом бизнесе. Фирмы, не имеющие достаточно компь- ютеров и/или персонала, способного применять статистические модели, тоже использу- ют наивные методы. Менеджеры часто оказываются в ситуации, когда необходимо сде- лать краткосрочный прогноз для большого числа наименований продукции. Типичным примером является ситуация, когда менеджер должен наладить производство на основе прогнозирования спроса на несколько сотен наименований продуктов, образующих одну
Методы сглаживания и скользящие средние 167 линию. Наконец, эти модели могут оказаться полезными молодым фирмам, не имеющим большой базы данных о прошлых продажах. Метод скользящего среднего очень хорошо учитывает сдвиги в структуре данных. Это экономный в применении и нетребовательный к большим базам данных метод. Методы скользящего среднего чаще всего используются в случае необходимости повторного прогнозирования. Методы экспоненциального сглаживания популярны благодаря достаточно высокой краткосрочной точности и возможности быстрой их корректировки. Данная методика широко применяется при регулярном еженедельном или ежемесячном прогнозировании для большого числа (вплоть до тысяч) наименований продукции. Управление товарно- материальными запасами — хороший пример регулярного применения методов экспо- ненциального сглаживания. Глоссарий Простое среднее. Вычисляется как среднее значение для всего набора участвующих в расчетах данных, которое затем применяется для построения прогноза на следующий период. Скользящее среднее. Вычисляется как среднее значение для определенного количества элементов данных, которое затем применяется для построения прогноза на следующий период. Следящий сигнал. Метод следящего сигнала предусматривает постоянное определение ошибки прогнозирования и наличие заранее установленных для нее пределов, выход за которые должен вызвать остановку процесса прогнозирования. Экспоненциальное сглаживание. Это процедура для постоянного пересмотра прогнозов в свете наиболее свежих поступающих данных. Основные формулы Наивная модель YM = Y, (4.1) Наивная модель с учетом тренда Ym = Y, + (Y- У,.,) (4.2) Наивная модель скорости изменений (4.3) К-1 Наивная модель с квартальной сезонностью данных Г,+, = Г,.3 (4.4) Наивная модель с трендом и квартальной сезонностью данных Простое среднее (4.6)
168 ГЛАВА 4 Обновление простого среднего на следующий период v _ +^1+1 Л+г-----:— г + 1 Скользящее среднее для к периодов времени у _ О', + ^-1 +Yl-2 +- + ^-М1) Двойное скользящее среднее м’1= (М,+М,}+М1.г+- + М^м) к a, = 2М, - М, 2 ъ,= Y,v = а, + Ь,р Простое экспоненциальное сглаживание YM = aY, + (l-a)Y, Экспоненциальное сглаживание Хольта Экспоненциально сглаженные ряды (оценка уровня) L^aY.+ V-aKL^-T^ Оценка тренда 7) = р(Л,-Лм) + (1 Прогноз на р периодов вперед Yl+p = L,+pT, Модель Винтерса Экспоненциально сглаженные ряды (оценка уровня) Л, = а-А- + (1 _ «)(£,_, + Г,.,) Оценка тренда Т( = р(4-Л(_,) + (1 -Р)77_, Оценка сезонности = +(1-у)^ Л Прогноз на р периодов вперед Yl+p = (L, + pT,)S^s+p Упражнения 1. Какая из методик прогнозирования постоянно пересматривает оценку следних событий? (4.7) (4.8) (4.9) (4.Ю) (4.П) (4.12) (4.13) (4.14) (4.15) (4.16) (4.17) (4.18) (4.19) (4.20) свете по-
Методы сглаживания и скользящие средние 169 2. В какой методике прогнозирования значение величины за текущий период считает- ся прогнозом на следующий период? 3. В какой методике прогнозирования событиям присваиваются равные весовые ко- эффициенты? 4. Какую методику прогнозирования следует применять, если данные имеют тренд? 5. Какую методику прогнозирования следует использовать, если данные имеют сезон- ность? 6. Фонд Apex Mutual Fund в первую очередь инвестирует средства в промышленность. Суммарные фонды этой компании на конец месяца за последние 12 месяцев приве- дены в табл. 4.10. Таблица 4.10 Месяц Суммарные фонды январь 19,39 февраль 18,96 март 18,20 апрель 17,89 май 18,43 июнь 19,98 июль 19,51 август 20,63 сентябрь 19,78 октябрь 21,25 ноябрь 21,18 декабрь 22,14 а) постройте наивный прогноз для суммарных фондов на каждый месяц. Фонды на декабрь 1999 года составили 19,00 б) оцените этот метод, используя значение MAD в) оцените этот метод, используя значение MSE г) оцените этот метод, используя значение МАРЕ д) оцените этот метод, используя значение МРЕ е) сделайте прогноз на январь 2001 года ж) составьте итоговый отчет прогнозов 7. Условия см. в упр. 6. Постройте прогноз суммарного фонда на январь 2001 года, применяя методику трехмесячного скользящего среднего. Будет ли эта методика лучше, чем прогнозирование в рамках наивной модели? Поясните свой ответ. 8. Исходные ряды данных приведены в табл. 4.11.
170 ГЛАВА 4 Таблица 4.11 Период tu 1 200 200 2 210 3 215 4 216 5 219 6 220 7 225 8 226 а) какой прогноз для периода 9 будет получен по методике скользящего среднего для пяти периодов? б) если применить метод экспоненциального сглаживания при а - 0,4, каково бу- дет значение прогноза для периода 4? в) при условиях, указанных в предыдущем пункте, каково будет значение прогноза для периода 3? 9. Доходность облигаций общего займа города Девенпорт на рынке колеблется. Ме- сячные котировки этих облигаций за 1999 год приведены в табл. 4.12. Таблица 4.12 Месяц Доходность январь февраль 9,29 9,99 март 10,16 апрель май 10,25 10,61 июнь 11,07 июль 11,52 август сентябрь октябрь ноябрь декабрь 11,09 10,80 10,50 10,86 9,97 а) постройте прогноз доходности облигаций для каждого месяца, начиная с апре- ля, с помощью методики трехмесячного скользящего среднего
Методы сглаживания и скользящие средние 171 б) постройте прогноз доходности облигаций для каждого месяца, начиная с июля, посредством методики пятимесячного скользящего среднего в) оцените эти методы прогноза, используя значение MAD г) оцените эти методы прогноза с помощью значения MSE д) оцените эти методы прогноза, используя значение МАРЕ е) оцените эти методы прогноза посредством значения МРЕ ж) сделайте прогноз на январь 2001 года з) составьте итоговый отчет прогнозов 10. Условия см. в упр. 9. Сделайте прогноз на январь 2000 года по методу экспоненци- ального сглаживания при а = 0,2 и начальном значении, равном 9,29. Лучше ли эта методика, чем методика скользящего среднего? Поясните свой ответ. 11. В компании Hughes Supply методика управления складскими запасами включает оцен- ку ежемесячного спроса на различные продукты. Величины спроса на различные про- дукты за последние 12 месяцев регистрировались для последующего прогнозирования. Спрос на некий электрический прибор за 2000 год представлен в табл. 4.13. Месяц Спрос январь 205 февраль 251 март 304 апрель 284 май 352 июнь 300 июль 241 август 284 сентябрь 312 октябрь 289 ноябрь 385 декабрь 256 Источник: данные компании Hughes Supply Спрогнозируйте спрос на январь 2001 года, применив методику экспоненциального сглаживания с а = 0,5 и начальной величиной, равной 205. 12. General American Investors, Со., инвестиционная компания закрытого типа, инве- стирует средства, в первую очередь, в средне и высоко котируемые акции. Джим Кэмпбелл (Jim Campbell) изучил номинальную стоимость активов на пай для этой компании с целью сделать прогнозы на 1996 год. Соответствующие данные пред- ставлены в табл. 4.14.
172 ГЛАВА 4 Год Квартал 1 2 3 4 1985 16,98 18,47 17,63 20,65 1986 21,95 23,85 20,44 19,29 1987 22,75 23,94 24,84 16,70 1988 18,04 19,19 18,97 17,03 1989 18,23 19,80 22,89 21,41 1990 21,50 25,05 20,33 20,60 1991 25,33 26,06 28,89 30,60 1992 27,44 26,69 28,71 28,56 1993 25,87 24,96 27,61 24,75 1994 23,32 22,61 24,08 22,31 1995 22,67 23,52 25,41 23,94 1996 25,68 Источник: The Value Line Investment Survey (New York: Value Line, 1990, 1993,1996), c. 2187. Оцените возможность прогноза изменений номинальной стоимости активов на пай, используя следующие методы: наивный, скользящего среднего и экспоненциаль- ного сглаживания. При оценке указанных методик учтите, что реальное значение номинальной стоимости активов на пай для второго квартала 1996 года составляло 26,47. Составьте отчет о том, какой метод следует использовать и почему. 13. Компания Southdown, Inc., один из крупнейших производителей цемента, настой- чиво внедряет программу экономного расхода горючего. Соответствующие суммар- ные затраты компании Southdown составляют около 37 миллионов долларов в год. По этой причине для компании крайне важно иметь точные прогнозы доходов на первый квартал 2000 года. Требуемые данные представлены в табл. 4.15. Таблица 4.15. Доходы компании Southdown, Inc., за 1986-1999 гг. Год _ Квартал 1 2 3 4 1986 77,4 88,8 92,1 79,8 1987 77,5 89,1 92,4 80,1 1988 74,7 185,2 162,4 178,1 1989 129,1 158,4 160,6 138,7 1990 127,2 149,8 151,7 132,9 1991 103,0 136,8 141,3 123,5
Методы сглаживания и скользящие средние 173 Год Квартал Окончание табл. 4.15 1 2 3 4 1992 107,3 136,8 141,3 123,5 1993 106,1 144,4 156,1 138,2 1994 111,8 149,8 158,5 141,8 1995 119,1 158,0 170,4 151,8 1996 127,4 178,2 189,3 169,5 1997 151,4 187,2 199,2 181,4 1998 224,9 317,7 341,4 300,7 1999 244,9 333,4 370,0 326,7 Источник: The Value Line Investment Survey (New York: Value Line, 1990,1993,1996,1999), c. 896. а) применяя метод экспоненциального сглаживания с постоянной сглажива- ния а = 0,4 и начальным значением 77,4, постройте прогноз квартальных дохо- дов компании на первый квартал 2000 года б) постройте прогноз доходов на акцию на первый квартал 2000 года при а = 0,6 и начальном значении 77,4 в) оцените, при каком значении постоянной а прогноз будет наиболее точен г) воспользовавшись результатами из предыдущего пункта, изучите автокорреля- ции остатков. Как вы считаете, дает ли в этом случае метод простого экспонен- циального сглаживания удовлетворительные результаты? Поясните свой ответ 14. Компания Triton Energy Corporation выполняет добычу и переработку нефти и газа. Президент компании, Гэйл Фримен (Gail Freeman), хотел бы иметь прогноз объема продаж (в расчете на акцию) на 2000 год. Этот прогноз имеет для компании большое значение, поскольку при реализации принятого плана реструктуризации компания столкнулась с определенными трудностями. Необходимые данные представлены в табл. 4.16. Определите наилучший метод и дайте прогноз объема продаж на 2000 год. Таблица 4.16. Доля продаж на акцию в компании Triton Energy Corporation за 1974-1999 гг. Год Доля продаж Год Доля продаж 1974 0,93 1987 5,33 1975 1,35 1988 8,12 1976 1,48 1989 10,65 1977 2,36 1990 12,06 1978 2,45 1991 11,63 1979 2,52 1992 6,58
174 ГЛАВА 4 Окончание табл. 4 Год Доля продаж Год Доля продаж 1980 2,81 1993 2,96 1981 3,82 1994 1,58 1982 5,54 1995 2,99 1983 7,16 1996 3,69 1984 1,93 1997 3,98 1985 5,17 1998 4,39 1986 7,72 1999 6,85 Источник: The Value Line Investment Survey (New York: Value Line, 1990,1993,1996,1999), c. 1872. 15. Компания Consolidated Edison занимается поставками электроэнергии (82% дохо- дов), газа (13%) и тепла (5%) в город Нью-Йорк и округ Вестчестер. Перед Бартом Томасом (Bart Thomas), специалистом по прогнозированию, поставлена задача сде- лать прогноз квартальных доходов компании на 2000 год. Собранные им данные представлены в табл. 4.17. Определите наилучший метод и дайте прогноз объема продаж на 2000 год. Таблица 4.17. Квартальные доходы компании Consolidated Edison (млн долл.) Год 31 марта 30 июня 30 сентября 31 декабря 1985 1441 1209 1526 1321 1986 1414 1187 1411 1185 1987 1284 1125 1493 1192 1988 1327 1102 1469 1213 1989 1387 1218 1575 1371 1990 1494 1263 1613 1369 1991 1479 1330 1720 1344 1992 1456 1280 1717 1480 1993 1586 1396 1800 1483 1994 1697 1392 1822 1461 1995 1669 1460 1880 1528 1996 1867 1540 1920 1632 1997 1886 1504 2011 1720 1998 1853 1561 2062 1617 1999 1777 1479 2060 1624 Источник: The Value Une Investment Survey (New York: Value Line, 1990,1993,1996,1999), c. 168.
Методы сглаживания и скользящие средние 175 /дч /м /ж /ж /ж /ж /дч /ж /дч /дч /ж W W W W W W W W W W W W/ W Задание 4.1. Компания Solar Alternative4 Компания Solar Alternative официально существует три года. Она была основана Бобом и Мэри Джонсон (Bob and Mary Johnson), которые преподают естественные науки в мест- ной средней школе. Компания задумывалась ими как дополнительная статья доходов. В результате проведения исследований в области систем энергообеспечения, использую- щих энергию солнца, им удалось сконструировать бытовую установку для получения го- рячей воды. Система состоит из 100-галлонного стекловолоконного бака для хранения воды, двух 36-футовых панелей солнечных батарей, системы электронного контроля, по- ливинилхлоридного трубопровода и другого вспомогательного оборудования. Период окупаемости системы — 10 лет. Хотя это и не слишком привлекательно с фи- нансовой точки зрения, но новизна идеи может обеспечить этому продукту средний уро- вень продаж. Чистая прибыль (после вычета всех издержек) составляет 75 долларов при цене устанавливаемой системы в 2000 долларов. Стоимость материалов и комплектую- щих составляет 75% от стоимости установленной системы. Фактором, позволяющим преодолеть порог рентабельности, является отсутствие какой-либо конкуренции в этой области по причине недостаточной доходности продукта. Бизнес Джонсонов ведется до- ма. Офис располагается в подвале, гараж на одну машину используется исключительно для хранения компонентов систем и материалов. В результате накладные расходы сво- дятся к минимуму. Джонсонов устраивает тот скромный дополнительный доход, кото- рый они получают от деятельности своей фирмы. К тому же занятие бизнесом дает им определенные преимущества при налогообложении. Боб и Мэри вполне удовлетворены ростом их бизнеса. Впрочем, уровень продаж меня- ется из месяца в месяц, но в целом итоги второго года были лучше, чем первого. Многие покупатели на втором году деятельности фирмы являлись соседями тех клиентов, которые купили систему в первом году. Вероятно, многие, увидев систему в работе в течение года, прониклись желанием попробовать подобное устройство и у себя. Продажи происходят круглый год. Наибольший спрос на систему отмечен поздним летом и ранней осенью, когда домовладельцы обычно планируют подготовку к наступающему отопительному сезону. Предвидя определенный рост своего бизнеса, Джонсоны почувствовали необходи- мость в прогнозировании продаж для более эффективного ведения дел в следующем году. Обычно между заказом и получением бака для хранения воды проходит от 60 до 90 дней. Панели солнечных батарей доступны со склада большую часть года, хотя поздним летом и на протяжении всей осени время ожидания заказа может увеличиться до 90 и даже 100 дней. Несмотря на отсутствие конкуренции, отказ покупателя от сделки все же возмо- 4 Материал для этого задания был любезно предоставлен Уильямом П. Дарроу из Тусонского универси- тета, г. Тусон, шт. Мэриленд.
176 ГЛАВА 4 жен, если потенциальный клиент вынужден будет ждать установки системы несколько месяцев. Но еще более важным фактором является необходимость более точно представ- лять себе размеры предстоящих продаж, что позволит получать определенные скидки при закупках материалов и комплектующих. Все эти факторы, наряду с высокой стоимо- стью материалов и компонентов солнечных систем, а также ограниченными размерами гаража владельцев, требуют получения надежных прогнозов. Статистика продаж за пер- вые два года работы компании приведена в табл. 4.18. Месяц 1999 2000 Месяц 1999 2000 Январь 5 17 Июль 23 44 Февраль 6 14 Август 26 41 Март 10 20 Сентябрь 21 33 Апрель 13 23 Октябрь 15 23 Май 18 30 Ноябрь 12 26 Июнь 15 38 Декабрь 14 17 Вопросы 1. Определите, какую модель прогнозирования следует использовать Бобу и Мэри как основу для бизнес-планирования в 2001 году. Объясните, почему именно эта модель была выбрана вами. 2. Составьте прогноз продаж на 2001 год. Задание 4.2. “Mr. Tux” Джон Мосби является владельцем нескольких пунктов проката, функционирующих под вы- веской “Mr. Tux”. Он заинтересован в составлении прогноза наиболее важного показателя в его бизнесе — ежемесячного дохода от проката в долларах (см. задание “Mr. Tux” в предыду- щих главах). Одна из его служащих, Виржиния Перо (Virginia Perot), собрала данные о ежеме- сячных доходах, приведенные в задании 2.2. Джон хотел бы построить прогноз по этим дан- ным, используя методики скользящего среднего и экспоненциального сглаживания. В задании 3.2 Джон с помощью приложения Minitab пытался определить, имеют ли соб- ранные данные тренд и сезонность. Ранее ему говорили, что в случае его данных методы скользящего среднего и простого экспоненциального сглаживания едва ли дадут удовлетво- рительные результаты, однако он решил докопаться до истины самостоятельно. Он начал с применения метода трехмесячного скользящего среднего. Программа рас- считала ему несколько показателей суммарной ошибки прогнозирования. Эти значения обобщают ошибку в предсказаниях значений реальных данных, полученных посредством трехмесячного скользящего среднего. Джон решил принять во внимание три из этих по- казателей ошибок.
Методы сглаживания и скользящие средние 177 MAD = 54 373 МРЕ = -16,5% МАРЕ = 47,0% MAD (среднее абсолютное отклонение) — это средняя абсолютная ошибка в прогно- зировании интересующих величин. Все прогнозы, использующие метод трехмесячного скользящего среднего, характеризуются средним значением 54 373. Отклонения опреде- ляются с помощью МРЕ (средняя ошибка, выраженная в процентах). Значение -16.5% означает, что выбранный метод прогнозирования постоянно дает завышенный прогноз, т.е. выдает значения, которые больше реальных величин. МАРЕ (средняя абсолютная ошибка, выраженная в процентах) отображает ошибку как процент от реального значе- ния, подлежащего прогнозированию. Средняя ошибка, которая получается в результате применения методики трехмесячного скользящего среднего, составляет 47% или почти половину значения прогнозируемой величины. Далее Джон опробовал метод простого экспоненциального сглаживания. Программа предложила либо ввести требуемое значение постоянной сглаживания, которое будет исполь- зоваться в расчетах, либо определить его автоматически, посредством минимизации ошибки. Джон выбрал последний вариант, и программа определила оптимальное значение постоян- ной а. = 0,867. В результате были получены следующие значения показателей ошибки. MAD = 46 562 МРЕ = -11,8% МАРЕ =44,0% Джон решил воспользоваться методом линейного экспоненциального сглаживания Хольта. В этом случае программа не только применяет метод экспоненциального сгла- живания, но и позволяет учитывать характеристики тренда, присутствующего в данных. Для обеих постоянных сглаживания, аир, Джон выбрал одно и то же значение, рав- ное 0,4. Для метода Хольта бьии получены следующие три показателя ошибки. MAD = 63 579 МРЕ = -15,3% Л7Л/’Е=59,0% Столь большие значения показателей ошибки для этой методики оказались для Джо- на полной неожиданностью. Он решил, что проблема заключается в наличии в данных заметных сезонных колебаний. Поэтому следующий метод, который применил Джон, — это метод экспоненциального сглаживания Винтерса. Данный метод хорошо учитывает как сезонность, так и тренд. Джон выбрал следующие значения постоянных сглажива- ния: а = 0,2, р = 0,2 и у = 0,2. В результате были получены следующие показатели ошибки. MAD = 25 825 МРЕ = -4,9% МАРЕ = 22,0% Результаты проведенного анализа разочаровали Джона. Метод Винтерса является серьезным усовершенствованием применяемой им ранее техники, хотя показатель МАРЕ в этом случае все еще составляет целых 22%. Он надеялся, что хотя бы один из методов сможет достаточно точно спрогнозировать прошедшие периоды. Тогда с помощью этого метода он мог бы прогнозировать уровни ежемесячных доходов в течение всего следую- щего года. Но полученные показатели среднего отклонения (MAD) и средней ошибки в процентах (МАРЕ) вынудили его продолжить поиск других методов прогнозирования.
178 ГЛАВА 4 Вопросы 1. Проанализируйте в приложении Minitab показатели ошибки прогнозирования для метода, который дал Джону наилучшие результаты. 2. Какое значение показателя МРЕ будет наилучшим при использовании любого из ме- тодов экспоненциального сглаживания? 3. Каков смысл отрицательного знака у показателя МРЕР 4. Можно ли согласиться с неудовлетворительной оценкой, которую дал Джон полу- ченным результатам? 5. Что должен был сделать Джон для определения адекватности методики прогнозиро- вания Винтерса? Задание 4.3. Корпорация Consumer Credit Counseling Функционирование корпорации Consumer Credit Counseling (ССС) описано в главе 1 (задание 1.2). Исполнительный директор корпорации, Мэрв Харнишфегер, считала, что наиболее важной переменной, нуждающейся в прогнозировании, является число новых клиентов, которые могут обратиться в корпорацию за оставшийся период 1993 года. До- роти Мерсер предоставила Мэрв ежемесячные данные о количестве новых клиентов ССС за период с января 1985 по март 1993 (см. задание 3.2). В том задании Дороти иссле- довала структуру данных с помощью автокорреляционного анализа. Основываясь на ре- зультатах этого исследования, дайте ответы на приведенные ниже вопросы. Вопросы 1. Постройте наивную модель для прогнозирования числа новых клиентов ССС на ос- таток 1993 года. 2. Постройте модель скользящего среднего для прогноза числа новых клиентов ССС на остаток 1993 года. 3. Примените процедуру экспоненциального сглаживания для прогнозирования числа новых клиентов ССС на остаток 1993 года. 4. Сравните указанные выше методы прогнозирования, используя итоговые показате- ли ошибок прогнозирования, обсуждавшиеся в главе 3. 5. Выберите наилучшую модель и постройте прогноз числа новых клиентов на остаток 1993 года. 6. Обоснуйте адекватность выбранной вами модели прогнозирования.
Методы сглаживания и скользящие средние 179 Задание 4.4. Пятилетний план доходов клиники Downtown Radiology Клиника Downtown Radiology планирует создать новый медицинский диагностический центр. Предусматривается установка более сложного и технологически более прогрессивного обору- дования, по сравнению с используемым на данный момент в том районе, который принято называть “внутренней империей” (это восточная часть штата Вашингтон и северная часть штата Айдахо). Планируемое для установки оборудование будет либо таким же, как любое ди- агностическое оборудование, уже установленное в медицинских центрах указанного региона, либо будет превосходить его по своим характеристикам. В диагностическом центре планиру- ется разместить сканирующий томограф серии 9800 и оборудование для ЯМР-интраскопии (ЯМР — ядерный магнитный резонанс). Кроме того, центр будет оснащен ультразвуковым оборудованием, оборудованием ЯМР-диагностики, установками для маммографии и цифро- вой ангиографии, а также установками радиотерапии и рентгеноскопии. Акции центра пред- полагается выпустить в свободное обращение, поэтому руководству клиники Downtown Radi- ology понадобилась независимая оценка потенциального рынка. Администрация клиники Downtown Radiology обратилась к компании Professional Marketing Associates, Inc., с предло- жением сделать оценку рынка и составить полный пятилетний план доходов. Постановка проблемы Целью этого рассмотрения является прогноз доходов на следующие пять лет от услуг, предоставляемых медицинским диагностическим центром. Задачи Задачи, поставленные перед этим исследованием, перечислены ниже. • Определение потенциального рынка для каждого типа процедур, предлагаемых но- вым оборудованием. • Сбор и анализ существующих данных о доходах на данном рынке для каждого типа процедур, предоставляемых новым оборудованием. • Определение тех тенденций в области здравоохранения, которые положительно или отрицательно повлияют на доходы от каждого типа процедур, предлагаемых устанавливаемым оборудованием. • Определение факторов в бизнесе и маркетинге, а также новых функциональных возможностей вновь создаваемой аппаратуры, которые способны позитивно или негативно повлиять на планируемые доходы. • Анализ имеющихся сведений о прошлой деятельности клиники Downtown Radiol- ogy как базы данных для разрабатываемой модели прогнозирования. • Применение соответствующей модели количественного прогнозирования для ус- пешной разработки пятилетнего плана доходов от деятельности создаваемого диаг- ностического центра.
180 ГЛАВА 4 Методология Процедуры Получение полного пятилетнего плана доходов потребовало выполнения нескольких (перечисленных ниже) этапов. Проведение анализа определенного количества процедур позволило разработать адекватную модель прогнозирования, которая затем использова- лась для определения точки отсчета в планировании каждой процедуры. 1. Определение рынка сбыта для каждого типа процедур и расчет совокупности прогнозов с 1986 по 1990 гг. 2. Изучение данных о выдаваемых врачами направлениях на обследования с целью определения процента докторов, которые направляют пациентов в клинику Down- town Radiology, а также среднего количества таких направлений на одного врача. 3. Запрос и обработка данных из Национального центра статистики и здоровья. Эта информация сравнивались с реальными данными, полученными из регистратуры клиники. 4. Определение удельного веса клиники Downtown Radiology на рынке соответст- вующих услуг, который был рассчитан на примере рынка обследований, выпол- няемых с помощью сканирующих томографов. (Удельный вес на рынке для дру- гих процедур определялся исходя из сравнения удельного веса клиники Downtown Radiology с данными Национального центра статистики и здоровья.) Допущения Для правильного построения прогноза потребовалось сделать несколько допущений. • Новый медицинский центр вступит в действие с 1 января 1985 года с полностью налаженным оборудованием, за исключением установок ЯМР-интраскопии. • Установка для ЯМР-интраскопии начнет функционирование в апреле 1985 года. • Будет успешно подписано соглашение о партнерстве с не менее чем 50 врачами, практикующими в обслуживаемом центром районе. • Лечащие врачи, принимающие финансовое участие в проекте нового диагностиче- ского центра, будут заинтересованы в увеличении количества выдаваемых направ- лений в центр. • Новый тип оборудования для ЯМР-интраскопии не появится на рынке до 1987 года. • В новом медицинском центре услуги будут иметь меньшую стоимость, чем у кон- курентов. • Будут предприняты эффективные маркетинговые мероприятия, особенно те, кото- рые рассчитаны на привлечение внимания крупных работодателей, страховых групп и объединений. • Оборудование для ЯМР-интраскопии в течение шести месяцев работы заменит приблизительно 60% всего количества основного существующего оборудования, которое на текущий момент представлено сканирующими томографами, и достиг- нет 70% в течение следующих 12 месяцев. • Общественность будет продолжать оказывать давление на сферу здравоохранения с требованием сохранить низкие цены. • Стоимость издержек в области здравоохранения за период с 1971 по 1981 гг. возраста- ла, в среднем, на 13,2% в год. По оценкам управления по финансированию здраво- охранения средние темпы роста издержек за период с 1981 по 1990 гг. могут снизиться и составить приблизительно 11% или 12% в год (Industry Survey, апрель, 1984 год).
Методы сглаживания и скользящие средние 181 • Страховые компании будут возмещать пациентам от 0% до 100% стоимости услуг по проведению обследований на оборудовании ЯМР-интраскопии. Модели Прогноз разрабатывается для каждой процедуры исходя из прошлого опыта, показа- телей состояния индустрии и некоторых разумных допущений. Модели строились с уче- том приведенных выше допущений, поэтому, если сделанные допущения окажутся не- верными, модели не дадут достаточно точного прогноза. Анализ прошлых данных Отделение радиологии Количество выполненных рентгенографических процедур было проанализировано за период с июля 1981 по май 1984 года. В данные входят сведения о рентгеновской диагно- стике, рентгенографии желудочно-кишечных заболеваний, флюорографии, процедурах лучевой терапии и ряде других специальных процедур. Изучение данных показало, что тренд, сезонная или циклическая структура в них отсутствуют. По этой причине наибо- лее приемлемой моделью прогнозирования полагается метод простого экспоненциаль- ного сглаживания. После подбора различных значений постоянной сглаживания, наи- лучшей оказалась модель с а = 0,3. Результаты применения этой модели представлены на рис. 4.15. Прогноз на июнь 1984 года составляет 855 рентгеновских процедур. Simple Exponential Smoothing for Office X-Rays • Actual д Predicted 4 Forecast ____Actual ----Predicted ....Forecast Smoothing Constant Alpha: 0.300 MAPE: 14.2 MAD: 133.7 MSD: 33765.7 P uc. 4.15. Простое экспоненциальное сглаживание: прогноз для отделения радиологии клиники Downtown Radiology (приложение Minitab) Отделение ультразвуковой диагностики Количество процедур, выполненных в отделении ультразвуковой диагностики, также было проанализировано с июля 1981 по май 1984. Структура этих данных представлена на рис. 4.16. Здесь тоже отсутствуют тренд, сезонные или циклические эффекты. Наи-
182 ГЛАВА 4 лучшей моделью представляется метод простого экспоненциального сглаживания с по- стоянной сглаживания а = 0,5. Прогноз на июнь 1984 года составляет 127 процедур. Simple Exponential Smoothing for Office Ultrasound • Actual д Predicted ♦ Forecast ----Actual ----Predicted ....Forecast Smoothing Constant Alpha: 0.500 MAPE: 12.211 MAD: 12.035 MSD: 242.739 Puc. 4.16. Простое экспоненциальное сглаживание: прогноз для отделения ультразвуко- вой диагностики клиники Downtown Radiology (приложение Minitab) Nonoffice Ultrasound Holt's Linear Smoothing for Nonoffice Ultrasound Time • Actual a Predicted ♦ Forecast ----Actual ----Predicted ....Forecast Smoothing Constants Alpha (level): 0.500 Gamma (trend): 0.100 MAPE: MAD: MSD: 14.45 25.85 1064.17 Puc. 4.17. Метод линейного экспоненциального сглаживания Хольта: прогноз для мобильных станций ультразвуковой диагностики клиники Downtown Radiology (приложение Minitab)
Методы сглаживания и скользящие средние 183 Анализу (с июля 1981 по май 1984) также подлежало количество процедур ультразву- ковой диагностики, выполненных двумя мобильными станциями, принадлежащими клинике Downtown Radiology. Эти данные представлены на рис. 4.17. Форма графика, несомненно, отмечает наличие тренда, что может быть учтено с помощью двухпарамет- рического линейного метода экспоненциального сглаживания Хольта. При значениях а = 0,5 и р = 0,1 прогноз на июнь 1984 года составляет 227 процедур. Процедуры ЯМР-диагностики Количество процедур, выполненных двумя подразделениями ЯМР-диагностики, принад- лежащими клинике Downtown Radiology, проанализировано с августа 1982 по май 1984 года. Структура данных представлена на рис. 4.18. Данные не имеют сезонности, не наблюдается тренда или циклической структуры. Поэтому для выполнения прогноза был выбран метод простого экспоненциального сглаживания. Самые лучшие результаты были достигнуты при значении константы сглаживания а=0,5. Прогноз на июнь 1984 года составляет 48 процедур. Simple Exponential Smoothing for Nuclear Medicine Time • Actual д Predicted ♦ Forecast ....Actual ....Predicted ....Forecast Smoothing Constant Alpha: 0.500 MAPE: 59.02 MAD: 25.48 MSD: 1027.09 Puc. 4.18. Простое экспоненциальное сглаживание: прогноз для отделений ЯМР- диагностики клиники Downtown Radiology (приложение Minitab) Отделение томографии Количество процедур, выполненных отделением томографии, также анализировалось с июля 1981 по май 1984 года. В данных не наблюдается тренда или сезонности, но заметна цик- лическая структура. Важной величиной для прогноза событий в текущем месяце является ко- личество процедур, выполненных за предыдущий месяц. Было решено применить авторегрес- сионую модель (см. главу 8 и главу 9) и сравнить ее результаты с результатами модели экспо- ненциального сглаживания при а= 0,461. Большее значение постоянной сглаживания нужно в этом случае для придания большего веса в прогнозах последним наблюдениям. Эта модель признана лучшей, и на рис. 4.19 представлены полученные с ее помощью результаты. Прогноз для количества томограмм на июнь 1984 года составляет 221 процедуру.
184 ГЛАВА 4 Simple Exponential Smoothing for CT Scans Time • Actual д Predicted ♦ Forecast ----Actual ....Predicted ----Forecast Smoothing Constant Alpha: 0.461 MAPE: 11.35 MAD: 27.43 MSD: 1208.42 Puc. 4.19. Простое экспоненциальное сглаживание: прогноз для отделения томографии клиники Downtown Radiology (приложение Minitab) Анализ рынка сбыта Рынок сбыта для процедур, выполняемых в клинике Downtown Radiology, определялся на основании исторических данных о самостоятельной записи пациентов и количестве направлений на обследование, выдаваемых врачами. Рынок сбыта для процедур, еще не выполняемых в клинике Downtown Radiology, определялся на основе изучения данных о работе конкурентов и анализа статистических показателей тех географических районов, которые они обслуживают. Рынок обследований на сканирующих томографах Область рынка обследований на сканирующих томографах, предлагаемых диагностиче- скими центрами, охватывает округа Спокан, Уитмен, Адамс, Линкольн, Стивенс и Пенд Орей штата Вашингтон и округа Боннер, Боундари, Кутинаи, Бенева и Шошон штата Ай- дахо. Исходя из подходящей случаю процентной оценки, рынок выполнения томограмм предполагается равным от 630 655 процедур в 1985 году до 696 018 процедур в 1990 году. Количественная оценка Подготовка плана доходов требует наличия определенных количественных оценок. Наиболее важная из них — это число врачей, являющихся партнерами клиники. Оценка их количества, принятая для дальнейших расчетов, составляет для округа Спокан не ме- нее 8% от всего количества практикующих врачей этого округа. Кроме того, необходимо уточнить, какая часть из 50 практикующих врачей будет иметь с клиникой партнерские отношения. Предполагается, что те 30 докторов, которые уже сей- час направляют пациентов в клинику Downtown Radiology, сохранят с ней партнерские от- ношения. Для этих 30 уже существующих партнеров предполагается, что 10 из них не уве- личат количество выдаваемых направлений, а оставшиеся 20 — удвоят это число. Также
Методы сглаживания и скользящие средние 185 предполагается, что 20 практикующих врачей, которые ранее не выдавали направлений в клинику Downtown Radiology, будут иметь с ней партнерские отношения и начнут направ- лять туда, по крайней мере, половину своих пациентов. Количественную оценку дополнительных направлений в клинику можно сделать на осно- ве определенных качественных наблюдений. Предположение, что 50 докторов будут иметь с ней партнерские отношения, — это весьма умеренная оценка. Существует большая вероят- ность, что доктора из других районов, не относящихся к округу Спокан, также будут иметь партнерские отношения с ней. Обычно схема распределения направлений на обследование, выдаваемых докторами, меняется очень медленно, но конкуренция на рынке может изменить ситуацию. Если предложение о сотрудничестве направляется тем докторам, специализация которых предполагает высокую вероятность проведения радиологического обследования па- циента, то количество выданных ими направлений может оказаться большим, чем планирова- лось. Известно, что несколько докторов выдали очень много направлений в клинику Down- town Radiology. Если удастся привлечь к сотрудничеству еще несколько таких докторов, то это может оказать значительное влияние на общее количество процедур, выполненных клиникой Downtown Radiology в рамках индивидуального обслуживания. Наконец, следует учесть эффект изменения доли рынка, принадлежащей клинике Downtown Radiology, вызванный новизной диагностического центра. Новый центр будет лучше оснащен и лучше подготовлен к выполнению всего спектра медицинских услуг по более низкой цене. Число направлений в клинику, поступающих от новых докторов, бу- дет возрастать вследствие устных рекомендаций докторов, уже привлеченных к партнер- ству. Если в соглашение с новым диагностическим центром вступят страховые компа- нии, крупные работодатели и/или их объединения, то доля Downtown Radiology на рынке должна возрасти не менее чем на 4% в 1985, 2% в 1986 году и 1% в 1987 году, причем дос- тигнутый уровень сохранится и в 1988-1989 гг. Подобный рост занимаемой клиникой доли рынка ниже мы будем называть общим эффектом роста популярности. План доходов План доходов составляется для каждого вида процедур. Ниже приводится лишь та часть плана, которая относится к отделению томографии. План доходов для отделения томографии Прогноз количества томограмм на 1984 год (с января 1984 по январь 1985), выпол- ненный по методу экспоненциального сглаживания данных за первые пять месяцев 1984 года, составляет 2600 томограмм. Национальный центр статистики и здоровья свидетельствует о следующем уровне выполнения томограмм в месяц: 261 томограмма на 100 тыс. человек. Если население территории, принимаемой за рынок сбыта томограмм, 630 655 человек, то общее количе- ство процедур может достичь значения 19 752 за весь 1985 год. Реальное количество про- цедур на указанном рынке на протяжении 1983 года оценивается в 21 000 процедур. Эта оценка строится на реальных данных клиник Downtown Radiology (2260), Sacred Heart (4970), Deaconess (3850), Valley (2300), Kootenai (1820) и оценочных данных клиник Ra- diation Therapy (2400) и Northwest Imaging (4000). Если указанная оценка является точ- ной, то клинике Downtown Radiology в 1983 году принадлежало приблизительно 10,5% рынка. Аналогичные данные анализировались и для 1982 года, и в соответствии с ними клинике Downtown Radiology принадлежало около 15,5% рынка томограмм в течение го- да. Поэтому для клиники Downtown Radiology прогнозируется в среднем 13% рынка.
186 ГЛАВА 4 Если принимать в расчет предполагаемый рост числа направлений от докторов, являю- щихся партнерами клиники, и учесть среднее значение числа этих направлений, то можно планировать увеличение количества томограмм на 320 процедур в течение 1985 года. Если воспользоваться цифрами за 1983 год, то уровень рынка томограмм для “внутренней импе- рии” составлял 3568 (21 600/6,054) процедур на 100 тыс. населения. Если подобная картина сохранится, то потребность в томограммах на рынке в 1985 году возрастет до 22 514 (3568x6,31). Таким образом, доля клиники Downtown Radiology на рынке планируется око- ло 13% (2920/22 514). Если сюда добавить еще 4% доли рынка, связанные с общим подъе- мом спроса в этой области здравоохранения, то доля рынка клиники Downtown Radiology составит 17%, и планируемое количество томограмм достигнет 3827 (22 514x0,17). Впрочем, исследования показывают, что ЯМР-диагностика, в конце концов, вытес- нит большинство барабанных сканирующих томографов (Applied Radiology, Мау/June 1983, и Diagnostic Imaging, февраль 1984). По наблюдениям Национального центра стати- стики и здоровья, 60% всех томографов являются барабанными. Данные по клинике Downtown Radiology показывают, что 59% всех ее томографов в 1982 году и 54% в 1983 были барабанными. Если 60% из всех томографов Downtown Radiology являются бара- банными и приблизительно 60% из них будут вытеснены ЯМР-оборудованием, то на 1985 год потребуется иной план по сканирующим томографам. Поскольку установки ЯМР-интраскопии в 1985 году будут работать лишь полгода, то предвидится снижение количества томограмм на 689 (3827/2x0,60x0,60). Таким образом, планируемое на 1985 год число томограмм равно 3138. Средняя стои- мость одной процедуры составляет 360 долларов, и от этих процедур планируется доход в 1 129 680 долларов. В табл. 4.19 приводится план доходов по отделению томографии на следующие пять лет. Предполагается, что стоимость процедур будет возрастать прибли- зительно на 11% в год. Таблица 4.19. Пятилетний план доходов для отделения томографии Год Кол-во процедур Доход (долл.) 1985 3138 1 129 680 1986 2531 1 012 400 1987 2716 1 205 904 1988 2482 1 223 626 1989 2529 1 383 363 Без учета влияния ЯМР-интраскопии, на 1986 следует ожидать выполнения 4363 (6,31x1,02x3568x0,19) томограмм. Но если 60% оборудования будут составлять барабан- ные томографы, то ЯМР-интраскопы заменят 70% из них и число томограмм снизится до 2531 [4363 - (4363x0,60x0,70)]. На 1987 год, без учета вытеснения, количество томограмм планируется равным 4683 (6,31x1,04x3568x0,20). С учетом влияния ЯМР-интраскопов эта величина составит 2482 [4773-(4773x0,60x0,80)]. Для 1989 года планируется выполнение 4863 (6,31x1,08x3568x0,20) томограмм, без учета вытеснения томографов ЯМР-интраскопами. Прогноз с учетом этого эффекта дает 2529 [4863 - (4863x0,60x0,80)] томограмм.
Методы сглаживания и скользящие средние 187 Вопрос Финансисты клиники Downtown Radiology планировали, что доходы должны быть зна- чительно выше. Так как владельцев интересовала возможность выпуска публичных акций, руководство клиники Downtown Radiology должно было принять решение относительно тщательности анализа, проведенного компанией Professional Marketing Associates. Проана- лизируйте приведенный выше отчет и дайте по нему собственное заключение. Применение Minitab Задание. На основе данных компании Spokane Transit Authority из примера 4.3 подготовь- те требуемый прогноз с помощью метода пятинедельного скользящего среднего. Решение в Minitab 1. Введите данные компании Spokane Transit Authority из табл. 4.2 в столбец С1 и выбе- рите на панели меню команду Stat^Time Series^Moving Average. 2. На экране раскроется диалоговое окно Moving Average (Скользящее среднее). а) дважды щелкните кнопкой мыши на переменной Gallons (Галлоны); в резуль- тате она будет помещена в строку Variable б) для выбора пятимесячного скользящего среднего введите в поле МА length (Период усреднения) значение 5 в) не следует устанавливать флажок опции Center (Центр). Метод центрирован- ного скользящего среднего для сглаживания данных рассматривается в главе 5 г) далее установите флажок опции Generate forecasts (Сделать прогнозы) и вве- дите значение 1 в поле Number of forecasts (Количество прогнозов) д) щелкните на кнопке ОК Задание. Подготовьте прогноз по методу простого экспоненциального сглаживания для данных компании Acme Tool. Решение в Minitab 1. Введите в столбец С1 данные компании Acme Tool из табл. 4.1 и выберите на панели меню команду Stat^Time Series^Single Exponential Smoothing. 2. На экране раскроется диалоговое окно Single Exponential Smoothing. а) дважды щелкните кнопкой мыши на переменной Saws (бензопилы); это вызо- вет помещение ее в строку Variable б) в поле Weight to Use in Smoothing (Вес сглаживания) выберите значение Opti- mize (Оптимизировать) и щелкните на кнопке ОК Результаты приведены на рис. 4.9. Задание. Подготовьте прогноз по методу экспоненциального сглаживания, учитывающе- му тренд и сезонность, для данных компании Acme Tool. Решение в Minitab 1. Введите в столбец С1 данные компании Acme Tool из табл. 4.1 и выберите на панели меню команду Stat^Time Series1^Winters’ Method. 2. На экране раскроется диалоговое окно Winters’ Method, показанное на рис. 4.20.
188 ГЛАВА 4 Рис. 4.20. Приложение Minitab: диалоговое окно Winters’ Method а) поскольку исходные данные являются поквартальными, в поле Seasonal length (Длительность периода) необходимо ввести значение 4 б) в группе Weight to Use in Smoothing (Вес сглаживания) введите следующие значения полей: в поле Level — значение 0,4; в поле Trend — 0,1; в поле Sea- sonal — 0,3 в) установите флажок опции Generate forecasts (Сделать прогнозы) и введите значение 4 в поле Number of forecasts (Количество прогнозов) г) щелкните на кнопке Storage (Память) 3. На экране раскроется диалоговое окно Winters’ Method Storage. а) установите флажки опций Level estimates (Оценка уровня), Trend estimates (Оценка тренда), Seasonal estimates (Оценка сезонности), Fits (Прогноз на один период вперед) и Residuals (Остатки) б) щелкните на кнопках ОК в обоих диалоговых окнах. Результат работы програм- мы представлен в табл. 4.9 и на рис. 4.13. Прогноз на первый квартал 2000 года составляет 778,2 4. Сохраните данные для дальнейшего использования; для этого выберите следующую команду меню. File^Save Worksheet As 5. На экране раскроется диалоговое окно Save Worksheet As. а) в поле File Name введите имя, под которым будет сохранен данный документ, например saws б) в поле Save as Туре укажите расширение имени для сохраняемого файла. Если в дальнейшем предполагается применять лишь приложение Minitab, то указанное в этом поле значение можно не менять. Однако если необходимо будет использо- вать сохраняемые данные и в других приложениях, то целесообразнее сохранить файл в формате документа Excel. В частности, файл с именем saws. xls будет ис- пользоваться нами при обсуждении в разделе “Применение Excel”.
Методы сглаживания и скользящие средние 189 Применение Excel Задание. В примере 4.5 строится прогноз по данным компании Acme Tool с помощью ме- тода простого экспоненциального сглаживания с константой сглаживания, равной 0,6. Решение в Excel 1. Откройте файл с данными из табл. 4.1, сохраненный в предыдущем упражнении. Для этого выберите следующую команду меню. File^Open Нужный файл называется saws. xls. 2. Выберите следующую команду. Tools^ Data Analysis На экране раскроется диалоговое окно Data Analysis (Анализ данных). В списке Analysis Tools (Инструменты анализа) выберите значение Exponential Smoothing (Экспоненциальное сглаживание) и щелкните на кнопке ОК. 3. На экране раскроется диалоговое окно Exponential Smoothing, представленное на рис. 4.21. не 1_ JSaws 2 I. .. 500 350 -Incut KE 101 11' .12) 13 400 450 350 200 300 350 200 150 400 > Input Rang®} гид ' Output options - Р Х/Г-* Z — I /|11>н1‘Г1||/11 ‘.mnnthiriij 5 । S ! e ’5 S-1S- ‘7 250 550 Puc. 4.21. Приложение Excel: диалоговое окно Exponential Smoothing а) в поле Input Range (Диапазон ввода) введите значение А2:А5 б) установите флажок опции Labels (Метки) в) введите в поле Damping factor (Фактор затухания) значение 0,4, поскольку это значение определяется как дополнение до единицы к постоянной сглаживания, т.е. (1 - а) г) в поле Output Range (Диапазон вывода) введите значение В2 д) установите флажок опции Chart Output (Схема вывода) е) щелкните на кнопке ОК
190 ГЛАВА 4 4. Результаты расчета (столбец В) и соответствующий график приведены на рис. 4.22. Из рисунка можно видеть, что инструмент анализа Exponential Smoothing помещает в итоговые ячейки рабочего листа явно заданные формулы. Ячейка В4 выделена, и соответствующее ей выражение =0.6*АЗ+0.4*ВЗ показано на панели инструментов. J MhfuHiK Excel - Tab4-1 jjFile Fdt Wew inserf Fo-nal d^hea?и I Anal т 10 ДО :oc- В4 1 =0 6*АЗ+0 4*ВЗ' А В J С П Е F G • Н I Й' 5 6 7 8 9 ¥0 «_ i2 Я u JS 16 500 #N/A 350':.....500 25C'| 4101 400' 456' 350 200 ЗОО: 35.3" 200 150 400 550' 350: 550: 314 ...3656 ...416.24: 376 496 '270'5984 288.2394 '325.2957 250.1183': "190.0473: 316.0189' 456.4075 ""392'563 30Z0252 Exponential Smoothing 1000 500 Data Point Actual Forec • I НГ ЙймГ, О Puc. 4.22. Результаты экспоненциального сглаживания, полученные в Excel для данных из примера 4.5 Рекомендуемая литература Aaker D. A., Jacobson R. The Sophistication of ‘Naive’ Modeling. International Journal of Forecast- ing 3(314), 1987:449-452. Dalrymple D. J., KingB. E. Selecting parameters for Short-Term Forecasting Technoques. Decision Sciences 12, 1981: 661—669. Gardner E. S. Jr., Dannenbring D. G. Forecasting with Exponential Smoothing: Some Guidelines for Model Selection. Decision Sciences 11, 1980: 370—383. Holt С. C. Forecasting Seasonal and Trends by Exponentially Weighted Moving Averages. Office of Naval Research, Memorandum No. 52, 1957. Holt С. C., Modigliani F., Muth J. F., Simon H. A. Planning Production Inventories and Work Force. Englewood Cliffs, NJ: Prentice-Hall, 1960. LedolterJ, Abraham B. Some Comments on the Initialization of Exponential Smoothing. Journal of Forecasting 3 (1), 1984: 79—84. Makridakis S., Wheelwright S. C., Hyndman R. Forecasting Methods and Applications. New York: John Wiley & Sons, 1998. McKenzie E. An Analysis of General Exponential Smoothing. Operations Research 24, 1976: 131—140. Winters P. R. Forecasting Sales by Exponential Weighted Moving Averages. Management Sciences 6, 1960: 324-342.
/А\ /А\ Л W W/ W/ М ЯШ ГЛА|А F/ W W W Временные ряды и их компоненты К1ак было отмечено в предыдущих главах, совокупность наблюдений величины Y, вы- полненных в течение некоторого промежутка времени, называют данными временного ряда или просто временным рядом. Чаще всего наблюдения регистрируются через посто- янные промежутки времени. Так, например, величина Y может описывать объем продаж, а соответствующие временные ряды могут представлять последовательность годичных объемов продаж. Другие примеры временных рядов включают квартальную прибыль, го- довой уровень запасов или недельный валютный курс. В общем случае временнь/е ряды не представляют собой случайную выборку и требуют специальных методов для их ис- следования. Наблюдения во временных рядах, как правило, зависят друг от друга (автокоррелируют). Эта зависимость образует модель изменения или поведения данных, которую можно использовать для предсказания их будущих значений, а это, в свою оче- редь, может значительно помочь руководству в управлении деловыми операциями. Ниже рассматриваются примеры подобных ситуаций. В авиакомпании American Airlines (АА) текущее число забронированных билетов сравнивается с прогнозируемым значением, вычисленным на основе исторически на- блюдаемой модели поведения этих данных. В зависимости от того, отстают показатели текущего бронирования от прогнозируемого значения или опережают его, в компании устанавливается соответствующая доля посадочных мест, продаваемых со скидкой. Та- кое регулирование проводится для каждого направления выполняемых рейсов. Канадские импортеры срезанных цветов покупают их у производителей в США, Мек- сике, Центральной и Южной Америке. Однако поскольку все эти производители приобре- тают сырье для выращивания и химикаты в Соединенных Штатах, все цены на момент со- вершения сделки выражаются в долларах США. Накладные оплачиваются не сразу, и по- скольку курс обмена “канадский доллар—американский доллар” постоянно меняется, для импортеров реальная цена в канадских долларах на момент покупки неизвестна. Если курс перед оплатой счета не изменился, то для импортеров цена остается прежней. Если курс по- вышается, то импортеры теряют деньги на каждом американском долларе в стоимости по- купки. И наоборот, если курс снижается, канадские импортеры выигрывают. Для эффек- тивного управления запасами срезанных цветов импортеры прибегают к прогнозированию недельного курса обмена канадских долларов на американские.
192 ГЛАВА 5 Несмотря на то что временные ряды зачастую генерируются внутри самих компаний и являются уникальными для конкретной организации, многие интересные в бизнесе вре- менные ряды можно получить из внешних источников. В изданиях, подобных Statistical Abstract of the United States, Survey of Current Business, Monthly Labor Review и Federal Reserve Bulletin, публикуются временные ряды всех типов. Эти и другие издания предоставляют данные о временных рядах цен, объемов производства и продаж, показателей трудоуст- ройства и безработицы, количества отработанного времени и использованного топлива, суммы доходов и т.п., организованные на месячной, квартальной или годовой основе. Сейчас обширная коллекция временных рядов доступна на Web-узлах, поддерживаемых американскими правительственными организациями, статистическими организациями, университетами и частными лицами. Важно, чтобы менеджеры понимали то, что происходило ранее, и использовали исто- рически накопленные данные при подготовке продуманных планов, отвечающих требо- ваниям будущего. Корректно составленный временной ряд прогнозов поможет исклю- чить некоторую неопределенность, связанную с будущим, и поможет управляющему персоналу в поиске альтернативных стратегий. Так, Питер Бернштейн (Peter Bernstein, 1996) отмечает следующее. Вы не принимаете решение о ввозе товаров через океан, приобретении товаров для продажи или займе денег, не выяснив сначала, какое будущее может вас ожидать. Получение гарантий, что необходимое сырье и материалы будут поставлены в уста- новленный срок, а также забота о том, чтобы товары, которые планируется прода- вать, производились вовремя, а сеть их сбыта была своевременно развернута, — все это должно быть спланировано до того момента, как появятся клиенты и выложат свои деньги на прилавок. Успешный руководитель бизнеса в первую очередь должен быть хорошим прогнозистом. Приобретение материалов, производство, маркетинг, ценовая политика и организация сбыта — все это будет потом. Конечно, возможная альтернатива состоит в том, чтобы ничего не планировать за- ранее. Однако в динамичной деловой среде отсутствие планирования может иметь ка- тастрофические последствия. Производитель компьютеров-мэйнфреймов, который несколько лет назад проигнорировал бы тенденцию к быстрому распространению пер- сональных компьютеров и рабочих станций, очень скоро потерял бы большую часть своей доли рынка. Несмотря на то что ниже внимание фокусируется на модельном подходе к анализу временных рядов, который опирается, прежде всего, на имеющиеся данные, весьма важ- ной также является субъективная оценка самой попытки прогнозирования. Всякий раз, когда прошлое изучается для получения ключа к будущему, это будет уместно только в той мере, в которой прежняя причинная обусловленность будет сохраняться и в после- дующие периоды. В экономической и деловой среде причинная обусловленность редко остается постоянной. Множество существующих причинных факторов склонно к непре- рывным изменениям, поэтому взаимосвязь между прошлым, настоящим и будущим ну- ждается в постоянной переоценке. Техника временнь/х рядов предлагает концептуальный метод прогнозирования, который уже доказал свою несомненную полезность. Прогнозы делаются с соблюде- нием ряда специфических формальных процедур, и принимаемое решение оказыва- ется ясным и точным.
Временные ряды и их компоненты 193 Декомпозиция Один из методов анализа данных временных рядов включает попытку определить состав- ляющие факторы, которые влияют на каждое значение временного ряда. Подобная про- цедура идентификации называется декомпозицией. Каждая компонента идентифицирует- ся отдельно. Затем вклады каждой компоненты комбинируются с целью получения прогнозов будущих значений временнь/х рядов. Методы декомпозиции используются как для кратковременных, так и для долговременных прогнозов. С их помощью также можно просто отображать рост или спад, лежащий в основе ряда, или корректировать значения ряда, исключая из них одну или несколько компонент. Анализ временных рядов путем разложения их на составные части имеет длинную ис- торию. Однако в последнее время слава прогнозов, выполненных на основе метода де- композиции, несколько потускнела. Проекция отдельных компонент на будущее с по- следующей их комбинацией для получения прогноза значений основного ряда на прак- тике работает не очень хорошо. Трудность заключается в том, что сложно дать точный прогноз для отдельных компонент. Разработка более гибких модельных процедур про- гнозирования (некоторые из них рассматриваются в следующих главах) сделала декомпо- зицию скорее инструментом для достижения понимания временных рядов, чем само- стоятельным методом прогнозирования. Рассмотрение методов декомпозиции мы начнем с четырех компонент временных ря- дов, введенных в главе 3. Это трендовая, циклическая, сезонная и нерегулярная (или слу- чайная) компоненты. 1. Тренд. Тренд — это компонента, представляющая основной рост (или спад) во временном ряду. Трендовая компонента может образовываться, например, за счет постоянного изменения популяции, инфляции, технологических изменений или роста продуктивности. Компонента тренда обозначается буквой Т. 2. Цикличность. Циклическая компонента — это последовательность волнообраз- ных флуктуаций или циклы длительностью более одного года. Изменение эконо- мических условий обычно происходит циклически. Циклическая компонента обозначается буквой С. На практике сложно идентифицировать цикл, и он часто кажется частью тренда. В этом случае рассматриваемый основной рост (или спад) компонент называют трендово-циклическим и обозначают буквой Т. Та же буква, что и для обозначе- ния тренда, используется здесь потому, что циклическую компоненту часто не- возможно отделить от тренда. 3. Сезонность. Сезонные изменения обычно присутствуют в квартальных, месячных или недельных данных. Под сезонными вариациями понимаются изменения с более или менее стабильной структурой, имеющие годовую цикличность и повторяющие- ся из года в год. Сезонные изменения являются следствиями влияния погоды или повторения календарно-зависимых событий, таких как школьные каникулы или национальные праздники. Сезонная компонента обозначается буквой S. 4. Нерегулярность. Нерегулярная компонента включает непредсказуемые или слу- чайные флуктуации. Флуктуации являются результатом множества разнообраз- ных событий, которые сами по себе несущественны, но совместно могут дать зна- чительный эффект. Нерегулярная компонента обозначается буквой I.
194 ГЛАВА 5 Для изучения компонент временных рядов аналитик должен рассмотреть, как каждая из них связана с реальным рядом. Эта задача решается посредством задания модели (математического соотношения), в которой переменная временного ряда Y выражается в терминах его компонент Т, С, S и I. Модель, которая трактует каждое значение времен- ного ряда как сумму компонент, называется моделью аддитивных компонент. Модель, рассматривающая каждое значение временного ряда как произведение компонент, име- нуется моделью мультипликативных компонент. Обе модели иногда относят к моделям не- наблюдаемых компонент, поскольку на практике, хотя сами значения временнь/х рядов наблюдаются, значения их компонент не могут наблюдаться. При использовании метода анализа временнь/х рядов, описанного в этой главе, можно получить оценки значений компонент для заданного наблюдаемого ряда. По этим оценкам можно делать прогнозы или отображать ряды, “не обременяя” их данные сезонными изменениями. Последний процесс называется сезонной корректировкой. Иметь дело с циклическими компонентами временнь/х рядов сложно. До некоторой степени циклы можно определить на основе данных наблюдений, но их длительность (измеряемая в годах) и величина (разница между наибольшим и наименьшим значения- ми) далеко не постоянны. Отсутствие постоянства в волнообразной структуре создает значительные трудности при отделении циклов от гладко развивающегося тренда. По- этому, чтобы сохранить простоту изложения, предположим, что все циклы в данных бу- дут частью тренда. По этой причине сначала рассмотрим только три компоненты — Т, S и/. Краткое обсуждение способа учета циклических флуктуаций в декомпозиционном методе анализа временнь/х рядов приводится в этой главе, в разделе “Циклические и не- регулярные вариации”. Двумя простейшими моделями, связывающими наблюдаемую величину временного ряда (У,) с компонентами тренда (Г,), сезонности (S,) и нерегулярности (/,), являются мо- дель ад дитивных компонент Y, = Т, + 5',+/, (5.1) и модель мультипликативных компонент. Y, = Т, х S, х I,. (5.2) Модель аддитивных компонент применима в тех случаях, когда анализируемый вре- менной ряд имеет приблизительно одинаковые изменения на протяжении всей длитель- ности ряда. Иными словами, все значения ряда существенно убывают в пределах полосы постоянной ширины, центрированной на уровне тренда. Модель мультипликативных компонент эффективнее в тех ситуациях, когда измене- ние временной последовательности увеличивается с ростом уровня1, т.е. значения ряда расходятся как имеющие тренд, а наблюдаемая последовательность значений напомина- ет рупор или воронку. Примеры временных рядов с постоянной и возрастающей вариа- бельностью показаны на рис. 5.1. Оба эти месячные ряда имеют растущий тренд и явную сезонную структуру2. Можно преобразовать мультипликативную декомпозицию в аддитивную, используя логарифмы данных. На основе уравнения 5.3 и свойств логарифма можно записать log}' = log(7X S X I) = log? + log.S" + log/. Декомпозиция логарифмированных данных рассматривается в задании 5.15. Существует вариант декомпозиционной модели (уравнения 5.1 и 5.2), который содержит как мульти- пликативные, так и аддитивные члены. Например, некоторые пакеты программного обеспечения выполня- ют “мультипликативную ” декомпозицию, используя модель Y = Т X S +1.
Временные ряды и их компоненты 195 Месяцы Рис. 5.1. Временной ряд с постоянной (вверху) и возрастающей ва- риабельностью (внизу) Тренд Тренд представляет собой долговременные изменения во временных рядах, которые иногда можно описать с помощью прямой линии или гладкой кривой. Примерами ос- новных сил, продуцирующих или вызывающих тренд рядов, являются изменение чис- ленности населения, изменение цен, технологические изменения, рост продуктивности и жизненный цикл товара.
196 ГЛАВА 5 Увеличение населения может привести к тому, что розничные продажи в обществе будут постоянно возрастать в течение многих лет. Кроме того, уровень продаж в долларах может подскочить в этот период из-за всеобщего возрастания цен на розничные товары, даже если физический объем проданных товаров не изменился. Технологические изменения также могут привести к тому, что временные ряды будут воз- растать или убывать. Разработка высокоскоростных компьютерных чипов, создание устройств памяти сверхвысокой емкости, усовершенствование средств визуального представления ин- формации одновременно с бурным развитием телекоммуникационных технологий — все это в совокупности вызвало рост использования компьютеров и сотовых телефонов. И конечно, те же технологические изменения привели к появлению нисходящего тренда в производстве ме- ханических вычислительных устройств и телефонов с дисковым номеронабирателем. Рост продуктивности производства, который, в свою очередь, может быть обусловлен технологическими изменениями, является причиной роста значений во многих времен- нь/х рядах. Изменение продуктивности влияет на любой итоговый показатель общест- венного производства, например на объем реализованной продукции. Для деловых и экономических временных рядов лучше всего рассматривать трендо- вую (или трендово-циклическую) компоненту как гладкое изменение во времени. В дей- ствительности редко можно предположить, что тренд будет описываться такой простой функцией, как прямая линия, на протяжении всего времени наблюдений временного ря- да. Однако зачастую кривую тренда временного ряда удобнее сглаживать по двум причи- нам. Во-первых, вводится показатель основного направления исследуемого ряда, а во- вторых, можно исключить влияние тренда из первоначального ряда с целью получения более отчетливой картины сезонности. Если грубо представить тренд в виде прямой линии, т.е. если рост или спад похожи на прямую линию, то она описывается следующим уравнением. Т = b0+b{t, (5.3) где Т, — это расчетное значение тренда в момент времени /. Символ t используется для независимой переменной, представляющей время и обыч- но принимающей целочисленные значения 1,2,3,..., соответствующие последователь- ным периодам времени. Коэффициент наклона bt является средним ростом или спа- дом Т для любого возрастания во времени за один период. Временное уравнение для тренда, включающее линейный тренд, может быть приме- нено к данным на основе метода наименьших квадратов. В этом методе значения коэф- фициентов в уравнении для тренда (bQ и в линейном случае) отбираются так, чтобы оцененное значение Т, было наиболее близко к реальному значению Y„ что измеряется с помощью суммы квадратов ошибок (SSE). SSE = '^J(YI-T,)2 (5.4) Пример 5.1 В табл. 5.1 приведены данные о ежегодной регистрации новых пассажирских автомобилей в Соединенных Штатах с 1960 по 1992 год, а на рис. 5.2 представлены соответствующие графи- ки. Значения величин с 1960 по 1992 год были использованы для получения трендового урав- нения. Регистрация является зависимой переменной, а независимой является время t, поме- ченное таким образом: 1960 = 1, 1961 = 2 и т.д.
Временные ряды и их компоненты 197 Линия сглаженного тренда дается следующим уравнением. Т, =7,988 + 0,0687/ Наклон в уравнении для тренда указывает на то, что в среднем каждый год регистрируется на 68 700 автомобилей больше. На рис. 5.3 показана прямая тренда, сглаживающая реальные данные, а также представлены прогнозы регистрации новых автомобилей на 1993 и 1994 годы (t = 34 и t = 35), рассчитанные экстраполяцией линии тренда. Ниже прогноз тренда будет рас- смотрен подробнее. Оцененное значение тренда для регистрации пассажирских автомобилей с 1960 по 1992 год показано в табл. 5.1, в столбце величин Г . Например, уравнение для тренда оцени- вает количество регистраций в 1992 году (/ = 33) следующим образом. Т1992 =7,988+ 0,0687(33) = 10,255 Иными словами, имеем 10 255 000 регистраций. Регистрация новых пассажирских автомобилей в действительности в 1992 году равнялась 8 054 000. Для 1992 года уравнение для тренда пере- оценивает регистрацию приблизительно на 2,2 миллиона автомобилей. Эта и остальные ошибки приведены в табл. 5.1, в столбце Y -Т. Данная ошибка была использована для расчета показа- телей MAD, MSD и МАРЕ, как показано на рис. 5.3. Это те же оценки точности прогнозирова- ния, которые описываются в главе 3 уравнениями (3.7), (3.8) и (3.9). (Команды приложения Minitab, необходимые для получения результатов примера 5.1, приводятся в конце главы.) Таблица 5.1. Регистрация новых пассажирских автомобилей в США, 1960-1392 гг. Год Регистрации (млн) Y Время t Оценка тренда (млн) Т Погрешность Y-Т 1960 6,577 1 8,0568 -1,4798 1961 5,855 2 8,1255 -2,2705 1962 6,939 3 8,1942 -1,2552 1963 7,557 4 8,2629 -0,7059 1964 8,065 5 8,3316 -0,2666 1965 9,314 6 8,4003 0,9138 1966 9,009 7 8,4690 0,5401 1967 8,357 8 8,5376 -0,1807 1968 9,404 9 8,6063 0,7977 1969 9,447 10 8,6750 0,7720 1970 8,388 11 8,7437 -0,3557 1971 9,831 12 8,8124 1,0186 1972 10,409 13 8,8811 1,5279 1973 11,351 14 8,9498 2,4012 1974 8,701 15 9,0185 -0,3175 1975 8,168 16 9,0872 -0,9192 1976 9,752 17 9,1559 0,5961
198 ГЛАВА 5 Год Регистрации (млн) Y Окончание табл. 5.1 Время t Оценка тренда (млн) Т Погрешность Y- Т 1977 10,826 18 9,2246 1,6014 1978 10,946 19 9,2933 1,6527 1979 10,357 20 9,3620 0,9950 1980 8,761 21 9,4307 -0,6697 1981 8,444 22 9,4994 -1,0554 1982 7,754 23 9,5681 -1,8141 1983 8,924 24 9,6368 -0.7128 1984 10,118 25 9,7055 0.4125 1985 10,889 26 9,7742 1.1148 1986 11,140 27 9,8429 1.2971 1987 10,183 28 9,9116 0.2714 1988 10,398 29 9,9803 0.4177 1989 9,833 30 10,0490 -0.2160 1990 9,160 31 10,1177 -0.9577 1991 9,234 32 10,1863 -0.9524 1992 8,054 33 10,2550 -2.2010 Источник: данные министерства торговли, Survey of Current Business (за разные года). Registrations of New Passenger Cars: 1960-1992 Year Puc. 5.2. Временной ряд регистрации новых автомобилей в США (приложение Minitab)
Временные ряды и их компоненты 199 Рис. 5.3. Линия тренда для временного ряда регистрации новых автомобилей (приложение Minitab) Некоторые типы трендовых кривых Жизненный цикл нового товара имеет три стадии: появление, рост, зрелость и насыщение. Кривая, описывающая продажи товара (в долларах или штуках) в течение его жизненного цикла, показана на рис. 5.4. Время, отложенное вдоль горизонтальной оси, может изме- няться от недели до года, в зависимости от природы рынка. Для такого типа данных линей- ный тренд не приемлем. В линейной модели предполагается, что переменная возрастает или убывает на постоянную величину за каждый промежуток времени. Приросты за про- межуток времени, соответствующий кривой жизненного цикла товара в целом, совершенно различаются в зависимости от стадии цикла. Для того чтобы смоделировать тренд в течение жизненного цикла товара, нужна кривая, отличная от прямой линии. Простой функцией, учитывающей кривизну, является квадратичный тренд. Т, ^bg + bj + bf (5.5) На рис. 5.5 кривая квадратичного тренда, сглаживающая данные о регистрации пас- сажирских автомобилей из примера 5.1, построена с использованием критерия SSE. Квадратичный тренд можно спроецировать за пределы имеющихся данных для, скажем, двух дополнительных годов: 1993 и 1994. Последствия такого проецирования мы обсудим в следующем разделе. Исходя из показателей МАРЕ, MAD и MSD, квадратичный тренд лучше описывает ос- новную модель поведения ряда данных о регистрации автомобилей, чем линейный тренд, показанный на рис. 5.3. Какая модель тренда является наиболее подходящей? Прежде чем рассмотреть этот вопрос, нужно ввести несколько дополнительных типов кривых тренда, которые могут оказаться полезными. Когда временной ряд начинается медленно, а потом возрастает (рис. 5.4) так, что про- центное различие наблюдений остается постоянным, можно для сглаживания использо- вать показательный тренд, который задается следующим выражением.
200 ГЛАВА 5 т,=ьаь{ Коэффициент bx зависит от степени роста. Если показательный тренд сглаживает го- довые данные, то предполагаемое увеличение роста будет 100(Z>i - 1)%. (5.6) Время Рис. 5.4. Типичная кривая жизненного цикла нового продукта Quadratic Trend for Car Registarion Time Series Quadratic Trend Model Yt = 6.35619 + 0.348449*t - 8.23E-03*t**2 • Actual * Predicted ----Actual ----Predicted MAPE: 8.61698 MAD: 0.77385 MSD: 0.89395 Puc. 5.5. Квадратичная кривая тренда для данных о регистрации автомобилей (приложение Minitab)
Временные ряды и их компоненты 201 На рис. 5.6 показано количество членов фонда взаимопомощи в частной компании за период с 1991 по 1997 год. Увеличение числа членов фонда не является постоянным, по- скольку в каждый последующий год добавляется все большее число новых членов. Рис. 5.6. График количества членов фонда взаимопомощи Кривая показательного тренда, сглаживающая эти данные, описывается уравнением Т, =10,016(1,313)', предполагающим ежегодное возрастание количества членов фонда около 31%. Следова- тельно, если модель предполагает, что в 1996 году в фонде будет 51 член, то увеличение их числа для 1997 года будет соответствовать 16(51x0,31), что в итоге дает оценку в 67 человек. Эта оценка очень близка к реальному значению — 68 человек. При сглаживании данных о членах фонда взаимопомощи линейным трендом предпо- лагается, что средний рост составляет приблизительно девять новых членов фонда в год. Такой тренд переоценивает реальное возрастание в ранние годы и недооценивает в позд- ние. Поэтому линейный тренд моделирует реальное поведение данных хуже, чем показа- тельная кривая. Ясно, что экстраполяция данных показательным трендом с 31%-ным уровнем роста очень скоро даст слишком большие числа. Это потенциальная проблема модели показа- тельного тренда. Что будет, когда экономический рост замедлится и биржевые курсы начнут падать? Потребность в предоставлении взаимных кредитов будет уменьшаться и количество членов фонда взаимопомощи может даже сократиться. Прогнозы тренда, по- лученные с помощью показательной кривой, окажутся слишком завышенными. Кривая роста Гомперца или же кривая логистического типа описывают общую тен- денцию многих отраслей промышленности и серий новых продуктов к все уменьшаю- щемуся возрастанию при их вступлении в фазу зрелости. Если график исследуемых дан- ных отражает ситуацию, когда объемы продаж (исходно небольшие) сначала быстро воз- растают по мере того, как товар завоевывает рынок, а затем их рост замедляется после достижения насыщения рынка, то их поведение можно описать с помощью кривой Гом-
202 ГЛАВА 5 перца или логистической модели Перла-Рида (Pearl-Reed). На рис. 5.7 для сравнения представлен общий вид кривой Гомперца (а) и логистической кривой Перла-Рида (б). Следует отметить, что логистическая кривая очень похожа на кривую Гомперца; имеется лишь небольшая разница в наклоне. На рис. 5.7 показано, что рост величины К строго ограничен и максимальное ее значение для каждой из кривых функционально определя- ется некоторыми коэффициентами. Формула для этих кривых тренда является слишком сложной (ее обсуждение выходит за рамки данного рассмотрения). Многие программные приложения, применяющие статистические методы, включая и приложение Minitab, по- зволяют сглаживать данные в соответствии с несколькими моделями тренда, рассмот- ренными в этом разделе. а) трендовая кривая Гомперца б) логистическая (Перла-Рида) трендовая кривая Рис. 5.7. S-образные кривые роста Хотя и существуют объективные критерии выбора приемлемой модели тренда, в об- щем случае подбор модели тренда осуществляется посредством субъективной оценки и, следовательно, требует определенного опыта аналитика. Как будет показано в следую- щем разделе, линия или кривая, хорошо сглаживающие набор уже существующих точек данных, могут не иметь смысла, если проектировать их как тренд в будущее. Прогноз тренда Пусть прогноз величины К нар шагов вперед делается в момент времени t = п (конец после- довательности), при этом для прогнозирования используется трендовая модель. Период времени, на который делается прогноз, — в данном случае это п — называется началом пред- сказания. Значение р именуется дальностью прогнозирования. Для модели линейного тренда можно сделать прогноз, вычисляя значения по уравнению Т = Ьо + Ь^п + р). При использовании линейного тренда для сглаживания данных о регистрации авто- мобилей в США из примера 5.1, прогноз тренда для 1993 года (/ = 34), сделанный в 1992 году (г = п = 33), будет предсказанием нар = 1 шаг вперед.
Временные ряды и их компоненты 203 4+i = 7,988 + 0,0687(33 +1) = 7,9881 + 0,687(34) = 10,324 Аналогично на/? = 2 шага вперед (1994 год) прогноз дается следующим выражением. 4+2 = 7,988 + 0,0687(33 + 2) = 7,9881 + 0,687(35) = 10,393 Эти два прогноза показаны на рис. 5.3 как экстраполяция сглаженной линии тренда. На рис. 5.5 показана сглаживающая кривая квадратичного тренда для данных о реги- страции автомобилей. С помощью уравнения, приведенного на рисунке, можно рассчи- тать прогноз тренда на 1993 и 1994 годы, приняв t = 33 + 1 = 34 и t = 33 + 2 = 35. Можно убедиться, что f33+i = 8,690 и f33+2 = 8,470. Эти данные можно нанести на рис. 5.5 как экс- траполяцию линии квадратичного тренда. Следует помнить, что сведения о регистрации автомобилей приведены в миллионах штук и два прогноза тренда, полученные на основании квадратичной кривой, сущест- венно отличаются от прогнозов, полученных на основании линейного уравнения тренда. Более того, они указывают тенденцию в противоположных направлениях. Если экстра- полировать линейный и квадратичный тренд на более отдаленные промежутки времени, то различие между ними будет постоянно увеличиваться. Пример с регистрацией автомобилей показывает, что при использовании сглажи- вающих кривых тренда для прогнозирования будущих трендов нужно быть предельно внимательным. Два уравнения, которые достаточно точно описывают исследуемый ряд, могут давать весьма различные результаты при проецировании на будущие периоды вре- мени. Эта разница может быть весьма существенной для прогнозов большой длительно- сти в случае долговременных прогнозов. Моделирование с помощью кривых тренда предполагает следующие обязательные условия. 1. Была выбрана соответствующая кривая тренда. 2. Кривая, сглаживающая прошлые данные, указывает на будущие. Это говорит о том, что субъективная оценка и личный опыт играют существенную роль при выборе и использовании кривой тренда. Чтобы применить кривую тренда для прогнозирования, нужно доказать, что выбранная кривая тренда корректна и что с большой вероятностью поведение данных в будущем будет аналогично их поведению в прошлом. Существуют и объективные критерии отбора кривых тренда. В последующих главах рассматриваются два из них: информационный критерий Акаике (Akaike) и информаци- онный критерий Баезиана (Bayesian). Однако несмотря на то что эти и другие критерии помогают определить рамки применимости модели, все же они не могут полностью за- менить здравого смысла и субъективной оценки. Сезонность Сезонная структура имеет место при наличии явлений, повторяющихся из года в год. На годичных данных сезонность никак не отражается, поскольку нет возможности смодели- ровать внутригодовую структуру данных, значения которых регистрируются лишь один раз в год. Однако во временных рядах, содержащих недельные, месячные или кварталь- ные наблюдения, сезонность проявляется очень часто.
204 ГЛАВА 5 Анализ сезонной компоненты временных рядов имеет непосредственные краткосроч- ные последствия и весьма важен для менеджмента среднего и нижнего звена. Например, в маркетинговых планах обязательно должны приниматься во внимание ожидаемые се- зонные структуры изменения потребительского спроса. Существует несколько методов для оценки сезонных вариаций. Основная идея всех этих методов заключается в том, что в реальном ряду сначала оценивается и убирается тренд, а потом сглаживается возможная нерегулярная компонента. Принимая во внима- ние рассмотренные ранее модели декомпозиции, можно считать, что оставшиеся данные будут содержать только сезонные вариации. Сезонные величины собираются и сумми- руются для получения числа (а точнее числового индекса) для каждого наблюдаемого ин- тервала года (недели, месяца, квартала и т.п.). Таким образом, определение сезонной компоненты во временном ряду отличается от анализа тренда, по меньшей мере, в двух отношениях. 1. Тренд определяется непосредственно из начальных данных, а сезонная компо- нента вычисляется лишь после исключения из набора данных всех остальных компонент, в результате чего в них остается только сезонность. 2. Тренд описывается с помощью одной, хорошо сглаживающей исходные данные кривой или одного уравнения, а в случае сезонности отдельное значение рассчи- тывается для каждого наблюдаемого интервала (недели, месяца, квартала) года и чаще всего имеет вид числового индекса. При использовании аддитивной декомпозиции, оценки трендовой, сезонной и нере- гулярной компонент суммируются, что в результате дает исходный ряд. Если использует- ся мультипликативная декомпозиция, то для того, чтобы восстановить исходную после- довательность, отдельные компоненты перемножаются. В этом случае сезонная компо- нента представляется набором числовых индексов. Эти числа показывают, какие перио- ды в году характеризуются относительно низкими показателями, а какие — относительно высокими. Сезонная структура проявляется в сезонных индексах. Числовые индексы являются удельными величинами, характеризующими изменения величины во времени. Для месячных данных, например, сезонный индекс 1,0 для одного месяца означает, что ожидаемое значение для него составляет 1/12 от общего значения для всего года. Значение ин- декса 1,25 для другого месяца подразумевает, что ожидаемые наблюдения для него превысят на 25% 1/12 годичного целого. Месячный индекс 0,80 указывает на то, что ожидаемый уровень активности для этого месяца будет на 20% меньше 1/12 годичного целого, и т.д. Числовые ин- дексы указывают на ожидаемые подъемы и спады уровня активности в течение года после того, как трендовая (или трендово-циклическая) и нерегулярная компоненты были удалены. Чтобы выделить сезонность, нужно в первую очередь оценить и удалить тренд. Тренд можно оценить с помощью одной из кривых тренда, которые рассматривались выше, или с помощью метода скользящих средних, обсуждавшегося в главе 4. При использовании модели мультипликативной декомпозиции существует популяр- ный метод оценки сезонных вариаций, называемый отнесение к скользящему среднему. В этом методе тренд оценивается с использованием центрированного скользящего сред- него. Данный метод иллюстрируется на примере месячных объемов продаж в компании Cavanaugh, представленных на рис. 5.1 в следующем примере.
Временные ряды и их компоненты 205 Пример 5.2 Чтобы проиллюстрировать метод отнесения к скользящему среднему, рассмотрим месячные объемы продаж в компании Cavanaugh3 за два года. В табл. 5.2 приведены данные о месячных объемах продаж с января 1998 по декабрь 1999 года. На первом этапе для месячных данных вычисляется 12-месячное скользящее среднее (для квартальных данных следует вычислять четырехмесячное скользящее среднее). Поскольку в вычисление этого скользящего среднего включены все месяцы года, в результате сезонная компонента будет исключена, а само сколь- зящее среднее будет включать только трендовую и нерегулярную компоненты. Период Объем 12-месячная Двухгодичная 12-месячное Сезонный продаж скользящая скользящая центрированное индекс сумма сумма скользящее среднее 1988 Январь 518 Февраль 404 Март 300 Апрель 210 Май 196 Июнь 186 Июль 247 4869 . 1 4964 2 9833}3 409,7}4 0,60}5 Август 343 4952 9916 413,2 0,83 Сентябрь 464 4925 9877 411,5 1,13 Октябрь 680 5037 9962 415,1 1,64 Ноябрь 711 5030 10067 419,5 1,69 Декабрь 610 5101 10131 422,1 1,45 Единицы измерения были опущены, а даты и название были изменены с целью защитить интересы ком- пании.
206 ГЛАВА 5 Окончание табл. 5.2 Период Объем продаж 12-месячная скользящая сумма Двухгодичная скользящая сумма 12-месячное центрированное скользящее среднее Сезонный индекс 1999 Январь 613 5178 10279 428,3 1,43 Февраль 392 5239 10417 434,0 0,90 Март 273 5452 10691 445,5 0,61 Апрель 322 5630 11082 461,8 0,70 Май 189 5814 11444 476,8 0,40 Июнь 257 5868 11682 486,8 0,53 Июль 324 Август 404 Сентябрь 677 Октябрь 858 Ноябрь 895 Декабрь 664 В целом, для расчета сезонных индексов по методу отнесения к скользящему среднему требуется выполнить следующие действия (см. также табл. 5.2). Этап 1. Начиная с первого члена ряда рассчитывается 12-месячная скользящая сумма, с ян- варя по декабрь 1998 года, которая помещается между июнем и июлем 1998 года. Этап 2. Рассчитывается двухгодичная скользящая сумма, и результат помещается в таблицу в строку июля, а не между месяцами. Этап 3. Поскольку двухгодичная сумма уже содержит данные о 24 месяцах (январь 1998 года один раз, данные с февраля по декабрь 1998 года дважды и январь 1999 года снова один раз), она центрирована (находится напротив) на июле 1998 года. 4869 + 4964 = 9833 Этап 4. Двухгодичная скользящая сумма делится на 24 для получения 12-месячного цен- трированного скользящего среднего. 9833/24 = 409,7
Временные ряды и их компоненты 207 Этап 5. Сезонный индекс для июля получается в результате деления реального значения для июля на 12-месячное центрированное скользящее среднее4. 247/409,7 = 0,60 Этапы 1—5 повторяются начиная со второго месяца ряда и т.д. Процесс заканчивается тогда, когда уже нельзя вычислить полную 12-месячную скользящую сумму. После того как получено несколько оценок (соответствующих разным годам) сезонных индексов для каждого месяца, их надо тем или иным образом обобщить, чтобы получилось одно значение. Как обобщенную меру более предпочтительно использовать медиану, а не среднее значение. Использование медианы исключает влияние тех месячных данных в году, которые являются необычайно большими или маленькими. Сводка сезонных отношений вместе со значением медианы для каждого месяца показана в табл. 5.3. Сумма месячных сезонных индексов для всего года должна равняться 12, поэтому, чтобы получить результирующий набор сезонных индексов5, значение медиан следует соответст- вующим образом подогнать. Необходимый множитель должен быть больше единицы, если сумма медиан до подгонки оказалась меньше 12, и меньше единицы, если сумма медиан была больше 12. Поэтому необходимый множитель определяется следующей формулой. 12 множитель =---------------------- Действительная сумма Ту ' Месяц 1994 1995 1996 1997 1998 1999 2000 Медиана Подогнанный сезонный индекс (Медианах1,0044) Январь — 1,208 1,202 1,272 1,411 1,431 — 1,272 1,278 Февраль — 0,700 0,559 0,938 1,089 0,903 — 0,903 0,907 Март — 0,524 0,564 0,785 0,800 0,613 — 0,613 0,616 Апрель — 0,444 0,433 0,480 0,552 0,697 — 0,480 0,482 Май — 0,424 0,365 0,488 0,503 0,396 — 0,424 0,426 Июнь — 0,490 0,459 0,461 0,465 0,528 0,465 0,467 Июль 0,639 0,904 0,598 0,681 0,603 0,662 0,651 0,654 Август 1,115 0,913 0,889 0,799 0,830 0,830 0,860 0,864 Сентябрь 1,371 1,560 1,346 1,272 1,128 1,395 1,359 1,365 Октябрь 1,792 1,863 1,796 1,574 1,638 1,771 1,782 1,790 Ноябрь 1,884 2,012 1,867 1,697 1,695 1,846 1,857 1,865 Декабрь 1,519 1,088 1,224 1,282 1,445 — JL282 11,948 1.288 12,002 Эта операция деления на скользящее среднее и дала данной процедуре ее название. 5 Сумма месячных индексов должна равняться 12, чтобы ожидаемый годичный итог равнялся реальному годовому итогу.
208 ГЛАВА 5 Используя данные из табл. 5.3, получаем следующее. 12 Множитель =-------= 1,0044 11,948 Последний столбец в табл. 5.3 содержит результирующие сезонные индексы для каждого месяца, полученные за счет подгонки (умножения на 1,0044) каждой вычисленной медианы6. На рис. 5.8 вычисленные сезонные индексы представлены графически. Они представляют се- зонную компоненту в мультипликативной декомпозиции временного ряда ежемесячных объ- емов продаж компании Cavanaugh. На рис. 5.8 сезонность в объемах продаж компании очевидна. Каждый годичный период характеризуется сравнительно низкими продажами поздней весной и относительно высоки- ми продажами поздней осенью. Рис. 5.8. Сезонные индексы для объемов продаж в компании Cava- naugh (приложение Minitab) При анализе ряда данных об объеме продаж из примера 5.2 предполагалось, что их се- зонная структура постоянна из года в год. Если сезонная структура претерпевает измене- ния, то оценка сезонной компоненты на полном наборе данных может дать ошибочные результаты. В этом случае для оценки сезонной компоненты лучше использовать либо только самые свежие данные (за последние несколько лет), либо модель временных ря- дов, допускающую выделение сезонности. (Модели, допускающие выделение сезонно- сти, рассматриваются в последующих главах.) Сезонный анализ, продемонстрированный в примере 5.2, приемлем при мультипли- кативной модели декомпозиции. Однако общий подход, описываемый этапами 1-5, бу- дет пригоден и для аддитивной декомпозиции, если на этапе 5 для получения индекса се- зонность будет оцениваться посредством вычитания тренда из исходной последователь- ности, а не деления на тренд (скользящее среднее). При аддитивной декомпозиции се- зонная компонента выражается в тех же единицах, что и исходный ряд. Кроме того, из приведенного выше примера с объемами продаж видно, что определе- ние тренда на основе центрированного скользящего среднего дает в результате некото- рые недостающие значения в конце ряда. Это чрезвычайно проблематично, если главной Сезонные индексы иногда умножаются на 100 и выражаются в процентах.
Временные ряды и их компоненты 209 целью является прогнозирование. Чтобы спрогнозировать будущие значения с помощью методов декомпозиции, для оценки тренда следует применять альтернативные методы. Результаты сезонного анализа могут быть использованы для исключения сезонности из данных, предсказания будущих значений данных, оценки текущего состояния дел (например, в торговле, производстве или при выполнении перевозок), а также для целей планирования производства. Данные с устраненными сезонными колебаниями После определения сезонную компоненту можно использовать для вычисления данных с устраненными сезонными колебаниями. Для аддитивной декомпозиции такие данные вы- числяются путем вычитания сезонной компоненты из исходных значений. Y,-S,= T, + I, Для мультипликативной декомпозиции данные с устраненными сезонными колебания- ми вычисляются путем деления исходных данных наблюдений на сезонную компоненту. — = 7]х/ (5.7) S, В экономике большинство временных рядов, обнародованных государственными уч- реждениями, являются данными с устраненными сезонными колебаниями, поскольку сезонные вариации не вызывают большого интереса. Интерес представляют скорее об- щие модели экономической активности, независящие от обычных сезонных изменений. Например, число регистраций новых автомобилей может возрасти на 10% в период с мая по июнь, но указывает ли это на то, что продажи новых автомобилей в этом квартале бу- дут рекордными? Конечно же, нет, поскольку увеличение данной величины на 10% ти- пично для этого времени года и в подавляющей степени является следствием исключи- тельно сезонных факторов. В обзоре, касающемся получения данных с устраненными сезонными колебаниями, Белл (Bell) и Гилмер (Hillmer) (1984) отметили, что многие потребители отдают должное поправке на сезонность. Авторы выделяют три мотива для выполнения сезонной коррек- тировки данных. 1. Исключение сезонности позволяет достоверно сравнивать значения в различные моменты времени. 2. Соотношение между экономическими или деловыми переменными понять будет легче, если осложняющий фактор сезонности предварительно устранен из дан- ных. 3. Исключение сезонности может быть полезным элементом в получении кратко- временных прогнозов будущих значений данных временных рядов. Белл и Гилмер (1984) сделали вывод, что “исключение сезонности упрощает данные таким образом, что простые потребители в результате смогут более просто статистически интерпретировать их, причем без значительных потерь информации” (с. 301).
210 ГЛАВА 5 Циклические и нерегулярные изменения Циклы — это долговременные волнообразные колебания, которые чаще всего встречают- ся в макропоказателях экономической деятельности. Как говорилось ранее, в тех преде- лах, в которых они могут быть измерены, циклы обычно не имеют устойчивой структуры. Однако определенное понимание циклического поведения временных рядов может быть получено путем исключения из них трендовой и сезонной компонент с использованием метода мультипликативной декомпозиции.’ 2^=7^<£><S£2<A = (58) T,xS, T,xS, Для сглаживания нерегулярностей, /„ можно использовать скользящее среднее, со- храняя в данных лишь циклическую компоненту С,. Чтобы исключить проблему центри- рования при использовании метода скользящего среднего с четными временными перио- дами, нерегулярности сглаживаются по методу скользящего среднего с нечетным количе- ством периодов. Для месячных данных удобнее всего использовать 5-, 7-, 9- и даже 11- периодическое скользящее среднее. Для квартальных данных оценка С может быть рас- считана с использованием 3-периодического скользящего среднего для значений Cxf. Наконец, нерегулярная компонента оценивается с помощью следующего уравнения. z QSL (5.9) С, Нерегулярная компонента описывает вариабельность во временных рядах после того, как были удалены все остальные компоненты. Иногда ее также называют остатком или ошибкой. При мультипликативной декомпозиции как циклическая, так и нерегулярная компоненты выражаются индексами. Единственная причина выполнения декомпозиции временной последовательности состоит в стремлении выделить и рассмотреть отдельные компоненты последовательно- сти. После того как аналитик рассмотрит трендовую, сезонную, циклическую и нерегу- лярную компоненты по отдельности, можно попытаться проникнуть в суть структуры исходных данных. Кроме того, однажды выделенные компоненты могут комбинировать- ся заново или синтезироваться с целью получения прогнозов будущих значений времен- ных рядов. Пример 5.3 В примере 3.5 Перкин Кенделл, аналитик компании Outboard Marine, с помощью автокорре- ляционного анализа обнаружил в данных о ежеквартальных объемах продаж наличие сезон- ной компоненты. Чтобы лучше понять поведение этого временного ряда, он решил приме- нить метод декомпозиции. Перкин ввел данные в приложение Minitab (см. раздел “Применение Minitab” в конце главы) и получил результаты, приведенные в табл. 5.4 и на рис. 5.9. Для того чтобы надлежащим образом сохранить текущую сезонную структуру, дан- ные о продажах (У) были проанализированы только за последние семь лет (с 1990 по 1996 гг). Обратите внимание на то, что в уравнение мультипликативной декомпозиции (5.2) была добавлена циклическая компонента. В годичных данных сезонная компонента отсутствует, и произведение циклической компоненты на не- регулярную вычисляется посредством простого удаления тренда из исходных данных.
Временные ряды и их компонент ы 211 Исходные данные показаны на верхнем левом графике на рис. 5.10. Тренд вычислялся с использованием линейной модели: Т, =253,742 +1,284?. Так как 1 соответствует первому кварталу 1990 года, в табл. 5.4 для этого промежутка времени показано значение тренда, рав- ное 255,026, а увеличение объема продаж оценивается в 1,284 за каждый квартал. Верхний правый график (рис. 5.10) представляет данные с исключенным трендом. Эти данные также приведены в столбце SCI в табл. 5.4. Значение для первого квартала 1990 года с исключенным трендом составляет следующее’. Y SCI=- т 232,7 255,026 = 0,912 Данные с устраненными сезонными колебаниями показаны в столбце TCI табл. 5.4 и на левом нижнем графике на рис. 5.10. Значение с устраненными сезонными колебаниями для первого квартала 1990 года будет равно следующему. 232 7 TCI = -=^— = 298,486 0,7796 Объем продаж в первом квартале 1995 года оказался равен 242,600. Однако проверка столбца с устраненными сезонными колебаниями показывает, что продажи в этом квартале фактически были высокими, хотя данные были подогнаны исходя из того, что первый квар- тал обычно является очень слабым. Таблица 5.4. Мультипликативная декомпозиция данных о квартальных объемах продаж компании Outboard Marine t Год Квартал Продажи Т SCI S TCI CI С I 1 1990 1 232,7 255,026 0,912 0,780 298,486 1,170 * * 2 2 309,2 265,310 1,206 1,016 304,297 1,187 1,146 1,036 3 3 310,7 257,594 1,206 1,117 278,175 1,080 1,103 0,979 4 4 293,0 258,878 1,132 1,087 269,459 1,041 1,044 0,997 5 1991 1 205,1 260,162 0,788 0,780 263,084 1,011 0,978 1,034 6 2 234,4 261,446 0,897 1,016 230,683 0,882 0,955 0,924 7 3 285,4 262,730 1,086 1,117 255,524 0,973 0,919 1,059 8 4 258,7 264,014 0,980 1,087 237,914 0,901 0,936 0,963 9 1992 1 193,2 265,298 0,728 0,780 247,820 0,934 0,936 0,998 10 2 263,7 266,583 0,989 1,016 259,518 0,974 0,962 1,013 И 3 292,5 267,867 1,092 1,117 261,880 0,978 1,009 0,969 12 4 315,2 269,151 1,171 1,087 289,875 1,077 0,967 1,114 13 1993 1 178,3 270,435 0,659 0,780 228,708 0,846 0,972 0,870 ’ Для того чтобы упростить обозначения в этом примере, нижний индекс t в обозначении исходных дан- ных Yue обозначениях каждой из их компонент Т, S, С и I опускается. Также опущен знак умножения, х, между компонентами, так как ясно, что рассматривается мультипликативная декомпозиция.
212 ГЛАВА 5 Окончание табл. 5.4 t Год Квартал Продажи Т SCI 5 TCI CI С I 14 2 274,5 271,719 1,010 1,016 270,147 0,994 0,936 1,062 15 3 295,4 273,003 1,082 1,117 264,477 0,969 0,974 0,995 16 4 286,4 274,287 1,044 1,087 263,389 0,960 0,939 1,022 17 1994 1 190,8 275,571 0,692 0,780 244,742 0,888 0,928 0,957 18 2 263,5 276,855 0,952 1,016 259,321 0,937 0,950 0,986 19 3 318,8 278,139 1,146 1,117 285,427 1,026 0,989 1,037 20 4 305,3 279,423 1,093 1,087 280,770 1,005 1,047 0,960 21 1995 1 242,6 280,707 0,864 0,780 311,186 1,109 1,075 1,032 22 2 318,8 281,991 1,131 1,016 313,744 1,113 1,088 1,023 23 3 329,6 283,275 1,164 1,117 295,097 1,042 1,082 0,963 24 4 338,2 284,559 1,189 1,087 311,027 1,093 1,059 1,032 25 1996 1 232,1 285,843 0,812 0,780 297,718 1,042 1,038 1,004 26 2 285,6 287,127 0,995 1,016 821,071 0,979 0,975 1,004 27 3 291,0 288,411 1,009 1,117 260,537 0,903 0,925 0,976 28 4 281,4 289,695 0,971 1,087 258,791 0,893 * * Рис. 5.9. Результаты декомпозиции данных о квартальных объ- емах продаж компании Outboard Marine в приложении Minitab
Компоненты анализа продаж 350 300 250 200 Исходные данные 0 10 20 30 320 310 300 290 280 270 260 250 240 230 Данные с сезонной корректировкой 0 10 20 30 Данные с устраненными трендом и сезонностью 0 10 20 30 Рис. 5.10. Анализ компонент данных о продажах компании Outboard Marine (пример 5.3)
Сезонный анализ продаж Процентное отклонение, за период сезонности Остатки, за период сезонности Рис. 5.11. Сезонный анализ данных о квартальных объемах продаж компании Outboard Marine
Временные ряды и их компонент ы 215 На рис. 5.9 представлены следующие сезонные компоненты. Первый квартал = 0,77960 —> 78,0% Второй квартал = 1,01611 —> 101,6% Третий квартал = 1,1169 —> 111,7% Четвертый квартал = 1,08737 —> 108,7% Верхняя левая диаграмма на рис. 5.11 представляет сезонные компоненты, отнесенные к 1,0. Можно видеть, что продажи в первом квартале на 22% ниже средних, во втором кварта- ле они приблизительно такие, как и ожидалось, в третьем квартале продажи почти на 12% выше средних, а в четвертом квартале почти на 9% превышают обычные. Циклически-нерегулярная компонента для первого квартала 1990 года равна следующему10. Y 232 7 CI = — =--------------------= 1,170 TS (255,026)(0,7796) Для расчета столбца циклической компоненты вычисляется 3-периодическое скользящее среднее. Его значение для второго квартала 1990 года равно следующему. 1,170 1,187 1,080 о 3Q-7/Q 1 1ЛД ------ 3,437/3 = 1.146 3,437 Обратите внимание на то, как сглажены значения в столбце С, по сравнению со столбцом CI. По сути, использование скользящего среднего сглаживает (т.е. устраняет) всю нерегулярность. Для второго квартала 1990 года расчет значения в столбце / дает следующее. Проверка значений в столбце / показывает, что в нерегулярной компоненте присутствуют большие вариации. Индекс нерегулярности убывает от 111,4% в четвертом квартале 1992 года до 87% в первом квартале 1993, а потом возрастает до 106,2% во втором квартале 1993 года. Та- кое поведение вытекает из необычайно низкого уровня продаж в первом квартале 1993 года. Циклические индексы могут быть использованы для получения ответа на следующие вопросы. 1. Является ли последовательность циклической? 2. Если да, то каковы крайние значения цикла? 3. Придерживается ли ряд общей схемы изменения состояния экономики (деловой цикл)? Одним из путей исследования циклической структуры является изучение деловых по- казателей. Деловой показатель представляет собой связанный с деловой активностью временной ряд, предназначенный для оценки общего состояния экономики, в частности ‘° В приложении Minitab произведение циклической компоненты на нерегулярную компоненту (или просто нерегулярная компонента, если циклическая не рассматривается) рассчитывается путем вычитания из ис- ходных данных тренда, умноженного на сезонную компоненту. Или в обозначениях, принятых в приложении Minitab: Cl = Y- TS. Компонента CI представлена на нижнем правом графике рис. 5.10 и на нижней правой диаграмме на рис. 5.11.
216 ГЛАВА 5 по отношению к бизнес-циклу. Многие деловые люди и экономисты систематически следят за динамикой таких статистических рядов, чтобы получить экономическую или деловую информацию в виде развернутой общей картины — актуальной на сегодняшний день, всесторонней, относительно объективной и поддающейся восприятию и понима- нию с минимальной затратой времени. Деловой показатель — это связанный с деловой активностью временной ряд, предна- значенный для упрощения понимания общего состояния экономики. Наиболее важные статистические показатели появились во время резкого экономиче- ского спада в 1937-1938 гг. Министр финансов, Генри Моргентау (Henry Morgenthau), потребовал от Национального комитета экономических исследований США (НКЭИ) разработать систему, которая могла бы указать, когда спад будет близок к концу. Под ру- ководством Уэсли Митчелла (Wesley Mitchell) и Артура Бернса (Arthur F. Burns) эконо- мисты из НКЭИ отобрали 21 ряд, которые на основе уже происшедших событий обеща- ли быть четкими и надежными показателями делового возрождения. С того времени спи- сок показателей пересматривался несколько раз. Текущий список состоит из 22 показа- телей, причем 11 из них классифицируются как опережающие, 4 — как синхронные и 7 — как запаздывающие. 1. Опережающие показатели. На практике компоненты опережающих рядов изуча- ются для того, чтобы помочь предугадать поворотные моменты в экономике. Из- дание Survey of Current Business публикует эти списки каждый месяц вместе с дей- ствительными значениями каждого ряда для нескольких прошедших месяцев и последнего года. Кроме того, сводный индекс опережающих показателей рассчи- тывается для каждого месяца и года; а наиболее свежие месячные значения часто публикуются в популярных изданиях, чтобы указать основное направление даль- нейшего развития экономики. В качестве примеров опережающих показателей можно привести новые заказы у производителей и показатель курса акций. 2. Синхронные показатели. Четыре синхронных показателя указывают, как экономи- ка США функционирует в настоящее время. Индекс этих четырех рядов рассчи- тывается для каждого месяца. Примерами синхронных показателей являются ин- дивидуальные доходы и объемы продаж. 3. Запаздывающие показатели. Эти показатели имеют тенденцию к отставанию от общего состояния экономики как в подъемах, так и в спадах. Сводный индекс рассчитывается и для этих рядов. Примерами запаздывающих показателей могут служить нормы процентных ставок и неоплаченные коммерческие ссуды. Цикличность подразумевает наличие точек поворота. Иначе говоря, точки поворота имеют место только как результат последовательного спада или подъема в деловых цик- лах. Опережающие показатели изменяют направление изменений в ключе грядущих пе- ремен в общей деловой деятельности, синхронные показатели изменяются приблизи- тельно в то же время, что и общее состояние экономики, а изменения в запаздывающих показателях следуют за изменениями в общем состоянии экономики. Однако очень сложно выявить точки поворота цикла в тот момент, когда они наступают, так как раз- ные области экономики по-разному расширяются во время общего подъема и не во всех областях сужение производства происходит в период спада одновременно. Поэтому
Временные ряды и их компонент ы 217 должно пройти несколько месяцев, прежде чем переломную точку подъема или спада можно будет определить с необходимой достоверностью. Авторы статьи Early warning signals for the economy (“Ранние предупреждающие сигна- лы в экономике”), Джеффри Мур (Geoffrey Н. Moor) и Джулиус Шискин (Julius Shiskin) (1976), говорят относительно полезности показателей деловых циклов следующее. Из накопленных данных становится ясно, что показатели деловых циклов являются полезными в оценке характера текущих дел и кратковременных перспектив. Однако вследствие своей ограниченности эти показатели должны использоваться совместно с другими данными, с полной осведомленностью о существе дела, надеждах и дове- рии потребителей, государственной политике и международных событиях. Также нужно ожидать, что показатели часто будет трудно интерпретировать, интерпрета- ции разных аналитиков будут иногда различаться и сигналы, которые они несут, могут быть неправильно трактованы. Показатели предоставляют чувствительную и показательную картину приливов и отливов экономических течений, которую уме- лый аналитик экономики, политики и международных событий может использовать, чтобы увеличить свои шансы в надежном предсказании кратковременных экономи- ческих тенденций. Если аналитик осведомлен об ограничениях и внимателен к про- исходящему в окружающем мире, он найдет полезные свидетельства существующих тенденций для критической оценки экономики и ее нужд (с. 81). Циклические компоненты отдельных временнь/х рядов чаще всего согласуются не- точно, а иногда и совсем не согласуются с деловыми циклами, описываемыми показате- лями НКЭИ. Однако если выполнена оценка циклической компоненты для данного временного ряда, ее всегда можно распространить на определенный период, получив не- которое представление о величине и длительности любого цикла, который существует в действительности. К тому же построенный график может быть сопоставлен с данными о росте и спаде общей экономической активности. Предыдущее обсуждение демонстрирует, как факторы, приводящие к изменениям во временнь/х рядах, могут быть разделены и изучены по отдельности. Анализ —это процесс разделения временнь/х рядов на составляющие; синтез — это процесс обратного объеди- нения этих составляющих в одно целое. Компоненты временнь/х рядов могут вновь ре- комбинироваться с целью получения прогноза. Прогноз сезонного временного ряда В прогнозировании сезонных временнь/х рядов используется процесс, обратный процес- су декомпозиции. После разбиения ряда на отдельные компоненты для их раздельного изучения, его компоненты собираются для построения прогноза на будущие периоды. Для составления прогноза квартального объема продаж компании Outboard Marine при- меним мультипликативную модель и воспользуемся результатами примера 5.3. Пример 5.4 Прогноз объемов продаж компании Outboard Marine для четырех кварталов 1997 года можно построить, воспользовавшись данными из табл. 5.4.
218 ГЛАВА 5 1. Тренд. Уравнение квартального тренда будет иметь вид: Т, =253,742 + 1,284?. Ис- ходным периодом для прогнозирования является четвертый квартал 1996 года или период времени t = п = 28. Объем продаж для первого квартала 1997 года опреде- ляется для периода времени / = 28 + 1 = 29. Из этого ясно, что прогноз делается на р= 1 период вперед. Тогда, полагая t = 29, прогноз тренда определяется следую- щим образом. Тг9 =253,742 + 1,284(29) = 290,978 2. Сезонность. Значение сезонного индекса для первого квартала, равное 0,7796, пред- ставлено на рис. 5.9. 3. Цикличность. Прогноз цикличности должен быть получен из оценки общей цик- лической структуры ряда (если таковая имеется) и любой другой информации, порождаемой общеэкономическими показателями для 1997 года. Прогноз цикли- ческой структуры на будущие периоды времени является неопределенным и, как указывалось ранее, будет скорее предположением, поэтому при прогнозировании его следует включить в тренд. Для полноты нашего примера примем циклический индекс равным 1,0. 4. Нерегулярность. Нерегулярные флуктуации представляют случайные изменения, кото- рые нельзя отнести к другим компонентам. В прогнозе среднее значение нерегулярной компоненты полагается равным 1,0". Прогноз на первый квартал будет следующим. f29 = Т29 х S29 х С29 х 129 = (290,978)(0,7796)(1,0)(1,0) = 226,846 Прогноз на остальные кварталы 1997 года. Второй квартал = 269,973 Третий квартал = 327,870 Четвертый квартал = 320,590 Приближение, которое получено посредством мультипликативной декомпозиции данных о квартальных объемах продаж компании Outboard Marine, и полученный прогноз на 1997 год представлены на рис. 5.12. Из рисунка видно, что данное приближение, составленное из тренда и сезонной компоненты, достаточно хорошо описывает реальные данные. Однако это приближение дает неверные результаты для двух последних кварталов 1996 года. Прогнозы на 1997 год повторяют общую структуру приближения. Прогнозы, получаемые с помощью модели аддитивной или мультипликативной де- композиции, отражают важность отдельных компонент. Если сезонность переменной высока, то прогнозы будут иметь сильную сезонную структуру. Если к тому же присутст- вует тренд, то прогнозы будут следовать сезонной модели, накладываясь на экстраполи- рованный тренд. Если в анализе доминирует одна компонента, лишь она может давать действительный, точный и кратковременный прогноз. " Для прогноза, составляемого с использованием аддитивной модели, нерегулярный индекс принимается в среднем равным нулю.
Временные ряды и их компонент ы 219 Decomposition Fit for Sales • Actual a Predicted Ф Forecast ____Actual ____Predicted ____Forecast MAPE: 7.103 MAD: 18.651 MSD: 496.939 Puc. 5.12. Приближение, полученное методом мультипликативной декомпозиции, и прогнозы объема продаж компании Outboard Marine (приложение Minitab) Метод декомпозиции Census II Методы декомпозиции временных рядов имеют длинную историю. В 1920-х и начале 1930-х годов в Федеральном резервном управлении и Национальном комитете экономи- ческих исследований США проводились интенсивные исследования в области сезонных корректировок и методов сглаживания экономических временнь/х рядов. Однако пока компьютерная техника не получила необходимого развития, декомпозиционные вычис- ления были трудоемкими и практическое применение этих методов было ограничено. В начале 1950-х годов Джулиус Шискин (Julius Shiskin), руководитель группы экономиче- ских статистиков в Бюро переписи населения США, разработал масштабную компью- терную программу для декомпозиции временнь/х рядов. Первая компьютерная програм- ма весьма приближенно соответствовала ручному методу, что было пределом возможно- стей на то время, и поэтому годом позже ее заменили на усовершенствованную програм- му, известную как Method II. Далее последовала серия усовершенствованных вариантов этой программы. Текущий вариант программы декомпозиции временного ряда Бюро пе- реписи населения известен как X-12-ARIMA. Эта программа бесплатно предоставляется в Бюро переписи населения всем желающим и широко используется правительственны- ми организациями и частными компаниями. Декомпозиция по методу Census II обычно является мультипликативной, поскольку большинство экономических временных рядов имеет сезонные вариации, которые уве- личиваются с ростом уровня ряда. Кроме того, этот метод декомпозиции предполагает использование трех компонент: трендово-циклической, сезонной и нерегулярной. Метод Census II включает выполнение последовательности этапов, повторяющихся до тех пор, пока компоненты не будут успешно разделены. На большинстве этапов к данным применяется метод взвешенного скользящего среднего, что приводит к неми-
220 ГЛАВА 5 нуемой утрате данных в результате усреднения в начале и в конце последовательности. Программа ARIMA, часть пакета X-12-ARIMA, позволяет расширить при прогнозирова- нии исходный ряд в обоих направлениях, поэтому большинство наблюдений подгоняет- ся с использованием полного взвешенного скользящего среднего. Эти прогнозы созда- ются на основе модели изменения временнь/х рядов ARIMA (глава 9). Этапы, выполняемые на каждой итерации метода Census II, реализованного в про- граммном пакете X-12-ARIMA, описываются ниже. Из-за большого количества этапов метод может показаться слишком сложным. Однако основная его идея очень проста — отделить трендово-циклическую, сезонную и нерегулярную компоненты друг от друга. Наличие множества итераций лишь улучшает оценку каждой компоненты. Для дополни- тельного изучения можно рекомендовать следующие работы: Makridakis, Wheelwright, Hyndman. Forecasting: Methods and Applications, 3-rd ed. (1998) и Findley et. al. New Capabilities and Methods of the X-12-ARIMA Seasonal-Adjustment Program (1998). Этап 1. Чтобы получить грубую оценку трендово-циклической компоненты, к исход- ным данным применяется метод ^-периодического скользящего среднего. (Для месячных данных №12, для квартальных данных s = 4 и т.д.) Этап 2. Отношения исходных данных к этим значениям скользящего среднего вычис- ляются по методу классической мультипликативной декомпозиции, проиллю- стрированной в примере 5.2. Этап 3. Полученные на втором этапе отношения содержат как сезонную компоненту, так и нерегулярную. В них также входят экстремальные значения, являющиеся результатом необычных событий, таких как забастовки или войны. Вычислен- ные отношения делятся на грубую оценку сезонной компоненты, что в резуль- тате дает оценку нерегулярной компоненты. Большие значения нерегулярной компоненты указывают на экстремальные величины в исходных данных. По- добные экстремальные величины выявляются, и полученные на втором этапе отношения соответствующим образом подгоняются. Такой подход эффектив- но исключает те значения, которые не соответствуют общей структуре всех ос- тальных данных. Недостающие значения в начале и в конце последовательно- сти также заменяются на оценки, полученные на этом этапе. Этап 4. Отношения, полученные из модифицированных данных (с исключенными экстремальными величинами и оценками для недостающих значений), сгла- живаются по методу скользящего среднего с целью исключения нерегулярных изменений. В результате будет получена предварительная оценка сезонной компоненты. Этап 5. Затем исходные данные делятся на предварительную оценку сезонной компо- ненты, полученную на четвертом этапе, что дает предварительные ряды с сезон- ной коррекцией. Эти ряды с сезонной коррекцией включают трендово- циклическую и нерегулярную компоненты. Это выглядит следующим образом. _7jx5,xZ — — А 1, S, S, Этап 6. Трендово-циклическая компонента оценивается посредством применения ме- тода взвешенного скользящего среднего к предварительному ряду с коррекци- ей сезонных колебаний. Скользящее среднее устраняет нерегулярные измене-
Временные ряды и их компоненты 221 ния и дает гладкую кривую, которая демонстрирует предварительную оценку трендово-циклической компоненты в данных. Этап 7. Далее повторяется выполнение второго этапа, но уже с новыми оценками трендово-циклической компоненты. Иными словами, новые отношения, со- держащие только сезонную и нерегулярную компоненты, будут получены по- средством деления исходных наблюдений на значения трендово-циклической компоненты, рассчитанные на этапе 6. В результате будут получены оконча- тельные значения сезонно-нерегулярных отношений. Математически это вы- глядит следующим образом. т, т, Этап 8. Повторяется выполнение третьего этапа, но уже с использованием новых от- ношений, вычисленных на седьмом этапе. Этап 9. Повторяется выполнение четвертого этапа, что дает новую оценку сезонной компоненты. Этап 10. Выполняются действия пятого этапа с использованием оценки сезонной ком- поненты, полученной на девятом этапе. Этап 11. Данные с сезонной коррекцией из десятого этапа делятся на значения трендо- во-циклической компоненты, полученные на шестом этапе, что в результате дает оценку нерегулярной компоненты. Этап 12. Экстремальные значения нерегулярной компоненты исключаются по методу, описанному на третьем этапе. Ряды модифицированных данных получаются путем перемножения значений трендово-циклической, сезонной и подогнан- ной нерегулярной компонент. Эти данные соответствуют исходным данным, за исключением удаленных экстремальных значений. Затем все эти двенадцать этапов повторяются, причем вместо исходных данных ис- пользуются модифицированные данные из двенадцатого этапа. В некоторых случаях диапазон скользящих средних может быть изменен в зависимости от вариабельности данных. Окончательный ряд с исключенными сезонными колебаниями определяется посред- ством деления исходных данных на окончательную сезонную компоненту. Результат со- держит только произведение трендово-циклической и нерегулярной компонент. Значения каждой из финальных компонент распечатываются, и по ним строятся гра- фики. Существует ряд диагностических тестов, с помощью которых можно определить, насколько удачной оказалась выполненная декомпозиция. Программный пакет X-12-ARIMA включает множество дополнительных возможно- стей, которые не были описаны. Например, можно делать корректировку для различного числа операционных дней в месяцах и для учета эффекта праздников. Можно оценить и добавить недостающие значения ряда, можно до начала декомпозиции удалить нетипич- ные эффекты, можно смоделировать другие изменения в тренде, такие как эффекты сдвига уровня или временных уклонов.
Ill ГЛАВА 5 Применение в менеджменте Анализ временных рядов является широко используемым статистическим инструментом прогнозирования будущих событий, которые в определенной степени переплетаются с экономикой. Производители в особенности интересуются циклами типа подъема-спада во внутренней и внешней экономике — это необходимо им, чтобы точнее прогнозиро- вать спрос на производимые товары. Прогнозируемый спрос, в свою очередь, определяет уровень запасов сырья и материалов на складах, количество используемой рабочей силы, движение финансовых средств и всю прочую деловую активность внутри компании. Обратимся, например, к проблеме прогнозирования спроса на нефть и производимые из нее продукты. В конце 1960-х годов стоимость барреля нефти была очень низкой, а спрос на бензин и нефть в мировых масштабах казался просто ненасытным. Затем в на- чале и середине 1970-х годов произошел скачок цен. Каким мог быть будущий спрос на нефть? А состояние цен на нее? Такие фирмы, как Exxon и General Motors, очевидно, весьма интересовались этим вопросом. Если цены на нефть будут возрастать, будет ли в результате этого падать спрос на большие автомобили? Каков будет спрос на электро- энергию? В общем и целом аналитики предсказывали, что спрос на энергию и, следова- тельно, на нефть будет весьма стойким; поэтому цены будут постоянно опережать ин- фляцию. Однако эти прогнозы не учитывали общий спад делового цикла в начале 1980-х годов, и изменения в потребительском спросе на энергию оказались большими, чем ожи- далось. К 1980 году в мире уже наблюдался излишек нефти на рынках, что повлекло ра- дикальное падение цен на нее. Было трудно поверить, что потребители, как ни странно, еще раз извлекли пользу из войны цен на бензин. Спрос на нефть находится под влиянием не только долговременных циклических со- бытий, но и сезонных и случайных событий, как и множество других прогнозов спроса на любой вид товаров и услуг. Взять, к примеру, сферу услуг и розничную торговлю. Бизнес- прогнозисты и футуристы предсказывают, что в течение нескольких следующих лет будет наблюдаться постоянный отток занятости из сферы производства в сферу розничной торговли и услуг. Следовательно, поскольку розничная торговля в значительной степени является сезонным и циклическим бизнесом и эффективное планирование товарно- материальных запасов для розничных торговцев весьма критично, следует ожидать, что анализ временных рядов будет все более широко использоваться опытными розничными торговцами. Выживание во время сильной конкуренции теперь в значительной степени зависит от изощренности методов, применяемых тем или иным торговцем, по сравнению с его конкурентом. Расширяющийся рынок персональных компьютеров, прикладных пакетов различных баз данных и статистического программного обеспечения является одним из показателей стремительного изменения в применении статистических инстру- ментов в области принятия решений, ориентированного на анализ и обработку накоп- ленных данных. Производители будут постоянно нуждаться в статистическом прогнозе будущих собы- тий. Каков будет процент инфляции? Как это повлияет на поправку на рост стоимости жизни, которая может быть включена в трудовые соглашения компании? Как эти по- правки повлияют на цены и спрос? Какие требования к способностям руководителей бу- дут предъявляться в 2020 году? Каковы будут результаты государственных инвестиций во время бумов и спадов в экономике и при выбранных стратегиях налогообложения?
Временные ряды и их компоненты 223 Каким будет новое молодое поколение, чем оно будет увлекаться и какой выберет об- раз жизни? Каков будет его этнический состав? Эти вопросы затрагивают почти все сег- менты экономики. Демографы тщательно следят за уровнем рождаемости и используют почти любую доступную технику прогнозирования временных рядов для того, чтобы проверить и предсказать изменения в народонаселении. Весьма незначительные просче- ты могут значительно повлиять на все, начиная с производства детских игрушек и закан- чивая финансовой прочностью системы социального обеспечения. Интересно, что де- мографы рассматривают весьма долговременные деловые циклы (20 или больше лет за цикл) в попытке предсказать, как женщины детородного возраста этого поколения пове- дут себя в отношении рождения детей. Будут ли они иметь одного или двух детей, как бы- ло в семьях 60-х и 70-х годов, или они возвратятся к рождению двух или трех детей, как было с предыдущим поколением? Эти заключения определят возрастной состав населе- ния на следующие 50—75 лет. В политике ученые интересуются анализом временных рядов для изучения изменения структуры государственных затрат на программы обороны и социального обеспечения. Очевидно, что это имеет огромное влияние на будущее всей промышленности. Наконец, одно из любопытных применений в миниатюре анализа временнь/х рядов просматривается на юридическом поприще. Юристы все чаще пользуются оценками специалистов для освидетельствования настоящей величины доходов личности или фирмы, суммы убытков, вытекающих из-за потери работы в результате дискриминации, или влияния на рынок, оказанного вследствие незаконных забастовок. На все эти вопро- сы зачастую можно получить обоснованные ответы путем разумного применения мето- дов анализа временных рядов. Приложение: индекс цен Данные многих временных рядов в производстве, торговле и других областях доступны только в долларовом эквиваленте. На эти данные влияют как физическое количество проданных товаров, так и их цены. Инфляция и изменение цен в широком диапазоне со временем могут стать причиной серьезных проблем при анализе. Например, возрастаю- щий объем долларовой массы может скрыть спад продаж в единицах за счет взвинчива- ния цен. Таким образом зачастую необходимо знать, в какой мере изменения в долларо- вом эквиваленте отражают реальные изменения физических величин и в какой мере это является результатом изменения цен из-за инфляции. В подобных ситуациях желательно было бы выражать долларовые значения в терминах “неизменных” долларов. Важным понятием является покупательная способность. Покупательная способность одного доллара определяется следующим образом. Текущая покупательная способность 1$ =-——-------- (5.10) Текущий индекс цен Таким образом, если в ноябре 1999 года индекс потребительских цен (который в 1995 году составлял 100) возрос до 150, текущая покупательная способность одного доллара потребителя на ноябрь 1999 года будет соответствовать следующему. Текущая покупательная способность 1$ = = 0,67
224 ГЛАВА 5 Следовательно, на каждый доллар в 1999 году можно получить только две трети того объе- ма товаров или услуг, который предоставлялся за один доллар в базовом периоде (1995). Для того чтобы выразить долларовое значение в терминах неизменных долларов, ис- пользуется следующее уравнение. Дефлятированное долларовое значение = (Долларовый объем) х (5 11) (Покупательная способность \$) Предположим, что объем продаж автомобилей возрос с 300 000$ в 1998 году до 350 000$ в 1999 году, тогда как индекс цен на новые машины (принимая 1995 год как ба- зовый) возрос с 135 до 155. Дефлятированный объем продаж для 1998 и 1999 годов в этом случае составляет следующее. Дефлятированные продажи для 1998 года = (300 000$)^j - 222 222$ Дефлятированные продажи для 1999 года - (350 000$)^= 225 806$ Обратите внимание на то, что действительный объем продаж в долларах имел сущест- венный прирост — на 350 000$ - 300 000$ = 50 000$. Однако дефлятированные продажи возросли только лишь на 225 806$ - 222 222$ = 3 584$. Целью дефлятирования долларовых значений является устранение влияния измене- ний цен. Данная подгонка называется дефлятированием цен или же выражением значе- ний ряда в неизменных долларах. Дефлятирование цен — это процесс выражения членов ряда в неизменных долларах. Процедура дефлятирования относительно проста. Чтобы скорректировать цены с це- лью выражения в неизменных долларах, вычисляется соответствующий индекс исходя из цен на те товары, для которых проводится дефлятирование. Например, объемы продаж обувного магазина должны дефлятироваться с помощью индекса цен на обувь, а не об- щего ценового индекса. Для дефлятирования долларовой величины, которая представля- ет более одного типа товаров, аналитик должен разработать ценовой индекс, скомбини- ровав соответствующие ценовые индексы в требуемом соотношении. Пример 5.5 Мистер Бернхем желает изучить особенности продолжительного роста оборота компании Bumham Furniture Store, владеющей сетью мебельных магазинов. Долговременный тренд в его бизнесе можно оценить исходя из физического объема продаж. Если не сделать этой оценки, ценовые изменения, отражающиеся на объемах продаж мебели в долларах, дадут ис- каженную модель, скрывающую реальную структуру роста компании. Если использовать данные об объемах продаж, выраженные в долларах, то действительный объем продаж в дол- ларах необходимо разделить на соответствующий ценовой индекс, что позволит получить объемы продаж, выраженные в неизменных долларах. Общий индекс потребительских цен (CPI) не подходит для Бернхема, поскольку сюда входят такие элементы, как оплата жилья, расходы на питание и индивидуальное обслужива- ние. Однако некоторые компоненты этого индекса могут оказаться вполне подходящими. Бернхем знает, что 70% всего объема продаж составляет мебель, а 30% — бытовая техника. Следовательно, он может умножить CPI для розничной мебельной компоненты на 0,70, a CPI
Временные ряды и их компоненты 225 для розничной компоненты бытовой техники на 0,30, а затем сложить полученные значения и получить необходимый комбинированный ценовой индекс. В табл. 5.5 иллюстрируется этот подход. В частности, расчеты для 1992 года дают следующее. 90,1(0,70) + 94,6(0,30) = 91,45 Дефлятированный объем продаж для 1992 года в терминах покупательной способности доллара в 1995 году будет иметь следующее значение. Дефлятированные продажи для 1992 года = (42,1) 100 4 91,45, = 46,0 В табл. 5.5 показано, что хотя реальные объемы продаж в долларах с 1992 по 1999 год не- уклонно увеличивались, физический объем с 1997 по 1999 год оставался практически ста- бильным. Несомненно, что возрастание объемов продаж в эти годы является результатом на- ценок, которые устанавливались из-за общей инфляционной тенденции в экономике. Таблица 5.5. Данные об объемах продаж в компании Burnham Furniture за 1992-1999 гг. Год Объем продаж (тыс. долл.) Розничный ценовой индекс для мебели (1995 = 100) Розничный ценовой индекс для бытовой техники (1995 = 100) Комбинированный ценовой индекс" (1995= 100) Дефлятированный объем продав (тыс. долл. 1995 года) 1992 42,1 90,1 94,6 91,45 45,5 1992 47,2 95,4 97,2 95,4 49,2 1994 48,4 97,2 98,4 97,56 49,6 1995 50,6 100,0 100,0 100,0 50,6 1996 55,2 104,5 101,1 103,48 53,3 1997 57,39 108,6 103,2 106,98 54,1 1998 59,8 112,4 104,3 109,97 54,4 1999 60,7 114,0 105,6 111,48 54,4 а) Из расчета на мебель (доля 70%) и бытовую технику (доля 30%). б) Объемы продаж, деленные на ценовой индекс и умноженные на 100. Глоссарий Деловой показатель — это связанный с деловой деятельностью временной ряд, обычно помогающий оценить общее состояние экономики. Дефлятирование цен — это процесс выражения членов ряда в неизменных долларах. Числовые индексы — это удельные величины или процентные отношения, отражающие изменение величины во времени. Основные формулы Аддитивная декомпозиция временных рядов K,= 7) + S, + /, (5.1)
226 ГЛАВА 5 Мультипликативная декомпозиция временнь/х рядов Y, = Tt х St х It (5.2) Линейный тренд Т =ba+ b,t (5.3) Квадратичный тренд Т{ = bQ + bj + b2t2 (5.5) Экспоненциальный тренд т.=ь^ (5.6) Данные с устраненными сезонными колебаниями (мультипликативная декомпозиция) Y —=t.xi. S, (5.7) Циклически-нерегулярная компонента (мультипликативная декомпозиция) Y T,xS, (5.8) Нерегулярная компонента (мультипликативная декомпозиция) тС,х/, ' с, (5.9) Текущая покупательная способность 1S 100 (5.10) Текущий индекс цен Дефлятированное долларовое значение (Долларовый объем) X (Покупательная способность \$) (5.П) Упражнения 1. Объясните идею декомпозиции временных последовательностей. 2. Объясните, в каких случаях метод мультипликативной декомпозиции является более подходящим, чем метод аддитивной декомпозиции. 3. Какие основные типы воздействий оказывают влияние на тренд-циклы большинст- ва анализируемых показателей? 4. Какие модели тренда должны быть использованы в каждом из следующих случаев? а) переменная возрастает с постоянным отношением б) переменная возрастает с постоянной скоростью до момента насыщения, а далее выравнивается в) переменная возрастает на постоянное значение 5. Какие основные типы воздействий оказывают наибольшее влияние на сезонную компоненту?
Временные ряды и их компоненты 2Т1 6. В издании Value Line оценки роста объема продаж и доходов отдельных компаний определяются с учетом взаимного влияния объемов продаж, заработков и дивиден- дов на соответствующие компоненты счетов национального дохода, таких как капи- тальные вложения. Джейсон Блэк (Jason Black), аналитик издания Value Line, изучил тенденции изменения капитальных вложений компаний с 1977 по 1993 год. Соответ- ствующие данные приведены в табл. 5.6. Таблица 5.6. Капитальные вложения компаний (млрд долл.) в 1977-1993 гг. Год Сумма Год Сумма Год Сумма 1977 214 1983 357 1989 571 1978 259 1984 416 1990 578 1979 303 1985 443 1991 556 1980 323 1986 437 1992 566 1981 369 1987 443 1993 623 1982 367 1988 545 1994 680“ Источник: The Value Line Investment Survey (New York : Value Line, 1988,1990,1994), c. 175. a) Оценка издания Value Line на 1994 год. а) начертите график приведенных данных б) определите подходящую модель тренда для периода на 1977—1993 годы в) если соответствующая модель тренда является линейной, рассчитайте уравне- ние линейного тренда для периода с 1977 по 1993 год г) каков был средний рост капитальных вложений компаний за год, начиная с 1977 года? д) оцените величину тренда капитальных вложений для 1994 года е) сравните свою оценку тренда с оценкой издания Value Line ж) какой фактор (факторы) влияет на тренд капитальных вложений компаний? 7. Крупная компания анализирует возможность сокращения ее телевизионной рекла- мы в пользу бизнес-видео, предоставляемого их клиентам. Этот вопрос был поднят после того, как президент компании прочитал в популярном издании статью, в ко- торой говорилось, что бизнес-видео является современным “оружием суперпро- даж”. Одним из моментов, который президент хотел бы проанализировать, прежде чем предпринять столь решительный шаг, является общая история телевизионной рекламы в США, в особенности ее тренд-цикл. В табл. 5.7 приведены суммы (в млн долл.), израсходованные в США на телевизион- ную рекламу. Необходимо построить модель линейного тренда для этого временного ряда ежегодных наблюдений.
228 ГЛАВА 5 Таблица 5.7. Расходы на телевизионную рекламу в США (млн долл.) Сумма Год Сумма Год 1980 11,424 1989 26,891 1981 12,811 1990 29,073 1982 14,566 1991 28,189 1983 16,542 1992 30,450 1984 19,670 1993 31,698 1985 20,770 1994 35,435 1986 22,585 1995 37,828 1987 23,904 1996 42,484 1988 25,686 1997 44,580 Источник: Statistical Abstract of the United States, разные года. а) постройте график временного ряда затрат на рекламу в США б) смоделируйте данные о затратах на рекламу линейным трендом и отобразите сглаживающую линию на графике временной последовательности в) составьте прогноз затрат на телевизионную рекламу в 1998 году г) исходя из результатов п. б, поясните, может ли в затраты на телевизионную рек- ламу входить циклическая компонента 8. Предположим, имеются следующие конкретные процентные сезонные индексы для марта, вычисленные по методу отнесения к скользящему среднему. 102,2 105,9 114,3 122,4 109,8 98,9 Каким будет сезонный индекс для марта, вычисленный как медиана? 9. Ожидаемое значение тренда для октября — 850$. Пусть сезонный индекс для октяб- ря равен 1,12 (112%). Каков будет прогноз на этот месяц? 10. Даны следующие конкретные процентные сезонные индексы для декабря. 75,4 86,8 96,9 72,6 80,0 85,4 Каков будет прогноз на декабрь, если ожидаемый тренд для этого месяца составляет 900$, а в вычислениях должна использоваться медиана сезонной коррекции? 11. На большом курорте Мейн возле г. Портланд в течение нескольких лет отслежива- лись месячные объемы доходов, но эти данные никогда не анализировались. В управлении курорта были рассчитаны сезонные индексы для месячных доходов. Ка- кие из приведенных ниже утверждений об этих индексах будут верны? а) сумма двенадцати месячных числовых индексов, выраженных в процентах, должна составлять 1200 б) индекс 85 для мая указывает на то, что доходы в этот месяц на 15% ниже сред- него месячного дохода в) индекс 130 для января указывает, что доходы в этом месяце на 30% выше сред- него месячного дохода
Временные ряды и их компоненты 229 г) индекс для любого месяца должен находиться между 0 и 200 д) средний процентный индекс для всех 12 месяцев должен составлять 100 12. В отчете, подготовленном для Джун Банкок (June Bancock), менеджера универмага Kula Department Store, приведена следующая статистика объемов продаж за последние годы (табл. 5.8). Взглянув на эти данные, миссис Банкок сказала: “Данный отчет под- тверждает мои слова: дела идут лучше и лучше”. Верно ли это утверждение? Почему? Таблица 5.8. Объемы продаж универмага Kula Department Store и соответствующие сезонные индексы Месяц Продажи (тыс. долл.) Скорректированный сезонный индекс (%) Январь 125 51 Февраль ИЗ 50 Март 189 87 Апрель 201 93 Май 206 95 Июнь 241 99 Июль 230 96 Август 245 89 Сентябрь 271 103 Октябрь 291 120 Ноябрь 320 131 Декабрь 419 189 Источник: данные компании Kula Department Store. 13. Квартальные объемы продаж компании Goodyear Tire в миллионах долларов приве- дены в табл. 5.9. Имеется ли в этих данных значительный сезонный эффект? Про- анализируйте этот временной ряд, определите четыре сезонных индекса и оцените величину сезонной компоненты в объемах продаж компании Goodyear. Таблица 5.9. Квартальные объемы продаж в компании Goodyear Tire (млн долл.) Квартал Год 1 2 3 4 1985 2292 2450 2363 2477 1986 2063 2358 2316 2366 1987 2268 2533 2479 2625 1988 2616 2793 2656 2746 1989 2643 2811 2679 2736
230 ГЛАВА 5 Квартал Год 1 2 3 4 1990 2692 2871 2900 2811 1991 2497 2792 2838 2780 1992 2778 3066 3213 2928 1993 2874 3000 2913 2916 1994 2910 3052 3116 3210 1995 3243 3351 3305 3267 1996 3246 3330 3340а 3300а Источник: The Value Line Investment Survey (New York: Value Line, 1988, 1989, 1993,1994, 1996), c. 126. a) Прогноз издания Value Line на 1996 год. а) следует ли при составлении прогнозов использовать трендовую, сезонную или обе компоненты вместе? б) составьте прогноз для третьего и четвертого кварталов 1996 года в) сравните ваши прогнозы со значениями, предложенными изданием Value Line 14. Сведения о месячных объемах продаж компании Cavanaugh, графически представ- ленные на рис. 5.1, приведены в табл. 5.10. Таблица 5.10. Месячные объемы продаж компании Cavanaugh за 1994-2000 гг. Месяц 1994 1995 1995 1997 1998 1999 2000 Январь 154 200 223 346 518 613 628 Февраль 96 118 104 261 404 392 308 Март 73 90 107 224 300 273 324 Апрель 49 79 85 141 210 322 248 Май 36 78 75 148 196 189 272 Июнь 59 91 99 145 186 257 Июль 95 167 135 223 247 324 Август 169 169 211 272 343 404 Сентябрь 210 289 335 445 464 677 Октябрь 278 347 460 560 680 858 Ноябрь 298 375 488 612 711 895 Декабрь 245 203 326 467 610 664 а) выполните мультипликативную декомпозицию временного ряда объемов про- даж компании Cavanaugh, определив трендовую, сезонную и нерегулярную компоненты
Временные ряды и их компонент ы 231 б) следует ли использовать при составлении прогнозов трендовую, сезонную или обе компоненты вместе? в) сделайте прогноз объема продаж для оставшихся месяцев 2000 года 15. Используя данные табл. 5.10, составьте таблицу из натуральных логарифмов месяч- ных объемов продаж этой компании. Например, в этой таблице для января 1990 года будет указано значение /«(154) = 5,037. а) выполните аддитивную декомпозицию величины Y = /«(продажи), используя модель Y=T+S + I б) следует ли при составлении прогноза использовать трендовую, сезонную или обе компоненты вместе? в) сделайте прогноз величины /«(продажи) для оставшихся месяцев 2000 года г) извлеките из под знака логарифма значения прогнозов, вычисленные в п. в, что даст прогнозы реальных объемов продаж для оставшихся месяцев 2000 года д) сравните прогнозы, полученные в п. г, с аналогичными прогнозами, сделанны- ми в упр. 14 (п. в). Какой набор предсказаний предпочтительнее? Почему? 16. В табл. 5.11 приведены данные о квартальных объемах продаж (в млн долл.) компа- нии Disney с января 1980 по март 1995 года. Таблица 5.11. Квартальные объемы продаж (в млн долл.) компании Disney Квартал Год 1 2 3 4 1980 218,1 245,4 265,5 203,5 1981 235,1 258,0 308,4 211,8 1982 247,7 275,8 295,0 270,1 1983 315,7 358,5 363,0 302,2 1984 407,3 483,3 463,2 426,5 1985 451,5 546,9 590,4 504,2 1986 592,4 647,9 726,4 755,5 1987 766,4 819,4 630,1 734,6 1988 774,5 915,7 1013,4 1043,6 1989 1037,9 1167,6 1345,1 1288,2 1990 1303,8 1539,5 1712,2 1492,4 1991 1439,0 1511,6 1739,4 1936,6 1992 1655,1 1853,5 2079,1 2391,4 1993 2026,5 1936,8 2174,5 2727,3 1994 2275,8 2353,6 2698,4 3301,7 1995 2922,8 2764,0 3123,6 а) выполните мультипликативную декомпозицию временного ряда, содержащего данные о квартальных объемах продаж компании Disney
232 ГЛАВА 5 б) проявляется ли в этом ряду существенный тренд? Опишите особенности его се- зонной компоненты в) следует ли при прогнозировании использовать трендовую, сезонную или обе компоненты вместе? г) составьте прогноз объемов продаж для последнего квартала 1995 года и четырех кварталов 1996 года 17. В табл. 5.12 приведены данные о ежемесячном спросе на бензин (тыс. баррелей/день) в компании Yukong Oil из Южной Кореи за период с марта 1986 по сентябрь 1996 года. Таблица 5.12. Ежемесячный спрос на бензин (тыс. баррелей/день) в компании Месяц 1986 1987 1988 1989 1990 1991 Январь 15,5 20,4 26,9 36,0 52,1 64,4 Февраль 17,8 20,8 29,4 39,0 53,1 68,1 Март 18,1 22,2 29,9 42,2 56,5 68,5 Апрель 20,5 24,1 32,4 44,3 58,4 72,3 Май 21,3 25,5 33,3 46,6 61,7 74,1 Июнь 19,8 25,9 34,5 46,1 61,0 77,6 Июль 20,5 26,1 34,8 48,5 65,5 79,9 Август 22,3 27,5 39,1 52,6 71,0 86,7 Сентябрь 22,9 25,8 39,0 52,2 68,1 84,4 Октябрь 21,1 29,8 36,5 50,8 67,5 81,4 Ноябрь 22,0 27,4 37,5 51,9 68,8 85,1 Декабрь 22,8 29,7 39,4 55,1 68,1 81,7 Месяц 1992 1993 1994 1995 1996 Январь 82,3 102,7 122,2 145,8 170,0 Февраль 83,6 102,2 121,4 144,4 176,3 Март 85,5 104,7 125,6 154,2 174,2 Апрель 91,0 108,9 129,7 148,6 176,1 Май 92,1 112,2 133,6 153,7 185,3 Июнь 95,8 109,7 137,5 157,9 182,7 Июль 98,3 113,5 143,0 169,7 197,0 Август 102,2 120,4 149,0 184,2 216,1 Сентябрь 101,5 124,6 149,9 163,2 192,2 Октябрь 98,5 116,7 139,5 155,4 Ноябрь 101,1 120,6 147,7 168,9 Декабрь 102,5 124,9 154,7 178,3
Временные ряды и их компоненты 233 а) постройте график для данного временного ряда. Какая декомпозиция будет наиболее приемлемой для этого ряда — мультипликативная или аддитивная? Поясните свой ответ б) выполните декомпозиционный анализ данных о спросе на бензин в) дайте собственную интерпретацию значений сезонных индексов г) спрогнозируйте спрос на бензин для последних трех месяцев 1996 года 18. В табл. 5.13 приведены данные о суммарном месячном объеме продаж во всех роз- ничных магазинах США (в млрд долл.). Выполните декомпозиционный анализ этого ряда вплоть до 1994 года. Прокомментируйте поведение всех трех компонент ряда. Составьте прогноз суммарного месячного объема розничных продаж для 1995 года и сравните свои результаты с реальными значениями, приведенными в таблице. Таблица 5.13. Суммарный месячный объем продаж во всех розничных магазинах США (в млрд долл.) 1992 1993 1994 1995 Месяц 1988 1989 1990 1991 Январь 113,6 122,5 132,6 130,9 142,1 148,4 154,6 167,0 Февраль 115,0 118,9 127,3 128,6 143,1 145,0 155,8 164,0 Март 131,6 141,3 148,3 149,3 154,7 164,6 184,2 192,1 Апрель 130,9 139,8 145,0 148,5 159,1 170,3 181,8 187,5 Май 136,0 150,3 154,1 159,8 165,8 176,1 187,2 201,4 Июнь 137,5 149,0 153,5 153,9 164,6 175,7 190,1 202,6 Июль 134,1 144,6 148,9 154,6 166,0 177,7 185,8 194,9 Август 138,7 153,0 157,4 159,9 166,3 177,1 193,8 204,2 Сентябрь 131,9 144,1 145,6 146,7 160,6 171,1 185,9 192,8 Октябрь 133,8 142,3 151,5 152,1 168,7 176,4 189,7 194,0 Ноябрь 140,2 148,8 156,1 155,6 167,2 180,9 194,7 202,4 Декабрь 171,0 176,5 179,7 181,0 204,1 218,3 233,3 238,0 Источник: Survey of Current Business, 1989, 1993,1996. 19. Скорректированные сезонные индексы, представленные в табл. 5.14, отображают изменение дохода курортного отеля Mt. Spokane Resort, в котором летом обслужи- ваются семьи туристов, а зимой — любители лыжного спорта. В 2000 году не ожида- ется никаких резких циклических изменений. Таблица 5.14. Сезонные индексы для доходов курортного отеля Mt. Spokane Resort Месяц Скорректированный сезонный индекс Месяц Скорректированный сезонный индекс Январь Февраль Март 120 Июль 153 137 Август 151 100 Сентябрь 95
234 ГЛАВА 5 Месяц Окончание табл. 5.14 Скорректированный сезонный индекс Месяц Скорректированный сезонный индекс Апрель 33 Октябрь 60 Май 47 Ноябрь 82 Июнь 125 Декабрь 97 Источник: данные Mt. Spokane Resort Hotel. а) если курорт в январе 2000 года посетили 600 туристов, то какой будет разумная оценка этого показателя для февраля? б) уравнение месячного тренда для доходов отеля имеет вид f = 140 + 5t, где t = 0 соответствует 15 января 1994 года. Каким будет прогноз на каждый месяц 2000 года? в) каково среднее число посещающих отель новых туристов в месяц? 20. Поясните значение композиции индексов ведущих показателей как барометра дело- вой активности в последние годы. . 21. Каково текущее состояние деловых циклов? Расширяются они или сокращаются? Когда произойдет следующий перелом? 22. Какова цель дефлятирования временных рядов, значения которых измеряются в долларах? 23. В базовый месячный период, в качестве которого был выбран июнь, цена опреде- ленного набора товаров составляла 1289,73$. В текущем месяце ценовой индекс этого же набора товаров составлял 284,7. Сколько будет стоить данный набор това- ров при покупке в этом месяце? 24. Дефлятируйте приведенные в табл. 5.15 объемы продаж в долларах, используя ука- занные в ней индексы цен. Индексы цен для всех товаров определены при условии 1992 год= 100. Таблица 5.15. Объемы продаж (долл.) и индексы цен Объемы продаж Индексы цен (1992 = 100) 1996 Январь 358 235 118,0 Февраль 297 485 118,4 Март 360 321 118,7 Апрель 378 904 119,2 Май 394 472 119,7 Июнь 312 589 119,6 Июль 401 345 119,3 Источник: Survey of Current Business.
Временные ряды и их компоненты 235 /Ж /ДЧ /1Ж /ДЧ /ДЧ /Ж /дч /дч /дч /дч /дч /дм /дм W/ W W/ W W W W W W МГ/ IV/ MW w Задание 5.1. Фирма Small Engine Doctor12 Томас Браун (Thomas Brown), который прежде работал почтальоном в почтовой службе США, решил создать свой бизнес. Фирма Small Engine Doctor, которую он создал, зани- малась ремонтом бытовой техники. Том с детства любил технику, всегда с удовольствием приводил в порядок мелкую бытовую аппаратуру, стараясь понять, “что как работает”. Когда Том вырос и стал обычным городским жителем, он приобрел множество оборудо- вания для обработки газонов и сада. Однажды Том узнал о существовании курсов по ре- монту мелких механизмов, предлагаемых местным коммунальным колледжем, и немед- ленно воспользовался представившимся ему удобным случаем. Он начал ремонтировать мелкие вещи, разбирая собственное оборудование, тщательно перебирая его и затем со- бирая снова. Вскоре после окончания курса по ремонту механизмов он начал ремонтиро- вать газонокосилки, почвофрезы, снегоочистители и другое оборудование для газонов и садов у своих друзей и соседей. При необходимости он приобретал требуемое ручное оборудование и специальные инструменты. Прошло немного времени, и Том решил превратить свое хобби в бизнес с частичной занятостью. Он поместил в местном каталоге товаров и услуг рекламное объявление, вы- брав для своей фирмы название “Small Engine Doctor”. За последующие два года его биз- нес достаточно вырос и обеспечивал солидную добавку к жалованию, которое Том полу- чал на основной работе. Хотя и ожидался дальнейший рост его бизнеса, однако к началу третьего года деловой активности у Тома появилось много хлопот. Он вел свой бизнес дома. Полуподвальный этаж был разделен на общую комнату, мастерскую и офис. Изна- чально площадь офиса использовалась для того, чтобы управляться с рекламой, обработ- кой заказов и бухгалтерией. Заказанный ремонт выполнялся только в мастерской. Том хранил у себя лишь ограниченное число запасных частей, заказывая заменяемые детали по мере необходимости. Ему казалось, что это единственный приемлемый способ работы с огромным разнообразием деталей, используемых в ремонтируемой им технике, выпу- щенной дюжиной или около того производителей газонного и садового оборудования. Запасные части представляли наиболее серьезную проблему в его бизнесе. Том начал свой бизнес с непосредственной закупки запасных частей у поставщиков оборудования. Однако это имело свои недостатки. Прежде всего, он покупал детали в розницу. Кроме того, очень часто у поставщиков на складах отсутствовали какие-то детали, необходимые для проведения ремонта, и их приходилось заказывать у изготовителей. Однако заказы на поставку от изготовителей обычно выполнялись от 30 до 120 дней. В конце концов Том изменил свою политику и начал заказывать запасные части прямо на фабриках. При этом ,г Это задание предоставил Вильям Дерроу (William Р. Darrow) из Тусонского университета, г. Тусон, шт. Мэриленд.
236 ГЛАВА 5 он обнаружил, что расходы на доставку и обработку заказов были слишком большими, даже когда цены на запчасти составляли только 60% от розничных. Однако потеря кли- ентов и ограниченность пространства для хранения запчастей оказались двумя наиболее важными проблемами, с которыми ему пришлось столкнуться. Том привлекал клиентов высоким качеством оказываемых им услуг и разумными расценками на выполняемый им ремонт, причем последние были прямым следствием низких накладных расходов. К со- жалению, множество его потенциальных клиентов предпочитали обращаться к постав- щикам оборудования — клиенты не желали ожидать завершения ремонта, затянувшегося на несколько месяцев. И все же наиболее острой проблемой было пространство для хра- нения запчастей. Пока разобранное оборудование дожидалось поступления запасных частей, оно должно было храниться в помещении. Очень скоро мастерская Тома и его га- раж на одну машину оказались переполненными разобранным оборудованием, ожидаю- щим поступления запасных частей. На второй год предпринимательской деятельности Тому, вследствие острой нехватки пространства для хранения, пришлось фактически от- казаться от рекламы, чтобы ограничить число новых клиентов. На третьем году своей деятельности Том пришел к выводу о необходимости организа- ции склада для запасных частей. Это позволило бы ему снизить затраты на их приобрете- ние за счет получения некоторых оптовых скидок и более выгодных сроков поставки. Он также надеялся, что это приведет к более быстрому обслуживанию клиентов, в результате чего возрастет как оборот его средств, так и общее количество заказов. Риск здесь заклю- чался в неконтролируемости расходов на поддержку запаса деталей и их морального ста- рения при длительном хранении. Перед тем как приступить к организации склада запасных частей, Том решил надеж- но спрогнозировать свою деловую активность на предстоящий год. Он был достаточно уверен в своих знаниях о существующем ассортименте товаров, чтобы воспользоваться обобщенным прогнозом заказов клиентов на ремонт в качестве основы для выборочного заказа необходимых запасных частей. Прогнозирование осложнялось сезонной структу- рой спроса и трендом в направлении постоянного роста числа заказов. Том планировал получить прогноз числа заказов для третьего года своей деятельности. Сведения о посту- плении заказов за первые два года приведены в табл. 5.16. Таблица 5.16. Данные о количестве заказов в фирме Small Engine Doctor за 1998— Месяц 1998 1999 Месяц 1998 1999 Январь 5 21 Июль 28 46 Февраль 8 20 Август 20 32 Март 10 29 Сентябрь 14 27 Апрель 18 32 Октябрь 8 13 Май 26 44 Ноябрь 6 11 Июнь 35 58 Декабрь 26 52
Временные ряды и их компоненты 237 Вопросы 1. Нарисуйте диаграмму для этого временного ряда на период 1998-1999 гг. 2. Рассчитайте уравнение линейного тренда, используя метод линейной регрессии, и графически представьте полученные результаты на диаграмме. 3. Оцените фактор сезонных колебаний для каждого месяца, разделив средний спрос для соответствующего месяца на соответствующий прогноз линейного тренда. Ото- бразите на графике трендовую прямую с сезонной корректировкой. 4. Выполните сглаживание временного ряда, используя метод трендово- корректированного экспоненциального сглаживания с тремя наборами сглаживаю- щих постоянных: (а = 0,1, (3 = 0,1), (а=0,25, (3 = 0,25) и (а = 0,5, (3 = 0,5). Представьте три набора сглаженных значений на графике временного ряда. Сделайте прогноз до конца третьего года для каждого экспоненциального сглаживания с корректировкой тренда. 5. Вычислите значение MAD для двух моделей, которые визуально показали наилучшее приближение (наиболее точное предсказание на один шаг вперед). 6. Считая, что возможный выбор ограничен одной из моделей, упоминавшихся в во- просах 2 и 4, определите, какую именно модель следовало бы использовать для пла- нирования бизнеса в 2000 году. Поясните, в чем преимущество выбранной вами мо- дели по отношению ко всем остальным. Задание 5.2. “Mr. Tux” Джон Мосби с нетерпением ожидал выполнения декомпозиции временного ряда ежеме- сячных доходов от проката в долларах. Он знал, что этот ряд имеет ярко выраженную се- зонную структуру и хотел бы оценить ее по двум важным для него причинам. Во-первых, банкир не позволял Джону вносить различные месячные выплаты по предоставленной ему ссуде. Джон неоднократно объяснял банкиру, что, вследствие ярко выраженной се- зонности его месячных доходов и движения денежной массы, ему бы хотелось вносить в некоторые месяцы повышенные платежи, снижая суммы выплат в другие месяцы почти до нуля. Наконец, банкир запросил документальное подтверждение о том, что в доходах Джона имеется сильный сезонный эффект. Во-вторых, Джон считал необходимым уметь составлять прогнозы своих месячных доходов от проката. Он нуждался в таких прогнозах для планирования своей деятельно- сти, в особенности с тех пор, как его бизнес начал расти. Оба заинтересованных лица, как банкир, так и идущий на риск предприниматель, хотели бы иметь достаточно надеж- ный прогноз, на основании которого можно было бы обсуждать вопросы инвестиций. Джон знал, что его бизнес успешно развивается, и будущее этого бизнеса виделось ему просто блестящим, но инвесторы хотели иметь этому документальное подтверждение. Сведения об объемах месячных доходов от проката компании “Mr. Tux” были введе- ны в приложение Minitab. Рассчитанные сезонные индексы представлены в табл. 5.17, а остальные вычисленные компьютером показатели помещены в табл. 5.18.
238 ГЛАВА 5 Таблица 5.17. Месячные сезонные индексы для доходов от проката компании Декомпозиция временных рядов Уравнение линейного тренда Т, = 19092,3 + 2861,58? Сезонный индекс Период Индекс 1 0,3173 2 0,4817 3 0,9013 4 1,8194 5 1,9409 6 1,1913 7 1,0229 8 1,2616 9 0,9016 10 0,7806 11 0,6035 12 0,7780 Точность модели МАРЕ: 19 MAD: 20 672 MSD: 8.56Е+08 Таблица 5.18. Расчет краткосрочных компонент для доходов от проката компании t Год Месяц Доходы Т SCI TCI CI С I 1 1990 Январь 16 850 21 954 0,7675 53 106 2,4190 — — 2 Февраль 12 753 24 815 0,5139 26 476 1,0669 — — 3 Март 26 901 27 677 0,9720 29 848 1,0784 1,5904 0,6781 4 Апрель 61 494 30 539 2,0137 33 799 1,1068 1,3751 0,8049 5 Май 147 862 33 400 4,4270 76 183 2,2809 1,4182 1,6080
Временные ряды и их компоненты 239 Продолжение табл. 5.18 t Год Месяц Доходы Т SCI TCI CI С I 6 Июнь 57 990 36 262 1,5992 48 676 1,3424 1,4049 0,9555 7 Июль 51 318 39 123 1,3117 50 168 1,2823 1,2975 0,9883 8 Август 53 599 41 985 1,2766 42 486 1,0120 1,0636 0,9514 9 Сентябрь 23 038 44 846 0,5137 25 553 0,5698 0,9218 0,6181 10 Октябрь 41 396 47 708 0,8677 53 028 1,1115 0,7746 1,4350 11 Ноябрь 19 330 50 570 0,3823 32 032 0,6334 0,7446 0,8507 12 Декабрь 22 707 53 431 0,4250 29 188 0,5463 0,8470 0,6449 13 1991 Январь 15 395 56 293 0,2735 48 521 0,8619 0,7163 1,2034 14 Февраль 30 826 59 154 0,5211 63 996 1,0819 0,7644 1,4153 15 Март 25 589 62 016 0,4126 28 392 0,4578 0,9558 0,4790 16 Апрель 103 184 64 878 1,5904 56 712 0,8742 0,9465 0,9236 17 Май 197 608 67 739 2,9172 10 181 1,5030 0,8363 1,7971 18 Июнь 68 600 70 601 0,9717 57 582 0,8156 0,9346 0,8727 19 Июль 39 909 73 462 0,5433 39 015 0,5311 0,9244 0,5745 20 Август 91 368 76 324 1,1971 72 425 0,9489 0,8102 1,1713 21 Сентябрь 58 781 79 185 0,7423 65 198 0,8234 0,7776 1,0589 22 Октябрь 59 679 82 047 0,7274 76 449 0,9318 0,8287 1,1244 23 Ноябрь 33 443 84 909 0,3939 55 420 0,6527 0,8321 0,7844 24 Декабрь 53 719 87 770 0,6120 69 051 0,7867 0,8302 0,9477 25 1992 Январь 27 773 90 632 0,3064 87 532 0,9658 0,7616 1,2681 26 Февраль 36 653 93 493 0,3920 76 093 0,8139 0,8721 0,9333 27 Март 51 157 96 355 0,5309 56 761 0,5891 0,9229 0,6383 28 Апрель 217 509 99 216 2,1923 И 955 1,2049 0,9059 1,3301 29 Май 206 229 102 078 2,0203 106 255 1,0409 0,9297 1,1196 30 Июнь 110 081 104 940 1,0490 92 401 0,8805 0,9965 0,8836 31 Июль 102 893 107 801 0,9545 100 588 0,9331 0,9602 0,9717 32 Август 128 857 110 663 1,1644 102 141 0,9230 0,9965 0,9263 33 Сентябрь 104 776 113 524 0,9229 116215 1,0237 0,9974 1,0263 34 Октябрь 111 036 116386 0,9540 142 237 1,2221 0,9848 1,2409 35 Ноябрь 63 701 119 247 0,5342 105 561 0,8852 0,9587 0,9234 36 Декабрь 82 657 122 109 0,6769 106 248 0,8701 0,9*110 0,9551 37 1993 Январь 31 416 124 971 0,2514 99 014 0,7923 0,8120 0,9758
240 ГЛАВА 5 Продолжение табл. 5.18 t Год Месяц Доходы Т SCI TCI CI С I 38 Февраль 48 341 127 832 0,3782 100 358 0,7851 0,8347 0,9406 39 Март 85 651 130 694 0,6554 95 033 0,7272 0,8794 0,8269 40 Апрель 242 673 133 555 1,8170 133 379 0,9987 0,9190 1,0867 41 Май 289 554 136 417 2,1226 149 186 1,0936 0,9829 1,1126 42 Июнь 164 373 139 279 1,1802 137 973 0,9906 1,0300 0,9617 43 Июль 160 608 142 140 1,1299 157010 1,1046 1,0439 1,0582 44 Август 176 096 145 002 1,2144 139 586 0,9627 1,0205 0,9433 45 Сентябрь 142 363 147 863 0,9628 157 905 1,0679 1,0674 1,0005 46 Октябрь 114 907 150 725 0,7624 147 196 0,9766 1,0552 0,9255 47 Ноябрь ИЗ 552 153 586 0,7393 188 171 1,2252 1,0669 1,1484 48 Декабрь 127 042 156 448 0,8120 163 300 1,0438 1,0591 0,9856 49 1994 Январь 51 604 159 310 0,3239 162 641 1,0209 1,1447 0,8919 50 Февраль 80 366 162 171 0,4956 166 844 1,0288 1,0724 0,9594 51 Март 208 938 165 033 1,2660 231 826 1,4047 1,0158 1,3828 52 Апрель 263 830 167 894 1,5714 145 007 0,8637 1,0240 0,8435 53 Май 252 216 170 756 1,4771 129 949 0,7610 0,9834 0,7739 54 Июнь 219 566 173 617 1,2647 184 302 1,0651 0,8915 1,1908 55 Июль 149 082 176 479 0,8448 145 742 0,8258 0,9366 0,8817 56 Август 213 888 179 341 1,1926 169 543 0,9454 0,9694 0,9752 57 Сентябрь 178 947 182 202 0,9821 198 483 1,0894 0,9634 1,1308 58 Октябрь 133 650 185 064 0,7222 171 206 0,9251 1,0194 0,9075 59 Ноябрь 116 946 187 925 0,6223 193 796 1,0312 1,0219 1,0092 60 Декабрь 164 154 190 787 0,8604 211 004 1,1060 0,9781 1,1308 61 1995 Январь 58 843 193 649 0,3039 185 456 0,9577 1,0433 0,9180 62 Февраль 82 386 196 510 0,4193 171 037 0,8704 1,0296 0,8454 63 Март 224 803 199 372 1,1276 249 429 1,2511 0,9733 1,2853 64 Апрель 354 301 202 233 1,7519 194 732 0,9629 1,0350 0,9304 65 Май 328 263 205 095 1,6005 169 130 0,8246 1,0599 0,7780 66 Июнь 313 647 207 956 1,5082 263 273 1,2660 1,0599 1,1945 67 Июль 214 561 210818 1,0178 209 754 0,9950 1,0533 0,9429 68 Август 337 192 213 680 1,5780 267 283 1,2509 1,0592 1,1810 69 Сентябрь 183 482 216 541 0,8473 203 513 0,9398 1,0144 0,9265
Временные ряды и их компоненты 241 t Год Месяц Доходы Т SCI TCI Окончание табл. 5.18 CI С I 70 Октябрь 144 618 219 403 0,6591 185 256 0,8444 1,0261 0,8229 71 Ноябрь 139 750 222 264 0,6288 231 585 1,0419 0,9724 1,0715 72 Декабрь 184 546 225 126 0,8198 237 216 1,0537 1,0595 0,9946 73 1996 Январь 71 043 227 987 0,3116 223 907 0,9821 1,1285 0,8703 74 Февраль 152 930 230 849 0,6625 317 490 1,3753 1,1104 1,2385 75 Март 250 559 233 711 1,0721 278 006 1,1895 1,0696 1,1121 76 Апрель 409 567 236 572 1,7313 225 108 0,9515 1,0622 0,8958 77 Май 394 747 239 434 1,6487 203 385 0,8494 0,9708 0,8750 78 Июнь 272 874 242 295 1,1262 229 048 0,9453 0,9729 0,9717 79 Июль 230 303 245 157 0,9394 225 144 0,9184 0,9554 0,9613 80 Август 375 402 248 018 1,5136 297 571 1,1998 0,9607 1,2489 81 Сентябрь 195 409 250 880 0,7789 216 742 0,8639 1,0063 0,8585 82 Октябрь 173 518 253 742 0,6838 222 276 0,8760 1,0790 0,8119 83 Ноябрь 181 702 256 603 0,7081 301 105 1,1734 — — 84 Декабрь 258 713 259 465 0,9971 332 551 1,2817 — — Джон не удивился, увидев приведенные в распечатке сезонные индексы, и был очень рад тому, что теперь у него есть несколько конкретных цифр, которые можно было бы показать банкиру. После совместного изучения полученных данных Джон и банкир пришли к соглашению о том, что Джон будет вносить двойную оплату в апреле, мае, ию- не и августе и вовсе не будет платить по займу в январе, феврале, ноябре и декабре. Бан- кир попросил Джона распечатать копию таблицы сезонных индексов, чтобы показать их своему руководству и включить в файл займа Джона. Для получения прогноза на первые шесть месяцев 1997 года Джон начал с оценки значения тренда, воспользовавшись уравнением тренда 7^=19092,3 + 2861,58/. Оценка тренда для января 1997 года составила следующее. Т = 19092,3 + 2861,58(85) = 262326,6 Затем Джон воспользовался сезонными индексами из табл. 5.17. Индекс для января составил 31,73%. Джон регулярно читал журнал The Wall Street и смотрел по телевизору ток-шоу, посвященные обсуждению деловых новостей, так что у него уже было представ- ление об ожидаемом поведении экономики и ее общем курсе. Он также был членом де- лового клуба, в котором регулярно проводились встречи с местными экономическими экспертами. Поэтому после изучения в выданной компьютером таблице столбца С, де- монстрирующего циклическую компоненту временного ряда, он задумался над тем, как спрогнозировать эти значения для первых шести месяцев 1997 года. Поскольку предска- зания ведущих столичных и местных экспертов на 1997 год указывали на медленное улучшение состояния дел в бизнесе и последнее значение в столбце С для октября 1996 года было завышено (107,9%), он решил использовать для своих прогнозов значения циклической компоненты С, приведенные в табл. 5.19.
242 ГЛАВА 5 Таблица 5.19. Значения циклической компоненты для прогноза на 1997 год Год Месяц С 1996 Ноябрь 108 Декабрь 109 1997 Январь 109 февраль 110 Март 111 Апрель 113 Май 114 Июнь 115 В значениях нерегулярной компоненты (7) для этих месяцев Джон не предполагал по- явления каких-либо необычных ситуаций, за исключением марта 1997 года. В этом меся- це он планировал организовать кампанию “открытых дверей” и, соответственно, снизить цены в одном из своих отделений, в котором недавно закончилась реконструкция. Он ожидал, что вследствие подобного стимулирования, дополненного интенсивной радио- и телевизионной рекламой, объем доходов от проката в этом отделении будет на 50% вы- ше, чем обычно. В результате в отношении общего объема месячных доходов можно ожидать эффект повышения приблизительно на уровне 15%. Используя все свои оценки и другие, полученные компьютером результаты, Джон со- ставил прогноз доходов от проката компании “Mr. Tux” на первые шесть месяцев 1997 года, приведенный в табл. 5.20. Таблица 5.20. Прогноз доходов от проката компании “Mr. Tux” Месяц Прогноз = Т X S X с X / Январь 90727 262326,6 0,3173 1,09 1,00 Февраль 140515 265188,2 0,4817 1,10 1,00 Март 308393 268049,8 0,9013 1,11 1,15 Апрель 556972 270911,4 1,8194 1,13 1,00 Май 605757 273773,0 1,9409 1,14 1,00 Июнь 378988 276634,5 1,1913 1,15 1,00 После изучения полученных прогнозов на 1997 год Джон был весьма встревожен, об- наружив, что ожидается столь широкий ряд значений объемов месячных доходов — от 90 727$ до 605 757$. Хотя он и знал, что объем месячных доходов от проката в его компа- нии существенно меняется, все же столь сильные флуктуации его обеспокоили. Ранее Джон уже задумывался над расширением своего бизнеса, локализованного в Спокане, в район города Сиэтла. Недавно он выяснил, что для Сиэтла характерно наличие несколь- ких обстоятельств, отличающих этот регион от рынка услуг проката в Спокане. В частно- сти, официальные балы на встречах выпускников в Сиэтле проводятся гораздо чаще, чем
Временные ряды и их компоненты 243 в Спокане. Поскольку эти торжества проходят обычно во время спада бизнеса Джона в Спокане, когда уровень доходов от проката минимален (см. сезонный индекс для октяб- ря и ноября), выравнивание доходов, связанное с выходом его бизнеса на рынок Сиэтла, могло принести ощутимую выгоду компании. Однако действительно серьезное беспокойство у него вызвали два наихудших меся- ца — январь и февраль. Не так давно Джон обдумывал возможность покупки машины для пошива рубашек под смокинги, которую он видел на выставке. Он полагал, что этим делом можно будет вплотную заняться в течение зимних месяцев. Если бы со стороны потенциальных покупателей рубашек наблюдалась положительная реакция на повыше- ние объемов поставок в указанный период времени, он охотно предпринял бы такую по- пытку. Как бы там ни было, рассчитанные компьютером сезонные индексы помогли Джону сосредоточить внимание на возможных чрезвычайных колебаниях в уровне ме- сячных доходов компании от проката. Вопросы 1. Если бы банкир попросил Джона привести два аргумента, чтобы предоставить их руководству в качестве обоснования просьбы вносить удвоенные выплаты по займу в одни месяцы и вовсе не платить в другие, то какие аргументы ему следовало бы привести? 2. Предположим, что доход Джона в Сиэтле в следующем году будут ровно в два раза превосходить его доход в Спокане. Подберите такие сезонные индексы для ежеме- сячных доходов в Сиэтле, которые позволили бы полностью сбалансировать общие ежемесячные доходы для компании “Mr. Tux”. 3. Пренебрегая доходами в Сиэтле, рассчитайте, какие объемы сбыта рубашек должны быть достигнуты Джоном, чтобы поднять общие доходы компании в январе и фев- рале до “среднего уровня”? Задание 5.3. Корпорация Consumer Credit Counseling Деятельность корпорации Consumer Credit Counseling (ССС) была описана в главе 1 (задание 1.2). Мэрв Харнишфегер, исполнительный директор корпорации, пришла к заключению, что наиболее важной переменной, прогноз которой необходим для успешной работы ССС, является количество новых клиентов, которые могли бы обратиться в корпорацию за оставшуюся часть 1993 года. Мэрв предоставила Дороти Мерсер ежемесячные данные о количестве новых клиентов, обратившихся в ССС за период с января 1985 по март 1993 года (см. задание 3.3). Чтобы составить требуемый прогноз, Дороти необходимо выполнить декомпозици- онный анализ полученного временного ряда. Она полагает, что важнее всего будет выяс- нить поведение трендовой и сезонной компонент, а также оценить их относительную
244 ГЛАВА 5 важность. Кроме того, она хочет знать, имеются ли в собранных данных какие-либо не- обычные нерегулярности. Конечная же цель всей работы состоит в получении прогноза на оставшуюся часть 1993 года. Вопрос 1. Составьте отчет, содержащий всю необходимую Дороти Мерсер информацию. Задание 5.4. Клуб AAA Washington13 AAA. Washington — это один из двух региональных автомобильных клубов штата Вашинг- тон, относящихся к Американской автомобильной ассоциации (ААА или “Три А”). В 1993 году 69% всех участников автомобильных клубов США являлись членами Американской автомобильной ассоциации, что делало ее наибольшим автомобильным клубом в Северной Америке. ААА— это общенациональная ассоциация, насчитывающая около 150 регио- нальных клубов. Эта ассоциация установила определенный набор минимальных требова- ний, которые каждый из входящих в нее клубов должен неукоснительно выполнять, чтобы его членство в ассоциации было действительным. В каждом региональном клубе имеется собственный совет попечителей и управляющий персонал. Местное управление и попечи- тели несут ответственность за привлечение новых и сохранение уже имеющихся членов клуба в пределах выделенной территории, а также за обеспечение финансового здоровья регионального клуба. Помимо соблюдения минимального набора общих требований, уста- новленных ассоциацией ААА, каждый региональный клуб волен определять, какие допол- нительные товары и услуги он будет предлагать своим членам и какова будет цена на них. Клуб ААА Washington был основан в 1904 году. Обслуживаемая им территория вклю- чает 26 округов штата Вашингтон, расположенных западнее реки Колумбия. Клуб пред- лагает своим членам широкий выбор автомобилей и услуг, связанных с их обслуживани- ем и эксплуатацией. Выгода от членства в клубе обеспечивается за счет кооперации дея- тельности отделений в масштабе всей национальной ассоциации. Здесь предоставляются такие услуги, как аварийное дорожное обслуживание; широкая сеть дорожных гостиниц, ресторанов, автомобильных ремонтных мастерских; предоставление путеводителей с ука- занием одобренных ААА гостиниц, ресторанов, лагерей и разнообразных интересных мест; законодательная и финансовая защита, действующая в интересах владельцев авто- мобилей. В дополнение к этому клуб ААА Washington предлагает своим членам расши- ренный перечень аварийных дорожных услуг; некоторые финансовые услуги, включая кредитные карточки для групп лиц, объединенных общими интересами, персональные кредитные лимиты, чековые и сберегательные счета, временные депозиты и льготное по- лучение дорожных чеков American Express; доступ к парку фургонов мобильной диагно- стики, предназначенных для экстренного определения состояния транспортных средств членов клуба; услуги бюро путешествий и страхового агентства. Клуб предоставляет эти 11 Это задание предоставил Стив Брентон (Steve Branton), бывший студент Eastern Washington University.
Временные ряды и их компоненты 245 услуги через сеть своих офисов, находящихся в городах Белльвью, Биллингхем, Бремер- тон, Эверетт, Линнвуд, Олимпия, Рентон, Сиэтл, Такома, Паско, Ричлэнд, Кенневик, Ванкувер, Уэнетчи и Якима (штат Вашингтон). Проводимые в клубе исследования показывают, что главной побудительной причи- ной вступления новых членов в ААА является аварийное дорожное обслуживание. Важ- ность службы аварийного дорожного обслуживания в организации защиты членов отра- жена в трех типах членства, предлагаемых клубом AAA Washington: базовый, “ААА Плюс” и “ААА Плюс RV”. Базовое членство гарантирует членам клуба буксировку их транспортного средства на расстояние до пяти миль от того места, где оно вышло из строя. Членский билет “ААА Plus” гарантирует членам клуба буксировку на расстояние до 100 миль от места, в котором их транспортное средство вышло из строя. Членский би- лет “ААА Plus RV” обеспечивает членам клуба буксировку на расстояние до 100 миль не только легковых автомобилей или легких грузовиков, но и имеющихся прицепных транспортных средств. Предоставление аварийных дорожных услуг является также самой крупной из существующих статей расхода клуба. Предполагается, что в следующем фи- нансовом году предоставление аварийных дорожных услуг обойдется клубу в $9,5 млн, что составляет 37% планируемого годового бюджета клуба. Майкл Декориа (Michael DeCoria), дипломированный экономист, окончивший уни- верситет Eastern Washington, недавно был принят в правление клуба в качестве исполни- тельного вице-президента. Одним из обязательств, которые взял на себя мистер Декориа, является управление службой аварийных дорожных услуг. При предварительной оценке эффективности этой службы мистер Декориа обнаружил, что издержки на оказание ава- рийных дорожных услуг возрастали значительно быстрее, чем это могло быть оправдано инфляцией и увеличением количества членов клуба. Мистер Декориа решил глубже про- анализировать способы оказания аварийных дорожных услуг, чтобы выяснить, нельзя ли более строго контролировать издержки в этой области. Аварийные дорожные услуги предоставляются членам клуба одним из четырех сле- дующих способов: собственным сервисным парком клуба ААА Washington, внешними компаниями, с которыми заключены договора, посредством взаимной компенсации ме- жду клубами-членами ассоциации и методом прямой компенсации членам клуба. Парк сервисного обслуживания транспортных средств самого клуба ААА Washington несет от- ветственность за оказание помощи по вызовам от членов клуба, которые потерпели ава- рию в деловой части города Сиэтла. Вне деловой части Сиэтла ответственность за оказа- ние помощи по вызовам от членов клуба несут коммерческие буксировочные компании, имеющие контракт с клубом ААА Washington на оказание подобных услуг. Выбор спосо- ба обслуживания осуществляется в диспетчерском центре клуба непосредственно при поступлении вызова от члена клуба. Если член клуба потерпел аварию за пределами об- ласти обслуживания клуба ААА Washington, то для получения аварийного дорожного об- служивания он может позвонить в местный клуб, также состоящий в ассоциации ААА. Входящий в состав ААА клуб оплачивает оказываемые услуги, а затем выписывает соот- ветствующий счет в адрес клуба ААА Washington, который погашается методом взаимной компенсации с помощью клиринговой службы, организованной в национальной ассо- циации. Наконец, члены клуба могут непосредственно связаться с любой буксировочной компанией по собственному выбору, оплатить предоставленные им услуги, а затем предъявить требование о компенсации в адрес клуба. Компенсация, предоставляемая клубом ААА Washington своим членам, составляет либо реальную стоимость буксировки, либо 50$, если стоимость буксировки была меньше этой суммы. После тщательного изу-
246 ГЛАВА 5 чения всех четырех способов предоставления услуг мистер Декориа пришел к заключе- нию, что клуб контролирует стоимость оказания услуг настолько строго, насколько это вообще возможно. Еще одним потенциальным источником роста издержек является возрастание часто- ты обращения членов клуба с просьбами об оказании им аварийных дорожных услуг. Ко- личество членов клуба неуклонно возрастало в течение последних нескольких лет, одна- ко рост уровня издержек на оказание подобных услуг был больше, чем это можно было бы объяснить простым увеличением числа членов клуба. Мистер Декориа решил прове- рить версию о возрастании числа вызовов службы аварийных дорожных услуг, приходя- щихся на одного члена клуба. В результате он обнаружил, что на протяжении 1990-1991 финансового года среднее число вызовов службы аварийных дорожных услуг, приходя- щееся на одного члена клуба, возросло на 3,28%, или с 0,61 до 0,63 вызовов (финансовый год клуба AAA Washington начинается с 1 июля). Озабоченный тем, что сохранение по- добной тенденции окажет негативное влияние на функционирование клуба с финансо- вой точки зрения, мистер Декориа собрал все имеющиеся данные о вызовах службы ава- рийных дорожных услуг (они представлены в табл. 5.21). Таблица 5.21. Сведения о ежемесячном количестве вызовов аварийной дорожной службы клуба AAA Washington Год Месяц Вызовы Год Месяц Вызовы 1988 Май 20002 1991 Январь 23441 Июнь 21591 Февраль 19205 Июль 22696 Март 20386 Август 21509 Апрель 19988 Сентябрь 22123 Май 19077 Октябрь 21449 Июнь 19141 Ноябрь 23475 Июль 20883 Декабрь 23529 Август 20709 1989 Январь 23327 Сентябрь 19647 Февраль 24050 Октябрь 22013 Март 24010 Ноябрь 22375 Апрель 19735 Декабрь 22727 Май 20153 1992 Январь 22367 Июнь 19512 Февраль 21155 Июль 19892 Март 21209 Август 20326 Апрель 19286 Сентябрь 19378 Май 19725 Октябрь 21263 Июнь 20276 Ноябрь 21443 Июль 20795 Декабрь 23366 Август 21126
Временные ряды и их компоненты 247 Окончание табл. 5.21 Год Месяц Вызовы Год Месяц Вызовы 1990 Январь 23836 Сентябрь 20251 Февраль 23,336 Октябрь 22069 Март 22003 Ноябрь 23268 Апрель 20155 Декабрь 26039 Май 20070 1993 Январь 26127 Июнь 19588 Февраль 20067 Июль 20804 Март 19673 Август 19644 Апрель 19142 Сентябрь 17424 Октябрь 20833 Ноябрь 22490 Декабрь 24,861 Вопросы 1. Выполните декомпозицию временного ряда данных о вызовах службы оказания ава- рийных дорожных услуг клуба ААА Washington. 2. Составьте в адрес мистера Декориа докладную записку, в которой приведите важ- нейшие итоговые сведения об изменениях характера вызовов службы аварийных до- рожных услуг, полученные в результате декомпозиционного анализа соответствую- щего временного ряда. Задание 5.5. Компания Alomega Food Stores В примере 1.1 Джулия Рас, президент компании Alomega Food Stores, собрала данные о месячных объемах продаж своей компании вместе с другими показателями, которые, как она полагала, могли влиять на объем продаж (см. пример 1.1 в главе 1). В задании 2.3 (глава 2) объясняется, как Джулия применила приложение Minitab для выполнения рас- четов по методу простой регрессии, используя ежемесячные расходы на рекламу по теле- видению как независимую переменную для предсказания месячных объемов продаж. Проанализировав результаты регрессионного анализа, который дал относительно низкое значение показателя г-квадрат (36%), она решила выполнить декомпозицию вре- менного ряда месячных объемов продаж компании по одной переменной. На рис. 5.13 показан график результатов обработки данных об объемах продаж, полученный после выполнения расчетов. Глядя на этот график, создается впечатление, что отдельные зна-
248 ГЛАВА 5 чения объемов продаж слишком разбросаны относительно трендовой линии, чтобы можно было надеяться на достаточно точные предсказания. Это общее впечатление под- тверждается приведенным на графике значением МАРЕ, равным 28. Джулия интерпрети- ровала это значение следующим образом: средняя ошибка в процентах между реальным значением и линией тренда составляет 28%, т.е. слишком велика для ее целей. Trend Analysis for Sales Linear Trend Model Yt = 350840 + 1334.67*t Time Puc. 5.13. Результаты анализа наличия тренда в данных об объемах продаж компании Alomega Food Stores (приложение Minitab) Затем Джулия решила выполнить мультипликативную декомпозицию имеющихся у нее данных. Результаты этой декомпозиции приведены на рис. 5.14. Помимо приведенного в распечатке уравнения тренда, Джулия заинтересовалась се- зонными (месячными) индексами, вычисленными программой. Она отметила, что са- мый низкий объем продаж отмечается в декабре (12 месяц, индекс = 0,49), а самый высо- кий — в январе (1 месяц, индекс = 1,74). Джулия и раньше знала о различии между объе- мами продаж в декабре и январе, однако не представляла, что оно столь значительно. Кроме того, она отметила, что значение МАРЕ упало до 12%, что существенно лучше первого варианта, когда использовалось только уравнение тренда. Наконец, она воспользовалась своей программой для вычисления прогнозов объемов продаж на следующие 12 месяцев, взяв за основу полученное уравнение тренда, модифици- рованное с учетом сезонных индексов. Джулия полагала, что вполне может использовать результаты своих расчетов для целей планирования, однако ей все же хотелось бы знать, не могут ли какие-либо другие методы прогнозирования дать лучшие результаты. Джулию также волновало, что скажет о выполненных ею расчетах исполнительный директор ком- пании, Джексон Тилсон, который не так давно на совещании выразил сомнение в целесо- образности использования компьютеров для получения прогнозов (см. пример 1.1).
Временные ряды и их компоненты 249 Time Рис. 5.14. Результаты мультипликативной декомпозиции данных об объемах продаж ком- пании Alomega Food Stores (приложение Minitab) Вопрос Как вы думаете, что мог бы сказать о выполненных Джулией прогнозах Джексон Тилсон? Применение Minitab Задание. Найдите уравнение тренда для данных из примера 5.1 о ежегодной регистрации новых пассажирских автомобилей в США с 1960 по 1992 год. Решение в Minitab 1. После того как данные о регистрации новых пассажирских автомобилей будут вве- дены в столбец С1 рабочего листа, для запуска процедуры анализа тренда выберите команду Stat^Time Series^Trend Analysis. 2. На экране раскроется диалоговое окно Trend Analysis (Анализ тренда). Выполните в нем следующее. а) в качестве значения поля Variable (Переменная) укажите Cars (Автомобили) б) переключатель Model Туре (Тип модели) установите в состояние Linear (линейный) в) установите флажок опции Generate forecasts (Генерировать прогнозы) и введи- те значение 1 в поле Number of forecasts (Количество прогнозов), чтобы сде- лать прогноз на 1993 год г) в поле Title (Заголовок) введите значение Linear Trend Equation for Car Regis- trations Time Series (Линейное уравнение тренда для временного ряда данных о регистрации пассажирских автомобилей)
250 ГЛАВА 5 д) щелкните на кнопке ОК, и на экран будет выведен график, представленный на рис. 5.3 Задание. Рассчитайте представленные в табл. 5.1 значения оценки тренда и значения данных с устраненным трендом для исходных данных о регистрации новых пассажир- ских автомобилей в США. Решение в Minitab 1. В заголовок столбца С1 введите значение Year (Год). Список значений в этом столбце можно создать автоматически, выбрав команду Calc^Make Pattern Data^Simple Set of Numbers. 2. В результате на экране раскроется диалоговое окно Simple Set of Number (Простой набор чисел). а) выполните в этом окне следующие действия: в поле Store pattern data in (Сохранить полученные данные в) введите значе- ние С1; в поле From first value (Начиная с первого значения) введите значение 1960; в поле То last value (До последнего значения) введите значение 1992; в поле In steps of (С шагом) введите значение 1. б) щелкните на кнопке ОК, и требуемый список годов будет помещен в столбец С1 в) данные о регистрации новых пассажирских автомобилей введите в столбец С2 3. Значения переменной соответственно помеченного времени t введите в столбец СЗ с помощью той же команды Simple Set of Number. 4. Оценки тренда введите в столбец С4 с помощью той же команды, которая использова- лось при анализе тренда в предыдущем задании, но с одним дополнительным этапом. 5. Выберите команду Storage, и на экране раскроется диалоговое окно Trend Analysis - Storage. а) в группе Storage установите флажки опций Fits (для линии тренда) и Residuals (для данных с исключенным трендом) б) щелкните на кнопке ОК в этом диалоговом окне, а затем в диалоговом окне Тrend Analysis. Значения оценки тренда будут помещены в столбец С4, а значе- ния ошибок (остатков) — в столбец С5 Задание. Сделайте для Перкина Кенделла, аналитика компании Outboard Marine Corporation, прогноз квартальных продаж в 1997 году, исходя из данных, приведенных в примерах 5.3 и 5.4. Решение в Minitab 1. Введите в столбец С1 сведения о годах, в столбец С2 поместите номера кварталов, а данные об объемах продаж поместите в столбец СЗ. Для расчета декомпозиционной модели выберите команду Stat^Time Series^Decomposition. 2. На экране раскроется диалоговое окно Decomposition (Декомпозиция), показанное на рис. 5.15.
Временные ряды и их компоненты 251 Рис. 5.15. Диалоговое окно Decomposition приложения Minitab а) в поле Variable (Переменная) введите значение СЗ или Sales б) поскольку данные являются квартальными, в поле Seasonal Length (Длительность сезонного цикла) введите значение 4 в) переключатель Model Туре (Тип модели) установите в положение Multiplicative (Мультипликативная), а переключатель Model Components (Компоненты мо- дели) — в положение Trend plus seasonal (Тренд плюс сезонность) г) в поле Fist obs. is in seasonal period (Сезонный период первого наблюдения) введите значение 1 д) установите флажок опции Generate forecasts и введите значение 4 в поле Num- ber of forecasts 3. Щелкните на кнопке Storage... (Сохранение), и на экране раскроется диалоговое окно Decomposition - Storage, показанное на рис. 5.16. I.J-- . игтте.... Xi Р J.rend line Р Detrended data Р .Seasonal*: Р Stas anally adpiy ted" data1 Г Forecasts Help I ; ~OK~ ~I Cancel Puc. 5.16. Диалоговое окно Decompo- sition - Storage приложения Minitab а) в группе Storage установите флажки опций Trend Line (Линия тренда), Detrended data (Данные с исключенным трендом), Seasonals (Сезонные колебания), Sea- sonally adjusted data (Данные с исключенными сезонными колебаниями) б) щелкните на кнопке ОК в этом диалоговом окне, а затем в диалоговом окне De- composition. В табл. 5.4 приведены оценки тренда из столбца С4 (помеченного Т),
252 ГЛАВА 5 данные с исключенным трендом из столбца С5 (помеченного SCI), сезонные ко- лебания из столбца С6 (помеченного 5) и данные с исключенными сезонными колебаниями из столбца С7 (помеченного ТСГ) 4. На экран будут выведены диалоговые окна и графики, представленные на рис. 5.9- 5.11. Графики можно распечатать все вместе, для чего следует выбрать команду File^Print Graph. 5. После того как графики будут распечатаны, выберите команду File^Print Session Window, и на печать будет выведен прогноз, представленный на рис. 5.9. Содержимое столбцов CI, С и / (табл. 5.4) также может быть рассчитано с помощью приложения Minitab, однако расчет этих данных будет продемонстрирован в сле- дующем разделе “Применение Excel”. Применение Excel Задание. На рис 5.6 приведены данные об изменении количества членов фонда взаимо- помощи и соответствующий график. Определите уравнение тренда для этих данных, ис- пользуя показательную модель. Решение в Excel 1. Введите в ячейку А1 значение Y, а в ячейки диапазона А2:А8 — данные о количестве членов фонда. 2. Введите в ячейку В1 значение X, а в ячейки диапазона В2:В8 — значения перемен- ной, обозначенной какХ(1,2, 3,4, 5,6, 7). 3. Введите в ячейку С1 значение log Y, а в ячейки диапазона С2:С8 поместите деся- тичные логарифмы соответствующих значений переменной Y. Для этого поместите в ячейку С2 формулу LOG10(А2) и скопируйте ее в оставшиеся ячейки диапазона. 4. Для расчета показательного тренда выберите команду Tools^ Data Analysis. 5. На экране раскроется диалоговое окно Data Analysis (Анализ данных). В списке Analysis Tools (Инструменты анализа) выберите значение Regression (Регрессия) и щелкните на кнопке ОК. Раскроется диалоговое окно Regression, показанное на рис. 5.17. иИ1И1вМВВЕВ8ДИЯИИ1 ’ I IIIII /Г g.esi&ials Riots > < '~Г S&ndaft&ed Reflate Г” lane Fft Hots t i.WortralRroswfcfry ------------ — ( '<1Г PrefcabStyPiott Puc. 5.17. Диалоговое окно Regression приложения Excel
Временные ряды и их компоненты 253 а) в поле Input Y Range (Диапазон ввода У) введите значение С1 :С8 б) в поле Input X Range (Диапазон ввода .¥) введите значение В1 :В8 в) установите флажок опции Labels (Метки) г) установите переключатель Output Option в положение New Worksheet Ply и введите в ставшее активным поле ввода значение Figure5.18, как показано на рис. 5.17 На рис. 5.18 представлены результаты выполненного приложением Excel расчета по- казательной модели тренда для данных о количестве членов фонда взаимопомощи. Соответствующее уравнение будет иметь следующий вид. log Т = 1,000692 + 0,118338г Антилогарифмы коэффициентов регрессии в этом уравнении будут равны следующему. b0 = antilog 1,000692 = 10,016 6, = antilog 0,118338 = 1,313 Таким образом, уравнение, моделирующее показательный тренд для указанных дан- ных, будет следующим. Т = (10,016)(1,313)' Jl(. Е« го* Л-fa. к«и ь* .-jsjg а аз f * т 4 г и, и о л " • о. - - в I ц if ж Г., s х , -й л Г» » _ - * - Д. -1 _ _ _ | .... ё ... ] | _ 1 ^Regression Statistics’' __.].. ___1 _ ___;___ __ д.......... > 2 ^Multiple R: 0.998442 Г" ~"T~ ]. " “"Г f’ I T“' ~ = '•TlR Square : 0.996886; ..Г......I........F ....1.......1..........F. : 1 ^Adjusted F 0.996^4":......... I.........I...........I................... W w^standardTapjsKir^^ZZZZL^ * jiObservation_7i s _ i i P 7 .....1..................j.....i......... ‘ < 8 1AN0VA __________’_____i________\_________________j В df SS i JWS______________F •gnificance F __ i . PIRegressiot 1 = 0.392106= 0.392106: 1600.788. 1.84E-07; "П " 7 Й 11!Residual.i. 5 = 0.001225i 0.000245= ....... ’ M ~WTotal.......1. 6= 0.393331i___;________i________i 1 Й 5з ===:.i ...............................................'................. J 14 в Coefficjentstarxfard Err t Stat P-vakie Lower 95%'Цррег95%хмег 95. CMpper 95.0% ш WOIntercept П 1.000692= 0.0132271 75.65363 : 7.64E-09; 0.966691 i 1.034694: 0.966691; 1.0346941 J? 16 JX Variable r 6J18338T QW^8T'4OW985r'f’84E-07[ oFl 10^ 0,'l 10735 "671259411 Ш "i » . / 13 / .* ,|Ч...е 4 ,, |.| 7r Яы»||| -ь r^JlJ 1/Jon.elS-IS , -3?a* UM'-mII Puc. 5.18. Результаты применения инструмента Regression приложения Excel к данным о количестве членов фонда взаи- мопомощи Задание. Исходя из данных о доходах компании Outboard Marine, приведенных в приме- рах 5.3 и 5.4, рассчитайте значения в столбцах С/, С (трехпериодическое скользящее среднее) и / табл. 5.4.
254 ГЛАВА 5 Решение в Excel 1. Откройте файл приложения Minitab с исходными данными для табл. 5.4 и выделите столбец С4, содержащий значения переменной Т. Затем выберите команду Edit^Copy Cells. 2. Создайте таблицу Excel, выделите в ней ячейку А1, а затем выберите команду Edit^ Paste. 3. Значения данных для переменной Т будут помещены в ячейки столбца А. Повторите эту процедуру, скопировав в ячейки столбца В1 рабочего листа Excel значения пере- менной ГС/из столбца С7 в окне приложения Minitab. 4. Чтобы создать столбец со значениями переменной CI, установите курсор в ячейку С1 и введите в нее формулу =В1/А1, после чего скопируйте эту формулу в ос- тальные ячейки столбца С. 5. Чтобы рассчитать значения переменной С посредством метода трехпериодического скользящего среднего, выберите команду Tools^Data Analysis. 6. В списке Analysis Tools раскрывшегося диалогового окна Data Analysis выберите значение Moving Average (Скользящее среднее) и щелкните на кнопке ОК. На экран будет выведено диалоговое окно Moving Average, показанное на рис. 5.19. Рис. 5.19. Диалоговое окно Moving Average приложения Excel а) в поле Input Range (Диапазон ввода) введите значение С1 :С28 б) в поле Interval (Интервал) введите значение 3 в) в поле Output Range (Диапазон вывода) введите значение D1 г) Excel ошибочно размещает первое значение скользящего среднего в ячейке D3 вместо ячейки D2, поэтому выделите первую ячейку диапазона вывода D1 и вы- берите команду Edit^ Delete д) в диалоговом окне Delete (Удаление) установите переключатель в положение Shift Cells Up (Смещение ячеек вверх) е) щелкните на кнопке ОК 7. Чтобы получить значения переменной /, установите курсор в ячейку Е2 и введите в нее формулу =C2/D2, а затем скопируйте эту формулу в остальные ячейки столбца Е. 8. Чтобы скопировать рассчитанные значения столбцов CI, С и / в рабочий лист при- ложения Minitab, поместите курсор в ячейку С1 и с помощью мыши выделите все ячейки вплоть до Е28. Затем выберите команду Edit^Copy.
Временные ряды и их компоненты 255 9. Далее откройте рабочий лист приложения Minitab, содержащий данные для табл. 5.4, и выделите строку 1 в столбце С8. Затем выберите команду Edit^Pasted Insert Cells. Все данные для табл. 5.4 готовы. Рекомендуемая литература Bell W.R., Hillmer S.C. Issues Involved with the Seasonal Adjustment of Economic Time Series. Jour- nal of Business and Economic Statistic (1984): 291—320.1 Bernstein P. Against the Gods: The Remarkable Story of Risk. New York: John Wiley & Sons, 1996. Findley D.F., Monsell B.C., Bell W.R., Otto M.C., Chen B. New Capabilities and Methods of the X- 12-ARIMA Seasonal-Adjustment Program. Journal of Business and Economic Statistic (1998): 127-152. Johnson R.A., Wichem D.W. Business Statistics: Decision Making with Data. New York: John Wiley & Sons, 1997 Makridakis S., Wheelwright S.C., Hyndman R.J. Forecasting Method and Applications, 3-rd ed. New York: John Wiley & Sons, 1998. Moore G.H., Shiskin J. Early Warning Signals for the Economy. In Statistics: A Guide to Business and Economics, eds. Tanur J.M. etal. San Francisco: Holden-Day, 1976, 81. Wichem D.W. Lagging Indicators. In Encyclopedia of Statistical Sciences, eds. Kotz S. et al., Vol.4, New York: John Wiley & Sons, 1983, 439—440. Wichem D.W. Leading Indicators. In Encyclopedia of Statistical Sciences, eds. Kotz S. et al., Vol.4, New York: John Wiley & Sons, 1983, 582—585.
/а\ ли /т а W/ w W/ М ГЛАВА F7 W MF/ W Простая линейная регрессия .Вглаве 2 рассматривалась линейная зависимость между двумя числовыми переменны- ми (корреляция). Линейной зависимости соответствует прямая линия, и ниже будет рас- смотрено построение такой прямой по заданным парам наблюдений двух переменных. Построение будет проводиться с помощью метода наименьших квадратов. В этой главе мы подробно изучим модель простой линейной регрессии. Если линейная зависимость установлена, то по величине независимой переменной можно будет предсказывать зна- чение зависимой переменной. Кратко напомним рассмотренный в главе 2 анализ зависимости между двумя пере- менными, для чего воспользуемся следующим примером. Пример 6.1 Мистер Бамп (Bump) изучает цены и объемы продажи молока, выбрав произвольным об- разом десять недель. Собранные им данные представлены в табл. 6.1. Таблица 6.1. Данные о продаже молока для примера 6.1 Номер недели Количество проданного молока У (тыс. галлонов) Цена одного галлона X (долл.) 1 10 1,30 2 6 2,00 3 5 1,70 4 12 1,50 5 10 1,60 6 15 1,20 7 5 1,60 8 12 1,40 9 17 1,00 10 20 1,10
258 ГЛАВА 6 На рис. 6.1 приведена диаграмма рассеивания для исходных данных. Диаграмма показы- вает, что имеет место обратная линейная зависимость между переменной Y (количеством гал- лонов проданного молока) и переменной X (ценой одного галлона). Можно сделать вывод, что при возрастании цены объем продаж уменьшается. У 30 - . -I 2.00 Цена Рис. 6.1. Диаграмма рассеивания для примера 6.1 Мистера Бампа интересует количественная мера обнаруженной зависимости. Для этого он вычислил выборочный коэффициент корреляции г, воспользовавшись формулой 2.9. Проделав вычисления, приведенные в табл. 6.2, он определил следующее. "2-ут-(Ет)(^г) -Q>)! -(ХГ)‘ ________10-149,3-14,4-112______ >/10 • 21,56-14,42 710-1,488-1122 -119,8 138,7 = -0,86. Значение выборочного коэффициента корреляции, равное -0,86, указывает на довольно тесную обратную зависимость между переменными Y и X, т.е. при возрастании цены одного галлона молока количество продаваемых галлонов быстро падает. Таблица 6.2. Вычисления из примера 6.1 п= 10 Y X XY X2 Y2 6 2,00 12,0 4,00 36 5 1,70 8,5 2,89 25 12 1,50 18,0 2,25 144
Простая линейная регрессия 259 hiiii п = 10 У х XY Окончание табл. 6.2 X2 У2 10 1,60 16,0 2,56 100 15 1,20 18,0 1,44 225 5 1,60 8,0 2,56 25 12 1,40 16,8 1,96 144 17 1,00 17,0 1,00 289 20 1,10 22.0 1,21 400 Сумма 112 14,40 149,3 21,56 1488 При этом естественно возникает следующий вопрос: на сколько уменьшается продажа молока при увеличении его цены? В данном случае на диаграмме рассеивания требуется про- вести прямую, проходящую достаточно близко от отмеченных точек. Тогда наклон прямой покажет, на сколько галлонов в среднем будет уменьшаться величина Упри увеличении вели- чины X на один доллар. Прямая регрессии Мистер Бамп может провести требуемую прямую, визуально сориентировав ее так, чтобы она находилась как можно ближе к отмеченным на диаграмме точкам. Однако другой че- ловек может провести подобную прямую как-то иначе. Необходим такой способ нахож- дения прямой наилучшего приближения, при использовании которого любой человек будет получать один и тот же результат для заданного набора данных. Как было отмечено в главе 2, для однозначного определения прямой наилучшего приближения чаще всего применяется критерий наименьших квадратов. Для набора пар данных X — У в качестве прямой наилучшего приближения будет выби- раться такая, для которой наименьшее значение принимает сумма квадратов расстоя- ний от точек (х,у) из заданного набора данных до этой прямой, измеренных в верти- кальном направлении (по оси У). Эта прямая называется прямой регрессии, а ее урав- нение — уравнением регрессии. Уравнение прямой приближения имеет вид У= Ьо + Ь{Х. Первый параметр, 60, называет- ся свободным членом, а второй, — угловым коэффициентом. Напомним, что угловой коэффициент показывает величину, на которую изменяется значение У при увеличении X на единицу. Нашей ближайшей целью будет определение значений Ьо и by. Метод наименьших квадратов позволяет подобрать такие значения коэффициентов bQ и by, чтобы сумма квадратов ошибок (расстояний) была наименьшей из всех возможных. 55Е = ^(У-У)2=^(У-ЙО-Й,Х)2 (6.1) С помощью несложных вычислений (см. приложение А) для нахождения значений Ьй и 6, в формуле метода наименьших квадратов могут быть получены специальные алгебраиче- ские выражения.
260 ГЛАВА 6 ' "Ех’-Е*)’ ь„ = YY - =г-ь,х <6-3) п п Как можно предположить, значение углового коэффициента Ь! связано с выборочным коэффициентом корреляции. В данном случае мы имеем следующее. (6.4) 1- Ft—=7 J(X-x) Значит, bi и г пропорциональны друг другу и имеют один и тот же знак. Разности между фактически полученными значениями К и вычисленными по уравне- нию регрессии соответствующими значениями прогнозов Y называются отклонениями. От- клонения — это расстояния по вертикали (положительные или отрицательные) от точек, от- меченных по исходным данным, до прямой регрессии. Справедливо следующее равенство. наблюдение = прогноз + отклонение или, в математических обозначениях, Y = Y+(Y-Y) (6.5) Можно сказать, что величины прогноза являются моделируемыми значениями наших данных, а отклонения показывают отличие от ожидаемой модели. Разделение на прогноз и отклонение применяется и в тех ситуациях, когда рассматривается модель, отличная от прямой линии, и мы будем использовать такой подход в следующих главах. Пример 6.2 С помощью метода наименьших квадратов вычислим оценки коэффициентов регрессии для данных мистера Бампа из примера 6.1 (см. рис. 6.1). Проведем вычисления, используя урав- нения 6.2 и 6.3, а также числовые значения из табл. 6.2. Мы имеем следующее. , 10-149,3-14,4-112 -119,2 ,,СЙ 10-21,56-14,4 8,24 112 / \144 Ьо =----(-14,541—^—= 11,2+14,54-1,44 = 32,14 10 10 Тогда уравнение прямой регрессии, определенное по методу наименьших квадратов, бу- дет иметь следующий вид. Y=bG + bxX (66) Y= 32,14- 14,54.Y Это уравнение называется уравнением регрессии. Мистер Бамп может попытаться раскрыть смысл коэффициентов из этого уравнения. Сво- бодный член Ьо — это значение Y при X, равном нулю. Формально интерпретируя уравнение, получаем, что приХ= 0 (т.е. при нулевой стоимости галлона молока) среднее количество прода- ваемых галлонов будет равно 32 140. Это не соответствует здравому смыслу, так как очевидно,
Простая линейная регрессия 261 что молока будет “продано” гораздо больше, если оно будет раздаваться бесплатно. Данная про- блема связана с прогнозом значений Y для значений X, заметно отличающихся от тех, которые представлены в выборке данных. Так, в нашей выборке нет величин X, близких к нулю. В этой ситуации, как и во многих других случаях применения регрессионного анализа, разумная ин- терпретация свободного члена уравнения регрессии не представляется возможной. В общем случае неразумно прогнозировать значения У для техХ которые лежат вне мно- жества значений переменной X, встречающихся в выборке. Функцию регрессии следует счи- тать подходящей аппроксимацией реальной ситуации только в той области, из которой взяты анализируемые данные. Экстраполяция функции вне этой области возможна только при справедливости достаточно ограничивающего предположения о том, что характер зависимо- сти Y от X при этом не изменяется.1 Угловой коэффициент bt можно интерпретировать как среднее изменение величины Y при возрастании Л' на единицу. В данном примере Y в среднем уменьшается на 14 540 (т.е. бу- дет продано на 14 540 галлонов молока меньше) при возрастании Л' на единицу (т.е. при воз- растании цены галлона на один доллар). Каждое увеличение цены на один доллар уменьшает объем продажи в среднем на 14 540 галлонов, т.е. наша выборка показывает, что увеличение цены на один цент уменьшает количество продаваемых галлонов на 145,4. Связь значений переменных Л' и Y может быть проиллюстрирована на диаграмме рассеивания путем проведения прямой, являющейся наилучшим приближением этой зависимости (рис. 6.2). Рис. 6.2. Прямая регрессии, построенная на диаграмме, пред- ставляющей данные мистера Бампа Обратите внимание на то, что вертикальные отрезки от точек данных до прямой проведе- ны пунктиром. Сумма квадратов длин отрезков, проведенных к этой прямой, должна быть меньше аналогичной суммы квадратов длин, проведенных к любой другой прямой2. Из мето- да наименьших квадратов следует, что данная прямая является наилучшим приближением для заданных 10 точек исходных данных. 1 Подобная ситуация уже имела место, когда в главе 5 обсуждалась возможность экстраполяции кривых тренда для прогноза будущих значений временных рядов. 2 Для данных мистера Бампа сумма квадратов длин равна SSE = 59,14.
262 ГЛАВА 6 Статистические методы могут использоваться при исследовании связи между двумя переменными, когда соответствующие нашим данным точки на координатной плоскости не лежат точно на некоторой прямой, как это и представлено на рис. 6.2. Мы рассматри- ваем точки на плоскости как некоторую выборку наблюдений, отражающих зависимость между значениями в генеральной совокупности переменных Х-Y. Статистическая модель простой линейной регрессии предполагает, что для каждого значения X наблюдаемое значение зависимой переменной Y является нормально распределенной случайной вели- чиной с математическим ожиданием = 0О + линейно зависящим от X. Отсюда сле- дует, что при изменении X математические ожидания возможных значений Y лежат на одной прямой. Эта прямая называется регрессионной прямой совокупности. Наблюдаемые значения Y будут несколько отличаться от этих математических ожиданий в результате влияния неучтенных факторов. Модель предполагает, что всем этим отличиям соответст- вует одно и то же стандартное отклонение о. Величина отклонения (расстояние) между значением Y и его математическим ожиданием называется ошибкой и обозначается е (греческой буквой эпсилон). В модели простой линейной регрессии зависимая величина Y является суммой ее ма- тематического ожидания и случайного отклонения е. Значения е отражают возможную вариацию величин Y, в них скрыто влияние различных ненаблюдаемых факторов. Нали- чие отклонений е — причина того, что точки, соответствующие парам значений Х-Y, не попадают в точности на одну прямую на координатной плоскости. Статистическая модель для простой линейной регрессии схематически показана на рис. 6.3. Рис. 6.3. Статистическая модель для простой линейной регрессии Статистическая модель для прямолинейной регрессии Значения отклика или зависимой переменной Y определяются значениями контроли- руемой или независимой переменной X с помощью следующего уравнения. Г= 0О + IV+ Е Здесь 0о + 01-^ равно математическому ожиданию отклика для данного X. Отклонения Е предполагаются независимыми и нормально распределенными с математическим ожиданием 0 и среднеквадратичным отклонением о. Неизвестными константами яв- ляются 0о, 01 и о.
Простая линейная регрессия 263 Построенную по выборке прямую регрессии Y= Ьо + Ь}Х можно рассматривать как оцен- ку регрессионной прямой совокупности Цр = 0О + PiX а отклонения е = Y- Y — как оценки компоненты погрешностей е. Таким образом, мы имеем следующие соответствия. Совокупность: Цр = Ро + РьУ + е Выборка: Y = Ьо + btX + е Большинство прикладных пакетов статистических и математических программ вклю- чают средства корреляционного и регрессионного анализа. Инструкции по применению Excel для выполнения расчетов в примерах 6.1 и 6.2 даны в разделе “Применение Excel” в конце этой главы. Стандартная ошибка оценки Имея прямую регрессии, мистер Бамп может теперь заинтересоваться оценкой, по- казывающей, насколько сильно точки исходных данных отклоняются от прямой регрессии. Можно выполнить оценку разброса, аналогичную стандартному отклоне- нию выборки. Этот показатель, называемый стандартной ошибкой оценки, демонст- рирует величину отклонения точек исходных данных от прямой регрессии в направ- лении оси Y. Стандартная ошибка оценки обозначается через sy.x и вычисляется по следующей формуле. Стандартная ошибка оценки измеряет степень отличия реальных значений Y от оце- ненной величины Y. Для сравнительно больших выборок следует ожидать, что око- ло 67% разностей У- У по модулю не будет превышать зу.х и около 95% модулей разно- стей будет не больше 2зу х. Стандартная ошибка оценки подобна стандартному отклонению, введенному в гла- ве 2. Ее можно использовать для оценки стандартного отклонения совокупности. Факти- чески sy.x оценивает стандартное отклонение о слагаемого ошибки е в статистической мо- дели простой линейной регрессии. Другими словами, sy.x оценивает общее стандартное отклонение о нормального распределения значений У, имеющих математические ожида- ния jXp = Ро + ₽i-V + £ Для каждого X (рис. 6.3). Малая стандартная ошибка оценки, полученная при регрессионном анализе, свидетель- ствует, что все точки наших данных находятся очень близко к прямой регрессии.’ Если стандартная ошибка оценки велика, точки данных могут значительно удаляться от прямой. Для удобства вычислений уравнение (6.7) можно привести к следующему виду. _ |£у2-л£у-6,1>у (6.8) V п-2 Если точки, соответствующие данным, лежат в точности на регрессионной прямой, то Y=Y для всех Xи sy.х- 0.
264 ГЛАВА 6 Для данных мистера Бампа стандартная ошибка оценки равна следующему. /1488-32,14-112-(-14,54) 1493 /59,14 /ттт „ „„ s = ,--------------------— ---— =.——=J7,39 =2,72 v V 8 V 8 Для величины Y, принимающей значения от 3 до 18 (рис. 6.2), значение sy.x = 2,72 до- вольно велико и указывает, что существенная часть вариации величины Y (количества проданных галлонов) не объясняется изменением величины X (цены). Это утверждение будет исследовано ниже в разделе “Коэффициент детерминации”. Прогнозирование величины Y Регрессионную прямую можно использовать для оценки величины переменной Y при данных значениях переменной X. Чтобы получить точечный прогноз, или предсказание для данного значения X, мы просто вычисляем значение найденной функции регрессии в точке X. Пример 6.3 Предположим, мистер Бамп хочет получить прогноз количества молока, которое будет про- дано при цене 1,63 доллара за галлон. Из уравнения (6.6) имеем К= 32,14- 14,54Jf Y = 32,14 - 14,54(1,63) У =8,44 или 8440 галлонов. Напомним, что данный прогноз — это значение величины Y. Поэтому интере- сующий нас прогноз будет координатой Yточки с координатой X = 1,63 на регрессионной прямой. Конечно, мистер Бамп понимает, что реальные значения величины Y, соответст- вующие рассматриваемым значениям величины X, к сожалению, не лежат в точности на регрессионной прямой. Фактически они разбросаны относительно прямой в со- ответствии с величиной sy.x. Более того, выборочная (построенная нами) регресси- онная прямая является оценкой регрессионной прямой генеральной совокупности, основанной на выборке всего лишь из 10 пар данных. Другая случайная выборка 10 пар данных даст иную выборочную прямую регрессии; это аналогично ситуации, когда различные выборки из одной и той же генеральной совокупности дают раз- личные значения выборочного среднего. Есть два источника неопределенности в точечном прогнозе, использующем уравне- ние регрессии. 1. Неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии. 2. Неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности. Интервальный прогноз значений переменной Y можно построить так, что при этом будут учтены оба источника неопределенности. Стандартная ошибка прогноза sf дает меру вариативности предсказанного значения Y около истинной величины У для данного значения X. Стандартная ошибка прогноза рав- на следующему.
Простая линейная регрессия 265 (х-х) ' £(x-x)’J (6.9) . 11Н 1 -----—: У « £(х-х)' Первое слагаемое под первым радикалом в уравнении 6.9 дает меру отклонения точек данных от выборочной прямой регрессии (первый источник неопределенности). Второе слагаемое измеряет отклонение выборочной прямой регрессии от регресси- онной прямой генеральной совокупности (второй источник неопределенности). Отме- тим, что стандартная ошибка прогноза зависит от значения X, для которого прогнозиру- ется величина У. Также заметим, что минимально, когда X = Х , поскольку тогда чис- литель в третьем слагаемом под корнем в уравнении 6.9 будет (X - Х)2 = 0 * При прочих неизменных величинах большему отличию X от X соответствует большее значение стан- дартной ошибки прогноза. Если статистическая модель простой линейной регрессии соответствует действитель- ности, границы интервала прогноза величины У равны следующему: Y±tsf, (6.10) где/ — квантиль распределения Стьюдента с п-2 степенями свободы (df=n-2.). Если выборка велика (/г >30), этот квантиль можно заменить соответствующим квантилем стандартного нормального распределения. Например, для большой выборки 95%-ный интервал прогноза задается следующими значениями. y±2sz (6.11) Пример 6.4 Графически 95%-ный интервал прогноза значений У для данных мистера Бампа представлен на рис. 6.4. Используя результаты из табл. 6.3 и уравнения 6.9, где X =1,44, найдем стандартную ошибку прогноза в точке X = 1,63. Р - о 70 кд. 1 д. О,63-W4)2 _ _ _ . , _ _ 1 sr = 2,72, И---1----------=2,72-1,069 = 2,91 Z V 10 0,824 Из примера 6.3 известно, что У=8,44 при Х= 1,63. Используя уравнение 6.10, находим 95%-ный интервал прогноза для У: Y+tsf= 8,44 ± 2,306-2,91 = 8,44 ± 6,71 или (1,73; 15,15), т.е. от 1730 до 15 150 галлонов. Здесь 2,306 = Го.огз — это нижний 2,5%-ный квантиль /-распределения с 8 степенями свободы. При выборе X—X прогнозу равен Y = У.
266 ГЛАВА 6 Выборочная Таблица 6.3. Вычисление £(л - л У для примера 6.4 1,30 0,0196 2,00 0,3136 1,70 0,0676 1,50 0,0036 1,60 0,0256 1,20 0,0576 1,60 0,0256 1,40 0,0016 1,00 0,1936 1,10 0.1156 £(Х-Х)2 =0,8240 Интервал прогноза настолько велик, что практически бесполезен для прогнозирования значений величины Y. Это связано с тем, что исходная выборка мала, а значение sf сравни- тельно велико. Степень неопределенности, представленная большим интервалом прогноза, не видна по отдельным точечным прогнозам, полученным из функции регрессии. Значитель- ным преимуществом интервальной оценки является явное отражение неопределенности, связанной с прогнозом.
Простая линейная регрессия 267 Вообще говоря, опасно использовать регрессионную функцию для предсказания зна- чений величины Y вне области имеющихся данных. Мистер Бамп вполне оправданно пытается получить прогноз для величины Y при Х= 1,63, поскольку некоторые из имею- щихся в исходных данных значений Л' близки к 1,63. С другой стороны, нельзя прогнози- ровать значение Y при X = 3,00. Среди исходных данных нет таких больших значений Л', и поэтому любой прогноз значения Y для подобного значения X очень сомнителен5. При попытке оценить количество молока, которое может быть продано по цене 3 доллара за галлон, мистер Бамп должен исходить из предположения, что при подобных значениях цены линейная модель остается верной. У него могут быть определенные причины счи- тать так, однако никаких явных свидетельств этого не существует. Завершим раздел обзором предположений, положенных в основу статистической мо- дели линейной регрессии. 1. Для заданного значения Л' генеральная совокупность значений Y имеет нормальное распределение относительно регрессионной прямой совокупности. Это условие про- демонстрировано на рис 6.3. На практике приемлемые результаты получаются и тогда, когда значения Yимеют нормальное распределение лишь приблизительно. 2. Разброс генеральной совокупности точек данных относительно регрессионной прямой совокупности остается постоянным всюду вдоль этой прямой. Иными словами, при возрастании значений X в точках данных дисперсия генеральной совокупности не увеличивается и не уменьшается. Нарушение этого предположения называется гетероскедастичностью. Пример такой ситуации и методы действий в подобных случаях будут рассматриваться в главе 8. 3. Слагаемые ошибок е независимы между собой. Это предположение определяет случайность выборки точек Х-Y. Если точки данных Х-Y записывались в течение некоторого времени, данное предположение часто нарушается. Вместо независимых данных, такие последо- вательные наблюдения будут давать серийно коррелированные значения. Методы работы в случае серийно коррелированных данных будут рассмотрены в главе 8. 4. В генеральной совокупности существует линейная зависимость междуХ и Y. По ана- логии с простой линейной регрессией может рассматриваться и нелинейная зави- симость между % и Y. Некоторые такие случаи будут обсуждаться ниже в этой главе. Разложение дисперсии Из уравнения 6.5 мы имеем следующее. Y=Y+(Y-Y) или Y=(b0 + biX) + (Y-b0-biX) / Т \ Наблюдаемое значение Y Объясненное линейной Остаток или отклонение от ли- зависимостью нейной зависимости Более того, стандартная ошибка прогноза также будет большой, поскольку значение X = X отно- сительно велико.
268 ГЛАВА 6 В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и зна- чения Y полностью вычисляются или объясняются линейной функцией от X. Отнимая Y от обеих частей предыдущего равенства, имеем следующее. y-F=(r-r)+(r-r) Несложными алгебраическими преобразованиями можно показать, что суммы квад- ратов складываются. + (6.12) ИЛИ SST = SSR + SSE, где 55Т = £(У-У)2 Здесь SS обозначает “сумма квадратов” (Sum of Squares), а Т, R, Е— соответственно “общая” (Total), “регрессионная” (Regression) и “ошибки” (Error). С этими суммами квадратов связаны следующие величины степеней свободы. dj{SST) = п - 1 dflSSR) = 1 dfiSSE) = п-2 Так же, как и суммы квадратов, степени свободы связаны следующим соотношением. п- 1 = 1+ (п -2) (6.13) Если линейной связи нет, Y не зависит от Хи дисперсия Y оценивается значением выбо- рочной дисперсии. Если, с другой стороны, связь междуХ и Y имеется, она может влиять на некоторые раз- ности значений Y. Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую ли- нейной зависимостью. Сумма квадратов ошибок, SSE, — это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью. Разложение дисперсии SST = SSR + SSE Общая изменчи- Изменчивость, Остаток, или вость У объясненная линейной необъясненная зависимостью изменчивость
Простая линейная регрессия 269 Суммы квадратов, связанные с разложением изменчивости Y, и их соответствующие величины степеней свободы могут быть размещены так, как показано в табл. 6.4, извест- ной как таблица анализа дисперсии или таблица ANOVA (ANalysis OfVAriance). Таблица 6.4. Таблица ANOVA для прямолинейной регрессии Источник Сумма квадратов Степени свободы Среднеквадратичное значение Регрессия SSR 1 MSR = SSR/1 Ошибки SSE п-2 MSE = SSE/(n - 2) Общая SST п- 1 Последний столбец таблицы ANOVA— это среднеквадратичные значения. Средне- квадратичное регрессии, MSR, — это регрессионная сумма квадратов, разделенная на их величину степеней свободы. Аналогично среднеквадратичное ошибок, MSE, — это сумма квадратов ошибок, разделенная на их величину степеней свободы. Из уравнения 6.7 имеем следующее: т.е. имеем равенство MSE квадрату стандартной ошибки оценки. Отношение среднеквад- ратичных значений будет использовано для другой цели в этой главе дальше. Пример 6.5 Мистер Бамп начал свой анализ данных с информации об объемах продаж только за 10 недель (переменная У). Если другой информации не поступит, мистер Бамп может использовать выбо- рочное среднее У=11,2 как прогноз количества продаваемого молока для каждой недели. Ошиб- ки или отклонения, связанные с этим прогнозом, равны У-У, и сумма квадратов ошибок дает нам ^(У-у) Отметим, что последнее значение, ^(у-У) , в точности