Текст
                    8
Предисловие
Магистральным направлением развития информационных технологий являет-
ся создание систем искусственного интеллекта. Это интеллектуальные инфор-
мационно-поисковые системы, экспертные системы и другие программные
продукты, оперирующие со знаниями. Формирование знаний, под которым
понимается обработка баз данных с целью перехода к базам знаний, — одна
из самых актуальных проблем на сегодняшний день. Решить указанную про-
блему с помощью известных методов прикладной статистики не удается. Так
где же рвется связь между колоссальным потенциалом этих теорий и реаль-
ными задачами формирования знаний?
В последней главе книги делается попытка объяснить причину подобного
разрыва и наметить путь его преодоления. Он заключается в использовании
специальной локальной геометрии, в которой нет единого пространства при-
знаков и каждый объект существует в собственном пространстве с контекстно-
зависимой метрикой. За счет свойств локальных пространств удается извле-
кать из данных логические закономерности с помощью комбинированного
применения методов линейной алгебры и средств интерактивной графики. За
сказанными словами стоит достаточно элегантная технология, которая в соот-
ветствии с названием книги иллюстрируется содержательными примерами.
В работе над книгой поддержку и большую помощь ценными советами
оказали директор Санкт-Петербургского института информатики и автомати-
зации РАН, профессор Юсупов Р. М. и главный научный сотрудник этого
института, профессор Полонников Р. И. Автор выражает признательность
санкт-петербургской фирме «ИнфоСтрой» (генеральный директор Мирошни-
ков А. И.), являющейся авторизованным дилером статистической графической
системы STATGRAPHICS Plus for Windows, за предоставленную возможность
работы с этим современным программным продуктом. Трудно переоценить
содействие в подготовке книги, которое оказал Блажис А. К., президент на-
учно-производственного предприятия «СПЕКТР» (Санкт-Петербург), зани-
мающегося разработкой и внедрением наукоемких технологий.

ОБЩИЕ СВЕДЕНИЯ ОБЗОР КОМПЬЮТЕРНЫХ СРЕДСТВ ОБРАБОТКИ ДАННЫХ......................................10 ЭВОЛЮЦИЯ DOS-ВЕРСИИ STATGRAPHICS.....................12 Версия 4.0........................................13 Версия 5.0........................................14 Версия 6.0........................................14 Версия 7.0........................................15 STATGRAPHICS PLUS FOR WINDOWS — ОБЩИЕ И УНИКАЛЬНЫЕ СВОЙСТВА...........................17 Гибкий импорт/экспорт данных......................19 Широкие возможности манипулирования данными.......19 Интегрированная графика...........................19 Интерактивная графика.............................21 StatFolio — ваш собственный статистический проект.22 Всеобъемлющая статистическая консультация.........22 Комбинирование текста и графики для составления привлекательных статистических отчетов............23 Поддержка последних технологий....................23
10 Глава 1. Общие сведения Обзор компьютерных средств обработки данных Рынок компьютерных программ обработки данных обширен и разнообразен. На нем предстанлены продукты более тысячи наименований. Такое разнообра- зие отражает многоплановость задач обработки в различных областях челове- ческой деятельности. Обзоры указанных программ приводятся в специальных справочниках, где содержатся краткие описания их назначения, требования к техническим характеристикам компьютера, сведения о дополнительных сер- висных возможностях, цены и адреса фирм-поставщиков. Это весьма объем- ные издания, публикуемые в западной прессе. Информация о последних версиях программ регулярно помещается в по- пулярных компьютерных журналах и газетах типа «PC Magazine», «РС World», «BYTE», «PC Week» и др. Известны аналогичные отечественные публикации. Они представлены, в основном, в журнале «Мир ПК». Назовем, например, следующие статьи: Векслер Л С. «Статистический анализ на пер- сональном компьютере», № 2, 1992; Кулаичев А. П. «Средства и програм- мные системы анализа данных», Ns 10, 1994; Макаров A. A. «STADIA против STATGRAPHICS, или Кто ваш лоцман в море статистических данных», Ns 3, 1992; Кулаичев А. П. «Пакеты для анализа данных», № 1, 1995; Дюк В. А., Мирошников А. И. «Эволюция STATGRAPHICS», № 12, 1995 и другие. Ценные сведения о компьютерных системах обработки данных можно почерпнуть в уже упоминавшейся во введении книге А. А. Макарова и Ю. Н. Тюрина «Анализ данных на компьютере». В приложении к этой книге дается классификация программного обеспечения в области анализа данных, рассматриваются требования к статистическим пакетам общего назначения, характеризуются особенности российского рынка, приводится краткий обзор наиболее популярных программ и предлагаются рекомендации по их выбору. Также немало полезной информации содержится в словаре-справочнике: Ин- форматика в статистике, выпущенном в 1994 году издательством «Финансы и статистика». Вместе с тем необходимо отметить, что значительная часть публикуемой информации быстро устаревает. Это связано со стремительными темпами раз- вития отрасли На рынке программного обеспечения в условиях жесткой кон- куренции происходит процесс консолидации, и положение на сегодняшний день заметно отличается от ситуации, скажем, трехлетней давности. Возглав- ляют процесс консолидации (как недавно сказал Jack Noonan, президент кор- порации SPSS) те,’ кто может предложить наилучший продукт и сделать это быстрее всех Для тех же, кто испытывает трудности при переходе к новым операционным системам, процесс объединения оказывается фатальным. При- мер такой консолидации — слияние SPSS с фирмой SYSTAT и приобретение в январе 1996 года корпорацией SPSS одного из крупнейших конкурентов, фирмы BMDP Statistical Software Inc. На рынке математического обеспечения в эпоху больших компьютеров ли- дировали несколько статистических пакетов — BMDP, SAS и SPSS. Это объ- яснялось тем, что фирмы-разработчики достаточно быстро реагировали на
Обзор компьютерных средств оброботки донных 11 достижения в области обработки данных и ими был накоплен большой запас прочности, позволивший далеко оторваться от конкурентов. С появлением персональных компьютеров, новых языков программирования и технологий лидировавшим фирмам пришлось решать сложную задачу: создавать пакет для ПК заново или адаптировать уже существующую программу к требовани- ям «маломощных» компьютеров. Вместе с тем богатые графические возмож- ности ПК дали шанс менее известным фирмам сравнительно быстро создать новые, ныне очень популярные программные средства анализа данных. В этот период появился пакет STATGRAPHICS (STATistical GRAPHICS System) фирмы Manugistics. Он настолько выигрышно отличался от других статисти- ческих пакетов удобством пользовательского интерфейса, что завоевал огром- ную популярность и в дальнейшем задал основные ориентиры для развития всей индустрии в целом. За последние годы, наконец, появились Windows- версии наиболее известных статистических систем. А корпорации SPSS и Manugistics выпустили версии для Windows 95/NT и продолжают наращи- вать огромный потенциал своих систем. Отслеживать трансформацию рынка программ обработки данных помога- ют периодически проводимые отечественные и международные семинары и конференции по анализу данных. Ниже (табл. 1.1-1.3) приводятся сведения об этом рынке, представленные сотрудником НКЦ «Тренд» (Санкт-Петер- бург) Сережиной В. Г. на Международной конференции «Статистическое об- разование в современном мире: идеи, ориентации, технологии», 3—5 июля 1996 г., Санкт-Петербургский университет экономики и финансов. Таблица 1.1. Классификация статистических пакетов ‘Типь1 •?<’ Отечественные г Зарубежные'. / П рофессиональные Нет SAS, BMDP Универсальные STADIA, Olymp STATGRAPHICS, SPSS STATISTICA, S-PLUS Специал изированн ые Mesosaur, DataScope, Класс-Мастер, Эвриста, САНИ Большое многообразие Таблица 1.2. Зарубежные статистические пакеты Название Р^раббтчрйсх^; Дилер?» России/' // Телефон Дилера;'.?,7- S-PLUS Math.Soft Inc. Нет Нет SYSTAT SPSS Inc. Стат, системы и сервис 095-125-0069 SPSS SPSS Inc. Стат, системы и сервис НКЦ «Тренд» 095-125-0069 812-428-4282 STATISTICA Stat. Soft Softline 095-126-9065 095-232-0023 STATGRAPHICS Manugistic Inc. ИнфоСтрой 812-312-2673 812-315-3334 SAS SAS Inst. ИНТУ 095-255-2012 Visual Numerics Visual Numerics Стат. Диалог 095125-2131 Выбор пакета для обработки данных зависит от характера решаемых за- дач, объема обрабатываемого материала, квалификации пользователей, имею- щегося оборудования и т. д. [Тюрин Ю. Н., Макаров А. А., 1995].
12 Глоео 1. Общие сведения Таблица 1.3. Отечественные статистические пакеты Название Разработчик Дилер Телефон дилера 1) Мезозавр 2) САНИ 3) Класс- мастер СТАТ-ДИАЛОГ СТАТ-ДИАЛОГ 095-125-2131 Эвриста Центр стат. исслед. МГУ Центр стат, исслед. МГУ 095-939-1796 DataScope (СИГАМД) СтатПойнт СтатПойнт 095-235-2767 Olymp РОСЭКСПЕРТИЗА РОСЭКСПЕРТИЗА 095-188-0220 STADIA Информатика и компьютеры Информатика и компьютеры 095-437-3695 SIGN ИМТ МГУ ИМТ МГУ 095-939-2473 Статистик- консультант Тандем, Петрозаводск ИМТ МГУ 095-939-2473 Для пользователей, имеющих дело со сверхбольшими объемами данных или узкоспециализированными методами анализа, пока нет альтернативы профессиональным западным пакетам. Среди них самыми широкими возмож- ностями обладает SAS. Для создания собственной системы обработки данных можно обратиться к библиотеке IMSL, содержащей сотни тщательно и квали- фицированно составленных статистических подпрограмм. Несколько меньшими возможностями обладают универсальные пакеты. Вместе с тем, их стоимость значительно ниже, чем профессиональных. При приобретении такого пакета не мешает, однако, лишний раз убедиться, что он содержит требуемые методы обработки. Все универсальные пакеты имеют много пересечений по составу статисти- ческих процедур. Кроме того, современные версии программ обладают, как правило, модульной структурой, что позволяет существенно экономить сред- ства. Windows-интерфейс последних версий пакетов во многом унифицирует взаимодействие пользователя с аналитическими, графическими и системными процедурами. Основные отличия кроются, главным образом, в цене. Кроме того, по-разному организован диалог. Функциональное наполнение ^пакетов также может варьироваться. Здесь, по мнению автора, в лучшую сторону от- личается STATGRAPHICS Plus for Windows. Именно поэтому' практические примеры обработки данных, составляющие содержание настоящей книги, по- строены с использованием универсальной статистической графической системы STATGRAPHICS Plus for Windows. Эволюция DOS-версии STATGRAPHICS Статистический графический пакет STATGRAPHICS, разработанный амери- канской корпорацией Manugistics (до 1 мая 1992 года называвшейся Scientific Time Sharing Corp.) для IBM-совместимых компьютеров, по признанию мно- гих авторитетных журналов (.Infoworld, Software Digest и др.) является на сегодняшний день одной из наиболее эффективных систем статистического анализа данных. Столь высокую оценку STATGRAPHICS заслужил главным образом благодаря удачному соединению научных методов обработки разно-
Эволюция DOS-версии STATGRAPHICS 13 типных данных с современной интерактивной графикой. Этот альянс подкре- плен широкими возможностями взаимодействия с другими программными продуктами (электронными таблицами, базами данных) и периферийными устройствами. Дружественный интерфейс и тщательно отшлифованная доку- ментация способствуют быстрому освоению пакета как специалистами в области математической статистики, так и представителями других сфер дея- тельности (бизнеса, производства, экономики, медицины, химии, биологии, психологии и др.). В DOS-версию пакета включено более 250 процедур обработки данных по следующим разделам математической статистики: • Анализ вариаций (дисперсионный анализ) • Анализ временных рядов • Дескриптивная (описательная) статистика • Контроль качества • Многомерный анализ • Непараметрический анализ • Планирование эксперимента • Подбор распределений • Прогнозирование • Разведочный анализ • Регрессионный анализ В России STATGRAPHICS хорошо известен; давно и интенсивно при- меняется. Пользователи пакета знакомы в основном с его ранними версиями, имевшими свободное распространение. Самая популярная версия 3.0 была создана еще в 1988 году. С тех пор пакет модернизировался почти ежегодно и в более поздних версиях претерпел значительные изменения. Кратко охарак- теризуем их. Версия 4.0 В версии 4 .0 введены средства автоматизации рутинных и повторяющихся процедур статистического анализа. Стало возможным инициализировать с помощью горячих клавиш до 20 отдельных операций и задавать порядок вы- полнения комплексных процедур макросами, в которых подробно описывает- ся весь ход работы, начиная с импорта файлов и заканчивая выдачей твердой копии выходного документа. В макросы можно включать паузы, полезные подсказки (например, о необходимости включить принтер), процедуры про- верки корректности используемых данных. Применение средств автоматизации позволило значительно сократить вре- мя, затрачиваемое на комплексный анализ данных, и поручить его проведение менее опытному персоналу. В версии 4.0 имеются и другие новшества: • введен оператор EVAL, с помощью которого можно оперативно отобра- жать результаты работы процедур анализа данных в исполнительном окне,
14 Глоео 1. Общие сведения что позволяет осуществлять текущий контроль промежуточных результа- тов перед их дальнейшим использованием; • введена новая опция, позволяющая при графическом отображении катего- риальных переменных размешать числовые значения меток оси X в не- сколько рядов, чтобы избежать их наложения; • в более общем виде реализована процедура быстрого преобразования Фу- рье; • появилась возможность распечатки нескольких текстовых отчетов на од- ной странице; • более гибкой стала процедура включения в пакет собственных программ анализа данных, написанных на языке APL*PLUS. Допускается и обрат- ная ситуация — STATGRAPHICS может служить библиотекой аналитиче- ских и графических функций для прикладных программ. Версия 5.0 В этой версии значительные изменения претерпел раздел планирования экспе- римента. Пользователю предоставляется полный каталог стандартных вари- антов дробных планов и процедур конструирования поверхностей отклика, а также возможность создавать свои собственные варианты и процедуры. Кроме того, новый редактор позволяет формировать разнообразные рабочие таблицы, распечатывать их и использовать для сбора экспериментальных данных. Улучшен раздел дисперсионного анализа; процедура многофакторного дисперсионного анализа стала допускать выборочное исключение и добавле- ние взаимодействий любого порядка. В данной версии пакета полностью была переработана документация. Она включила три основных руководства, дополненных инструкцией по инсталля- ции и кратким справочником. Версия 6.0 Эта версия представлена в двух вариантах пакета STATGRAPHICS (для ПК с процессором 286) и STATGRAPHICS Plus (для ПК с процессором 386 и выше). В оба варианта впервые введена поддержка манипулятора «мышь». Использование мыши, простой и удобный графический интерфейс сделали процесс взаимодействия с программой по-настоящему интерактивным. Щелч- ком мыши устанавливаются и изменяются атрибуты элементов изображения (например, цвет, размер, толщина линий), выбирается тип графического ото- бражения из 50 имеющихся, производится вращение отображений в трехмер- ном пространстве, а также изменение масштаба, меток точек, надписей и пр. Манипулируя мышью, стало возможным оперативно получать дополнитель- ную информацию о точках на графиках, удалять отдельные объекты или их группы и сразу видеть, как изменяется геометрическая конфигурация данных в соответствии с перерассчитанными параметрами выбранной модели анализа.
Эволюция DOS-версии STATGRAPHICS 15 STATGRAPHICS Plus работает в пять раз быстрее своего собрата. В этом варианте практически сняты ограничения на объем анализируемой ин- формации. При оперативной памяти 4 Мбайт можно работать с таблицами, содержащими до 70 000 данных. С увеличением оперативной памяти расши- ряется и допустимый размер обрабатываемой таблицы. В 1992 году компании Manugistics и SPC совместно разработали интер- фейсный модуль SPCTime Saver для связи пакета STATGRAPHICS с систе- мой контроля качества и анализа данных. С появлением этого модуля стало возможным использование STATGRAPHICS для обработки эксперименталь- ных данных в реальном масштабе времени. В версии 6.0 вновь была переработана документация: добавлено описание базовых процедур, выполняемых с помощью мыши, приведены примеры по всем разделам пакета в сопровождении необходимых таблиц и графических материалов. Версия 7.0 Главная цель разработки этой версии — сделать пакет максимально удобным в использовании на производстве, за пределами исследовательских институтов и научных лабораторий. Наибольшие изменения претерпели разделы пла- нирования эксперимента, регрессионного анализа, контроля качества, а также работа с макросами. В разделе планирования эксперимента упрощены процедура описания компонентов и смесей, выбор дробного плана, подготовка и распечатка рабо- чих таблиц и ввод данных. Процедура проведения регрессионного анализа стала более «интеллек- туальной». Теперь для ее выполнения достаточно перечислить используемые переменные и задать критерий качества регрессии. Программа сама просмот- рит возможные регрессионные модели и упорядочит их в соответствии с за- данным критерием (например, по коэффициенту детерминации). В разделе контроля качества расширены возможности работы с данными, распределения которых не подчиняются нормальному закону. Помимо этого в версии 7.0 усовершенствован механизм работы с матрица- ми, значительно развиты процедуры комбинирования графики и сетевые сред- ства пакета, разрешен прямой импорт файлов из электронных таблиц Excel. Подводя итог, можно отметить, что с момента выхода первой версии STATGRAPHICS эволюцию претерпели почти все основные составляющие пакета. Однако наибольшие изменения произошли в интерфейсе пользовате- ля, который и раньше в выгодную сторону отличался от других аналогичных программных продуктов. Графические изображения, несущие информацию об анализируемых данных, представляют собой эффективное средство воздейст- вия на образное мышление исследователя. Интерактивная компьютерная гра- фика усиливает это воздействие, позволяя подбирать наиболее выгодные ракурсы и формы, подчеркивающие важные особенности экспериментального материала и результатов его обработки. Именно в этом заключалась основа популярности DOS-версий STATGRAPHICS, которая получила дальнейшее развитие в версиях STATGRAPHICS для Windows. В табл. 1.4 приведены ба- зовые этапы эволюции STATGRAPHICS.
16 Глава 1 Общие сведения Таблица 1.4. Краткая история STATGRAPHICS Годы Версии Характеристика 1980-1982 STATGRAP111CS/VM Математическое обеспечение по статистике па APL для IBM 1983 Версия 83.1 Первая версия для IBM PC. Разработана Statistical Graphics Corporation (SGC) 1985 Версия 1.0 Разработка фирмы SGC. Маркетинг корпорации STSC 1986 Версия 2.0 Доступ к процедурам и функциям программы осуще- ствляется через иерархическую систему меню 1987 Версия 2.6 Разработаны новые графические драйверы, улучшен редактор данных, упрощены процедуры импорта фай- лов 1988 Версия 3.0 Усовершенствованы процедуры контроля качества, се- тевые возможности, процедура инсталляции 1989 Версия 4.0 Введены средства автоматизации выполнения опера- ций: горячие клавиши и макросы 1991 Версия 5.0 Усовершенствованы процедуры дисперсионного анали- за и планирования эксперимента 1992 STATGRAPinCS и STATGRAPHICS Plus версии 6.0 Реализована поддержка мыши, разработан новый графический редактор. Существенно повышены скорость и объем обрабатываемых данных 1993 Версия 7.0 Расширен раздел планирования эксперимента, усо- вершенствованы регрессионный анализ и процедуры контроля качества 1994 STATGRAPHICS Plus for Windows, Версия 1 0 Первая версия для работы под управлением ОС Win- dows 1995 Версия 2.0 Введена экспертная консультационная система Stat Ad- visor 1996 Версия 2.2 Разработан дополнительный модуль «Расширенный регрессионный анализ» STATGRAPHICS 7.0 fc>- Коротко о - продукте: программный Клокет? дпя^стотистического, анализа**.; ^.'.данных- ,•-•,•?* '' Ч’Х’4'.‘ё ' '''""" 5?М ' Требо ния к оборудован : ПК с процессором 286, МО- КбМ; ОЗУ ».; 6,1 Мбайт дискового.’просфанства (при поставке с* по--’' >нпенг£м набором’ К 6,Мбайт дискового/пространство (при поставке’с’пагп^пенным-набором ’ 1 математических, функци^/^фрфический одопте, рабе ты в;-сети' -PQ^-З.З ^выше). ^-7 . , , тЖНУ Цена:, 1095 ; долл.,Широкая система ^скидок, дця учетныхнаучно-йссл^.-4;^ довстельскйХ организаций•>;Monugisfcs, . Inc., тел^^дилера ’в С.-Петербурге/ ь (812) 312-2673. с - " 'д'- *1'Х£яНННВВнь * - - . • ' Коротко о - продукте: 'про ровный пакет для статистического анализа ЕДонных>-й1»»к^*--?*?я»: *«• с й~мрйй--^нй^ Требования к оборудованию: ПК c.rrpotjeccX’poM 386 и выше;. 4 J$6oifr ОЗУ, дисков^ пространство - 8,5 МЙйт, графики адаптер, -рексце^у, .» ется математически^ сопроцессор, * 1 .- Цена: 1695-^долл. Широкая рюгема скидок'для учебных и сучно-цссяе доватёльских организаций- ^Mc^ugistiqs Inc., 5ге.т дилера .в'^С. Петфб ге: ' Ш19Г<19-9Х7Я Л
STATGRAPHICS Plus for Windows — общие и униюльные свойство 17 STATGRAPHICS Plus for Windows — общие и уникальные свойства В 1994 году корпорации Manugistics и Stastical Graphics выпустили в свет первую (а в конце 1995 года — вторую) версию универсальной статистиче- ской графической системы STATGRAPHICS. Унаследовав все наиболее ценное от версий для MS-DOS, о которых сказано в предыдущем разделе, в STATGRAPHICS на основе возможностей ОС Windows развиты предыдущие достижения и добавлены уникальные средства, обеспечивающие переход на качественно новый уровень в работе с экспериментальными данными. При этом Windows-интерфейс STATGRAPHICS способен удовлетворить самого взыскательного специалиста STATGRAPHICS Plus for Windows включает более 250 статистических и системных процедур, применяющихся в бизнесе, экономике, маркетинге, ме- дицине, биологии, социологии, психологии, на производстве и в других областях. По сравнению с DOS-версией статистические процедуры более про- двинуты и по-иному сгруппированы, а весь пакет в целом имеет модульную структуру. Каждой группе соответствует собственное меню. В базовой системе функ- ционируют следующие процедуры: • Меню Describe (рис 1.1) содержит статистические методы анализа по од- ной и множеству переменных, процедуры подбора распределений, средства табуляции и кросс-табуляции данных; • Меню Compare включает методы сравнения двух и более выборок данных, процедуры одно- и многофакторного дисперсионного анализа; • Меню Relate содержит процедуры простого, полиномиального и множест- венного регрессионного анализа. Как видим, в базовую систему включен достаточно полный набор наибо- лее часто встречающихся видов статистического анализа данных. В то же время для расширения возможностей системы предлагаются дополнительные модули, инициализация которых осуществляется через меню Special. К ним относятся: • модуль «Контроль качества? предназначен для сщ^нки эффг всех звеньев производственного процесса и формирования соответствую- щих контрольных карт В модуле прекрасно организованы процедуры для конструирования Парето-карт, анализа возможностей процесса и построе- ния X и R контрольных карт. Тесная связь с базовой системой STAT- GRAPHICS Plus for Windows обеспечивает доступ к полному набору ста- тистических методов Представляется, что процедуры контроля качества реализованы наилучшим образом. • Модуль «Планирование эксперимента» помогает сформулировать крите- рий оптимальности плана эксперимента, подобрать наилучший план, орга- низовать сбор и обработку требуемой информации. При работе с этим модулем пользователю не стоит беспокоиться, много или мало ему извест- - но о планировании эксперимента. В модуле предлагаются эффективные
18 Глава 1. Общие сведения способы упрощения и интеграции знаний об исследуемом процессе. Проце- дура взаимодействия с модулем следующая: определение факторов; выбор плана; генерация рабочей таблицы для сбора и записи данных; подбор мо- дели; интерпретация результатов. Все вместе позволяет уменьшить время исследования, снизить общие затраты и в целом повысить производитель- ность. • Модуль «Анализ временных рядов» содержит описательные методы, процедуры сглаживания рядов, сезонной декомпозиции и прогнозирования. Данный модуль помогает увидеть чистую картину динамических данных. Целесообразно начать работу с описательных методов, чтобы получить первое визуальное представление. Затем можно сделать более точное опи- сание динамического ряда, учитывая сезонные эффекты, циклические из- менения, тренды, ошибки, выбросы или точки излома в ваших данных. Результаты представляются в табличной форме или на удобных для вос- приятия графиках. Гис. 1.1. Меню uescriue сооержшп метооы анализа по виной и множеству переменных, процедуры подбора распределений, табуляции и кросстабуляции данных Если приходится иметь дело с данными из области финансов, STAT- GRAPHICS Plus for Windows предоставляет возможность определить опти- мальное управление капиталом. А если требуется преобразовать данные для лучшей подгонки модели, то для этого существует широкий спектр встроен- ных функций, например преобразования Бокса-Кокса В модуле предусмот- рена также возможность автоматического учета инфляционных факторов! • Модуль «Многомерные методы» предназначен для изучения и раскрытия взаимоотношений множества факторов (переменных). Если пользователь
STATGRAPHICS Plus for Windows — общие и уникольные свойство 19 занимается исследованиями в физике, социологии, медицине или других областях, где объекты исследования характеризуются большим числом признаков, данный модуль поможет сортировать и группировать данные, определять отношения между переменными, выдвигать и проверять раз- личные гипотезы. Для этого в модуле функционирует пять мощных про- цедур, обеспечивающих проведение Кластерного анализа, анализа по методу Главных Компонент, Факторного, Дискриминантного и Канониче- ского Корреляционного анализа. • Расширенный регрессионный анализ, кроме базисных процедур регрес- сионного анализа, включает различные калибровочные модели, процедуры сравнения линий регрессии, отбора наилучших регрессионных моделей, нелинейную множественную регрессию, ридж-регрессию и логистическую регрессию. Требуется ли создать комплексную модель множественной рег- рессии, или рассмотреть и оценить лабораторные методы, или просто по- пытаться выбрать лучшую регрессионную модель — все это представлено в прекрасно организованном модуле расширенного регрессионного ана- лиза. Все перечисленные выше модули интегрируются в систему и полностью наследуют ее свойства. Модульная структура STATGRAPHICS Plus for Win- dows позволяет пользователю приобретать только то, что ему необходимо. Учитывая сравнительно невысокую стоимость базовой системы (например, по отношению к известному пакету SPSS), это позволяет существенно сэконо- мить средства. Из множества свойств STATGRAPHICS Plus for Windows выделим и оха- рактеризуем следующие. Гибкий импорт/экспорт данных Система обеспечивает связь со всеми Windows-приложениями посредством OLE и DDE. Кроме того, файлы Windows- и DOS-версий полностью совмес- тимы между собой, и система без проблем обменивается данными с другими программными продуктами, использующими Lotus, dBASE, DIF, DBF и ASCII файлы. Широкие возможности манипулирования данными Управление данными организовано удобным и целесообразным способом (рис. 1.2). Легко доступные из редактора данных или из окна ввода данных опции преобразования предоставляют широкий набор возможностей сорти- ровки данных и трансформации переменных, для чего предназначено бо- лее 100 операторов. При этом производимые манипуляции не изменяют содержимого исходных файлов. Интегрированная графика Каждая статистическая процедура в STATGRAPHICS Plus for Windows со- провождается интегрированной в систему отличной графикой (рис. 1.3).
20 Слова 1. Общие сведения Рис. 1.2. STATGRAPHICS Plus for Windows располагает широкими возможностями сортировки и преобразования данных Рис. 1.3. Все элементы графических отображений результатов анализа могут быть преобразованы Щелкнув мышью на специальной пиктограмме, мы получаем меню, в котором предоставляется выбор графических отображений, релевантных используемой
STATGRAPHICS Plus for Windows — общие и уникальные свойство 21 процедуре. Все элементы графических отображений (масштабы, метки, цвета, надписи и пр.) могут быть подвергнуты коррекции и преобразованию. Для этого нужно выбрать требуемый элемент, щелкнув на нем левой кнопкой мы- ши, и затем щелкнуть правой кнопкой. Тогда на экране появится окно диало- га, в которое вносятся необходимые изменения. Интерактивная графика Интерактивная графика всегда была одной из самых сильных сторон STATGRAPHICS. Windows-интерфейс еще более повышает ее эффективность (рис. 1.4). Один щелчок мышью — и вы можете моментально идентифициро- вать точку на графическом отображении и выяснить ее местонахождение в файле данных. STATGRAPHICS Plus for Windows позволяет пользователю взаимодействовать с данными посредством графики любым мыслимым спосо- бом. Графика в системе становится аналитическим инструментом, а не только Рис. 1.4. Функция окраски (brushing) точек на диаграммах рассеивания в соответствии со значениями какой-либо переменной средством презентации. Например, можно вращать и рассматривать с разных сторон трехмерные изображения или осуществлять разгонку (jittering) точек на диаграммах рассеивания. Ценную возможность лучше «прочувствовать» структуру данных предоставляет функция окраски (brushing) точек на диа- граммах рассеивания в соответствии со значениями какой-либо переменной. Быстрое и легкое исследование экспериментальных данных с помощью средств интерактивной графики делает процесс анализа увлекательным, сти- мулирующим интуицию и воображение.
22 Глава 1. Общие сведения StatFolio — ваш собственный статистический проект В STATGRAPHICS Plus for Windows реализовано уникальное средство для сохранения результатов работы и создания собственных статистических проектов. Кажется, это не может быть сделано нагляднее и рациональнее Все, что пользователь считает ценным в своем варианте анализа (выбранные методы, параметры статистических процедур, виды графических отображений результатов анализа, табличные формы, комментарии и т. п.), он может со- хранить в виде нового файла StatFolio. Если возникает потребность в обра ботке другого множества данных по составленной схеме анализа, нужно просто загрузить новый файл данных. Результаты расчетов, таблицы и графи- ки будут выданы автоматически. StatFolio отображает технологическую цепочку анализа данных в виде набора пиктограмм. Отпала необходимость писать макросы, что значительно повышает продуктивность работы при подготовке и реализации статистических проектов. Статистический проект может быть обозначен в основных чертах искушенным профессионалом и затем передан менее опытному персоналу. Рис. 1.5. StatAdvisor дает исчерпывающие консультации по всем видам статистического анализа данных Всеобъемлющая статистическая консультация В STATGRAPHICS Plus for Windows введено мощное средство, помогающее новичку стать экспертом, а специалисту — еще более повысить свое мастерст- во в прикладной статистике. Я имею в виду StatAdvisor (Статконсультант) (рис. 1.5). Он предоставляет интерпретацию результатов, определяет значи- мые эффекты и выявляет возможные изъяны в проведенном анализе. Проце-
STATGRAPHICS Plus for Window — общие и уникальные свойство 23 дура получения консультации исключительно проста. Нужно щелкнуть мы- шью на интересующем графическом или табличном окне STATGRAPHICS и затем на пиктограмме StatAdvisor. Появляется консультационное окно, в ко- тором содержатся исчерпывающие, легко воспринимаемые советы, разъясне- ния и рекомендации. Если к этому добавить высокий уровень документации STATGRAPHICS, написанной ясным языком, подробной, с тщательно разо- бранными примерами по всем видам анализа данных, то нужно сказать, что Windows-версия пакета может служить превосходным учебным пособием по прикладной статистике. Фактически StatAdvisor представляет собой интеллектуальную эксперт- ную систему интерпретации результатов статистического анализа, аккумули- рующую знания высоко квалифицированных специалистов в этой тонкой и многогранной предметной области. Необходимость таких систем уже давно обсуждается в научной литературе (см., например, Айвазян С. А., Еню- ков И. С., Мешалкин Л. Д. и др. Прикладная статистика. В 3-х томах. М.: Финансы и статистика, 1983-1989). Однако до сих пор существующим паке- там по прикладной статистике были присущи лишь слабо выраженные интел- лектуальные свойства. Теперь можно констатировать, что в STATGRAPHICS Phis for Windows сделан важный шаг в данном направлении. Комбинирование текста и графики для составления привлекательных статистических отчетов Во всех версиях STATGRAPHICS большое внимание уделялось инструментам для составления отчетной документации. В последней версии STATGRAPHICS Plus for Windows комбинирование текста и графики осуществляется с помо- щью специального нововведения — инструмента StatGallery. Теперь стало возможным произвольно располагать в одном окне или на одном листе до 9 различных фрагментов текста и графических иллюстраций При этом транс- формация и перемещение всех составляющих отчета производятся быстро и просто. Поддержка послед........... STATGRAPHICS Plus for Windows способен работать не только в системе Windows 3.x, но также и под Windows 95 или Windows NT. В пакете активно используются все достижения и преимущества современных операционных систем, начиная от 32-разрядного кода, поддержки OLE и кончая длинными именами файлов. Это обеспечивает высокую скорость обработки и легкий об- мен данными со всеми другими Windows-приложениями. Подводя итог, следует отметить, что приведенные сведения далеко не пол- ностью отражают все возможности анализа данных, которые предоставляет Windows-версия STATGRAPHICS и которые заслуживают более подробного рассмотрения. Но, думается, уже из кратких характеристик основных свойств становится ясно, что описываемый программный продукт приобрел новое качество. Работать с ним стало гораздо удобнее, проще и эффективнее. Ваш
24 Глава 1. Общие сведения труд становится увлекательным и, что очень важно, стимулирующим творче- ское мышление и интуицию. Данная оценка STATGRAPHICS Plus for Windows подтверждается ре- зультатами активного обсуждения статистических программных продуктов, которое проводилось 3-5 июля 1996 года в Санкт-Петербурге на международ- ной научно-практической конференции «Статистическое образование в совре- менном мире: идеи, технологии, ориентации». Специалисты, принявшие участие в этой конференции, по достоинству оценили уникальные свойства - STATGRAPHICS в его современной модификации и констатировали, что этот пакет заслуживает широкого использования в научных и практических целях, а также может быть весьма полезен в качестве учебного пособия по приклад- ной статистике STATGRAPHICS Plus for Windows Version 2 Коротко о продукте: Программный покат .для статистического анализа Гт. ’• данных. . ' ' s»' Требования к оборудованию: ПК с процессором 386 и. выше; 8 Мбайт fe, ОЗУ; ОС Windows З.х/9.5Д4Т;; дисковое Пространство г-, 14.5 Мбайт^Буфь.^ R графический адаптер; рекомендуется'математический сопроцессор; Цена: Базовая системе — $749. Модули (Контроль Качества, Планирование Эксперимента, Анализ Временных Рядов, Многомерный Анализ) >— $44? каж- дь:й. Вся система с полным набором модулей — $1699. Гибкая политика, ски--- i док для научных и учебных организаций. Manugistics, Inc., тел дилера .в , С.-Петербурге: (812) 315-3334.. "
БАЗОВАЯ СИСТЕМА СТАТИСТИЧЕСКИХ ПРОЦЕДУР ОСНОВНЫЕ ХАРАКТЕРИСТИКИ........................27 Графические отображения данных.............27 Описание данных (Describe).................27 Сравнение данных (Compare).................29 Отношения данных (Relate)..................30 ОБЩИЕ СВЕДЕНИЯ О РАБОТЕ С БАЗОВОЙ СИСТЕМОЙ......31 Ввод данных................................32 Технология взаимодействия со статистическими и графическими процедурами...................34 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ: ВЗАИМОСВЯЗЬ ПОКАЗАТЕЛЕЙ ЭФФЕКТИВНОСТИ ПРОИЗВОДСТВА.........37 ПРОСТАЯ РЕГРЕССИЯ: ОПРЕДЕЛЕНИЕ ПОСТОЯННОЙ ХАББЛА.........................................40 ПОЛИНОМИАЛЬНАЯ РЕГРЕССИЯ: ЗАВИСИМОСТЬ ДЕФИЦИТА КРОВИ ОТ ГЕМАТОКРИТА..................45 МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ВЗАИМООТНОШЕНИЯ ПОКАЗАТЕЛЕЙ ПРОИЗВОДСТВА.......................47 ПОШАГОВАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ВЗАИМОСВЯЗЬ ПСИХИЧЕСКОГО И БИОЛОГИЧЕСКОГО......50 Ввод и преобразование данных...............52
Построение модели множественной регрессии для всех переменных................................55 Пошаговый отбор переменных................55 Резюме....................................59 ДИСПЕРСИОННЫЙ АНАЛИЗ: ВЛИЯНИЕ ВОЗРАСТА И СТАЖА РАБОТНИКОВ НА ПРОИЗВОДИТЕЛЬНОСТЬ ~ ТРУДА.........................................60
Основные хороктеристики 27 Основные характеристики В базовой системе STATGRAPHICS Plus for Windows функционируют сле- дующие процедуры: • Меню Describe содержит статистические методы анализа по одной и мно- жеству переменных, процедуры подбора распределений, средства табуля- ции и кросстабуляции данных; • Меню Compare включает методы сравнения двух и более выборок данных, процедуры одно- и многофакторного дисперсионного анализа; • Меню Relate содержит процедуры простого, полиномиального и множест- венного регрессионного анализа. Ниже приводится подробный список доступных статистических и графиче- ских процедур. Графические отображения данных Диаграммы рассеивания • Одномерные X-Y. К ним относятся: линии, диаграммы рассеивания, оци- фрованная диаграмма, связанные диаграммы рассеивания, графики с наборами стандартных ошибок X-Y-Z, диаграмма рассеивания X—Y—Z, чертежный график, переплетенные графики. • Множественные X-Y: точки или линии. • Множественные X-Y-Z. Разведочные графики Здесь есть следующие категории: • График «ящик с усами»: горизонтальный и вертикальный, усеченный, с внешними обозначениями, с маркерами средних. • Графики вероятностей. • Частотные гистограммы: относительные и кумулятивные, гистограмма или полигон. Деловые карты К ним относятся: • Графики: горизонтальные и вертикальные, множественные, кластерные, процентные. • Круговые диаграммы: с вырезанными частями, с надписями. Описание данных (Describe) Анализ одной переменной • Суммарные статистики: среднее, медиана, мода, среднее геометрическое, дисперсия, стандартное отклонение, стандартная ошибка, минимум, мак-
28 Глово 2. Базовой система статистических процедур симум, размах, нижний квартиль, верхний квартиль, межквартильный размах, коэффициент асимметрии, нормированный коэффициент асиммет- рии, коэффициент эксцесса, нормированный коэффициент эксцесса. • Процентили. • Табуляция частот: отношения или кумуляты. • График «дерево с листьями». • Доверительные интервалы. • Проверка гипотез: о среднем и медиане, Т-тест, знаковый тест, знаковый ранговый тест. • Диаграмма рассеивания. • График «ящик с усами». • Гистограмма. • Квантильный график. • График нормального распределения. • График плотности. • Симметричный график. Анализ множества переменных • Суммарные статистики. • Доверительные интервалы. • Корреляции: ранговые Спирмена, частные корреляции. • Ковариации. • Диаграммы рассеивания. • График «звезда». • График «солнечные лучи». Подбор распределения • Встроенные распределения: экспоненциальное, экстремальных значений, лог нормальное, нормальное, Вейбулла. • Проверка на нормальность: скорректированный хи-вадрат, тест Шапиро- Уилкса, тесты для малых выборок. • Тесты согласия: Хи-квадрат, Колмогорова-Смирнова. • Площади остатков. • Критические значения • Плотности. • Симметричные графики. • График нормального распределения. • График распределения Вейбулла. • Частотная гистограмма
Осноеные хороктеристики 29 • Функции распределения: плотность, распределение кумуляты, функция выживаемости, логарифм функции выживаемости, функция риска. Табулирование • Таблица частот: отношения и кумуляты. • Прямоугольные диаграммы. • Круговые диаграммы. Кросстабуляция • Таблица частот. • Критерий хи-квадрат. • Измерения связи: лямбда, коэффициенты неопределенности, R Пирсона, D Сомера, Эта, коэффициент контингеиции, V Крамера, условный Гамма, Тау Кендалла. • Прямоугольные диаграммы • Мозаичные отображения: горизонтальные и вертикальные. • Трехмерная диаграмма: частот или процентов. Сравнение данных (Compare) Сравнение двух выборок • Суммарные статистики. • Сравнение средних: Т-тест, доверительные интервалы. • Сравнение стандартных отклонений: отношение дисперсий, F-тест, дове- рительные интервалы. • Сравнение медиан: тест Манна-Уитнея (Вилкоксона). • Тест Колмогорова-Смирнова. • Гистограммы частот. • Плотности распределений. • Сравнительные графики «ящик с усами». • Графики квантилей. • Графики Квантиль-Квантиль. Сравнение множества выборок • Суммарные статистики. • Таблица дисперсионного анализа: сумма квадратов, средний квадрат, F-отношение. • Таблица и график средних: стандартные ошибки, доверительные интерва- лы, наименьшие значимые различия (LSD), Тьюки HSD, Шеффе, Бон- ферони. • Множественные ранговые тесты: LSD, Тьюки HSD, Шеффе, Бонферони, Ньюмена-Кеулса, Дункана.
30 Глсео 2. Базовая система статистических процедур • Соответствие дисперсий: тест Кокрена, тест Бартлетта, тест Хартлея. • Тест Краскала-Уоллиса. • Диаграммы рассеивания. • Сравнительные графики «ящик с усами». • Остатки для выборок. • Остатки для прогнозов. • Остатки для наблюдений. Однофакгорный дисперсионный анализ • Суммарные статистики. • Таблица дисперсионного анализа. • Таблица и графики средних. • Множественные ранговые тесты. • Анализ дисперсии. • Тест Краскалла-Уоллиса. • Диаграмма рассеивания. • График «ящик с усами». • Остатки и уровни фактора. • Остатки и описания. • Остатки и номер строки. Многофакторный дисперсионный анализ • Таблица дисперсионного анализа: сумма квадратов, тип I; сумма квадра- тов, тип III. • Таблица средних. • Множественные ранговые тесты. • Диаграмма рассеивания. • Графики средних. • Графики взаимодействий. • Остатки и уровни факторов. • Остатки и описания. • Остатки и номера строк. Отношения данных (Relate) Простая регрессия • Модели: линейная, экспоненциальная, обратная Y, обратная X, дважды обратная, логарифм X, мультипликативная, квадратный корень X, квад- ратный корень Y, S-кривая, логистическая, логарифм вероятности. • Т-статистики.
Общие сведения о роботе с бозовой системой 31 • Анализ дисперсии: коэффициент корреляции, R-квадрат, стандартная ошибка оценки. • Прогнозы. • Сравнение альтернативных моделей. • Необычные остатки. • Точки влияния. • График подобранной модели: описание и доверительные интервалы. • Наблюдения и описания. • Остатки и X: остатки, стьюдентизированные остатки • Остатки и описание. • Остатки и номер строки. Множественная регрессия • Коэффициенты модели. • Т-статистики. • Анализ дисперсии: R-квадрат, скорректированный R-квадрат, стандартная ошибка, средняя абсолютная ошибка, статистика Дурбина-Ватсона. • Условная сумма квадратов: сумма квадратов, средний квадрат, F-otho- шение. • Доверительные интервалы. • Корреляционная матрица. • Отчеты: наблюдаемый Y, подогнанный Y, остатки, стьюдентизированные остатки, стандартные ошибки и прогнозы, доверительные границы. • Необычные остатки. • Точки влияния. • Компонентные эффекты. • Наблюдения и описания. • Остатки и X. • Остатки и описания. • Остатки и номер строки. • Интервальные графики: описываемые величины, средние, прогнозы, про- гнозы средних. Общие сведения о работе с базовой системой Вид экрана после инициализации STATGRAPHICS Plus for Windows пред- ставлен на рис. 2.1. Набор кнопок в верхней части окна предназначен для открытия готовых статистических проектов StatFolio и записи новых проектов, для открытия файлов данных и их сохранения, для вывода результатов статистического
32 Гг.оео 2. Бозовоя системе статистических процедур анализа на печать, а также для вызова некоторых статистических и графиче- ских процедур. Эти же операции можно осуществить, войдя в меню File, Edit, Plot, Describe, Compare, Relate и Special. Внизу экрана расположен набор пиктограмм, связанных со следующими операциями (слева направо): 1. Работа с электронной таблицей; 2. Получение консультации у статистической экспертной системы StatAdvi- sor; 3. Вызов окна StatGallery; 4. Ввод комментариев к проводимому статистическому анализу. Рис. 2.1. Вид жрана STATGRAPHICS (начало работы) Так как многие операции будут детально рассмотрены при разборе при- кладных примеров, ниже излагаются только самые общие сведения о техйо- логии взаимодействия с пакетом, которые тем не менее дают достаточную ин- формацию для того, чтобы начать самостоятельною работу. Ввод данных Инициализируем новую электронную таблицу, задействовав соответствующую пиктограмму (Untitled) в левом нижнем углу рабочего поля (рис. 2.2). Эта таблица организована таким образом, что ее строкам должны соответ- ствовать объекты (наблюдения), а столбцам — признаки. В остальном работа с ней напоминает обращение с другими известными электронными таблицами для Windows типа Lotus, Excel и т. д. Вместе с тем имеются определенные особенности, связанные со спецификой статистического анализа.
Общие сведения о роботе с бозоеой системой 33 Рис. 2.2. Электронная таблица STATGRAPHICS Phis Для именования переменных (признаков) и задания их типа нужно мар кировать требуемую колонку и щелкнуть правой кнопкой мыши. Появится контекстное меню, в котором следует выбрать команду Modify Column. Ноя вится одноименное окно диалога (рис. 2.3). Рис. 2.3. Панель модификации колонки Преобразование переменных и генерация новых признаков осуществляется аналогичным образом: маркируется необходимая колонка и щелчком правой
34 Глава 2. Бозоеоя система статистических процедур кнопки мыши вызывается контекстное меню, из которого выбирается Gener- ate Data (рис. 2.4). В появившемся окне диалога можно производить ариф- метические, логические и другие манипуляции с переменными посредством более 100 предоставляемых операторов. Рис. 2.4. Панель для генерации новых данных Для импорта/экспорта данных из других электронных таблиц под Win- dows используется системный буфер обмена. При этом имеется одна сущест- венная особенность: маркировка нужной области электронных таблиц должна осуществляться только путем буксировки мыши по диагонали выделяемой части таблицы. После заполнения таблицы для задания имени и сохранения файла данных требуется выбрать команду File | Save Data File As, ввести имя файла и на- жать ОК. После этой операции в заголовке таблицы появится указанное имя. Оно же будет использоваться в дальнейшем и на пиктограмме файла данных. Бчлем считать, что данные подготовлены к статистическому анализу. Те- перь ль> .и ляции с ними будут отражаться в результатах обработки, но никоим образом не отразятся на содержимом сохраненных файлов данных. Технология взаимодействия со статистическими и графическими процедурами Технология взаимодействия с различными статистическими и графическими процедурами пакета во многом стандартизирована, что делает ее удобной для быстрого восприятия и обучения. Продемонстрируем это на простом примере анализа одной переменной. Откроем файл данных Cardata, в котором представлены характеристики автомашин различных марок. Выберем Describe | Numeric Data | One Variable Analysis |. Появится окно для задания анализируемой переменной. Пусть это будет переменная horsepower — мощность автомобиля в лошадиных силах (рис. 2.5). Наж- мем ОК На экране появится рабочее поле анализа одной переменной со сводкой, в которой констатируется, что: изучается переменная horsepower; число наблю-
Общие сведения о роботе с бозоеой системой 35 дений (объектов) равно 151; значения данной переменной распределены в пре- делах от 48 до 165. В верхней части рабочего поля расположены кнопки, с по- мощью которых можно изменять входные данные, выбирать табличные и графические опции и сохранять результаты анализа в файле данных. В нашем случае были установлены следующие флажки: Summary Statistics (общие статистики), Box-and-Whisker Plot (график «ящик с усами»), Frequency Histogram (гистограмма частот) (рис. 2.6). Рис. 2.5. Окно для задания переменных Рис. 2.6. Результаты анализа переменной horsepower Окна, в которых отображаются табличные и графические результаты, раскрываются на все рабочее поле двумя щелчками мыши. После раскрытия достаточно щелкнуть правой кнопкой мыши, чтобы получить доступ к специ-
36 Главе 2. Базовой системе статистических процедур альным меню и иметь возможность задать новые параметры графических изображений или произвести какие-либо изменения и дополнения в текущем анализе данных. Например, в нашем случае, если раскрыть окно общих ста- тистик и щелкнуть правой кнопкой мыши, то на экране возникает окно диало- га (рис. 2.7), в котором можно заказать необходимые изменения в наборе выдаваемых статистик. Для изменения элементов графических изображений нужно раскрыть тре- буемое графическое окно, выделить элемент, подвергаемый трансформации, и щелкнуть правой кнопкой мыши. Затем остается только заказать желаемое изменение в окне диалога. Рис. 2.7. Флажки для задания общих статистик Таким образом, вся процедура статистического анализа данных находится, по выражению разработчиков STATGRAPHICS, как бы «на кончиках ваших пальцев». Все трансформации производятся быстро через удобные и понятные окна диалога. Это, в свою очередь, способствует включению игровой компо- ненты и делает увлекательной самую серьезную и ответственную работу по статистическому анализу. Для того чтобы повторить весь проведенный анализ переменной horse- power на новом массиве данных, не прилагая никаких усилий по заданию табличных и графических опций, нужно сохранить анализ в виде файла StatFolio. Для этого производятся стандартные операции File | Save StatFo- lio As (задание имени статистического проекта). Теперь остается только за- грузить новый файл данных File | Open Data File (имя файла данных) и вызвать .записанный статистический проект File | Open StatFolio (имя проекта). Все заданные таблицы и графические отображения будут выданы автоматически, г Продемонстрированная на простом примере анализа одной переменной технология взаимодействия со статистическими, графическими и системными процедурами пакета характерна и для других более изощренных и сложных видов обработки информации. Она, конечно, может несколько отличаться в зависимости от специфики применяемых процедур, но в целом достаточно стандартна. Подробности будут представлены в следующих разделах, посвя- щенных рассмотрению практических примеров прикладного статистического анализа данных.
Корреляционный онолиз: взоимосвязь покозотелей эффективности производство 37 Корреляционный анализ: взаимосвязь показателей эффективности производства Корреляционным анализом называется многообразие методов исследования параметров генеральной совокупности, распределенной по нормальному за- кону. Корреляционный анализ позволяет с помощью выборки делать выводы о степени статистической связи (мера связи) между признаками. Известно большое количество мер связи между признаками. Они отлича- ются как объемом вычислений, так и теми корреляционными аспектами, кото- рые отражают. Можно выделить две представительные группы таких мер. В первой используется принцип ковариации, а во второй — принцип со- пряженности признаков. Исходя из первого принципа, заключение о наличии связи между переменными делается в том случае, если увеличение значения одной переменной сопровождается устойчивым увеличением или уменьшением другой. Вторая обширная группа мер связи направлена на выяснение сле- дующего факта: появляются ли некоторые значения одного признака одновре- менно с определенными значениями другого чаще, чем это можно объяснить случайным стечением обстоятельств. В STATGRAPHICS Phis for Windows реализованы процедуры вычисления мер связи как первой, так и второй группы. Они указаны в списке статистиче- ских процедур (см. «Основные характеристики»). Ниже будет рассмотрен пример с использованием самой распространенной меры статистической ли- нейной связи между признаками — коэффициента корреляции Пирсона. В примере используются данные, полученные из годовых отчетов десяти предприятий: Y — себестоимость товарной продукции (млн. руб.), х! — объ- ем валовой продукции (млн. руб.) и х2 — производительность труда (тыс. руб. на чел.). Данные заимствованы из книги «Информатика в стати- стике: Словарь справо'шш. '?!.. Финансы и —•™"' ,пп'' Раскрываем окно электронной таблицы и ьииди.ч -ыс обозначения переменных последовательно маркируем колонки и щелчком пра- вой кнопки мыши вызываем меню, из которого выбираем пункт Modify Co- lumn, где вводим нужные имена. Затем сохраняем файл с данными под име- нем factory. Получаем таблицу, представленную на рис. 2.8. Сворачиваем таблицу данных в пиктограмму и выбираем Describe | Nu- meric Data (числовые данные) | Multiple-Variable Analysis (анализ множест- ва переменных). На экран выдается окно для ввода переменных. Выделим здесь все три доступные переменные Y, х1 и х2, нажатием кнопки со стрелкой вводим их в анализ и подтверждаем готовность щелчком кнопки ОК. Появля- ется рабочее поле анализа множества переменных со сводкой, в которой под- тверждается, что три переменные (по 10 наблюдений в каждой) приняты к обработке. Нажимаем кнопку табличных опций (вторая слева в нижнем ряду) и вы- бираем Correlations. На экран выдается таблица корреляций (рис. 2.9). В данной таблице первое число является коэффициентом корреляции Пирсона, второе (под первым) представляет количество наблюдений, а третье — уро- вень значимости.
38 Глово 2. Базовоя система статистических процедур Рис. 2.8. Таблица данных по годовым отчетам предприятий Рис. 2.9- Корреляционная матрица
Корреляционный онолиз: взоимосвязь покозотелей эффективности производство 39 Из полученных данных следует, что очень сильная положительная связь наблюдается между переменными Y (себестоимость товарной продукции) и х1 (объем валовой продукции). Степень доверия к этой связи, исходя из уровня значимости, почти стопроцентная. Другие связи менее выражены, но, однако, заслуживают внимания, так как доверие к ним более 90% (р<0,1). Это отрицательная связь Y с х2 (произ- водительность труда) и отрицательная связь х1 и х2. Все выявленные связи имеют понятную трактовку. Вместе с тем есть смысл взглянуть на диаграммы рассеивания на плоскостях, образуемых раз- личными парами переменных. Для этого нажмем кнопку графических опций (третья слева в нижнем ряду) и установим флажок (рис. 2.10) Scatterplot Matrix (матрица рассеиваний). Получаем графическое отображение, пред- ставленное на рис. 2.11. Рис. 2.10. Графические опции в анализе множества переменных Рис. 2.11. Результаты корреляционного анализа с графическим отображением результатов
40 Глава 2. Базовая система статистических процедур Для пытливого взора полученные графики могут составить предмет размышлений. Ведь, как следует из диаграмм Y-x2 и х!-х2, предприятия не образуют однородной массы, а, видимо, расслаиваются на две группы. Для одной связь производительности труда и себестоимости сильная и отрицатель- ная, а для другой, хотя тоже по виду отрицательная, но значительно слабее. А это уже говорит об определенных особенностях в деятельности предприятий второй группы. Конечно, для серьезных выводов пока нет достаточных оснований — объем выборки слишком мал. Вместе с тем дополнение результатов корреля- ционного анализа графическими отображениями данных дает импульс к про- ведению дальнейших исследований. Простая регрессия: определение постоянной Хаббла Процедура простой регрессии заключается в нахождении аналитического вы- ражения для связи двух переменных X и Y. Модели простой регрессии, пре- дусмотренные в STATGRAHICS Plus for Windows, представлены в табл. 2 1. Таблица 2.1. Модели простой регрессии Тип модели Связь -г/' _%е Линейная Y = а + Ь*Х Экспоненциальная Y = ехр(а + Ь*Х) Обратная по Y Y = l/(a + b‘X) Обратная по X Y = а + Ь/Х Дважды обратная Y = 1/(а + Ь/Х) Логарифм по X Y = а + 1п(Х) Мультипликативная Y = а*Х"Ь Квадратный корень по X Y = а + b*sqrt(X) Квадратный корень по Y Y = (а + Ь‘Х)"2 S-кривая Y = ехр(а + Ь/Х) Логистическая Продемонстрируем процедуру поиска модели простой регрессии на приме- ре оценки постоянной в законе Хаббла. Сведения для этого примера почерп- нуты из работы Ю. Н. Тюрина и Г. И. Симоновой «Знаковый анализ линей- ных моделей // Обозрение прикладной и промышленной математики» (М.: изд во ТВП, 1994). Американским астрономом Хабблом в 1929 году было обнаружено, что га- лактики удаляются от Земли тем быстрее, чем дальше они расположены. Также им было установлено, что скорость удаления пропорциональна рас- стоянию. Коэффициент этой пропорциональности получил название постоян- ной Хаббла. О его точном значении в астрономии продолжается дискуссия, хотя сама идея линейной зависимости признана безусловно. В настоящее вре- мя указанное явление истолковывается как свидетельство расширения все- ленной. Данные, которые мы подвергнем анализу, представляют собой расстояния от Земли (в миллионах световых лет) и скорости удаления (в сотнях миль в секунду) 11 галактик (табл. 2.2).
Простоя регрессия: определение постоянной Хаббла 41 На рис. 2.12 отображены анализируемые измерения. Визуально рассмат- риваемые точки не лежат на одной прямой, но располагаются приблизительно вдоль некоторого направления. Таблица 2.2. Исходные данные г Условное название L галактики >- Расстояние ' Скорость - , . ' Дева 22 7.5 Пегас 68 24 Персей 108 32 Волосы Вероники 137 47 Большая Медведица 1 255 93 Лев 315 120 Северная Корона 390 134 Близнецы 405 144 Волопас 685 245 Большая Медведица 2 700 260 Гидра 1100 380 Расстояние Скорость Рис. 2.12. Графическое представление данных о созвездиях Раскрыва, ктронную таблицу STATGRAPHICS и заносим в нее пред- ставленные выше измерения. Последовательно выделяем колонки и после на- жатия правой кнопки мыши выбираем из контекстного меню Modify Column. В предлагаемом окне диалога задаем имена переменных: distance (расстоя- ние) и speed (скорость). Вносим также в таблицу условные названия га- лактик. После проделанных операций сохраняем файл данных под именем Hubble: File | Save Data File As. Вызываем процедуру построения моделей простой регрессии: Relate | Simple Regression. В появившемся окне диалога (рис. 2.13) выделяем снача- ла переменную distance и вводим ее в поле анализа Y нажатием кнопки со стрелкой, а затем переменную speed в поле анализа X. Нажимаем ОК. На экран выдается рабочее поле процедуры простой регрессии со стати- стической сводкой применительно к линейной модели (рис. 2.14).
42 Глава 2. Базовая система статистических процедур Как следует из полученной сводки построена очень неплохая модель, сильно коррелирующая с экспериментальными наблюдениями (коэффициент корреляции 0.9986). Исходя из модели, угол наклона (slope) составляет 2.82 — а это и есть постоянная Хаббла. Рис. 2.13. Окно диалога для ввода данных в процедуру построения моделей простой регрессии Рис. 2.14. Сводка результатов построения линейной модели Для графического отображения результатов нажимаем кнопку графи- ческих опций (третья слева в нижнем ряду кнопок). На экране появляется окно диалога с доступными в данной процедуре графическими вариантами (рис. 2.15). Устанавливаем флажки Plot of Fitted Model (график подобран- ной модели) и Residual versus X (график остатков). Нажимаем ОК. Получа- ем следующие картинки (рис. 2.16). Обращает на себя внимание нижний график остатков. Полученная кар- тинка призывает задуматься, так как напрашивается наличие какой-то перио-
43 Простоя регрессия: определение постоянной Хоббло дической компоненты в анализируемых измерениях. Является ли она следст- вием использованном технологии измерений или имеется другая причина — тут есть повод для поиска объяснений. В целом же мы подтвердили гипотезу Хаббла о линейной зависимости ско- рости удаления звезд от их расстояния до Земли и получили значение посто- янной Хаббла, хорошо согласующееся с известными данными. Вместе с тем, для иллюстрации дополнительных возможностей STATGRAPHICS проделаем следующие операции. Рис. 2.15. Варианты графического отображения Рис. 2.16. Графические отображения результатов регрессионного моделирования Нажмем кнопку табличных опций (вторая слева в нижнем ряду кнопок) и установим флажок Comparison of Alternative Models (сравнение альтерна- тивных моделей). Нажмем ОК. Получаем таблицу, в которой представлены результаты анализа для всех типов зависимостей Y от X, упорядоченные по коэффициенту корреляции с экспериментальными наблюдениями (рис. 2.17). Оказывается, что линейная модель занимает только третье место по каче- ству аппроксимации экспериментальных наблюдений. На первое место вышла модель с дважды обратным преобразованием, а второе место захватила муль-
44 Главе 2. Базовой система статистических процедур тппликативиая модель. Однако их преимущество столь незначительно, что вряд ли стоит здесь гнаться за иллюзорной точностью в ущерб лаконичности гипотезы линейного расширения Вселенной. Хотя, кто знает? У модели с два- жды обратным преобразованием стандартная ошибка оценки составляет всего 0.000514, а у линейной модели эта величина значительно больше — 18.325 Взгляните и сравните сами (рис. 2.18). В11В1ВГ1И ?|f/| Cbtf Conparison of Alternative Models £ к § Model Correlation R-Squared Double reciprocal 0.9993 99.86% Multiplicative 0.9987 99.74% Linear 0.9986 99.72% Square root-Y 0.9780 95.65% Square root-X 0.9691 93.91% Exponential 0.8834 78.04% Logarithmic-X 0.8727 76.16% S-curve -0.8709 75.85% 1 Reciprocal-X -0.5690 32.38% Reciprocal-Y <no fit> ;> Logistic <no fit> Log probit <no fit> <: Рис. 2.17. Результаты сравнения альтернативных моделей Regression Analysis - Double reciprocal model: Y = 1/(a + b/X) Dependent variable: distance Independent variable: speed Standard T Parameter Estimate Error Statistic P-Value Intercept 0.0000329097 0.000107572 0.175451 0.B646 Slope 0.339005 0.00426554 79.6627 0.0000 Analysis of Variance Sum of Squares Df Mean Square F-Ratlo P-Value Model * 0.00160104 1 0.00163154 6346.14 0.0000 0.00000236515 Total (Corr.) 0.00160422 10 Correlation Coefficient - 0.999292 R-squared “ 99.0504 percent Standard Error of Est. - 0.000514790 Puc. 2.18. Сводка регрессионного анализа для модели с дважды обратным преобразованием
Полиномиольноя регрессия: зовисимость дефиците крови от гемотокрито 45 Полиномиальная регрессия: зависимость дефицита крови от гематокрита Процедура полиномиальной регрессии позволяет находить аналитические выражения связи двух переменных Y и X в виде степенного полинома Y=ao+aiX1+a2X2+...+anXn. STATGRAPHICS Plus for Windows предоставляет возможность строить такие полиномы вплоть до восьмой степени. В качестве примера используем данные эксперимента по исследованию связи между дефицитом циркулирующей крови при острой желудочно- кишечной геморрагии язвенной этиологии, Y (мл), и гематокритной величиной X (в %). Раскроем таблицу данных и введем в нее следующие экспериментальные замеры (сведения об эксперименте почерпнуты из пособия — Григорьев С. Г., Левандовский В. В., Перфилов А. М., Юнкеров А. И. STATGRAPHICS на персональном компьютере. СПб, 1992). Данные приведены ниже в табл. 2.3. Таблица 2.3. Таблица данных Дефицит цирк, крови — Y (мл) Гематокритная величина — X (%) 2200 22 1600 25 700 30 400 40 1100 30 800 39 700 30 1100 39 1100 26 1800 23 Выделим последовательно колонки в таблице данных и, вызвав с помо- щью правой кнопки мыши окно диалога Modify Column, зададим имена пере- менных Y и X. Войдем в меню Relate и выберем пункт Polynomial Regression. В предос- тавленном окне введем в соответствующие поля имена анализируемых переменных. Нажмем ОК. На экран выдается сводка построенной модели регрессии первого порядка (рис. 2.19). Как следует из сводки, получена довольно неплохая регрессионная модель. Об этом свидетельствуют достаточно высокий коэффициент детерми- нации R-квадрат (58.2%), низкое р-значение (0.01) по результатам дисперси- онного анализа модели (Analysis of Variance) и другие показатели, например средняя абсолютная ошибка (Mean absolute error). Графическое отображение результатов, которое мы задаем, нажав третью кнопку слева в нижнем ряду кнопок и установив флажок Plot of Fitted Model, показано на рис. 2.20. Визуально модель первого порядка также вы- глядит вполне удовлетворительно, хотя, если внимательно приглядеться, не- которые сомнения вызывают отдельные точки, не попадающие внутрь 95% доверительной области (она обозначена пунктирной линией). Поэтому попро-
46 Глсео 2. Бозовоя системе статистических процедур буем построить полиномиальную регрессионную модель более высокого второ- го порядка. Рис. 2.19. Результаты построения модели первого порядка Рис. 2.20. Графическое отображение модели первого порядка Нажмем правую кнопку и в появившемся меню выберем Analysis Options. Затем на возникшей панели зададим порядок модели 2 и нажмем ОК. На эк- ран выдается новая сводка (рис. 2.21).
Множественная регрессия: взаимоотношения показателей производство 47 Рис. 2.21. Результаты модели второго порядка Видно, что модель второго порядка обладает лучшими статистическими свойствами, чем модель первого порядка. Об этом говорят значения коэффи- циента детерминации (82% против 58.2%), средней абсолютной ошибки (189.7 против 299.6), p-значение дисперсионного анализа (0.0022 против 0.01) и другие статистические показатели. Автоматически, после того как было задано построение модели второго порядка, вместе с содержанием табличной сводки будет изменено графическое отображение результатов полиномиальной регрессии (рис. 2.22). Судя по виду полученного графика, выявляется занятный факт — в об- ласти значений гематокритной величины от 31 до 37 прекращается сопутст- вующее уменьшение дефицита циркулирующей крови, а от 38 и выше отмечаем изменение знака зависимости исследуемых параметров. Этот факт может послужить отправной точкой для проведения дополнительных исследо- ваний и, возможно, выяснения новой интересной закономерности. Множественная регрессия: взаимоотношения показателей производства Предметом множественного регрессионного анализа является установление статистической зависимости среднего значения одной случайной величины Y от
48 Глово 2. Бозовоя системе статистических процедур нескольких других величин Xj, Х2, Хп. Эта статистическая зависимость находит свое выражение в уравнении Y = а0 + atXt + а2Х2 + ... + апХп, где a- (i = 0,п) — искомые параметры. STATGRAPHICS Phis - Untitled Si al Folk» (Polpmnnidl Regression - Y versus X) 4 fgFfe fcft Plot ЕмаЬе Ponpae flriate' Special' У»» yfrjo»; .„ , , . -^<;.'г=\4^,<.’.^Г615Я н |Л|Т| .|в|щ|0»ад ?1 Л Ю : □ -Г— ЛЮ Usetheri^t mouse button tbwfectcpticns ’ * .; \ J . .'INUM Puc. 2.22. График зависимости для модели второго порядка В качестве примера используются те же данные, что и в разделе «Корре- ляционный анализ: взаимосвязь показателей эффективности производства» (там же описана процедура подготовки данных к анализу). Это — сведения, полученные из годовых отчетов десяти предприятий: Y — себестоимость то- варной продукции (млн. руб.), XI — объем валовой продукции (млн. руб.), Х2 — производительность труда (тыс. руб. на чел.). Вызываем меню Relate | Multiple Regression (множественная регрессия). Заполняем с помощью выделения и стрелок поля в окне множественной рег- рессии (рис. 2.23): Y заносим в поле Depended Variable (зависимая перемен- ная), а XI и Х2 в поле Independed Variables (независимые переменные). Нажимаем ОК. Получаем сводку проведенного анализа (рис. 2.24). Вызываем StatAdvisor и читаем его сообщение. В нем говорится, что по- строена модель Y = 2.88 + 0.72 XI - 1.51 • Х2. Отмечается, что взаимоотно- шения переменных, зафиксированные в модели, являются статистически значимыми на 99% доверительном уровне. В соответствии со значением стати- стики R-квадрат указывается, что модель отражает 97.8% изменчивости пере-
Множестьенноя регрессия, взоимоотношения покозотелей производство 49 •ценной Y, а скорректированный R-квадрат с учетом степеней свободы (что яв- ляется более подходящим для сравнения моделей с разными количествами пе- ременных) составляет 97.15%. Стандартная ошибка равна 0.704, и ее можно использовать в задании границ предсказания для новых наблюдений. Средняя абсолютная ошибка, представляющая собой среднюю величину остатков, со- ставляет 0.503. Рис. 2.23. Окна диалога для задания переменных Рис. 2.24. Сводка множественного регрессионного анализа Для визуальной проверки качества построенной модели нажмем кнопку графических опций и вызовем график Observed versus Predicted (наблю- дения — предсказания). Исходя из этого графика (рис. 2.25), а также пре- дыдущих количественных статистических показателей заключаем, что постро- енная модель заслуживает доверия и зафиксированные взаимоотношения могут быть подвергнуты дальнейшей содержательной интерпретации.
50 Глово 2. Базовая система статистических процедур Рис. 2.25. Графическое отображение множественной регрессии Пошаговая множественная регрессия: взаимосвязь психического и биологического Пошаговая множественная регрессия применяется для минимизации количест- ва независимых переменных, входящих в исследуемую модель. Известно мно- го подходов к такой минимизации. В базовой системе STATGRAPHICS Plus for Windows реализованы две наиболее популярные процедуры: последова- тельное увеличение и последовательное уменьшение группы независимых переменных. Рассматриваемый пример относится к одной из наиболее важных и инте- ресных проблем современных научных исследований. Соотношение сознания и вещественного мира — одна из ключевых про- блем современной науки. Представление о Вселенной как гигантской супер- машине, собранной из бесчисленных отдельных объектов и существующей независимо от наблюдателя, отошло в „прошлое. Новые модели Вселен- ной предполагают, что связующим принципом в космической сети выступа- ет сознание — первичный атрибут существования. Ряд известных физиков (Ю. Вигнер, Д. Бом, Дж. Чу, Ф. Капра, А. Янг и др.) высказываются за включение сознания в качестве неотъемлемой и главной части будущей гло- бальной теории материи. На гЬоне эвочюции идей о структуре мира биологические : психологиче- ские исследования выглядят, может быть, менее масштабно, но не менее весомо. Их основные темы концентрируются около фундаментальной задачи изучения взаимосвязей различных уровней биоорганизации: ген — клетка — организм — психика. Раскрытие данных взаимосвязей, кроме локальных це- лей, призвано в конечном счете дать ответ на вопрос о биологической обу- словленности психики и о свободе воли как важнейшей составляющей индиви- дуального сознания.
Пошоговся множественной регрессия: взоимосвязь психическо о и биологического 51 Известно много достижений, например, психофизиологии, описывающей связи физиологических процессов в организме с проявлениями психического, нейропсихологии (о зависимостях между особенностями функционирования нейронных ансамблей и психическими свойствами), генетической психологии (о наследовании различных черт характера, темперамента, психических забо- леваний) и др. Вместе с тем накопленные сведения основаны на различных теоретических базах, экспериментальных технологиях, описаны на разных на- учных языках и пока не поддаются междисциплинарному обобщению, не го- воря уже об интеграции с современными космологическими теориями. Всеобщие законы подобия между предметами и явлениями умели находить восточные мыслители. Их философские концепции, ориентированные на мо- дель «Человек во Вселенной», легли в основу теоретических и практических положений медицины, которые были изложены в многочисленных трактатах (например, китайские «Ней-цзин», «Хуай нань-цзы», тибетский медицинский трактат «Жуд-Ши» и др.). В этих трудах отмечается, что организм человека нужно рассматривать как единое целое, и между работой сердца, центральной нервной системой и внутренними органами человека существует тесная связь. Говорится о влиянии внутренних органов человека на его нравственные черты и описываются связи между некоторыми психическими свойствами и состоя- нием внутренних органов. Таким образом, на качественном уровне связи элементов организма чело- века с его психическими свойствами были известны уже давно. Однако коли- чественное выражение подобных связей стало возможным лишь в наши дни благодаря соединению ряда обстоятельств. Во-первых, к ним относится модернизация восточных знаний по акупунк- турной диагностике организма человека и развитие технических средств измерений в биологически активных точках (БАТ), в частности средств элек- тропунктурной диагностики. Во вторых, важным обстоятельством является современный уровень психодиагностических тестов, позволяющий с достаточ- но высокой точностью и надежностью проводить психологические измерения. И в третьих, извлечение закономерностей из результатов электропунктурных и психологических измерений стало возможным на основе развитой техноло- гии компьютерного многомерного анализа данных. Направление исследований взаимосвязей соматического профиля человека, определяемого методами электропунктурной диагностики, с его психологиче- скими характеристиками получило название электропунктурной психодиагнос- тики. Ниже приводятся сведения об одном из последних экспериментов в этой области. Испытуемыми были студенты (мужского пола, возраст 20-22 года) Санкт- Петербургского государственного технического университета. У каждого из них проводилось измерение электрокожного сопротивления с помощью авто- матизированного комплекса рефлексотерапевта «АКРО» в 24 биологически активных точках (12 слева и 12 справа), являющихся проекциями отдельных органов (табл. 2.4). Кроме того, каждый студент тестировался по психологи- ческой методике Шмишека-Мюллера, диагностирующей 10 акцентуаций ха- рактера (табл. 2.5).
52 Глава 2. Базовая система статистических процедур Таблица 2.4. Наименование и обозначение репрезентативных точек Обозначения Канал Точка Р легкие 9-1 тай-юань GI толстый кишечник 5-II яи-си Е желудок 42—III чун-яп RP селезенка З-IV тай-бай С сердце 7-V шэнь-мэнь IG тонкий кишечник 4-VI вань-гу V мочевой пузырь 65-VII шу-гу R почки 3-VI1I тай си МС перикард 7-IX да-лин TR тройной обогреватель 4-Х ян-чи VB желчный пузырь 40-XI цю-сюй F печень З-ХП тай-чуи Таблица 2.5. Диагностируемые психологические свойства № п/п Название акцентуации Краткая характеристика 1 Гипертимность активность, энергичность, оптимистичность, с высо- ким жизненным тонусом 2 Застревание длительное переживание одних и тех же чувств, уп- рямость, сопротивление изменениям 3 Эмотивность богатство эмоциональных реакций, изменчивость на- строения 4 Педантичность приверженность к определенному порядку, плохое переключение на новое в деятельности 5 Тревожность ощущение неблагополучия, внутренней напряженно- сти 6 Циклотимность периоды ровного настроения чередуются с подъемами и субдепрессивными фазами 7 Демонстрати вн ос ть эгоцентричность, стремление постоянно быть в центре внимания 8 Возбудимость агрессивность, упрямство, самолюбие, обидчивость 9 Дистимность частые и длительные изменения настроения в сторону его снижения 10 Экзальтированность склонность приходить в состояние восторженного возбуждения по незначительным поводам и впадать в отчаяние под влиянием разочарования Ввод и преобразование данных Откроем окно таблицы данных и введем следующие результаты измерений электрокожного сопротивления в биологически активных точках (табл. 2.6 и 2.7) у 14 студентов. Затем введем в эту же таблицу данные психологического тестирования (табл 2.8). Как уже отмечалось, удалось построить статистически значимые регресси- онные модели практически для всех акцентуаций характера. При этом в моде- ли входили результаты измерения ЭКС как фоновые, так и после нагрузки. В то же врем г значительный интерес имеют новые переменные, представляющие
Поияговоя множественная регрессия: взаимосвязь психического и биологического 53 собой отношения фона к нагрузке. Для создания таких переменных произве- дем следующие операции. Таблица 2.6. Результаты измерений электрокожного сопротивления в биологически активных точках справа (х — фоновые значения) п/п Х1 х2 хЗ х4 • х5 хб х7 х8 х9 хЮ xll х12 1 80 107 44 87 85 214 47 91 69 77 54 86 2 94 93 72 106 130 254 75 97 130 69 99 76 3 95 115 81 186 73 79 95 111 96 129 114 110 4 99 126 87 74 69 107 61 121 65 176 85 78 5 117 53 94 122 139 ИЗ 101 144 108 59 127 148 6 78 80 58 112 66 195 96 94 86 79 144 142 7 91 95 120 82 131 142 62 140 106 50 76 116 8 104 52 45 113 136 385 65 53 114 180 82 84 9 55 54 65 140 77 173 117 117 82 100 90 107 10 130 109 51 34 129 302 37 126 123 126 60 62 11 64 66 70 186 61 204 157 129 66 86 99 69 12 81 82 94 167 78 112 153 130 85 75 138 149 13 58 144 49 53 53 289 55 115 82 135 105 81 14 91 144 49 49 82 293 64 88 ИЗ 124 90 60 Таблица 2.7. Результаты измерений электрокожного сопротивления в биологически активных точках справа (у — после нагрузки) п/п J’1 у2х уЗ у4 У5; ,уб У? - у8 у9 у10 yll у!2 1 из 115 67 163 88 293 96 98 94 93 79 58 2 124 75 76 152 86 125 108 139 133 60 101 62 3 122 107 77 191 91 101 96 142 99 123 116 147 4 124 78 75 105 82 121 89 83 78 171 82 97 5 112 84 92 131 124 154 91 139 97 100 116 120 6 87 58 90 221 60 137 127 227 109 79 159 119 7 97 74 88 94 ИЗ 191 61 125 111 95 85 75 8 111 43 84 116 88 284 91 70 108 147 124 71 9 70 100 63 132 99 209 104 141 91 130 79 97 10 123 74 67 74 66 194 61 115 118 106 100 81 И 76 76 42 231 62 156 140 130 72 79 117 66 12 75 59 96 170 86 94 119 119 89 63 126 116 13 69 115 77 72 48 274 89 100 67 146 99 74 14 80 83 66 56 70 235 70 88 117 107 89 71 Выделим новую колонку в таблице данных и щелкнем правой кнопкой мыши. В появившемся меню выберем Generate Data. В поле Expression диа- логового окна Generate Data введем требуемое преобразование — отношение фонового замера к измерению после нагрузки (рис. 2.26). Нажмем ОК. Выберем в контекстном меню команду Modify Column. Зададим в поле Name имя новой переменной rrl В поле Comment запишем комментарий «отношение фона к нагрузке» (рис. 2.27). Нажмем кнопку ОК. Аналогичным образом сгенерируем остальные переменные гг2 — гг12.
54 Глово 2. Базовая система статистических процедур Таблица 2.8. Результаты тестирования (Z — акцентуации) ' № п/п zl" z“ 'Л'. '0 z3 vz4 » I z5‘ . z6 z7 *z8’. z9 zlO 1 18 18 12 12 3 6 10 0 9 12 2 12 12 21 22 6 6 10 15 9 12 3 12 8 3 10 3 12 8 6 6 12 4 12 20 12 14 18 9. 12 15 6 12 5 9 18 18 12 0 12 16 6 15 12 6 24 12 21 16 9 12 18 9 9 12 7 21 6 12 18 12 15 10 6 12 6 8 6 4 6 10 3 9 14 9 9 6 9 18 12 0 4 0 6 20 3 6 12 10 15 10 12 12 3 12 10 12 15 6 11 15 14 24 6 3 15 20 21 6 12 12 21 12 9 10 0 6 18 3 3 12 13 24 12 15 12 15 12 20 12 9 12 14 12 12 3 14 2 9 8 12 15 6 Рис. 2.26. Окно диалога для генерации новых переменных Рис. 2.27. Окно для наименования переменных, задания их типа и ввода комментариев
flouXXOBOH множественной регрессия: взаимосвязь психического и биологического 55 Построение модели множественной ре< рессии для всех переменных Выберем из меню Relate пункт Multiple Regression. В окне диалога множе- ственной регрессии с помощью кнопки со стрелкой активизируем поле De- pendent Variable (зависимая переменная). Затем в списке переменных, находящемся слева, используя прокрутку, найдем требуемую переменную. Пусть в рассматриваемом случае это будет акцентуация характера z8 — «возбудимость». Дважды щелкнем на этой переменной, и она появится в ак- тивном поле. Выделим в списке переменных из левого поля окна Multiple Regression переменные rrl—rri2 и нажмем кнопку со стрелкой, указывающую на поле Independent Variables (независимые переменные). Все маркированные пере- менные будут включены в анализ (рис. 2.28). Нажмем кнопку ОК. Рис. 2.28. Ввод данных во множественный регрессионный анализ После этого на экран выдается сводка проведенного анализа (рис. 2.29) Из представленной сводки мы получаем сведения: об оценках величины константы и весовых коэффициентов в уравнении регрессии, о стандартных ошибках, Т-статистиках и p-значениях для полученных величин. Но главное, на что следует обратить внимание — это высокое p-значение во второй табли- це «Analysis of Varians» (Анализ дисперсии), где оценивается модель в целом. Оно составляет 0.4028, что говорит об очень низкой статистической значимо- сти построенной модели. Это неудивительно, ведь, используя 12 переменных, мы имеем выборку объемом всего 14 человек. Путь, по которому следует идти в данном случае, — это попытаться снизить количество переменных в правой части уравнения регрессии, применив метод пошагового отбора. Пошаговый отбор переменных Щелкнем правой кнопкой мыши и выберем из появившегося меню пункт Analysis Options. В разделе Fit окна диалога установим переключатель в по-
56 Глава 2. Базовая система статистических процедур ложение Forward Selection (алгоритм последовательного увеличения группы переменных). Все остальное оставим без изменений (рис. 2.30). Нажмем ОК. Получаем новую сводку регрессионного анализа (рис. 2.31). Как видно из таблиц, построена регрессионная модель, обладающая высокой статистической значимостью и объясняющая почти 66.9% дисперсии зависимой переменной zl. Рис. 2.29. Сводка множественного регрессионного анализа Рис. 2 30. Окно диалога для задания параметров процедуры пошаговой регрессии Опробуем теперь процедуру с последовательным уменьшением группы переменных. Выберем Analysis Options в контекстном меню. Установим пе- реключатель Fit в положение Backward Selection и снимем флажок Constant in Model. Остальные элементы управления оставим без изменений Получим следующую сводку результатов работы процедуры (рис. 2.32).
Пороговой множественной регрессия: взаимосвязь психического и биологического 57 Рис. 2.31. Сводка регрессионного анализа с пошаговым добавлением переменных Рис. 2.32. Результаты работы процедуры последовательного уменьшения группы переменных Видно, что построенная регрессионная модель обладает значительно луч- шими свойствами, чем предыдущая. В нее вошли три переменные: ггЗ (же- лудок), ггб (тонкий кишечник) и с обратным знаком гг12 (печень). Данная
58 Глава 2 Базовая система статистических процедур модель объясняет уже 91% дисперсии зависимой переменной; также высок (89.7%) коэффициент детерминации, скорректированный с учетом степеней свободы (adjusted R-squared). При этом взаимоотношения переменных, за- фиксированные в модели, заслуживают почти 100 процентного доверия. Рис. 2.33. Окно графических параметров Рис. 2.34. Графическое отображение регрессионной модели Отобразим графически полученные результаты Для этого нажмем кнопку графических опций (третья слева в нижнем ряду) и в окне диалога установим флажок Observed versus Predicted (наблюдение — предсказание). Нажмем ОК (рис. 2.33). На экране образуется второе окно с требуемым графическим отображением. Раскроем его на весь экран, щелкнув дважды левой кнопкой мыши на заголовке (рис. 2.34).
Ппшоговоя множественная регрессия: взаимосвязь психического и биологического 59 резюме Представленныи пример хорошо демонстрирует эффективность процедур по- следовательного увеличения и уменьшения группы переменных при построе- нии моделей множественной регрессии. Удается подбирать модели, содержа- щие гораздо меньше переменных по сравнению с исходным множеством и имеющие более лучшие статистические характеристики. Незначительное коли- чество переменных позволяет легко интерпретировать содержания регресси- онных моделей. Так, в нашем случае уравнение регрессии после применения процедуры уменьшения группы переменных выглядит следующим образом: z8 = 8.7 (желудок) + 9.0 (тонкий кишечник) - 8.3 (печень). Итак, можно предположить, что для людей с повышенной возбудимостью характерной реакцией на функциональную пробу является повышение актив- ности желудка и тонкого кишечника при одновременном угнетении функции печени. И наоборот, организм людей с пониженной возбудимостью реагирует на нагрузку снижением активности работы желудка и тонкого кишечника при одновременном увеличении активности работы печени. Полученные данные в настоящее время подвергаются дальнейшим провер- кам. Их окончательное подтверждение сулит значительные перспективы в следующих областях: 1. Собственно психодиагностика. Трудоемкая и громоздкая процедура пси- хологического тестирования, сопровождаемая возможностями преднаме- ренных и непреднамеренных фальсификаций, заменяется в ряде случаев оперативной и объективной процедурой измерения электрокожного сопро- тивления в биологически активных точках с последующей релевантной обработкой. 2. Психотерапия. Раскрытие взаимосвязей особенностей функционирования органов человека с его психическими свойствами на количественном уров- не создает предпосылки для создания эффективных методик психокор- рекции. 3. Психогигиена и психопрофилактика. Электропунктурная психодиагнос- тика вследствие объективности измерений позволяет на ранних стадиях обнаруживать нежелательные тенденции в психическом статусе. 4. Мониторинг психического состояния. Оперативная процедура электро- пунктурной психодиагностики дает возможность отслеживать изменения психического состояния в реальном времени. 5. Соматическая медицина. Раскрытие взаимосвязей психики и соматики соз- дает предпосылки для разработки методик направленного соматического воздействия через создание определенных психических состояний с учетом межполушарной асимметрии мозговых процессов. Приведенный список можно было бы продолжить вплоть до исследований генетической обусловленности психических особенностей человека и поиска границы, начиная с которой психическое становится самостоятельной сущ- ностью. По-видимому, для этого настанет свое время.
60 Глава 2. Базовая система статистических процедур Дисперсионный анализ: влияние возраста и стажа работников на производительность труда Дисперсионный анализ применяется для обнаружения влияния выделенного (контролируемого) набора факторов на результативный признак. Факторы обычно измеряются в неколичественной шкале, а результативный признак вы- ражается числом или вектором с числовыми компонентами. Идея дисперсионного анализа состоит в разложении общей дисперсии ре- зультативного признака на части, обусловленные влиянием контролируемых факторов, и остаточную дисперсию, объясняемую неконтролируемым влияни- ем или случайными обстоятельствами. Выводы о существенности влияния кон- тролируемых факторов на результат производятся путем сравнения частей общей дисперсии при выполнении требования нормальности распределения результативного признака. Известно много моделей дисперсионного анализа. Они классифицируются, с одной стороны, по математической природе факторов (детерминированные, случайные и смешанные) и, с другой стороны — по числу контролируемых факторов (однофакторные и многофакторные модели). Модели с более чем одним фактором дают возможность исследовать влияние на результат не только отдельных контролируемых факторов (главные влияния), но и их на- ложение (взаимодействия). По способу организации исходных данных среди моделей дисперсионного анализа выделяют полные и неполные ш-факторные планы, полные и неполные блочные планы и рандомизированные (случайные) блочные планы. В STATGRAPHICS Plus for Windows реализованы все пере- численные выше модели дисперсионного анализа. В качестве примера рассмотрим задачу проверки влияния возраста и ста- жа работников определенной специальности на производительность труда. Исходные данные к этому примеру приведены в книге «Информатика в статистике: Словарь-справочник» (М.: Финансы и статистика, 1994). Это ре- зультаты обследования 60 работников производства, у которых фиксировалась средняя часовая выработка в натуральных единицах продукции. Данные об- следования отражены в табл. 2.9. Таблица 2.9. Данные обследования СтаяО Возраст - . ;’ • * “,4/.’ f ' £ от 25 до 35 лет от 35 до 45 лет. от 45 до 55 лет; от 1 до 4 лет от 4 до 7 лет от 7 до 10 лет свыше 10 лет 19 20 20 20 22 30 31 32 32 34 35 35 39 40 41 40 40 41 41 42 19 20 20 23 25 20 29 30 31 31 36 40 41 42 45 28 31 35 36 40 18 19 20 21 23 19 25 25 26 26 24 24 24 25 25 20 24 25 31 32 Раскроем электронную таблицу STATGRAPHICS и введем в нее значения результативного признака output и закодированные значения градаций кон- тролируемых факторов age (возраст) и record (стаж), как это показано на рис. 2.35. Сохраним данные в файле plant.
Дисперсионный онолиз: влияние возросто и стожо роботников но производительность трудо 61 Рис. 2.35- Результаты обследования работников производства Выберем Compare | Analysis of Variance | Multifactor ANOVA. Заполним окно многофакторного дисперсионного анализа (рис. 2.36). Рис. 2.36. Окно диалога многофакторного дисперсионного анализа Нажмем ОК. На экране появится сводка множественного дисперсионного анализа, в которой подтверждается, что к обработке принято 60 наблюдений, для которых зафиксированы значения двух факторов. Внизу под этими сведе- ниями включено сообщение StatAdvisor с рекомендациями по проведению дальнейшего анализа. Вызовем окно табличных опций, нажав вторую слева кнопку в нижнем ряду кнопок (рис. 2.37). Установим флажок ANOVA Table (таблица диспер- сионного анализа) и нажмем ОК. Щелкнув дважды на окне с этой таблицей, раскроем его на все рабочее поле (рис. 2.38).
62 Глово 2. Базовая система статистических процедур В приведенной таблице выведены для каждого фактора рассчитанные сум- мы квадратов (Sum of Squares), степени свободы (Df), средние квадраты (Mean Square), F-отношения и p-значения. Указано, что расчеты F-отношений базируются на остаточном среднем квадрате ошибки и что использовался Тип III дисперсионного анализа. Это один из самых распространенных вари- антов обработки, в котором суммы квадратов каждого фактора рассчиты- ваются таким образом, как если бы данный фактор был добавлен в модель последним. Tabutai Options *?!>>• -tr' - P^WATibfe.- ' ’ 'Г”Banse JeiU' Рис. 2.37. Табличные окна дисперсионного анализа Рис. 2.38. Исходная таблица дисперсионного анализа На основании табличных чисел (а также по сообщению StatAdvisor) де- лаем заключение, что на производительность труда оказывают влияние оба фактора по отдельности — и возраст работника, и его трудовой стаж. Доверие к такому выводу 95%. Можно, кроме того, оценить и совместное влияние двух факторов. Щелкнем правой кнопкой мыши на табличном окне и выберем Analysis Options. Появится окно диалога для ввода различных взаимодействий факто- ров и задания их порядка (рис. 2.39). Введем порядок взаимодействия равный 2 и нажмем ОК. В таблицу мно- гофакторного дисперсионного анализа будут добавлены оценки статистической значимости совместного влияния возраста и стажа работников на их произво- дительность труда (рис. 2.40).
Дисперсионный анолиз: влияние возросло и стажа работников на производительность труда 63 Рис. 2.39. Окно диалога для задания порядка взаимодействия факторов Рис. 2.40. Таблица дисперсионного анализа с оценкой значимости совокупного влияния возраста и стажа работников на производительность труда Как следует из полученных цифр, на производительность труда изучаемой генеральной совокупности работников существенно влияют совместно дейст- вующие возраст и стаж. Уровень доверия к такому выводу выше 95%. Можно еще более углубить проводимое исследование, воспользовавшись многосто- ронними оценками различных компонент факторного взаимодействия и до- полнительными статистическими тестами, реализованными в процедуре дисперсионного анализа STATGRAPHICS Plus for Windows. Но, как говорит- ся, лучше один раз увидеть, чем сто раз услышать. Поэтому воспользуемся графическими возможностями отображения результатов анализа. Нажмем кнопку графических опций (третья слева в нижнем ряду кнопок) и установим флажки Means Plot (график средних) и Interactions Plot (график взаимодействий). Нажмем ОК (рис. 2.41). В верхнем графическом окне показан график зависимости средних значе- ний производительности труда от стажа и очерчены доверительные интервалы для этих средних. Хорошо видно, что стаж несомненно влияет на результа- тивный признак. Вместе с тем, похоже, производительность достигает своего пика у работников со стажем от 7 до 10 лет, а затем начинает снижаться. Полученная картина проясняется, если взглянуть на нижнее графическое окно, где приведена картинка о взаимодействиях возраста и стажа. Из нее следует, что производительность труда постоянно увеличивается с ростом
64 Глава 2. Базовая система статистических процедур стажа у молодых работников (25-35 лет). Для второй возрастной группы (35-40 лет) такой рост наблюдается только для тех работников, стаж которых не превышает 10 лет. Затем производительность у них резко падает. Для третьей возрастной группы (45-55 лет) характерна вообще самая низкая про- изводительность труда, значение которой остается почти на одном и том же уровне независимо от стажа работы. Рис. 2.41. Табличные и графические отображения результатов Отобразим результаты дисперсионного анализа в ином ракурсе. Для этого будем щелкать правой кнопкой мыши на каждом графическом окне, выбирать из контекстного меню пункт Pane Options и заменять в соответствующих ок- нах диалога фактор record (стаж) на фактор age (возраст). Теперь на всех графиках по оси абсцисс будут отображаться возрастные категории. Пример одного из окон диалога приведен на рис. 2.42. Раскроем полученные графические окна двумя щелчками левой кнопки мыши. Получим следующие картинки (рис. 2.43 и 2.44). Рис. 2.42. Пример окна диалога для задания параметров графического отображения результатов дисперсионного анализа
Дисперсионный онолиз: влияние возросло и сгожо роботников но производительность труде 65 Рис. 2.43. Влияния возраста работников на производительность итуда Рис. 2.44. Влияние взаимодействия возраста и стажа на производительность труда Первый график наглядно показывает уменьшение производительности труда с возрастом. Из второго следует, что пик производитель:-.-..и труда наблюдается у молодых людей, имеющих стаж работы от 4 до 7 лет. и что при незначительном стаже, независимо от возраста, производительност; труда все- гда остается самой низкой. Можно, конечно, сделать другие более тонкие вы- воды. Но, по-видимому, имеет смысл напомнить, что они будут сдеаведливы только по отношению к представителям исследованной генералы-::,: совокуп- ности работников производства.
ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА а.. РАЗРАБОТКА ПОЛНОГО ПЛАНА: АНАЛИЗ КОНСТРУКЦИЙ БУМАЖНЫХ САМОЛЕТИКОВ....................................68 Задание имени и сохранение плана эксперимента.......71 Ввод экспериментальных данных.......................72 Анализ экспериментальных данных.....................73 СОЗДАНИЕ И АНАЛИЗ ПОВЕРХНОСТИ ОТКЛИКА: ИССЛЕДОВАНИЕ ПРОЦЕССА ПРОИЗВОДСТВА ПЛАСТИКОВЫХ ДИСКОВ......................................77 Разработка плана....................................77 Задание имени и сохранение экспериментального плана.80 Распечатка рабочей таблицы..........................80 Анализ экспериментальных данных.....................81 РАЗРАБОТКА И АНАЛИЗ ЭКСПЕРИМЕНТАЛЬНОГО ПЛАНА ПО ОПРЕДЕЛЕНИЮ СМЕСЕЙ: ИЗУЧЕНИЕ СВОЙСТВ РАКЕТНОГО ТОПЛИВА.......................................86 Задание имени и сохранение плана эксперимента.......89 Ввод экспериментальных данных.......................90 Анализ экспериментальных данных.....................90
Любой процесс есть комбинация материалов, методов, технологий, людей, оборудования, измерительных приборов и т. п., совместная работа которых обеспечивает производство товаров или выполнение определенных заданий. Планирование эксперимента является научным подходом, позволяющим экс- периментатору лучше разобраться в происходящих процессах, определить взаимосвязи между входными и выходными параметрами и сделать надежные выводы. Планирование эксперимента — раздел математической статистики, изу- чающий рациональную организацию измерений и наблюдений. Целью экспе- римента служит либо оценка параметров распределения некоторой случайной функции, ли(эо проверка некоторых гипотез о параметрах. Исходя из цели, формулируется критерий оптимальности плана эксперимента, под которым понимается совокупность значений исследуемых переменных. Оптимальный план организации позволяет уменьшить количество опытов, сократив тем са- мым расходы на их проведение и временные затраты, уменьшить ошибку экс- перимента, выработать четкие формализованные правила принятия решений на каждом этапе проведения эксперимента и получить многофакторные мате- матические модели с желаемыми статистическими свойствами. Компьютерная система планирования эксперимента, такая как STAT- GRAPHICS Plus for Windows, существенно изменила представления об этой предметной области. Если раньше она считалась уделом высоко квали- фицированных профессионалов в математической статистике, владеющих в достаточно полном объеме ее тонкостями, то теперь планирование стало доступно широкому кругу специалистов в других областях. Работая с моду- лем планирования эксперимента, Design of Experiment (DOE), исследова- тель получает полную уверенность в .<>., что проводимый им статистический анализ данных осуществляется наиболее корректным образом. Модуль DOE автоматически проводит исследователя через весь цикл планирования экспе- римента. DOE помогает сформулировать критерий оптимальности плана экс- перимента, предлагает ряд оптимальных планов и производит все необходи- мые табличные и графические выкладки на каждом этапе проведения эксперимента. Во всех видах экспериментов результаты и заключения зависят от большо- го количества разнородных и по-разному собранных данных. Поэтому первая услуга, которую оказывает модуль DOE, — это помощь в организации сбора информации об интересующей предметной области, для чего предусмотрена возможность генерации большого количества как стандартных, так и нестан- дартных рабочих таблиц, их редактирование и распечатка. В планировании эксперимента, может быть, как нигде более, значительное внимание уделяется способам отображения экспериментальной информации. В STATGRAPHICS включен весь спектр графических процедур, которые позволяют подбирать, а также ясно и точно «видеть» особенности анализи- руемого материала, начиная от карт Парето и до трехмерных поверхностей отклика разного вида. При этом все графические отображения являются интерактивными. Можно (как в автоматическом, так и ручном режимах) под- бирать наиболее иллюстративные рисунки и графики экспериментальных пла- нов, в сопровождении соответствующих численных результатов.
68 Главо 3. Планирование эксперимента Модуль планирования эксперимента STATGRAPHICS Plus for Windows предоставляет полный набор различных типов планов вплоть до тех, в кото- рых учитываются взаимодействия анализируемых факторов по восьмой по- рядок включительно. Кроме того, по желанию экспериментатора могут быть рассмотрены взаимодействия более высокого порядка. Все это вместе взятое, включая экспертную консультационную систему StatAdisor, помогающую интерпретировать результаты и выявлять изъяны в проведенном анализе, по- зволяет говорить о модуле DOE, как о высоко классном инструменте, значи- тельно повышающим эффективность планирования эксперимента. Ниже приводится список основных процедур, входящих в состав модуля планирования эксперимента STATGRAPHICS Plus for Windows: • Планирование эксперимента: полные и дробные планы, планы Плакетта- Бурмеиа, блочные планы. • Конструирование поверхности отклика: центральные композиционные планы, трехуровневые факториалы, планы Бокса-Бенкена, планы Дрейпе- ра-Лана, блочные планы, собственные планы. • Смешанные планы: простые центроидные планы, простые латинские пла- ны, планы, определенные пользователем. Разработка полного плана: анализ конструкций бумажных самолетиков Процедура полного факторного эксперимента или дробной реплики использу- ется при построении и исследовании 2-уровневых экспериментов. Такое пла- нирование применяется для изучения воздействия количественных факторов. Оно позволяет оценивать как вклад (эффект) каждого фактора, так и эффек- ты взаимодействий. В полном факторном эксперименте точка плана (опыт) генерируется для всех комбинаций двух уровней каждого фактора. Если име- ется k факторов, то план состоит из 2k опытов. Дробные планы позволяют ис- следовать k факторов за меньшее количество опытов, путем включения взаимодействий в число факторов. В рассматриваемом примере будет изучаться дальность полета бумажных самолетиков различных конструкций. Сами конструкции в данном случае ха- рактеризуются 4 факторами, которые влияют на дальность полета при запуске самолетиков с помощью специальной метательной установки. Пример адапти- рован из эксперимента, описанного в Vardeman S. Т. 1994. Statistics for Engi- neering Problem Solving. Boston: PWS Publishing Co. Для повторения этого эксперимента будет использован 24 факторный план (четыре фактора, каждый имеет два различных уровня). Изучаемые факторы следующие: плоскость крыла plane (прямая или Т-образная), использование срезанного носа Nose (да или нет), тип бумаги Paper (конструкционная или писчая) и тип крыла Wing (прямой или наклонный). Целевой переменной яв- ляется дальность полета Distance, которая представляет собой среднюю даль- ность двух полетов для каждой точки плана.
Розробетко полного плоно: онолиз конструкций бумажных сомолетиков ---------------- • -------------------------------—------------------- Факторный план 2^ включает все возможные комбинации уровней каждого из четырех факторов. Дважды щелкнем левой кнопкой мыши на пиктограмме STATGRAPHICS plus for Windows для запуска системы. Выберем Special | Experimental Design | Create Design. Система выдаст окно диалога для задания начальных параметров плана. Установим переключатель Design Class (тип плана) в положение Screening. Оставим по умолчанию 1 в поле «количество целевых переменных». Введем 4 в поле числа экспериментальных факторов и в поле комментари- ев внесем запись Airplane Experiment. Это название будет присвоено всем таблицам, которые будут появляться в дальнейшем. Окно диалога после за полнения показано на рис. 3.1. Рис. 3.1. Окно диалога для выбора параметров экспериментального плана Нажмем кнопку ОК. Система предоставит для заполнения окно диалога с описанием исследуемых факторов. Для имени фактора А внесем запись Design (конструкция); в поле для нижнего уровня Low запишем straight (прямая), а для высокого уровня High — tee (Т-образная). Снимем флажок Continuous. Установим переключатель в положение В. Для этого фактора внесем соот- ветствующие записи: Nose (имя фактора); попе и clip — нижний и верхний уровни фактора. Снимем флажок Continuous. Установим переключатель в положение С. Зададим имя данного фактора Paper (бумага) и внесем записи notebook и construct для нижнего и верхнего уровней. Снимем флажок Continuous. Установим переключатель в положение D. Для этого фактора запишем имя Wing (крыло) и зададим straight (прямое) и bent (наклонное) для нижнего и верхнего уровней соответственно. Снимем флажок Continuous (рис. 3.2). Нажмем кнопку ОК — на экране отобразится окно для описания целевого фактора. Введем имя фактора Distance и занесем feet (футы) в окошко единиц из мерения (рис. 3.3).
70 Глава 3. Плонировоние эксперимента Рис. 3.2 Окно диалога для описания исследуемых факторов Рис. 3.3. Окно диалога для описания целевого фактора Нажмем кнопку ОК — на экране появится окно для выбора типа экспе- риментального плана (рис. 3.4). Рис. 3.4. Окно диалога для выбора типа экспериментального плана Используем кнопку со стрелкой вниз для раскрытия списка доступных планов. Выберем Factorial 2'4, затем нажмем кнопку ОК — система выдаст окно диалога для задания параметров выбранного типа плана. Заметим, что
роэроботко полного плоно: онолиз конструкций буможных самолетиков 7] ИМЯ основного типа плана будет в дальнейшем идти первой строкой в других окнах диалога. Правее выдаются количество испытаний и степени свободы для рассчитанной ошибки. Снимем флажок Randomize (рандомизация) для того, чтобы упростить порядок ввода данных (рис. 3.5). Оставим остальные позиции в неприкос- новенности. Рис. 3 5. Окно диалога для задания параметров выбранного плана Нажмем копку ОК — система выдаст рабочее окно с первичной сводкой плана эксперимента, в которой показаны все его атрибуты (рис. 3.6). Рис. 3.6. Первичная сводка плана эксперимента Задание имени и сохранение плана эксперимента Выберем File | Save Dcaigr. т"’ * ране поя’””''" • окно диалога (рис 3.7). Назовем наш план эксперимента plane и нажмем кнопку ОК. Система со- хранит этот план под заданным именем и снова отобразит первичную сводку плана.
72 Глово 3. Плонировоние эксперимента Рис. 3- 7. Окно диалога для задания имени и сохранения плана Теперь все готово для сбора и ввода экспериментальных данных. Сам план и значения целевой переменной, полученные экспериментальным путем, приведены в табл. 3.1. Таблица 3.1. Экспериментальные данные Row Block Design Nose £aPer . Wing • Distance 1 1 straight none notebook straight 6.25 2 1 tee none notebook straight 15 5 3 1 straight clip notebook straight 7 00 4 1 tee clip notebook stra ght 16.5 5 1 straight none construct straight 4 75 6 1 tee none construct straight 5 50 7 1 straight clip construct straight 4.50 8 1 tee clip construct straight 6.00 9 1 straight none notebook bent 7.00 10 1 tee none notebook bent 10.00 11 1 straight clip notebook bent 10.00 12 1 tee clip notebook bent 16.00 13 1 straight none construct bent 4.50 14 1 tee none construct bent 6.00 15 1 straight clip construct bent 4.50 16 1 tee clip 1 construct bent 5.75 Ввод экспериментальных данных Выберем Window | PLANE.SFX или минимизируем окно с атрибутами плана и затем щелкнем мышью на пиктограмме электронной таблицы данных PLANE.SFX. Система отобразит всю таблицу на экране. Введем в колонку Distance цифры, показанные в табл. 3.1. Выполним команду File | Save Design File. Система сохранит файл дан- ных нашего плана. Теперь все готово для проведения анализа эксперимен- тальных результатов.
Розроботко полного плоно: онолиз конструкций бумажных сомолетиков 73 Анализ экспериментальных данных Выберем Special | Experimental Design | Analyze Design. На экране появится соответствующее окно диалога. Дважды щелкнем левой кнопкой мыши на переменной Distance для ввода ее в анализ и нажмем кнопку ОК. На экране отобразится сводка проведенно- го анализа (рис 3.8). 1Р11е лате; C:\Program File$\5GWIN\DATA\plane.sfx Zomnent: Airplane Experiment Estimated effects for Distance average - 6.10938 +/- 0.385066 AzDesign • 4.09375 -t/~ 0.770171 В:Nose - 1.34375 t/“ 0.770171 ZzPaper - -5.84375 ♦/“ 0.770171 ):Wing - -0.28125 +/- 0.770171 AB - 0.46875 +/“ 0.770171 AC - -2.84375 +/" 0.770171 AD - -1.15625 +/“ 0.770171 SC - -1.34375 +/“ 0.770171 BD -0.84375 ♦/- 0.770171 2D - 0.26125 +/“ 0.770171 Standard errors are based on total error with 5 d.f. Рис. 3.8. Сводка анализа плана эксперимента Так как был выбран полный факторный план и по нему собраны все 16 наблюдений, то доступны для расчета все главные эффекты и двухфакторные взаимодействия Имеет смысл проигнорировать взаимодействия более высоко- го порядка, ввиду того, что они обычно бывают незначительными. Для опре- деления наиболее существенного влияния на дальность полета удобно использовать отображение стандартизированной Парето-карты. Нажмем копку графических опций (третью слева в верхнем ряду) и затем щелкнем мышью на кнопке ОК. Результат представлен на рис. 3.9. Analysis Surrmary File name: C:\Program Fi1es\SGV crrnent Airplane Experiment Estimated effects for Distance average - 8.10938 +/- O.385O( A:Design - 4.09375 +/“ 0.7701; BzNose - 1.34375 +/~ 0-77011 ZzPaper - -5.84375 +/“ 0.7701; JzWing - -0.28125 +/“ 0.7701; A8 - 0.46875 f/- 0.7701; AC - -2.84375 +/" 0.7701; AD - -1.15625 +/- 0.77011 BC - -1.34375 +/- 0.7701; BD - 0.84375 +/“ 0.77011 2D - 0.28125 t/~ 0.7701; Standardized Pareto Chart for Distance Standardized effect Standard errors are based on tc Рис. 3.9. Стандартизированная Парето-карта для переменной Distance
74 Глоео 3. Плонировоние эксперимента На карте Парето хорошо видно, что тип бумаги (С), конструкция (А) и взаимодействие (АС) имеют статистически значимые эффекты. На это указы- вает то, что соответствующие столбцы пересекают вертикальную линию, кото- рая представляет 95% тест для определения значимости. Графики главных эффектов и нормальности также подтверждают этот вывод. Нажмем кнопку графических опций — появится соответствующее окно диалога. Установим флажки Main Effects (главные эффекты), Interaction Plots (графики взаимодействий) и Normal Probability Plots of Effects (графики эффектов для нормального распределения вероятностей). Нажмем кнопку ОК. Система добавит дополнительные второе, третье и четвертое окна в гра- фическую часть (рис. 3.10). Рис. 3-10. Табличное и графические окна анализа экспериментальных данных Максимизируем размеры графика нормальности, дважды щелкнув на нем левой кнопкой мыши, и затем щелкнем правой кнопкой мыши. Появится окно диалога с опциями для данного вида графического отображения (рис. 3.11). Рис. 3.11. Окно диалога для задания параметров графика нормальности Выберем Half-Normal и Label Effects. Это целесообразно сделать для бо- лее подробного и наглядного рассмотрения возможных отклонений эффектов от нормального распределения вероятностей. Нажмем кнопку ОК. Получим следующий график (рис. 3.12).
Разработке полного плана: анализ конструкц>й бумажных самолетиков 75 Параметры Paper, Design и их взаимодействие АС отклоняются сильно вНпз и вправо от линии нормального распределения, что свидетельствует об ЛХ значительно более сильном воздействии на целевой параметр, чем у других факторов и взаимодействий модели. Рис. 3.12. Отображение отклонений эффектов от нормального распределения Минимизируем размеры окна, дважды щелкнув на его заголовке. Раскроем окно графика взаимодействий и щелкнем правой кнопкой мыши. Система выдаст окно диалога для выбора параметров данного графического отображения (рис. 3.13). Рис. 3.13- Окно диалога для задания параметров графика взаимодействий Установим в окне диалога флажки Design и Paper и снимем флажки Nose и Wing. Система соответственно преобразует отображение (рис. 3.14). Графическое отображение взаимодействии наглядно показывает, что наи- большая дальность полета наблюдается у самолетиков, имеющих Т-образную конструкцию и сделанных из писчей бумаги. Таблица дисперсионного анализа верифицирует это. Нажмем кнопку табличных опций (вторую слева в верхнем ряду), и нам будет предоставлено соответствующее окно.
76 Глово 3. Плонироеонме эксперимента Выберем ANOVA Table (таблицу дисперсионного анализа) и нажмем кнопку ОК. Система добавит еще одно табличное окно в рабочее поле. Рис. 3.14. График взаимодействий для параметров Design и Paper Раскроем таблицу дисперсионного анализа, дважды щелкнув на ней левой кнопкой мыши (рис. 3.15). Рис. 3-15. Таблица дисперсионного анализа Числовые данные в таблице подтверждают, что факторы А, С и АС дают статистически значимые эффекты (p-значение <.О5). В то же время влияние других факторов В и D, а также их взаимодействий является несуществен- ным. Таким образом, подводя итог проведенного эксперимента, можно с боль- шой долей уверенности сказать: на дальность полета бумажных самолетиков сильно влияют тип крыльев и бумага, из которой они изготовлены. Графики главных эффектов и взаимодействий показывают, что наивысшую дальность полета имеют Т-образные конструкции крыльев у самолетиков, сделанных из обыкновенной писчей бумаги.
Создание и онолиз поверхности отклике: исследовоние процессо производства пластиковых дисков 77 Создание и анализ поверхности отклика: исследование процесса производства пластиковых дисков В этом примере воспроизводится экспериментальный план, реализованный инженером фабрики по изготовлению пластиков (пример адаптирован из кн.: Cornell J. А. (1990). How to Apply Response Surface Methodology, vol. 8 in Basic References in Quality Control: Statistical Techniques, edited by S. S. Sha- piro and E. Mykytka. Milwaukee; American Society for Quality Control. Инженер принял решение исследовать факторы, влияющие на износ про- изводящихся фабрикой дисков. Для определения потенциально значимых факторов он предварительно проконсультировался с коллегами. Совместно они пришли к выводу, что нужно изучить два фактора, оказывающих, по- видимому, наибольшее влияние на износ дисков; 1) сам композиционный ма- териал, характеризующийся отношением наполнителя к эпоксидной резине, и 2) расположение диска в форме. Также они решили, что в качестве отклика можно взять толщину диска, подвергнутого абразивному тесту. Сначала инженер использовал дробную реплику факторного плана 22 для того, чтобы определить, достаточно ли применить здесь модель первого порядка. После испытаний в соответствии с этим экспериментальным планом инженер нашел, что данная модель подходит лишь для некоторой области значений факторов. Затем для определения более точных значений факторов, соответствующих минимуму износа дисков, он продолжил исследование поша- говым методом в направлении «наискорейшего спуска». Инженер попробовал реализовать метод на линейной модели и оказалось, что последняя неадекват- на реальным экспериментальным данным. Тогда было решено использовать центральный композиционный план и применить модель второго порядка. Разработка плана Двухфакторный центральный композиционный план применяется для более тщательного изучения области экспериментальных значений, по сравнению с симплексным факторным планом. Центральный композиционный план состоит из двух частей; куба и звезды. Куб соответствует полному факторному плану. Например, в двухфакторном исследовании точки исследования расположены в вершинах куба, что является факторным планом 22. Звезда содержит допол- нительное множество точек, расположенных на одинаковых расстояниях от центра куба на отрезках, исходящих из центра и проходящих через каждую сторону куба Центральные композиционные планы могут быть ортогональ- ными и ротатабельными.' Мы будем использовать ротатабельный план, для ко- торого дисперсия отклика является постоянной во всех точках, одинаково удаленных от центра плана. В данном исследовании обозначим фактор А как disk composition ratio (композиционное отношение) и фактор В как position of disk in mold (расположение диска в форме). Отклик назовем Thickness (толщина). Выберем Special | Experimental Design | Create Design. Система отобра- зит окно диалога для задания параметров плана эксперимента.
78 Глово 3. Плонировоние эксперимента Рис. 3.16. Окно диалога для выбора параметров плана Установим переключатель Design Class (тип плана) в положение Re- sponse Surface (поверхность отклика). Введем 1 в поле числа переменных отклика. Занесем 2 в поле количества экспериментальных факторов. В поле комментариев запишем Disk Wear Experiment (эксперимент по износу дисков). Это название будет возникать во всех таблицах на этапе ана- лиза экспериментальных данных. Заполненное окно диалога изображено на рис. 3.16. Нажмем кнопку ОК. На экране появится еще одно окно диалога для опи- сания исследуемых факторов. Для фактора А введем имя Ratio и 0.75, значение нижнего уровня, и 0.9, для верхнего уровня значений. Выберем положение переключателя В (фактор В). Зададим его имя Mold и введем нижний и верхний уровни значений: 0.75 и 0.9375 (рис. 3.17). Т-Тг. ’ч-гопку ОК — НЯ ЭКОЯНР ПОЯВИТСЯ ОКНО -тутя’Torn п^ст НПТТГЛНПЯ отклика. Введем имя отклика Thickness, остальные позиции оставим незаполнен- ными (рис. 3.18). Нажмем кнопку ОК; система выдаст на экран окно диалога с параметрами поверхности отклика. Рис. 3.17. Окно диалога для описания факторов
Создание и анализ поверхности отклика: исследование процесса производства пластиковых дисков 79 Рис. 3.18. Окно диалога для описания отклика Используя кнопку со стрелкой вниз, развернем список предлагаемых ва- риантов, выберем central composite design: 2*2+ star (центральный компо- зиционный план 2*2 + звезда) и нажмем кнопку ОК. Появится окно диалога опций композиционных планов. Отметим, что название основного плана появляется в верхней строке окна диалога. Ниже выведены общее количество требуемых экспериментов (Runs) и число степеней свободы для ошибки (Error d.f.). Переключатель Placement установим в положение Last и снимем флажок Randomize (рандомизация). Окно диалога приведено на рис. 3.19. Рис. 3.19. Окно диалога для задания параметров композиционного плана Нажмем кнопку ОК; система выдаст сводку экспериментального плана в окне атрибутов поверхности отклика (рис. 3.20). Сводка включает имя плана и его тип, а также комментарии к экспери- менту. Без изменений остается информация о факторах, отклике, количестве экспериментов, блоках, количестве центральных точек и степенях свободы для ошибки.
80 Главе 3. Планирование эксперимента Рис. 3-20. Сводка в окне атрибутов поверхности отклика Задание имени и сохранение экспериментального плана Выберем File | Save Design File As; появится соответствующее окно диалога (рис. 3.21). Зададим имя плана disk.sfx и нажмем кнопку ОК. Рис. 3-21. Задание имени экспериментального плана Инженер был -теперь готов продолжить свой эксперимент и начать соби- рать данные. Прежде всего он распечатал рабочую таблицу, в которой указан порядок сбора экспериментального материала. Распечатка рабочей таблицы Нажмем кнопку табличных опций. В открывшемся окне диалога установим флажок Worksheet и щелкнем на кнопке ОК. Рабочая таблица отобразится во втором окне на поле анализа.
СозДОние и онолиз поверхности отклико: исследовоние процессо производство плостиковых дисков 81 Дважды щелкнем на заголовке окна рабочей таблицы и тем самым макси- мизируем ее размеры (рис. 3.22). Рис. 3.22. Рабочая таблица Выберем из меню File | Print — система предоставит окно диалога для распечатки проводимого анализа. Установим переключатель в положение All Text Panes (рис. 3.23) и на- жмем кнопку ОК. Система распечатает сводку проводимого анализа и рабо- чую таблицу для сбора данных. Рис. 3-23. Окно диалога печати Инженер нашел составленную таблицу удобной, так как в ней показан порядок сбора экспериментальных данных и указана последовательность вво- да значений исследуемого отклика. Теперь мы также готовы к сбору экспериментальных данных. Исходные экспериментальные данные показаны в табл. 3.2. Анализ экспериментальных данных Выберем Special | Experimental Design | Analyze Design — появится coot- ветствующее окно диалога.
82 Глово 3. Планировоние эксперимента Таблица 3.2. Исходные экспериментальные данные оьоск? 'Т Thickness' $ 1 1 0.75 0.5 7.3 2 1 0.9 0.5 7.0 3 1 0.75 1.0 7.1 4 1 0.9 1.0 8.0 5 1 0.718934 0.75 7.6 6 1 0.931066 0.75 7.4 7 1 0.825 0.396447 7.4 8 1 0.825 1.103553 7.9 9 1 0.825 0.75 8.2 10 1 0.825 0.75 8.3 Дважды щелкнем на Thickness для ввода имени отклика в поле данных и нажмем кнопку ОК. Система отобразит первичную сводку проводимого ана- лиза (рис. 3.24) File name: disk.sfx orrmerrt: Disk Wear Experiment Estimated effects for Thickness average “ 8.27055 +/- 0.15204 A.:Ratio - 0.304289 +/" 0.1E1087 B:Mold - -0.0590997 +/" 0.0845113 BA - -0.8625 +/- 0.211636 - 0.225 +/- 0.0848433 88 - -0.100196 +/- 0.0297614 Standard errors are based on total error with 4 d.f. Puc. 3-24. Первичная сводка проводимого анализа экспериментальных данных Инженер теперь счел важным определить адекватность модели второго порядка. Для этого он захотел взглянуть на таблицу дисперсионного анализа и затем на график нормальности. Нажмем кнопку табличных опций (вторая слева в верхнем ряду). На эк- ране появится окно диалога. Выберем ANOVA Table (таблица дисперсионного анализа) и нажмем кнопку ОК. В области анализа появится второе окно. Максимизируем размеры таблицы дисперсионного анализа, дважды щелк- нув на ней левой кнопкой мыши (рис. 3.25). Из этой таблицы следует, что статистически значимые эффекты (р<0.05) имеют два квадратичных члена АА и ВВ. Для того чтобы определить, на- сколько хорошо эта модель описывает экспериментальные данные, будем ис- пользовать тест lack-of-fit. Щелкнем правой кнопкой мыши на таблице дисперсионного анализа; на экране отобразится соответствующее окно опций.
Создонпе и онолиз поверхности отклика: исследовоние процессе производство плостиковых дисков 83 Рис. 3-25- Таблица дисперсионного анализа Выберем Include Lack-of-Fit Test и нажмем кнопку ОК. Система вычис- лит требуемые значения и включит их в таблицу дисперсионного анализа (рис. 3.26). Рис. 3.26. Таблица дисперсионного анализа с дополнительным тестом Вследствие того, что p-значение использованного дополнительного теста больше 0.05, модель второго порядка представляется адекватной для описания отклика. Щелкнем снова правой кнопкой мыши на таблице и в окне анализа отме- ним дополнительный тест. Теперь рассмотрим график нормальности. Нажмем кнопку графических опций (третья слева в верхнем ряду). От- кроется окно диалога. Установим флажок Normal Probability Plots of Effects (график эффек- тов нормального распределения вероятностей) и нажмем кнопку ОК. Система выдаст требуемый график. Дважды щелкнем левой кнопкой мыши на данном графике для макси- мального увеличения его размеров.
84 Глова 3. Плонировоние эксперимента Щелкнем на графике правой кнопкой мыши и получим доступ к окну диа- лога для этого графического отображения. Выберем Label Effects (метки) и нажмем кнопку ОК. Система теперь отобразит на графике наименования факторов (рис. 3.27). Рис. 3-27. График эффектов нормального распределения вероятностей Из рисунка видно, что квадратичные члены находятся в стороне от линии нормального распределения, что указывает на статистическую значимость их влияния на отклик. Инженер решил еще раз проверить адекватность модели второго порядка. В частности, ему захотелось взглянуть на карту Парето. Нажмем кнопку графических опций для вызова окна диалога. Установим флажок Pareto Chart и нажмем кнопку ОК (рис. 3.28). Рис. 3.28. Карта Парето Видим, что квадратичные члены дают значимые эффекты Соответствую- щие им колонки пересекают вертикальную линию, которая представляет 95% доверительную вероятность.
Создоние и онолиз поверхности отклике: исследовоние процессе производство пластиковых дисков 85 На втором этапе эксперимента целью было локализовать область значений факторов, в которой плотность пластиковых дисков является максимальной. Лучше всего для этого подходит график поверхности отклика. Нажмем кнопку графических опций для вызова окна диалога. Выберем first Response Plot (первый график отклика) и нажмем кнопку ОК. Система добавит указанное графическое отображение во второе графиче- ское окно анализа. Максимизируем размеры этого окна, дважды щелкнув на нем левой кноп- кой мыши (рис. 3.29). Рис. 3.29. График поверхности отклика Этот трехмерный график имеет холм с вершиной для значения 0.9 (при- близительно) как для переменной Ratio, так и для фактора Mold. Для более детального рассмотрения области максимума целесообразно применить кон- турный график (Contour plot). Нажмем кнопку графических опций для вызова окна диалога. Выберем second Response Plots и нажмем кнопку ОК. Система выве- дет третье графическое окно с указанным отображением экспериментальной модели. Дважды щелкнем на этом окне левой кнопкой мыши для максимального увеличения его размеров (рис. 3.30) Щелкнем на изображении правой кнопкой мыши и получим окно диалога для данного графика. Нам предоставляется возможность рассмотреть полу- ченное изображение в разных ракурсах. Воспользуемся этими услугами — раскрасим график в разные цвета. Выберем Painted Regions и нажмем кнопку ОК. Система выдаст контур- ный, ярко раскрашенный график. Это действительно весьма иллюстративно. Контурный график показывает, что максимальная толщина дисков наблю- дается, когда расположение диска в форме находится между 0.83 и 0.87 и при условии, что отношение наполнителя к эпоксидной резине от 0.8 до 0.9. Инженер был удовлетворен результатами двухфакторного центрального композиционного плана, который позволил адекватно описать исследуемый
86 Глава 3. Планирование эксперимента производственный процесс и определить области значений факторов, где на- блюдается наилучшее качество выходного продукта. Рис. 3.30. Контурный график Разработка и анализ экспериментального плана по определению смесей: изучение свойств ракетного топлива В данном примере будет рассмотрен план эксперимента и анализ его резуль- татов. В эксперименте изучается ракетное топливо, которое представляет собой комбинацию связывающего вещества, окислителя и горючего. Интере- сующим нас свойством топлива является его эластичность. В частности, пред- положим, что мы желаем найти такие пропорции ингредиентов топлива, при которых эластичность достигает величины 3000. Также нашей целью будет на- хождение формулы, позволяющей предсказывать значения эластичности по указанным пропорциям. Этот пример основывается на экспериментах с ракетным топливом, опи- санных в кн: Kurotori I. S. (1966). Experiments with Mixtures of Components Having Lower Bounds, Industrial Quality Control, 22, p. 592-596. Дважды щелкнем на пиктограмме STATGRAPHICS Plus for Windows для инициализации системы. Выберем Special | Experimental Design | Create Design — система выдаст окно диалога для разработки экспериментального плана. Установим переключатель типа экспериментального плана в положение Mixture (смесь). Зададим число откликов 1 и количество компонентов 3. В поле комментариев внесем запись Rocket Propellant Study (изучение ракетного топлива). Эта надпись появится в верхних строках таблиц, которые будут выдаваться при анализе данных эксперимента. Заполненное окно диа- лога показано на рис. 3.31.
роЭроб°тко и анализ экспериментального плана по определению смесей 87 Рис. 3 31 Окно диалога для разработки экспериментального плана Нажмем кнопку ОК; на экране появится окно диалога для описания ком- понентов смеси. Здесь задаются имена компонентов, верхние и нижние грани- цы значений и единицы измерения. Заполним окно диалога. Назовем фактор A binder (связывающее вещест- во) и зададим его нижнюю и верхнюю границы 0.2 и 0.4 Фактор В назовем oxidizer (окислитель) и введем его границы 0.4 и 0 6. После этого очистим поле единиц измерения. Обозначим фактор С fuel (горючее) и зададим границы 0.2 и 0.4. Оста- вим незаполненным поле единиц измерения (рис. 3.32). Рис. 3.32. Окно диалога для описания компонентов смеси Нажмем кнопку ОК. Система выдаст окно диалога для задания парамет- ров отклика. Назовем отклик elasticity (эластичность); поле единиц измерения оставим пустым (рис. 3.33). Нажмем кнопку ОК. На экране появится следующее окно диалога для выбора типа плана по определению смеси (рис. 3.34). С помощью кнопки со стрелкой вниз раскроем список доступных планов. Выберем Simplex-Centroid — симплексный центроидный план, затем нажмем кнопку ОК. На экране появится окно диалога для задания параметров вы-
88 Глава 3. Планирование эксперимента бранного экспериментального плана. Отметим, что название выбранного пла- на будет идти верхней строкой в последующих окнах диалога. Рис. 3.33. Окно диалога для описания отклика Рис. 3.34. Окно диалога для выбора типа экспериментального плана Заполним окно диалога. В поле задания типа модели выберем Special Cu- bic (специальная кубическая). Специальная кубическая модель в нашем слу- чае представляет собой квадратическую модель плюс взвешенное произведение трех компонентов смеси. Переключатель поставим в положение Augment De- sign (расширенный план) и снимем флажок Randomize (рандомизация). За- полненное окно диалога приведено на рис. 3.35. Рис. 3.35. Окно диалога для задания параметров плана по определению смеси
розроб°тко и онолиз экспериментального плана по определению смесей 89 Нажмем кнопку ОК. Система выдаст сводку выбранного типа экспери- ментального плана (рис. 3.36). Рис. 3-36. Сводка плана эксперимента Данная сводка включает в себя название плана и его тип, а также комментарии, которые были ранее введены. Кроме того, выдается общая ин- формация о компонентах, отклике и испытаниях. После просмотра этого ма- териала его нужно сохранить. Задание имени и сохранение плана эксперимента Выберем из меню File | Save Design File As. Появится соответствующее окно диалога (рис. 3.37). Назовем наш план rocket.sfx и нажмем кнопку ОК. Теперь все приготовлено для проведения разработанного плана в жизнь, сбора и ввода экспериментальных данных для дальнейшей обработки. Экспе- риментальная информация приведена в табл. 3.3. Рис. 3.37. Сохранение экспериментального плана
90 Глово 3. Плонировоние эксперимента Таблица 3.3. Данные эксперимента №,л/п. block; Jbinder . -oxidizer •3&fue| 1 1 0.4 0.4 0.2 2350 2 1 0.2 0.6 0.2 2450 3 1 0.2 0.4 0.4 2650 4 1 0.3 0.5 0.2 2400 5 1 0.3 0.4 0.3 2750 6 1 0.2 0.5 0.266637 2950 7 1 0.266667 0.466667 0.233333 3000 8 1 0.333333 0.433333 0.233333 2690 9 1 0.233333 0.533333 0.233333 2770 10 1 0.233333 0.433333 0.333333 2980 Ввод экспериментальных данных Раскроем электронную таблицу с названием Rocket. Внесем в нее данные для 10 откликов, полученные экспериментальным путем. Выполним команду File | Save Design File. Система сохранит введенные данные. Анализ экспериментальных данных Выберем из меню Special | Experimental Design | Analyze Design. На экране появится окно диалога для ввода анализируемых переменных. Дважды щелкнем левой кнопкой мыши на переменной elastisity и нажмем кнопку ОК. Система выдаст сводку проведенного анализа (рис. 3.38) Рис. 3-38. Сводка результатов анализа экспериментальных данных В сводке приведены условные суммы квадратов, средние квадраты, F-ста- тистики и p-значения для каждого типа полиномиальной модели. Из получен- ных цифр следует, что статистически значимые эффекты наблюдаются у квадратической и специальной кубической моделей (p-значения меньше 0.05). В таблице также показаны значения SE (квадратные корни из средних квад-
Розро^отко и онолиз экспериментального плоно по определению смесей 91 ратов ошибок), R-квадраты и скорректированные R-квадраты. Так как у спе- циальной кубической модели SE меньше, а значения R-квадратов больше, чем у квадратической модели, дальнейший анализ будет ориентирован на специ- альную кубическую модель. Нажмем кнопку табличных опций (вторая слева в верхнем ряду); на экра- не появится соответствующее окно диалога. Установим флажок Model Results (результаты модели) и нажмем кнопку ОК- Система отобразит во втором табличном окне статистики, рассчитанные для специальной кубической модели. Дважды щелкнем на этом втором окне для максимального увеличения его размеров (рис. 3.39). sped al Си bi с Model Ft tting Resul ts -For el as ti d ty Parameter Estimate Standard Error a: binder в: oxidizer z:fuel AB BC ABC 2351.17 2445.71 2652.98 -6.24733 1006-3 1597.39 6141.1 9.91517 9.91517 9.91517 49.9109 49.9109 49.9109 329.045 -0.12517 20.202 32.0048 18.6634 0.9033 0.0003 0.0001 о.оооз ^-squared - 99.9368 percent Ч-squared (adjusted for d.f.j - 99.8165 percent Standard Error of Est. - 10.2566 'lean absolute error - 4.2611 Durbin-Watson statistic - 3.02852 The StatAdvisor Thi $ pane displays the equati on of the fitted s ped al cubi c model. Puc. 3-39. Результаты расчетов специальной кубической модели Как следует из полученных цифр, все члены специальной кубической модели имеют значимые эффекты (р<0.05), кроме одного члена АВ. Испы- таем специальную кубическую модель в целом с помошью дисперсионного анализа. Вызовем еще раз окно диалога табличных опций. Установим флажок ANOVA Table (таблица дисперсионного анализа). Система добавит на экран окно с указанной таблицей. Дважды шелкнув на нем левой кнопкой мыши, увеличим размеры таблицы (рис. 3.40). Таблица дисперсионного анализа показывает весьма неплохие результаты для подобранной специальной кубической модели (p-значение гораздо меньше 0.05). Чтобы проиллюстрировать данные результаты, обратимся к графиче- ским отображениям. Нажмем кнопку графических опций (третья слева в верхнем ряду); систе- ма выдаст окно диалога для их задания. Выберем два графика отклика Response и нажмем кнопку ОК. Правую часть экрана займут график поверхности отклика и контурный график. Дважды щелкнем левой кнопкой мыши для максимизации размеров верх- него графического окна (рис. 3.41)
92 Глове 3. Плонировоние эксперимента Рис. 3-40. Таблица дисперсионного анализа Рис. 3-41. График поверхности отклика На графике поверхности отклика хорошо видны минимум и максимум от- клика и можно приблизительно оценить относительные доли компонентов ра- кетного топлива, при которых достигается наибольшая эластичность. Для точного определения этих долей рассмотрим второй график. Дважды щелкнем левой кнопкой мыши на нижнем графическом окне. Оно распахнется на все рабочее поле экрана (рис. 3.42). На графике легко видеть, что значение эластичности 3000 лежит вблизи доли связующегб вещества 0.25, доли окислителя 0.45 и доли горючего 0.25. Более точные значения пропорций компонентов следующие: связывающее ве- щество — 0.26667; окислитель — 0.46667 и горючее — 0.26667. Чтобы ис- пользовать эти результаты в дальнейшем, требуется оценить точность предсказания значения эластичности по построенной модели. Нажмем кнопку табличных опций и получим доступ к требуемому окну диалога. Установим флажок Predictions (предсказания) и нажмем кнопку ОК. Система рассчитает и отобразит результаты в четвертом табличном окне.
разработке и онолиз экспериментального плоно по определению смесей 93 Рис. 3-42. Контурный график поверхности отклика Дважды (рис. 3.43). щелкнем на окне предсказаний, максимизируя его размеры Рис. 3.43. Оценки для предсказания значений эластичности В приведенной таблице мы имеем в дополнение к прежним результатам значения эластичности, предсказанные моделью в сравнении с реальными данными, а также верхние и нижние границы 95% доверительного интервала для этих значений. Теперь можно сказать, что работа по анализу экспериментальных данных полностью завершена.
АНАЛИЗ ВРЕМЕННЫХ РЯДОВ ДЕСКРИПТИВНЫЕ МЕТОДЫ: ОЦЕНИВАНИЕ ПОТРЕБНЫХ СКЛАДСКИХ ЗАПАСОВ НА ПРОИЗВОДСТВЕ ПРОДУКТОВ ПИТАНИЯ.............................................96 Проведение анализа..............................96 Общий взгляд на временной ряд...................98 Определение регулярностей временного ряда.......98 Графическое отображение результатов анализа....100 Определение сезонной компоненты................101 Предварительный выбор модели для прогнозирования складских запасов..............................102 СГЛАЖИВАНИЕ ВРЕМЕННОГО РЯДА: ДИНАМИКА КАЧЕСТВА ПРОДУКЦИИ ЦЕМЕНТНОГО ЗАВОДА...............103 СЕЗОННАЯ ДЕКОМПОЗИЦИЯ: ИССЛЕДОВАНИЕ ДИНАМИКИ ПРОДАЖ АВТОМОБИЛЕЙ........................108 Подготовка к анализу...........................109 Рассмотрение результатов.......................110 Графическое отображение результатов............110 ПРОГНОЗИРОВАНИЕ ПОТРЕБНОСТЕЙ В ПЛАСТИКОВЫХ УПАКОВКАХ НА ФАРМАЦЕВТИЧЕСКОМ ПРОИЗВОДСТВЕ.. 113 Исследование свойств временного ряда................113 Применение дифференцирования первого порядка........116 Построение модели прогнозирования...................118 Дополнительная проверка модели......................120
Многие экспериментальные данные представляют собой временные после- довательности. Наиболее часто они встречаются в экономике, маркетинге, де- МОграФических исследованиях, в задачах управления процессами и др. При- ведем примеры. а В экономике это могут быть цены на акции, объем экспорта или доходы компании. а В маркетинге анализ временных рядов применяется, когда необходимо изучить цифры продаж в удачные недели, месяцы или годы. а В метеорологии, морских дисциплинах и геофизике известно много типов временных рядов, подлежащих изучению. В частности, сюда относится исследование закономерностей выпадения осадков или изменения темпера- туры в какое-либо время года. • В задачах управления процессами нередко возникают проблемы выделения факторов, изменяющихся во времени и влияющих на качество производст- венных процессов и т. п. Планирование и прогнозирование во всех перечисленных областях осно- вывается на анализе временных рядов. Например, в менеджменте и адми- нистрировании при принятии каких-либо решений постоянно требуется учи- тывать возможные сезонные или иные колебания оцениваемых факторов. Вместе с тем прогнозирование служит ценным дополнением для повышения эффективности планирования. Анализ временных рядов обычно начинают с описательных методов. Сюда относится вычисление основных статистик, автокорреляционной функции, ча стной автокорреляционной функции, периодограммы, оценки спектральной плотности, кросс-спектра и кросс-корреляционной функции. Результаты рас- сматриваются в табличной и графической формах, дающих первое представ- ление об особенностях анализируемых данных. Затем нередко требуется демпфировать вариации временного ряда. Для этого применяется широкий набор математических процедур сглаживания, сопровождающихся удобными для восприятия графическими отображениями. Если временной ряд имеет специфические свойства, связанные с наличием в нем регулярных и нерегу- лярных компонент, то применяют методы сезонной декомпозиции. Эти методы позволяют вычленить, визуализировать и описать по отдельности тренды, циклы, точки излома, сезонные колебания, ошибки или выбросы. Такой ана- лиз дает возможность строить достаточно точные модели временного ряда, об- ладающие хорошими прогнозирующими свойствами Модуль анализа временных рядов (АВР) в STATGRAPHICS Plus for Windows включает четыре основных блока: • Описательные методы: график временного ряда, автокорреляции, перио- дограмма, тест рандомизации, кросс-корреляции. • Сглаживание: простое скользящее среднее, скользящее среднее Спенсера, взвешенное скользящее среднее Хендерсона, экспоненциальное взвешенное скользящее среднее.
9,5 Слово 4. Анолиз временных рядов • Сезонная декомпозиция: мультипликативная, аддитивная. • Прогнозирование: ARIMA Бокса-Дженкинса, случайный поиск, среднее, линейный тренд, квадратичный тренд, экспоненциальный тренд, S-кривая, скользящее среднее, простое экспоненциальное сглаживание, линейное экспоненциальное сглаживание Брауна, линейное экспоненциальное сгла- живание Хольта, квадратичное экспоненциальное сглаживание, экспонен- циальное сглаживание Винтера. Как видно из приведенного списка, модуль анализа' временных рядов STATGRAPHICS Plus for Windows предлагает полное математическое обеспе- чение для построения моделей данных, изменяющихся во времени. Единожды инсталлированный АВР модуль становится частью STATGRAPHICS Plus for Windows, наследуя все присущие системе общие и уникальные свойства: DDE, StatFolio (ваш собственный статистический проект), интерактивную графику с настраиваемыми графическими отображениями и поддержкой 32- разрядного кода. Дескриптивные методы: оценивание потребных складских запасов на производстве продуктов питания В этом примере будет воспроизведено исследование, предпринятое одной из компаний по производству продуктов питания. У компании возникла необхо- димость в оценке потребных складских запасов сгущенного молока. Цель — быть уверенными, что запасы поддерживаются на самом низком уровне, дос- таточном, однако, для удовлетворения возникающего иногда повышенного спроса на этот продукт. В качестве данных, подвергнутых анализу, использо- вались ежемесячные складские записи с января 1981 по декабрь 1990 года. Они приведены в табл. 4.1. Занесем их в электронную таблицу STATGRA- PHICS с именем tsdata2.sf и назовем наш временной ряд evapmilk. Проведение анализа Выберем Special | Time-Series Analysis | Descriptive Methods. Система вы- даст окно диалога для ввода данных. Дважды щелкнем левой кнопкой мыши на переменной evapmilk для ввода ее в окошко Data. Поставим переключатель в положение Month(s) — месяц(ы). В поле Starting At (начать с) запишем 1/81. Тем самым задаем началь- ную точку анализа — январь 1981 г. Так как пока еще неизвестно, имеют ли анализируемые данные сезонную компоненту, оставим незаполненным поле Seasonality. Также оставим пустым поле Select. Окно диалога изображено на рис. 4 1. Нажмем кнопку ОК. Система выдаст первичную сводку анализа для пе- ременной evapmilk. В этой сводке показано общее число наблюдений, старто- вый индекс и интервал временного ряда.
97 Таблица 4.1. Складские записи запасов сгущенного молока Дескриптивные методы: оценивание потребных складских запасов на производстве продуктов питания —-— Дата Запасы Дата Запасы Дата Запасы Дата Запасы янв 81 134.38 июл 83 133.64 янв 86 44.53 июл 88 120.19 фев 81 69.39 авг 83 67.14 фев 86 49.58 авг 88 134.38 мар 81 67.63 сен 83 95.58 мар 86 57.39 сен 88 135.97 апр 81 51.25 окт 83 89.37 апр 86 76.76 окт 88 113.83 май 81 103.97 ноя 83 75.24 май 86 104.57 ноя 88 84.38 июн 81 133.83 дек 83 69.18 июн 86 125.41 дек 88 70.28 июл 81 162.37 янв 84 54.49 июл 86 143.11 янв 89 65.96 авг 81 172.91 фев 84 57.50 авг 86 136.35 фев 89 56.36 сен 81 163.01 мар 84 62.16 сен 86 135.15 мар 89 49.57 окт 81 151.50 апр 84 76.67 окт 96 131.70 апр 89 68.33 ноя 81 111.73 май 84 110.04 ноя 86 96.87 май 89 90.32 дек 81 88.58 июн 84 127.38 дек 86 70.63 июн 89 117.06 янв 82 74.29 июл 84 156.47 янв 87 66.29 июл 89 134.69 фев 82 63.98 авг 84 167.56 фев 87 63.49 авг 89 131.67 мар 82 61.18 сен 84 153.54 мар 87 62.97 сен 89 129.25 апр 82 76.48 окт 84 124.08 апр 87 66.43 окт 89 118.77 май 82 107.98 ноя 84 100.97 май 87 101.49 ноя 89 88.44 июн 82 124.97 дек 84 79.17 июн 87 127.69 дек 89 76.79 июл 82 145.57 янв 85 68.13 июл 87 133.21 янв 90 75.28 авг 82 140 20 фев 85 61.77 авг 87 158.72 фев 90 73.89 сен 82 143.84 мар 85 54.31 сен 87 148.61 мар 90 76.24 окт 82 138.8 апр 85 60.30 окт 87 134.31 апр 90 88.58 ноя 82 104.06 май 85 84.18 ноя 87 100.99 май 90 105.83 дек 82 74.70 июн 85 104.05 дек 87 75.16 июн 90 115.84 янв 83 60.18 июл 85 114.66 янв 88 59.74 июл 90 127.76 фев 83 55.16 авг 85 105.55 фев 88 52.87 авг 90 131.75 мар 83 35 62 сен 85 96.61 мар 88 52.07 сен 90 119.63 апр 83 56.18 окт 85 70.94 апр 88 57.38 окт 90 93.38 май 83 85.44 ноя 85 63.91 май 88 79.43 ноя 90 75.55 июн 83 114.08 дек 85 58.61 июн 88 101.40 дек 90 51.79 Рис. 4.1. Пример заполнения окна диалога для ввода данных
98 Глобо 4. Анолиз временных рядов Общий взгляд на временной ряд Нажмем кнопку графических опций (третья слева в верхнем ряду). Появится соответствующее окно диалога. Установим флажок Horizontal Time Sequence Plot (горизонтальный гра- фик временной последовательности) и нажмем кнопку ОК. Система добавит на рабочее поле окно с графически представленными данными. Максимизируем размеры этого окна, дважды щелкнув на нем левой кноп- кой мыши (рис. 4.2). Рис. 4.2. Горизонтальный график временной последовательности На приведенном графике по оси абсцисс отложено время, а по оси орди- нат — значения анализируемой переменной. Из графика видно, что времен- ной ряд обладает выраженной цикличностью со множеством вершин и впадин. Вместе с тем также заметно, что временной ряд в целом стационарен. То есть среднее значение анализируемой переменной и ее дисперсия являются прибли- зительно постоянными, не изменяющимися во времени. Для получения более глубоких суждений о временном ряде рассмотрим теперь коэффициенты автокорреляции и применим тест на наличие регуляр- ных и нерегулярных компонент. Свернем окно с горизонтальным графиком временного ряда, дважды щелк- нув на нем левой кнопкой мыши. Определение регулярностей временного ряда Нажмем кнопку табличных опций (вторая слева в верхнем ряду) и получим окно диалога для выбора типа численных расчетов. Установим флажки Autocorrelations (автокорреляции) и Tests for Ran- domness (тестына нерегулярность). Нажмем кнопку ОК. Система добавит еще две табличные панели на рабо- чее поле экрана (рис. 4.3).
деофиптивные методы: оценивоние потребных склодских зопосов но производстве продуктов питания_____99 Развернем окно с расчетами автокорреляций, дважды щелкнув на нем ле- вой кнопкой мыши (рис. 4.4). Рис. 4.3. Табличные и графические окна анализа временного ряда с помощью дескриптивных методов Рис. 4.4. Таблица коэффициентов автокорреляции Просмотрим представленную таблицу целиком, используя вертикальную линейку прокрутки. Автокорреляции используются для того, чтобы определить, свободна или несвободна анализируемая переменная от регулярностей. Полностью случай- ный временной ряд (типа белого шума) будет иметь коэффициенты корреля- ции при различных лагах около 0. Если же во временном ряде присутствует некоторая регулярная компонента, то найдутся лаги, для которых значения коэффициентов автокорреляции выйдут за пределы 95% доверительных гра- ниц. В нашем случае 11 из 24 коэффициентов автокорреляции не попадают внутрь 95% доверительных границ. Поэтому резонно считать, что исследуемая
100 Главе 4. Анализ временных рядов переменная evapmilk имеет выраженную регулярность. Это будет хорошо видно па графическом отображении автокорреляционной функции. Графическое отображение результатов анализа Двойным щелчком мыши минимизируем размеры окна с автокорреляционны- ми коэффициентами. Нажмем кнопку графических опций — система предоставит окно диалога. Установим флажок Autocorrelation Function и нажмем кнопку ОК. На рабочем поле анализа данных появится еще одно графическое окно с автокор- реляционной функцией. Дважды щелкнем на окне с автокорреляционной функцией левой кнопкой мыши и тем самым максимизируем его размеры (рис. 4.5). Рис. 4.5. Автокорреляционная функция временного ряда Полученный график хорошо иллюстрирует, что изучаемый временной ряд не является чисто случайной переменной. Его регулярность отчетливо выра- жается в значительном превышении 95% доверительной границы величины ав- токорреляционной функции для лагов 1 и 2. Можно сделать и более сильное утверждение — график демонстрирует не просто регулярность во временном ряде, а наличие циклической, близкой к гармонической компоненты. Минимизируем размеры окна с автокорреляционной функцией. Двойным щелчком максимизируем размеры окна с результатами тестов на нерегулярность временного ряда (рис. 4.6). В системе применяются три теста на нерегулярность'временного ряда. В первом тесте рассчитывается, сколько раз значение анализируемой пе- ременной выше или ниже медианы распределения. В нашем случае рассчитан- ное число составляет 24, тогда как для случайной последовательности оно должно было бы быть равно 61. При этом p-значение меньше 0.01, поэтому гипотеза о нерегулярности временного ряда отвергается с 99% доверительной вероятностью. Во втором тесте вычисляется, сколько раз временной ряд повышался или понижался. Для нашей последовательности данная величина равняется 25, а
Десфиптивные методь1: °Це™воние потребных склодских зопосов но производстве продуктов питания Ю1 для случайной последовательности она составила бы 79.66. Здесь также гипо- теза о нерегулярности временного ряда отвергается с 99% доверительной веро- ятностью. Третий основан на анализе суммы квадратов последовательности чисел. Для него р значение также меньше 0.01. На основании результатов трех тес- тов. каждый из которых чувствителен к различным аспектам отклонения от случайной последовательности, можно с большой уверенностью утверждать, что проанализированный временной ряд имеет выраженную регулярную ком- поненту. Рис. 4 6. Результаты тестирования временного ряда на случайность Определение сезонной компоненты Для определения сезонной компоненты временного ряда построим график пе- риодограммы и получим соответствующие табличные данные. Нажмем кнопку графический опций. Откроется требуемое окно диалога. Рис. 4- 7. Периодограмма исследуемого временного ряда
102 Глова 4. Анализ временных рядов Установим флажок Periodogram и нажмем кнопку ОК. Система добавит на рабочее поле анализа еще одно графическое окно Дважды щелкнув левой кнопкой мыши на окне с периодограммой, макси- мизируем его размеры (рис. 4.7). Полученная периодограмма имеет один выраженный острый пик. Это ука- зывает на наличие во временном ряде сезонной компоненты. Для более точно- го определения параметров сезонной компоненты нужно взглянуть на таблич- ные данные. Минимизируем размеры окна с периодограммой. Нажмем кнопку табличных опций. Система выдаст окно диалога для вы- бора требуемых табличных форм. Установим флажок Periodogram Table (таблица периодограммы) и на- жмем кнопку ОК. Система добавит на рабочее поле анализа затребованное табличное окно. Двойным щелчком мыши раскроем окно с таблицей периодограммы на все рабочее поле (рис. 4.8). Рассмотрим подробно представленную таблицу, используя вертикальную полосу прокрутки, расположенную справа. Рис. 4.8. Табличные данные периодограммы временного ряда Посмотрим на самую большую ординату. Ей соответствует тот острый и высокий пик, который мы видели на графике периодограммы. Из таблицы точно определяем значение ординаты 99 749-2 и период, который составляет ровно 12 месяцев Предварительный выбор модели для прогнозирования складских запасов Нажмем кнопку графических опций. Система предоставит окно диалога. Установим флажок Partial Autocorrelation Function (функция частных автокорреляций) и нажмем кнопку ОК. Система добавит на рабочее поле еще одно затребованное графическое отображение.
фдоживоние временного рядо: диномико кочесгео продукции цементного зоводо 103 Развернем двойным щелчком мыши это окно на все рабочее поле (рис. 4.9). Рис. 4.9. Функция частных автокорреляций анализируемого временного ряда По функции частных автокорреляций можно приблизительно определить вид модели для прогнозирования необходимых складских запасов сгущенного молока. Отметим, что последний столбик на графике, который выпадает за 95% доверительные границы, приходится на лаг с номером 3. Это означает, что подходящая для прогнозирования модель может включать до 3-х членов авторегрессии. Также, вероятно, в модель должен быть включен член, учиты- вающий разницу между сезонами. Более подробно особенности выбора модели для прогнозирования временного ряда будут рассмотрены ниже в разделе «Прогнозирование потребностей в пластиковых упаковках на фармацевтиче- ском производстве». Сглаживание временного ряда: динамика качества продукции цементного завода В настоящем примере рассматривается временной ряд, представляющий собой ежедневные измерения качества продукции цементного завода. Данные взяты из кн.: Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статисти- ка' Основы моделирования и первичная обработка данных. Справочное пзд (М.: Финансы и статистика, 1983). Измеряемая величина — среднее сопротивление сжатию контрольных кубов (кг/кв. см). Исследования проводились 45 рабочих дней. В первоис- точнике приводится результат оценивания временного ряда на предмет слу- чайного распределения. Для этого оценивания применялся критерии квадратов последовательных разностей (критерий Аббе) и был сделан вывод, что ряд «неслучаен» и «Причина подобной «неслучайности» выборки кроется по-видимому, в наличии некоторых систематических тенденций в поведении исследуемой случайной величины (во времени)».
104 Глове 4, Анолиз временных рядов Мы продолжим исследование и визуализируем экспериментальные данные для определения некоторых параметров цикличности. Исходные цифры при- ведены в табл. 4.2. Внесем экспериментальные данные в электронную таблицу STATGRA- PHICS Plus for Windows, назовем исследуемую переменную cement и сохра- ним данные в файле под таким же именем. Таблица 4.2. Исходные данные ^$ег.П:/д. Сопротивление № п п . Сопротивление № и/и Сопротивлеиие^ 1 40 16 23 31 90 2 33 17 47 32 111 3 75 18 52 33 92 4 18 19 98 34 109 5 62 20 97 35 72 6 33 21 73 36 28 7 38 22 85 37 56 8 69 23 88 38 17 9 65 24 40 39 52 10 100 25 42 40 86 И 124 26 51 41 75 12 91 27 23 42 102 13 79 28 75 43 107 14 42 29 52 44 77 15 63 30 126 45 45 Осуществим первое знакомство с временным рядом — взглянем на его графическое отображение. Выберем Special | Time-Series-Analysis | Descrip- tive Methods. На экране появится окно диалога ввода данных для анализа с помощью дескриптивных методов Введем в поле Data переменную Cement, остальные поля оставим без изменения. Нажмем кнопку ОК. На экране будет отображена первичная сводка ана- лиза с общими характеристиками принятого к обработке временного ряда. Нажмем кнопку графических опций (третья слева в верхнем ряду) и уста новим флажок Horizontal Time Sequence Plot (горизонтальный график вре- менного ряда). Щелкнем на кнопке ОК; система добавит на рабочее поле анализа окно с требуемым графическим отображением (рис. 4 10). Рис. 4 10. Графическое отображение анализируемого временного ряда
{j/юживоние временного ряде: диномико кочество продукции цементного зоводо ]Q5 --------- Как видно из рисунка, во временной последовательности ощущается опре- деленная цикличность. Однако это ощущение является несколько «размы- ТЬ1М» из-за сильной изломанности графика на некоторых интервалах. Испытаем временной ряд на наличие в нем регулярностей. Нажмем кноп- ку табличных опций и установим флажок Tests for Randomness (тесты на регулярность). Нажмем кнопку ОК и двумя щелчками левой кнопки мыши развернем появившееся табличное окно на все рабочее поле анализа (рис. 4.11). Рис. 4.11. Результаты тестирования временного ряда на наличие регулярностей Как уже говорилось в предыдущем разделе, первый тест базируется на подсчете числа значений переменной, которые лежат выше или ниже медианы распределения. По результатам этого теста гипотеза о случайном характере временной последовательности может быть отброшена с вероятностью 99%. Третий тест Бокса-Пирса основан на сумме квадратов (в нашем случае 15) коэффициентов автокорреляции. Он также с 99% вероятностью свидетельст- вует о наличии регулярностей. Вместе с тем второй тест, основанный на подсчете числа повышения и по- нижения значений переменной, говорит об обратном — он «не видит» регу- лярностей в анализируемой последовательности цифр. Однако в целом два против одного. Следовательно, результаты тестирова- ния «голосуют» за наличие регулярностей в исследуемом временном ряде. Справедливость такого вывода подгверждает StatAdvisor (СтатКонсультант), вызов которого осуществляется с помощью соответствующей пиктограммы. Противоположный вывод, сделанный по результатам второго теста, имеет, по-видимому, причиной отмеченную выше изломанность графика временной последовательности. Поэтому обратимся теперь к процедурам сглаживания анализируемого временного ряда. Выберем Special | Time-Series-Analysis | Smoothing (сглаживание). На экране появится окно диалога ввода данных для процедур сглаживания вре- менного ряда. Введем в поле Data переменную Cement, остальные позиции оставим без изменений (рис. 4.12).
106 Глава 4. Анализ временных рядов Нажмем кнопку ОК; на экран выдается первичная сводка с общими сведениями об анализируемых данных. Здесь же указано, что по умолчанию система использовала в качестве процедуры сглаживания метод простого скользящего среднего и сама определила количество членов ряда 5 в качестве параметра этого метода. Рис. 4.12. Окно диалога ввода данных для работы процедур сглаживания временного ряда Нажмем кнопку графических опций и установим флажок Time Sequence Plot (график временного ряда). Щелкнем на кнопке ОК. Развернем график на все рабочее поле анализа (рис. 4.13). Рис. 4.13. График сглаженного временного ряда По всей видимости система достаточно хороню автоматически подобрала параметр сглаживания в процедуре простого скользящего среднего. Мешаю-
Плохивоние временного ряде: диномико кочество продукции цементного зоводо 107 ц;;:с восприятию изрезанности графика исчезли, и сразу же отчетливо проявилась цикличность в нашей временной последовательности. Можно, ко- нечно, попытаться подобрать другое значение параметра или иной метод сглаживания — для этого достаточно щелкнуть правой кнопкой мыши и полу- чить окно диалога для их задания и выбора из большого числа вариантов, предоставляемых системой. Сглаженный временной ряд имеет выраженные спады и подъемы с доста- точно определенной периодичностью. Ее можно оценить по графику — она составляет 10~12 рабочих дней. Для более точного определения периода спадов качества производимого заводом цемента обратимся снова к блоку дескриптивных методов. Выберем Window | Descriptive Methods — Cement — на экране появится ранее инициализированное рабочее поле обработки данных дескриптивными методами со всеми табличными и графическими окнами. Нажмем кнопку графических опций и в появившемся окне диалога уста- новим флажок Periodogram (периодограмма). Нажмем кнопку ОК. На рабочем поле анализа появится выбранное гра- фическое отображение экспериментальных данных. Максимизируем его раз- меры (рис. 4.14). Рис. 4.14. Периодограмма временного ряда Нажмем кнопку табличных опций и установим флажок Periodogram Table (таблица периодограммы). Нажмем кнопку ОК и максимизируем размеры окна с табличными данны- ми периодограммы (рис. 4.15). На периодограмме наблюдается довольно острый и высокий пик, что сви- детельствует о наличии во временной последовательности периодичности. Точные координаты пика мы черпаем из таблицы. Самой большой ординате периодограммы, имеющей значение 18437.9, соответствует временной период 11.25 рабочих дней. Не претендуя на строгое научное обоснование, задумаемся о смысле выяв- ленной периодичности спадов качества продукции изучаемого завода. Ее зна-
108 Глава 4. Анализ временных рядов чение равно приблизительно половине рабочих дней в месяце. А с такой периодичностью, как известно, трудящимся государственных предприятий вы- даются авансы и зарплаты. О связи выдачи денег и качества продукции не- трудно догадаться. Хотя, конечно, возможный другие объяснения... Periodogram Tor Cement -requency cirdi пасе integrated Periodogram Cimul atlve Sum 0.0 3.0222222 С.0444444 0.0666667 Э.0888889 □.111111 0.133333 0.155556 0.177778 0.2 0.222222 0.244444 0.266667 0.288889 0.311111 0.333333 0.355556 0.377778 0.4 Period 4.09091 3.75 3.48154 3.21429 3.0 2.8125 2.64708 3.59019Е-29 792.348 1539.3 878.746 18437.9 2575.71 2506.47 550.19 11.8494 166.916 738.677 648.895 130.453 1278.78 1814.55 3.59019Е-29 792.348 2331.65 3210.39 21648.3 24224.0 26730.5 27280.7 27292.5 27459.4 27754.7 28493.4 28917.9 29566.8 29697.2 29952.5 31231.2 31569.1 33383.7 9.52392Е-34 0.0210191 0.061853 0.085164 0.574277 0.642605 0.709095 0.72369 0.724005 0.728433 0.736267 0.755862 0.767122 0.784336 0.787796 0.794567 0.82849 0.837453 0.885589 Puc. 4.15. Таблица с данными no периодограмме временного ряда Сезонная декомпозиция: исследование динамики продаж автомобилей Одной из целей анализа временных (динамических) рядов является разложе- ние (декомпозиция) ряда на его составляющие. Во временном ряде различают четыре основные составляющие: • тенденция (или тренд); • циклические долговременные колебания; • сезонные (кратковременные) колебания; • случайные колебания. Наглядным и полезным примером разложения ряда может служить де- композиция последовательности, представляющей собой объемы месячных продаж автомобилей. Множество факторов влияет на зти цифры: время года, состояние экономики, характеристики автомобилей и т. д. Очевидно, подоб- ные данные являются сезонными, имеют выраженную цикличность и испыты- вают случайные колебания. В настоящем примере будут использованы данные объемов месячных про- даж автомобилей ведущих американских фирм за шесть лет с января 1982 по декабрь 1987 года. Эти данные заимствованы из книги Makridakis W. S., Wheelwright S. С. (1989). Forecasting Methods for Manadgement, fifth edition (N. Y.: Wiley). Они приведены в табл. 4.3. Внесем приведенные цифры продаж в электронную таблицу ST ATGRA- PHICS Plus for Windows и присвоим имя временной последовательности: sales. Сохраним введенные данные в файле Carsales.sf.
фзонноя декомпозиция: исследование диномики продаж автомобилей 109 Таблица 4.3. Объемы месячных продаж автомобилей ГДата Продажей Лата Продажи jkya. Продажи „Дата Продажи янв 82 5987.7 июл 83 27498.8 янв 85 37239.5 июл 86 33728.4 фев 82 13104.9 авг 83 22993.8 фев 85 33713.6 авг 86 28708.6 мар 82 16807.4 сен 83 21445.7 мар 85 48674.1 сен 86 41090.1 апр 82 8265.4 окт 83 28729.6 апр 85 66635.8 окт 86 22364.2 май 82 12009.9 ноя 83 27837.0 май 85 54846.9 ноя 86 19063.0 июн 82 6091.4 дек 83 26179.0 июн 85 30037.0 дек 86 27251.9 и юл 82 5948.1 янв 84 28044.4 июл 85 32842.0 янв 87 26106.2 авг 82 7970.4 фев 84 29770.4 авг 85 46786.4 фев 87 43969.1 сен 82 13437.0 мар 84 37508.6 сен 85 46239.5 мар 87 42028.4 окт 82 8769.1 апр 84 39435.8 окт 85 27295.1 апр 87 35777.8 поя 82 12838.3 май 84 46766.7 ноя 85 29695.1 май 87 23155.6 дек 82 10414.8 июн 84 38927.2 дек 85 44988.9 июн 87 25992.6 янв 83 12503.7 июл 84 39238.3 яп в 86 44516.0 июл 87 26948.1 фев 83 13874.1 авг 84 34993.8 фев 86 40712.3 авг 87 29400.0 мар 83 19164.2 сен 84 37118.5 мар 86 29677.8 сен 87 25391.4 апр 83 23272.8 окт 84 30745.7 апр 86 34840.7 окт 87 24472.8 май 83 26069.1 ноя 84 30018.5 май 86 43342.0 ноя 87 21512.1 июн 83 33858.0 дек 84 29575-3 июн 86 44858.0 дек 87 25627.2 Подготовка к анализу Выберем Special | Time series Analysis | Seasonal Decomposition. Система предоставит окно диалога для ввода данных. Введем переменную sales в поле Data. Установим переключатель в положение Month(s) — месяц(ы). В поле Starting At запишем дату, соответствующую началу временного ряда 1/82. В поле Seasonality (сезонность) запишем 12 — число месяцев в году. Ос- тальные поля окна диалога оставим без изменении (рис. 4.16). Рис. 4.16. Окно диалога для ввода данных
ПО Глсвс 4. Анолиз временных рядов Нажмем кнопку ОК. Система выдаст на рабочее поле первичную сводку обработки данных в блоке процедур сезонной декомпозиции. В этой сводке приведены: общее количество наблюдений, начальная дата (стартовый ин- декс) и временной интервал между наблюдениями. Также указывается, что система провела обработку по модели мультипликативной сезонной декомпо- зиции (эта опция задана по умолчанию). Напомним, что мультипликативная модель имеет вид y(t) = где fit) — тренд; s(t) — сезонная ком- понента и 8(f) — случайная компонента (ошибка). Рассмотрение результатов Нажмем кнопку табличных опций (вторая слева в верхнем ряду). Появится окно диалога для запроса требуемых табличных результатов анализа. Установим флажок Data Table (таблица данных). Нажмем кнопку ОК. На рабочем поле экрана появится второе окно с за- прошенной таблицей данных (рис. 4.17). Data 5987.7 13104.9 16607.4 8265.4 12009.9 6091.4 6472.86 12868.9 15057.7 6707.37 10104.1 5504.93 Seasonally Trend-Cycle seasonality irregular Adjusted Seasonal Decomposition - sales Л А.па) У5 1 5 БИТТГАГу" Data variable: Number of observations start index - 1/82 sampling interval - 1.0 month(sj Length of seasonality - 12 Seasonal Decomposition Data Table тог sales' Seasonal decomposition method: Multiplicative 1/82 2/82 3/82 4/82 5/82 6/82 Puc. 4.17. Рабочее поле экрана с первичной сводкой и таблицей данных Двойным щелчком левой кнопки мыши развернем окно с таблицей данных на все рабочее поле (рис. 4.18). В таблице приведены исходные значения анализируемого временного ряда и рассчитанные в соответствии с мультипликативной моделью значения каж- дой компоненты: тренда, сезонной компоненты и случайных колебаний. Кроме того, показаны сезонно скорректированные данные, которые представляют со- бой отношения исходных данных к соответствующим сезонным индексам. Просматривая полученные результаты, отмечаем отчетливый положитель- ный тренд для нескольких месяцев. Также по значениям сезонной компоненты видно, что наиболее высокие объемы продаж автомобилей наблюдаются в мар- те и апреле каждого года. Графическое отображение результатов Нажмем кнопку графических опций (третья слева в верхнем ряду). Появится окно диалога для выбора графических отображений.
Сезонноя декомпозиция: исследование диномики продож овтомобилей 111 .—- ' ---------------------------------------------------- Установим флажки Trend-Cycle (тренд), Seasonal Indices (сезонные ин- дексы) и Seasonally Adjusted Data (сезонно скорректированные или, иначе, сезонно приведенные данные). Рис. 4.18. Таблица с числовыми результатами проведенного анализа Нажмем кнопку ОК. Система выдаст запрошенные графические отобра- жения на рабочее поле экрана (рис. 4.19). Рис. 4.19- Табличные и графические окна в блоке процедур сезонной декомпозиции Двойным щелчком мыши развернем график тренда на все рабочее поле (рис. 4.20). На графике тренда хорошо видно, как объем продаж автомобилей посто- янно увеличивался вплоть до середины 1985 года. Затем он начал умень- шаться. Причина может быть как временной, так и отражать объективный спад в рассматриваемой отрасли промышленности. Минимизируем размер окна с графиком тренда и раскроем на все рабочее поле график с сезонно приведенными данными (рис. 4.21).
112 Глсво 4, Анолиз временных рядов На график с сезонно приведенными данными выводятся значения случай- ной компоненты с добавленным трендом. Этот график также демонстрирует спад объема продаж автомобилей, но здесь мы видим еще отдельные пики и сравнительно ровные участки. В частности, объемы продаж автомобилей по- вышались в апреле каждого года, что можно объяснить спецификой организа- ции маркетинговой деятельности автомобильных корпораций. Рис. 4.20. График тренда Рис. 4.21. График с сезонно приведенными данными Свернем рассмотренный график до минимальных размеров. Двойным щелчком мыши распахнем окно с графиком сезонных индексов (второе гра- фическое отображение) на все рабочее поле (рис. 4.22) Этот график показывает значение сезонного индекса для каждого месяца. Из него следует, что апрель был месяцем наибольших объемов продаж авто- мобилей за рассмотренный шестилетний период, а октябрь являлся наихуд шим временем года для автомобильной промышленности с точки зрения сбыта своей продукции.
Лрогнозировоние потребностей в Костиковых упоковкох но формоцевтическом производстве 113 Рис. 4.22. График сезонных индексов Прогнозирование потребностей в пластиковых упаковках на фармацевтическом производстве Настоящий пример основывается на материале, опубликованном в книге Montgomery D., Johnson L., Gardiner J. (1990). Forecasting and Time Series Analysis, second edition (N. Y.: McGraw-Hill). Рассмотрим проблему одного из фармацевтических производств. На нем возникла потребность научиться определять минимальные запасы небольших пластиковых упаковок, которых с гарантией хватило бы для работы производ- ства в течение 10 недель. Исходными данными для решения поставленной задачи служили сведения о расходе пластиковых упаковок за последние 100 недель Эти данные приве деныв табл. 4.4. Введем исходные данные в электронную таблицу STATGRAPHICS Plus for Windows, дадим им название plastic и сохраним в файле tsdata2.sf. Исследование свойств временного ряда Выберем Special | Time-Series Analysis | Descriptive Methods. Система пре- доставит окно диалога дескриптивных методов для ввода данных. Введем в поле Data имя анализируемого временного ряда plastic, другие поля окна диалога оставим без изменений (рис. 4.23). Нажмем кнопку ОК. На экране появится первичная сводка блока деск- риптивных методов. Нажмем кнопку табличных опций; система предоставит окно диалога для их задания Установим флажки Autocorrrelations (автокорреляции) и Partial Auto- corrrelations (частные автокорреляции). Нажмем кнопку ОК — на рабочее поле анализа будут помещены запрошенные таблицы.
114 Главе 4. Анализ временных рядов Таблица 4.4. Исходные данные и К-»о ’ ОЛ2К12.-,. № п п- К-Ъо №и п К-во №_п/л К-во №.П/11;. i&?O- 1 5000 21 4856 41 6066 61 5572 81 6814 2 4965 22 4959 42 6102 62 5744 82 6757 3 4496 23 5004 43 6204 63 6005 83 6765 4 4491 24 5415 44 6138 64 6239 84 6870 5 4566 25 5550 45 5938 65 6523 85 6954 6 4585 26 5657 46 5781 66 6652 86 6551 7 4724 27 6010 47 5813 67 6585 87 6022 8 4951 28 6109 48 5811 68 6622 88 5974 9 4917 29 6052 49 5818 69 6754 89 6052 10 4888 30 6391 50 5982 70 6712 90 6033 11 5087 31 6798 51 6132 71 6675 91 6030 12 5082 32 6740 52 6111 72 6882 92 5944 13 5039 33 6778 53 5948 73 7011 93 5543 14 5054 34 7005 54 6056 74 7140 94 5416 15 4940 35 7045 55 6342 75 7197 95 5571 16 4913 36 7279 56 6626 76 7411 96 5571 17 4871 37 7367 57 6591 77 7233 97 5627 18 4901 38 6934 58 6302 78 6958 98 5679 19 4864 39 6506 59 6132 79 6960 99 5455 20 4750 40 6374 60 5837 80 6927 100 5443 Рис. 4.23. Окно диалога для ввода данных Вызовем окно диалога для выбора требуемых графических отображений, нажав кнопку графических опций. Установим флажок Horizontal Time Sequence Plot (горизонтальный гра- фик временного ряда), Autocorrelation Function и Partial Autocorrelation Function (автокорреляционная и частная автокорреляционная функции). На- жмем кнопку ОК. На рабочее поле анализа будут добавлены запрошенные графические отображения.
ррогнозирсвоние потребностей в плостиксвых упоковкох но фсрмоцевтическом производстве 115 Рис. 4.24. Горизонтальный график временного ряда plastic Двойным щелчком левой кнопки мыши развернем горизонтальный график временной последовательности на все рабочее поле анализа (рис. 4.24). Из графика следует, что временной ряд имеет положительный тренд. Тем: самым расход пластиковых упаковок на фармацевтическом производстве не является стационарным процессом. Теперь посмотрим на график автокорре- ляционной функции. Двойным щелчком мыши свернем график временного ряда до минималь- ных размеров. Раскроем на все рабочее поле график автокорреляционной функции (рис. 4.25). Видно, что автокорреляционная функция медленно и постоянно понижается. Это также свидетельствует о нестационарности исследуемого процесса. Вместе с тем данный факт служит поводом для дальнейшего приме- нения дифференцирования временного ряда. Рис. 4.25. Автокорреляционная функция исходного временного ряда Двойным щелчком мыши вернем графику автокорреляционной функции исходные размеры.
116 Глове 4. Анолиз временных рядов Применение дифференцирования первого порядка Передвинем курсор на окно с первичной сводкой анализа и щелкнем правой кнопкой мыши. Система предоставит окно диалога для настроек анализа. Проставим порядок дифференцирования 1 в поле Nonseasonal Order, затем нажмем ОК (рис. 4.26). Система произведет дифференцирование изу- чаемого временного ряда и сделает соответствующие изменения во всех таб- личных и графических окнах анализа. Рис. 4.26. Ото диалога для настроек проводимого анализа Двойным щелчком мыши раскроем горизонтальный график временной по- следовательности на все рабочее поле (рис. 4.27). Рис. 4.27. Временная последовательность,подвергнутая дифференцированию Сравним его с предыдущим аналогичным графиком временной последова- тельности, которая не была подвергнута дифференцированию (см. рис. 4.24).
Ррогцсзировоние пстребностей в ппостиковых упоковксх но фсрмоцевтическом производстве_117 Похоже, чго после дифференцирования временная последовательность стала походить на стационарный процесс. Для подтверждения данного утверждения рассмотрим автокорреляции. Дважды щелкнув левой кнопкой мыши, вернем графику временной после- довательности исходные размеры. Раскроем на все рабочее поле экрана второе табличное окно с рассчитан- ными значениями автокорреляционных коэффициентов. Полученные цифры теперь говорят об отсутствии какой-либо определенной структуры в дифференцированной временной последовательности. Но, конеч- но, это еще проще увидеть на графическом отображении. Двойным щелчком мыши увеличим размеры окна с автокорреляционной функцией до максимальных (рис. 4.28). Рис. 4.28. График автокорреляционной функции дифференцированного временного ряда В отличие от графика автокорреляций исходного временного ряда, на данном графике значения автокорреляционной функции падают сразу после лага 1. Тем самым подтверждается эффективность примененного для изучения временного ряда приема — дифференцирования первого порядка. Теперь рассмотрим график частных автокорреляций. Это поможет опреде- лить приблизительный вид смешанной модели авторегрессии и скользящего среднего ARIMA. Минимизируем размеры окна с автокорреляционной функцией и двойным щелчком мыши распахнем на все рабочее поле график функции частных авто- корреляций (рис. 4.29). Построенный график частной автокорреляционной функции, как и преды- дущий график, наводит на мысль о том, что можно попытаться построить адекватную модель прогнозирования с помощью ARIMA. Двойным щелчком мыши минимизируем размеры окна с графиком частной автокорреляционной функции и затем, нажав соответствующую кнопку в пра- вом верхнем углу рабочего поля, свернем все табличные и графические окна блока дескриптивных методов в пиктограмму.
118 Глово 4. Анолиз временных рядов Рис. 4.29. График функции частных автокорреляций Построение модели прогнозирования Выберем Special | Time-Series Analysis | Forecasting (прогнозирование). Система предоставит окно диалога для ввода данных в блок процедур прогнозирования. В поле Data введем имя анализируемого временного ряда plastic. Осталь- ные поля оставим без изменений. Нажмем кнопку ОК. На экране появится первичная сводка анализа для переменной plastic. Здесь приводятся общие сведения об изучаемой временной последовательности и об исходных параметрах. Для выбора модели прогнозирования и задания ее параметров вызовем специальное окно диалога, щелкнув на сводке правой кнопкой мыши. В появившемся окне диалога поставим переключатель в положение Model А. В поле Туре (тип модели) выберем ARIMA Model (модель авторегрессии и скользящего среднего). Как только это будет сделано, автоматически акти- визируются поля для задания параметров модели ARIMA. В поле AR запишем число 0. Тем самым в данном случае в модель пока не включаются члены авторегрессии. Занесем в поле МА число 1. Это соответствует модели скользящего сред- него первого порядка. В поле Nonseasonal Order, которое размещается в поле Differencing, введем число Г — порядок дифференцирования. Остальные параметры окна диалога оставим без изменений (рис. 4.30). Нажмем кнопку ОК. Система произведет необходимые расчеты для моде- ли прогнозирования ARIMA(0,l,l) и выдаст сводку проведенных расчетов. Используя полосу прокрутки, рассмотрим результаты расчетов (рис. 4.31). Из сводки результатов проведенного анализа следует, что член скользяще- го среднего МА(1) является значимым (p-значение меньше 0.05). В то же время постоянный член не является таковым (p-значение больше 0.05). По- этому его нужно удалить из модели.
рротнозировоние потребностей в плсстиковьх упоковкох нс формсцевтическом производстве 119 Рис. 4.30. Окно диалога для выбора модели прогнозирования и задания ее параметров I Fot ОС .toting plastic Mai.' '-тмвий Forecast model selected: arimacd.I.I) with constant lumber of forecasts generated: 10 dumber of periods withheld for validation: 0 Estimation 4PE 24793.4 120.951 2.05208 -2.00266 -0.0392823 ARIMA Model SLrrmary Estimate send. Error 4AC1) 4ean Constant -0.732717 7.47652 7.47652 val 1 dati on 0.0688311 -10.6451 0.272849 0.OOOOOO 0.765550 Backforecasdng: yes Estimated white noise variance «= 25216.3 with 97 degrees of freedom Estimated white noise standard deviation - 158.797 dumber of iterations: 4 Puc. 4.31. Результаты модели ARIMA(0,1,1) для переменной plastic Для удаления константы из модели прогнозирования вызовем снова окно диалога, щелкнув правой кнопкой мыши. Снимем флажок Constant. Нажмем кнопку ОК. Система рассчитает параметры модели прогнозирова- ния без постоянного члена и отобразит полученные результаты в новой сводке. Вызовем окно диалога для выбора графических отображений результатов, нажав кнопку графических опций. Установим в окне диалога флажки Time Sequence Plot, Forecast Plot, Residual Plots и Residual Autocorrelation Function — график временной по- следовательности, график прогноза, график остатков и автокорреляционная
120 Глово 4. Анализ временных рядов функция остатков. Нажмем кнопку ОК; выбранные графические отображения разместятся на рабочем поле анализа. Нажмем кнопку табличных опций (вторая слева в верхнем ряду). Система выдаст окно диалога для выбора требуемых таблиц. Установим флажки Forecast Table (таблица прогнозов) и Residual Tests for Randomness (тесты на регулярность остатков). Нажмем кнопку ОК — на рабочее поле анализа будут выведены запрошенные табличные данные. Максимизируем размеры окна с графиком временного ряда (рис. 4.32). Рис. 4.32. График временной последовательности с линией прогноза и 95% доверительными границами На графике приведены значения исходного временного ряда и показаны количества пластиковых упаковок, спрогнозированные с помощью модели ARIMA. Кроме того, на графике изображены 95% доверительные границы для сделанных прогнозов. Для более точного восприятия этих значений обратимся к таблице прогнозов. Вернем окну с графиком временного ряда исходные размеры, дважды щелкнув на нем левой кнопкой мыши. Максимизируем размеры окна с табличными данными прогнозов (рис. 4.33). Рассмотрим таблицу, используя линейку прокрутки. Из рассчитанных по модели ARIMA(O,1,1) значений следует, что на каждой неделе из будущих де- сяти недель фармацевтическому производству потребуется в среднем 5543 пластиковых упаковки. Вернем окну с табличными данными прогнозов исходные размеры, щелк- нув на нем дважды левой кнопкой мыши. & Дополнительная проверка модели Двойным щелчком мыши развернем окно с графиком автокорреляционной функции остатков на все рабочее поле (рис. 4.34). На графике видно, что автокорреляции остатков случайным образом рас- пределены внутри интервала, ограниченного пунктирными линиями. Эти пун-
Прсгнозировоние потребностей в пластиковых упоговкох но фармацевтическом производстве 121 ктирные линии — 95% доверительные границы коэффициентов автокорреля- ции. Только одно значение автокорреляционной функции для лага 6 слегка вышло за пределы указанного интервала, что говорит о его статистической значимости.» Используем тест Бокса-Пирса для проверки на значимость авто- корреляций остатков. Рис. 4.33. Таблица с прогнозами Рис. 4.34. График автокорреляционной функции остатков Вернем окну с автокорреляционной функцией остатков исходные размеры. Двойным щелчком мыши развернем окно с тестами на регулярность остат- ков на все рабочее поле анализа (рис. 4.35). Результаты теста Бокса-Пирса говорят о том, что следует принять гипотезу равенства нулю коэффициентов автокорреляций остатков (p-значение лишь немногим превышает 0.05). Таким образом, можно считать применение моде- ли ARIMA(0,l,l) успешным для прогнозирования нужного количества пла- стиковых упаковок на фармацевтическом производстве. Вместе с тем другие
122 Глово 4. Анализ временных рядов Wns up and down Data variable: plastic odel: arxma(o,i.1) <uns above and below median 1йИ Median - 3.38322 Number of runs above and below median Expected number of runs — 50.0 Large sample test statistic 2 - 0.71078 p-value ----------- Number of runs up and down Expected number of runs 65.€667 Large sample test statistic z «• 0.44106 P-value - 0.659166 Test based on first 24 autocorrelations Large sample test statistic - 34.9933 P-value - 0.0920954 Puc. 4.35. Результаты тестов на регулярность остатков тесты указывают на возможность присутствия в остатках некоторой регуляр- ной компоненты. Кроме того, намек на такую регулярность имеется и в гра- фическом отображении автокорреляционной функции остатков (см. рис. 4.34). Все это вместе взятое дает основание для попыток подбора других моделей исследуемого временного ряда с более лучшими интерполирующими и экстра- полирующими свойствами.
КОНТРОЛЬ КАЧЕСТВА СТАТИСТИЧЕСКИЙ КОНТРОЛЬ ПРОИЗВОДСТВЕННОГО ПРОЦЕССА...................................................124 Проверка данных.......................................125 Определение исходных границ для контрольных карт......127 Исключение из анализа дефектных подгрупп измерений....129 Уверенность в контроле над процессом.........................................130 Исключение подгруппы из анализа.......................132 Периодическая оценка процесса.........................133 Графическое отображение результатов анализа соответствия процесса проектным требованиям...........134 КОНТРОЛЬ ХИМИЧЕСКОГО ПРОЦЕССА..............................135 Выявление малых изменений среднего уровня.............137 График накопленной суммы..............................138 ОЦЕНИВАНИЕ ЭФФЕКТИВНОСТИ ИЗМЕРИТЕЛЬНЫХ СИСТЕМ.....................................................139 Подготовка данных для Gage П&Р-анализа................139 Сохранение установочных данных........................140 Проведение анализа....................................141
124 Глово 5. Контроль кочество Потребитель при приобретении какого-либо товара первым делом ориен- тируется на его качество. Поэтому проблема контроля качества является ос- новной для любого предприятия. Введение в структуру производства системы контроля качества приводит не только к улучшению выпускаемого продукта, но также к уменьшению различных издержек. Статистический контроль качества — раздел математической статистики. Это обусловлено в первую очередь тем, что изменчивость основных показате- лей качества изделий носит случайный характер. Стремление сделать кон- троль более объективным приводит к необходимости использования методов случайной выборки, что также обусловливает использование вероятностных и статистических методов (Информатика в статистике: Словарь-справочник. М.: Финансыи статистика, 1994). Наиболее часто методы статистического контроля качества применяются в процессе изготовления продукции с целью выявления нежелательных откло- нений и определения требуемой наладки оборудования. Большинство таких методов основано на использовании специальных контрольных карт, наглядно отображающих данные спецификации контролируемых процессов Также широкое применение находят методы статистического приемочного контроля Они используются для определения соответствия качества партии продукции заданным требованиям. Имеются и другие методы статистического контроля качества. Ниже представлен список процедур модуля «Контроль Качества», входя- щего в состав полного комплекта STATGRAPHICS Plus for Windows. • Анализ Парето. • Анализ свойств процесса. • Контрольные карты для переменных: Х-карта и R, Х-карта и S, Х-карта и S2, индивидуальные карты, карты устойчивости. • Карты для приемочного контроля NP-карты, P-карты, С-карты, U-карты. • Карты с временными весами: карты со скользящим средним, карты с экс- поненциальным взвешенным скользящим средним. • Многомерные контрольные карты. • Воспроизводимость и повторяемость (R&R). • Настраиваемые карты. Подробное описание приведенных процедур можно найти в литературе, приведенной в конце главы. Отдельные виды процедур контроля качества охарактеризованы по ходу рассмотрения примеров. Статистический контроль производственного процесса Настоящий пример заимствован из книги Montgomery D. С., Runger G. С. (1994). Applied Statistics and Probability for Engineers (N. Y.: Wiley & Sons).
Статистический контроль производственного процесса 125 Предположим, вы являетесь инженером завода, производящего ракетные двигатели. Вам доверен участок, на котором с помощью литья изготавливают- ся специальные лопатки. На этих лопатках имеются отверстия. Одной из ва- ших задач является проверка точности соответствия параметров отверстия требуемым стандартам и взятие процесса под статистический контроль. Для проведения анализа будем использовать X и R контрольные карты, а также применим процедуру изучения возможностей процесса. Х-карта применяется для отображения количественных характеристик процесса на основе выборочных средних. Процедура построения Х-карты по- зволяет строить контрольные границы, где выборочное среднее выступает в качестве меры центральной тенденции. Базовой моделью для контрольных границ служит нормальное распределение. R-карта предназначена для контроля значимости возрастания или убы- вания изменчивости процесса. Мерой изменчивости является выборочный размах. Предполагается, что данные удовлетворяют нормальному распределе- нию. Исходные данные, которые представляют собой результаты 100 измерений диаметра контролируемого отверстия, приведены в табл. 5.1. Переменная на- звана vane (лопатка). Таблица 5.1. Результаты измерения диаметров отверстия № п/п vane №п/п vane № п/п vane № п/п vane № п/п vane * 1 33 21 33 41 28 61 27 81 35 2 29 22 34 42 33 62 32 82 34 3 31 23 35 43 35 63 34 83 34 4 32 24 33 44 36 64 35 84 30 5 33 25 34 45 43 65 37 85 32 6 33 26 38 46 38 66 33 86 32 7 31 27 37 47 33 67 33 87 33 8 35 28 39 48 32 68 35 88 30 9 37 29 40 49 35 69 37 89 30 10 31 30 38 50 32 70 36 90 33 И 35 31 30 51 28 71 35 91 25 12 37 32 31 52 30 72 37 92 27 13 33 33 32 53 28 73 32 93 34 14 34 34 34 54 32 74 35 94 27 15 36 35 31 55 31 75 39 95 28 10 30 36 29 56 31 76 33 96 35 17 31 37 39 57 35 77 33 97 35 18 33 38 38 58 35 78 27 98 36 19 34 39 39 59 35 79 31 99 33 20 33 40 39 60 34 80 30 100 30 Введем исходные данные в электронную таблицу STATGRAPHICS Plus for Windows и сохраним их в файле с именем Vanes. Проверка данных Перед началом анализа неплохо убедиться в правильности введенных данных. Для этого используем процедуры блока One-Variable Analysis (анализ одной переменной).
126 Глово 5. Контроль качество Выберем Describe | Numeric Data | One-Variable Analysis. Система вы- даст окно диалога указанного блока. Внесем имя анализируемой переменной vane в поле Data, остальные пози- ции окна диалога оставим пустыми (рис. 5.1). Рис. 5.1. Окно диалога для ввода данных Нажмем кнопку ОК; на экране появится первичная сводка анализа од- ной переменной. Рассмотрим подробнее исходные данные — проверим область значений, которая должна быть от 25.0 до 43.0. Нажмем кнопку табличных опций (вторая слева в верхнем ряду). Система выдаст на рабочее поле соответствующее окно диалога. Установим флажок Summary Statistics (общие статистики). Нажмем кнопку ОК; на рабочее поле анализа будут выведены затребован- ные данные (рис. 5.2). Рис. 5 2 Общие статистики для переменной vane Нажмем кнопку графических опций (третья слева в верхнем ряду). Установим флажок Scatterplot (диаграмма рассеивания). Нажмем кнопку ОК — на рабочем поле анализа появится второе окно с затребованным графическим отображением. Двойным щелчком мыши раскроем графическое отображение на все рабо- чее поле (рис. 5.3).
Статистический контроль производственного процесса 127 Табличные данные и графическое отображение показывают отсутствие ти- пографских и каких-либо других ошибок, которые могли быть допущены при вводе данных. Удостоверившись в корректности введенных данных, продол- л<им анализ. Рис. 5.3. Диаграмма рассеивания для переменной vane Определение исходных границ для контрольных карт Свернем окно анализа одной переменной, нажав соответствующую кнопку в правом верхнем углу Выберем Special | Quality Control | Variables Control Charts | X-bar and R. Система выдаст окно диалога для создания X и R контрольных карт. Введем в поле Observations (наблюдения) имя исследуемой переменной vane. Нажмем кнопку со стрелкой Subgroop Numbers or Size. Введем в активизированное поле число 5. Это соответствует числу измере- ний в каждой подгруппе (рис. 5.4). Оставим остальные позиции незапол- ненными. Нажмем кнопку ОК. Система выдаст сводку X и R контрольных карт для иеременной vane. В сводке приведены значения верхней контрольной границы (UCL), центральной линии (centerline) и нижней контрольной границы (LCL) для каждой карты. Также указано, что четыре подгруппы измерений выходят за пределы контрольных границ Х-карты, а для R-карты вне границ лежит од- на подгруппа измерений. Можно точно локализовать указанные подгруппы, рассмотрев отчет для подгрупп или увидеть их непосредственно на контроль- ных картах. Нажмем кнопку табличных опций; система предоставит окно диалога. Снимем флажок Analysis Summary. Установим флажок Subgroop Reports (отчетыдля подгрупп). Нажмем кнопку ОК. Система выдаст на рабочее поле затребованный отчет по подгруппам измерений (рис. 5.5). Используя полосу вертикальной прокрутки, просмотрим предоставленную таблицу целиком. В этой таблице отмечены звездочками подгруппы, не по-
128 Слово 5. Контроль качества павшие в интервал между контрольными границами. Для X карты это под- группы 6, 8, И и 19, а для R-карты - подгруппа 9. Рис. 5 4. Окно диалога для ввода данных Рис. 5.5. Отчет по подгруппам измерений для переменной vane Теперь рассмотрим графическое отображение результатов. Нажмем кнопку табличных опций. Система выдаст окно диалога для вы- бора типов числового анализа. Снимем флажок для отчетов по подгруппам, установленный ранее. Щелкнем на кнопке ОК. Нажмем кнопку графических опций. На экране появится соответствующее окно диалога. Установим флажки X-bar Chart и Range Chart (Х-карта и R-карта).
Статистический контроль производственного процессе 129 ——’ ' " ------------------------------------------------------------ Нажмем кнопку ОК. На рабочем поле анализа окажутся два окна с за- прошенными графическими изображениями (рис 5.6). Рис. 5.6. X (а) и R (б) контрольные карты для переменной vane Как показали исследования, причина выхода некоторых подгрупп за контрольные границы заключалась в нарушении процесса литья лопаток. Ус- тановив причину и устранив соответствующие недостатки производственного процесса, скорректируем контрольные карты. Такая коррекция производится посредством удаления из анализа дефектных подгрупп измерений. Исключение из анализа дефектных подгрупп измерений Нажмем кнопку табличных опций. Установим флажок Analysis Summary (сводка анализа). Нажмем кнопку ОК. На экран выдаются данные сводки анализа. Поместим курсор на окно со сводкой. Щелкнем правой кнопкой мыши. Система предоставляет окно диалога для задания опций разрабатываемых контрольных карт.
130 Глово 5. Контроль качества Нажмем кнопку Exclude (исключить); на экране появляется окно диалога для ввода данных о способе исключения подгрупп измерений. Выберем Automatic — автоматическое исключение (рис. 5.7). Рис. 5- 7. Окно диалога для исключения подгрупп измерений Замечание Применяя-автоматические исключение .додгрурп измерении, следу-. feSsfir’иметьА в5 виду, :что' может;.быть' искп|рнено.большее'- чйспотподАт~ G% Ч’групп,, чембыло.. ранее«.отмечено. Это. 'происходит..'вследствие IА; перерасчета контрольных границ. ' ' Нажмем кнопку ОК. Щелкнем на кнопке ОК в окне диалога с опциями контрольных карт. Система произведет перерасчет всех параметров контрольных карт и соответ- ствующим образом изменит их графические изображения. После примененной процедуры исключения все оставшиеся подгруппы измерений находятся внут- ри контрольного интервала. Уверенность в контроле над процессом Для того чтобы быть уверенным в контроле над процессом, нужно произвести проверку полученных результатов с использованием новой выборки измере- ний. Эта выборка приведена в табл. 5.2. Занесем новые измерения в элек- тронную таблицу STATGRAPHICS Plus for Windows и дадим имя новой переменной newvane. Дальнейшая -обработка новой переменной будет заключаться в определе- нии тех же характеристик, что и в исходном анализе. Выберем Special | Quality Control | Variables Control Charts | X-bar and R. Система предоставит окно диалога для ввода данных. Занесем имя новой переменной newvane в поле Observations (наблюде- ния). Активизируем поле Subgroop Numbers or Size. Введем в это поле цифру 5. Остальные позиции оставим незаполненными. Мы снова ввели 5, так как в каждую подгруппу входит 5 измерений.
Статистический контроль производственного процесса 131 Нажмем кнопку ОК. Система выдаст на рабочее поле сводку анализа для новой переменной newvane. Поместим курсор на данное рабочее поле. Щелкнем правой кнопкой мыши. Система выдаст окно диалога с опциями X и R контрольных карт. Нажмем кнопку Control to Standart. Система активизирует окно диалога для ввода параметров данной процедуры. Таблица 5.2. Значения контрольных измерений №; newvane |< newvane newvane ,№ n \ane newvane. 1 33 2! 33 41 38 61 27 81 35 2 29 22 34 42 33 62 32 82 34 3 31 23 35 43 32 63 34 83 34 4 32 24 33 44 35 64 35 84 30 5 33 25 34 45 32 65 37 85 32 6 33 26 30 46 38 66 33 86 32 7 31 27 31 47 33 67 33 87 33 8 35 28 33 48 32 68 35 88 30 9 37 29 34 49 35 69 37 89 30 10 31 30 33 50 32 70 36 90 33 11 35 31 33 51 31 71 35 91 35 12 37 32 34 52 35 72 37 92 35 13 33 33 35 53 35 73 32 93 36 14 34 34 33 54 35 74 35 94 33 15 36 35 34 55 34 75 39 95 30 16 30 36 38 56 27 76 27 96 35 17 31 37 33 57 35 77 30 97 35 18 33 38 32 58 35 78 27 98 36 19 34 39 35 59 35 79 31 99 33 20 33 40 32 60 34 80 30 100 30 Введем в поле Mean значение 33.32 — среднее значение, полученное на предыдущем, исходном этаь^ В поле Sigma запишем 2.493555 — оценку среднеквадратического откло- нения исходного анализа (рис. 5.8). Нажмем кнопку ОК. Система выдаст на экран сводку анализа. Рис. 5.8. Окно диалога для X и R контрольных карт
132 Глава 5. Контроль качество Щелкнем на кнопке графических опций — появится панель с параметрами графических отображений результатов анализа. Установим флажки X-bar Chart и Range Chart. Нажмем кнопку ОК. На рабочее поле будут добавлены два окна с затре- бованными графическими изображениями Отметим, что на контрольной R-карте все точки лежат внутри контроль- ных границ, а на Х-карте одно значение выпадает из контрольного интервала (рис. 5.9). Причиной послужил дефект измерительного средства. Поэтому можно исключить выпавшую точку из анализа. Рис. 5.9. X (а) и R (б) контрольные карты для переменной newvane Исключение'подгруппы из анализа Двойным щелчком мыши развернем окно с Х-картой на все рабочее поле. Щелкнем мышью на точке, которая лежит ниже контрольной границы (эта точка соответствует подгруппе 16). Нажмем кнопку Exclude/Include (исключить/включить) в верхней части рабочего поля (она обозначена как +/—) Система исключит подгруппу 16 из анализа и внесет соответствующие изменения в графическое изображение кон- трольной карты (рис. 5.10).
(-тоТИсгиче«ий контроль производственного процесса 133 Рис. 5.10. Х-контрольная карта для переменной newvane с исключенной подгруппой 16 Периодическая оценка процесса Производственный процесс нуждается в периодической проверке. Это необхо- димо, с одной стороны, просто для постоянной уверенности в надежности ста- тистического контроля. С другой стороны, такая проверка нужна, например, после установки нового оборудования. По результатам предыдущей обработки мы убедились, что изучаемый про- цесс удовлетворяет требованиям статистического контроля. Следующим шагом является анализ того, насколько он соответствует запроектированным специ- фикациям. Для проведения такого анализа используется специальная про- цедура Process Capability Analysis (анализ качества процесса). В нашем случае номинальный диаметр отверстия на лопатке составляет 30. Принимая во внимание случайный характер этой величины, ее допуски лежат в преде- лах от 20 до 40. Произведем проверку способности нашего процесса удовлетворять проект- ным требованиям. Для этого случайным образом отберем 100 изготовленных лопаток и сделаем на них замеры диаметров отверстия. Результаты замеров приведены в табл. 5.3. Назовем серию новых замеров capabvane Выберем Special | Quality Control | Process Capability Analysis: система предоставит окно диалога для задания спецификаций. Введем в поля окна диалога следующие записи: Data — capabvane; USL — 40; Nominal — 30; LSL — 20. Остальные позиции оставим незапол- ненными. Нажмем кнопку ОК. На экран выдается первичная сводка анализа. С помощью кнопки табличных опций вызовем окно диалога для их задания. Снимем флажок Analysis Summary (сводка анализа). Установим флажок Capability Indices (индексыкачества). Нажмем кнопку ОК. На экран будут выведены различные индексы, ха- рактеризующие соответствие распределения произведенных замеров требова- ниям спецификации.
134 Глава 5. Контроль качества Индекс Ср представляет собой разность между границами, деленную на 6 стандартных отклонений. В данном случае Ср равен 1.236, что является хо- рошим результатом. Таблица 5.3. Результаты дополнительных измерений yapabvane Ж capabyane №. capabyane Ж capabvane № capabvane. 1 37 21 33 41 30 61 33 81 33 2 36 22 35 42 35 62 30 82 35 3 34 23 26 43 32 63 37 83 29 4 31 24 36 44 33 64 34 84 32 5 32 25 38 45 33 65 34 85 31 6 28 26 31 46 34 66 34 86 39 7 32 27 28 47 36 67 35 87 33 8 32 28 29 48 31 68 31 88 33 9 34 29 31 49 36 69 34 89 36 10 33 30 33 50 33 70 34 90 30 И 35 31 32 51 31 71 31 91 33 12 33 32 30 52 34 72 33 92 36 13 35 33 33 53 37 73 33 93 34 14 31 34 38 54 33 74 35 94 31 15 31 35 38 55 35 75 35 95 34 16 36 36 35 56 32 76 27 96 35 17 34 37 32 57 38 77 36 97 33 18 30 38 34 58 37 78 32 98 34 19 32 39 39 59 41 79 36 99 29 20 35 40 33 60 32 80 36 100 32 Срк — односторонний индекс. Он равен расстоянию от среднего до бли- жайшей границы спецификации, деленному на 3 стандартных отклонения. Здесь Срк составляет 0.816. Довольно большое отличие приведенных двух индексов друг от друга говорит о том, что распределение рассматриваемых замеров плохо центрировано относительно верхней и нижней границ специ- фикации. Индекс К представляет собой разницу между номиналом и средним значе- нием распределения, деленную на половину расстояния между границами спецификации. Так как этот индекс в нашем случае равен 0.34, можно ска зать, что среднее значение распределения лежит на 34% пути от центра к верхней границе спецификации. Графическое отображение результатов анализа соответствия процесса проектным требованиям Нажмем кнопку графических опций. В предоставленном окне диалога устано- вим флажок Capability Plot (гистограмма качества). Нажмем кнопку ОК. На рабочем поле анализа появится графическое окно с требуемым изображением. Дважды щелкнем левой кнопкой мыши на этом графическом окне для максимального увеличения размеров изображения (рис. 5.11). На графике хорошо видно, что распределение результатов измерений при- близительно попадает в интервал между границами спецификации. Вместе с тем оно смещено относительно центра, то есть относительно запроектирован-
Контроль химического процесса ]35 fiOro номинала. Таким образом, следует сделать вывод о не выполнении про- ектных требований и принять меры по исследованию возможных причин не- удовлетворительного результата. Ср = 1.23603 Cpk = 0.815782 Cpk (upper) = 0.815782 Cpk (lower) = 1155628 Cr= 0.80904 Cpm = 0.765738 К = 0.34 Process Capability Analysis. сdpdbvane Рис. 5.11. Графическое отображение результатов анализа Контроль химического процесса В данном примере будут рассмотрены индивидуальные контрольные карты и карты кумулятивной суммы. Пример основывается на материале из книги Montgomery D. С., Runger G. С. (1994). Applied Statistics and Probability for Engineers (N. Y.i Wiley & Sons). Предположим, вы химик и исследуете концентрацию некоторого вещества на выходе химического процесса. Особенностью данного исследования являет- ся то, что вы не можете группировать измерения, как это было при использо- вании X и R контрольных карт. Для такого случая, когда анализируются отдельные наблюдения, применяются индивидуальные контрольные карты. Вы отслеживаете химический процесс на протяжении 20 часов и регистри- руете целевой параметр каждый час. Эти записи представлены в табл. 5.4. Первая строка в таблице — номер измерения, вторая строка — величина концентрации. Таблица 5.4. Исходные данные 1 2 3 4 5 6 /7 * ЭЛ, ,10 11 12 13 V .15 16 17 18 го; 102 95 98 98 102 99 99 98 100 98 101 99 101 98 97 97 100 101 97 101 Введем исходные данные в электронную таблицу STATGRAPHICS Plus for Windows, назовем параметр CONCENT и сохраним данные в файле Indi vid. sf. Сначала будем использовать контрольную карту MR(2). Она отображает скользящий размах для последовательности наблюдений. Размах определяется по двум соседним наблюдениям. Считается, что процесс выходит из-под кон- троля, когда точки на контрольной карте выходят за верхнюю границу.
136 Глава 5. Контроль качества Рис. 5.12. Окно диалога для ввода данных Выберем Special | Quality Control | Variables Control Charts | Individu- als; система предоставит окно диалога для ввода данных. Занесем имя переменной CONCENT в поле Observations (наблюдения). Другие поля оставим незаполненными (рис. 5.12). Нажмем кнопку ОК. Получаем сводку результатов обработки. Нажмем кнопку графических опций (третья слева в верхнем ряду). Установим флажок MR(2) Chart. Нажмем кнопку ОК — на рабочем поле рядом со сводкой появляется окно с графическим изображением контрольной карты MR(2). Двойным щелчком мыши развернем графическое окно на все рабочее поле (рис. 5.13). На контрольной карте MR(2) видно, что все точки находятся ниже кон- трольной границы. Это хороший результат. Можно его рассмотреть в ином ракурсе — на контрольной Х-карте. Нажмем еще раз кнопку графических опций. Установим флажок X Chart (Х-карта). Нажмем кнопку ОК; на рабочее поле анализа будет добавлено еще одно графическое окно с изображением контрольной Х-карты. Рис. 5.13- Контрольная карта MR(2) для переменной CON СЕКТ
Контроль химического процессе 137 Рис. 5.14. Контрольная Х-карта для переменной CONCENT Двойным щелчком левой кнопки мыши раскроем окно с Х-картой на все рабочее поле (рис. 5.14). Так же, как и на карте MR(2), на Х-карте все точки попадают в область внутри контрольных границ. Можно с удовлетворением отметить, что концен- трация вещества в химическом процессе подчиняется требованиям статистиче- ского контроля. Вместе с тем примененные индивидуальные контрольные карты не способ- ны отражать малые изменения среднего уровня концентрации, которые, одна- ко, могут играть существенную роль в химическом процессе. Поэтому здесь нужно дополнительно использовать контрольные карты накопленной суммы, позволяющие регистрировать такие изменения. Выявление малых изменений среднего уровня Свернем все окна проведенного анализа, нажав соответствующую кнопку в правом верхнем углу рабочего поля. Выберем Special | Quality Control | Time-Weighted Charts | CuSum Indi- viduals Chart (индивидуальная карта накопленной суммы). Система предос- тавит окно диалога для ввода данных анализа. Занесем имя переменной CONCENT в поле Observations. Остальные поля оставим пустыми. Нажмем кнопку ОК. На экране появится сводка проведенной обработки. Нажмем кнопку табличных опций — система выдаст соответствующее ок- но диалога. Установим флажок CuSum Individuals Chart Report (отчет по карте на- копленной суммы). Нажмем кнопку ОК. На экран будет выведено окно со сведениями запро- шенного отчета. Двойным щелчком мыши максимизируем размерыэтого окна (рис. 5.15). Из полученного отчета видно, что ни одно из измерений не выходит за пределы контрольных границ (напомним, что выпавшие из контрольного ин-
138 Глава 5. Контроль качество тервала наблюдения маркируются звездочкой). Теперь можно рассмотреть графическое отображение результатов обработки. Рис. 5.15. Отчет по индивидуальной карте накопленной суммы Г рафик накопленной суммы Нажмем кнопку графических опций. Установим флажок Cumulative Sum Chart (карта накопленной суммы). Нажмем кнопку ОК. Система выдаст на экран графическое окно с изо- бражением карты накопленной суммы (рис. 5.16). Рис. 5.16. Индивидуальная карта накопленной суммы для переменной CONCENT Из приведенного рисунка следует, что все точки данных попадают внутрь контрольного интервала. На контрольной карте изображена также V-маска. Если в наблюдаемом процессе имеется значимое смещение среднего значения, то точки выходят за пределы указанной маски. В нашем случае такого не
Оценивоние эффективности измерительных систем 139 случилось. Поэтому можно сделать окончательное заключение о том, что ис- следованный химический процесс удовлетворяет требованиям статистического контроля. Оценивание эффективности измерительных систем Оценка эффективности измерений того или иного показателя производствен- ного процесса исключительно важна. Она включает две основные составля- ющие. Повторяемость — характеристика вариации измерений какой-либо харак- теристики, производимых одним оператором и одним измерительным средст- вом. Воспроизводимость — характеристика вариации измерений, наблюдае- мой, когда несколько операторов используют один инструмент для измерения одного и того же параметра. Процедура, с помощью которой анализируются повторяемость и воспро- изводимость, формирует так называемые Gage И&К-карты. На этих кон- трольных картах наглядно отображаются особенности используемых на производстве измерительных инструментов и раскрывается роль человеческо- го фактора в процессе контрольных измерений. Материал для рассматриваемого примера заимствован из книги AIAG. (1990). Measurement Systems Analysis Reference Manual (Troy, Michigan: AIAG). Этот пример демонстрирует, как использовать .метод среднего и раз- маха в анализе воспроизводимости и повторяемости измерений. Предположим, вы являетесь инженером по контролю качества на участке производства, выпускающем сальники. В вашу компетенцию входит оценка измерительных средств, и вы начинаете свое исследование с системы измере- ния толщины сальников. Вы наугад отобрали трех операторов, измеривших 10 партий продукции. Так как время ограничено, каждому оператору предостав- лено две попытки измерения. Исходные данные, полученные в ходе вашего исследования, приведены в табл. 5.5. Обозначим измеряемый параметр THIC- KNESS, введем данные в электронную таблицу STATGRAPHTCS Plus G>r Windows и сохраним их в файле с именем Gage.sf. Подготовка данных для Gage К&К-анализа Выберем Special | Quality Control | Gage R&R | Data Setup. Система пре- доставит окно диалога для установки исходных данных. Активизируем поле Number of Parts (количество партий). Запишем туда цифру 10. Оставим пустым поле Randomize Trials. Снимем флажок Default Operator Names. Нажмем кнопку ОК; система выдаст окно диалога для ввода имен операторов. Введем имена, указанные в табл. 5.5 (рис. 5.17).
140 Глава 5. Контроль качество Таблица 5.5. Данные Опера- тор Партия Проба — Изме- рение Опера- тор Партия _s .. Проба - .. Изме- рение Опера- тор Партия ’ Проба Изме- рение Ralph 1 1 0.65 Jim 1 1 0.55 Neil 1 1 0.5 Ralph 2 1 1 Jim 2 1 1.05 Neil 2 1 1 05 Ralph 3 1 0.85 Jim 3 1 0.8 Neil 3 1 0.8 Ralph 4 1 0.85 Jim 4 1 0.8 Neil 4 1 08 Ralph 5 1 0.55 Jim 5 1 0.4 Neil 5 1 0.45 Ralph 6 1 1 Jim 6 1 1 Neil 6 1 1 Ralph 7 1 0.95 Jim 7 1 0.95 Neil 7 1 0 95 Ralph 8 1 0.85 Jim 8 1 0.75 Neil 8 1 0.8 Ralph 9 1 1 Jim 9 1 1 Neil 9 1 1 05 Ralph 10 1 0.6 Jim 10 1 0.55 Neil 10 1 0.85 Ralph 1 2 0.6 Jim 1 2 0.55 Neil 1 2 0 55 Ralph 2 2 1 Jim 2 2 0.95 Neil 2 2 1 Ralph 3 2 0.8 Jim 3 2 0.75 Neil 3 2 0.8 Ralph 4 2 0.95 Jim 4 2 0 75 Neil 4 2 0 8 Ralph 5 2 0.45 Jim 5 2 0.4 Neil 5 2 0.5 Ralph 6 2 1 Jim 6 2 1.05 Neil 6 2 1 05 Ralph 7 2 0.95 Jim 7 2 09 Neil 7 2 0.95 Ralph 8 2 0.8 Jim 8 2 0.7 Neil 8 2 0.8 Ralph 9 2 1 Jim 9 2 0 95 Neil 9 2 1.05 Ralph 10 2 0.7 Jim 10 2 0.5 Neil 10 2 0.8 Рис. 5.11. Окно для ввода имен операторов Нажмем кнопку ОК. На рабочее поле выдается сводка, в которой отраже- ны установочные данные проводимого анализа: имена операторов, количество партий, число измерительных проб (рис. 5.18). Сохранение установочных данных Нажмем кнопку Save Results (сохранение результатов) - четвертая кнопка слева в верхнем ряду. Система предоставит окно диалога для задания дан- ных, подлежащих сохранению. Установим флажки Operators, Parts и Trials (операторы, партии и про- бы).
Оценивание эффективности измерительных систем 141 Рис. 5.18. Сводка установочных данных для проведения К&Р-ана.пиза Нажмем кнопку ОК. Теперь все готово для проведения дальнейшей обработки. Имеются два метода проведения анализа повторяемости и воспро- изводимости: метод среднего и размаха и метод дисперсионного анализа. По- следний в отличие от первого позволяет оценивать взаимодействия между операторами и партиями. Мы будем использовать метод среднего и размаха. Проведение анализа Выберем Special | Quality Control | Gage R&R | Average and Range Method (метод среднего и размаха). Система отобразит на экране специальное окно диалога. Внесем в поля Operators, Parts, Trials и Measurements имена наших переменных. Позицию Select оставим пустой. Нажмем кнопку ОК. На рабочем поле анализа появится сводка, в которой приводятся имена переменных и следующие статистики: оценка стандартного отклонения, оценка дисперсии и общий процент (Percent of Total). Последняя величина выражает процент дисперсии измерений, приходящийся на повторяемость. Нажмем кнопку табличных опций. Система предоставит соответствующее окно диалога. Снимем флажок Analysis Summary (сводка анализа). Установим флажок Gage Report (отчет). Нажмем кнопку ОК. На экран будет выдан отчет по исследуемой измери- тельной системе (рис. 5.19). Поместим курсор на поле с отчетом и щелкнем правой кнопкой мыши. Появится окно диалога с опциями метода среднего и размаха. В поле Tolerance запишем число 0.4. Эта величина выражает разность между верхним и нижним уровнями спецификации для толщины сальников. В поле Process Sigma запишем 0.05 — стандартное отклонение для иссле- дуемой продукции (рис. 5.20). Нажмем кнопку ОК. На экране появится новый отчет по измерительной системе.
142 Глава 5. Контроль качество Рис. 5.19. Пример отчета по измерительной системе Рис. 5.20. Окно диалога для задания параметров метода среднего и размаха Используя полосу вертикальной прокрутки, просмотрим полностью весь отчет. Из него следует, что проценты для допуска и стандартного отклонения превышают 30. Тем самым измерительный процесс является неудовлетвори- тельным и нуждается в существенных улучшениях. Это хорошо будет видно на графических отображениях данных, показывающих значительную разницу в качестве измерений у разных операторов. Рис. 5.21. Сравнительные измерения операторов по каждой партии изделий
рценивоьие эффективности измерительных систем ]43 Нажмем кнопку графических опций. Система предоставит соответствую- щее окно диалога. Рис. 5.22. Карта размахов измерений операторов Установим флажки Operator and Part Plot, Range Chart by Plot и R&R Plot. Смысл соответствующих отображений будет понятен из рис. 5.21, 5.22 и 5.23. Рис. 5.23. Карта отклонений от среднего результатов измерений каждого оператора Нажмем кнопку ОК. На рабочем поле анализа появятся три окна с затре- бованными графиками. Двойным щелчком мыши будем последовательно максимизировать разме- ры каждого окна. Первый график Operator and Part Plot (см. рис. 5.21) говорит о том, что на допуск и стандартное отклонение результатов главным образом влияет воспроизводимость измерений. На втором графике Range Chart by Plot
144 Глава 5. Контроль качества (см. рис. 5.22) размахи измерений в каждой партии сгруппированы относи- тельно операторов. И наконец, последний график R&R Plot (см. рис. 5.23) наглядно демонстрирует сравнительное мастерство и качество работы каждого оператора, производящего измерения. В целом по результатам проведенного исследования можно заключить, что основной причиной вариации измерений служит «человеческий фактор» и что все три оператора нуждаются в дополнительных учебных тренировках.
МНОГОМЕРНЫЕ МЕТОДЫ МЕТОД ГЛАВНЫХ КОМПОНЕНТ: ИССЛЕДОВАНИЕ АВТОМОБИЛЬНОГО РЫНКА..................................147 КЛАСТЕРНЫЙ АНАЛИЗ: ИЗУЧЕНИЕ ИНВЕСТИЦИОННЫХ ФОНДОВ.................................153 Создание двумерной диаграммы рассеивания..........160 ФАКТОРНЫЙ АНАЛИЗ: ИЗУЧЕНИЕ СТРУКТУРЫ ИНТЕЛЛЕКТА У ПОЖИЛЫХ ЛЮДЕЙ............................162 Получение и интерпретация сводки анализа..........163 Получение и интерпретация табличных результатов...165 Получение и интерпретация графических отображений.167 ДИСКРИМИНАНТНЫЙ АНАЛИЗ: ДИАГНОСТИКА ПРИСТУПОВ ОСТРОГО АППЕНДИЦИТА.........................170 КАНОНИЧЕСКИЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ: ИССЛЕДОВАНИЕ ВЗАИМОСВЯЗЕЙ ПСИХИЧЕСКОГО И БИОЛОГИЧЕСКОГО......................................179
146 Главе 6. Многомерные методы Многомерный анализ данных (часто употребляется термин «многомерный статистический анализ») представляет собой раздел, посвященный систе- матизации и обработке многомерных данных, направленных на выявление ха- рактера и структуры взаимосвязей между компонентами исследуемого много- мерного признака для получения научных и практических результатов. Под многомерным признаком понимается х = (хр...,хр)т — р-мерный век- тор показателей (признаков, переменных) xt,...,xp различных типов: коли- чественных, то есть скалярно измеряющих в определенной шкале степень проявления изучаемого свойства объекта, порядковых (или ординальных), показывающих порядок объекта в ряду анализируемой совокупности объек- тов, классификационных (или номинальных), разбивающих множество иссле- дуемых объектов на неподдающиеся упорядочению классы. Результаты измерения этих показателей характеризуют объект xi = (xiz» -->xip)T. где i = 1,п по каждому из п объектов исследуемой совокуп- ности, образуют последовательность многомерных наблюдений или исходную матрицу данных для проведения анализа X = (х;). Значительная часть многомерного анализа относится к ситуациям, в кото- рых изучаемый признак х интерпретируется как многомерная случайная ве- личина и соответственно все множество объектов — как выборка из гене- ральной совокупности. В этом случае подбор методов обработки исходных данных и анализ их свойств производится на основании определенных допу- щений о природе многомерного (совместного) закона распределения вероят- ностей. Несмотря на то, что многие явления жизни нельзя строго рассматривать только со статистической точки зрения, методы .многомерного статистического анализа дают полезные результаты и в этих случаях. В STATGRAPHICS Plus for Windows содержится большой набор самых распространенных процедур многомерного анализа. • Главные компоненты: собственные значения, веса компонент. • Факторный анализ: главные компоненты, классический. • Кластерный анализ: ближайший сосед, дальний сосед, центроидный, меди- анный, групповое среднее, Варда, к-средних. • Дискриминантный анализ: классифицирующие функции, дискриминант- ные функции, таблица классификаций, групповые центроиды, групповые статистики, групповые корреляции. • Канонический корреляционный анализ: собственные значения, критерий Уилкса Лямбда, коэффициенты канонических переменных, таблица кано- нических переменных. Ниже будут рассмотрены практические примеры из всех приведенных раз- делов многомерного анализа. Кроме того, нужно обратить внимание, что в следующей главе показано как чанные методы могут быть использованы при решении задач формирования знаний — задач перехода от баз данных к ба- зам знаний, служащих основой современных интеллектуальных систем.
^етод главных компонент: исследование автомобильного рынка 147 Метод главных компонент: исследование автомобильного рынка Практически ни одно исследование многомерных данных не обходится без применения метода главных компонент (МГК). Это — классический метод снижения размерности данных путем определения незначительного числа ли- нейных комбинаций исходных признаков, объясняющих большую часть из- менчивости данных в целом, дающий однозначное решение. МГК был предложен К. Пирсоном в 1901 году и затем вновь открыт и де- тально разработан Хоттелингом в 1933 году. Методу посвящено большое ко- личество публикаций, и он широко представлен в литературных источниках, обратившись к которым можно получить сведения об МГК с различной степе- нью детализации и математической строгости. МГК осуществляет переход к новой системе координат у^,...,ур в исходном пространстве признаков хр...,хр, которая является системой ортонорми- рованиях линейных комбинаций. Линейные комбинации представляют собой собственные (характеристические) векторы корреляционной матрицы. Первая главная компонента — это линейная комбинация, обладающая наибольшей дисперсией. Геометрически выглядит как новая ось у/, ориентированная вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов вы- борки в исходном пространстве. Вторая главная компонента имеет наиболь- шую дисперсию среди всех оставшихся линейных преобразований, некор- релированных с первой главной компонентой. Она интерпретируется как направление наибольшей вытянутости эллипсоида рассеивания, перпендику- лярное первой главной компоненте и т. п. МГК обладает рядом полезных свойств, делающих его эффективным для визуализации структуры многомерных данных. Все они касаются наименьшего искажения геометрической структуры точек (объектов) при их проектировании в пространство меньшей размерности q < р, «натянутое» на q первых главных компонент. Приведенные свойства главных компонент обусловливают полезность МГК для изучения структуры распределения объектов в многомерном про- странстве признаков. Как уже отмечалось, практически ни одно современное исследование не обходится без того, чтобы не рассмотреть проекции объектов в пространстве, натянутом на первую, первые две и, реже, первые три глав- ные компоненты. Нередко имеет смысл прибегнуть к анализу проекций объек- тов в пространства, образованные комбинациями главных компонент более высокого порядка, например 3-й и 4-й ГК, 5-й и 6-й и т. п. Ценную информацию о структуре данных могут дать главные компоненты, полученные раздельно для различных классов объектов. В этом случае к ин- тересным результатам может привести анализ не только первых главных ком- понент, но и главных компонент с высоким порядком, близким к р. По опреде тению на такие главные компоненты приходится минимальный процент дисперсии распределения объектов. Поэтому они выражают устойчивые, ста- бильные свойства классов, инвариантные к изменчивости внутри классов.
148 Главе 6. Многомерные методы ----— Ниже рассматривается пример, относящийся к сравнительному оценива- нию изделий, характеризующихся одновременно несколькими параметрами. Это — автомобили. В табл. 6.1 приводятся выборочные сведения о фирме- изготовителе автомобиля, названии модели, а также оценочные параметры — вес (переменная weight), число цилиндров (переменная cylinders), ускорение (переменная accel), объем двигателя (переменная displace) и мощность в ло- шадиных силах (переменная horspower). Таблица 6.1. Данные об автомобилях Изготовитель Модель Bee К-во ЦИЛ. Ускорение Объем Мощность Volkswagen Rabbit DI 1985 4 21.5 90 48 Ford Fiesta 1800 4 14.4 98 66 Mazda GLC Deluxe 1985 4 19.4 78 52 Datsun B210 GX 2070 4 18.6 85 70 Honda Civic CVCC 1800 4 16.4 91 60 Oldsmobile Cutlass 3365 8 15.5 260 110 Dodge Di plomat 3735 8 13.2 318 140 Mercu ry Monarch 3570 8 12.8 302 139 Pontiac Phoenix 3535 6 19.2 231 105 Chevrolet Malibu 3155 6 18.2 200 95 Ford Fairmont A 2965 6 15.8 200 85 Ford Fairmont M 2720 4 15.4 140 88 Plymouth Volarc 3430 6 17.2 225 100 AMC Concord 3210 6 17.2 232 90 Buick Century 3380 6 15.8 231 105 Mercu ry Zephyr 3070 6 16 7 200 85 Dodge Aspen 3620 6 18.7 225 110 AMC Concord DI 3410 6 15.1 258 120 Chevrolet MonteCarlo 3425 8 13.2 305 145 Buick RegalTurbo 3445 6 13.4 231 165 Ford Futu ra 3205 8 11.2 302 139 Dodge Magnum XE 4080 8 13.7 318 140 Chevrolet Chevette 2155 4 16.5 98 68 Toyota Corona 2560 4 14.2 134 95 Datsun 510 2300 4 14.7 119 97 Dodge Omni 2230 4 14.5 105 75 Toyota Cclica GT 2515 4 14.8 134 95 Plymouth Sapporo 2745 4 16.7 156 105 Oldsmobile Starfire 2855 4 17.6 151 85 Datsun 200-SX 2405 4 14.9 119 97 Audi 5000 2830 5 15.9 131 103 Volvo 264GL 3140 6 13.6 163 125 Saab 99GLE 2795 4 15.7 121 115 Peugeot 604SL 3410 6 15.8 163 133 Volkswagen Scirocco 1990 4 14.9 89 71 Honda Accord LX 2135 4 16 6 98 68 Pontiac Lemans V6 3245 6 15.4 231 115 Mercu ry Zephyr 6 2990 6 18 2 200 85 Ford Fairmont 4 2890 4 17.3 140 88 AMC ConcordDL6 3265 6 18.2 232 90 Dodge Aspen 6 3360 6 16.6 225 ПО Chevrolet Caprice Cl 3840 8 15.4 305 130 Ford LTD Landau 3725 8 13.4 302 129 Mercu ry GrandMarqs 3955 8 13.2 351 138 Dodge St. Regis 3830 8 15.2 318 135 Buick Estate SW 4360 8 14.9 350 155 Ford Country SW 4054 8 14.3 351 142 Chevrolet Malibu SW 3605 8 15 267 125
/ИетоД главных компонент: исследовоние автомобильного рынка 149 Таблица 6.1 (продолжение) Изготовитель -1 Модель : Bee К-в6^ии(?' Ускорение' Объем Мощность Chrysler Lebaron SW 3940 8 13 360 150 Volkswagen Rabbit Cus 1925 4 14 89 71 Mazda GLC Deluxe 1975 4 15.2 86 65 Dodge Colt Hatch 1915 4 14.4 98 80 AMC Spirit DL 2670 4 15 121 80 Mercedes 300D 3530 5 20.1 183 77 Cadillac Eldorado 3900 8 17.4 350 125 Peugeot 504 3190 4 24.8 141 71 Oldsmobile Cutlass 3420 8 22.2 260 90 Plymouth Horizon 2200 4 13.2 105 70 Plymouth HorizonTCS 2150 4 14.9 105 70 Datsun 210 2020 4 19.2 85 65 Fiat Strada Cus 2130 4 14.7 91 69 Buick SkylarkLim 2670 4 16 151 90 Chevrolet Citation 2595 6 11.3 173 115 Oldsmobile Omega 2700 6 12.9 173 115 Pontiac Phoenix 2556 4 13.2 151 90 Volkswagen Rabbit 2144 4 14.7 98 76 Toyota Coral laTer 1968 4 18.8 89 60 Chevrolet Chevette 2120 4 15.5 98 70 Datsun 310 2019 4 16.4 86 65 Chevrolet Citation 2678 4 16.5 151 90 Ford Fairmont 2870 4 18.1 140 88 AMC Concord 3003 4 20.1 151 90 Dodge Aspen 3381 6 18.7 225 90 Audi 4000 2188 4 15.8 97 78 Toyota Corona LB 2711 4 15.5 134 90 Mazda 626 2542 4 17.5 120 75 Datsun 510 Hatch 2434 4 15 119 92 Toyota Corolla 2265 4 15.2 108 75 Mazda GLC 2110 4 17.9 86 65 Dodge Colt 2800 4 14.4 156 105 Datsun 210 2110 4 19.2 85 65 Volkswagen Rabbit DI 2085 4 21.7 90 48 Volkswagen Dasher DI 2335 4 23.7 90 48 Audi 5000S DI 2950 5 19.9 121 67 Mercedes 240D 3250 4 21.8 146 67 Honda Civicl500G 1850 4 13.8 91 67 Renault LeCar Delx 1835 4 17.3 85 67 Subaru DL 2145 4 18 97 62 Volkswagen Rabbit 1845 4 15.3 89 132 Datsun 280-ZX 2910 6 114 168 100 Mazda RX-7 GS 2420 3 12.5 70 88 Triumph TR7 Coupe 2500 4 15.1 122 72 Ford Must Cobra 2905 4 14.3 140 84 Honda Accord 2290 4 17 107 84 Plymouth Reliant 2490 4 15.7 135 92 Buick Skylark 2635 4 16 4 151 110 Dodge Aries SW 2620 4 14.4 156 84 Chevrolet Citation 2725 6 12.6 173 58 Plymouth Reliant 2385 4 12.9 135 64 Toyota Starlet 1755 4 16.9 79 60 Plymouth Champ 1875 4 164 86 67 Honda Civicl300 1760 4 16.1 81 65 Subaru 210 2065 4 17.8 97 62 Datsun Tercel 1975 4 19.4 85 68 Tovota GLC4 2050 4 17.3 89 63 Mazda Horizon 4 1985 4 16 91 65
150 Глава 6. Многомерные методы Таблица 6.1 (окончание) ’'’Изготовитель /Beg’ К-ВО Ц1 о ГЛ. 'скорение ; 'Объем Мощность! йа<й<. .• Plymouth Escort 4W 2215 4 14.9 105 65 Ford Escort 2H 2045 4 16.2 98 74 Ford Jetta 2380 4 20.7 98 75 Volkswagen 181 2190 4 14.2 105 75 Renault Prelude 2320 4 15.8 100 100 Honda Corolla 2210 4 14.4 107 74 Toyota 200SX 2350 4 16.8 108 80 Datsun 626 2615 4 14.8 119 110 Mazda 505S DI 2635 4 18.3 120 76 Peugeot 900S 3230 4 20.4 141 116 Saab Diesel 2800 4 15.4 121 120 Volvo Cressida 3160 6 19.6 145 110 Toyota 810 Maxima 2900 6 12.6 168 105 Datsun Centu ry 2930 6 13.8 146 88 Buick Cutlass LS 3415 6 15.8 231 85 Oldsmobile Granada GL 3725 8 19 350 88 Ford Lebaron 3060 6 17.1 200 88 Chiysler Cavalier 3465 6 16.6 225 88 Chevrolet Caval ierSW 2605 4 19.6 112 85 Chevrolet Caval ier2D 2640 4 18.6 112 84 Chevrolet 1200 Hatch 2395 4 18 112 90 Pontiac Aries SE 2575 4 16.2 112 92 Dodge Phoenix 2525 4 16 135 74 Pontiac Fairmont 2735 4 18 151 68 Ford Concord DI 2865 4 16.4 140 68 AMC Rabbit L 3035 4 20.5 151 63 Volkswagen GLCCust 1 1980 4 15.3 105 70 Mazda GLC Custom 2025 4 18.2 91 88 Mazda Horizon 1970 4 17.6 91 75 Plymouth Lynx 1 2125 4 14.7 105 70 Mercury Stanza XE 2125 4 17.3 98 67 Nissan Accord 2160 4 14.5 120 67 Honda Corolla 2205 4 14.5 107 67 Toyota Civic M 2245 4 16.9 108 ПО Honda Civic A 1965 4 15 91 85 Honda 310 GX 1965 4 15.7 91 92 Datsun Centu ryLmt 1995 4 16.2 91 112 Buick Cutlass DI 2945 6 16.4 181 96 Oldsmobile Lebaron 3015 6 17 262 84 Chrysler Granada 1 2585 4 14.5 156 90 Ford Celica GT 2835 6 14.7 232 86 Toyota Charger2.2 2665 4 13.9 144 52 Dodge Camaro 2370 4 13 135 84 Chevrolet MustangGL 2950 4 17.3 151 79 Ford Pickup 2790 4 15.6 140 82 Volkswagen Rampage 2130 4 24.6 97 Dodge Ranger 2295 4 11.6 135 Ford S-10 2625 4 18.6 120 Chevrolet 2720 4 19.4 119 Введем эти данные в электронную таблицу STATGRAPHICS (в ней при- сутствуют также другие дополнительные параметры). Назовем файл данных cardata. Выберем Special | Multyvariative Methods | Principal Components. Появляется окно диалога для задания анализируемых переменных (рис. 6.1). Нажимаем ОК. Получаем исходную сводку анализа МГК (рис. 6.2).
Метод шовных компонент: исследовоние автомобильного рынка 151 Рис. 6.1. Окно задания переменных для анализа по методу главных компонент Рис. 6.2. Исходная сводка МГК Из полученной сводки заключаем, что анализу подвергаются переменные weight, cylinders, accel, displace и horspower и что число объектов составля- ет 151. Далее следует информация непосредственно МГК: собственные значе- ния главных компонент, упорядоченные по величине (Eigenvalue); процент дисперсии, приходящийся на каждую выделенную главную компоненту (Percent of Variance); накопленный процент дисперсии (Cumulative Percen- tage). Приведенные цифры говорят о том, что уже первые две главные компо- ненты описывают 93.4% дисперсии исходных данных. Третья главная компо- нента добавляет еще приблизительно 4.2% дисперсии, так что в сумме это получается 97.6% дисперсии. Для более детального анализа нажмем кнопку табличных опций (вторая слева в верхнем ряду) и в соответствующем окне диалога (рис. 6.3) установим флажок компонентных весов (Component Weights). Получим следующую таблицу (рис. 6.4).
152 Глово 6. Многомерные методы Рис. 6.3- Окно диалога табличных опций МГК Component Component Component weight 0.484397 cylinders 0.489981 accel -0.178778 displace 0.507767 horsepower 0.485273 0.281143 0.125914 0.91435 0.142972 -0-220516 0.426531 -0.665775 0.130289 -0.241578 0.547248 Puc. 6.4- Веса признаков в главных компонентах Как следует из полученных цифр, в первой главной компоненте примерно одинаковые по величине положительные коэффициенты имеют: вес, количест- во цилиндров, объем двигателя и мощность в лошадиных силах. Вместе с тем во второй главной компоненте превалирует только одна величина: ускорение. А в третьей главной компоненте наблюдается сочетание веса машины и ее мощности (с положительным знаком), которому противопоставляется количе- ство цилиндров (с отрицательным знаком). Не углубляясь в интерпретацию полученных главных компонент, которая, конечно, может представлять инте- рес для специалистов, перейдем к рассмотрению диаграммы рассеивания всей совокупности автомашин в пространстве выделенных трех первых главных компонент. Для этого щелкнем левой кнопкой мыши на кнопке графических опций (рис. 6.5) и инициализируем данное трехмерное отображение (рис. 6.6). Рис. 6 5 Графические опции метода главных компонент На представленном рисунке (см. рис. 6.6) хорошо видно, что вся иссле- дуемая совокупность автомашин разделилась на три достаточно четко выра- женные группы. Для большей выразительности на рисунке даны названия некоторых фирм, производящих автомобили, которые выдаются в специаль- ных окнах STATGRAPHICS после нажатия пятой справа кнопки в верхнем ряду и маркировки интересующей точки.
Клостерный анализ: изучение инвестиционных фондов 153 Рис. 6 6 Проекция исследуемых автомобилей в пространство первых трех ГК Для первой наиболее многочисленной группировки характерны сравни- тельно небольшие: вес, количество цилиндров, мощность и объем двигателя (первая слева группа). Вместе с тем большая доля автомашин этой группы об- ладают хорошим ускорением (высокие значения 2-й ГК) и высоким соотноше- нием веса и мощности к количеству цилиндров (3-я ГК). Вторая группировка не столь многочисленна, но для нее также свойствен- ны указанные характеристики, хотя и менее ярко выраженные. И наконец, третья группа автомашин (сравнительно малочисленная) имеет большой вес, мощность, количество цилиндров. В то же время показатели ус- корения и соотношение веса и мощности к количеству цилиндров здесь (если говорить в целом) гораздо меньшие. Таким образом, произведенный анализ данных с помощью метода главных компонент позволяет получить более «объемное» видение современного авто- мобильного рынка, что может способствовать лучшей ориентации как и потре- бителей этой продукции, так и производителей с позиций оценки существу- ющих тенденций. Кластерный анализ: изучение инвестиционных фондов Кластерный анализ предназначен для разбиения множества объектов на за- данное или неизвестное число классов на основании некоторого критерия качества классификации (cluster — гроздь, пучок, скопление, группа элемен- тов, характеризуемых каким-либо общим свойством). Критерий качества кла- стеризации отражает следующие неформальные требования: 1) внутри групп объекты должны быть тесно связаны между собой; 2) объекты разных групп должны быть далеки друг от друга; 3) при прочих равных условиях распределение объектов по группам должно быть равномерным.
154 Глава 6. Мно’омерные методы Требования 1 и 2 выражают стандартную концепцию компактности клас- сов разбиения, а требование 3 состоит в том, чтобы критерий не навязывал объединения отдельных групп объектов. Определяющим моментом в кластерном анализе считается выбор метрики (или меры близости объектов или признаков), от которого решающим образом зависит окончательный вариант разбиения на группы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор производится по-своему, с учетом главных целей исследования, физической и статистической природы используемой информации и т. п. В STATGRAPHICS Plus for Windows при- меняются три типа расстояния: евклидово, квадрат евклидового расстояния и метрика «сити-блок». Алгоритмы кластерного анализа отличаются большим разнообразием. Это могут быть, например, алгоритмы полного перебора сочетаний объектов или генерации случайных групп. Вместе с тем большинство таких алгоритмов состоит из двух этапов. На первом этапе задается начальное (возможно, ис- кусственное или даже произвольное) разбиение множества объектов на классы и определяется математический критерий качества автоматической классифи- кации. Затем, на втором этапе, объекты переносятся из класса в класс до тех пор, пока значение критерия не перестанет улучшаться. Многообразие алгоритмов кластерного анализа обусловлено также множе- ством различных критериев, выражающих те или иные аспекты желаемого качества автоматического группирования. Простейший критерий качества не- посредственно базируется на величине расстояния между кластерами. Однако такая оценка не учитывает «населенность» кластеров — относительную плот- ность распределения объектов внутри выделяемых группировок. Поэтому дру- гие критерии основываются на вычислении средних расстояний между объектами внутри кластеров. Но наиболее часто применяются критерии в виде отношений показателей «населенности» кластеров к расстоянию между ними. Это, например, может быть отношение суммы межклассовых расстояний к сумме внутриклассовых (между объектами) расстояний или отношение общей дисперсии данных к сумме внутриклассовых дисперсий и дисперсии центров кластеров. Широкое распространение получили алгоритмы иерархического группиро- вания объектов и признаков, которые, в частности, достаточно полно представлены в STATGRAPHICS Plus for Windows. Эти алгоритмы предна- значены для получения наглядного представления о стратификационной структуре всей исследуемой совокупности объектов. Они основаны на последо- вательном объединении кластеров (агломеративные процедуры) или на после- довательном разбиении (дивизимные процедуры). Наибольшую популярность имеют агломеративные процедуры. Рассмотрим соответствующую последова- тельность операций На первом шаге в таких процедурах все объекты считаются отдельными кластерами. Затем на каждом последующем шаге два ближайших кластера объединяются в один. Каждое объединение уменьшает число кластеров на единицу, так что в конце концов все объекты объединяются в один кластер. Наиболее подходящее разбиение выбирает чаще всего сам исследователь, ко- торому предоставляется дендрограмма, отображающая результаты группиро- вания объектов на всех шагах алгоритма. Могут одновременно также использоваться и математические критерии качества объединения.
1ЫЙ онолиз: изучение инвестиционных фондов 155 Различные варианты определения расстояния между кластерами дают раз- данные варианты иерархических процедур. Учитывая их специфику, для за- дания расстояния между классами оказывается достаточным указать порядок цересчета расстояний между классом к и классом (i,j), являющимся объеди- нением двух других классов i и j по расстояниям dki, dkj и d|j. Для этого используется широко известная формула ^k(ij) ~ ai^kl + aj^kj + bdjj + c|d|5| — dkj |, где aj,aj,b,c — параметры, которыми определяется тот или иной вид рас- стояния между кластерами. Например, при Э| = aj = y,b = 0,с =-у прихо- дим к расстоянию, измеряемому по принципу «ближайших соседей» между двумя кластерами; а( = aj = y,b = 0,с = т- дает расстояние, измеряемое по принципу «дальнего соседа», и т. д. Выбор той или иной меры расстояния между кластерами влияет, главным образом, на вид группировок, выделяемых алгоритмами. Так, алгоритмы, ос- нованные на расстоянии до ближайшего соседа, хорошо работают в случае группировок, имеющих сложную, в частности, цепочечную структуру. Рас- стояние «до дальнего соседа» применяется, когда искомые группировки обра- зуют шарообразные облака. И промежуточное место занимают алгоритмы, использующие расстояния между центрами тяжести, и алгоритмы средней свя- зи, которые лучше всего работают в случае группировок эллипсоидной формы. Нацеленность алгоритмов кластерного анализа на определенную структуру группировок может приводить к неоптимальным или даже неправильным ре- зультатам, если гипотеза о типе группировок неверна. В случае отличия ре- альных распределений от гипотетических указанные алгоритмы часто «на- вязывают» данным не присущую им структуру и дезориентируют иссле- дователя. Поэтому экспериментатор, учитывающий данный факт, в условиях априорной неопределенности прибегает к применению «батареи» алгоритмов кластерного анализа и отдает предпочтение какому-либо выводу на основании комплексной оценки совокупности результатов работы алгоритмов. В STATGRAPHICS Plus for Windows реализовано 7 видов иерархических агломеративных процедур и одна неиерархическая процедура кластерного анализа типа k-средних. Такое явное предпочтение иерархическим алгоритмам отдано, по-видимому, из-за того, что в отличие от оптимизационных кластер- ных алгоритмов, предоставляющих исследователю конечный результат группирования объектов, иерархические процедуры позволяют проследить процесс выделения группировок и иллюстрируют соподчиненность кластеров, образующихся на разных этапах работы. Это стимулирует воображение ис- следователя и помогает ему привлекать для оценки структуры данных допол- нительные формальные и неформальные представления. В качестве примера рассмотрим интересующую многих, пока в основном в западных странах, задачу о рынке ценных бумаг, в частности проблему оцен- ки различных фондов, оперирующих этими бумагами. Несмотря на неспокойность мирового рынка ценных бумаг, инвесторы се- годня вкладывают в него свои средства и имеют к нему повышенный интерес.
156 Главо 6. Многомерные методы Например, даже несмотря на то, что большинство фондов ценных бумаг в 1993 и 1994 годах функционировали без особого блеска, американцы в этот период вложили в них рекордное количество денег. В рассматриваемом примере будут исследованы 16 известных инвестици- онных фондов для оценки их состояния. В качестве переменных используются следующие характеристики (большинство из них описывается в условных единицах): доходность за пятилетний период — переменная Five_Yr, риск — переменная Risk, ежегодный процент дохода (performance) (для каждого го- да) — Perf90, Perf91, Perf92, Perf93, Perf94, расходная часть — переменная Expence и налоговые рейтинги — переменная Тах. Ниже приводится таблица с исходными данными по исследуемым фондам (табл. 6.2). В первом столбце указано наименование фонда, а в последнем — рекомендации экспертов по операциям с ценными бумагами этих фондов. Данные заимствованы из руко- водства по применению STATGRAPHICS Plus for Windows. Таблица 6.2. Данные об инвестиционных фондах Five^Yr Risk; Perftl Perf92 Perf93 Perf94 Expence Tax Recom. F. Chip 16476 2 10 25 6 55 4 1.22 89 Buy F. Contra 15476 2 -1 21 16 55 4 1.03 90 Buy F. Destiny 14757 3 4 26 15 39 -3 0.7 69 Buy Vista A 15145 4 -1 20 13 71 -6 1.49 96 Hold Berger 100 15596 5 -7 21 9 89 -6 1.7 95 Hold Gab. Assett 13640 1 0 22 15 18 -6 1.33 85 Buy Neub. Focus 14081 3 1 16 21 25 -6 0.85 75 Buy F. Magellan 13827 3 -2 25 7 41 -5 0.96 73 Buy Janus 13187 2 -1 11 7 43 -1 0.91 85 Sell L. Mason Value 13029 4 1 12 11 35 -17 1.82 92 Hold Gabelli Growth 12301 3 -3 11 4 34 -2 1.41 80 Buy Franklin Growth 11793 2 3 7 3 27 2 0.77 90 Sell Janus 20 12441 4 -7 3 2 69 1 1.02 95 Sell AARP Capital 11728 4 -10 16 5 41 -16 0.97 68 Sell Kemper Growth A 11386 4 -6 2 -2 67 4 1.09 86 Sell 20th Cent. Growth 11258 4 -8 15 -4 32 0 1 60 Buy Исследование приведенных данных состоит их трех частей. На первом этапе, излагаемом в настоящем разделе, будут изучаться многомерные груп- пировки общественных фондов, полученные методами кластерного анализа STATGRAPHICS. Второй и третий этапы представлены в разделе «Извлечение „скрытых знаний" экспертов по цепным бумагам методами локальной геомет- рии» главы 7. При изложении второго этапа приводятся результаты построе- ния линейных дискриминантных функций для разделения фондов на группы в соответствии с рекомендациями экспертов по операциям с ценными бумагами. Третья часть отведена задаче формирования базы знаний методами локальной геометрии для решения той же проблемы. Введем приведенные данные в электронную таблицу STATGRAPHICS и сохраним их в файле с именем growth. Выберем Special | Multivariate Methods | Cluster Analysis. Система отобразит окно диалога для ввода дан- ных в кластерный анализ (рис. 6.7). Дважды щелкнем левой кнопкой мыши на переменных Expence, Five_Yr, Perf90, Perf91, Perf92, Perf93, Perf94, Risk и Tax для задействования их в анализе.
Клостерный анализ: изучение инвестиционных фондов 157 Введем характеристику Fund в поле Point Labels и оставим поле данных Select пустым. На рис. 6.7 показан пример заполнения окна диалога для вво- да информации в кластерный анализ. Рис. 6.7. Пример заполнения окна диалога ввода данных для кластерного анализа Нажмем ОК. Система выдаст окно с первичной сводкой кластерного анализа. Так как в нашем случае желательно, чтобы кластерный алгоритм хорошо работал с небольшим количеством наблюдений (у нас их всего 16) и был на- целен на выделение кластеров с приблизительно равным числом членов, оста- новим свой выбор на методе Варда (Wards method). Щелкнем правой кнопкой мыши — на экране появляется окно диалога для выбора параметров кластерного анализа. Установим флажок Wards, а все остальные оставим в прежнем положении (рис. 6.8). Нажмем ОК; на экране отобразится сводка кластерного анализа для вы- бранного метода. Нажмем кнопку для задания графических опций (третья слева в верхнем ряду окна анализа). Система предоставит специальное окно диалога. Выберем отображение в виде дендрограммы (Dendrogram) и нажмем кнопку ОК. Система добавит к табличному окну графическое окно. Дважды щелкнем на дендрограмме для максимального раскрытия этого окна (рис. 6.9). Дендрограмма отображает иерархическую структуру группирования инве- стиционных фондов. На ней отчетливо видны как минимум три группировки: одна заканчивается на фонде Gabelli Growth, вторая заканчивается на фонде Legg Mason Value и третья, достаточно плотная группировка, — на фонде 20th Century Growth. Отсюда следует, что для более подробного рассмотрения группировок следует задать их количество равным 3. Дважды щелкнем на рисунке для минимизации размеров окна. Щелкнем правой кнопкой мыши на окне сводки кластерного анализа появится окно диалога для задания параметров проводимого исследования.
158 Гпово 6. Многомерные метода Рис. 6.8. Пример заполнения окна диалога для выбора параметров кластерного анализа Рис. 6.9. Дендрограмма, полученная методом Варда для одного кластера Изменим количество кластеров (Number of Clusters) с 1 до 3. Нажмем кнопку ОК. В соответствии с введенными изменениями будут произведены табличные преобразования (рис. 6.10 и 6.11). В сводке кластерного анализа прежде всего указываются: имена перемен- ных, участвующих в анализе, количество полных образцов (наблюдений без пропусков), использованный метод кластерного анализа и принятая метрика. Затем в сводке описываются: число кластеров, количество объектов в каждом кластере (населенность) и соответствующий процент населенности. Кроме то- го, в нижней части сводки приводится дополнительная важная информация. Например, по координатам центроидов (см. рис. 6.11) можно судить о том, какие переменные играют наиболее важную роль в каждом кластере. В частности, в первом кластере видно, что расходы были разумными: несмотря на низкие доходы в 1990 году, заметно, что в других годах состояние фондов первого кластера постоянно улучшалось. Также в первом кластере индициру-
((ростерный онолиз: изучение инвестиционных фондов 159 еТСЯ самый низкий рейтинг риска среди всех кластеров, а налоговые сборы ^Ь1ЛИ тоже достаточно невысокими. Рис. 6.10. Сводка кластерного анализа (верхняя часть) Рис. 6.11. Сводка кластерного анализа (нижняя часть) Переменные, представляющие кластер 2, говорят о том, что здесь имелись наибольшие расходы, хотя за пятилетний период доходы оставались самыми высокими. Оценка риска и налоговые сборы являются максимальными среди всех кластеров. О третьем кластере можно сказать, что он занимает второе место по рас- ходам относительно к доходам за пятилетний период. Оценка риска была са- мая высокая, однако налоговые сборы существенно ниже, чем у первого кластера.
160 Глава 6. Многомерные метоли Нажмем кнопку табличных опций (вторая слева в верхнем ряду). Система предоставит соответствующее окно диалога. Установим Membership Table (таблица принадлежности наблюдений), За. тем нажмем кнопку ОК Дважды щелкнем левой кнопкой мыши на таблице населенности для мак- симального раскрытия окна. В данной таблице (рис. 6.12) описаны выбранные параметры кластерного анализа и затем дается полный список всех наблюдений, их имена и номера кластеров, в которые входят указанные наблюдения. Membership Table Clustering Method: Ward’s Distance Metric: Squared Euclidean Row Label Cluster 1 F Chip 1 2 F. Contra 1 3 F. Destiny 1 4 Vista A 2 5 Berger 100 2 6 Gab. Assett 1 7 Keub, Focus 1 8 F Magellan 1 9 Janus 1 10 L. Mason Value 2 11 Gabelli Growth 1 12 Franklin Growth 1 13 Janus 20 3 14 AARP Capital 3 15 Kemper Growth A 3 16 20th Cent. Growt 3 17 F. OTC 1 18 Columbia Growth I Puc. 6 12. Таблица принадлежности наблюдений к кластера м Создание двумерной диаграммы рассеивания Нажмем кнопку графических опций (третью слева в верхней части окна анализа). Появится окно диалога для задания соответствующих параметров. Установим флажок 2D Scatterplot (двухмерная диаграмма рассеивания). Нажмем кнопку ОК — система отобразит еще одно графическое окно. Дважды щелкнем левой кнопкой мыши на окне дендрограммы, чтобы развер- нуть его. На дендрограмме видны три дерева (рис. 6.13). По вертикальной оси от- ложено расстояние для каждого шага работы агломеративного иерархического алгоритма кластеризации. На горизонтальной оси показаны наблюдения, ском бинированные в соответствии с проведенным анализом. Дендрограмма позво- ляет увидеть отчетливую картину трех группировок и имена наблюдений (инвестиционных фондов), вошедших в выделенные кластеры. Дважды щелкнем на дендрограмме и тем самым вновь минимизируем ее Дважды щелкнем левой кнопкой мыши на двумерной диаграмме рассеивания. Диаграмма показывает, как группируются исследуемые наблюдения на плоскости двух переменных Ехрепсе и Five_Yr (рис. 6.14). Каждый кластер
^сгерный онапиз: изучение инвестиционных фондов 1^1 Представлен на диаграмме собственным символом, а если бы это было в цвет- ам исполнении, то и цветом. Из графика следует, что 1-й кластер имеет низ- шие относительные расходы; видно, как распределены доходы фондов за пятилетний период. В кластере 2 наблюдаются самые высокие расходы, но и максимальные пятилетние доходы. В кластере 3 низкие расходы сопровожда- ется и невысокими пятилетними доходами. Рис. 6.13- Дендрограмма для трех кластеров Рис. 6 14. Двумерная диаграмма рассеивания Для того чтобы отобразить другие диаграммы рассеивания, достаточно щелкнуть правой кнопкой мыши и, получив в распоряжение соответствующее окно диалога, выбрать интересующие пары переменных
162 Глово 6. Многомерные метода Факторный анализ: изучение структуры интеллекта у пожилых людей В отличие от метода главных компонент, факторный анализ основан не на дисперсионном критерии, а ориентирован на объяснение корреляций, имею- щихся между признаками. Поэтому он применяется в более сложных случаях совместного проявления в структуре экспериментальных данных действия ла- тентных факторов. Основная модель факторного анализа записывается следующей системой равенств: xi = HJijfi + е.>' » = 1 >Р; т < р. ?=1 То есть предполагается, что значения каждого признака xi могут быть выражены взвешенной суммой латентных переменных (простых факторов) /.-, количество которых меньше числа исходных признаков, и остаточным членом £,- с дисперсией cr2(Ei'), действующей только на х., который называют спе- цифическим фактором. Коэффициенты 1у называют нагрузками i-й переменной на /-й фактор или нагрузками j-ro фактора на i-ю переменную. В самой простой модели факторного анализа считается, что факторы /у взаимно независимы и их дис- персии равны единице, а случайные величины £, тоже не зависят от какого- либо фактора fj. Максимально возможное количество факторов т при за- данном числе признаков р определяется неравенством (р + т) <(р - т)2 , которое должно выполняться, чтобы задача не вырождалась в тривиальную (Лоули Д., Максвелл А. Факторный анализ как статистический метод. М.: Мир, 1967). Сумму квадратов нагрузок называют общностью соответствующего при- знака х,, и чем больше это значение, тем лучше описывается признак выде- ленными факторами. Общность есть часть дисперсии признака, которую объясняют факторы. В свою очередь, £2 показывает, какая часть дисперсии исходного признака остается необъясненной при используемом наборе факто- ров, и данную величину называют специфичностью признака. Основное соотношение факторного анализа показывает, что коэффициент корреляции любых двух признаков можно выразить суммой произведения на- грузок некоррелированных факторов = r(Xi,Xj ) = + Z,2Zy2 +...+ZimZy,„ Задача факторного анализа не имеет однозначного решения. Представле- ние корреляционной матрицы факторами (как говорят, ее факторизацию) можно произвести бесконечно большим числом способов. Известно много ме- тодов факторного анализа. Если удалось произвести факторизацию корреля-
фокториый анализ: изучение структуры интеллекта у пожилых людей 163 —------------------------ - ------------------------------------------ дйоннои матрицы с помощью некоторой матрицы нагрузок F, то любое линей- ное ортогональное преобразование F (ортогональное вращение) приведет к такой же факторизации. Поэтому нередко в одном и том же пакете программ анализа данных реализовано сразу несколько версий таких методов, и у ис- следователей возникает закономерный вопрос, какой из них лучше. Здесь со- шлемся на слова одного из основоположников современного факторного анализа Г. Хартмана: «Ни в одной из работ не было показано, что какой-либо один метод приближается к „истинным" значениям общностей лучше, чем другие методы... Выбор среди группы методов наилучшего производится в основном с точки зрения вычислительных удобств, а также склонностей и привязанностей исследователя, которому тот или иной метод казался более адекватным его представлениям об общности» (Хартман Г. Современный фак- торный анализ. М.: Статистика, 1972). В STATGRAPHICS Plus for Windows реализовано три метода вращения факторов: варимакс, квартимакс и эквимакс. Вращение методом варимакс ставит целью упростить столбцы факторной матрицы, сводя все значения к 1 или 0. Вращение методом квартимакс ставит целью аналогичное упрощение только по отношению к строкам факторной матрицы. И наконец, эквимакс за- нимает промежуточное положение — при вращении факторов по этому методу одновременно делается попытка упростить и столбцы и строки. Факторный анализ широко применяется в экономике, социологии, меди цине для выявления скрытых закономерностей в данных. Но, может быть, наиболее широко он используется в психологии, из которой собственно идут корни факторной статистической техники. Этим объясняется выбор нижесле- дующего примера, связанного с изучением структуры интеллекта на основе данных, полученных с помощью психологического тестирования. Настоящий пример адаптирован по данным, приведенным в отчете об изучении пожилых людей (Morrison D. F. (1990). Multivariate Statistical Methods, 3rd edition. N. Y_: McGraw-Hill). Испытуемые были разбитые по- мощью теста Векслера на две полярные группы. Для первой группы харак- терно наличие признаков старения, для второй такие признаки отсутствуют. В нашем случае будут рассмотрены 37 человек, у которых признаки старе- ния выражены. Мы выделим (на основе экспериментальных данных) факторы и проинтерпретируем их. Откроем файл данных с названием Senile.sf. Таблица с экспериментальными данными приведена ниже (табл. 6.3). Получение и интерпретация сводки анализа Выберем Special | Multivariate Methods | Factor Analysis. Система выдаст окно диалога для задания переменных. Введем в поле анализа переменные arith (арифметический тест), info (информационный тест), picture (тест дополнения картинок) и similars (тест на подобие). В поле Select запишем first(37) — первые 37 объектов, тогда как полная матрица данных содержит больше объектов. Заполненное окно диалога ввода переменных в анализ показано на рис. 6.15.
164 Глава 6. Многомерные методы Таблица 6.3. Экспериментальные данные № ц/п cL. . : info л arith picture 1 7 5 9 8 2 8 8 5 6 3 16 18 И 9 4 8 3 7 9 5 6 3 13 9 6 11 8 10 10 7 12 7 9 8 8 8 И 9 3 9 14 12 И 4 10 13 13 13 6 11 13 9 9 9 12 13 10 15 7 13 14 11 12 8 14 15 И И 10 15 13 10 15 9 16 10 5 8 6 17 10 3 7 7 18 17 13 13 7 19 10 6 10 7 20 10 10 15 8 21 14 7 11 5 22 16 11 12 11 23 10 7 14 6 24 10 10 9 6 25 10 7 10 10 26 7 6 5 9 27 15 12 10 6 28 17 15 15 8 29 16 13 16 9 30 13 10 \1 8 31 13 10 17 10 32 19 12 16 10 33 19 15 17 11 34 13 10 7 8 35 15 И 12 8 36 16 9 И И 37 14 13 14 9 Нажмем кнопку ОК. Система выдаст первичную сводку факторного ана- лиза (рис. 6.16). Из полученной сводки следует, что на первые три фактора приходится 95% дисперсии. Передвинем курсор на окно первичной сводки и щелкнем правой кнопкой мыши. Система предоставит окно диалога для задания опций факторного анализа. Оставим в неприкосновенности переключатели, указывающие на: Listwise, Principal Components (тип факторизации) и Varimax (метод вра- щения факторов). Снимем флажок Standardize, так как мы имеем дело с уже
факторный онопиз: изучение структуры интеллекте у пожилых людей 165 стандартизированными психологическими данными, измеренными в опреде- ленных шкалах. Рис. 6.15. Заполненное окно диалога ввода данных для проведения факторного анализа Рис. 6.16. Первичная сводка факторного анализа Установим переключатель в положение Number of Factors (количество факторов) и в соответствующем поле изменим 4 на 3. Нажмем кнопку ОК (рис. 6.17). Система произведет необходимые расчеты и выдаст новую сводку факторного анализа (рис 6 18). Получение и интерпретация табличных результатов Нажмем кнопку табличных опций (вторая слева в верхнем ряду). Система выдаст соответствующее окно диалога. Щелкнем мышью на кнопке АП (все) и тем самым выберем все имеющиеся виды численных представлений результатов факторного анализа. Нажмем
166 Глово 6. Многомерные метода кнопку ОК. Система выдаст на рабочее поле экрана четыре окна с табличны- ми результатами. Рис. 6.17. Окно диалога для задания параметров факторного анализа Рис. 6.18. Вторая сводка факторного анализа Дважды щелкнем левой кнопкой мыши на табличном окне Extraction Sta- tistics (выделенные статистики). Окно займет все рабочее поле экрана (рис. 6.19). В таблице приведены значения факторных нагрузок до применения проце- дуры врашения факторов. Но так как вращение факторов нередко помогает получить более полезные сведения о структуре экспериментальных данных, рассмотрим значения факторных нагрузок после проведения такого вращения. Дважды щелкнем на раскрытом окне левой кнопкой мыши, минимизируя его размеры. Произведем двойной щелчок на окне Rotation Statistics (нагрузки после проведения вращения) — развернем его на все рабочее поле (рис. 6.20).
фокторный анализ: изучение структуры интеллекта у пожилых людей 167 Рис. 6.19- Результаты факторизации до вращения факторов Рис. 6.20. Матрица факторных нагрузок после проведения вращения Нетрудно видеть, что после применения процедуры вращения в факторе 2 гораздо более высокое значение имеет факторная нагрузка для переменной arith, которая отражает способность испытуемых к проведению арифметиче- ских действий в уме. Вместе с тем в факторе 1 высокие величины нагрузок наблюдаются для переменных similars и info, в то время как у переменной picture нагрузка мала. Это говорит о том, что фактор 1 отражает различия людей по так называемому основному интеллекту. Получение и интерпретация графических отображений Нажмем кнопку графических опций (третья слева). Появится соответствую- щее окно диалога. Щелкнем на кнопке АП, задействуя все графические опции. Система доба- вит на рабочее поле 5 окон с различными графическими отображениями ре- зультатов факторного анализа (рис. 6.21).
168 Глава 6. Многомерные метода Рис. 6.21. Все табличные и графические окна факторного анализа I Раскроем сначала окно с названием Scree Plot. Этот график в исходном построении иллюстрирует собственные значения для каждого фактора. Но предположим, нам хочется иметь выражения величины собственных значений в процентах. Щелкнем на графике правой кнопкой мыши и получим окно диалога для задания опций данного вида отображения результатов факторизации. Устано- вим флажок Percent of Variance (процент дисперсии) вместо Eigenvalues (собственные значения). Заметим, что фактор 1 имеет весьма высокое и, ко- нечно, самое большое значение процента дисперсии. На фактор 2 приходится менее 20% дисперсии, а фактор 4 и вовсе малозаметен по этому показателю (рис. 6.22). Рис. 6.22. Иллюстрация процента дисперсии для выделенных факторов Минимизируем размеры рассмотренного графика Дважды щелкнем левой кнопкой мыши на втором графическом Scatterplot (двухмерная диаграмма рассеивания). На полученном окне 2D рисунке
факторный анализ: изучение структуры интеллекта у пожилых людей 169 доказана проекция исследуемых объектов на плоскость, образованную первым и вторым факторами. Судя по конфигурации облака точек, первый и второй факторы сильно коррелируют. То есть в нашем случае, применительно к по- жилым людям с выраженными признаками старения, общий интеллект у них тесно связан со способностью к произведению в уме арифметических действий (рис. 6.23) Рис. 6.23. Проекция объектов на плоскость первого и второго факторов Вернем двухмерной диаграмме рассеивания прежние минимальные разме- ры, дважды щелкнув на ней левой кнопкой мыши. Максимизируем размеры графического отображения 3D Scatterplot. Этот график представляет собой проекцию объектов в трехмерное пространство, образованное первыми тремя факторами. Свернем рассмотренное отображение Дважды щелкнем левой кнопкой мыши на графике 2D Factor Plot (двухмерное отображение факторных нагрузок), раскрывая график на все ра- бочее поле (рис. 6.24). Рис. 6.24. Графическое изображение факторных нагрузок
170 Глава 6. Многомерные методы На графике хорошо видно, что переменная arith имеет значение как для первого, так и для второго факторов. Вместе с тем у переменной picture ма- лые нагрузки на все факторы, а тестовые измерения info и similars имеют большие нагрузки только на первый фактор. Свернем раскрытое окно до минимальных размеров, дважды щелкнув на нем левой кнопкой мыши. Раскроем до максимальных размеров окно 3D Factor Plot (трехмерный факторный график). График изображает факторные нагрузки уже в про- странстве трех факторов (рис. 6.25). Рис. 6.25. Отображение факторных нагрузок в пространстве трех факторов Из приведенного рисунка видно, что весьма высокую нагрузку имеет пе- ременная picture. Однако эта нагрузка приходится на третий выделенный фактор, а, как нам известно из предыдущих данных, третий фактор играет несущественную роль при описании рассмотренных экспериментальных на- блюдений. Дискриминантный анализ: диагностика приступов острого аппендицита Дискриминантным анализом называют раздел многомерного статистического анализа, содержащий статистические методы классификации многомерных наблюдений по одной из нескольких категорий или совокупностей. Предпола- гается также, что исследователь обладает так называемыми обучающими вы- борками («классификация с учителем»). Этот раздел статистики обширен и разнообразен. В STATGRAPHICS Plus for Windows реализован классический вариант дискриминантного анализа, основанный на определении канонических направлений в исходном пространстве признаков, удовлетворяюших следую- щему критерию: , дисперсия между классами J =----------——— = шах. дисперсия внутри классов
Дискриминантный анализ: диагностика приступав острога аппендицита 17) Весовой вектор w, удовлетворяющий данному критерию, исходя из гео- метрической интерпретации задает новую координатную ось в исходном р- мерно>: пространен---—-'.паков у(х) = wTx (||w||= 1) с максимальной неод- нородностью исследуемой совокупности объектов. Новой оси соответствует, по существу, первая главная компонента объединенной совокупности объектов, полученная с учетом дополнительной обучающей информации о принадлежно- сти их к различным классам. Весовой вектор w, при котором достигается максимальное значение кри- терия, определяется в результате решения обобщенной задачи на собственные значения: (С - lS)w = О, где С — ковариационная матрица объединенной совокупности объектов; S — ковариационная матрица одного класса объектов (предполагается, что кова- риационные матрицы разных классов равны). Всего существует р собственных векторов, удовлетворяющих приведенно- му уравнению. Их можно упорядочить по величине собственных чисел и по- лучить систему ортогональных канонических направлений W|,...,wp. Имеются определенные вариации применения классического дискрими- нантного анализа в различных пакетах анализа данных. Особенности его реа- лизации в STATGRAPHICS Plus for Windows будут рассмотрены на примере построения решающих правил для дифференциальной диагностики острого аппендицита. Данные (табл. 6.4) заимствованы из книги: Григорьев С. Г., Перфилов А. М., Левандовский В. В., Юнкеров В. И. STATGRAPHICS на персональном компьютере. СПб., 1992. Таблица 6.4. Симптомы острого аппендицита и их коды Симптомы острого аппендицита Выраженность Код XI Боли в правой подвздошной области незначительные 1 выраженные 2 Х2 Продолжительность болей свыше 2-х суток 1 25-48 часов 2 13-24 часа 3 до 12 часов 4 ХЗ Частота пульса до 80 уд/мин 1 $1—100 уд/мин 2 свыше 100 уд/мин 3 Х4 Лейкоциты крови до 8 тыс. 1 8-14 тыс. 2 свыше 14 тыс. 3 Х5 Изменения языка не обложен 0 обложен 1 Х6 Симптом Щеткина-Блюмберга отсутствует 0 выражен 2 Х7 Симптом Ровзинга отсутствует 0 выражен 2 Х8 Защитное мышечное напряжение отсутствует 0 выражено 2
172 Гпово 6. Многомерные методы Многие люди либо на собственном опыте, либо на случаях с родными и близкими воочию убедились, как бывает важно и вместе с тем непросто уста- новить точный диагноз острого аппендицита. Это достаточно тонкая проблема, нередко требующая привлечения знаний и умений врача самой высокой квалификации. В качестве исходной информации использовались данные клиники, в ко- торых зарегистрированы результаты обследования 103 человек с установлен- ным диагнозом: группа 1 — гангренозный аппендицит (28 наблюдений), группа 2 — флегмонозный аппендицит (25 наблюдений), группа 3 — ката- _ ральный аппендицит (26 наблюдений) и группа 4 — неподтвержденный диаг- ноз (24 наблюдения). Исходными признаками служили 8 симптомов, охарактеризованных в табл. 6.5. Вводим представленные данные в электронную таблицу STATGRAPHICS. Сохраняем их в файле под именем appendix. Для проведения дискриминантного анализа выбираем Special | Multivari- ate Methods | Discriminant Analysis. Получаем окно диалога дискриминант- ного анализа и вводим в поле Classification Factor (классифицирующий фактор) переменную с именем groop, в поле Data (данные) — переменные xl, х2, хЗ, х4, х5 хб, х7 и х8 (рис. 6.26). Рис. 6.26. Окно диалога дискриминантного анализа Нажимаем ОК. На экран выдается сводка дискриминантного анализа (рис. 6.27) , Таблица содержит характеристики трех выделенных дискриминантных функций (Discriminant Function): собственные значения (Eigenvalue), вклад каждой функции в объяснение дисперсии симптомов (Relative Percentage) в %, канонические корреляции с классифицирующим фактором (Canonical Correla- tion) и оценки уровня значимости дискриминантных функций по критериям Лямбда и Хи-квадрат. Как следует из приведенных цифр, для решения диаг- ностической задачи достаточно применить две дискриминантные функции F1 и F2, на которые в сумме приходится 98.33% дисперсии симптомов.
Дискриминонтный анализ: диагностика приступов острого аппендицита 173 Таблица 6.5. Результаты клинического обследования ’group ' xi ' . х2 хЗ ; j х4 х5 Л- .-.м-’- х7 х8 1 2 3 1 2 1 2 2 2 1 2 2 2 2 1 2 0 2 1 2 3 1 3 1 2 2 2 1 2 2 3 1 1 0 2 2 1 2 3 2 2 1 2 2 0 1 2 3 1 3 0 0 2 2 1 2 2 2 2 1 2 0 2 1 2 4 1 3 1 2 2 2 1 1 2 2 3 1 2 2 2 1 2 3 2 2 1 2 2 2 1 2 1 1 3 1 2 2 0 1 2 3 2 2 1 2 2 2 1 2 2 1 3 0 2 0 2 1 2 3 2 2 1 0 2 2 1 2 4 2 2 1 2 2 2 1 2 2 1 3 1 2 2 2 1 2 3 3 2 1 2 0 2 1 1 1 2 2 0 2 2 2 1 2 3 2 3 1 2 2 2 1 2 1 1 3 1 0 2 2 1 2 3 3 2 1 2 2 2 1 2 3 2 3 1 2 2 0 1 2 2 1 2 1 2 0 2 1 2 3 2 2 0 2 2 2 1 2 3 1 2 1 2 2 2 1 2 3 2 3 1 2 2 2 1 2 3 1 3 1 2 2 2 1 2 3 1 2 1 2 2 2 2 2 3 1 2 1 2 2 0 2 1 4 2 1 0 2 0 2 2 2 3 1 3 1 0 2 2 2 1 4 2 2 1 2 2 2 2 2 4 1 2 0 2 2 2 2 2 4 2 2 1 2 0 0 2 1 2 1 2 1 2 2 2 2 2 4 2 3 0 0 2 2 2 1 3 1 1 1 2 и 2 2 2 4 1 2 1 2 2 0 2 2 4 1 3 0 2 2 2 2 1 2 1 2 1 0 0 2 2 2 3 1 3 1 2 2 0 2 1 4 1 1 1 2 2 2 2 2 4 1 2 0 2 0 2 2 2 3 1 2 1 0 2 0 2 1 4 2 2 1 2 2 2 2 2 4 1 3 0 2 2 2 2 2 3 1 2 1 2 0 0 2 1 4 2 1 1 0 2 2 2 2 3 1 2 0 2 2 2 2 2 4 1 2 1 2 2 2 2 2 4 2 2 1 2 2 2 2 2 4 2 3 1 0 2 2
174 Глава 6. Многомерные методы Таблица 6.5 (продолжение) ^гбир 1 Я I 2 1 3 2 2 1 2 2 2 3 t 3 1 2 1 0 2 2 3 2 4 1 1 0 2 0 0 3 2 3 1 2 1 0 2 2 3 2 4 2 2 1 2 0 0 3 t 2 1 1 0 0 2 2 3 2 3 1 3 1 2 2 0 3 2 4 1 2 1 2 2 2 3 2 1 1 1 1 2 2 0 3 1 4 1 2 0 0 0 2 3 2 1 2 2 1 2 2 0 3 2 3 t 1 1 2 0 2 3 2 4 1 2 1 0 0 0 3 1 3 1 1 0 2 2 0 3 2 4 1 2 1 0 2 2 3 2 3 2 2 1 2 2 2 3 1 4 1 1 0 0 2 0 3 2 3 1 2 1 2 2 0 3 2 4 2 2 1 2 0 2 3 2 3 1 3 0 0 2 2 3 2 4 1 2 1 0 0 0 3 1 3 1 1 1 2 2 0 3 2 3 1 2 0 2 2 2 3 2 4 1 2 1 2 2 2 3 1 4 2 1 1 2 2 0 3 2 3 1 2 1 2 2 0 3 1 4 1 2 1 2 2 0 4 1 2 1 1 0 0 0 0 4 1 1 2 1 0 0 0 0 4 1 3 1 1 1 0 0 0 4 2 1 1 2 0 0 0 0 4 1 2 1 1 0 0 0 0 4 1 1 1 1 0 0 0 0 4 1 2 1 1 0 0 0 0 4 1 1 2 1 1 0 0 0 4 1 2 t 2 0 0 0 0 4 2 1 1 1 0 0 0 0 4 1 2 1 2 1 0 0 0 4 1 2 1 2 1 0 0 0 4 1 1 1 2 0 0 0 0 4 1 ’ 1 2 1 0 0 2 0 4 1 4 1 1 0 0 0 0 4 1 3 1 1 0 0 0 0 4 2 1 1 2 1 0 0 0 4 1 4 1 1 0 0 0 0 4 1 2 1 1 0 0 0 0 4 1 1 1 2 1 0 0 0 4 1 2 1 1 0 0 0 0 4 1 1 2 1 0 0 0 0 4 2 1 1 1 0 0 2 0 4 1 2 1 1 0 0 ° 0
Дискриминантный анализ: диагностика приступов острого аппендицита 175 Рис. 6.27. Сводка дискриминантного анализа Рис. 6.28. Коэффициенты дискриминантных функций Нажмем кнопку табличных опций (вторая слева вверху) и установим флажок Discriminant Functions. Нажмем ОК. Получаем таблицы, показан- ные на рис. 6.28. Первая таблица содержит коэффициенты трех дискриминантных функций в стандартизированном виде. Для расчета по этим функциям в них следует подставлять стандартизированные значения исходных признаков. Вторая таб- лица включает константы и коэффициенты дискриминантных функций F1 и F2, в которые вводятся натуральные значения признаков: F1 =- 6.05 + 0.67*х1 + 0.33’х2 + О.34*х3 + 0.46*х4+ +0.66*х5 + 0.73*х6 + 0.45*х7 + 0.8*х8, F2 = 0.12 - 0.17*х1 + 0.97*х2 - 1.03‘хЗ - 0.71*х4+ +0.26‘х5 - 0.04*х6 + 0.33*х7 - 0.31*х8. Вызовем еще раз окно табличных опций и попросим выдать на экран ре- зультаты расчета координат центроидов групп, а также групповых статистик. Результаты отображены на нижеследующих рисунках. По данным, представленным на рис. 6.29, можно уяснить, каковы средние значения симптомов в каждой группе больных и какова их вариация относи-
176 Глава 6. Многомерные методы тельно средних. Видно, что по отдельно взятым разрозненным симптомам не- возможно добиться постановки \'доилг '”' "гст1 ного диагноза. Здесь налицо многомерная диагностическая задача, когда только совокупное взаимодействие признаков способно в той или иной степени отражать разбиение объектов на классы по актуальному критерию. Рис. 6.29. Значения групповых центроидов Для графического отображения результатов нажмем кнопку графических опций (третья слева вверху) и в предоставленном окне диалога закажем график дискриминантных функций (Discriminant Functions). Получаем рис. 6.30. дгооо 123 COUNTS 28 25 26 MEANS xl 1.92657 1.64 x2 2.60714 3.52 x3 1.67057 1 36 x4 2.39286 2.08 x5 0.057143 0.72 x6 1.71429 1.52 x7 1.64206 1.52 x8 1.78571 1.52 DEVIATIONS 0 262265 О . 78595Б 0.669636 0.566947 0.356348 0.712697 0.760042 0.629941 1.69231 3.26923 1.19231 1 76923 0.730769 1 30769 1 46154 0 923077 0.470679 0 874423 0.401918 О.58704 0 452344 0.970329 О.904609 1.01678 0.489898 0.653197 0 489898 0.640312 0.458256 0 87178 0.87178 0.87178 Рис. 6.30. Значения групповых статистик На диаграмме рассеивания (рис 6.31) хорошо видно, что объекты 4-го класса (неподтвержденный диагноз) образуют самостоятельную, четко выра- женную группировку, не пересекающуюся с другими классами. В то же время остальные классы имеют значительные пересечения в пространстве дискрими- нантных функций. В принципе уже по этой картине можно составить диаг- ностическое правило. Оно будет заключаться в вычислении расстояния от ди- агностируемого объекта до центроидов классов в пространстве канонических дискриминантных функций. Вместе с тем более точные результаты диагности- ки дает применение линейных дискриминантных функций Фишера, парамет- ры которых также определяются в рамках процедуры дискриминантного анализа STATGRAPHICS. Они здесь имеют название классифицирующих функций (Classification Functions). Кратко охарактеризуем их. Весовые коэффициенты классифицирующих функций определяются по следующей формуле: Wj = S 'ш; (г = 1,К) ,
Дискриминонтный анолиз. диагностика приступов острого аппендицита 177 Рис. 6.31. Диаграмма рассеивания объектов на плоскости первых двух дискриминантных функций где S — матрица ковариаций диагностического класса; ш, — вектор средних t-го диагностического класса; К — количество классов. Пороговые величины вычисляются как --wfm£ + InP, (i = /,K), 2 ’ ’ ’ где Pi — априорная вероятность i-го класса. Правило диагностики с применением классифицирующих функций сле- дующее объект х относится к г-му классу, если выполняется условие $г;(х)= тах^.(х), М.к где (х) = w Jx - woj. Доступ к классифицирующим функциям осуществляется через окно диало- га задания табличных опций. Ниже приводятся полученные параметры этих функций (рис. 6.32). Jlassi fi саст on Function Coefficients for Qro'op - 9.80432 2 3 4 8.17871 8.93672 5.94286 3.7S737 5.20323 4.92038 2.7094 кЗ 8.52742 6.92167 6.0Б655 6.17226 6.57962 5.73891 4.31038 3.88906 3.35299 2.97219 2.97616 -0.0100725 <6 3.68837 3.17182 2.4832 -0.14488 Х7 2.39136 2.37583 2.3B89B 0.16S203 Х8 4.11553 3.31578 2.22598 -0.196831 CONSTANT -41.0048 -35.7319 -29.899 -13.4048 - Рис. 6.32. Коэффициенты классифицирующих функций Для количественного выражения результатов применения классифици- рующих функций обратимся снова к окну диалога задания табличных опции (нажав вторую слева кнопку) и установим флажок Classification Table. На- жимаем ОК. Получаем две таблицы (рис. 6.33 и 6.34).
178 Глава 6. Многомерные методы Рис. 6 33. Сводные результаты классификации Рис. 6.34. Детальный разбор результатов применения классифицирующих функций Из верхней таблицы черпаем сведения об итоговых результатах диагности- ки острого аппендицита. Точность диагностики больных первой группы (гангренозный аппендицит) составляет 78.57%, второй группы (флегмонозный аппендицит) — 64% и третьей группы (катаральный аппендицит) — 65.38%. Это не слишком точные результаты, которые, однако, могут в какой-то мере содействовать окончательному заключению клинического специалиста Вместе с тем констатация отсутствия острого аппендицита (группа 4 — неподтвер- жденный диагноз) осуществляется со 100% надежностью, что следует считать определенным достижением в применении методов дискриминантного анализа для решения практически важных задач медицинской диагностики. Во второй таблице дается детальный разбор результатов диагностики по- средством полученных классифицирующих функций. Для каждого объекта приведены значения двух наибольших дискриминантных функций и результат отнесения к тому или иному классу. Неправильно классифицированные объ- екты помечены звездочкой. Это дает пищу для дополнительных размышлений о причине неудачных автоматических диагнозов. Как будет показано в следующей главе в разделе «Формирование знаний методами локальной геометрии: разработка экспертной системы для диагно- стики острого аппендицита», на основании тех же самых экспериментальных данных может быть построена гораздо более эффективная система диагности- ческих правил. Их определение основано на применении специальной локаль- ной геометрии, позволяющей осуществлять поиск в данных логических закг
Канонический корреляционный анализ: исследование взаимосвязей психического и биологического 179 номерностей с использованием средств интерактивной графики и методов ли- нейной алгебры. Канонический корреляционный анализ: исследование взаимосвязей психического и биологического В отличие от обычного корреляционного анализа, в котором количественно выражается взаимосвязь между двумя различными случайными величинами, канонический корреляционный анализ позволяет находить максимальные свя- зи между двумя различными группами величин с совместным распределением. В каждой группе отыскиваются линейные комбинации исходных признаков, имеющие максимальные корреляции. Сначала ищется первая пара таких ли- нейных комбинаций с самой сильной зависимостью, затем вторая пара, некор- релированная с первой, и т. д. В качестве примера рассмотрим задачу, сформулированную ранее во 2 главе в разделе «Пошаговая множественная регрессия: взаимосвязь психи- ческого и биологического», о нахождении взаимосвязей между психическими свойствами человека и измерениями в биологически активных точках (ВАТ), отражающих состояние отдельных органов. Там эта задача решалась с помо- щью методов множественного регрессионного анализа, и исходным материа- лом служила совсем небольшая выборка — 14 человек. По мере написания книги эксперимент продолжался, и теперь анализируемая выборка составляет 85 человек — студентов Санкт-Петербургского технического университета. Введены новые обозначения для более компактного представления резуль- татов: AI — акцентуация характера, I — порядковый номер акцентуации. RI — отношение измерения правого канала к левому в 1-й по порядку БАТ. LI — отношение измерения правого канала к левому после нагрузки в 1-й по порядку БАТ. Порядок акцентуаций характера и каналов БАТ такой же, как и в разделе «Пошаговая множественная регрессия: взаимосвязь психического и биологи- ческого' гл:.": ° Исходные данные приведены в нижеследующих табл. 6.6-6.8. Приведенные данные были введены и, там где это потребовалось, сгенери- рованы в электронной таблице STATGRAPHICS Plus for Windows. Файл дан- ных получил имя «Ьар». Для проведения канонического корреляционного анализа выбираем ко- манду Special | Multivariate Methods | Canonical Correlations. Получаем ок- но диалога для ввода переменных в анализ. Изначально в качестве первой группы переменных указывались признаки R1, .. , R12, L1, ..., L12. Во вторую группу переменных вошли измерения ак- центуаций характера А1, ..., А10 (рис. 6.35) Нажимаем ОК и получаем следующую сводку канонического корреляци- онного анализа (рис. 6.36).
180 Глоео 6. Многомерные методы Таблица 6.6. Акцентуации личности, измере:”::'" тестом Шмишека-Мюллера № п/л Результаты измерений - 1 18 16 24 16 12 12 12 6 12 12 2 21 16 24 14 3 9 10 9 9 12 3 21 8 9 22 6 6 18 3 12 6 4 18 18 12 12 3 6 10 0 9 12 5 9 6 15 16 15 12 12 6 15 12 6 21 14 21 14 3 21 12 12 9 18 7 15 12 12 6 3 12 8 9 9 12 8 15 12 12 12 6 9 12 3 9 12 9 12 18 15 18 12 15 16 9 9 12 10 9 12 9 8 0 3 6 6 6 12 11 9 12 21 14 3 18 8 9 12 24 12 21 18 15 18 6 15 14 3 6 12 13 9 8 9 8 15 21 8 9 12 12 14 6 14 12 8 12 15 4 15 6 12 15 9 12 0 6 6 12 6 15 3 6 16 9 8 9 14 12 12 6 12 12 12 17 12 16 15 8 9 18 12 18 9 18 18 15 14 6 10 6 18 22 21 12 18 19 9 8 15 6 3 6 10 6 9 18 20 21 22 6 8 3 9 16 18 9 12 21 15 12 0 18 18 18 12 15 12 12 22 21 16 21 6 6 9 18 9 12 12 23 12 16 9 16 6 9 14 6 9 12 24 9 8 9 14 12 18 8 18 12 12 25 21 12 24 16 12 24 12 21 15 24 26 12 10 9 10 0 0 12 3 18 6 27 24 16 3 8 9 9 18 9 6 12 28 21 12 0 10 0 9 12 9 9 12 29 18 16 9 16 12 12 10 12 6 12 30 15 10 21 20 6 9 14 3 12 12 31 24 12 0 6 0 15 14 12 9 12 32 12 22 9 8 3 6 12 9 9 12 33 15 10 6 10 3 9 10 9 9 6 34 6 12 6 16 6 12 10 9 12 6 35 21 18 15 6 6 12 16 18 6 18 36 18 18 15 14 15 18 16 18 6 6 37 9 12 15 14 9 9 10 12 12 6 38 18 12 12 10 3 6 18 12 12 18 39 15 14 12 18 3 18 12 15 9 12 40 6 14 12 4 15 12 14 9 15 18 41 18 14 18 10 0 9 12 3 9 6 42 12 10 24 22 18 18 6 12 6 12 43 3 16 15 12 9 21 6 18 15 18 44 24 16 21 10 12 9 6 15 6 12 45 15 14 6 14 3 6 14 3 9 12 46 9 16 9 12 18 15 8 12 15 12 47 9 12 18 18 24 21 8 15 15 24 48 21 14 3 4 3 9 10 9 15 6 49 21 12 15 14 0 6 10 6 6 12 50 12 20 12 14 18 9 12 15 6 12 51 18 10 9 4 0 6 16 0 6 12 52 6 12 18 14 9 9 0 12 21 12
Канонический корреляционный анализ: исследование взаимосвязей психического и биологического 181 Таблица 6.6 (окончание) № п./п Результаты измерений * Г ' ' 53 6 14 12 18 3 6 10 12 9 12 54 15 16 18 10 9 6 12 9 6 12 55 21 12 24 12 9 12 12 9 9 24 56 12 14 15 8 9 21 10 18 6 12 57 9 18 18 12 0 12 16 6 15 12 58 21 12 12 10 0 6 14 9 6 12 59 12 12 18 14 12 18 8 15 9 12 60 21 10 21 12 6 15 16 12 9 12 61 21 6 12 18 12 15 10 6 12 6 62 15 16 6 12 3 6 10 15 12 12 63 6 4 6 10 3 9 14 9 9 6 64 18 12 0 4 0 6 20 3 6 12 65 15 6 9 14 12 18 12 12 15 12 66 6 14 18 10 6 9 12 15 9 12 67 18 12 12 8 0 9 12 6 12 12 68 21 12 6 12 3 15 16 18 9 18 69 6 8 18 10 3 3 8 3 9 6 70 6 18 15 12 9 9 4 12 12 6 71 15 10 12 12 3 12 10 12 15 6 72 15 18 18 8 3 9 16 9 9 0 73 21 18 9 4 0 9 10 15 9 12 74 21 14 3 16 0 12 12 12 9 12 75 15 14 24 6 3 15 20 21 6 12 76 18 12 12 2 0 9 16 9 6 12 77 21 14 9 16 6 6 18 6 6 12 78 6 16 12 14 15 6 16 6 12 12 79 9 10 12 14 9 21 6 9 12 24 80 18 18 3 16 0 12 16 9 9 6 81 15 12 3 14 3 6 12 6 9 12 82 24 12 15 12 15 12 20 12 9 12 83 12 14 9 12 9 15 4 6 15 18 84 12 12 3 14 1 9 8 12 15 6 85 18 14 12 6 12 15 6 6 6 6 Таблица 6.7. Результаты измерений в Б АТ до нагрузки (отношение правого к левому каналу) № п/п R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R1I R12 1 1.11 0.61 1.41 1.1.3 0.98 1.7 1.02 ’ 16 1.11 1.13 0.84 1 92 2 0.67 0.77 0.82 0.95 0.74 2.15 1 04 0.86 0.46 2.39 0.76 1.16 3 1.13 0.99 1.53 0.79 1.53 1.96 1.19 1 63 1.17 1.23 0.86 1.02 4 1.34 1.37 1.23 0.77 0.87 1.48 0.81 1.12 0.93 1.05 1.03 0 49 5 0.97 1.18 0.99 1.01 1.16 1.15 0.74 1.23 1.33 1.25 0.63 1.96 6 1.04 0.87 1.2 1.25 0.89 1.89 1.09 1 13 1.03 1.19 1.13 2.61 7 1.84 0.86 1.24 0.49 2.2 0.8 1.63 0.65 1.81 0.81 2.06 1.43 8 1.16 0.85 1.86 1.55 1.3 1.23 1.09 1.34 0.68 1.07 1.01 1.73 9 0.98 1.34 1.95 1.54 1.17 1.94 1.3 1.71 1.03 1.41 1.38 1.41 10 1 21 0.79 1.62 1.04 1.71 1.01 1.14 0.99 1.07 1.96 1.33 11 7.03 0.81 0.92 1.11 0.95 0.58 1.47 0.94 0.86 0.75 0.98 1.03 12 0.69 1.46 1.24 1.1 1.07 1.92 0.96 1 16 1.01 1.12 0.83 1.21 13 0.82 1.2 1.11 0.89 1.24 1.38 1.11 1.34 1.5 1.58 1.01 1.13 14 1.03 1.47 0.88 0.88 1.16 2.11 1.31 1 63 1.3 1.31 1.4 0.8 15 1.21 0.95 1.2 0.97 1.46 0.69 1 0.89 1 0.89 0.84 0.55
182 Глово Ь. Многомерные методы Кононический корреляционный онолиз: исследовоние взоимосвязей психического и биологического_________183 Таблица 6.7 ( тжение) п/п R1 <* R2 F R4 R6 R§- & R10 Ry M2 16 1.29 1.03 0.85 1.15 1 1 1.42 0.81 0.99 1.12 1.72 0.91 1.37 17 1.07 1.31 1.38 0.86 1.01 0.49 1 0.59 0.73 0.82 1.37 2.79 18 1.12 0.98 1.94 1.06 1.46 1.04 0.7 1 39 0.97 1 69 0.67 1.02 19 0.85 0.78 1.35 0.64 1.3 0.9 0.78 0.75 1.2 1.21 1 54 1.57 20 1.41 1.03 0.56 0.98 1.26 1.15 1.04 1.24 0.93 1.58 0.49 1.06 21 2.75 1.24 0.96 1.19 1 07 1 08 1.26 2 43 1 51 1.15 0.87 0.65 22 1.46 0 89 0 75 1.58 1 03 07 1.06 1 16 1 66 0.82 0.78 1 1 23 1.83 1.59 1.02 2.07 1.09 1 45 1.25 0 56 1.67 1.93 0.62 0.48 24 0.95 0.99 1.23 1.45 1 04 0 76 1.05 1.42 1 29 2.76 1.09 1 13 25 1.07 0.89 0.84 1.17 0.53 0.97 1.03 1.22 0.86 0.88 0 76 0.78 26 1.37 1.33 0.96 1.07 1.62 1.17 1.05 1.17 1.11 0.75 0.89 1.09 27 1.18 0.77 1.17 1.25 0.92 1.46 0.91 1.21 1.16 1.19 1.37 1.52 28 0.6 0.84 1 0.78 0.95 1.24 1.29 1.82 1.11 1.63 0.97 3 29 0.98 1.25 1.1 0.95 0 85 1.7 1.26 0.86 0 78 1.63 1.61 1 30 1.15 0.87 1.61 0.93 1 16 0 92 1.33 0.91 1 07 1.43 1.25 1.1 31 0.63 1.16 1.52 0.83 1.18 0.76 1.59 1.02 0.7 1.43 1.13 1.03 32 1.41 1.25 1.25 1.8 2.16 1 18 1.4 1.89 1 56 1.21 0.7 2 05 33 1.24 0.88 0.81 1.09 1 49 1 13 1.1 1.36 1 17 1.12 0.58 1.42 34 0.81 1.75 1.1 1.28 1.11 0.93 1.25 1.55 1.11 0.82 0.98 0.98 35 0.66 0.58 0.97 0.93 1.1 0.7 0.86 0.82 0.69 0.66 1.56 1.27 36 0.65 0.78 1.19 1.85 1.03 1 1 1.41 1.35 0.97 1.01 1.38 37 1.28 0.94 0.87 1.11 0.9 1.34 1.73 1.09 0 83 0.86 1.91 1.1 38 0.94 0.69 0.82 1.19 0.92 0.3 1.36 0.98 0 92 0.27 0.75 1.14 39 1.36 1.12 1 1.2 1 03 07 1.5 0.6 1 18 0.68 1.44 08 40 1.3 1.39 0.79 0.87 1 03 1 84 0.84 0.97 0.92 1.9 1.01 1.16 41 1.29 0 85 1.12 1.14 1.05 1.63 111 1 33 1 24 1.21 0 99 1.32 42 0.98 1.3 1.04 1.17 0.7 1.23 0.89 0.52 0.76 2.59 1.01 0.96 43 1.22 1.33 1.59 1.09 1.32 0.74 0.79 2.46 1.4 1.34 0.85 1.78 44 1.42 1.78 1.71 1.17 1.26 2.21 1.15 0.81 1.28 1.61 0.65 1.58 45 0.86 1.24 0.95 1.04 1.18 1.56 0.65 0.82 0.75 0.99 1.05 1.6 46 1 1 1 1 1 1 1 1 1 1 1 1 47 1.29 1.25 1 0.93 1.79 1.37 1.06 0.68 0.86 1.48 0.78 0 73 48 1.03 0.47 1.06 0.71 0 85 0.1 0.86 0.97 0.94 1.39 1.06 1.26 49 1.49 1.95 0.84 1.05 1 45 0 86 0.87 0.67. 1 3 1.37 0.88 1.72 50 1.51 0 71 0.96 1.35 1 04 0.47 0.84 1.15 1.42 0.81 0.82 1.14 51 1.3 2.02 0.76 0.72 1.06 1 32 1.88 0.74 1.29 0.77 0.85 1.3 52 0.81 1.28 1.38 0.62 1.25 1.26 1.52 1.2 1.29 1.41 0.82 1.8 53 1.07 1.25 0.97 0.93 1.29 0.79 0 84 t 07 1.26 1.27 0.98 0.94 54 1.64 1.3 0.95 0.59 3.46 1.17 1.57 0.88 1.35 1.76 1.39 2.28 55 1.89 1.59 0.85 0 69 0.95 1.39 1.18 2.01 1.29 1.52 1.07 1.28 56 0.8 0 95 0 88 0.86 1 17 1 04 0.9 1 2 0.93 0.13 0.75 1.24 57 1.42 1.2 0.92 0.79 1.17 1 23 0.97 0 79 1.35 1.52 1.13 1.07 58 1.91 2 41 1.08 1.39 1 98 1 04 1.46 1 8 1.69 1.08 1.33 0.96 59 1.14 1.58 0 96 1.07 1.12 1.59 0.9 1.2 0.79 1.53 1.19 1.16 60 1.63 1.14 1.65 0.87 1.32 0.71 1.24 1.35 1.24 0.76 1.38 1.47 61 1.18 1.2 1.2 0.89 1.21 056 1 0.86 1.26 1.16 0.78 0.94 62 0.95 0.9 0.67 1.09 1.38 1.91 1.09 1.03 1.23 0.86 1 03 0.86 63 1.49 1.18 0.88 0.78 3.16 1.46 0.66 0.78 2.07 1.86 0.96 1.5 64 1.48 1.52 1.12 0.7 1 04 1 83 0.76 1.05 1.42 1 66 0 79 1.12 65 1.65 1 31 0.94 0.92 0 79 0 98 0.75 0.85 1 21 1.1 0.95 0.94 66 2.11 1.21 0.83 0.88 1 66 1.21 1 0.85 2 03 1.09 1.12 1.09 67 1.55 1.4 1.97 1.28 1 42 1 27 1.04 1.63 1.71 1.67 1.05 1 08 68 1.26 1.15 1 13 1.1 1.06 1.25 1.07 0.6 1.25 1.54 1.02 1.1 Таблица 6.7 (окончание) № л/л Л1 R2 R3 R4. R5 s? SL R10 R1L R12, 69 1.35 1.3 0 89 1.43 0.99 1.55 1.19 0.81 0 74 1 32 0.97 0 9 70 0.78 0.94 0.64 0.68 1.17 0.93 1.8 0.62 1.07 1.07 0.61 1.56 71 1.04 1.07 1.53 0.73 0.94 1.49 1.29 0 82 1.19 1.03 1.84 1.77 72 2.19 1.13 2.06 0.95 1.34 1.44 0.75 0.93 1.57 1.19 0.85 1.11 73 0.69 0.73 0.8 0.98 0.68 0.62 0.83 1.14 0.69 0.97 1.21 0.64 74 0.81 0.96 0 78 1.08 1.06 0 88 0.66 1.63 0.92 0 86 1.19 1.44 75 0.89 0 73 0 57 0.89 1 2 1 1.03 1.03 1 03 1 01 0.88 0 62 76 2.32 1 55 0.73 1.01 1.62 1.47 0.85 0.59 1.69 1.72 1.09 1 77 1.13 0.98 1 82 1.22 1.17 0 96 1.19 0.77 1 36 1 26 0.65 1 55 78 2 02 1 49 1.57 1.21 1.44 2.46 2.72 1.57 1.18 1 22 1.29 1 88 79 1.44 1.07 1.49 1.34 0.73 0.9 1.15 1.07 0.92 1.13 1.03 1.69 80 0.95 1.43 0.87 0.81 1.03 0.85 1.57 1.04 0.97 2.18 1.33 1.3 81 1.42 1.39 1.69 1.2 1.25 0.89 1 1.13 1 0.91 1.03 1.85 82 1.32 0.96 0.56 0.77 1.47 2.68 0.64 0.85 1 21 0.96 0.8 1.13 83 1.72 0 86 0.84 1.12 1.14 1.46 1.38 0.98 1.81 1 66 0.96 1 16 84 1.53 1.71 0.55 1.26 1.21 1.35 1.71 0.71 1.41 1 62 1.32 1.36 85 0.98 0 84 0 76 0.87 1.19 1.19 1.34 1.47 1.11 1.25 1.11 1.3 Таблица 6.8. Результаты измерений в БАТ после нагрузки (отношение правого к левому каналу) № п/п L2 й L4 L5 ^6 L7 19 ыо XII L12 1 1.04 1.1 1 1.12 1.03 1.17 0.66 0.85 1.34 0.95 1.03 1.66 2 1.22 1.14 0 88 0.75 1.85 0.91 1 1.37 1 24 1 01 0.9 0.92 3 1.15 1 3 1.23 0.9 1.4 1.74 0.94 1.53 1.76 1 16 0.74 0 78 4 1.34 1 1 1.23 0.77 0.87 1 48 0.81 1.12 0.93 1 05 1.03 0.49 5 1.77 0.88 1 11 0.86 1.15 0 82 0.85 0.89 1 15 2 44 0.47 1.4 6 1.27 0.57 0.84 1.22 1.01 0.97 1.01 1.07 0.86 1.17 1.33 1.57 7 1.49 1.38 1.48 0.81 1.77 1.15 1.61 2.41 1.89 1.49 1.57 1.76 8 1 28 1.02 0.86 1.13 0.66 1.28 1.07 0.99 1.07 1.2 0.93 1.28 9 1.04 0.36 1.04 0.8 1.51 0.96 1.09 1.26 1.32 1.15 1.07 0.99 10 1.18 0 86 0.75 1.33 1.4 0 92 0.95 0.77 1 0.96 0.96 0.81 11 1 0 39 1 1 1 1 1 1 1 1 1 1 12 1.18 0 62 0.97 0.95 0.84 1.57 0.82 0.9 1.01 1.34 0.7 1.48 13 1.53 0 95 1 03 1.06 1.81 1.88 1.32 0.66 1 78 1.44 0.89 1 11 14 1 1.3 0.95 0.8 0.9 2.92 0.88 0.92 1.12 2 24 082 0 78 15 1 26 0.71 0.9 0.6 1.1 1 23 0.68 0.91 1.47 0.81 0.81 1.05 16 1.1 1.25 1.1 1.19 1.06 1.55 0.98 1.4 1.14 1.49 0.76 1.31 17 1.04 1.61 1.22 0.89 1 52 0.92 1.39 09 0.92 0 99 1.61 2.94 18 1.76 1.26 1.25 1.28 2.33 1.08 1.15 1.09 1.26 2.12 1.16 1.34 19 0.98 0.76 0.98 0.73 1.46 1.24 0.9 1.34 1 23 1.09 0 79 1 20 1.7 0.74 0.93 0.81 2.29 1.5 1.61 1.46 1 63 1 82 0.91 1.19 21 1.72 1 7 1.2 0.73 1.29 1.57 1.13 0.71 1.68 1.48 1.24 1.02 22 1.18 0 53 0 79 0.95 0.61 1.45 0.85 0.88 0 73 0 91 0 78 0 72 23 1.56 1.01 0 92 0.84 2.11 0.92 1.29 1.19 2.03 0.87 0.81 0.89 24 1.02 1.13 1.36 0.66 1.54 1.22 1 1.96 1.35 1.83 1.25 1.37 25 1.37 0.65 0.65 0.98 0.87 1.23 1.43 0.91 1 1.35 1 0.72 26 1.39 1.17 0.83 1.16 1.25 0.98 1.46 1.01 1.78 0.76 0 68 1.1 Э? 1 19 0.52 0.63 fl 1.29 1 11 1.16 1.25 0.88 1.03 0.98 1 ПР 28 1 1 26 1.55 0.59 0.6 1.14 1.03 0.63 0.91 1.49 1.33 1.42 29 1.14 3 36 1 38 1.24 1 1 2 0.73 0 63 0 76 1 28 1.51 1 19 30 0.77 1 29 2 0.94 2.14 2.02 0.97 0.88 1.09 1.11 1.61 0.95 31 0.76 0 62 0 82 0.83 1 26 0.66 1 1.62 0 97 1.31 0.89 1.67 32 1.76 1.3 1.36 1.52 1.72 1.04 0.92 1.54 1.97 1.18 0.73 1.35
184 Глава 6. Многомерные методы Таблица 6.8 (окончание) № п/п L1 L2 L3 L4 L5 L6 L7 L8 L9 L1Q к Lit' 33 1.44 0.59 0.99 0.92 2.23 1.35 0.98 0.99 1.26 0.81 0.73 1.48 34 1.12 1.05 1.12 0.99 0.92 1.82 0.75 1.23 1.29 1 79 06 1.14 35 0.69 0.9 0.81 1.02 0.82 1 76 0.86 0.75 0.74 1.18 1.34 1.59 36 0.63 0.75 0.54 1.38 0.67 1.25 1.18 0.9 0.89 1.2 1 33 0.66 37 0.88 0.88 0.83 0.97 0.78 1.99 0.94 0.99 1.16 1.01 0 73 1.13 38 1.08 0.52 0.86 1.4 1.59 1.3 1.2 0.88 1.3 1.14 1.06 1.61 39 1 1.12 1.62 1.25 0.72 0.84 1.41 1.48 1.23 0.58 1.41 1.14 40 1.39 1.09 0.79 1.16 1.52 2.35 1.25 1.25 1.14 1.73 1.13 1.39 41 0.96 0.94 1.11 0.93 1.6 1.71 1.51 1.13 1 46 1.23 0.98 1.77 42 1.39 0.64 0.5 1.33 1.51 1.04 1.05 1.61 1.88 1.37 1.11 1.21 43 1.21 1.05 0.72 0.92 1.19 0.91 1.24 1.38 1.05 1.15 0.9 0.63 44 1.17 1.11 1.63 1.34 0.9 1.99 1.54 0.79 1.13 1.38 0.7 1.85 45 1.33 0.48 0.77 1.09 1.15 1.04 1.33 1.42 0.82 0.7 1.13 1.33 46 1.11 0.79 1.01 0.84 0.84 1.42 1.16 1.12 1 21 0.44 0.72 1.32 47 1.54 1.02 0.78 0.79 1.16 1 07 0.86 1.49 1 22 1.41 0.75 0.83 48 0.86 0.8 1.15 1.06 0.88 0 12 0.84 1.09 1.96 1.52 0 92 2.01 49 1.73 1.45 1.19 1.44 1 41 1.73 1.06 1.08 1.79 1.93 0.89 1.6 50 1.71 0.98 0.61 0.96 0 99 1 48 0.68 0.75 1.25 1.29 0.65 1.15 51 1.11 0.82 1.14 0.59 1.25 1 4 08 0.84 1.36 0.88 1.03 0.97 52 0.74 1.73 1.14 0.91 0.93 1 02 1.3 1.03 0.73 1.07 0.79 1 23 53 1.29 1.19 1.03 1.03 1.67 0.64 0.61 1.07 1.45 0.93 0.91 1.29 54 0.91 0.5 0.84 0.79 1.02 1.14 0.97 1.03 0.88 1.27 1.07 1.5 55 1.53 1.75 1.11 0.53 1.06 1.5 1.21 0.54 1 28 1 74 1.28 1.02 56 0.96 1.26 1.74 0.99 0.98 0.78 1.12 1.37 0.85 0.14 0.97 1.63 57 1.56 1.39 0.82 1.01 1.49 1.53 0.91 0.81 1.42 1.56 1.04 1.29 58 1.86 3.04 1.27 1.77 2.1 1.77 1.54 2.03 1.54 2 1.37 1.65* 59 1.25 2.45 1.75 1.09 1.21 2.07 1.35 1.18 1.06 1.48 2 36 0 96 60 0.9 0.81 1.3 1.06 0.92 2.11 1.55 0.86 0.88 1 49 0.85 1.11 61 1.17 0.46 0.55 0.78 0.94 1.32 0.76 0.8 1.24 2 07 0.78 0.69 62 0.91 0.41 0.73 0.93 1.32 1.36 0.97 0.8 1.02 0.77 0.78 0.85 63 1.34 0.9 1.75 0.97 1.38 1.12 0.98 1.17 1.44 1.55 1.02 1.06 64 1 И 0.94 0.9 0.81 0.53 0.99 1.1 0.9 0.71 1 2 1 1.35 65 1 04 0.74 1.21 0.72 1 12 09 1.32 1.51 1.41 1.16 1.22 1 75 66 1.57 0.7 0.74 0.83 1.53 1 4 1.1 0.92 1.36 1.1 1.23 1 35 67 1.76 1.45 0.93 0.86 1.4 1.18 0.9 0.63 1.91 1.26 0.91 1.14 68 1.49 1.15 1.22 0.87 1.5 1.29 1.09 0.91 1.6 1.13 1.33 0.86 69 1.47 0.94 0.8 1.43 0.86 1.22 1.2 1.21 1 22 1 11 0.66 1.31 70 1.08 0.86 0.66 0.7 1.21 0.91 0.72 0.96 1.43 1.3 0.6 0.88 71 1.69 0.78 1.17 1.48 1.2 1.59 0.91 1.38 1.41 1.25 1.04 0.73 72 1.65 2.5 2.23 1.17 1.18 1.85 1.32 1.25 1 35 1.16 0.98 0.77 73 1.33 2.56 1.22 0.89 1.14 1.19 0.81 1.06 0.9 1.01 0.72 1 24 74 0 8 1.31 1.4 0 77 1.19 0.73 0.78 1.53 1.22 0.86 1.25 1 14 75 0 93 0.55 0.3 1 01 0 87 1 И 1.51 1.15 0.96 1.07 1.33 0 57 76 1 32 0.85 0.42 0.79 1 08 0.72 0.72 1.26 1.01 1.31 0.43 0 61 77 1.54 0.94 1.12 0.94 0.99 2.13 1.24 0.6 1.33 1.12 0.76 1.19 78 2 64 4.58 1.3 1.05 2.26 0 54 1 39 0.89 2.29 0.7 0 96 1.02 79 1 47 1.23 0.92 1.65 1 34 1 64 0 84 0.96 1 1.41 0.97 0 68 80 1 21 0.65 0 74 0.92 2 01 1.01 0.96 0.74 1.24 2.19 0.99 1.16 81 0.96 0.86 0.91 0.61 0.88 1.97 0.83 0.61 0.77 3.19 0 61 0.3 82 1 21 1.89 1.26 0.91 1.12 0.93 1.01 1.85 1.12 1.07 0.85 2.47 83 1.54 0.86 0.83 1.62 1.59 1.31 1.33 1.33 1.74 0.74 1.2 0.93 84 1.42 2.94 0.92 0.65 0.91 2.23 1.24 0.7 1.11 1.71 0.8 0.6 85 1.16 1.5 0.98 1.38 2.46 1.26 1.38 1.61 .1.38 0.91 1.41 2
Кононический корреляционный онолиз: исследовоние взоимосвязей психического и биологического 185 Рис. 6.35. Окно диалога для ввода переменных в канонический корреляционный анализ Number Eigenvalue Canonical Correlation Uilks Lambda Chi-Square D.F. P-Value 1 0.480761 0.693369 0.0447355 206.615 240 0-9418 2 0.433199 0.658178 0.0861558 163.031 207 0.9893 3 0.390998 0.625298 0.152004 125.276 176 0.9986 4 0.287147 0.535861 0.249594 92.2966 147 0.9999 5 0.270641 0.520232 0.350134 69.7876 120 0.9999 6 0.224266 0.473589 0.480058 48.8009 95 1.0000 7 0.187606 0.433135 0.61886 31.9118 72 1.0000 е 0.130463 0.361196 0.761773 18.0951 51 1.0000 9 0.0760462 0.279368 0.876067 8.79879 32 1.0000 10 0.0497711 0.223094 0.950229 3.39498 15 0.9991 Рис. 6.36. Таблица канонических корреляций Полученным числам соот" -ч'-от графическое отображение, которое мы получаем с помощью окна дна......, лирических опций. Судя по рисунку 6.37, между двумя исследуемыми группами переменных существует отчетливая статистическая взаимосвязь — эллипсоид рассеивания достаточно сильно вытянут вдоль главной диагонали. Однако числа в таблице говорят о том, что к полученному результату нельзя относиться как к достоверному. Об этом свидетельствуют высокие p-значения у всех без ис- ключения канонических корреляций (все они выше 0.9). Данный факт во многом предопределен большим количеством переменных, участвующих в анализе. Поэтому произведем следующую процедуру — исключаем из анализа все переменные, у которых весовые коэффициенты в линейных комбинациях полученных канонических направлений не превышают 0.2. После такой про- цедуры получаем следующие табличные и графические результаты, показанные на рис. 6.38-6.41.
186 Слово 6. Многомерные методы Акцентуации Измерения в биологически активных точках Рис. 6.37. Диаграмма рассеивания на плоскости первых канонических направлений в исходном пространстве Number Eigenvalue Canonical Correlation Wilks Lambda Chi-Square D.F. P-Value 0.408325 0.639003 0.44066 63.5099 35 0.0022 2 0.128794 0.358879 0.744766 22.8381 24 0.5294 3 0.08Z7481 0.26766 0.854868 12.1526 15 0.6674 0.0467654 0.216253 0.931986 5.45671 8 0.7076 S 0.0222886 0.149294 0.9777Ц 1.74691 3 0.6266 Рис. 6.38. Канонические корреляции R1 -0.271015 0.206581 0.445697 -0.588576 0.501542 R5 0.311933 0.332795 -0.704759 -0.458211 -0.266311 LI -0.538634 0.98882 -0.0295581 0.746757 -0.337259 L2 0.525572 -0.0602693 0.113881 -0.12984 0.392977 L6 0.216103 -0.0447671 -0.406549 0.339212 0.686321 L9 0.593171 -0.741666 0.33993 0.0888826 -0.0974569 Lil -0.759329 -0.2656 -0.40857 0.199447 -0.156514 Рис. 6.39. Коэффициенты канонических переменных для измерений в БАТ Л5 0.361972 0.414831 -0.217077 0.935323 0.411643 Л6 -0.697889 -1.00894 0.0428989 0.115273 -0.203635 A7 -0.238476 0.298934 -0.0505429 0.51879 -0.831516 A9 0.211941 -0.0101784 0.963903 0.158972 -0.289815 A10 -0.569125 0.799789 0.195428 -0.264156 0.391025 Рис. 6.40. Коэффициенты канонических переменных психологического теста График, как и в предыдущем случае, опять наглядно демонстрирует за- висимость биологического и психического — конфигурация точек вытянута вдоль некоторой оси. Но на этот раз визуальный вывод подтверждается и чис- ленными данными. Из первой таблицы вытекает, что коэффициент корреля- ции первых канонических линейных комбинаций составляет 0.64, а уровень значимости равен 0.0022. Следовательно, вывод о статистической значимости связи указанных направлений заслуживает более чем 99% доверия. Вместе с тем, судя по табличным данным, этого нельзя сказать о других канонических корреляциях.
Канонический корреляционный онолиз: исследоеоние взоимосвязей психического и биологического 187 Акцентуации характера Измерения в биологически активных точках Рис. 6.41. Диаграмма рассеивания на плоскости первых канонических направлении после исключения малоинформативных переменных Вторая таблица даст весовые коэффициенты для линейной комбинации из- мерений в биологически активных точках: Yl = - O.27*R1 + 0.31 *R5 - 0.54*Ll + 0.53*L2 + 0.22*L6 + 0.59* L9 - 0.76*1.11. Из третьей таблицы получаем весовые коэффициенты линейной комбина ции, максимально коррелирующей с Y1, образованной на основании данных психодиагностического тестирования: Y2 = 0.36*А5 - 0.70*А6 - 0.24*А7 + 0.21 *А9 - 0.56*А10. Содержательный анализ полученных выражений выходит за рамки данно- го раздела. Главное — на основании выявленной канонической корреляции можно утверждать, что с очень высокой степенью достоверности психические свойства имеют связь с соматической симптоматикой и эту связь удается дос- таточно точно выразить количествено Дальнейшие исследования, проведенные, как и в главе 2 в разделе «По- шаговая множественная регрессия: взаимосвязь психического и биологическо- го» с применением аппарата множественного регрессионного анализа, под- тверждают сделанный вывод. Практически для всех акцентуаций личности построены статистически достоверные линейные модели, в которых в качестве предикторов выступают отношения электрокожных сопротивлений в биологи- чески активных точках правого и левого каналов. Причем указанные модели дают весьма точные количественные совпадения с данными психодиагностиче- ского тестирования. То же самое получается и в обратном направлении — все «разбалансировки» правого и левого каналов для разных БАТ имеют досто- верные статистические связи с определенными линейными комбинациями акцентуаций личности. Заинтересованному исследователю это нетрудно само- стоятельно выяснить, ведь в настоящем разделе представлены реальные экс- периментальные данные, достаточные для проверки сделанных утверждении Что же касается сфер приложения и перспектив подобного иссле«~~........ этом уже было сказано в главе 2 в разделе «Пошаговая множественная рег- рессия: взаимосвязь психического и биологического».
АНАЛИЗ ДАННЫХ В СИСТЕМАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ФОРМИРОВАНИЕ ЗНАНИЙ В СИСТЕМАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА — ГЕОМЕТРИЧЕСКИЙ ПОДХОД...................189 ФОРМИРОВАНИЕ ЗНАНИЙ МЕТОДАМИ ЛОКАЛЬНОЙ ГЕОМЕТРИИ: РАЗРАБОТКА ЭКСПЕРТНОЙ СИСТЕМЫ ДЛЯ ДИАГНОСТИКИ ОСТРОГО АППЕНДИЦИТА......206 ИЗВЛЕЧЕНИЕ «СКРЫТЫХ ЗНАНИЙ» ЭКСПЕРТОВ ПО ЦЕННЫМ БУМАГАМ МЕТОДАМИ ЛОКАЛЬНОЙ ГЕОМЕТРИИ................................218
Формировоние зноний в системох искусственного интеллекта — геометрический подход 189 Формирование знаний в системах искусственного интеллекта — геометрический подход Развитие компьютеров вступило в этап, когда они начали активно брать на себя различные функции, традиционно считавшиеся прерогативой интеллекту альной деятельности человека. Предпосылок для такой метаморфозы было много. С одной стороны, — это техническое совершенствование вычислитель- ных машин (улучшение технологической базы и архитектуры, повышение производительности и надежности, уменьшение габаритов и стоимости), что сделало их доступными для самого широкого круга людей, не обладающих знаниями профессиональных программистов. С другой стороны, к такому превращению привели разработки в области игровых программ, теории дока зательства теорем, распознавания образов, машинного перевода, автоматиче- ского реферирования, информационного поиска, сочинения текстов и музыки и т. д. В целом можно сказать, что причиной интеллектуализации компьюте- ров стали исследования, так или иначе моделирующие процесс получения ре- зультата в отдельных видах деятельности человека. Вместе с тем главным фактором, определившим становление индустрии интеллектуальных систем и позволившим объединить различные достижения и поднять их на качественно новый уровень, явилось осознание и перенесение главного акцента компью- терных разработок с вычислительных программ на приложения, осущест- вляющие представление и манипулирование знаниями из актуальных пред- метных областей. В создании интеллектуальных компьютерных систем выделяют следующие основные направления. Интеллектуальные информационно-поисковые системы (ИИПС). Они отличаются от предыдущего поколения информационно-поисковых систем не только гораздо более обширным справочно-информационным фондом, но и важнейшей способностью формировать адекватные ответы на запросы пользо- вателя даже тогда, когда запросы не носят прямого характера. Иными слова- ми, ИИПС достаточно «умны» для того, чтобы понять недостаточно четко сформулированные вопросы. Другой особенностью ИИПС является их спо- собность «переваривать» огромные количества информации из разнообразных источников, осуществляя ее автоматическое реферирование и проводя анализ на противоречивость и неполноту тех или иных фрагментов знания. Обучающие системы, которые нередко называют «тьюторами» (англ, (то) tutor — обучать), являются разновидностью экспертных систем. Тьюторы, прежде всего, применяются для профессионального обучения будущих спе- циалистов. Здесь на первый план выходят знания о методе. Экспертные системы (ЭС) предназначены, главным образом, для реше- ния практических задач, возникающих у специалиста, работающего в слабо структурированной и трудно формализуемой предметной области. Эти систе- мы аккумулируют профессиональные знания опытных квалифицированных экспертов и служат полезным инструментом, содействующим повышению точ- ности и эффективности принимаемых решений.
190 Глова 7. Анолиз донных в системах искусственного интеллекта Развитие указанных направлений определяется в настоящее время тремя парадигмами. Первая связана с архитектурными решениями на основе параллельных и асинхронно протекающих процессов, перемещающихся по структуре взаимо- связанных однотипных компьютеров. Разработка теории таких процессов ~ одна из центральных проблем искусственного интеллекта (ИИ). Вторая парадигма ИИ — когнитивная компьютерная графика, представ- ляющая собой эффективный технический инструмент воздействия на образное интуитивное мышление исследователя. Функция когнитивной графики заклю- чается в наглядном изображении внутреннего содержания предмета, которым может быть, в частности, любое абстрактное научное понятие, гипотеза или теория. Динамизм компьютерной графики, отсутствие принципиальных огра- ничений на форму, характер и структуру изображений, за которыми может стоять мощный вычислительный эксперимент, использование дополнительных цветовых и музыкальных эффектов (мультимедиа) открывает «правополу- шарные» каналы связи между исследователем и интересующей его проблемой. Третья парадигма состоит в создании интеллектуальных гибридных сис- тем, обеспечивающих пользователю комфортное взаимодействие с пакетами прикладных программ и делающих доступной для него многогранную область вычислительной математики. Актуализация отмеченных парадигм во многом обусловлена экстенсивным увеличением технических возможностей современных компьютеров. В то же время «узким» местом ИИ, в меньшей степени зависящим от наращивания технических мускулов, была и остается проблема получения и манипулирова- ния знаниями, которые составляют основу любой интеллектуальной системы. Эта задача имеет глубинные корни и затрагивает все без исключения аспек- ты ИИ. При решении проблемы получения знаний выделяют три стратегии (Гаврилова Т. А., Червинская К. Р. Извлечение и структурирование знаний в экспертных системах. М.: Радио и связь, 1992): приобретение знаний, извле- чение знаний и формирование знаний. Под приобретением, (acquisition) знаний понимается способ автоматизиро- ванного наполнения базы знаний посредством диалога эксперта и специальной программы. Автоматизированные средства приобретения знаний получают готовые фрагменты знаний в соответствии со структурами, заложенными раз- работчиками системы. Большинство соответствующих инструментальных средств ориентировано на конкретные экспертные системы с жестко обозна- ченной предметной областью и моделью представления знаний. Например, система TEIRESIAS (Davis R. TEIRESIAS: Applications of meta-level know- ledge//Knowledge-based Systems in Artifical Intelligence. N. ¥.: McGrow-Hill, 1982) предназначена для пополнения базы знаний системы МУСШили ее до- черних ветвей, построенных на оболочке EMYC1N (Shortliffe Е. Computer based medical consultations: MYCIN. N. Y.: American Elsevier, 1976) в области медицинской диагностики с использованием продукционной модели представ- ления знаний. При попытке использования систем приобретения знаний в других областях разработчикам нередко приходится сталкиваться со следую- щими трудностями:
Формирование знаний в системах искусственного интеллекта — геометрический подход 191 • неудачный способ приобретения, не совпадающий со структурой знаний в данной области; • неадекватная модель представления знаний; • отсутствие целостной системы знаний в результате приобретения только «фрагментов»; • упрощение и уплощение «картины мира» и пр. Извлечением (elicitation) знаний называют процедуру взаимодействия ин- женера по знаниям с источником знаний (экспертом, специальной литературой и др.) без использований вычислительной техники. Это длительная и трудо- емкая процедура, в которой инженеру по знаниям, владеющему методами ког- нитивной психологии, системного анализа, математической логики и пр., нужно воссоздать модель предметной области, используемой экспертами для принятия решений. Актуальность задачи извлечения знаний при разработке интеллектуальных систем обусловлена следующими причинами. Во-первых, значительная часть знаний эксперта является результатом многочисленных наслоений, ступеней опыта, и эксперт нередко не способен самостоятельно проанализировать все детали в цепи своих умозаключений. Во-вторых, диалог инженера по знаниям и эксперта служит наиболее естественной формой «раскручивания» лабирин- тов памяти эксперта, в которых хранятся знания, часто носящие невербаль- ный характер. И в третьих, многочисленные причинно-следственные связи реальной предметной области образуют сложную систему, скелет которой ино- гда более доступен для восприятия аналитика, владеющего системной методо- логией и не обремененного знанием большого количества подробностей. Термин «формирование знаний» связывают с созданием компьютерных систем, реализующих методы автоматического получения знания, так назы- ваемое «машинное обучение» (machine learning). На сегодняшний день это наиболее перспективное направление инженерии знаний, предполагающее, что в результате автоматизации процесса обучения система «сможет» самостоя- тельно сформировать необходимые знания на основе имеющегося эмпириче- ского материала (данных). В настоящее время специалистам стало ясно, что инженер по знаниям с помощью одного лишь диалога с экспертом в какой-то конкретной области не способен добыть все нужные для разработки интеллек- туальной системы сведения. Требуется еще и множество примеров, на которых удастся обучить машину (Десять лет спустя (интервью с Д. Мичи)// Будущее искусственного интеллекта. М.: Наука, 1991. С. 213-216). В самом общем виде: формирование знаний — это задача обработки баз данных (БД) с целью перехода к базам знаний (БЗ). В БД накапливаются и хранятся эмпирические факты из исследуемой предметной области (факти- ческие данные, примеры экспертных заключений, элементарные высказывания с некоторой оценкой и т. п. ), представленные в виде троек <объект, признак, значение признакам В БЗ заносятся сведения, выражающие закономерности структуры множества эмпирических фактов, релевантные прикладному кон- тексту. Контекст определяет отношения между объектами из БД. Он мож^т за; ваться вне БД (например, экспертом) или продуцироваться признаком (или
192 Глово 7. Анолиз донных в системох искусственного интеллекте совокупностью признаков) из БД. Чаще всего на практике встречаются отно- шения эквивалентности и порядка. Отношения эквивалентности присущи, в частности, задачам классификации, диагностики и распознавания образов. Отношения порядка свойственны задачам шкалирования, прогнозирования и т. п. Ниже пойдет речь в основном об отношениях эквивалентности. Методы формирования знаний имеют много общего с решениями упомяну- тых задач классификации, диагностики и распознавания образов. Но одной из главных отличительных черт первых является функция интерпретации за- кономерностей, кладущихся в основу правил вхождения объектов в классы эквивалентности. Именно поэтому в инженерии знаний наибольшее распро- странение получили логические методы, например: «эмпирическое предсказа- ние» (Загоруйко Н. Г. Эмпирическое предсказание. Новосибирск: Наука, 1979), «индуктивное формирование понятий» (Гладун В. П. Эвристический поиск в сложных средах. Киев. Наукова думка, 1977; Хант Э., Мартин Дж., Стоун Ф. Моделирование процесса формирования понятий на вычислитель- ной машине. М.: Мир, 1970) «построение квазиакспоматической теории» (Финн В. К. Интеллектуальные системы: проблемы их развития и социальные последствия// Будущее искусственного интеллекта/Под ред. К. Е. Левитина и Д. А. Поспелова. М.: Наука, 1991) и др. Есть еще одна важная причина, обусловившая приоритет логических мето- дов. Она заключается в сложной системной организации областей, являющих- ся прерогативой искусственного интеллекта. Они относятся, как правило, к надкибернетическому уровню организации систем (Boulding К. Е. General Systems Theory — The Skeleton of Science//Management Science, 2, 1956), за- кономерности которого не могут быть достаточно точно описаны на языке ста- тистических или иных аналитических математических моделей (Гик Дж., ван. Прикладная общая теория систем. М.: Мир, 1981). Гибкость и многообразие логических конструкций индуктивного вывода позволяют нередко добиваться успеха при описании сложных систем. Вместе с тем центральной проблемой создания таких конструкций остается проблема перебора большого количества вариантов. При этом отмечается, что совершенно не ясно, как можно распа- раллелить символьную операцию логического вывода. Отсюда следует, что применение логических методов часто вынуждено опираться на эвристические соображения, не имеющие строгого обоснования. Альтернативу логическим символьным методам составляет геометрический подход, переводящий задачу формирования знаний на язык геометрических соотношений между эмпирическими фактами, выступающими целостными ин- формационными единицами и отображаемыми точками в пространстве приз- наков. Это, с одной стороны, делает более понятными критерии и принципы построения правил вхождения объектов в определенные классы эквивалентно- сти, которые основываются на сравнении объектов с помощью мер, имеющих интерпретацию расстояний. С другой стороны, следует иметь в виду, что ис- пользование геометрического подхода при неограниченном расширении мно- жества эмпирических фактов автоматически приводит к минимальным, теоретически достижимым ошибкам при принятии решений. Кроме этого, все операции без затруднений распараллеливаются, а визуализация геометриче- ской структуры множества точек позволяет организовать исследование зако-
формировонме зноний в системах искусственного интеллекте — геометрический подход 193 номерностей в совокупности эмпирических фактов средствами интерактивной когнитивной графики. Более того, как будет показано ниже, можно получать наглядные визуальные представления о логических закономерностях в < rj .vk туре данных — для этого применяется специальная локальная геометрия. Важность геометрического подхода к решению задач искусственного интел- лекта подчеркивается в кн.: Поспелов Д. А. Искусственный интеллект: фанта- зии и реальность//Наука и жизнь, 1995, № 6. В отличие от символьных логических методов, реализующих операции над признаками, в геометрическом подходе главными элементами выступают объ- екты, а основным видом операций является определение расстояния между объектами в многомерном пространстве признаков. Геометрический и логиче- ский подходы составляют оппозицию, которой соответствует ряд других противопоставлений: конкретное-абстрактное, параллельное-последователь- ное, синтез-анализ, безусловное-условное, экстенсиональное-интенсиональное представление знаний, интуитивное-рациональное, правополушарный-левопо- лушарный механизмы мышления и т. п. В то же время внутри указанных оп- позиций имеется тесная связь. Она выражается в том, что «конкретное одно- временно воплощает и абстрактную сущность его, сопричаствует с ним; конкретное — всего лишь знак отвлеченного и всеобщего» (Колесов В. В. Отражение русского менталитета в слове//Человек в зеркале наук. Л.: ЛГУ 1991. С. 106-124). Так, например, любой конкретный объект есть конъюнк- ция элементарных событий, представляющих собой попадание значений при- знаков в определенные интервалы. Или, в частности, классификатор, действующий по принципу минимума расстояния, эквивалентен линейному решающему правилу (Таунсенд К., Фохт Д. Проектирование и программная реализация экспертных систем на персональных ЭВМ. М.: Финансы и стати- стика, 1990), являющемуся формой интенсионального представления знаний. Коренная проблема геометрического подхода состоит в поиске ответа на вопрос: какие признаки и какую меру следует выбрать для определения рас- стояний между объектами? В известных методах анализа данных эта задача формулируется как подбор взвешенной метрики с использованием обучающей и частично обучающей информации (Айвазян С. А., Бежаева 3. II., Старове- ров О. В. Классификация многомерных наблюдений. М.: Статистика, 1971) или как оцифровка переменных, основанная на максимизации статистического критерия (>тпркин Б Г Анализ качественна' признано Статистика, 1980). Удачное решение уки и .. _>и >а, > ic-скп вы- ражается расширением «сферы действия» объектов, выступающих в роли представителей своих классов эквивалентности (Дюк В. А. Компьютерная психодиагностика. СПб: Братство, 1994). Однако способы решения данной за- дачи в инженерии знаний имеют свои существенные особенности. Традиционные методы анализа многомерных данных, опирающиеся на геометрическую метафору, используют представление об общем пространст- ве признаков для всех объектов и об одинаковой мере, применяемой для оцен- ки их сходства или различия. Такое представление уместно, например, при изучении однородных физических феноменов на статистическом уровне сис- темной организации, в которых объект можно рассматривать как реализацию многомерной случайной величины с ясным физическим с'"' все основания интерпретировать зафиксированные особенности объектов как
194 Слова 7. Анализ донных в системах искусственного интеллекта случайные флуктуации, обусловленные воздействием шумов, погрешностями измерительных приборов и т. и. В задачах формирования знаний, когда мы имеем дело с системами надки- бериетического уровня сложности, каждый объект следует рассматривать как самостоятельный информационный факт (совокупность зафиксированных значений признаков), имеющий важные уникальные особенности. Последние раскрываются путем конструирования для любого объекта собственного про- странства признаков и нахождения индивидуальной меры, определяющих иерархию его сходства с другими объектами, релевантную заданному контек- сту. Без такого раскрытия описания объектов они нивелированы, могут со- держать много ненужных, шумящих, отвлекающих и даже вредных деталей, и «сферы действия» объектов как представителей своих классов эквивалентно- сти сужаются (Дюк В. А., 1994). Конструирование собственного пространства признаков и нахождение ин- дивидуальной меры будем называть локальным преобразованием пространства признаков. Пусть X = (x(j), i = 1,N, j=1,p - матрица данных, где — значение j- го признака у i-ro объекта. Тогда задача преобразования описания объекта х; формулируется как определение контекстно-зависимой локаль- ной взвешенной метрики rf;(xitXj) того или иного типа, обеспечивающей релевантную контексту иерархию близостей (удаленностей) объектов х, (у = /, Д') относительно объекта х;. Например, в случае бинарных признаков это может быть локальная взвешенная метрика Хэмминга d/Xj.Xj) = w^Ajj, где Лу =(|хп -x;7|,|xf2 - x>2|,...,|xip -Xypl)1 I wi = (wu>wi2<- ~ весовой вектор. Как следует из данного выражения, задача определения контекстно- зависимой локальной метрики заключается в нахождении линейного преобра- зования новой векторной переменной А; =|х;-х|. Для определения такого преобразования подходит хорошо разработанный аппарат методов многомер- ного линейного анализа данных. Ограничение на применение этих методов накладывается требованием неотрицательности компонент весового вектора wik (k = 1,p), так как различие объектов х; и Xj по какому-либо признаку xk должно обязательно приводить к увеличению расстояния </,(Х;,Х|), либо (в случае wilt = 0) вообще не сказываться на изменении расстояния d((Xj,Xj). В рамках данного раздела ограничимся лишь общими замечания- ми о методах построения локальных метрик. Критерий качества локальной метрики определяется контекстом, а его конкретная форма задается исследователем. Например, с учетом информации о принадлежности объектов к тем или иным классам эквивалч.*.. дартный для линейного дискриминантного анализа критерий,
формирование знании в системах искусственного интеллекте — геометрический подход 195 построенный на отношении разброса между классами к внутриклассовому разбросу. Или, имея в виду сложную неоднородную структуру классов, целе- сообразнее строить критерий качества на оценке первых к-ближайших к X) объектов, то есть фактически на локальной оценке отношения правдоподобия в точке х; (Мешалкин Л. Д. Локальные методы классификации. М.: МГУ, 1969, вып. 1. С. 58-78). Также не лишен смысла критерий, основанный на сравнении расстояний от объекта х; до его (/-ближайших соседей из собствен- ного класса с расстояниями до его r-ближайших соседей из других классов и т. п. При построении локальной метрики могут: использоваться самые различ- ные методы, ориентированные на максимизацию заданного критерия. Нередко достаточно ограничиться только отбором центрированных признаков |xif( - xfc|. Это бывает целесообразно, главным образом, при работе с бинар- ными признаками. Для решения данной задачи особенно эффективны алго- ритмы отбора переменных типа «плюс / минус г» (Kittier J. A. Feature set search algorithms// Proc. Cjnf. on Pattern Recogn. And Signal Proces- sing. Paris, France, 25 June-4 July, 1978. Pp. 41-60) и эволюционные методы. В частности, как показывает опыт, хорошо себя зарекомендовал метод случайного поиска с адаптацией (Лбов Г. С. Выбор эффективной системы за- висимых признаков//Труды Сиб. отд. АН СССР: Вычислительные сис- темы. Новосибирск, 1965, вып 19 Индивидуально сконструированные локальные метрики обеспечивают ка- ждому объекту, как представителю своего класса, максимально возможную «сферу действия», чего нельзя достигнуть при построении общего пространст- ва признаков и использовании одинаковой метрики для всех объектов. Описа- ние каждого эмпирического факта оказывается полностью избавленным от неинформативных элементов, что позволяет в дальнейшем иметь дело с чис- тыми «незашумленными» структурами данных. В этом описании остается только то, что действительно важно для отражения сходства и различия меж- ду эмпирическими фактами в контексте решаемой задачи. В свете представлений о контекстно-зависимых локальных метриках оче- видно, что один и тот же объект может поворачиваться разными гранями своего многомерного описания сообразно заданному контексту. К любому объ- екту, запечатленному в памяти как целостная многомерная стрм^т'-"-' -п--- вязан» набор различных локальных метрик, каждая из которых оптимизиру- ет иерархию его сходства (различия) с другими объектами соответственно целям определенной задачи отражения отношений между объектами реального или идеального мира. Представление о контекстно-зависимых локальных метриках позволяет объяснить случаи нарушения метрических отношений между элементами мат- рицы данных, которые наблюдаются в отдельных экспериментах по изучению феноменов психического отражения с помощью техники парных сравнений. Например, в кн.: Крылов В. Ю. «Метод многомерной геометризации психоло- гических данных. Системный подход в математической психологии// Принцип системности в психологических исследованиях». М.: Наука, 1990. С. 33-48, лтттт^оч •— -'"спондент, сравнивая «активную деятелную жизнь» (х(), «жизненную мудрость» (xj) и «здоровье» (хз), дал следующие оценки
196 Глево 7. Анолиз донник в системок искусственного интеллекта парных различий этих объектов: d12 = 2, d13 = 1, d23 = 7. Содержательно это означает, что респондент считает близкими ценности «активная деятельная жизнь» и «жизненная мудрость», а также «активная деятельная жизнь» и «здоровье». Однако считает далекими «здоровье» и «жизненную мудрость». Тем самым, хотя данные оценки (каждая по отдельности) являются интуитив- но приемлемыми, их нельзя интерпретировать как геометрические расстояния между ценностями (нарушено неравенство треугольника: d2j < dl2 + df3 ) и, соответственно, невозможно изобразить исследуемые объекты в виде точек в некотором статическом субъективном семантическом пространстве ценностных ориентаций. Отмеченный факт объясняется существованием у испытуемого не одного, а нескольких субъективных подпространств с различными свойствами (локаль- ными метриками). Так как внешние условия эксперимента являются постоян- ными, то смена локальных метрик может происходить вследствие изменения контекста, инициируемого различными парами сравниваемых объектов. Это влечет за собой разнокачественное восприятие сходства объектов и выражает- ся в нарушении метрической аксиомы неравенства треугольника, которого бы не произошло, если бы субъективное пространство оставалось неизменным в ходе всего эксперимента. В задачах отражения отношений эквивалентности (например, проблемах диагностики или распознавания образов) после построения локальной метрики каждый объект может интерпретироваться как самостоятельный линейный классификатор с некоторыми оптимальными свойствами, определяемыми применявшимся критерием. Соответственно вся выборка данных должна рас- сматриваться с учетом совокупности N локально оптимальных линейных классификаторов. Для исследования их взаимодействия с целью формулиро- вания конечных выводов пригодны известные подходы к построению решаю- щих правил, достаточно подробно изложенные в литературе (Растри- гин Л. А., Эренштейн Р. X. Метод коллективного распознавания. М.: Энер- гоиздат, 1981. С. 1-78; Вешторт А. М., Зуев Ю. А., Краснопрошин В. В. Двухуровневая схема распознавания с логическим корректором// Распозна- вание, классификация, прогноз. Математические методы и их применение. М.: Наука, 1989. Вып. 2. С. 73-98). В то же время проведение такого исследо- вания возможно в русле все той же геометрической метафоры. В результате построения локальных метрик d,(Xj,Xj) = d^L) отношения между объектами выражаются матрицей удаленностей D(L* = (d^ j, i, k = 1, N. Так как локальные метрики у разных объектов могут не совпадать, то для элементов матрицы D^L) могут не выполняться требования симметрич- ности и неравенства треугольника. Поэтому данная матрица, хотя и отражает отношения различия между объектами, не может истолковываться как матри- ца расстояний. Для устранения нарушений метрических отношений между элементами матрицы D(l) вводится специальный класс dis>-метрик. Он определяется следующим образом:
формировоние зноний в системах искусственного интеллекте — геометрический подход 197 ) = а S[<p(jJ/-)),<p(d^))] + ь, k = 1,N , где и — элементы i-й iij-й строк матрицы D(°; <p(d^L)) - моно тонное преобразование d-;Л), либо преобразование в классификационный показатель <p(dfkL)) = <о,„ (/г), где т = rankkd^) и со(/г) = КА, - номер класса, к которому принадлежит хк; 5[-,-] — мера подобия или различия двух последовательностей (p(d;^) и <p(dj^); а и b — константы, значения которых подбираются с целью масштабирования и выполнения метрической аксиомы неравенства треугольника (так называемая модель с аддитивной кон- стантой (Cairo J. D., Chang J. J. Analysis of Individual Differences in Multi- dimensional Scaling via an Generalization of Ecart-Young Decomposition// Psychometrica, 1970, v. 35, N5. Pp 283-319; Справочник по прикладной статистике. В 2-х т. Т.2/ Под ред. Э. Ллойда, У. Ледермана, С. А. Айвазяна, IO. Н. Тюрина. М.: Финансы и статистика, 1990). Расстояние между объектами х, и Xj, измеренное в с/^-^^-метрике, имеет яс- ный смысл. Образно говоря, если окинуть взором множество объектов из точ- ки, занимаемой объектом х;, в пространстве специально сконструированном для Xj, то для наблюдателя объекты выстроятся в ряд по степени удаленности от данной точки. С другой точки Xj и в другом пространстве ряд удаленностей тех же самых объектов будет иметь свой специфический вид. Мера сходства (различия) этих рядов 5, подвергнутая линейному преобразованию с целью выполнения метрической аксиоматики, есть сЛ5Чрасстояние между объектами X; И Xj. Класс гЛ5>-меТрик отличается большим разнообразием, которое определя- ется множеством употребляемых преобразований <р и мер подобия 5. Выбор конкретного преобразования <р зависит от того, на каком аспекте структуры данных исследователь решает сделать акцент. Например, для по- лучения ранговой величины (p(d^) = rank(d^), может использоваться преобразование d . Это следует делать тогда, когда интерес представляет порядок удаленностей изуч. , х объектов от х,. Другой вариант преобра зование d^L) в классификационный показатель. В этом случае все объекты, проранжированные по удаленности от Xj, заменяются идентификатором своего класса, образно говоря, «окрашиваются» в цвета своего класса. Выбор меры .S' зависит, с одной стороны, от вида преобразования <р и, с другой стороны, от того, какие особенности рядов <p(d/^) и <p(djfcn) (k = 1,N) имеется намерение оттенить при определении их сходства (различия). Прямой способ основан на вычислении расстояния (например, евклидова) между <p(dj^) и <р(гЛ^). В данном случае не требуется даль- нейшего подбора констант « и Ь для соблюдения метрических требовании, так как они выполняются автоматически. Однако бывает более целесообразно ис-
196 Глово 7. Анолиз донных в системох искусственного интеллекта пользовать в качестве меры S тот или иной коэффициент связи, например, коэффициент корреляции Пирсона, т Кендалла и др. Если преобразование <р(с/(А£Ъ дает классификационную переменную, то мерой подобия может слу- жить какой-либо коэффициент сопряженности для номинальных переменных. В качестве примера приведем вариант <7^^-метрики, где )~ rankCd^), а мерой подобия служит т Кендалла: rf(T)(xi,Xj)= 2---, где = г[<р(с/^£)), <p(djAL))], k = 1,N. Значения <7(т) (xj.Xj) изменяются в пределах от 0 до 1 и для данной ме- ры различия объектов х, и Xj всегда выполняются метрические требования симметричности и неравенства треугольника (Дюк В. А., 1994). После перехода от матрицы D(L> к матрице сЛ5)-расстояний исследование совокупности объектов с привязанными к ним собственными локальными мет- риками может производиться всеми доступными методами и алгоритмами, ис- пользующими геометрическую метафору данных. Сюда относятся алгоритмы автоматического группирования (кластерный анализ, иерархическое группи- рование, определение «точек сгущеиия>>) (Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989) и методы визуализа- ции данных, для которых исходной информацией служит матрица расстояний (Дэйвисон М. Многомерное шкалирование: Методы наглядного представления данных. М.: Финансы и статистика, 1987), адаптивная развертка (Дюк В. А., 1994). Анализ геометрической структуры данных является творческой задачей, не имеющей готовых шаблонов. Например, полезную информацию о стратифи- кационной структуре матрицы гЛ-^-расстояний удается извлечь с помощью ал- горитмов иерархического группирования данных. Осмысление выделенных группировок на различных шагах работы того или иного дивизимного или аг- ломеративного алгоритма дает возможность получить ответы на вопросы, что общего (различного) имеется между группировками объектов. Это, в свою очередь, способствует построению системы понятий, определению метапонятий и установлению между ними семантических отношений, то есть проведению концептуального анализа знаний. Использование методов проецирования данных на плоскость или в 3-мерные объемы латентных переменных, полу- ченных методами многомерного шкалирования, позволяет разглядеть законо- мерности в структуре множества эмпирических фактов с оптимизированными описаниями. С одной стороны, увиденные закономерности могут составить ос- нову для минимизации базы знаний, представленных в экстенсиональной форме (например, для определения композиции диагностических прецедентов минимального объема). С другой стороны, выявленные закономерности спо- собствуют разработке тех или иных интенсиональных правил вывода на знаниях.
формировоние знаний в системах искусственного интеллекте — геометрический подход 199 Имеется еще одна ценная возможность использования визуальных ото- бражений полученных геометрических структур данных. Ее предоставляют средства современной интерактивной графики, которые позволяют обосновы- вать принятие решения о принадлежности неизвестного объекта какому-либо классу эквивалентности, получая ответы на вопросы типа: «Что общего у дан- ного объекта с другим объектом или группой объектов (например, визуально ближайших или, наоборот, удаленных) с известной классификацией?», «Чем отличается данный объект от другого объекта или группы объектов с извест- ной классификацией?» и т. п. Ответы даются в виде пересечения описания неизвестного объекта с описаниями объектов, которые оптимизированы при- вязкой контекстно-зависимых локальных метрик. Совокупность таких отве- тов, индивидуальных для каждого нового случая, обладает полиморфностью, свойственной естественному языку при описании явлений со сложной систем- ной организацией, и обеспечивает объяснение принятых решений посредством аргументации. Здесь нет дерева логического вывода. Ответы воспринимаются параллельно. Они как бы бросаются на чашу весов, и их множество может расширяться до довольно больших величин (в зависимости от количества привлекаемых для аргументации объектов и сочетаний объектов). Для иллюстрации некоторых из вышеперечисленных возможностей при- менения контекстно-зависимых локальных метрик и геометрического подхода рассмотрим следующий пример. На рис. 7.1 представлены изображения лиц 16 людей. Они разбиты на два класса. Ставилась задача найти закономерности такого разбиения. Прежде всего были выделены бинарные признаки, характеризующие изо- браженные лица. Это следующие характеристики: X; голова: круглая — 1, овальная — 0; Х2 уши: оттопыренные — 1, прижатые — 0; ху нос: круглый — 1, длинный — 0; х4 глаза: круглые — 1, узкие — 0; х5 лоб: с морщинами — 1, без морщин — 0; xg складка: носогубная складка есть — 1, носогубной складки нет — 0; х7 губы: толстые — 1, тонкие — 0; xg волосы: есть — 1, нет — 0; Xg усы: есть — 1, нет — 0; Х/о борода: есть — 1, нет — 0; х// очки: есть — 1, нет — 0; х;2 родинка: родинка на щеке есть — 1, родинки на щеке нет — 0; Х/з бабочка: есть — 1, нет — 0; х/J брови: подняты кверху — 1, опущены вниз — 0; х/5 серьга: есть — 1, нет — 0; х/6 трубка: курительная трубка есть — 1, нет — 0. Исходная матрица данных, соответствующая изображенным лицам, пред- ставлена в табл. 7.1. Строки соответствуют объектам (N = 16), столбцы - бинарным признакам (р = 16). Объекты с номерами 1—8 относятся к классу а>1, а с номерами 9—16 — к классу
200 Глово 7. Анолиз донных в системох искусственного интеллекта Таблица 7.1. Исходная матрица данных № п/п Голова Уши Нос Глаза Лоб Складка Губы Волосы Усы Борода Очки Родинка Бабочка Брови Серьга Трубка 1 0 1 0 0 1 1 0 0 1 1 1 0 1 1 0 1 2 1 0 1 1 0 0 1 1 0 1 1 1 0 0 1 0 3 0 0 0 1 1 1 0 1 1 0 1 1 1 0 0 1 4 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 1 5 1 1 0 1 0 1 0 1 0 1 0 1 0 1 1 0 6 0 0 1 0 1 1 1 0 1 0 1 0 1 0 1 1 7 1 1 0 1 () 0 0 0 1 1 0 0 1 1 1 1 8 0 0 1 1 0 1 1 0 1 1 1 0 1 0 1 0 9 0 0 1 • 1 0 1 0 0 1 1 0 1 1 1 0 1 10 0 1 1 0 0 1 1 0 0 1 1 0 1 1 1 0 И 1 1 1 0 1 1 0 0 1 1 0 1 0 1 0 0 12 1 0 1 0 1 0 1 0 1 0 1 1 0 1 1 0 13 1 1 0 1 1 0 1 1 1 0 0 0 1 0 0 1 14 0 1 1 1 0 0 1 0 1 0 1 0 0 1 1 1 15 0 1 0 1 0 1 1 1 0 1 0 0 1 1 0 1 16 0 1 1 1 0 0 1 1 0 0 1 0 1 0 1 1 На первом этапе производился анализ представленных данных с помощью традиционных методов прикладной статистики, содержащихся в пакете Stat- Graphics Plus for Windous. Как показывает проведенный анализ, в исходном
Формирование знаний е системах искусственного интеллекта — геометрический подход 201 пространстве признаков объекты разных классов перемешаны друг с другом. Об этом говорят результаты иерархического группирования (дендрограмма на рис. 7.2) и проекция ооьсыив в пространство перьях 3-х главных компонент, на которые приходится более 52% общей дисперсии. Дендрограмма Метод Варда Номер класса Рис. 7.2. Результат иерархической кластеризации в исходном пространстве признаков Вместе с тем дискриминантный анализ привел к положительному эффект у разделения классов (применялась версия дискриминантного анализа с исполь- зованием процедур последовательного увеличения и уменьшения группы признаков). Получена следующая дискриминантная функция: <у(х) = -1.7 + 7.3-х?+ 2.4-х4 + lA x-)- 5.5-х§+ 1.6-х/0+ 10.0 л;2+ 4.9-л/у. Как видно из рис. 7.3 (график «усатый ящик»), дискриминантная функ- ция обеспечивает полное разделение классов и Если стремиться только к формальному эффекту, то на таком убедительном результате разделения классов можно остановиться. Однако в данном случае достигнутому формаль- ному эффекту в незначительной степени сопутствует формирование новых знаний о структуре анализируемых данных. Единственное, что можно ска- зать, — это перечислить признаки и веса, с которыми они вошли в линейную дискриминатную функцию. «За кадром» остается внутреннее строение клас- сов и данных в целом, которое, как будет показано ниже, может быть доста- точно интересным и раскрытие которого может дать качественно новую информацию. Указанное раскрытие с использованием контекстно зависимых локальных метрик и изложенного геометрического подхода являлось целью второго этапа анализа данных. В качестве критерия качества локальных метрик применялась следующая величина: J = N/4) = max, где N,(4) — количество объектов из класса, которому принадлежит X;, во- шедших в группу 4-х ближайших к Xj объектов. Локальные метрики вида =w?|xj -Xj|, (w^ = 0vl) для каждого объекта х; находились с помощью алгоритма случайного поиска с адаптацией
202 Глово 7. Анализ донных в системах искусственного интеллекта (СНА) (Лбов Г. С., 1965). Проводилась серия опытов по случайному опреде- лению состава группы п признаков из множества исходных 16 признаков. Для каждой группы вычислялось значение критерия. Группа с минимальным зна- чением критерия поощрялась увеличением вероятности выбора ее признаков в следующих сериях опытов, а группа с наибольшей величиной наказывалась соответствующим образом. Эта процедура повторялась до тех пор, пока не выделилась группа признаков с явно преобладающей над другими вероятно- стью ее выбора. Количество опытов в серии, объем группы признаков, а также меры поощрения и наказания признаков подбирались эмпирически. Дискриминантная функция Рис. 7.3. Результаты дискриминантного анализа Таблица 7.2. Результат применения СПА u/u etf Голова Уши Нос Глаза Лоб Складка Губы Волосы Усы Борода Очки Родинка Бабочка Брови Серьга Трубка 1 0 1 0 0 1 1 0 0 1 1 1 0 1 1 0 1 2 1 0 1 . 1.' 0 0 1 1 0 1 1 1 0 0 1 0 3 0 0 0 1 1 . 1 0 1 1 0 1 1 1 0 0 1 4 б;- 1 1 0 0 1 0 0 1 1 0 0 1 1 1. 5 1 1 0 1 0 1 0 1 0 1 0 1 0 1 Ь 0 6 0 0 1 0 1 1 1 0 1 0 еСя| 0 1 0 1 1"< 7 1 1 0 У Ш г0: 0 0 0 1 1. 0 0 1 1 ’ 1 1 8 0 0 1 ЭД . 0 1 1 0 1 1 0 1 0 4"-. о._ 9 0 0 Т- 1 0 1 0 0 1 1 0 1 1 <1. 0 1 10 0 1 1 0 0 1 I--1 0 0 1 г„0... 1 1 1 0 И 12 1 1 1 0 , 1 1 0 0 1 1 1 0 0 1 -0- 0 1 1 0 0 1 1 1 0 0 4 0 1 0 0 13 1 0 1 1 0 1 1 0 0 (' 04 г 1 0 0 1 14 0 1 1 ( 1 0 0 1 0:. Aiaf 0 1 0 0 MsJ 1 1 15 0 -1 ? 0 1 0 1 1 0 1 0 1 0 1 16 0 Л .• t 1 0 0 Ш-1- 0 0 1 • -о: 1 " 0 1 1 Результат работы алгоритма СПА показан в табл. 7.2, где отобранные признаки обведены рамкой. Например, для 1-го объекта в локальную метрику
формировоние зноний в системох искусственного интеллекте — геометрический подход 203 вошли признаки х/, Xg, х,у и x;g; для 2-го — х^, Xj, Xyg, X/g и т. д. Отметим, что применение на этих же данных алгоритма последовательного уменьшения группы признаков дало несущественно отличающиеся результаты. Таблица 7.3. Матрица расстояний в исходном пространстве признаков № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 0 14 6 6 10 6 6 8 6 6 6 10 8 8 6 10 2 14 0 10 8 6 10 10 6 10 8 10 6 10 8 10 6 3 6 10 0 12 10 6 10 8 6 12 10 10 6 10 8 8 4 6 8 12 0 8 6 8 6 8 2 8 8 12 4 6 6 5 10 6 10 8 0 14 6 10 8 8 6 10 10 10 6 10 6 6 10 6 6 14 0 10 4 8 6 10 6 8 6 10 6 7 6 10 10 8 6 10 0 8 6 8 8 10 6 6 6 8 8 8 6 8 6 10 4 8 0 6 4 10 8 10 6 8 6 9 6 10 6 8 8 8 6 6 0 8 6 10 10 8 6 10 10 6 8 12 2 8 6 8 4 8 0 8 8 12 6 6 6 И 6 10 10 8 6 10 8 10 6 8 0 6 10 10 10 14 12 10 6 10 8 10 6 10 8 10 8 6 0 10 6 14 10 13 8 10 6 12 10 8 6 10 10 12 10 10 0 8 6 6 14 8 8 10 4 10 6 6 6 8 6 10 6 8 0 8 4 15 6 10 8 6 6 10 6 8 6 6 10 14 6 8 0 6 16 10 6 8 6 10 6 8 6 10 6 14 10 6 4 6 0 Следующим шагом анализа было вычисление (/^-расстояний между объ- ектами с оптимизированными описаниями и группирование объектов и приз- наков. В табл. 7.3 приведена матрица расстояний между объектами в исход- ном пространстве признаков, а в табл. 7.4 дана матрица расстояний между объектами, измеренных в локальных метриках, Для нахождения с№>- расстояний в данном случае применялось прямое вычисление расстояний Хэмминга между строками матрицы D(L). Результаты вычисления, на основа- нии которого было проведено группирование объектов, показаны в табл. 7.5. Эти же результаты, дополненные группированием признаков, которое выра- зилось в их перестановке местами, отображены в табл. 7.6. Таблица 7.4. Расстояния в локальных метриках № 1 2 3 4 5 6 7 8 9 10 и 12 13 14 15 16 1 0 3 0 0 2 0 2 1 1 1 2 2 2 2 1 1 2 3 0 3 1 0 3 0 0 1 1 3 3 3 1 1 1 3 0 3 0 0 2 0 2 1 1 1 2 2 2 2 1 1 4 0 3 0 0 2 0 2 1 1 1 2 2 2 2 1 1 5 3 0 3 1 0 3 0 0 1 1 3 3 3 1 1 1 6 0 3 0 0 2 0 2 1 1 1 2 2 2 2 1 1 7 3 0 3 1 0 3 0 0 1 1 3 3 3 1 1 1 8 3 0 3 1 0 3 0 0 1 1 3 3 3 1 1 1 9 1 3 3 1 3 1 1 1 0 1 0 0 3 0 3 3 10 1 1 1 1 3 1 1 1 3 0 3 3 0 1 0 0 И 1 3 3 1 3 1 1 1 0 1 0 0 3 0 3 3 12 1 3 3 1 3 1 1 1 0 1 0 0 3 0 3 3 13 1 1 1 1 3 1 1 1 3 0 3 3 0 1 0 0 14 1 3 3 1 3 1 1 1 0 1 0 0 3 0 3 3 15 1 1 1 1 3 1 1 1 3 0 3 3 0 1 0 0 16 1 1 1 1 3 1 1 1 3 0 3 3 0 1 0 0
204 Глово 7. Анолиз донных в системох искусственного интеллекта Как следует из приведенных таблиц, определение локальных метрик при- вело, как и при применении дискриминантного анализа, к полному разделе- нию классов а>) и а>^. Но при этом стало ясно, какую роль играют признаки и сочетания их значений в проявившейся структуре множества объектов. Видно, что для достижения полученного эффекта разделения классов важными ока- зались все признаки. В то же время в каждом классе выделилось по две само- стоятельные группировки объектов, для каждой из которых характерно строго определенное сочетание значений собственных признаков. Таблица 7.5. Матрица (/(^-расстояний № 13 4 6 2 5 7 8 9 И 12 14 10 13 15 16 1 3 4 6 2 5 7 8 9 И 12 14 10 13 15 16 0 22 20 16 22 0 24 20 20 24 0 24 16 20 24 0 Таблица 7.6. Перегруппированные данные п/п W а о гО Уши Нос Глаза Лоб Складка Губы Волосы Усы Борода Очки Родинка Бабочка Брови Серьга Трубка 1 0 1 1 1 0 1 1 0 0 0 1 1 1 0 0 1 3 0 1 1 1 1 1 0 0 0 1 1 0 0 0 1 1 4 04 1 1 1 0 0 1 1 1 0 0 1 1 1 0 0 6 0 1 1 1 0 1 0 1 1 0 1 0 0 1 0 1 2 1 0 1 0 1 0 1 1 1 1 0 0 0 1 1 0 5 1 1 0 0 1 0 1 1 0 1 0 1 1 0 1 0 7 1 0 0 1 1 0 1 1 0 0 1 1 1 0 0 1 8 0 1 1 0 1 0 1 1 1 0 1 0 0 1 0 1 9 0 1 0 1 1 0 1 0 1 0 1 1 0 0 1 1 И 1 1 0 0 0 1 1 0 1 .0 t 1 1 0 1 0 12 1 0 1 0 0 1 0 1 ;1 - 0 1 ч 0 1 1 0 14 0 0 г 1 1 0 0 1 1 0 1 1 1 1 0 0 10 0 1 1 0 0 0 1 1 1 0 0 1 1 1 0. 1 13 1 0 0 1 1 1 0 0 0 1 1 0 1 1 О' 4 ; 15 0 1 0 1 1 0 1 0 0 1 0 1 1 1 -0 1 16 0 0 1 1 1 0 0 1 1 1 0 0 1 1 0 1 В целом визуально (/(-^-структура множества объектов с привязан-! ными к ним локальными метриками представляется в виде четырехгран-) ника (рис. 7.4). Исходя из полученной структуры, композицию, достаточную для пред-' ставления классов сэ/ и о?, составят 4 объекта (4 конъюнкции элементарных
формировоние зноний в системох искусственного интеллекта — геометрический подход 205 событий), по одному из выделенных группировок. Соответственно правило вывода для принятия решения о принадлежности объектов какому-либо клас- су имеет следующий вид: [(х,= 0) л (х6 = 1) Л (хП = 1) Л (х/6 = 1)]v v[(x4= 1) Л (х,= 0) Л (х/0 = 1) Л (х/5 = 1)] => 1<х3 = 1) Л (х8 = 0) Л (xs = 1) Л (х/4 = l)]v v[(x2 = 1) л (х7= 1) л (х/2 = о) Л (х/3= 1)] => а>2. Рис. 7.4. Геометрическая структура логических закономерностей На практике, конечно, встречаются гораздо более сложные ситуации, чем в приведенном примере. В следующем разделе будет рассмотрен вариант при- менения геометрического подхода для базы знаний реальной экспертной систе- мы медицинской диагностики. Выбор же приведенного примера обусловлен желанием просто и выразительно продемонстрировать некоторые возможности применения контекстно-зависимых локальных метрик и геометрического подхода при решении задач формирования знаний. Он показывает, что по- строение для каждого эмпирического факта собственной локальной метрики, оптимизирующей в заданном контексте иерархию его геометрической близости к другим фактам, позволяет существенно уменьшить число элементарных со- бытий, подлежащих дальнейшему анализу. И, кроме того, геометричрское изображение структуры множества объектов с оптимизированными описания- ми посредством г/^-метрик дает наглядное визуальное представление об ее особенностях, что помогает формированию результирующего правила вывода. Интересными представляются возможности применения описанного под- хода для анализа совокупности объектов при отсутствии информации об их группировании в какие-либо классы. В этом случае в целях конструирования локальных метрик искусственно создается альтернативный класс из равно- мерно распределенных объектов. Тогда сконструированные локальные метри- ки оптимизируют описание каждого объекта таким образом, что в нем остается только то, что является важным для выражения отличия структуры анализируемой совокупности от случайно организованной структуры данных. Эта задача нуждается в особом рассмотрении.
206 Главе 7. Анализ донных в системах искусственного интеллекта Описанный подход к формированию знаний может быть реализован в раз- нообразных вариантах. Такое разнообразие обусловлено различными употреб- ляемыми критериями качества локальных метрик, алгоритмами определения их параметров и видами бЛ^-метрик. Здесь исследователю предоставляется широкое поле для экспериментирования и выбора наилучшего варианта при решении конкретной задачи формирования знаний. Конкретные практические приложения геометрического подхода представ- ляются наиболее эффективными для поиска закономерностей структуры дан- ных и построения баз знаний в следующих областях: • Прикладная химия (прогнозирование свойств химических соединений). • Медицинская диагностика. • Психологическая диагностика. • Исследование взаимосвязей различных уровней биоорганизации. • Социально-психологические исследования. • Генетика и др. Формирование знаний методами локальной геометрии: разработка экспертной системы для диагностики острого аппендицита Общие положения геометрического подхода, изложенные в предыдущем раз- деле, могут иметь различные воплощения. Ниже будет рассмотрен один из вариантов, хорошо зарекомендовавший себя на практике. Прежде всего остановимся на некоторых свойствах локального простран- ства. Оно образуется путем перехода к новой векторной переменной, напри- мер, А = |х — xj , где Xj — выбранный объект. В дальнейшем он будет на- зываться центральным объектом. Свойство 1. Центральный объект располагается в начале координат ло- кального пространства. Свойство 2. Любая линейная функция в локальном пространстве с неот- рицательными коэффициентами имеет смысл взвешенного расстояния (в на- шем случае взвешенного расстояния Хэмминга) от центрального объекта Хц Свойство 3. Если для некоторого подмножества объектов выполняется ус- ловие wA = 0, где w — весовой вектор с неотрицательными элементами, то на этом подмножестве истинно следующее логическое высказывание: = xijt ) л (xj2 =xiji) л...л (xj =xijr), где jt (I = 1,k) — индексы при ненулевых компонентах весового вектора w. Отмеченными свойствами определяются особенности технологии нахожде- ния логических закономерностей в локальном пространстве. Она заключается в комбинированном применении методов линейной алгебры и интерактивной графики.
Формирование знаний методами локальной геометрии: разработка экспертной системы 207 С одной стороны, алгебраическими методами ищется новая ось в локаль- ном пространстве (весовой вектор), на которой распределение проекций объ- ектов удовлетворяет заданному критерию (например, выражаютпему стрем- ление сгруппировать около нулевой отметки объекты того же класса, что и у центрального объекта Xj). С другой стороны, так как интерес представляет только сравнительно не- большая область около нулевой отметки на новой оси, то удаленные от данной отметки объекты подвергаются исключению с использованием средств инте- рактивной графики. После каждого такого исключения параметры новой оси перерассчитываются и визуальный анализ полученного распределения дает основание для произведения еще одного акта исключения объектов, либо для останова процедуры поиска логической закономерности. Для осуществления указанных операций можно воспользоваться матема- тическими и графическими средствами, уже имеющимися в известных пакетах для анализа данных, в частности в STATGRAPHICS Plus for Windows. Един- ственное, что целесообразно дополнительно сделать, это передать операцию центрирования данных для перехода в локальное пространство какой-либо электронной таблице (например, Excel), обладающей более развитыми воз- можностями манипулирования данными. В качестве математической процедуры построения новой координатной оси в локальном пространстве может быть применен инструментарий множест- венной регрессии, которая в STATGRAPHICS осуществляется по методу наименьших квадратов. Для этого к объектам «привязывается» зависимая пе- ременная (например, class), принимающая значение «О» у объектов одинако- вого с Xj класса и значение «1» у всех объектов альтернативных классов. Существенным дополнением, способствующим в дальнейшем более быст- рой «сходимости» процедуры интерактивного визуального поиска логических закономерностей, служит введение в альтернативные классы «шумящих» объ- ектов, равномерно распределенных в исходном пространстве признаков. Это важно, с одной стороны, для уменьшения эффекта мультиколинеарности при- знаков, который нередко встречается при исследовании феноменов со сложной системной организацией. С другой стороны, шумящий класс представляет со- бой множество фальсификаторов, «столкновение» с которыми способствует лучшему проявлению устойчивых логических закономерностей в данных. Как показывает опыт, доля «шума» может соответствовать пли даже превышать долю исходной информации. Демонстрацию возможностей методов локальной геометрии произведем на примере данных по диагностике острого аппендицита, которые приведены в предыдущей главе в разделе «Канонический корреляционный анализ: иссле- дование взаимосвязей психического и биологического». Прежде всего преобра зуем исходные признаки х!-х8 в новые бинарные признаки по следующим правилам (табл. 7.7). Значения новых признаков, с которыми в дальнейшем придется иметь дело при интерпретации правил постановки диагноза, расшифровываются в табл. 7.8. Для генерации новых признаков в STATGRAPHICS Plus for Windows от- кроем файл данных appendix и, маркируя новые колонки таблицы данных,
208 Глове 7. Анолиз донных в системох искусственного интеллекта щелчком правой кнопки мыши вызываем меню, из которого выбираем Modify Column для ввода имен бинарных признаков и Generate Data для ввода пра- вила кодировки (рис. 7.5). Таблица 7.7. Правила перекодировки исходных признаков в бинарные признаки Обозначения новых бинарных признаков xl 1 х21 х22 х23 х31 хЗЗ х41 х42 х50 хбО х70 х80 Условие, при выполнении которого бинарному признаку присваивается значение 1 Х1 = 1 х2>1 х2>2 х2>3 хЗ>1 хЗ>2 х4>1 х4>2 х5=0 х6=0 х7=0 х8=0 Таблица 7.8. Описание признаков Значение признака Вербальное описание xl1=0 Незначительные боли в правой подвздошной области Х11 = 1 Выраженные боли в правой подвздошной области х21=0 Боли свыше 2-х суток х21=1 Длительность болей меньше 2-х суток х22=0 Длительность болей больше 1-х суток х22=1 Длительность болей меньше 1-х суток х23=0 Длительность болей больше 0.5 суток х23=1 Длительность болей меныие 0.5 суток х31=0 Частота пульса меньше 80 уд/мин х31=1 Частота пульса свыше 80 уд/мин хЗЗ=0 Частота пульса меньше 100 уд/мин хЗЗ=1 Частота пульса свыше 100 уд/мин х41=0 Лейкоциты крови до 8 тыс. ел. х41=1 Лейкоциты крови свыше 8 тыс. ед х42=0 Лейкоциты крови ниже 14 тыс. ед. х42=1 Лейкоциты крови свыше 14 тыс. ед. х50=0 Язык обложен х50=1 Язык не обложен х60=0 Симптом Щеткина-Блюмберга выражен х60=1 Симптом Щеткина Блюмберга нс выражен х70=0 Симптом Ровзинга выражен х70=1 Симптом Ровзинга не выражен х80=0 Защитное мышечное напряжение выражено х80=1 Защитное мышечное напряжение отсутствует Рис. 7.5. Окна диалога для генерации бинарных признаков и предварительного просмотра результатов
формирование зноний методами локальной геометрии: разработке экспертной системы 209 Расг,1’г'трим процесс поиска одной из логических закономерностей для "ч агностического класса «гангренозный аппендицит» (объекты 1-28). Введем переменную class и через меню Generate Data сгенерируем значе- ния 0 в классе гангренозного аппендицита и значения 1 для всех остальных объектов, включая «шум». Замечание • В.; окне диалога предварительного просмотра результатов указа к. количество строк (объектов) 200, ток как V исходным 103 объектам были искус гвенноДобавлено 97 «шумящих» объектов. Так как очевидно, что не для всех объектов рассматриваемого класса по- требуется осуществлять поиск локальных метрик, целесообразно каким-то об- разом предварительно определить наиболее перспективных кандидатов. По видимому, соответствующие объекты должны быть удаленными друг от друга (уменьшение вероятности дублирования процедуры) и вместе с тем достаточ- но равномерно рассеяны по всем областям многомерного распределения класса в исходном пространстве признаков. На рис. 7.6 показан предварительный набросок плана исследования по результатам отображения объектов диагно- стического класса «гангренозный аппендицит» на плоскость двух первых главных компонентов. Лиаграмма рассеивания в пространстве ГК Рис. 7.6 Проекции объектов класса «гангренозный аппендицит» на плоскость двух первых главных компонентов На приведенном рисунке номера проставлены у тех объектов, исследова- ние которых представляется первоочередным. Конкретно же начнем такое ис- следование с наиболее удаленного от общей массы объекта № 4. Передадим часть таблицы данных STATGRAPHICS, относящуюся к новым бинарным признакам, через буфер обмена в электронную таблицу Excel. Произведем там центрирование данных относительно выбранного объекта 4 и возвратим центрированные данные обратно в STATGRAPHICS. Теперь все готово для поиска логической закономерности посредством совокупного при- менения математических методов анализа и средств интерактивной графики. С помощью процедуры множественной регрессии по методу наименьших квадра тов будут рассчитываться параметры новой координатной оси в локальном пространстве, максимально коррелирующей с зависимой переменной class, а средствами интерактивной графики из анализа будут исключаться наиболее
210 Глава 7. Анализ донных в системах искусственного интеллекта удаленные от нулевой отметки новой оси объекты, так как для ап?..™-’?. инте- рес представляет только сравнительно небольшая окрестность центрального объекта. Вызовем из меню Relate процедуру множественной регрессии Multiple Regression и введем в поле Dependent Variable (зависимая переменная) пе- ременную class, а в поле Independent Variables (независимые переменные) сгенерированные бинарные признаки xll, х21, х22, х23, х31, хЗЗ, х41, х42, х50, х60, х70 и х80 (рис. 7.7). Рис. 7.7. Окно диалога для задания переменных в процедуре множественной регрессии Рис. 7-8. Начальная модель локальной метрики для объекта 4 (метрические веса и диаграмма рассеивания расстояний объектов выборки от объекта 4) Нажмем ОК и в появившемся окне со сводкой регрессионного анализа щелкнем правой кнопкой мыши для вызова меню, в котором выберем Analysis Options. В предоставленном окне диалога снимем флажок Constant in Model
формировоние знаний методами локальной геометрии: розроботка экспертной системы 211 (постоянный член в модели линейной множественной регрессии). Затем на- жмем кнопку графических опций и выберем Observed versus Predicted — графическое отображение результатов анализа, в котором по оси ординат от- кладываются значения зависимой переменной (в нашем случае class), а по оси абсцисс даются значения, рассчитанные в соответствии с подобранной моде- лью. Разумеется, реальные данные также отображаются. Нажмем ОК и полу- чим следующую начальную картину (рис. 7.8). Удаляем из модели признаки с отрицательными весами. Получаем сле- дующую конфигурацию диаграммы рассеивания (рис. 7.9). Рис. 7.9. Исходная конфигурация распределения расстояний Вручную удаляем объекты8, И, 15 и 18, попавшие в наиболее удаленную область и применяем автоматическое выделение всех объектов, для которых расстояние от объекта 4 (predicted) меньше 1.1. Получаем следующие весовые коэффициенты и диаграмму рассеивания (рис. 7.10). Рис. 7 10. Параметры метрики и распределение расстояний после первой итерации На рисунке отчетливо наблюдаем, как объекты класса гангренозного ап- пендицита (нижнее облако) обнаруживают все большую тенденцию прибли- зиться к нулевой отметке, в которой располагается объект 4. Из данных
212 Главе 7. Анализ данных в системах искусственного интеллекта таблицы видно, что у признака Х50 вес стал значительно меньше, чем у дру- гих признаков, и приближается к нулю. Удаляем этот признак из анализа. Осуществляем следующие 4 итерации по исключению из анализа всех объ- ектов, удаленных от центрального объекта 4 на расстояние большее, чем 1.1. Получаем следующую картину распределения расстояний и табличные данные (рис. 7.11). Рис. 7.11. Параметры модели после 5 итераций и диаграмма распределения расстояний По данным таблицы удаляем из анализа признак ХЗЗ. Из рис. 7.11 следу- ет, что тенденция к дальнейшему группированию у объектов класса «ган- гренозный аппендицит» продолжает сохраняться. Вместе с тем определенная часть объектов этого класса пересекается по расстоянию с объектами альтер- нативных классов. Вручную удаляем указанные объекты из анализа. По ре- зультатам таблицы удаляем из анализа признак Х80. Кроме того, проводим очередную итерацию автоматического исключения объектов и вручную исклю- чаем 3 объекта из нижнего облака рассеивания. Они расположены на расстоя- нии приблизительно 0.5 от центрального объекта. Результат показан на рис. 7.12. Рис. 7.12. Параметры модели после 6 итераций
Формировоние знаний методами локальной геометрии: разработка экспертной системы 213 Вручную исключаем несколько наиболее удаленных объектов из «верх- него» облака. При этом постоянно наблюдаем усиление группировки объектов класса «гангренозный аппендицит» и изменение метрических весов признаков. По этому изменению, подтверждаемому соответствующей диаграммой, прини- маем решение об исключении из пространства признака Х22, вес которого становится несоразмерно мал по сравнению с весами других признаков. Полу- чаем следующую картину (рис. 7.13). Рис. 7.13- Результат интерактивного построения локальной метрики Для еще более четкого проявления результата исключаем из анализа объ- ект «нижнего» облака, единственный (из ранее не исключенных) удаленный от начала координат. Получаем окончательную геометрическую конфигура- цию (рис. 7.14). Рис. 7.14. Окончательный результат Для лучшей обозримости всего процесса поиска логической закономерно- сти ниже приводится сводная таблица (табл. 7.9). Как следует из приведенной таблицы, найдено логическое высказывание, которое принимает значение «истина» в 13 случаях из 28 для класса «ган-
214 Слове 7. Анализ донных в системох искусственного интеллекта Таблица 7.9. Сводка процедуры поиска логической закономерности средствами интерактивной графики —т.п:—~:—гг Распределения; расстояний^ < от центрального объекта . Метрические Ъеса признакрв xll - 0.206 х21 - 0.391 Параметры метрики и распределение расстояний после первой итерации (удалены признаки с отрицательными весами и «вручную* исключены из 1.6 В □□ х22 - 0.206 U.O Л л . х23 - 0.241 х31 - 0.104 хЗЗ - 0.242 анализа объекты нижнего облака с большими расстояниями от центрального объекта). 0 -0 4 х* * □ х :с х50 - 0.082 0 0_ 06 05 1.2 15 х80 - 0.146 х11 - 0.439 х21 - 0.778 Параметры модели после дополнительных 4-х итераций, в каждой из которых из анализа исключались все объекты, удаленные 1.6 5 □ 1 [ Vх! х22 - 0.216 . и.о х23 - 0.589 х31 - 0.348 хЗЗ - 0.046 х80 - 0.294 от центра на расстояние большее 1.1. > X 0 -0.4 -( сЯ 1 ^и[ А И 0 2 0 .5 0.8 1.1 1.4 1.6 12 0.8 х11 - 0.279 х21 - 1.00 х22 - 0.166 «Вручную» из анализа удалено 5 объектов из класса гангренозного аппендицита с большими расстояниями от центрального объекта с .. . и □ х23 - 0.833 х31 - 0.812 и исключены признаки с появившимися отрицательными весами. -0.4 П □ * 0 0.2 0.4 0.6 0.8 1 12 16 12 0.8 0 4 л х11 - 0.5 х21 - 1.0 «Вручную» исключено несколько объектов из верхнего облака и удален признак х22, у которого вес стал значительно меньшим по сравнению с □ х23 - 1.0 х31 — 1.0 весами остальных признаков. □ и -0.4 1 0 0.3 0.6 05 1.2 15 1.6 1.2 0.8 04 х11 - 1.0 х21 - 1.0 Удален один объект из нижнего облака. Получены окончательные — -—1 < гаи « — х23 - 1.0 х31 - 1.0 Логическое правило, соответствующее данной модели, получается путем подстановки значений признаков, замеренных у центрального объекта. Это следующее правило: xi=2 & х2=2,3 & х3=2,3 Оно правильно срабатывает в 13 случаях и ошибается 1 раз. -04 0 0 4 0.8 1.2 1 6
Формирование знаний методами локальной геометрии: разработка экспертной системы 215 гренозный аппендицит» и 1 раз неправильно дает такое же значение (диагнос- тирует «флегмонозный аппендицит»). Вербально это высказывание звучит следующим образом: если у больного наблюдаются выраженные болн в правой поджелудочной области на протяжении от 0.5 до 2 суток и частота пульса больше 80 уд/мин, то в 13 случаях нз 14 данная картина соответ- ствует диагнозу гангренозный аппендицит. 1 случай нз 14 — ошибочное отнесение к классу флегмонозного аппендицита. Таким образом, использование алгебраических методов в совокупности со средствами интерактивной графики, которое стало возможным на основе представлений локальной геометрии, позволило при анализе только одного локального пространства сразу определить симптомокомплекс почти для по- ловины больных с диагнозом «гангренозный аппендицит». Аналогичным образом ищутся остальные логические закономерности (симптомокомплексы) для рассмотренного и других диагностических классов. Основанием для выбора последующих центральных объектов (локальных пространств) служат, с одной стороны, сведения ранее намеченных планов. С другой стороны, планы могут корректироваться с учетом обстоятельств теку- щего анализа — в него могут дополнительно включаться объекты, наиболее удаленные от уже рассмотренных центральных объектов, или, наоборот, ис- ключаться объекты, попавшие по тем или иным причинам в сферу действия найденных симптомокомплексов. Ниже приводится результирующая таблица (табл. 7.10) построенных ло- гических правил диагностики острого аппендицита с оценками их эффектив- ности. Дальнейший анализ совокупного взаимодействия логических правил пока- зал, что для отдельных объектов могут одновременно «срабатывать» два и более правил, в том числе и из разных диагностических классов. В этом слу- чае возникает ситуация спора, который разрешается элементарным образом — предпочтение отдается решающему правилу, обладающему наивысшим при- оритетом (эффективностью, см. табл. 7.10). При такой организации процесса принятия решения ошибки диагностики острого аппендицита характеризуются следующими цифрами: • Неподтвержденный диагноз — 0% ошибок; • Гангренозный аппендицит — 0% ошибок; • Флегмонозный аппендицит — 20% ошибочного отнесения к катаральному аппендициту и 12% спорных случаев с катаральным аппендицитом; • Катаральный аппендицит — 7.7% ошибочного отнесения к флегмонозному и 7.7% ошибочного отнесения к гангренозному аппендициту. Таким образом, полученная система диагностических правил (база зна- ний) демонстрирует значительно лучшие результаты, чем те, которые были ранее описаны в главе 6 в разделе «Дискриминантный анализ: диагностика приступов острого аппендицита». Они основывались на применении дискри- минантного анализа (ДА). Сравнительные данные по двум подходам к реше- нию одной и той же задачи на одних и тех же исходных данных показаны на рис. 7.15.
216 Глово 7. Анолиз донных в системах искусственного интеллекта Таблица 7.10. Правила диагностики 1 Центр, объект Диагностическое правило .. ,ч; . ' •• •' * . .-'L ... Л • - Эффективность! (прав, распозн/g число' ошибок)! 1 94 х1=1 & х2=2,3,4 & х4=1 & х5=0 & х6=0 & х7=0 & х8=0 19/0 2 102 х2=1,2,3& хЗ=1,2 & х6=0 & х8=2 20/0 3 1 х1=2 & х2=2,3 & х4=2 & х5=1 & х6=2 & х8=2 13/1 4 4 х1=2 & х2=2,3 & х3=2,3 13/1 5 6 х2=1,2,3 & х4=3 & х8=2 9/2 6 8 х1=2 & х2=2,3,4 & х4=3 & х5=2 6/0 7 И х1=2 & х2=1,2,3 & х4=3 4/0 8 15 х1=2 & х3=2,3 & х4=2 & х8=2 6/2 9 18 х2=1,2,3& х3=2,3& х4=2,3& х6=2 12/2 10 30 х2=2,3,4& Х5=0 & х8=2 5/0 И 31 х2=2,3,4& хЗ=1,2 & х4=3& х5=1 & х6=0 &х7=2 2/0 12 34 х2=2,3,4& х3=2,3& х4=2,3 6/3 13 35 х1=1 & х2=2,3,4 & х8=2 8/3 14 37 х1=1 & х2=2,3,4 & хЗ=1,2 & х6=2 & х8=2 6/0 15 38 х2=2,3,4& х4=2,3& х7=2 10/4 16 47 х2=2,3,4 & хЗ=1 & х4=2,3 х6=2 & х7=0 4/4 17 49 х2=2,3,4 & хЗ=1 & х4=1,2 х5=0 & х6=2 & х8=2 3/1 18 54 х1=1 & х2=1,2,3& хЗ=1 & х7=2 4/1 19 55 х4=1 & х6=2 & х8=2 5/0 20 56 х2=3,4 & хЗ=1 & х4=1 & х6=0 & х8=2 4/1 21 57 х2=2,3,4 & х5=1 & х7=0 4/1 22 59 х1=1 & хЗ=1 & х7=2 & х8=0 6/4 23 60 х1=2 & х2=2,3,4& хЗ=1 & х4=1,2 & х5=1 5/2 24 64 х2=2,3,4& хЗ=1 & х4=1 6/2 25 65 х2=2,3& хЗ=1 & х4=1,2 &х6=0 5/0 26 70 х2=1,2,3 & х4=1,2 & х6=0 5/2 27 72 х2=2,3,4 & хЗ=1 & х5=0 & х6=2 & х7=2 3/1 29 77 х!=1 & х2=2,3,4 & х7=2 & х8=0 5/0 ДА □ Г еом. Рис. 1.15. Сравнительные ошибки классического дискриминантного анализа (ДА) и системы правил,полученных методами локальной геометрии (Геом.) Кроме очевидных преимуществ методов локальной геометрии, существуют другие дополнительные возможности, позволяющие говорить не только о формировании знаний, но и о концептуальном анализе знаний, который, как известно, включает в себя определение метапонятий предметной области и ус- тановление взаимосвязей между ними. В рассматриваемом случае концептуальный анализ заключался в нахожде- нии иерархических группировок выделенных логических правил. Для этого сначала вводились новые переменные Pl — Р102, соответствующие каждому
формировоние зноний методов локольной геометрии: розработко экспертной системы 217 из 29 правил. Они выражают расстояния от центральных объектов в их соб- ственных локальных метриках до всех остальных объектов изучаемой выбор- ки. Затем осуществлялся кластерный анализ указанных переменных с помо- щью того или иного алгоритма иерархической кластеризации и выяснялось, что общего и что разного у полученных кластеров (определение «/^-метрик дано в предыдущем разделе). Ниже приводится фрагмент метаструктуры ди- агностических правил для класса гангренозного аппендицита (рис. 7.16). Дендрограмма Рис. 1.16. Метаструктура диагноза гангренозного аппендицита Из приведенного рисунка видно, что в структуре диагноза гангренозного аппендицита можно выделить три основные группы диагностических правил. Для первой характерно сочетание выраженных болей (xl = 2) с концентраци- ей лейкоцитов от 8 до 14 тыс. (х4 = 2) и выраженным защитным мышечным напряжением. Вторая группа имеет общий симптомокомплекс — продол- жительность болей от 13 до 48 часов (х2 = 2,3) и частота пульса выше 80 уд/мин (хЗ = 2,3). И наконец, правила третьей группы объединяет симптомо- комплекс: продолжительность болей от 13 до 48 часов (х2 = 2,3) в сочетании с лейкоцитами крови свыше 14 тыс. В целом, резюмируя вышесказанное, следует отметить такие достоинства методов локальной геометрии в решении задач формирования знаний: • минимальные ошибки; • диагноз индивидуален для каждого случая; • дается интерпретация результатов; • выявляется метаструктура правил диагностики; • отсутствует перебор вариантов; • высокая оперативность построения базы знаний. По поводу последнего пункта (об оперативности) заметим, что на поиск одной логической закономерности (одного симптомокомплекса) при решении задачи диагностики острого аппендицита в среднем затрачивалось от 10 до 15 минут ненапряженной, в чем-то элегантной работы. А на всю процедуру соз-
218 Глава 7. Анализ данных в системах искусственного интеллекта дания базы знаний диагностической системы, связанную также с анализом совокупного взаимодействия диагностических правил и выявлением их мета- структуры, ушло примерно 5 рабочих дней. Это, конечно, не та скорость, с которой были получены результаты классического дискриминантного анализа (приблизительно 1 час), но конечный результат, как говорится, налицо. Извлечение «скрытых знаний» экспертов по ценным бумагам методами локальной геометрии Есть по крайней мере две серьезные причины, дающие основание говорить о проблеме извлечения «скрытых знаний» у экспертов в различных областях. Первая связана с ситуациями, когда эксперт хочет, но не может раскрыть закономерности предметной области и сформулировать четкие правила, кото- рыми он пользуется при принятии тех или иных решений. Такая картина на- блюдается в предметных областях с преобладанием эмпирики, для которых характерны так называемые «мягкие» знания, допускающие множественные расплывчатые решения и различные варианты рекомендаций. Это, например, медицина, геология, юриспруденция, финансы и т. д. Здесь знания эксперта часто хранятся в не вербализируемой форме. Хороший эксперт в данных об- ластях имеет богатый опыт и развитую интуицию. Он умеет что-то делать, он знает, как это делается, но не способен объяснить, почему делает именно так. Вторая причина связана с аспектом мотивации. Эксперт может, но созна- тельно или подсознательно не хочет формулировать свои знания. Ведь по сути дела знания являются его самым дорогим продуктом и способствуют благосос- тоянию эксперта. Одни люди делятся опытом добровольно и с удовольствием, но большая часть специалистов неохотно приоткрывает свои профессиональ- ные тайны. Рассматриваемый пример относится к обеим перечисленным ситуациям. Когда люди вкладывают свои средства в ценные бумаги того или иного инвестиционного фонда, они всегда рискуют. Акции фондов падают и повы- шаются под действием целого ряда объективных и субъективных факторов, влияющих на свободный рынок. В этих условиях выбор наиболее выгодных вложений является весьма сложной задачей. Эксперты по принятию решений в сфере операций с ценными бумагами являются высоко почитаемыми специа- листами, оценки которых хорошо оплачиваются. Вместе с тем данные экспер- ты, с одной стороны, часто используют интуитивные оценки и, с другой — не склонны делиться своими секретами по отмеченным выше обстоятельствам. В качестве исходного материала для извлечения «скрытых знаний» экс- пертов по ценным бумагам будем использовать информацию, описанную в главе 6 в разделе «Кластерный анализ: изучение инвестиционных фондов», где производилось исследование инвестиционных фондов методами кластерно- го анализа. Вы, вероятно, уже сохранили ее в файле Growth. В последней колонке таблицы данных под именем Recommended введена классификацион- ная переменная, отражающая мнения экспертов по операциям с ценными бу-
Извлечение «скрытых зноний» экспертов по ценным бумагам методами локальной геометрии 219 магами изучаемых фондов — buy (покупать), sell (продавать) и hold (держать). Прежде всего попытаемся решить задачу классификации эксперименталь- ных данных методами дискриминантного анализа STATGRAPHICS Plus for Windows. В качестве переменных будем использовать 4 признака Risk (риск), Ехрепсе (расходы), Тах (налоги) и Five_Yr (доходыза пятилетний период). Рис. 7.17. Окно диалога для ввода данных в дискриминантный анализ Выберем Select | Multivariate Methods | Discriminant Analysis. Система отобразит окно диалога для ввода переменных в дискриминантный анализ. Дважды щелкнем левой кнопкой мыши на переменной Recommended для вво- да ее в окно классификационного признака. Введем переменные Ехрепсе, Five_Yr, Risk и Тах в поле Data text box. Введем переменную Fund (название фонда) в поле Point Lables. Оставим поле Select незаполненным. Окно диалога для ввода переменных изображено на рис. 7.17. Нажмем кнопку ОК. На экран выдается сводка дискриминантного ана- лиза. Рассмотрим внимательно полученную сводку от начала до конца, поль- зуясь полосой прокрутки. Очевидно, что маленькие p-значения для канониче- ских дискриминантных функций говорят о высокой статистической значимости (рис. 7.18). Нажмем кнопку табличных опций (вторая слева в верхнем ряду). Система выдаст соответствующее окно диалога. Установим флажки Classification Functions (классифицирующие функ- ции) и Classification Tabb (таблица классификаций), затем нажмем кнопку ОК. Система добавит соответствующие окна анализа на экран. Дважды щелкнем левой кнопкой мыши на таблице классификаций для максимизации ее размеров (рис. 7.19). Из таблицы следует, что дискриминантные функции правильно классифи- цируют 15 из 16 фондов. Это в принципе успешный результат. Вместе с тем
220 Главе 7. Анализ донных в системах искусственного интеллекта допущенная одна ошибка может иметь серьезные последствия. Эта ошибка в классе Sell. Вместо того, чтобы продавать ценные бумаги, автоматическая классификация на основе рассчитанных дискриминантных функций дает ре- комендацию Buy - покупать. Также следует отметить, что применение дис- криминантных функций в таком деликатном и ответственном деле имеет еще один недостаток. Этот вид анализа данных не имеет функции интерпретации получаемых результатов. Единственное, что нам дается для попытки их ос- мысления, — весовые коэффициенты переменных. То есть здесь только с очень большой натяжкой можно говорить о получении нового знания. Рис. 7.18. Сводка канонического дискриминантного анализа Рис. 7.19. Таблица классификаций Причина количественной ошибки дискриминантного анализа при класси- фикации данных об инвестиционных фондах хорошо видна из рис. 7.20. На этом рисунке изображены проекции объектов исследования на плос- кость первых двух канонических дискриминантных функций. Хотя, судя по
Извлечение «скрытых зноний» экспертов по ценным бумогом методами цокольной геометрии 221 рисунку, области различных классов не пересекаются, но два объекта класса Sell (изображены кружками) в нижней левой части явно более близки к цен- троиду класса Buy, чем к центроиду своего класса. Класс Sell, похоже, весь- ма неоднороден. А, как известно, традиционные методы анализа данных в этих условиях особенно проявляют свои слабости. Рис. 7.20. Проекция объектов на плоскость первых двух канонических дискриминантных функций Приступим к анализу тех же самых данных методами локальной геомет- рии по технологии, описанной в предыдущем разделе. Прежде всего, проанализировав одномерные распределения исследуемых переменных, сгенерируем новые бинарные признаки по правилам, описанным в табл. 7.11. Таблица 7.11. Обозначения и правила кодировки новых бинарных признаков Ехрепсё FiveJYr Л ... * Risk Тах """ ; Е1 Е2 F1 F2 F3 R1 < R2 1 R3 Т1 Т2 >1.1 >1.6 >12 000 >14 000 >16 000 >2 >3 >4 >70 >85 Правила расшифровки значений новых бинарных признаков приведены ниже (табл. 7.12). Для генерации новых признаков в STATGRAPHICS Plus for Windows от- кроем файл данных Growth и, маркируя новые колонки таблицы данных, щелчком правой кнопки мыши вызовем меню, из которого выберем Modify Column для ввода имен бинарных признаков и Generate Data для ввода пра- вила кодировки. Например, построим локальную метрику для объекта № 4 класса Hold. Введем переменную class и через меню Generate Data сгенерируем значе- ния 0 в классе Hold и значения 1 для всех остальных объектов, включая «шум». Доля шума в нашем случае пусть будет равной доле исходной ин- формации. То есть введем 16 дополнительных «шумящих» объектов.
222 Главе 7. Анализ донных в системах искусственного интеллекта Передадим часть таблицы данных STATGRAPHICS, относящуюся к новым бинарным признакам, через буфер обмена в электронную таблицу Excel. Произведем там центрирование данных относительно выбранного объекта 4 и возвратим центрированные данные обратно в STATGRAPHICS. Теперь все готово для поиска логической закономерности посредством совокупного при- менения математических методов анализа и средств интерактивной графики. С помощью процедуры множественной регрессии по методу наименьших квадра- тов будут рассчитываться параметры новой координатной оси в локальном пространстве (параметры локальной метрики), максимально коррелирующей с зависимой переменной class, а средствами интерактивной графики из анализа будут исключаться наиболее удаленные от нулевой отметки новой оси объек- ты, так как для анализа интерес представляет только сравнительно небольшая окрестность центрального объекта. Таблица 7.12. Правила расшифровки значений бинарных признаков Значение признака Семантика Е1=0 Расходы не больше 1.1 Е1=1 Расходы больше 1.1 Е2=0 Расходы не больше 1.6 Е2=1 Расходы больше 1.6 Fl=0 Доходы за 5 лет не больше 12 000 Fl=l Доходы за 5 лет больше 12 000 F2=0 Доходы за 5 лет не больше 14 000 F2=l Доходы за 5 лет больше 14 000 F3=0 Доходы за 5 лет не больше 16 000 F3=l Доходы за 5 лет больше 16 000 Rl=0 Риск не больше 2 Rl=l Риск больше 2 R2=0 Риск не больше 3 R2=l Риск больше 3 R3=0 Риск не больше 4 R3=l Риск больше 4 Tl=0 Налоговый сбор не больше 70 Tl=l Налоговый сбор больше 70 T2=0 Налоговый сбор не больше 85 T2=l Налоговый сбор превышает 85 Вызовем из меню Relate процедуру множественной регрессии Multiple Regression и введем в поле Dependent Variable (зависимая переменная) имя class, а в поле Independent Variables (независимые переменные) — сгенери- рованные бинарные признаки El, Е2, Rl, R2, R3, Fl, F2, F3, Т1 и Т2 (рис. 7.21). Нажмем ОК. На экран выдается сводка множественного регрессионного анализа. Щелкнем правой кнопкой мыши и в появившемся окне диалога сни- мем флажок Constant in Model (постоянный член в уравнении множествен- ной регрессии). Исходя из новой сводки, исключим из анализа признак R3 с отрицательным весом. Нажмем кнопку графических опций и в окне диалога установим флажок Observed versus Predicted — график, где по оси ординат отложены значения независимой переменной, а по оси абсцисс значения, да-
Извлечение «скрытых зноний» экспертов по ценным бумогом методоми локольной геометрии 223 ваемые моделью множественной регрессии. Нажмем кнопку ОК. На экране отобразятся два окна. Первое — с табличными данными, второе — с выбран- ным графиком (рис. 7.22). Рис. 7.21. Окно диалога для ввода данных Рис. 7.22. Начальные параметры локальной метрики и исходная конфигурация санных в локальном пространстве Исключим из анализа все объекты, удаленные от центрального объекта №4 на расстояние больше 1.05. Для этого сначала сохраним в памяти значе- ния, рассчитанные по модели (нажав четвертую в верхнем левом углу кнопку сохранения результатов и поставив флажок Predicted Values). Затем нажмем первую слева в верхнем ряду кнопку вызова окна диалога для ввода данных и введем в поле Select выражение Predicted<1.05. Нажмем кнопку ОК. Проделаем эти операции дважды и удалим из анализа признаки с от- рицательными весами R1 и Е2. Результат после двух итераций показан на рис. 7.23.
224 Глово 7. Анолиз донных в системах искусственного интеллекта Рис. 7.23. Параметры локальной метрики и конфигурация данных после двух операций исключения удаленных от 0 объектов и вычеркивания признаков с отрицательными весами Как видно, объекты класса Hold сильно сгруппировались около централь- ного объекта, а объекты альтернативных классов еще более удалились от цен- трального объекта. Еще раз исключим из анализа объекты, удаленные от центрального объек- та на расстояние большее 1.05. Имеем следующие результаты (рис. 7.24). Рис. 7.24. Параметры локальной метрики и конфигурация данных после 3-й операции по исключению удаленных от 0 объектов Тенденция к группированию объектов класса Hold еще более усилилась. Проделаем последнюю четвертую серию операций, аналогичную предыдущим. Получаем окончательную конфигурацию данных в локальном пространстве и окончательные параметры локальной метрики (рис. 7.25). Все объекты класса Hold попали в начало координат (небольшой разброс объектов на рисунке введен искусственно, чтобы избежать наложения объек-
Извлечение «скрытых знаний» экспертов по ценным бумагам методами локальной геометрии 225 тов друг на друга). По данным таблицы у четырех признаков El, F3, R2, Т2 веса равны 1, у остальных — 0. Это и есть окончательное решение. Такой конфигурации и таким параметрам локальной метрики соответствует следую- щее логическое правило: El = 1 & F3 = 0 & R2 = 1 & Т2 = 0. Семантика по- лученного правила: Держать акции, если: расходная часть инвестиционного фонда превышает 1.1, доходы за 5 лет не выше 16 000, риск больше 3 и, наконец, налог не выше 85. Аналогичным образом получены все остальные правила принятия решений по операциям с ценными бумагами. Они приводятся в нижеследующей табл. 7.13. Таблица 7.13. Извлеченные правила принятия решений по операциям с ценными бумагами № п/п Логическое правило. Семантика правила Действие 1 E1=0&E2 = 0&F2 = 0& R1 = 0 Расходы не больше 1.6, доходы за 5 лет не выше 14 000, риск не превышает 2 Продавать 2 E2 = 0&F2 = 0&F3 = 0& Т2 = 1 Расходная часть не превышает 1.6, доходы за 5 лет не больше 16 000, налог выше 85 Продавать 3 El = 1 & F3 = 0 & R2 = 1 & Т2 = 0 Расходная часть превышает 1.1, доходы за 5 лет нс выше 16 000, риск больше 3, налог не выше 85 Держать 4 Fl = 1 & F2 = 1 & R2 = 0 & R3 = 0 Доходы за 5 лет превышают 16 000 и риск пе больше 3 Покупать 5 Е2 = 0 & F3 = 0 & R1 = 1 & R2 = 0 Расходы не больше 1.1, доходы не превышают 16 000 и риск составляет 2-3. Покупать 6 El = 1 & Е2 = 0 & Fl = 1 & R3 = 0 & T2 = 0 Расходная часть лежит в пределах (1.1, 1.6), доходы за 5 лет свыше 12 000, риск меньше 4, налог не превышает 85 Покупать Рис. 7.25. Окончательные параметры локальной метрики и конфигурация данных в локальном пространстве
226 Глава 7. Анализ донных в системах искусственного интеллекта Всего для принятия решений по операциям с ценными бумагами потребо- валось узнать (извлечь) 6 логических правил. Это достаточно большое коли- чество, учитывая сравнительно малый объем исходных данных, что еще раз свидетельствует о действительно не простой структуре рассмотренной сферы финансов. Эффективность извлеченных скрытых знаний по операциям с ценными бумагами фондов характеризуется табл. 7.14. Таблица 7.14. Эффективность извлеченных знаний ‘ Действие Процент совпадения с экспертной оценкой Продавать 100% Держать 100% Покупать 100% Здесь уже нет той грубой (пусть даже единственной) ошибки, которую дают методы классического дискриминантного анализа. Кроме того, каждая рекомендация сопровождается четким вербальным обоснованием. А это и есть действительное знание, которое не было явно сформулировано экспертами и которое так необходимо для построения интеллектуальной системы поддержки принятия решений в рассмотренной предметной области.
список ЛИТЕРАТУРЫ К главе 1 1. Векслер Л. С Статистический анализ на персональном компьютере//Мир ПК. 1992, № 2. 2. Дюк В. А., Мирошников А. И. Эволюция STATGRAPHICS//MHp ПК. 1995, № 12. 3. Информатика в статистике Словарь-справочник. М.: Финансы и статисти- ка, 1994. 4. Кулаичев А. П. Пакетыдля анализа данных//Мир ПК. 1995, № 1. 5. Кулаичев А. П Средства и программные системы анализа данных//Мир ПК. 1994, № 10. 6. Макаров A. A. STADIA против STATGRAPHICS, или Кто ваш лоцман в мо- ре статистических данных//Мир ПК. 1992, № 3. 7. Международная конференция «Статистическое образование в современном мире: идеи, ориентации, технологии», 3-5 июля 1996. Тезисы докладов. СПб: Изд-во СПбУЭФ, 1996. 8. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М.: ИНФРА-М, Финансы и статистика, 1995. К главе 2 1. Вучков И., Бояджиева Л , Солаков Е. Прикладной линейный регрес- сионный анализ. М.: Финансы и статистика, 1987. 2. Григорьев С. Г., Левандовский В. В., Перфилов А. М., Юнкеров А И. STATGRAPHICS на персональном компьютере. СПб, 1992. 3. Демиденко Е. 3. Линейная и нелинейная регрессия. М.: Финансы и ста- тистика, 1981. 4. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах. Кн. 1 М.: Финансы и статистика, 1986.