Текст
                    Дубаю* П. Ю.
Обработка статистической
информации с помощью
SPSS
NT Press
Москва, 2004

УДК ББК 004.67 32.973.26-018.2 Д79 Подписано в печать 21.07.04. Формат 70x90 1/16. Усл. печ. л. 16,24. Тираж 3000 экз Заказ № 4575 Дубнов П.Ю. Д79 Обработка статистической информации с помощью SPSS / П.Ю. Дубнов. — М.: ООО «Издательство АСТ»: Издательство «НТ Пресс», 2004. — 221, [3] с.: ил. ISBN 5-17-026319-8 (ООО «Издательство АСТ») В данной книге рассматриваются методические и компьютерные аспек- ты использования программного комплекса SPSS для обработки статисти- ческой информации в самых различных приложениях. Первая и вторая главы посвящены пользовательским режимам и ос- новным особенностям SPSS. В остальных главах говорится о методичес- ких аспектах (эконометрике; описательной статистике; проверке статисти- ческих гипотез; корреляционном, регрессионном, кластерном, факторном анализах; анализе временных рядов) применения SPSS. Книга представляет интерес для специалистов, занимающихся прак- тическими вопросами анализа статистической информации, а также для студентов вузов, обучающихся по специальностям: «Математическая ста- тистика», «Эконометрика». УДК 004.67 ББК 32.973.26-018.2 Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельца авторских прав. Материал, изложенный в данной книге, многократно проверен. Но, поскольку вероят- ность технических ошибок все равно остается, издательство не может гарантировать абсо- лютную точность и правильность приводимых сведений. В связи с этим издательство не несет ответственности за возможный ущерб любого вида, связанный с применением содер- жащихся здесь сведений. Все торговые знаки, упомянутые в настоящем издании, зарегистрированы. Случайное неправильное использование или пропуск торгового знака или названия его законного вла- дельца не должно рассматриваться как нарушение прав собственности. © Дубнов П. Ю., 2004 © НТ Пресс, 2004
Содержание Введение .......................................................5 Глава 1 ▼ Режимы SPSS ...............................................7 1.1. Тип данных ..............................................1° 1.1.1. Определение переменных ..............................11 1.1.2. Ввод данных .......................................... 1.1.3. Действия надданными .................................25 1.1.4. Слияние файлов .................................... 29 Глава 2 ▼ Особенности анализа данных в SPSS ....................34 2.1. Характеристика исходных данных ..........................34 2.2. Окна в SPSS .............................................35 2.3. Преобразование данных ...................................39 2.4. Вычисление переменных ...................................40 2.5. Функции .................................................41 2.6. Перекодировка значений ..................................41 2.7. Преобразования для временных рядов ......................43 2.7.1. Процедура задания дат ...............................43 2.7.2. Процедура создания временного ряда ..................45 2.8. Замена пропущенных значений .............................47 2.9. Работа с файлами ........................................48 2.10. Сортировка данных ......................................48 2.11. Транспонирование наблюдений и переменных ...............49 2.12. Агрегация данных .......................................51 2.13. Расщепление файла ......................................53 2.14. Отбор наблюдений .......................................55 2.15. Мобильные таблицы ......................................57 2.16. Создание многомерных слоев .............................60 Глава 3 ▼ Описательная статистика ..............................63 3.1. Частоты .................................................63 3.2. Описательные статистические параметры ...................73 3.3. Описательная статистика. Исследования .................. 76 3.3.1. График ..................................................78 3.3.2. Перечень описательных параметров ........................79 3.3.3. Гистограмма. Критерии согласия ..........................80 3.3.4. M-Оценки и идентификация экстремальных значений для них .84 3.3.5. Экстремальные значения ..................................87 3.3.6. Таблицы сопряженности ...................................88
Обработка статистической информации с помощью SPSS Глава 4▼ Меры сравнения ........................................ но 4.1. Использование Т-тестов (Т-статистик) в мерах сравнения ....110 4.1.1. Т-статистики с независимыми выборками .................110 4.1.2. Т-статистики для парных сравнений .................... 114 4.1.3. Т-статистика для одной выборки ....................... 119 4.2. Однофакторный дисперсионный анализ ........................122 4.3. Двухфакторный дисперсионный анализ .......................129 Глава 5 ▼ Корреляция и статистика ...............................132 5.1. Корреляционная зависимость ................................132 5.1.1. Корреляционная диаграмма ............................. 133 5.1.2. Частичная корреляция ..................................138 5.2. Регрессионная зависимость .................................141 5.2.1. Парная линейная регрессия .............................141 5.2.2. Множественная линейная регрессия ......................152 5.2.3. Нелинейная регрессия ..................................157 5.2.4. Другие возможности использования фиктивных переменных .163 Глава 6 ▼ Факторный и кластерный анализ .........................167 6.1. Факторный анализ ..........................................167 6.1.1. Запуск процедуры факторного анализа ...................168 6.1.2. Отбор информации и настройка факторного анализа .......169 6.1.3. Факторный анализ и мультиколлинеарность переменных ....175 6.2. Кластерный анализ .........................................177 6.2.1. Общие положения .......................................178 6.2.2. Диаграмма рассеяния ...................................179 6.2.3. Меры сходства кластеров ...............................181 6.2.4. Кластерный анализ со многими переменными ..............183 Глава 7 ▼ Анализ временных рядов ............................... 187 7.1. Общие положения ...........................................187 7.2. Временной подход к анализу временных рядов ................190 7.2.1. Тренд, сезонная и циклическая компоненты ..............190 7.2.2. Интервенции .......................................... 192 7.2.3. Сглаживание временных рядов .......................... 193 7.2.4. Модели прогнозирования временных рядов ............... 194 7.3. Проект Decision Time ......................................194 7.4. Построение моделей с помощью Мастера прогноза .............200 7.5. Построение моделей с помощью Мастера прогноза и с участием предиктора ........................................202 7.5.1. Модели интервенций ....................................214 7.5.2. Анализ различных сценариев прогноза с помощью программы What If? ................................ 215 Предметный указатель ........................................... 219
Об авторе Дубнов Павел Юрьевич - кандидат технических наук, старший научный сотруд- ник, доцент кафедры математики и информатики Института Международных Экономических Отношений (ИМЭО), г. Химки Московской обл. Автор более 60 научных работ. Область научных интересов - информатика и информационные технологии, автоматизированные системы управления и информационные системы, разра- ботка автоматизированных банков данных, статистическая Обработка инфор- мации. Введение Среди разделов математики, завоевавших прочное место в арсенале современ- ной науки, важную роль играют теория вероятностей и математическая стати- стика. Это положение обусловлено теми объективными специфическими осо- бенностями, которые присущи статистической информации. Эта область информации, а стало быть, и соответствующие науки существуют и будут суще- ствовать, поскольку ни в одной области человеческого знания нет и принципи- ально не может быть абсолютно точных и детерминированных знаний и дан- ных. Всегда и при всех обстоятельствах возникают такие информационные проблемы, как неточность, неполнота, ненадежность, многозначность, нечет- кость исходной информации и, соответственно, неопределенность выводов, сделанных на ее основе. Особенно велика роль подобной информации в тех приложениях, где основными субъектами, да, пожалуй, и объектами действия являются люди со своими собственными интересами, вкусами, пристрастиями и ошибками. Именно к таким областям человеческой деятельности относятся экономика, социология и многие другие направления. С другой стороны, если существует такая важная и значимая область матема- тики, как статистика, то в условиях всеобщей компьютеризации должен быть и соответствующий программный инструмент. К последнему, безусловно, мож- но отнести и комплекс программных продуктов SPSS 11.0. SPSS 11.0 - это универсальная система для анализа данных, которая может считы- вать их из файлов практически любого типа и использовать для создания таблич- ных отчетов, диаграмм, графиков распределений и трендов, подсчета дескриптив- ных статистик и проведения сложного статистического анализа. SPSS делает статистический анализ доступным для всех пользователей, а для опытных аналити- ков существенно облегчает эту работу. Простой и удобный, похожий на электрон- ную таблицу пользовательский интерфейс редактора данных SPSS предназначен для ввода данных и просмотра файлов с ними. Большая часть результатов выводится
Обработка статистической информации с помощью SPSS в форме гибких мобильных таблиц, которые достаточно легко и просто переносить в другие приложения; Область применения SPSS очень разнообразна - каких-либо формально определенных пределов применимости здесь просто не существует. С помощью этого комплекса в ряде случаев решается множество задач чисто житей- ского характера, не имеющих на первый взгляд серьезного научного или производ- ственного характера, но тем не менее представляющих практический интерес. Настоящую книгу можно рассматривать как руководство пользователя, рабо- тающего с SPSS и ориентированного в основном на экономические (в большин- стве своем), социологические и демографические приложения, часто встреча- ющиеся в практической деятельности. В связи с этим значительная доля использованных примеров почерпнута из «Практикума по эконометрике» под редакцией члена-корреспондента РАН И. И. Елисеевой. Автор выражает признательность сотрудникам Российского офиса компа- нии SPSS за любезно предоставленное программное обеспечение и методичес- кие консультации. Соглашения, принятые в книге В книге выделены: > определения, новые понятия - курсивом', > названия пунктов меню, сочетания клавиш, элементы интерфейса - по- лужирным шрифтом; > последовательность команд, выполняемых из меню, отмечается стрелоч- кой, например File > Save (Файл > Сохранить); > клавиши, нажимаемые одновременно, записываются со знаком + (плюс), например Ctrl+S; > названия переменных даны моноширинным шрифтом.
Режимы SPSS Запуск комплекса SPSS производится любым доступным в Windows мето- дом. После того как комплекс запущен, на экране появляется стартовое меню SPSS (рис. 1.1). SPSS for Windows в р Что вы грвдлочгете? g |3ч1угип.мч»бн«! С Цвести данные Г Запустить имеющийся запрос f Создать новьй запрос с помощью констирсгора f Открыть существующий источник данных Еще файлы . CAProgiam File$\SPSSXGlass strain, sav CAProgiam File$\SPSS\Employee data, sav CAProgiam Fite$\SPSS\Co<ondry artery data.sav CAProgiam Files\SPSS\Cars.sav С Открыгь^айлдруототипа Еще Файлы .. | САМои документьАДМКАКнига по 5Р55\Вывск—1 C:\Program File$\SPSS\Descriptive statistics.sps —* CAProgram Fife$\SPSS\Canonical correlation «ps CAProgram Fites\SPSS\$cripts\Workbook sbs TJ Г* Це показывать этот диалог в будущем ОК | Отмена | Рис. 1.1т Стартовое меню SPSS
Г лава 1 ▼ Режимы SPSS Чтобы получить справку для работы в SPSS, необходимо активизировать режим Запуск введения. Для этого в стартовом меню SPSS выбираем опцию Запустить учебник и нажимаем кнопку ОК (см. рис. 1.1). Это действие выво- дит нас в справочную систему (Tutorial) - рис. 1.2. Дальше, в соответствии с правилами справочной системы Windows, вы мо- жете, оставаясь на вкладке Содержание, раскрыть подробное оглавление учеб- ника по SPSS, щелкая последовательно по значку (см. рис. 1.2). В результате на экране отобразятся нужные заголовки (рис. 1.3). 'Справочная система: Tutorial Рис. 1.2 т Окно справочной системы ^Справочная система: SPSS for Windows книгу и нажмите 'ИмоНка’^ riwyiae^^^ а 5 а [3 Q jl Getting Help Using the Contents tab Finding topics with the Help index Full-text search Help for dialog box controls Help for terms in output tables Results Coach ♦ T utorials Distributed Analysis ♦ Data management ♦ Statistical analysis ♦ Graphical analysis ♦ Interactive charts :♦ Thematic maps Отмена Рис. 1.3 т Вкладка Содержание
Режимы SPSS Вкладка Указатель предоставляет доступ к предметному поиску: например, введя часть слова «regre...-. найти искомое «regression» в открывшемся списке слов и, щелкнув по нему, полечить соответствующую справку (рис. 1.4). Перейдя на вкладку Поиск и следуя указаниям Мастера справочной систе- мы, можно выйти в базу данных последней (рис. 1.5). Затем, введя или выбрав соответствующий термин (на рисунке - absorbed), нажать кнопку' Показать для получения нужной справки. При этом в пустой области окна появляются ^Справочная система: SPSS for Windows I ? i х| Содержание Указатель | Поиск | 1 Введите первые буквы нужного слова, рёдге 2 Выберите герьиат ихм фразу и нажъмге кнопку ‘Показать". regression analysis regression coefficients in Linear Regression regression command syntax in Missing Value Analysis Linear Regression mutttple regression plots RE-G-WF tn GLM in One-Way ANOVA R-E-G-WQ in GLM in One-Way ANOVA jj -1 Показать | П§ча ь.. | Отмена Рис. 1.4 v Вкладка Указатель Рис. 1.5 т Вкладка Поиск
Глава 1 ▼ Режимы SPSS названия разделов, связанных с выбранным термином, так что можно найти среди них наиболее подходящий. Надо сказать, что описанный выше режим - не единственный способ полу- чения справки по SPSS. Другие способы будут подробно рассмотрены далее. 1.1. Тип данных В стартовом меню SPSS, активизировав опцию Ввести данные (рис. 1.6), мож- но задать тип данных, загружаемых в SPSS. При этом предполагается, что пере- менные еще не определены и данные, подлежащие обработке, пока отсутству- ют, так что все значения надо вводить. IsPS*. lot Ъ/mdows pin г-Чтаеы предпочтете?- I ВЙ С £ткрьпъс^еств^ошн^исто«*«д»»«>к ГЖАОДШаЖ Еще Файлы... ж I)C:\ProgramFile$\SPSS\Gla$$ $train.$av CAProgramFile$\SPSS\Emplcyeedata.$av — CAProgram File$\SPSS\Coronary artery data.sav CAProgramFiles\SPSS\Cars.sav . Открыть ДрэгШ Еще Файлы... -П С:\Моидокументы\ДМК\Книга по 5Р55\8ывоГ| CAProgram Fte$\SPSS\Descriptive statisticssps • CAProgram File$\SPSS\Canonical con elation, sps <7 CAProgiam Files\S PSS \S cripts Workbook. $b$ У1 Г” He пгжазывагь этот диалог в будущем | ок ] Отмене | Рис. 1.6 ▼ Стартовое меню SPSS с активизированной опцией Ввести данные Окно SPSS Data Editor (Редактор данных SPSS) является центральной исход- ной точкой всего программного комплекса SPSS. С его функциональным содер- жанием мы будем знакомиться постепенно, по мере раскрытия возможностей SPSS. Это окно имеет две вкладки: Variable View (Просмотр переменных) - рис. 1.7 - и Data View (Просмотр данных) - рис. 1.8. Рассмотрим сначала ра- боту с переменными.
Тип данных ЕЭ Untitled - SPSS Data Editor Файл Редактирование Вид Данные Трансформирование Анализ Рис. 1.8 т Окно SPSS Data Editor с вкладкой Data View 1.1.1. Определение переменных Чтобы задать новую переменную, надо последовательно нажать в меню окна SPSS Data Editor (Редактор данных SPSS) кнопки Данные и Вставить перемен- ную. В результате в первой строке окна SPSS Data Editor (Редактор данных SPSS) появляются реквизиты переменной (рис. 1.9). Переменная обладает следующими реквизитами: > Name (Имя); > Туре (Тип); > Width (Разрядность); > Decimals (Количество знаков после запятой); > Label (Метка);
V Глава 1 ▼ Режимы SPSS П) Untitled SPSS Data Editor Файл Редактирование Вид Данные Трансформирование Анаше фзафы Утилиты Osho Help *|и]Д| al d 3 ill! ^I±l±l ЖЗ Ш 1[уаЮ0004 ^Numeric ~|8 p ' ' :2|var66o65 |Numeric — j|8 (2 I Д Variable View //длт |l < I I Рис. 1.9 т Окно SPSS Data Editor с реквизитами переменной > • Values (Значение); > Missing (Утерянные (пропущенные) данные); > Columns (Количество столбцов); > Align (Выравнивание - слева, справа, по центру); > Measure (Мера - шкала, столбцовая или круговая диаграмма). Для каждой переменной определяется свой тип, при этом по умолчанию указывается цифровой - Numeric. Чтобы изменить тип переменной, достаточ- но активизировать окно редактора SPSS, щелкнуть по названию соответствую- щей переменной в столбце Туре (Тип), а затем - по появившейся в правой час- ти клетки кнопке ... j. В окне Тип переменной (рис. 1.10) можно задать необходимые установки. Tim переменной________ ид Цифровой С Точка С Научная нотация Г* Дата С Доллар Г* Другая валюта Г Строковое г- g*_J '' ‘Л’*» Г; . :Огам. | Рис. 1.10тОкноТип переменной Характер определения зависит от типа переменной, который может быть следующим. Цифровой формат подразумевает, что значения переменной отображаются в стандартном числовом или в экспоненциальном формате. Запятая - числовая переменная, чьи величины отображаются с запятыми, ограничивающими каждые три места, и с периодом как десятичный раздели- тель. Редактор данных принимает числовые величины для этих переменных с или без запятых, а также в экспоненциальном формат-; Тачка - числовая переменная, чьи величины отображаются с периодами, ограничивающими каждые три места, и с занят ;-й к..:-: дес чтичный разделитель.
Тип данных В редактор данных передаются числовые величины для таких переменных с или без точек, а также в экспоненциальном формате. Научная нотация (экспоненциальный формат) - числовая переменная, значе- ния которой отображаются с символом экспоненты Е или D и множителем (до 10 символов). Редактор данных принимает числовые величины для таких пе- ременных как с символом, так и без символа экспоненты. Например, 123 - 123; 1,23£2 = 1,23.02 = 1,23£+ 2 = 1,23 + 2 = 1,23 х !()-. Дата - числовая переменная, чьи величины отображаются в одном из фор- матов различной календарной даты или времени. Форматы (то есть написание дат со слэшами, дефисами, периодами, запятыми или чистыми пробелами как разделителями) можно выбрать из раскрывающегося списка (рис. 1.11). Две цифры столетия задаются в соответствии с установочными параметрами. Рис. 1.11т Окно Тип переменной с раскрытым списком форматов дат или времени Можно установить минимальные значения временных интервалов и посмот- реть, какие максимальные значения периодов (например, количество месяцев в году или количество дней в неделе, причем последнюю можно задать с пятью или шестью днями) задаются в SPSS. Для этого необходимо открыть окно ре- дактора SPSS и выполнить последовательность команд Данные > Определе- ния дат. В результате появляется окно, показанное на рис. 1.12. Если нужно начать отсчет временной переменной, скажем, не с пднедельника, а со среды, [Определения дат Регистры: Days, hours Weeks, work days, hours Minutes Hours, minutes Days, hours, minutes Seconds Minutes, seconds Hours, minutes, seconds „ Not dated ,j -Первый регистр: ....... Periodicity at j higher level j ' Week |i j ! Day: [i 7 ' i i Hour: [o 24 i I .2L I Сброс I Отмена Помощь д Текущие даты: None Рис. 1.12т Окно Определения дат
V Глава 1 ▼ Режимы SPSS то в графе Day (День) надо поставить 3 вместо стартового значения 1. После того как временная Переменная определена и задана, выбранные значения ее реквизитов вносятся в лист просмотрщика SPSS для выдачи результирующего листинга (см. ниже). Доллар (или другая валюта) - числовая переменная, чьи величины отобража- ются в одном из валютных форматов, определенных в диалоговом меню (см. рис. 1.10). Валютные символы не могут использоваться при вводе данных, но отображаются в редакторе данных. Значения строковой переменной не цифровые и, следовательно, не исполь- зуются в вычислениях. Они могут содержать любые символы, вплоть до опре- деленной длины. Буквы верхнего и нижнего регистров считаются самостоя- тельными переменными. При вводе переменной описанным выше образом, ей автоматически присва- ивается имя, где ***** - порядковый номер переменной, определяемый не но- мером строки, а номером щелчка. Если необходимо изменить это имя, то надо два раза щелкнуть левой кнопкой мыши в ячейке с именем и затем, внеся необ- ходимые коррективы, - за ее пределами. Из каких-либо ограничений на имя переменной или ее реквизиты замечено лишь одно - название не может начи- наться с прописной буквы. Переменную или ее реквизиты можно копировать, однако имя переменной является уникальным и не может дублироваться. Чтобы скопировать перемен- ную, надо, войдя в окно редактора (см. рис. 1.9), щелкнуть правой кнопкой мыши либо в ячейке любого ее реквизита, либо в ячейке с номером строки (в этом случае выделяется вся переменная) и затем в появившемся диалоговом окне выбрать команду Сору (Копировать). Если после этого выполнить щел- чок правой кнопкой мыши в любой свободной ячейке, где переменная еще не определена, и в появившемся окне нажать кнопку Paste (Вставить), то будет указана новая переменная с очередным порядковым номером таг’**** в ка- честве имени. Если провести аналогичные манипуляции не в ячейке реквизи- та, а в ячейке с номером строки, то вместо команды Paste (Вставить) можно воспользоваться позицией Paste Variable (Вставить переменило >. В этом слу- чае имя новой переменной не присвоится автоматически - вы сами должны будете определить это название так, чтобы оно отличалось от исходного хотя бы одним символом. Вставка новой переменной осуществляется описанным выше способом: в ячейке с номером свободной строки выполняется щелчок правой кнопкой мыши, затем команда Insert Variable (Вставить переменною i - для вставки пе- ременной с порядковым номером в имени, или же Paste Variable Вставить переменную) - с самостоятельным выбором имени. Чтобы удалить переменную, достаточно щелкнуть правой кнопкой мыши в ячейке с номером соответствующей строки, а затем выбрать команде Clear (Очистить) в появившемся меню или нажать клавишу Delete Удалить < на кла- виатуре. Редактирование реквизитов переменной начинается со щелчка левой кноп- кой мыши в поле изменяемой характеристики, а дальше ирит- . - ::ии там
Тип данных Decimals | 2 £ Рис. 1.13т Изменение количественного значения в поле реквизита текст либо корректируется, либо с помощью кнопок с изображением стрелок изменяются количественные значения, как показано на рис. 1.13 Кроме того, для двух реквизитов настройка с помо- щью этих стрелок проводится чуть иначе. Это Align (Выравнивание) и Measure (Мера). В первом случае в ответ на нажатие стрелки выдается три варианта выравнивания - Left (По левому краю), Right (По правому краю), Center (По центру), из которых вы должны выбрать один. Во втором случае по стрелке будет выданы пиктограм- мы вариантов меры - Scale (Шкала), Ordinal (Столбцы), Nominal (Текст), и также надо выбрать одну из них. Кроме того, следует выделить еще одну характеристику (реквизит) перемен- ной - Label (Метка). Это описательная этикетка, которую вы можете назначить для каждой переменной, что особенно полезно, если ваш файл данных исполь- зует числовые коды, для представления нечисловых категорий (например, коды 1 и 2 для мужчины и женщины). Длина метки может содержать до 60 сим- волов. Итак, определение данных закончено, и, если нужно, мы можем для каждой переменной посмотреть сводную таблицу значений реквизитов. Для этого не- обходимо нажать кнопку fr| в окне редактора SPSS: появится окно Перемен- ные, где показаны все значения реквизитов, установленные для этой перемен- ной (рис. 1.14). Рис. 1.14т Окно Переменные 1Л .2. Ввод данных После того как переменные определены, можно перейти к вводу данных. Ввод данных вручную Ручной ввод данных (если их требуется вводить именно так) осуществляется очень просто: например, при создании новой переменной сразу же необхо- димо определить этот режим. Если данных в SPSS еще вообще нет, то в окне
V Глава 1 ▼ Режимы SPSS редактора реализуем последовательность команд Файл > Новый > Данные и затем Данные > Вставить переменную, определяем все реквизиты перемен- ной и приступаем к вводу. Выбрав ячейку для ввода с помощью левого щелчка кнопки мыши, надо просто набрать число на клавиатуре и нажать кнопку Enter. Значение вводится в ячейку в соответствии с определенными реквизитами, и ак- тивизируется следующее значение переменной, которое теперь готово к вводу. Ввод данных из имеющихся файлов Если мы вводим данные из файла, который уже создан (например, из ранее со- храненных файлов SPSS), то необходимо выполнить последовательность ко- манд Файл > Открытие документа > Данные. Затем находим нужный файл и данные из него вводим в столбец соответствующей переменной. На рис. 1.15 в окне редактора показан набор переменных, характеризующих страну. Имена переменных - Country (Страна), Рор92 (Численность населения в миллионах человек), Urban (Процент урбанизированного населения), Birthrat (Рожда- емость на 1000 человек населения), Deathrat (Смертность на 1 000 человек на- селения). □3 Страна.sav - SPSS Data Editor__________________________________________ИНП| Фена Редагяфоашге Вид Данны» Трансформирование Анализ Графы' Утилиты Окно ^1н|а| Ez| -1. .| ь1&| Щ :1: страна Бурунди __________страна______ ______1 Бурунди ______2 Эфиопия ______3 <ения ___ ______ 4 Мадагаскар 5 Малави . рорю Г uto 4 Меемрт I Itfe^TT 6.02, 8 511 55 j 51,07 11 50 53i _26.16! 26i _ бб1 J64? "12.60Г " ’ -221 ’ " _511 “ ’55Г ~ 9,6lT ’ ~ 15! 48 \ ”5П birthrat |г) 46! __ 45 44 " 47! ’ ‘ 52! 6 Маврикий шк.«a д / 1.08Г ‘ 41~Г 66? ....... SPSS processor is ready Рис. 1.15т Набор переменных, характеризующих страну, с именами Кроме собственно данных, окно редактора SPSS позволяет рассматривать и обрабатывать и другие виды информации: синтаксис (открывается с помо- щью команд Файл > Открытие документа > Синтаксис), вывод (команды Файл > Открытие документа > Вывод), сценарий (команды Файл > Откры- тие документа > Сценарий). Файл синтаксиса - просто текстовый файл, который содержит команды. Большинство команд можно найти в меню и в диалоговых окнах. Однако к не- которым из них доступ открывает только язык команд. Последний также поз- воляет сохранять ваши задания в файле синтаксиса так, чтобы можно было повторить анализ позднее или выполнять это в автоматизированном задании в комплексе с другим программным средством. Вывод позволяет вывести выходные данные в любой требуемой форме: текст, таблицы, графики различных типов.
Тип данных V Сценарий - это полностью сформированная программная среда, в которой, используя язык BASIC, различные подпрограммы и редактор диалогового окна, вы можете разработать и отладить необходимую программу (сценарий) с тем, чтобы потом сохранить ее и использовать в необходимых случаях. Обо всех этих информационных средствах будет рассказываться и в следую- щих главах. Ввод данных нз базы данных Следующая возможность ввода данных в SPSS - открытие базы данных (БД) и вклю- чение в окно редактора SPSS файлов из нее. Поскольку данные из БД мы еще не вводили, то и запроса к БД не существует и надо создавать новый. Для этого вы- полняется последовательность команд Файл > Открыть базу данных > Но- вый запрос). В результате появляется окно-приглашение Мастера баз данных (рис. 1.16). Мастер баз данных Й1 Добро Пожаловать в мастер Базы Данных! Этот мастер «может Вам выбрать элементы данных, которые Вы хотите использовать в сесии SPSS. В ыберигв источник давьсс Из источника минь» извлекать данные? . "dBASE Files Excel Fites '-° - Ф FoxPro Fifes Paradox Fites Text Fites Visual FoxPro Database Visual FoxPro T ables L*JJ J Добавить Источник Данмс. | .Назад | Далее >~| Отмена [ Справка | Рис. 1.16т Окно приглашения Мастера баз данных Здесь необходимо дать некоторые пояснения. База данных, из которой надо ввести файлы, как правило, не имеет никакого отношения к SPSS. Более того, в данном случае база данных не имеет никакого отношения и к экономике. Просто у автора под руками не было подходящей БД из соответствующей предметной области. Но это лишний раз иллюстрирует универсальность и «всеядность» как SPSS, так и ODBS. База данных может быть создана на ос- нове самых различных систем управления базами данных (СУБД). При этом сама эта СУБД может быть вообще не установлена на компьютере. Тем не менее доступ к информации, сформированной в такой базе данных, вполне
V Глава 1 ▼ Режимы SPSS может быть осуществлен. Дело в том, что в большинстве современных СУБД используется единый общепринятый язык SQL, позволяющий стандартизиро- вать работу с ними. В Windows подобную возможность обеспечивает Open DataBase Connectivity (ODBC - стандартный набор функций, помогающих об- рабатывать информацию на серверах баз данных SQL). Именно ODBC обеспе- чивает различным программам доступ к одному и тому же источнику сведений. Принцип действия ODBC состоит в следующем. Чтобы то или иное приложе- ние (например, SPSS) могло воспользоваться информацией из базы данных какой-либо СУБД, необходимо установить драйвер ODBC для баз данных этой СУБД1. Папка, в которую помещается драйвер, обычно так и называется- ODBC - и устанавливается вместе с загрузкой Windows. Драйвер ODBC - это динамически связываемая библиотека со стандартным интерфейсом, которая обеспечивает доступ к базам данных в определенном формате. Из любого приложения пользователь может легко связаться с каким- либо из имеющихся драйверов ODBC и получить доступ к информации в базе данных, даже если СУБД, где была создана данная БД, не установлена на ком- пьютере. На рис. 1.16 показан перечень тех баз данных, к файлам которых обес- печивается доступ из различных приложений. Это значит, что на компьютере установлены драйверы ODBC для этих БД. Теперь введем в окно редактора SPSS в качестве переменных файлы из БД Bofla.mdb, расположенной по адресу С;\ДУогк\Вода\Вода.тйЬ. Эта база дан- ных создана в СУБД Access 97. Открыв окно Мастер баз данных (см. рис. 1. 16), выберем в нем источник данных - MS Access 97 Database. Добавим указанный источник данных, нажав соответствующую клавишу в окне. В следующем окне под названием Админис- тратор источников данных ODBC (рис. 1.17) Мастер баз данных предложит выбрать драйвер ODBC для нее. Однако прежде чем сделать это, необходимо произвести настройку. Последняя заключается в том, что надо идентифициро- вать именно ту базу данных, которая нам нужна - Вода.шйЬ, - ведь на основе СУБД Access 97 может существовать (и существует) не одна, а несколько разных БД. Сначала нажмем кнопку Настройка, в результате чего откроется окно Уста- новка драйвера ODBC для Microsoft Access (рис. 1.18), в котором обозначена совсем другая БД - та, с которой работали ранее. Наша задача состоит в том, чтобы вместо нее задать нужную БД. Для этого путем нажатия кнопки Выбрать откроем окно Выбор базы данных (рис. 1.19). В нем по обычным для Windows правилам определим доступ к искомой базе данных (см. рис. 1.9) и нажмем кнопку ОК. В итоге мы вновь окажемся в окне установки драйвера (рис. 1.18), но в нем уже будет отмечена другая база данных - та, которая нам требуется - C:\Work\Bofla\Bofla.mdb (рис. 1.20). Если нажать кнопку ОК, то мы снова выйдем в окно Администратор ис- точников данных ODBC (см. рис. 1.17), но уже с выполненной настройкой. Теперь можно добавить найденный драйвер (строго говоря, мы не искали этот ’ Для каждой СУБД должен быть установлен свой драйвер.
Тип данных l^1 Администратор источников данных ODBC Драйверы | Трассировка | Группировка подключений По/ьзоеатетъский DSN | Систет^ьмОЗЧ | | 0 программе | Файловый DSN -] Источники данных пользователя Имя | Драйвер dBASE Files Microsoft dBase Driver (’dbf) Excel Files Microsoft Excel Driver (" xlsj FoxPro Files_______ Microsoft FoxPro Driver (“.dbf] 0ХЕВВЕБЕЕ39Е1 Microsoft Access Driver (' mdb! Paradox Files T ext Files Visual FoxPro Database Visual FoxPro Tables Microsoft Paradox Driver [’ db J Microsoft Text Drrver [" txt. * csv] Microsoft Visual FoxPro Driver Microsoft Visual FoxPro Driver Добавить... | Удалить | Истон* данных ODBC пользователя сохраняет сведения об установке связи с источником. Он доступен только этому пользовагегво и может грименягься лишь на данном коьеъюте; Справка Рис. 1.17 v Окно Администратор источников данных ODBC Установка драГшера ODBC для Microsoft Access Имя источника данных |м$ Access97 Database Описание: || -База данных —-----------—---------;-------------:--------------------; База данных с.\Моидокуменгы\Дёмин\бЬ2.тдЬ j йыбрать- | Создать.. | Восстановить .. | Сдать.. | \ - Системная база данных —-----------------------------------......—..., С база да и ьк Системная ба,?зд&н:-гс;х | ;2......................................................i Рис. 1.18т Окно Установка драйвера ODBC для Microsoft Access Рис. 1.19т Окно Выбор базы данных
Глава 1 ▼ Режимы SPSS [Установка драйвера ODBC для Microsoft Access {MS Acces$97 Database ^писание:7) )) .)):{ ъБа^айнйыя^ H БайдаН^^-^ г Системная база данных------- ;p <* : ВМ/З ^’«viijd'n ,i/тсеррл Рис. 1.20 . Окно Установка драйвера ODBC для Microsoft Access с выбранной базой данных драйвер, так как он однозначно соответствует выбранному нами источнику данных), нажав кнопку Добавить. После этого появится окно Создание ново- го источника данных (рис. 1.21). где нужно пометить выбранный драйвер и нажать кнопку Готово. Далее последовательно появляются окна Установка драйвера ODBC дл я Microsoft Access (см. рис. 1.20) и Администратор источни- ков данных ODBC (см. рис. 1.17), которые можно просто закрыть, так как все необходимые операции (выбор драйвера и определение базы данных) уже выпол- нены. В итоге мы снова попадаем в окно Мастер Базы Данных (см. рис. 1.16), но теперь в этом окне можно смело нажимать кнопку Далее и знакомиться со следую- щим окном под названием Мастер Базы Данных - Шаг 2 из 6 (рис. 1.22). В левой области последнего показаны все файлы базы данных, с которой мы установили связь (Вода.тйЬ). i С отдание нового источника данных 8 ыберкте драйвер, для которого задается источник. Имя Microsoft dBase Driver (“.dbfj Microsoft Excel Driver (",xls) Microsoft FoxPro Driver [’ dbf] Microsoft ODBC for Oracle Microsoft Paradox Driver (* db ] Microsoft Text Driver ('.txt; ’.csv] Microsoft Visual FoxPro Driver SQL Server I Версия i 4.00.3711.08 4.00.3711.08 4.00.3711.08 4.00.3711.08 2.573.3711.00 4.00.3711.08 ) 4.00 3711.08 6.00.8428.00 3.70.06.23 |0pra Micro Micro Micro Micro КОРИ»: Miao Micro Micro Koprn Рис. 1.21 ▼ Окно Создание нового источника данных
Тип данных Мастер Баты Данных - Шаг 2 ш б н ВыЬор данных Выберите поля. Достуные таблицы: 3 =q Водность S Гидробионты ЕЁ &] Загрязняющие вещества Eg- Запрос с параметрами на максимально ЕЁ Запрос с параметрами на усредненный Ф Залрос1 ф Запрос2 ЕЁ Источники сточных вод ЕЕ Качествовод 3 Населенные пункты 3 Определение реки по номеру створа р Сортировка имен полей И залечь поля в этом порядке: Гидробиологическое состояние: Концентрация Гидробиологическое состояние: Время замер» Гидробиологическое состояние: Дата замера ®; Гидробиологическое состояние: Ксщ гидробисн Гидробиологическое состояние: Код пункта на 3... Гидробиологическое состояние: Код створа ^..Гидробиологическое состояние: Код реки 1-го < Назад j Далее > | Готово I Отмена ] Справка Рис. 1.22 ▼ Окно Мастер базы данных - Шаг 2 из 6 Если мы хотим ввести в окно редактора SPSS данные из файла Гидробиологи- ческое состояние, то надо дважды щелкнуть по его названию, расположенному в левой области окна Мастер Базы Данных. Тогда в правой области этого окна появятся переменные из файла, которые имеют составное название, состоя- щее из имени файла и собственно переменной. После этого можно, нажимая клавишу Далее, последовательно пройти по шагам весь процесс ввода данных из БД в SPSS. Среди этих промежуточных шагов есть один, о котором имеет смысл рассказать отдельно: имеется в виду окно Мастер базы данных - Шаг 6 из 6 (Удивляться), где определяется состав выходной информации (рис. 1.23). И по поводу этого рисунка следует сказать несколько слов. Сразу обращает на себя странное название окна - Удивляться, так как совершенно непонятно, чему здесь следует удивляться. Возможно, тому, что запрос сфор- мулирован на языке SQL, а не в диалоговом окне, тогда как, скажем, в том же MS Database подобное представление запроса (в окне) разработано детально и наглядно. Так или иначе, но другой формы представления запроса Access 97 в данной версии SPSS не предусмотрено. Итак, в окне Шаг 6 из 6 следует нажать кнопку Обзор и, в соответствии с прави- лами Windows, выбрать папку и задать имя файла, в котором должен храниться запрос - в данном случае это будет адрес: C:\Program Files\ SPSS\3anpoc_ гидробионты.spq (рис. 1.24). Затем нужно выполнить команду Сохранить. При этом преобразовании может оказаться, что поле даты или времени (в данном случае поле даты замера) примет вид датаэ»м |. Чтобы придать изображению нормальный вид, достаточно растянуть по ширине столбец этого поля.
Г лава 1 ▼ Режимы SPSS Мастер Бады Данных Шаг 6ш б УДИВЛЯТЬСЯ Ваш выбор закончился следующим запросом SQL . SELECT 'Т1'.Хонцентрация гидробионтов'AS Хонцентр', 'ТГ.'Время замера'AS 'Время_за‘, а 'ТТ.'Дзта замера’AS 'Дата_зам'. 'ТГ. Код гидробионта' AS Ход_гццр’. Т1'. Ход пункта наблюдения' AS Ход_пунк', 'ТГ.Ход створа'AS Ход_ство‘, 'ТГ. Ход реки 1-гоуровня'А5 Ход_реки'FROM 'с:МОВК\Вода\Вода' Гидробиологическое состояние"!!' d -Что делать с этим запросом5------------------------------ -------- -------------------; Йзвги^ь данные, Koroj^e Я вй^эал.: J Г~ Кешировать данные локально. : -С ' - Сохранить запрос в файд—• • -л.....—... ................ ): |САМоидокументы\гидро.$рр |i Обзор...д < Назад | Дапе«> | Готово I < Отмена | Справка Рис. 1.23 ▼ Окно Мастер Базы Данных - Шаг 6 из 6 (Удивляться) ИЗ J-Цапка: f^jSpsT 3 в] tfd [й и| _JLookt ZjMapData Мар» ISciipH Сохранение |У] Запрос_г ндробионты spq | Имя файла:|3апрсс_гидробионты spq Тип Файда: А | SPSS QueryFile (“.spq) jJ COjjpaHtffbJ Отмело I Рис. 1.24 т Окно сохранения запроса Пройдя последний этап Мастера баз данных, мы окажемся в окне редактора SPSS с представлением переменных (рис. 1.25) и с представлением данных (рис. 1.26). Таким образом, мы научились включать в SPSS информацию из баз данных, не обращаясь непосредственно к программному продукту СУБД. Важно подчер- кнуть, что установленная посредством драйвера ODBC связь остается неизмен- ной, если мы сами не будем менять ее параметры. Иными словами, если пона- добится снова ввести какую-либо информацию из этой БД, то уже не надо добавлять источник данных, драйвер и настраивать базу данных - достаточно в окне Мастер Базы Данных (см. рис. 1.16), выделив нужный источник дан- ных, сразу нажать кнопку Далее.
Тип данных Рис. 1.25 ▼ Окно редактора SPSS с представлением переменных [Т] Untitled SPSS Data Editor Фейи Редияироввяив Вид Данкые Трансформирование Анализ Графы Утилиты Окно Help Щ| »| ".I ь|&| М| f.|iM Н|Д|Г>1 Ш! Л: концентр концентр время_за дата_эам | код_гид 1 15,00 12-FEB-1990; 2 12000000 14-FEB-1990i 3 27,00 12-FEB-1990 4 5 20,00 5.70Е+08 15-FEB-1990^ 21 -FEB-1990 i Б 5,00 16-FEB-1990 7 200.Х 16-FEB-199CH _ JSPSS Processor is ready 51 1U 22044: 22044 22047r 22047' ;p | код_пунк | код^ствз | код_реки 10 — 22030 301 зп. 441 0: о 0 Рис. 1.26 ▼ Окно редактора SPSS с представлением данных Повторный запуск запроса Часто возникает необходимость вновь запустить уже сформированный ранее запрос на ввод данных из БД в SPSS. Эта задача решается, как говорится в изве- стной рекламе, «не просто, а очень просто». Сначала необходимо выполнить последовательность команд Файл >• Открыть базу данных > Запустить за- прос. В результате данной операции откроется папка, содержащая файл с по- следним активизированным запросом, - в нашем случае это будет папка SPSS с файлом Запрос_гидробионты.5рц (см. рис. 1.24). Далее необходимо открыть найденный файл, после чего запрос будет автоматически запущен и данные из файла БД появятся в окне редактора SPSS. Коррекция запроса Если необходимо ввести данные из БД, но при этом внести изменения в уже сформированный запрос, то сначала надо выполнить команды Файл >
V Глава 1 ▼ Режимы SPSS Открыть базу данных > Изменить запрос). Затем найти файл, содержащий нужный запрос, открыть его и внести изменения в текст запроса на языке SQL. Например, откроем окно, показанное на рис. 1.23, и внесем изменение в запрос на языке SQL, суть которого состоит в том, что мы хотим исключить при вводе информации из БД в SPSS поле Время замера. Для этого выделим фрагмент тек- ста, подлежащий удалению (рис. 1.27), и нажмем сначала клавишу Delete на клави- атуре, а затем кнопку Готово. Заметим попутно, что мы действуем в соответствии с позицией переключателя Извлечь данные которые я выбрал. Альтернативой является позиция Paste it into the syntax editor for further modification (Вставить их в редактор синтаксиса для дальнейшей модификации) Далее будут последова- тельно появляться окна, содержащие запросы системы, нужно ли запомнить файл Мастер Базы Данных - Шаг б из 6 УДИВЛЯТЬСЯ Ваш выбор закончился следившим эагфосом SQL SELECT 7Г 'Комиемтрацийгид;20бионгов'А5 'Комиентр\ВН1^М1^ЙЁМ^ЙВИ§^ИИИЯ1 ~ jJ "И'.'Дата замера'AS 'Дата_зам‘. 'ТГ.'Код гидробионта'AS 'Код_гидр'. 'Т1 '.'Код пункта наблюдения' AS 'Коддтуяк'. 'ТГ.'Код створа'AS 'Код.ство', 'ТГ.'Код реки 1-го уровня'AS 'Код_реки' FROM 'сА^ОЯК\Вода\0с(С.а'. Ги<1робиологическое состояние' 71' р ’-he делать с этим запросом?---------------- г- Сохранил» запрос « Файл------*------------- |CAProgram Ffe$\S PS 5 \3апрос_гидробионты. $pq < Назад | | Готово | Отмена | Справка Рис. 1.27 ▼ Результат запроса системы S3 Untitled- SPSS Data Editor ____________ ______________________________________________МВД , Файл Редактирование j Дмп»». Трмкформтротши» Аи»«ш Графи Упиюм Ошо Н«Ь jg|H|a|J2|£7| bill?I »lSIM Ш1j ~~~A5 ir-..i eurn * ~«A I ™, »»T»i Г 7™>Ти>» «.«71 . ____________ 1 _ -~J концентр деталей | КОД.ГИДР код^пунк код_ство код_реки УЗ» | 1 15,00 12-FEB-1990I 10 22030 301 0 ; -J 2 12000000 14-FEB-199o| 50 22030 301 0 3 27,00 12-FEB-1990! 20 22030 301 0 4 20.00 15-FEB-1990j 30 22044 441 с S 5.70Е+О8 21-FEB-1990] 51 22044 441 0 Б 5,00j 16-FEB-1990i 10 22047 471 0 7 200,00 i 16-FEB-1990! 20 220^7 471 0 n . . .... .. "... .. ... -Ц • {SPSS Piocmct isreidy | £ Рис. 1.28 ▼ Окно редактора SPSS после изменения запроса
Тип данных V с изменениями, а также надо ли сохранить выходной листинг, в котором зафикси- рована проведенная корректировка (в обоих случаях отвечайте в соответствии с вашими потребностями). Наконец, измененный запрос исполнится, и окно редак- тора будет выглядеть так, как это показано на рис. 1.28, то есть в нем не будет поля Время замера и соответствующей переменной. Изложенный в этой главе материал, в сущности, исчерпывает возможные режимы ввода информации в SPSS. Если вернуться в стартовое меню SPSS (см. рис. 1.1), то опции, которые не рассматривались в этой главе, определяют уже описанные варианты (ввод из базы данных, ввод из файла, запуск ранее сфор- мированного запроса и др.) или несущественные для дальнейшей обработки варианты (открытие файлов других типов, ввод текста и др.). 1.1.3. Действия над данными В этом разделе будут рассмотрены основные виды действий над данными, пре- дусматриваемые в SPSS. Переход к строке с заданным номером Суть операции ясна из заголовка. Реализуется она в окне редактора SPSS путем выполнения последовательности команд Данные > Переход к регистру. При этом необходимо пояснить, что в SPSS под регистром почему-то понимается но- мер строки, что, с нашей точки зрения, не совсем правильно, так как противоре- чит терминологии основной платформы, в качестве которой принята Windows. В результате выполнения указанных команд на экране появляется окно Пе- реход к регистру (рис. 1.29). Здесь нужно ввести требуемый номер регистра (в на- шем случае 37) и дальше нажать кнопку ОК. В окне редактора SPSS мы увидим, что текущей строчкой стала строка с номером 37 (рис. 1.30). Рис. 1.29 ▼ Окно Переход к регистру □ Страна.sav • SPSS Data Editor HHB Ф»йп Редакпфоваиие Вид Двквые Трансформирожаиие Аяапю Графы Утипках Окно cg|o|g|Si м| yltfrl sialyl Ш1 h: страна :: . , -[Бурунди ••_______страна Мавритания Нигер Нигерия рор92 2Д6 8,05 urban j lifeexpm j ttfeexpf 34 i 44 i 50 21 i 42 i 45 birthrat 49 58 40 Сенегал л;-;Ж 41 Сьерра-Леоне 42 Того « I» К Oat» й*w л ИМИ*» / 83,50 j_______35j_ 8.2ГТ 30 " 4.4бГ....... 33'. .З^'б1..... “25:“ 481 50: 54Г 57T 43;........48". 54*.....’..58? {SPSS Processor is retdy Рис. 1.30 ▼ Окно редактора SPSS с заданной текущей строкой
V Глава 1 ▼ Режимы SPSS Сортировка регистров Любую переменную, содержащую ряд значений, можно отсортировать по возрастанию (Ascending) или по убыванию (Descending). Сначала, находясь в окне редактора SPSS, необходимо выполнить последовательность команд Данные > Сортировка регистров. В результате откроется окно Сортировка регистров (рис. 1.31). Далее, выбрав переменную, по которой надо провести сортировку, в нашем случае Country (Страна), и пометив ее, надо нажать на кнопку > ]. Имя этой переменной переместится из левой области окна в пра- вую, под которой указан переключатель порядка сортировки - в данном при- мере выбран порядок Ascending (Возрастание). После задания порядка сортировки нажмите кнопку ОК - вы получите от- сортированную по возрастанию (по алфавиту) последовательность перемен- ной (рис. 1.32). Затем, действуя в той же последовательности, можно отсортировать данные и по какой-либо следующей переменной. Однако в нашем случае, где конкретной стране соответствует только одно значение любой переменной, сортировка по другой переменной будет означать, что результаты предыдущего построения будут аннулированы. Повторная сортировка по другой переменной имеет смысл тогда, когда для нее имеется некоторое множество данных, объединяемых одним ‘ Сортировка регистров Л> страна Л Население,! 992,мил Продолжительность ф Продолжительность +> Рождений на 10ОО н Сортировка: [Процент урбанизации. - Порядок сортировки <* По возрастанию Г По убыванию Вставка| Сброс I Отмена | Поиощь| Рис. 1.31 ▼ Окно Сортировка регистров ED Country.sav - SPSS Data Editor BHD Файл Редактирование Вид Данные Трансформирование Анализ Графы Утилиты Окво Help «I ю| ,| Ml №! 5В1Ш1 Щ| fl: county Afghanistan country pop92 j urban gdp lifeexpm lifeexpf birtrl 1 2 Afghanistan Albania 16,095: 18 3,285 35 220 1300 45 72 43 79 3 Algeria 26,666 51 2130 66 68 4 Angola 8,902: 29 950 43 47 5 Argentina 32,901: 87 3100 67 • 74 6 Australia 17.567: 05 18054 74 80 7 Austria view л SMtteMew / 7.867- 54 IHI 20895 J 74 81 [SPSSProcessor «ready I Рис. 1.32 v Окно редактора SPSS с отсортированной последовательностью данных
Тип данных и тем же значением какой-либо другой переменной. Например, есть несколько значений, относящихся к одному моменту времени, но различающихся по дру- гим реквизитам. Тогда повторная сортировка упорядочит данные, относящие- ся к одному моменту времени, и т.д. Транспозиция Транспозицией (применительно к матрицам) называется такая операция, при которой столбцы и строки матрицы меняются местами. Поскольку матрица может содержать один столбец или строку, то транспозиция определяется и для этого частного случая. Откроем редактор SPSS и, выполнив последовательность команд Данные > Транспозиция, выйдем в окно Транспозиция, показанное на рис. 1.33. В ле- вой области этого окна выберем переменные, подлежащие транспозиции, по- мечая каждую из них, а затем нажимая кнопку > |, чтобы перевести переменную в правую область с названием Переменная (в нашем случае было отобрано пять переменных). Заметим, что стрелка на кнопке У | на рис. 1.33 обращена в дру- гую сторону, так как выделено имя в правой области, и, стало быть, подготов- лен перенос этой переменной в левую область. В правую нижнюю область окна с названием Имя переменной включаем имя той переменной, на основе кото- рой будут даны имена будущим транспонированным переменным, затем нажи- маем кнопку ОК. < Транспозиция ф Продолжительностью Младенческая смер $> Фертильность женщ ф Регион мира [region] ф Статус развивающее ф Радиоприёмников н. фТелефонов на 100 ч ф Больничных коек на ф Врачей на 10 000 че 1П ЛПП [Население, 1992,милл. Переменная: А> страна #> Процент урбанизации, 1*> ПрОДОЛЖИТеЛЬНОСТЬ Жк #> Рождений на 1000 нас ф Смертей на 1000, Hacei Имя переменной: ОК I Вставка Сброс Отмена Помощы Рис. 1.33 ▼ Окно Транспозиция Для транспозиции могут быть отобраны и не все переменные, находящиеся в окне редактора SPSS. В этом случае те из них, что не войдут в перечень, будут удалены при выполнении операции. Такое предупреждение появится в первом же окне, которое откроется после нажатия на кнопку ОК. Эту информацию следует принять к сведению и двигаться дальше, скомандовав ОК. Следующей информацией будет выходной листинг (рис. 1.34), в котором содержатся пояс- нения к проводимой операции. Этот листинг поведает нам о следующем: > строковая переменная Country (Страна) в рамках этой версии SPSS не может быть конвертирована; > операция выполнена над 24 переменными, содержавшими 122 значения. В результате было создано 123 переменных, содержащих 5 значений (см. область Переменная на рис. 1.33);
Г лава 1 ▼ Режимы SPSS ФайнРедактирование В^д Вставка Формат Аиепиз Графы Утилиты Окне Help tflaialiil »| ajt| Ч Й1М & I frfiTll ................. <1*1 H-I^ldl *jgg|$li______________________ El Output (jg Log FLIP performed on 122 cases and 22 variables, creating 5 cases and 123 variables. The working file has been replaced. Variable POP92 has been used to name the new variables. It has not been transformed into a case. A new variable has been created called CASE_LBL. Its contents are the old variable names. Neu variable names: CASE_LBL V17_57 V7_87 V16_18 V3_29 V26_67 V8_90 — V32_90 V16_10 V119_00 V10_02 V5_00 V8_87 V7_32 Vl_30 V1S8_OO V9_65 V6J32 Vl_66 V57_80 V1O_33 V20_68 V68_96 Vl_ll V6_43 V_74 V9_78 V7_78 V4_95 V10JD6 V5_16 V7_52 V56_39 V39JD8 V8_74 Vll_03 V10-39 V4_75 V886_36 V195_00 V3_56 V18_45 V61_18 V3_S3 V39_12 V57_90 V7_25 V12_66 V27_35 V26_16 V1169_62 V34_30 V2_38 V3_19 V10_85 Vl_32 . ............... if SPSS Processor is ready LJ J ' | j Рис. 1.34 ▼ Окно с выходным листингом > переменная Population (Население) использована для того, чтобы об- разовать имена новых переменных. При этом она сама транспонирова- нию не подвергается; > вновь созданной переменной, которая содержит имена переменных, сформированных на основе значений переменной Population, присва- ивается имя Case_Lbl. Дальше приводится перечень новых переменных, созданных на основе значе- ний переменной Population (Население). Если последняя - числовая, как в дан- ном случае, то имя обозначается символом V, сопровождаемым конкретным циф- ровым значением переменной Population (V31, Vl_49, V_57) - см. рис. 1.34. ~~ Untitled - SPSS Data Editor _________________________________НИР Файл Редактирование Вид Данные Трансформирование Анаше Графы Утилиты Onto cS|Qial51 r Ig| Ь|8>|М|Ш1 SlffillKl : cace_bi : (СТРАНА ЙВ.16 -v12_6O~T~ 1061 v1JB [v15.-4j casejbl v6_02 v51_07 1 СТРАНА 2 URBAN 8,00 11,00 26,00 22,00j 15,00 41,001 3 LIFEEXPM 51,00 50,00 60,00 51,001 48,00 66,001 4 BIRTHRAT 46,00 45.00 44,00 47,001 52.00 19.001 5 DEATHRAT 14,00 15,00 8.00 15,00 I 18,00 6JXH 6 <bi\p*>V**А / IWJ {SPSS Processor is ready ?" Г ' A Рис. 1.35 ▼ Окно редактора SPSS с транспонированными переменными
Тил данных Закрыв листинг, получим окно редактора SPSS с транспонированными пере- менными (рис. 1.35). Если в качестве имени переменной (см. рис. 1.33) взять строковую перемен- ную Country (Страна), как показано на рис. 1 36. то именами новых транспо- нированных переменных станут названия стран (рис. 1.37). Рис. 1.36 ▼ Выбор строковой переменной Country СП UntiUed - SPSS Data Editor НИН Фейа Редмспфстеиие Вия Дениме Трансформировали® Аквта Графы Утилиты Охво Не* GghH|a| Eg| 1 И| s=|0?| Ml Eiffel а|Ф|к| ШИ р:сме_Ы :pop32 casejbl Бурунди | Эфиопия | кения | мадагаск | малави i маврикий | мозаг—| ' 'Г-: 1 РОР92 6,021 51,07 i 26,161 12 ьО 9,61 1 ,ое: 2 URBAN 8.001 11,00; 26,00' 22,00 15,00 41,001 3 LiFEEXPM 51.00 50,00 60.00* 51 до: 48,00 66,00* 4 BIRTHRAT 46,00 45.00 44.661 47.00* 52,00 19,001 5 DEATHRAT 14.0СП 15,00 i 8,00 j 15,00 18.00 6.00 = 6 i ! L 1Ш ► 1 jSPSS Processor is ready 1 //. Рис. 1.37 ▼ Названия стран в качестве новых транспонированных переменных 1.1.4. Слияние файлов Операция слияния файлов включает два варианта: > добавление переменных: ► добавление данных. В первом варианте с помощью команд Данные > Слияние файлов > Доба- вить переменные к рабочему файлу добавляются переменные из другого (внешнего) файла, содержащего однородные переменные. Например, речь может идти о слиянии файла, включающего результаты предварительного тес- та и основного теста применительно к одним и тем же параметрам объекта. Значения переменных должнк Ть отсортированы для обоих файлов в одном
V Глава 1 v Режимы SPSS и том же порядке (ключевые переменные). Переменные во внешнем файле, имена которых дублируют существующие в рабочем файле, необходимо пере- именовать или исключить. Рассмотрим достаточно простой пример, не ослож- няя его выбором ключевых переменных, на практике используемых достаточно редко. В качестве рабочего файла возьмем Country.sav (см. рис. 1.15) и откроем его в режиме просмотра переменных, чтобы показать, что в нем содержится 20 переменных (рис. 1.38). ED Страна,sav - SPSS Data Editor ВСПЕЗ Файл Редактирование Вид Данные Трансформирование Акали? Графы Утилиты Окно а| ь= 1&1»1 Щ| В1Ш141»! Name | Туре | Width ' Decimals Label Values I 16 Indocs Numeric 19 2 Врачей на 10 None i Not 17 Inradio Numeric - tg 2 Радиоприёмы None Noi | 16 Inphone Numeric i8 2 Телефонов на None [NOI 19 Inbeds [Numeric 8 2 Больничных к None [Noi 20 sequence iNumenc 0 Произвольные None [Noi 21 22 I Mar A Wiabl» View / Id 1 1 [SPSS Ргосеиог ii ttttffy Л Рис. 1.38 ▼ Файл, открытый в режиме просмотра переменных После выполнения команд, указанных выше, пользователю предлагается выбрать файл, который будет добавлен к рабочему (рис. 1.39). В нашем слу- чае это будет файл Aggr.sav, который представлен на рис. 1.40. Он содержит две переменные, причем одна из них - Urban уже имеется в рабочем файле Country.sav. Открыв Aggr.sav, мы получим окно слияния файлов Add Variables from A:\Aggr.sav (Добавить переменные из A:\Aggr.sav), которое показано на рис. 1.41. Расположенные в правой области окна переменные, помеченные значком * (звездочка), содержатся в рабочем файле Country.sav; переменная Рис. 1.39 т Выбор файла Aggr.sav
Тип данных ЕЮ Aggr.sav - SPSS Data Editor ян о Файл Редактирование Вид Денные Трансформирование Анализ Графы Утилиты Окно Help jg|a|a| 5] nl al ЪШ Ш11_ _ Name Type | Width "| Decimate | Label 1 urban Numeric 3 Ю 2 pop92_1 Numeric ;8 3 | Values Percent urban.iNone ^Population, 19 None [ Misg£| ^None Nome Processor is ready Рис. 1.40 ▼ Файл Aggr.sav Add Variables from A:\Aggr.sav Исклжчениые Переменные: Новый Рабочий Файд urban f4] Переименование... hospbed (*) docs (*) Indocs (*] Inradio (*) Inphone (*] Ingdp (*) sequence (*) Inbeds (*) pop92_1 (+] О буфер) Сброс | Отмена | Помощь! Г" Match cases on key variables In sorted files Ключевые <» Both files provide cases f* External file is keyed table C Working Data File is keyed table Г Указать источник регистра как nef|source01 п = Рабочий Файн (г) = ft'Vlggr.sov Рис. 1.41т Окно слияния файлов Add Variables from A:\Aggr.sav Рор92_1, помеченная значком + (плюс), находится во внешнем файле Aggr.sav и дополнительно включается в рабочий файл. В левом окне перемен- ная Urban, имя которой уже имеется в рабочем файле, также помечена знач- ком + (плюс). Это означает, что она должна быть либо исключена, либо пере- именована. Примем первое решение, возможное переименование показывать здесь не будем. Нажав кнопку ОК, получим в результате видоизмененный файл Country.sav, который содержит уже 21 (а не 20, как было раньше) переменную (рис. 1.42). В файл добавлена новая переменная Urban. При этом количество значений в этой новой переменной остается первоначальным - в данном вари- анте слияния файлов оно никак не меняется. Изменения количества значе- ний в переменных мы рассмо трим в варианте добавления данных. Второй вариант - добавление данных - реализуется в окне редактора SPSS с помощью команд Данные > Слияние файлов > Добавить регистры). Пред- полагается, что читатель еще не забыл, что в SPSS под регистрами понимаются значения переменных. Откроем еже знакомый нам файл Country.sav, но теперь уже в режиме просмотра данных, и покажем, что в нем содержится 122 значе- ния (строки). Это видно на пис. 1.43.
Г лава 1 ▼ Режимы SPSS Рис. 1.42 т Видоизмененный файл Country.sav Последовательность действий в этом случае не отличается от той, что была описана в варианте с добавлением переменных. После выполнения указанных выше команд надо выбрать внешний файл, из которого добавляются записи, - в нашем случае файл Cntryl5.sav. Последний содержит те же переменные, что и рабочий файл, и 15 строк значений переменных. Окно добавления строк Add Cases from A:\Cntryl5.sav (Добавить строки из A:\Cntryl5.sav) - рис. 1.44 - выглядит несколько иначе, чем Add Variables from A:\Aggr.sav (Добавить пе- ременные из A:\Aggr.sav). Здесь следует упомянуть непарные переменные, то есть те, которым нет аналогов в рабочем файле. Они должны быть, как и раньше, либо переименованы, либо исключены. В данном случае такой ситуации нет - имена всех переменных в обоих файлах совпадают. После нажатия кнопки ОК на экране появится новый файл (рис. 1.45), кото- рый содержит те же переменные, что и др этого, но в них уже 137 строк. Одна- ко здесь следует отметить один важный момент: проведенное преобразование не предотвращает возможного дублирования строк в результирующем файле, Рис. 1.43 ▼ Файл Country.sav, открытый в режиме просмотра данных
Тип данных |Add Cases from A:\CntrylS.sav Непарные Переменные: Переменные в Нооом'Рабочем country> рор92 urban gdp lifeexpm lifeexpf birthrat deathrat Г Указать источник регистра как пе ереименование| (*) - Рабочий Файл Данных (+j = A.*\Cntry15.sav |source01 OK I 43 буфер! Сброс I Отмена | |Ломощь~| Рис. 1.44 ▼ Окно добавления строк Add Cases from A:\Cntry15.sav ЕЛ! Country.sav - SPSS Data Editor НЙР Файл Редактирование Эйд Данные Трансформирование Атшв Графы Утилиты Окно Неф gla|a| ЩЙЧ j Mfrl В!Ш1 I П : country ^Burundi __________country________ ~Р рор92 | urban | ~gdp | lifeexpm 136 France 57.287 74 18300’ 137 Netherlands .................... 15.112T 98' 16600? азо ..........Т У T...................?..... ? 41 » l\ Oita View / ~ |i«l I _____________________ JSPSS Processor is ready Рис. 1.45 ▼ Итоговый файл если такие строки содержались в исходных файлах. Так, в итоговом файле Country.sav дублируются строки с номерами 10 и 124 (на рисунках не показаны). Поэтому после слияния строк рекомендуется провести соответствующую про- верку.
Особенности анализа данных в SPSS 2.1. Характеристика исходных данных В статистическом анализе важно четко определять характер исходных данных, в частности разницу между выборкой и генеральной совокупностью. Генеральная совокупность представляет собой полный набор данных, описывающих анали- зируемый параметр. В большинстве случаев такой набор может существовать в природе, но по ряду причин организационного, технического, конъюнктур- ного характера он недоступен для исследователя. Кроме того, иногда подобный набор может и вовсе отсутствовать в природе (например, наблюдения за ме- теорологическими параметрами в определенном регионе в силу каких-то фак- торов в данном интервале времени просто не велись). В таких случаях исследо- ватель вынужден судить о генеральной совокупности по результатам анализа частичной группы данных (выборка), которая иногда может составлять малую долю генеральной совокупности. В этом случае важной частью анализа явля- ются статистические критерии, которые занимают существенное место в SPSS и рассматриваются в этой книге. На практике выбор статистического метода определяется не только вопро- сами, на которые мы хотим получить ответы по имеющейся выборке, но и при- родой этой выборки. Речь идет о шкалах измерений или, точнее, об интерпре- тации чисел, используемых для измерений. Классификацию типов или шкал цифр, используемых для измерений, можно представить следующим образом. Номинальная шкала. Каждое числовое значение представляет собой кате- горию или идентификатор группы. Например, значениям числового ряда со- ответствуют определенные религии, закодированные как 1 (православие), 2 (католицизм), 3 (мусульманство) и т.д. Соответствие чисел и религий произ- вольно, но однозначно. Преобладающими итогами анализа для этой шкалы
Окна в SPSS V можно считать количественные оценки и проценты наблюдений, попавших в каждую группу. Какие-либо расчеты (к примеру, средние значения) здесь не применимы. Порядковая шкала. Данные в этой шкале обозначают порядок (больше/ меньше). Например, можно проранжировать 20 компаний по уровню чистого дохода, контролируемой доле рынка и т.д. При этом в качестве 1 принимается наибольший показатель, а 20 - наименьший. При сравнении двух компаний становится ясно, что по выбранному показателю первая более значима, чем вторая, но нельзя сказать, насколько именно. Интервальная шкала. Для данных в интервальной шкале существует едини- ца измерения, позволяющая определить произвольно заданное начало отсчета, а также, насколько одно значение отличается от другого. Для этой шкалы имеют смысл итоговые статистики, такие, как среднее значение, стандартное отклоне- ние. Общепринятые статистические методы (регрессия, дисперсионный анализ и др.) предполагают, что переменные заданы в интервальной шкале. Шкала отношений. Данные в этой шкале имеют свойства себе подобных в интервальной шкале. Однако, в отличие от последней, она позволяет судить не только, насколько одно значение меньше или больше другого, но и во сколько раз оно больше. Кроме того, в шкале отношений задано абсолютное начало отсчета. Для дисперсионного анализа и регрессии требуются только свойства интерваль- ной шкалы, а шкала отношений обладает более сильными характеристиками, чем требуется для выполнения большинства видов статистического анализа. 2.2. Окна в SPSS В SPSS существуют семь видов окон. SPSS Data Editor (Редактор данных SPSS). Это окно подробно рассмотрено в предыдущей главе (см., например, рис. 1.15). В нем отображается содержи- мое текущего файла данных. Viewer (Вывод - иногда обозначается как просмотрщик). В этом окне выво- да (рис. 2.1) отображаются все статистические результаты, таблицы и графи- ки. Здесь пользователь может редактировать вывод и сохранять его для даль- нейшего использования. Окно открывается автоматически, когда первый раз генерируются выходные результаты. Draft Viewer (Черновой вывод). Позволяет получить выходные результаты в виде обычного текста (в отличие от интерактивных графиков и мобильных таблиц, используемых в окне Viewer). Чтобы создать черновой вывод, выбери- те в меню Файл > Создать > Черновой Вывод. Чтобы вывод стал черновым по умолчанию, выполните последовательность команд Правка > Параметры и в открывшемся окне откройте вкладку Общие. Один из видов окна Draft Viewer показан на рис. 2.2. Pivot Table Editor (Редактор мобильных таблиц). Результаты, отображаемые в виде мобильных таблиц, могут быть изменены с помощью редактора мобиль- ных таблиц. Здесь редактируются цвета, шрифты, поворот осей, диаграммы
Глава 2 ▼ Особенности анализа данных в SPSS Вывод'.! • SPSS Viewet £айл Правка йиа Вставка ff“opt«rr £нал« Графики Сервис Окно 2 Й1 !1 ~ *М±кШШЙЖ__2______ Переменные введенные/мсключенныеа Модель Введенные переменные Исключенны е переменные Метод 1 ПЕРСОНАЛ Шаговый (Критери й: Вероятно сть F-веода <= .050. F-исключ ения»= .100). а. Отклик: ОБОРОТ Сводка для модели6 Модель R R квадрат Скорректи рсванный R квадрат Стд. ошибка оценки Дурбин-У отсон 1 ,912* .831 .823 16,2783' 1,931 а. Предикторы: (константа) ПЕРСОНАЛ рГ [SPSS процессор недоступен . Г~ Рис. 2.1 ▼ Окно Viewer и их типы и т.д. Собственно говоря, под мобильными таблицами понимаются такие, которые можно изменять в Интерактивном режиме. Они, как исходные данные, появляются в окне Viewer (рис. 2.3). Активизировать редактор мобильных таблиц очень просто - для этого надо дважды щелкнуть по таблице. Сам процесс работы с мобильными таблицами более подробно рассматривается далее. Chart Editor (Редактор диаграмм). В данном окне (рис. 2.4) можно изменять цвета, шрифты, типы диаграммы, поворачивать оси и др. Активизация окна редактора диаграмм производится двойным щелчком по соответствующей диа- грамме. Text Output Editor (Редактор текстового вывода). С его помощью может быть изменен текстовый вывод, отображаемый не в мобильных таблицах. Мож- но редактировать вывод и изменять характеристики шрифтов (начертание, стиль, цвет, размер). Активизация редактора текстового вывода - так же как и в других случаях - двойной щелчок по тексту (рис. 2.5) Syntax Editor (Редактор синтаксиса). Позволяет вставить выбранные пара- метры статистической процедуры из диалогового окна в окно синтаксиса, где они появятся в виде команд, которые мол г быть сохранены в файле для даль- нейшей работы. После этого в случае необходимости редактируются строки. Образец окна редактора синтаксиса показан на рис. 2.6.
Окна в SPSS Рис. 2.2 т Окно Draft Viewer Рис. 2.3 т Мобильные таблицы в окне Viewer
Глава 2 V Особенности анализа данных в SPSS Файл! Правка gue Гаедзея Диаграмма Ряды Формат Диализ Графики 2 ®3| Е|с=|&| р| ^|д|и|—|а|дд|А|т|аЫ**1-1 А| 80 70 60' 50 40 30 20 10 0 10 20 30 РАССТОЯН [SPSS Процессор готов Рис. 2.4 ▼ Окно Chart Editor ft Вывод2 SPSS Viewei Файл Правка 2ид Вставка Формат Анализ (рафики Сервис Дкно 2 b|z|uJ 3] Dendrogram using Average Linkage (Between Groups) S Т Е R Rescaled ; Case 35 35 — \ Case 75 75 — \ Сазе 64 64 — \ Case 53 53 — Case 69 69 ——-i \ Case 17 17 — I Case 49 49 — <J—_________;____—................-.............I........ :: | ♦ [SPSS Процессор ГОТОВ Combine Рис. 2.5 ▼ Окно Text Output Editor
Преобразование данных Редактор скриптов. Окно редактора скриптов - это полноценная среда про- граммирования, использующая язык программирования Sax BASIC и включаю- щая редактор диалоговых окон, обозреватель объектов, средства отладки и кон- текстную справку. Пример такого окна приведен на рис. 2.7. g, Descript - SPSS Редактор Синтаксиса H@E3 : Файл Правка: i £ид Анапа Графики тфйис: i Janycx Qkho - 2 cg|H|a| tg| BlM&l 111 Dateiname: descript.зрз Funktion : Ausgabe beschreibender Stat Prozedur DESCRIPTIVES Daten : Sozialstatistisch-medizinis' get file = 'C:\SPSSPROF\stat.sav' . Рис. 2.6 ▼ Окно Syntax Editor Рис. 2.7 v Пример окна скриптов 2.3. Преобразование данных В идеальной ситуации исходные данные полностью соответствуют намечен- ному виду анализа. Однако может выясниться, что необходимо провести предварительные преобразования переменных. Средства SPSS позволяют выполнить самые разные преобразования данных от совсем простых, таких как слияние данных для анализа, до достаточно сложных, например созда- ния новых переменных с помощью сложных уравнений и условных опера- торов.
V Глава 2 ▼ Особенности анализа данных в SPSS 2.4. Вычисление переменных Диалоговое окно Вычислить переменную используется для определения значений переменных на основе значений других переменных. Оно позво- ляет: > вычислять значения числовых и текстовых переменных; > создавать новые переменные или изменять значения существующих; > определять значения для подмножества наблюдений, удовлетворяющих задаваемым логическим условиям; > использовать встроенные функции (арифметические, статистические, текстовые и др.). На рис. 2.8 показано диалоговое окно Вычислить переменную с заданной формулой и исходными значениями для се вычисления. ! Вычислить переменную □I Вычисляемая переменна (в . Числовое выражение разрешен ’ (LG 10(510] ♦ LN|510J] .ТипиМеткл.. разрешен '^>уеа<_ $> month, date, ф ftt.l 4> f<2 -^> fit 1Д dJ-U _°ДД "! ~ I ()l auwn.I АВ5(числвыр) AIJY(k ритерий.онач.знач.... J АЯ51М(числвыр) АВТАМ|числвыр) CDFN0RM(z3Ha4) CDF.B£RNOULLI(q.p) u Д 3 _i Д £сли... | OK 1 Встдвка | СДрос | Отмена j Справка | Рис. 2.8 ▼ Окно Вычислить переменную В качестве целевой переменной может выступать как существующая пере- менная, так и новая переменная, которую надо добавить к рабочему файл}' дан- ных. Компоненты сконструированного выражения могут быть вставлены в поле Числовое выражение или введены туда с клавиатуры. Есть возможность выполнять вычисления над подмножествами наблюдений с использованием логических выражений. Если результат логического выраже- ния является истинным, то вычисление к этому наблюдению применяется. Если результат является ложным или пропущенным значением, то вычисление для данного наблюдения не выполняется. Логический отбор исходных данных производится в окне Вычислить переменную: Отбор наблюдений (рис. 2.9). Для большинства логических выражений используется один или более опе- раторов отношения (<, >, <, >, =, »). Условные выражения могут включать име- на переменных, константы, арифметические операторы, числовые и другие функции, логические переменные и операторы отношения.
Перекодировка значений [Вычислить переменную: Отбор наблюдений ________________________В] разрешен $>уеаг_ month_ А< date. fitj ф»_2 J ~J Щ 9дадигь|; АВВ(числеьр) АМУ[кр|-перий,знач,знач....} ARSIN(yncnewp) АЙТАМ!числвыр| CDFN0RM|j3Hav) CDr.BERNOULi-Hq.p) Продолжить Отмена I Справка Рис. 2.9 ▼ Окно Вычислить переменную: Отбор наблюдений 2.5. Функции SPSS содержит большое количество функций: > арифметические; > статистические; > функции для работы с текстом; > функции для работы с датой и временем; ► функции распределений; > функции генерации случайных чисел; > Ф)'нкции для работы с пропущенными значениями; > логические и др. Функции и простые арифметические выражения по-разному работают с про- пущенными значениями. Так, например, результат выражения (varl + var2 + + var3)/3 является пропущенным значением, если значение хотя бы одной из трех переменных пропущенное. Результат вычисления среднего значения MEAN (varl, var2, var3) является пропущенным значением только в том случае, когда пропущенные значения заданы для всех трех переменных. Для статистических функций можно задать минимальное число аргументов, которые не должны иметь пропущенные значения. Для этого надо после име- ни функции (перед началом списка аргументов) поставить точку и число: на- пример, MEAN. 2 (varl, var2, var3). 2.6. Перекодировка значений В SPSS возможна модификация значений переменных посредством их переко- дировки. Это бывает особенно полезно для объединения категорий. Можно
Глава 2 ▼ Особенности анализа данных в SPSS перекодировать значения существующих переменных или создать новые пере- менные на основе перекодированных значений существующих переменных. В диалоговом окне Перекодировать в те же переменные задается переко- дировка отдельных значений или интервалов (диапазонов) значений существу- ющих переменных в новые переменные. Например, можно перейти от зарплат в одной валюте к зарплатам в другой. Можно перекодировать числовые и тек- стовые переменные. Но если речь идет об одновременной перекодировке не- скольких переменных, то все они должны быть одного типа. Нельзя одновре- менно перекодировать и числовые и текстовые переменные. Покажем механизм этой перекодировки на примере. Рассмотрим файл в формате SPSS со статистическими данными по разным странам мира (см. рис. 2.10). Перекодируем данные о проценте городского населения в разных странах (переменная Город). Сопоставим проценту населения в интервале (1-10) значение 1, в интервале (11-20) значение 2 и т.д. FTlWoild95 - SPSS Редактор Данных вив Файл Правка fim Данные : Преобразовать Сервис £Ikho 2 в?|н|а| ъ|&| м| m □|д;|р7| ^|<а| ;1: страна Австралия страна населен | ллотн [ город [ религия | religion жиэньжен жизньмуж чтение при± Австралия 17800: 2.3: 85; 4 Protstnt 80 74 100 2 Австрия 8000: 94.0; 58! 2! Catholic 79 73 99 3 Азербайджан 7400! 86.0; 54: 1 (Muslim 75 67 98 —j 4 Англия 58400! 237.0; 89; 4 iProtstnt 80 74 99 5 Аргентина 33900! 12.0 i 86: 2 iCatholic 75 68 95 Армения 3700; 126.0; 68: 3 lOrthodox 75 68 98 1 Афганистан 20500; 25,01 18! 1 ^Muslim 44 45 29 8 Бангладеш 125000= 800,0 i 16 1 iMuslim 53 53 35 ; 9 Барбадос 256; 605,0! 45: iTProtstnt 78 73 99 10 Бахрейн 600 i 828,0' 83! 1 iMuslim 74 71 77 : 11 Беларусь 10300; 50,0 65 J 3iOrthodox 76 66 99 12 Бельгия 10100! 329 ,оГ" 96! 2; Catholic 79 73 99 13 Болгария 8900; - 79.0 68; 3 (Orthodox 75 69 93 14 Боливия 7900: 6.9 i 51! 2; Catholic 64 59 78 15 Босния 4600: 87,01 361 1 'Muslim 78 72 86 16 Ботсвана 1359! 2.4 i 25! SiTnbal 66 60 72 17 Бразилия 156600; 18.0; 75! 2; Catholic 67 57 81 18 Буркина Фасо 10000; 36.Q i 15! 6 (Ammist 50 47 18 19 Бурунди 6000; 216.0! 5: 2 (Catholic 50 46 50 20 Бенгрия 10500; 111,0 i 64! 2 Catholic 76 67 99 21 Венесуэла 20600; 22.0! 91: 2 Catholic 76 70 88 22 Вьетнам 73100; 218,01 20; 7 Buddhist 68 63 88 < | > к Данные А Переменные / Hl I SPSS Процессор готов I I Рис. 2.10т Файл со статистическими данными по странам мира Выберем в меню Преобразовать > Перекодировать > В те же перемен- ные. В открывшемся окне Перекодировать в те же переменные перенесем в правое окно имя перекодируемой переменной - Город. Нажмем кнопку Ста- рые и новые значения и укажем, как перекодировать значения (рис. 2.11). В поле Старое значение определяется перекодируемое значение. Здесь также могут указываться отдельные и пропущенные значения, а также их интервалы
Преобразования для временных рядов ^Перекодировать в те же переменные: Старые и новые значения г Стеров значение-—-;— ------;...... ч ' С Значение: | I Г* Системное пропущенное i i С Системное или пользовательское пропущенное > j С Интервал: i I Г-- =а р—— | ’ С Интервал I Г' i <• Интвевал: > ] до наибольшего i С Остальные значения „г-Ноеое значение----------------------------------- i (* ^ьзчеиие: Г С Системное гропущенмэе ларо£ Новое: 1 1 10 thru 20 ••> 2 20 thru 30 ••> 3 30 thru 40 ••> 4 40 thru 50 --> 5 50 thru 60 -•> 6 60 thru 70 ••> 7 J 1 । 70 thru 80 --> 8 80 thru 90--> 3 100 thru Highest .-- ip — Продолжить Отмена j Справка | Рис. 2.11 ▼ Перекодировка значений (диапазоны). Для текстовых переменных нельзя обозначать системные про- пущенные значения и интервалы. В поле Новое значение вводится то значение, в которое следует перекоди- ровать каждое старое значение или диапазон. Если мы выполним последовательность команд Преобразовать > Перекоди- ровать > В другие переменные, то откроется окно Перекодировать в другие переменные (рис. 2.12), механизм действия которого аналогичен предыдущему. ! Перекодировать в другие переменные населен ф плотн город религия А< religion жизньжен жиэньмуж чтение прирост д£>детсмерт 1»> внп J !?г.:-т | С&ос | Отмена | Справка | Рис. 2.12 v Окно Перекодировать в другие переменные 2.7. Преобразования для временных рядов 2.7.1. Процедура задания дат SPSS обеспечивает несколько способов преобразования данных, которые по- лезны при анализе временных рядов (рассматриваются в седьмой главе насто- ящей книги). В их число входят: > генерация переменных, содержащих даты, для задания периодичности и разделения методов обучения, контроля и предсказания; ► создание новых переменных как функций существующих переменных временного ряда;
Глава 2 ▼ Особенности анализа данных в SPSS > замена системных или пользовательских пропущенных значений оценка- ми (имеется несколько методов). Процедура задания дат генерирует переменные, которые могут быть исполь- зованы для выделения периодичной компоненты временного ряда, а также в качестве меток вывода в анализе временных рядов. Находясь в редакторе данных, выполним команды Данные > Задать даты, после чего появится одноименное окно (рис. 2.13). Задать даты □I Годы Годы, кварталы Г оды, месяцы Дни Недели, дни Недели, раб.дни(б) Недели, раб.дни(б) Часы Дни, часы ' Дни, раб.часы(8) d - Дервое наблюдение. - - - 1.....,.^- .......I Йт ; :W'Qjp6C I I более вькхжмх i <"".... Отмена I , Квартал: |l )J-T Месяц: |Г^ 12 J Текшие даты Отсьлхлгвмет Рис. 2.13т Окно Задать даты В данном окне в области Наблюдения - это определяется интервал време- ни, используемый для генерации дат. При выборе пункта Без даты все ранее введенные переменные, содержащие даты, удаляются. Активизация ячейки Настраиваемая означает, что существуют специальные переменные с датами, созданные с помощью командного синтаксиса (например, четырехдневная ра- бочая неделя). Этот пункт просто отражает текущее состояние рабочего файла данных, а его выбор не оказывает никакого влияния на результат. В поле Первое наблюдение вводится значение начальной даты, которое бу- дет присвоено первому наблюдению. Следующим наблюдениям будут присвое- ны другие значения, основанные на выбранном интервале времени. Под периодичностями более высоких порядков подразумеваются повторяю- щиеся циклические параметры, например число месяцев в году, дней в неделе и т.д. Для каждой компоненты, используемой для определения дат, SPSS созда- ет новую числовую переменную, имя которой будет оканчиваться знаком под- черкивания. На основе всех компонент создается описательная текстовая пе- ременная Date_. Например, если выбрать год, квартал, месяц (как это показано на рис. 2.13), то будет создано три новых переменных: Year_, Quarter_, Month_. Если переменные дат уже существуют, то новые их заменят при условии, что у первых совпадают имена со вторыми. Таким образом, что- бы задать переменные, содержащие даты, достаточно выбрать в окне Задать даты временной интервал из списка Наблюдения - это и ввести конкретную дату в поле Первое наблюдение. Дата, присвоенная первом)’ наблюдению, бу- дет начальной для всего списка введенных дат.
для временных рядов V Переменные, созданные процедурой Задать Даты не следует смешивать с переменными, имеющими формат Дата, который определяется при задании свойств переменных. Первая группа переменных служит для указания периодич- ности временных рядов. Если временной ряд представить в виде графика, то эти переменные как бы определяют точки на горизонтальной оси такого графика. Переменные, имеющие формат Дата, - это даты и/или времена, представ- ляемые в различных форматах. Значения переменных, созданных процедурой Задать Даты, - целые положительные числа, каждое из которых представляет количество дней, недель, часов или других единиц времени. Значения же боль- шей части переменных в формате Дата представляют собой количества секунд, прошедших с единого постоянного для SPSS момента времени. 2.7.2. Процедура создания временного ряда Процедура создания временного ряда используется для создания новых перемен- ных, которые являются функциями тех, что уже существуют и образуют времен- ной ряд (к последним, например, можно отнести переменные, созданные с помо- щью предыдущей процедуры задания дат). В качестве функций, предназначенных для создания временных рядов, определены следующие: > разность (определяются разности между последовательными значениями в рядах); > сезонная разность (вычисляются разности между значениями ряда с опре- деленным постоянным промежутком времени); > центрированное скользящее среднее (среднее на промежутке значений ряда, окружающих и включающих текущее значение); > опережающее скользящее среднее (интервал усреднения предшествует скользящему значению); > скользящие медианы (медиана на промежутке значений ряда, окружаю- щих и включающих текущее значение); > кумулятивная сумма (накопленная сумма значений ряда, вплоть до теку- щего значения включительно); > лаг (значение предшествующего наблюдения, отстоящего на заданное число отсчетов от текущего момента); > опережение (значение последующего наблюдения, основанное на опре- деленной величине опережения); > сглаживание (новые значения ряда, основанные на многоступенчатом последовательном сглаживании и взвешивании данных). По умолчанию имена новых переменных создаются из первых шести симво- лов имен исходных, затем следует символ подчеркивания и порядковый номер. Например, для переменной Price имя будет Price_l. Исключение составля- ет имя переменной для сглаживания - Т42 53Н. Чтобы создать переменную временного ряда, надо, находясь в файле редак- тора данных SPSS, выбрать в меню Преобразовать команду Создать времен- ной ряд, после чего открывается одноименное диалоговое окно (рис. 2.14).
V Глава 2 ▼ Особенности анализа данных в SPSS Далее перенесем с помощью кнопки ► [ в правую часть окна выбранную пере- менную, из которой предполагается создать новую, и функцию, предназначен- ную для преобразования выбранной переменной в новую (в окне Функция). При этом по умолчанию задается имя новой функции, в качестве которой ука- жем Сглаживание. Для создания временного ряда мы выбрали файл Временной ряд (рис. 2.15), а имя новой функции по умолчанию задается Т4253Н, о чем упоминалось чуть Рис. 2.14 т Диалоговое окно Создать временной ряд [ПЗ Временной ряд - SPSS Редактор Данных _______ вею Файл Правка £ид Данные Преобразовать Анализ Графики Сервис Дкно 2 а|й|е| hd । -| ^|&| м| flr-l ШИ »|(й|’ '1 год 1961 год выпуск | выпуск_1 | гы* | -- | п-ч.- | г | ns | | пер | 1 1961 1054 1054,0. i ! 2 1962 1104; 1107,7: ' ! i 3 1963 1149? 1183,3: i ! i : x 4 1964 1291 i 1289,3: i : 5 1965 1427: 1398,6: | 6 1966 1505: 1476,6: i i i — 7 1967 1513; 1551,9; ! i ; i 8 1968 1635; 1705.1: i : ; : 9 1969 1987 i 1937,8: : ! ! ! : 10 1970 2306: 2163,8: i : j 11 1971 2367; 2422,7; ; j 12 1972 2913; 2951,8: 13 1973 3837: 3839,5: ; i 1 : 14 1974 5490 i 4788,6: ! I ; 15 1975 5502! 5573,8: ' Г 16 1976 6342: 6393,7: i : i i 17 1977 7665; 7523,9; i 19 1978 8570 i 9195,5: i Й 19 1979 11172 11281,5: ! [ 20 1980 14150 12873.0! f : | : 21 1981 14004: 13419,1! i i : 22 1982 13088; 13331.0: i ( 4 • I * IX д« иные 4-Переменные. / ! «I -! SPSS Процессор готов 1 j Рис. 2.15 ▼ Файл Временной ряд
Замена пропущенных значений выше. Однако это не лишает нас возможности указать вместо этого любое бо- лее благозвучное имя. После Нажатия кнопки ОК в файле Временной ряд появляется новая перемен- ная, представляющая временной ряд, полученный в результате сглаживания. 2.8. Замена пропущенных значений Пропущенные значения всегда создают проблемы. Некоторые процедуры ана- лиза временных рядов вообще не работают при наличии пропущенных значе- ний. В SPSS последние заменяются оценками, которые могут быть вычислены одним из нескольких способов, описанных ниже. Среднее ряда. Замена пропущенных значений средним для всего ряда. Среднее близлежащих точек. Пропущенные значения заменяются средним из достоверных окружающих значений. Интервал ближайших точек в данном случае - количество точек, предшествующих текущей и следующих за ней, ис- пользуемых при вычислении среднего. Медиана близлежащих точек. Замена пропущенных значений медианой достоверных окружающих значений. Здесь интервалом ближайших точек счи- тается количество точек, предшествующих текущей и следующих за ней, при- меняемых при вычислении медианы. Линейная интерполяция. Для интерполяции используется последнее коррект- ное значение перед пропущенным и первое корректное после него. Если первое или последнее значение ряда оказалось пропущенным, то оно не заменяется. Линейный тренд для точки. Замена пропущенных значений их предсказан- ными значениями - линейными трендами для точек. Вычисляется регрессия ряда на индексирующую переменную со значениями от единицы до нуля (о ре- грессии см. главу 5). Собственно замена пропущенных значений производится следующим обра- зом. Открывается редактор данных SPSS и выполняется последовательность команд Преобразовать > Заменить пропущенные значения. На экране по- является соответствующее окно (рис. 2.16) для исходного файла World95, ко- торый в первичном виде показан на рис. 2.10. 1 Заменить пропущенные значения ЕЗ ф> населен • #> плотн ф город 'ф религия жизньжен ' ф жизньмуж .$> чтение :фприрост ф детсмерт уф> ВНП хф регион \ф калории Имя и метод-———-— Имя: |внп_1 Метод:: | Среднее ряда I ок | Встдвка | Cgpoc [ Отмена | Справка | Рис. 2.16 ▼ Окно Заменить пропущенные значения
Глава 2 ▼ Особенности анализа данных в SPSS Далее следует выбрать метод, используемый для замены пропущенных зна- чений, и перенести в правое окно переменную, в которой надо заменить про- пущенное значение. Новое имя этой переменой вводится автоматически (см. рис. 2.16), но если оно вам не нравится, то можно его изменить. 2.9. Работа с файлами Файлы данных не всегда организованы наилучшим образом для решения постав- ленных задач. Поэтому часто бывает необходимо провести различные операции над файлами, которые не следует смешивать с преобразованиями файлов, опи- санными выше. В SPSS представлен довольно широкий спектр таких операций. Сортировка данных. Она позволяет отсортировать данные по значениям одной или нескольких переменных. Транспонирование наблюдений и переменных. Программа считывает файлы данных таким образом, что строки становятся наблюдениями, а столб- цы - переменными. При работе с файлами данных, в которых строки являют- ся переменными, а столбцы - наблюдениями, можно поменять их местами и таким образом считать данные в правильном формате. Слияние файлов. Оно позволяет сгруппировать несколько файлов данных. Можно объединять файлы с одинаковыми переменными и с разными наблюде- ниями или файлы с одинаковыми наблюдениями и с разными переменными. Отбор подмножеств наблюдений. Можно ограничить анализ подмноже- ством наблюдений или выполнять его для разных подмножеств. Агрегирование данных. Позволяет изменить единицу анализа, агрегируя на- блюдения на основе значений одной или нескольких группирующих переменных. Взвешивание данных. Можно взвесить наблюдения значениями задаваемой весовой переменной. 2.10. Сортировка данных Как обычно, выберем в меню окна редактора данных команды Данные > Сор- тировать наблюдения. В окне Сортировать наблюдения выберем перемен- ные для сортировки (в нашем случае - религия, преобладающая в стране, и количество населения) - рис. 2.17. ! Сортировать наблюдения Й> страна £> плоти .$> город А< religion ч£> жизньжен ф жизньмуж •.£> чтение ппипнгтг Сортировать по: :ф> религия (А) ♦Ив г Порядок соргйрсимйШ 7 <7 По возрастанию i По убыванию : I ок | Вс^вм I _ЙЕ—I Спрамвка | Рис. 2.17 ▼ Окно Сортировать наблюдения
Транспонирование наблюдений и переменных [^]Woild35 - SPSS Редактор Данных ЯПКЗ файл Правка gua Данные Преобразовать £на/мз Графики Сервис ДкмО 2 <и|*1ь|&| в|Щ| Щ| . релгия Л страна | населен | плоти | город религия religion жизньжен жизньмуж I чтение | при-± 1 Бахрейн 600! 828.0! 83 1 Muslim 74 71 i 77: 2 Гамбия 959? 86.0! 23 1 Muslim 52 48! 27: 3 Кувейт 1800! 97.0! 96 1 Muslim 78 73 73! J ' 4 Оман 1900; 7.8! 11 1 Muslim 70 66! 5 ОАЭ 2800! 32.0! 81 1 Muslim 74 70- 68! 6 Ливан 3620! 343.0! 84 1 Muslim 71 67; 80 7 Иордания 3961! 42.0! 68 1 Muslim 74 70 80! 8 Босния 4600; 87,0! 36 1 Muslim 78 72: 86! 9 Ливия 5500! 2,8! 82 1 Muslim 65 62! 64! 10 Сомали 6667; 10,0! 24 1 Muslim 55 54! 24: 11 Азербайджан 7400; 86.0! 54 1 Muslim 75 67; 98 12 Сенегал 8700: 43,0! 40 1 Muslim 58 55: 38; 13 Сирия 14900- 74,0! 50 1 Muslim 68 65; 64! 14 Сауд.Аравия 18000 7,7! 77 1 Muslim 70 66; 62: 15 Малайзия 19500! 58,0! 43 1 Muslim 72 66: 78! 16 Ирак 19900 i 44,0; 72 1 Muslim 68 65: 60 17 Афганистан 20500: 25,0! 18 1 Muslim 44 45; 29 18 Узбекистан 22600: 50,0! 41 1 Muslim 72 65; 97 19 Марокко 28600; 63,0! 46 1 Muslim 70 66! 50: 20 ЮАР 43900! 35,0 49 1 68 621 76! 21 Эфиопия 55200I 47,0! 12 1 Muslim 54- 51 i 24: 22 Египет 60000! 57,0 44 1 Muslim 63: 60: 48! -I Л Переменные / Швдд I (SPSS ««««! кчмИ» -с -: . Рис. 2.18 т Результаты сортировки Когда для сортировки выбрано несколько переменных, наблюдения сорти- руются по значениям каждой переменной внутри категорий предыдущей пере- менной заданного списка, то есть переменные будут отсортированы сначала по значениям переменной Религия, а затем, внутри каждой полученной катего- рии, по значениям переменной Населен. Щелкнув по кнопке ОК в окне Сор- тировать наблюдения, мы можем посмотреть результат сортировки по этим двум переменным в исходном файле World95 (рис. 2.18). Если среди переменных, по которым выстраивается файл, есть текстовые, то при сортировке их значений учитывается регистр: прописные буквы предше- ствуют строчным. Например, значение Город предшествует значению город. 2.11. Транспонирование наблюдений и переменных В результате транспонирования создается новый файл данных, в котором стро- ки и столбцы исходного файла транспонируются таким образом, что строки (наблюдения) становятся столбцами (переменными), и наоборот. При этом создаются имена новых переменных, и выводится их список. Программа SPSS автоматически создает новую текстовую переменную Case_ID, в которую записываются имена исходных переменных. Если в рабочем файле
V Глава 2 т Особенности анализа данных в SPSS имеется идентифицирующая переменная с уникальными значениями, ее мож- но использовать в качестве источника имен переменных в создаваемом файле. Если эта переменная числовая, имена новых переменных будут начинаться с буквы V, за которой последуют цифры, являющиеся значениями идентифи- цирующей переменной. Чтобы транспонировать файл, следует выбрать в меню редактора данных (опять же выберем в качестве примера файл World95) команды Данные > Транспонировать. Дальше надо указать одну или несколько переменных для транспонирования. В качестве идентифицирующей (именной) переменной определим Страна, в качестве обычной транспонируемой переменной - На- селение (рис. 2.19). '> Транспонировать #> плоти '£> город религия religion #> жизньжен жизньмуж га Г]еременндя(ые): ок | □ : Фйв Вставка | Cgpoc | Отмена I .<$> чтение Имеифощая переменная: Справка | *> ппипппт :| ..Л..1; J Й! страна Рис. 2.19т Выбор переменных для транспонирования га Б ез имени -SPSS Редактор Данных ВЮ ЕЗ £айл Правка Ёод Данные Преобразовать Анализ Графики Сервис Дкно 2 а|н|а| i%| -т|о.| ,| Hal м! *Fl^l г~!|-т-|г;| ЕЛЕН ;1. са$е_Ы «НАС casejbl | австрали австрия | азербайд | англия | аргентин | армения | афганист | бангладе | Барбадос | Л 1 НАСЕЛЕН 17800,00: 8000,00: 7400,00: 58400,00; 33900,00: 3700.00 20500,00: 125000,0: 256,00 р з - - • - - - ♦ - 4 5 6 ! i ' I ; i ' Hi 12 53 U !-< b 58 19 : i : : i * | > |\ Данные Переменные / : «| j ► 1 1SPSS Процессор готов ' ! га Рис. 2.20 т Результат-: транспонирования
Агрегация данных Переменные, которые не затрагиваются транспонированием, будут просто исключены иЗ файла. Результат транспонирования показан на рис. 2.20. Мы видим, что в файле World95 остались две переменные, подвергшиеся транспо- нированию. Одна из них - Страна - получила новое имя Case_lbl. Эта пере- менная, так же как и Население, становятся строками, а значения - столбцами (рис. 2.20). 2.12. Агрегация данных Агрегация данных позволяет объединять группы наблюдений в обобщенные наблюдения и создавать новый файл данных. Наблюдения агрегируются на основе значений одной или нескольких агрегирующих переменных: например, можно агрегировать данные по странам, в результате чего получится новый файл, в котором единицами анализа будут государства. Наблюдения группируются на основе значений группирующих переменных. Каждая уникальная комбинация значений группирующих переменных соответ- ствует одному наблюдению в агрегированном файле. Все группирующие пере- менные, которые могут быть как числовыми, так и текстовыми, сохраняются в новом файле с теми же именами и свойствами. Переменные, к которым применяются агрегирующие функции для создания новых переменных, являются агрегируемыми переменными. По умолчанию имена новых агрегированных переменных создаются с использованием пер- вых символов имени исходных, затем следует символ подчеркивания и двузнач- ный порядковый номер. За именем агрегированной переменной может стоять метка переменной в кавычках, имя агрегирующей функции и имя исходной переменной в скобках. Агрегируемые переменные должны быть числовыми. Допускается задание имен агрегируемых переменных, добавление метки переменных и изменение агрегирующих функций, используемых для расчета агрегированных переменных. Можно также создать переменную, значениями которой будут количества наблюдений, попавших в каждую групп}’ при агреги- ровании. Проведем агрегацию данных в файле GSS93Subset (рис. 2.21), где при- ведены данные массового обследования населения некоторого региона по при- мерно 70 различным характеристикам. Выполним последовательность команд Данные > Агрегировать данные. В окне Агрегировать данные (рис. 2.22) зададим параметры агрегации - исследу- ем музыкальные вкусы респондентов в зависимости от их астрологического знака. В качестве группирующей переменной укажем знак зодиака, а в качестве аг- регируемых переменных - различные виды музыки (классическую, джаз, кант- ри, блюз и др.). Здесь же зададим и имя файла, в котором будет сохранен но- вый агрегированный файл (в нашем случае Aggr), для этого надо щелкнуть по кнопке Файл. В качестве итоговой или агрегирующей функции для выбранных агрегируемых переменных определим число наблюдений (рис. 2.23). Нажав кнопку Функция, перейдем в окно Агрегировать данные: Агрегиру- ющая функция, где в качестве такой функции зададим Число наблюдений
V Глава 2 ▼ Особенности анализа данных в SPSS GSS93 subset - SPSS Редактор Данных_____________________________________________________ ВЕЗЕЗ £айя Правка Виа, Дажь« t Преобразовать Анализ ГраФИш Сервис Qkho 2 семдоход | коллстеп | еозргруп | либерал | регионД | женат | классмкЗ | джаэЗ | репЗ | блнюЗ | -±| 1 3,00! 0’ 3,00 ! 4.00; 1.00: 2.001 1,00! 1,00! 3.00 1 ,00 : 2 3,00 1 ! 3,00 i 1,00; 1 ,00 i 2,00; 1,00: 1 too; 3.00! 1,00; 3 3,00; 1; 3.001 5.00; 1,00! 2,00: 1.001 2,00; 3,00| 2,00; 4 4 00 i 0; з.оо; з.оо i i.oo; 2.00: 1.00; 1 00 3,00. 2,00 .5 4,00 i 1; 4.00; 2,00: 1.00! 2,00; 1,001 1,00 - 1,001 6 1,001 o; 4,00; 1,00 i 1.00! 1,00; 1,00! 2,00; 1,00; 7 3.00 г Di 4,00) 1,00! 1 ,00 ! 1.00! 2.00 i 1 00' 3,00: 1,00: В 1 .оо; Di 4.00i 3,00; 1,00: 1,00: 1,00! 1,00! 3,001 1 ,oo;; 3 4,00 i 1 ! 2.00; 4.00: 1,00- 2,001 1,00! 2,00; 2.00 i 1,001 10 1.00 i 1i 4,00 i 3 00 i 1.00 2,00! 1.00! 2,00 2,00! 1.00: 11 2,00 1; 1,00! 1.00; 1.00; 2,00: 2,001 2,00 i 2,00; 2.00: 12 3.00- 0i 1,оо; 1,001 1,00; 2.00: 2,00! 1 DO 1 1.00: 1 .00: 13 1,00 0i 4.oo; 1,00; 1 ,oo; 1,00! 1.001 3.00; 3,00 i 3.00! 14 1,00 i o; 4,001 3.001 1,001 2,001 3,00: 2,00 i 3,00 i 3,00 15 1,00; Qi 2,оо; 5.00; 1,00; 2,001 3,oo; 1,00; 2,00 i 2,00 16 1.00; Di 2,00; 2,00; 1,00 i 2,00; 3,00; -1 ,00 : 1.00; 1 СЮ! 17 1.00 i Oi 2.00; 3,001 1,00! 2,00: 3,00; 2.00! 1.00! 3.00; 1В 4.00I 0i 4,oo; 3.001 i.oo; 1.00: 1 3,00; 3.00! 19 4,001 1; 4,00; 2.00 i 1.00; 1,00! 1.001 3,00! 3.00: 3.00; 20 4.00; 1; 2.00; 3,001 1,001 1,00! 2,00 i 1.00! 3.00; 1.00’ 21 4.00i 0: 2.00! 2,00; 1.00: 1.00; 3,00 i 2,00 i 2,00: 1.001 :: 22 4.00' 1i 3,00; 3,001 1,00! 1,00; 3.00! 3,00: 3,00! 3,00! v| 11дКД?“)ь'яХ nepeuemue J I_±J :$P$S Процессор готов 1 | л: 1 Рис. 2.21 т Файл GSS93Subset ’ Агрег кровать данные И -фиаент с^жэтраб семпол пербрак *£> сесбрат '$> дети .<£> возраст •^> рмесяц •j£> образ [руппфу/ошие переменные: ~ Агрегируемые перемтя^е: попсам_1 = МЕАН(попсамуз) легкму_1 3 МЕАН(легкмуз) кангрм_1 = МЕАМ(кантрмуз) мюзикл_1 = МЕАМ[мюзмк.лы) класму_1 И(класмуз) репмуз_1 = МЕАМ(репмуз) [ --ок~”| асг«-,.»| Отмена | Справка | : Р Jarwarb кол-ва набл. в грвг^;в:Л^»меы1ую: |N_8REAK : <* Создать новыйФайл данных З^л-1 CKPtogam FfesXSPSS'A^.sav Г /3efcjeH^ Рис. 2.22 ▼ Окно Агрегировать данные (рис. 2.24). Имя и метку отдельно указывать не будем. Затем последовательно нажмем кнопки Продолжить и ОК. Результаты агрегирования представлены на рис. 2.25. Если не считать тех, кто не знает своего астрологического знака, наибольшее количество любите- лей классической музыки - среди Львов । на рисунке не показано). Ясно, что придавать этому' тесте сколько-нибудь серьезное значение вряд ли стоит. Скорее его надо рассматривать как пример агрегации данных.
Расщепление файла Рис. 2.23 т Выбор агрегирующей функции Рис. 2.24 v Задание функции в окне Агрегировать данные: Агрегирующая функция №□ |ЙЗ Aggi - SPSS Редактор Данных Файл Правка £ид Данные Преобразовать Анализ Графики £ервис Qkho 2 gs|h lai вв| L-l fel&l **l Ш1 EBlaslFil Ш1: Г1; зади» ;1 ” попсам 1 [ легкму 1 j кантрм_1 [ мюзикл_1 класму_1 репмуз 1 | метэлм_1 [ джазЗ_1 [ 6люзЭ_1 | n_break | — 1 2,56, 2,78: 2,30; 2,60 129 3.97: 4.05: 1.76; 1,62: 130: 2 2.39 2,67i 2,44 i 2,57 93 3,86: 4,12: 1.71; 1,60 99: 3 4 5 6 7 8 9 2,49 2.70: 2.42 2.68 129 : 3.89 : 4.16 1,75: 1.56 134 2.31 2.60 2,40 : 2,51: 134 : 3,93: 4,12 1.76: _ 154: 143_ 2.43 : 2,63 : 2 20 2,47: 139 : 3 93 : 4.12: 1.73: 1.59: 146 2.47: 2.68 2.36: 2,62 J05I 3,89: 3.96 1.80: 1.62; 113^ 2.47: 2,62; 224: 2.5Z ... ... 105^ 3.921 4,21 __ 1.73; 1.64 _ J09: 2,46 2,773 2 44 : 255; _ 108j 394: 4.23: __ 1.66 _ 1.56: Ц21._ 2.47 2,39 : 2.03: 2,60: 112 : 3,95 : 4,02 1,72: 1,55 120 10 11 12 13 2.44 2.66; 2 24i 2.63: _ _ 107 2.42 2,64; 2,34; 2,68: _ 114 2,52 2.71 2.42 2,71; 141 2.00; 3.63 2,67; 2,44; 9 4.00j 4,18 1.70; 1.66 114- 39Q: 4 11' 1,84: 1.69 119 394' 4J9‘ W f57r~ 148* 4381 4.89: 2.111 2jii ; з^з;; ' -J -tf1 < 1 * ft Данные X Переменные / ;SPSS Процессор готов | i I Рис. 2.25 » Результаты агрегирования 2.13. Расщепление файла Эта процедура расщепляет данные файла на отдельные группы в зависимости от значений одной или нескольких группирующих переменных. Если задано
V Глава 2 ▼ Особенности анализа данных в SPSS несколько группирующих переменных, то наблюдения будут компоноваться по значениям каждой переменной внутри групп, образованных значениями пре- дыдущей переменной. В качестве примера рассмотрим переменные «Категория занятости работника» и «Суммарный семейный доход» из уже знакомого нам файла. Если эти переменные выбрать в качестве первой и второй группирую- щей соответственно, то наблюдения будут сгруппированы по значениям внут- ри каждой Категории занятости работника. Одновременно можно задать до восьми группирующих переменных. Каждые восемь символов длинной текстовой переменной (длина которой превышает восемь символов) считаются новой переменной. Другими словами, каждые восемь символов такой переменной эквивалентны одной группирую- щей переменной. Наблюдения предварительно сортируются по значениям группирующих пе- ременных. Порядок, в котором заданы группирующие переменные, должен совпадать с порядком переменных при сортировке, для чего надо выбрать .оп- цию Сортировать по группирующим переменным. Для того чтобы расщепить файл, необходимо выполнить последователь- ность команд Данные > Расщепить файл (например, из файла GSS93Subset - см. рис. 2.21) или щелкнуть по кнопке □! на панели инструментов. В любом случае появится окно Расщепить файл (рис. 2.26), в котором нужно задать образование групп по категории занятости работника (Катраб) - первой пере- менной - и суммарному семейному доходу (Семдох91) - второй переменной. Далее укажем в этом окне сортировку по группирующим переменным и на- 1 Расщепить Файл иаенг £> семпол ф пербрак ф сесбрзг ф дети возраст рмесяц $> зодиак ф образ • £> учстеп #> отстеп Г* Анализировать все наблюдения, гру|пы не создавать <• Соавмить гругы С Организовать вывод по группам Группы образуется по: •^катраб I ►j !£> семдох91 I ок | Вставка | Отмена Справка! (* Сортировать по груггарующим переменны*! С Файл уже отсортирован Состояние: Сравнить группы по :катраб семдох91 Рис. 2.26 ▼ Окно Расщепить файл жмем кнопку ОК. На рис. 2.27 мы можем увидеть наш знакомый файл, где дан- ные отсортированы по второй переменной внутри каждой из групп, образован- ных по значениям первой переменной.
Отбор наблюдений [T1GSS93 subset • SPSS Редактор Данных BE 1х £айл Правка £ид Данные Преобразовать Анализ Графики Сервис Qkmo 2 t£|Q|al -I -I 1 M&I м| *т1г Ш р: образ П5 катраб | семдох91 | семпол | пербрак | сесбрат | дети 7 возраст | рмесяц | зодиак образ 1 1 1 5 0; 4 7 38 3- 1 15 2 1 1 : 5: о; 1 0: 22 : 7 4 12 3 1 2 5 0: 13 0: 25: 1 ; 1 1 12 4 1: 2' 3? 211 5 3i 57 11 р я 5 1 3: 1 : 20; 9. 0: 24 7 4 12 6 1; 3; ’5; 7 3 3 24: 2 1 1 11 7 1, 4: 5: 0 1 0 22. - 12 15 8 1: 4 5‘ 0- 14 0; 21 : 3 12 9 1 4i 5* 0: 8 0: 35 8- 5 1о 10 1. 5^ 5; 0: 2: 0; 28 1Г 9 19 11 1 : 6; з; 16^ 1 : 1 28: 1и 7 12' 12 1' 61 5 0: 1; 0^ 23 7 4 16 13 1 7 2: 18: 5: 1 ; 58 1 : 13 13 14 1 7: 1 : 19; 4 21 42 11: 9 11 15 1 7. 2: 23: 9: 5: 51 8 5 1 2 1S 1 8: 5- 0; 1 0 36: 1и: 7 12 17 1; 8: 5\ 0^ 5: 7 34. 3: >2 16 18 1 8: 19 8 ~) 27 11: я 13 19 1 : 8 3, 20 6, 5 41 12, у 1£ 20 1: 8; 5: 0; 2 0 32 6 4 1b 21 1, 7 я 0: 3: 1: 29: з. 12 ’2 22 1 : 9^ з: 24: 4 2 : 63 7 4 12 * 1 > |\ Данные А Перемен ме / ILll J > | (SPSS Процессор готов i Рис. 2.27 ▼ Результаты сортировки переменных 2.14. Отбор наблюдений Настоящая процедура позволяет выбрать подмножества наблюдений по раз- личным критериям: > по значениям и диапазонам значений переменных; > по диапазонам дат и времени; ► по номерам наблюдений (строк); ► по арифметическим выражениям; > по логическим выражениям; > по функциям. При этом можно отфильтровать или удалить наблюдения, которые не удов- летворяют критерию отбора, - они остаются в файле данных, но не участвуют в анализе. В результате фильтрации создается переменная Filter__S, указыва- ющая состояние фильтра для каждого наблюдения (единица - отобрано, нуль - не отобрано). Удаленные из файла записи не могут быть восстановлены.
Глава 2 ▼ Особенности анализа данных в SPSS Для отбора наблюдений требуется выполнить последовательность команд Данные > Отбор наблюдений. В результате открывается окно Отбор наблю- дений, в котором можно задавать различные варианты отбора наблюдений (рис. 2.28). : Отбор наблюдений Е3| ф катраб 1*>семдох91 £>семгюл •ф лербрак i£> сесбрат ^>дети х£> возраст -^> рмесяц зодиак $ образ #> уметал отстеп <5> мает ел ч£>ПОЛ V; Qt^— -...................... [<• Все наблюдения >< £сли выгюлнено условие ; J. Ес"ч„. | :: f Случайная пимьйоркв •••.г > f Временной диапазон или диапазон наблюдений i Г* ^спользбеагь Фильтрующую переменно - Не отобранные наблюдения ------------------- ‘ <? -ДМ-Г. -н. С Ид. , Т л Текущее состояние: Не отбирать маблоаения - | ОК | Встдека | Cgpoc | Отмена | Справка | Рис. 2.28 ▼ Окно Отбор наблюдений Дальше надо указать один из способов и критерий отбора наблюдений. Отбор наблюдений по условию. В окне Отобрать наблюдения: Условие (рис. 2.29) задается требуемое условие. Если оно выполняется, то запись отби- рается, в противном случае - исключается из анализа. При задании условия можно использовать имена переменных, константы, арифметические операто- ры, числовые и другие функции, логические переменные и операторы сравне- ния. Отфильтрованные значения помечаются непосредственно в файле пере- черкнутыми номерами записей. Отбор наблюдений: Случайная выборка. В этом окне (рис. 2.30) задается приблизительный процент отбираемых наблюдений или их точное число для Отобрать наблюдения Условие катраб=1 & возраст >» 25 катраб ( "£> семдохЭ! #> семлол it> пербрак фсесбрат £>дети фвозраст <£> рмесяц ф зодиак образ > ч£>учстел ,Jф**иии -И б| А£5[числвыр) |м| в I ~я| 11 з|' АЫУ{критерий,знач.знач...] —*•------- —ARSiNfMMcnBbipl | /1 & I t j 0 I - ji ARTAN(MMCnebipj i—I □MERNOIAUlq.p) 1 Продолжить | Отмена ] Справка Рис. 2.29 ▼ Окно Отобрать наблюдения: Условие
Мобильные таблицы -Ч Отобрать наблюдения: Случайная подвыборка ф . 'ЁовМйЬ ^Ж -(м^жле^Ж- 'ОВ Продолжить I ^Отм^аВ: I:ЖСлрЙка; Рис. 2.31 т Окно Отобрать наблюдения: Диапазон Рис. 2.30 ▼ Окно Отобрать наблюдения: Случайная выборка последующей случайной выборки. При указании примерного числа отбираемых наблюдений генерируется случайная выборка, размер которой определяется примерно задаваемым процентом наблюдений. Чем больше наблюдений в фай- ле данных, тем ближе процент отобранных записей к заданному проценту. При выборе параметра Ровно надо задать точное число наблюдений в вы- борке, а также число наблюдений, из которых она образуется, не превышаю- щее количества записей в файле данных. Отбор наблюдений: Диапазон. В этом окне (рис. 2.31) можно отобрать на- блюдения в определенном диапазоне номеров записей или времени (если в фай- ле есть такие записи). 2.15. Мобильные таблицы Многие выходные результаты в программе-просмотрщике Viewer SPSS пред- ставлены в виде таблиц, которые допустимо изменять в интерактивном режи- ме. В рамках этих изменений можно управлять представлением строк, столб- цов и слоев таблицы. В английской версии SPSS данные таблицы названы pivot table, что в русском переводе примерно соответствует понятию мобильная таб- лица. Управление мобильной таблицей включает в себя следующие возможности: > транспонирование строк и столбцов; > перемещение строк и столбцов; > создание многомерных слоев; > группировка и разгруппировка строк и столбцов; > возможность скрыть или показать ячейки; > возможность поворачивать метки строк и столбцов; > просмотр определений терминов. Откроем знакомый нам файл GSS93Subset. Поскольку нас интересуют чисто формальные моменты, связанные с действиями над формальными таблицами,
Глава 2 ▼ Особенности анализа данных в SPSS выведем любую выходную справку, например таблицу сопряженности, показан- ную на рис. 2.32. '• Рис. 2.32 ▼ Таблица сопряженности Щелкнем по таблице дважды, чтобы запустить редактор мобильной табли- цы (рис. 2.33). Можно одновременно редактировать две или больше таблиц. Для этого надо щелкнуть правой кнопкой мыши по заштрихованной части окна (рис. 2.33) и выбрать в контекстном меню Объект SPSS мобильная таблица > Открыть. Затем надо повторить данное действие для всех таблиц, которые мы хотим кор- ректировать, тогда каждая из них будет готова к редактированию в своем окне. Можно перемещать элементы мобильной таблицы при помощи значков. Для этого в окне редактора с активизированной мобильной таблицей выполним ко- манды Мобильная таблица > Поля вращения. В открывшемся окне Поля вращения (рис. 2.34) появляются значки столбца и строки, которые можно перемещать из одного поля в другое и менять местами. В результате этих дей- ствий произойдет перегруппировка данных в таблице. Например, если мы пе- ретащим значки из поля столбца в поле строки (рис. 2.35), то в таблице основ- ным элементом станут строки (рис. 2.36). Поменяв значки местами, мы получим эффект транспонирования таблицы. То же самое произойдет и в том случае, если, активизировав таблицу, мы вы- полним последовательность команд Мобильная таблица > Транспонировать строки и столбцы.
Мобильные таблицы £1 Вывод? - SPSS Viewer Файл Правка Вид Вставка Формат Анализ Графики Сервис Qkho 2 a?|iH|a|a| г;| | ицм&| <а>| j?j jj Встречаемость <$1000 $1000-2999 $3000-3999 $4000-4999 $5000-59 Полная занятость 2 2 2 3 Частичная занятость 6 3 12 3 Кете горня занятости Безработный 3 Временно кв работает 4 16 4 4 :Y SPSS Процессор готов Рис. 2.33 » Редактирование мобильной таблицы Рис. 2.34 ▼ Окно Поля вращения Рис. 2.35 г Перенос значков из поля столбца в поле строки Мобильные таблицы SPSS - таблица! Файл Правка Вив Вставка Мобшъкая таб/мца Формат 2 Сводка обработки наблюдении 1 Категория занятости работника * Суммарный семейный поход N Валидные 4162 Пропутцеккы е 302 Итого 4464 Процент Валидные 93,2% 6,3% /.-г.- 100 0% Рис. 2.36 v Таблица, где строки - основной элемент
V Глава 2 ▼ Особенности анализа данных в SPSS Описываемые ниже процедуры требуют для своего выполнения предвари- тельной активизации соответствующей мобильной таблицы. Чтобы переместить строки или столбцы в мобильной таблице, следует: 1. Щелкнуть по метке той строки или столбца, который требуется перемес- тить. 2. Перетащить метку на новое место. 3. Выбрать в контекстном меню пункт Вставить до или Поменять местами. Для группировки или, наоборот, разгруппировки строк или столбцов требу- ется: 1. Выделить метки тех строк или столбцов, которые надо сгруппировать. При этом можно использовать перетаскивание с помощью мыши и кла- вишу Shift для выбора нескольких последовательно расположенных ме- ток. 2. Выполнить последовательность команд Правка > Сгруппировать, в ре- зультате чего будет вставлена метка группы. 3. Дальше нужно отредактировать текст метки группы, для чего следует дважды щелкнуть на ней. Для разгруппировки строк или столбцов надо удалить метку группы. Здесь выполняются те же действия, что и при группировке, то есть выполняются команды Правка > Снять группировку. В результате автоматически удаляет- ся метка группы. Для того чтобы повернуть метки строк или столбцов, выберите в меню Фор- мат команду Повернуть внутренние метки столбцов (или Повернуть внеш- ние метки строк). Надо заметить, что можно повернуть только метки самых внутренних столбцов и самых внешних строк. 2.16. Создание многомерных слоев Отдельную двумерную таблицу (рис. 2.37) можно представить как набор слоев, при этом видимым будет только верхний слой (рис. 2.38). Откроем окно Поля вращения (рис. 2.39). Каждый значок слоев имеет с боков стрелочки -левую и правую. Мы знаем, что видимой является таблица самого верхнего слоя. Чтобы перейти от одно- го слоя к другому, достаточно щелкнуть мышью по одной из стрелок значка слоя или выполнить последовательность команд Мобильная таблица > Пе- рейти к слою. В появившемся окне Перейти к категории слоя (рис. 2.40) мож- но переходить к другим слоям мобильных таблиц. Это бывает полезно, когда в слоях таблицы задано много элементов или в слое много категорий. Выберем слоевой элемент в списке Видимая категория окна Перейти к кате- гории слоя. Список Категории будет содержать все категории выбранного слоевого элемента.
Создание многомерных слоев iМобильные таблицы SPSS • таблица?______________________________ИИЕЗ '£айл- Щи®0» Виа Вставка Мобильная таблица Формат 2 Таблица сопряженностей Категория занятости работника ~ Суммарный семейный доход Статистики ! £смрвчодиосж» ▼ ] Суммарный семейным доход < $1000 $1000-2999 $3000-3999 $4000-4999 $5000-5999 Категория занятости работника Полная занятость 2 2 2 3 1 Частичная занятость 6 3 12 8 14 Безработный 3 3 Временно не работает 4 16 4 4 12 Пенсионер (ка) 5 20 20 40 40 Учащийся 18 6 6 Домохозяйка (ин) 63 14 56 70 63 Др 24 32 16 Итого 30 78 113 166 . 155 Рис. 2.37 ▼ Двумерная таблица |& Мобильные таблицы SPSS - таблица? Файл Правка 8ии Вставка . Мобильная хасида Формат ? Таблица сопряженностей Категория занятости работника * Суммарный семейный доход Сжатмтчки Встречаемость Категория занятости, работника Категория занятости работника Полная занятость Суммарный семейный доход S$1000 $1000-2999 $3000-3999 $4000-4999 $5000-5999 $6000-6999 $7000-7999 $8000-9999 2 2 2 3 1 2 3 6 Рис. 2.38 т Видимый верхний слой двумерной таблицы Поля вращения? 3 о Хс Слои Столбцы Строка Рис. 2.39 т Окно Поля вращения
Глаза 2 ▼ Особенности анализа данных в SPSS [Перейти к категории слоя Видимая категория для каждого уу измерения в слое: : :< < 4 < < < ? -у< < : ДД Статистики: Встречаемость Ешвшзгащ 13 для Категория занятости работника Полн< Категория занятости работника Части Категория занятости работника Безрг Категория занятости работника В реме Категория занятости работника Домо Категория занятости работника Др. Итого ПриЙеЙИГЬ^ Рис. 2.40 ▼ Окно Перейти к категории слоя Если теперь мы укажем категорию в списке Категории и щелкнем по кноп- ке ОК, то откроется мобильная таблица для данной категории слоя. В том случае, когда таблица, с которой мы работаем, имеет несколько слоев, можно увидеть все слои одновременно. Для этого следует выполнить команды Мо- бильная таблица > Переместить слои в строки или Мобильная таблица > Пе- реместить слои в столбцы. С этой же целью можно использовать значки в окне Поля вращения, с которым мы уже работали.
Описательная статистика Подробное рассмотрение функциональных возможностей SPSS мы начнем с описательной статистики. Это начальный и достаточно статичный раздел, но тем не менее он является основополагающим для последующего использования пакета программ. Как мы и договорились в главе 1, центральным элементом SPSS было и остается окно редактора SPSS (см. рис. 1.15). Продолжим демонстрировать возможности пакета, используя уже известный нам файл с названием Country.sav. Причем структура этого файла будет оставаться неизменной, а содержание при- меров может изменяться в зависимости от темы. 3.1. Частоты Начнем с простейшего - отображения частот. Открыть диалоговое окно Час- тоты можно, находясь в окне просмотрщика, с помощью последовательности команд Анализ > Описательные статистики > Частоты (рис. 3.1). Как уже описывалось в предыдущих разделах, с помощью кнопки ► | в пра- вую область окна нужно перенести переменные, для которых требуется полу- чить все характеристики распределения частот. Чтобы понять простой меха- низм этой опции, достаточно одной переменной, в качестве которой выберем Percent Urban (Процент урбанизации). Окно Частоты наряду с обычными кнопками (ОК, Вставка и др.) содержит и специфические функциональные, в том числе Статистика, Диаграммы, Формат. Их названия говорят сами за себя. Так, кнопка Статистика позволяет выбрать статистические характеристики распределения случайных величин (рис. 3.2). Эти характеристики разбиты на следующие четыре группы:
Глава 3 ▼ Описательная статистика * Частоты 3 а> country «^Population, 1992, in г «£» GDP per capita [gdp] #/Male life expectancy .#> Female life expectam— Births per 1000 popu ti> Deaths per 1000 peo| #> Infartt mortality rate 1 *> Fertility rate per worn *> Region of the world (r Переменная: Ф|... ..... [Percent urban, 1992 [url OK I Вставка Сброс Отмена Помощь |7 Qisplay frequency tables Статистика... Диаграммы... I Формат... Рис. 3.1 ▼ Окно Частоты Частоты: Статистика -Percentile Values -- ---------------- [7 (Квартили! ; Р Cut points for |30 equal groups г Central Tendency Мера Медиана Режим ДЬбавлеийе Изменение Удаление 10 20 25 33 г-Дисперсия^— -------------- • i Р Стид. Отклонен Р Минимум : Р Изменение > Р Диапазон Р Максимум Р Меры Ю.0. СУММА Г“ Values are group г Распространение i Р Асимметрия Р Эксцесс Рис. 3.2 ▼ Окно Частоты: Статистика > Percentile Values (Процентные значения): - квартили - доли функции распределения случайной величины, содер- жащиеся в интервалах 0-25%, 0-50%, 0-75% и 0-100с<: - Cut points for ... equal groups (Разбить точки на ... равных групп) - раз- делить диапазон изменения случайной величины на одинаковые интер- валы (в данном случае указано 30); - процентили - доли функции распределения случайно;: величины, со- держащиеся в интервалах от 0% до 100%, указываемые пользователем в ячейке и затем добавляемые в другую ячейку (должен быть охвачен весь диапазон от 0% до 100% i; > дисперсия: - стандартное отклонение: - вариация; - диапазон изменения;
Частоты - минимум; - максимум; - стандартная ошибка среднего; > Central Tendency (Характеристики положения): - мера; - медиана; - режим (правильнее было бы перевести как «мода»); - сумма; > распространение: - асимметрия (третий центральный момент); - эксцесс (четвертый центральный момент). Все эти характеристики указываются установкой флажков в соответствую- щих ячейках. Разобравшись с заданием статистических характеристик, вы на- жимаете кнопку Далее и возвращаетесь в окно Частоты (см. рис. 3.1). Здесь сле- дует обратить внимание на ячейку Display frequency tables (Отображать таблицу час- тот) , наличие или отсутствие флажка в кото- рой определяет, будет ли выводиться на эк- ран или на печать таблица частот. Но вернемся к рассмотрению специфи- ческих кнопок окна и, нажав одну из них - Диаграммы, - откроем тем самым одно- именное окно (рис. 3.3) В этом окне вы с помощью переключа- теля можете заказать вид диаграммы, отоб- ражающей характер распределения частот. В частности, можно вообще не показывать Рис. 3.3 » Окно Частоты: Диаграммы диаграмм)1 (позиция Нет). Остальные возможные виды диаграмм мы рассмот- рим далее, но здесь кратко отметим, что в первом варианте гистограммы ото- бражаются только те разряды, в которых есть реальные значения (назовем такую гистограмму первичной или базовой). Во втором варианте диаграмма показывается в виде круга, Третий вариант представляет собой стандартизо- ванную гистограмму, где весь диапазон изменения случайной величины (100%) делится на равные интервалы, и числа значений, полученных в ходе наблюде- ния, приписываются к соответствующим интервалам. Задав нужные парамет- ры (при этом надо еще указать вид задания результатов наблюдений в частотах или в процентах, что, правда, существенной разницы не представляет), снова нажимаем кнопку Далее, опять выходим в окно Частоты (см. рис. 3.1) и теперь открываем окно Формат (рис. 3.4). Здесь возможен выбор следующих вариантов настройки: > Order by (Упорядочить ио): - Ascending values (По возрастанию значений); - Descending values ' По сбыванию значений);
Глава 3 т Описательная статистика Частоты: Формат al r-Oijier by------- --- i P Ascending values i C descending values । C Ascending counts Г Descending counts i г Multiple Variables ...... -i I ” j i & Compare variables i I ^8яе_£_ I J Г Organize output by variables j Отмена j P Suppress tables with more Помощь than ЩГ Категории Рис. 3.4 ▼ Окно Частоты: Формат - Ascending counts (По возрастанию частот); - Descending counts (По убыванию частот); > Multiple variables (Множественные переменные): - Compare variables (Все переменные в одной таблице); - Organize output by variables (Организовать вывод переменных). Оп- ция активизируется в том случае, когда каждая переменная выводится в своей отдельной таблице. Когда мы ограничиваем рассмотрение од- ной переменной, это несущественно; > Supress tables with more than ... categories (He выводить таблицы с чис- лом реквизитов более ... ). По умолчанию указано значение 10. Теперь, когда мы закончили настройки (так, как показано на .рис. 3.2-3.4), можно посмотреть, что получилось у нас в результате. В SPSS для представле- ния результирующей информации, как текстовой, так и графической, предна- значена выходная форма в буквальном переводе, хоть и несколько коряво, на- зываемая просмотрщиком и имеющая расширение .spo. Выходные формы, рассматриваемые ниже, как уже говорилось, различаются видом представляе- мой диаграммы. Окно просмотрщика SPSS слишком велико, чтобы целиком отображаться на экране, и его придется показывать по частям. На рис. 3.5 мы увидим первую часть просмотрщика с верхней частью табли- цы частот. Просмотрщик состоит из двух панелей. На левой из них показано содержание в виде сложной иерархической структуры. Щелкая левой кнопкой мыши по ка- кой-либо из позиций (при этом она отмечается стрелочкой), мы инициализируем ее. Интерес представляют позиции Statistics (Статистика), открытой на рис. 3.5, и Bar Chart (Столбцовая диаграмма), которую мы рассмотрим ниже. В правой части окна просмотрщика представлена верхняя часть таблицы Statistics - ста- тистические характеристики, заданные нами ранее: тут и значения квартилей, и процентили, и равные точки, на которые разбит диапазон, и т.д. Следует отме- тить, что некоторые характеристики снабжены примечаниями, которые показа- ны на рис. 3.6, где представлена нижняя часть этой же самой таблицы: > Median (Медиана) - Calculated from grouped data (Рассчитана по груп- повым данным); > Mode (Режим) - Multiple modes exist. The smallest values is shown (Зна- чение режима неоднозначно. Показано наименьшее значение);
Частоты Рис. 3.5 т Окно просмотрщика > Percentiles (Процентили) - Percentiles are calculated from grouped data (Процентили рассчитаны по групповым данным). И наконец, рассмотрим последнюю часть выходной формы - гистограмму, данные которой сначала показываются в виде таблицы (верхняя часть послед- ней показана на рис. 3.7). В этой таблице (напомним, что она составлена для переменной Percent Urban (Процент урбанизации)) присутствуют следующие графы: > Valid (в буквальном переводе «справедливый»)- собственно значения пе- ременной - проценты урбанизации; > Frequency (Частота) - повторяемость процентов; > Percent (Процент) - частоты, выраженные в процентах; > Valid Percent (Правильный процент) - теоретически точное значение процента; ► Cumulative Percent (Накопительный процент) - процент, суммируемый с начала отсчета. Затем эта таблица приводится в графическом виде Bar Chart (Столбцовая диаграмма) - рис. 3.8. Строго говоря, именно это и есть гистограмма. По оси абсцисс приводятся значения накопительного процента, а по оси ординат - частота или процент в зависимости от установки, заданной в окне Частоты: Диаграммы (см. рис. 3.3).
Глава 3 v Описательная статистика Рис. 3.6 ▼ Окно просмотрищика с изображением примечаний к статистическим характеристикам Фвйх: Редакмроэание Ввд Встагм Формат Анализ Графя Упйзяы Ошо Help ~ёйя । д|&|^5ГЙвй^аЕаПП1 PivotTable is visible j| Output (б| Frequencies :•• ©Title Q Notes ' ОЙ Statistics___________ 8эг chart Рис. 3.7тДанные тст'иммы в виде таблицы H: 1029, V7; 332'pt
Частоты Рис. 3.8 ▼ Столбцовая диаграмма Теперь посмотрим, как выглядит диаграмма распределения частот в виде круга. Для этого, оставив без изменения все установки, сделанные в окнах Ча- стоты: Статистика (см. рис. 3.2) и Частоты: Формат (см. рис. 3.4), в окне Частоты: Диаграммы (см. рис. 3.3) установим переключатель в позицию Час- ти круга. В результатом получим диаграмму Pie Chart (Круговая диаграмма), имеющую точно такую же расшифровку, как и предыдущая, только столбцы в ней заменены долями круга (рис. 3.9). Чтобы получить стандартизованную гистограмму, надо в окне Частоты: Диаграммы установить переключатель в позицию Гистограммы. Кроме того, полезно поставить флажок в ячейке С нормальной кривой (рис. 3.10), чтобы вывести на экран эталонную кривую нормального распределения для сравне- ния ее с нашей эмпирической кривой. Обратите внимание, что в этом вариан- те нет возможности выбора задания частот или процентов - однозначно зада- ются частоты. Каких-либо других изменений производить не будем. Тогда, повторяя те же операции, которые мы уже проделывали ранее, получим стан- дартизированную гистограмм}’ (рис. 3.11). Независимо от того, задавали ли мы вывод этих параметров, на гистограмме указаны значения среднеквадратично- го отклонения (Std. Dev) среднего (Mean), количества значений (N). Мы рассматривали числовую переменную, но картина не меняется, если ис- следуемая переменная будет строковой. Однако в этом случае должно выполнять- ся одно условие: строковая переменная должна быть счетной, то есть строковые
V Глава 3 т Описательная статистика Утш^1Г:йр13Й'^Н»1р Рис. 3.9 ▼ Круговая диаграмма [Частоты: Диаграммы Тип Диаграммы I Далее I ; С Нет . ! L*“"—:- г Отмена | ; Г Части круга i | ; _ । Помощь I Гистограммы I I i Р jC нормальной кривой | р С h art Va I и е Рис. 3.10 т Окно Частоты: Диаграммы с активизированной опцией Гистограммы и флажком в ячейке С нормальной кривой значения (например, количество одинаковых значений) должны подсчиты- ваться. При этом сами строковые значения могут записываться как в виде тек- ста, так и кодами. Например, на рис. 3.12 показано представление переменной Region (Регион) порядковыми номерами. Как видно из этого рисунка, для каждого значения переменной могут быть назначены описательные метки (возможно, те же самые порядковые номера),
Частоты Файл Редактирование Вэд Вставке Формат Анализ Графы Утилиты Олю agiai^ai »l «si d в|м&| <а| я| ! | ♦Н +1-.1Д f Output Frequencies ....Title ....R Notes ....Lm Statistics ....Ш Percent urban, 1992 Bar chart fb) Frequencies S Title Notes Statistics Qj Percent urban. 1992 ГУ |SPSS Processor is ready Рис. 3.11 ▼ Стандартизированная гистограмма Метки переменных |........."" -и. I : |l » "EasternAfrica" 2 ~ "Middle Africa” I 3 = "NorthernAfrica" । 4 « "Southern Africa" 'fod'--1'."! 5 = 'WesternAfrica" КЗЕЗ Рис. 3.12 т Представление переменной Region (Регион) порядковыми номерами имеющие длину до 60 символов. Однако метки значения недоступны для длин- ных строковых переменных длиной больше 8 символов. Таким образом, пере- менная Region, хотя номинально и является цифровой, по существу - символь- ная. Дальше все происходит по уже знакомой схеме. В правую область окна Час- тоты (см. рис. 3.1) вводим требуемую переменную, в окне Диаграммы (рис. 3.3) указываем гистограмму с нормальной кривой (хотя можем и любую другую), ос- тальные установки можем не изменять. В результате получим таблицу частот Region of the world (Регион мира) - рис. 3.13 - и ее реализацию в виде гисто- граммы (рис. 3.14).
V Глава 3 ▼ Описательная статистика Ф«йп Редапиротмт. Вид Встаю. формат Атас Гр.фы Утишок Окно Help tfilaiaLil si hl Mid ‘iTil Ж ~~ »й *j-j Шл1я1а1;________________________________ 2 (t| caout jb] Frequencies Title Notes Statistics Region ot the world Barchart Region of the world Frequency Percent Vaud Percent Cumulative Percent valid Eastern Africa 13 10.7 10,7 10.7 Middle Africa 7 5,7 5.7 16.4 Northern Africa 6 4,9 4.9 21.3 Southern Africa 4 3,3 3.3 • 24.6 Western Africa 12 9,8 9.8 34,4 Caribbean 5 4.1 4.1 38,5 Central America 7 5.7 5.7 44.3 South America 11 9,0 9,0 53,3 North America 2 1.6 1.6 54,9 Eastern Asia 5 <1 4.1 59.0 Southeast Asia 3 6.6 56 65.6 Southern Asia 3 6.5 6.6 72.1 Western Asia 11 9.0 9.0 81.1 Eastern Europe 4 3,3 3.3 84,4 Northern Europe 6 4.9 4,9 89,3 Southern Europe 5 4,1 4,1 93.4 Western Europe • 5 4,1 4.1 97.5 Oceania 3 2.5 2,3 100.0 Total 122 100.0 100.0 ____________________________________Lj_______________________ 1 itwas selected (P laddsn/collapsad) ff |ЗРЗЗ Processor is seedy p'2SS .W:3a) pl) Рис. 3.13 т Таблица частот Region of the world (Регион мира) ^laialal »l 51 h JBlblAl al aj -d: ♦H +|-| ffilol *|g]qi| а - £J сном r-' Frequencies Tile (g Notes - Statistics ..LQ Region ot the world •*2^ Bar chart Region of the world Region or me world __________________________________i hl_______________________________________________I IdeerleelectedlPhiddea/coUepeodj [fЕвдЯййст toSSf “ ’ Г 2Г (нГЖ.ЯЛЗ® pt Рис. 3.14 т Гистограмма Region of the world (Регион мира)
Описательные статистические параметры Фы& Редактирование Вид ЗстаЕка Фермат Анализ Графы Утилиты Окно Help Рис. 3.15» Гистограмма Region of the world (Регион мира) с цифровыми эквивалентами символьных значений Немного иначе выглядит стандартизованная гистограмма. Так как значения случайной величины в каждом интервале усредняются, то они должны быть представлены цифрами, пусть даже последние и не имеют реального смысла. На рис. 3.15 показана такая стандартизованная гистограмма. Ясно, что по сво- ей сути она принципиально не отличается от той, что показана на рис. 3.14, но горизонтальная ось в этом случае промаркирована цифровыми эквивалентами символьных значений. 3.2. Описательные статистические параметры Как мы выяснили ранее, раздел Частоты включает, кроме собственно частот (таблиц и гистограмм), еще и ряд других статистических параметров - мера, медиана, режим, сумма, асимметрия, эксцесс и др. Расчет и представление пользователю этих показателей в SPSS продублировано в другой позиции меню окна просмотрщика SPSS Выполним последовательность команд Анализ ► Описательные статисти- ки > Описательные. Процедура Descriptives (Описательные) отображает
V Глава 3 ▼ Описательная статистика итоговую статистику для нескольких переменных в одной таблице и вычисля- ет стандартизованные значения Z-множества (1): Z=(X-X)/S, (1) где X - текущее значение переменной; X- среднее (Mean); 5- среднеквадратичное отклонение (Std. Deviation). Так же как и раньше, выберем для рассмотрения переменную Percent Urban (Проценты урбанизации). В окне Описательные (рис. 3.16) нажмем кнопку Параметры. Затем в появившемся окне Описательные: Выборы (рис. 3.17) зададим требуемые параметры, скомандуем ОК и в окне просмотрщика увидим результат - таблицу с описательными статистическими данными (рис. 3.18), где: ► N - количество значений; > Statistics (Статистика) - значение параметра; > Std. Error - стандартная ошибка параметра; > Sum - сумма; > Mean - среднее; > Skewness - асимметрия; > Kurtosis-'эксцесс. ’ Описатрльньго а (^Population. 1992. in mx GDP per capita Igdp] Male life expectancy 1 Female life expectanc_ Births per 1000 popul: Deaths per 1000 peop £> Infant mortality rate 1 £ £> Fertility rate per woma Region of the world [rt Переменная: ^Percent urban, 1992 |url _QK I Вставка | Спрос I Отмена | Помощь! F Save standardized values aa variable» j Параметры^ Рис. 3.16т Окно Описательные Состав переменных (описательных статистических данных) задан из чисто практического соображения, чтобы таблица, в которой они выводятся (см. рис. 3.18), уместилась на экране. В общем случае переменных, как правило, больше: кроме перечисленных, присутствуют еще минимальное и максималь- ное значения выборки, дисперсия, диапазон. Переменные могут располагаться в различных вариантах, указываемых в области Display Order (Порядок отображения) окна Описательные: Выборы: > Variable list - в порядке выбора переменных, то есть по умолчанию; > Алфавитный; > Ascending means - по возрастанию; > Descending means - по убыванию.
Описательные статистические параметры Рис. 3.17 тОкно Описательные: Выборы Descripts Statistics N Sum Mean Shi Skewness Kurtosis Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Std. Error Percent urban, 1992 Valid N (listwise) 122 122 5951 48,78 24,62 ,V5 ,219 •1,040 .435 Рис. 3.18 т Фрагмент таблицы с описательными статистическими данными Если вычисленное Z-множество сохраняется, что определяется установкой флажка в ячейке Save standartized values as variables (Сохранить стандартизо- ванные значения как переменные) в окне Описательные (см. рис. 3.16), то его значения добавляются в качестве новых переменных в исходный файл. На рис. 3.19 в качестве такой новой переменной добавлена переменная zurban, рассчитанная для переменной Urban (1). Рис. 3.19 т Файл Country.sav с новой переменной zurban
Глава 3 ▼ Описательная статистика 3.3. Описательная статистика. Исследования Есть много способов описания данных, однако не все соответствуют рассмат- риваемой выборке. Так, например, среднее и среднеквадратичное отклонение полезны для данных, которые подчиняются нормальном}' распределению, но недостаточно информативны, когда распределение слишком несимметрично или обладает какими-либо другими аномалиями. Поэтому обычно использова- ние полного набора параметров применительно к одной выборке смысла не имеет. В данном разделе мы разберемся с исследованиями с использованием описа- тельной статистики на примере нескольких конкретных задач. Первая из них ставится следующим образом: необходимо выяснить, какова средняя ожидаемая продолжительность жизни женщин по различным регио- нам? Сначала в окне просмотрщика SPSS выполним последовательность команд Анализ > Описательные статистики > Открыть, в результате чего появится окно Открыть (рис. 3.20). Заметим, что название последнего более точно пе- реводится как «Исследовать», а не «Открыть». : Открыть Population, 1992, in u i> Percent urban, 1992 | i»' GDP per capita [gdp] Male life expectancy j> Births per 1000 popu £> Deaths per 1000 peo[ Infant mortality rate 1*“ ij> Fertility rate per worn ^Status as Developing ^Radios per 100 peopl #> Phones per 100 peop я*> Hospital beds per 10,^ Подчиненный Список: Список показателей; ф Region of the world [ret Вставка Сброс Отмена | Помощь j Метки регистра: -Отображение---------------—t ‘ <* Оба параметра j j Статистика ; Г* Plojs ; Статистика... I Графики... Параметры... Рис. 3.20 ▼ Окно Открыть с заданными параметрами Далее выберем необходимые переменные и перенесем их в правые области окна Открыть в следующем порядке: > Female life expectansy (Ожидаемая продолжительность жизни женщин) - в Подчиненный список; > Region of the world (Регион мира) - в Список показателей; > Country (Страна) - в Метку регистра.
Описательная статистика. Исследования Выходную информацию можно показать как в виде гистограммы, так и в виде таблицы частот (см. ниже). После этого в окне Открыть надо задать необходи- мые параметры, что выполняется с помощью переключателя и кнопок Статис- тика, Графики и Параметры. Посредством переключателя можно указать, что вы желаете иметь на выходе - таблицы (Ста- тистика), графики (Plots), либо то и другое вместе (Оба параметра). Выберем послед- ний вариант (рис. 3.20). Теперь поработаем с кнопками окна От- крыть. Нажав одну из них - Statistics, - выйдем в окно Explore: Statistics (рис. 3.21) и здесь установим флажок в ячейке Описа- тельные, что обеспечит выдачу графика и пе- речня значений описательных параметров. Остальные позиции этого окна мы рассмот- Explore: Statistics Р Описательные Доверительный Интервал [95 % Г" M-estimators V Контуры Г" Percentiles | Ок | Отмена I Помощь Рис. 3.21 ▼ Окно Explore: Statistics рим позже. Кнопка Графики откроет окно Explore: Plots, где можно выбрать вариант представления гистограмм (рис. 3.22). Для начала настроим окно на минималь- ные возможности, то есть поставим флажок в ячейке Гистограмма. Переклю- чатели группы Boxplots влияют только на порядок группировки данных при выдаче и далее не рассматриваются. Explore: Plots Boxplots - ...—ir Descriptive------------ G factor levels together и Г §tem-and-ieaf Dependents together i Г” Гистограмма Г Нет il I I Ok | Отмена I Помощь Г' Ngrmahty plots with tests Spread vs. Level with LeveneTest 0 Нет Г power estimation : <* Transformed Питан» [NafuTal fog jj Г yntransformed Рис. 3.22 ▼ Окно Explore: Plots И последняя кнопка - Параметры, открывающая окно Explore: Options (см. рис. 3.23). Это окно предназначено для обработки отсутствующих (уте- рянных) значений. Однако для работы практическое значение имеет лишь первая позиция переключателя, принимаемая по умолчанию, -- из общего чис- ла значений исключаются отсутствующие и в сводной таблице просмотрщика (Case Processing Summary) приводятся сводные оценки по каждой переменной
Глава 3 ▼ Описательная статистика Explore: Options Утерянные Величины...... | qk | <• Исключить список реги= i . - „ I Отмена Г Вклинить пары регистр :_____ I <" Beport values | Помощь | Рис. 3.23 ▼ Окно Explore: Options (фактическое количество значений, число отсутствующих значений, процен- ты). Дальнейшая обработка данных ведется, естественно, без учета отсутству- ющих. 3.3.1. График График Region of the world, показанный на рис. 3.24 (введен Д. Тьюки), в оте- чественных приложениях практически не используется. Попутно отметим, что в дальнейшем описании SPSS с такими ситуациями мы будем сталкиваться не- однократно, так что к этому надо привыкнуть. Рис. 3.24 т Г рафик Region of the world Каждая группа стран на графике представлена прямоугольником. По оси абсцисс показаны регионы, к которым относятся страны данной группы, и их число. Для каждой группы черная горизонтальная линия внутри прямоуголь- ника характеризует медиану данной выборки: так, например, медиана для ожи- даемой продолжительности жизни женщин в странах Восточной Африки (Eastern Africa) - 13 стран - составляет 55 лет, в то время как для семи стран Центральной Америки (Central America) эта величина равна 75 годам. Верхняя и нижняя грани прямоугольника, называемые стержнями (hinges), определяют
Описательная статистика. Исследования 25-процентные и 75-процентные процентили. Проще всего считать, что меди- ана делит выборку случайных чисел пополам, а стержни - каждую из получив- шихся в результате частей еще раз пополам. Длина прямоугольника (расстояние между значениями стержней) называется /t-диапазоном (hspread) и корреспонди- руется со среднеквадратичным отклонением, характеризуя разброс значений. Так, для Восточной Азии (Eastern Asia) этот h-диапазон очень мал (порядка 1- 2 лет), а для Юговосточной Азии (Southeast Asia) составляет около 13 лет. Усы (Whiskers) - вертикальные линии, идущие вверх и вниз от каждого прямоуголь- ника, показывают диапазон значений, находящихся в пределах полуторной длины h-диапазона. В ряде случаев приходится иметь дело со значениями, на- ходящимися между полуторными и трехкратными величинами h-диапазона, а также за трехкратными пределами (вспомним известные 3 сигмы). На гра- фике (см. рис. 3.24) такие значения показаны условными значками ♦ - для экстремальных значений, находящихся за трехкратными пределами, и о - для значений, находящихся между полуторными и трехкратными величина- ми h-диапазона. 3.3.2. Перечень описательных параметров Теперь рассмотрим следующий элемент просмотрщика - перечень описательных параметров (Descriptives). На рис. 3.25 показан фрагмент этого перечня, соот- ветствующий Восточной Африке. Ожидаемая продолжительность жизни в 13 странах Восточной Африки в среднем составляет 57 лет. Медиана выборки равна 55 годам - на 2 года меньше среднего. Это соответствует случаю право- сторонней асимметрии. Для того чтобы определить, имеется ли последняя здесь вообще, надо посмотреть на отношение асимметрии (Skewness) к ее стан- дартной ошибке (Std. Error). Гипотеза о симметрии распределения отклоняет- ся, если это отношение по модулю больше двух. В нашем случае отношение равно 1,468/0,618 - следовательно, наблюдается асимметрия. Если значения выборки подчиняются нормальному распределению, то сред- нее для выборки обеспечивает наилучшую оценку среднего для генеральной совокупности. Если мы имеем дело с величинами, находящимися за пределами h-диапазона или с отклонениями от нормального закона, то лучше использо- вать усеченное 5-процентное среднее (и/или устойчивую оценку, которая бу- дет рассмотрена ниже). Усеченное 5-процентное среднее вычисляется следующим образом. Данные для каждой группы ранжируются в возрастающем порядке. Затем отсекаются 5% снизу и сверху ранжированной выборки, и вычисляется обычное среднее для оставшейся части выборки. Например, объем выборки для Восточной Афри- ки-13 значений, 5% составляют 0,65. Округлим эту величину до единицы. Зна- чения наиболее низкой и наиболее высокой ожидаемой продолжительности жизни будут 49 лет и 74 года соответственно. Тогда значение усеченного 5-про- центного среднего вычисляется по формуле: (13 х 57-49- 74) / (13- 2 ) = 56,2.
Глава 3 V Описательная статистика На рис. 3.25. среди прочих показателей, приведено и значение усеченного 5- процентного среднего. Ф»й! Рцидфомш» Вия Вставка Формат Анализ Графи Утишим Окно Неф -(Ь| Explore • g Title g Notes Э jfej Region of ...Title C& Case Dsscr QjjJ Boxpl Descript Ives Region ofthe world Female life Eastern Africa Mean expectancy 1992 95% Confidence Lower Bound Interval for Mean upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 57,00 52,90 Std. Error 1,88 Middle Africa Mean 95% Confidence interval for Mean Lower Bound Upper Bound 61,10 56,50 55,00 46,000 6,78 49 74 9,00 1,468 2,243 *52,14 45,98 58.31 FfgHsi .616 1,191 2,52 5% Trimmed Mean Median Variance Std Deviation : 52,33 56,00 44,476 jH.34«.Wi« pl Рис. 3.25 ▼ Фрагмент перечня описательных параметров Вообще, заметное различие оценок должно заслуживать особого внимания. Так, например, если для стран какого-либо региона среднее значение для вы- борки, 5-процентное усеченное среднее и медиана существенно различаются между собой, то это повод для размышления, ведь все три величины характе- ризуют центр распределения. Возможно, в данном случае имеет смысл приме- нить логарифмическое преобразование данных. 3.3.3. Гистограмма. Критерии согласия Из окна Открыть с помощью кнопки Графики выйдем в окно Explorer: Plots (см. рис. 3.22), где наряду с другими предусмотрена ячейка Гистограмма. Акти- визируем ее путем выставления флажка. Образец диаграммы для региона Восточной Африки (Eastern Africa) показан на рис. 3.26. Как видно из рисунка, в отличие от предыдущего графика, гисто- грамма имеет обычный вид. Ее столбцы показывают количество стран регио- на, в которых ожидаемая продолжительность жизни женщин находится в некото- ром интервале (в данном случае пять лег). При этом мы видим, что в возрастном
Описательная статистика. Исследования интервале (67,5-72,5) нет ни одной страны. С правой стороны гистограммы указаны ее параметры: Std. Deviation (среднеквадратичное отклонение); Mean (среднее), N (суммарное число значений). Обычно после того как та или иная гистограмма получена, первое желание - это определить, по какому закону она распределена. В нашем примере такую проверку можно произвести вместе с получением самой гистограммы непо- средственно в просмотрщике. Для этого в окне Explorer: Plots (см. рис. 3.22) надо установить флажок в ячейке Normality plots with tests (Проверка нор- мальности графика). Тогда в выходной форме (просмотрщике) появится таб- лица результатов проверки (рис. 3.27). Здесь мы впервые в описании функций SPSS сталкиваемся с понятием критериев согласия, с помощью которых прово- дится оценка распределения. Идея применения критериев согласия заключа- ется в следующем. На основании данного статистического материала нам пред- стоит проверить гипотезу А о том, что случайная величина X подчиняется некоторому определенному закону распределения. Этот закон может быть за- дан в той или иной форме: например, в виде функции распределения F(x) или в виде плотности распределения у(х), или же в виде совокупности вероятнос- тей р., где р - вероятность того, что величина Хпопадет в пределы г-го разряда. Именно эта форма имеет место в нашем случае (см. рис. 3.26). Ф«8а Рздмтрика» : Форм» Аимдд Гр»фм Уптиш Ошо . Help ' »| EQI d и|ь| &| <»| д.| ! p UL Notes Region of the world © 9 Case Processing Summary JS Descriptrves Female life expectancy 1992 ' ©Title Ь ffe) Histograms © Title *© Region» eastern africa © Regions middle africa © Region» northern africa ...Region» southern africa ndi Region» western africa © Region» Caribbean © Region» central america © Region» south america © Region» north america ...© Region» eastern asia Region» southeast asia ...© Region» southern asia (ijJ Region» western asia © Region» eastern europe © Region» northern europe © Regions southern europe Region» western europe ..Region» Oceania ЙЙ Boxplot Histograms Histogram ForREGION= Eastern Africa Female lire expectancy 1992 Std. Dev = 6,73 Mean» 57,0 № 13.00 !H:288,W:3® pl (Y S>ss Ргоииот ii tMitp Рис. 3.26 ▼ Диаграмма для региона Восточной Африки
Глава 3 ▼ Описательная статистика Фейи- Ред«к^мяаш<е Вид Вставка ( Формат : -Амйвв • Графы Утипипм Окно . W-?l г1в|ь|Е?| Э14U-I *1*1 *1-1 а|р| ^|MU I I ....... ? ..... ' ...........""...... Tests of Normality Region of the world Kolmogorov-Smirnov* Shapiro-Wilk Statistic df Sig. Statistic df Sig. Female life Eastern Africa expectancy 1992 Middle Africa Northern Africa Southern Africa Western Africa Caribbean • Central America South America North America Eastern Asia SoutheastAsia Southern Asia Western Asia Eastern Europe Northern Europe Southern Europe Western Europe Oceania ,308 .290 .222 .283 ,141 ,274 .249 .214 ,260 .331 ,155 ,185 ,189 .283 ’.195 .136 .237 ,385 13 7 6 4 12 5 7 11 2 5 8 8 11 4 6 5 5 3 ,001 ,077 ,200* ,200* .200* .200* .169 ,078 ,200* .200* .200* ,200’ ,200* .200’ ,847 ,906 ,942 ,937 ,876 ,845 ,931 ,891 ,945 .968 ,882 .837 ,954 ,956 13 7 6 12 5 7 11 5 8 8 11 6 5 5 ,030 ,402 ,631 .458 ,332 ,133 ,445 .380 ,627 ,863 ,140 .143 ,708 ,725 ’. This is a lower bound of the true significance a. Lilliefors Significance Correction . Li..................................................................................... i , лГ PivotTable 1. visible . V iSFSS F’ro ce ssoi is laady l .... ' H:339,W1514 pt. Рис. 3.27 ▼ Окно просмотрщика SPSS с таблицей результатов проверки нормальности графика Так как из этих форм наиболее общей является функция распределения F( х) и из нее можно при необходимости получить любую другую форму, будем строить гипотезу А на том, что случайная величина X имеет функцию распределения F(x). Для того чтобы принять или опровергнуть гипотезу А, рассмотрим неко- торую величину U, характеризующую степень расхождения теоретического и фак- тического распределений. Величина (/может быть выбрана различными способа- ми: например, в качестве' U можно взять сумму квадратов отклонений теоретических вероятностей р. от фактически Наблюдаемых частот (р *) или сумму тех же квадратов с некоторыми коэффициентами (весами), или же мак- симальное отклонение фактической функции распределения F'(x) от теорети- ческой Fix') и т.д. Предположим, что тем или иным способом величина (/выбрана. Очевидно, что она представляет собой некоторую случайную величину. Закон распреде- ления этой случайной величины зависит от закона распределения случайной величины X, над которой производились опыты, и от числа последних п. Если гипотеза А верна, то закон распределения величины U зависит от закона рас- пределения величины /(функцией F(x) и числа п.
Описательная статистика. Исследования V Допустим, что закон распределения нам известен, и в результате данной се- рии опытов обнаружено, что выбрання нами мера расхождения U приняла некоторое значение и. Спрашивается, можно ли объяснить это случайными причинами, или же расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и фактическим распределениями и, следовательно, на непригодность гипотезы А? Для ответа на вопрос предпо- ложим, что гипотеза А верна, и вычислим вероятность того, что за счет слу- чайных причин, связанных с недостаточным размером выборки, мера расхож- дения U окажется не меньше, чем наблюдаемое в опыте значение и, то есть определим вероятность события по формуле U> и. Если эта вероятность весьма мала, то гипотезу А следует отвергнуть, как мало правдоподобную; если же, напротив, вероятность значительна, следует при- знать, что экспериментальные данные не противоречат гипотезе А. Возникает вопрос: как выбирать меру расхождения U? В некоторых случаях закон распределения величины Uобладает весьма простыми свойствами и при достаточно большом «практически не зависит от функции Е(х). Именно таки- ми мерами расхождения и пользуются в математической статистике в качестве критериев согласия. В нашем случае (см. рис. 3.27) используются критерий Колмогорова-Смир- нова и критерий Шапиро-Вильк. Последний критерий применяется при не- больших выборках (< 50). Оба этих критерия проверяют гипотезу А, которая состоит в том, что рас- пределение стран по ожидаемой продолжительности жизни женщин подчиня- ется нормальному закону. Итоговые столбцы таблицы на рис. 3.27 имеют одинаковую структуру: > Statistik - значение величины U; > df - значение ошибки; > Significance - значение вероятности pi U> и). Обычно в качестве пороговой величины, ниже которой значение вероятнос- ти признается статистически незначимым или весьма малым, принимается 0,05. Для Восточной Африки (Eastern Africa) по первому' критерию p(U> и) = 0,001, а по второму - 0,03. Таким образом, для этого региона гипотеза А должна быть отвергнута. Однако для других регионов такая оценка вовсе необязательна. Так, на- пример, для региона Средней Африки (Middle Africa) гипотеза А о нормаль- ности распределения может быть принята (значения вероятности равны 0,077 и 0,402 соответственно). На рис. 3.28 показана соответствующая гис- тограмма.
Глава 3 ▼ Описательная статистика Файл Редмяироэаяиа Вид Веток* Формат Анаиав Графы Упяяды Окно Help tfiHimigjлЛ gfeifei »i *i! I; ♦phi-Tffiioi ?й|э| ...........— Histogram For REGION» Middle Africa Female life expectancy 1992 I z;'::jOKO© FlvCeSSQl IS Icouy Std. Dev= 6,67 Mean = 52,1 N= 7,00 Title Notes Region of the world ЙЙ Title Descriptives Tests of Normality Female lite expectancy 1992 fT»ie Histograms Title Region- eastern afne №дкп*тШааМ» Region» northern afric Region» southern arn Region» western afrit Region» central ameri Region» south amerlc Region» north americr Region- eastern asia Region» southeast as Region- southern ask Region» western asia Region» eastern euro Region» northern eun Region» southern eur Region» western eurt Region» Oceania Doijb!» cKckto в ditChart г Рис. 3.28 » Гистограмма для региона Средней Африки 3.3.4. М-оценки и идентификация экстремальных значений для них Иногда данные генерируются компьютером в соответствии с нормальным рас- пределением. Теоретически в таком благоприятном случае они должны посто- янно иметь одно и то же значение. Но что делать, если вы далеки от уверенно- сти в своих данных? Могут ли внесенные ошибки быть скорректированы? Можно ли с помощью логарифмического преобразования, квадратного корня или обратной трансформации каждого значения вручную сделать распределе- ние более симметричным? Если все эти средства вас не удовлетворяют, рас- смотрим возможность использования М-оценок для центра распределения и процентилей для характеристики разброса данных. Усеченное среднее, представленное в предыдущем разделе, и М-оценки на- зываются устойчивыми оценками потому, что они нечувствительны к отклоне- ниям от нормальности. Вы можете существенно скорректировать среднее для обычной выборки, если измените максимальное или минимальное значение в ней. Например, возьмем выборку из 20 или около того наблюдений из нормально рапределен- ной совокупности данных со средним значением равным нулю и стандартным
Описательная статистика. Исследования отклонением один. Заметим, что наибольшее значение - 2,5. Изменим эту ве- личину до 25 или до 250 и посмотрим, как увеличится среднее. Медиана при этом не изменится, так как она не зависит от того, как велико частное значе- ние. 5-процентное усеченное среднее останется неизменным, если наибольшее (или наименьшее) наблюдение будет изменено. К сожалению, многие потреб- ности продвинутых пользователей основаны на нормальной теории, так что ее рецепты никак не могут быть забыты. При вычислении обычного среднего каждое наблюдение имеет один и тот же вес (будем считать его равным единице), идет ли речь о середине или «хво- стах» распределения. Для 5-процентного усеченного распределения централь- ные 90% наблюдений имеют вес равный единице, а по 5% с каждой стороны («хвосты») - вес равный нулю. Медиану можно рассматривать как 50-процент- ное усеченное среднее. Если размер выборки нечетный, то среднее наблюде- ние имеет вес равный единице, при четном размере выборки единичный вес для каждого из наблюдений имеет их средняя пара. М-оиеночная функция назначает веса наблюдениям, но вместо скачкообразно- го изменения весов от единицы до нуля, когда наблюдение достигает опреде- ленного удаления от центра, изменяет эти веса плавно (или по какому-либо закону) по мере того, как удаление растет. М-оценочная функция - лишь один из многих методов получения устойчи- вых оценок, описанных в статистической литературе. SPSS предоставляет че- тыре таких метода (названных по именам их авторов): Хъюбера, Тъюки, Хемпеля и Эндрюса. В этих способах определяются стандартизованные расстояния, по- казывающие, как далеко каждое наблюдение отстоит от центра распределения. Какая оценочная функция является наилучшей? На этот вопрос нет одно- значного ответа. Устойчивые оценочные функции, описываемые здесь, пред- назначены для симметричных распределений. В большинстве случаев они оце- нивались с использованием выборок, данные в которых генерировались на компьютере из гладких непрерывных распределений, имеющих «хвосты» бо- лее длинные, чем в нормальном распределении. Статистические аналоги этих функций из реальных распределений часто являются асимметричными, шеро- ховатыми и, как правило, имеют несколько уникальных выбросов (относитель- но сгенерированных данных). При использовании асимметричных распреде- лений методы Хьюбера и усеченного среднего имеют тенденцию давать оценки более близкие к математическому ожиданию, а методы Хемпеля, Тьюки, Энд- рюса - ближе к медиане. Мы посмотрим несколько оценок и сравним их с мате- матическим ожиданием и медианой выборки. Итак, резюмируем. М-оценки - устойчивые меры центральной тенденции, которые могут использоваться как альтернативы к среднему и медиане. Они называются устойчивыми, потому что не чувствительны к отклонениям от нормальности. Когда данные описываются асимметричным распределением с длинными «хвостами» или когда они имеют критические значения (выбро- сы), М-оценки обеспечивают лучшие оценки центральной тенденции, чем сред- нее или медиана.
V Глава 3 V Описательная статистика Теперь рассмотрим эти оценки на примере все того же файла Country.sav. Выйдем в окно Explorer: Statistics (см. рис. 3.21), снимем флажок в ячейке Описательные и установим его в ячейке M-estimators (М-оценочная функция). Все остальные установки оставим без изменения. Действуя так же, как в преды- дущем разделе «Гистограмма. Критерии согласия», получим таблицу с данны- ми в том виде, как она изображена на рис. 3.29. Напомним, что мы рассматри- ваем попрежнему показатель продолжительности жизни у женщин. Обратим внимание, например, на позицию Восточная Африка (Eastern Africa). Как мы выяснили в предыдущем разделе, распределение для этого региона является асимметричным, и его нельзя признать нормальным. la SPSS Pivot Table tablel Файл (Редашфовв^е « 'Вид Вставка Стержень: Формат Help M-Estirnators® Huber's Tukey's Hampel's Andrews' Region oftheworid M-Estimatora Biweighr M-Eslimator’ Wave0 Female life Eastern Africa 55,41 54,59 55,29 54,60 expectancy 1992 Middle Africa 52,79 53,15 52,78 53,15 Northern Africa 67,03 67,33 66,88 67,32 Southern Africa 64,10 64,04 64,20 64,05 Western Africa 51,57 51,58 51,67 51,58 Caribbean 73,00 74.53 73,94 74,53 Central America 72,85 72.79 72,43 72,79 South America 72,47 72,52 72,20 72,52 North America 80,00 80,00 80,00 80,00 Eastern Asia 72,38 72,34 71,77 72,33 Southeast Asia 65,37 65.38 64.98 65,37 Southern Asia 55,29 54,94 55,60 54,95 Western Asia 70,58 71.15 71,02 71,15 Eastern Europe 75,45 75,48 75,40 75,48 Northern Europe 79,50 79,50 79,50 79,50 Southern Europe 80,00 80,00 80,00 80,00 Western Europe 81,40 81,40 81,40 81.40 Oceania a. The weighting constant is 1,339. b. The weighting constant is 4,685. c. The weighting constants are 1,700, 3,400, and 8,500 । d. The weighting constant is 1,340’pi. e. Some М-Estimators cannot be computed because of the highly centralized distribution Рис. 3.29 ▼ Таблица с данными для рассмотрения М-оценок Среднее (математическое ожидание) для этого региона составляет 57 лет, 5-процентное усеченное среднее - 56,5 лет, медиана - 55 лет. Теперь посмотрим М-оценки, полученные разными методами. На рис. 3.29 видно, что все они груп- пируются вокруг медианы - 55,41; 54.59; 55,29; 54,6. Но при этом М-оценка по Хьюберу все же ближе, чем остальные, к математическому ожиданию - 55,41. В примечаниях на рис. 3.29 приводятся значения весовых коэффициентов, с помощью которых назначаются веса. А вот последнее примечание (е) заслу- живает того, чтобы остановиться на нем несколько подробнее. Суть его в том, что в некоторых случаях М-оценки не могут быть вычислены из-за высокоцен- трализованного распределения вокруг медианы. Можно предположить, что
Описательная статистика. Исследования это касается тех случаев, когда оценки, полученные разными методами, совпа- дают, кач, например, для North America (Северной Америки), Southern Europe (Южной Европы) и некоторых других регионов. Очевидно, что подобные яв- ления наблюдаются тогда, когда распределения абсолютно симметричны или асимметрия незначительна, из-за чего неэффективны и М-оценки. При этом сами по себе симметричные распределения могут быть довольно интересны- ми, что показано на рис. 3.30. Female life expectancy 1992 Рис.3.30 ▼ Образец симметричных распределений Содержательный смысл процентилей мы уже обсуждали ранее в разделе «Перечень описательных параметров», поэтому обзор этой позиции окна Explorer: Statistics (см. рис. 3.21) пропустим. 3.3.5. Экстремальные значения Если теперь в окне Explorer: Statistics (см. рис. 3.21) мы установим флажок в ячейке Контуры, то программа выдаст для каждой группы (в нашем случае - для каждого региона) по пять наибольших и наименьших значений вместе с их метками (в данном примере - с номерами в файле данных). Если переменная, формирующая метки, не определена, программа располагает значения в поряд- ке их следования в файле данных. Отобранные значения не обязательно явля- ются экстремальными - они просто наибольшие или наименьшие в своей груп- пе. Чтобы идентифицировать значение как экстремальное, надо использовать диаграмму, приведенную на рис. 3.24. Фрагмент раздела просмотрщика, касаю- щийся экстремальных значений, показан на рис. 3.31. Как мы видим, в данной таблице в некоторых случаях (например, для Танзании и Бурунди) числовые значения не указаны. Другими словами, значение, которое должно было бы стать пятым, либо повторяется в нескольких позициях, и тогда крайних значений бу- дет больше, чем пять, либо оно относится одновременно как к наибольшим, так
Глава 3 г Описательная статистика Рис. 3.31 ▼ Окно просмотрщика SPSS с фрагментом, касающимся экстремальных значений и к наименьшим позициям, и тогда неясно, с какой стороны оно должно быть выведено. Кроме того, могут возникнуть ситуации, как, например, для Средней Африки (Middle Africa), когда выведено меньше пяти крайних значений. Это происходит потому, что в таких случаях количество значений в выборке мень- ше, чем число требуемых к выводу крайних величин, и тогда опять же одна и та же точка должна была бы выводиться с обоих сторон одновременно. 3.3.6. Таблицы сопряженности Этот раздел посвящен методам, пригодным для анализа данных весьма специ- фического вида. Такие данные представляют собой числа, обозначающие ко- личество людей, населенных пунктов, вещей, вообще каких-то сущностей, об- ладающих различными сочетаниями свойств. Они появляются сами собой, когда обрабатываются результаты исследований, анализируются опросные ан- кеты, хорошо известные социологам. Формирование таблиц Рассмотрим для примера следующую конкретную ситуацию. Проведен опрос населения некоего региона (400 человек) на тему предпочтения между двумя
Описательная статистика. Исследования спортивными увлечениями - теннис и волейбол. Опрашивались мужчины и женщины в возрасте до и после 45 лет. Данные опроса сведены в файл Опрос.sav, фрагмент которого показан на рис. 3.32. 1-1о|х| Файл Редактирование Вид Данные Трансформирование Анелиз Графы Утилиты Ctaro fteip ЕВ Опрос.sav - SPSS Data Editor_ _______________________________________ с?|и|а|ajl £21 M&J «1 Ш113Ш1 - - — — фамилия поп | возраст | выбор | < | *Ht £ 37 Билибин муж ; больше45 Волейбол •. —t 38 Бобрищев муж ' 6олыие45 Волейбол 39 Богданов муж ! Ьольше4э:Волейбол . 40 Богницкая жен i больше45 ^Волейбол ; 41 Боголепов муж I 6олыие45: Волейбол ; • 42 Боголюбова жен , меньше45 1 емкие । 43 Богомолова жен | меныие45 -Теннис 44 Болдырев муж 5 больше45 Ъолеибол • 45 Бондарев муж । больше45 ‘Волейбол ; [ , ЛС 33\0М । [SPSS Processor is ready | Рис. 3.32 т Окно редактора SPSS с исходными данными опроса Опрашиваемые лица классифицируются по трем признакам (критериям): по полу, по возрасту и по тому, какому виду спорта они отдают предпочтение (вы- бору). Поскольку все три классификации используются одновременно, мы го- ворим, что имеет место перекрестная классификация данных. Чтобы получить сводную таблицу результатов этого обследования, воспользуемся последова- тельностью команд Анализ > Описательные статистики > Перекрестные таблицы и выйдем в диалоговое окно Перекрестные таблицы, показанное на рис. 3.33. Зададим в этом окне следующие установки (рис. 3.34): > в область Строки введем выборку Возраст; > в область Колонки - Выбор; > в область Слой 1 из 1 - Пол. Параметры статистики пока задавать не будем, сделаем это чуть позже. На- жмем кнопку ОК и получим вполне компактную итоговую таблицу (рис. 3.35). В этой таблице учтены все три параметра - пол, возраст и выбор. Поэтому, по существу, она является трехмерной. Но мы можем рассматривать две ее ча- сти, для женщин и для мужчин, как две подтаблицы, каждая из которых учиты- вает два критерия -- возраст и выбор. Присвоим данной таблице название таб- лица с двумя входами, или таблица 2x2. С другой стороны, поскольку подтаблица легко располагается на плоскости, можно говорить о ней, как о двумерном масси- ве, или двумерной таблице. В основу разбиения (см. рис. 3.35) положен признак пола. Но с равным успехом мы могли бы разделить таблицы по возрасту. Для этого надо в качестве строк указать пол, в качестве столбцов - выбор (или на- оборот), а в качестве слоя 1 из 1 определить возраст (рис. 3.36). Какая таблица
Глава 3 ▼ Описательная статистика ! Перекрестные таб. ______________ __________________ЕЗ Фамилия {фамилия] ЖШХКВЗЗП л[ Возраст (возраст] A< Выбор (выбор] Вставка Сброс Отмена Помощы След. 4 j Пред- | Слой 1 нз 1 Г" Display clustered bar charts Г" Suppress tables Статистика... I Ячейки... Формат... » Перекрестные таб. Фамилия (фамилия] Рис. 3.33 ▼ Окно Перекрестные таблицы След Пред- | Слой 1 из 1 Пол (пол] Г~ Display clustered bar charts Г* Suppress tables , Статистика... Ячейки... I Формат... Рис. 3.34 ▼ Окно Перекрестные таблицы с распределенными по областям выборками получится, можно увидеть на рис. 3.37. Она аналогична предыдущей, но разби- ение в ней осуществляется по возрасту (больше или меньше 45 лет). Как мы видим, в наших таблицах не участвует четвертый признак - фамилия. В принципе, ввести его в таблицу сопряженности очень легко. Для этого,
Опи'атеяьиая статистика. Исследования Га Outputl - SPSS Просмотрщик ИИЕЗ Файл Редактирование Ввд Вставка Формат Анализ Графы Утилиты Окно Help *j.±i ,ti,-.is.iQi.imr 5 stabs Title Notes Возраст Crosstabs Возраст * Выбор * Пол Crosstabulation Count Пол Выбор Total Волейбол Теннис жен Возраст больше45 меньше45 Total 12 13 25 86 95 181 98 108 206 муж Возраст больше45 меньше45 Total 58 74 132 24 38 62 82 112 194 JJ JLd______________________________________-_____________—................. ...I , _ _______________________________ 4I Double click to edit Pivot Table [SPSS Processor isready | /л Рис. 3.35 ▼ Итоговая таблица ; Перекрестные таб. □s А> Фамилия (фамилия] Колонки: А]. Выбор [выбор] Строки*. А< Пол [пол] I ок | Вставка Сброс Отмена Помощь Прел- | Слой 1 из 1 След. | Aj-Возраст [возраст] Г" Display clustered bar charts Г Suppress Sables Статистика... I Ячейки... Формат... Рис. 3.36 ▼ Настройки окна Перекрестные таблицы для последующего разделения таблицы по возрасту
Глава 3 ▼ Описательная статистика Л; Outputs - SPSS Просмотришь: ДНЕЗ Файл Рвдахжройаиие Вад Вставка Формат Анализ Графы Утилиты Окно Help ^|н|Жга>| вд| чМ^1&Г<£1~ V|j Crosstabs Пол * Выбор * Возраст Crosstabulation Count______________________________________________ Возраст Выбор Total Волейбол Теннис больше45 Пол жен муж Total 12 58 70 86 24 110 98 82 180 меньше45 Пол жен муж Total 13 74 87 95 38 133 108 112 220 ______________________!_______________> }^]SI>SS:PrQieSSOr:;iSrtady' • i \ Т : ; ' : Т ~ Рис. 3.37 ▼ Итоговая таблица, разделенная по возврасту X * Перекрестные таб. Пред. [Фамилия [фамилия] Колонки: А< Выбор [выбор] Строки: 1^<Пол [пол] Г" Display clustered j>ar charts Г Suppress Sables Статистика... I Ячейки... Формат... Слой 2 из 2 ОК I Вставка| Сброс | Отнена | Помощь! След. | ; Рис. 3.38 ▼ Область Слой 2 из 2 окна Перекрестные таблицы с признаком Фамилия например, в последнем варианте таблицы (см. рис. 3.36) нажмем кнопку След, (что надо понимать как Следующий) и в ячейку Слой 2 из 2 введем признак Фамилия (рис. 3.38). Признак Возраст, как более общий, остается на своем месте - в первом слое, а что из этого получается, мы можем увидеть на рис. 3.39, где приведен фрагмент полученной таблицы. Как видно, эта таблица является
Описательная статистика. Исследования Outputs - SPSS Просмотрщпк_________________________________________BM P Файл РедахтиротвнивВидВставка Формат Анализ Графы Уткни»! Окно Цйр й] в|а=1 &| о»Ьа| _f_H ♦ |*| -»|-| _;h:| ------ —_____— —________------------------------------------------3 Возраст * Выбор * Фамилия * Пол Crosstabulation Count Пол Фамилия________ жен Владимирская Аврунина Агабабоеа Акодус Алейникова Алексеева Возраст меньше45 Total_______________ Возраст больше45 Total_______________ Возраст больше45 Total Возраст большей Jotal_____________ Возраст больше45 Total_______________ Возраст больше45 fjSPSS Processor is ready Выбор Волейбол Теннис Рис. 3.39 т Итоговая четырехмерная таблица уже четырехмерной, что следует уже хотя бы из ее названия Возраст*Выбор*- Фамилия*Пол Crosstabulation (Перекрестная таблица Возраст*Выбор*Фами- лия*Пол). Но, на наш взгляд, это единственное достоинство таблицы, так как она очень плохо обозрима, что затрудняет непосредственную работу' с ней. Ко- нечно, работать с ней можно, но трудно, как мы увидим в дальнейшем. Теперь, когда мы умеем вполне сознательно формировать таблицы, перей- дем к их исследованию. Проверка иезависикосгк в таблицах сопрлженности 2 2 Вернемся к какой-либо из сформированных таблиц 2x2, например к верхней части таблицы, приведенной на рис. 3.35. Она показывает распределение спортивных интересов для женщин в возрасте до и после 45 лет. При этом мы не будем обращать внимание на то, что у женщин (как, впрочем, и у мужчин) могут быть и другие спортивные интересы, кроме волейбола и тенниса, или эти интересы могут отсутствовать. Первый вопрос, который появляется при взгляде на подтаблицу: Зависят ли эти параметры друг от друга каким-либо образом? Есть ли какая-либо статисти- ческая закономерность в том. что женщины до или после 15 лет отдают пред- почтение волейболу или теннису? Чтобы ответить на этот вопрос, вернемся к диалоговому окну Перекрестные таблицы (см. рис. 3.34), нажмем кнопку Статистика и в открывшемся окне Crosstabs: Statistics (рис. 3.40) поставим флажок в позиции Кси-квадрат. После нажатия кнопки ОК получаем итоговую таблицу в просмотрщике (рис. 3.41). Нулевая гипотеза в этом случае состоит в том, что переменные Возраст и Выбор независимы. Как видно из таблицы на этом рисунке, значение у} (Value) значительно меньше единицы (как,для женщин,
Глава 3 Т Описательная статистика Рис. 3.40 » Окно Crosstabs: Statistics К Outputl - SPSS Просмотрщик_________________________ В EID Файл Редактирование Вид г Вставка Формат ; Утилиты Окно ♦|»| + |-|r|g| *|ф||Ц Chi-Square Tests Пол Value df Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided) жен Pearson Chi-Square Continuity Correctionа Likelihood Ratio Fisher's ExactTest N of Valid Cases ,002b ,000 ,002 206 1 1 1 ,964 1,000 ,964 1.000 1 ,566 муж Pearson Chi-Square Continuity Correctionл Likelihood Ratio Fisher's ExactTest N ofValid Cases ,473c .283 .475 194 1 1 1 .492 .595 .491 .535 .298 a. Computed only for а 2x2 table b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 11,89 с. 0 cells (,0%) have expected count less than 5. The minimum expected count is 26.21 Рис. 3.41 ▼ Итоговая таблица так и для мужчин). Значение вероятности (Asymp. Sig), наоборот, велико - не- измеримо больше критического порога, равного 0,05. Отсюда можно сделать уверенный вывод, что эти переменные независимы. Критерий у2 вполне хорош, если ожидаемые значения в ячейках велики, а также при относительно малых ожидаемых частотах, но не тогда, когда они близки или меньше 0,05. В нашем случае эти условия, безусловно, соблю- даются - о вероятностях уже сказано, а про ожидаемые значения говорится
Описательная статистика. Исследования в примечаниях к таблице: The minimum expected count (Минимальные на- блюдаемые значения) равны для женщин 11,89 и для мужчин - 26,21. При этом в обоих случаях нет ячеек, в которых данные значения были бы мень- ше пяти. Другими словами, вывод о независимости переменных достаточно надежен. Однако в общем случае могут встретиться и более сомнительные ситуации, когда условия указаны не столь явно и уверенно. В этих случаях может быть использован более точный критерий Фишера, основанный на рассмотрении предельных случаев расположения данных и вычислении ве- роятности для каждого из них. Точная вероятность для наблюдаемого рас- положения данных или еще менее вероятного задается суммой всех таких вероятностей. Если последняя имеет тенденцию быть очень малой, то мы приходим к выводу, что вряд ли столь небольшие шансы стоит принимать во внимание, и отвергаем гипотезу о независимости. В SPSS, который представляет результирующие таблицы для общих ситуа- ций, расчет по критерию Фишера также предусмотрен (см. рис. 3.41). Оценки эти достаточно велики, и мы видим, что и здесь, если судить по точному значе- нию (Exact. Sig.) нулевая гипотеза о независимости имеет все основания быть принятой - это, в свою очередь, лишний раз подтверждает вывод, полученный по критерию %2. Причем этот вывод одинаков как для двусторонней (2-sided), так и для односторонней (1-sided) оценки. Отношение правдоподобия (Likelihood Ratio) можно рассматривать как аль- тернативу критерию %2 в случае, когда используется логлинейная модель данных. В большинстве обычных выборок, как, например, в данном случае, критерий х2 и отношение правдоподобия дают примерно один и тот же результат. Кроме наиболее популярного критерия оценки статистик х2, SPSS предостав- ляет пользователю возможность использовать некоторые дополнительные критерии оценки (меры), смысл которых состоит в следующем. Даже если меж- ду переменными А и В нет никакой связи, то теоретически это еще не гаранти- рует, что они независимы в полной совокупности: в выборке результат может быть искажен из-за случайной вариации, либо у нас мало данных (а доверитель- ный интервал, которым всегда сопровождается результат, - это ведь тоже ве- личина вероятностная). Иначе говоря, если мы столь щепетильны и недоверчивы, то у нас всегда будет оставаться место для сомнений - действительно ли независимы перемен- ные А и В. Если это так, то было бы неплохо иметь в дополнение к критерию х2 еще и меры тесноты их зависимости - меры связи. Последние можно разделить на две группы: > основанные на статистике х2 - ф-коэффициент, коэффициент случайнос- ти, число V Крамера; > основанные на идее так называемого пропорционального приведения при ошибке - мера к (лямбда), мера у Гудмена и Краскала, коэффициент неопределенности. При разработке мер, основанных на критерии х2, имелось в виду ранжировать их в интервале от нуля до единицы и минимизировать влияние размеров выборки
Глава 3 ▼ Описательная статистика и степеней свободы. Эти меры более предпочтительны, чем обычные ^-статисти- ки, когда надо сравнить между собой таблицы с различными размерами выборок и числами степеней свободы, но они могут интерпретироваться по-разному. Если данные меры равны нулю, тогда (и только тогда) значимость теста по критерию X2 - нулевая. Следует отметить, что для таблицы 2x2 значения ф-коэффициента и числа V Крамера равны значениям коэффициента корреляции Пирсона. Меры, относящиеся ко второй группе, также ранжируются от нуля до едини- цы, причем значение ноль предполагает, что знание независимых переменных не может помочь при предсказании значений зависимых переменных. Значе- ние единица, наоборот, предполагает, что, зная независимые переменные, можно точно определить зависимые величины. Комплекс SPSS, в свою оче- редь, ориентируясь на поставленную пользователем задачу, определяет каждую переменную как зависимую и вычисляет оценки. Таким образом, идею действия перечисленных дополнительных мер можно сравнить с идеей корреляции, степень которой измеряется коэффициентом корреляции в интервале от нуля до единицы. Кстати, коэффициент корреля- ции тоже может быть включен в число дополнительных мер, но его примени- мость ограничена - он работает только с числовыми переменными. Рассмотрим пример. Обратимся снова к окну Crosstabs: Statistics (Таблицы сопряженности: Статистика) на рис. 3.40 и установим дополнительные флаж- ки в следующих ячейках: > Comtingency coefficient (Коэффициент случайности); > Lambda (Лямбда); > Phi and Cramer’s V (ф-коэффициент и число V Крамера); > Uncertainly coefficient (Коэффициент неопределенности). После этого окно Crosstabs: Statistics (Таблицы сопряженности: Статисти- ка) будет выглядеть так, как показано на рис. 3.42. Далее, дважды нажав кноп- ку ОК, перейдем в окно просмотрщика, где увидим таблицу (рис. 3.43, 3.44). На рис. 3.43 и 3.44 показаны меры, относящиеся к первой и второй группам Р Crosstabs: Statistics r- Nominal —-----------— : P Contingency coefficient ‘ P Ehi and Cramer’s V I P Lambda P Uncertainty coefficient Г Корреляции -Порядковый t F Гамма F Somers’ d F Kendall’s tau-fa Г Kendall’s tau-fi I Ок I Отмена | Помощь j Nominal by Interval — Г Kappa Строгий McNemar F Cochran’s and Mantel-Haenszel statistics Тестировать общий |l'" " ' Рис. 3.42 ▼ Окно Crosstabs: Statistics с необходимыми настройками
Описательная статистика. Исследования Outputl - SPSS Просмотришь._________________________________HBDj Вид Bcresxa Формат _________ ' eg|H|a|a| >] щц 4 bim&I Wfil ! I Г-----———-------—.........——...... "..'—--------3: Symmetric Measures Пол Value Approx. Siq. жен Nominal by Phi Nominal Cramer's V Contingency Coefficient N of Valid Cases ,003 ,003 ,003 206 ,964 ,964 ,964 муж Nominal by Phi Nominal Cramer's V Contingency Coefficient N ofValid Cases .049 .049 ,049 194 ,492 ,492 .492 a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. [f jSPSS Processor is ready Рис. 3.43 ▼ Таблица с мерами, основанными на статистике х2 Файл Редакяарстание Вид Вставка Формат Анаше Графы. Утилиты Окно Help ^iHlaial sHgHI а|ь Directional Measures ПОЛ Value Asymp. Std. Error* Approx. Tb Approx. Siq. жен Nominal by Lambda Symmetric Nominal Возраст Dependent Выбор Dependent ,000 ,000 ,000 ,000 .000 ,000 c c c c c Goodman and Возраст Dependent Kruskaliau Выбор Dependent ,000 ,000 ,000 .000 ,964d Uncertainty Coefficient Symmetric Возраст Dependent Выбор Dependent .000 .000 ,000 ,000 ,000 ,001 ,023 .023 ,023 .964* ,964* ,964* муж Nominal by Lambda Symmetric Nominal Возраст Dependent Выбор Dependent .000 ,000 ,000 ,000 ,000 .000 c c c c c c Goodman and Возраст Dependent Kruskal tau Выбор Dependent ,002 .002 ,007 ,007 ,493d ,493d Uncertainty Coefficient Symmetric Возраст Dependent Выбор Dependent ,002 .002 ,002 .005 ,005 .006 ,346 ,346 .346 ,491* ,491 * .491* a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis c. Cannot be computed because the asymptotic standard error equals zero. d. Based on chi-square approximation e. Likelihood ratio chi-square probability il ——.................................................. .....................I ____________________________-J : [fSf&PrcceS<M'i»r»«Sy..................... ..............Г" * Рис. 3.44 ▼ Таблица с мерами, основанными основанные на идее пропорционального приведения при ошибке
Глава 3 ▼ Описательная статистика соответственно. Из приведенных таблиц видно, что эти оценки для мер из обоих групп полностью совпадают с оценками по критерию /т Так что мы мо- жем быть спокойны:достаточно придирчивая оценка показала, что рассматри- ваемые нами показатели действительно независимы. Относительный риск в таблицах 2x2 Связано ли ощущение счастья с уровнем семейного дохода? Чтобы ответить на этот вопрос, сконструируем таблицу 2x2 на основе информации из файла Gss.sav. В этом файле содержатся, в частности, переменные happy (оценка об- щего уровня счастья) и f inrela (оценка уровня семейного дохода). Как часто бывает при проведении опросов, ответы по позициям вопросника кодируют- ся. Переменная happy, например, имеет следующие значения: > 1 - very happy - очень счастлив; >2- pretty happy - в общем счастлив; > 3 - not too happy - не слишком счастлив. Переменная f inrela характеризуется такими значениями: > 3 - average - средний; > 4 - above average - выше среднего; >5- far above average значительно выше среднего. Выберем сочетание happy меньше трех и f inrela больше трех. Чтобы реа- лизовать такое сочетание, в окне редактора SPSS выполним последователь- ность команд Данные > Выбор регистров. Эта цепочка выводит нас в диало- говое окно Выбор регистров (рис. 3.45). ф NUMBER OF HRS SPil #> NUMBER OF BROTH! #> RESPONDENTS ASTF #> HIGHEST YEAR SCH( #> SPOUSES HIGHEST! #> POLITICAL PARTY AF 4 DID R VOTE IN 1992 I •¥>VOTE FOR CLINTON, ^BELIEF IN LIFE AFTE ^-GENERAL HAPPINES #> HAPPINESS OF MARI $> How important is a HI *> LIKE OR DISLIKE CU 4 LIKE OR DISLIKE OPI #>LIKE OR DISLIKE CoH RESPONDENTS INCC £HOURS PER DAYWJ #> OPINION OF FAMILY Выбор Г Все регистры Если условие удовлетворено; Если... С Случайно Г Основанным на временн Область... С Переменная фильтра: Г] г Unselected Cases Аге .......... <• Отфильтрованные Г Удален Current Status: Do not filter cases OK J Петанка | Сброс | Отмена | Помочь Рис. 3.45 ▼ Окно Выбор регистров
отельная статистика. Исследования Нажав кнопку Если, выйдем в окно задания логических условий Выбор ре- гистров: Если (рис. 3.46), где с помощью клавиатуры и кнопки ► | можно со- брать нужное выражение. Далее, нажав кнопки Продолжение, а затем ОК, возвращаемся в окно ре- дактора и опять выполняем команды Данные > Анализ > Перекрестные таб- лицы. В появившемся диалоговом окне Перекрестные таблицы (рис. 3.47) зададим строки и колонки - переменные happy и f inrela, а нажав в этом окне кнопку Статистика, установим флажок в позиции Риск. Затем скомандуем ОК и в итоге в окне просмотрщика увидим таблицу (рис. 3.48). В общей выборке 269 респондентов (92,1%) имеют доход выше среднего, из них 119 (44,2% от этой группы) очень счастливы, 150 (55,8%) - относительно Выбор регистров: Если <$>Age of Respondent (ал. #> Respondent's Sex (si I z$> Highest Year of Scho J \£>Total Family Income | Labor Force Status [u— • £> If Rich, Continue or S $>Job Satisfaction [satji • £> Is life exciting or dull ф Importance to R of Hi £> Number of Hours Wo £> RS Highest Degree [c Lot of average man g \£> College Degree [degr ф Highest Year of Scho Highest Year of Schoj (happy < 3 & finrela > 3] ,_J _<=]2d -U-5J-1I . **| I () I Удаление) ||родолженй| Отмена [ Функции: ABSfnumexpr] ANYJtestvalue,value,...] ARSIN(numexpr) ARTAN(numexpr) CDFNORM(zvalue) CDF.BERNOULLI(q,p] Помощь I и 1 Рис. 3.46 ▼ Окно Выбор регистров: Если Перекрестные таб. .> HAPPINESS OF MARlJ $> How important is a Hl £>LIKE OR DISLIKE CU #>LIKE OR DISLIKE OPt #>LIKE OR DISLIKE COI $> RESPONDENTS INCC HOURS PER DAYWA #>wifeduc <£>husbeduc #>family Income recode ^respondent's income #> Arbitrary Id numbers <j>hrs worked last week $> hrs worked last week Husband employed fi $>Wife employed full lii_j ЕЗ Г Display clustered bar charts Г Suppress tables ^Статистика... | Ячейки... j Формат... Рис. 3.47 ▼ Окно Перекрестные таблицы с заданными строками и колонками
Глава 3 ▼ Описательная статистика OPINION OF FAMILY INCOME ’ GENERAL HAPPINESS Crosstabulatton GENERAL HAPPINESS Total VERY HAPPY PRETTY HAPPY OPINION OF FAMILY ABOVE AVERAGE Count INCOME % within OPINION OF FAMILY INCOME % within GENERAL HAPPINESS 119 44,2% 90.2% 150 55.8% 93.9% 269 100,0% 92,1% FAR ABOVE AVERAGE Count % within OPINION OF FAMILY INCOME % within GENERAL HAPPINESS 13 56,5% 9,9% 43.5% 6,3% 23 100,0% 7.9^ Total Count % within OPINION OF FAMILY.INCOME % within GENERAL HAPPINESS 132 45,2% 100,0% 160 54,8% 100,0% 292 100,0% 100,0% Рис. 3.48 т Итоговая таблица счастливы. 23 респондента (7,9%) от общей выборки имеют доход значитель- но выше среднего, их них 13 (56,5% от этой группы) очень счастливы, 10 (43,5%) - относительно счастливы. Кажется, что доля относительно счастливых больше в той группе, которая имеет доход значительно выше среднего. Но нам хотелось бы иметь некоторую гарантию, для чего обычно используют две статистики: относительный риск и коэффициент различия. Относительный риск того, что респондент очень счастлив, определяется как отношение вероятности такого ощущения (очень счастлив) при семейном до- ходе выше среднего к вероятности этого же ощущения при семейном доходе значительно выше среднего. В нашем случае такое отношение равно (если брать процентные оценки) 44,2% / 56,5% = 0,783. На рис. 3.49 эта оценка пока- зана в графе For cohort GENERAL HAPPYNESS = VERY HAPPY (Для позиции Общий уровень счастья = очень счастлив). Соответственно, относительный риск того, что респондент относитель- но счастлив, определяется как отношение вероятности такого ощущения Risk Estimate Value 95% Confidence interval Lower Upper Odos Ratio for OPINION OF FAMILY INCOME (ABOVE AVERAGE/FAR ABOVE AVERAGE) For cohort GENERAL HAPPINESS = VERY HAPPY For cohort GENERAL HAPPINESS = PRETTY HAPPY N ofValid Cases ,610 783 1.2=3 292 .259 ,534 795 1.440 1,148 2.068 Рис. 3.49 ▼ Таблица относительного риска
Описательная статистика. Исследования (относительно счастлив) при семейном доходе выше среднего к вероятности этого же ощущения при семейном доходе значительно выше среднего. В нашем случае данное отношение равно 55,8% / 43,5% = 1,283. На рис. 3.49 эта оценка показана в графе For cohort GENERAL HAPPYNESS = PRETTY HAPPY (Для позиции Общий уровень счастья = относительно счастлив). На этом основании мы можем сделать вывод о том, что при семейном доходе выше среднего уровня респондент относительно счастлив в 1,283 раза чаще, чем при семейном доходе значительно выше среднего уровня. И, соответственно, при семейном доходе выше среднего респондент очень счастлив в 0,783 раза чаще, чем при семейном доходе значительно выше среднего уровня (или, что то же самое, но выглядит нагляднее, при семейном доходе значительно выше среднего уровня респондент в 1 / 0,783 = 1,277 раза чаще бывает очень счастлив, чем респондент, у которого уровень семейного дохода выше среднего уровня). Как видно, много денег - это хорошо, но богатые люди далеко не всегда очень счастливы. Коэффициент различия определяется как отношение вероятности того, что случай призойдет, к вероятности того, что случай не произойдет. Мы можем оценить различия: > для позиции ABOVE AVERAGE (Доход выше среднего) как 44,2 / 55,8% = = 0,792; > для позиции FAR ABOVE AVERAGE (Доход значительно выше среднего) как 56,5 / 43,5% = 1,299. Дальше мы можем оценить различия между позициями VERY HAPPY (Очень счастлив) и PRETTY HAPPY (Относительно счастлив) как 0,792 / 1,299 = 0,61. Коэффициент различия эквивалентен отношению относительных рисков, рас- считанных нами выше. Его оценка также приведена в таблице на рис. 3.49 в графе Odds Ratio for OPINION OF FAMILY INCOME (ABOVE AVERAGE / FAR ABOVE AVERAGE) - коэффициент различия для позиции Оценка семей- ного дохода (выше среднего/значительно выше среднего). Два правых столбца на рис. 3.49 под общим заголовком 95% Confidence In- terval (95-процентный доверительный интервал) содержат нижнюю (Lower) и верхнюю (Upper) границы доверительного интервала для относительных рисков и коэфициента различия. Определенный таким образом коэффициент различия обычно достаточно трудно интерпретировать, так как он представляет собой отношение отноше- ний. Относительный риск интерпретировать значительно легче, так что коэф- фициент различия обычно большого практического смысла не имеет. Однако в некоторых ситуациях, когда оценка относительного риска бывает некоррект- ной, коэффициент различия может оказаться полезным. Коэффициент различия может быть использован для оценки относительно- го риска при следующих условиях: > вероятность события достаточно мала (< 0,1). Это условие гарантирует, что коэффициент различия дает хорошую аппроксимацию относительно- го риска;
Глава 3 ▼ Описательная статистика > предметом исследования является сопоставление исследуемых и эталон- ных (контрольных) данных. Такое условие означает, что оценка относи- тельного риска, скорее всего, будет некорректной. Сопоставление дан- ных ретроспективно - чаще всего к нему прибегают, когда данные, представляющие интерес, маловероятны или выполнение самого проек- та нереально или неэтично. Эти условия не выполняются в рассмотренном примере, так как вероятнос- ти того, что случайно выбранные респонденты имеют семейный доход выше или значительно выше среднего, очень или относительно счастливы, состав- ляют больше 10%. Если же, однако, вы захотите исследовать, например, зависимость между курением и раком легких, то условия, при которых целесообразно применение коэффициента различия, вероятно будут соблюдены. Случай, представляющий интерес, заключающийся в заболевании раком легким, имеет достаточно ма- лую вероятность. Кроме того, такая работа должна будет представлять собой сопоставление данных. Хорошо поставленный проект в этой предметной области требует от вас использовать выборку курильщиков и некурящих и определить, сколько в каж- дой из групп больных раком легких, скажем, за последние 40 лет. Но это край- не непрактично, потому что рак легких все еще довольно редкая болезнь, и вам придется исследовать истории болезни тысяч и тысяч больных, чтобы полу- чить полезный результат. При сопоставлении данных нужно просто сформи- ровать выборку больных раком легких (исследуемые данные) и выборку здоро- вых людей (эталонные или контрольные данные) и затем опросить каждого пациента, курит он или нет. Мера согласия «Каппа» для таблиц RxR Для использования статистики к (каппа) нужно, чтобы таблица RxR имела квад- ратную структуру, а строки'll столбцы обладали одной и той же сущностью. Например, доктор А и доктор В, диагностируя одних и тех же больных, нахо- дят у них атеросклероз, эндоартрит и другие болезни. Структура таблицы бу- дет иметь следующий вид (в первой строке - количество оценок доктора А, во второй - количество оценок доктора В) - табл. 3. 1: Таблица 3.1 ▼ Оценки докторов 1990 1991 1992 1993 1994 1995 * 1996 1997 39,2 37,5 39,1 37,7 51,1 71,7 63,6 46.2 50,2 47,6 46,6 47,3 48,9 56,7 54,8 53,5 к - это мера межразрядного согласия, которая оценивает степень расхожде- ния между суммой наблюдаемых (соблюдаемых) значений в диагональных ячей- ках и суммой ожидаемых значений в этих же ячейках. Следует заметить, что тер- мин «ожидаемые» здесь весьма условен, так как под суммой ожидаемых значений
Описательная статистика. Исследования понимается просто разность 1 - Д, где р0 - сумма наблюдаемых значений вдоль главной диагонали. Величина к равна: к=(д-д) / и -&)• Если значение к больше 0,75, то можно говорить о превосходной степени согласования. При к, находящемся в пределах 0,4-0,75, можно констатировать относительно хорошее согласование. Значение к меньшее, чем 0,4, характери- зует слабую степень согласования. Рассмотрим в качестве примера файл Byjing.sav. Оценивается взаимосвязь между покупками видеотехники каждым из респондентов-супругов. Данные по- лучены в ответ на вопрос: рели в семье надо покупать видеотехнику, то это дела- ете вы? Переменная Husband buy video tape unit husbrl (Видеотехнику поку- пает муж) характеризует покупку видеотехники респондентом-мужем, переменная Wife buy video tape unit wiferl (Видеотехнику покупает жена) - покупку ви- деотехники респондентом-женой. Переменные имеют следующие значения: > Def initely - определенно; > Very Likely - очень вероятно; > Somewhat Likely - более или менее вероятно; > Indifferent - безразлично; > Somewhat Likely - более или менее сомнительно; > Very Unlikely - очень сомнительно; > Definitely Not - определенно нет. В окне Перекрестные таблицы устанавливаем переменные (рис. 3.50). '5 Перекрестные таб. E3ii Husband buy Pop-Topi Husband buy alarm s ^Husband use automa •••$> Husband buy big TV | £>Wife buy pop top can $>Wife buy alarm syste £>Wife use automatic tr— £>Wife buy big screen * Husband Predicts Wi Колонки: __________• Wife buy video tape un Строки: Husband buy video tap | OK | Вставка Сброс Отмена Помощь Husband predicts wif г Husband pred wife bi i 3> Husb pred wife use о <£> Husb pred wife buy b £> Wife pred husb buy \i > #> Wife pred husb buy p #>Wife pred husb buy aj j Слой 1 из 1 Пред- Г Display clustered hat charts Г" Suppress tables Статистика... I Ячейки... I Формат... Рис. 3.50 ▼ Окно Перекрестные таблицы с заданными переменными
В окнах Crosstabs: Statistics(nepeKpecTHbie таблицы: Статистика) и Cross- tabs: Cell Display (Перекрестные таблицы:Ячейки) установим флажки так, как показано на рис. 3.51 и 3.52. (Crosstabs: Statistics Г~ Хи-квадрат Г Nominal------------------ Г Contingency coefficient » Г* £hi and Cramer's V ; Г" Lambda i F Uncertainty coefficient -Nominal by Interval—---— Г £ta : F Корреляции -Порядковый---------- { Г" Гамма j Г Somers' d ; F Kendall's taiH> . Г" Kendall's tau-£ F rKappaj Г Строгий Г McNemar Ок | Отмена Помощь F Cochran’s and Mantef-Haenszel statistics Тестировать общий Рис. 3.51 ▼ Окно Crosstabs: Statistics с установленными флажками 'Crosstabs: Cell Display Counts : |родояжени| i F Observe d| i F Expected Отмена | Помощь | -Percentages , Г строка । F Столбец ! F Всего -Остатки 1 F Ненормализованно Г Нормализованное F Adj. standardized : : —— — Рис. 3.52 т Окно Crosstabs: Cell Display с установленными флажками Выполнив все эти задания (мы уже знаем из предыдущего, как это делать), получим итоговый результат (сводная таблица с представлением каждой ячей- ки из-за ее размеров не показана) - рис. 3.53. Как мы видим, значение к равно 0,063 и, следовательно, никакого согласова- ния или связи покупки видеотехники мужем или женой не имеют. Symmetric Measures Value Asymp Std Erroi3 Approx T* Approx Sig Measure of Agreement Kappa N of Valid Cases .063 100 .047 1,534 ,1 25 a. Not assuming the null hypothesis b. Using the asymptotic standard error assuming the null hypothesis Рис. 3.53 ▼ Итоговая таблица
Описательная статистика. Исследования Меры корреляции и связи для RxC-тавлиц с упорядоченными категориями Меры, рассматриваемые в этом разделе, используются в тех случаях, когда обе переменные в таблице расклассифицированы по группам. Например, дети - сидячие, нормальные, гиперактивные; побочный эффект медицинского препа- рата - отсутствует, минимальный, умеренный, серьезный. Меры распадаются на две группы: основанные на корреляциях или на согласованных парах. В конце данного раздела показаны лиры Сомерса <1 и коэфициентх\ (эта)-они охва- тывают ситуацию, когда один фактор является зависимым, а другой - нет. Мера Сомерса d используется, когда речь идет о предсказании значений столбца по дан- ным строки. Что касается коэфициента г] (эта), то при его использовании группы, по которым классифицируются переменные, не должны упорядочиваться. Меры, основанные на корреляциях, - коэффициент корреляции Спирмена, ко- эффициент корреляции Пирсона, коэффициент линейной зависимости %2. Для коэффициента корреляции Спирмена ранг каждого значения данных исполь- зуется для вычисления корреляции по Пирсону. Коэфициент линейной зави- симости 7/ - это просто квадрат обычного коэфициента Пирсона, умноженный на размер выборки минус 1. Что касается корреляции по Пирсону, то надо иметь в виду следующее: нулевая гипотеза, состоящая в том, что данные при- надлежат к двумерной нормальной совокупности, далеко не всегда подтверж- дается для таблиц с двумя входами. Что касается корреляции по Спирмену, то для нее не сделано никаких предположений относительно характера совокуп- ности. из которой произведен выбор. Меры, основанные на согласованных парах, - (тау-б) Кендалла, (тау-с) Кендалла и у (гамма) Гудмана и Крускала. Чтобы сконструировать эти меры, надо исследо- вать попарно значения из двух таблиц, разлагая их на множители для каждой пары. Если оба значения множителей для одного элемента пары больше (или мень- ше) чем значения для другого элемента, то пара согласованная. Если эти разно- сти для обоих множителей противоположны, пара - противоречивая. Когда значения множителей совпадают для одной или обеих переменных, пара свя- зана. Если ранги множителя А имеют тенденцию увеличиваться вместе с ранга- ми множителя В (множители имеют положительную зависимость), большая часть пар - согласованная. Если ранги множителя А увеличиваются, в то время как ранги множителя £ уменьшаются (зависимость является отрицательной), то большая часть пар - противоречивые. Когда число согласующихся и проти- воречащих пар совпадает (или примерно совпадает), какая-либо зависимость отсутствует. Ниже показаны формулы для т и т: 4=(P-Q)/^p + Q + tx)<p + Q + t^) и Tf= 2т(Р- Q) / N'-(m-l), где Р- число согласованных пар; Q- число противоречивых пар; Г - число пар, связанных с X, но не с У;
Глава 3 т Описательная статистика Т - число пар, связанных с Y, но не с X; т- величина меньшая, чем число строк и столбцов. SPSS поддерживает также меру Сомерса d, которая является как бы асиммет- ричным расширением у (гамма). Формулы для у и rf следующие: у=(Р-<2)/(Р+0) и d=(P-Q) / (Р+ Q+T). Симметричная версия распечатывается, как показано в конце приводимо- го примера. Коррелируются ли предпочтения респондентов в пользу блюза и джазовой музыки? А как насчет классики и рэп-музыки? В нашем примере основной во- прос в том, как люди относятся к блюзу, к джазу, блюзу, классической музыке, рэпу. Каждая из переменных в файле GSS93subset.sav имеет пять упорядочен- ных категорий: > очень люблю; > люблю; ► смешанное чувство; > не люблю; >• очень не люблю. Уже хорошо известное нам окно Перёкрестные таблицы будет в этом слу- чае выглядеть так, как показано на рис. 3.54, а в окне Crosstabs: Statistics (Пе- рекрестные таблицы: Статистика) появятся флажки (рис. 3.55). Как получить таблицы просмотрщика, мы уже знаем. Результаты сопостав- лений выдаются попарно (блюз и джаз, блюз и рэп и т.д.). На рис. 3.56 приведе- на сводная таблица данных по всем четырем вариантам - общий объем выборки » Перекрестные таб. Respondent ID NumbJt Labor Force Status [u ф Marital Status [marita фАде When First Marri ф Number of Brothers a ф Number of Children [t фАде of Respondent {a Month in Which R Wt ф> Respondents Astroloi #> Highest Year of Scho #> RS Highest Degree [c #> Father's Highest Deg *> Mother's Highest Det ф Respondent's Sex [s< #> Racew of Responden i£>Total Family Income |_j Строки: ф Blues or R & В Music (I ф Classical Music [class! I OK I ВставкаI Сброс Отмена Помощы Колонки: ф Jazz Music [jazz] ф Rap Music [rap] Пред, Свой 1 из 1 Г Display clustered hat charts Г" Suppress tables Статистика... Ячейки... I - Формат... Рис. 3.54 ▼ Окно Перекрестные таблицы с заданными переменными
Описательная статистика. Исследования Рис. 3.55 т Окно Crosstabs: Statistics установленным флажком Case Processing Summary Cases Valid Missing Total N Percent N Percent N Percent Blues or R & Э Music*Jazz Music 1416 94.4% 84 5,6% 1500 100,0% Blues or R & В Music * Rap Music 1391 92,7% 109 7,3% 1500 100,0% Classical Music * Jazz Music 1406 93,7% 94 6,3% 1500 100,0% Classical Music ’ Rap Music 1383 92,2% 1,7 7.8% 1500 100,0% Рис. 3.56 » Итоговая таблица (Total), количество данных, которые можно использовать (Valid), количество неверных или отсутствующих данных (Missing). Для экономии места рассмотрим только один из этих вариантов - сопостав- ление блюза и джазовой музыки (Blues or R & В Music * Jazz Music). Перекрест- ная таблица со многими входами для этого варианта показана на рис. 3.57. Crosstab Count Jazz Music Total Like It Very Much Like It Mixed Feelings Dislike It Dislike Very Much Blues or Like Very Much 105 64 18 8 7 202 R & В Like It 104 306 141 59 5 615 Musk Mixed Feelings 17 92 158 62 11 340 Dislike It 5 21 39 122 15 202 Dislike Very Much 3 7 6 17 24 57 Total 234 490 362 268 £2- 1416 Рис. 3.57 ▼ Сопоставление блюза и джазовой музыки
Г лава 3 v Описательная статистика Наибольшая концентрация респондентских оценок сосредоточена в левом верхнем углу таблицы, где предпочтение отдается обоим жанрам музыки. Зна- чительно меньше людей, которым нравится один жанр и не нравится другой, как следует из невысоких оценок в ячейках в левом нижнем и правом верхнем углах таблицы. В таблице на рис. 3.58 показаны оценки симметричных мер, о которых гово- рилось выше. Используя /-статистику со связанной вероятностью (приближен- ные оценки аппроксимации), мы можем заключить, что каждая из них значи- мо отличается от нуля. Предпочтения в пользу джаза и блюза коррелируются, если человеку нравится один музыкальный жанр. Для каждой меры ассимпто- тическая стандартная ошибка используется, чтобы сформировать доверитель- ный интервал. Symmetric Measures Value Asymp. Std. ErroP Approx. I6 Approx. Sig. Ordinal by Kendall's tau-b ,490 ,020 23,633 ,000 Ordinal Kendall's tau-c .447 ,019 23.633 .000 Gamma ,638 .023 23,633 ,000 Spearman Correlation ,551 ,022 24,854 ,000c Interval by Interval Pearson’s R .556 ,023 25.148 ,000c N ofValid Cases 1416 a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. Рис. 3.58 ▼ Оценки симметричных мер Совсем другая ситуация возникает при сопоставлении классической музыки и рэпа (рис. 3.59). Похоже, что здесь предпочтения пользователей вообще не коррелируются: 4-статистика довольно мала (меньше единицы), а связанная вероятность много больше, чем 0,05. Причем в этом случае картина также оди- накова для всех мер. Теперь посмотрим, как выглядят меры связи в том случае, когда один из фак- торов является зависимым, а другой - нет. Symmetric Measures Value Asymp. Std. Erro? Approx. I6 Approx. Sig. Ordinal by Kendall's tau-b .013 ,023 ,590 .555 Ordinal Kendall’s tau-c .012 .021 ,590 ,555 Gamma ,018 .031 ,590 ,555 Spearman Correlation ,015 ,027 .572 ,567c Interval by Interval Pearson's R ,014 ,027 ,519 ,604е N ofValid Cases 1383 a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming rre null hypothesis. c. Ba’sed on normal approximation. Рис. 3.59 ▼ Сопоставление классической музыки и рэпа
Описательная статистика. Исследования Мера (I Сомерса является модификацией у, которая включает число пар, не связанных с независимой переменной. Это соответствует случаю, когда пере- менные обеих таблиц упорядочены и роль зависимой и независимой перемен- ных сведена к нулю. Если значения зависимой переменной качественные, а независимая пере- менная упорядочена или не упорядочена, рассматривается коэффициент гр Будучи возведенным в квадрат, последний интерпретируется как соотношение изменчивости зависимой переменной, которое можно объяснить, зная значе- ния независимой переменной.
Меры сравнения 4.1. Использование Т-тестов (Т-статистик) в мерах сравнения Отношения различных выборок достаточно разнообразны. Начнем с наиболее часто встречающегося варианта - сравнения независимых выборок. 4.1.1. Т-статистики с независимыми выборками В данном случае мы проверяем гипотезы о среднем для качественных переменных: > отличается ли среднее из одной выборки от среднего из другой выборки для данной переменной (Т-тест независимости выборок); > отличается ли среднее случайным образом полученных разностей между двумя переменными от нуля (парный Т-тест); > отличается ли среднее для данной переменной от гипотетической вели- чины (Т-тест для одной выборки). Каждая гипотеза - это предположение относительно параметров (или пара- метра) совокупности. Заметим, что нулевая гипотеза обычно формулируется для того, чтобы проверить, может ли она быть отклонена. Например, в криминоло- гических приложениях нулевая гипотеза о том, что подсудимый невиновен, яв- ляется основным предположением. Он предполагается невиновным, если его вина не установлена при разумных сомнениях (презумпция невиновности). Одной из наиболее общих ситуаций, часто встречающихся в статистической практике, является сравнение средних для двух выборок. Например, отличает- ся ли средняя величина некоторого показателя для группы обследуемых паци- ентов, наблюдаемых во время лечения, и v контрольной группы? В идеальном
Использование Т-тестов (Т-статистик) в мерах сравнения случае пациенты распределены по группам случайно, так, чтобы различия со- стоял^ только в лечении, а другие факторы не учитывались. В рассматривае- мом примере дело обстоит по-другому, потому что тот или иной климат не может быть выбран для страны случайным образом. В таких ситуациях исследователь должен очень внимательно следить за тем, чтобы различия в значениях сред- них величин не маскировались расхождениями в различных факторах или ко- эффициентах. Отличается ли жизнь людей в зонах с умеренными температурами от жизни в тропиках? Живет ли в городах тропических регионов меньше людей, чем в городах регионов с умеренными температурами? Получают ли в люди в тро- пических регионах меньше калорий, чем в регионах с умеренным климатом? Мы используем данные из файла World95, чтобы проверить, отличается ли в среднем количество городского населения, живущего в странах с тропическим и умеренным климатом, и среднее количество калорий, получаемых в этих двух регионах. Файл содержит для каждой страны значение доли городского населения (urban), среднее количество ежедневно получаемых калорий (calories) и код, идентифицирующий климат (climate): для тропического - 5, для умеренно- го - 8. Чтобы начать анализ независимых выборок с помощью Т-статистики, выполним последовательность команд Анализ > Меры сравнения > Незави- симые образцы Т-теста, после чего откроется окно Независимые образцы Т-теста, показанное на рис. 4.1. Как видно из рисунка, выбор переменных (те- стовых и сгруппированных) осуществляется так же, как и в примерах из пре- дыдущих глав. Кроме того, в области Группирование переменной параметры переменной climate не заданы. Для того чтобы задать их, нажмем кнопку Оп- ределение группы и в открывшемся окне Определить Группы (рис. 4.2) ука- жем эти данные: для группы 1 - код 5, для группы 2 - код 8. Теперь рассмотрим результаты анализа в виде таблицы. На рис. 4.3 представ- лена общая статистика по группе. Средняя доля городского населения, живуще- го в городах в 32 странах тропической зоны, составляет 44,94%. Это значительно ^Независимые Образцы Т Теста Aids cases (aids} 3 4> Birth rate per 10ОО pt 4> Death rate per 1000 f #> Number of aids case; ^>Log (base 10) of GDP 4>Log (base 10) of AIDS <$> Birth to death ratio [b ^Fertility: average nun z£>Log (base 10) of Popt !»> cropgrow Males who read (%) (I ^Females who read {% Тестовая переменная: _ £> People living in cities pt .......... Daily calorie intake [cak Вставка Отмена Помощь [ ,___, Группирование Переменной: И юагм Определение группы... I Параметры... Рис. 4.1 . Окно Независимые образцы Т-теста
Глава 4 ▼ Меры сравнения | Определить Группы_____________ЕЗ у8е specified values | j Ок | Групп. |5 j Группа q п I 1 Помощь Г Точки обр I'"...... меньше, чем 66,36% в 33 странах умеренной зоны. Стандартное отклонение (Std. Deviation) для этих двух групп очень близко (24,07 и 23,29), так же как и стандартная ошибка (Std. Error Mean). Ежедневно жители 28 стран тропической зоны в среднем получают 2374,93 калории, в то время как для 23 стран умеренной зоны этот величина Рис. 4.2 ▼ Окно Определить равна 3216,65 калории. Стандартное отклонение Группы 529,42 для стран умеренной зоны на 70% больше, чем для тропических стран (308,81). Рассмотрим на рис. 4.4 результаты теста для независимых выборок. В данной таблице на первом месте стоят результаты проверки по Левену на равенство дисперсий (включенной в данный тест по умолчанию). В некоторых старых учебниках используется критерий равенства дисперсий Бартлетта, но он чувствителен к отклонению от нормальности. Поэтому здесь, чтобы оце- нить, различается ли рассеяние по выборкам, используется критерий Левена. Нулевая гипотеза состоит в том, что для обеих выборок дисперсии (но не сред- ние) равны. Если наблюдаемые уровни значений (Sig) для этого критерия малы (например, меньше чем 0,05) и, следовательно, нулевая гипотеза не подтверж- дается, то необходимо применить раздельные Т-статистики для оценки диспер- сий средних значений. В нашем случае F-статистика (Левена) для переменной urban равна 0,046 с вероятностью 0,832, то есть гипотеза о равенстве диспер- сий подтверждается. F-статистика для переменной calories равна 5,180 с ве- роятностью 0,027, так что в этом случае гипотеза о равенстве дисперсий будет отклонена Group Statistics Predominant climate N Mean Std. Deviation Std. Error Mean People Irving in cities (%) tropical 32 44,94 24,07 4,25 temperate 33 66,36 23,29 4,05 Daily calorie intake tropical 28 2374,93 300,81 58,36 temperate 22-i 3216.65 529.42 110.39 Рис. 4.3 ▼ Итоговая таблица Для сравнения средних в двух выборках используются два теста. Первый, при котором принимается предположение о равенстве дисперсий (иногда это первая из Т-статистик для двух выборок, используемая в элементарных учебни- ках), называется Т-статистикой для объединенной дисперсии. Она предполагает, что дисперсии для двух выборок равны, то есть распределения имеют одну и ту же форму. Другой тест строится на том, что предположение о равенстве дисперсий не принимается и не требует этого равенства. Он получил название Т-статистики для раздельной дисперсии.
Использование Т-тестов (Т-статистик) в мерах сравнения Рис. 4.4 т Итоговая таблица с результатами теста для независимых выборок Используя объединенную дисперсию (при принятии равенства дисперсий), мы определили, что средние для выборок равны 44,94% и 66,36%. Предположить, что эти выборки взяты из совокупностей с одинаковыми средними нельзя - они слиш- ком заметно расходятся. Т-статистика равна -3,648 при 63 (округленно) степенях свободы (df) и значении вероятности (Significance), равном 0,001. Зная величины средних, можно заключить, что страны в умеренной зоне имеют значительно боль- шую долю городских жителей, чем страны тропического региона. В свою очередь, для переменной calories гипотеза о равенстве дисперсий в соответствии с тестом Левена, как мы видели выше, была отклонена, и в этом случае надо использовать Т-статистику для раздельной дисперсии. Данная ста- тистика равна-6,741 при 34 степенях свободы (df) и значении вероятности (Significance) меньшем, чем 0,0005 (из осторожности не следует спешить с утверж- дением, что вероятность равна нулю). В среднем жители стран умеренного клима- та получают больше калорий, чем их сородичи в тропических странах. Срав- ним число степеней свободы для статистик для объединенной й раздельной дисперсий (49 и 33,861). Мы как бы платим штраф за неравенство дисперсий: уменьшение числа степеней свободы подразумевает, что эффективный размер выборки также сокращается. В данном случае, при использовании теста для раздельной дисперсии, объем выборки сокращается на 30%. Теперь рассмотрим статистику, основанную на разности средних (Mean Diffe- rence), которая также приведена в таблице на рис. 4.4. Как мы уже видели, при- менительно к тропической и умеренной зонам средние величины для перемен- ной urban составляют соответственно 44,94% и 66,36%, а для переменной calories - 2374,9 и 3216,7. Разница этих средних равна 21,43 для urban и 841,72 для calories. Стандартная ошибка для этой разности (Std. Error Dif- ference) отображена в следующем столбце. Она используется для того, чтобы сконструировать доверительный интервал для разности средних, обозначае- мый как 95% Confidence Interval of the Mean. С учетом результатов теста Левена используют стандартную ошибку разно- сти (Std. Error Difference) при принятии равенства дисперсий для переменной urban (5,87) и при отклонении равенства дисперсий для переменной calories (124,87). 95-процентный доверительный интервал объединенной
Глава 4 ▼ Меры сравнения дисперсии для разности средних применительно к переменной urban заклю- чается между 9,69 и 33,16. Как видим, ноль не входит в доверительный интер- вал - если бы это было так, мы бы не смогли отклонить нулевую гипотезу о равенстве средних. 95-процентный доверительный интервал раздельной дис- персии для разности средних применительно к переменной calories заключа- ется между 587,92 и 1095,52. Здесь также ноль не включается в доверительный интервал. Другими словами, разность средних является значимой величиной и никак не может быть приравнена к нулю. 4.1.2. Т-статистики для парных сравнений Для парных (или зависимых) статистик сравниваются средние величины двух переменных (столбцов). Часто при оценке последствий какого-либо воздей- ствия измерение некоторого параметра производится дважды - до и после это- го воздействия. Т-статистика для парных сравнений используется, например, в данной ситуации для того, чтобы оценить, различаются ли между собой сред- ние двух измерений или, другими словами, средние величины разностей (для двух значений каждой реализации) от нуля. В следующем примере рассматривается вопрос: действительно ли женщины в странах Организации экономического сотрудничества и развития (ОЭСР), как ожидается, будут жить дольше, чем мужчины? Здесь используется ситуа- ция, когда для каждой реализации (страны) в файле World95 содержатся два значения - переменная с ожидаемой продолжительностью женской жизни (lifeexpf) и переменная с ожидаемой продолжительностью мужской жизни (lifeexpm). Поскольку оценка производится для стран, входящих в состав ОЭСР, то предварительно выберем подмножество данных. Для этого откроем редактор данных SPSS (см. рис. 1.15) и в окне Выбор регистров (см. рис. 3.45) зададим условие для переменной region (рис. 4.5). Затем выполним последовательность команд Анализ > Меры сравнения > Двойные образцы Т-теста. В результате откроется окно, представленное на рис. 4.6 (двойные образцы Т-теста более точно перевести как парный Т-тест). Выбор регистров: Если country ^Population in thousar '$> Number of people / s< People living in cifir» region = 1 Predominant religion Average female life e ф Average male life ex| £> People who read (%) _ $> Population increase ( ф Infant mortality (dealt Gross domestic prnd____ ^Region or economic group ^uany calorie intake ]i Jj _£_Ш _J Cj>=j _4J_5JJSJ _LlZ12J ..._JJ _»J_J jreglon|~|| ~ | [| | Мп»«ение| ABS(numexpr) ANYftest value, value,...) ARSIN(numexpr) ARTAN(numexpr) CDFNORM(zvalue) CDF.BERNOULLl(q,p) z$>Aids cases [aids] Birth rate per 1006 pr .j [ родплжени| Отмена Помощь J Рис. 4.5 ▼ Окно Выбор регистров: Если с заданным условием для переменной region
Использование Т-тестов (Т-статистик) в мерах сравнения : Двойные образцы Т теста 13|| <#> Population in thousand ч»> Number of people / sq !»> People living in cities ^Average female life e> ф Average male life exp 4> People who read (%) [I !* *> Population increase (5 •£> Infant mortality (death Gross domestic produ Парные переменные: Вставка Сброс Отмена Помощь [-Текущий выбор* i Переменная): i Переменная 2: Параметры... Рис. 4.6 ▼ Окно Двойные образцы Т-теста После этого необходимо выбрать те переменные, которые будет служить в ка- честве парных (lifeexpf и lifeexpm), пометить их щелчком мыши (рис. 4.7) и путем нажатия кнопки ► | ввести эти переменные в соответствующую ячейку где они будут записаны в виде пары (рис. 4.8). • Двойные образцы Т теста и £> Population in thousand 3> Number of people I sq ф People living in cities Парные переменные: Нет анка Сброс I Отмена | Помощь| О Average female life expectancy [lifeexpf) tJAverage male lite exi (£> People who read (%) (I #> Population increase (5 ^Infant mortality (death Gross domestic produ ш гТекущий выбор -- - -- -- - I Переменная!: lifeexpf i Переменная 2: lifeexpm Параметры... | Рис. 4.7 ▼ Окно Двойные образцы Т-теста с отмеченными переменными Как обычно, после нажатия кнопки ОК будут показаны результаты. Таблица на рис. 4.9 показывает, что в выборке, куда включена 21 страна ОЭСР, средняя ожидаемая продолжительность жизни для женщин составляет 80,1 года, для мужчин - 73,7 года. При этом стандартная ошибка среднего 0,25-0,26 года, стандартное отклонение 1,15-1,18 года. Коэффициент корреляции между ожидаемой продолжительностью жизни для мужчин и женщин равен 0,724 (рис. 4.10). Вероятность получения такого значения равна (Sig) 0,05, что говорит о значимом отличии коэффициента кор- реляции от нуля (имеется в виду строго линейная корреляция). Вообще, при наличии согласованных пар значений, чем выше корреляция, тем больше пре- имуществ при использовании такой пары по сравнению с независимыми груп- пами значений.
Глава 4 г Меры сравнения • Двойные образцы Т теста Population in thousand #) Number of people / sq •#> People living in cities Average female life e> ^Average male life exp Парные переменные: lifeexpf - lifeexpm ОК | Вставка #> People who read (%] [I ^Population increase (? Сброс I Отмена I Помощь Текущий выбор---- Переменная'1: Переменная 2: Параметры... Рис. 4.8 ▼ Окно Двойные образцы Т-теста с записанными в виде пары переменными Paired Samples Statistics Mean M Std. Deviation Sid. Error Mean Pair Average female 1 life expectancy 80,10 21 1,18 .26 Average male life expectancy 73,71 21 1,15 ,26 Рис. 4.9 ▼ Таблица с данными о средней ожидаемой продолжительности жизни Paired Samples Correlations N Correlation Sig. Pair Average female life 1 expectancy & Averag e male life expectancy 21 .724 ,000 Рис. 4.10 т Таблица с коэффициентом корреляции Обратимся теперь к таблице на рис. 4.11. В среднем разность в паре между ожидаемой продолжительностью жизни для женщин и мужчин равна 6,38 (80,1-73,7). Обратимся к ранее приведенным выборочным средним, чтобы оценить значимость вывода о том, что ожидае- мая продолжительность жизни женщин больше, чем мужчин. 95-процентный Paired Samples Test Paired Differences t df Sig. (2-tailed) Mean Std. Deviation Std. Error Mean 95% Confidence Interval of the Difference Lower Upper Pair Average female life 1 expectancy-Average male life expectancy 6,38 ,86 .19 5,99 6,77 33,819 20 ,000 Рис. 4.11 т Оценка разности в продолжительности жизни мужчин и женщин
Использование Т-тестов (Т-статистик) в мерах сравнения доверительный интервал для разности между ожидаемыми продолжительнос- тями жизни лежит между 5,99 и 6,77 годами. Значение Т-статистики равно 33,819. Значение вероятности, связанной с этой статистикой (Sig.(2-tailed)), очень мало (< 0,0005), что говорит о несостоятельности нулевой гипотезы о том, что разность в продолжительности жизни несущественно отличается от нуля. Следовательно, тенденция большей ожидаемой продолжительности предстоящей жизни для женщин является статистически значимой - женщины действительно живут дольше. Т-статистика для парных выборок может быть использована и в случае чис- то количественных переменных. Рассмотрим следующий пример. В качестве исходных данных для рассмотрения корреляционной зависимости используем сведения об уровне среднегодовых цен на каучук, поступивший на рынки Нью- Йорка (из всех источников) и на рынки Сингапура (из Малайзии) в 1970-1997 годах; цены указаны в долларах США за фунт (рис. 4.12). Рис. 4.12 ▼ Уровень среднегодовых цен на каучук, поступивший на рынки Нью-Йорка и Сингапура в 1970-1977 годах В связи с этим возникает вопрос: можно ли указанные две выборки считать фрагментами одной и той же генеральной совокупности? Так как цены отно- сятся к одним и тем же годам, то эти выборки можно рассматривать как две разновидности или два режима одного процесса, что дает основание приме- нить здесь тест с использованием парных выборок.
Глава 4 ▼ Меры сравнения Открыв файл Каучук, выполним последовательность команд Анализ > Срав- нение средних > Т-критерий для парных выборок. После этого в открыв- шемся окне Т-критерий для парных выборок так, как описывалось ранее, укажем парные переменные (рис. 4.13) и, нажав кнопку ОК, получим итоговую таблицу (рис. 4.14-4.16). I Т -критерий для парных выборок ЕЗ ф год <£> Сингапур :$> нью_йорк. ОК [ Вставка | Сброс | Ст^юна | Справка Пасаметры..] ;; j Переьс 1: ) Перем. 2 Рис. 4.13 ▼ Окно Т-критерий для парных выборок с указанными переменными Статистики парных выборок Среднее N Стд. отклонение Стд. ошибка среднего Пара СИНГАПУР 1 НЬЮ-ЙОРК 41,3786 45,3000 28 28 13,80752 12,65186 2,60938 2,39098 Рис. 4.14 т Окно с таблицей статистики парных выборок Мобильные таблицы SPSS таблица? вив Правка Ж В*® Вставка Корреляции парных выборок | N | Корреляция Знч. Пара СИНГА11УР& | | 1 НЬЮ ИОРК | 281 ,а,и ,000 Рис. 4.15т Окно с таблицей корреляции парных выборок Определяющие результаты представлены в таблице, показанной на рис. 4.16. Мы видим, что разность средних составляет-3,9214, значение Т-статистики равно -3,622, а значимость - 0,001. Таким образом, вероятность такого разли- чия средних крайне мало. Это, в свою очередь, позволяет сделать следующий вывод: нулевая гипотеза о том, что исходные выборки являются фрагментами одной и той же генеральной совокупности, должна быть отвергнута.
Использование Т-тестов (Т-статистик) в мерах сравнения Критерий парных выборок Мобильные таблицы SPSS - таблица! <ЕаЙй{ Правка 9иа ВстзвкаМобил^наяхаблица Формат 2 Парные разности СТ с Знч i'2-CTOpGrd Среднее Стд отклонение Стд. ошибка среднего 95% доверительный интервал разности средних Нижняя граница Верхняя граница Пара СИНГАПУР - 1 НЬЮ .ЙОРК -3,9214 5,72851 1,08259 •6,1427 -1,7001 -3.622 27 .001 Рис. 4.16» Окно с таблицей критерия парных выборок 4.1.3. Т-статистика для одной выборки Цель Т-статистики для одной выборки состоит в том, чтобы проверить, отлича- ется ли среднее значение параметра простой выборки (частичной совокупнос- ти) от среднего значения аналогичного параметра, взятого из общей (или не- которой гипотетической) совокупности. В качестве такого параметра могут выступать среднее, среднеквадратичное, коэффициент корреляции. Напри- мер, вы знаете, что в США среднее значение теста IQ (тест для оценки уровня интеллектуальных способностей) равно 100, а у ваших сослуживцев среднее зна- чение этого теста равно 127,5. Возникает вопрос: ваши сослуживцы способнее, чем средний гражданин США, или эти отличия носят случайный характер и их нельзя принимать всерьез? Для получения ответов на вопросы такого типа в SPSS требуется использовать Т-статистику для одной выборки, чтобы сравнить средний параметр конкретной выборки IQco стандартным значением, равным 100. В качестве примера рассмотрим ситуацию, имеющую более сложную струк- туру: характерен ли для стран, преимущественно католических, стабильный количественный уровень населения? В файле World95 выберем для рассмотре- ния переменную b_to_d (отношение темпа рождаемости к темпу смертности для каждой страны). Будем считать (не вдаваясь в демографические аспекты), что для соблюдения стабильности количества населения (размера популяции) необходимо, чтобы этот коэффициент не достигал величины 1,25 (пять рож- дений на четыре смерти). Понятно, что при этом по умолчанию предполагает- ся, что, в общем-то, прирост населения есть. Мы зададимся этим же вопросом еще и применительно к странам, где преоб- ладает мусульманство. Рассматриваемый пример показывает, как легко можно провести необходимое разделение данных внутри файла. В переменной religion (религия) определено 10 строковых значений, идентифицирующих различные религии. Мы хотим получить ответы на по- ставленный вопрос отдельно для каждой из трех выбранных нами конфессий - протестантизма, католичества и мусульманства. Введем условия для фильтра, позволяющего выделить именно эти три группы.
Глава 4 ▼ Меры сравнения Подобно тому, как это делалось раньше, выполним последовательность ко- манд Данные > Выбор регистров > Если условие удовлетворено, а затем нажмем кнопку Если. В появившемся окне Выбор регистров: Если наберем выражение для фильтра (рис. 4.17). Выбор регистров: Если country Л _______ $ Population in thousar I < £> Number of people / s> ..* People living in cities ____ 2R Predominant religion [religion] | •^Average female lite e Average male life exj £> People who read (%) # > Population increase ( $> Infant mortality (dealt # _> Gross domestic prod' Region or economic r Daily calorie intake [r $> Aids cases [aids] Birth rate per 1000 pr^j (religion = 'Protstnt' | religion - 'Catholic1 | religion =*Muslim‘)| jJ _d_>J iJjj-iJ -I <4 >-l jlIaJjJ jJ Qzd JjJj-ll /I * I I I nil d I IlJ ЯД»»ение| Функции: ABS(numexpr) ANY(testvalue,value,...J ARSIN(numexpr) ARTAN(numexpr) CDFNORM(zvalue) CDF.BERNOULLI(q.p) 1рододжени! Отмена I Помощь 1 Рис. 4.17т Окно Выбор регистров: Если с набранным выражением для фильтра Далее, нажав кнопку Продолжение, выполняем следующие команды Анализ > Меры сравнения > Одиночные образцы Т теста. В результате откроется окно Одиночные образы Т-теста, в котором в ячейку Тестовая введена переменная b_to_d, а в ячейку Тестовая переменная - принятое нами пороговое значение 1,25 (рис. 4.18). При этом не забудем нажать кнопку Параметры, чтобы устано- вить в окне Однообразцовый Т-тест: Опции требуемое значение доверитель- ного интервала - обычно по умолчанию стоит 95% (рис. 4.19). Остальные па- раметры, устанавливаемые в этом окне, относятся к случаю, когда какие-то данные отсутствуют и здесь не рассматриваются. После этого можно перейти к анализу результатов, которые, как обычно в SPSS, представлены в таблице. Отношение темпов роста рождаемости и смертности, описываемое переменной b_to_d, составляет по католическим, мусульманским Рис. 4.18 ▼ Окно Одиночные образцы Т-теста с заданными переменными
Использование Т-гестов (Т-статистнк) в мерах сравнения КОднообраэиовьш Т тест: Опции Интервал Доверия: [ЕВ % г- Утерянные Величины * <• Исключить анализ регистров анали: > I Ок | Отмена | ; Г Исключить список регистров Помощь | Рис. 4.19т Окно Однообразцовый Т-тест: Опции с установленным значением > доверительного интервала и протестантским группам стран 2,91, 5,12, 1,65 соответственно (рис. 4.20). Все эти значения выше, чем принятый нами барьер (1,25), но вопрос состоит в том, насколько статистически значимы данные превышения? One-Sample Statistics Predominant religion • N Mean Std. Deviation Std. Error Mean Catholic Birth to death ratio 41 2,9145 1,7519 ,2736 Muslim Birth to death ratio 27 5,1242 2,6109 ,5025 Protstnt Birth to death ratio 16 1.6526 .5548 .1387 Рис. 4.20 т Таблица с отношением темпов роста рождаемости и смертности Как следует из рис. 4.21, во всех случаях двустороннее значение вероятнос- ти (Sig.(2-tailed)) меньше чем 0,05, что указывает на значимое превышение этих значений 1,25. One-Sample Test Predominant religion TestValue= 1.25 t df Sig. (2-tailed) Mean Difference 95% Confidence Interval of the Difference Lower Upper Catholic Birth to death ratio 6,084 40 ,000 1,6645 1,1116 2,2175 Muslim Birth to death ratio 7,710 26 ,000 3,8742 2,8414 4,9071 Protstnt Birth to death ratio 2.903 15 011 .4026 1070 .6983 Рис. 4.21 т Таблица с тестом Однако подождем с окончательной оценкой, ведь мы провели три теста сра- зу, при этом расслоив выборку' на три подвыборки. Вообще, в таких случаях вероятность обнаружения существенного различия быстро растет с числом испытаний, поэтому следует предостеречь пользователя от стремления прово- дить такого рода тесты сразу по многим переменным - необходимо ограничить- ся лишь самыми существенными переменными. Чтобы внести необходимую поправку (поправка Бонферрони), надо умножить каждое значение вероятности на три (число одновременно проводимых тес- тов). Вместе с этим изменится и граница доверительного интервала (величину 0,05 следует разделить на три. и величина доверительного интервала станет
Глава 4 ▼ Меры сравнения равной 98,3%). Для группы протестантских стран вероятность составит 0,033, а для остальных групп - 0,0015 (значение вероятности, которое в таблице ука- зывается как 0,000, на самом деле выражается величиной меньшей, чем 0,0005). Таким образом, для протестантской группы нулевая гипотеза о том, что отно- шение темпов рождаемости и смертности равно 1,25, отклоняется при уровне значимости 0,05. но принимается при уровне значимости, равном 0,01. Разница между средней оценкой для протестантов и значением 1,25 (Mean Difference) меньше, чем аналогичная величина для других групп. Эта разница равна 0,4026 (1,6526-1,25). Доверительный интервал для этой разницы находит- ся в пределах от 0,0292 до 0,7761, почти опускаясь до нуля внутри интервала. 4.2. Однофакторный дисперсионный анализ В предыдущем разделе Т-тест для двух выборок был введен для проверки гипо- тезы о том, что разница между средними значениями двух выборок несуще- ственна. то-есть обе выборки взяты из совокупностей с равными средними зна- чениями. В этом разделе мы используем однофакторный дисперсионный анализ (analysis of variance - ANOVA), чтобы расширить такое сравнение для случая более чем двух выборок). Нулевая гипотеза состоит в том, что ц1 = ц,= ц3 = ... = j_y, где ц - среднее гене- ральной совокупности. В этом случае при сравнении двух выборок квадрат Т-статистики равен зна- чению статистики F-дисперсионного анализа. Такая аналогия обусловливает одинаковый с общим дисперсионным анализом уровень. Возможности одно- факторного дисперсионного анализа расширяются за счет того, что количе- ство независимых факторов может быть больше двух. Основная логика проверки остается такой же, как и при применении Т-кри- терия: предполагается, что генеральные совокупности имеют одинаковые средние значения (нулевая гипотеза), затем определяется вероятность созда- ния выборки со средними групповыми различиями столь же большими, как и полученные для исходных данных. Для такой оценки сравнивается величина разброса средних между группами (межгрупповой разброс) и величина разбро- са между наблюдениями внутри каждой группы (внутригрупповой разброс). В предположении о правильности нулевой гипотезы единственным источни- ком разброса между групповыми средними является то, что группы состоят из различных отдельных наблюдений. Поэтому отношение двух источников раз- броса (межгрупповой и внутригрупповой) в данном случае должно быть близ- ко к единице. Если наблюдения внутри каждой группы выстроены нормально, то статистическое распределение этого отношения известно (оно подчиняет- ся закону F-распределения). Тогда мы можем сделать заключение вероятностно- го характера о соответствии исследуемых данных нулевой гипотезе. Конечный
Однофакторный дисперсионный анализ результат - это вероятность получить выборочные различия столь же больши- ми (илй еще большими), как и те, что получены для исследуемых данных (опять же при условии соблюдении нулевой гипотезы). Если вероятность достаточно мала (обычно меньше чем 0,05), то мы можем заключить, что генеральные со- вокупности различаются. Будем рассматривать следующий пример. В файле Качество жизни (рис. 4.22) приведены данные за 1997 год для ряда стран по: > индексу человеческого развития (переменная Индекс); > ожидаемой продолжительности жизни при рождении в 1997 году (пере- менная Жизнь); > • суточной калорийности питания населения (переменная Питание). ((З Качество жизни SPSS Редактор Данных НИИ Файл Драека fim Давыв Преобразовать Дншыз ^Графики Сервис Дкмо <э!|я|е|^| »|о.| M&I Ml Etelrj Щ| (36: Фактор [2 индекс [жизнь " ' 77.00 78,20 72,90 68,00 77,20 66.80 77,20 70,90 77.20 78,10 >5,70 66,30 77,80 62,60 78,00 5 6 7 8 9 10 страна Австрия Австралия Аргентина Белоруссия Бельгия Бразилия Англия Венгрия Германия Греция Дания Египет Израиль Индия Испания 12 13 14 "*5| у Данные X Пврвменыв / ,904 j ,922; ,827j ,763Т ,923 Г 739'Г ,918; ’.7951 ,906 ,867 ~ ,905' .616 " ,883 ,545” ,894 питание 3343,00 3001,00 3136,00 i 3101,00; .3543,00; ..2968ДО1 3237.00; 3402.00; 3330.00; 3575,00; 3808,00^ -32В9'оо] ..3272,00'’ 2415,00 j 3295,00 фактор 3 ' _____Г 2 ‘ 2 ’ ....4 ....2 З' 3‘ 3 з" (SPSS Процвсссрготое 3 2 3 3 Рис. 4.22 ▼ Окно редактора данных SPSS с файлом Качество жизни Идея проверки заключается в следующем: переменная Питание разбива- ется на ряд интервалов: 2415-2900, 2901-3200, 3201-3500, 3501-3808. Каж- дый из указанных интервалов может рассматриваться как один из факторов. В этом случае каждое числовое значение этого фактора представляет кате- горию или идентификатор группы и, следовательно, является номинальной, целочисленной величиной. Определим ее как дополнительную переменную Фактор. Тест проводится для того, чтобы выяснить, различается ли индекс челове- ческого развития в зависимости от средней суточной калорийности питания на душу населения. Для этого проведем сначала разведочный анализ данных.
Глава 4 ▼ Меры сравнения Выполним последовательность команд Анализ > Дескриптивные статисти- ки > Исследовать. В открывшемся окне Исследовать (рис. 4.23) введем в спи- сок факторов переменную Фактор, а в список зависимых переменных - Жизнь. Результатом этого действия будет ящичная диаграмма, показанная на рис. 4.24. Рис.4.23 т Окно Исследовать с указанными переменными Уже из этого предварительного анализа видно, что среднее значение индек- са существенно зависит от суточной калорийности до уровня 3200 ккал на душу населения. Выше этого средняя величина уровня индекса человеческого
Однофакторный дисперсионный анализ развития (если исходить из данной статистики) уже зависит не столько от пи- тания, Сколько от других факторов. Далее видно, что больший объем выборки (показан по горизонтальной оси) приводит к большему внутригрупповому раз- бросу, который характеризуется высотой ящичков. Следующим шагом будет проведение однофакторного (или одномерного) дисперсионного анализа. Его целью является более детальное сравнение групп с учетом того, что для двух факторов средние значения переменной Индекс достаточно близки (следует из предыдущего). Сначала выполним последова- тельность команд Анализ > Сравнение средних > Однофакторный диспер- сионный анализ. В одноименном окне укажем исходные данные (рис. 4.25). Рис. 4.25 т Окно Однофакторный дисперсионный анализ с указанными исходными данными С помощью кнопки Контрасты пользователь может выбрать те группы, ко- торые представляют интерес для сравнения. В нашем случае мы установим, что в сравнении будут участвовать все группы. Для этого, как показано на рис. 4.26, укажем все факторы. Однофакпфный дисперсионный анализ: Контрасты ЕЗ Г” jrig/woHj Степень: |лдаеймая “И ' | Продолжить^ I w- . . 11 Отмена I Преднл. | Контраст 1 из 1 Сдед. | .. » ___................... ; ; Справка |: Кс^ФФициа^ты: / : | 1 ---—.----1 2 . ; 3 Сумма коэффициентов: 10.000 Рис. 4.26 т Окно Однофакторный дисперсионный анализ: Контрасты с указанными факторами В окне Однофакторный дисперсионный анализ: Апостериорные мно- жественные средние, открывающемся путем нажатия кнопки Апостериор- ные (окно Однофакторный дисперсионный анализ), задаются критерии
Глава 4 ▼ Меры сравнения множественного сравнения, позволяющие сравнить каждое групповое среднее с любым другим! групповым средним (рис. 4.27). Тесты, выполненные с помо- щью таких критериев, помогают определить, какие группы отличаются от дру- гих, и обычно выполняются после того, как с помощью обычного теста уста- новлено наличие некоторых значимых различий. В данном случае мы выберем критерий НЗР (наименьший значимой разности) - наиболее либеральный из апостериорных критериев (большая статистическая мощность, но большая ве- роятность ошибочного отклонения нулевой гипотезы). Однофакторный дисперсионный анализ Апостериорные множественные ср. с • При равенстве дисперсий-— Г ЕонФеррони Г” Щидак . Г” Ше$Фе Г Е-Е-Г-У F Г Р-Е-Г-УО Г С-Н-К Г" TbjgKM Г ЬТьюки Г” Дункан Г” GT2 Грвберга [--г'^герий-——-------- — • — —---------- Г" ГабрИЭЛЬ <• 2-Х СТОРОННИЙ С < Ятялг.чя- С •> Ятялпн - Равенство дисперсий не предполагается ——-—г----------------—-В— Г Т2Тамхей4а Г” ТЗДаннетт Г~ Ге0мс№*#элл СДамнеггв Уровень значимости |J,05 ] Прсадопжртть| Отмена [ Справка | Рис. 4.27 ▼ Окно Однофакторный дисперсионный анализ: Апостериорные множественные средние с указаннымЪритерием Кнопка Параметры (окно Однофакторный дисперсионный анализ) управ- ляет такими разными возможностями, как способ работы с пропущенными значениями, выдача дескриптивных статистик и графиков средних, проверка однородности. В нашем случае зададим проверку однородности дисперсии и вывод графика средних значений по группам. Наиболее важной частью вывода результатов процедуры однофакторного дисперсионного анализа является сводная таблица. На рис. 4.28 основную ин- формацию содержат два последних столбца. Ранее говорилось, что при со- блюдении нулевой гипотезы отношение межгрупповой дисперсии к внутри- групповой должно быть близким к единице. В рассматриваемом примере данное отношение равно 5,727, то есть оно существенно отличается от еди- ницы, что подтверждается очень низким значением вероятности - 0,003. Другими словами, это говорит об отклонении нулевой гипотезы, состоящей, как сказано ранее, в том, что индекс человеческого развития одинаков при любой суточной калорийности питания на душу населения, то есть не зави- сит от нее. Полученный результат еще не означает, что эти различия касают- ся абсолютно всех групп. Более тонкий анализ будет проведен далее. Теперь проверим однородность внутригрупповой дисперсии. Для этого используется тест Ливиня (рис. 4.29). Значение вероятности здесь равно 0,648, следовательно, гипотеза о равенстве внутригрупповых дисперсий подтверждается.
Од.чофакторный дисперсионный анализ Вывод! • SPSS Viewer :'£айл Правка ВиЙ’8с1®ка Формат Анализ Графики Сервис Окно 2 а?|Я|Д|&| »| g| »l ЧМ & I jj jJ I *1*J *1-1 ffllol .5M2JI + Однофакторный Дисперсионный Анализ ANOVA ИНДЕКС Сумма квадратов ст св. Средний квадрат F Знч Между группами Внутри групп Итого ,126 ,234 ,359 3 32 35 ,042 .007 5,727 .003 —____________-i.. —J j [SPSS Процессор готов Рис. 4.28 ▼ Сводная таблица однофакторного дисперсионного анализа Мобильные таблицы SPSS таблица? НИИ Файл Правка Виа Вставка Мобильная таблица Формат 2 Критерий однородности дисперсий Рис. 4.29 .Таблица с тестом Ливиня Теперь мы можем повнимательнее разобраться с тем, какие конкретно груп- пы совпадают или различаются между собой по средним значениям. На рис. 4.30 показан график средних значений. Из него видно (визуально), что существенное различие в средних величинах есть между первой группой и остальными. Среди остальных групп взаимная близость заметно выше. Попробуем проверить это визуальное впечатление на основе объективных данных. На рис. 4.31 показана таблица множественных сравнений на базе апостериорных критериев. Если читатель еще не забыл, из всего множества таких критериев мы выбрали только один - НЗР. Процедура этого тестирования довольно проста: каждая возможная пара групповых средних проверяется на различие средних в генеральных совокуп- ностях, после чего формируется сводная таблица результатов такой проверки (см. рис. 4.31). Мы видим, что для первой группы (где суточная калорийность питания не превышает 2900 ккал) средняя величина индекса развития значи- мо отличается от индекса для других групп - значения вероятности меньше чем
Глава 4 ▼ Шеры сравнения Рис. 4.30 ▼ График средних значений для разных групп j* Вывод? SPSS Viewei ___________________________________________мив £айл Правка Вставка Формат Аналиэ рзаФ^си £е>рвис Дкно 2 gjialsial^slrl 1М&1»1 aljJl ♦1*1 *1 -I ш|о| з15Н11 Множественные сравнения Зависимая переменная: ИНДЕКС LSD (I) ФАКТОР (J) ФАКТОР Разность средних (I-J) Стд. ошибка Знч. 95% доверительный интервал Нижняя граница верхняя граница 1 2 -,13865’ .045507 ,005 -,23135 -.04595 3 -.16940’ .045507 .001 -,26210 -.076’0 4 -.18954' ,050060 ,001 -,29151 -.08757 2 1 ,13865* ,045507 ,005 .04595 231 35 3 -.03075 .034903 ,385 -,10184 .С-4 0 34 4 -,05089 .040660 ,220 -,13372 .031 93 3 1 ,16940* .045507 .001 ,07670 ’ й 21 0 2 .03075 ,034903 .385 -,04034 .101 64 4 -.02014 ,040660 ,624 -.10297 0625? 4 1 ,18954* ,050060 ,001 ,08757 2 ,05089 ,040660 ,220 -,03193 1 С - 3 ,02014 ,040660 ,624 -.06268 * Средняя разность значима на .05 уровне. Чая.....И:.:И.,..............................................................а • и Г~ ISPSS Пооиесеео готов " г - :: р Рис. 4.31 ▼ Таблица множественных сравнений на основе объектив^ * данных
Двухфакторный дисперсионный анализ 0,005. В таблице такие пары помечены *. Для остальных трех групп допускает- ся принятие гипотезы о равенстве. Отсюда можно, видимо, сделать вывод о том, что индекс человеческого развития уже не зависит от суточной калорий- ности питания, если последняя находится на уровне 3000 ккал или выше. 4.3. Двухфакторный дисперсионный анализ В этом разделе мы рассмотрим, как выяснить, имеются ли различия в средних величинах между двумя выборками при влиянии двух факторов. Следует заме- тить, что двухфакторный дисперсионный анализ применим и для рассмотре- ния нескольких факторов, а не только двух. Мы исследуем, есть ли различия в величине индекса человеческого развития для разных стран в зависимости от суточной калорийности питания (в килока- лориях на душу населения) и расходах домашних хозяйств (в процентах от ВВП). Ранее рассмотренные предположения и допущения (нормальное распре- деление зависимой переменной внутри групп, однородность дисперсии) оста- ются в силе и для общей модели дисперсионной модели и повторяться не бу- дут. Анализ проводится на основе данных файла Качество жизни! (рис. 4.32), ИПЕЗ [7J Качество жизни1 - SPSS Редактор Данных Файл Правка . Данные Преобразовать Анали: ГраФиси Сервис Окно: 7 <Э| >'lrd —I =l&l Ml ’Fir Ч El&lFil ^|<а| р:страна Австрия страна | индекс | ЖИЗНЬ | титание | ввп ] расходы 1 дом^хоэ | вал | пер [ — 1 Австрия | ,904: 77,00; 3343,00; 115,0: 75,50; 56,10 25,20: 2 Австралия .922! 78,20: 3001,00: 123,0; 78,50; 61,80' 21,80; 3 Белоруссия .763; 68,00: 3101,00; 74.0: 78,40; 59.W 25,70: 4 Бельгия ,923: 77,20: 3543,00: 111,о; 77,70! 63,30; 17,80: 5 Англия ,918; 77.20! 3237,00: 113,0: 84.40; 64,10; 15.90; 6 Германия ,906 ; 77,20: 3330,00; 110,0; 75.90; 57,00: 22,40; 7 Дания .905; 75,701 3808,00; 119,0; 76,00; 50,70; 20,60: —। 8 Индия ,545; 62,60г 2415,00; 146,0; 67,50; 57,10 : 25,20! 9 Испания ,894; 78,00: 3295,00: 113,0: 78,20: 62,00; 20,70: _ ; 10 Италия ,900; 78 20: 3504,00; 108,0; 78,10; 61,80: 17,50; 11 Канада ,932; 79,00! 3056,00: 113,0; 78,60; 58,60; 19,70: ; 12 Казахстан ; ,740; 67,70: 3007,00: 71,0: 84,00: 71,70: 18,50; ./: 13 Китай .701: 69,80: 2844.00; 210,0; 59,20: 48,00; 42.40! 14 Латвия ,744; 68,40 2861.00 = 94,0: 90,20; 63,90; 23,00! 15 Нидерланды ! .921 : 77,90; 3259,00: 118,о; 72,80; 59,10; 20,20: 16 Норвегия ,927; 78,10: 3350,00! 130,0; 67,70; 47,50; 25,20: 17 Польша ,802: 72,50: 3344,00: 127,0; 82,60: 65,30: 22,40 18 Россия ,747: 66,60; 2704,00; 61 .о; 74,40; 53,20: 22,70 > 19 США i ,927; 76,60; 3642 до; 117,0: 83,30! 67,90: 18,10: : 20 Украина ,721; 68,80 i 2753,00; 46,0 83,70: 61.70! 20,10: 21 Финляндия ! ,913! 76,80 : 2916,00: 107.0: 73.80: 52.90! 17,30: 22 Франция ,918: 78,10; 3551,00; 110,0: 79,20 59,90; 16,80: 4 {* 1\ Данные X Переменке у ТЫ I SPSS Процессор ютов Г:::: ! Рис. 4.32 т Окно с файлом Качество жизни 1
Глава 4 ▼ Меры сравнения который представляет собой расширение файла Качество жизни, уже рассмот- ренного в предыдущем разделе (см. рис. 4.22). Файл Качество жизни! содержит следующие переменные: ► Y- индекс человеческого развития (зависимая переменная Индекс); ► X, - ожидаемая продолжительность жизни при рождении, число лет (не- зависимая переменная Жизнь); > Х2 - суточная калорийность питания населения, в килокалориях на душу населения (независимая переменная Питание); > X,- ВВП 1997 года в процентах к 1990 году (независимая переменная ВВП); > Х4 - расходы на конечное потребление в текущих ценах в процентах к ВВП (независимая переменная Расходы); > X - расходы домашних хозяйств в процентах к ВВП (независимая пере- менная Дом_хоз); > X - валовое накопление в процентах к ВВП (независимая переменная Вал). Новым аспектом, рассматриваемым в этом разделе, является включение не- скольких факторов или формулировка нескольких различных вопросов о вы- борках в рамках единого анализа. Хотя в нашем примере принимают участие только два фактора (Питание и Дом_хоз), в дисперсионном анализе по этой модели их может быть больше. Обычно число факторов определяется либо интересами исследователя, который хочет изучить несколько конкретных во- просов, либо объемом выборки. Последний имеет значение в том смысле, что чем больше факторов, тем больше число групповых средних, которые нужно вычислить, и тем меньше выборка для вычисления каждого среднего. Напри- мер, если мы имеем выборку из 400 элементов, и нам нужно выяснить разли- чия в независимой переменной, обусловленные фактором 1 (два уровня), фак- тором 2 (три уровня), фактором 3 (шесть уровней) и фактором 4 (четыре уровня), то получается 2x3x9x4 = 216 подгрупп и столько же средних. Если исходные данные были распределены по этим характеристикам более или ме- нее равномерно, то каждое групповое среднее основывается примерно на двух наблюдениях, что, конечно, недостаточно. Таким образом, для небольших вы- борок имеются практические ограничения на количество формулируемых во- просов о средних. В дисперсионном анализе с двумя и более факторами возникают новые проб- лемы и, следовательно, понятия, которых не было в однофакторном анализе. Во-первых, это понятие главного эффекта, то есть степени влияния на зависи- мую переменную, которое определяется одной из независимых переменных. Например, в данном случае, когда мы изучаем различия в индексе человеческо- го развития, обусловленные суточной калорийностью питания и расходами в домашних хозяйствах, влияние только калорийности или только расходов можно рассматривать как главный эффект. Проверка на наличие двухфактор- ного взаимодействия заключается в выявлении возможной взаимосвязи между
Двухфакторный дисперсионный анализ двумя факторами. Более конкретно можно сказать, что мы проверяем, одина- ков^ ли различия в уровне расходов домашних хозяйств для стран с различным уровнем калорийности питания или, наоборот, одинаковы ли различия в рас- ходах домашних хозяйств в странах с различными величинами калорийности питания. При двух факторах мы имеем только одно взаимодействие. Если число фак- торов увеличится до трех, то мы должны исследовать как разные попарные варианты двухфакторных взаимодействий, так и трехфакторное взаимодей- ствие. С ростом числа факторов количество и сложность взаимодействий, ес- тественно, возрастает.
Корреляция и статистика Один из центральных моментов при обработке статистических данных в эко- номических исследованиях - аппроксимация накопленных данных, придание неявным закономерностям аналитической формы. Накопленные статистичес- кие исходные данные очень многообразны и, как правило, не укладываются в какую-либо однозначную формулу. Другими словами, они не образуют функ- циональной зависимости, когда каждому значению независимой переменной соответствует определенное значение другой (зависимой): например, конкрет- ному значению напряжения соответствует определенное значение силы тока, протекающего по данному участку электрической цепи. В противоположность этому, в экономических исследованиях в большинстве случаев приходится иметь дело со статистическими зависимостями, при которых каждому' значе- нию независимой переменной соответствует не одно, а некоторое множество возможных значений зависимой переменной или, иначе говоря, определенное (условное) распределение этой переменной. Статистическая зависимость может быть как корреляционной (когда каждому значению одной переменной соответствует определенное условное математи- ческое ожидание или среднее значение другой переменной), так и регрессион- ной (где рассматривается односторонняя зависимость случайной переменной от одной (или нескольких) неслучайной независимой переменной. 5.1. Корреляционная зависимость Количественная оценка степени зависимости между переменными полезна, даже если не ставится каких-либо других задач, кроме этой. Коэффициент корреляции является мерой степени линейной взаимосвязи между двумя переменными. Он
Корреляционная зависимость нормирован таким образом, что корреляция, равная +1, показывает, что точки лежат на прямой линии с наклоном вверх (положительная линейная зависи- мость) - это один полюс корреляции; тогда как корреляция, равная -1, означает, что точки данных лежат на прямой линии, наклоненной вниз (отрицательная за- висимость) - это другой полюс корреляции. Корреляция, равная нулю, характери- зует отсутствие линейной взаимосвязи. Значение коэффициента корреляции меж- ду нулем и одним из двух экстремальных значений (+1,-1) говорит о наличии некоторой линейной взаимосвязи. Вообще, для качественной оценки тесноты корреляционной взаимосвязи общепринятой является следующая классификация (для коэффициента корреляции г); > 0 < г< 0,2 - очень слабая корреляция; > 0,2 < г < 0,5 - слабая корреляция; > 0,5 < г < 0,7 - средняя корреляция; > 0,7 < г< 0,9 - сильная корреляция; > 0,9 < г < 1,0 - очень сильная корреляция. 5.1.1. Корреляционная диаграмма В качестве исходных данных для рассмотрения корреляционной зависимости используем сведения об уровне среднегодовых цен на каучук, поступивший на рынки Нью-Йорка (из всех источников) и Сингапура (из Малайзии) в 1970— 1997 годах. Цены указаны в долларах США за фунт. Создадим (по правилам, изложенным в главе 1) исходный файл SPSS. В дан- ном случае он называется Каучук и показан на рис. 5.1. Чтобы рассмотреть корреляцию между временными рядами, выполним по- следовательность команд Графики > Рассеяния. В открывшемся окне Диа- грамма рассеяния, показанном на рис. 5.2, выберем позицию Простая, нажмем кнопку Задать и выйдем в окно настройки корреляционной диаграммы (рис. 5.3), в котором можно установить переменные по осям последней. Если в ячейку Установить маркеры ввести переменную Год, то каждая точка на полученной корреляционной диаграмме будет помечена (с помощью цвета) обозначением года. Как мы уже знаем, после нажатия кнопки ОК включается блок формирова- ния корреляционной диаграммы, изображение которой показано на рис. 5.4. На этой диаграмме корреляция представлена образно, в виде облака рас- сеяния точек, образующих обе выборки. Более лаконичная и формализован- ная оценка корреляции выражается коэффициентом корреляции, который характеризует тесноту связи между двумя переменными. Чтобы получить такие оценки, в окне редактора SPSS при открытом файле Каучук нужно выполнить последовательность команд Анализ > Корреляция > Парные. В результате открывается диалоговое окно Парные корреляции (рис. 5.5), где в поле Переменные вводятся с помощью кнопки ► | те переменные, для которых исследуется корреляция. В данном случае это Сингапур и Нью- Йорк.
Глава 5 V Корреляция и статистика Рис. 5.1 ▼ Окно редактора SPSS с файлом Каучук Рис. 5.2 ▼ Окно Диаграмма рассеяния Далее обратим внимание на то, что в диалоговом окне предлагается выбрать оценку коэффициента корреляции (или любое их сочетание): по Пирсону, по Кендаллу, по Спирмену. Если распределение переменной близко к нормальному, мы имеем дело с корреляцией по Пирсону. Если распределение переменной су- щественно отличается от нормального или переменная является ранговой, то можно использовать коэффициент ранговой корреляции (корреляция Спирмена), ко- торый определяет степень линейной вза- имосвязи между двумя переменными после того, как исходные значения переменных будут заменены их рангами. Другим критери- ем или мерой ранговой связи является коэф- фициент (т-b) Кендалла. В SPSS выдаются значения коэффициен- та корреляции вместе с результатами про- верки значимости. Для каждого значения корреляции выполняется двусторон- ний тест на значимость. Выдвигается нулевая гипотеза, состоящая в том, что в генеральной совокупности отсутствует линейная взаимосвязь (положительная или отрицательная) между двумя переменными. Если требуется определить од- ностороннюю значимость, когда устанавливается направление или знак предпо- лагаемой зависимости, а наличие зависимости противоположного направления
Корреляционная зависимость Рис. 5.3 ▼ Окно настройки корреляционной диаграммы можно не принимать во внимание, то в окне Парные корреляции (см. рис. 5.5) надо выбрать позицию Односторонний. На практике пользователи обычно заинтересованы в определении как прямой, так и обратной взаимосвязи, по- этому чаще используется двусторонний критерий значимости.
Глава 5 ▼ Корреляция и статистика Рис. 5.5 ▼ Окно Парные корреляции с указанными переменными Если в окне Парные корреляции нажать кнопку Параметры, то появится окно Парные корреляции: Параметры (рис.- 5.6), а вместе с ним возможность задать следующие статистики для корреляции Пирсона: > средние и стандартные отклонения, выводимые для каждой переменной; > суммы перекрестных произведений отклонений и ковариации, определяе- мые для каждой пары переменных. Сумма перекрестных произведений отклонений равна сумме произведений переменных, скорректированных по среднему. Ковариация - это ненормированная мера связи между пере- менными, которая равна сумме перекрестных произведений отклонений, деленной на N-1. Обработка пропущенных значений может проводиться по одному из следу- ющих вариантов: > исключать наблюдения попарно. Наблюдения с пропущенными значени- ями одной или обеих переменных в паре, для которой вычисляется коэф- фициент корреляции, исключаются из анализа. В вычислении каждого коэффициента участвуют все наблюдения для данной пары переменных за исключением пропущенных значений. Это может привести к тому, что набор коэффициентов будет вычислен для разного числа наблюдений; Рис. 5.6 ▼ Окно Парные корреляции: Параметры
Корреляционная зависимость > исключать наблюдения целиком. Наблюдения с пропущенными значени- ями для какой-либо переменной исключаются из вычислений для всех корреляций. Зададим одновременный вывод всех трех коэффициентов. Итоговые табли- цы показаны на рис. 5.7 (по критерию Пирсона) и 5.8 (по критериям Кендалла и Спирмена). Мобильные таблицы SPSS - таблица! ДНЯ И £айл Древка Виа Ват-дока Мобильнаяхаблица Формат 2 Корреляции НЬЮ.ЙОРК СИНГАПУР НЬЮ_ИОРК Корреляция Пирсона Знч. (2-сторон) N 28 ,910* ,000 28 СИНГАПУР Корреляция Пирсона Знч.(2-сторон) N ,910* ,000 28 1 28 **- Корреляция значима на уровне 0.01 (2-сторон). Рис. 5.7 т Таблица по критерию Пирсона Файл Правка В»$.тВстзвкггМ 2 Мобильные таблицы SPSS - таблица? Рис. 5.8 ▼ Таблица по критериям Кендалла и Спирмена Отметим характерные особенности данного конкретного анализа. Во-первых, на указанных рисунках представлены матрицы взаимных парных коэффициентов корреляции, которая охватывает все возможные парные соче- тания показателей (на рисунках это не так заметно, так как в примере фигури- рует всего два показатсля-переменных).
V Г лава 5 т Корреляция и статистика Во-вторых, можно отметить весьма высокую степень корреляции по всем трем критериям. Исхрдя из этого, можно констатировать, что в данном случае имеет место как сильная (по Кендаллу), так и очень сильная (по Пирсону и Спирмену) корреляция. Кроме того, она положительна, то есть, с ростом од- ного показателя возрастает значение и другого. В-третьих, как следует из примечания, при двустороннем распределении корреляция считается значимой при уровне вероятности, составляющем 0,01. В нашем случае данный уровень равен 0,000 < 0,01. Это означает, что нулевая гипотеза, предполагающая, что корреляция является случайной, должна быть отвергнута, и, следовательно, принимается альтернативная ей, в соответствии с которой корреляция неслучайна и значима. 5.1.2. Частичная корреляция Коэффициенты частной корреляции определяют тесноту связи значений двух переменных, исключая влияние других переменных. В ряде случаев значение коэффициента корреляции между двумя переменными, хотя и статистически значимое, может оказаться следствием не только некоторой причинной зави- симости между этими переменными, но и результатом влияния какой-либо третьей переменной, которая так или иначе связана с каждой из первых двух. Такую переменную будем называть искажающей. Для устранения этого влияния необходимо определить так называемую частичную корреляцию. Рассмотрим данную ситуацию на конкретном примере. На рис. 5.9 показано окно редактора SPSS с файлом Компании, содержащем данные о деятельности 25 компаний США в 1996 году. Переменные обознача- ют следующее: > Доход - чистый доход компании в млрд, долларов США; > • Оборот - оборот капитала компании в млрд, долларов США; > Капитал - использованный компанией капитал в млрд, долларов США; > Персонал - численность служащих компании в тысячах; > КПТЛЗ - рыночная капитализация компании в млрд, долларов США. Если определить коэффициент корреляции между переменными, не прини- мая во внимание возможное наличие дополнительных искажающих перемен- ных (аналогично тому, как это было сделано в предыдущем разделе), то по методу Пирсона мы получим результат, показанный на рис. 5.10. При этом коэффициент корреляции равен 0,912. Для того чтобы рассчитать частичную корреляцию, выполним последова- тельность команд Анализ > Корреляции > Частные и откроем диалоговое окно Частные корреляции (рис. 5.11). В качестве основных переменных, для которых определяется корреляцион- ная связь, выступают оборот и персонал. Искажающие переменные устанавли- ваются по нашему выбору: в данном случае в качестве них указывается сначала капитал, затем доход. Коэффициенты частичной корреляции для каждой из
Корреляционная зависимость [ТТ] Компании SPSS Редактор Данных BEJE3i| 3>айя Правее Йиа Данные Преображать Анализ Графики Сервис Окно 2 Ggialal о|:.| s| ь|&1 м| -eifel Elai-li ;| Щ| ! оборот капитал персонал кптлэ пер т -т тОйр и: пер пер пер — 1 .9 1,7 31,3! 18,9 43,0! 40.9 13,4 13,7 64,7! 40.5 3 .7 4,5 18,5 24,0 38.9 1/ 10,0 4.8 50,2 38.5 S 2,6 20,0 21,8 106.0 37.3 . Б 1.3 15.0 5,8 96.6 26,5 4.1 137,1 99.0 347.0 37,0 — 1,6 17.9 20,1 85,6 36,8 9 6.9 165,4 60,6 745.0 36,3 10 ,4 2,0 1.4 4.1 35,3 - 11 1.3 6.8 8.0 26.8 35,3 12 1.9 27.1 18.9 42.7 35,0 13 1.9 134 13.2 61,8 26,2 14 1.4 9,8 12.6 212,0 33.1 ШШ5 ,4 19,5 12,2 105,0 327 ШШ6 ,8 68 3.2 33,5 32,1 1.8 27,0 130 142,0 30,5 18 ,9 12,4 6,9 96,0 29,8 19 1.1 17,7 15,0 140,0 25,4 20 1.9 12.7 11.9 59,3 29,3 21 -.9 21.4 1,6 131,0 29,2 22 1.3 13,5 8,6 70,7 29,2 ‘ I > f\ Данные Л Перемен те / .1 ISPSS Процессор готов ятш» Ж1ЖЙ» ЯЖЬТТу'! Рис. 5.9 ▼ Файл Компании Мобильные таблицы SPSS - таблица! ВВЕЗ £айл Правка Вца Вставка 2 Корреляции ОБОРОТ ПЕРСОНАЛ ОБОРОТ Корреляция Пирсона Знч.(2-сторон) N 1 25 .912* .000 25 ПЕРСОНАЛ Корреляция Пирсона Знч.(2-сторон) N ,912*’* .000 25 1 25 **. Корреляция значима на уровне 0.01 (2-сторон.). Рис. 5.10 г Коэффициент корреляции, полученный по методу Пирсона искажающих переменных по отдельности показаны на рис. 5.12. Они равны соот- ветственно 0,8795 и 0,7029, то есть меньше, чем первоначальное значение (0,912). Теперь попробуем выяснить, какой будет частичная корреляция, если в ка- честве искажающих переменных указать и капитал и доход одновременно. В результате должно получиться, что коэффициент частичной корреляции ра- вен 0,815 (рис. 5.13).
Глава 5 ▼ Корреляция и статистика ; Частные корреляции 3 $> ДОХОД 1еременнЫк $> кап_лог ;^> перс_лог Вставка I ф оборот '#> персонал Отмена I Справка | ; | Лв^ОрОк^ Р Ёыводйг^^ Лаеаметрьь..| Рис. 5.11т Окно Частные корреляции ^Документ! - Microsoft Word \ ?.?ср.у ж х Уб & да ё I а а у |'х а <> н«' о-' - • < fflns^.^,n - Обычный + Сои - Courier New -10 - | X К 2 Tjgjg 3 В tfc , Q - # - Д, - хг «г , й|; Англо-Русский -/Общий -аиа Исправления в измененном докумен' т ПекйМТЬ:*. | О’-[ta-|l>{BB._____________________ LlJHMg' I - I - г • i з • I 4 . I 5 i 6 I 7 I 6 I 9 I 10 I 11 I 12 > 13 ' ' 14 - I 15 I 1Ь I ""«zl - - ARTIAL CORRELATION COEFFICIENTS - - - - Controlling f or. . КАПИТАЛ 1. ОБОРОТ ПЕРСОНАЛ ОБОРОТ 1,0000 ,8795 7 : ПЕРСОНАЛ ,8795 1,0000 - “ TvvJJ ARTIAL CORRELATION COEFFICIENTS - - - Controlling for. . ДОХОД ^ОБОРОТ ПЕРСОНАЛ ОБОРОТ 1,0000 ,7029 ПЕРСОНАЛ ,7029 1,0000 »®3J] _____________________________________________I f— —— -я—jjp-ёПэ-jg^—j рёгЯ ^дл] gg KSJOS] г£ЭП Г7 “~1 [77] Рис. 5.12 т Коэффициенты частичной корреляции Следует пояснить, что в таблицах, представленных на рис. 5.12 и 5.13, кроме непосредственных значений коэффициентов корреляции, указаны дополни- тельно: >• уровень значимости (во всех случаях р = 0,000); > количество незакрепленных исходных значений (за вычетом степеней свободы) 22 и 21.
Регрессионная зависимость Документ! - Microsoft Word №Е2 - Times New Roman ПОКОИТЬ - I t> •> ’! J' Ш( В »; : I $айл Правка Йид Вставка Формат Сджис Таблица Лено Справка gROMT 4^ Обычный ;| Англо-Русский » Общий 4 Исправления в измененном докупен - - 7—..^ A R Т I A L CORRELATION COEFFICIENTS --------- control ling for. доход капитал ОБОРОТ ПЕРСОНАЛ ОБОРОТ 1,0000 ,8150 ( 0) ,(,„_21) Р= , Р= ,000 ПЕРСОНАЛ ,8150 ( 21) Р= ,000 1,0000 С......0) 7 аЩзд] ............................................................................ : В [Стр. Г ~ Рам 1 ~ 1/1 ~] |На 7,~9си Ст 17 КолТ~~] [здп] рот]gn] gw]|англййпмй| ПЗПI.]I I ' Рис. 5.13 » Коэффициент частичной корреляции при указании в качестве искажающих переменных капитала и дохода 5.2. Регрессионная зависимость 5.2.1. Парная линейная регрессия С помощью корреляционного анализа можно установить, насколько тесной явля- ется связь между двумя и более случайными величинами. Но он не позволяет пред- сказать значение некоторой величины по заданным значениям других величин. В регрессионном анализе рассматриваются методы решения задач подобного рода, в том числе односторонняя зависимость случайной переменной У от одной (пар- ная регрессия) или нескольких (множественная регрессия) неслучайных незави- симых переменных X. Такая зависимость может возникнуть, например, когда при каждом фиксированном значении ^соответствующие значения ^подвержены слу- чайному разбросу, обусловленному действием ряда неконтролируемых факторов. Начнем с рассмотрения самого простого случая - парной линейной регрессии. Исходные предположения для определения регрессии состоят в том, что: > зависимая и независимые переменные должны быть количественными. Качественные переменные (фамилия, отрасль народного хозяйства, ре- гион и т.д.) необходимо перекодировать в фиктивные нумерованные пе- ременные или в другие типы количественных переменных;
Глава 5 V Корреляция и статистика ► для каждого значения независимой переменной зависимая переменная должна быть распределена нормально; > обязательна постоянная дисперсия распределения зависимой перемен- ной для всех значений независимой переменной; > взаимосвязи между зависимой и каждой из независимых переменных долж- ны быть линейными, и все наблюдения должны быть независимыми. Вернемся к примеру из предыдущего раздела о частичных корреляциях, то есть к файлу Компании. Последовательность выполнения команд на этот раз будет такой: Анализ > Регрессия > Линейный. В появившемся диалоговом окне Линейная регрессия (рис. 5.14) укажем в качестве независимой перемен- ную персонал, а в качестве подчиненной - переменную Оборот. [хШ t Пинейнаи регрессия Ваееш. ИНК » | Сгагистжи..| £рафжи- | Совраиить... | Параметры...| Рис. 5.14 ▼ Окно Линейная регрессия Ячейка Метод в данном окне показывает способ отбора переменных в ана- лиз. Если выбрать Принудительный метод, то переменные будут вводиться из перечня за один шаг. Добавление означает, что переменные включаются в уравнение регрессии по одной на основе критерия ввода. В случае Исключе- ния все переменные из перечня вводятся в уравнение за один шаг, а затем уби- раются по одной на основе критерия удаления. Шаговый метод означает, что переменные из блока будут анализироваться на каждом шаге включения в урав- нение и исключения из него. Независимо от выбранного метода включения переменных, каждая из них должна удовлетворять критерию дотска (по умол- чанию равного 0,0001) для того, чтобы быть внесенной в уравнение. Кроме того, переменная не будет включена в модель, если это приведет к снижению величины допуска до уровня меньшего, чем значение критерия Все независимые переменные добавляются в одну регрессионна то модель. Од- нако это не мешает тому, что для разных наборов переменных могут 'ь;ть заданы различные методы отбора последних. Чтобы добавить в регрессною-: :< .равнение второй блок переменных, надо щелкнуть левой кнопкой мыши по к-: с п:-:е Сам. |.
Регрессионная зависимость Окно Линейная регрессия предоставляет пользователю и другие дополни- тельные возможности: > объединять независимые переменные в блоки и задавать разные мето- ды ввода в уравнение регрессии для разных подмножеств переменных (стрелка прокрутки в ячейке Метод); ► выбирать переменную отбора для того, чтобы ограничить анализ подмно- жеством наблюдений, имеющих конкретные значения для этой перемен- ной (ячейка Переменная отбора); > указывать переменную для идентификации наблюдений (точек) на графи- ках (ячейка Метки наблюдений); > применять взвешенный метод наименьших квадратов (МНК) и помещать числовую весовую переменную в поле веса (кнопка вж«амнк»|. V ас смотрим, иаиример, как задается пере- менная отбора. Предположим, что в качестве такой переменной выступает капитал, кото- рый мы вставляем в ячейку Переменная от- бора и нажимаем кнопку пищ»». [. В результате на экране появится диалоговое окно Линей- ная регрессия: Задание правила (рис. 5.15), в котором указывается условие отбора. На- пример, в данном случае значение перемен- ной определяется больше чем 18,5. Рис. 5.15 ▼ Окно Линейная регрессия: Задание правила Затем в окне Линейная регрессия: Статистики нужно отобрать те показатели (статистики), которые будут выданы в результате расчета регрессии (рис. 5.16). К ним можно отнести: > коэффициенты регрессии: - ненормированные коэффициенты при зависимых переменных и кон- станта; их стандартные ошибки; значение Т-статистики для коэффици- ентов и двусторонний уровень значимости Т-критерия; - 95-процентные доверительные интервалы для каждого коэффициента регрессии; - ковариационная и корреляционная матрицы; > данные по отклонениям от рассчитанной регрессии (остатки): - статистика по отклонениям (максимум, минимум, среднее и др.); - отклонения, превышающие заданное число стандартных отклонений; > набор показателей, характеризующих рассчитанную регрессию: - согласие модели (перечень переменных, включаемых в модель и исклю- чаемых из нее; множественный коэффициент R, представляющий со- бой коэффициент корреляции; R2 - коэфициент детерминации, оцени- вающий долю дисперсии, объясняемой регрессией, в общей дисперсии рассматриваемого параметра; скорректированный коэффициент R2 по числу степеней свободы; стандартная ошибка оценки коэффициентов; таблица дисперсионного анализа);
Глава 5 ▼ Корреляция и статистика Линейная регрессия: Статистики □I р ' | проаол*ить| Г ИзмовииеВ-коаарог ; : -----------! И’В" &ГМ0«: Г 1 Дескриптивные статист!^ ---------——J -Остатки— ..........— -••-.•••• : :i"j’ П Диагностика по нвбяоае»«»4 С еь|5росами за |з ста'-д-Ьй™^* отклонениями) Г Вс1и^^I Рис. 5.16 ▼ Окно Линейная регрессия: Статистики - изменение коэффициента R2 (показывает собственно изменение, изме- нение статистики Фишера F и значимость этого изменения F); - дескриптивные статистики (выдается число наблюдений без пропус- ков, среднее значение и стандартное отклонение для каждой анализи- руемой переменной, корреляционная матрица с односторонним уров- нем значимости и число наблюдений для каждой корреляции); - парные, частные и частичные корреляции; - диагностика коллинеарности. Следующая группа опций, которые могут быть заданы в диалоговом окне Линейная регрессия, - параметры настоящей процедуры. Для этого следует б окне Линейная регрессия (см. рис. 5.14) нажать кнопку пге»«гры..| и в открыв- шемся окне Линейная регрессия: Параметры (рис. 5.17) задать определенные настройки для расчета регрессии, а именно: > критерий шагового метода, применяемый для отбора переменных при добавлении, исключении или шаговом методе. Переменные могут быть добавлены в модель или исключены из нее на основе значимости (веро- ятности) значения F-статистики, либо самого значения F-статистики. При этом как для вероятности, так и для значения по умолчанию указываются пороговые значения; > включить в уравнение константу. По умолчанию регрессионная модель содержит свободный член - константу. Если в этой ячейке установить флажок, то линия регрессии будет пересекать ось ординат в точке, опре- деляемой константой; если снять флажок, то - через начало координат; > различные варианты отношения к пропущенным значениям. Они могут быть исключены целиком, и в анализ включаются только реальные на- блюдения без пропущенных значений для всех переменных. Допускается попарное исключение пропущенных значений, тогда при вычислении коэффициентов корреляции, применяемых в процедуре регрессии, ис- пользуются только те наблюдения, у которых для данной пары перемен- ных присутствуют оба значения. Числа степеней свободы определяются минимальным попарным числом наблюдений. Для вычислений могут
Регрессионная зависимость Линейная регрессия: Параметры 31 [продолжить] Отмен» | Справка | - Критерий шагового мегааа ------? <о ш j Г Испадьзвмйъ значение F г Р Вкл|гчигь в уравнение константу г Проточенные значения—------ <• Исключать целиком [ Г1 Ифиючать попарно i Г” Заменить средним Рис. 5.17 ▼ Окно Линейная регрессия: Параметры использоваться все наблюдения, но пропущенные значения при этом иногда заменяются средним значением данной переменной. Теперь, когда мы определили возможности и варианты содержания резуль- тирующей информации, рассмотрим, как и в каких формах она выдается. Выходная информация представляется в форме документа, называемого Вывод}, где J~ порядковый номер документа. Структура документа показана на рис. 5.18. j" Вывод! SPSS Viewer ________________ ДПР З^айл Дравка йод Вставка Форсит Анализ £рафи<и Сервис Дкмо 2 ^i~O| Д • I Ш|ь| Ы &| ! | 1 (&| Вывод ” ЕРегрессия ^Заголовок Примечания ♦Qg Дескриптивные статистики Qj Корреляции Переменные введенные/иск Qg Сводка для модели : к ЩANOVA ' цЦ Коэффициенты Корреляции коэффициентов ..Диагностики коллинеарност ..Поточечная диагностика ..Статистики остатков Регрессия Дескриптивные статистики* ОБОРОТ ПЕРСОНАЛ Среднее 66,467 228,217 СТД. отклонение 66,4548 277,5509 а- Выбирая только наблюдения, для которых КАПИТАЛ» 18,5 Корреляции® ОБОРОТ ПЕРСОНАЛ Корреляция Пирсона ОБОРОТ ПЕРСОНАЛ 1,000 ,932 ,932 1,000 Знч. (1-сторон) ОБОРОТ ПЕРСОНАЛ .003 ,003 N ОБОРОТ ПЕРСОНАЛ 6 6 6 6 а. Выбирая только наблюдения, для которых КАПИТАЛ » |двойной щелчок-реааюггроватьМобилГ^ jSPSS Процессор готов ’ " )Й: 113.W: 254 пт. Рис. 5.18 т Структура документа ВыводЛ
Г лава 5 ▼ Корреляция и статистика В левой части документа приводится перечень фрагментов, включенных в его состав, - таблиц, текстов, графиков. В правой части показаны сами эти фрагменты. Для большей наглядности в документе Вывод1 представлены таб- лицы: первые две из них показаны уже на рис. 5.18, остальные - далее. Табличные формы начинаются с общих оценок для выбранных перемен- ных - средних значений, стандартных отклонений и количества точек N. При этом, как и было задано, в расчет принимаются лишь те точки, для которых значение переменной Капитал больше чем 18,5. В нашем случае таких точек шесть. Далее в таблице приводится корреляционная матрица. Так как данная мо- дель в настоящий момент включает две переменные, эта матрица размером 2x2 содержит один парный коэффициент корреляции (Кперсоналч>6орот) равный 0,932. Далее в этой же таблице приводится уровень значимости равный 0,003 < 0,05. Это говорит о том, что такой высокий уровень корреляции маловероятен, то есть статистически незначим (принимается нулевая гипотеза). На рис. 5.19 представлена таблица, имеющая вспомогательное значение и актуальная для построения множественной регрессии. Здесь показывается порядок подбора (введения и исключения) независимых переменных в процес- се определения коэффициентов регрессии. Таблицы на рис. 5.20 и 5.21 имеют непосредственное отношение к оценке качества полученной регрессии. Величина R представляет собой оценку мно- жественного коэффициента или индекса корреляции. Если имеется всего одна Переметь» введс Модель Введенные переменные 1 ПЕРСОНАЛ а. Отклик: ОБОРОТ Ь. Модель вычисляется наблюдениям, для ко енныеЛюключенные »>ь Исключенные переменные Метод Шаговый (Критери й: Вероятно сть F-ввода <=,050, Р-исключ ения>= .100). только тем по торых КАПИТАЛ » 18,5 Рис. 5.19т Данные для построения множественной регрессии Сводка для модели” Модель R Rквадрат Скорректи рованный Rквадрат Стд ошибка оценки Дурбим-У отсон 1 .912* ,831 ,823 16,2783 1,931 а. Предикторы: (константа) ПЕРСОНАЛ Ь. Отклик: ОБОРОТ Рис. 5.20 т Таблица со значениями Я2 и скорректированного FP
Регрессионная зависимость AHOVA6 Модель Сумма квадратов Ст св Средний квадрат F Знч 1 Регрессия Остаток Общее 29934,087 6094,580 36028,666 1 23 24 29934,087 264,982 112,967 ,000* а. Предикторы: (константа) ПЕРСОНАЛ Ь. Отклик: ОБОРОТ Рис. 5.21 т Таблица со значениями регрессии независимая переменная (как в данном случае), то множественный коэффици- ент корреляции R рассматривается просто как показатель корреляции между независимой и зависимой переменной. Если имеется несколько независимых переменных, то множественный коэффициент корреляции R является показа- телем корреляции между зависимой переменной и оптимальной линейной ком- бинацией независимых переменных (то есть характеризует предсказание зави- симой переменной). Таким образом, чем ближе R к единице, тем лучше подгонка или соответствие модели данным. Квадрат коэффициента корреляции Я есть индекс детерминации, определя- ющий качество построенной модели. Естественно, чем ближе R'2 к единице, тем лучше регрессия описывает связь между независимыми и зависимой пере- менной. Недостатком коэффициента детерминации является то, что он уве- личивается при добавлении новых независимых переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. Данное обстоятельство обуславливает целесообразность введения скорректированно- го коэффициента детерминации Я2, в который вносится поправка на возраста- ющее число независимых переменных. Обычно значения 7? и скорректирован- ного Я2близки. Если в множественной регрессии они существенно различаются, это говорит о том, что используется слишком много независимых переменных при недостаточном объеме выборки. В таком случае скорректированный Я® за- служивает большего доверия. Все эти перечисленные элементы и показаны в таблице на рис. 5.20. По своему математическому смыслу 7? характеризует долю от общей диспер- сии зависимой переменной У, объясняемую регрессией. Иначе говоря, коэффи- циент детерминации определяется как отношение дисперсии, обусловленной регрессией, к общей регрессии. Данные компоненты представлены на рис. 5.21. Таблица на рис. 5.22 содержит собственно коэффициенты регрессионной модели - как ненормированные, так и нормированные. В последнем случае предполагается, что нормированное уравнение регрессии проходит через на- чало координат, поэтому константа отсутствует. Смысл нормирования состоит в том, чтобы обеспечить сопоставимость элементов регрессии в случае, если ее переменные выражены в различных натуральных единицах (их обозначают в относительных единицах). Для оценки статистической значимости коэффициентов регрессии рассчиты- ваются t-критерий Стъюдента и доверительные интервалы каждого из коэффици- ентов. Выдвигается нулевая гипотеза о случайной природе коэффициентов, то
Глава 5 ▼ Корреляция и статистика Коэффициенты3 Модель Ненормированные, коэффициенты Нормиро ванные коэффиц иенты 1 Знч. 95% доверительный интервал для В В Стд. ошибка Бета Нижняя граница Верхняя граница 1 (Константа) -1,498 4,130 -.363 ,720 •10,042 7,045 ПЕРСОНАЛ ,236 ,022 .912 10,629 ,000 ,190 ,282 а. Отклик: ОБОРОТ Рис. 5.22 ▼ Таблица с коэффициентами регрессионной модели есть о их незначимом отличии от нуля. Сравнивая фактическое (/) и критичес- кое (табличное) значения (Знч), принимаем или отвергаем нулевую гипотезу. Если Знч < t, нулевая гипотеза отклоняется, то есть отличия коэффициентов от нуля не случайны. Если наоборот, Знч > t, то нулевая гипотеза не отклоняет- ся, и признается случайная природа формирования коэффициентов регрессии. Как следует из таблицы на рис. 5.22, нулевая гипотеза отвергается для коэффи- циента при переменной, который признается случайной величинной, но его от- личие от нуля считается статистически значимым. Для константы нулевая гипоте- за не отвергается: ее отличие от нуля является случайным, то есть статистически незначимым. Этот вывод подтверждается сравнением значений коэффициентов с их доверительными интервалами. Если в границы доверительного интервала попадает ноль, то есть нижняя граница отрицательна, а верхняя положительна, оцениваемый параметр является нулевым. В таблице на рис. 5.23 показаны минимальная и максимальная границы зна- чений зависимой переменной и итоги по остаткам (эти данные представлены как для нормированной, так и для ненормированной переменной). Статистики остатков3 Минимум Максимум Среднее Стд. отклонение N Предсказанное значение' -.529 174,628 25,512 35,3165 25 Остаток -38,821 56,564 ,000 15,9355 25 Норм.предсказанное -.737 4,222 ,000 1,000 25 значение Норм. Остаток -2,385 3,475 ,000 ,979 25 а. Отклик: ОБОРОТ Рис. 5.23 ▼ Таблица с границами значений зависимой переменной и итогам по остаткам Теперь посмотрим, какие графические возможности предусмотрены програм- мой для парной линейной регрессии. SPSS позволяет получить график регресси- онной прямой с нанесением на нее облака рассеяния точек. Правда, цепочка операций, которые необходимо для этого сделать, достаточно длинна. Вернемся к окну Линейная регрессия (см. рис. 5.14) и выполним последова- тельно команды Графики > Рассеяния. В результате откроется окно Диаграм- ма рассеяния (см. рис. 5.2), в котором нужно выбрать позицию Простая, а затем - Задать.
Регрессионная зависимость В следующем окне с тем же названием - Диаграмма рассеяния (рис. 5.24) - зададим оси Y (переменная Оборот) и X (Персонал) и нажмем кнопку ОК. Мы получим диаграмму, представляющую собой облако рассеяния исходно- го множества точек, для которых необходимо построить линию регрессии - рис. 5.25 (напомним, что в этом разделе мы имеем в виду парную линейную регрессию). Если мы теперь дважды щелкнем левой кнопкой мыши по облаку на диаграм- ме, то на экране появится окно SPSS Редактор Диаграмм (рис. 5.26), в кото- ром надо нажать на кнопку д|, а затем в следующем окне Диаграмма рассея- ния: Параметры (рис. 5.27) установить флажок в ячейке Итог, относящейся к Аппрокс. линия. ! Диаграмма рассеяния ф доход Фкапитал Ф КГГГЛЗ Ось¥; 8 I \£> оборот Вставка I ,____ Мепггь наблюдения гкк Отмена | Справка | {-Шаблон---------------------------; | Г Взять спецификации диаграммы их Заголовки.. | Параметры...| Рис. 5.24 ▼ Окно Диаграмма рассеяния с заданными осями /и X Рис. 5.25 ▼ Диаграмма с облаком рассеяния исходного множества точек
Глава 5 ▼ Корреляция и статистика ^График! SPSS Редоктор Диаграмм ИГ"1 Е £айл Правка Виа Галерея Диаграмма £яаы Фодат &МЗЛ<5 ЕрвФмкм 2 (SPSS Процессор готов* Рис. 5.26 v Окно SPSS Редактор Диаграмм Рис. 5.27 т Окно Диаграмма рассеяния: Параметры После нажатия на кнопку ОК на экран будет выведено окно SPSS Редактор Диаграмм на фоне уже знакомого окна с файлом Выво/J (рис. 5.28). ^График! SPSS Редок op Диа| рамм V4I**1E3 Файл Правка йиа Галерея Диграмма £яаы Форивт ^мал«э Срофики 2 ^[(^1' "-"-г Р| |а|до|^|т|а|Ы«Н>1 А] >Й|| Рис. 5.28 г Окно SPSS Редактор Диаграмм на фоне окна с файлом Выводи
Регрессионная зависимость Рис. 5.29 ▼ Регрессионная прямая Если теперь закрыть файл Выводу то нашему взору предстанет искомая ре- грессионная прямая с нанесенным на нее облаком исходных точек, как это по- казано на рис. 5.29. Рассматривая этот график, мы можем заметить, что хотя многие точки рас- положены рядом с линией регрессии, некоторые находятся от нее на значи- тельном удалении. Для каждой точки разность между значением зависимой переменной и значением, предсказанным уравнением (значением на прямой), называется остатком. Точки, расположенные выше линии, имеют положитель- ные остатки (они «переоценены»), а точки, расположенные ниже линии, обла- дают отрицательными остатками (они «недооценены»). Те из них, что попада- ют на линию, имеют нулевые остатки (точное предсказание). Точки с относительно большими остатками заслуживают внимания, посколь- ку они представляют случаи, когда регрессия или линия предсказания работа- ет плохо. В SPSS процедура регрессии может дать информацию о больших ос- татках, а также представить их в стандартизованном виде. Выбросы - точки, расположенные далеко от основной массы себе подобных, - представляют ин- терес в регрессии, так как могут оказывать значительное влияние на уравне- ние (особенно, если объем выборки мал). Кроме того, выбросы могут иметь большие остатки, что тоже является причиной повышенного к ним влияния. При необходимости более детального анализа регрессии можно получить различного рода частные графики. Для этого вернемся к окну Линейная ре- грессия (см. рис. 5.14) и нажмем кнопку tww*.. |. Диалоговое окно Линейная регрессия: Графики (рис. 5.30) дает возможность получить вспомогательные графики, которые могут помочь при проверке предположений о нормальнос- ти, линейности и равенстве дисперсий. Кроме того, они полезны также для
Глава 5 ▼ Корреляция и статистика Линейная регрессия: Графики □I ZPREO "ZRESID "DRESID "ADJPRED "SRESID "SDRESID j Продолжить | Справка | П йыаать все частные графики | Г* Нормальный ввроягнеспый график Рис. 5.30 ▼ Диалоговое окно Линейная регрессия: Г рафики выявления выбросов, необычных наблюдений и влияющих наблюдений. Эти величины можно сохранить в качестве новых переменных, и тогда они стано- вятся доступными в редакторе данных для построения графиков совместно с независимыми переменными. Можно построить диаграммы для любой пары переменных из следующего списка: > зависимая переменная DEPENDNT; > стандартизованные предсказанные значения *ZPRED; > стандартизованные остатки *ZRESID; > удаленные остатки *DRESID; > скорректированные предсказанные значения *ADJPRED; > стьюдентизированные остатки *SRESID; > стьюдентизированные удаленные остатки *SDRESID. Если рассматривается две или более зависимых переменных и регрессии строятся отдельно для каждой из них, можно построить частные графики - диаграммы рассеяния остатков для каждой независимой переменной и остат- ков для зависимой переменной. В этом случае в окне Диаграмма рассеяния: Графики (см. рис. 5.30) необходимо установить флажок в ячейке Выдать все частные графики. При необходимости можно получить гистограммы стандар- тизованных остатков и нормальные вероятностные графики, сравнивающие распределение стандартизованных остатков с нормальным распределением. 5.2.2. Множественная линейная регрессия Множественная линейная регрессия является прямым обобщением простой ре- грессии. Вместо одной независимой переменной в множественной регрессии используется несколько. За основу возьмем пример, приведенный в предыдущем разделе (файл Ком- пании). Примем в качестве зависимой переменной Доход, независимыми пе- ременными установим Персонал, Капитал, КПТЛЗ (Капитализация). Открыв уже знакомое диалоговое окно Линейная регрессия (см. рис. 5.14), использо- ванное ранее для парной регрессии, занесем эти переменные в соответствую- щие ячейки, как это показано на рис. 5.31.
Регрессионная зависимость Линейная регрессия В Рис. 5.31 ▼ Окно Линейная регрессия с указанными переменными Далее выберем шаговый метод отбора. В окне Линейная регрессия: Графи- ки (см. рис. 5.30) ввёдем стандартизованные остатки *ZRESID в поле Y, стан- дартизованные предсказанные значения * ZPRED в поле X и установим флажки в поле Гистограмма и Нормальный вероятностный график. Смысл после- дних двух действий состоит в том, что это позволяет легко классифицировать остатки в зависимости от их величины (если они распределены по нормально- му закону): стандартизованные остатки, превосходящие по абсолютной вели- чине два стандартных отклонения, должны появляться в 5% случаев; превос- ходящие три стандартных отклонения - менее чем в 1 % случаев. Теперь откроем диалоговое окно Диаграмма рассеяния: Статистики (см. рис. 5.16). Если установить флажок в ячейке Диагностика по наблюдениям, то будет выдаваться информация обо всех наблюдениях, где стандартизован- ный остаток превышает три стандартных отклонения. Теперь, нажав кнопку' ОК, рассмотрим выходную информацию множествен- ной регрессии. В таблице, показанной на рис. 5.32, фиксируется процесс пошагового вклю- чения/ исключения переменных в регрессионную модель. Как видно из рисунка, очередность включения переменных такова: Персо- нал, Капитал. Переменная КПТЛЗ (Капитализация) не была включена, также не потребовалось исключать какую-либо переменную. Можно отметить следу- ющие основания или критерии для такой приоритетности, хотя они и не явля- ются полностью взаимно независимыми: > статистическая значимость, связанная с принятием данной переменной в регрессию. Значение критерия Фишера для включения каждой из этих переменных < 0,05, для исключения > 0.05. Другими словами, нулевая ги- потеза, состоящая в том, что результат действия случаен и статистически незначим, отвергается в первом случае и не отвергается во втором;
Глава 5 ▼ Корреляция и статистика Переменные введенные/искгооченные* Модель Введенные переменные Исключенны е переменные Метод 1 2 ПЕРСОНАЛ КАПИТАЛ Шаговый (Критери й: Вероятно сть F-ввода <= ,050, F-исключ ения»= .100). Шаговый (Критери й: Вероятно сть F-ввода *=.050, F-исключ ения»= .100). а. Отклик: ДОХОД Рис. 5.32 т Таблица выходной информацией множественной регрессии > модель 1 (только переменная Персонал) - рис. 5.33 - объясняет почти 70% вариации зависимой переменной (7? = 0,688, скорректированный 7? = 0,675, что несущественно). Модель 2, где добавляется переменная Капитал, поднимает Я2, а значит, и уровень объяснения вариации до 0,748 (0,726) или меньше чем на 9%. То есть основная доля вариации ' объясняется переменной Персонал. При построении уравнения множественной регрессии может возникнуть проблема мулътиколлинеарности факторов, их тесной линейной взаимозависимо- сти. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах. Обычно считается, что две переменные явно коллинеарны или находятся между собой в линейной зависимости, если их коэффициент корреляции > 0,7. Однако по величине парных коэффициентов корреляции обнаруживается Мобильные таблицы SPSS таблица! ин в Файл Правка Вф Вставке Мобильная хаблица Формат 2 Сводка для модели0 Модель R R квадрат Скорректи рованный R квадрат Стд. ошибка оценки 1 2 ,830а ,865ь ,688 ,748 .675 ,726 .8210 .7540 а. Предикторы: (константа) ПЕРСОНАЛ Ь. Предикторы: (константа) ПЕРСОНАЛ, КАПИТАЛ с. Отклик: ДОХОД Рис. 5.33 г Таблица со сводкой для моделей
Регрессионная зависимость лишь явная коллинеарность факторов. Наибольшие трудности при использо- вании аппарата множественной регрессии возникают при наличии стохасти- ческой (скрытой) мультиколлинеарности: чем она сильнее, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с использованием 7?. Точных количественных критериев для определения на- личия или отсутствия скрытой коллинеарности не существует - можно гово- рить лишь о некоторых эвристических подходах к ее выявлению. Для оценки мультиколлинеарности факторов используется определитель матрицы парных коэффициентов корреляции между факторами: чем ближе он к нулю, тем сильнее мультиколлинеарность факторов и ненадежнее результа- ты множественной регрессии, и наоборот. Покажем это на примере. Для уравнения регрессии, рассмотренного выше (где в качестве зависимой переменной выступает Доход), сравним различные варианты набора незави- симых переменных: > Капитал,Персонал; ► Капитал,Персонал, КПТЛЗ; > Капитал,Персонал, КПТЛЗ, Оборот. Для каждого из этих вариантов построим матрицу парных коэффициентов корреляции и рассчитаем ее определитель. Данная операция (вычисление определителя) реализуется в другом разделе SPSS, формально не связанном с регрессией. Откроем исходный файл Компании (см. рис. 5.14) и выполним последова- тельность команд Анализ > Снижение размерности > Факторный анализ. В диалоговом окне Факторный анализ зададим сначала переменные Капитал и Персонал, после чего нажмем кнопку Дескриптивные (рис. 5.34). Затем в окне Факторный анализ: Дескриптивные (рис. 5.35) активизируем позиции для корреляционной матрицы Коэффициенты и Детерминант. Снова скомандуем ОК. Повторим эту процедуру еще два раза, задавая последовательно в качестве переменных Капитал, Персонал, КПТЛЗ и Капитал, Персонал, КПТЛЗ, Оборот. Рис. 5.34 v Окно Факторный анализ
Глава 5 ▼ Корреляция и статистика В табл. 5.1- 5.3 показаны результаты - матрицы парных коэффициентов кор- реляции и значения детерминантов для каждого из перечисленных вариантов. Таблица 5.1т Корреляционная матрица для двух переменных КАПИТАЛ ПЕРСОНАЛ Корреляция КАПИТАЛ 1,000 ,713 ПЕРСОНАЛ ,713 1,000 Детерминант = ,492 Таблица 5.2 т Корреляционная матрица для трех переменных КАПИТАЛ ПЕРСОНАЛ КПТЛЗ Корреляция КАПИТАЛ 1,000 / ,713 ,348 ПЕРСОНАЛ ,713 1,000 ,115 КПТЛЗ ,348 ,115 1,000 Детерминант = ,415 Таблица 5.3 т Корреляционная матрица для четырех переменных КАПИТАЛ ПЕРСОНАЛ КПТЛЗ ОБОРОТ Корреляция КАПИТАЛ 1,000 ,713 ,348 ,898 ПЕРСОНАЛ ,713 1,000 ,115 ,912 КПТЛЗ ,348 ,115 1,000 ,249 ОБОРОТ ,898 ,912 49 1,000 Детерминант = 1.819Е-02 Как видно из этой таблицы, в первом варианте (определитель равен 0,492) мультиколлинеарность явно не выражена. Во втором варианте (0,415) с добавле- нием новой независимой переменной КПТЛЗ заметного появления мультиколли- неарности также не происходит, хотя некоторый сдвиг в эту сторону все же ви- ден (небольшое уменьшение определителя). Зато для третьего варианта, после Рис. 5.35 ▼ Окно Факторный анализ: Дескриптивные добавления переменной Оборот, можно гово- рить о появлении ярко выраженной мульти- коллинеарности - определитель резко устрем- ляется к нулю. Отсюда следует, что данная переменная достаточно жестко линейно связа- на с другими (это подтверждается коэффициен- тами ее корреляции с Капитал и Персонал). В заключение следует сказать, что рассмот- ренный пример достаточно условен и приве- ден скорее из методических соображений - если запустить процедуру построения линей- ной регрессии, как это было показано выше, и включить в число независимых переменных
Регрессионная зависимость еще и Оборот, (третий вариант табл. 5.2), то SPSS сам оставит для регрессии лишр данную переменную. Это можно легко объяснить, взглянув на полную матрицу парных коэффициентов корреляции, включающую все переменные, в том числе и зависимую Доход (рис. 5.36). 8... Мобильные таблицы SPSS - таблица! Корреляции доход Корреляция Пирсона Знч.(2-сторон) N Корреляция Пирсона Знч.(2-сторон) N КАПИТАЛ Корреляция Пирсона Знч.(2-сторон) _______________N____________________ ПЕРСОНАЛ Корреляция Пирсона Знч.(2-сторон) N Корреляция Пирсона Знч.(2-сторон) N ОБОРОТ КПТЛЗ доход 25 .848”’ ,000 25 ,763”’ ,000 25 .830”' ,000 25 .269 .194 25 ОБОРОТ ,848” ,000 25 25 ,898” ,000 25 .912” ,000 25 ,249 ,231 25 КАПИТАЛ ,763” .000 25 ,898” ,000 25 ПЕРСОНАЛ ,830” ,000 25 .912” ,000 _________25 .713” ,000 25 25 ,713 ,000 25 .348 ,088 25 КПТЛЗ .269 ,194 25 .249 .231 ______25 .348 .088 25 ,583 25 25 ' Корреляция значима на уровне 0.01 (2-сторон.). Рис. 5.36 т Полная матрица парных коэффициентов корреляции Переменные Капитал, Персонал и Оборот имеют очень высокие взаимные коэффициенты корреляции, так что говорить об их взаимной независимости не приходится, а из них самую тесную линейную связь с зависимой перемен- ной Доход имеет переменная Оборот. Что же касается переменной КПТЛЗ, то ее связь с переменной Доход вообще статистически не значима. 5.2.3. Нелинейная регрессия Регрессия, парная или множественная, совсем не обязательно должна быть ли- нейной. Существует много других, нелинейных, форм для ее выражения. В SPSS для формирования нелинейной регрессии предусмотрены следующие технологии: > подгонка кривых', > использование фиктивных переменных, >• собственно нелинейная регрессия. Кроме того, предусмотрены методы расчета специфических форм регрессии. Подгонка кривых Подгонка кривых предназначена, в первую очередь, для вычисления парной нелинейной регрессии. Косвенно, с некоторыми усложнениями, она может быть использована и для расчета множественной нелинейной регрессии. Эта
Глава 5 ▼ Корреляция и статистика процедура позволяет вычислять статистики и строить графики для различных типовых регрессионных моделей. Можно также сохранять предсказанные зна- чения, остатки и интервалы прогнозирования в виде новых переменных. Предлагаемые модели соответствуют следующим типам (выражаемым по- средством формул) - см. табл. 5.4. Таблица 5.4 v Типы моделей Модель Формула Линейная У=Й0 + Й1*Х Логарифмическая Обратная (гиперболическая) Квадратичная Кубическая Степенная у = £>0 + b,*lnx y=b0+t>,/x y = b0 + bt*x + b2*x2 у = b0 + b, *x + b2*x2 + b^x? y=b0*xb' Показательная у=ь0*ь* S у —- ^ЬО * b1 x*| Логистическая y= 1/u + b0‘b,« Рост у — gbO’bVx Экспоненциальная y=b0'bv' Требования к данным: > зависимые и независимые переменные должны быть количественными; > если в качестве независимой переменной выбрано Время, а не перемен- ная из исходного файла данных, зависимая переменная должна представ- лять собой временной ряд. Исходные допущения: > остатки должны представлять собой случайные величины и распреде- ляться по нормальному закону. При использовании линейной модели предъявляются такие же требования, как и для обычной линейной регрессии (см. раздел 5.2.1). Прежде чем запустить выполнение процедуры, полезно ознакомиться с рас- положением исходных точек на графике, чтобы определить наиболее подхо- дящие кривые. Хотя иногда, как будет показано ниже, это не обязательно. Открыв файл Компании, выполним последовательность команд Графики >• Рассеяние. В окне Диаграмма рассеяния (рис. 5.2) установим флажок в ячейке Простая. Затем в следующем диалоговом окне Диаграмма рассеяния (рис. 5.37) укажем зависимую переменную Доход и независимую переменную Капитал. В результате получим облако рассеяния исходных точек (рис. 5.38). Предполагаем, что наилучшее приближение к этому облаку может обеспечить одна из следующих моделей: логарифмическая, квадратичная, кубическая, гипер- болическая. Теперь обратимся к процедуре подгонка кривых, для чего выполним последовательность команд Анализ > Регрессия > Подгонка кривых.
Регрессионная зависимость Рис. 5.37 ▼ Окно Диаграмма рассеяния с указанными переменными j-. Вывод? £айл Правке £иа Bcjmm Формат ^наляз Графики £ареис Дкио а*|Н|аГД|’^51 rJ М|ь|&| £1 ’й] Jj КАПИТАЛ j (SPSS Процессор изгое Эывод Ц Подбор кривой Заголовок ...Д| Примечания Текстовый выв Доходподборкр! t] Графика @ Заголовок га Примечания •*Е Мседенидеед |Н:288'W: 288 пт. Рис. 5.38 ▼ Облако рассеяния исходных точек В окне Подгонка кривых (рис. 5.39) активизируем отобранные модели. Кроме того, установим флажки в ячейках Включать константу (в формуле для каждой модели), Графики моделей (для вывода графических зависимостей), Вывести таблицу дисперсионного анализа (для фиксации оценок качества ре- грессии). В результате получатся графики отобранных функций и, дополнитель- но, график аппроксимации наблюденных значений.
Глава 5 ▼ Корреляция и статистика -.ф оборот персонал Ф кптлз 11од|онк.1 Кривых И:| Рис. 5.39 ▼ Окно Подгонка кривых Сравнение всех этих кривых показывает, что наилучшее приближение к мно- жеству исходных точек дает кубическая модель: Доход - Ьп+ &*(Капитал) + + 62*(Капитал)**2 + 7>3*(Капитал)**3. Оснований для такого утверждения два: > это видно из подобия кривых кубической модели и реальных значений (рис. 5.40); > данный вывод подтверждается результатами дисперсионного анализа для кубической модели (рис. 5.41), согласно которым R2 = 0,81622 (скоррек- тированный 7?= 0,78996), что говорит о хорошем приближении. Данный анализ проводится для каждой из сравниваемых моделей (на рисунке не показан), и для кубической модели значение 7?является наибольшим. Допускается и другая последовательность шагов. Например, можно не выво- дить на экран диаграмму рассеяния, а сразу открыть окно Подгонка кривых (см. рис. 5.40) и активизировать в нем одновременно все предусмотренные модели. Затем в окне, аналогичном представленному на рис. 5.40, выбрать график моде- ли с наилучшим приближением и получить для него величину 7? (см. рис. 5.41). Так или иначе, после принятия окончательного решения остается только считать окончательные значения коэффициентов регрессии: hr = 0,615350; 6, = 0,016930; Ь2 = 0,003247; \ = -0000309. Однако при этом надо учитывать, что коэффициенты Ьд и Ь._ статистически незначимы (значимость равна 0,0778 и 0,6907 соответственно). Использование фиктивных переменных Фиктивные переменные достаточно широко применяются в регрессионном ана- лизе. Нелинейные регрессии - это только одно из возможных приложений, другие будут показаны далее(см. раздел 5.2.4).
Регрессионная зависимость ft Вывод? - SPSS Viewer Файл Правка бид Вставка Фадиет Аналсз ГраФки Сереыс Qkho 2 g|H|iS|a| »j з|Ajи|ь|&| g>| sj jj ♦1*1 ♦;-| —!q| jt.lBOft b] Подбор кривой Залпова* Q Примечания ^*5 Текстовый выв Доходподборкр> Графика Заготовок Примечания рассеяниядохо/ bj Подбор кривой £? Заголовок Q Примечания Текстовый выв Доходподборкр! Г| Подбор кривой /~Т Заголовок 52; Примечания «Q Текстовый выв Дохадподборкр» доход ; Логарифмическая □ Гиперболическая Квадратичная о Кубическая КАПИТАЛ f SPSS Процессор готов Вывод? SPSS Viewer Рис. 5.40 т Окно просмотрщика с графиками £айл Правка Виа Вставка Формат Анализ Графики Первис Qkho 2 g|H|^|a| а>| Eg] 211 EfelJbJФ] й| )ывод ь| Подбор кривой Заголовок Примечания Текстовый выв Доходподборкр! i] Графика 8 Заголовок Примечания Рассеяниядохог Подбор кривой Заголовок Р) Примечания Ц? Текстовый выв Доходподборкр! 1] Подбор кривой J^~] Заготовок 5~?| Примечания Текстовый выв Доходподборкр» ь| Подбор кривой Заготовок Примечания Текстовый выв Доходподборкр! Dependent variable.. Listuise Deletion of Multiple R R Square Adjusted R Square Standard Error Analysis DF Regression 3 Residuals 21 F = 31,09804 Variable КАПИТАЛ КАПИТАЛ»»2 КАПИТАЛ» *3 ДОХОД Method.. CUEIC Missing Data ,90345 ,01622 ,78996 ,65965 of Variance: Sum of Squares Mean Square 40,582224 13,527408 9,137776 ,435132 Signif F я ,0000 Variables in the Equation -------- В SE В Beta ,016930 ,041957 ,244304 ,00324? ,001220 4,580280 46ОЕ-О5 8,8925E-06 -4,222547 , 404 2 , 662 -3,474 1,854 , 6907 ,0146 __| ,0023 SPSS процессор готов ,'Н:288.\</:288'г!г. Рис. 5.41 ▼ Данные дисперсионного анализа для кубической модели
Глава 5 ▼ Корреляция и статистика Нелинейные регрессионные модели в большинстве случаев могут быть двух типов: > модели нелинейные по переменным', > модели нелинейные по параметрам. В первом случае параметры регрессии (ее коэффициенты) остаются неиз- менными, нелинейными являются лишь переменные (то же самое может отно- ситься и к множественной регрессии), например: Y = bu + Ьх х Х + Ь2 х X2 + Ьъ х X3 + е. (1) В этом случае вводятся новые фиктивные переменные Z, = X2, Z2 = X3, и ре- грессия принимает вид: Y = b0 + Ь} х Х+ Ь2 х Z + Z>3 х Z2 + е. (2) После этого коэффициенты данной линейной регрессии находятся с помо- щью обычных процедур (см. раздел 5.2.2). Но затем, при необходимости пере- хода от Z к X следует выполнить дополнительную процедуру вычисления: Xi:X = yfZ^n.wX = ^- (3) Например, для данного случая эти вычисления могут производиться с помо- щью диалогового окна Вычислить переменную (см. рис. 3.46), точнее с помо- щью функций, отображаемых в этом окне. Так, в частности, квадратный корень извлекается с помощью функции SQRT (numexpr), другие корни - с помощью функции LG10 (numexpr) . Во втором случае, когда речь идет о нелинейности параметров (коэффици- ентов) регрессии, модель может, например, иметь следующий вид: Y = ею + р х х. + 1г х х х е, где i= 1, 2, ..., п (экспоненциальная модель) (4) или Y = box х*1 х х‘2 х е, где i= 1, 2, ..., п (степенная модель) (5) или другие подобные варианты. В ряде случаев данные модели можно привести к линейной форме, напри- мер, путем логарифмирования. Модель (4) примет вид: In У = Ь, + Ь.х х , + Ь„ х х + 1пе. (6) i 0 1 »1 2 а х ' Модель (5) будет выглядеть, как: InK = lnZ>0 + р х Inx.j + Ь2х 1пх2 + 1пе. (7) В каждом из этих случаев в выражениях (6) и (7) коэффициенты находятся также с помощью обычных для линейной регрессии процедур. Если необходи- мо затем перейти от логарифма к самой величине, то используется функция EXP (numexpr), которую также можно найти в упомянутом окне Вычислить переменную (см. рис. 3.46) Гораздо более сложной становится ситуация, когда нелинейная функция не поддается линеаризации. В этом случае параметры могут быть определены лишь итеративным путем посредством последовательных приближений в про- цессе нелинейной оптимизации, когда минимизируется сумма квадратов разно- стей между предсказанными значениями регрессии по подбираемой формуле и исходными значениями. Здесь решающим становится подбор функциональ- ной формы регрессионной модели, а также определение начальных значений
Регрессионная зависимость искомых коэффициентов для нулевой итерации. Даже если выбрана подходя- щая формула, неудачное задание начальных значений может привести к том}', что итерационный процесс вообще не сойдется, или к тому, что полученное решение будет локальным, то есть годным лишь для конкретной точки и ее окрестностей. В общем случае при этом варианте расчета предусматривается достаточно длинный, многоступенчатый процесс. 5.2.4. Другие возможности использования фиктивных переменных В большинстве регрессионных моделей в качестве независимых переменных выступают количественные переменные. Но в реальных условиях довольно часто возникают ситуации, когда бывает необходимо проанализировать влия- ние качественных признаков, имеющих два или несколько уровней. Примеры таких переменных: Пол (мужской, женский), Образование (начальное, сред- нее, высшее), Время года (зима, весна, лето, осень) и т.п. Такого рода качественные признаки могут существенно изменить структуру линейных связей между переменными и привести к скачкообразным измене- ниям параметров регрессионной модели. В этом случае можно говорить о рег- рессионных моделях с переменной структурой. Например, надо оценить зависимость независимой переменной Y не только от количественных переменных X,, ..., Хп, но и от качественного признака Zj (скажем, пол работника). Такую оценку можно провести с помощью введе- ния так называемых фиктивных переменных. Иногда их называют еще струк- турными переменными, так как в этом случае речь идет о линейной регрессии с переменной структурой. В качестве таких переменных обычно применяются дихотомические (бинарные, булевы) переменные, которые принимают всего два значения: ноль или единицу. В этом случае обычная регрессионная модель У Г Ь0 + Ь1*УЛ + b2*ys+ - + е, (8) изменится и примет вид У=6о+61ХЛ + 62Х>2+- PlZl+ei’ (9) где Zt = 1, если, например, работник мужского пола, и Z = 0, если работник женского пола. Проверяя гипотезу Но: Pj = 0, мы можем установить влияние фактора Пол на независимую переменную. В принципе переменная, характеризующая качественный фактор, не обяза- тельно должна принимать только два значения. Просто в экономических рас- четах почти всегда используются дихотомические значения, так как при этом интерпретация полученных результатов выглядит наиболее просто. Если же в показанной модели фиктивная переменная Z принимает, скажем, (к = 4) зна- чения (например, четыре времени года), то в регрессию надо ввести (к - 1) ди- хотомических переменных: к} = 1 для зимы, к, = 2 для весны, к = 3 для лета. Если же К] = к2 = к3 = 0, то речь идет об осени.
Глава 5 ▼ Корреляция я ттистяиа Рассмотрим следующий пример. Для ряда стран, , основной религией в которых является католицизм (Catholic) и мусульманство (Muslim), приведены показатели по различным социально-экономическим аспектам (файл World95) - рис. 5.42. | :"]Wodd95 SPSS Редактор Данных _____________________________________________ВИР Правка £иа Дагмые Преображать Анализ £рафиш Сервис Qkmo ? ^ihi^i si «ы si ьШ «I зйй яма sial] ^9:фиктпер1 [ рож_к_см колдетей | 1од_нас урожай чтение_м | чтеиие__ж | климат j religion { фиктпер1 | «±. 1 1,09 1.5| 3,90 17 , i , 8 [Catholic 1 ; 2 3,29| 2,8i 3,87 18 100; 100; 3;Muslim ,[ 3 2.22 __2,8; 6,9 т 4,53 9; 96; 95. 14; 8; Catholic I —4 4 2.41 4,31 12; 44i 3[Muslim ,: 5 3.18i 4,/i 5.10; 67; 47j 22 5 Muslim 6 7.25' 4.0; 2,78 2 55 i 55 3 Muslim 7 1 09 1.7; 4.00 24 8 Catholic 1 8 3.78 4.2; 3,90 3 85 71 : 4 Catholic 1 9 2.19 3,66 20 8 Muslim 10 2.33 2.7' 5,19 7 82 80: 5 Catholic 1 11 2,10 6.8: 3,78 43 61 i 40' 8 i Catholic 1 ; 12 .92 1,8: 4.02 51 99: 98: 9 Catholic 1; 13 5,20 3.1 4.31 3 90: 87: 5 'Catholic 1 : 14 2,00 4.0 3,11 1 741 48; 5 Catholic I; 15 2.11 5,9 3,81 20 59' 47; 5 [Catholic 1; 16 2,88 6,3 : 2,98 16 39: 16[ 5 Muslim ,' 17 4,38 4.8I 4,01 12 63 j 47' 5 j Catholic 1 ; 18 1,44 1,6; 4.19 26 8’Catholic 1 иные X Перемек*» / : I I ±r [SPSS Процессор готов ' ' T . I.^ Рис. 5.42 v Файл World95 Выберем в качестве зависимой переменной ВНП (валовой национальный продукт), а зависимыми переменными, влияющими на ВНП, будем считать сле- дующие: ► количество потребляемых в день калорий (Калории); > количество случаев заболевания СПИДом на 10000 человек (СПИД), > отношение рождаемости к смертности (Рож_к_см), ► урожай (Урожай). Кроме того, нас интересует, влияет ли в какой-либо степени на ВНП рели- гия, преимущественно исповедуемая в данной стране. Значение этого фактора учитывается введением фиктивной дихотомической или бинарной перемен- ной Религия (filterl), которая принимает значение единица для католициз- ма и значение ноль для мусульманства. Определим коэффициенты регрессии, в том числе и коэффициент при фиктивной переменной, и оценим их значимость. Для этого выполним по- следовательность команд Анализ > Регрессия > Линейная регрессия, в ре- зультате чего увидим на экране одноименное диалоговое окно (рис. 5.43).
Регрессионная зависимость - ! Линейная регрессия страна ij> Количество потре й '#> Отношение рожае Случаи заболевай z^> урожай iA< Господствующая Религия (FILTER) Население, тыс.Ч' > «£> Количество челов—. •%> Люди, проживают Основная религи$ •ф Средняя продолж Средняя продолж Люди, умеющие ч #> Прирост населенк '§> Детская смертно •** I .Зависимая переменная: | £> Валовой национальн ОК| Вставка Страйка Переменно отбора V Метки наблюдений со. ।---------------------- Вэаеш,МНК>> | •• т : |ратйстйд^|S Графики-..: | Ссиронить... j П^метры.) Рис. 5.43 » Окно Линейная регрессия с указанными переменными Рис. 5.44 ▼ Окно Линейная регрессия: Статистики с расставленными флажками Введем в соответствующие поля зависимую переменную ВНП и зависимые переменные Калории, Рож_к_см, СПИД, Урожай, filterl (фиктивная пере- менная также вносится в список зависимых переменных). Дальше зададим необходимые для результирующих оценок статистики (рис. 5.44) и нажмем кнопку ОК. В результате мы получим набор таблиц, среди которых наиболее интересной для нас будет таблица «Коэффициенты» (рис. 5.45). Она показывает значи- мость коэффициентов регрессии. Нас интересует значимость коэффициента при фиктивной переменной filterl: если он статистически значим, то и вли- яние религии на валовой национальный продукт является значимым и отбра- сывать его нельзя. Здесь значимость этого коэффициента равна 0,332 и, следо- вательно, значимым является и влияние религии на валовой национальный продукт. Кстати, данная таблица позволяет определить незначимость коэффи- циента при переменной калории и константы (для них значение значимости равно нулю).
Глава 5 ▼ Корреляция и статистика ягап Файл Правка В< Вставка Мобильная таблица Формат 2 Коэффициенты3 Модель Ненормированные коэффициенты Нормиро ванные коэффиц иенты t Знч. 95% доверительный интервал для в В Стд. ошибка Бета Нижняя граница Верхняя граница 1 (Константа) -15937.6 3841,913 -4,148 ,000 -23685,51 -8189,598 Количество потребляемых в день калорий 7,997 1,082 .724 7,391 .000 5,815 10,179 Количество случаев заболевания СПИДом 1 на 100000 человек 11,901 15,469 .083 ,769 ,446 •19,296 43,097 Отношение рождаемости к -595,236 298,721 -.225 -1,993 ,053 -1197,665 7,193 смертности УРОЖАЙ •12,755 43,813 -,030 -.291 .772 101,111 75,602 Религия (FILTER) 1384,694 1 409,836 ,105 ,982 ,332 •1458,51 1 4227,899 а. Отклик: Валовой национальный продукт на душу населения Рис. 5.45 ▼ Таблица «Коэффициенты
Факторный и кластерный анализ В настоящее время методы многомерной статистики интенсивно развиваются. Углубляется понимание смысла возникающих задач, разрабатываются новые, более эффективные методы их решения, усложняется постановка задач, ох- ватывающих все более масштабные проблемы. Использование методов много- мерной статистики предполагает обращение к системному анализу рассматрива- емых явлений, их основных составляющих и взаимосвязей, принятие решений о характере установленных закономерностей. 6.1. Факторный анализ В очень многих случаях информация об изучаемом явлении может быть пред- ставлена в форме таблицы данных (как количественных, так и качественных), в которой строки соответствуют множеству наблюдений за состоянием изучае- мого объекта, явления, а столбцы - множеству характеристик или признаков, описывающих данный объект или явление. Так, в экономических исследовани- ях в качестве наблюдений или объектов наблюдений чаще всего выступают предприятия, виды продукции, отрасли, при исследовании динамики экономи- ческих явлений - элементы временных рядов (год, квартал, месяц и т.д.). Каж- дое из наблюдаемых предприятий может быть охарактеризовано такими, напри- мер, признаками, как число занятых, стоимость основных производственных фондов, направление и степень специализации и др. Пользователю иногда доступен большой объем наблюдений, в набор призна- ков теоретически могут быть включены все непосредственно фиксируемые ха- рактеристики изучаемого явления. Но даже в этом случае информация, содер- жащаяся в таблице подобного рода, оказывается недостаточна для понимания
V Глава 6 ▼ Факторный и кластерный анализ существа явления и воздействия на него. Такая таблица часто представляет со- бой лишь набор чисел, первичную информацию, и только последующий анализ позволит выявить скрытые. Поэтому перед пользователем, работающим с таблицами подобного рода, часто встает вопрос: нельзя ли выразить заключенную в них информацию в более компактной форме, которая отражает наиболее существенные законо- мерные аспекты функционирования наблюдаемых объектов. Компактность представления информации может быть достигнута за счет группировки при- знаков с общим характером изменений от объекта к объекту. Об эффективнос- ти работы предприятия исследователь обычно судит по системе показателей. Но многие признаки из данной системы взаимосвязаны и, так или иначе, отра- жают один и тот же аспект характеристики объекта, явления. В этих условиях возникает необходимость как-то перестроить исходную информацию, то есть сгруппировать признаки таким образом, чтобы они отражали исследуемое яв- ление или его отдельные аспекты. Факторный анализ предоставляет пользователю адекватный инструмент ис- следования системы признаков, которое, в свою очередь, в ряде случаев позво- ляет обнаружить логическую структуру сложного явления, отделить взаимоза- висимые и взаимозаменяемые признаки от независимых, существенные от несущественных, обосновать выбор той или иной системы признаков, оценить ее информативность, проверить или выдвинуть гипотезы о взаимосвязях. Ис- пользование факторного анализа позволяет в ряде случаев не только констати- ровать наличие какой-либо проблемы, но и найти пути к ее устранению. Другими словами, факторный анализ часто используется для снижения раз- мерности данных, чтобы найти небольшое число факторов, которые объясня- ют большую часть дисперсии, наблюденной для значительно большего числа явных переменных. Факторный анализ может также использоваться для фор- мирования гипотез относительно механизмов причинных связей или с целью проверки переменных перед дальнейшим анализом (например, чтобы выявить коллинеарность перед проведением линейного регрессионного анализа). В первом разделе этой главы мы рассмотрим вопросы применения фактор- ного анализа на примере файла Компании, уже использованного в предыдущей главе (см. рис. 5.9). Мы узнаем, что факторный анализ может служить сред- ством для частичного устранения проблемы мультиколлинеарности, или тес- ной взаимосвязанности переменных в рамках множественной линейной ре- грессии. 6.1.1. Запуск процедуры факторного анализа Откроем файл Компании и выполним последовательность команд Анализ > Снижение размерности > Факторный анализ. В открывшемся одноименном окне (рис. 6.1) можно задать независимые переменные для анализа. Как уже сказано выше, в процессе факторного анализа большое число незави- симых переменных, описывающих анализируемую ситуацию, сводится к мень- шему количеству независимых влияющих величин, называемых факторами. При
Факторный анализ Рис. 6.1 т Окно Факторный анализ этом в один фактор объединяются переменные, сильно коррелирующие между собой. Переменные из разных факторов слабо коррелируют между собой. Пе- ред началом выполнения факторного анализа каких-либо априорных гипотез о коррелированное™ переменных между собой не выдвигается - эта коррели- рованность обнаруживается в ходе выполнения процедуры. 6.1.2. Отбор информации и настройка факторного анализа Задав независимые переменные для факторного анализа, будем отбирать ин- формацию, которую требуется получить на выходе. После нажатия кнопки Дескриптивные в окне Факторный анализ откры- вается окно Факторный анализ: Дескриптивные (рис. 6.2), в котором можно задать одномерные дескриптивные статис- тики (среднее значение, стандартное откло- нение и количество наблюдений без пропу- щенных значений для каждой переменной) и начальное решение (вывод начальных общностей1, собственных значений и доли объясненной дисперсии, выраженной в процен- тах). Кроме того, в дальнейшем могут быть ин- тересны оценки коэффициентов корреляции и уровни их значимости. Следующий блок настройки процедуры фак- торного анализа - выделение факторов в этой процедуре. Для этого в окне Факторный ана- лиз (см. рис. 6.1) щелкнем по кнопке Извлече- Факторный анализ: Дескриптивные г Статистики--—------——— : Р Одномерные дескркттмвиае i Р Начальное решение Продолжить Отъема - Корреляционная матриц* Р ^Коэффициенту < Г Абрвтная i Г уровни значимости Г" Воспроизведенная; | Г Детерминант Г" йнгиобраз i ‘ Г" КИО и критерий с$ери>*1ости Бартлетта i Рис. 6.2 ▼ Окно Факторный анализ: Дескриптивные ние. В открывшемся окне Факторный анализ: Выделение факторов (рис. 6.3) мы можем задать требуемые параметры этого выделения. Далее приводится Общность данной переменной - доля ее дисперсия, обусловленная общими для нескольких пе- ременных факторами.
Глава 6 Y Факторный и кластерный анализ Рис. 6.3 ▼ Окно Факторный анализ: Выделение факторов общий обзор основных опций факторного анализа, в котором содержатся лишь его основные принципы. Давать более детальный обзор в данной книге представляется нецелесообразным: использование SPSS значительно уменьша- ет необходимость в таком подробном описании, так как для каждой ситуации пользователь может применить соответствующую компьютерную программу. Первый существенный момент - это определение метода выделения компо- нентов. Наиболее часто используется метод главных компонент, который позво- ляет преобразовывать данную последовательность наблюдаемых переменных в другую последовательность переменных. Например, в двумерном случае при коррелированности данных переменные можно расположить по двум взаимно перпендикулярным осям, повернутым относительно первоначальных (также перпендикулярных). Главная ось Р проходит по линии, вдоль которой распо- лагается основная часть данных; вторая ось Р, напротив, по линии с меньшей частью данных. Теперь предположим, что нужно представить точки в терми- нах только одной размерности (оси). В этом случае естественно выбрать ось Р, потому что в целом она ближе описывает данные наблюдений. Тогда первая главная компонента не что иное, как представление точек вдоль выбранной главной оси. Точка же с единичными значениями Хи У будет иметь координа- ту; большую 1 по оси Р и меньшую 1 по оси Р. Если мы описываем каждую точ- ку в терминах Pt и Р2 в новой системе координат, потери информации не про- исходит. Тем не менее мы можем сказать, что первая ось (и первая компонента) является более информативной в описании точек, так как связь между X и Y становится сильнее. Если X и Yсвязаны линейной зависимостью, первая глав- ная компонента будет содержать всю информацию, необходимую для описания каждой точки. Если Хи /независимы, то главная ось отсутствует, и анализ глав- ных компонент не способствует даже минимальному сохранению (сжатию) результатов наблюдений. Если же Хи У коррелируют между собой, то вокруг главной оси Р сосредоточивается большая часть дисперсии. Следующий метод выделения факторов - метод наименьших квадратов, кото- рый сводится к минимизации остаточной корреляции после выделения опре- деленного числа факторов и к оцениванию степени соответствия вычислен- ных и наблюдаемых коэффициентов корреляции (берется сумма квадратов отклонений).
Факторный анализ Если взять количество факторов равное числу наблюдений, то вычисленные Ц наблюдаемые коэффициенты корреляции совпадут. Расхождение между эти- ми коэффициентами уменьшается при увеличении числа предполагаемых фак- торов. Поэтому алгоритм решения по методу наименьших квадратов состоит в том, что на первом шаге задается минимальное число факторов, а затем, с уве- личением числа факторов, устанавливается приемлемое решение. На втором шаге производится оценка общностей с применением квадрата множественного коэффициента корреляции между данной переменной и ос- тальными. На следующем шаге выделяется большее количество факторов, для которых вычисленные коэффициенты корреляции наилучшим образом при- ближают наблюдаемые корреляции (в смысле минимальной суммы квадратов отклонений), и так далее, пока дальнейшее уменьшение разности вычисленных и наблюдаемых коэффициентов корреляции станет невозможным. Алгоритм по методу максимального правдоподобия можно представить следую- щим образом. Допустим, что наблюдаемые данные - это выборка из генераль- ной совокупности, которая точно соответствует /г-факторной модели. Совместное распределение переменных, включая факторы, предполагается многомерным нормальным. Задача сводится к оцениванию значений скрытых переменных (фак- торных нагрузок1) генеральной совокупности, при которых в заданных допуще- ниях функция правдоподобия для распределения элементов корреляционной матрицы максимальна. Метод главных факторов - наиболее ранний метод факторного анализа. В нем методика анализа главных компонент используется применительно к редуци- рованной корреляционной матрице, в которой элементы главной диагонали соответствуют общностям. Для оценки этих общностей обычно используется квадрат множественного коэффициента корреляции между соответствующей переменной и совокупностью остальных переменных. После выделения оце- нок общностей на главной диагонали редуцированной корреляционной матри- цы сами факторы выделяются таким же образом, что и в анализе главных ком- понент. Альфа-факторный анализ был разработан для упорядочения данных в области психологии. В частности, объектом исследования являются индивидуумы. В этом анализе переменные получены в первоначальном факторном решении, где они считаются выборкой из генеральной совокупности переменных, о ко- торой можно судить на основании наблюдаемой совокупности объектов. Дру- гими словами, в альфа-факторном анализе выводы носят не статистический, а психометрический характер. Поскольку при этом подходе совокупность объектов предполагается известной (те же индивидуумы), обычные критерии значимости здесь не используются. В анализе образов определение общей и характерной части переменной отлича- ется от принятого в обычном факторном анализе. Под общей частью переменной Факторная нагрузка - общий термин, означающий коэффициенты матрицы факторного отобра- жения или структуры. По сути, это коэффициенты корреляции между переменными и факторами.
Глава 6 ▼ Факторный и кластерный анализ (ее образом) подразумевается та ее составляющая, которая выражается через линейную комбинацию других переменных. Вторая составляющая перемен- ной, независимая от остальных, называется антиобразом. При этом считается, что мы имеем дело с генеральными совокупностями (вопросы, связанные с вы- боркой, не рассматриваются). В анализе образов предполагается, что потенциальное множество перемен- ных бесконечно. Например, некоторой двухфакторной модели соответствует не- которое конкретное (и, естественно, конечное) количество переменных. Но в ана- лизе образов последние считаются выбранными из бесконечного множества переменных, удовлетворяющего двухфакторной модели. Если бы у нас была воз- можность наблюдать все переменные этого пространства, средний квадрат об- раза был бы равен общности переменной, определяемой в факторной анализе, а средний квадрат антиобраза - характерности1. Иначе говоря, квадрат множе- ственного коэффициента корреляции между одной переменной и остальными переменными совокупности равен общности данной переменной. В окне Факторный анализ: Выделение факторов (см. рис. 6.3) по умолчанию опре- деляется метод главных компонент. Следующий блок настройки процедуры факторного анализа - выбор метода враще- ния. Возможные варианты выбора представ- лены на рис. 6.4. Как уже отмечалось, на первом этапе ана- лиза определяется минимальное число фак- торов, адекватно воспроизводящих наблю- даемые корреляции, а также значения общностей каждой переменной. Следующий шаг состоит в нахождении легко интерпре- тируемых факторов с помощью процедуры вращения. При этом число факто- ров и значения общностей переменных фиксируются. Для начала рассмотрим извлечение факторов без их вращения (позиция Не надо на рис. 6.4). Как уже показано на рис. 6.3, в окне Факторный анализ: Выделение факторов задает- ся фиксированное число факторов. Начнем с указания одного фактора. В этом случае все переменные включаются в одну компоненту, имеющую наибольшее собственное значение, и выводится неповернутое решение (поскольку враще- ние не задается). Напомним, что извлечение компонент производится методом главных компонент (см. рис. 6.3) для исходного файла Компании. Как следует из таблицы результирующей информации, выводимой для дан- ных исходных условий (метод главных компонент и отсутствие вращения фак- торов), представленной на рис. 6.5, эта компонента описывает 69,496% полной дисперсии. Рис. 6.4 v Окно Факторный анализ: Вращение 1 Характерность - доля дисперсии наблюдаемой переменной, свойственная именно ей и не свя- занная с общими факторами.
Факторный анализ !S& Мобильные таблицы SPSS • таблица? НЁ13 Файл ;"ДНЙЖ1 ^Вставка М обильная таб/и^ Формат 2 Полная объясненная дисперсия Компонента Начальные собственные значения Суммы квадратов нагрузок извлечения Всего % дисперсии Кумуляти вный % Всего % дисперсии Кумуляти вный % 1 2.780 69,496 69.496 2,780 69,496 69,496 2 ,945 23,619 93,115 3 .247 6,185 99,300 4 2.799Е-02 ,700 100.000 Метод выделения: Анализ главных компонент. Мобильные таблицы SPSS -... МЕвЮ Файл Правка Виа Вставка- : Мобильная хаблица Формат J Матрица компонент9 Компоне нта 1 ОБОРОТ КАПИТАЛ ПЕРСОНАЛ КПТЛЗ .982 .929 .899 .377 Метод выделения. Анализ методом главных компонент. а. Извлеченных компонент: 1 Рис. 6.5 т Итоговая таблица для одного фактора В таблице на рис. 6.6 виден состав этой единственной компоненты. Числа, показанные здесь, представляют собой факторные нагрузки или, как уже сказа- но, коэффициенты корреляции между конкретной переменной и данным фак- тором. Мы видим, что сильнее всего с этим факто- ром коррелируют переменные Оборот, Капи- тал и Персонал (факторные нагрузки равны 0,982; 0,929 и 0,899 соответственно). Значитель- но слабее факторная нагрузка переменной кптлз (0,377). Теперь зададим в окне Факторный анализ: Выделение факторов два фактора. В таблице на рис. 6.7 показано, что на долю этих двух ком- понент (факторов), отобранных опять же в со- ответствии с наибольшими собственными зна- чениями, приходится в сумме уже 93,115% полной дисперсии. А на рис. 6.8 представлен со- став этих компонент. Сравнив рис. 6.8 и 6.6, лег- ко заметить, что факторные нагрузки на пер- вую компоненту остались без изменения, тогда как для второй компоненты основная факторная нагрузка приходится на переменную КПТЛЗ (0,919). Таким образом, в общем случае представительность или репрезентативность комбинации новых факторов теоретически, растет по мере привлечения но- вых компонент. Но поскольку последовательность привлечения компонент определяется по мере убывания их наибольших собственных значений, то эф- фективность включения дополнительных компонент (выражаемая долей описы- ваемой полной дисперсии), довольно быстро падает с ростом их количества. Это наглядно показывает таблица на рис. 6.7. Теперь заставим факторы вращаться. В рамках методов вращения, использу- емых в SPSS, различают два вида вращения: ортогональное (методы Варимакс, Квартимакс и Эквимакс) и косоугольное (методы прямой Облимин и Промакс). Рис. 6.6 ▼ Таблица с содержанием одной компоненты
Глава 6 ▼ Факторный и кластерный анализ ВВЕЗ Омж. Вставка Мобильная таблица Форштаг 2 Полная объясненная дисперсия Компонента Начальные собственные значения Суммы квадратов нагрузок извлечения Всего % дисперсии Кумуляти вный % Всего % дисперсии Кумуляти вный % 1 2,780 69,496 69,496 2,780 69,496 69,496 2 ,945 23,619 93,115 • ,945 23,619 93,115 3 ,247 6,185 99,300 4 2.799Е-02 .700 100,000 Метод выделения: Анализ главных компонент. Рис. 6.7 т Итоговая таблица для двух факторов Целью всех вращений является получение наиболее простой факторной структуры. Но понятие простоты в данном случае неоднозначно, и поэтому не существует единых формальных критериев для ее определения. Выбор среди перечисленных методов обусловлен лишь тем или иным способом упрощения интерпретации компонент. Компоненты в таблицах на рис. 6.6 и 6.8 были показаны без вращения векто- ров. Теперь попробуем задать его. Для этого в окне Факторный анализ: Вра- щение укажем метод вращения Варимакс. На рис. 6.9 мы можем увидеть мат- рицу повернутых компонент. Можно сказать, что компоненты по сравнению с неповернутым вариантом существенно не изменились - только факторные нагрузки стали более резки- ми. Результат вращения двух факторов или компонент, образующих основные оси координат, представлен на рис. 6.10. Видно, что первичные переменные повернуты относительно прежних осей. Мобильные таблицы SPSS гибли ЯНЕЗ Мобильные габлицы SPSS - г ВЙВ 2«йл Правка Вив Вставка Мобильнаяхаблица Формат 2 Матрица компонент* Компонента 1 2 ОБОРОТ КАПИТАЛ ПЕРСОНАЛ КПТЛЗ ,982 ,929 ,899 .377 -.133 4.Э46Е-02 -.285 .919 Метод выделения: Анализ методом главных компонент. а Извлеченных компонент: 2 £айл Правке Вив Вставка - Мобильная таблица Форист 2- Матрица повернутых компонент* Компонента 1 2 ОБОРОТ КАПИТАЛ ПЕРСОНАЛ КПТЛЗ ,981 ,882 ,943 .113 ,140 ,295 -2.97Е-02 ,987 Метод выделения: Анализ методом главных компонент. Метод вращения: Варимакс с нормализацией Кэйзера. а. Вращение сошлось за 3 итераций. Рис. 6.8 ▼ Таблица с содержанием двух компонент Рис. 6.9 ▼ Матрица повернутых компонент
Факторный анализ 6.1.3. Факторный анализ и мультиколлинеарность переменных Наглядный эффект от вращения векторов можно показать на примере умень- шения мулътиколлинеарности, под которой понимается тесная линейная связан- ность переменных, указываемых в уравнении множественной регрессии в ка- честве независимых. Проблема мультиколлинеарности часто возникает при построении уравне- ния множественной регрессии. Под мультиколлинеарностью понимается ситу- ация, когда независимые переменные, входящие в уравнение регрессии, связа- ны функциональной или тесной корреляционной зависимостью, что может привести к невозможности оценки параметров модели или к получению неустой- чивых, не имеющих реального смысла оценок. Наличие скрытой коллинеарнос- ти существенно снижает точность и адекватность уравнения регрессии. Счита- ется, что две переменные X и Z явно коллинеарны, то есть находятся между’ собой в линейной зависимости, если коэффициент корреляции между ними г; > 0,7. Однако по величине парных коэффициентов корреляции обнаружива- ется лишь явная коллинеарность переменных. При наличии сильной мульти- коллинеарности переменных оценка распределения суммы объясненной дис- персии по отдельным переменным ненадежна.
Глава 6 т Факторный и кластерный анализ Для оценки мультиколлинеарности переменных может использоваться опре- делитель матрицы парных коэффициентов корреляции между переменными. Если бы переменные не коррелировали между собой, то эта матрица была бы единичной, поскольку все недиагональные элементы были бы равны нулю. Если же, наоборот, между переменными существует полная линейная зависи- мость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю. Следовательно, чем ближе к нулю определитель матрицы, тем сильнее муль- тиколлинеарность переменных и тем менее надежны результаты множествен- ной регрессии. Напротив, чем ближе определитель к единице, тем меньше мультиколлинеарность переменных. На рис. 6.11 показана исходная матрица парных коэффициентов корреля- ции между переменными и ее определитель. l^i Мобильные таблицы SPSS - таблица! ШЫ Правка Формат 2 Корреляционная матрица9 ОБОРОТ КАПИТАЛ ПЕРСОНАЛ КПТЛЗ Корреляция ОБОРОТ 1,000 ,898 ,912 ,249 КАПИТАЛ .898 1,000 .713 ,348 ПЕРСОНАЛ .912 ,713 1,000 ,115 КПТЛЗ .249 .348 .115 1,000 Знч. (односторон.) ОБОРОТ ,000 .000 .115 КАПИТАЛ .000 .000 .044 ПЕРСОНАЛ .000 ,000 222 КПТЛЗ .115 ,044 ,292 а. Детерминант = 1.819Е-02 Рис. 6.11 ▼ Матрица парных коэффициентов корреляции между "временными и ее определитель Чтобы получить эту матрицу и значение определителя, надо в окне Фактор- ный анализ: Дескриптивные (см. рис. 6.2) установить флажки в ячейках Ко- эффициенты и Детерминант раздела Корреляционная матрица. Величина определителя в данном случае очень мала (0,01819), что говорит о наличии зна- чительной мультиколлинеарности. Это же подтверждается проста при взгляде на корреляционную матрицу - переменные Оборот, Капитал и Кар сонал тес- но коррелированы между собой. Чтобы устранить мультиколлинеарность (или значительно -лменыпить ее), обратимся к полученным ранее новым переменным - компонентам: > Z{ = 0,981 х (Оборот) + 0,943 х (Капитал) + 0,882 х (Кнр т - 0,113 х X (КПТЛЗ); > 7^ = 0,14 х (Оборот) + 0,295 х (Персонал) + 0,987 х (К.ПТПЗ Как мы видим, тесно коррелированные переменные включены высокими факторными нагрузками в одну новую компоненту 7.. В другой ?. м.поненте Z, их факторные нагрузки невелики. С другой стороны, слабо коь ослиоованная
Кластерный анализ Файл Правка! / АналиагШэ^ФмЖ а?|Н| ^1 1^1 t :|&| M| |1Ц. 10,9 У Zl 1 z2 :! 1 ,90 52,40! 50,33 2 1.70 69,78 i 45,89 /.3 .70 29,78! 44,48 4 1.70 52.36i 40.821 5 2.60 113.85! 46,05 6 1.30 99.16! 29,97 7 4.10 390.89! 84,92 8 1.60 92.92! 44,76 9 6.90 776.35I 76,86 10 .40 4.74 i 35,53 11 1,30 29.76! 38,15 П:/Р:12 1,90 51 51 43,91 13 1,90 66.77! 31,63 14 1,40 214.33! 37,76 15 .40 109.96! 38,60 16 .80 34.96 i 33,58 17 1,80 147,77! 37,72 - , (/<18 .90 98,52: 33,18 : ( //19 ШКд- 1_J0j 145.08’ 1,901 63,82! иные к Перемени^} <11 31,97 34,21 SPSSTlpom JCCCf^ Рис. 6.12 т Таблица со значениями переменных7, nZ2 Мобильные таблицы SPSS - таблица! Файл Правка Bng Вставка Мобильная табяад Фориаг £ j . ( - \ Корреляционная матрица9 Z1 Z2 Корреляция Z1 1,000 .756 Z2 ,756 1,000 а. Детерминанг= ,429 Рис. 6.13 т Корреляционная матрица для новых переменных с ними переменная КПТЛЗ входит в Z} с низкой факторной нагрузкой (0,113), а компонента Z.„ наоборот, в основном сформирована именно этой перемен- ной с очень высокой факторной нагрузкой (0,987). Теперь посмотрим, как изменится определитель, значение которого харак- теризует мультиколлинеарность, с переходом на новые переменные. Для этого надо при тех же значениях Y рассчитать значения новых переменных 7 и Z2 в соответствии с вышеприведенными соотношениями. Это можно сделать, на- пример, с помощью построителя выражений (см. рис. 3.46). Новые значения Z, и Z2 показаны в таблице на рис. 6.12. На рис. 6.13 мы можем увидеть коэффициенты корреляции и величину опреде- лителя для регрессии, преобразованной относительно новых переменных Zx и Z2- Хотя коэффициент корреляции между Z1 и Z^ достаточно велик (0,756), значе- ние определителя значительно больше, чем раньше (0,429 против прежнего зна- чения 0,01819), - это говорит о существенном снижении мультиколлинеарности. 6.2. Кластерный анализ Классификация объектов по осмысленным группам - кластерам - является важ- ной процедурой в области статистических исследований. Она широко применя- ется археологами, экономистами, социологами, психологами, специалистами по
Глава 6 ▼ Факторный и кластерный анализ государственному праву, поэтому часто приходится пользоваться не стандарти- зованной, терминологией, что ведет к путанице. В связи с этим новые разра- ботки довольно медленно распространяются на другие дисциплины. В данном разделе вначале кратко обсуждаются меры сходства - обязательная отправная точка любого процесса кластеризации. Затем рассматривается применение в этом процессе программного продукта SPSS с использованием конкретного примера. 6.2.1. Общие положения Кластерный анализ - это общее название множества вычислительных процедур, используемых при создании классификации. В результате их использования об- разуются кластеры или группы очень похожих объектов. Говоря более точно, кластерный метод представляет собой многомерную статистическую процедуру, выполняющую сбор данных, содержащих информацию о выборке объектов, и за- тем упорядочивающую объекты в сравнительно однородные группы. Различные приложения кластерного анализа можно свести к четырем основ- ным задачам [1]: > • разработка типологии или классификации; > исследование полезных концептуальных схем группирования объектов; > порождение гипотез на основе исследования данных; > - проверка гипотез или исследования для определения, действительно ли выделенные тем или иным способом типы (группы) присутствуют среди имеющихся данных. Как правило, кластерный анализ используется для создания классификаций, но в большинстве случаев прикладного анализа данных в основе исследования лежит комбинация этих задач. Опыт показывает, что несмотря на различия в целях, типах данных, применен- ных методах все исследования, использующие кластерный анализ, позволяют выделить (с теми или иными разновидностями) следующие характерные этапы: > отбор выборки для кластеризации; > определение множества признаков, по которым будут оцениваться объек- ты в выборке; > вычисление значений той или иной меры сходства между объектами; > применение методов кластерного анализа для создания групп сходных объектов; ► проверка достоверности результатов кластерного анализа. Прежде чем перейти к обсуждению этих этапов, необходимо сделать не- сколько предупреждений общего характера. Во-первых, многие методы кластерного анализа - довольно простые проце- дуры, которые, как правило, не имеют хорошей статистической базы, то есть являются эвристическими (подкрепленными лишь опытом разработчиков). В этом их заметное отличие, например, от методов факторного анализа, кото- рый достаточно хорошо обоснован статистически.
Кластерный анализ Во-вторых, методы кластерного анализа разрабатывались для многих науч- ныхщисциплин, а потому на них лежат специфические отпечатки последних, к которым можно отнести определенные требования к отбору данных, форме их представления, предполагаемой структуре классификации. В-третьих, разные кластерные методы могут порождать и порождают раз- личные решения для одних и тех же данных. Одной из причин этого является то, что кластерные методы получены из разных источников, которые предоп- ределили использование различных правил формирования групп. В-четвертых, цель кластерного анализа заключается в поиске существующих структур в анализируемых данных, причем эти струк туры нелегко найти при визу- альном обследовании или с помощью экспертов. Поскольку при введении струк- тур во многом используются формальные методы, их следует затем осмыслить. 6.2.2. Диаграмма рассеяния Теперь применим кластерный анализ на конкретном примере. В файле Качество жизни1, представленном на рис. 6.14, изучается зависи- мость индекса человеческого развития (Индекс) для ряда стран от переменных: > ВВП 1997 года в процентах к 1990 году (ВВП); > расходы на конечное потребление в текущих ценах в процентах к ВВП (Расходы); [ иКачешво жизни! shv SPSS Редакюр Донных №ЕЗ £айл Древка Дна Данные Преобразовать Анализ [рафики Сервис Дкно 2 £|| 2^| ю|: d : -1 Ь|&| *1 * — — - страна индекс жизнь питание ВВП расходы I дом_хоз вал ) пес п=р Л 1 Австрия ,904 77,00 3343,00 115.0 75,50 i 56.10 25,20 2 Австралия ,922 78,20 3001.00 123,0 78.50: 61.80 21,80 3 Белоруссия ,763 68,00 3101,00 74,0 78,40 ) 59.10 25,70 А Бельгия ,923 77,20 3543,00 111,0 77,70: 63,30 17,80 S Англия ,918 77,20 3237.00 ' 113,0 84,40 i 64.10 15,90 S Германия .аде 77,20 3330.00 110,0 75.90 57.00 22,40 7 Дания .905 75,70 3808,00 119,0 76,001 50,70 20,60 —-J в Индия .545 62,60 2415,00 146,0 67,50 57,10 25.20 9 Испания .894 78.00 3295,00 113,0 78,20) 62,00 20,70 10 Италия ,900 78.20 3504,00 108,0 78,10) 61,80 17,50 11 Канада ,932 79,00 3056,00 113,0 78,60) 58,60 19,70 12 Казахстан ,740 67,70 3007,00 71,0 84,00) 71,70 18,50 13 Китай ,701 69,80 2844,00 210,0 59,20) 48,00 42,40) - 14 Латвия ,744 68,40 2861.00 94,0 90,20) 63,90 23,00 15 Нидерланды ,921 77,90 3259.00 118,0 72,80) 59.10 20,20 16 Норвегия .927 78,10 3350,00 130,0 67,70) 47,50 25,20 17 Польша .802 72,50 3344,00 127,0 82.60) 65.30 22,40 1В Россия .747 66,60 2704,00 61,0 74,40) 53,20 22,70 19 США -.927 76,60 3642,00 117,0 83,30) 67,90 18,10 20 Украина .721 68,80 2753,00 46,0 83,70) 61,70 20,10 2 Финляндия ,913 76,80 2916,00 107,0 73.80) 52.90 17,30 22 Франция ,918 78,10 3551,00 110,0 79,20) 59,90 16,80 41 »]\А»и1ые д Переменные / 1д1_ SPSS Процессор готов : сШ | / | Рис. 6.14 ▼ Файл Качество жизни 1
Г лава 6 ▼ Факторный и кластерный анализ Рис. 6.15 т Окно Диаграмма > расходы домашних хозяйств в процентах к ВВП (Дом_хоз); > валовое накопление в процентах к ВВП (Вал); > суточная калорийность питания населения, в килокалориях на душу насе- ления (Питание); > ожидаемая продолжительность жизни при рождении в 1997 году, число лет (Жизнь). Следует заметить, что выбор переменных для последующего кластерного анализа является одним из наиболее важных шагов, но, к сожалению, и одним из наименее разработанных. Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной заранее теорией, которая лежит в основе классификации. На практике, как правило, дело обстоит совсем наоборот - в момент анализа теории еще нет, и результаты анализа как раз и должны послужить исходной базой для нее. Поэтому обычно в качестве переменных указывают все имею- щиеся независимые переменные, относя- щиеся к данной проблеме, в надежде на то, что метод специально создан для объектив- ной группировки объектов. Отобрав для кластерного анализа этот файл, приведем сначала очень простой двумерный пример, чтобы ввести читате- ля в идейную проблематику рассматрива- емой темы, отобразив ее графически. Посмотрим, как группируются страны в зависимости от сочетания двух переменных - Питания и Жизни. Для этого откроем файл Качество жизни 1 и, выполнив последовательность команд Гра- фики > Рассеяния, получим набор возможных типов диаграмм (рис. 6.15). Зададим простую диаграмму, а затем в появившемся диалоговом окне (см. рис. 6.16) введем переменные Питание и Жизнь соответственно по осям Хи К Матрица Простая Диаграмма рассеяния Рис. 6.16 т Окно Диаграмма рассеяния с указанными переменными
Кластерный анализ Выполнив эту процедуру, увидим, что на созданной диаграмме рассеяния (рис. 6.17) точки, соответствующие сочетаниям наших переменных (говоря точнее, это страны с теми или иными сочетаниями переменных), довольно отчетливо образуют четыре группы или кластера. Последние, как следует из диаграммы, неравномерны по количеству точек. Так, в одном из кластеров со- держится всего одна точка. О каких конкретно странах идет речь, станет ясно из дальнейшего изложения. ПИТАНИЕ 2400 2600 2800 3000 3200 Рис. 6.17т Диаграмма рассеяния с четырьмя кластерами 6.2.3. Меры сходства кластеров Если главная цель кластерного анализа - нахождение групп схожих объектов, то полезно хотя бы качественно представить, что кластеры обладают некото- рыми общими свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость. Плотность - это свойство, позволяющее определить кластер как скопление точек в пространстве данных. Оно относительно плотное по сравнению с дру- гими областями пространства, в которых точек либо мало, либо нет вовсе. Дисперсия характеризует степень рассеяния точек в пространстве относи- тельно центра кластера. С этой точки зрения кластер можно назвать плотным, если все точки находятся вблизи его центра тяжести, или неплотным, если они разбросаны вокруг центра. Еще одно свойство кластеров - размер - тесно связано с дисперсией: если кла- стер можно формально идентифицировать, то можно и измерить его «радиус». Форма- это расположение точек в пространстве. Несмотря на то, что обыч- но кластеры представляют собой гиперсферы, возможны и другие формы их изображения, например удлиненные. Отделимость характеризует степень перекрытия кластеров, и насколько да- леко друг от друга они расположены в пространстве.
Глава 6 V Факторный и кластерный анализ Не все из этих свойств достаточно четко формализуемы, поэтому существу- ют специальные коэффициенты сходства,, которые можно подразделить на че- тыре группы: > коэффициенты корреляции; > меры расстояния; > • коэффициенты ассоциативности; ► вероятностные коэффициенты сходства. Среди всех этих инструментов наибольшей популярностью в силу наглядно- сти и относительной простоты расчета пользуются меры расстояния. Главным критерием для определения схожести или различия двух стран яв- ляется расстояние между их точками на диаграмме рассеяния. Самой распрос- траненной мерой для определения такого расстояния является евклидова. Для двумерной диаграммы на плоскости эту меру можно выразить как r = ^X\-yif+^Х2~У2^ ’ где хр у'р х, у - координаты точек. Для многомерной ситуации, козторая будет рассмотрена ниже, количество пар координат, естественно, увеличится, то есть расстояние будет определять- ся всеми переменными (они могут быть, в частности, взвешены - тогда каждая скобка умножается на коэффициент а.< 1,0 причем Ба =1). В общем случае евклидова мера приобретает вид r= Рассмотрим еще ряд мер расстояния. Квадрат расстояния Евклида. Благодаря возведению в квадрат при расче- те лучше учитываются большие разности: Косинус. Область значений этой меры находится между-1 и +1: подобие _^2_. JSVxS?) Корреляция Пирсона. Значение коэффициента корреляции изменяется от -1 до +1, причем нулевое значение указывает, что между объектами нет связи. Неравенство Чебышева. Разностью двух случаев является абсолютное зна- чение максимальной разности последовательных пар переменных, соответ- ствующих этим случаям. Блок. Дистанционная мера определяется суммой абсолютных разностей пар значений. Для двумерного пространства, в частности, это будет не прямолиней- ное евклидово расстояние между двумя точками, а путь, который надо преодо- леть от одной точки до другой, двигаясь по прямолинейным отрезкам, пересе- кающимся под прямым углом: r= S | х _ у |.
Кластерный анализ Расстояние Минковского. Оно равно корню n-й степени из суммы абсолют- ных разностей пар значений, взятых в п-й степени: R = (У | х у | ”)’Заметим, что в SPSS в данной формуле допускается применение только квадратного кор- ня, но степень разности значений может быть выбрано в пределах от 1 до 4. При п = 2 получим евклидово расстояние. 6.2.4. Кластерный анализ со многими переменными Еще раз повторим, что в разделе 6.2.2 речь идет только о диаграмме рассеяния. Пример более полного кластерного анализа показан ниже. Рассмотрим тот же файл Качество жизни! (см. рис. 6.14), но в полном объе- ме с учетом всех переменных. Выполним последовательность команд Анализ > Классификация > Иерар- хическая кластеризация. В результате откроется окно Иерархический клас- терный анализ (рис. 6.18), где нужно включить все независимые переменные (Жизнь, Питание, Вал, Дом_хоз, Расходы, ВВП) в область Переменная(ые), а текстовую переменную Страна в область Метить значениями. Далее нажмем кнопку Статистики, чтобы попасть в одноименное окно (см. рис. 6.19), где указывается порядок образования кластеров (порядок агломера- ции) и их число. На всякий случай зададим от двух до пяти кластеров. В окне Графики (рис. 6.20) укажем выбор дендровидной диаграммы. )) Графики... | Mejaa.. I Сохранить... Рис. 6.18 v Окно Иерархический кластерный анализ Иерархический кластерный анализ Статистики Иерархический кластерный анализ: Графики F3 РПордоаглсмерации Г Матрице &мзсстей - Принадлежность к кластерам---; Н® I Г 0дно&еше»мк | к-’rvtp.ip j. <• Диапазон решений | Oi [2 АЙ [5 кластеров I Отмена Справка Продолжить) Отмена Справка Р Дендрограмма - СосщъчзтъЛ——-—-------- Г" gee кластеры С Заданный диапазон кластеров Рис. 6.19т Окно Иерархический кластерный анализ: Статистики Рис. 6.20 т Окно Иерархический кластерный анализ: Графики
Глава 6 ▼ Факторный и кластерный анализ Рис. 6.21 г Окно Иерархический кластерный анализ: Метод Задавая метод кластеризации в одноименном окне (рис. 6.21), выбираем в ка- честве различия между кластерами межгрупповые связи, а в качестве собствен- но метода - евклидово расстояние. Кроме того, введем стандартизацию наблю- дений и нормируем их в едином диапазоне от 0 до +1. После выбора указанных предварительных установок вернемся назад в окно Иерархический кластерный анализ (см. рис. 6.18) и начнем кластеризацию, нажав кнопку ОК. Программа выдаст таблицу (рис. 6.22), которая содержит порядок агломерации (очередность объединения в кластеры), а также их опти- мальное количество. По двум колонкам, расположенным под общей шапкой «Кластер объединен с», мы можем увидеть, что на первом шаге были объединены кластеры 10 и 22, то есть Италия и Франция. Расстояние между этими двумя точками минималь- ное или для данного случая просто нулевое - в колонке коэффициентов. Ука- занные два случая образовывают кластер 10, причем кластер 22 в таблице боль- ше не появляется. На следующем шаге происходит объединение кластеров 4 и 10 (Бельгия и Ита- лия), и кластер 10 больше не появляется. Расстояние между этой парой класте- ров, как видно из таблицы, очень мало. Объединение кластеров, евклидово рас- стояние между которыми с учетом стандартизации мало, - это слияние схожих кластеров, поэтому количество объединенных кластеров не увеличивается. Если мера расстояния между двумя кластерами возрастает скачкообразно, то, значит, появляется новый объединенный кластер. Оптимальным считается число клас- теров, равное разности количества наблюдений (в нашем случае 25) и количе- ства шагов, после которого коэффициент увеличивается скачкообразно. В на- шем примере можно отметить несколько таких точек - после 15-го шага, после 21-го, после 22-го, после 23-го. Соответственно, в зависимости от величины по- рога объединения, окончательное число кластеров может быть равно 10, 4, 3, 2. Если внимательно посмотреть на таблицу, то можно заметить, что в первый кластер неизменно включаются страны Западной Европы, Польша, Латвия
Кластерный анализ Шаги агломерации Этап Кластер объединен с Коэффиц иенты Этап первого появления кластера Следующей этап Кластер 1 Кластер 2 Кластер 1 Кластер 2 1 10 22 ,000 0 0 2 2 4 10 4.765Е-03 0 1 4 3 11 21 7.992Е-03 0 0 7 4 4 24 1.929Е-02 2 0 8 5 1 6 2.158Е-02 0 0 9 6 9 19 2.397Е-02 0 0 8 7 11 25 3.065Е-02 3 0 10 8 4 9 3.078Е-02 4 6 14 9 1 7 3,9236-02 5 0 14 10 5 11 4.692Е-02 0 7 13 11 15 17 5.409Е-02 0 0 15 12 3 18 5.467Е-02 0 0 18 13 2 5 6,610Е-02 0 10 15 14 1 4 7,199Е-02 9 8 16 15 2 15 8,103Е-02 13 11 16 16 1 2 ,106 14 15 17 17 1 14 ,136 16 0 20 18 3 12 ,140 12 0 19 19 3 20 .150 18 0 22 20 1 16 ,156 17 0 21 21 1 23 ,180 20 0 22 22 1 3 ,269 21 19 24 23 9 13 ,346 0 0 24 24 1 8 .571 22 23 0 Рис. 6.22 т Таблица «Шаги агломерации» Вывод! spo SPSS Viewer £айл Правка Вставка формат Анагыз £рафищ Сервис Qkmo 2 ~^|н|е|в[д»|^| »|'aj Jj] 31 Принадлежность к кластерам Наблюдение 5 кластеров 4 кластеров 3 кластеров 2 кластеров 1 Австрия 1 1 1 1 2:Австралия 1 1 1 1 ЗЬелоруссия 2 2 1 1 4:Бельгия 1 1 1 1 5 Англия 1 1 1 1 бГермания 1 1 1 1 7Дания 1 1 1 1 8:Индия 3 3 2 2 9 Испания 1 1 1 1 10:Италия 1 1 1 1 11 Канада 1 1 1 1 + 12:Казахстан 2 2 1 1 13:Китай 4 4 3 2 1 4 Латвия 1 1 1 1 15:Нидерлаиды 1 1 1 1 1 бНорвегия 1 1 1 1 17 Польша Ч ‘"-□Вт - 1 1 1 _J ‘ 1 Двойной щелчок редактировать Моби, j- [SPSS Процессор готов RRE3 Рис. 6.23 ▼ Распределение в виде таблицы
Глава б » Факторный и кластерный анализ и при наличии двух или грех кластеров - страны СНГ. Во второй или третий кластер. в зависимости от общего количества, попадают Китай и Индия. При грех кластерах во втором оказываются страны СНГ. При четырех или пяти кла- стерах страны распределяются более сложно - это можно увидеть на рис. 6.23- 6.24: на первом из них распределение показано в таблице, во втором - на денд- рограмме. Во всех случаях основой для оценки является комплексное социально-эконо- мическое состояние конкретной страны. Рис. 6.24 v Распределение в виде дендрограммы
Анализ временных рядов Под временным (динамическим) рядом понимается последовательность наблю- дений некоторого параметра (случайной величины) Yв последовательные мо- менты времени. Эти наблюдения представляют собой значения данного пара- метра, фиксируемые через равные промежутки времени, или, другими словами, агрегированные или усредненные по интервалам (периодам) времени. 7.1. Общие положения В качестве примеров временных рядов можно привести ежедневный курс дол- лара, ежемесячный уровень инфляции, квартальный уровень безработицы, годовой ВВП и т.д. Важнейшей традиционной проблемой при исследовании временных рядов является выявление и статистическая оценка основных закономерностей раз- вития изучаемого процесса и отклонений от них. Можно выделить основные задачи, относящиеся к анализу временных рядов: > представление и описание (обычно - графическое) поведения временно- го ряда; > выделение и удаление закономерных (неслучайных) компонентов времен- ного ряда - тренда, сезонных, циклических и других составляющих; > сглаживание и фильтрация (удаление низко- или высокочастотных состав- ляющих временного ряда); > исследование случайной составляющей временного ряда, построение и проверка адекватности математической модели для ее описания; > прогнозирование развития изучаемого процесса на основе имеющегося временного ряда; > исследование взаимосвязи между различными временными рядами.
Глава 7 ▼ Анализ временных рядов Наиболее распространенные методы анализа временных рядов можно раз- делить на временные (регрессия, авторегрессия, экспоненциальное сглажива- ние, модель ARIMA и др.) и частотные (основной - спектральный анализ). В пер- вом случае временной ряд рассматривается как непосредственная функция времени. Для частотного подхода временной ряд представляется как «сумма» периодических рядов с разными частотами. Между методами обоих классов существует взаимное однозначное соответствие. Пример файла, содержащего типичный временной ряд, показан на рис. 7.1. В поле Год проставлены значения временной переменной, в поле Выпуск - данные по объему выпуска продукции в этом году. Рис. 7.1 т Ежегодные данные по выпуску продукции Такой файл можно создать в редакторе SPSS путем ввода данных вручную (см. рис. 1.7, 1.8) в пустой бланк или переноса их из другого источника. Так, данные в файле на рис. 7.1 первоначально набраны в Excel, скопированы и вставлены в файл SPSS с помощью команд Правка > Вставить. Даты в SPSS можно задать и другим способом. Допустим, что в нашем распоряжении есть файл с информацией о выдаче разрешений на строительство нового частного жилья в США за период 1990- 1994 годов в процентном соотношении с уровнем 1987 года. Данные представ- лены по месяцам с января 1990 года, но месяцы в файл не включены - имеется лишь одно поле с процентами разрешений (рис. 7.2). Выбрав в меню команды Данные > Задать даты, выходим в диалоговое окно Задать даты. Здесь в списке Наблюдение представлены любые возмож- ные периоды времени (годы, месяцы, кварталы, дни и часы), из которых выби- раем нужное - годы и месяцы. В группе Первое наблюдение указываем год 1990 и месяц 1. В итоге окно должно выглядеть так, как показано на рис. 7.3. Если теперь нажать кнопку ОК, после чего перейти в окно редактора дан- ных, то получится вид файла Временной ряд1, показанный на рис. 7.4. Итак, теперь мы умеем вставлять данные различными способами.
Общие положения Рис. 7.2 ▼ Файл сданными о выдаче разрешений Рис. 7.3 т Окно Задать даты Рис. 7.4 т Файл Временной ряд1
Глава 7 ▼ Анализ временных рядов 7.2. Временной подход к анализу временных рядов Первый шаг по пути анализа временного ряда состоит в том, что мы хотим посмотреть, как он выглядит в графическом представлении. Для этого, выбрав команды Графики > Последовательности, откроем окно Диаграммы после- довательностей (рис. 7.5). В область этого окна под названием Переменные с помощью кнопок перенесем переменную Разрешения, а в область Метки оси времени - переменную Date. Нажав кнопку Формат, соединим наблюдения между переменными, после чего, щелкнув по кнопке ОК, получим график вре- менного ряда (рис. 7.6). Рис. 7.5 ▼ Окно Диаграммы последовательностей Построение графика представляет собой достаточно удобное исследователь- ское средство в анализе временных рядов, позволяющее обнаружить в них тренды, сезонные и циклические компоненты и другие особенности. 7.2.1. Тренд, сезонная и циклическая компоненты Понятие тренда относится к долговременной тенденции в изменении значений временного ряда и определяется возрастанием или убыванием «сглаженных» значений временного ряда в течение продолжительного периода времени, со- ставляющего обычно для экономических приложений 15-20 лет. Наличие этой компоненты в поведении временного ряда обусловлено действием фундамен- тальных экономических и демографических факторов, среди которых, напри- мер, изменение численности населения, технологический прогресс и др. Циклические колебания представляют собой повторяющиеся движения значе- ний ряда вверх и вниз относительно тренда с продолжительностью цикла от 2
Временной подход к анализу временных рядов Рис. 7.6 ▼ Г рафик временного ряда до 15 лет. Эти циклы являются скорее повторяющимися, чем строго периоди- ческими. Их амплитуда и продолжительность существенно зависят от содержа- ния и могут быть измерены в терминах поворотных точек или, другими слова- ми, от впадины до впадины или от пика до пика. Эти показатели отличаются в индустриальном и сельскохозяйственном рядах, а также в пределах данных категорий и конкретных рядов. Так, циклы в производстве товаров длительно- го пользования обычно обнаруживают более значительные относительные флуктуации, чем в производстве потребительских товаров, а конкретный вре- менной ряд для этого направления может обладать бизнес-циклами, имеющи- ми значительные вариации как по периодам, так и по амплитудам. Если отсут- ствует статистика за длительный период времени, циклические компоненты обычно не могут быть учтены и спрогнозированы в модели. Поскольку простые объяснения цикличности деловой активности отсутству- ют, то достаточно точных методов прогнозирования не существует. Поэтому в классическом анализе временных рядов применяется достаточно грубый под- ход к расчету циклов, называемый остаточным: после удаления тренда и сезон- ной составляющей остаток объясняется совокупным воздействием факторов цикличности и случайности. Сезонные колебания в большей степени являются периодическими, чем просто повторяющимися. Они в основном обусловлены факторами, определяющими
V Глава 7 ▼ Анализ временных рядов сезонность - главным образом погодой и обычаями. Как правило, для исследо- вания таких сезонных изменений используется ряд ежемесячных или ежеквар- тальных данных. Например, статистические данные показывают, что каждый год количество мороженого, продаваемого в течение летних месяцев, больше, чем в течение зимних, и, наоборот, основное количество топливной нефти для обогрева помещений расходуется зимой. Месячные продажи универмага могут незначительно повышаться в апреле и существенно возрастать в декабре, от- ражая покупательскую активность, связанную с празднованием Пасхи и Рожде- ства. Сезонность не обязательно связана с годовыми изменениями. Например, при изучении ежедневного объема корреспонденции, обрабатываемой почто- выми службами, вполне могут наблюдаться недельные периодические измене- ния (в середине недели объем почтовых отправлений значительно выше, чем в выходные). В таком случае период сезонности составляет 7 дней. Кроме того, если имеется большая статистика по ежедневным отправлениям за несколько лет, то можно обнаружить определенные сезонные колебания в течение года, так что периодичность (число периодов времени или точек ряда, за которые происходит одно сезонное колебание) может быть различной. То, с каким ин- тервалом собираются данные временного ряда, обычно зависит от типа сезон- ности, которую пользователь ожидает обнаружить. Нерегулярная компонента временного ряда представляет собой случайные по своей природе изменения значений временного ряда. Такие колебания иног- да называют остаточной вариацией, так как они представляют собой то, что остается во временном ряде после выделения тренда, сезонных и циклических составляющих. Эти нерегулярные изменения вызываются спорадическими несистематическими явлениями (войнами, землетрясениями, забастовками и т.п.), то есть большим числом не поддающихся учету факторов, совместное воздействие которых хаотично. 7.2.2. Интервенции Временной ряд может иметь внезапные изменения уровня (вверх или вниз) в ре- зультате внешних воздействий. Например, объем продаж может кратковременно возрасти в результате рекламной кампании, предложения скидки, изменения налогового законодательства, то есть, другими словами, влияния некоторых внешних факторов. При этом надо различать импулъс- внезапное кратковременное изменение в уровне ряда и скачок- внезапное постоянное изменение в уровне ряда. При разработке моделей временных рядов за основу берутся постепенные измене- ния, в результате чего не учитываются и плохо аппроксимируются воздействия типа импульса или скачка. Однако, если эти факторы поддаются идентифика- ции по дате, то их можно включить в модели и прогнозы Decision Time (они называются интервенциями или событиями).
Временной подход к анализу временных рядов 7.2.3. Сглаживание временных рядов Сглаживание временных рядов позволяет уменьшить шум и, за счет этого, лучше видеть основные тенденции в поведении ряда. Различают сглаживание с помощью скользящего среднего, собственно экспоненциальное сглаживание и ARIMA. Скользящее среднее - это среднее значение соседних данных временного ряда. Для его расчета надо последовательно пройти весь ряд и вычислить для каж- дой точки среднее по ее соседним значениям. При этом, в зависимости от ко- личества соседних значений, участвующих в расчете (ширина окна), эффект сглаживания может измениться. Компоненты скользящего среднего используют прошлые значения компо- нентов ошибок в качестве предикторов. Их можно интерпретировать как внеш- ние события или влияния на процесс или систему. Другими словами, непредс- казуемое изменение среды (под которым, в частности, может пониматься и текущее значение ошибки), происходящее в данный момент, воздействует как на настоящие, так и на будущие значения ряда. Порядок скользящего среднего относится к лагу между значениями ошибки и ряда. Например, если на значение ряда влияет ошибка, отстающая на один период, то это процесс скользящего среднего первого порядка МАЦ). В общем случае модель MA(q) можно выразить каку(1) = е + Ь*е[Л + Ь*е,2 + ... + 6 При экспоненциальном сглаживании используется подход, подразумевающий, что пос- ледние, свежие, наблюдения имеют относительно больший вес для прогнози- рования, чем более ранние. Сглаживание подразумевает предсказание наблюде- ния по взвешенной комбинации предыдущих значений, а экспоненциальное - то, что веса убывают по экспоненте по мере «старения» наблюдений. Простое экспоненциальное сглаживание означает, что моделируется только медленно изменяющийся ряд. Его можно дополнить в том случае, если требуется создать различные комбинации тренда и сезонности. Таким образом, имеется несколь- ко типов моделей экспоненциального сглаживания. ARIMA (AutoRegressive Integrated Moving Average), или АРПСС (сокращение от «авторегрессия» - проинтегрированное скользящее среднее), иногда назы- вается моделью Бокса-Дженкинса. Основной предпосылкой данной модели является то, что объясненная вариация временного ряда может быть условно разделена на три компонента: > авторегрессия; > интегрирование или дифференцирование; > скользящее среднее. Модели ARIMA могут иметь любой компонент или их комбинацию при се- зонном и несезонном представлении. Типов этих моделей много, а их общая форма - ARIMA(/>, d, q) (Р, D. Q), где: > p- порядок несезонного процесса авторегрессии, включенного в модель (Р- порядок сезонного процесса авторегрессии);
Глава 7 V Анализ временных рядов > d- порядок несезонного дифференцирования (D- порядок сезонного дифференцирования или интегрирования); > q- порядок несезонного процесса скользящего среднего, включенного в модель (Q- порядок сезонного процесса скользящего среднего). Так, например, если в авторегрессии текущее значение ряда определяется прошлым значением, то она имеет порядок 1, если значением, сдвинутым на два (и не более) периода назад, то порядок 2, и т.д. Если на значение ряда вли- яет ошибка модели, отстающая на один (и не более) период, то это модель скользящего среднего порядка 1. Модели ARIMA могут содержать любой набор компонентов. Модели позво- ляют предсказывать значения ряда, используя данные других рядов. 7.2.4. Модели прогнозирования временных рядов Модели, предназначенные для прогнозирования временных рядов, можно раз- делить на два типа: так называемые чистые и с объясняющими переменными. Чистые модели используют исключительно ту информацию, которая содер- жится в самом исследуемом ряде. Например, если построить модель для прог- нозирования выпуска продукции только на основе примера на рис. 7.1, то она по определению будет чистой, так как никакой другой информации, кроме дан- ных о выпуске, там не содержится. Математический аппарат чистой модели - как правило, авторегрессия. К модели с объясняющими переменными можно отнести уже знакомую нам регрессию, которая была рассмотрена в главе 5. Кроме значений исследуемой переменной, она включает значения переменных (временных рядов), влияющих на исследуемую. Процесс построения такой модели состоит из выбора соответ- ствующих временных рядов (объясняющих переменных или предикторов), а так- же установления вида зависимости между ними и прогнозируемым рядом. Ее преимущество заключается в том, что можно оценить воздействие различных факторов на исследуемый ряд, то есть последствия принятия тех или иных управленческих решений. Основной недостаток - необходимость наличия ин- формации по дополнительным переменным (рядам). Возможно, для получения последних придется спрогнозировать будущие значения независимых перемен- ных, поэтому построение и работа с такой моделью более трудоемки. 7.3. Проект Decision Time Для временного подхода в рамках SPSS предназначен программный компонент Decision Time, в котором удобный в работе графический интерфейс сочетает- ся с автоматизированными методами анализа и прогнозирования временных рядов. С его помощью обеспечивается, в частности, быстрое создание бизнес- прогнозов на основании одного или нескольких рядов данных. При этом мож- но воспользоваться преимуществами Мастера прогноза (Forecast Wizard),
Проект Decision Time Рис. 7.7 ▼ Окно Decision Time выполнения последовательное- позволяющего пройти несколько этапов со- здания прогноза и автоматически выбрать модель, соответствующую исходным данным. В качестве альтернативы, пользователи, иску- шенные в анализе временных рядов, могут воспользоваться Продвинутым мастером про- гноза (Advanced Forecast Wizard) для построе- ния собственных моделей, основанных на ме- тодах экспоненциального сглаживания или ARIMA (одномерном или многомерном, вклю- чающем предикторы и учитывающем интер- венции). В этом разделе мы рассмотрим ос- новные окна и действия в Decision Time, что позволит получить представление о програм- ме и создать предпосылки для более деталь- ного описания ее в дальнейшем. Запуск Decision Time осуществляется путе ти команд Пуск > Программы > Decision Time > Decision Time 1.1. После этого на экране появится окно Decision Time (рис. 7.7), в котором вы должны сделать начальный выбор, ответив на вопрос What would you like to do? (Что вы хотите делать?). У пользователя есть три варианта: > Start the tutorial (Открыть учебник); > Start a new project (Открыть новый проект); > Open an existing project (Открыть существующий проект). Выберем третий вариант и откроем требуемый sav-файл в табличном виде, показываемый в редакторе данных, в данном случае Временный файл1. Теперь мы увидим главное окно Decision Time (рис. 7.8) с двумя панелями: > панель схемы (слева), содержащую список доступных рядов (или, точнее, переменных как функций времени) и возможных построенных моделей; > панель содержания (справа), подробно отображающую элементы, пере- численные в левой части, в виде таблиц или графиков. Если при ответе на вопрос What would you like to do? выбрать позицию Start a new project (Открыть новый проект), то обе эти панели останутся пустыми до тех пор, пока мы не зададим переменные или модели, предназначенные для отображения на правой панели. Когда возникает необходимость перенести какую-либо переменную или мо- дель из левой панели в правую, надо дважды щелкнуть по соответствующей строке или, удерживая клавишу Ctrl, перетащить последнюю направо. Можно управлять главным окном, выводя различную информацию на графи- ках и в таблице с помощью кнопок на панели инструментов (правее панели содержания) - рис. 7.9.
Глава 7 ▼ Анализ временных рядов {^P/ojecl Decision!«те ИИЕЗ Fte £cft y«ew Qsla (Faecast Hefei. aTaat°fe। *- - з j t_ ♦ “ 4 41 I fH й’ 1’ / П? Add Future Values ^>Cieate a Forecast *2 ~ - Рис. 7.8 v Главное окно Decision Time Рис. 7.9 ▼ Панели управления главным окном Эти кнопки продублированы в меню View (Вид) в строке меню: > Show Historical Values (Показать имеющиеся исходные данные) Г~| - оп- ция, выполняющаяся по умолчанию; > Show Forecast Values (Показать прогнозные значения за пределами мас- сива. исходных данных) £3 - опция, выполняющаяся по умолчанию; > Show Fit Values (Показать подогнанные значения для массива исходных данных) EJ - имеются в виду расчетные значения исходных данных; > Show Historical Limits (Показать 95-процентное доверительные интер- валы для подогнанных значений) BI:
Проект Decision Time > Show Forecast Limits (Показать 95-процентные интервалы для прогноз- 1 ных значений) gj. Более детально вопросы прогнозирования рассмотрим дальше в этом же разделе. Сейчас же вернемся к обзору Decision Time. Эта программа позволяет рассчитывать данные различных форматов: файлы данных SPSS; > файлы Excel (версия 5 или позже); ► данные из БД, расположенных на рабочей станции, в локальной сети или на сервере (например, Oracle, если установлены соответствующие драй- веры ODBC); > данные из текстовых файлов двух наиболее распространенных форма- тов - фиксированного и с разделителем. Такая гибкость в доступе необходима в связи с тем, что Decision Time не имеет собственных средств для ввода и редактирования данных. Так, если надо перенести данные из файлов SPSS в Decision Time, то предварительно их необ- ходимо обработать должным образом. Посмотрим, например, как считываются временные ряды из файлов SPSS (имена переменных, принятые в SPSS, при этом сохраняются). Однако Decision Time не воспринимает переменные формата дат и строковые. Но, как будет показано дальше, это обстоятельство серьезным препятствием не является. Если на одном компьютере установлены SPSS и Decision Time, то последняя программная компонента может быть запущена для совместной работы с SPSS посредством меню Analyze. При этом файл данных из SPSS автоматически пе- редается в Decision Time. В качестве примера откроем временной ряд, представленный на рис. 7.1, в файле SPSS. Сначала выполним такую последовательность команд: Пуск ► Про- граммы > Decision Time > Decision Time 1.1. В результате на экране появится окно с надписью What would you like to do? (Что бы вы хотели сделать?), а также варианты ответа на этот вопрос: > Start the tutorial (Активизировать учебник); > Start a new project (Запустить новый проект); > Open an existing project (Открыть существующий проект). Необходимо выбрать второй вариант и нажать кнопку ОК (рис. 7.10). В следующем окне Select Data Sourse (Выбрать источник данных) укажем SPSS Data File (рис. 7.11). Обратим внимание, что считывание файлов других форматов также возможно, если выбрать соответствующую команду в данном окне. После нажатия кнопки ОК следует перейти в соответствующую папку и от- крыть требуемый файл (в нашем примере - Временной ряд1). Далее появится новое окно Define Date and Time (рис. 7.12), в которое переносятся столбцы данных из файла SPSS (в нашем файле - один столбец).
Глава 7 ▼ Анализ временных рядов Рис. 7.10т Окно Decision Time с выбранной опцией Start a new project Рис. 7.11 т Окно Select Data Sourse Как уже сказано, переменные в формате дат из одной программы в дру- гую прямо не переводятся: по умолчанию они переносятся как периоды, что и показано на рис. 7.12 в окне What is the time interval between the data points? (Каков временной интервал между точками данных?). После указа- ния в качестве временного интервала месяцев (см. рис. 7.12) на экране отоб- разятся даты - месяцы и соответствующие им годы (см. рис. 7.13). В том же окне устанавливается и первый месяц, с которого начинается отсчет, - ян- варь 1990 года. Кроме того, эта начальная временная точка задается вруч- ную и с помощью прокрутки. Так же, кстати, можно и внести необходимые исправления. Define Dale and Time ? What is the time irtetval between the data pointe? | <Seiect the interval» j Рис. 7.12т Окно Define Date and Time
Проект Decision Time Рис. 7.13 ▼ Окно Define Date and Time после указания временного интервала i Forecast Wizard - Welcome Eli | Далее > | • [ Отмена | Справка | Рис. 7.14 ▼ Окно приглашения Мастера прогноза Закончив создание в Decision Time файла исходных данных, переходим в окно с приглашением Мастера прогноза (рис. 7.14). В этом окне сообщается о том, что The wizard will quide you step by step through the process of obtaining a forecast (Мастер проведет вас шаг за шагом через весь процесс прогнозирования). Each data series can be forecasted from its own history or from its history plus one or more predictor series (Каждая последо- вательность данных может быть предсказана как на основе своей собственной ретроспективной выборки, так и с привлечением дополнительных выборок, от- носящихся к другим факторам). В отдельной ячейке можно указать, требуется ли автоматический запуск Мастера прогноза при включении нового проекта. .Затем на экране появится файл Временной ряд! в формате Decision Time (см. рис. 7.8).
Глава 7 ▼ Анализ временных рядов 7.4. Построение моделей с помощью Мастера прогноза Decision Time содержит специальный Мастер прогноза, который выбирает наи- лучшую модель в пределах моделей экспоненциального сглаживания и ARIMA (для последних можно включать предикторы и интервенции). Он включает в себя Эксперт моделей, а тот, в свою очередь, рассматривает и оценивает мно- жество моделей временных рядов, выбирает лучшую из них для конкретных данных и по ней строит прогноз. Начнем работать с Мастером прогноза. Исходная выборка Временной ряд! содержит 60 месячных точек (см. рис. 7.8). Выполним последовательность ко- манд Forecast > Forecast Wizard (Прогноз > Мастер прогноза) или нажмем на кнопку Create a Forecast (Создать прогноз). В открывшемся окне Series to be Forecasted (Прогнозируемый ряд) - рис. 7.15- следует указать Which series would you like to forecast? (Какие выборки вы хотели бы спрогнозировать?) и How many periods would you like to forecast (На сколько периодов времени должен быть сделан прогноз) - по умолчанию этот параметр означает число периодов времени после последнего значения данных и определяет, как дале- ко в будущее производится прогноз. Между прочим, в одном из последующих окон Мастера прогноза можно указать, что прогноз начинается до завершения исходной выборки. Данный прием часто используется для оценки качества модели по различиям реальных и прогнозируемых моделей, так как в этом слу- чае исходные данные в конце ряда не используются при построении модели, а прогнозируются в ней. По умолчанию прогноз выполняется на четыре момента времени. Это зна- чение легко изменить с помощью стрелок прокрутки или путем ввода нужного значения в ячейку Period (Период). Выбор временного ряда, подлежащего Рис. 7.15т Окно Series to be Forecasted
Пост рс; «и ? тйй « помощыо Мастера прогноза прогнозированию, осуществляется двойным щелчком по его названию, распо- ложенному в области Available Series окна Series to be Forecaste (Прогнозиру- емый ряд) - рис. 7.16. Forecast Wizard - Series to be Forecasted Which senes would you 'eke to forecast? J Avadabte Series:J year_ month_ Series to be Forecasted разрешен How nw pefods would you ike to forecast? Отмена < Назад j Далее > Г Готово Справка Рис. 7.16 т Выбор временного ряда, подлежащего прогнозированию Проделав все эти приготовления, мы смело можем нажимать кнопку Далее, затем Готово и в появившемся окне Decision Time - кнопку Table (Таблица). На экране появится изображение прогноза в виде таблицы (рис. 7.17). В соответствии с заданием вывести прогноз на четыре периода были полу- чены численные прогнозные значения. Если теперь выполнить последователь- ность команд View > Forecast Output > Forecast Confidence Limits, то на экране монитора увидим данные прогнозируемых 95-процентных пределов предсказанного процесса (также на заданные четыре периода) - рис. 7.18. (^Project - DecisionTime______________________ _______’____ МВЕЗ| fte £сЙ yrew Forecast ’ D Э= Н S& 1 EfeЪ ЯГУ "и • S 3 JPJ?____________________________________________ ф •' : -3?Add Future Values ^Create a Forecast ^SendtoWhatlf Рис. 7.17 ▼ Представление рассчитанного прогноза
Глава 7 V Анализ временных рядов («У Project - Decisionlime ИИЕЗ Не ЕЛ £>ato Fofegast Цф __ ____________________________________________ О & Q ев Ъ Й.! Л 7 Г ‘т -! D ? i ф « zs 2g ".у -у 'з? : . £j£.Add.Future Values ^3Creatoa Forecast Send to Whatff __________Months____________ Serie» | Model < peepe... Simple Seaso. yeaf_ month- fit_2 Ready Рис. 7.18 ▼ Изображение прогнозируемых 95-процентных пределов предсказанного процесса На этих рисунках показаны табличные значения предсказанного процесса и его предельных значений. Если надо посмотреть, как этот временной ряд выглядит в графическом виде, то можно нажать на кнопку Graph Panels (Па- нель схемы) - рис. 7.19. Рис. 7.19 ▼ Графическое представление предсказанного процесса и его предельных значений 7.5. Построение моделей с помощью Мастера прогноза и с участием предиктора Теперь попытаемся получить прогноз временного ряда с использованием предиктора. В качестве последнего используем временной ряд о месячных объемах продаж в обрабатывающей промышленности и торговле за тот же
Построение моделей с участием предиктора период - с января 1990 года по декабрь 1994 года. Этот временной ряд изна- чально!задан в Excel. Поскольку и первоначальный файл Временной ряд1, и новый файл Объемы продаж должны быть сформированы в одном формате Decision Time, то их предварительно нужно объединить в Excel (вводить в один файл формата Decision Time данные из двух разных файлов значитель- но сложнее). На рис. 7.20 этот единый файл показан в Excel, его имя Разре- шения и объемы продаж. ЕЗ Mictosoll Excel - Разрешения и объёмы продаж М1*1 ЕЗ 18} Файл Главка Вид Вставка Формат Сдоис Данные фою Справка - X 1 □ 0? И) ; j ю . I 100%2: J3 J Т 1 Arial С/г -10 - i Ж К 3 S 9 С G5......•..........f............' iМесяц, год Разрешен Продажи янв90 72,9 472,5 фев.90 113,4 482,5 мар 90 86,2 489,5 апр 90 80,8 493,6 май 90 73,7 488 июн.90 69,2 490,6 и юл 90 71,9 492,5 авг90 69,9 488,1 JOJ сен 90 69,4 493,1 11 ; окт 90 63,3 484,5 12- ноя 90 60,0 483 Ш дек 90 _ $1.0 476.9 Н < > мКлист! Zftcig ХЛиетЗ /1 4 |________I п L f : ;~Т ,~т~~>»uMg J 1 1 Рис. 7.20 ▼ Файл Разрешения и объемы продаж Выше мы выяснили, как ввести данные в табличном виде из SPSS в Decision Time. Теперь посмотрим, как проделать подобную процедуру с Excel. Запустим программу Decision Time и в окне, показанном на рис. 7.7, выберем опцию Start a new project (Открыть новый проект). Затем в списке источников данных (рис. 7.11) выбе- рем Excel. Откроем файл Разрешения и объемы продаж и в появившемся окне Ope- ning Excel Data Source (Открыть источник данных Excel) - рис. 7.21 - укажем рабочий лист и диапазон этого файла в Excel. Потом точно так же, как это делалось для SPSS, получаем таблиггу для Decision Time (рис. 7.22). Далее задаем период прогнози- рования шесть интервалов и, щелкая дваж- ды по названию каждой кривой (v2 - разре- шения, v3 - объемы продаж) в области Рис. 7.21 » Окно Opening Excel Data Source Available Series (Исходные последовательности), переносим их в область Series to be Forecasted (Прогнозируемые ряды) одноименного окна (рис. 7.23). В результате получим график, на котором представлены обе кривые (рис. 7.24).
Глава 1 v Анализ временных рядов Define Date and Time j .What is the time ^вп/Ы between the data ports? ЭЦ ;^:пюг^ЖЖ?|-:>|янв 1990 Z] ?Ш?( E®cal yea begins: (январь "" 3 Preview. OK j CanceT | Hefr | Рис. 7.22 ▼ Окно Define Date and Time и получение таблицы для Decision Time Рис. 7.23 ▼ Перенесение названия кривых из одной области окна Series to be Forecasted в другую Здесь следует сказать, что метки v2 и v3, присваиваемые по умолчанию, все- гда можно легко заменить на первоначальные названия и обратно. Это делает- ся следующим образом. В главном окне Decision Time (см. рис. 7.24) выделим сначала одну переменную v2. Затем выполним последовательность команд View > Data Viewer (Вид > Просмотр данных). В окне Data Viewer (Просмотр данных) - рис. 7.25 - получим оба ряда данных v2 и v3 в табличном виде. Дважды щелкнем по заголовку столбца v2, после чего откроется окно Series Properties (Свойства рядов) - рис. 7.26. В поле Series label (Метки рядов) заменим v2 (это обозначение может ос- таться в качестве имени выборки) на первоначальное название Разрешен. То же самое проделаем со второй выборкой, заменив метку v3 на название Про- дажи. Затем закроем окна Data Viewer (Просмотр данных) и Series Properties (Свойства рядов) и увидим главное окно Decision Time, где проведена нужная
Построение моделей с участием предиктора Рис. 7.24 т Г рафик с кривыми разрешения и объема продаж Рис. 7.25 v Ряды данных v2 и v3 в табличном виде Рис. 7.26 т Окно Series Properties
Глава 7 т Анализ временных рядов замена (рис. 7.27). В дальнейшем в этом разделе будем использовать метки для обозначения выборо^с. Pioiecl3 - DecisionTime _________ ВВЕЗ : 0е 1 fiataForecast * - '= W I #. 3 3 I jgClMto'iFaWMi «SBSendtoWbAf J ____________Months _____________ Sewet | Model * v2 Simple Seaso... * v3 Рис. 7.27 ▼ Графики кривых с первоначальными именами Теперь приступим к прогнозированию целевого временного ряда файла Вре- менной ряд1 с использованием подготовленного нами предиктора. В самой простейшей форме выражение для этого целевого ряда может быть представ- лено в следующем виде: У , = 6оЧ/ + а+ее В данном выражении текущее значение ряда складывается из нескольких компонентов: > значения предиктора в предыдущий момент (у(), умноженного на коэффи- циент Ьо; > ошибки в текущий момент е~ > константы а. Предполагается, что прошлые («исторические») значения самого целевого ряда в этом примере в расчете не участвуют. Таким образом, задача состоит в том, чтобы построить на шесть месяцев прогноз получения разрешений на строительство нового частного жилья с использованием объемов продаж в перерабатывающей промышленности и торговле в качестве предиктора. Но для этого надо иметь прогноз этих объемов на те же полгода. Следует заметить, что в принципе период прогноза может быть любым, также допускается при- влечение дополнительных предикторов, учет прошлых значений целевого ряда и другие варианты. Начнем с того, что получим прогноз предиктора - объемов продаж в перера- батывающей промышленности и торговле на шесть месяцев. Для этого откроем файл Разрешен-Объемы продаж, нажмем кнопку Table (Таблица) и выберем
Построение моделей с участием предиктора метку v3, которой обозначается ряд Объемы продаж. На рис. 7.28 показан этот ряд, заканчивающийся декабрем 1994 года, в табличном виде. Значения ряда объема продаж - предиктора - мы должны спрогнозировать на следующие шесть месяцев. Для этого нажмем кнопку Create a Forecast (Со- здать прогноз) - см. рис. 7.28, после чего откроется окно Series to be Forecasted (Прогнозируемые ряды), в котором нужно перенести переменную v3 из левой области в правую и задать период прогноза, равный шести интервалам (меся- цам), - рис. 7.29. При нажатии на кнопку Далее откроется окно, где будет показан результат - прогноз поведения предиктора на полгода после окончания «исторического» периода вместе с 95-процентными предельными значениями (без которых пока вполне можно обойтись) - рис. 7.30. ^РазрешенОбъёмы продаж - DecisionTime №JE3 Be Е<Й View Help Valuesi a Fote&ast:.; Months_____________ v2 Simple Seaso. Зам» ОД^П5514|М94|И94|08»*1<»»||10 М| П М| 1294| уЗ‘1И И1,91349,71530,1 -И4.0350.0365,6 1564,7 1566,91572,7j ж:::;:'; ia j gjWii 1жД й ДйЦЗШЙ17 Wig Ready I |NUM {’ Рис. 7.28 ▼ Ряд Объемы продаж (v3) в табличном виде Рис. 7.29 ▼ Перенос переменной v3 и выбор интервала для прогнозирования
Г лава 7 ▼ Анализ временных рядов Разрешен Объёмы продаж - Decision Time : ^Qe^eR»eCaa:.:.: ^SendtaWhertll: —~] Swies / Mwtet I Row |а1;5|(ви|ози|04^|о5.м|ми| *♦ АММАЮШ у3 * MAI - 1- - j - J « Д5 f<!*W№g 600,3 i 555,41556,71559,6 1554,21551.8 j Рис. 7.30 ▼ Прогноз поведения предиктора на полгода Теперь откроем окно Data Viewer (Просмотр данных) с помощью команд View > Data Viewer (Вид > Просмотр данных) и перенесем прогнозные значе- ния предиктора в таблицу, расположенную в этом окне (рис. 7.31). Следует за- метить, что прогнозные значения могут быть не только рассчитаны, но и вне- сены вручную. Рис. 7.31 т Окно Data Viever с перенесенными прогнозными значениями предиктора Ячейки, содержащие исходные данные (по декабрь 1994 год), имеют серый цвет, и их значения не могут быть изменены в Decision Time. Ячейки для буду- щих значений имеют белый фон, допускается изменение их содержания. Не- обходимо обратить внимание на то, что будущие значения предикторов исполь- зуются при построении прогноза целевого ряда, но предполагаемые значения целевого ряда игнорируются. Когда новые предсказанные значения целевого ряда будут получены, допускается их введение в исходный источник данных, а уже оттуда - перезагрузка обновленных данных в Decision Time с помощью последовательности команд Data > Reload External Data (Данные > Переза- грузить внешние данные).
Построение моделей с участием предиктора Теперь, когда мы располагаем прогнозом предиктора, можно предсказать целе- вой ряд на те же шесть месяцев. Выполним команды File > Close (Файл > За- крыть). После этого в открывшемся окне (см. рис. 7.27) выберем в меню Forecast (Прогноз) команду Forecast Wizard (Мастер прогноза) и нажмем кнопку Далее, чтобы пропустить окно Приглашения. Появится уже знакомое окно Series to be Forecasted (Прогнозируемые ряды), в котором необходимо перенести целевой ряд v2 (с переменной Разрешен) в область Series to be Forecast (Прогнозируемые ряды) и изменить количество интервалов прогноза до шести (рис. 7.32). Forecast Wizard - Series to be Forecasted в Which series worJd you See to forecast? AvaiJableSeiies: Series to be forecasted: ГГТ71 ЪГ у Ho* rnar^ periods would you 8<e to forecast? |6 Months Рис. 7.32 т Перенос целевого ряда v2 и выбор интервала для прогнозирования Затем, нажав кнопку Далее, откроем окно Predictors (Предикторы) и сдела- ем ряд v3 предиктором, перетащив его в список Predictors (Предикторы) - рис. 7.33. Здесь надо учесть, что предикторов может быть и несколько. Рис. 7.33 » Перенос v3 в список Predictors
Глава 7 т Анализ временных рядов В примечании указывается Predictors need values as far into the future as you want to forecast. You can use the Data Viewer to add future values (Для прогноза предполагаемых значений должны быть заданы будущие значения предикторов, и это можно сделать, используя окно Data Viewer (Просмотр дан- ных)). Теперь нажмем три раза подряд кнопку Далее и перейдем к окну Holdouts (здесь уместнее перевести как «отсчет» - рис. 7.34), не останавлива- ясь на аспектах, связанных с интервенциями (об этом - в следующем разделе). Forecast Wtzaid - Holdouts ЖEna tothe {Useful 7 : (ЯЙШЯйф pepods р«в? Months Рис. 7.34 ▼ Окно Holdouts В окне Holdouts необходимо ответить на вопрос Where do you want to start forecasting? (С какой точки вы хотите начать прогнозирование?). В качестве возможных вариантов вам предоставлены два: > At the end of the historical data. Recommended for forecasting per- formance (С конца «исторического» периода. Рекомендуется для задания целей прогнозирования); > Prior to the end of the historical data. Useful for evaluation forecasting performance (Раньше окончания «исторического» периода. Бывает по- лезно при оценке исполнения прогноза). В этом случае необходимо ука- зать, за сколько интервалов до окончания этого периода надо начать прог- ноз. В нашем случае мы выберем первый вариант, хотя второй позволяет перед началом прогнозирования оценить модель по контрольному периоду и, кроме того, ввести будущие значения предикторов. Нажмем кнопку Готово, а затем в появившемся окне щелкнем по названию ряда v2 (с переменной Разрешен) на Graph Panels (Панели схемы) - рис. 7.35. Надпись возле горизонтальной оси говорит о том, что к прогнозированию целевого ряда автоматически была подогнана простая сезонная модель (Simple
Построение моделей с участием предиктора t£?f Разрешен Объемы пропаж - Decision!line £te fcft &ata Forecast НФ "Dcga;aai^'»,|^gy:^g:i-»5r!Tpf ~ ~ i$z Create a Forecast ; Send to Whatl Months It] < Simple Seaso... ARIMA(O.I.O).. c? Ejjj Staph Panek SihgfeG»^~ Table" | ♦ + . ♦ ♦ 1ДД:1|здд : - ; Г iNUMT Рис. 7.35 ▼ Название ряда v2 на Панели схемы Seasonal). Но отсюда следует очень важный вывод: так как в этой надписи не указано название предиктора, следовательно, последний не был использован при прогнозировании целевого ряда. Рассмотрим другой пример, в котором предиктор оказывает более суще- ственное влияние на целевой ряд. Речь идет о временном ряде, содержащем годовые значения австралийского экспорта и импорта с 1961 по 1995 годы. Этот ряд в табличном виде показан на рис. 7.9. В качестве предиктора выберем выборку по экспорту, исходя из того, что возможности импорта в значитель- ной степени определяются объемами экспорта. График экспорта показан на рис. 7.36. Pio|ect4 - DecisionTime l-lojxl Ъ eg н да л s. । УУУУДДДЕГБ ? -з | (Tf A# Future Value jpOwbaFMCMl «?;SendtoWhalf \ Рис. 7.36 ▼ График экспорта
Глава 7 ▼ Диализ временных рядов DecisionTime - [Data Viewer] ИНЕЗ £fe feft View Data Help ________________________________ (1961 год ' 1961 “ Яеаф Рис. 7.37 т Ввод «квазипрогнозных» значений экспорта Так же, как и в предыдущем примере, зададим «квазипрогнозные» значения экспорта на шесть годовых интервалов вперед (рис. 7.37). Затем закроем окно Data Viewer (Просмотр данных) и выполним последова- тельность команд Forecast > Forecast Wizard (Прогноз > Мастер прогноза) - см. рис. 7.36. Дальше в окнах Series to be Forecasted (Прогнозируемые ряды) и Predictors (Предикторы) распределим выборки по соответствующим кате- гориям (рис. 7.38, 7.39). Рис. 7.38 ▼ Выбор прогнозируемого ряда В окне Holdouts выберем ту же опцию, что и в предыдущем примере, после чего получим прогноз целевого ряда на шесть лет вперед в табличном и графи- ческом виде (рис. 7.40, 7.41).
Построение моделей с участием предиктора Рис. 7.39 ▼ Выбор предиктора [{^Piojecl • DecisionTime Elie Qata Fotefiasl НФ D C# И jS & & I Л f r !C I 5!1э t ' ___________Years Seiiet | Mode* ' "; год * экспорт * импорт ARIMAfOJXr) Ready Series! Model! Rot?)'1996 [19971 1998 [ 1999 | 2000 j 2001 | j^j Graph Parwte jЙЯп»6я5?~ 69T«>fe [ ДД:|ЮмТ Рис. 7.40 ▼ Прогноз целевого ряда в табличном виде Теперь на рис. 7.41 мы можем увидеть, что для прогнозирования целевого ряда Импорт был использован предиктор Экспорт и, кроме того, для этого прогноза была подогнана модель ARIMA (0,1,0), о чем свидетельствует соответ- ствующая запись у горизонтальной оси на рисунке. Теперь оценим качество прогноза, для чего выполним команды View > Model Viewer (Вид > Просмотр моделей) и в появившемся окне Model Viewer (Просмотр моделей) выберем закладку Summary (Итоги), содержащую раздел Goodness-of-fit Statistics (Меры согласия модели - рис. 7.42) Среднее значение относительной ошибки (Mean absolute percentage error) со- ставляет немногим больше 3%, а коэффициент детерминации R2 (R-Squared) почти равен 1 (0,9979), так что качество приближения можно признать очень неплохим.
Глава 7 ▼ Анализ временных рядов (£j;Pio|ecf • Decision! иле £ie £cft View £ata Forecast Help сГей H i a Qi j n У~ -Hj: fjf JTЪ D ? ; ф > > - j* ffi1 ~5J ~ j i^AddFuKxe Values Create a Forecast ^SendtoWhatlf :- Rea4> [num I Рис. 7.41 ▼ Прогноз целевого ряда в графическом виде Cftfa Decision!ime - Model Viewer ВВЕЗ Efe £& yew НеЬ |Yeai* 3I SuBMwey | Residuals : > j Residual Autocarelati.. Predictors экспорт Data Range Estimation period: 1961 through 1995 Goodness-of-fit Statistics Mean squared error Root mean squared error Mean absolute percentage error Mean absolute error Maximum absolute percentage error Maximum absolute error R-Squared Normalized Bayesian Information Criterion Ready |импорт ARIMA( I : Residual Partial Autoca 0.9979 jNUM 8.732 15.62 1S3.9 12.41 Рис. 7.42 v Окно Model Viewer с закладкой Summary 7.5.1. Модели интервенций Модель ARIMA, кроме основных элементов (авторегрессии, дифференцирова- ния (интегрирования) и скользящего среднего), а также предикторов, рассмот- ренных выше, может содержать еще и интервенции, то есть скачкообразные возмущающие воздействия. Начнем с рассмотрения основных типов интервенций. Если предиктор имеет вероятностный характер и для него можно построить модель аналогичную временному ряду, то эффект интервенции в Decision Time принимает только одно из двух фиксированных значений: ноль и конкретную
Построение моделей с участием предиктора величину скачка. Другими словами, интервенция должна рассматриваться не как ряд, чьи значения могут постоянно изменяться, а скорее как входная ин- формация, принимающая ограниченное число фиксированных значений, - это не процесс, а событие. В качестве примеров интервенций можно привести изменения в законодательстве, стандарты использования окружающей среды, отмену или изменение НДС, экспортной пошлины, изменения цен на нефть, стихийное бедствие и т.п. Каждое из этих событий будет иметь определенное влияние на некоторый временной ряд (объемы продаж, экспорт, импорт и т.д.), временно или постоянно смещая его уровень. Важно отметить, что интервенция может воздействовать не только на уро- вень временного ряда, но и на его характер. Вид временного ряда в общем слу- чае может заметно отличаться для его сегментов, представляющих данные до и после интервенции. Причем различия в некоторых случаях бывают столь существенными, что для этих сегментов должны приниматься две модели. В Decision Time используются три типа интервенций: > скачкообразная, или ступенчатая, интервенция, которая производит вне- запный, постоянный сдвиг в уровне ряда; > импульсная интервенция, вызывающая внезапный временный сдвиг уров- ня ряда. Характеристика «временный» предполагает, что воздействие продолжается в течение одного периода времени. Пример импульсной интервенции - влияние аварии в метро в час пик на рост автобусных пас- сажирских перевозок. Иначе говоря, скачкообразная (ступенчатая) ин- тервенция рассматривается как постоянный сдвиг, в то время как импуль- сная интервенция сдвигает ряд для одного периода времени. Есди же импульсная интервенция длится какое-то конечное число периодов вре- мени, то эта ситуация может быть описана с помощью объединения не- скольких импульсных интервенций (или двух ступенчатых); > событие также приводит к внезапному временному изменению уровня вре- менного ряда, но, в отличие от импульсной интервенции, ожидается, что оно произойдет снова. Таким образом, определение события требует двух или более дат: по крайней мере, одной в течение исторической части ряда и одной в течение прогнозного периода. Пример: продажа со скид- кой, которая будет повторена в будущем. Таким образом, импульсная интервенция используется для моделирования прошедшей части ряда, при том что событие используется еще и в прогнозе. 7.5.2. Анализ различных сценариев прогноза с помощью программы What If? В практической деятельности нередко возникает необходимость сравнивать и анализировать предсказанные временные ряды, созданные из различных на- боров значений рядов предикторов. Такая возможность в комплексе SPSS су- ществует в рамках программного продукта What If?. В этом случае пользователь имеет возможность перед началом исследования сценариев прогноза времен- ных рядов получить различные прогнозы предикторов и уже на их основе
Глава 7 ▼ Анализ временных рядов прогнозировать временные ряды. Программа What If? облегчает проведение подобного рода анализов. Она импортирует из Decision Time файл в формате *mmf (Model Markup File), который содержит описание модели и данные, а также позволяет рассматривать варианты прогноза в зависимости от различных будущих значений предикторов. Можно рассматривать несколько сценариев и комбиниро- вать их результаты на основе функций, задаваемых пользователем. Другими слова- ми, What If? позволяет пользователю увидеть, как при различных вариантах пове- дения предикторов в будущем будет меняться прогноз временного ряда. Предполагается, что перед началом проведения этих работ программа What If? уже установлена на компьютере пользователя. Вся информация о модели и данные передаются из Decision Time в What If?, как уже сказано, с помощью файлов *mmf. Делается это следующим образом. Рассмотрим модель Project4, с которой мы работали в предыдущей главе (см. рис. 7.36). Зададим различные варианты прогноза экспорта, для чего перене- сем модель и данные в программу What If?. Сначала, находясь в Decision Time, выполним последовательность команд File > Send Models to What If? (Файл > Отправить модель в What If?). Другой вариант - щелкнуть по кнопке Send to What If? (Отправить модель в What If?), расположенной в окне Decision Time. В появившемся окне Export Models and Start What If? (Экспорт моделей и начало работы What If?) - рис. 7.43 - в поле File Name (Имя файла) введем имя модели (в нашем случае - Project4). (Export Models and Slat! EM ? Mcdeb Historical data to include:. ' |12 । Yaa« Model Ffe- |PfoJecM| IC: ‘sProgi am F ile $\S PS S Рис. 7.43 ▼ Окно Export Models and Start What If? Нажмем кнопку ... | и наберем название папки, в которой находится модель (в нашем случае - SPSS). Затем нажмем кнопку ОК. После кратковременной демонстрации начальной заставки What If? (рис. 7.44) на экране появятся два окна. В первом из них (рис. 7.45) - окне графиков - содержатся две диаграммы: верхняя включает прогнозируемый ряд (импорт) и прогноз, нижняя - предик- торный временной ряд (экспорт). При этом на нижней диаграмме может быть несколько предикторных временных рядов, переключение между которыми производится с помощью выпадающего списка или кнопок Предыдущий
Нестроение моделей с участием предиктора график • | и Следующий график > [ По умолчанию What If? переносит из Decision Time то количество периодов, на которое формируется прогноз, но этот параметр легко изменить непосредственно в What If? в поле Number of time periods to predict (Количество периодов для прогнозирова- ния). После удаления прежнего числа пери- одов и ввода нового надо нажать кнопку Применить ✓ |. Если прогнозируется несколько рядов или построено не- сколько моделей, то можно рассматривать их комбинацию, использовав стрел- ку прокрутки в верхней части окна графиков. Www. spsis.c-om Whatlf? 1.0 Whatjf? С I3B9 SPM toe. Д» nybw . Рис. 7.44 т Заставка What If? Рис. 7.45 т Окно графиков Теперь перейдем к окну Scenario Data (Сценарий данных) - рис. 7.46. В качестве предиктора, как уже говорилось, рассматривается экспорт. В верх- ней строке данного окна показаны прогнозируемые значения экспорта на предстоящий период, здесь же мы можем задать любые интересующие нас значения. По мере введения каждого нового значения сразу же пересчитыва- ются значения импорта в этом же временном интервале. Обновленные зна- чения экспорта и соответствующие им новые значения импорта показаны на рис. 7.46.
Глава 7 ▼ Анализ временных рядов Рис. 7.46 т Окно Scenario Data Закончив ввод данных, следует нажать кнопку Update (Обновить) ofr» и тогда произведенные изменения отразятся на графиках (рис. 7.47). Таким образом, с помощью программы What If? можно задать и исследовать практически любые варианты прогнозирования предикторных временных рядов, а затем построить соответствующие прогнозы интересующих нас вре- менных зависимостей. Рис. 7.47 т Вид графиков с внесенными изменениями
Предметный указатель А Альфа-факторный анализ 171 Анализ образов 171 В Ввод данных 15 из базы данных 17 из имеющихся файлов 16 ручной 15 Виды вращения косоугольное 173 ортогональное 173 информации вывод 16 данные 16 синтаксис 16 сценарий 16 Временной ряд 187 методы временные 188 частотные 188 Г Генеральная совокупность 34 График 78 д Действия над данными 25 переход к строке с заданным номером 25 сортировка регистров 26 транспозиция 27 Драйвер ODBC 18 Интервенции 192 импульс 192 скачок 192 типы 215 импульсная 215 скачкообразная, или ступенчатая 215 событие 215 Классификация шкал интервальная 35 номинальная 34 порядковая 35 отношений 35 Кластерный анализ 178 Кластеры 177 Ковариация 136 Коэффициент корреляции по Кендалу 134 по Пирсону 134 по Спирмену 134 различия 100 Коэффициент сходства 182 меры расстояния 182 блок 182 евклидова 182 квадрат расстояния Евклида 182 ' корреляция Пирсона 182 косинус 182 расстояние Минковского 182 неравенство Чебышева 182
Обработка статистической информации с помощью SPSS Критерий ; согласия 81 1 Фишера 95 М М-оценки 84 М-оценочнаяфункция 85 Мера согласия «каппа» 102 Меры корреляции 105 коффициент корреляции Пирсона 105 линейной зависимости х2 105 корреляции Спирмена 105 Сомерса d 105 связи 95 Метод вращения 172 главных компонент 170 максимального правдоподобия 171 наименьших квадратов 170 Тьюки 85 . Хемпеля 85 Хьюбера 85 Эндрюса 85 Множественная линейная регрессия 152 Модели с объясняющими переменными 194 чистые 194 Мультиколлинеарность 175 факторов 154 О Однофакторный дисперсионный анализ 122 Окна SPSS Редактор скриптов 36 Chart Editor 36 Draft Viewer 35 PivotTable Editor 35 SPSS Data Editor 35 Syntax Editor 36 Text Output Editor 36 Viewer 35 Описательная статистика 63 исследования 76 • параметры 73 частоты 63 Относительный риск 100 П Парная линейная регрессия 141 Перекрестная классификация 89 Перечень описательных параметров 79 Поправка Бонферрони 121 Процедуры задания дат 44 создания временного ряда 45 Р Регрессионный анализ 141 Нелинейная регрессия 157 использование фиктивных переменных 157 . подгонка кривых 157 собственно нелинейная регрессия 157 Нелинейные регрессионные модели 162 по параметрам 162 по переменным 162 Свойства кластеров 181 дисперсия 181 отделимость 182 плотность .181 размер 181 форма 181 Сглаживание 193 ARIMA 193 скользящее среднее 193 экспоненциальное 193
Предметный указатель Сезонные колебания 191 Слияние файлов 29 добавление данных 29 добавление переменных 29 Статистика F-статистика 112 Статистическая зависимость 132 корреляционная 132 регрессионная 132 Т Т-статистика 111 для объединенной дисперсии 112 для одной выборки 119 для парных сравнений 114 для раздельной дисперсии 112 основанная на разности средних 113 ТестЛивиня 126 Тип данных 10 переменной 12 дата 13 доллар 14 другая валюта 14 запятая 12 научная нотация 13 точка 12 строковый 14 цифровой 12 Тренд 190 Ф Факторный анализ 168 Фиктивные переменные 160 X Характерность 173 ц Циклические колебания 190 Ч Частичная корреляция 138 Частная корреляция 138