Текст
                    Е. А. Дмитриев
МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА
В ПОЧВОВЕДЕНИИ
URSS


Е. А. Дмитриев МАТЕМАТИЧЕСКАЯ СТАТИСТИКА В ПОЧВОВЕДЕНИИ Научный редактор доктор физико-математических наук Ю. Н. Благовещенский Издание третье, исправленное и дополненное URSS МОСКВА
ББК 22.172 40.3 УДК 631.4:519.240 Дмитриев Евгений Анатольевич Математическая статистика в почвоведении: Учебник / Науч. ред. Ю. Н. Благовещенский. Изд. 3-е, испр. и доп. —М.: Книжный дом «ЛИБРОКОМ», 2009. — 328 с. В учебнике даются основные понятия теории вероятностей и математической статистики, описывается техника нахождения статистических оценок и различные методы статистического анализа результатов экспериментальных исследований, включая дисперсионный, корреляционный, регрессионный. Особое внимание уделяется методологии использования статистики и интерпретации результатов анализа на примерах из почвоведения и агрохимии. Рассмотрена техника вычислений. В Приложении даны справочные статистические таблицы. Книга предназначена для почвоведов и агрохимиков и может быть использована в учебном процессе студентами соответствующих специальностей. Рецензенты: кафедра математической статистики факультета вычислительной математики и кибернетики МГУ им. М. В. Ломоносова (заведующий кафедрой академик РАН Ю. В. Прохоров); доктор физико-математических наук Л. Д. Мешалкин Издательство «Книжный дом "ЛИБРОКОМ'*». 117312, г. Москва, пр-т Шестидесятилетия Октября, д. 9. Формат 60x90/16. Печ. л. 20,5. Зак. № 1775. Отпечатано в ООО «ЛЕНАНД». 117312, г. Москва, пр-т Шестидесятилетия Октября, д. 11 А, стр. 11. ISBN 978-5-397-00039-0 © Книжный дом «ЛИБРОКОМ», 2008 НАУЧНАЯ И УЧЕБНАЯ ЛИТЕРАТУРА E-mail: URSS@URSS.ru Каталог изданий в Интернете: http://URSS.ru Телефакс: 7 (499) 135-42-16 Тел7факс: 7 (499) 135^2-46 6323 Ю 79630 Все права защищены. Никакая часть настоящей книги не может быть воспроизведена или передана в какой бы то ни было форме и какими бы то ни было средствами, будь то электронные или механические, включая фотокопирование и запись на магнитный носитель, а также размещение в Интернете, если на то нет письменного разрешения владельца.
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ (Дядькина (Дмитриева) С. Е., Самсонова В. П.) 8 ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ 9 ВВЕДЕНИЕ 11 Глава 1 ИЗМЕРЕНИЯ, ИСПЫТАНИЯ, ВЕЛИЧИНЫ, СОВОКУПНОСТИ 1.1. Шкалы измерений 17 1.2. Испытания, события, величины 19 1.3. Общие и второстепенные условия проведения испытаний 21 1.4. Объект исследования 22 1.5. Физическая совокупность и ее компоненты 23 1.6. Дискретность объектов и особенности элементов опробования 24 1.7. Техника измерений случайной величины 26 1.8. Статистическая совокупность, объем совокупности 26 1.9. Математическое ожидание 29 1.10. Многомерные случайные величины 30 Глава 2 ВЫБОРКИ И ГРУППИРОВКА 2.1. Репрезентативность выборки и рандомизация 33 2.2. Механический отбор 33 2.3. Таблица случайных чисел и ее использование 34 2.4. Послойная выборка. Значение рандомизации 36 2.5. Группировка и ряды распределения 37 2.6. Группировка качественных и порядковых признаков 39 2.7. Классы количественных признаков 40 2.8. Представление распределений с помощью квантилей 43 2.9. Графическое представление распределений 46
4 Оглавление Глава 3 ВЕРОЯТНОСТЬ. ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЙ 3.1. Статистическая устойчивость 50 3.2. Вероятность. Невозможные, достоверные, несовместимые события 51 3.3. Пересекающиеся события. Независимость событий 53 3.4. Закон распределения. Распределение дискретных величин.... 54 3.5. Кривая распределения непрерывных величин 56 3.6. Плотность вероятности. Интеграл вероятности 58 3.7. Константы и параметры распределения 60 3.8. Мода 61 3.9. Медиана 62 ЗЛО. Среднее арифметическое 64 3.11. Свойства среднего , 65 3.12. Дисперсия 66 3.13. Стандартизованное отклонение, коэффициент вариации 68 3.14. Моменты 69 3.15. Среднее и дисперсия в совокупности альтернативных признаков 71 Глава 4 ЗАКОНЫ РАСПРЕДЕЛЕНИЯ 4.1. Закон нормального распределения 74 4.2. Интеграл вероятности нормального распределения 77 4.3. Логнормальное распределение 80 4.4. Биномиальное распределение 83 4.5. Распределение Пуассона 86 4.6. Другие законы распределений дискретных величин 89 4.7. Другие законы непрерывных распределений 91 Глава 5 ВЫБОРОЧНЫЕ ОЦЕНКИ И ОШИБКИ РЕПРЕЗЕНТАТИВНОСТИ 5.1. Константы и их оценки 96 5.2. Оценка моды 96 5.3. Оценка медианы 98 5.4. Оценка среднего арифметического 101 5.5. Методы характеристики варьирования 102 5.6. Оценка дисперсии и стандарта 104 5.7. Статистические оценки при объединении выборок 107 5.8. Усреднение оценок дисперсий 108
Оглавление 5 5.9. Оценка коэффициента вариации 110 5.10. Ошибки репрезентативности 111 5.11. Ошибка среднего 113 5.12. Ошибки других оценок 114 5.13. Ошибки функций от случайных величин 116 5.14. Качество оценок 119 5.15. Оценки коэффициентов асимметрии и эксцесса и их ошибки 120 5.16. Оценка доли и ее ошибка 121 Глава б СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И ИХ ПРОВЕРКА 6.1. Основные понятия 123 6.2. Статистики для проверки гипотез 127 Глава 7 СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОЙ ВЫБОРКИ 7.1. Общие вопросы анализа выборки 131 7.2. Выбраковка 131 7.3. Анализ вариации, асимметрии и эксцесса 134 7.4. Проверка гипотезы о нормальности распределения с помощью критерия хи-квадрат 139 7.5. Доверительный интервал среднего 141 7.6. Показатель точности опыта и показатель относительной вероятной погрешности 144 7.7. Гарантированные минимумы и максимумы среднего 145 7.8. Доверительный интервал дисперсии 146 7.9. Сравнение средних с постоянными величинами 147 7.10. Планирование объемов единичных выборок 148 7.11. Погрешности оценки среднего и смешанные образцы 152 7.12. Оценка интервала возможных значений признака 154 7.13. Границы типичных значений 156 7.14. Анализ совокупности как смеси подсовокупностей 157 7.15. Оценка граничных значений между подсовокупностями 162 7.16. Анализ долей 164 Глава 8 АНАЛИЗ ГРУППЫ ВЫБОРОК 8.1. Общие особенности анализа 169 8.2. Сравнение двух дисперсий 169 8.3. Средняя разность и ее значимость 170
6 Оглавление 8.4. Сравнение двух средних при одинаковости дисперсий и некоррелированности выборок 171 8.5. Сравнение средних при неравенстве дисперсий 173 8.6. Интерпретация результатов сравнения средних 174 8.7. Планирование численности выборок при сравнении средних 175 8.8. Сравнение долей 178 Глава 9 ДИСПЕРСИОННЫЙ АНАЛИЗ 9.1. Общее представление о принципах дисперсионного анализа 181 9.2. Разложение суммы квадратов и дисперсии при дисперсионном анализе (на примере однофакторного комплекса) 183 9.3. Оценка степени влияния изучаемого фактора 188 9.4. Оценка существенности различий между средними значениями 190 9.5. Условия применимости дисперсионного анализа и преобразования значений результативного признака 192 9.6. Сравнение более чем двух дисперсий 193 9.7. Дисперсионный анализ неравномерного однофакторного комплекса 195 9.8. Дисперсионный анализ двухфакторного комплекса с повторностями 195 9.9. Дисперсионный анализ двухфакторного бесповторностного комплекса 200 9.10. Иерархическая схема дисперсионного анализа 203 Глава 10 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ 10.1. Виды связей и их представление 210 10.2. Коэффициент корреляции 214 10.3. Оценки и значимость коэффициента корреляции 217 10.4. Величина коэффициента корреляции и его смысл 220 10.5. Техника вычислений коэффициента корреляции 222 Глава 11 РЕГРЕССИЯ 11.1. Понятие о регрессионном анализе 225 11.2. Прямолинейная регрессия 228
Оглавление 1 11.3. Значимость параметров линейной регрессии 233 ПА Доверительная зона регрессии 237 11.5. Анализ криволинейных связей 238 11.6. Множественная регрессия 241 11.7. Частный коэффициент корреляции 247 11.8. Множественная регрессия в стандартизованном виде 249 11.9. Интерпретация результатов регрессионного анализа 253 Глава 12 НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ 12.1. Анализ единичной выборки 257 12.1.1. Квантильный анализ 257 12.1.2. Представление данных на нормальной бумаге 260 12.1.3. Проверка гипотез о типе распределения 263 12.2. Анализ группы выборок 267 12.2.1. Квантильный анализ 267 12.2.2. Проверка гипотез об однородности 269 Серийный критерий 270 Критерий Колмогорова-Смирнова 271 Критерий Вилкоксона 273 Модификация критерия Вилкоксона для проверки гипотезы об однородности дисперсий 277 Проверка гипотезы об однородности нескольких выборок 278 12.3. Анализ взаимосвязей 280 12.3.1. Коэффициент корреляции Спирмена 280 12.3.2. Тетрахорический показатель связи 285 Несимметричные меры ассоциации 289 ПРИЛОЖЕНИЯ 293 Основные обозначения 323 Литература 326
Памяти Николая Александровича Плохинского посвящается ПРЕДИСЛОВИЕ К ТРЕТЬЕМУ ИЗДАНИЮ Эта книга последний раз издавалась в 1995 году. Она стала настольной книгой почвоведов. В ней сохранена редакция 2-го издания, но изменена глава ручных вычислений и добавлена глава о непараметрических методах, издававшаяся отдельным пособием. По этой книге ведется обучение статистике почвоведов во многих высших учебных заведениях. Все изменения в учебник внесены доктором биологических наук Самсоновой Верой Петровной. Дядькина (Дмитриева) С Zs., Самсонова В. П.
ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Со времени выхода из печати пособия "Математическая статистика в почвоведении" (1972) многое изменилось и в самом почвоведении, и в использовании почвоведами математических методов, и в техническом оснащении вычислительных работ. Это не могло не вызвать необходимости радикальной перестройки изложения курса, особенно с учетом того, что широкое использование калькуляторов и ЭВМ привело к известному разрыву между технической возможностью проведения статистических расчетов, с одной стороны, и явно недостаточным пониманием необходимости и допустимости самих вычислений, умением грамотно интерпретировать полученные результаты — с другой. По этой причине в настоящем учебнике наряду с изложением основ математической статистики и теории вероятностей и описанием методов статистического анализа и техники вычислений особое внимание уделено методологии использования статистических методов в почвоведении. Автор постарался учесть все пожелания и замечания, высказанные как в отношении ранее опубликованного пособия, так и по программе курса "Математические методы в почвоведении с основами вычислительной техники" и рукописи настоящего учебника, написанного согласно этой программе. Автор искренне признателен проф. В.В. Налимову и сотрудникам бывшей лаборатории статистических методов МГУ B.C. Дуженко, А.П. Кириенко, Н.Г. Микешиной и Е.Г. Угер, оказавшим неоценимую помощь на самом трудном адаптационном этапе внедрения методов математической статистики в область почвоведения, проф. И.А. Крупенникову и канд. биол. наук Т.Б. Махлину за рецензию на ранее опубликованное пособие, зав. кафедрой почвоведения Иркутского университета А.Г. Сазонову, рецензировавшему программу курса. Автор весьма признателен рецензентам настоящего учебника доктору физ.-мат. наук Л.Д. Мешалкину, а также кандидатам физ.-мат. наук А.Д. Кузьмину и В.И. Пагуровой и другим сотрудникам кафедры математической статистики факультета вычислительной математики и кибернетики МГУ, руководимой академиком Ю.В. Прохоровым, проявившим интерес к этой книге и сделавшим немало замечаний, которые автор в меру своих сил и возможностей постарался учесть.
10 Предисловие ко второму изданию Особую признательность автор хотел бы выразить доктору физ.-мат. наук Ю.Н. Благовещенскому, взявшему на себя труд научного редактирования учебника, и кандидату биол. наук В.П. Самсоновой за постоянное внимание, помощь и неизменно доброжелательную критику. Автор не может не поблагодарить широкий круг почвоведов за ту помощь, которую они оказали, иногда сами того не ведая, в написании учебника, в разработке методологических вопросов, подборе примеров и их интерпретации. В 1988 г. скончался проф. Н.А. Плохинский, живое слово которого сыграло в научной жизни автора весьма заметную роль. Светлой памяти Николая Александровича Плохинского автор посвящает эту книгу.
ВВЕДЕНИЕ Существуют определенные доводы, показывающие, что статистические соображения в метеорологии можно отбросить, лишь вообще отказавшись от любых исследований... Положение дел в метеорологии является типичным для всех тех наук, которые лишь недавно стали рассматриваться как точные и стали использовать количественные методы. Н. Винер Математизация почвоведения, интенсивно идущая последние 30-40 лет и несомненно являющаяся естественным результатом развития, с одной стороны, самого почвоведения, а с другой - математики и вычислительной техники, была предугадана гением В.В. Докучаева, связавшего превращение созданной им науки в точную с возможностью, в частности, преодоления тех трудностей, которые возникают в связи с необходимостью иметь дело с переменными величинами, трудно поддающимися "цифровому обозначению" (Докучаев, 1886). К мысли о статистической природе свойств почв почвоведы пришли давно и по крайней мере до того, как статистические методы анализа данных нашли применение в исследовании почв. Отражением этих представлений, например, явилась дискуссия по целесообразности использования смешанных образцов, развернувшаяся на страницах журнала "Почвоведение" еще в 1901 г. По-видимому, первые опыты по использованию статистических методов в почвоведении относятся к 20-м гт. XX в. (Чириков, Малюгин, 1926; Качинский, 1926, 1927; Астапов, 1928; Соколов, 1929; Изюмов, 1930 и др.), чему немало способствовало появление литературы по математической статистике прикладного характера (Голубев, 1920; Сапегин, 1922; Фи- липпченко, 1926; Поморский, 1927 и др.). И хотя до конца 50-х - начала 60-х гг. статистические методы использовались очень скромно, в этот период появляется ряд работ весьма ярких и не потерявших своего значения до настоящего времени (Сердобольский, 1937, 1952; Филиппова, Сердоболь- ский, 1937; Важенин и др., 1959, 1961; и др.). Интенсивное внедрение статистических методов в почвоведение, особенно начиная с 60-х гг., было
12 Введение инициировано и подготовлено работами по прикладной статистике в смежных областях науки, в том числе сельскохозяйственной (Немчинов, 1945; Перегудов и др., 1948; Федоров, 1957; Финни, 1957; Фишер, 1958; Снедекор, 1961 и др.). В последние годы набор методов статистического анализа данных в почвоведении значительно расширился, и что особенно важно, были показаны интерпретационные возможности разных методов, без чего немыслимо грамотное и гибкое их использование. Наряду с получившими широкое распространение наиболее простыми методами дисперсионного, корреляционного и регрессионного анализа стали достаточно часто использоваться методы факторного анализа, теории случайных процессов, дискриминантного анализа. Все более интенсивно внедряются методы непараметрической статистики. Много сделано в области математического планирования экспериментов и др. В общем и целом особенностью в использовании статистических методов в последние годы можно считать повышение интереса к многомерной статистике. Долгие годы статистика служила лишь средством свертки информации и оценки надежности выводов. Не утратив этого назначения, статистика со своим обширным набором методов сейчас все более часто выступает в качестве метода познания объекта, инструмента анализа данных. Как особое направление анализ данных (Мостеллер, Тьюки, 1982) опирается на весьма правдоподобное допущение, что любой массив грамотно собранных результатов экспериментальных исследований неисчерпаем по заключенной в нем информации, и нужно лишь уметь эту информацию извлечь, нужно заставить экспериментальные данные заговорить. В качестве средства, позволяющего это сделать, и используется широкий набор различных статистических методов анализа. Использование статистических методов в почвоведении представляется не просто возможным, а жизненно необходимым, поскольку главный объект исследования - почва, почвенный покров - является едва ли не самым сложным природным образованием. Подобные образования в математике относятся к так называемым диффузным, или сложным, системам, в которых имеет место действие и взаимодействие множества разнородных факторов, определяющих протекание различных по своей природе, но в большей или меньшей мере связанных друг с другом, процессов. При изучении таких систем учесть все факторы и процессы, ими вызываемые, практически невозможно, тем более, что даже в самых простых ситуациях какие-то факторы или процессы могут оказаться просто неизвестными. В подобных случаях обойтись без идей и методов математической статистики почти невозможно. Строго говоря, в экспериментальном почвоведении сейчас трудно найти область исследования, в которой можно было бы, оставаясь на уровне современного развития науки, обойтись без методологии и методов
Введение 13 математической статистики. Начиная с подготовительного этапа эксперимента и вплоть до представления окончательных результатов и их трактовки статистические особенности объекта исследования дают о себе знать. Рассмотрим для примера несколько типичных ситуаций, с которыми почвоведам постоянно приходится сталкиваться. Допустим, для характеристики некоторого участка почвенного покрова из разреза отобраны образцы по горизонтам. С помощью гранулометрического анализа установлено, что в горизонте А] содержание ила 23,4%, а в горизонте А2 - 21,2%. Можно ли на основании этих данных высказать какие-либо заслуживающие доверия заключения, если не прибегать к идеям и методам математической статистики? Оказывается, нет. Действительно, даже чтобы утверждать, что в одном образце ила больше, чем в другом, нужно знать случайные погрешности анализов и уметь их соответствующим образом сопоставить с полученными данными по содержанию ила в образцах, а это уже предполагает статистический подход к решению вопроса. Тем более полученные результаты неосторожно трактовать как свидетельство различий в содержании ила не только в образцах, но и в горизонте А] и горизонте А2 на изучаемом участке почвенного покрова. Подобное утверждение было бы спорным, даже если определенное в исследовавшихся образцах содержание ила было бы лишено всяких погрешностей, поскольку остается открытым вопрос, сохраняется ли подобное различие в других частях изучаемого участка почвенного покрова. Здесь на сцену снова выходят статистические соображения и без их учета задачу решить весьма трудно. Логика подсказывает, что для обоснованного заключения о том, что в горизонте Ai исследуемого участка почвенного покрова содержание ила больше, чем в горизонте А2, нужно исследовать не одну пару образцов, а несколько, но тогда нужно оценить число пар таких образцов и способ их отбора, решить, как поступить с результатами анализов, а все это опять- таки нельзя сделать без привлечения соответствующих статистических методов и приемов. Не исключает статистического подхода и замена индивидуальных образцов смешанным, поскольку вопрос о числе индивидуальных образцов, требующихся для приготовления смешанного, относится к категории статистических задач, да и сама идея замены индивидуальных образцов смешанными по своей сути имеет статистическую основу. Ни у кого не возникает сомнений в необходимости использования статистических методов при рассмотрении часто возникающих задач о связях между свойствами и явлениями, поскольку в почвоведении такие связи практически почти никогда не имеют четко выраженного функционального характера. Некоторые же проблемы почти невозможно решить без привлечения методов статистического анализа. Это относится, например, к случаю, когда требуется выяснить, почему при анализе образцов
14 Введение разного объема, отобранных из одной и той же почвы, средние величины изучаемого признака обнаруживают отчетливую зависимость от размеров образцов. Очевидно, перечень задач и ситуаций, когда статистические методы могут и должны привлекаться для обработки и анализа данных, для оценки надежности выводов и рекомендаций, можно было бы существенно расширить. Значительно труднее найти примеры в области экспериментального почвоведения, где бы идеи и методы математической статистики были бы не нужны. При этом обращают на себя внимание два обстоятельства, о которых нельзя умолчать. Первое из них касается влияния методов математической статистики на технику проведения исследований в почвоведении. Второе, тесно связанное с первым, - формирование иных методов мышления, когда учитывается вероятностная природа и статистический характер тех явлений, которые почвоведами исследуются. Сейчас уже стало несомненным фактом то, что методы математической статистики, привлекаемые для решения тех или иных вопросов, постепенно начинают оказывать определенное давление на экспериментатора, заставляя его менять саму стратегию проводимых исследований. Традиционно обращение к статистике происходило на этапе осмысливания собранного фактического материала, и при этом очень часто обнаруживалось, что стоящие перед исследователем задачи можно было бы успешно решить с помощью некоторого статистического приема, однако техника сбора эмпирической информации оказалась такой, которая использование этого приема анализа исключает. Статистические методы не менее требовательны к особенностям данных, способам их получения и организации, чем обычные методы анализа почв, регламентирующие способ подготовки образцов, чистоту реактивов и пр. Недопустимо, например, определять содержание гумуса по Тюрину, не отобрав крупных корней и не растерев соответствующим образом пробу почвы, хотя технологически такой анализ выполним и даст какой-то результат. Статистические анализы также обычно технологически выполнимы, но это отнюдь не свидетельствует о принципиальной применимости соответствующего метода. Нетрудно догадаться, что об обеспечении пригодности того или иного статистического метода нужно заботиться существенно раньше, чем на стадии анализа данных. Таким образом, математическая статистика вынуждает экспериментатора с иных позиций подходить к постановке проводимых исследований, заставляет менять набор и последовательность этапов их выполнения. С учетом стоящих перед экспериментатором задач, он должен: - более четко, более конкретно сформулировать те вопросы, на которые должен быть получен ответ, в терминах и понятиях соответствующей области знания; - перевести эти вопросы на язык статистических задач, на язык абстрактных понятий математической статистики;
Введение 15 - для решения соответствующей статистической задачи среди известных статистических методов выбрать наиболее подходящий, учитывая при этом специфику объекта исследования, особенности изучаемого свойства, возможные способы опробования объекта и технические возможности их реализации и пр.; - зная требования к данным, подлежащим статистическому анализу, и условия применимости выбранного статистического метода, спланировать сам эксперимент; - провести эксперимент; - полученные в эксперименте результаты подвергнуть статистическому анализу ранее запланированным методом и на основании такого анализа сделать выводы и заключения, сформулированные в терминах и понятиях математической статистики; - сформулировать выводы и заключения на языке конкретной науки. С точки зрения автора описанная выше схема постановки экспериментов представляется наиболее желательной. Однако такая схема далеко не всегда оказывается легко реализуемой, и нужно быть готовым, например, к тому, что планировавшийся для статистического анализа метод оказывается мало пригодным по причине внутренних особенностей данных, полученных при проведении эксперимента. Это вызывает необходимость либо какого-то преобразования исследуемых величин, либо замены планировавшегося метода анализа на иной, более пригодный для решения задачи. При этом всегда нужно помнить, что хорошо спланированный эксперимент обычно отличается тем, что собранный массив данных можно анализировать с помощью разных методов, нужно лишь эти методы знать и умело ими пользоваться. Трудности в реализации всех этапов проведения эксперимента имеют разную природу и не могут быть оценены с единых позиций. Но если считать, что необходимость как получения эмпирических данных, так и их статистического анализа, обсуждению не подлежат, то наиболее трудными этапами оказываются переформулировка задач с языка специальной науки на язык математической статистики, с одной стороны, с другой - перевод результатов исследования, полученных в понятиях и терминах статистики и теории вероятностей, в выводы на языке конкретной науки. И дело здесь не только в том, что в первом случае, например, нужно знать методы, пригодные для решения статистических задач того или иного характера. Это само собой разумеется. Существенно более важно другое - наличие умения и опыта мыслить статистически, понимание того, что без представлений о вероятностной природе явлений едва ли удастся дать достаточно естественное описание тех сложных структур, с которыми имеет дело экспериментатор. Математическому мышлению, предполагающему строгость в употреблении понятий и логичность заключений, умению видеть стати-
16 Введение стическую природу изучаемых явлений, нужно учиться, без этого почвоведение не сможет стать на уровень современных требований развития науки. Понимание вероятностно-статистической природы объектов и явлений в экспериментальном почвоведении необходимо не только в связи с использованием для анализа данных тех или иных статистических методов. Статистические законы в почвоведении действуют независимо от исследователя и вне связи с тем, используются статистические методы или нет, знает почвовед теорию вероятности и математическую статистику или представления о них не имеет. Объективность действия статистических законов, вероятностный характер подавляющего большинства явлений, с которыми имеет дело почвовед, определяет необходимость не только широкого привлечения соответствующих математических методов, но прежде всего умения мыслить вероятностно-статистическими категориями. Академик Б.В. Гнеденко писал: "Математизация знаний в период научно-технического прогресса является не данью моде или прихотью математиков, а неизбежной необходимостью. Много веков назад великий английский мыслитель Френсис Бэкон сказал, что как для повышения урожая плодов необходимо, в первую очередь, ухаживать не за ветвями дерева, а за его корнями, давая им подкормку, взрыхлять почву, так и для прогресса научного познания законов природы и использования в жизненной практике необходимо наши знания поставить на точную количественную основу. А там, где речь идет о количестве, там не обойтись без математики, без широкого привлечения ее понятий, методов и специфических для нее методов мышления". Привлечение математических понятий и методов в почвоведение идет и достаточно успешно. Сложнее обстоит дело с освоением методов математического мышления. Рассмотрению этих вопросов в их логической связи и посвящен настоящий учебник.
Глава 1 ИЗМЕРЕНИЯ, ИСПЫТАНИЯ, ВЕЛИЧИНЫ, СОВОКУПНОСТИ 1.1. Шкалы измерений Почвоведу приходится иметь дело с различными признаками, характеризующими природные тела и объекты исследования. Наличие некоторого признака или разная степень его проявления служат для исследователя основанием либо для установления равенства между сравниваемыми телами или объектами, либо для утверждения, что тела различаются. Чтобы устанавливать равенство или различие по тем или иным признакам, нужно эти признаки как-то измерить. Легко убедиться в том, что для разных признаков нельзя одинаково осуществить измерения. Так, по результатам анализов мы можем сказать, какой из двух образцов почв содержит больше ила, а какой - меньше, и различие в содержании ила может быть выражено некоторым числом. Сопоставляя в поле две почвы, мы лишены возможности количественно оценить различия по степени их оглеения, и можем лишь констатировать, что в одной почве оглеение больше, чем в другой. Однако в ряде случаев даже понятие "больше-меньше" оказывается лишенным смысла, например, когда речь идет о систематизации отдельных растений, минералов, почв, структурных отдельностей и других предметов исследования. Условно можно выделить четыре шкалы измерений. Если согласно некоторым правилам сравниваемые предметы или явления могут быть признаны лишь разными, либо неразличимыми, и каждой отдельной группе неразличимых между собой предметов (явлений) присваивается некоторый символ, наименование или число, позволяющее эту группу отделить от иной группы предметов (явлений), то такие наименования, символы или числа образуют именную (или классификационную) шкалу измерений. С именными шкалами имеют дело, когда указывают видовые названия растений, типы почв, растительные ассоциации, дают словесное название цвета почв и т.д. Порядковая шкала измерений используется в тех случаях, когда степень проявления интересующего исследователя свойства не поддается ка-
18 Глава 1 кой-либо точной количественной оценке, однако по степени проявления этого свойства предметы могут быть расположены в некоторый ранжированный ряд, так что для каждых соседних предметов можно сказать, где данное свойство проявляется больше, а где меньше. Примером порядковой шкалы служат ряды почв разной степени оглеения, ряды возрастающей гидроморфности или элювиированности почв, классы бонитетов леса. Порядковые шкалы измерений можно использовать для сравнения окраски почв, когда почвенные пробы располагаются в ряд по возрастанию степени прокраски гумусом. Интервальные шкалы измерений применимы в тех случаях, когда расстояние между любыми членами шкалы может быть выражено числом, адекватным "расстоянию" между этими членами, хотя положение нуля отсчета и единица измерения произвольны. Например, на интервальной шкале измеряют температуры и окислительно-восстановительные потенциалы. Нуль отсчета здесь выбирают условно, а иногда и единица измерения может быть разной (градусы Цельсия и Фаренгейта), но независимо от положения нуля отсчета и единицы измерения отношение длин двух любых интервалов остается постоянным. Ввиду произвольности выбора нуля отсчета результаты измерений на интервальной шкале могут иметь как положительные, так и отрицательные значения. Другими примерами измерений на интервальной шкале служат как относительные, так и абсолютные отметки рельефа, потенциалы естественного электрического поля. На шкале отношений измерения требуют не только возможности нахождения числового значения изучаемого признака, но и вполне определенного положения нуля отсчета. В относительной шкале от единицы измерений не зависит не только отношение длин интервалов, но и отношение любых точек шкал. Если мощности двух горизонтов различаются в два раза, то это различие останется без изменения независимо от того, будем ли мы измерять мощность в футах, дюймах или сантиметрах. Примерами признаков, измеряемых на относительной шкале, служат плотность и порозность почвы, рН и содержание микроэлементов, воздухопроницаемость и др. Результаты измерений на относительной шкале не могут быть отрицательными. В отличие от первых двух шкал интервальная и относительная шкалы относятся к шкалам количественным. В соответствии с различиями в шкалах измерений все признаки можно разделить на несколько категорий. Признаки, поддающиеся измерению на именных шкалах, называются качественными. Частным случаем качественных признаков являются альтернативные, когда вся шкала для измерений состоит всего лишь из двух градаций: признак имеется и признак отсутствует. Например, именная шкала почв некоторого участка может выглядеть следующим образом: каштановые, лугово-каштановые, солонцы, солончаки. Для альтернативных признаков шкала может иметь, на-
Измерения, испытания, величины, совокупности 19 пример, такой вид: солонцы и не солонцы. К категории "не солонцы" относятся все почвы за исключением солонцов. Признаки, которые могут быть ранжированы по какому-либо принципу, получили название порядковых признаков. Наконец, признаки, поддающиеся количественной оценке на интервальной или относительной шкале, называются количественными признаками. Приведенная классификация признаков довольно условна. Так, очевидно, что количественные признаки при желании можно рассматривать как порядковые и даже качественные. Например, по результатам гранулометрических анализов (содержание отдельных фракций - количественный признак) образцы почв можно расположить в ранжированный ряд и рассматривать гранулометрический состав как порядковый признак, пренебрегая тем, что результаты анализов точно известны. С другой стороны, порядковые признаки при выборе надлежащего способа измерения могут быть переведены либо в категорию количественных признаков. Например, визуальную оценку окраски почв можно заменить объективными количественными характеристиками отражательной способности. Аналогично в ряде случаев качественные признаки можно по тому или иному принципу представить в виде порядковых признаков. Результаты измерений на разных уровнях обладают различными свойствами, что определяет различия в методах статистической обработки данных, и ниже мы неоднократно будем это использовать. 1.2. Испытания, события, величины Непременным условием грамотного использования статистических методов является четкое осознание смысла тех терминов и понятий, которые используются в математической статистике и теории вероятностей, и конкретного применения этих математических понятий к исследуемым природным явлениям. Одним из основных понятий в статистике является "испытание". Под испытанием понимают осуществление какого-нибудь определенного комплекса условий, который может быть воспроизведен сколь угодно большое число раз (если не практически, то по крайней мере теоретически). Под комплексом условий понимают определенную методику выделения объекта изучения, способ его опробования и получение конечного результата измерений. Как некий акт испытание можно рассматривать в рамках мысленного эксперимента и возможное число таких актов обычно считают бесконечно большим. Испытание может представлять собой и некоторую конкретную практическую реализацию. В этом случае число испытаний всегда конечно. Величины, в процессе испытаний не меняющие своих значений, называются постоянными. Если величина может принимать по крайней мере два различных значения, то она называется переменной.
20 Глава 1 Если в некотором интервале переменная может принимать любые значения (содержит все действительные числа), то она называется непрерывной в указанном интервале. В отличие от нее дискретная переменная может принимать лишь некоторые значения, разделенные промежутками. Наиболее характерным примером дискретных величин являются величины, получающиеся в результате счета: число колоний микроорганизмов в чашке Петри, число ортштейнов крупнее заданного размера в данном объеме почвы и пр. В подобных случаях величины принимают лишь целочисленные значения, хотя в принципе дискретные величины могут принимать и дробные значения. Значительно чаще почвоведы имеют дело с непрерывными величинами, такими как порозность, мощность горизонтов, содержание гумуса, рН и т.п. На первый взгляд может показаться, что это не так, поскольку и для рН, и для мощностей горизонтов, и для всех других свойств переход от одного значения к другому всегда осуществляется скачком. Действительно, мощность горизонтов может быть 15, 16, 17 см и т.д. и не бывает равной 15,3, 16,1, 16,8 см. Казалось бы, это очень похоже на 15, 16, 17 и т.д. колоний на чашке Петри. С формальной стороны здесь есть сходство. Но имеется и принципиальное различие, состоящее в том, что для дискретных переменных отсутствуют и не могут существовать промежуточные значения между соседними дискретными значениями, в то время как скачкообразный характер перехода от одних значений к другим у непрерывных связан не с дискретностью величин, а с практически разумной степенью округления переменных. Так, в чашке Петри не может быть 16,1 колонии, но это значение может определять мощность горизонта, хотя мы всегда мощность горизонтов округляем до целого числа сантиметров. Явления, происходящие в результате испытаний, в математической статистике и теории вероятностей принято называть событиями. Если при проведении испытания событие не может быть точно предсказано, то оно называется случайным событием. Например, если мы не можем точно предсказать, окажется ли взятый нами агрегат водопрочным или нет, то результат испытания ("водопрочный" - "неводопрочный") является случайным событием. Будучи результатом измерения на той или иной шкале, событие представляет собой значение некоторой величины. Переменная величина, значение которой до проведения испытания заранее не может быть точно предсказано, называется случайной величиной. Иногда случайную величину определяют как такую переменную величину, значения которой зависят от случая. Так, в известных условиях проведения исследований мы никогда не можем предсказать точного значения влажности почвы, которое окажется реализованным, а повторные измерения влажности дадут серию в той или иной мере различных результатов, каждый из которых является значением одной и той же случайной величины, называемой влажностью почвы.
Измерения, испытания, величины, совокупности 21 Почвоведы постоянно имеют дело со свойствами и признаками (например, порозность почвы и ее твердость, водопроницаемость, содержание гумуса, урожайность, мощность горизонтов и др.), которые являются случайными величинами. Следует заметить, что не все переменные величины всегда оказываются случайными. В ряде случаев значения переменной прямо или опосредованно выбираются или устанавливаются исследователем, и тогда переменная является неслучайной, или детерминированной. Такими переменными служат, например, нормы полива, заданные глубины отбора образцов, различные нормы гипсования, а также свойства нарочито подобранных тел (содержание питательных элементов в почве делянок, получивших разные нормы удобрений; свойства почв, специально подобранных для исследователей, и т.д.). В этом последнем случае степень детерминированности может быть различной и неслучайность величин проявляется, например, в том, что до проведения испытаний можно предугадать, где значения изучаемых свойств окажутся больше, а где меньше, хотя точные результаты анализов предсказать невозможно. 1.3. Общие и второстепенные условия проведения испытаний Всякая "игра случая" происходит во вполне определенных условиях и только применительно к этим условиям переменная величина может считаться случайной, а отдельные значения переменной - принадлежащими одной случайной величине. Однако сказанное совсем не означает, что все условия без исключения, в той или иной мере влияющие на изучаемое явление, должны оставаться без изменения. В данном случае имеются в виду лишь условия, которые определяют испытание. При этом понятие испытания как комплекса условий не ограничивается методикой исследования (прописью анализа), а включает в себя также условия отбора образов (их размер, время взятия и пр.), если это предполагается в испытании, строгое определение объекта исследования и др. В некоторых случаях в комплекс условий может входить даже указание индивидуальности аналитика. Результатом испытания является значение некоторой случайной величины. Если испытание проводится повторно (т.е. несколько раз воспроизводится один и тот же комплекс условий), то в итоге получается соответствующее число значений одной и той же случайной величины. Любое изменение в комплексе условий приводит к тому, что испытание окажется уже другим и получаемое значение будет принадлежать уже другой случайной величине. Неодинаковость результатов повторных испытаний (событий при воспроизведении одного и того же комплекса условий) - явление весьма частое. Оно связано с тем, что в перечне условий, определяющих испытание,
22 Глава 1 практически невозможно учесть все те факторы, которые в той или иной степени определяют результат испытания, да и учитываемые условия могут иметь разный уровень предусматриваемой жесткости их выполнения (например, встряхивание суспензии руками - менее жесткое условие, чем встряхивание на качалке с фиксированной частотой, так же как условие отбора образцов почв "под елью" менее жестко, нежели отбор образцов "под елью на удалении от ствола в пределах от 1 до 3 м"). Комплекс условий, определяющих характер испытания, включает лишь общие условия. Однако помимо общих условий существует масса второстепенных, не принимаемых во внимание и не учитываемых (а нередко и неизвестных) условий. Совокупное влияние этих второстепенных условий и вызывает хорошо известное варьирование результатов испытаний. Таким образом, случайность вовсе не означает беспричинность. 1.4. Объект исследования В комплексе условий, определяющих испытание, условно можно выделить три группы: - группа условий, определяющих объект исследования; - условия, определяющие особенности элементов опробования как носителей единичной информации (одного значения случайной величины) об объекте; - условия выполнения конкретного анализа (методика анализа). Первая из перечисленных групп представляет собой интерес прежде всего потому, что неопределенность границ объекта сопряжена с опасностью причислить отдельные значения разных случайных величин к одной случайной величине, а с другой стороны, возможностью статистически необоснованной экстраполяции выводов на более обширное природное тело, нежели реально изучаемое. Под объектами понимают предметы познания и деятельности человека, а следовательно, непосредственно к соответствующим объектам в первую очередь относятся выводы проводимых исследований. В экспериментальном почвоведении объектами всегда являются материальные тела. Объектом может служить почвенный покров некоторого региона, толща какого-либо горизонта всех почв данного вида в пределах определенной территории, почвенный раствор конкретного слоя конкретной почвы опытного участка в фиксированный момент времени, микрофлора опытной делянки в данное время, водопрочные агрегаты почвы, содержащиеся в данное время, водопрочные агрегаты почвы, содержащиеся в данном вегетационном сосуде и т.д. Определить объект исследования - значит строго перечислить те условия, которые позволяют отделить объект от смежных природных образований в пространстве и времени.
Измерения, испытания, величины, совокупности 23 Критерием полноты набора таких условий должно служить отсутствие предпочтения той или иной части объекта (если таковой поступает в анализ не целиком) быть подвергнутой испытанию для получения единичного значения изучаемой случайной величины. Если какие-то части предполагаемого объекта исследовать нежелательно, то они не удовлетворяют некоторым условиям и, следовательно, эти условия должны быть включены в группу общих условий, определяющих объект. После такой операции пространственные (или временные) границы объекта, очевидно, сузятся. Так, если в первоначальном варианте объектом исследования был выбран почвенный покров некоторого вполне определенного поля, но заложение разрезов в микрозападинах, имеющихся на поле, нежелательно, то объектом будет служить не весь почвенный покров поля, а лишь часть его за вычетом участков под микропонижениями. Закладывая разрезы в пределах некоторой территории, почвоведы подчас скрупулезно выбирают его местоположение. Все учитываемые при этом условия следует отнести к тем условиям, которые определяют объект, а значит, и его границы, и его размеры, сокращающиеся с увеличением набора соответствующих условий. Сокращение размеров объекта означает не что иное, как уменьшение размеров того природного тела, к которому непосредственно могут быть отнесены выводы из исследований. Если сокращение размеров объекта нежелательно, то следует некоторые условия перевести в группу второстепенных, т.е. таких условий, которыми мы пренебрегаем при выборе частей объекта, могущих быть подвергнутыми испытанию. Если объект не поступает в анализ целиком, то любая его часть должна иметь равные шансы стать источником информации об объекте. Весьма часто свойства объекта зависят от времени испытаний, что особенно ярко выявляется для таких динамичных свойств, как влажность почвы, содержание подвижных форм элементов и др. В силу этого время проведения испытания (временной интервал) должно выступать в качестве временных границ изучаемого объекта наравне с его пространственными границами. 1.5. Физическая совокупность и ее компоненты Характер сведений об изучаемом свойстве объекта зависит от того, что именно дает единичную информацию об объекте, что служит материальным носителем одного значения случайной величины, что является элементом опробования. Этот факт достаточно хорошо известен и нашел свое отражение в широко используемом приеме взятия смешанных образцов, поскольку при прочих равных условиях (пространственно-временном постоянстве объекта, одинаковом способе химического анализа) результаты анализов индивидуальных образцов варьируют обычно больше, неже-
24 Глава 1 ли образцов смешанных. Известно также, что размер отбираемых в поле индивидуальных образцов всегда в той или иной степени сказывается на результатах анализов, так же как и размер единичной заливаемой площадки существенно определяет характер получаемых коэффициентов водопроницаемости. Условия, регааментирующие особенности элементов опробования, составляют вторую группу общих условий. Постоянство этих условий означает, что при проведении испытаний все элементы опробования должны быть в определенном смысле однородны. Так, при определении водопроницаемости заливаемые водой площадки должны быть одинаковы по форме и размеру, отбираемые образцы должны иметь либо одинаковый объем (массу), либо должны отбираться на всю мощность горизонта (или его части) в виде цилиндра (призмы) одинакового сечения и т.д. Совокупность принадлежащих изучаемому объекту однородных в определенном смысле (согласно перечню условий второй группы) элементов опробования образует физическую совокупность. Вся возможная (если не практически, то теоретически) совокупность элементов опробования, принадлежащих объекту, образует генеральную физическую совокупность. В зависимости от особенностей изучаемого признака и методов его исследования в качестве компонентов физической совокупности может выступать некоторый объем или масса (например, при определении вещественного состава), поверхность (при анализе шлифов, при изучении площадей контуров почв и пр.) и даже линия (протяженность контуров вдоль некоторой линии, мощность горизонтов по вертикальной линии и пр.). Важно заметить, что размерность компонента физической совокупности может не совпадать с размерностью объекта. Так, если образец почвы, взятый для проведения гранулометрического анализа, трехмерен, как и объект исследования, то передняя стенка разреза - двумерный компонент (плоскость), принадлежащий трехмерному почвенному телу, а вертикальная линия, по которой измеряется мощность горизонтов, одномерный компонент. Так как познания объекта осуществляются с помощью анализа образцов, поверхностей и пр., то свойства объекта всегда отражаются через свойства генеральной физической совокупности. 1.6. Дискретность объектов и особенности элементов опробования Размер элемента опробования и его постоянство определяется целями проводимого исследования, особенностями объекта и анализируемого признака, и наконец, методикой выделения соответствующего материального носителя информации. По своей природе объекты могут быть дискретными и непрерывными, хотя это деление условно. Так, почвенный покров некоторой террито-
Измерения, испытания, величины, совокупности 25_ рии можно рассматривать как дискретное тело, состоящее из конечного числа элементарных почвенных ареалов, но с другой стороны, почвенный покров обладает несомненной континуальностью. Считать ли объект непрерывным или дискретным, во многом зависит от того, какие признаки объекта исследуются и какие методы для этого выбраны. Если при изучении объекта можно пренебречь дискретностью, то его можно рассматривать как непрерывный. Так, при исследовании глубины вскипания на некоторой территории (а также содержания гумуса в заданном горизонте почвы, величины рН и др.) дискретность почвенного покрова на изучаемой территории можно не принимать во внимание. Однако если на том же объекте изучается размер элементарных почвенных ареалов, то объект уже нельзя считать непрерывным и его следует рассматривать как совокупность отдельных дискретных составляющих (отдельных ареалов). Для дискретных объектов размер элементов опробования определяется размерами дискретных составляющих, в силу чего компоненты физической совокупности обычно имеют различный размер. Для непрерывных объектов постоянство характеристик элементов опробования (объема, массы, формы, площади и пр.) является необходимым условием чистоты проведения исследований. В силу усреднения признаков в пределах элемента опробования имеет, например, значение объем образцов, отбираемых на анализ закисного железа: 10 см3 или 500 см3, поскольку характер варьирования любого признака в пределах объекта есть функция размера элемента опробования. Если размеры элементов опробования в пределах непрерывного объекта неодинаковы (и условия второй группы эту неодинаковость не оправдывают), то испытания нельзя рассматривать как повторные, и результаты опробования будут являться значениями разных случайных величин. В зависимости от характера проводимых исследований размеры элементов опробования могут сильно различаться, что определяется спецификой объекта, задачами исследований и методикой проводимых анализов. Элемент опробования может быть равен всему объекту (или соответствовать размеру объекта, если размерности объекта и элемента опробования не совпадают), а может составлять от него очень малую часть (соответствовать малой части). Если элемент опробования достаточно мал сравнительно с размерами всего объекта, то размеры такого элемента опробования можно считать точечными (тем не менее эти размеры должны отмечаться и оставаться без изменений при проведении испытаний). Положение точечного элемента опробования в пространстве, занимаемом объектом, можно назвать точкой опробования. Так, точкой опробования является разрез, заложенный в пределах достаточно большого поля, почвенный покров которого является объектом исследования. С другой стороны, небольшой образец почвы, служащий объектом исследования и целиком поступаю-
26 Глава 1 щий на калориметрирование для определения теплоемкости, служит иллюстрацией случая, когда элемент опробования равен объекту. 1.7. Техника измерений случайной величины Для получения значения случайной величины изучаемое свойство компонента физической совокупности должно быть измерено на одной из четырех шкал. Условия, описывающие технику подготовки элемента опробования к измерению (анализу), если такая подготовка необходима (например, растирка образцов почв, отбор корней, приготовление проб и пр.), а также весь ход измерения (анализа) составляют третью группу общих условий. Как и все остальные условия, описывающие испытание, они должны оставаться неизменными, в противном случае получаемые в результате испытаний значения будут принадлежать разным случайным величинам. В некоторых случаях методикой анализа предусматривается возможность (и даже необходимость) повторных анализов одного и того же элемента опробования (образца, пробы) с использованием в дальнейшем среднего результата по повторным измерениям. Следует иметь в виду, что в подобных случаях средние результаты анализов отдельных элементов опробования можно считать значениями одной случайной величины только тогда, когда усреднение везде проводится по одинаковому числу повтор- ностей. На практике, когда различия между повторными анализами одного элемента опробования заметно меньше различий между значениями свойства у разных элементов опробования, допустимо усредненные по неодинаковому числу повторностей значения для разных элементов опробования считать значениями одной случайной величины. Одно и то же свойство компонентов данной физической совокупности можно измерять с помощью разных методов и методик. В принципе результаты измерений могут считаться значениями одной случайной величины лишь тогда, когда методика измерений (анализов) одинакова и неизменна. В противном случае исследователь будет иметь дело со столькими случайными величинами, характеризующими одно и то же свойство компонентов данной физической совокупности, сколько разных методов и методик было использовано. 1.8. Статистическая совокупность, объем совокупности Соблюдение постоянства общих условий, определяюпшх испытание, является необходимым для того, чтобы результаты отдельных измерений можно было рассматривать в качестве значений одной случайной величины. При этом каждому компоненту физической совокупности в результате проведения испытаний соответствует одно событие (одно значение слу-
Измерения, испытания, величины, совокупности 27^ чайной величины), а физической совокупности - совокупность событий (значений случайной величины). Эта последняя получила название статистической совокупности. Статистическая совокупность всех возможных значений случайной величины, очевидно, соответствующая генеральной физической совокупности, называется генеральной статистической совокупностью. Число компонентов физической совокупности, а соответственно и статистической совокупности, называется объемом совокупности. Исследователь всегда подвергает исследованию конечное число элементов опробования, вследствие чего объемы физических совокупностей и соответствующих им статистических совокупностей всегда конечны. В отличие от таких совокупностей генеральные совокупности могут быть и бесконечными, т.е. объем генеральных физических и статистических совокупностей может быть бесконечно большим. Для непрерывных объектов объем генеральных физических совокупностей всегда бесконечно велик, так как после проведения анализа то, что служило элементом опробования, должно быть возвращено (что возможно лишь теоретически) в объект на свое место в неизменном виде и любая часть этого испытанного элемента опробования может войти в состав других компонентов физической совокупности. Положение не меняется и в том случае, когда подвергается испытанию весь объект целиком, т.е. когда элемент опробования равен объекту, поскольку, если не практически, то теоретически, испытание над объектом можно проводить бесконечное множество раз. В подобной ситуации каждый компонент физической совокупности есть объект с неизменными свойствами, поэтому неодинаковость значений в повторных испытаниях является результатом одних лишь методических погрешностей. Именно эти соображения лежат в основе характеристики методов анализа по воспроизводимости и сходимости. Когда объект является дискретным и каждый элемент опробования представлен одной из дискретных составляющих, объем генеральной физической совокупности (а соответственно и статистической совокупности) зависит от того, можно ли считать одинаковыми результаты повторных анализов отдельных дискретных составляющих объекта или нет. Если результаты повторных анализов одинаковы, то генеральная физическая совокупность является конечной, а ее объем равен числу дискретных составляющих. Так, при изучении состава древостоя некоторого участка леса генеральная физическая совокупность конечна и равна по объему числу деревьев, произрастающих на изучаемом участке (вид дерева определяется однозначно). Значительно чаще результаты повторных (иногда лишь теоретически возможных) испытаний отдельных дискретных составляющих не являются однозначными. В подобном случае считается, что элемент опробования после испытания в неизменном виде возвращается в объект и любая дис-
28 Глава 1 кретная составляющая объекта может сколь угодно большое число раз стать элементом опробования, в силу чего генеральная физическая совокупность (и соответствующая ей статистическая совокупность) будет бесконечно велика. Например, при изучении площадей отдельных ареалов почв в пределах исследуемой территории генеральная физическая совокупность должна считаться бесконечно большой, так как площадь каждого отдельного ареала при повторных измерениях не является величиной постоянной, хотя число ареалов (дискретных составляющих) является конечным. С практической точки зрения генеральные физические совокупности при изучении дискретных объектов нередко могут рассматриваться как конечные, если варьирование результатов повторных испытаний одной и той же дискретной составляющей невелико сравнительно с варьированием результатов испытаний над разными дискретными составляющими. Именно так и обстоит дело, например, при изучении размеров элементарных ареалов в пределах некоторой территории исследования. Поскольку дискретные объекты нечасто встречаются в исследованиях почвоведов, объемы генеральных физических совокупностей в подавляющем большинстве оказываются бесконечно большими, что при конечных размерах объектов может показаться странным. Однако следует заметить, что генеральная физическая совокупность вообще может быть несоизмерима с объектом в силу различия размерностей объекта и его компонентов. Действительно, некоторый агрегат почвы как объект исследования есть трехмерное тело, размеры которого могут быть выражены либо в единицах массы, либо в единицах объема. При анализе шлифа, приготовленного из агрегата, в качестве элемента опробования выступает поверхность, а значит, размерность поверхности имеет и сумма всех компонентов, входящих в бесконечно большую генеральную физическую совокупность. Очевидно, что сопоставлять размеры генеральной физической совокупности и объекта в данном случае невозможно, как лишено смысла сравнение площади с объемом (или массой). Однако и в случае, когда размеры объекта и компонента измеряются в одинаковых единицах, нет никаких оснований требовать обязательного равенства объекта сумме компонентов, составляющих генеральную физическую совокупность. Здесь важно подчеркнуть то обстоятельство, что свойства объекта характеризуются не иначе как через свойства генеральной физической совокупности, соответствующей объекту исследования. Свойства же генеральной физической совокупности, выявляющиеся в процессе испытаний, зависят от того, что представляют собой компоненты этой совокупности, т.е. элементы опробования, и каковы условия их получения. Физическая совокупность есть некоторая абстракция, необходимая для понимания того, с помощью чего мы создаем представление о свойст-
Измерения, испытания, величины, совокупности 29 вах объекта. Такой же абстракцией является и случайная величина, которая берется в качестве модели для описания изучаемого объекта. Итак, изучаемая переменная величина (событие) может считаться случайной лишь в определенных общих условиях, описывающих испытание. Таким образом, результат единичного анализа можно рассматривать в качестве значения данной случайной величины только для заданных вполне определенных условий. Если в силу природной разнокачественности компонентов физической совокупности или (и) вследствие методических погрешностей измерений изучаемый признак можно рассматривать в качестве случайной величины, то задачей исследования является изучение этой величины. Свойства же такой случайной величины проявляются через свойства генеральной статистической совокупности. Отсюда следует, что только свойства этой совокупности являются предметом любого исследования. Экспериментальное почвоведение имеет дело со случайными величинами, в которые вкладывается вполне определенное конкретное содержание. В качестве случайной величины может выступать рН, содержание гумуса или запасы гипса в почве, водопроницаемость и др. Нужно заметить, что наряду с такими, имеющими определенное почвенное содержание случайными величинами, исследователю приходится сталкиваться и с другими случайными величинами, не имеющими какого-либо конкретного смысла, но совершенно необходимыми, например, для проверки статистических гипотез (см. гл. 6). 1.9. Математическое ожидание Хотя случайные величины являются переменными, их наиболее общие свойства можно охарактеризовать некоторыми постоянными величинами. В связи с этим особое значение имеет понятие математического ожидания^ как среднего взвешенного из всех возможных значений случайной величины ("взвешенное" означает, что при вычислении среднего каждое значение берется столько раз, сколько оно встречается в реальной совокупности), или пропорционально этому количеству. Заметим, что существуют случайные величины, не имеющие математического ожидания. В дальнейшем математическое ожидание будем обозначать буквой Е с последующим указанием в скобках соответствующей случайной величины, например Е(х) — математическое ожидание случайной величины jc, E(s2) - математическое ожидание случайной величины я2 и т.д. Отметим некоторые свойства математического ожидания. Математическое ожидание постоянной величины а равно этой постоянной величине: Е(а) = а. (1.1)
30 Глава 1 Бели ко всем значениям случайной величины х прибавить постоянную величину а (которая может быть и положительной, и отрицательной), то математическое ожидание этой суммы равно сумме математического ожидания случайной величины хиа: Е(х + а)=Е(х)+а. (1.2) Математическое ожидание произведения случайной величины х на постоянную величину а равно произведению математического ожидания случайной величины х на эту постоянную: Е(ах)=аЕ(х). (1.3) Очевидно также, что Е(х/а) = Е(х)/а. (1.4) Математическое ожидание суммы (разности) случайных величин х и z равно сумме (разности) их математических ожиданий: Е(х + z) = E(x) + E(z); E(x -z) = E(x) -E(z). (1.5) Если варьирование значений случайных величин (например, х и z) осуществляется взаимно независимо, имеет место равенство: E(xz)=E(x) E(z). (1.6) 1.10. Многомерные случайные величины В предыдущих параграфах мы ограничивались рассмотрением какой- либо одной случайной величины. На практике могут возникать более сложные ситуации. Например, каждый компонент некоторой физической совокупности может характеризоваться не одним, а двумя, тремя и более свойствами. Так, в каждом из образцов, принадлежащих некоторому объекту, можно исследовать обменные кальций, магний и натрий, в результате чего одной физической совокупности образцов будут соответствовать три статистические совокупности результатов испытаний, отражающие свойства трех случайных величин. Отдельные тройки значений этих случайных величин связаны между собой принадлежностью одному элементу опробования, в силу чего физической совокупности компонентов можно поставить в соответствие статистическую совокупность троек значений трех случайных величин. Появление некоторого сочетания значений трех случайных величин можно рассматривать как одно событие одной, но многомерной (в данном случае - трехмерной) случайной величины. Многомерная случайная величина, или случайный вектор, как всякая случайная величина соответствует вполне определенным общим условиям
Измерения, испытания, величины, совокупности 31 проведения испытаний. В зависимости от числа случайных величин, образующих случайный вектор, различают двумерные, трехмерные и т.д. случайные величины. При этом совсем не обязательно, чтобы все случайные величины, входящие в случайный вектор, принадлежали одной физической совокупности, как это имеет место в рассмотренном выше примере. Так, влажность почвы на глубинах 0-5, 5-10, 10-20 и 20-30 см можно рассматривать как четыре случайные величины, соответствующие четырем разным физическим совокупностям. Однако, учитывая, что каждому образцу в слое 0-5 см соответствуют определенные образцы в нижележащих слоях, влажность почвы на четырех глубинах можно рассматривать как одну четырехмерную случайную величину. Здесь каждые четыре образца с разных глубин и соответствующие им значения случайных величин влажности связаны принадлежностью к одной точке поверхности почвы (соответствуют одной скважине). Аналогично в качестве многомерной случайной величины могут выступать связанные принадлежностью к одному разрезу величины мощности горизонтов, содержания гумуса по горизонтам, рН, глубина грунтовых вод и другие свойства. Общие условия для таких случайных векторов определяются общими условиями проведения испытаний при исследовании отдельных случайных величин. Эти общие условия, а следовательно, и физическая размерность случайной величины, должны быть постоянными для всего исследования, так как в противном случае мы будем иметь дело с разными случайными величинами. Заканчивая рассмотрение основополагающих понятий, отметим, что рассмотрение отдельных свойств почв как случайных величин далеко не всегда представляется очевидным и правомерным. Например, нередко возникают сомнения, можно ли считать, что содержание гумуса в данном образце является случайной величиной, если содержание гумуса как некоторой материальной субстанции в образце вполне определенно и неизменно, а значит, представляет собой постоянную величину. Очевидно, что содержание гумуса в данном образце в данный момент времени в принципе вполне определенно и физически есть величина постоянная. Дело лишь в том, что она нам не известна; а вследствие того, что отдельные измерения этой постоянной оказываются неодинаковыми, для описания изучаемого явления в качестве математической модели используется случайная величина. При этом математическое ожидание случайной величины и является той самой постоянной, которая характеризует содержание гумуса в образце и для оценки которой с приемлемой точностью иногда приходится неоднократно повторять измерения. Случайная величина как математическая модель лежит в основе многих статистических методов изучения почв и связанных с ними природных явлений, и плодотворность таких представлений сейчас уже ни у кого не вызывает сомнений.
32 Глава 1 Вопросы для самоконтроля 1. Каковы причины использования разных шкал измерений? 2. В чем проявляется относительность деления признаков на качественные, порядковые и количественные? 3. Что такое испытание и что является его результатом? 4. Какие события и величины относятся к категории случайных? 5. Всякая ли переменная величина является случайной и всегда ли случайная величина представляет собой переменную? 6. При каких условиях значения переменной могут считаться принадлежащими одной случайной величине? 7. Когда и почему второстепенные условия могут быть причиной переменности и случайности событий? 8. Почему пространственно-временные границы объекта должны входить в понятие испытания? 9. Для чего и когда требуется регламентация параметров элементов опробования? 10. Какова необходимость введения понятия генеральной физической совокупности? 11. В чем отличие генеральной статистической совокупности от статистической совокупности? 12. К чему приводит несоблюдение постоянства общих условий, определяющих испытание? 13. Что такое математическое ожидание и каковы его свойства? 14. Что такое Дг-мерная случайная величина и что может собой представлять элемент опробования, характеризуемый такой величиной? 15. Почему случайная величина как математическая модель находит широкое применение в экспериментальном почвоведении?
Глава 2 ВЫБОРКИ И ГРУППИРОВКА 2.1. Репрезентативность выборки и рандомизация В большинстве случаев о свойствах объекта приходится судить на основании результатов испытаний над некоторым конечным числом компонентов физической совокупности, называемым выборкой. Выборка никогда не представляет интереса сама по себе, но с ее помощью исследователь получает возможность судить о свойствах генеральной совокупности, а тем самым и об объекте. Целью всякого экспериментального исследования является изучение свойств объекта, а выборка служит всего лишь источником информации о нем. Именно поэтому крайне важно, чтобы выборка правильно отражала свойства объекта, чтобы выборка была представительна, репрезентативна. Лучшим способом обеспечения репрезентативности выборки считается рандомизация, т.е. случайность отбора компонентов физической совокупности на испытание. Рандомизация является условием чистоты опыта независимо от того, будут ли в дальнейшем подвергаться статистической обработке результаты исследований или нет. Очевидно, что случайность значений изучаемой величины в эксперименте обычно оказывается опосредованной случайностью выбора компонентов физической совокупности в процессе испытания. Случайность выбора компонента физической совокупности (или точки опробования) на анализ совсем не означает, что следует брать "что попало" и "где попало". Не говоря уже о том, что должны соблюдаться общие условия проведения испытания (а значит нельзя брать "что попало"), для обеспечения случайности следует пользоваться некоторыми правилами, регламентирующими выбор местоположения точки опробования в пространстве объекта (а иногда и во времени). 2.2. Механический отбор Наиболее простым способом, нередко эффективно обеспечивающим репрезентативность выборки, является механический (или систематический) отбор, когда образцы (точки опробования) для анализа отбирают через равные интервалы расстояния (или времени). По сути дела именно
34 Глава 2 этот принцип лежит в основе отбора средней пробы на анализ, когда образец рассыпают на бумаге, делят линиями на несколько квадратов и из каждого ложкой берут некоторое количество почвы для приготовления пробы. Чаще всего механический отбор осуществляют вдоль некоторой линии. При этом нужно решить, через какой промежуток брать образцы (или делать измерения) и откуда начинать отсчет. Если объем выборки определен заранее, то желательно выбрать такой промежуток между соседними точками, чтобы вся линия опробования была представлена в выборке. Здесь можно поступить следующим образом: разделить длину линии опробования (измеренную в метрах, шагах и т.д. для непрерывных объектов или числом измерений для дискретных объектов) на предполагаемый объем выборки и, округлив полученное отношение до ближайшего удобного с практической точки зрения числа, взять последнее как искомый промежуток между точками опробования. Для обеспечения случайности начала отсчета его можно определить как число букв в слове, с которого начинается произвольно открытая страница любой книги. Это число и будет числом единиц длины, либо числом элементов дискретного объекта, с которого начинается отбор. Так, если из 48 агрегатов некоторого размера, выделенных при сухом просеивании образца почвы, для определения порозности нужно отобрать 5, то для проведения механического отбора все агрегаты должны быть расположены в один ряд. Исходя из отношения 48/5 интервал опробования можно взять равным 10. Отбор можно начать с третьего агрегата (если воспользоваться тем обстоятельством, что настоящий абзац начинается со слова, состоящего из трех букв). Тогда анализу будет подвергнут каждый десятый агрегат, начиная с третьего; они будут расположены на 3,13,23,33 и 43 местах. Механический отбор на поверхности можно осуществлять в точках, равномерно распределенных по площади, например, по углам квадратов, на которые разбивается вся исследуемая территория. Следует отметить, что систематический отбор, подкупающий своей простотой, не всегда оказывается надежным в обеспечении рандомизации. Известно, что свойства почвы в пространстве изменяются с более или менее выраженной периодичностью, особенно в условиях антропогенного воздействия (лесные посадки, дренаж, орошение и пр.). Если в таких условиях расстояния между точками опробования окажутся близкими к длине периода в изменении изучаемого свойства, то это может оказаться причиной искаженного представления об этом свойстве. 2.3. Таблица случайных чисел и ее использование Наиболее надежную рандомизацию можно обеспечить, воспользовавшись таблицей случайных чисел. Для составления такой таблицы необходимо иметь достаточно длинный ряд цифр, последовательность которых чисто случайна.
Выборки и группировка 35 Для удобства пользования все случайные цифры располагают в определенной системе, например, считают, что каждые последовательно полученные 3, 4 или 5 цифр составляют трех-, четырех- или пятизначное число. По тем же соображениям удобства эти числа располагают в виде таблиц, причем каждые строки и столбцы цифр иногда еще и нумеруют. Полученная подобным путем таблица и называется таблицей случайных чисел (см. табл. I в Приложении)1. Такая таблица предназначена для определения номеров тех точек опробования, в которых должны быть проведены измерения или взяты образцы. Предположим, что после сухого просеивания некоторого образца почвы мы получили 57 агрегатов размером 7-10 мм. Из этих 57 агрегатов нам нужно выбрать 5 для определения их порозности. Чтобы не было никакой предвзятости в выборе, расположим все агрегаты в виде цепочки, причем за начало цепочки будем считать ее левый конец. Припишем всем агрегатам номера от 01 до 57. Для определения номеров агрегатов, которые следует подвергнуть анализу, рассмотрим таблицу случайных чисел. Ее можно использовать с любого столбца и с любой строки, а вести просмотр можно в любом направлении - сверху вниз или снизу вверх, справа налево или в противоположном направлении. Например, можно начать просмотр с числа 62846, стоящего в 15-й строке столбца 15-19 (см. табл. 2.1). Таблица 2.1 Фрагмент таблицы случайных чисел 13 14 15 16 17 18 19 20 21 22 23 24 25 26 00-04 05-4)9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-^19 62111 47534 98614 24856 96887 90801 55165 75884 16777 46230 42902 81007 68089 20411 52820 09243 75993 03648 12479 21472 77312 12952 37116 43877 66892 00333 01121 67081 07243 67879 84460 44898 80621 42815 83666 84318 58550 80207 46134 39693 51111 89950 79931 00544 62846 09351 66223 77408 36028 95108 42958 88877 01432 28039 72373 16944 89292 23410 59844 98795 86085 37390 28420 72305 21460 89380 94710 10154 06902 93054 84767 12740 14922 18644 78285 76766 70219 64620 43910 32992 23474 95425 74373 87687 85693 02540 48730 39765 02432 52615 81369 91318 01175 91380 20423 39220 96199 96693 73947 54440 73443 71058 53342 32141 41943 89872 87894 03164 60137 19774 97017 87236 22278 32949 48167 90368 42846 30268 47366 45375 81378 98656 60609 31782 41273 77054 11551 13491 34770 44104 94771 18106 41067 85436 10620 59337 13119 49037 21546 33848 В Приложении таблицы пронумерованы римскими цифрами.
36 Глава 2 Каждое число таблицы случайных чисел имеет пять знаков. Нас же в данном примере интересуют только двузначные числа (в пределах от 01 до 57), поэтому в каждом из пятизначных чисел будем рассматривать только первые две цифры, например в числе 62846 мы учитываем только 62. Агрегата с таким номером у нас нет. Идя от числа 62846 вниз по столбцу, получаем число 09 (первые две цифры 09351). Агрегат с таким номером у нас имеется, значит, это - первый из пяти нужных нам агрегатов. Аналогично просматривая следующие цифры вниз по столбцу, найдем номера остальных агрегатов: 36,42, 01,28. Точно так же в пятизначных числах можно было бы рассматривать только последние две цифры. Из того же столбца 15-19, начиная с 15-й строки и двигаясь вниз, мы получили бы: 46, 51, 23, 08, 28, т.е. анализу были бы подвергнуты агрегаты с этими номерами. Для отбора случайных образцов в поле можно поступить следующим образом. На прозрачной основе (калька, оргстекло) вычерчивают сетку квадратов. Каждую вертикальную и горизонтальную линии нумеруют, так что для каждого пересечения линий (точек) можно точно указать их адрес. Если такую сетку равномерно по площади распределенных точек (т.е. пересечений линий) произвольно, "как попало", наложить на карту изучаемой территории, то выбор местоположения намечаемого числа образцов можно свести к нахождению соответствующего числа адресов среди тех точек, которые выпали на всю площадь интересующей исследователя территории. Определив адрес первой точки, т.е. с помощью таблицы случайных чисел найдя номер сначала вертикальной, а затем горизонтальной линии, на пересечении которых лежит точка, устанавливают, выпала ли эта точка на изучаемую территорию или нет. Если выпала, то эта точка определяет место, где должен быть отобран первый образец. Аналогично отыскивают местоположение остальных точек отбора образцов. 2.4. Послойная выборка. Значение рандомизации В некоторых случаях, когда объект неоднороден (например, почвенный покров участка как объекта образован почвами разной степени окуль- туренности или разного вида), причем доля участия разнородных частей известна, чтобы не ставить представительность этих частей в выборке в зависимость от случая, прибегают к послойной (или стратифицированной) выборке. Суть этого способа состоит в том, что рандомизацию проводят дифференцированно для каждой части (зоны, слоя, как их называют в статистике), причем объемы подвыборок в этих частях пропорциональны доле их участия в составе целого объекта. Такой прием позволяет более точно охарактеризовать объект, в особенности, если объем выборки невелик.
Выборки и группировка 37 Упомянутые выше приемы не исчерпывают всех способов рандомизации, однако большинство из них базируется на знании статистики, а мы лишь приступаем к знакомству с ней, поэтому изложением трех описанных выше способов мы и ограничимся. Принцип рандомизации очень важен в научном эксперименте, если характер исследуемого явления допускает некоторую "вольность" в обращении с ним. Дело заключается не только в том, что исследователь может сознательно отбирать наиболее "подходящие" для работы компоненты физической совокупности. Даже при полной объективности и добросовестности в подходе к изучаемому вопросу нельзя избежать субъективного взгляда на отбираемые образцы, а также психологических и физиологических аспектов, нередко играющих немалую роль. Поэтому отобранные "на глаз" выборки всегда в той или иной степени дают превратное представление о характеризуемой ими совокупности1. Все сказанное о важности получения случайной выборки совсем не означает, что в отсутствии рандомизации опыты теряют свое значение и статистической обработке не подлежат. Дело в том, что отсутствие рандомизации может в большей или меньшей мере извращать наше представление об изучаемых явлениях и процессах. В соответствии с этим и выводы, получаемые в результате статистической обработки таких опытов, также не будут лишены безупречности. Нужно твердо усвоить, что рандомизация - это не каприз математиков-теоретиков, а необходимое условие чистоты проводимых опытов. 2.5. Группировка и ряды распределения Выборка как источник информации о генеральной совокупности дает возможность исследовать п значений случайной величины, где п - объем выборки. Используя для обозначения случайных величин буквы латинского алфавита, отдельные значения случайной величины X, можно обозначить как xh где i - номер испытания, принимающий значения от i = 1 до i = п. В зависимости от особенностей изучаемой случайной величины отдельные ее значения могут выражаться результатами измерений на любой из шкал, т.е. это могут быть числа для количественных признаков, названия или условные обозначения для качественных признаков и т.д. Получаемые в процессе исследования выборочные данные обычно представляют собой неупорядоченный ряд результатов измерений. Упорядочение значений, приведение их в определенную систему представляет Более подробно вопрос о значении рандомизации изложен в предисловии В.Н. Пе- регуцова к книге Дж.У. Снедекора "Статистические методы в применении к исследованиям в сельском хозяйстве и биологии". Сельхозиздат. М, 1961. В гл. 17 той же книги можно найти описание способов получения рандомизированных выборок.
38 Глава 2 собой задачу, с которой прежде всего сталкивается исследователь при статистической обработке полученных результатов. Наведение порядка в хаосе полученных данных обычно сводится к представлению результатов испытаний в виде ряда распределения (или вариационного ряда). Ряд распределения может быть получен ранжированием данных, т.е. с помощью размещения всех значений выборки в порядке их возрастания (конечно, если признак измерен не на классификационном уровне). При этом исходная последовательность значений х, (здесь /=1,2...л есть порядковый номер в получении значений хг) будет заменена последовательностью в порядке возрастания значений xt. Эти значения в упорядоченной последовательности можно обозначить х- , где i = 1,2,..., п есть номер (место) в ранжированной последовательности. Так, если при измерении рН получены п = 5 значений х,-: 5,8; 5,4; 5,9; 6,3; 6,0, то после ранжирования они разместятся в последовательности х1 = 5,4; х2 = 5,8; хъ = 5,9; х4 = 6,0; х5 = 6,3. Если объем выборки велик, то процедура ранжирования не слишком облегчает обзор данных, и тогда прибегают к их группировке, пригодной в качестве метода свертки информации и для качественных признаков. Получающийся при этом ряд распределения - это перечень классов значений случайной величины с указанием их встречаемости. Число, показывающее, сколько раз в пределах совокупности встречаются значения, принадлежащие тому или другому классу, называется абсолютной частотой (или просто частотой). В дальнейшем абсолютную частоту (за исключением специально оговариваемых случаев) будем обозначать буквой /. Пусть к - число выделенных классов, а у = 1, 2, ..., к - номер класса. Значение у-того класса обозначим через х., а соответствующую ему частоту - через fj. Тогда ряд попарно связанных значений х, и fj образует ряд распределения (имеются в виду распределения частот по разным классам значений случайной величины). Очевидно, что для данной совокупности сумма частот всех классов равна объему совокупности п: £/;="> (2-1) где знак ])Г означает суммирование частот j£, для которых у пробегает значения оту = 1 доу = к, т.е. 7=1
Выборки и группировка 39 Нередко подобную громоздкую запись суммирования можно записать проще: ^ f., что означает суммирование^ поу, и даже совсем просто в виде j ^Г /, если по смыслу описываемой операции не может быть разночтений. Встречаемость отдельных значений по классам fi можно охарактеризовать и с помощью относительных частот (или частостей), представляющих собой отношение абсолютных частот к объему выборки (или, что то же, объему ряда). Обозначив относительную частотуу-го класса д, получим J п Если сумма абсолютных частот по всем классам равна и, то сумма относительных частот равна единице (с точностью до округления): = 1. (2.2) Иногда частоты выражаются не в долях единицы, а в процентах, и тогда сумма относительных частот оказывается равной 100%. Конкретное содержание рядов распределения и особенности их построения во многом определяются характером выборочной информации и уровнем измерений случайной величины. 2.6. Группировка качественных и порядковых признаков При измерениях на именной шкале значениями отдельных классов Xj являются наименования, символы, числа, отражающие качественную особенность каждого класса, а группировка сводится к подсчету числа случаев, когда то или иное качество появилось при проведении испытаний. Примерами получающихся в подобных случаях рядов распределений может служить ряд, отражающий встречаемость отдельных групп минералов среди п - 200 зерен пылеватой фракции, выделенной из некоторого конкретного образца почвы (табл. 2.2). Таблица 2.2 Встречаемость зерен пылеватой фракции по разным группам минералов <Pj даны с точностью до 0,01) Группа минералов Абсолютная частота^ Относительная частота/?, Кварц (*i) 101 0,50 Полевые шпаты (х2) 11 0,38 Слюды (*з) 15 0,08 Прочие (*4) 7 0,04 Сумма частот 200 1,00
40 Глава 2 Таблица 2.3 Ряд распределения агрегатов с разной степенью выраженности серой окраски Окраска агрегатов Абсолютная частота JJ Темно-серые 53 Серые 81 Светло-серые 11 Палевые 5 Всего 150 Последовательность, в которой располагаются классы значений случайной величины, измеряемой на именной шкале, чаще всего определяются частотами соответствующих классов: первые содержат наиболее часто встречающиеся (в табл. 2.2 - кварц), последние - редко встречающиеся. Группировка результатов испытаний, в которой измерения проводятся на порядковой шкале, очень похожа на только что рассмотренную. Отличие состоит лишь в том, что, во-первых, классы значений здесь обычно располагаются не по принципу их встречаемости, а в порядке усиления (или уменьшения) проявления изучаемого признака, и во-вторых, положение границ между классами здесь обычно более условно. Примером может служить табл. 2.3. 2.7. Классы количественных признаков Более подробного рассмотрения заслуживает группировка значений случайных величин, измеренных на интервальной шкале или шкале отношений. Группировка количественных признаков начинается с того, что весь диапазон значений случайной величины делят на некоторое число интервалов одинакового размера, на некоторое число классов, как правило, одинаковой ширины. Выбор числа классов к осуществляют в известной мере произвольно. Прежде всего, при этом обычно учитывают объем выборки я, с увеличением которой от 20-30 до 500-1000 рекомендуется число классов увеличивать от 5-6 до 10-11. Минимальное число классов равно 4. Однако конкретные особенности совокупностей, как и преследуемые цели, могут существенно повлиять на выбор числа классов. От числа классов зависит их ширина, или классовый промежуток, выбор которого тоже в известной степени произволен. Примерную оценку классового промежутка с можно получить, разделив интервал, в пределах которого варьируют выборочные значения случайной величины, на планируемое число классов. Для этого среди всех значений случайной величины находят минимальное дсщщ и максимальное х^ и разность между ними делят на к. Полученное отношение округляют до ближайшего "удобного" числа, которое и берут в качестве с.
Выборки и группировка 41 Так, если для порозности почвы вычисленное отношение оказалось равным 2,3%, то более разумно взять за величину с не 2,3%, а 2,0, либо 2,5%. При выборе классового промежутка нужно иметь в виду, что точность его вычисления должна соответствовать той точности, с которой получены значения случайной величины. Если обозначить погрешность, с которой проводятся результаты измерений, через А, то классовый промежуток с должен быть кратен целому числу погрешностей А, т.е. должно соблюдаться условие с = /иА, где т - некоторое целое число, равное или большее 1. Поэтому, например, если значения рН вычислены с точностью до А = 0,05, то нельзя выбрать с = 0,07 и следует принять с = 0,05 (т = 1), либо взять с = 0,10 (т = 2). После выбора величины классового промежутка можно приступить к выделению самих классов, т.е. к установлению начала и конца каждого из них и к нахождению их середин. Под началом и концом класса следует понимать соответственно те наименьшие и наибольшие значения случайной величины, которые еще могут быть отнесены к данному классу. Очевидно, что при таком понимании начала и конца классов одно и то же значение не может быть взято как конец одного и начало соседнего классов. Обычно нумерацию ведут от классов с наименьшими значениями величины к классам с наибольшими значениями. В этом случае конец любого гфедыдущего класса меньше начала последующего всегда на величину А, т.е. если конецу-го класса есть jc" , а начало (j+\)-vo класса есть jc'+1 , то x"j=x'J+l-A. (2.3) Начала соседних классов, как и их концы, отличаются друг от друга на величину классового промежутка, т.е. x'^=x'J+c (2.4) x"j+i=x'j+c. (2.5) Не обязательно в качестве начала первого, наименьшего, класса брать jCtnin. Исходя из соображений удобства, за начало первого класса можно взять и значение, несколько меньшее Хщш. В случае, когда с = А, начало и конец каждого класса будут выражены одним и тем же числом (x'j = Xj), т.е. каждому классу будет соответствовать одно значение случайной величины. Если с > А, то каждому классу будет принадлежать несколько отличных значений, среднее из которых представляет собой середину класса. Обычно середину класса х. находят как полусумму начала и конца класса: х',+х" i}=-4r-- (2-6)
42 Глава 2 Если с = /иД, то, как нетрудно показать, Xj=XJ+- т-\ А. Для удобства вычислений желательно, чтобы число т-\ (2.7) было целым, откуда следует, что выгодно брать число т нечетным. При т > 10 середину классов можно вычислить как полусумму начал соседних классов: xj = x'+x'j+l или по эквивалентной формуле Xj =x'j+0,5c. (2.8) (2.9) При этом число т целесообразно брать четным. Середины соседних классов, как и их концы и начала, отличаются друг от друга на величину классового промежутка. Иногда при выделении классов предпочтительнее находить более удобные значения середин классов, а не их начала и концы. В этих случаях после выбора ширины класса в окрестности Хпщ, (предпочтительно от *шш до дс,пт+0,5с) выбирают числовое значение, удовлетворяющее соображениям "удобства", и принимают его за середину первого класса. Затем, пользуясь приведенными выше соотношениями, устанавливают середины остальных классов, начала и их концы. В результате подсчета частот получают ряд распределения, в котором серединам классов х. соответствуют частоты^, показывающие, сколько раз значения случайной величины попали в соответствующий класс. Примером подобного ряда может служить табл. 2.4, полученная при группировке п = 30 значений порозности агрегатов в условиях, когда JCmu, = 47,3%, *max= 63,1% и А = 0,1%. Группировка осуществлялась, исходя из удобства начал классов при с = 3,0% и полученном при этом числе классов к = 6. Начала х'. и концы jcJ классов в табл. 2.4 приведены для иллюстрации того интервала значений, которые принадлежат каждому классу. Таблица 2.4 Ряд распределения порозности агрегатов х' -х" Xj Xj \*J i7' 47,0-49,9 48,5 1 50,0-52,9 51,5 3 53,0-55,9 54,5 6 56,0-58,9 57,5 7 59,0-61,9 60,5 9 62,0-64,9 63,5 4
Выборки и группировка 43 Наряду с установлением начала и конца классов как необходимых элементов при подсчете частот, в ряде случаев возникает также потребность в выделении границ между классами Xj/(,+1), каждую из которых можно рассматривать одновременно и как верхнюю границу предыдущего у-го класса и как нижнюю границу последующего (j+l)-ro класса. Граница между классами равна полусумме конца предыдущего и начала последующего классов: х',+х'м 'wo-^-T^ (2Л0> Очевидно также, что нижняя границау'-го класса х(._уу. находится по формуле \H)U xU-\)lj-xj -0,5,4 = 5£jf-0,5c, (2.11) а верхняя границау-го класса дс^+у; - по формуле xjiim =JcJ+0,52l = ij + 0,5с . (2.12) При т = с/А > 10 за границу между классами можно принимать начала отдельных классов, т.е. считать, что *//(у+1) = *}+1 • Для примера, представленного в табл. 2. 4, учитывая, что с/А = 30, за границу между первым и вторым классами можно принять 50,0%, за границу между вторым и третьим 53,0% и т.д. Нижняя граница первого класса здесь равна 47,0%, а верхняя граница последнего составляет 65,0%. Нетрудно убедиться, что соседние границы между классами (а соответственно, нижняя и верхняя граница каждого класса) отличаются друг от друга ровно на величину классового промежутка. В отличие от начала и концов классов, которые всегда представляют собой значения, если не практически, то принципиально могущие получиться при проведении испытаний, границы между классами нередко оказываются условными, лишенными реального смысла. Действительно, если ряд распределения составлен для дискретной случайной величины, например, для числа колоний в чашке Петри, то граница, равная 18,5 колоний, есть чистая абстракция. 2.8. Представление распределений с помощью квантилей Результаты выборочных наблюдений могут быть представлены не только в виде рядов распределения, когда подсчету частот предшествует выделение классов значений признака. Свертку информации можно осу-
44 Глава 2 ществить иначе, указав для изучаемой случайной величины ряд значений эмпирически найденных квантилей. Квантиль - это такое значение случайной величины, меньше которого в совокупности содержится у-100% всего числа значений (или доля у от общего числа значений). Если у-100%-й квантиль случайной величины X обозначить хм, то Х(о,ю) (10%-й квантиль) представляет собой значение, меньше которого в совокупности содержится 10% общего числа значений, а *(о,75) ~ значение, меньше которого содержится 75% результатов испытаний. Квантили, соответствующие значениям у, равным 0,1; 0,2; ...; 0,9, называются децилями. Децили делят ранжированную последовательность значений случайной величины на 10 равных по числу частей. Квантили, делящие ранжированную последовательность на 4 равные части, называются квартилями. Квартиль Jt(o,25)> отсекающий 25% наименьших значений, обычно называют нижним квартилем, a Jt(oj5), отсекающий 75% наименьших значений, (и соответственно 25% наибольших значений), - верхним квартилем. По аналогии с этим квантили лг(0,ю) и *(о,90) называются нижним и верхним децилями. Квантиль Jt(o,50), делящий ранжированную совокупность на две равные по числу половины (являющийся вторым квартилем), называется медианой. Эмпирические значения квантилей по выборке объема п можно найти по общей формуле *(r)=*I+A(**+i-xI)> <2ЛЗ) * * « где xk и xk+l значения изучаемой случайной величины, находящиеся в ранжированной последовательности (в порядке возрастания) на к-ы и (&+1)-м местах, а к и А - соответственно целая и неотрицательная дробная (0 < А < 1) части в произведении Хл + 1) = Л: + А, (2.14) где у задается в долях единицы. Так для п = 25 и у = 0,25 при вычислении нижнего квартиля имеем у(п + 1) = 0,25 х(25 + 1) = 6,5 = 6 + 0,5; * = 6, А = 0,5. Согласно (2.13), получим *(о,25)- *б + 0,5 х ( д:7 - х6 ), т.е., чтобы найти искомый квантиль, следует к значению, стоящему на 6-м месте в ранжированной последовательности, прибавить половину разности значений, стоящих на 7-м и 6-м местах. Разумный набор квантилей и значения у, для которых допустимо вычислять квантили, зависят от объема выборок и желаемой детальности
Выборки и группировка 45 описания выборочной совокупности. Оптимальный набор у для описания эмпирического ряда может быть следующим: 0,05; 0,10; 0,25; 0,50; 0,75; 0,90; 0,95. Однако не для всех выборок такой набор квантилей можно получить, поскольку для того чтобы набор квантилей имел содержательность, устойчиво отражал характер вариабельности исследуемого свойства, разумно использовать значения у, удовлетворяющие ограничению ТГп"^п- <г'5) Согласно менее жесткому ограничению, у и 1 - у не должны быть меньше 1/(л+1). Поэтому приведенный ряд значений у может быть использован для нахождения квантилей лишь в выборках с объемом п > 100. При меньших объемах п набор значений будет сокращенным, а в некоторых случаях и несколько измененным (табл. 2.5). Допустим, что при определении содержания гумуса в пахотном слое дерново-подзолистой почвы в пределах некоторого участка с повторно- стью п = 25 были получены следующие результаты (х,,%; здесь i -номер места в ранжированной последовательности от / = 1 до i = 25): 2,02; 1,68; 1,75; 2,12; 1,58; 2,28; 1,41; 1,78; 1,53; 3,19; 1,49; 1,83; 1,48; 2,11; 1,91; 1,85; 1,66; 2,33; 2,47; 1,78; 1,69; 1,89; 1,77; 1,93;1,85. После ранжировки ряд приобрел следующий вид: 1,41; 1,48; 1,49; 1,53; 1,58; 1,66; 1,68; 1,69; 1,75; 1,77; 1,78; 1,78; 1,83; 1,85; 1,85; 1,89; 1,91; 1,93; 2,02; 2,11; 2,12; 2,28; 2,33; 2,47; 3,19. При п = 25 можно вычислить квантили для у, равных 0,10; 0,25; 0,50; 0,75 и 0,90 (табл. 2.5). При у = 0,10 согласно (2.14) имеем к = 2 и А = 0,6. Соответственно по формуле (2.13), округляя до сотых, получаем дс(о,ю) = 1,48 + + 0,6 • (1,49 -1,48) = 1,49. Аналогично получим JC(0,25)= 1,67; JC(0,50)= 1,83; *(0,75) = 2,06 И Х(о,90) = 2,39. Результаты свертки информации с помощью квантилей обычно представляют в виде таблицы, где наряду с вычисленными квантилями приво- Таблица 2.5 Оптимальный набор значений у для вычисления квантилей в зависимости от объема выборок л п и>100 71-99 25 - 70 16-24 5-15 2<и<5 У \ 0,05 0,06 0,10 0,10 0,10 0,15 0,25 0,25 0,25 0,25 0,25 0,50 0,50 0,50 0,50 0,50 0,50 0,75 0,75 0,75 0,25 0,25 0,90 0,90 0,90 0,85 0,95 0,94
46 Глава 2 Таблица 2.6 Квантили некоторых свойств горизонта /W дерново-подзолистой почвы (в скобках даны квантили для у = 0,15 и у = 0,85) Свойство Гумус, % Р2О5,мг/100г Водопроницаемость, мм/мин п 25 20 10 •*min 1,41 4 0,4 0,10 1,49 (6) - 0,25 1,67 11 0,7 х^ для у 0,50 1,83 18 1Д 0,75 2,06 24 2,3 0,90 2,39 (38) - •Х-пшх 3,19 48 5,2 дятся также минимальные и максимальные значения (х^, xj и объем выборки п. Примером такого представления может служить табл. 2.6. Этот метод свертки информации заслуживает внимания прежде всего простотой интерпретации результатов и возможностью представления в пределах одной таблицы данных для разных признаков, в том числе и для случаев, когда объемы выборок заметно различаются (табл. 2.6). 2.9. Графическое представление распределений Данные, представленные в виде вариационного ряда, можно изобразить графически, если по оси абсцисс откладывать значения признака, а по оси ординат - частоту. Существует несколько способов графического изображения рядов распределения. Если вариационный ряд представлен отдельными значениями дискретной случайной величины (с = А) с указанием их абсолютных или относительных частот, то график представляет собой значение ординат в точках, соответствующих отдельным значениям случайной величины, и высотой, пропорциональной их частотам (рис. 2.1). 40- 30- 20- 10- и 0 1 1 1 12 3 4 5 6^- Рис. 2.1. Распределение частот /} числа х. ортштейнов, крупнее 3 мм, выделенных из 100 образцов подзолистого горизонта (объем образца 100 см3)
Выборки и группировка 47 Для непрерывных случайных величин графическое изображение ряда распределения может быть дано в виде столбчатой диаграммы (или гистограммы). При этом вариационный ряд изображают в виде столбиков, границы между которыми проходят по ординатам, соответствующим границам между классами, ширина основания столбиков равна величине классового промежутка, а высота пропорциональна частоте отдельных классов (рис. 2.2). R I озсн 0.25 j | г20] —I 0.15 ] | 0.10 j 0.05 J I 10.00 I I I I 1 I I I I I I I I I I I I I I I I 3.5 4.0 4.5 5.0 55 6.0 6.5 7.0 7.5 Xj\ Рис. 2.2. Гистограмма распределения относительных частот р/ по классам значений рН (х.) для пахотного слоя почвы в пределах поля При необходимости сравнения на одном рисунке двух или большего числа распределений выясняется, что гистограмма оказывается для этого не лучшим способом. В таких случаях гораздо удобнее пользоваться графическим изображением распределений в виде полигона частот. Для его построения график наносят точки, координаты которых соответствуют серединам отдельных классов и их частотам, после чего точки, соответствующие соседним классам, соединяют отрезками прямых. Полигон частот должен начинаться и заканчиваться на оси абсцисс, чтобы получилась замкнутая фигура, для чего с обоих концов ряда добавляют по одному ближайшему классу, имеющему нулевые частоты (рис. 2.3). R I 030 J г25 J I \ г20] / \ г15] / \ 0.10 j / \ 0.05 j / \ о.оо 1-Т| | ■ | I Г>ч I 3.5 4.0 4.5 5.0 55 6.0 6.5 7.0 75 Ц Рис. 2.3. Полигон распределения относительных частот р. по классам значений рН (Jcy ).
48 Глава 2 Рис. 2.4. Огива распределения водопроницаемости (х, мм/мин) Так, для ряда распределения рН (рис. 2.2) полигон следует начать с класса, для которого х. = 3,50, а заканчивать классом, для которого Xj = 7,50; частоты этих классов равны нулю (рис. 2.3). Название "полигон частот" объясняется тем, что полученная в результате построения фигура представляет собой многоугольник, ограниченный снизу отрезком оси абсцисс, а сверху и сбоку - ломаной линией. График, отражающий распределение, можно получить и не прибегая к группировке. Для этого ряд полученных значений ранжируют и в полученной последовательности от наименьшего значения к наибольшему каждому значению приписывают порядковый номер от 1 до п, где п - объем выборки. Если теперь, откладывая по оси абсцисс значения случайной величины, а по оси ординат - их номер в ранжированной последовательности, нанести на график точки, соответствующие координатам "значение - номер" и соседние точки соединить отрезками прямых, то получается график, называемый огивой (рис. 2.4). Пусть, например, ранжированная последовательность п = 30 значений водопроницаемости (х, мм/мин), оп- Рис. 2.5. Распределение 25 значений содержания гумуса (х) и квантилей распределения (жирная линия)
Выборки и группировка 49 ределяемой методом трубок с переменным напором, на дерново-подзолистой почве под луговой растительностью такова: 6,10,21, 22, 29, 31, 32, 33, 34, 36, 39,41,43,44,44,44,48,48, 50, 54, 55, 57, 57, 60, 63,71, 86, 86, 92, 125. Тогда ее огива имеет вид, изображенный на рис. 2.4. При квантильной характеристике распределений для построения графика находят точки с координатами у (ордината) и х(у) (абсцисса) и соседние точки соединяют отрезками прямых. Если на том же графике взять i точки с координатами у = и xi9 где х, есть г-е значение переменной в /1 + 1 ранжированной последовательности (/= 1, 2, ..., п) и соседние точки соединить отрезками прямых, то легко убедиться, что такого рода функция распределения достаточно точно характеризуется ломаной, построенной по нескольким квантильным точкам (рис. 2.5). Вопросы для самоконтроля 1. Что такое выборка и какими свойствами она должна обладать? 2. В какой мере репрезентативность выборки связана с рандомизацией? 3. В чем отличие механической выборки от послойной? 4. Что такое ряд распределения и как он может выглядеть? 5. В чем состоит специфика классов при группировке значений дискретных и непрерывных случайных величин? 6. Что такое квантиль случайной величины? 7. Какие ограничения существуют для вычисления квантилей? 8. Чем отличаются децили от квартилей и что между ними общего? 9. О чем может говорить равенство нижних дециля и квартиля? 10. Что общего у гистограммы и полигона частот и чем они отличаются друг от друга?
Глава 3 ВЕРОЯТНОСТЬ- ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЙ 3.1. Статистическая устойчивость Несмотря на то, что результаты единичных испытаний над случайной величиной не предсказуемы заранее, случайности также оказываются подчиненными некоторым законам. В этом нетрудно убедиться, если, соблюдая неизменность общих условий, получить ряд репрезентативных выборок, принадлежащих одной и той же случайной величине. Например, данные, приведенные в табл. 3.1, показывают, что относительные частоты для каждой группы минералов от выборки к выборке не остаются одинаковыми, но меняются они не совсем бессистемно. Действительно, ни разу не оказалось, чтобы зерен кварца в выборке было очень мало или они составляли подавляющую часть от общего числа просмотренных зерен. Точно также на слюдистые минералы во всех выборках пришлось около 10% и не было случая, чтобы этих минералов оказалось больше, чем кварца или полевых шпатов. Таблица 3.1 Относительные частоты, характеризующие встречаемость разных фупп минералов по повторным выборкам одинакового объема (просматривалось по 100 зерен минералов пылеватой фракции) Номер выборки 1 2 3 4 5 Группы минералов х. Кварц, х\ 0,51 0,56 0,47 0,45 0,52 Полевые шпаты, х2 0,40 0,33 0,38 0,42 0,35 Слюда, х3 0,07 0,06 0,И 0,08 0,12 Прочие, х4 0,02 0,05 0,04 0,05 0,01
Вероятность. Параметры распределений 51 Можно утверждать, что дальнейшее увеличение числа выборок не изменит выявленную в общих чертах картину распределения относительных частот, и для каждой группы минералов относительные частоты будут колебаться в некоторых более или менее узких пределах. Рассмотренный пример является иллюстрацией общей закономерности, получившей название устойчивости частоты (или статистической устойчивости), которая известна давно и успешно используется для прогноза событий. Это нашло отражение в множестве народных примет, пословиц и поговорок (февраль - кривые дороги; яблоко от яблони недалеко падает; июль - сеногной и др.). 3.2. Вероятность. Невозможные, достоверные, несовместимые события Рассматривая табл. 3.1, нетрудно предугадать, что единичное случайно взятое зерно из образца вряд ли окажется слюдой или тем более принадлежащим к группе прочих минералов, так как по имеющимся у нас результатам эти минералы встречаются относительно редко. Скорее всего, случайно взятое зерно будет либо кварцевым, либо полевошпатовым, поскольку эти группы минералов встречаются почти одинаково часто и нет оснований сомневаться, что выявленное соотношение частот в последующих экспериментах может существенно измениться. Таким образом, оценивая возможность того, что случайно взятое единичное зерно окажется кварцевым или будет относиться к другим группам минералов, мы, опираясь на статистическую устойчивость, обращаемся к относительным частотам как показателям вероятности некоторого события. Вероятность - это количественная мера возможности осуществления того или иного события. По относительным частотам можно судить о вероятности лишь с большей или меньшей степенью приближения, но, производя повторные выборки, можно убедиться, что относительные частоты для каждого события колеблются около некоторых постоянных величин. Эти постоянные величины и являются вероятностями соответствующих событий. Такое определение вероятности, основанное на поведении относительных частот, получило название статистического. К определению вероятности можно подойти и иначе. Изучаемый объект (известное количество пылсватой фракции, выделенной из исходного образца некоторой почвы) представляет собой конечную совокупность зерен различной минералогической природы. Если из общего числа зерен N на кварц, полевые шпаты, слюды и прочие минералы приходится соответственно JVi, N2, N3 и N4 зерен, то их отношение к числу N характеризует долю шансов отдельно взятого зерна оказаться кварцем или другим минералом. Следовательно, вероятность можно рассматривать как долю шан-
52 Глава 3 сов, благоприятствующих тому или иному исходу того или иного события. Такое определение вероятности известно как классическое. Подобное определение вероятности позволяет рассматривать вероятность не только как меру возможности осуществления некоторого события, но и как характеристику того, какая доля от общего объема генеральной совокупности приходится на данный класс событий. Таким подходом к вероятности мы нередко будем пользоваться. Вероятность как количественную меру возможности события обозначают буквой Р. Как и относительная частота, вероятность не может быть меньше нуля или больше единицы (или 100%, если вероятность выражается в процентах). Событие, у которого нет никаких шансов на осуществление, называется невозможным: для него Р = 0. Событие, которое при проведении испытания обязательно наступает, называется достоверным; для такого события Р = 1. Каждое зерно изучаемой фракции механических элементов может оказаться либо кварцевым, либо полевошпатовым, либо принадлежать какой-либо другой группе минералов. Однако невозможно, чтобы одно зерно одновременно принадлежало двум разным группам минералов, такие два события в единичном испытании произойти не могут. Если наступление одного события исключает возможность наступления другого, т.е. если события не могут осуществляться одновременно, то такие события называются несовместимыми (непересекающимися). Теорема сложения вероятностей состоит в следующем. Вероятность наступления хотя бы одного из определенного набора попарно несовместимых событий равна сумме вероятностей этих событий. Пусть некоторые события А и в несовместимы; обозначив через Р(л) вероятность события А, через Р(#) - вероятность события В, через Р(Л U в) - вероятность любого из событий А или В, теорему сложения вероятностей можно записать так: Р(к U в; = Р(а) + Р(ъ). (3.1) В данных общих условиях эксперимента сумма вероятностей всех возможных несовместимых событий, как и сумма относительных частот в выборках, равна единице: JiPj=l (7 = 1,2,...,*), где к - число возможных событий. Так, если вероятности, соответствующие приведенным в табл. 3.1 группам минералов, равны соответственно Pi =0,503, Р2 = 0,348, Р3 = 0,114, Р4 = 0,035 и их сумма равна 1, то вероятность того, что случайно взятое зерно окажется кварцевым или полевошпатовым, согласно теореме сложения вероятностей, равна 0,503 + 0,348 = 0,851, т.е. на эти две группы при-
Вероятность. Параметры распределений 53 ходится 85,1% общей численности зерен в изучаемом образце пылеватой фракции. Вероятность того, что зерно окажется слюдой или попадет в группу "прочих" минералов, очевидно, равна 0,114 + 0,035 = 0,149. Ту же вероятность можно получить, вычитая из единицы 0,851, поскольку эта разность оценивает вероятность обнаружения не кварца и не полевых шпатов, т.е. слюд и прочих минералов. Теорема сложения вероятностей несовместимых событий в той или иной форме часто используется в статистических методах. 3.3. Пересекающиеся события. Независимость событий Пересекающиеся события, как следует из самого названия, могут происходить одновременно. Так, в совокупности агрегатов каждый из агрегатов может быть механически прочным (событие А) или непрочным (обозначим это событие А ). Очевидно, эти события непересекающиеся (либо А, либо А ) и если их вероятности равны Р(А) и Р(А ), то Р(Л) + Р(А ) = 1. Те же агрегаты могут быть водопрочными (событие в) или неводопрочными (событие В ) и при этом Р(в) + Р(В) = 1, поскольку эти события также несовместимы. Вместе с тем каждый агрегат может быть механически прочен (непрочен) и в то же время водопрочен (неводопрочен), т.е. события А (или А ) и в (или В) пересекающиеся. Если пересекающиеся события А м в независимы, то вероятность их совместного появления Р(ав) равна произведению вероятностей соответствующих событий Р(А) и Р(в): Р(АВ)=Р(А)Р(В). (3.2) Это равенство обычно используется для определения независимости событий: если вероятность совместного появления событий равна произведению вероятностей этих событий, то события независимы. Так, если для механической прочности Р(А) = 0,3 и Р(1) = 0,7, а для водопрочности Р(в) = 0,6 и P(J) = 0,4, то в случае независимости этих пересекающихся событий вероятность того, что агрегат одновременно будет и механически прочен, и водопрочен, равна Р(АВ) = 0,3-0,6 = 0,18. Аналогично получим Р(Ав) = 0,3 0,4 = 0,12, Р(А в) = 0,7 • 0,6 = 0,42 и Р(А в ) = 0,7 • 0,4 = 0,28. Поскольку этими случаями исчерпываются все возможные сочетания механической прочности и водопрочности, следует ожидать, что
54 Глава 3 Р(ав)+Р(ав ) + Р(А в) + Р(а в)=\. В самом деле, получаем 0,18 + 0,12 + 0,42 + 0,28 = 1,00. Если в действительности окажется, что вероятность совместного появления изучаемых событий будет отлична от вычисленных, например, получится, что Р(АВ) = 0,3 (это, кстати, возможно лишь в том случае, когда все механически прочные агрегаты в то же время водопрочны, поскольку Р(а) = 0,3), то можно утверждать, что водопрочность и механическая прочность агрегатов не независимы. Могут пересекаться на только два события. Например, если пересекаются три события А, в, и С, то при их взаимной независимости имеют место следующие равенства: Р(АВ)=Р(А)-Р(В); Р(АС)=Р(А) -Р(С); Р(ВС)=Р(В)-Р(С); Р(АВС) =Р(А) Р(В) Р(С). (3.3) Если же хотя бы одно из равенств не соблюдается, то события нельзя считать независимыми. 3.4. Закон распределения. Распределение дискретных величин В рассмотренном примере мы познакомились со случайной величиной, измеренной на классификационном уровне. Каждой градации такой случайной величины может быть поставлена в соответствие некоторая вполне определенная вероятность. Аналогично, для порядковых величин с конечным числом возможных градаций каждой градации соответствует некоторая вероятность, сумма которых по всем градациям равна 1. Совокупность всех возможных событий при проведении испытания с указанием их вероятности может рассматриваться в качестве закона распределения случайной величины. Однако с принципиальной точки зрения подобный способ описания закона распределения далеко не всегда оказывается возможным. Дело не только в том, что число возможных событий может оказаться слишком большим. Большое число возможных исходов испытаний создает лишь технические трудности, но если число таких исходов принципиально бесконечно велико, то эти трудности оказываются не только технического характера. Для иллюстрации сказанного рассмотрим сначала распределение вероятностей дискретной случайной величины. Допустим, что объектом исследования является слой 15-19 см горизонта А2 дерново-подзолистой почвы некоторого конкретного участка. В пределах этого объекта в еди-
Вероятность. Параметры распределений 55 ничных объемах 100 см3 (объем цилиндра высотой 4 см) количество (в штуках) ортштейнов крупнее 3 мм меняется в пределах от 0 до 26. Распределение вероятностей (с точностью до 0,001) по классам значений при ширине класса с - 4 имеет вид: 1 х' -х" Xj Xj Pj 0-3 0,238 4-7 0,251 8-11 0,207 12-15 0,164 16-19 0,097 20-23 0,032 24-27 0,011 Приведенный ряд распределения вероятностей, показывает, например, что с вероятностью 0,164 в случайно взятом объеме 100 см3 может оказаться либо 12, либо 13, либо 14, либо 15 ортштейнов крупнее 3 мм, а с вероятностью 0,032 - их число заключено в интервале от 20 до 23. С другой стороны, можно утверждать, что почти в половине всех случаев (23,8 + 25,1 =48,9%) число ортштейнов в объеме 100 см3 меньше 8 штук и лишь в 4,3% всех возможных случаев это число равно или превышает 20. Использование теоремы сложения вероятностей в последнем случае вполне оправдано, так как результат единичного испытания не может оказаться равным одновременно и 3, и 4, а, следовательно, принадлежать разным классам. По тем же соображениям одновременно не может получиться 8 и 9 или 9 и 11 ортштейнов, а это означает, что при уменьшении ширины класса вероятности новых классов должны подчиняться теореме сложения вероятностей несовместимых событий. Так, если вместо с = 4 взять с = 2, то, например, на месте класса, начало и конец которого равны 8 и 11, а Р = 0,207, появятся два новых класса от8до9иот 10 до 11,аих вероятности равны 0,112 и 0,095 (0,112 + 0,095 = 0,207). Ширину класса можно уменьшить еще в два раза и взять с — 1. В этом случае на месте каждого исходного класса окажется уже 4 класса. Применительно к произвольно взятому нами классу с началом 8 и концом 11 получим классы со значениями 8, 9, 10 и 11 и соответствующие им вероятности 0,058, 0,054, 0,050 и 0,045, причем сумма первых двух вероятностей равна 0,112, а вторых - 0,095. Очевидно, дальнейшее уменьшение классового промежутка невозможно, так как при с — А каждый класс представлен единственным значением случайной величины. Поскольку в случае дискретных случайных величин уменьшение классового промежутка не может продолжаться беспредельно, вероятности для отдельных значений таких величин представляют собой вполне определенные конечные величины, хотя они и могут быть очень малы. Таким образом, закон распределения дискретной случайной величины может быть задан перечислением всех значений такой величины с указанием их вероятностей. Иногда закон распределения можно описать математически, если известен вид зависимости Р(х) от х.
56 Глава 3 Графическое распределение вероятностей дискретной случайной величины может быть представлено в виде серии ординат, соответствующих значениям случайной величины, с высотой, пропорциональной соответствующей вероятности, а также и в виде гистограммы. 3.5. Кривая распределения непрерывных величин Несколько иначе обстоит дело в рядах распределения непрерывных величин, поскольку, по крайней мере теоретически, классовый промежуток в таких рядах может быть сколь угодно мал. Предположим, что в некоторых условиях проведения испытания нам известно распределение вероятностей по классам порозности отдельных агрегатов (см. табл. 3.2). Согласно этим данным, например, порозность в границах 31,5-32,5% встречается в 1,4% всех случаев, т.е. в среднем 14 раз на 1000 агрегатов. В этом ряде порозностей агрегатов классовый промежуток равен 1,0%, но его можно взять и равным 0,5%. Тогда на месте каждого существующего класса (мы не будем касаться крайних классов, где указана только одна из границ) появилось бы два класса значений порозности, между которыми соответствующим образом распределились бы вероятности Р, приведенные для исходных классов в табл. 3.2. Очевидно, сумма вероятностей по каждым двум вновь образованным классам должна быть равна вероятности соответствующего исходного класса. Ясно также, что вероятность каждого новообразованного класса будет меньше, чем исходного, так как каждый класс при с = 0,5% составляет лишь часть от класса исходного при с = 1,0%. При уменьшении величины классового промежутка будут соответственно уменьшаться и вероятности для получающихся более узких классов. Теоретически величину классового промежутка с (как и точность измерений А) можно уменьшать до бесконечно малого размера, поскольку порозность агрегата есть величина непрерывная. При с-»0 вероятности, соответствующие отдельным классам, также будут стремиться к нулю. Это означает, что для непрерывных величин нельзя указать вероятность каждого из возможных их значений; этим и отличаются непрерывные ряды от дискретных. Заметим, что невозможность указать вероятность того или дру- Таблица 3.2 Распределение вероятностей по классам порозности отдельных агрегатов XJ'U*) *J PJ 31,5 <31,5 0,002 32,5 32,0 0,014 33,5 33,0 0,079 34,5 34,0 0,207 35,5 35,0 0,291 36,5 36,0 0,269 37,5 37,0 0,110 38,5 38,0 0,019 39,5 39,0 0,006 >39,5 1 0,003
Вероятность. Параметры распределений 57 гого значения непрерывной случайной величины не означает, что нельзя указать вероятность, например, для порозности 34,73% (см. табл. 3.2). Здесь вероятность конечна и в принципе может быть указана, но лишь потому, что х = 34,73% есть не отдельное значение случайной величины, а середина целого класса значений от 34,725 до 34,734%. Отдельным значением является 34,73000...%, а для такого значения вероятность бесконечно мала и не может быть указана. В связи со сказанным становится вполне понятным и то, что распределение непрерывной случайной величины не может быть представлено в виде гистограммы, где по оси ординат откладывается вероятность: при уменьшении классового промежутка вероятность по отдельным классам значений уменьшается и при с->0 высота столбиков оказывается бесконечно малой. При построении гистограммы этих трудностей можно избежать, если вероятность на гистограмме выражать не высотой столбиков, а их площадью. Заметим, что невозможность указать вероятность того или другого значения непрерывной случайной величины не означает, что нельзя указать вероятность, например, для порозности 34,73% (см. табл. 3.2). Здесь вероятность конечна и в принципе может быть указана, но лишь потому, что х = 34,73% есть не отдельное значение случайной величины, а середина целого класса значений от 34,725 до 34,734%. Отдельным значением является 34,73000...%, а для такого значения вероятность бесконечно мала и не может быть указана. В связи со сказанным становится вполне понятным и то, что распределение непрерывной случайной величины не может быть представлено в виде гистограммы, где по оси ординат откладывается вероятность: при уменьшении классового промежутка вероятность по отдельным классам значений уменьшается и при с->0 высота столбиков оказывается бесконечно малой. При построении гистограммы этих трудностей можно избежать, если вероятность на гистограмме выражать не высотой столбиков, а их площадью. В этом случае на гистограмме распределения вероятностей по классам порозности агрегатов (рис. 3.1, а) общая площадь всей фигуры (крайние классы, имеющие очень малую вероятность, на гистограмме не отражены, но в суммарной площади должны учитываться) считается равной единице, а площадь каждого отдельного столбика в долях единицы соответствует вероятности отдельных классов значений порозности. Так, для класса в границах от 32,5 до 33,5% площадь столбика на гистограмме (рис. 3.1, а) составляет 0,079 от общей площади столбчатой диаграммы, что соответствует вероятности этого класса значений. При уменьшении классового промежутка на месте каждого исходного столбика на гистограмме появляются более узкие столбики, суммарная площадь которых должна быть равна площади исходного столбика (рис. 3.1, б), а суммарная площадь всех столбиков - оставаться равной единице.
58 Глава 3 31 32 33 34 35 36 37 38 39 Рис. 3.1. Изменение общего вида гистограммы, когда ширина класса с->0, а выражением вероятности является площадь (заштрихованная на рисунке площадь соответствует вероятности значениям порозности отдельных агрегатов оказаться в интервале от 32,5% до 33,5%) Для непрерывных случайных величин ширину класса можно уменьшить до сколь угодно малых значений, и при этом общий вид гистограммы делается все менее угловатым. В пределе при с->0 гистограмма оказывается ограниченной сверху некоторой плавной линией, получившей название кривой распределения ( рис. 3.1, в). 3.6. Плотность вероятности. Интеграл вероятности Площадь, заключенная между кривой распределения и осью абсцисс, должна быть равна площади исходной гистограммы, а площадь любого
Вероятность. Параметры распределений 59 столбика исходной гистограммы - площади, ограниченной соответствующими отрезками оси абсцисс, ординат и кривой (заштрихованные участки на рис. 3.1, а, б, в). Для каждого достаточно узкого столбика гистограммы вероятность АР можно представить как произведение ширины основания Ах на высоту столбика, а это означает, что на оси ординат откладывается величина —. Ах гт а л ЛР dp ^ При Ах—»0 отношение стремится к — в точке х. Эта производная Ах dx получила название плотности вероятности и в дальнейшем ее будем обозначать ю(х). Следовательно, плотность вероятности ах есть ордината кривой распределения в точке х, а кривую распределения можно рассматривать как график плотности вероятности. Таким образом, кривая распределения является графическим выражением закона распределения непрерывной случайной величины. Для любого заданного интервала значений от jci до х2, лежащего в пределах возможной для случайной величины области значений, вероятность Р(х\ <х <х^> выражением которой является соответствующая площадь под кривой распределения, ограниченная ординатами в точках Xj и х2, можно найти с помощью интегрирования: х2 Р(хх < х < х2) = J co(x)dx. (3.5) Здесь J co(x)dx - знак интегрирования, показывающий, что для нахо- *i ждения искомой площади требуется просуммировать на отрезке от xi до х2 все произведения (o(x)dx. Очевидно, что если случайная величина задана в конечной области значений от а до 6, то ь ffi>(jc)dx = l, а т.е. вся площадь под кривой распределения равна 1. Если случайная величина может принимать значения от - оо до +оо, то соответственно получим J 6)(x)dx = l.
60 Глава 3 Поскольку рассматриваемый интеграл характеризует вероятность того, что случайная величина примет значения в пределах некоторого заданного интервала, он получил название интеграла вероятности и в дальнейшем будем обозначать его ср(х). Таким образом, <р(хх,х2) = <р(х2 )-<р(х})=1 (o{x)dx. (3.6) Закон распределения непрерывных случайных величин может быть описан в форме зависимости со или ф от х. Подчеркивая различия между дискретными и непрерывными случайными величинами, отметим, что часто непрерывные случайные величины можно условно рассматривать как дискретные, а в некоторых случаях пренебрегать дискретностью величин и привлекать для описания их законов распределения методы, разработанные для непрерывных величин. 3.7. Константы и параметры распределения Случайные величины можно охарактеризовать некоторыми постоянными величинами, константами. В подавляющем большинстве случаев исследователи ставят опыты в целях изучения этих констант, нахождения среди наблюдаемой вариации общего, постоянного. Нередко любые константы, характеризующие случайную величину, называют параметрами. Столь широкое толкование термина "параметр" нельзя признать оправданным. В дальнейшем под параметрами будем понимать лишь те константы, которые входят в выражение закона распределения случайной величины. Число параметров зависит от закона распределения. Среди констант чаще всего рассматриваются такие, которые характеризуют средний уровень случайной величины ("средний" - в широком смысле слова). К этой группе могут быть отнесены мода и медиана (это так называемые непараметрические средние)1, а также среднее арифметическое, среднее геометрическое, среднее квадратическое и др. Вторая группа констант отражает степень вариабельности, изменчивости случайной величины. Сюда относятся дисперсия, стандартное отклонение, коэффициент вариации и некоторые другие показатели. Можно назвать и ряд других констант, с которыми приходится иметь дело в связи со статистическим анализом экспериментальных данных, таких как коэффициенты асимметрии и эксцесса, коэффициент корреляции и другие, но с ними более подробно мы познакомимся несколько позже. Следует отметить, что константы вообще и параметры в частности отно- 1 Заметим, что отнесение моды и медианы к средним не является общепринятым.
Вероятность. Параметры распределений 61 сятся к генеральным совокупностям и не могут быть найдены по выборочным данным. Константы - это генеральные показатели. 3.8. Мода Одной из констант, характеризующих средний уровень случайной величины, является мода Мо. Мода - это наиболее часто встречающееся значение случайной величины. Для признаков, измеренных на именной или порядковой шкале, мода представляет собой тот класс, которому соответствует наибольшая вероятность. Так, модой является кварц, если в генеральной совокупности зерен некоторой фракции гранулометрического состава на кварц приходится вероятность Р = 0,71, а следовательно, любому другому минералу может соответствовать заведомо меньшая вероятность. Для дискретных количественных признаков модой служит то значение случайной величины, которому соответствует наибольшая вероятность. Рассмотрим, например, ряд распределения вероятностей Pj по числу Xj импульсов а-излучения за одну минуту: х1 гj 0 0,333 1 0,366 2 0,201 3 0,074 4 0,020 5 0,005 ■ 6 0,001 Здесь модой является Мо = 1 импульс/мин. Для непрерывных случайных величин мода представляет собой то значение, которому соответствует наибольшая плотность вероятности, т.е. наибольшая ордината на кривой плотности распределения. Иными словами, модальному значению непрерывной случайной величины соответствует вершина кривой распределения1. [0,0 1,0 2,0 3,0 4,0 5,0 6,0 Х\ Рис. 3.2. Кривая распределения содержания гумуса с Мо = 4,12% Существуют распределения, для которых нельзя указать моду.
62 Глава 3 Так, на кривой распределения содержания гумуса (рис. 3.2) ее вершине соответствует содержание гумуса, равное 4,12%, которое и является модой. Мода как показатель среднего значения признака используется сравнительно редко, однако иногда указание модальной величины оказывается очень полезным. Например, указание модального возраста растений, при котором они более всего отзывчивы на то или иное воздействие (внесение подкормок, рыхление, поливы), позволяет более разумно подходить к планированию различных мероприятий. В ряде случаев модальная величина содержания элементов питания в почве может сказать гораздо больше, нежели их среднее арифметическое содержание. Так, на слабоокультуренных почвах при неравномерном внесении удобрений в небольшом числе отобранных образцов может обнаруживаться большая концентрация элементов питания, что сместит среднее арифметическое содержание этих элементов для изучаемого объекта (поля, опытного участка) в сторону больших концентраций. В то же время модальная величина содержания этих элементов будет характеризовать наиболее распространенные, фоновые концентрации, которые могут быть очень невелики как по абсолютным значениям, так и сравнительно с соответствующими средними арифметическими. Знание модальных величин содержания элементов питания может способствовать более разумному планированию мероприятий по удобрению почв. Кривые распределения изучаемых случайных величин могут иметь две и более вершины. Аналогичная В таких случаях принято говорить о двумо- дальности или полимодальности. При этом моды могут быть (и чаще всего бывают) неравноценными, т.е. соответствующие этим модам вероятности (плотности вероятностей) не являются равными. Однако сам по себе факт полимодальности представляет интерес и свидетельствует о том, что в рамках заданных общих условий проведения испытаний имеются какие-то факторы, обусловливающие предпочтительное появление значений случайной величины в нескольких разных интервалах. Выявление причин полимодальности обычно помогает глубже проникнуть в суть изучаемого явления. Мода может быть указана при измерениях, выполненных на любой шкале, причем если изучаемый признак является количественным, то мода выражается именованным числом, имеющим размерность соответствующей случайной величины. 3,9. Медиана Для случайных величин, значения которых могут быть ранжированы, в качестве среднего иногда рассматривают медиану. Так как значения, большие и меньшие медианы, равновероятны, то на графике распределения плотности вероятности медиане соответствует ордината, которая делит площадь под кривой распределения на две равные части.
Вероятность. Параметры распределений 63 1 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 *| Рис. 3.3. Кривая распределения плотности почвы с Med = 1,21 г/см3 Например, на графике распределения плотности вероятности для плотности почвы (рис. 3.3) Med =1,21 г/см3. Для дискретных признаков более правильно утверждение, что в одной половине ранжированного ряда все значения случайных величин должны быть меньше или равны медиане, а в другой - больше или равны ей. Появление слов "или равны" связано с тем, что в ранжированной последовательности значений дискретной случайной величины середина такой последовательности обычно приходится на дискретное значение, которое повторяется многократно. В примере, где приведено распределение импульсов а-излучения, середина ранжированного ряда приходится на 1 импульс/мин. При этом по одну сторону от медианы находятся значения 0 (на них приходится 0,333 от общей длины ранжированной последовательности) и некоторая часть значений 1 (на них приходится 0,167 длины последовательности, так что 0,333 + 0,167 = 0,5, а это означает серединное положение медианы). По другую сторону от медианы находятся значения: 6, 5, 4, 3, 2 (в сумме составляющие 0,301 общей длины последовательности) и остальная часть значений 1 (на нее приходится 0,199 общей длины последовательности, причем в сумме 0,199 + + 0,301 = 0,5). Таким образом, здесь Med = 1 импульс/мин. Справочники Айвазян С.А., Енюков И.С, Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М., 1983. Айвазян С.А., Енюков И.С, Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М., 1985. Благовещенский Ю.Н., Самсонова В.П., Дмитриев Е.А. Непараметрические методы в почвенных исследованиях. М., 1987. Дмитриев Е.А. Использование статистических методов при проведении режимных наблюдений. В кн.: Принципы организации и методы стационарного изучения почв. М., 1976.
64 Глава 3 Зайцев Г.Н. Математическая статистика в экспериментальной ботанике. М, 1984. Мостселлер Ф., Тьюки Дж. Анализ данных и регрессия. М., 1982. Чертко Н.К. Математические методы в физической географии. Минск, 1987. Большее Л.Н., Смирнов Н.В. Таблицы математической статистики. М., 1983. 3.10. Среднее арифметическое Среди констант, характеризующих средний уровень случайной величины, особое место занимает среднее арифметическое (или просто среднее), обычно являющееся одним их параметров распределения. Как всякая константа распределения, среднее характеризует генеральную совокупность значений случайной величины, что нередко подчеркивается употреблением названия генеральное среднее (или теоретическое среднее), если имеется опасение спутать среднее с его выборочной оценкой, о которой речь пойдет ниже. Если в генеральной совокупности отдельные значения могут повторяться, то при вычислении среднего эти значения берут соответствующее число раз (или пропорционально их встречаемости, их математическому весу, их вероятности), и в этом смысле среднее является средним взвешенным. Следовательно, среднее арифметическое есть не что иное, как математическое ожидание соответствующей случайной величины. Обозначая среднее случайной величины X как ц* (индекс у ц можно опускать, если без пояснений понятно, о какой случайной величине идет речь), получим » = Е(х). (3.7) Для дискретной случайной величины, принимающей т различных значений с вероятностями Pj (j = l,2,...,m), среднее можно вычислить по формуле 7=1 где вероятности Pj, выраженные в долях единицы, представляют собой математические весау-х значений случайной величины X. Так, если в объеме 100 см3 данного горизонта почвы (или объекта исследования с заданными пространственными границами) число ортштей- нов крупнее 3 мм может быть равным 0, 1, 2, 3 или 4 соответственно с вероятностями 0,750, 0,200, 0,040, 0,008 и 0,002, то среднее число ортштей- нов в объеме 100 см3 составит |и = 0,750 • 0 + 0,200 • 1 + 0,040 • 2 + 0,008 • 3 + 0,002 • 4 = 0,312.
Вероятность. Параметры распределений 65 Для непрерывной случайной величины X, принимающей значения в промежутке от а до Ь {a < b), среднее находится с помощью интегрирования: ь ь ц = jxdP = $xa)(x)dx, (3.9) а а где со(х) - плотность вероятности случайной величины X. Очевидно, что для вычисления среднего по приведенным формулам нужно знать закон распределения случайной величины. Среднее арифметическое, определяемое всеми значениями случайной величины и их вероятностями, является как бы центром тяжести статистической совокупности, и поэтому среднее нередко называют центром распределения. 3.11. Свойства среднего Среднее арифметическое является размерной величиной и имеет ту же размерность, что и характеризуемая им случайная величина. В то же время среднее есть абстрактная величина, что наиболее ярко проявляется в тех случаях, когда значение, численно равное среднему, реально не может существовать. Так, лишено конкретного смысла среднее число колоний на чашку Петри, равное 3,7, так как число колоний реально не может быть дробным. Для признаков, измеряемых по шкале отношений, среднее арифметическое всегда положительно, чего нельзя сказать о средних для признаков, измеренных на интервальной шкале. Например, среднее содержание крем- некислоты в почве всегда положительно, но окислительно-восстановительный потенциал в среднем может быть и отрицательной величиной. Поскольку среднее выступает как центр распределения, разность между отдельными значениями случайной величины X и соответствующим средним |i (среднее всегда является вычитаемым) называется центральным отклонением. Очевидно, что центральные отклонения могут быть как положительными, так и отрицательными, сохраняя размерность соответствующей случайной величины. Учитывая свойства математических ожиданий (см. § 1.9), легко убедиться, что среднее в генеральной совокупности центральных отклонений равно нулю (как и сумма центральных отклонений в статистической совокупности): Е(х - ц) = Е(х) -ц = \х - |д = 0, т.е. для дискретных величин: y£Pj(xJ-M) = 0; (3.10) для непрерывных случайных величин, принимающих значения в интервале от а до Ь:
66 Глава 3 J(jc-//)*>(*)<& = 0. (3.11) а Так как среднее есть математическое ожидание, то, используя свойства математического ожидания, можно установить, что: есляу=х + а9тору = /^ + а; (3.12) если у = ах,то/Лу = ajUx,- (3.13) если j/ = х + z, то /л? = /^ + /4- (3.14) Здесь а - постоянная величина, а х, у, z - значения случайных величин^ XZ. Если у = xz и случайные величины Хи Z взаимно независимы1, то Vy^VxMz. (3.15) Если >> не является линейной функцией случайной величины X, то среднее \\у не может быть выражено через ц*. Например, если у то 3.12. Дисперсия В качестве параметра, характеризующего вариацию значений случайной величины, наиболее часто используется дисперсия. Дисперсия величины X в статистике нередко обозначается D(x) или Var^, а чаще всего сг2. Если следует уточнить, какую случайную величину характеризует дисперсия, 2 ее обозначение может содержать соответствующий индекс, например, <тх . Математически дисперсия есть среднее квадратов отклонений от среднего, т.е. среднее квадратов центральных отклонений. Иначе говоря, дисперсия случайной величины Хесть математическое ожидание квадрата отклонения случайной величины от своего среднего: a2 = E[(x-ii)2l (3.16) Дисперсия не может быть отрицательной. Дисперсия постоянная именованная величина, имеющая размерность, равную квадрату размерности соответствующей случайной величины. Из выражения (3.16), учитывая свойства математического ожидания (см. § 1.9), следует, что дисперсия случайной величины равна разности между математическим ожиданием квадрата случайной величины и квадратом ее математического ожидания: а2 = Efx2) - 2\\Е(х) + ц2 = Е(х2) - ц2 = Е(х2) - [E(x)f. (3.17) Требование независимости достаточно, но не является необходимым.
Вероятность. Параметры распределений 67 Очевидно, что численное значение дисперсии будет тем больше, чем большие значения могут иметь центральные отклонения, т.е. чем значительней колеблются отдельные значения случайной величины около среднего. Наоборот, чем меньше интервал возможных колебаний случайной величины, тем меньше будет дисперсия. Дисперсия постоянной величины равна нулю: D(a) = 0. Для дискретных случайных величин дисперсия представляет собой сумму произведений квадратов отклонений у-го значения величины X от среднего и. на вероятность Pj (в долях единицы) соответствующего значения: J Для непрерывных случайных величин, принимающих значение в интервале от а до Ъ (a < b), дисперсия представляет собой интеграл: ъ а1 = j(x-{i)2G>(x)dx, (3.19) а где ы(х) - плотность вероятности случайной величины. Квадратный корень из дисперсии в статистике получил название среднего квадратического отклонения. Не менее часто это отклонение называют стандартным (или просто стандартом). Почти общепринятым является обозначение стандартного отклонения буквой a: <j = ^D{x) (в силу чего стандарт иногда называют сигмой). Стандартное отклонение есть постоянная величина, условно считающаяся положительной. Среднее квадратичсское отклонение -величина именованная, имеющая размерность случайной величины. Чаще всего именно стандарт, а не дисперсия, используется в прикладных исследованиях в качестве меры вариабельности изучаемой случайной величины. Используя свойства математического ожидания из § 1.9, можно показать, что дисперсия не изменится, если все значения случайной величины X уменьшить или увеличить на постоянную величину а, т.е. если у = х + а (или у = х - а), то °2У=°1 и су = °х- (3.20) Если все значения случайной величины X умножить на постоянное число а, то дисперсия увеличится в а2раз, а стандарт -в\а\ раз, т.е. если у = ах, то а2у=а2а2х и оу = \а\ах. (3.21)
68 Глава 3 Для независимых случайных величин дисперсия их суммы, как и дисперсия разности, равна сумме дисперсий случайных величин, т.е. если у = = х + z шту = х -z, то при условии независимости х и z <г2у=сг2х+а22. (3.22) Заметим, что это утверждение справедливо только для дисперсий, и здесь стандарт функций равен не сумме стандартов случайных величин, а квадратному корню из суммы дисперсий: 3.13. Стандартизованное отклонение, коэффициент вариации Среднее квадратическое отклонение, характеризуя степень неодинаковости значений случайной величины, часто выступает в качестве меры вариабельности, в качестве единицы измерения отклонений отдельных значений случайной величины от среднего. Как уже было отмечено, разность между j'-m значением случайной величины X и ее средним ц. есть центральное отклонение, характеризующее отличие от среднего в единицах размерности случайной величины. Центральное отклонение, выраженное числом стандартных отклонений, получило название стандартизованного (нормированного) отклонения. Обозначая стандартизованное отклонение щ для /-го значения случайной величины X, получим «,=ЗС£. (3.24) С Так как для данной случайной величины ц и а постоянные, то и есть линейная функция от X, а следовательно, вид закона распределения при переходе от случайной величины X к величине U не меняется. При этом каждому значению xt соответствует вполне определенное и единственное значение щ. В отличие от центрального отклонения стандартизованное отклонение безразмерно, что оказывается очень удобным. Как и центральные отклонения, стандартизованные отклонения имеют среднее, равное нулю: Е(и) =/!* = <>. Однако в отличие от центральных отклонений эти отклонения имеют дисперсию (и стандарт соответственно) равную единице: <ти = 1.
Вероятность. Параметры распределений 69 В подобных случаях говорят, что случайная величина имеет параметры ноль и единица (ц = 0; ст2 = 1). Именно такой случайной величиной и является стандартизованное отклонение. Отмеченные особенности стандартизованных отклонений имеют огромное значение, так как позволяют законы распределения одного вида, имеющие разные средние и дисперсии, свести к одному закону с параметрами ноль и единица, и наоборот, от одного этого закона перейти к любому конкретному с параметрами цх и <гх , если заменить случайную величину U случайной величиной X согласно выражению, полученному из формулы (3.24): х = и* + иох. (3.25) Как мера варьирования, стандартное отклонение не всегда оказывается удобным, в частности при необходимости сравнения вариабельности случайных величин. В связи с этим широкое распространение получила безразмерная величина отношения стандарта к среднему, обычно выраженная в процентах, получившая название коэффициента вариации: Г = —100%. (3.26) М Как мера относительного варьирования, эта константа представляет интерес и в тех случаях, когда а увеличивается пропорционально \х так, что V сравнительно мало зависит от среднего. Заметим, что коэффициент вариации допустимо использовать для характеристики вариабельности лишь тех случайных величин, которые принципиально не могут приобретать отрицательных значений. 3.14. Моменты В качестве констант, характеризующих случайную величину, можно использовать математические ожидания целых степеней случайной величины. Такие константы общего вида Rk) = E(xk) (3.27) получили название начальных моментов k-й степени. Очевидно, что среднее арифметическое является начальным моментом первой степени: M<i) = Е(х) = ц. При k = 2, т.е. когда все значения х возводятся в квадрат, начальный момент представляет собой среднее значение квадрата случайной величины: /ji2) = E(x2). Аналогично можно найти начальные моменты третьего, четвертого и других более высоких порядков, хотя эти последние обычно практического интереса уже не представляют.
70 Глава 3 В к-ю степень можно возводить не сами значения случайной величины X, а их центральные отклонения х -\i. Математическое ожидание центральных отклонений k-YL степени называется центральным моментом к-й степени. Обозначая его ///an , запишем iw =£[(*-//)*]. (3.28) Центральный момент первой степени равен нулю, поскольку равна нулю сумма отклонений от среднего (формулы (3.10) и (3.11)). Центральный момент второй степени, как это следует из сопоставления формул (3.16) и (3.27) при к = 2, представляет собой дисперсию: М{2)=*2. (3.29) Из центральных моментов наряду с дисперсией обычно заслуживают о о внимания также моменты третьей и четвертой степеней //(3) и //(4). Между начальным и центральным моментами существует определенная связь. В частном случае при к = 2 она находит отражение в формуле (3.17). Эти зависимости при А: от 1 до 4 выглядят следующим образом: о о 3 ^(3) = ^(3) ~3//(2) 'И{\) +2//(1); У"(4) = /*(4) -4>"(3) •/*(!) +6//(2) -//j) -3//(41}. (3.30) Как начальные, так и центральные моменты имеют размерность к-й степени соответствующей случайной величины. Моменты могут представлять интерес не только сами по себе как константы распределения, но и использоваться для вычисления некоторых других показателей. Наиболее важными из них являются коэффициенты асимметрии и эксцесса. Коэффициент асимметрии, как показывает его название, характеризует степень асимметричности распределения относительно среднего. Математически он представляет собой отношение среднего куба центральных отклонений к кубу стандартного отклонения: о о а = —^= = ^f-. (3.31) £ ' М{2)У1М{2)
Вероятность. Параметры распределений 71 Коэффициент асимметрии - величина безразмерная, могущая принимать значения от -оо до +оо. В случае симметричных распределений 1^з) = 0 и а = 0. Для распределений, имеющих крутую левую ветвь и полого падающую правую ветвь, а > 0 и асимметрия называется положительной. Если сравнительно с правой ветвью распределения левая более полога, то а < 0 и асимметрия отрицательна. Такая асимметрия встречается реже. Коэффициент эксцесса характеризует выпуклость или "придавленность" кривой распределения. В его основе лежит отношение среднего значения четвертой степени центральных отклонений (т.е. центрального момента четвертой степени) к четвертой степени стандарта, т.е. к квадрату центрального момента второй степени), которое, будучи уменьшенным на 3, и дает коэффициент эксцесса: , = М_з = М_3. (3.32) С Коэффициент эксцесса также есть величина безразмерная, которая может принимать значения, как меньшие нуля (эксцесс отрицателен, кривая распределения "придавлена" или даже двувершинна), так и большие нуля (эксцесс положителен). Причины, по которым для получения коэффициента эксцесса, упомянутое выше отношение следует уменьшать на 3, будут установлены ниже при рассмотрении закона нормального распределения. Не существует общепринятых градаций того, какие значения а и е считать большими, а какие малыми. Однако распределения при |а| < 0,5 можно условно отнести к слабоасимметричным, при 0,5 < |а| < 1,0 -к среднеасимметричным, а при |а| > 1,0 - к сильноасимметричным. Положительную эксцессивность допустимо рассматривать как слабую при е < 1, как среднюю при 1 < е < 5 и как сильную при е > 5. 3.15. Среднее и дисперсия в совокупности альтернативных признаков Характеризуя состояние пахотных земель в области, нередко говорят, например, что в среднем половина земель требует известкования. Ясно, что "в среднем" не означает, что в каждом хозяйстве потребность в известковании одинакова. Если в лесном биогеоценозе на ель приходится в среднем 75%, то оправдано было бы полагать, что в любой выборке три четверти деревьев окажутся елью. Очевидно, что и половина, и 75% (три четверти) действительно имеют смысл какого-то среднего. Этим средним является доля.
72 Глава 3 В генеральной совокупности альтернативных признаков доля представляет собой отношение числа событий, обладающих некоторым признаком, к общему числу событий и, будучи по смыслу вероятностью соответствующего события, обозначается, как и вероятность, через Р. Доля альтернативных событий (отсутствие признака) обозначается Q. Следовательно, Q есть вероятность отсутствия признака. Доли Р и Q могут быть выражены либо в долях единицы (откуда они и получили свое название) и тогда Р + Q- 1, либо в процентах, и тогда их сумма равна 100%. То, что доля относится к категории средних, можно показать с помощью формулы (3.8), учитывая, что единичное испытание есть оценка принадлежности элемента опробования к классу, обладающему каким-то признаком (*i = 1), или к классу, в котором этот признак отсутствует (х2 = 0). Если первому классу соответствует вероятность Р, а второму - вероятность Q, то ц = Р1+е-0=Р. (3.33) Это значение показывает среднее число благоприятных событий (с наличием признака) на одно испытание, когда элементом опробования является единичный дискретный компонент физической совокупности (например, агрегат некоторой крупности, характеризуемый водопрочностыо), или когда элемент опробования принадлежит континуальному объекту (например, некоторому горизонту, и характеризуется наличием в образце белоглазки). Согласно формуле (3.18), учитывая, что ц = Р, 1 -Р = QnP + Q = l, найдем выражение для дисперсии: c1 = PQ=P(l-P). (3.34) Таким образом, в совокупности альтернативных признаков среднее и дисперсия определяются одной величиной доли Р. В силу того, что когда Р и Q выражены в долях единицы, сумма Р + Q равна единице, дисперсия в совокупности альтернативных признаков имеет важную особенность: она не может быть больше, чем 0,25 и достигает максимума при условии равенства долей, т.е. при Р = Q = 0,5. Соответственно величина стандартного отклонения в подобных совокупностях не может быть больше, чем 0,5. Как уменьшение, так и увеличение Р относительно значения Р = 0,5 приводит к уменьшению дисперсии и стандартного отклонения. Чтобы понять, в чем же проявляется максимальность стандартного отклонения при близости долей к значению 0,5, рассмотрим пример. Допустим, что имеется совокупность агрегатов некоторого размера. Каждый агрегат может быть либо водопрочным, либо неводопрочным, причем доля водопрочных агрегатов равна Р. Неоднородность будет проявляться в том, насколько различными будут получаться результаты испытаний на водопрочность в последовательности случайно отбираемых на анализ агрегатов. Если в такой последовательности будут перемежаться как водо-
Вероятность. Параметры распределений 73 прочные, так и неводопрочные агрегаты, то неоднородность будет большой. Существенно меньшей неоднородность результатов испытаний окажется в том случае, когда длинные последовательности из водопрочных агрегатов изредка будут прерываться попаданием неводопрочных, или наоборот. Однако эти последние случаи соответствуют либо большим значениям доли Р, либо, наоборот, малым значениям; а наибольшая пестрота в результатах обнаружится при близости долей Р и Q к 0,5. Именно это и отражает зависимость стандартного отклонения от величины Р: если при Р = 0,5 имеем а = 0,5и при Р = 0,3 (или Р = 0,7) а = 0,46, то при Р = 0,1 (или Р = 0,9), получим а = 0,30, а при Р = 0,01 (или Р = 0,99) а = 0,10. Тот факт, что стандартное отклонение в совокупности альтернативных признаков ограничено сверху, возможный максимум этой величины известен, а значение стандартного отклонения сравнительно мало меняется в достаточно широком интервале значений доли (это видно из приведенных выше данных), позволяет достаточно надежно планировать число испытаний (объем выборок) при определении долей. Вопросы для самоконтроля 1. Что такое статистическая устойчивость? 2. Что такое вероятность и мерой чего она является? 3. Какие события называются невозможными и какие достоверными? 4. Могут ли независимые события быть несовместимыми? 5. Какие события называются пересекающимися? 6. Что такое кривая распределения и что она показывает? 7. Можно ли в принципе указать вероятность того, что содержание гумуса в почве равно 2,63%, и если можно, то что эта вероятность показывает? 8. Что такое плотность вероятности и интеграл вероятности? 9. Какими константами можно охарактеризовать средний уровень случайной величины? 10. Что следует из того, что для некоторой совокупности медиана меньше среднего? 11. Что называется математическим ожиданием случайной величины?
Глава 4 ЗАКОНЫ РАСПРЕДЕЛЕНИЯ 4.1. Закон нормального распределения Естествоиспытателям приходится иметь дело с бесчисленным множеством случайных величин, в чем-то отличных друг от друга и, следовательно, подчиняющихся в чем-то разным законам распределения. Однако среди этого множества законов распределений можно выделить небольшое число хорошо изученных законов, к которым с большим или меньшим приближением удается свести значительную часть реально встречающихся распределений. Среди таких законов наибольшую известность и значение, несомненно, имеет закон нормального распределения. Нормально распределенная величина - непрерывная переменная, которая может принимать значения от -оо до +оо. Подобное распределение обычно имеет место в тех случаях, когда варьирование признака в рамках общих условий, определяющих испытание, вызывается большим числом взаимно независимых факторов, доля участия каждого из которых в создании общей вариабельности признака очень невелика. При этом каждое из получаемых значений оказывается результатом случайного сочетания различных по величине и направлению воздействий на этот признак всей совокупности факторов, составляющих второстепенные, не контролируемые условия испытаний. Очевидно, что ситуации, в которых все факторы действуют на признак в одном направлении, увеличивая или уменьшая его значение, наименее вероятны, в силу чего наименьшие значения признака встречаются весьма редко. Гораздо более вероятным случаем является такой, когда одни факторы ведут к возрастанию значений переменной, другие же к их уменьшению, вследствие чего встречаемость значений признака, занимающих срединное положение в вариационном ряде, оказывается наибольшей. Получающийся в результате этого вид распределения столь часто встречается при исследовании различных явлений, что его первоначально принимали за норму распределения случайных величин, и потому это распределение и получило название нормального. В почвоведении нормальный закон обычно не-
Законы распределения 75 плохо аппроксимирует распределения плотности почвы, общей пороз- ности и влажности, содержания макроэлементов и гумуса, рН, мощности горизонтов, а также распределение ошибок многих анализов. Математически закон нормального распределения можно выразить формулой Гаусса-Лапласа: a,ix) = -J—e-^2°\ (4.1) где <й(х) - плотность вероятности нормального распределения случайной величины X, имеющей среднее \х и дисперсию а2, е = 2,718... - основание натуральных логарифмов и к = 3,14.... Закон нормального распределения содержит два параметра: среднее и дисперсию. В наиболее простом случае, когда величина X имеет параметры \х = 0 и о2 = 1 (обозначим такую величину через 2) формула (4.1) примет вид: o){z) = -^=e~z2l2. (4.2) >/2/г Как следует из приведенных формул, основные особенности нормального распределения связаны с тем, что показатель степени второго сомножителя отрицателен, а отклонение переменной от среднего возводится в квадрат. Максимальное значение плотности вероятности достигается при значениях переменной, равной среднему (х = ц), а равным отклонениям от среднего в большую или меньшую сторону соответствуют одинаковые плотности вероятности. В связи с этим нормальное распределение симметрично относительно плотности вероятности, соответствующей среднему, в то же время являющемуся и модой, и медианой распределения. Иначе говоря, при нормальном распределении имеет место равенство ju = Mo = Med. Из симметричности нормального распределения следует, что централь- о ный момент третьей степени jut3\ = О и коэффициент асимметрии а = 0. Для нормального распределения центральный момент четвертой степени в три раза превышает квадрат дисперсии: ° 2 4 //(4)=3//2 =3<Т • Поскольку нормальный закон распределения в некотором смысле считается эталонным, лежащим в основе обширного комплекса различных статистических методов и критериев, целесообразно в качестве характеризующих это распределение безразмерных констант взять "удобные", слу-
76 Глава 4 жащие некоторыми "точками отсчета". В силу этого за коэффициент эксцесса е взято отношение /ли\1о- , уменьшенное на 3 (см. формулу (3.32)). При этом для нормального распределения е = 0. Воспользовавшись формулой (4.2), легко установить, что для значений z равных, например, 0, 1, 2, 3 и 4, плотности вероятности соответственно равны (с точностью до 0,0001) 0,3989, 0,2420, 0,0540, 0,0044 и 0,0001, что является хорошей иллюстрацией быстроты уменьшения co(z) с ростом абсолютного значения z. Графически эта зависимость представлена на рис. 4.1. График нормального распределения имеет вид одновершинной симметричной кривой, обе ветви которой уходят в бесконечность, асимптотически приближаясь к оси абсцисс. Заметим, что на кривой распределения точки перехода от выпуклости к вогнутости, симметрично расположенные относительно вершины, соответствуют значениям -1 и +1. Среди конкретных случайных величин X практически невозможно найти такую, у которой среднее и дисперсия в точности были бы равны соответственно нулю и единице. Тем не менее нормально распределенная величина Z с параметрами ноль и единица (ц = 0, а2 = 1) заслуживает особого внимания, поскольку к распределению с такими параметрами можно свести любое нормальное распределение, если значения х заменить их стандартизованными отклонениями. Действительно, как мы уже отмечали, отклонения и = имеют параметры ц„ = 0 и аи = 1, а так как и есть а линейная функция от дс, то вид закона распределения при замене х на и не меняется. Если х была распределена нормально, то и и должна быть распределена по такому же закону с параметрами 0 и 1, т.е. как z. -3 1 Л20 -2 ■ 2,88 -1 i 3,56 —i 0 ■ 4Д4 1 1 1 4,92 1 2 i |ix+2ox 5,60 П z Н^Зо** 6^28 Хг\ Рис. 4.1. Кривая нормального распределения (случайные величины имеют параметры: z: \iz = 0 и oz = 1; х: цх и ах; содержание гумуса хг: и = 4,24 и <т = 0,68)
Законы распределения 77 От распределения случайной величины с параметрами 0 и 1 легко перейти к распределению конкретной случайной величины с параметрами ц и о2. Если распределения и и z одинаковы, то заменяя и на z, где z = —, получим or X = Ц + ZQ, (4.3) откуда можно найти значения ху соответствующие заданному значению z. Так, z = 0 отвечает значение х = ц; z = 1 - значение jc = ц + ст; z = -1,3 - значение х = \х. — 1,3а и т.д. Предположим, что содержание гумуса в верхнем 20-сантиметровом слое выщелоченного тяжелосуглинистого чернозема подчиняется закону нормального распределения с параметрами \х = 4,24% и <т = 0,68%. Тогда, согласно формуле (4.3) z = 0 будет соответствовать значение х = 4,24% ; z = 1 - значение х = 4,92% ; z = 2 - значение х = 5,60% ; z = -1 - значение jc = 3,56% и т.д., а графически распределение содержания гумуса можно представить уже известной нам кривой распределения (см. рис. 4.1), где на оси абсцисс отложена соответствующая шкала содержания гумуса (шкала xj). 4.2. Интеграл вероятности нормального распределения Учитывая симметрию кривой нормального распределения, можно заключить, что при этом распределении вероятности значений, превышающих среднее и меньших него, одинаковы и равны 0,5. Поскольку графически выражением вероятности служит площадь под кривой распределения, это проявляется в равенстве площадей под кривой справа и слева от наибольшей ординаты, соответствующей значению ц. Вероятность того, что нормально распределенная случайная величина X с параметрами ц и а2 примет значение в интервале от х\ до х2 (х\ < х2)9 можно найти графически как долю площади под кривой распределения в соответствующем интервале значений х от общей площади под кривой распределения. Однако более точно это можно сделать, вычислив интеграл вероятности, который для нормального закона имеет вид алЦк ; Л] Предпочтительнее находить интеграл вероятности не вычислением по формуле (4.4), а с помощью заранее составленных таблиц. Поскольку всегда имеется простая возможность от распределения конкретной
78 Глава 4 величины X перейти к распределению величины Z с параметрами 0 и 1, и наоборот, таблицы составлены для стандартного нормального распределения. Существует несколько подходов к табулированию интегралов вероятности нормального распределения. Наиболее часто в таблицу помещают значение <p(z) для интервалов значений переменной от 0 до z или от —z до z. В табл. Е Приложения приведены интегралы вероятности нормального распределения в интервале от -оо до z: F(z) = -pL f e~z2l2dz. (4.5) Функция распределения F(z), как следует из формулы (4.5), показывает долю, которая приходится на значения переменных, меньших z, от общего объема совокупности. Так, из табл. I можно установить, что значениям z < -2,00 соответствует F(z) = 0,02275, т.е. при нормальном распределении с параметрами ц = 0 и с^=1 вероятность встретить значение, меньше -2,00, равна 0,02275, или иначе говоря, на такие значения приходится 2,275% от всех возможных значений z. Из той же таблицы следует, что P(z < -0,69) = 0,24510, т.е. примерно четверть всех значений не превосходит -0,69, а для Р = 99,010% значения z не будут больше, чем 2,33. Так как Р(-оо < z < +оо) = 1, то, зная F(z}) = P(z < Z])9 нетрудно найти вероятность P(z\ < z): P(z1<z)=l-F(z1). (4.6) Пусть, например, zx =1,30; тогда F(zj) = 0,90320, т.е. P(z<l,30) = = 0,90320, откуда P(z > 1,30) = 1 - F{zx) = 1-0,90320 = 0,09680 и, следовательно, значения, большие чем z = 1,30? в нормально распределенной совокупности встречаются в 9,680% случаев. Зная функцию распределения для значений Z\ и z2 (zx < z2), легко найти вероятность того, что случайная величина примет значение в интервале otz! дог2: P(ZJ <z<Z2)= F(zJ -F(Zl). (4.7) Так, для zi = -l,75 и z2=0,38 значения F(z) соответственно равны 0,04006 и 0,64803; поэтому вероятность того, что случайно полученное значение z будет находиться в интервале от -1,75 до 0,38, равна 0,64803 -0,04006 = 0,60797. В этом случае искомая вероятность графически представляет собой разность между площадями под кривой распределения, ограниченной справа ординатами, соответствующими значениям zx и z2 (рис. 4.2).
Законы распределения 79 Рис.4.2. Графическое выражение вероятности P{z\ <z<z2) как разности интегралов F{z$ -Ffa) (площади, соответствующие F(z) заштрихованы вертикально для z-i = -1,75 и горизонтально для z2 = 0,38) Если z\ и z2 имеют одинаковую абсолютную величину и отличаются только знаками (z\ <z2, \z\\ = \z2\), то в силу симметрии нормального распределения имеем F(zj) = 1 -F(z2)=P(z<zI)=P(z>z2)> а вероятность того, что случайная величина примет значение в интервале от z\ до z2, составит P(z, <z<z2) = F(Z2) -F(Zl) = 1 -2F(zj). (4.8) Найдем, например, вероятность того, что z примет значение от zx = -2,00 до z2 = 2,00. Учитывая, что F(zy) = 0,02275 и F(z?) = 0,97725, находим Р(-2,00 < z < 2,00) - 0,97725-0,02275 = 0,95450. Тот же результат получим, используя формулу (4.8): Р(-2,00 < z < 2,00) = 1 - 2 • 0,02275 = 0,95450. Интервал, ограниченный значениями, равноотстоящими по обе стороны от среднего, при нормальном распределении соответствует середине ряда распределения, т.е. наиболее часто встречающимся значениям переменной1. При этом отклонения в большую или меньшую сторону от указанного интервала равновероятны. Все это обусловливает особый интерес к интервалам значений от -z до z. Можно показать, что значения нормально распределенной величины при Р = 0,50 заключены в пределах от -0,674 до 0,674. Вероятности 0,90 соответствует интервал от -1,64 до 1,64, а 95% объема совокупности не выходит за пределы значений z = -1,96 и Заметим, что среди значений jci и jc2 чаще встречается лгь если отношение вероятности попадания в малую окрестность jci к вероятности попадания в малую окрестность х2 больше единицы. Таким образом, представления о наиболее часто встречающихся значениях переменной основываются не на вероятностях, а на отношениях вероятностей (можно пользоваться отношением плотностей вероятностей).
80 Глава 4 z = 1,96. Вероятностям 0,99 и 0,999 соответствуют интервалы, ограниченные значениями z = 12,58 и z = ±3,29. Приведенные данные наглядно показывают, как с увеличением абсолютной величины z растет вероятность, соответствующая выделяемому интервалу значений. Из них также видно, что при нормальном распределении большая часть значений переменной не слишком сильно отклоняется от среднего. Учитывая, что для нормально распределенной величины X с параметрами цио2 нормированные отклонения распределены как величина Z, можно найти не только вероятность значений в заданном интервале от jci до х2, но и интервал значений х\ < х < х2, соответствующий заданной вероятности. В первом случае для значений х находят нормированные отклонения м, которые, будучи нормально распределенными, представляют собой величину z, а затем с помощью F(z) определяют искомые вероятности; во втором случае для заданной вероятности Р по таблице отыскивают соответствующие значения ±z и по формуле (4.3) находят искомые значения JCi И Х2. Пусть, например, требуется найти вероятность того, что в выщелоченном черноземе содержание гумуса не превысит х = 3,50%, если ц = 4,24%, су = 0,68%, а распределение нормально. Тогда, поскольку ^ 3,50-4,24 0,68 получим P(x<3950)=P(z<-\,09) = =0,13786, т.е. содержание гумуса менее 3,50% в этих черноземах встречается в 13,786% случаев. С вероятностью Р=0,95, которой соответствуют z = ±l,96, содержание гумуса в выщелоченном черноземе заключено в интервале от jci = 4,24 - 1,96 • 0,68 = = 2,91% до х2 = 4,24 + 1,96 • 0,68 = 5,57%. Очевидно, вне полученного интервала содержание гумуса встречается в 5% всех возможных случаев, причем в 2,5% случаев содержание гумуса в этих почвах ниже 2,91% и столь же часто оно превышает 5,57%. 4.3. Логнормальное распределение Если закону нормального распределения подчиняется не сама случайная величина Ху а ее логарифм / = log^x (a - основание логарифма), то величина X называется логарифмически нормально (логнормально) распределенной. Логнормальный закон описывается уравнением U-mi)2
Законы распределения 81 где Ц/ и ст/2 - параметры нормально распределенной величины L, т.е. Ц/ = = E(l) = £(1о&#) - средний логарифм, а а/ = Е[{1 - \ii)2] - средний квадрат отклонения логарифма значений от среднего логарифма (дисперсия ряда логарифмов). При логнормальном законе распределения величина X может принимать значения от 0 до +оо. Заметим, что антилогарифм величины р,/, т.е. g x-o^1 называется средним геометрическим величины Х9 которое отличается от математического ожидания (среднего арифметического) \хх = Е(х) случайной величины X, причем gx < ц*. Соответственно антилогарифм величины су/2 не равен дисперсии ах2 величины X. Связь между ц/ и |дх и между а/2 и ах2 выражается соотношениями b ст. (4.10) а2 =е2Ь»1+Ь2*?(/*1 _^ (4Л1) где Ь = log^e. Если / - натуральный логарифм от х (/ = кис), то -/2 /<,=* 2 (4-12) 0.2=^+а/2(^/2_1) (413) Так как при нормальном распределении среднее и медиана равны, и, следовательно, для случайной величины L имеем ц/ = Med/, медиана делит ряд распределения на две части, которым соответствуют одинаковые вероятности Р = 0,5, то среднее геометрическое gx логнормально распределенной величины равно медиане этой величины: gx = Med*. При логнормальном распределении мода Мох меньше не только среднего \лх, но и медианы Medx. В общем виде Мо может быть вычислена по формуле: Мох=еЬ«-ь2а< , (4.14) а при использовании натуральных логарифмов - по формуле Ыох=е^~^ . (4.15) Таким образом, если случайная величинах имеет логнормальное распределение, то для моды, медианы и среднего арифметического справедливы неравенства Mo* < Med* < ц*.
82 Глава 4 Коэффициент вариации Vx логнормально распределенной случайной величины X, как выраженное в процентах отношение <jx к щ, связан с дисперсией ряда логарифмов следующей зависимостью: \2" <7, = 61og UooJ (4.16) После перехода к десятичным логарифмам формула (4.16) примет вид ст, =0,4343 lg UooJ (4.17) Еще более просто выглядит формула (4.16) для натуральных логарифмов: i+i' ч2 ст; = 1п UooJ (4.18) Пусть, например, водопроницаемость почвы х (мм/мин) распределена по логнормальному закону и тогда величина / = In* распределена по нормальному закону. Если для ряда распределения логарифмов р./=0,70 и а/= 0,80, то gx = Med* = е0'70 = 2,01 мм/мин, a i^, Мох и стх2 находим по формулам (4.12), (4.15) и (4.13): 0,70+ и=е 0,80^ 2 = е' =2,77 мм/мин, А, 0,70-0,80z 0,06 t f^r i Mo = e ' ' = e ' =1,06 мм/мин, 2 2-0.70+0,80' <j — e (>°2 -l] = e2'04 (e0M -l) = 7,6906-0,8965 = 6,89 gx = 2,63 мм/мин. Для определения вероятности, соответствующей тому или иному интервалу значений логнормально распределенной величины X, следует от значений х перейти к их логарифмам, найти для этих логарифмов нормированные отклонения и, пользуясь таблицей F(z)9 вычислить соответствующую вероятность. Так, в данном примере вероятность нахождения водопроницаемости в интервале от х\ = 1 до хг— 10 мм/мин находится следующим образом: /]=1п1=0,00 0,00-0,70 '' ' 0,80
Законы распределения 83 щ =z2=-i——J— = +2,00 /2 = lnl0 = 2,30 2,30-0,70 0,80 F(Zl) = 0,18943 F(Z2) = 0,97725 P( К x < 10) = P(l< / < 2,30) = 0,97725 - 0,18943 - 0,78782 или « 78,8%. Для нахождения интервала значений х, соответствующего заданной вероятности Р, следует по формуле (4.3) (естественно, заменив в ней х на /, ц на р./ и а на а/) определить граничные значения 1Х и /2, антилогарифмы которых и дадут искомые граничные значения х. Так, для Р = 0,9 (этой вероятности соответствуют z = ±1,64) получим /, = 0,70-1,64-0,80 = -0,61 /2= 0,70 + 1,64 • 0,80 = 2,01, откуда х2 = е2'01 = 7,46 мм/мин и^ = в"0'61 = 0,54 мм/мин. Итак, с вероятностью 0,9 водопроницаемость исследуемой почвы колеблется в интервале от 0,54 до 7,46. Возможность аппроксимации какого-либо эмпирического распределения логнормальным законом (наиболее часто это распределение водо- проницаемостей и содержания некоторых микроэлементов), совсем не означает, что в связи с этим следует отказаться от среднего арифметического в пользу среднего геометрического. Закон распределения не имеет решающего значения в выборе среднего. Вид вычисляемого среднего (среднее арифметическое, среднее геометрическое и др.) определяется задачами исследования и выбором критериев качества. 4.4. Биномиальное распределение Биномиальное распределение возникает в том случае, когда каждое испытание имеет два возможных несовместимых друг с другом исхода, как например, в случае, когда каждое из зерен песчаной фракции может оказаться кварцевым или некварцевым, а тот или иной агрегат - водопрочным или нет. В качестве случайной величины выступает число случаев с заданным исходом (наличием кварца, водопрочностью и пр.) при фиксированном объеме выборки п. Если в условиях проведения испытаний вероятность наличия признака (например "кварца") обозначить через Р9 а его отсутствия - через Q (при этом Р+ Q = 1), то вероятность Рп(х) в п испытаниях получить х раз (х = 0,1,2..., п) наличие признака определяется выражением
84 Глава 4 W= ,/Я! ^Q"** (419> где знак ! называется факториалом и означает, что следует перемножить целые числа от 1 до числа, стоящего под знаком факториала. Так, п\ = = 1-2-3-... •(« - 1)-/?. Факториал нуля считается равным единице (0! = 1). Единственным параметром этого распределения является Р (поскольку Q = 1 - Р), который может принимать значения в интервале от 0 до 1. Для выборки объема п дисперсия биномиального распределения находится по формуле: c? = nPQ, (4.20) из которой следует, что дисперсия не может превосходить 0,25л. Это наибольшее значение дисперсия принимает при Р = Q = 0,5. Математическое ожидание ft = E(x) = nP (4.21) случайной величины в биномиальном распределении представляет собой среднее число появлений признака в выборках объема п. Пусть среди достаточно большой совокупности агрегатов некоторого размера 20% приходится на водопрочные, т.е. вероятность того, что агрегат окажется водопрочным, Р = 0,2. Если из такой совокупности брать выборки объемом п = 5, то среднее число водопрочных агрегатов в одной выборке составит \х = 5 • 0,2 = 1,00, а дисперсия, характеризующая вариацию в выборках, есть о2 = 5 • 0,2 • 0,8 = 0,80. Вероятность получить в единичной выборке х = 0, 1,..., 5 водопрочных агрегатов можно вычислить по формуле Р (х) = о,2х 0,85~*. 5V ' jc!(5-jc)! Подставляя в нее последовательно значения х от 0 до 5, получим (с точностью до 0,0001): X Р5(х) 0 0,3277 1 0,4096 2 0,2048 3 0,0512 4 0,0064 5 0,0003 На рис. 4.3 изображен график полученного распределения. Вычисление вероятностей Рп(х) по формуле (4.19) не представляет больших трудностей, пока число п невелико. При больших значениях п для нахождения Рп(х) прибегают к логарифмированию выражения (4.19): \gPn(x) = lgw! - lgx! - \g(n -x)\+x\gP+(n- x)\gQ. (4.22)
Законы распределения 85 Рис. 4.3. Распределение числа х водопрочных агрегатов в выборке объема п = 5 при биномиальном распределении (водопрочных агрегатов 20%) Биномиальное распределение симметрично, когда Р = 6 = 0,5. При Р *Q распределение несимметрично и имеет одну моду, причем с увеличением х на единицу Р„(х + 1) возрастает сравнительно с Рп(х) до тех пор, пока выполняется условие x<Pn-Q. В рассмотренном примере Pn-Q = 0,2-5 -0,8 = 0,2. Так как х = 0 < 0,2, то Ps(l) > А(0)> но х = 1, а тем более х = 2, 3,..., 5, уже превышают 0,2, в связи с чем вероятности получения двух и большего числа водопрочных агрегатов из пяти оказываются более низкими, чем Р$(\) (рис. 4.3). При больших п максимум Р„(х) расположен в окрестности х = Рп, причем при и—>оо и любых х величина Рп(х) также стремится к нулю. Симметричность биномиального распределения зависит не только от величины Р, но и от объема выборки п. Действительно, так как при этом распределении центральный момент третьего порядка определяется выражением f0)=nPQ(Q-P), (4.22) а ст2 = nPQ, то согласно формуле (3.31) получим, что коэффициент асимметрии Q-P a ■■ Для рассмотренного выше примера имеем 0,8-0,2 (4.24) а- ^50,20,8 = 0,7. Центральный момент четвертой степени при биномиальном распределении определяется по формуле
86 Глава 4 Mw=nPQ[3-PQ(n-2) + l], (4.25) а коэффициент эксцесса в силу формулы (3.32) составляет 1 6 , PQ 1-6Р + 6Р2 ,.„. € = —— = . (4.26) п nPQ В данном примере имеем 1 -6 5 Коэффициент вариации наряду с обычным способом его вычисления по формуле (3.26) можно найти из выражения (4.27) В данном примере находим V = 100- /^^-=90% Ж=1 \5-0,2 По мере увеличения п биномиальное распределение приближается к нормальному и тем быстрее, чем меньше отличаются друг от друга PnQ. Использование для описания распределения дискретной величины х нормального закона с параметрами ц = лРиа2= nPQ практически допустимо при п > 25, если Р = Q = 0,5, а в случае близости Р к 0 или 1 при соблюдении условия, что nPQ > 91. 4.5. Распределение Пуассона Распределение Пуассона используется для описания встречаемости случайных событий, происходящих в течение того или иного интервала времени (например, число а-частиц, излучаемых почвой в единицу времени), либо в пределах некоторого пространства (на плоскости или в объеме почвы, как, например, число ходов червей на некотором участке поверхности почвы, число ортштейнов в заданном объеме, число зерен циркона на шлифе и т.д.). Пуассоновское распределение описывается выражением 1 По-видимому, эти условия достаточно жестки, т.к., по исследованиям Раффа, использование нормальной функции распределения вместо биномиальной практически допустимо ( ошибки не превосходят 0,05 для всех х), если лР372 > 1,07.
Законы распределения 87 Р{х) = £-е\ (4.28) где Р(х) - вероятность в единичном испытании получить х раз (х = 0, 1,2, ...) интересующее нас событие, ц - среднее число таких событий на одно испытание, е - основание натуральных логарифмов. Пуассоновское распределение можно использовать для аппроксимации биномиального распределения, когда вероятность Р появления изучаемого признака очень мала (например, наличие семян сорняков среди группы из п взятых зерен посевного материала) и тогда \х = пР. Распределение Пуассона возникает в тех случаях, когда вероятность обнаружения события в бесконечно малом временном интервале (или области пространства) бесконечно мала, причем для любых двух непересекающихся интервалов времени (или областей пространства) вероятность обнаружения любого числа событий в одном не зависит от числа событий в другом. Распределение Пуассона характерно тем, что среднее \х и дисперсия с2 численно равны и, как следует из формулы (4.28), это распределение описывается одним параметром. Заметим, что в распределении Пуассона, как и при биномиальном распределении, случайной величиной является число случаев, а не значение таких свойств, как, например, содержание железа или водопроницаемость. Для этих последних может иметь место равенство средних и дисперсий, но это не является основанием для аппроксимации их распределений законом Пуассона. Если общее число испытаний (выборок) равно N, то число выборок N(x), когда х = 0, 1, 2,..., можно найти по формуле N(x)=NP(x). (4.29) Пусть среди агрегатов размером 2-3 мм на агрегаты капролитового происхождения приходится 2%, т.е. вероятность того, что случайно выбранный агрегат окажется капролитом, Р = 0,02. Для выборки объемом п = 100 среди агрегатов в среднем будет содержаться \х = пР = 100 • 0,02 = 2 таких агрегата. Вероятность того, что в отдельной выборке окажется х = 0, 1, 2,... капролита, выражается формулой 2х Р(х) = ±-е-\ х\ в которую нужно последовательно подставить х = 0, jc = 1 и т.д. Согласно формуле (4.29), среди iV= 100 таких выборок число выборок при х = 0 должно быть теоретически равно (округляя до целых) 14, при х = 1 оно равно 27, и далее для N(2), N(3), N(4), N(5) и N(6) соответственно 27, 18, 9,4 и 1.
88 Глава 4 Р(х) 0,5- 0,4- 0,3- 0,2- 0,1- L-M>^ VL-|i=l,0 /uV1^2'0 12 4 6 4^.^5,0 8 10 x| Рис. 4.4. Пуассоновское распределение вероятностей при различном среднем ц Если в выборку брать не 100 агрегатов, а больше (например, 150) или меньше (например, 50 или 25), то \х будет меняться, а соответственно будет изменяться и Р(х)9 что иллюстрирует рис. 4.4. Пуассоновское распределение вероятностей обычно очень асимметрично. При \х < 1 максимальная вероятность Р(х) соответствует значению jc = 0. С увеличением \х распределение становится более симмет-рйчным, причем при данном \х возрастание Р(х) с увеличением я: наблюдается до тех пор, пока jc + 1 < ц (рис. 4.4). При пуассоновском распределении равны между собой не только среднее и дисперсия (начальный момент первой степени и центральный момент второй степени), но и центральный момент третьей степени: // = //(2)=//(3)- (4'3°) В связи с этим, как следует из формулы (3.31), коэффициент асимметрии при пуассоновском распределении обратно пропорционален стандарту распределения (или квадратному корню из среднего): а=-^= = -. (4.31) Так как при пуассоновском распределении центральный момент четвертой степени выражается соотношением i"(4) =//(3// + 1), (4.32) то из формулы (3.32) получим, что коэффициент эксцесса обратно пропорционален среднему (или дисперсии): _J__J_ (4.33) Для рассмотренного примера, когда ц = 2, получим a = 0,71 и е = 0,50.
Законы распределения 89 Из формул (4.31) и (4.33) следует, что для распределения Пуассона асимметрия и эксцессивность положительны и с увеличением среднего уменьшаются. 4.6. Другие законы распределений дискретных величин Рассмотрим еще некоторые законы, которые могут быть использованы для аппроксимации распределений случайных величин. Среди таких законов, описывающих распределения дискретных случайных величин, можно отметить отрицательный биномиальный закон. Он описывает распределение случайной величины X, представляющей собой число испытаний, в результате которых интересующее нас событие впервые появляется ровно к раз (вероятность появления такого события в единичном испытании равна Р, а вероятность непоявления равна Q= I -Р). Очевидно, при этом х не может быть меньше Р, а распределение вероятности Р(х) выражается формулой Р{х) = C*:lPk(l-P)x-k = Ck~\p*Qxk , (4.34) к— 1 где х = &, к + 1, ..., а Сх_{ - число сочетаний из х - 1 элементов по к-1 элементу. Название этого закона связано с тем, что правые части формулы (4.34) представляют собой последовательные члены разложения бинома с отрицательным показателем: P*[l-(l-P)] =Pk(l-QY . Для этого закона имеют место следующие соотношения: M = j, (4-35) 2 Щ-Р) kQ а = г— = —,, (4.36) 2-Р 2-Р .,„_ а= , = = -=, (4.37) 1+4(1 -j>)Hl-Pf J+4Q+Q* k{l-P) kQ (4.39) Если для отрицательного биномиального закона принять к=1, то х будет представлять собой число испытаний, необходимых для того, чтобы
90 Глава 4 интересующее нас событие впервые произошло ровно один раз. При к = 1 имеем CXZX = 1 и выражение (4.34) примет вид: Р(х)=Р(У-1 (4.40) где х= 1, 2, 3, .... Распределение вероятностей, описываемое формулой (4.40), называется геометрическим. Для него справедливы соотношения M = j, (4.41) <т2=-£-, (4.42) 2-Р Р2 £г = 6 + —, (4.44) Q V = l00yfQ. (4.45) Биномиальное распределение возникает в том случае, когда генеральная совокупность, из которой берется п элементов, бесконечно велика. Если же генеральная совокупность конечна и случайно отобранные из нее компоненты обратно не возвращаются, то распределение среди п отобранных элементов числа х элементов, содержащих интересующее нас свойство, подчиняется гипергеометрическаму закону, который можно рассматривать как модификацию биномиального. Обозначая объем генеральной совокупности через N, а число элементов этой совокупности с интересующим нас свойством - через М, получим, что среди п взятых элементов вероятность обнаружить jc элементов с заданным свойством есть syX *ifl—X Р(Х) = м ' nN~M , (4.46) где jc = 0, 1, 2, ..., min(M,n). Ограничение сверху возможных значений х наименьшим из значений М или п вытекает из того, что при п> М максимально возможное значение лимитировано значением х - М, а при п< М- значение х = п. Для гипергеометрического распределения, учитывая, что Р = — и N ГЛ N~M A Q = , получим следующие формулы: N
Законы распределения 91 \л = пР, (4.47) 2 nPQ(N-n) N-l (4.48) (1-2Р)(#-2лл/т^7) a= . ) ч , \ (4.49) Q(N-n) F = 1004p^ {. (4.50) ynP(N-l) 4.7. Другие законы непрерывных распределений Для непрерывных случайных величин аналогом геометрического распределения является показательное (экспоненциальное) распределение. Закон экспоненциального распределения случайной величины X определяется одним параметром X > 0 и имеет вид (о(х) = Хе~Ях. (4.51) Интеграл вероятности определяется выражением ф) = 1 - е~Ях (4.52) при х > 0. Для этого распределения имеют место соотношения М = \, (4-53) °-2=^У' <4-54> Л2 Med = — = /Лп2, (4.55) V= 100%, а = 2 и г = 6. Экспоненциальный закон имеет место, например, при распределении длин отрезков (времени, пространства) между последовательными событиями, если распределение таких событий подчиняется пуассоновскому закону. Гамма-распределением называется такое распределение, при котором случайная величина X принимает значения х > 0 и имеет место плотность вероятности о,(х) = -1—хр-хе-х\ (4.56)
92 Глава 4 где Р и X -параметры распределения, а Г(р) -гамма-функция Эйлера. Среднее и дисперсия гамма-распределенной случайной величины: // = -£ (4.57) <т2 =4» (4-58) Л откуда К = 10оД (4.59) 104 Р = \. (4.60) При гамма-распределении Мо = (Р - 1)/Х. (при Р > 1), a = 2/sf/3 , При целочисленных значениях (3 их можно рассматривать как число независимых факторов, распределенных по экспоненциальному закону, суммарное воздействие которых определяет распределение случайной величины X. Если Р достаточно велико (Р > 11 и V< 30%), то гамма-распределение мало отличается от нормального, а при р = 1 оно совпадает с экспоненциальным. Гамма-распределение является непрерывным аналогом отрицательного биномиального распределения. При X = п\х и Р = п гамма-распределение называется эрланговским распределением с параметрами п и \х , описывающим распределение протяженности интервалов (времени, пространства) до появления пуассоновских событий с параметром \х . Если распределение случайной величины X определяется влиянием "слабого звена" среди факторов, оказывающих влияние на эту величину, ее распределение описывается законом Вейбулла (Вейбулла-Гнеденко): *>(*) =/^-expH^I \, (4-61) **) = 1-вЫ-- N (4-62)
Законы распределения 93 полагая —г = Я, получим 0Р (о(х) - рХхг х ехр(-Л.г ), <р(х) = 1 - ехр(-Дх ). (4.63) (4.64) Распределение Вейбулла имеет два параметра р и 8 (или р и А,), которые всегда больше нуля, и характеризуется тем, что независимо от значений параметров вероятность Р(х < 0) одинакова и равна 0,6321. Величину ( 0Р = \/Я ) называют масштабным параметром, а Р - параметром формы распределения Вейбулла. Среднее и дисперсия этого распределения таковы: (4.65) r2 = 3 Р Г\1+1\-Г2 1 + 1 А Если р <, 1, то Мо = 0; если же р > 1, то Мо = А * 1 Р 1V (4.66) (4.67) Распределение Вейбулла при Р - 1 переходит в экспоненциальное, а при р = 3,3 оно хорошо аппроксимируется нормальным с параметрами ц » 0,8975 • G, а « 0,3 • G и коэффициентом вариации К» 30%. При Р = 2 распределение Вейбулла совпадает с распределением Рэ- лея, для которого характерна умеренная положительная асимметрия и соотношения в^ : 0,8862-0, = (92h--j = >u2|l-lj = 0,2146-6'2=0,2732-//2 eF = 100 J— -1 = 52,27% . (4.68) (4.69) Для распределения Рэлея Mo = -^ = <UO71-<9UMed = 0>/in2 =0,83260. V2 (4.70)
94 Глава 4 Если случайная величина X может принимать значения только в интервале от а до Ъ (а < Ь\ причем плотность вероятности на этом отрезке постоянна и равна а>{х) = -±-у (4.71) Ь-а где а <х <Ь, то случайная величина X называется равномерно распределенной. Для такой величины _, - а + b ,Л __ч // = Med = , (4.72) c2 = (t^£ (4.73) 12 и а = 0 и е = -1,2. Например, по этому закону распределяются ошибки округления последнего десятичного знака. Ранее был рассмотрен логнормальный закон распределения, когда нормальному закону подчиняется не сама случайная величина X, а ее логарифмы. Однако нормальному закону могут подчиняться и некоторые другие функции от X. Распределения ряда таких случайных величин, логарифмические функции от которых имеют нормальное распределение, образуют семейство распределений Джонсона. В практике почвенных исследований нашли применение логарифмические преобразования вида и = у + nlnfc - е), (4.74) и = у + т]Ы Х~е , (4.75) е + л-х ■(¥)• и = у + 7] Arsh , (4.76) где U - функция случайной величины X; у, л, s, X - некоторые константы, Arsh - ареа-синус: Arsh £r)-h rxzl+Jf*z£\\^ (4.77) Константы у, л зависят от асимметрии и эксцесса распределения случайной величины X и определяют форму распределения, е определяет уровень значений, а X - масштаб случайной величины. Если функцию U случайной величины X можно рассматривать как нормально распределенную, то случайная величина X считается распределенной по соответствующему закону Джонсона.
Законы распределения 95 Вопросы для самоконтроля 1. Каковы основные особенности закона нормального распределения? 2. Можно ли из области почвоведения привести примеры строго нормально распределенных величин? З.В чем состоят общие принципы отыскания вероятности попадания нормально распределенной случайной величины в заданный интервал значений с помощью таблицы интегралов вероятности? 4. Какое распределение называется логнормальным и какие значения при этом может принимать случайная величина? 5. Что называется средним геометрическим и как оно соотносится со средним арифметическим, модой и медианой при логнормальном распределении? 6. Какими общими особенностями обладают случайные величины, распределение которых описывается законом Пуассона и биномиальным законом? 7. Чем отличаются условия применимости закона Пуассона и биномиального закона? 8. От чего зависит асимметрия биномиального и пуассоновского распределений? 9. Является ли достаточным условие равенства среднего и дисперсии для предположения о том, что случайная величина распределена по закону Пуассона?
Глава 5 ВЫБОРОЧНЫЕ ОЦЕНКИ И ОШИБКИ РЕПРЕЗЕНТАТИВНОСТИ 5.1. Константы и их оценки В большинстве случаев исследователь имеет дело не с генеральными совокупностями, а с выборками, содержащими информацию о свойствах генеральной совокупности. Выборки всегда являются конечными и, составляя часть генеральной совокупности, не позволяют получить точных значений тех констант, тех параметров исследуемых случайных величин, ради изучения которых проводится исследование. Выборочные результаты испытаний дают возможность вычислить лишь оценки (констант, параметров), например оценку среднего х для генерального среднего ц, выборочную дисперсию s1 как оценку дисперсии а2 и т.д. В то время как константы - величины постоянные, выборочные оценки констант являются случайными величинами. Случайность оценок проявится в том, что, будучи вычисленными по результатам повторных выборок, эти оценки принимают неодинаковые и заранее неизвестные значения. Это означает, что получаемые оценки нельзя отождествлять с самими константами. В методологическом отношении такое отождествление соответствует постановке знака равенства между явлением (каковым является оценка) и сущностью (константой). Всегда следует учитывать, что выборка позволяет лишь с той или иной погрешностью судить о константе, но в силу случайности оценки мы не имеем возможности сказать, насколько и в какую сторону (в большую или меньшую) отличается оценка от неизвестной нам оцениваемой константы. Наиболее часто константы характеризуются оценками, выражаемыми одним числом. Такие оценки получили название точечных. Точечными оценками являются, например, выборочные значения среднего х , дисперсии s1 и т.д. 5.2. Оценка моды Поскольку мода Мо есть значение, встречающееся наиболее часто (для дискретных величин) или имеющее наибольшую плотность вероятности (для непрерывных величин), для оценки моды нужно располагать
Выборочные оценки и ошибки репрезентативности 97 таким объемом данных, чтобы о встречаемости уже что-то можно было бы сказать. Поэтому оценку моды обычно бывает целесообразно находить, когда выборка насчитывает по меньшей мере 2-3 десятка данных и имеется возможность построения ряда распределения. В этом случае за оценку моды то принимают середину модального класса, т.е. класса, имеющего наибольшую частоту. Если ширина класса с равна точности измерений А и середина любого класса представляет собой единственное значение случайной величины, то выборочное значение моды приравнивают тому значению, которое встречается наиболее часто. Пусть, например, число ортштейнов крупнее 3 мм в объеме 100 см3 в пределах некоторого слоя дерново-подзолистой почвы по результатам п = 30 наблюдений дало следующий ряд: *1 Jl 0 3 1 8 2 13 3 4 4 0 5 2 Здесь то = 2. Если с > А, то в качестве моды допустимо принимать середину модального класса, но при необходимости можно получить и более точную оценку моды, используя линейную интерполяцию: где индексы т, т - 1 и т + 1 соответствуют модальному, предмодальному и послемодальному классам, a ^m_1wm- граница между модальным и предмодальным классами (или нижняя граница модального класса). Таблица 5.1 Распределение плотности дерново-подзолистой почвы в пахотном слое (л = 150) ij и 1,08 7 1,13 19 1,18 21 1,23 29 1,28 26 1,33 18 1,38 12 1,43 9 1,48 6 1,53 3 Обычно найденную по экспериментальным данным оценку моды называют просто модой. Это допустимо, если не забывать, что полученная по выборочным данным мода является выборочной модой, оценкой, которая лишь с большей или меньшей погрешностью характеризует истинное значение моды, генеральную моду. По данным, представленным в табл. 5.1, за оценку моды можно принять середину класса с наибольшей частотой то = 1,23 г/см3. Учитывая,
98 Глава 5 что здесь с = 0,05, а нижняя граница модального класса ^даЧуЛ= 1,205, найдем более точную оценку: 29 — 21 то = 1,205 + 0,05 = 1,24 г/см3. 2-29-(21 + 26) 5.3. Оценка медианы В отличие от моды оценку медианы можно получить по выборочным наблюдениям малого объема (при п > 2), если признак поддается ранжировке. Если результаты наблюдений над количественным признаком не представлены в виде вариационного ряда, то для нахождения оценки медианы данные следует ранжировать. Обозначая ранжированные значения случайной величины х, полученные в выборке объема п, через xt, где i = 1, 2, ...л, из соотношения (2.13) получим для вычисления медианы (выборочной) med: - при п четном: / ч Л_ Т X_ med = х\ + 0,5 ** -х\ = * J+ , (5.2) 1 -+1 2 V 2 - при л нечетном: med = x„+1, (5.3) *я+1 у 2 где индексы при х. -номер значения в их ранжированной последовательности. Пусть, например, в выборке объемом п = 5 получены следующие данные по содержанию обменного Са (после ранжировки): х*: 7,4; 7,8; 8,2; 8,9; 9,8. Так как п нечетно и (л + 1)/2 = 3, то значение, стоящее на третьем месте, и является оценкой медианы: med = 8,2 мг-экв/100 г почвы. Рассмотрим теперь ранжированную выборочную последовательность значений содержания гумуса: х*: 1,35; 1,75; 1,85; 1,90; 2,05; 2,20. Здесь п = 6 - четное и медианой является полусумма значений, стоящих на 3-м и 4-м местах: med = 0,5 - (1,85 + 1,90) = 1,88 %. Для данных, представленных в виде вариационного ряда такого, что с>А в качестве оценки медианы можно принять середину медианного
Выборочные оценки и ошибки репрезентативности 99 класса, т.е. класса, в котором содержится значение, соответствующее середине ранжированного ряда. Так, для плотности почвы (см. табл. 5.1) при п = 150 середина ранжированного ряда приходится на значения, занимающие 75 и 76-е места. Легко установить, что соответствующие значения принадлежат четвертому классу, для которого х4 = 1,23, а поэтому можно считать, что med = 1,23 г/см3. Из результатов такого подсчета, кстати, следует, что х75 и jc76 должны быть наибольшими значениями из тех, что попали в класс с серединой х. = 1,23, так как значение плотности, стоящее на 77-м месте, уже принадлежит следующему классу (сумма частот в первых четырех классах равна 76). Поэтому можно полагать, что med = 1,23 - не самое лучшее решение. Действительно, в подобных случаях более точную оценку медианы получают с помощью линейной интерполяции по формуле J m 2 med = *(m-l)/m + C 9 > (5«4) где т - номер медианного класса, х,т_хут- нижняя граница медианного класса, с - ширина класса,/» - частота медианного класса, ]|Г Л - сум- ма частот классов, предшествующих медианному. j-m-l В рассматриваемом примере с - 0,05, т — 4, х3/4. - 1,205, ^ /. = 47 и тогда согласно формуле (5.4) найдем med = l,205 + 0,05-2 = 1,25. 29 Утверждение, что вычисление медианы по формуле (5.4) (или моды по формуле (5.1)) дает более точную оценку, нежели приравнивание медианы (или моды) к середине соответствующего класса, не означает, что каждая конкретная оценка оказывается ближе или дальше от оцениваемого генерального показателя. Например, нельзя утверждать, что значение плотности 1,25 ближе к генеральному значению медианы, чем 1,23. Дело в том, что любая выборочная медиана (и мода) есть случайная оценка, и если в среднем использование формулы (5.4) или (5.1) улучшает оценку (об этом речь пойдет ниже), то совсем не обязательно, чтобы это улучшение происходило в каждом конкретном случае.
100 Глава 5 Таблица 5.2 Процент площадей с различным уклоном местности Угол наклона, градусы Процент площади 0-0,5 31,4 0,6-1,0 23,7 1,1-2,0 15,4 2,1-5,0 11,8 5,1 - 15,0 9,1 >15,0 8,6 Медиану как показатель среднего значения признака вычисляют сравнительно редко. Однако возможны такие ситуации, когда медиана оказывается наиболее применимой для характеристики средней тенденции изучаемого свойства. Подобные случаи имеют место, когда существует некоторая неопределенность крайних значений признака (чаще всего максимального), что исключает возможность вычисления среднего арифметического. Наиболее часто такая ситуация складывается при изучении водопроницаемости (наличие "провальной" водопроницаемости), но может возникнуть и при других обстоятельствах, например, при подсчете площадей с различным уклоном местности для некоторой территории (табл. 5.2). К последнему классу углов отнесены углы, превосходящие 15°, и для этого класса отсутствует верхняя граница; поэтому найти средний арифметический угол наклона не представляется возможным. Однако медианное значение найти можно. Очевидно, оно должно соответствовать тому углу, который приходится в ранжированном ряде на 50-й процент площади. Заметим, что в табл. 5.2 классы углов наклона неодинаковы: классовый промежуток меняется от 0,5° в первых двух классах до 10° в предпоследнем классе. Для подобных исследований это весьма распространенное явление. Однако для вычисления медианы это не существенно. Следует лишь иметь в виду, что в формуле (5.4) величину классового промежутка нужно брать для модального класса. Из табл. 5.2 следует, что 50-й процент находится во втором классе (т = 2) с граничными углами 0,6 -1,0°. Поскольку нижняя и верхняя границы медианного класса соответственно равны 0,55° и 1,05°, классовый промежуток для второго класса есть 1,05° - 0,55° = 0,5°. В качестве частот в данном примере выступают проценты. Так как £./}= 31,4,/w = 23,7 и0,5« = 50,0, то согласно формуле (5.4) получаем med = 0,55 + 0,5 50?°"31?4 =0,94°. 23,7 Итак, медианное значение угла наклона местности приближенно равно 0,9°.
Выборочные оценки и ошибки репрезентативности 101 5.4. Оценка среднего арифметического Как уже было отмечено, среднее арифметическое - это константа, часто являющаяся параметром распределения. Важность этой константы и необходимость нахождения ее оценок практически в любых исследованиях послужили основанием для того, чтобы ввести различные обозначения для среднего и его оценки. Сейчас принято среднее как константу обозначать греческой буквой ц, а оценку среднего - латинской буквой с чертой, например, для случайной величины Х- в виде х . Такая система обозначений сразу показывает о чем идет речь, о среднем или его оценке, и если, например, рассматривается среднее х , то это среднее выборочное, т.е. оценка среднего, а не сама константа ц*. Оценку среднего можно получить разными способами. Один из самых простых и, как можно предположить, не самый точный способ состоит в нахождении среднего как полусуммы наименьшего и наибольшего значения величины, поскольку эти значения обычно называют лимитами, то такая оценка равна полусумме лимитов: -=*min+*max (5 5) Эта оценка, очевидно, тем лучше характеризует среднее, чем симметричнее распределение случайной величины. Преимущество такой оценки в простоте ее вычисления, что используется для предварительного анализа и для контроля от грубых промахов при вычислении среднего более сложным методом. Недостатки такого способа связаны с тем, что вычисление среднего основано на учете только двух крайних значений, а они наиболее изменчивы, что и делает эту оценку не очень надежной. Для иллюстрации этого и других способов нахождения разных оценок допустим, что плотность почвы охарактеризована выборкой объемом и = 5 со значениями jc, (г/см3): 1,23; 1,25; 1,25; 1,27; 1,30. Тогда оценка х по формуне (5.5) составит 0,5 • (1,23 + 1,30) = 1,26. При симметричности распределения в качестве оценки среднего Зс можно использовать медиану. Тогда для данного примера получим Зс = med =1,25. Наиболее часто оценку среднего находят как среднее арифметическое всех значений: i=^_L. (5.6) п В дальнейшем мы будем иметь в виду именно такую оценку среднего. Так как для данного примера ^х. =6,30, то х = —!— = 1,26.
102 Глава 5 Одинаковые значения в выборке могут встречаться два и большее число раз (здесь, например, значение 1,25 встречается дважды) и соответствующее число таких значений должно входить в ^jc. при вычислении среднего. Иначе говоря, при нахождении суммы значений они должны быть взвешены их частотой, в силу чего такая оценка среднего есть среднее взвешенное. Это особо следует иметь в виду при вычислении среднего по сгруппированным данным, когда выборочная совокупность представлена в виде вариационного ряда с серединами классов х. и их частотами fj. При этом среднее находят по формуле XV) *=^ . (5.7) п Так, по данным, представленным в табл. 5.1, средняя плотность почвы есть _ 1,08-7 + 1,1319 + ... + 1,53-3 189,60 % ^л х = = = 1,264 . 150 150 Оценки среднего, найденные по сгруппированным данным, конечно, не вполне равноценны оценкам, полученным по несгруппированным значениям переменной, но возникающие при этом ошибки обычно настолько незначительны, что ими вполне допустимо пренебречь. 5.5. Методы характеристики варьирования Наиболее просто степень варьирования признака отражается с помощью лимитов, т.е. минимального и максимального значений случайной величины, полученных в выборке. Так, если среди пяти значений плотности почвы лгщц, = 1,23, а Хт^ = = 1,30 г/см3, то это может быть записано так: LIM(jc) = (1,23 ч- 1,30) г/см3. Иногда одновременно с указанием лимитов приводят амплитуду колебаний, или размах варьирования Щп) (индекс указывает объем выборки), представляющую собой разность между максимальным х^и и минимальным Хщш значениями признака: Например, для плотности почвы получим Л(5> = 0,07 г/см3. Лимиты и размах особенно широко используют для характеристики некоторых климатических особенностей изучаемого района. Так, помимо средних многолетних температур воздуха по отдельным декадам, месяцам или сезонам обычно приводят минимальные и максимальные температуры за соответствующий период. Амплитудой обычно характеризуют размах
Выборочные оценки и ошибки репрезентативности 103 колебаний температуры почвы на разных глубинах. Широкое применение лимиты находят также в микробиологии при описании размеров изучаемых объектов. Лимиты и размах как показатели варьирования имеют существенный недостаток, состоящий в том, что они учитывают только крайние значения признака, которые наиболее легко меняются. Пусть, например, при оценке содержания обменного калия в пахотном слое дерново-подзолистой почвы в пределах поля площадью 10 га в трех повторных выборках объемом п = 7 лимиты и размах оказались следующими (мг/100 г почвы): LEVI Я(7) (4,5 - 10,5) 6,0 (4,4^13,2) 8,8 (5,0 ч- 9,0) 4,0 С увеличением объема выборки вероятность получить редко встречающиеся значения возрастает. Это приводит к тому, что лимиты и размах оказываются функцией объема выборки, что также ограничивает использование этих показателей варьирования. Как следует из рассмотренного выше примера, лимиты по калию не выходили за пределы (4,4 ч- 13,2), а размах не превышал Rp) = 8,8. В выборке же объемом п - 35 для того же поля было получено: LIM = (3,8 ч- 13,5) и Д(з5) = 9,7 мг/100 г почвы. Все эмпирически найденные лимиты и размахи представляют собой оценки некоторых констант при фиксированных объемах выборок. Если закон распределения случайной величины известен, то можно указывать и соответствующие константы. Например, известно, что при нормальном распределении с увеличением объема выборки размах сначала, пока п невелико, растет интенсивно, но по мере увеличения п этот рост затухает (табл. 5.3). В качестве меры варьирования можно использовать межквартыльное расстояние (межквартильный размах) R^ представляющее собой разность между верхним и нижним квартилями: R{q) - *(0,75) ~ *(0.25)- (5-9) Таблица 5.3 Увеличение размаха варьирования R{n) с ростом объема выборки п для нормального Z-распределения с параметрами 0 и 1. п I R(») 2 1,13 4 2,06 6 2,53 8 2,85 10 3,08 15 3,47 20 3,73
104 Глава 5 Бели квартили получены на основе выборочных данных по формуле (2.13), то и они сами, и размах являются оценками некоторых констант. Пусть, например, в выборке объемом п = 7 были получены значения содержания обменного калия (мг/100 г почвы): **: 4,5; 7,2; 7,3; 8,0; 8,3; 9,0; 10,5. Тогда, поскольку x^s)= 7,2 и *(о,75)= 9,0, имеем R^ = 1,8 (в этом случае R(j) = 6,0). В качестве меры вариации свойства межквартильный размах используют сравнительно редко. В то же время он весьма прост в интерпретации, так как показывает интервал (точнее - оценку интервала, если размах найден по выборке) возможных различий между крайними значениями интервала (обычно вблизи центра распределения), содержащего половину всех возможных значений. Лимиты и размах учитывают лишь некоторые значения случайной величины, полученные в выборке, и в этом состоит их слабость. Учет всех значений можно осуществить при вычислении среднего абсолютного отклонения Y\*i-x\ в = ±±-+ - (5.10) п (центральные отклонения берутся по модулю, т.е. без учета знака). Для характеристики неоднородности значений случайной величины его используют сравнительно редко. 5,6. Оценка дисперсии и стандарта Дисперсия относится к наиболее важным константам распределения и, как уже было отмечено, ее обычно обозначают су2. Оценку дисперсии, являющуюся не константой, а случайной величиной, чтобы не смешивать с самой дисперсией (эту оценку для простоты часто также называют дисперсией) обозначают s . Соответственно стандартное отклонение и его оценку обозначают а и s. Оценку дисперсии как средний квадрат отклонений от среднего по выборочным данным вычисляют по формуле S2=A<±2 L-. (5.11) /1-1 Заметим, что знаменателем последней формулы служит п - 1. Дело в том, что дисперсия есть средний квадрат отклонения от среднего, т.е. от ц. Вместо ц мы располагаем его оценкой х . Отклонения jc,- - x оказываются связанными условием ^(^. -х) - 0, а это означает, что, зная п - 1 откло-
Выборочные оценки и ошибки репрезентативности 105 нений Х; — х , всегда можно найти и последнее я-е, т.е. оно уже самостоятельно информации не несет, а вся информация содержится в любых п - 1 отклонениях. Таким образом, из п слагаемых в числителе формулы (5.11) оказывается п — 1 независимых. Число независимых элементов, по которым осуществляется оценка, в статистике называется числом степеней свободы, в дальнейшем будем обозначать его v. В общем случае оно равно числу элементов, по которому вычисляется оценка, минус число ограничений на эти элементы. При вычислении оценки дисперсии по выборке объемом п число ограничений равно 1 (условие равенства нулю суммы отклонений), поэтому здесь v = п - 1. При нахождении оценки среднего по выборке объема п на отдельные значения случайной величины никаких ограничений не накладывается и v — n. В дальнейшем мы увидим, что число степеней свободы является очень важным понятием и в каждом конкретном случае нужно уметь его оценить. Оценка дисперсии, как и сама дисперсия, есть величина положительная, а ее размерность равна квадрату размерности случайной величины. Извлекая корень из оценки дисперсии, получим оценку стандарта s, также являющуюся всегда положительной и имеющую размерность соответствующей случайной величины. Формула (5.11) показывает, что для нахождения оценки дисперсии нужно знать отклонения от среднего для всех значений xi9 после чего эти отклонения возвести в квадрат, просуммировать и разделить на п - 1. Для ряда значений плотности почвы это будет иметь следующий вид (п = 5, ]Гх. = 6,30, х = 1,26): *i Х{- X (Xi-xf 1,23 -0,03 0,0009 1,25 -0,01 0,0001 1,25 -0,01 0,0001 1,27 0,01 0,0001 1,30 0,04 0,0016 Тогда £(х. -J)2 = 0,0028, s2 = 0,0028 : (5 - 1) = 0,0007 (г/см3)2; s = V0,0007 = 0,026 г/см3. Практически вычисления проще вести по иной формуле, в особенности при наличии даже самой простой вычислительной техники. Легко показать, что формуле (5.11) равносильны следующие:
106 Глава 5 S2=M 2 —2 ПХ п-\ (5.13) При использовании для вычисления ЭВМ и электронных калькуляторов наиболее удобна формула (5.12). Для рассмотренного примера при этом получим: Л2 2 S = - 1,232+1,252+... + 1,302-^- 5-1 = 0,0007. В некоторых случаях требуется пусть менее точное, но быстрое получение стандартных отклонений. Если изучаемое распределение не слишком сильно отличается от нормального, то имеется простая возможность быстрой оценки s по известным значениям п и Л(л). Дело в том, что если в случае нормального распределения величины Z с параметрами 0 и 1 известна зависимость математического ожидания для R(Z,n) от п, где R(Z,n) ~ число стандартных отклонений, укладывающихся в размахе, то размах /?(я) любой другой нормально распределенной случайной величины с дисперсией а2 должен в среднем составлять R(n) = vR(z,ny (5.14) В этом выражении могут быть известны п и соответствующее ему значение R(Ztfl), а также выборочная оценка Л(л), что позволяет получить оценку для а: (5.15) л) Учитывая приблизительность такого способа получения оценки s, можно воспользоваться несколькими легко запоминающимися округленными значениями Zfe„), на которые нужно разделить полученный размах R^ в зависимости от объема выборки п (при п = 2 получится точное значение s): п RV») 2 1,41 5 2 10 3 25 4 100 5 Так, для плотности почвы при и = 5и /?(5) = 0,07 получим ^ «0,07: 2 = 0,035. Конечно, для серьезных статистических исследований этот способ рекомендовать нельзя (хотя подробные таблицы для R(Z,n) имеются), но он пригоден в качестве экспресс-метода, а также для контроля грубых просчетов при вычислении s и s2 по формулам (5.11) - (5.13).
Выборочные оценки и ошибки репрезентативности 107 5.7. Статистические оценки при объединении выборок Две или большее число выборок могут принадлежать одной генеральной совокупности и при этом очевидно, что полученные в разных выборках оценки, например среднего или дисперсии, оценивают одно и то же среднее или дисперсию. Если выборки действительно получены из одной генеральной совокупности или имеются основания исходить из такого допущения, то выборки можно объединить в одну и по такой суммарной выборке найти единые оценки интересующих исследователя констант. При наличии всех исходных данных, полученных при выборочных исследованиях, их можно просто рассматривать как одну выборку суммарного объема п = £«/ (где rij — объем отдельных выборок), для которой и вычисляют все необходимые оценки. Однако, если исследователя интересуют только среднее и дисперсия, а по отдельным выборкам соответствующие оценки уже имеются, то нет никакой необходимости обращаться к исходным данным, так как наличие для к выборок сведений об их объеме и, (/ = 1, 2 ... к) и значениях х. и Sj вполне достаточно для вычисления х и s объединенной выборки. Это тем более важно, если нет исходных значений случайной величины по выборкам (например, при использовании данных из литературных источников). Если объем суммарной выборки п = £«/, то Ev, х=^ , (5.16) п £s>,--i)+£«y(*-*,.)2 з2=^ 1 . (5.17) n-\ Из приведенных формул следует, что среднее х объединенной выборки вычисляется как среднее взвешенное, в силу чего для каждого х. в качестве веса берут объем соответствующей выборки «,. При вычислении s2 для объединенной выборки сумму квадратов отклонений отдельных значений от общего среднего х (числитель в формуле (5.17), являющийся аналогом числителя формулы (5.11)) находят как сумму двух членов, первый из которых есть сумма произведений j-x оценок дисперсий на соответствующее им число степеней свободы (л,- 1), а второй есть сумма квадратов отклонений частных средних х* от общего среднего х , взвешенных соответствующими объемами выборок wy. Естественно, стандартное отклонение объединенной выборки находят как корень из дисперсии s1, причем число степеней свободы, с которыми
108 Глава 5 Таблица 5.4 Вычисление х , s2 и s суммарной выборки по значениям частных средних х и стандартов s, в трех выборках объема п}, характеризующих порозность агрегатов (%) в пределах одной генеральной совокупности Величины "J х. Sj njxj (nj-\).s? njiXj-xf Номер частной выборки 1 10 38,6 2,4 386 51,84 1,6 2 10 37,8 2,9 378 75,69 1,6 3 20 38,2 2,7 764 138,51 0,0 Суммы bnjx. =1528 Е(/1,-1)-лг/ = 266,04 JLnJiXj - Зс )2 = 3,2 найдены эти оценки, равно сумме объемов частных выборок минус единица, т.е. п - 1. Техника подобных вычислений хорошо видна из таблицы 5.4. 5.8. Усреднение оценок дисперсий В ряде случаев заведомо известно, что выборки принадлежат разным генеральным совокупностям, в силу чего их объединение невозможно. В то же время имеются достаточные основания считать, что дисперсии случайных величин, характеризуемых разными выборками, одинаковы, и полученные оценки sf по каждой из этих выборок не дают оснований считать иначе (о проверке подобных допущений см. § 9.2 и 9.3). Тогда, усредняя к оценок S? Ог = 1,2,..., к), можно получить одну оценку s2 дисперсии а2. Подобная ситуация достаточно часто встречается при оценке сходимости (воспроизводимости) какого-либо метода анализа на заведомо разных объектах, имеющих близкие, хотя, как правило, различные, средние значения изучаемых свойств. Так как сходимость (воспроизводимость) обычно характеризуется дисперсией или стандартом и относится к характеристике качества анализа (методики), а не того, что анализируется, то усреднение оценок дисперсий в подобных случаях представляется вполне допустимым и разумным. Действительно, если при оценке сходимости классического метода валового анализа Si02 в почве на к = 6 образцах, проанализированных с одинаковой itj = 5 повторностыо, были получены стандартные отклонения sj (/ = 1, 2,..., 6): 0,044; 0,048; 0,035; 0,060; 0,065 и 0,041%, то желательность усреднения полученных оценок не вызывает сомнений.
Выборочные оценки и ошибки репрезентативности 109 Заметим, что усреднение стандартных отклонений всегда осуществляют с помощью усреднения дисперсий, так что усредненная оценка стандарта получается только как квадратный корень из усредненной оценки дисперсии. Усреднение оценок дисперсий производят с учетом их математического веса, в качестве которого выступают соответствующие каждой оценке s/ числа степеней свободы у, = л,- - 1, где rij - объему-й выборки: s2 = Z,;V j > = ^JKJ \ (5Л8) Усредненной оценке дисперсии соответствует число степеней свободы, которое на к меньше суммы объемов выборок (т.е. равно сумме чисел степеней свободы усредненных оценок). При равенстве объемов всех выборок («1 = «2 = • • • = Kjr = п) формула (5.18) принимает вид 52=^-. (5.19) Соответствующее этой оценке дисперсии число степеней свободы равно v = к{п - 1). Так, для усреднения стандартных отклонений, оценивающих аналитические ошибки определения Si02, сначала найдем усредненную оценку дисперсии по формуле (5.19), поскольку все к выборок имеют одинаковый объем: 2 0,0442 +0,0482 +0,0352 +0,0602 +0,0652 +0,0412 л ллос/ч s = = О,00250, 6 откуда получим s - 0,050%. Эти оценки получены для числа степеней свободы v = 6 (5 - 1) = 24. Если объем каждой из к выборок равен и,, а Ху есть i-e (i = 1,2, ..., nj) значение ву-й выборке, для которой оценка среднего равна х., то для каждой у'-й выборки число sfty - 1) = E(jCy - Xj )2, т.е. является суммой квадратов отклонений от своего среднего х.. Следовательно, для всех к выборок числитель формулы (5.18) представляет собой сумму суммы квадратов отклонений и равенство (5.18) можно записать в виде s2=-^ — . (5.20) Последняя формула показывает, что вычисление усредненной оценки дисперсии можно осуществить, не прибегая к предварительным вычисле-
по Глава 5 ниям оценки дисперсий по отдельным выборкам (если, конечно, они не были вычислены ранее). В частном случае, когда все к выборок имеют одинаковый объем rij = 2, усредненную оценку дисперсии при числе степеней свободы v = к можно найти по формуле (5.21) s2 = ш 2к где Rj = Ху - x2j есть размах ву-й выборке. Пусть, например, в к = 5 образцах почв с повторностью п = 2 было определено содержание ила пипеточным методом и получены следующие пары результатов: j ХЦ 1 ХЧ 1 21,1 21,8 2 24,2 25,5 3 22,7 21,5 4 27,8 26,9 5 25,4 25,1 Тогда для Rj получим соответственно значение 0,7; 1,3; 1,2; 0,9; 0,3, откуда по формуле (5.21) находим 2 0,72 +1,32 +1,22 +0,92 +0,32 4,52 Л лг s = --^ = -—— = 0?45 2-5 и соответственно s = 0,67 при v = 5. 10 5.9. Оценка коэффициента вариации Оценка коэффициента вариации v вычисляется по формуле, аналогичной (3.26): v = -100%. х (5.22) Так, если по выборке объема п = 5 для плотности почвы (г/см3) Зс = 1,09 и.* = 0,15, то v = ^100 = 13,8%. 1,09 Интерпретация оценок коэффициента вариации принципиально ничем не отличается от интерпретации соответствующих им констант; при этом следует учитывать, что выборочная оценка коэффициента вариации в отличие от самого коэффициента вариации есть величина переменная и случайная.
Выборочные оценки и ошибки репрезентативности 111 Хотя в большинстве случаев коэффициенты вариации колеблются в пределах от 0 до 50%, реже до 100%, указать придержки, какие коэффициенты считать большими, какие малыми, очень трудно. Помимо абсолютных оценок (например, коэффициент v = 0,001% всегда мал, так же как v = = 200% практически всегда велик), следует исходить еще и из специфики характеризуемого явления. Например, для водопроницаемости, измеряемой трубками диаметром 50 мм, в большинстве случаев v = 20-50% вполне обычен, a v = 5% нужно рассматривать как очень малый коэффициент вариации. В то же время при определении плотности почвы буриком объемом 100 см3 коэффициенты вариации редко превышают 5-10%, а значение v= 1-3% представляет собой вполне обычную величину, которую низкой считать нет особых оснований. В некоторых случаях, например, при изучении концентраций веществ, содержание которых в почве очень мало (микроэлементы, пестициды и пр.) вполне естественными могут быть коэффициенты вариации, превышающие 100% (иногда в 1,5-2 раза). Понятие о большом и малом коэффициенте вариации может меняться даже для одного и того же свойства в зависимости от объекта исследования. Например, коэффициенты вариации водопроницаемости, вполне обычные для тяжелых почв, можно расценивать как очень высокие на песчаных почвах, а коэффициенты вариации для рН и содержания подвижных форм элементов питания могут быть на порядок более высокими в окультуриваемых почвах, чем в целинных, вследствие неравномерности внесения извести и удобрений. Из этого следует, что для суждения об относительной величине коэффициента вариации необходимо хотя бы приблизительно знать средние величины этих коэффициентов для аналогичных случаев, т.е. для объектов, подобных изучаемому, и при использовании сходных методов анализа. 5.10. Ошибки репрезентативности Как уже неоднократно отмечалось, оценки, получаемые на основе выборочных наблюдений, в отличие от соответствующих констант представляют собой случайные величины. В связи с этим каждая такая величина имеет некоторый закон распределения и может быть охарактеризована теми или иными константами (средним, дисперсией, стандартным отклонением, коэффициентом вариации и др.). Например, для оценок среднего х могут существовать свое среднее //^ и дисперсия <тг, для оценки дисперсии s2 - среднее // 2 и дисперсия сг 2 и т.д. S S Существенным при этом является то, что целый ряд констант, характеризующих распределение оценок, зависит от объема выборки, по которой вычисляется оценка. Иначе говоря, для оценок как случайных величин
112 Глава 5 постоянство объема выборки является важным общим условием, определяющим (наряду с другими условиями) принадлежность отдельных оценок (практически получаемых или теоретически возможных) к одной генеральной совокупности (одной случайной величине). Последнее означает, например, что среднее содержание обменного кальция Зс = 7,42 мг -экв/100 г, полученное в выборке объемом п = 5, принадлежит к генеральной совокупности оценок того же свойства у того же объекта по той же методике, когда оценки получаются по выборкам объема п - 5. Если в тех же общих условиях испытаний изучаемого свойства выборка имеет объем п-в или любой другой объем п Ф 5, то оценка среднего принадлежит иной случайной величине. Случайные величины х , соответствующие разным и, имеют одинаковые средние, но по меньшей мере различаются своими дисперсиями. Очевидно, что чем больше выборка, тем с большей точностью должно быть получено среднее, иначе говоря, тем меньше шансов, что средняя оценка сильно отличается от генерального среднего. Возможность единично полученной оценки более или менее отклоняться от среднего связана с величиной стандартного отклонения в ряду оценок. Именно этот параметр распределения и зависит от объема выборки, уменьшаясь с ростом п. Минимальный объем выборки равен п = 1. При этом оценкой среднего х в каждой выборке является единственное полученное в результате испытаний значение х. Если в индексе в скобках указать объем выборки х („), то при л = 1 получим J/^ = х. В этом случае очевидно, что дисперсия 2 2 ряда средних а- равна дисперсии стх случайной величины X: 2 2 При равенстве объема выборки п объему генеральной совокупности Дооценка среднего равна среднему х(ЛГ) = ц*, т.е. превращается в константу, 2 2 2 а соответственно сг- = 0. При 1 < п < N имеем ст, > <т- > 0 и при л, близких к N9 дисперсия <т- близка к нулю. >) Аналогичная зависимость дисперсии оценок от объема выборки наблюдается и для оценок других констант. Ясно, что чем меньше интервал, в пределах которого могут колебаться значения оценок, тем лучше точечная оценка характеризует константу, тем меньше погрешность в оценке константы. Так как характеристикой варьирования оценок около своего среднего может быть стандартное отклонение, то применительно к оценкам его называют ошибкой соответствующей оценки. Учитывая, что размер этой ошибки является функцией объема выборки, соответствующие ошибки получили название ошибок выборочности, или ошибок репрезен-
Выборочные оценки и ошибки репрезентативности ИЗ тативности. Таким образом, для оценок среднего jc ошибкой среднего является стандартное отклонение а-, для дисперсии s2 - это а 2, для ко- s эффициента вариации v - это av и т.д. 5.11. Ошибка среднего Среди ошибок репрезентативности наиболее часто представляет интерес ошибка среднего. Чтобы показать, как она определяется, допустим, что исследуемая случайная величина X распределена с дисперсией от2, а выборка имеет фиксированный объем п. Представим выборочное среднее в следующем виде: *=^=^=X-*/=-*i+-x2+-+-v (*) п п п п п Заметим, что в выражении (*) каждое из слагаемых представляет собой произведение значения случайной величины х на постоянное число (поскольку п - величина постоянная). Функция такого вида, как это следует из формулы (3.21) имеет дисперсию С другой стороны, в выражении (*) х есть сумма п значений случайных величин, имеющих одинаковые дисперсии (**), а согласно формуле (3.22), дисперсия такой суммы равна сумме дисперсий слагаемых, т.е. П Л - 1 2 п 1 14 2а2=п- п п откуда и соответственно о£=— (5.23) ^=-f. (5-24) Итак, стандартное отклонение для совокупности оценок среднего, т.е. ошибок среднего, обратно пропорционально квадратному корню из объема выборки. Это значит, что если стандарт распределения случайной величины известен, то для заданного объема выборки ошибку среднего можно легко вычислить, причем эта ошибка представляет собой константу (поэтому и обозначена греческой буквой).
114 Глава 5 Вычисление ошибки по формуле (5.24) обычно практически невозможно ввиду отсутствия сведений о точной величине дисперсии о2 случайной величины. Однако если известна ее выборочная оценка, то заменяя ст на s, получим оценку ошибки среднего: sj=-j=. (5.25) sin Именно эту величину обычно и называют ошибкой среднего, однако обозначение ее латинской буквой подчеркивает, что это по сути не сама ошибка, а ее оценка. В этом отношении обозначение ошибки среднего (и других ошибок репрезентативности) буквой /и, широко распространенное до недавнего времени, менее уцачно, к тому же при подобном обозначении оказывается замаскированной принадлежность ошибок к стандартным отклонениям. Из формулы (5.25) следует, что для получения ошибки среднего нет необходимости располагать несколькими выборками одинакового объема. Достаточно иметь одну выборку с объемом п > 2, чтобы получить оценки дисперсии и среднего, а также и его ошибки. Ошибка среднего определяется величиной среднего квадратического отклонения и объемом выборочной совокупности. Чем больше варьирование изучаемого свойства и, значит, чем больше а, тем больше оказывается и о- (или s- ) при данном п. С другой стороны, как бы ни было велико среднее квадратическое отклонение, при достаточном увеличении числа наблюдений п можно получить сколь угодно малое sY. Это, как увидим ниже, обычно используют при планировании объема выборок. Так, если мощность пахотного слоя определяется с п- 5, характери- 9 f% зуется х = 24,3 сми5 = 2,6 см, то s- =-^=r= 1,2 см. Это означает, что если у/5 бы в пределах исследуемого участка почвенного покрова измерение мощности пахотного слоя проводилось с повторностью п — 5 многократно, то оценки средней мощности варьировали бы со средним квадратическим отклонением, близким к 1,2 см. 5.12. Ошибки других оценок Ошибки дисперсий и стандартных отклонений обычно не представляют практического интереса, так как о точности оценок этих констант можно судить, воспользовавшись иными, более корректными подходами, о чем речь пойдет ниже. Однако с принципиальной точки зрения эти ошибки заслуживают внимания, поскольку они принадлежат к группе ошибок репрезентативности, иллюстрируют случайность соответствующих оценок и единообразие в подходе к характеристике их варьирования. Поэтому приведем ошибки для некоторых оценок.
Выборочные оценки и ошибки репрезентативности 115 При нормальном распределении случайной величины X и больших объемах выборок (например, при п > 100) оценка дисперсии s2 имеет стандартное отклонение Vn-r (5.26) а для оценки среднего квадратического отклонения s ошибку можно найти по формуле s0 = ЛИ' При малых объемах выборки п оценку ss находят по формуле s s„ =■ л/2(«-1) ' Для коэффициента вариации v ошибка sv составляет (5.27) (5.28) s.. = vJo,5+[ —J ^ 10,5 + 0,0001-7^ или менее точно: s„ = л/2Й (5.29) (5.30) Среднее абсолютное отклонение 0, вычисляемое по формуле (5.10), являясь оценкой соответствующего генерального значения, также имеет свою ошибку репрезентативности, которая при условии нормальности распределения величины х приближенно равна ле -f!i"°-603i- Ошибку медианы .Ущеа можно вычислить по формуле S 3med ^' (5.31) (5.32) где с - некоторый коэффициент, зависящий от п. В выборке объемом п = 2 коэффициент с в точности равен единице (при этом med = x и smed=Sj) и с увеличением п постепенно возрастает: в случае нормального распределения он стремится к^ ирип п с 4 1,09 6 1Д4 8 1,16 10 1,18 12 1,19 20 1,21 00 1,25
116 Глава 5 5.13. Ошибки функций от случайных величин Часто полученные в результате выборочных наблюдений оценки среднего используют в дальнейшем для нахождения тех или иных величин, представляющих собой функцию от этих средних. Так, средние значения плотности почвы используют для вычисления массы того или иного слоя почвы, а совместно со средними значениями содержания какого-либо вещества (например, воды или элемента питания) - для оценки запасов соответствующего вещества. В подобных случаях функция, будучи зависимой от оценки, т.е. от случайной величины, сама оказывается случайной величиной, а следовательно, имеющей варьирование, которое можно охарактеризовать соответствующей ошибкой (стандартным отклонением). Пусть у - функция от случайной величины ЛГ, ошибка репрезентативности которой есть s-, величины а, Ь, к- постоянные, а е -основание натуральных логарифмов. Тогда ошибка функции sy в зависимости от вида функции может быть вычислена по следующим формулам1: если у = а + х , то sy = s^; (5.33) если >> = а х , то sy = \a\ s-; (5.34) еслиу = ^,тоз =\y\^-J-^; (5.35) X У X х если у = х ,то s =x ~ -s-<<J\k\ ? (5.36) если у = урс , то s = * ; (5.37) у у/2х если у = а сЬх, то sy =| Ъ \ ys-; (5.38) если у = a\gbx , то sv = ~ztst. (5.39) у х В том случае, когда у есть функция двух или большего числа случайных величин, ее ошибка оказывается функцией ошибок этих величин. Наиболее просто ошибку функции можно найти тогда, когда случайные величины, выступающие в качестве аргументов, взаимно независимы. Так, для суммы или разности двух величин х и z , имеющих ошибки .у- и sY, ошибка равна: если>> = х - z , или>> = х + z , то s = ^Js^ + s~ . (5.40) Степень приближения формул (5.35) - (5.39) невысока и пользоваться ими нужно очень осторожно.
Выборочные оценки и ошибки репрезентативности 117 Это правило справедливо для любого числа слагаемых и вычитаемых при условии их независимости. Ошибки произведения и частного оценок средних независимых случайных величин в общем виде допустимо находить по следующей формуле: еслиу=х z или у = — , то s = yJ[-zr + -zr • (541) Z У >Щ4 V х z При у = х • z эту формулу можно переписать в виде *,=>/0%)2+(*%)2, (5-42) а при у = — в виде z J(zs-)2+(xs-)2 z Для иллюстрации использования некоторых из приведенных выше формул допустим, что требуется оценить запас влаги в слое 0-25 см, если в слое 0-10 см плотность почвы dx с соответствующей ошибкой s^ равна 1,02 ±0,03 г/см3, а абсолютная влажность wx и ее ошибка s- равны 29,51+0,72%. В слое 10-25 см значения этих свойств таковы: d2 ±sj = 1,13 ± 0,02 г/см3 и w2 ±s-2 = 23,79 ± 0,65%. Запас воды Wв чст- вертьметровом слое почвы вычисляется как сумма запасов воды W\ и JV2 в слоях 0-10 см и 10-25 см: W=WX + W2. Запас воды Wt в /-м слое, выраженный в мм, вычисляется по формуле ^ = 0,1^/*,, (*) где wt - абсолютная влажность почвы в %, d( - плотность почвы в г/см3, hi - мощность слоя в см. Учитывая, что hi = 10 см и h2 = 15 см, получаем: Wx = ОД • 29,51 • 1,02 • 10 = 30,1 мм, W2 = 0,1 - 23,79 • 1,13 • 15 = 40,3 мм, W= 30,1 + 40,3 = 70,4 мм. Из входящих в формулу (*) величин выборочными являются d. и iv. (выборочной может быть и ht), а поэтому ошибка sw для каждого отдельного г-го слоя будет определяться ошибками средней плотности почвы и ее влажности. Согласно формуле (5.42), для произведения^^ ошибка s- j оказывается равной
118 Глава 5 V(29,51-0,03)2 +(1,02-0,72)2 = 1,15. Так как А и 0,1 - величины постоянные, то ошибка sw в силу формулы (5.34) есть 0,1 • 10 • 1,15 = 1,15 мм. Аналогично для слоя 10-15 см получим s- z = V(23,79 • 0,02)2 +(1,13-0,65)2 = 0,88; sWi =0,1150,88 = 1,32 мм. Зная ошибки в оценке среднего запаса влаги по отдельным слоям, легко определить и ошибку sw суммарного запаса влаги в слое 0-25 см. Согласно формуле (5.40) sw = ^1, 152 +1,322 = 1,8 мм. При использовании формул (5.40) -(5.43) существенно выполнение условия независимости переменных. Это можно проиллюстрировать на примере вычисления порозности почвы. Пусть для некоторого горизонта почвы средняя плотность твердой фазы с ее ошибкой равна g±s-= 2,67 + 0,02 г/см3, а плотность почвы характеризуется значениями d = 1,24 г/см3 И5- 0,04 г/см3. Для вычисления порозности Р существуют две равноценные формулы: s-d Р = ± 100 (*) g /> = 100-— 100, (**) g дающие одинаковую величину порозности. В данном случае Р = 53,6 %. Для нахождения ошибки sP порозности, вычисляемой по формуле (*), следует прежде всего найти ошибку sg^ разности g-d. Согласно формуле (5.40), имеем (в дальнейшем нам потребуется величина s d9 поэтому квадратный корень мы извлекать не будем): s2g_d = 0,022 + 0,042 = 0,0020. Теперь, учитывая, что g -d = 1,43 и используя формулы (5.43) и (5.34), получим 4=100 У2.672-0,002+1>432-0,022=1>7% 2,672
Выборочные оценки и ошибки репрезентативности 119 Звездочка обозначает, что ошибка sP рассчитана для функции вида (*). Если порозность вычисляется по формуле (**), то согласно формулам (5.43) и (5.34) с учетом равенства (5.33), ошибка порозности составит 2,672 Итак, ошибка в одном случае оказалась равной 1,5, в другом-1,7%. Причина этих различий заключается в том, что при вычислении s не было соблюдено условие независимости средних: вычисление ошибки отно- шения по формуле (5.43) неправомерно, поскольку разность g-d g зависит от g. Если порозность представлена в виде функции (**) от g и d, то при вычислении ошибки sp нарушения принципа независимости нет (вообще говоря, оно остается, поскольку в принципе d не независимо от g, но этой зависимостью допустимо пренебречь по причине ее малости). В итоге получаем P±sP = 53,6 ± 1,5 %. 5.14, Качество оценок Выше мы отмечали, что для одной и той же константы ошибку можно получить разными способами. Так, для среднего арифметического в принципе можно взять в качестве оценки полусумму лимитов (формула (5.5)), хотя чаще используют среднее взвешенное (формулы (5.6) или (5.7)). В случае симметричности распределения оценкой среднего арифметического может служить выборочная медиана (формулы (5.2) -(5.4)), а иногда и мода (формула (5.1)). Аналогичная неоднозначность подходов существует и при нахождении оценок дисперсии, коэффициента вариации и других констант. Очевидно, что оценки, полученные разными способами, отличаются не только сложностью и трудностью их вычисления, но и некоторыми качественными особенностями. Качество оценок может проявляться по- разному, и некоторые из качеств оценок полезно знать. Прежде всего заметим, что, будучи переменными случайными величинами, оценки могут быть охарактеризованы математическими ожиданиями. Очевидно, что наиболее желательна ситуация, когда среднее взвешенное значение оценки равно оцениваемой константе, но это бывает далеко не всегда. Равенство или неравенство математических ожиданий оценок и соответствующих им констант служит критерием для определения такого качества ошибок, которое получило название смещенности. Если математические ожидания при любом объеме выборки равны оцениваемому параметру или константе, то такие оценки называют несмещенными. Для смещенных оценок их математическое ожидание от-
120 Глава 5 лично от оцениваемой постоянной величины. Например, выборочное среднее, вычисляемое по формулам (5.6) и (5.7), является несмещенной оценкой генерального среднего ц, так как Е(^с) = Е(х) = ц при любых п. Такая же несмещенная оценка для а2 есть s1, вычисляемая по формуле (5.11), поскольку E(s2) = о2. Если сумму квадратов центральных отклонений ^(х. -х) разделить на и, а не на п - 1, как в формуле (5.11), то полученный средний квадрат ^=-2>.--*) (5.44) также является оценкой дисперсии, но оценкой смещенной, поскольку \2* 2>,-*г п <<т2. Понятие смещенности, как видно, относится к средним, а не к отдельным значениям оценок. В связи с этим можно утверждать, что в среднем смещенная оценка дисперсии, полученная по формуле (5.44), занижает оцениваемый параметр а2, то это совсем не означает, что каждая конкретная единичная смещенная оценка отличается от соответствующего параметра больше, чем несмещенная оценка. Так, в пример с плотностью почвы (см. § 5.6) было получено значение s2 = 0,00070 (г/см3)2- Согласно формуле (5.44), sl = 0,00056 (г/см3)2. Хотя последняя оценка смещенная, это отнюдь не дает оснований утверждать, что оцениваемая величина о2 ближе к 0,00070, чем к 0,00056. Сравнение формул (5.11) и (5.44) показывает, что по мере роста п раз- личие между оценками s и я* уменьшается. Оценки, которые с увеличением п стремятся к оцениваемой константе, называются состоятельными оценками. Несмещенные оценки всегда являются состоятельными. В этом отношении как выборочное среднее арифметическое, так и обе оценки дисперсии, смещенная и несмещенная, являются состоятельными оценками. 5.15. Оценки коэффициентов асимметрии и эксцесса и их ошибки Вычисление несмещенных оценок коэффициентов асимметрии и эксцесса производятся по достаточно громоздким формулам и обычно оказывается мало оправданным потому, что точное значение таких коэффициентов, как правило, не слишком необходимо, а ошибки этих коэффициентов при этом настолько велики, что смещенностью вполне допустимо пренеб-
Выборочные оценки и ошибки репрезентативности 121 речь. По этой причине оценки А и Е коэффициентов асимметрии а и эксцесса £ находят по формулам наиболее простого вида: А = ^У , (5.45) Е = —^-! '— - 3 (5.46) [Е(*,-зо2] или, если оценка дисперсии s2 уже вычислена: Z(*/-*)3 Л = ^х,3 > (5-47) £=^ ' '—3. (5.48) Соответственно ошибки Л и £ могут быть вычислены по формулам *л~^< (5-49) *£*^, (5.50) из сравнения которых видно, что ошибка коэффициента эксцесса в 2 раза больше ошибки коэффициента асимметрии: sE = 2sA. 5.16. Оценка доли и ее ошибка Исследователю сравнительно редко бывают известны генеральные доли с наличием признака Р или его отсутствием Q, как, например, доля березы в колке, где все деревья наперечет и объем генеральной совокупности деревьев конечен. Обычно о доле приходится судить на основании выборки того или иного объема я, среди элементов опробования которой некоторое их число /+. оказывается с наличием признака, а /_ - с его отсутствием. При этом/, + f_ = /г, а Р=—,Ч=— (5.51) п п представляют собой оценки долей Р и Q, причем/? + q - 1.
122 Глава 5 Так, если при оценке всхожести из п = 100 зерен всхожими оказались /+ = 0,90, тор - 0,90. Оценку дисперсии семян по всхожести по аналогии с (3.34) можно определить по формуле s2 =/>(!-/>), (5.52) и она окажется равной s1 = 0,90 • (1 - 0,90) = 0,09. Однако существенно больший интерес представляет ошибка доли, характеризующая возможную вариацию р при данном объеме выборки л. По аналогии с обычной ошибкой среднего ошибку доли sp можно вычислить из выражения В рассматриваемом примере она составляет , =/^М=о,оз. р V loo Ошибка доли всегда меньше 0,5 и при заданном постоянном п достигает максимального значения при/? = q = 0,5. Вопросы для самоконтроля 1. В чем принципиальное отличие констант распределения от их оценок? 2. Зависит ли возможность получения оценок моды и медианы от уровня измерений признака и объема выборки? 3. Чем отличаются оценки среднего арифметического, полученные разными способами? 4. В чем отличие и что общего у смещенной и несмещенной оценок дисперсии? 5. Что показывают ошибки репрезентативности и к чему они относятся - к константам или к их оценкам? 6. Что общего между всеми ошибками репрезентативности? 7. Можно ли провести аналогию между зависимостью случайных величин от особенностей элементов опробования и зависимостью оценок от объемов выборок? 8. Что такое качество оценок? 9. Чему может быть равна ошибка доли и почему?
Глава 6 СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ И ИХ ПРОВЕРКА 6.1. Основные понятия Исследователь всегда вынужден делать заключения о генеральной совокупности на основании анализа выборки. Действительно, в силу выбо- рочности полученных сведений оценки одной и той же константы в разных выборках обычно бывают неодинаковыми, а поэтому различия в оценке еще не являются свидетельством того, что оцениваемые константы не равны между собой. Это представляется достаточно ясным и не вызывающим сомнений до тех пор, пока выборки принадлежат одной генеральной совокупности. Однако обычно выборки принадлежат в чем-то различным генеральным совокупностям, и тогда появляется искушение все различия в результатах выборочных наблюдений объяснять тем, что отличны друг от друга генеральные совокупности и соответствующие им константы. В таких случаях обычно главным критерием оказывается "похожесть на правду", и если выборочные показатели этому критерию удовлетворяют, то выводы из их сравнения рассматриваются соответствующими истине, т.е. отражающими свойства генеральных совокупностей. Тем не менее, непротиворечивость логике изучаемого явления в подобных случаях не всегда может служить убедительным аргументом в пользу выдвигаемого утверждения. Так, например, вполне логично считать, что промывка почвы должна приводить к уменьшению величины плотного остатка. Поэтому если соответствующие выборочные средние до и после промывки оказываются равными 1,23 и 1,12%, то исследователь считает себя вправе настаивать на подобном заключении. Однако скептик может сказать, что промывка величину плотного остатка не изменила, а наблюдаемые различия всего лишь следствие случайной вариации. Если в результате внесения нового вида удобрения по результатам полевого опыта урожайность зерновой культуры оказалась выше на 4 ц/га, то в отличие от энтузиаста исследователя осторожно оценивающий ситуацию специалист может усомниться в реальности прибавки, особенно если
124 Глава 6 этому специалисту нужно принимать решение об организации производства соответствующего удобрения. Очевидно, что одни логические рассуждения при этом не могут помочь в решении вопроса, какому из утверждений следует отдать предпочтение. Круг вопросов аналогичного характера может быть бесконечен, и во всех подобных случаях суждения о наличии сходства или различия, о равенстве или неравенстве всегда имеют характер лишь более или менее правдоподобных допущений, причем в силу неполноты информации любому предположению может быть противопоставлено другое, отвергающее первое. Естественно, что эти допущения касаются свойств генеральных совокупностей, поскольку именно они являются объектом статистических исследований, а выборка служит лишь источником информации об этих совокупностях. Некоторое утверждение о свойствах генеральной совокупности, которой принадлежит выборка, представляет собой статистическую гипотезу. Статистические гипотезы разделяют на нулевые и альтернативные. Нулевая гипотеза - это утверждение об отсутствии различий. Например, допущение, что среднее ц равно постоянному числу а, записывается как Н0: ju = a. Нулевой гипотезе противопоставляется некоторая альтернативная гипотеза Нь которую можно сформулировать по-разному, например как Ньц^а или Н2: ц > а. Содержание нулевых или альтернативных гипотез, как мы увидим ниже, бывает весьма различным и касается предположений не только о константах, но и о более общих особенностях генеральных совокупностей, например о соответствии закона распределения изучаемой случайной величины некоторому стандартному закону (например, нормальному). Статистическая гипотеза может быть подвергнута проверке, суть которой сводится к выяснению, насколько полученные в выборочном наблюдении данные соответствуют выдвигаемой гипотезе. В результате такой проверки нулевая гипотеза либо принимается, либо отвергается в пользу альтернативной. Объективизация процедуры проверки гипотез осуществляется с помощью соответствующих критериев или тестов, представляющих собой определенный набор правил, позволяющих принять или отклонить выдвигаемую нулевую гипотезу. В основе критерия обычно лежит случайная величина с известным законом распределения, единичное значение которой вычисляется по результатам выборочных наблюдений с учетом выдвигаемой нулевой гипотезы. Подобного рода случайные величины нередко называются статистиками для проверки гипотез.
Статистические гипотезы и их проверка 125 Правила, согласно которым нуль-гипотеза отвергается или принимается, носят вероятностный характер и определяются исходя из задач исследования. Всю область значений случайной величины, используемой в качестве статистики для проверки гипотезы (критерия), разделяют на область допустимых значений и область маловероятных значений. Значение, соответствующее границе между этими областями, называется критическим значением и устанавливается в зависимости от принятого уровня значимости а, представляющего собой ту вероятность, с которой значение случайной величины может оказаться в критической области. Если полученное в результате проведенного исследования значение случайной величины попадает в критическую область, то нулевая гипотеза отвергается. Принятие или отвержение одной и той же нулевой гипотезы может зависеть от того, какова альтернативная гипотеза. Например, гипотеза Н0: \х = 0, не отвергнутая при Щ: ц Ф 0, может быть отвергнута с тем же а при Н{:\х>0. Отклонение нулевой гипотезы при попадании значения случайной величины в критическую область нельзя рассматривать как доказательство того, что нулевая гипотеза неверна, так как значения, выходящие за пределы области принятия гипотезы Щ могут иметь место и в случае правильности нуль-гипотезы, и вероятность такого события известна - она равна а. Отклоняя правильную нулевую гипотезу, мы допускаем так называемую ошибку первого рода. Принятый уровень значимости а характеризует риск допустить такую ошибку. Иначе говоря, уровень значимости характеризует ту вероятность ошибки, которой решено пренебрегать в данном исследовании. Вероятность Р = 1 - а, которая соответствует области принятия нулевой гипотезы, называется доверительной вероятностью. Если значение случайной величины попадает в такую область, то нулевая гипотеза при принятом уровне значимости а (или доверительной вероятности Р) не отвергается, но это тоже ни в коей мере нельзя расценивать как доказательство правильности нулевой гипотезы, так как в действительности она может оказаться неверной. Например, ц может отличаться от а, но если разность между ними относительно невелика, то нулевая гипотеза //0: ц = а чаще будет оставаться в силе, нежели отвергаться. Нужно иметь в виду, что в некоторых случаях a priori известно, что нулевая гипотеза неверна, и тем не менее ее следует проверять. Так, практически мы не имеем дела со свойствами, распределение которых является строго нормальным. Это делается очевидным, если вспомнить, что нормально распределенная случайная величина должна принимать значения от -оо до +оо. Тем не менее, гипотезу о нормальности распределения достаточно часто проверяют, но не для того
126 Глава 6 чтобы проверить ее правильность, а чтобы выяснить допустимость аппроксимации изучаемого распределения нормальным законом. Принятие нулевой гипотезы, когда она неверна, носит название ошибки второго рода. Вероятность такой ошибки обозначается р. С вероятностью 1 - Р принятия нулевой гипотезы, когда она верна, связывается в математической статистике понятие мощность критерия. Очевидно, что уменьшая вероятность ошибки первого рода (а), мы неизбежно увеличиваем вероятность ошибки второго рода р. Выбор уровня значимости а (а устанавливается обычно а, а не Р) определяется условиями проведения эксперимента, ответственностью выводов и учетом того, ошибка какого рода наиболее нежелательна. В большинстве случаев принимают а = 0,05 (5%), что соответствует доверительной вероятности Р = 0,95. В большинстве случаев предпочтение нулевой гипотезы оказывается равносильным признанию безрезультатности проведенных исследований. Именно так можно оценить результаты эксперимента, если нет оснований считать, что тот или иной фактор влияет на изучаемый признак или нет оснований говорить о наличии динамики свойства. Нередко это бывает связано с недостаточностью объема выборок, увеличение которых по техническим или иным причинам не представляется возможным. В подобных случаях бывает допустимо увеличить уровень значимости до 10% (а иногда и до 20%), но это означает, что в среднем из 10 (или из 5) случаев в одном мы будем отклонять правильную нулевую гипотезу, т.е. надежность выводов окажется очень небольшой. Для проверки спорных положений, при ответственных рекомендациях выводы должны быть обеспечены с доверительной вероятностью 0,99 или 0,999 (с 1%-м или 0,1%-м уровнем значимости). Отметим два важных обстоятельства. Во-первых, общераспространенные термины "принять гипотезу", "отвергнуть гипотезу", по своей сути являются сокращением более тонких понятий таких, как "нет достаточных оснований, чтобы нулевую гипотезу считать неверной" или "более предпочтительно считать, что верна альтернативная гипотеза, нежели нулевая". Во-вторых, проверка статистической гипотезы не дает возможности что- либо доказать. Результаты проверки всегда носят вероятностный характер и всегда остается вероятность того (хотя подчас и ничтожно малая) , что принятая гипотеза, нулевая или альтернативная, не соответствует действительности. Поэтому при статистическом анализе результатов испытаний следует избегать выражений со словом "доказано" (например, "мы доказали, что различия существуют"), заменяя их более слабыми утверждениями ("можно считать, что средние отличны друг от друга", "допустимо рассматривать распределение как нормальное" и пр.), отмечая одновременно уровень значимости как меру надежности делаемых заключений.
Статистические гипотезы и их проверка 127 6.2. Статистики для проверки гипотез Существует достаточно много статистик для проверки гипотез. Мы ограничимся рассмотрением лишь нескольких наиболее важных распределений, используемых для построения критериев. 1. Распределение Стьюдента. С появлением этого распределения в статистике началась новая эра, поскольку оказалось возможным по мало- объемным выборкам делать столь же статистически обоснованные заключения, как и по выборкам большого объема. Распределение Стьюдента - это распределение отклонений нормально распределенной случайной величины от генерального среднего, нормированных выборочной оценкой среднего квадратического отклонения. Это распределение зависит от числа степеней свободы v, с которым найдена оценка среднего квадратического отклонения. Классическим примером распределения Стьюдента является распределение стандартизованных отклонений < = ^, (6.1) где х - нормально распределенное выборочное среднее; ц - генеральное среднее; s- - ошибка среднего, вычисленная по выборке объема n; t - значение случайной величины, распределенной по Стьюденту с v = п - 1 числом степеней свободы. Кривая распределения Стьюдента похожа по внешнему виду на кривую нормального распределения: она одновершинна, симметрична, ее ветви асимптотически приближаются к оси абсцисс (рис. 6.1). При v—>оо распределение Стьюдента стремится к нормальному распределению с параметрами ц = 0 и сг - 1. Наибольшее отличие распределения Стьюдента от нормального наблюдается при v = 1, когда при значениях переменной величины t, близких к среднему, плотность вероятности распределения Стьюдента меньше, а Рис. 6.1. Кривые нормального распределения (z, сплошная линия) и распределения f-Стьюдента при v = 3 (пунктирная линия)
128 Глава 6 при значениях, сильно отличающихся от среднего, больше, чем при нормальном распределении. Для распределения Стьюдента составлены таблицы. Наиболее распространенными являются те из них, в которых указаны критические значения ta, больше которых единичное случайно полученное значение | t \ при данном v может произойти с вероятностью а (см. табл. III Приложения). Из табл. Ш видно, что для одинакового уровня значимости а критические значения ta с увеличением v уменьшаются, причем особенно интенсивно при малых v и а. Так, при увеличении числа степеней свободы с 1 до 2 значение to$5 уменьшается почти в 3 раза (с 12,71 до 4,30), a /0,oi ~ более чем в 6 раз (с 63,66 до 9,92). При дальнейшем росте числа степеней свободы уменьшение ta постепенно замедляется. Например, если v = 10, то %5= 2,23, а *o,oi = 3,17, в то время как при v = оо (т.е. при нормальном распределении) 'о,о5= 1,96 и fe,oi =2,58. Зависимость ta от v и а заслуживает внимания, поскольку она во многом определяет стратегию выборочного исследования, в частности по- вторность в проведении исследований. 2. Распределение хи-квадрат. Допустим, что случайная величина Z распределена нормально с параметрами \^ = 0 и az = 1. Если взять п случайных значений z и найти сумму их квадратов, то полученная сумма будет представлять собой значение новой случайной величины, обозначаемой %2 (хи-квадрат): Х2 = ^. (6.2) Очевидно, эта случайная величина, будучи суммой квадратов, всегда положительна и должна зависеть от числа слагаемых. Величина %2 может принимать значения от 0 до +оо. Вид кривой распределения существенно зависит от числа слагаемых, точнее, от числа независимых слагаемых, т.е. от числа степеней свободы v. При очень малых v распределение сильно асимметрично (рис. 6.2), но асимметрия быстро уменьшается по мере увеличения числа степеней свободы. Для распределения %2 среднее число равно числу степеней свободы, а дисперсия - удвоенному числу степеней свободы: //2=v,(T2=2v. Так как закон распределения y известен, то х х не составляет большого труда вычислить критические значения ха > СЛУ" чайно превысить которые при заданном v можно с вероятностью а (см. табл. ^Приложения). Очевидно, эта случайная величина, будучи суммой квадратов, всегда положительна и должна зависеть от числа слагаемых. Величина %2 может
Статистические гипотезы и их проверка 129 «>(Х2)| . ом И=1 о,зН л \V'v=2 Н \\ 0,0-1—■—I—' ГТ^Гт~т ■ i ■—i—.—г ' 0 2 4 6 8 10 12 X2 Рис. 6.2. Кривые распределения х с различным числом степеней свободы v принимать значения от 0 до +оо. Вид кривой распределения существенно зависит от числа слагаемых, точнее, от числа независимых слагаемых, т.е. от числа степеней свободы v. При очень малых v распределение сильно асимметрично (рис. 6.2), но асимметрия быстро уменьшается по мере увеличения числа степеней свободы. Для распределения %2 среднее число равно числу степеней свободы, а дисперсия - удвоенному числу степеней 2 9 свободы: //2=v,cr2=2v. Так как закон распределения y известен, то х х не составляет большого труда вычислить критические значения ха > СЛУ" чайно превысить которые при заданном v можно с вероятностью а (см. табл. ^Приложения). 3. Распределение F Фишера. Если имеются две оценки s^ и ?s\ одной и той же дисперсии сг2 нормально распределенной случайной величи- 2 2 *, ны, то, принимая, что sx > s2 , можно найти отношение этих оценок 2 F = \, (6.3) представляющее собой случайную величину, распределение которой было изучено Фишером, названо его именем и обозначено буквой F. Будучи отношением двух случайных величин, распределение F зависит от числа степеней свободы vi и v2, с которыми найдены оценки дисперсий в числителе (vj) и в знаменателе (V2). Так как с увеличением Vi и \2 обе оценки стремятся к одному и тому же параметру ст2, то, как легко догадаться, F при этом стремится к единице. Чем меньше Vi и v2, тем больше шансов получить в случайном порядке отличные от единицы значения F. В этом легко убедиться, если обратиться к таблице критических значений Fa, ве-
130 Глава 6 роятность превысить которые равна а (см. табл. V Приложения). Поскольку в отличие от величин t и %2 случайная величина F зависит от двух чисел степеней свободы, таблица квантилей распределения F имеет два входа - искомые значения Fa находятся на пересечении столбца и строки, соответствующих числам степеней свободы для числителя и знаменателя (т.е. числам степеней свободы, с которыми найдены большая и меньшая оценки дисперсии соответственно). Вопросы для самоконтроля 1. Что называется статистической гипотезой и зачем нужны альтернативные гипотезы? 2. Что собой представляют критерии проверки гипотез и на чем они основываются? 3. Что такое уровень значимости и доверительная вероятность? 4. Почему при проверке статистических гипотез нельзя ничего доказать и какой смысл имеют выводы из проводимой оценки гипотез? 5. Что определяет выбор критического значения статистики для проверки гипотезы? 6. В чем сходство и различие распределений Стьюдента и нормального? При каких условиях различия в этих распределениях особенно велики и какие практические выводы можно сделать из этого? 7. Что является случайной величиной хи-квадрат и от чего зависят особенности ее распределения? 8. Каковы особенности распределения статистики F Фишера? Как зависит критическое значение Fa при заданном а от числа степеней свободы, с которыми найдены оценки дисперсий?
Глава 7 СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОЙ ВЫБОРКИ 7.1. Общие вопросы анализа выборки Уже по одной выборке можно узнать немало интересного об изучаемой случайной величине, нужно лишь уметь извлекать содержащуюся в ней информацию, количество которой во многом зависит от объема выборки и априорных знаний о свойствах изучаемого объекта. Так, если можно считать, что свойство имеет распределение, близкое к нормальному, то единичное значение можно рассматривать в качестве точечной оценки среднего арифметического (а также моды и медианы). Если же распределение заведомо асимметрично, то единичное значение скорее может служить оценкой моды. Если известно, что вариация значений свойства относительно невелика (достаточно часто это наблюдается для рН и содержания ила), то даже однократный анализ свойства может дать представление о границах его вариабельности. Однако численную оценку дисперсии, стандартного отклонения и коэффициента вариации можно получить лишь в том случае, когда выборка содержит хотя бы два результата измерения. По мере дальнейшего возрастания объема выборки уже можно получить оценки коэффициентов асимметрии и эксцесса, широкого набора квантилей, появляется возможность составить суждение о целесообразности аппроксимации изучаемого распределения тем или иным законом. С ростом объема выборки уменьшаются ошибки оценок, увеличивается надежность выводов при проверке гипотез. 7.2. Выбраковка Выбраковка представляет собой процедуру отбрасывания одного или нескольких значений (либо наименьших, наибольших в выборочной совокупности, либо и тех и других) на том основании, что они слишком отличаются от основной массы остальных результатов. Выбраковку обычно
132 Глава 7 осуществляют на первых же этапах анализа выборки и очень часто производят "на глаз". Например, если при анализе одного и того же образца почвы на содержание гумуса получены результаты (в %): 1,51; 1,52; 1,53; 1,53; 1,61, то последнее значение почти наверняка может быть выбраковано, и основания для этого кажутся вполне очевидными. Выбраковка - процедура весьма ответственная, особенно, когда выборка мала по объему, так как в этом случае существенно меняются все оценки и их ошибки. Однако и в выборках, насчитывающих несколько десятков значений, отбрасывание даже одного из них может существенно изменить статистические оценки, в особенности, коэффициентов эксцесса и асимметрии, в меньшей мере - дисперсии, еще меньшей - среднего, и практически не изменяется оценка медианы. Если никаких нарушений в общих условиях проведения испытаний замечено не было, то выбраковку следует проводить с осторожностью, по возможности используя критерии выбраковки, причем в выборках с объемом п < 3 выбраковку лучше вообще не проводить. Критерии выбраковки могут строиться на разных статистиках для проверки гипотез. При этом проверяемые гипотезы представляют собой некоторые предположения о принадлежности (или непринадлежности) всех полученных в эксперименте значений одной и той же генеральной совокупности. Если вызывающее сомнение значение обозначить х^ю» a множество значений в изучаемой генеральной совокупности X, то нулевая гипотеза состоит в предположении, что Хсомю как и все остальные полученные в выборке значения, принадлежат множеству Ху что может быть записано в виде Но' *сомн е Х(е-знак принадлежности элемента множеству). " 1 * -*сомн £ X. Альтернативная гипотеза /^означает, что Хсомн в отличие от всех прочих х не принадлежит случайной величине X, т.е. Причины непринадлежности могут быть различны. Это может быть незамеченное в процессе работы грубое нарушение методики, сбой в регистрирующей аппаратуре, описка при записи результата и другие аналогичные обстоятельства, приводящие к появлению артефакта. Однако большое отклонение хсомн от основной массы значений не обязательно расценивать как артефакт, поскольку оно может быть, например, связано с принадлежностью хсоын другой случайной величине, отличной от X по каким-то параметрам, а, может быть и по виду распределения. Правила, оправдывающие выбраковку, обычно строят применительно к случаю, когда выборка принадлежит величине с нормальным (или близким к нему) распределением. Рассмотрим один из критериев выбраковки, заметив, что х^а^ всегда представляет собой такое значение, которое наи-
Статистический анализ одной выборки 133 более сильно отличается от всех остальных, а при этом центральное отклонение |jcCOmh - х | оказывается наибольшим из всех возможных. Соответственно максимальное значение по абсолютной величине имеет и стандартизованное отклонение: ^max= ' (7Л) Так как максимум стандартизованного отклонения Хтах есть случайная величина, меняющая свое значение от выборки к выборке, то, зная, закон ее распределения, можно хтах, вычисленное по формуле (7.1), использовать в качестве статистики для проверки гипотезы. Для этого нужно лишь знать критические значения т^^ для соответствующего уровня значимости а, и тогда критерий проверки гипотезы о правомерности выбраковки примет следующий вид: если т^^ > т^^ , то нулевая гипотеза может быть отвергнута, и выбраковка соответствующего значения дсС0Мн признается допустимой. Если z^ < ттах , то следует считать, что статистических оснований для выбраковки нет. Для случая, когда выборки принадлежат нормально распределенной величине, закон распределения Тщ^ известен, что позволяет табулировать критические значения т^ для заданного уровня значимости а в зависимости от объема выборки п (см. табл. VI Приложения). Из рассмотрения табл. VI следует, что при данном уровне значимости а с увеличением п критическое значение ттах возрастает, что вполне естественно, поскольку с увеличением объема выборки увеличивается размах варьирования и возрастает вероятность появления больших отклонений от среднего. В приведенном примере проверка статистической объективности выбраковки результата дгсомн выглядит следующим образом ( предположение о близости распределения к нормальному здесь вполне допустимо): х = 1,54; s = 0,04; г = — — = 1,75. Из табл. VI находим, что если V/, Ut" /1 = 5, то ттах =1,92, что больше вычисленного значения Тщах =1,75. Таким образом, отклонять нулевую гипотезу оснований нет, а соответственно нет статистических оснований и для выбраковки. Процедурой отбрасывания крайних значений нужно пользоваться с большой осторожностью, даже если выбраковка представляется статистически оправданной. Дело не только в том, что изучаемое распределение может отличаться от нормального и тогда попадание статистики в критическую область может не столько свидетельствовать в пользу правомерности выбраковки, сколько в подтверждение того, что распределение отлич-
134 Глава 7 но от нормального. Отбрасывание крайних значений более опасно потому, что эти значения чаще всего являются вполне естественной принадлежностью соответствующей совокупности и, что особенно важно, подчас оказываются наиболее заслуживающими внимания среди всех других. Например, в ряде распределения глубин промачивания почвы при поливе наибольшие значения, существенно отличающиеся от остальных значений, встречаются редко и желание их отбросить всегда очень велико. Однако такие значения никак не являются "засорителями" совокупности, они ее непременная составляющая. Выбраковывая их, мы исключаем одни из самых интересных и важных значений, поскольку именно с ними оказываются связанными как непроизводительные потери поливной воды, так и подъем уровня грунтовых вод, со всеми следующими за этим отрицательными последствиями. Выбраковка есть по сути дела процедура удаления брака, т.е. результатов, возникших по причине нарушения техники измерения, проведения анализа. Но вряд ли имеются основания рассматривать как бракованные, присущие объекту значения, даже сильно уклоняющиеся от всех остальных. Из этого, однако, не следует, что такие значения вообще нельзя отбрасывать. В процессе анализа данных иногда оказывается весьма полезным те или иные значения исключить из выборки, но это не имеет отношения к выбраковке, так как отбрасываемые значения сами по себе заслуживают изучения. Выбраковка же должна быть скорее исключением, чем правилом. 7.3. Анализ вариации, асимметрии и эксцесса После выбраковки, если она необходима и допустима, обычно вычисляют основные оценки и их ошибки. Поскольку многие приемы статистического анализа основываются на допущении о нормальности распределения, проверка этого допущения заслуживает внимания. Самый простой способ, позволяющий составить предварительное представление о нормальности (точнее, об отличии от нормальности) распределения, основан на оценке величины коэффициента вариации. Конечно, коэффициент вариации прежде всего интересен как безразмерный показатель вариабельности случайной величины. Для многих свойств вариабельность и коэффициент вариации как мера ее оценки могут существенно зависеть от особенностей элементов опробования, обнаруживая очень заметную тенденцию к уменьшению с увеличением пространства усреднения. Поэтому анализ величины коэффициента вариации без учета параметров (массы, объема, площади, формы) элементов опробования оказывается столь же сомнительным, как оценка твердости почвы без учета ее влажности. Величина коэффициента вариации позволяет косвенно судить о возможности аппроксимации распределения случайной величины нормаль-
Статистический анализ одной выборки 135 ным законом. В основе этого приема лежит то соображение, что при симметричности, свойственной нормальному закону, левая ветвь распределения (ветвь с наименьшими значениями) не может быть слишком короткой, если ее измерять числом стандартных отклонений. Если изучаемое свойство измерено на шкале отношений и, следовательно, отдельные значения не могут быть отрицательны, то эта ветвь по меньшей мере должна быть равной двум стандартным отклонениям, в противном случае начнет сказываться асимметрия в распределении. Это означает, что коэффициент вариации не должен превышать 50%. Поэтому превышение коэффициентом вариации величины 50% можно рассматривать как серьезный аргумент в пользу того, что изучаемое распределение заметно отличается от нормального. Если v<50%, а тем более, когда v<30%, распределение в принципе может быть неплохо аппроксимировано нормальным законом. Однако малость величины коэффициента вариации еще не означает, что распределение близко к нормальному, так как существуют распределения явно отличные от нормального, хотя и имеющие небольшие коэффициенты вариации. Так, например, при округлении чисел с точностью А в интервале от a - А/2 до a + А/2 распределение допустимо считать равномерным со средним, равным я, и, как это следует из формулы (4.73), стандартным отклонением а = A/(2v3) . При этом коэффициент вариации оказывается равным V = j=r = 28,87—, откуда следует, что Р->0 при а-»оо. 2ау/3 а Например, если содержание ила округляется до целых процентов и Л = 1%, то при а = 10% имеем V= 2,9%, а при а = 50% получим V= 0,6%. Как видим, малость коэффициента вариации не может служить достаточным основанием для того, чтобы признать допустимой аппроксимацию нормальным законом. Заметим, что иногда очень большой коэффициент вариации, существенно превышающий 50%, может не быть свидетельством отличия распределения от нормального, если коэффициент вариации вычислен для случайной величины, полученной в результате измерений на интервальной шкале. В подобных случаях коэффициент вариации лучше не вычислять. Оценку нормальности распределений можно строить на анализе асимметричности и эксцессивности распределений, хотя такой анализ нередко представляет интерес и сам по себе. Дело в том, что факт обнаружения соответствующих особенностей в распределении может служить поводом для выявления причин их возникновения, а тем самым служит более глубокому пониманию сути изучаемых явлений. При необходимости получаемые знания могут быть использованы и для разработки методов получения исходной информации.
136 Глава 7 Как было отмечено ранее, при нормальном распределении асимметрия и эксцесс отсутствуют (а = 0, е = 0). Полученные по выборочным наблюдениям оценки А и Е практически никогда не бывают в точности равны нулю, даже если генеральная совокупность распределена строго нормально. Однако отличие А и Е от нуля связано не только с тем, что они представляют собой оценки. Достаточно часто распределения в генеральных совокупностях имеют ту или иную асимметричность и эксцессив- ность, что не может не находить своего отражения в оценках АиЕ. Причины асимметричности распределений могут быть различными. Например, среди факторов, влияющих на изучаемый признак, может существовать такой, который является определяющим, а сам распределен асимметрично. Так, известно, что значительной положительной асимметрией обычно характеризуется распределение водопроницаемостей, что может быть прямым следствием пуассоновского распределения числа крупных пор, приходящихся на единичную площадь при измерении водопроницаемости. Аналогично может обстоять дело с распределением содержания некоторых элементов, если среди первичных почвенных частиц большая их часть лишена этих элементов и лишь в некоторых частицах их концентрация велика. Причиной асимметрии может служить способ количественной характеристики признака. Так, размер пор может быть охарактеризован и их диаметром, и площадью поперечного сечения. При этом если распределение диаметров симметрично, то асимметричным является распределение площадей и наоборот. Достаточно часто распределение рН может считаться симметричным, но это никогда не имеет места для распределения активностей водородного иона. В рамках заданных общих условий проведения испытаний среди второстепенных условий может существовать мощный фактор, определяющий повышенную встречаемость значений случайной величины в одном, двух или большем числе интервалов значений. Так, неравномерное прома- чивание почвы дождевыми или поливными водами может оказаться причиной различной эксцессивности распределения влажности почвы на разных глубинах. Иногда такие распределения удается рассматривать в качестве суммы двух или большего числа распределений и множество значений одной случайной величины представлять в виде суммы случайных величин со своими параметрами. Нужно иметь в виду, что асимметричность и эксцессивность распределений могут существенно зависеть от размеров элементов опробования, убывая с их ростом. При выборочных наблюдениях, имея дело с оценками, исследователь лишен возможности делать безапелляционные выводы о наличии или мере асимметрии и эксцесса. Получив оценки А и Е, прежде чем обсуждать их величину, нужно выяснить, существуют ли основания считать, что асимметрия и (или) эксцесс вообще имеются у изучаемого распределения. Проверяемая гипотеза
Статистический анализ одной выборки 137 #0:а = 0; при альтернативе #i:a*0. Для эксцесса проверяемая гипотеза #0:е = 0; а альтернатива #ь е ф 0. Для проверки гипотез чаще всего прибегают к статистике, предположительно распределенной по нормальному закону с параметрами 0 и 1. Вычисление таких статистик осуществляется с помощью ошибок sA и sE. Ml \E\ Считается, что если —1>3и —l>3,to соответствующие нулевые гипо- SA SE тезы должны быть отброшены в пользу альтернативных. Построение этих критериев проверки гипотез основано на том, что вычисляемые отклонения являются по сути стандартизованными отклонениями. Действительно, здесь числители представляют собой отклонения оценок А или Е от генеральных значений а или г, равных нулю, в условиях проверяемых нуле- Ml И вых гипотез. Поэтому отношения —L и -—- с некоторым приближением SA SE можно считать распределенными по Стьюденту. Упрощение сводится к тому, что критическое значение приравнено 3 независимо от объемов выборок. Следует иметь в виду, что при малых объемах выборок ошибки рассматриваемых оценок настолько велики, что вычисление оценок Аи Е очень часто оказывается лишенным смысла. При анализе твердости солонца при п = 15 было найдено А = 0,33 и Е= -1,35. Проверим, можно ли утверждать, что генеральная совокупность, которой принадлежит выборка, имеет асимметричное или эксцес- сивное распределение. Согласно (5.47) и (5.48), получаем *А \Т5 = °'63 И *Б =\75" =1'26 ; тогда М1=^3 = 0,5иМ=М£ = и. sA 0,63 sE 1,26 В обоих случаях полученные отношения заметно меньше 3, поэтому никаких оснований для отказа от нулевых гипотез нет, а следовательно, нет оснований и для утверждений, что распределение твердости имеет ка-
138 Глава 7 кую-либо асимметрию или эксцесс. Нередко из подобного анализа делается вывод, что коэффициенты асимметрии и (или) эксцесса недостоверны. Лучше употреблять выражение "статистически незначимы". Однако как бы выводы такого рода не формулировались, суть их состоит в том, что коэффициенты а и (или) е (но не А или Е) нельзя считать отличными от нуля, а уж тем более утверждать, что, например, эксцессивность, судя по значению Е = -1,35, имеет среднюю величину. Из рассмотренного примера видно, что даже при не такой уж малой выборке как п = 15 о статистической значимости коэффициентов асимметрии и эксцесса говорить трудно вследствие очень больших ошибок этих коэффициентов. Действительно, чтобы утверждать, что а Ф 0 (или е Ф 0), нужно, чтобы полученные оценки А (или Е) по меньшей мере в 3 раза по абсолютной величине превышали ошибку, т.е. чтобы в рассмотренном выше примере было \А\ > 0,63 • 3 = 1,89 и \Е\ > 1,26 • 3 =3,78. Если пойти по иному пути и исходя из заданного значения А (или Е) вычислить минимальный объем выборки, обеспечивающий признание асимметрии (или эксцесса) значимым, то окажется, что при \А\ = 1,0 объем выборки должен быть по меньшей мере равным п = 54, а при \А\ = 0,5 нужно иметь п = 216. Такой же минимальный объем и = 216 обеспечивает возможность утверждать, что 6 Ф 0 при \Е\ = 1,0. Из рассмотренных примеров видно, что в единичных выборках небольшого объема вычисление коэффициентов асимметрии и эксцесса не слишком целесообразно, поскольку даже при больших значениях оценок \А\ и \Е\ утверждать что-либо по поводу этих коэффициентов оказывается затруднительным. Незначимость коэффициентов асимметрии или (и) эксцесса не есть доказательство отсутствия асимметрии (эксцесса). Просто при этом у нас нет достаточных оснований считать, что они имеются. С другой стороны, отсутствие значимой асимметрии и (или) эксцесса нельзя рассматривать как доказательство (или показатель) нормальности распределения случайной величины. Дело в том, что существуют случайные величины, не имеющие асимметрии или (и) эксцесса, но тем не менее распределенные не по нормальному закону. Другое дело, если есть возможность утверждать, что коэффициент асимметрии (эксцесса) отличен от нуля. Тем самым можно утверждать, что распределение отлично от нормального. Именно так обстоит дело с распределением водопроницаемости, где Ml И при п = 150, А = 1,76 и Е = 2,67 получено —i = 8,8 и —- = 6,7, что в обоих SA SE случаях превышает критическое значение 3. Здесь есть серьезные основания для утверждения, что а * 0 и ефО и что распределение отлично от нормального.
Статистический анализ одной выборки 139 7.4. Проверка гипотезы о нормальности распределения с помощью критерия хи-квадрат В тех случаях, когда выборка достаточно велика и представлена серединами классов с соответствующими частотами, проверку возможности аппроксимации изучаемого распределения тем или иным законом достаточно часто осуществляют с помощью статистики хи-квадрат. Чтобы вычислить статистику %2, необходимо знать те теоретические частоты, которые соответствовали бы отдельным классам значений переменной величины, если бы изучаемое распределение строго подчинялось аппроксимирующему закону, а частоты были бы пропорциональны вероятностям соответствующих классов. При этом обычно приходится делать некоторые допущения, например, при аппроксимации нормальным законом при вычислении теоретических частот предполагается, что среднее и дисперсия равны имеющимся для них оценкам (ц = х , сг2 = я2), а суммы абсолютных частот эмпирически найденных ( ^ Л ) и теоретических (^/ ) одинаковы и равны /?. Мы уже частично рассматривали вопрос о технике вычислений теоретических частот для биномиального и пуассоновского распределений (см. § 4.4 и 4.5). При аппроксимации распределения переменной X нормальным законом для отыскания теоретических частот /. для каждого у-го класса необходимо найти границы между классами х;/, +1л и, выразив их в виде стандартизованных отклонений Zj■- ( х 7, .+1ч - ц)/а, для полученных значений отыскать с помощью табл. П Приложения значения функции F(z). Если эта функция табулирована для интервалов от - оо до z, то по разности между значениями F(z), соответствующими соседним границам между классами, можно найти вероятности отдельных классов Pj = F(zj) -F(zj_i), a умножив их на л, получить теоретические частоты f.. Технику этих вычислений хорошо иллюстрирует табл. 7.1 Поясним, что значения x.f, .+1ч найдены по формуле (2.12), а вероятности и теоретические частоты крайних классов вычислены не просто как вероятности (и частоты) соответствующих классов. Вероятности крайних классов здесь отражают еще и возможность получения любых значений, меньших наименьшего класса, а для конца распределения - значений, превышающих наибольший класс. Так, для наибольшего класса с х= 1,55 значение Pj = 0,0207, полученное как разность 1 - 0,9793, характеризует вероятность того, что плотность почвы примет значения, большие, чем 1,50. Аналогично, для класса
140 Глава 7 Таблица 7.1 Нахождение теоретических частот для распределения плотности в пахотном слое дерново-подзолистой почвы (л = 150, с = 0,10 г/см3, ц = 1,27, а = 0,113, аппроксимация нормальным законом) ХУ 1,05 1,15 1,25 1,35 1,45 1,55 2 <j 7 40 46 39 15 3 150 xJ/(J+i) 1,10 1,20 1,30 1,40 1,50 Ц -1,50 -0,62 0,26 1,15 2,04 F(Zj) 0,0668 0,2676 0,6026 0,8749 0,9793 Pi 0,0668 0,2008 0,3350 0,2723 0,1044 0,0207 1,0000 fj 10,0 30,1 50,3 40,8 15,7 3,1 150,0 с х = 1,05 значение / = 10,0 и это нужно понимать так, что / = 10,0 есть теоретическая частота того, что х окажется меньше, чем л: = 1,10. Из сопоставления эмпирически найденных^ и теоретических частот f. видно, что при их общем сходстве в поведении они в то же время неодинаковы. Проверку гипотезы о нормальности распределения можно осуществить с помощью статистики х2, вычисляемой по любой из формул: х2-Т} fj ИЛИ f2 jj (7.2) (7.3) 2 2 Если х - Za» то нулевая гипотеза о сходстве изучаемого распределения и аппроксимирующего отвергается; если х < Ха» то она остается в силе. Нужно иметь в виду, что £2 допустимо вычислять при условии, что ни одна из теоретических частот f. не меньше 5, а объем выборки достаточно велик (л > 50, а по некоторым рекомендациям и«> 200). Если для того или иного класса значений частота f. оказывается меньше 5, то можно провести укрупнение классов. При аппроксимации нормальным законом
Статистический анализ одной выборки 141 Таблица 7.2 Вычисление х2 для ряда распределения плотности почвы XJ 1,05 1,15 1,25 1,35 1,45 h 7 40 46 39 18 h 10,0 30,1 50,3 40,8 18,8 f -f J J J J -3,0 9,9 -4,3 -1,8 -0,8 ifj-fjflfj 0,90 3,26 0,37 0,08 0,03 X2 = 4,64 наименьшие частоты имеют крайние классы, в связи с этим можно объединить крайние классы для того, чтобы суммарная частота превысила 5. Так, поскольку для класса с серединой jf.= 1,55 в рассматриваемом примере частота /. = 3,1 < 5, следует объединить этот класс с предыдущим. Эмпирическая частота такого класса равна сумме эмпирических частот: 15 + 3 = 18, а соответствующая теоретическая частота есть 15,7 + 3,1 = 18,8. Распределение вычисляемой по формулам (7.2) или (7.3) величины %2 зависит от числа степеней свободы v, которое равно числу классов к (после их укрупнения, если это необходимо) минус число ограничений. Число ограничений зависит от того, каким законом аппроксимируется изучаемое распределение. При аппроксимации нормальным законом таких ограничений оказывается три. Это допущения, что jux = х, ax - sx и равенство сумм эмпирических и теоретических частот: ^/. = $]// • П°~ этому при проверке нормальности распределения с помощью критерия %2 значение числа степеней свободы v = к -3. Это означает, кстати, что число классов при проверке такой гипотезы не может быть меньше, чем 4. С учетом сказанного продолжим рассмотрение данного примера. Вычисление статистики х2 с помощью формулы (7.2) приведено в табл. 7.2. Так как к =5, tov = 5-3 = 2. Из табл. ^Приложения при v = 2 находим Хо 05 = 5,99. Поскольку %2 = 4,64 < %0 05 = 5,99, нулевая гипотеза не может быть отвергнута с уровнем значимости а = 0,05, а распределение плотности почвы допустимо рассматривать как нормальное. 7.5. Доверительный интервал среднего Если величина X распределена нормально, а оценка стандартного отклонения найдена с числом степеней свободы v, то закон распределения
142 Глава 7 h нам известен, а, значит, мы можем указать, в каких пределах может меняться t с заданной доверительной вероятностью Р (или с заданным уровнем значимости а = 1 - Р). Если t с вероятностью Р по абсолютной величине не может быть больше ta9 то отклонение jc отце соответствующим уровнем значимости а не может, очевидно, превышать tas^. Таким образом, значение можно рассматривать как абсолютную погрешность с уровнем значимости а оценки jx no х . Если \х неизвестно, то у нас нет возможности определить, в какую сторону от ц смещена точечная оценка х , занижает ли эта оценка среднее или , наоборот, завышает. Однако мы можем утверждать, что по абсолютной величине отклонение этой оценки от генерального значения среднего в любую сторону с уровнем значимости а не превышает Аа = tas-. Так как х не отличается от \х более, чем на tas-, то верно и обратное утверждение, а именно, что ц не может отличаться от х более, чем на tas-, т. е. среднее ц. с уровнем значимости а должно лежать в интервале значений от х - tas- до х~ + tas- (с учетом симметричности распределения t). Эти два значения ограничивают так называемый доверительный интервал среднего: X-ta^V^X+tah- (75> Обозначая доверительный интервал среднего при уровне значимости а через ха, запишем Ta=x±taSj. (7.6) Значения , ограничивающие доверительный интервал, называются доверительными границами. Очевидно, нижняя граница среднего есть К=х-*аЗх> (7-7) а верхняя равна К=*+*а*х- С7'8) В данном случае среднее характеризуется двумя числами, соответствующими двум доверительным границам. Подобная оценка констант получила название интервальной оценки.
Статистический анализ одной выборки 143 Применимость подобного способа оценки среднего ограничена условием близости закона распределения х к нормальному. Однако оценки Зс обладают замечательным свойством, состоящим в том, что с увеличением п распределение х стремится к нормальному независимо от закона распределения X. В связи с этим распределение х можно считать практически нормальным при п > 30, а при близости распределения X к нормальному и при существенно меньших значениях л. Для нормально распределенных величин X распределение х нормально при любых я, а для симметричных - при п > 10. Эта особенность оценок среднего позволяет достаточно корректно использовать доверительные интервалы среднего при решении широкого круга задач. Как следует из вышеизложенного, для нахождения доверительных интервалов нужно для заданного уровня значимости взять критическое значение ta (см. табл. Ш Приложения) с учетом v, с которым найдена ошибка среднего, и, подставив необходимые значения в формулу (7.5) или (7.6), провести вычисления. Так, если точечная оценка влажности почвы с п = 10 окажется равной х = 25,7% при Sj= 1,10, то генеральное среднее влажности почвы с риском ошибиться в 5% случаев (т.е. при а = 0,05) будет заключено в следующем интервале (при v = 9 имеем /0,о5 = 2,26): х0 05 = 25,7 + 2,26 • 1,10 = = 25,7 ± 2,5 = (23,2 -т- 28,2)!. Иначе говоря, с 95%-й уверенностью можно утверждать, что средняя влажность почвы ц* имеет значение в интервале от 23,2 до 28,2%. Заметим, что повторность, в особенности если она невелика, существенно влияет на ширину доверительного интервала, а тем самым и на точность оценки среднего. Для рассмотренного примера при п = 10 и а = 0,05 по формуле (7.4) находим Ао,о5= 2,26 • 1,10 = 2,5, т.е. абсолютная погрешность равна 2,5% влажности почвы. С уменьшением п не только возрастает ошибка среднего, но и увеличивается ta при том же а. Однако даже если бы то же значение 5- удалось получить при меньшем и, точность оценки среднего оказалась бы ниже. Допустим, что те же средние х = 25,7 и s^ = 1,10 были получены при п = 3. Для а = 0,05 и v = 2 имеем /0,05 = 4,30 и дго„о5 = 25,7 ± 4,30 • 1,10 = = (21,0 -ь 30,4) при А0,о5= 4,30 • 1,10 = 4,7. Как видим, уменьшение объема выборки с 10 до 3 даже при неизменности оценок х и s- привело к существенному расширению доверительного интервала и соответствующему увеличению абсолютной погрешности почти в 2 раза. Символ -S- ознчает "от... до".
144 Глава 7 7.6. Показатель точности опыта и показатель относительной вероятной погрешности Достаточно часто погрешность, с которой найдена оценка среднего, выражают безразмерным показателем, представляющим собой отношение ошибки среднего к среднему, выраженное в процентах: Р = %100% = ^. (7.9) Этот показатель получил название точности опыта (по Сапегину). В силу своей безразмерное™ он позволяет сравнивать точность оценок разноразмерных средних. Бели одинаковые средние и их ошибки получены при разных объемах выборок ( а это возможно при неодинаковой дисперсии), то показатель Р, согласно формуле (7.9), также будет одинаков независимо от различий в объемах выборок. Поэтому если, например, значения х =25,7 и я-= 1,10 оказались полученными как при п = 10, так и при п = 3, то показатель точности опыта в обоих случаях один и тот же: P = i^~ 100 = 4,3%. 25,7 В то же время мы отмечали, что при разных п точность в оценке среднего нельзя считать одинаковой, если точность связывать с одинаковым уровнем значимости. Несовершенство рассматриваемого показателя состоит еще и в его названии: чем выше показатель точности, тем меньше точность. Если абсолютная вероятная погрешность оценки среднего Аа, вычисляемая по формуле (7.4), показывает, на сколько может отличаться генеральное среднее \х от оценки х при заданном уровне значимости а, то отношение Ра =-^.100 = ^100% (7.10) X X можно назвать относительной вероятной погрешностью. Величина Ра показывает, сколько процентов от среднего, принятого за 100%, составляет абсолютная вероятная погрешность оценки среднего или иначе, на сколько процентов от среднего отстоят границы доверительного интервала при уровне значимости а. Из сопоставления Р и Ра следует, что Ра = Pta. Если а = 0,05, то для данного эксперимента показатель относительной вероятной погрешности имеет по меньшей мере в 2 раза большее значение, чем Р, так как при л-*х> значение f0,05—>1>96.
Статистический анализ одной выборки 145 Возвращаясь к примеру с влажностью почвы, при п = 10 получим Я05 =-^-100 = 9,7%, 0,05 25>? а при п = 3 имеем ^05=^-100 = 18,4%. Как видим, в отличие от показателя точности опыта в обоих случаях одинакового, показатель относительной вероятной погрешности при а = 0,05 с уменьшением п от 10 до 3 возрастает почти вдвое (при условии постоянства среднего и его ошибки). 7.7. Гарантированные минимумы и максимумы среднего В некоторых случаях исследователя может интересовать не доверительный интервал возможных значений среднего, а лишь то значение, меньше которого не может быть среднее при заданном риске ошибиться. Такое значение получило название гарантированного минимума среднего. Если обозначить его min( х )а, то получим min(x)a = х- t2a s-. (7.11) Заметим, что для получения гарантированного минимума с уровнем значимости а в формулу (7.11) нужно подставить значение f-Стьюдента, взятое из таблицы Ш Приложения для числа степеней свободы v, с которым найдена л-, для удвоенного уровня, т.е. для 2а. По аналогии с гарантированным минимумом среднего можно найти и его гарантированный максимум: тгх(х )а = х + t2a л--. (7.12) Между гарантированным минимумом и нижней доверительной границей (как между гарантированным максимумом и верхней доверительной границей) существует нечто общее: они оба ограничивают снизу (или сверху) возможные значения среднего. Однако если нижней границе всегда соответствует верхняя граница (и наоборот), так что при этом доверительный интервал ограничен с двух сторон (двусторонний доверительный интервал), то гарантированный минимум, как и максимум, ограничивает доверительную область значений среднего только с одной стороны (односторонний доверительный интервал). В связи с этим при двустороннем доверительном интервале уровень значимости а характеризует вероятность того, что среднее окажется
146 Глава 7 меньше нижней границы или выше верхней (эти вероятности одинаковы и равны а/2), а при оценке гарантированного минимума (максимума) уровень значимости а есть вероятность того, что среднее может быть меньше min( х )а (больше max( х )а). В связи с этим совпадение значений гарантированного минимума с нижней доверительной границей (а максимума - с верхней) возможно при условии, что оценка двустороннего доверительного интервала производится с вдвое меньшим уровнем значимости, чем гарантированного минимума (максимума). Гарантированные минимумы и максимумы представляют интерес при решении разных задач, но чаще всего в связи с необходимостью оценки возможных экспериментальных ситуаций. Это может быть, например, гарантированный минимум весеннего запаса влаги в почве. Нас не беспокоит, что этот запас в действительности окажется больше минимума, а возможный минимум требуется знать, так как от этого зависят виды на урожай. При оценке содержания обменного натрия в солонцах гарантированный максимум позволяет оценить предельное количество гипса, которое потребуется для мелиорации солонцов. По гарантированному максимуму сопротивления вспашке можно судить о наибольших возможных расходах горючего и т.д. Техника вычислений гарантированных минимумов или максимумов трудностей не представляет. Например, если в случае оценки обеспеченности растений влагой при п = 10, для влажности почвы получили оценки среднего и ошибки среднего х = 25,7 и л- = 1,10, то с риском а = 0,05 можно утверждать, что средняя влажность не должна быть ниже, чем nui^ х )о,о5= 25,7 - 1,83 • 1,10 = 23,7%, поскольку для v = 9 имеем /0>10 = 1,83. Аналогично можно найти гарантированный максимум среднего расхода воды на инфильтрацию через ложе канала; если при и = 25 получено х ±Sj = 3,13 + 0,02 мм/сутки, то с а = 0,01 (для v = 24 имеем t0,02 = 2,49) находим max( jc )o,oi = 3,13 + 2,49 • 0,02 = 3,18 мм/сутки. 7.8. Доверительный интервал дисперсии Для дисперсии, как и для среднего, наряду с точечной оценкой можно вычислить нижнюю и верхнюю доверительные границы. Хотя оценка дисперсии и имеет свою ошибку репрезентативности, доверительный интервал для дисперсии лучше находить с помощью иного метода, основанного на распределении %2. Если изучаемая случайная величина имеет распределение, близкое к нормальному и выборка объема п дала точечную оценку s2 генеральной дисперсии о2, то с уровнем значимости а значение а2 будет лежать в следующих пределах:
Статистический анализ одной выборки 147 L^}.<^<sl^±. (7.13) Xall Z\-a/2 В формуле (7.13) xa/2 есть критическое значение х2> распределенной с v степенями свободы, больше которого значения %2 встречаются с веро- ятностью —. Критическое значение Х\-а/2 есть значение, вероятность превысить которое равна 1 . Если а = 0,05, то для левой части форму- лы (7.15) из табл. IV Приложения находят значение Х0025 > а Я5** правой части - значение % \915 . Допустим, при определении плотности почвы с объемом выборки п - 5 получили 5 = 0,10 г/см3. Чтобы определить доверительный интервал возможных значений дисперсии плотности с а = 0,05, находим по табл. IV 7 2 2 для v = 4 критические значения х : X 0 025 = 1Ы4, % 0 975 = 0,48. По формуле (7.13) получаем 0,102(5-lbj2^0,102(5-l). 11,14 0,48 ' 0,0036 < <т2 < 0,08333. — 2 Обозначая доверительный интервал для дисперсии через s a , имеем Fo05= (0,0036-0,0833). Доверительный интервал для стандартного отклонения получим, извлекая квадратные корни: J 0 05 =(0,06 -г- 0,29). Заметим, что границы доверительных интервалов расположены асимметрично относительно точечных оценок дисперсии и стандарта: точечные оценки сдвинуты к нижней границе. 7.9. Сравнение средних с постоянными величинами В некоторых случаях исследователь практически точно знает, чему должно быть равно среднее. Например, приготовив буферный раствор по известному рецепту, мы знаем величину рН этого раствора. В стандартном образце почвы заранее известно содержание отдельных элементов и т. д. Однако средний результат анализа \х совсем не обязательно оказывается равным истинному значению изучаемого признака а. Тем более обычно не
148 Глава 7 бывают равны постоянные величины а и оценка среднего х . Вместе с тем, если отличие аот х естественно, то отсутствие равенства между ц и а может вызвать тревогу, так как это означает, что метод анализа имеет систематическую погрешность. Если систематической погрешности нет, то должно иметь место равенство \х = а. Тогда при данных оценках х и .у- значение а с уровнем значимости а должно находиться в пределах доверительного интервала для среднего (формула (7.8)), т.е. отклонение а от х по модулю не должно превышать /а,у_. Сказанного достаточно для того, чтобы сформулировать проверяемые гипотезы и критерии их проверки. Примем Ц>: ц = а, Ц: [х ф а. Если ц = а и - ^ Зс-а распределение х близко к нормальному, то отношение распределено Sx как t- Стыодента с v = п - 1, и лишь с малой вероятностью а значение ,.fcd Sx может превысить ta. Тогда при / >ta будем считать, что верна альтернативная гипотеза, т.е. среднее результатов измерения \х не равно постоянной величине а. При t <ta нулевая гипотеза не отвергается и допустимо считать , что ц = а. Допустим, в стандартном почвенном образце содержание Si02 равно а = 82,15%. По результатам 4-кратного анализа некоторым методом было получено х = 82,03 при s7 = 0,039. Требуется выяснить, можно ли отличие полученного х от а считать результатом простой игры случая (аналитических погрешностей случайного характера) или эта разница столь велика , что более разумно ее связывать с наличием систематических погрешностей. Так как , = 82,03-82,15 0,039 а для v = 3 из табл. Ш Приложения находим /0,05= 3,18, и, значит, t <ta, то у нас нет оснований считать, что метод имеет систематическую погрешность. Конечно, такое заключение еще не есть доказательство правильности метода, но согласно принятым критериям с уровнем значимости а = 0,05 можно считать метод правильным. 7.10. Планирование объемов единичных выборок Грамотно спланированным опытом можно считать такой, когда ответ на поставленный вопрос получается при наименьших затратах средств и
Статистический анализ одной выборки 149 времени, а это прежде всего означает, что число повторностеи в опыте должно быть по возможности необходимым и достаточным для получения ответа с требуемой точностью и надежностью. При этом нельзя упускать из вида, что всякое планирование численностей совокупностей базируется на ряде допущений , и результаты спланированных опытов по их уровням точности или надежности зависят от того , насколько эти допущения оправдываются. С другой стороны, даже при правильности начальных допущений исход испытания может оказаться неудовлетворительным вследствие неизбежного варьирования между возможными выборками. В силу этого бессмысленно ставить задачу абсолютно точного планирования объемов выборок, но это совсем не значит, что планирование объемов вообще лишено какого-либо смысла, хотя бы потому, что объем выборки является одним из важнейших, а нередко единственным фактором, определяющим точность оценок и надежность выводов. Абсолютная Аа и относительная Ра вероятные погрешности оценки среднего (формулы (7.6) и (7.12)) с учетом формулы (5.23) имеют вид Дв=4^. (7-14) V« Р..±»*. (7Л5, ■*п х Из этих формул видно, что Аа и Ра зависят прежде всего от величи- t ны отношения -=■, на которую мы можем активно влиять через объем у/п выборки /?. Заметим, что при данном а значения ta и попарно связаны, поскольку ta соответствует v = п - 1, так что каждому аил соответствует t некоторое стандартное отношение -j=, убывающее с ростом и. л/я Если значения среднего и стандартного отклонения предположительно известны и требуется при заданном а получить оценку среднего с погрешностью Ад или Ра, то, как следует из формул (7.14) и (7.15), нужно t найти величину сомножителя -f=, обеспечивающего равенство левых и правых частей в этих формулах, а затем и соответствующую полученному отношению -j= величину объема выборки.
150 Глава 7 К к- *, S _*Рд "Ю0л V Если табулировать п, соответствующие отдельным значениям -j=, то нахождение необходимого объема выборки сводится к вычислению вспомогательной величины к\ по одной из формул (V- коэффициент вариации) (7.16) (7.17) (7.18) и нахождению из табл. VII Приложения искомого п для заданного а согласно условию к\ = -j-. Формула, по которой следует вычислять &ь зависит от того, какая погрешность более интересует исследователя (абсолютная или относительная), и от наличия сведений (иногда очень приблизительных) о предполагаемых значениях среднего х , стандарта s или коэффициента вариации v. Данным приемом можно пользоваться при условии, что К<40% и прогнозируемый объем выборки п < 50. Допустим, что требуется спланировать опыт по определению влажности завядания таким образом , чтобы оценка среднего была получена с относительной погрешностью Po,os = 5%. Проводившиеся ранее аналогичные эксперименты показали, что коэффициент вариации при подобных определениях очень близок к V=6%. По формуле (7.18) получим к\ = — = 0,83 и из табл. К для а = 0,05 найдем, что объем выборки, могу- 6 щий обеспечить требуемую точность (обозначим его па), есть /г0,05 = 9. Иногда в итоге проведенного исследования результат по точности оказывается хуже, чем хотелось бы, и опыт нужно либо переделать , либо проделать некоторое число дополнительных измерений. Например, по 4 повторностям содержание Р2О5 (в мг/ЮОг почвы) оказалось определенным с погрешностью Ao,os = 6, а желательно, чтобы абсолютная погрешность оценки среднего не превышала Ao,os = 4. Так как вариация данного свойства в рамках опыта оценивается s = 2,8, то для простоты, округляя эту оценку до 3 и пользуясь формулой (7.16), получим 4 к\ =— = 1,33, а из табл. DC находим л0,05= 5. Следовательно, требуется добрать еще один образец.
Статистический анализ одной выборки 151 Точно так же можно оценивать объем выборки, обеспечивающий статистически значимое отличие среднего от постоянной величины, если разность между средним х и постоянной а превысит некоторую величину. Для этого следует, зная (быть может предположительно) стандартное отклонение s в изучаемой совокупности и задавая предполагаемую или минимальную величину разности d=\х - а\ (большей разностью уже нельзя пренебречь), вычислить *, =- (7.19) S и по табл. DC найти искомое иа. Допустим, что изучаемый метод валового анализа характеризуется воспроизводимостью при оценке SiC>2 величиной 5 = 0,08. Содержание Si02 в эталонном образце известно и следует выяснить, имеет ли метод анализа систематическую погрешность, причем ею можно пренебречь, если она не превышает d = 0,1. Тогда, поскольку к\ =—!— = 1,25 , опыт нужно ПрОВеСТИ С ПОВТОрНОСТЬЮ Ио,05 = 6. Если в результате вычислений окажется, что к\ < 0,37, то искомое па можно найти по формуле *«=ТЬ (7-20) где ta берется из табл. Ш Приложения для v = оо. Пусть, при изучении плотного остатка водной вытяжки из пахотного горизонта в пределах некоторого поля было обнаружено, что вариация этой величины характеризуется значением V- 100%. Исследователь желает оценить среднюю величину плотного остатка с относительной погрешностью Ро,о5= 20%. Согласно формуле (7.18), имеем М = 20 / 100 = 0,2. Так как в таблице VH Приложения значение па для к\ < 0,37 отсутствует, то воспользуемся формулой (7.20); принимая для а = 0,05 t = 2,0, получим ла=2,02/0,22=100. При планировании объемов выборок не только значения иа, исчисляемые десятками и сотнями, но и сравнительно небольшие, но относящиеся к трудоемким или дорогим анализам, нередко вызывают разочарование у исследователей и, как следствие технической невозможности проведения такого объема измерений, отказ от использования статистических методов. Рассогласованность желательного объема выборок и практической возможности реализации такого объема испытаний не столь уж редкое явление, но это отнюдь не может служить основанием для отказа от статистического подхода к анализу изучаемых явлений.
152 Глава 7 При возникновении подобной ситуации прежде всего следует осознать, что в условиях существующей системы проведения испытаний (особенности объекта, элементов опробования, способов анализа и пр.) достигнуть желаемой точности в оценке средних невозможно. В целях сближения планируемой величины па и технически выполняемой повторности можно пойти на увеличение задаваемой погрешности или уровня значимости. Если это не даст должного эффекта, то в итоге проведенного эксперимента с повторностью, меньшей, чем это вытекает из результатов планирования, оценки будут иметь весьма малую надежность, и скрывать это не следует. Отказ от статистического анализа данных на том основании, что требуемая повторность даже при согласии на большие погрешности при высоких уровнях значимости оказывается технически неосуществимой, не может иметь оправданий. От того, что исследователь не стал приводить статистические характеристики полученных результатов, они точнее не будут, но сокрытие самого этого факта не допустимо. Если целью исследования является познание среднего уровня, то для достижения заданной точности оценок средних можно не только увеличивать число повторностей. В некоторых случаях этого можно достигнуть, меняя форму, размер или способ отбора элементов опробования (например, путем замены индивидуальных образцов на смешанные). 7.11. Погрешности оценки среднего и смешанные образцы Идея о замене анализа группы образцов анализом одного смешанного образца была реализована почвоведами почти 100 лет назад, хотя математического обоснования этой процедуры сделано не было и в основе метода лежали чисто интуитивные представления о механизмах снятия вариабельности, мешающей изучению среднего. Сама по себе замена математического усреднения физическим исходит из допущения о равноценности этих процедур. Такое допущение в принципе правомерно лишь относительно свойств, обладающих аддитивностью, например для валовых содержаний элементов или веществ, плотности почвы и других, конечно, если протекание анализа практически не зависит от особенностей состава или организации анализируемых образцов. Для многих свойств, изучаемых почвоведами, аддитивность может в большей или меньшей степени нарушаться, и тогда физическое усреднение не может считаться равнозначным математическому. Это относится к таким свойствам, как рН, состав поглощенных катионов, окислительно- восстановительные потенциалы, содержание подвижных элементов, переходящих в ту или иную вытяжку, и пр. Все это требует осторожного подхода к интерпретации полученных тем или иным способом данных, имея в виду, что как результаты математического усреднения, так и результаты
Статистический анализ одной выборки 153 анализа смешанных образцов, не совпадая по значениям, характеризуют один и тот же объект исследования. При условиях соблюдения аддитивности обычно считают, что дисперсия результатов анализа смешанных образцов а ?*, составленных из п индивидуальных, в п раз меньше, чем дисперсия а2 результатов анализа » меньше, чем дисперсия индивидуальных образцов: ''и °£>=v- (7'21) Так как a(n) по своему смыслу аналогична ошибке среднего а- и характеризует погрешность в оценке среднего, то, располагая некоторой априорной информацией о величине <т, можно отыскать то значение л, при котором а(Я) не превысит заданного значения. Из формулы (7.21) следует, что, взяв соответствующее л, можно получить сколь угодно малое значение а(и). Однако в действительности дело обстоит сложнее, поскольку величина а2, характеризующая вариацию значений результатов анализа индивидуальных образцов, определяется не только неодинаковостью значений изучаемого состава в отдельных образцах, но и ошибками измерений. Эти ошибки, обычно называемые аналитическими, могут быть не только соизмеримыми с неоднородностью элементов опробования по изучаемому свойству, но и существенно превышать природную вариабельность. Достаточно часто можно считать, что случайные ошибки анализов независимы от природной неоднородности свойств в пределах объекта. Тогда, используя в качестве меры вариации дисперсию, получим, что дисперсия результатов анализа индивидуальных образцов о2 может быть 2 2 представлена как сумма аналитической о €, и природной а дисперсий: о>=а2€,+о*р. (7.22) Учитывая это, а также формулу (5.24), заключаем, что по результатам п измерений случайной величины X оценка среднего х характеризуется ошибкой 2 Если из п индивидуальных образцов приготовить один смешанный, то при этом дисперсия результатов анализа окажется равной °?.)=4+^-. (7-24)
154 Глава 7 поскольку процедура смешивания может влиять только на природную дисперсию и тогда соответственно - Ь +<7i :->-Гг+"Г %>=\Кг+— • (7-25) Сопоставляя формулы (7.23) и (7.25), легко убедиться, что результаты математического и физического усреднения в принципе нельзя считать равноценными по величине дисперсий, характеризующих вариацию соответствующих значений. Во-первых, физическое усреднение всегда дает большую дисперсию, нежели математическое усреднение и тем большую, чем больший вес в общей дисперсии сг2 приходится на аналитическую дисперсию а €,. Во-вторых, оказывается, что с помощью смешанных образцов дисперсию результатов анализов нельзя сделать сколь угодно малой даже теоретически, поскольку при л—»оо, как это следует из формулы (7.25), G(n) не может быть меньше <зт. Все рассмотренные в этом разделе соотношения между дисперсиями можно отнести и к их оценкам. Так, если в горизонте А^г дерново-подзолистой почвы содержание MgO в индивидуальных образцах варьирует с дисперсией s2= 0,0215, а аналитическая дисперсия метода анализа оценивается величиной s €, = 0,0204, то, как следует из рассмотрения формул (7.23) и (7.25), если в них а заменить на s9 использование смешанных образцов для анализа содержания MgO лишено всякого смысла, поскольку дисперсия результатов практически целиком определяется аналитическими ошибками и не зависит от числа индивидуальных образцов, из которых приготовляются смешанные. Желательной погрешности в оценке среднего здесь можно добиться с помощью анализа соответствующего числа индивидуальных образцов. Иначе обстоит дело с анализом содержания в том же горизонте валового железа, поскольку при аналитической дисперсии содержания Ре203, равной s €, = 0,00154, общее варьирование результатов при анализе индивидуальных образцов оценивается как s2= 0,022, т.е. на порядок более высокой величиной. Очевидно, в варьировании результатов явно доминирующую роль здесь играет пространственная неоднородность объекта, а это значит, что здесь смешанные образцы могут быть весьма полезны. 7.12. Оценка интервала возможных значений признака В ряде случаев наряду со среднем уровнем немалый интерес может представлять информация о возможных отдельных значениях случайной величины. Например, далеко не всегда сведения о среднем содержании в
Статистический анализ одной выборки 155 почвах элементов питания могут служить достаточным основанием для суждения об обеспеченности отдельных растений этими элементами питания. По тем же соображениям слабым утешением может служить вывод о непревышении среднего содержания в почве некоторого пестицида ПДК (предельно допустимой концентрации), если потребитель сельскохозяйственной продукции использует для питания конкретное растение. По выборочным данным информацию о возможных пределах колебаний случайной величины дают лимиты, которые во всех возможных случаях целесообразно приводить с соответствующим предметным анализом и интерпретацией. Однако лимиты, как мы отмечали, зависят от объема выборки и это существенно затрудняет их использование в качестве показателей возможных пределов колебаний признака. Наиболее удобным оказывается способ оценки интервала возможных колебаний для заданного уровня значимости а (или доверительной вероятности Р = 1 - а). Такой способ может быть реализован, если закон распределения изучаемой случайной величины известен. В том случае, когда случайная величина X распределена нормально (или достаточно близко к этому), доверительный интервал значений ха для заданного уровня значимости а при объеме выборки п можно найти по формуле №■ Xa=X±taS\\—r> О26) где ta соответствует v = п - 1. Так, если среднее содержание в почве Р205 (мг/100г) составляет х = = 10,0 и s = 2,0, то при п = 10 и а = 0,05 получаем :10,0±2,26-2,0J^i = (5,1-14,9). Это означает, что в отдельных объемах почвы, равных объему отбиравшихся образцов в пределах изучаемого поля, в 95% случаев содержание Р205 может колебаться от 5,1 до 14,9 мг/100 г. Когда случайная величина X распределена логнормально или по кривым распределения Джонсона, используя формулу (7.28), можно найти интервальную оценку значений для соответствующих логарифмических функций от случайной величины X, а затем обратным преобразованием найти доверительные интервалы и для значений х. Например, если считать, что распределение содержания X гербицида симазина в почве неплохо аппроксимируется логнормалъным законом, причем известны / = -1,40 и .?/= 0,30, то при п = 16, при а = 0,05 получим 'cos = 7± W/f^ = -1,40±2,13-0,30^ = (-2,064-0,74),
156 Глава 7 откуда jc0,05=(0, 13 ч- 0,48). Очевидно, что исследователя не всегда могут в равной степени интересовать обе границы значений случайной величины. Так, если среднее содержание гербицида не превышает ПДК, то нижняя граница не представляет интереса. В таких случаях можно ограничиться вычислением гарантированных (с уровнем значимости а) минимальных (min(*)a) или максимальных ( тах(х)а ) значений случайной величины: min(*)« = х- t2asJ^-9 (7.27) — In 4-1 max(*)a = х+ t2asJ——. (7.28) Причины, по которым в таких случаях f-Стьюдента берется для уровня значимости 2а, рассматривались нами ранее. 7.13. Границы типичных значений Понятие о типичном обычно связывается с близостью к среднему или с наиболее частой встречаемостью. В этом смысле говорят о типичных разрезах, профильных кривых, значениях свойств. Однако чисто интуитивное представление о типичном там, где это возможно желательно сделать более строго определенным. Очевидно, что критерии, позволяющие отделить типичное от нетипичного, могут быть выработаны только на договорной основе и по сути своей должны иметь вероятностную основу. Наиболее часто за типичные принимаются значения, которым соответствует наибольшая вероятность (плотность вероятности) в пределах интервала, содержащего 50% объема генеральной совокупности. Для нормально распределенных (или достаточно близких к этому) случайных величин типичными значениями при этом являются значения, укладывающиеся в 50%-й доверительный интервал (т.е. для а=0,5). Граничные значения ха (см. формулу (7.26)) при <х=0,5 можно назвать границами типичности, которые в случае нормального распределения определяют по формуле x05=x±t0^^, (7.29) где *о,5 соответствует а = п - 1. Подобный подход к оценке интервала типичных значений допустим при не слишком больших отличиях распределений от нормального. Это условие соблюдается, по-видимому, гораздо реже, чем может показаться, и, что очень существенно, с увеличением объема выборки ситуация не
Статистический анализ одной выборки 157 имеет тенденции к улучшению как при определении интервала возможных значений признака вообще, так и при определении границ типичных значений в частности. Этим оценка доверительного интервала значений признака принципиально отличается от нахождения доверительного интервала среднего, когда с ростом объема выборки распределение оценок асимптотически стремится к нормальному. Это определяет допустимость и целесообразность некоторых упрощений при вычислении типичных зна- чении. Так, замечая, что с ростом п произведение /05 J в правой части формулы (7.31) достаточно быстро стабилизируется и при п > 8 изменяется в пределах от 0,74 (п = 9) до 0,67 (и->оо), можно принять это произведение округленно равным 0,7 и тогда (при п > 8) получим х0,5= x±0,7s. (7.30) При 5 < п < 8 сомножитель при s допустимо принять равным 0,8, а при и = 3 или п = 4 - равным 0,9. 7.14. Анализ совокупности как смеси подсовокупностей Единичная выборка, характеризующая объект исследования, может оказаться предметом достаточно сложного анализа, в особенности, если выборка имеет большой объем, а в распределении обнаруживаются те или иные отличия от нормального. Наличие асимметрии или эксцесса, а тем более хорошо выраженной полимодальности достаточно часто можно рассматривать как результат смешения двух или большего числа подсовокупностей, имеющих в чем-то различные параметры распределения. Естественным желанием в таких ситуациях бывает нахождение оценок параметров подсовокупностей и соотношения их объемов, что может оказаться интересным как с точки зрения изучения организации свойства в пространстве объекта, так и для понимания механизмов формирования дифференцированности объекта по изучаемому свойству. Наиболее простая модель, которой можно при этом воспользоваться, основана на допущении, что генеральная совокупность, представляет собой смесь двух подсовокупностей с разными средними [i] и ц2 и дисперсиями а \ и а 2 , которые могут быть и одинаковыми. Если моду суммарного распределения можно считать модой одной из подсовокупностей, то при симметричности распределения в последней оценка этой моды может служить оценкой соответствующего среднего. Тогда относительно моды более короткую ветвь распределения можно считать образованной половиной одной из подсовокупностей, что позво-
158 Глава 7 ляет оценить как ее дисперсию, так и объем соответствующей ей подвы- борки. Наконец, располагая наряду с этими сведениями оценками среднего и дисперсиями для выборки в целом, можно вычислить аналогичные оценки и для второй подсовокупности, а по отношению объемов подвыбо- рок составить представление о долевом участии подсовокупностей в суммарной совокупности. Допустим, что после полива поля с некоторой глубины были отобраны образцы на влажность почвы (п = 100). Сведенные в вариационный ряд с шириной класса с = 1,0% результаты определения влажности оказались следующими: X} 5 6 1 7 4 8 13 9 24 10 14 И 6 12 4 13 5 14 6 15 8 16 7 17 3 18 3 19 1 20 1 Статистический анализ показал, что среднее х = 11,33 приходится на класс с серединой 11%, частота которого fj-6 далеко не самая высокая. Она в 4 раза меньше частоты модального класса с серединой 9%. Так как s2= 10,47 и 5 = 3,31 (сумма квадратов центральных отклонений С = 1086,11 при v = 99), то отклонение среднего от модального класса достаточно велико и свидетельствует о наличии асимметрии. Действительно коэффициент асимметрии А = 0,75 при 5,А= 0,24 позволяет утверждать, что распределение влажности положительно асимметрично. Из рассмотрения приведенного выше вариационного ряда следует, что распределение влажности не только положительно асимметрично, но и двумодально, хотя вторая мода в области класса с Xj = 15% выражена не слишком отчетливо. Аппроксимация изучаемого распределения нормальным законом здесь явно неудачна (рис. 7.1). Можно допустить, что отмеченные особенности в распределении влажности почвы являются следствием того, что в результате полива на изучаемой глубине почва не везде оказалась увлажненной. При этом в выборке были представлены две подсовокупности значений влажности: не измененные поливом (исходные) и измененные им. Тогда первым из них должна соответствовать левая часть ряда распределения, а второй - правая. Учитывая, что в рассматриваемом примере наиболее отчетливо выражена мода в левой части распределения, и допуская, что эту моду можно рассматривать в качестве моды среднего первой подсовокупности, в качестве оценки х\ и moi по формуле (5.1) получим: х. = то\ = 8,5 +1,0 24-13 224-(13 + 14) = 9,02. Если все значения х, которые меньше тоь относятся к первой подсовокупности, то при симметричности этого распределения объем пх подвы- борки, соответствующей этой подсовокупности, равен удвоенному числу
Статистический анализ одной выборки 159 ">П- 15: 10; 5; 0: fj si s / 1 * / W1 I' V /л ч\ 8 10 12 14 16 18 Рис. 7.1. Эмпирическое (1) и теоретическое (2) распределения частот по классам влажности почвы (х) при их аппроксимации нормальным законом с ц = 11,33% и а = 3,31% значений дс, меньших moj. Величину щ в этом случае можно найти по формуле (прибегая к линейному интерполированию внутри модального класса): ".=2Г11//+/-(Л с7-31) V 7=1 У где индекс т - номер модального класса, а/да(\ - частота в пределах модального класса, соответствующая значениям, меньшим модального, и определяемая из выражения то-*.., fm{~) ~ f{m) ' (7.32) или Jm{-) J m 0,5 + - то-дг (7.33) Подставляя в формулы (7.39), (7.41) известные значения частот, моды, середины модального класса хт и классового промежутка с, получим я, =2 1 + 4 + 13 + +24(о,5 + 9^о9'°) = 61. Очевидно, что если п = 100 и щ - 61, то п2 - п - щ = 100 - 61 = 39. Из формулы (5.14) можно установить, чему равно среднее х2 для второй подвыборки, если известны общее среднее Зс и объем выборки п, среднее одной подвыборки 3cJ и объемы щ и п2 обеих подвыборок:
160 Глава 7 хп-х. Л (7.34) Подставляя в эту формулу необходимые данные, находим _ 11,33100-9,02-61 х> =■ 39 = 14,94. Удваивая сумму квадратов центральных отклонений в левой ветви распределения, можно найти сумму квадратов центральных отклонений для первой подсовокупности: ч2 / ч2~ q=2 L/, / *l\ + Л »(-) (7.35) Подставляя конкретные значения, получим d = 2[1(6,0 -9,02)2 + 4(7,0 -9,02)2 + 13(8,0 - 9,02)2 + + 12,5(9,0 -9,02)2]= 77,94. При п\=61 имеем v=60 и sx =1,30, т.е. $1=1,14. Учитывая связь между оценками дисперсий подсовокупностей и дисперсией суммарной совокупности (см. формулу (5.15)), легко установить, что, располагая сведениями о средних, суммах квадратов отклонений и объемах суммарной выборки и одной из подвыборок, можно найти сумму квадратов центральных отклонений С2 для второй подвыборки, а затем и интересующую нас оценку соответствующей дисперсии s1: ■<\- ^fr-xf (7.36) (напомним, что значения без индекса соответствуют суммарной совокупности). Получаем \2 С2= 1086,11-77,94 100-61(9,02-11,33)" 100-61 : 174,42; так как /22=39 и v = 38,tos2 =4,59, т.е. s2=2,\4. По найденным оценкам параметров двух подсовокупностей можно вычислить выравнивающие частоты для отдельных классов значений влажности и проверить пригодность аппроксимации нормальным законом распределений в подсовокупностях (рис. 7.2). Проведенный анализ совокупности как суммы двух подсовокупностей, по-видимому, оказался успешным. Из этого анализа следует, что на изучаемой глубине в 61% объема почвы (в 61 случае из 100) после полива
Статистический анализ одной выборки 161 Рис. 7.2. Эмпирическое (1) и теоретическое (2) распределения частот по классам влажности почвы (х) при их аппроксимации нормальным законом двух подсовокупностей влажность не изменилась, в среднем имея 3^ = 9,0% при S\ = 1,14%. В 39% объема почва была увлажнена до х2 = 14,9% при s2 = 2,24%. В рассматриваемом примере вычисления оценок параметров подсовокупностей начинались с подсовокупности, имеющей наименьшие значения. Если же более выраженной оказывается правая мода, т.е. мода с более высоким значением, то вычисления следует начинать с поиска оценок параметров подсовокупности, формирующих правую часть суммарного распределения. Техника этих вычислений в принципе не отличается от рассмотренной выше, необходимо лишь учитывать, что информацию о параметрах распределений подсовокупности мы получаем по правой ветви распределения, содержащей наибольшие значения изучаемой случайной величины. С учетом этого формулы (7.31)-(7.33) должны иметь следующий вид (индекс "2" для подсовокупности с наибольшими значениями сохраняется): fj=k \ "2=2 1/)+/.(+) Кт+\ -то Jm(+) Jn /*K+)=/J°>5 + с jr. -то ж (7.37) (7.38) (7.39) где k - число классов, a fmi+\ - частота в пределах модального класса, соответствующая значениям, превышающим моду. Соответственно формула (7.35) при этом имеет вид
162 Глава 7 С2=2 Z fj fa'*!) + fm(+) (*■ ~ *2 f j-m+l (7.40) а в формулах (7.34) и (7.36) индексы "1" и "2" следует поменять местами. На этом анализ данных по влажности почвы можно было бы и закончить, однако на материалах данного примера можно рассмотреть и возможные пути его продолжения. Заметим, что подсовокупность увлажненных образцов почвы возникла в результате повышения некоторой исходной влажности почвы. Если допустить, что эта исходная влажность имела те же параметры распределения, какими обладает первая из взятых подсовокупностей, т.е. случайная величина хь а возрастание влажности рассматривать как сложение с величиной Х\ некоторой независимой от нее случайной величины Z, то Х2 = х\ + z. В этом случае среднюю прибавку влажности почвы, произошедшую в 39% объема изучаемого горизонта, можно оценить как z = х2 - х, = 14,94 - 9,02 = 5,92%. Дисперсия этого прироста влажности в отдельных точках, очевидно, может оцениваться по разности: s z = s I ~ s 2\ = 4>59 -Ь30 = 3,29, откуца.у2= 1,81. Полученные результаты позволяют считать, что исходная влажность почвы на рассматриваемой глубине, равная в среднем ]^ = 9,02% при S\ = 1,14%, в результате полива возрастает до х = 11,33%, т.е. на 2,31%, но при этом в 3 раза (до s = 3,31) увеличивается стандартное отклонение, характеризующее вариацию влажности на этой глубине. Причиной столь неадекватной реакции вариабельности на прирост влажности является то, что увлажнение слоя происходит не сплошь, не повсеместно, а локально, по языкам промачивания. В области таких промочен, а они занимают по найденным оценкам около 39% объема горизонта, влажность возрастает в среднем на 5,92% со стандартным отклонением прибавки влажности sz= 1,81, в результате чего стандартное отклонение влажности в этих увлажненных зонах повышается до ^2 = 2,14. Большая же часть объема горизонта (61%) при этом своей влажности не изменяет. 7.15. Оценка граничных значений между подсовокупностями Продолжая анализ данных на примере с влажностью почвы, заметим, что, поскольку как и исходная влажность, так и ее прибавка при увлажнении имеют большую неоднородность, то в условии независимости этих
Статистический анализ одной выборки 163 случайных величин совсем не обязательно, чтобы для увлажненной почвы значения влажности были более высокими, чем для почвы, не увлажненной поливом. Это хорошо видно на рис. 7.2, где в некоторой области значения влажности почвы могут принадлежать и той, и другой подсовокупностям. Очевидно, что принадлежность отдельных значений к разным подсовокупностям может быть иметь разную вероятность. Так, влажность 6-7% едва ли можно отнести к подсовокупности, соответствующей увлажненным образцам почвы, но в отношении значения 11 или 12% определенное суждение вынести очень трудно. Тем не менее чисто статистически вопрос о том, какое значение следует принять за граничное, разделяющее области предпочтительной принадлежности к одной или другой подсовокупности, может быть решен. Наиболее надежное нахождение граничного значения х\/2 возможно в том случае, когда смежные подсовокупности имеют распределения, близкие к нормальным, а объемы выборок насчитывают по меньшей мере десятки значений. Существенную роль играет и относительная величина различий между средними подсовокупностей. Если в качестве критерия выбора граничного значения взять равность ошибок первого рода при оценке принадлежности значений к подсовокупностям, то граничное значение следует искать как такое значение, которое обеспечивает равенство вероятностей: Р(хх > хт) = Р(х2 < хт\ (7.41) где jci и х2 - значения, принадлежащие первой и второй подсовокупностям. Граничное значение ху2 допустимо рассматривать как значение, в большую сторону от которого все значения принадлежат одной подсовокупности, а в меньшую сторону - другой. Однако следует иметь в виду, что при этом мы можем допустить ошибку, относя к первой подсовокупности значения, принадлежащие ко второй, и наоборот. Если средние подсовокупностей равны \Х\ и \х.ъ причем щ < ц2, то вероятность упомянутой выше ошибки оценивается выражением (7.41). Так как эта вероятность иногда может быть настолько высокой, что пренебрегать ею было бы рискованно, то более правильно рассматривать граничное значение как такое, по одну сторону от которого более предпочтительно все значения рассматривать принадлежащими одной случайной величине, а по другую сторону - к другой случайной величине. В техническом отношении нахождение граничного значения ху2 можно осуществить, если с некоторыми допущениями условие (7.41) заменить условием равенства абсолютных значений нормированных отклонений Ху2 от средних разделяемых подсовокупностей1: 1 Объёмы разделяемых подсовокупностей должны быть достаточно велики (п > 30) или по меньшей мере практически одинаковы.
164 Глава 7 *l/2 Xl _ X2 X\/2 откуда sl Xl/2 _ *ls2 Sl s2 + x2s{ + s2 (7.42) (7.43) Подставляя в (7.43) известные нам оценки, получим 9,02-2,14 + 14,94-1,14 1,14 + 2,14 = 11,08. Из приведенных вычислений следует, что в тех случаях, когда влажность почвы не превышает 11,08%, ее предпочтительно рассматривать как исходную, не испытавшую изменений в результате полива, и наоборот. Следует заметить, что изложенные выше приемы отыскания граничных значений могут быть использованы отнюдь не только в качестве одного из этапов анализа совокупности как смеси подсовокупностей. Граничное значение можно вычислить и для совокупностей, изучавшихся раздельно. Так, если в условиях Молдавии карбонатные черноземы на глубине 30-40 см содержат в среднем хх = 2,83% гумуса при s\ = 0,40% (п\ = 98), а обыкновенные черноземы на той же глубине имеют х2 = 3,30% при s2 = 0,51% (л2=117), то граничное значение окажется равным 2,83-0,51 + 3,30-0,40 ^/2 0,40 + 0,51 Предпочтительность отнесения черноземов к подтипу карбонатных, если в них на соответствующей глубине содержится менее 3,04% гумуса, и к обыкновенным, если гумуса окажется больше 3,04%, не означает, что с помощью подобного критерия можно строго однозначно разделять эти подтипы. Однако полезность подобного рода оценок, например, для целей диагностики почв, отрицать нельзя. Последний из рассмотренных примеров, очевидно, относится уже к случаю анализа двух совокупностей, чему будет полностью посвящена следующая глава. 7.16. Анализ долей Как и при анализе обычных средних, оценка доли и ее ошибка нред- ставлякгг интерес вследствие того, что наряду с точечной оценкой имеется возможность найти доверительный интервал для доли, а если нужно, то л ее гарантированные максимум или минимум. Однако, будучи средним,
Статистический анализ одной выборки 165 доля обладает известными особенностями, определяющими специфику некоторых подходов при решении подобных задач. Для их иллюстрации рассмотрим пример, в котором требуется определить долю площадей, приходящихся на солонцы, в пределах некоторого хозяйства. Основой для такой оценки служит почвенная карта, а способ определения доли заключается в подсчете числа точек, приходящихся в целом на все хозяйство (и) и в том числе выпадающих на солонцы (/+ ). Этот способ определения доли поверхности основан на допущении, что любая точка на карте имеет равную вероятность быть опробованной, а положение точек опробования в полной мере определяется игрой случая. Реально процедуру подсчета п и f+ можно осуществлять, многократно накладывая произвольным образом на анализируемую карту разреженную сетку равномерно распределенных точек (например, чтобы на всю площадь приходилось не более 100 точек). Смещая случайным образом сетку и подсчитывая каждый раз общее число точек и число точек, приходящихся на солонцы, получим суммарные значения п и f+, которые позволяют оценить как долю поверхности/?, так и ее ошибку s . Если из общего числа точек п = 1038 на солонцы выпало f+ = 321, то доля солонцов от общей 321 площади характеризуемой территории составляет р= =0,309. Ошибка доли, согласно формуле (5.53), есть /0,309.0,691 р V 1038 Абсолютная погрешность оценки доли определяется обычным образом по формуле (7.6) и для а=0.05 при v « оо (/005 =1,96) получим А005 = 1,96-0,014 = 0,027 . Итак, точечная оценка доли площади под солонцами равна 30,9% при погрешности 2,7% в ту или иную сторону (риск большей погрешности, чем 2,7%, составляет 5%). Это означает, что доверительный интервал для доли, вычисляемый по формуле Pa=P±tasp> С7-44) аналогичной (7.8), таков: р005 = 0,309 ± 1,96 • 0,014 = (0,28240,336). Подобного рода оценки представляют интерес при общей характеристике почвенного покрова, и тогда аналогичные оценки можно получить и для других почв. Для этого при каждом подсчете точек можно сразу вести дифференцированно учет числа точек, приходящихся на разные почвы, выделенные на карте.
166 Глава 7 Как и в случае анализа обычных средних, по тем или иным соображениям исследователя может интересовать лишь одна из границ; тогда можно вычислить гарантированный минимум тт(р)а или гарантированный максимум тах(р)а доли с уровнем значимости а: mm(p)a=p-t2as, (7.45) тах(р)а= p+t2a s- (7.46) Например, для характеристики почвенного покрова изучаемой территории как объекта сельскохозяйственного использования или предполагаемой мелиорации особый интерес может представлять максимум возможной доли поверхности под солонцами, что позволит оценить как максимальные возможные потери сельскохозяйственной продукции, так и максимальные затраты на мелиорацию таких почв. В рассматриваемом примере с риском ошибиться в 5% случаев доля солонцов не должна превышать тах(р)о>05=0,309+1,64-0,0144=0,333 , т.е. 33,3% общей площади территории. Как следует из формул (7.44) - (7.46) , вычисление доверительных границ и гарантированных максимумов и минимумов доли основано на допущении о нормальности распределения оценок доли р. Такое допущение тем лучше оправдывается, чем ближе доля Р к 0,5 и чем больше п. Когда доля Р оказывается слишком малой или наоборот слишком большой, распределение оценок доли р становится отличным от нормального, особенно при небольших объемах выборок (сказывается то, что величина доли может принимать значения лишь в интервале от нуля до единицы). В результате этого использование формул (7.44) - (7.46) для нахождения доверительных границ и гарантированных минимума и максимума доли оказывается малопригодным. Как показал Р.Фишер, это положение можно легко исправить, если воспользоваться так называемым ^-преобразованием. Если долю р представить в виде квадрата синуса некоторого угла <р/2, т.е. p = sin2|, (7.47) ТО (р = 2 arcsin yfp . (7.48) Заменяя распределение долей р распределением углов ф, получим распределение, близкое к нормальному, с дисперсией а1, зависящей только от объема выборки п. Если углы измерять в радианах, то *1=- (7-49)
Статистический анализ одной выборки 167 и ошибка репрезентативности при оценке генерального значения угла, соответствующего доле Ру по углу <р, соответствующему оценке доли /?, составит *-£• (75о) Располагая сведениями о <р и об объеме выборки п, можно получить интервальную оценку для генерального значения угла: ^a=<P±taS<p=<p±^, (7.51) а при необходимости гарантированные минимум min (<p) или максимум max (<p) угла с уровнем значимости а: n»(f),=f-7, (7-52) max(^)e = ^+%. (7.53) Для упрощения вычислений значения ср, соответствующие разным значениям р, могут быть табулированы (см. табл. XTV Приложения). С помощью обратного преобразования, согласно формуле (7.47), или воспользовавшись табл. XVII, можно перейти от углов к долям и из результатов вычислений углов по формулам (7.51) - (7.53) найти доверительные границы доли, их гарантированный максимум или минимум. Так, если при обследовании некоторого поля среди л=100 скважин в f+ =7 случаях глубина промачивания после полива превышала 1 м, то оценка доли поверхности с глубиной промачивания свыше 1м есть р = 7:100 = = 0,07. Для интервальной оценки доли Р воспользуемся ср-преобразованием. Из табл. XVII найдем, что доле/т=0,07 соответствует <р=0,536. Если нас удовлетворяет уровень значимости а=0,05, то (при v=99 имеем tQ 05 =1,98) — 1 98 ^on<5 =0,536±-f= = 0,536±0,198 = (0,338-0,734). VI00 Согласно той же табл. XVII можно обнаружить, что полученным доверительным границам угла соответствуют следующие границы доли: р005 = (0,028-^0,129). Таким образом, с вероятностью Р=0,95 (или с риском ошибиться а=5%) можно утверждать, что доля поверхности поля, на которой глубина промачивания после полива превышает 1м, составляет от 2,8% до 12,9%.
168 Глава 7 Вопросы для самоконтроля 1. Что собой представляет выбраковка как статистическая задача? 2. Можно ли по коэффициенту вариации судить о нормальности распределения? 3. Что может быть причиной асимметричности или эксцессивности распределений? 4. Можно ли по отсутствию асимметрии и эксцесса судить о нормальности распределения и наоборот? 5. Какие частоты называются теоретическими и каковы общие принципы их вычисления? 6. Что показывает абсолютная погрешность оценки среднего и от чего она зависит? 7. Какие оценки называются интервальными и что они показывают? 8. В чем различие показателя точности опыта и показателя относительной вероятной погрешности? 9. Что показывает гарантированный максимум (минимум) среднего и когда его следует вычислять? 10. Какие гипотезы составляют при сравнении средних с постоянными величинами и какими могут быть критерии их проверки? 11. Какие принципы лежат в основе методов исчисления достаточных объемов выборок? 12. В чем сходство и различие математического усреднения результатов анализа индивидуальных образцов почвы и физического усреднения при анализе одного смешанного образца, приготовленного из тех же индивидуальных образцов? 13. Что общего и в чем отличие интервальной оценки среднего и оценки интервала возможных значений случайной величины? 14. Какие значения можно считать типичными? 15. К чему сводится анализ совокупности, когда ее можно рассматривать как сумму двух подсовокупностей? 16. Какие соображения лежат в основе методов нахождения граничных значений между подсовокупностями? 17. Как дать интервальную оценку доли и ее гарантированный максимум (минимум)? 18. Почему при близости доли к 0 или 1 приходится прибегать к ф-преоб- разованию?
Глава 8 АНАЛИЗ ГРУППЫ ВЫБОРОК 8.1. Общие особенности анализа Наиболее часто исследователи, проводя наблюдения, ставят своей целью не характеристику какого-либо объекта самого по себе, а выясняют наличие сходства или различия между объектами, проявление динамики какого-либо свойства во времени, влияние некоторого фактора на то или иное свойство. Почти всегда в таких случаях наиболее интересующие исследователя вопросы сводятся к выяснению того, различаются ли объекты по средним показателям, меняются ли во времени средние значения, приводит ли воздействие (известкование, орошение и прочее) к изменению средних значений свойств (рН, урожайности, засоленности и пр.). Сравнительно редко подобные вопросы возникают относительно дисперсий, коэффициентов вариации, асимметрии и других особенностей случайных величин. В статистическом отношении решение многих задач подобного характера можно свести к проверке нулевой гипотезы об отсутствии различий между сравниваемыми константами (распределениями) при различных альтернативах, из которых чаще всего берется гипотеза о наличии каких-то различий. Поскольку методы сравнения средних зависят от того, допустимо ли дисперсии считать одинаковыми или нет, начнем с анализа однородности дисперсий. 8.2. Сравнение двух дисперсий 2 2 2 Если по двум выборкам получены оценки s г и s 2 дисперсий ст х и ст2, то нулевую гипотезу Н0 (гипотезу об однородности дисперсий) против альтернативной Hj 2 2 Н0: a j = а 2
170 Глава 8 2 2 Hjl СУ j Ф О 2 обычно проверяют с помощью статистики F. В полной мере корректна такая проверка при условии нормальности обоих распределений, однако, как показывает практика, использование статистики при неизвестных законах распределений сравниваемых случайных величин не дает существенных ошибок при условии, что эти распределения не слишком сильно отличаются от нормального. Для сравнения дисперсий вычисляют отношение большей оценки 2 2 дисперсии к меньшей (s { > s 2 ): F = s\ls\. (8.1) Если Fa есть критическое значение F, найденное по табл. V Приложения для заданного а и числа степеней свободы Vi и v2, с которыми по- 2 2 лучены оценки s { и s 2 , то при F >Fa нулевую гипотезу отвергают (с рис- 2 2 ком ошибки первого рода а) и считают, что дисперсии ст 1 и а 2 не равны. При F <Fa гипотеза об однородности остается в силе, что позволяет при необходимости вычислить усредненную оценку дисперсии согласно формуле (5.16) с числом степеней свободы v = V] 4- v2. Однородность стандартных отклонений оценивается путем проверки однородности дисперсий. Так, если при изучении влажности почвы на двух участках было получено s\ = 2,16 при п\ = 5 для одного участка ns2 = 1,37 при п2 = 4 для другого, то проверка однородности стандартов Ho'.<J\ = СУ2 осуществляется с помощью проверки однородности дисперсий Но : a j — ст 2 • Так как F = 2,162: 1,372 = 2,5, что меньше F0fi5 = 9,1 (при vi = 5 - 1 = 4 и v2 = 4 -1 = 3), то нет оснований считать, что дисперсии (а соответственно и стандартные отклонения) влажности на сравниваемых участках различны. 8.3. Средняя разность и ее значимость В ряде случаев оценку значимости различий между средними двух совокупностей приходится осуществлять на основании выборок, в которых отдельные значения из разных выборок попарно связаны друг с другом. Наиболее часто такая связь является следствием принадлежности результатов разных испытаний к одному элементу опробования, например, когда изучаемое свойство в каждом образце определяется двумя разными методами.
Анализ группы выборок 171 В подобных ситуациях объемы выборок одинаковы. Задачу оценки значимости различий между средними \х\ и \л2 можно решать разными способами. Наиболее просто это можно сделать, прибегая к вычислению попарных разностей между значениями хи и x2h где х]( - значения первой случайной величины, x2i - второй случайной величины, i = 1, 2, ..., п есть номер пары, а я - число пар (объем любой из выборок). Тогда ряд разностей ф= Хц -x2i можно рассматривать как выборку из некоторой генераль- w 2 ной совокупности со средним \xd и дисперсией a d. Бели средние щ и \х2 одинаковы, то \id должно быть равно нулю. Эта нулевая гипотеза Н0: № = ® обычно против альтернативной Hj:\xd*0 (или, что то же самое, Hj: |iii ф ц2) и подвергается проверке. В связи с этим для ряда значений dt вычисляют обычным образом среднее d и его ошибку s ^ (см. формулы (5.6), (5.11), (5.23)), а затем находят t =\d \/ Sj - Если t > ta для v = n - 1, то нулевую гипотезу отвергают и делают заключение, что средняя разность jli^ (и разность между средними jlii - \х2 ) не равна нулю, а значит, средние щ и ц2 отличны друг от друга. К подобному случаю сравнения средних можно свести задачу по изучению влияния предварительного высушивания почвы при 105° на величину максимальной гигроскопичности. Если каждый из 5 образцов почвы был в этом опыте разделен на две части и в одной из них была определена максимальная гигроскопичность без предварительного высушивания (jci, ), а в другой - после высушивания (х2,), то согласно описанному выше способу проверка предположения о роли высушивания может выглядеть следующим образом: х,/ 6,41 6,27 6,33 6,05 5,52 jc2/ 5,84 6,21 5,99 5,69 5,05 dt 0,57 0,06 0,34 0,36 0,47 Здесь 1 = 0,36; s 2 = 0,086; / = 0,36 : 0,086 = 4,19. При v = 5 - 1 = 4 находим *о,о5 = 2,78. Следовательно, у нас есть основания считать, что средняя разность отлична от нуля, а тем самым мы можем утверждать, что высушивание изменяет в среднем величину максимальной гигроскопичности (судя по знаку разности - уменьшает). 8.4. Сравнение двух средних при одинаковости дисперсий и некоррелированности выборок В общем случае для проверки нулевой гипотезы Н0: щ = Из против альтернативной Н\\ щ ф \х2 при наличии оценок х i и х 2 и их ошибок s- и Sj исходят из допущения, что разность d = х \-х 2 является нор-
172 Глава 8 мально распределенной случайной величиной со средней \id = 0. Оценкой sd стандарта этой величины, обычно называемой ошибкой разности, может служить 4 4 +4, • <8-2> Тогда t — d/sd распределено как f-Огьюдента и если t > ta, то нулевую гипотезу отвергают; если же t < ta, то различия между средними считают статистически незначимыми. При условии одинаковости дисперсий (это можно проверить с помощью критерия F) ошибку разности вычисляют с учетом усредненной оценки дисперсии s2 (см. формулу (5.16)). При этх>м s s ошибки средних х \ и х 2 примут вид —== и .— , где П\ и и2 - объемы >Я >Fi выборок, а ошибка разности есть JWl+W2 V П\-П2 (8.3) и ей соответствует число степеней свободы v = п} + п2 - 2. С этим v считается распределенной и f-Стьюдента. В частном случае, когда П]=п2=п, получим sd = Syl2/^, (8.4) причем v = 2 (л - 1). Так, с уменьшением влажности чернозема с 33,4 до 31,3% твердость (в кг/см2) возросла, судя по выборочным данным, с х \ = 9,2 при S] = 1,15 и«/=13дох2=11,5 при s2 = 1,72 и п2 = 5. Для проверки предположения о том, что средние значения твердости с колебанием влажности остаются неизменными (щ = |д2), при альтернативе, что твердость в среднем меняется (ц.! Ф ц2)> проведем необходимые вычисления с учетом того, что диспер- 2 2 сии допустимо считать одинаковыми (о} = а 2 ): 4 1,152(13-1) + 1,722(5-1) = { 32 . 13+5-2 ' ' sd= 1,32 ^у = 0.69; d = 9,2 - 11,5 = - 2,3; t = 2,3 : 0,69 = 3,33. При v=13 + 5- 2= 16 даже /o,oi ~ 2,92, не говоря о to,os, меньше t = 3,33, поэтому можно с большой уверенностью утверждать (риск ошибиться в утверждении не более 1%), что средняя твердость при различной влажности не одинакова.
Анализ группы выборок 173 8.5. Сравнение средних при неравенстве дисперсий Если случайные величины, средние которых следует сравнить, имеют разные дисперсии, то усреднение оценок дисперсий неправомерно, и тогда ошибку разности нужно вычислять непосредственно через ошибки средних по формуле (8.5). Очень часто при этом считают, что ошибка разности sd определена с числом степеней свободы v = nj +п2 - 2 и с таким же числом распределено t = \d]/sd. Это не так, что особенно важно иметь в виду при небольших объемах выборок. С некоторыми допущениями значения v в подобных ситуациях можно оценить по формуле 1 (8-5) 2 «1 «1- И, - (0-« 1 п2 - 2 SY 2 , 2 S- +S7 х\ х2 ■)2 1 где 2 (8.6) В важности отмеченного обстоятельства легко убедиться на примере с изучением содержания гумуса на двух участках почвенного покрова. Пусть для первого участка х\ = 3,12 при л7 = 4 и Sj = 0,24, а для второго х2 = 3,46 при n2 = 9 ns2 = 0,09 . Тогда, поскольку я,2 Д2 = 0,242/0,092 = = 7,1 > FQy05 = 4,1 и дисперсии нельзя считать одинаковыми, находим s^ = 0,24/^4 =0,12; ^ = 0,09/>/9 =0,03; sd = ylo,l22 +0,032 = 0,12; \d\ = 3,12 - 3,46 = 0,34; t = 0,34/0,12 = 2,8. По формулам (8.6) и (8.5) получим, что / можно считать распределенным с числом степеней свободы v = 3: 9 U' = Т^ 2 = 0'94' V = 2—^ Г =3'4 • 0,122+0,032 0,942 (1-0,94)2 3 8 Так как при v = 3 имеем %)5 = 3,12, что больше t = 2,8, то гипотезу о равенстве средних не отвергаем. Если v принимать равным пх + п2 - 2 = 11 (пренебрегая тем, что дисперсии не равны), то результат оказался бы иным: /0,05= 2,20 < t = 2,8 и среднее содержание гумуса на участках можно было бы признать разным, но такой подход, как правило, преувеличивает значимость различий. Полезно заметить, что, как следует из рассмотрения формул (8.5) и (8.6), если объем одной из выборок, например nh стремится
174 Глава 8 к оо, то оценка среднего л^ стремится к среднему \хи соответствующая ошибка Sj стремится к нулю и v определяется объемом второй выборки (п2 - 1), а сама задача сводится к выяснению значимости различий между неизвестным средним \х2 и постоянной величиной \х\. 8.6. Интерпретация результатов сравнения средних Сравнивая средние, всегда следует учитывать их статистическую природу, накладывающую определенный отпечаток на характер выводов, всегда имеющих вероятностную основу. В связи с этим, когда для простоты говорится о том, что полученные средние статистически не различаются, нужно понимать, что речь идет не об оценках средних, которые если и не одинаковы, то ставить под сомнение их различие бессмысленно, а о тех генеральных средних, которые нам в точности неизвестны. Если же различие между средними утверждается, то совсем не обязательно, чтобы это различие было равно разности между оценками соответствующих средних. Само по себе утверждение о существовании различий есть лишь утверждение, что разность между средними отлична от нуля. При необходимости, располагая значениями оценок разности d и ее ошибки sd с соответствующим числом степеней свободы v, можно получить интервальную оценку разности согласно формуле (8.7): da = d±taSd, (8.7) где tc$d представляет собой абсолютную погрешность в оценке разности с уровнем значимости а. Так, было получено, что различие между двумя участками по содержанию гумуса составляет d = х{-х2 = -0,34 при sj= 0,12 и v = 3. Отсюда rfo,05 = (-0,34) ± 3,12 • 0,12 = (-0,34) ± 0,37 = +0,03 -s- -0,71 . Как видим, погрешность в оценке разности здесь составила 0,37% содержания гумуса. В рамках проводимого исследования такая погрешность оказалась достаточно большой, в силу чего разность щ - Ц2 с вероятностью Р = 0,95 может оказаться не только отрицательной, но и положительной. Поэтому и не была отвергнута нулевая гипотеза о равенстве средних с уровнем значимости а = 0.05 . Утверждение о наличии или отсутствии различий нельзя трактовать как доказательство существования различий, а тем более их отсутствия. Имея дело со случайными величинами и проверяя гипотезы с помощью статистических критериев, исследователь практически никогда не имеет абсолютно полной гарантии верности полученных выводов. Выводы всегда имеют надежность, в большей или меньшей мере отличную от 100%.
Анализ группы выборок 175 Значимость различий между средними зависит от объемов выборок. С увеличением объемов, с одной стороны, уменьшаются ошибки средних и разностей, а с другой стороны, уменьшается критическое значение ta. Поэтому при небольших п достаточно часто различия оказываются статистически незначимыми, и наоборот. Однако нельзя обольщаться тем, что с помощью статистики всегда можно получить нужный результат: чтобы показать, что различий нет, следует взять небольшие выборки, чтобы получить значимые различия - выборки большого размера. Во-первых, незначимость различий очень часто связана с большой погрешностью оценок и если эти погрешности превышают практически или принципиально важные минимальные различия между средними, то исследование нельзя считать завершенным или удачным. Во-вторых, статистически значимые различия могут быть столь малы по своей величине, что это лишает их практического значения, а иногда и теоретического интереса. На значимости различий иногда строят попытки классификации объектов: отсутствие различий служит основанием для отнесения объектов к одной какой-то группе, их наличие - к разным группам. Такой подход нельзя считать удачным, поскольку с увеличением объема выборок происходит не уточнение классификационных групп, а увеличение их числа, связанное с ростом числа значимых различий. 8.7. Планирование численности выборок при сравнении средних Чаще всего планирование объемов выборок при сравнении средних производят, исходя из того, что после проведения исследования различия между средними должны быть оценены как статистически значимые. Постановка задачи в таком виде, вообще говоря, не очень верна. Дело в том, что далеко не все, казалось бы, хорошо спланированные опыты дают предполагавшийся результат, и в этом нет ничего страшного. Если бы было иначе, то незачем проводить эксперимент, ведь его результат в точности известен и введен в условие задачи. Планирование объемов выборок для оценки значимости различий между средними обычно строят исходя из ряда допущений. Во-первых, делают предположение о том, что разность между средними d известна. Если значение даже приближенно трудно предположить, то в качестве d берут наименьшую величину различий между средними, которой уже нельзя пренебречь и которая имеет либо практическое, либо принципиальное значение. При этом не следует забывать, что чем меньше выбрано d, тем надежней будут заключения, но тем больше окажется и планируемый объем выборок. Чем больше берется предполагаемая величина d, тем меньших затрат потребует планируемый опыт, но гарантии получения значимых различий при этом сокращаются.
176 Глава 8 Во-вторых, при планировании численностей выборок приходится предполагать известными дисперсии сравниваемых совокупностей. Чаще всего при этом используют некоторую априорную информацию, полученную на сходных объектах в сходных условиях проведения опытов, а иногда и оценки, полученные ранее на изучаемых объектах. Соотношение объемов сравниваемых двух выборок по возможности всегда должно быть оптимальным. Если дисперсии совокупностей noityc- тимо считать одинаковыми и равными .у2, то оптимальным является равенство объемов выборок: /i; = п2 = —, где п - суммарный объем двух выборок. При этом ошибка разности оказывается наименьшей и, как следует из формулы (8.8), она составляет sd=^. (8.8) Чтобы предполагаемая разность между средними d могла быть расценена как значимая, нужно, чтобы отношение ,-И-И* <8.,) sd 2s оказалось не меньше to, соответствующего v = п - 2. Учитывая зависимость taor пи производя некоторые преобразования формулы (8.9), можно установить, что для нахождения искомого суммарного для двух выборок объема па нужно вычислить вспомогательную величину d2 к2= -^Т (8.10) t2 и по таблице стандартных отношений —, где ta соответствует v = п - 2 п t2 (см. табл. X Приложения), найти искомое па согласно условию к2 = — . п Планируемые объемы каждой из выборок будут одинаковы и равны Например, неоднократными исследованиями было установлено, что аналитическая ошибка определения плотности твердой фазы почв пикно- метрическим методом близка ks = 0,03 г/см3. Если нам требуется установить, различаются ли между собой два образца по плотности твердой фазы не менее чем на d =0,05 г/см3, то, поскольку к2 - 0,052 / 4-0,032 = 0,69 , из табл. XII получаем л0,05= 9. Округляя 9/2 в большую сторону, получим, что каждый образец нужно анализировать с 5-кратной повторностью.
Анализ группы выборок 177 Если дисперсии нельзя считать одинаковыми, то целесообразно брать разные объемы выборок. При этом следует учитывать, что от соотношения объемов щ и п2 зависит не только величина ошибки разности, но и соответствующее ей число степеней свободы v. При данном суммарном объеме выборок п = щ + п2 оптимальным соотношением между щ и п2 является такое, которое обеспечивает получение наименьшей ошибки разности sd при наибольшем v. Можно показать, что это достигается, если — = —. n2 s2 При этом ошибке sj соответствует v = n - 2. Тогда для нахождения суммарного объема выборок пт обеспечивающего получение значимой разности, если она по абсолютной величине по меньшей мере равна </, следует вычислить величину *2=, d ,, (8.11) (s!+J2)2 t2 и по табл. ХП найти na из условия к2 =—. Объемы отдельных выборок п при этом составят Ц = -^Ц п2 =па-п, . (8.12) Подобный подход к оценке необходимого объема выборок целесообразно использовать, когда имеются серьезные основания считать, что дисперсия изучаемого свойства зависит от его среднего уровня, а также в тех случаях, когда проведенные исследования выявили неоднородность дисперсий, но не позволили с необходимой точностью и надежностью оценить различие в средних. Например, при определении твердости почвы на двух участках с щ = = п2 = 10 получили результаты 3^ = 45,3 , .Si = 4,3 и *2 = 39,8, s2 = 7,4, не позволившие утверждать, что различия по твердости имеются. Тогда для проведения повторного исследования, могущего дать более определенный ответ, если различия между средними не менее, чем d = 5, получим к2 = 52 _Л10 _л>| 24-4,3 (4,3 + 7,4): - =0,18;лога = 24; Щ = — «9; щ =24-9 = 15 2 ** Чек 4,3 + 7,4 2°.о5 Если вычисленное значение к2 < 0,13 , то искомое па можно найти по формуле na=f-, (8.13)
178 Глава 8 взяв ta для v = оо. Планирование численности выборок как при оценке средних, так и при их сравнении, нередко вскрывает ситуаций, когда требующаяся по- вторность оказывается настолько большой, что практически не может быть реализованной. Наиболее распространенной реакцией исследователя в таких случаях бывает, к сожалению, разочарование в статистических методах и отказ от их использования. Невозможность практической реализации рекомендуемой повторности означает, что в рамках ггооводимсго эксперимента нельзя сделать надежные выводы и заключения могут носить лишь характер предположений, настаивать на которых лучше не стоит. Само это знание малой надежности выводов должно расцениваться как важная информация о качестве проведенного исследования, и нет оснований скрывать малую надежность выводов, если исследование все же проведено с достаточной повторностью. 8.8. Сравнение долей При сравнении долей нулевая гипотеза сводится к предположению, что генеральные доли Рх и Р2 равны, а различия в оценках рх и р2 обязаны не более чем обычной игре случая. Если эта гипотеза верна, то при разности между оценками долей d= рх - р2 и ошибке разности, вычисляемой обычным способом: H+sX' (8.14) где s и s - ошибки долей, найденные по формуле (5.53), отношение М t =—L не должно превышать критического значения ta, которое берется sd обычно для v = п\ + п2 - 2. Если окажется, что t >ta, то с соответствующим уровнем значимости а от нулевой гипотезы можно отказаться в пользу альтернативной гипотезы, состоящей, например, в том, что генеральные доли Pi и Р2 не равны между собой. Пусть, например, до и после вспашки поля доля водопрочных агрегатов, определенных по Андрианову в выборках по щ= п2 = 100 агрегатов, оказалась соответственно равной рх = 0,78 и р2 = 0,70 . Тогдр, поскольку г 0,78-0,22 Л 100 , =олоо.зо = ^100
Анализ группы выборок 179 f О,78-0,70 0,08 по ,/0,001716 + 0,002100 0,062 что существенно меньше ^005= 1,97, у нас нет серьезных оснований утверждать, что вспашка изменила долю водопрочных агрегатов в почве. Более предпочтительно оценивать значимость различий долей, особенно если их величина приближается к нулю или единице, используя преобразование долей в углы <р. При этом нулевую гипотезу о равенстве долей заменяют гипотезой о равенстве углов. Соответствующие полученным оценкам долей рх и р2 углы <рх и <р2 находят из табл. XIV Приложения. Если объемы соответствующих выборок равны щ и п2, то в силу формулы (8.58) разности углов d - <рх - <р2 соответствует ошибка ■ П\ +П2 (8.15) причем v = щ + п2 - 2. При условии Sd ^H-^ нулевую гипотезу о равенстве углов (и долей) отвергают. Заметим, что если величина t распределена с некоторым числом сте- пеней свободы, например с v = n\+ п2 - 2, как в выражении (8.16), то t является случайной величиной, распределенной как F с Vi = 1 и v2= щ + п2 - 2. Поэтому если все члены в выражении (8.16) возвести в квадрат, а это иногда способствует упрощению вычислений, то проверка нулевой гипотезы будет осуществляться с помощью статистики F: нулевая гипотеза отвергается при условии, что F = d2 4^>F (8.17) л,+/12 В рассмотренном выше примере с водопрочностью агрегатов для долей рх = 0,78 и р2 = 0,70 углы согласно табл. XVII, оказываются равными <рх = 2,165 и <р2= 1,982. Так как d= 2,165- 1,982 = 0,183 и щ=п2=- 100, то получаем • = 0,183 [М± Vioo+i / = 0,183./"" 10° =1,29, м _1(Ю
180 Глава 8 что меньше tQ 05 = 1,97 . По формуле (8.17) находим ^0Д832*°^ = 1,67, 200 что меньше F0 05 = 3,9 при Vi =1 и v2 = 198. Вопросы для самоконтроля 1. К чему относится утверждение об однородности дисперсий - к дисперсиям или их оценкам? 2. С помощью какого критерия можно сравнить между собой два стандартных отклонения? 3. Какая нулевая гипотеза проверяется при сравнении средних? 4. Какую роль играет однородность дисперсий при сравнении средних? 5. Что означает незначимость различий между средними и с чем она может быть связана?
Глава 9 ДИСПЕРСИОННЫЙ АНАЛИЗ 9.1. Общее представление о принципах дисперсионного анализа В качестве причин варьирования изучаемого признака, называемого результативным, могут рассматриваться другие признаки и явления, которые обычно называются факторами. Естественно, что это деление чисто условно, так как те признаки, которые в данном случае рассматриваются как фактор, в другом случае могут выступать в качестве результативных. Выяснение роли тех или иных факторов в варьировании значений результативного признака может быть осуществлено с помощью специального метода, получившего название дисперсионного анализа. Чтобы судить о том, влияет ли данный фактор на результативный признак, нужно чтобы сам факториальный признак имел несколько уровней, которые называют градациями фактора. Например, чтобы судить о влиянии глубины вспашки на урожай пшеницы, нужно, чтобы факториальный признак (глубина вспашки) имел по крайней мере две градации, т.е. две различные глубины. Для проведения дисперсионного анализа данные наблюдений над результативным признаком по отдельным градациям фактора сводят в таблицу, составляющую так называемый дисперсионный комплекс. Если изучается влияние одного какого-либо фактора, то дисперсионный комплекс называется однофакторным. Число учитываемых факторов может быть больше одного, тогда комплексы называются двух-, трехфакторными и т.д. Градации учитываемых факторов по своему характеру могут быть различны. В одних случаях они могут быть фиксированы исследователем, не случайны, и тогда дисперсионный комплекс соответствует так называемой I модели. Фиксированные градации факторов обычно устанавливаются экспериментатором, исходя из целей проводимого опыта. Такими фиксированными градациями служат, например, различные дозы удобрений или норма известкования, способы полива или приемы обработки почвы при изучении их влияния на свойства почвы. В других случаях градации фактора носят случайный характер, и тогда дисперсионный комплекс соответствует так называемой II модели. Примером этой модели служит дисперсионный комплекс, составленный для изучения влияния индивидуальности растений на содержание белка в
182 Глава 9 зерне. Здесь отдельные градации изучаемого фактора случайные представители из некоторого множества растений данного сорта. Такими же случайными градациями могут считаться отдельные точки (разрезы), в которых изучаются свойства какой-либо почвы. В двух- и более факторных комплексах один фактор может иметь фиксированные градации, а другой случайные. Модель такого комплекса называется смешанной (или III моделью). К такой модели относится, например, дисперсионный комплекс, предназначенный для выяснения роли в урожайности пшеницы сортовой специфики (фиксированные градации) на нескольких опытных участках (случайные градации). Если числа наблюдений п над результативным признаком по отдельным градациям изучаемого фактора в однофакторном комплексе или по отдельным сочетаниям градаций в многофакторном комплексе одинаковы, то комплекс называется равномерным, если же эти числа различны, то комплекс называется неравномерным. Общее число наблюдений над результативным признаком N-Yji принято называть объемом дисперсионного комплекса. Сущность дисперсионного анализа состоит в вычленении из общей вариабельности результативного признака той части, которая определяется влиянием учитываемых факторов, и части, связанной с влиянием на результативный признак всех прочих факторов, не учитываемых и объединяемых в группу случайных факторов. Степень вариабельности при этом оценивается величинами дисперсий, и дисперсионный анализ сводится к разложению общей дисперсии на составляющие и к оценке статистической значимости дисперсий, связанных с влиянием тех или иных учитываемых факторов на величину результативного признака. Дисперсионный анализ однофакторного комплекса строится в предположении, что любое значение х результативного признака можно выразить через его среднее значение р, для комплекса в целом, через условное среднее ц, для i-й градации фактора^ (i = 1, 2,.., а, где а - число градаций фактора А) и через случайные отклонения w = x -щ> распределение которых в пределах отдельных градаций фактора А нормально со средним \хцг= 0 и дисперсией aw одинаковой для каждой из градаций фактора Л: x=//+(tfr-//) + w. (9.1) Применительно к однофакторному комплексу нулевая гипотеза состоит в предположении, что фактор А на результативный признак не влияет^ поэтому все частные средние щ одинаковы и равны общему среднему ц. Н0:ц1=Ц2=...Цк=Ц. Альтернативная гипотеза состоит в том, что среднее значение хотя бы одной из градаций отличается от других средних: Н1:ц1*ц2=...Цк=Ц.
Дисперсионный анализ 183 Если градации фактора А случайны (П модель), то условные средние /4 представляют собой случайные значения, принадлежащие некоторой случайной величине, и тогда, обобщая соотношение (9.1) на всю возможную совокупность значений х9 общую дисперсию сг2 можно выразить че- 2 ~ 2 рез дисперсию а А условных средних и случайную дисперсию a w ^=^ + 4. (9.2) Для I модели /4 не являются случайными величинами (поскольку градации А фиксированы исследователем), поэтому их неодинаковость нельзя характеризовать с помощью дисперсии. Однако, если использовать те же технические приемы вычислений, то можно получить некий аналог дисперсии для выражения неодинаковости неслучайных величин. Обозначая егок А , для I модели получим <? = к2А+о2„. (9.3) Аналогичные соотношения лежат в основе дисперсионного анализа многофакторных комплексов. Результаты выборочных наблюдений над результативным признаком, сведенные в дисперсионный комплекс, не дают возможности найти дисперсии, характеризующие вклад случайных и организованных (учитываемых) факторов в общее варьирование случайной величины X. Выборочные на- 2 2 2 блюдсния позволяют лишь получить оценки s А , к А , s w, соответствующих 2 2 2 параметров а А, к А ,ow, поэтому для суждения о значимости влияния учитываемого фактора (или факторов) на величину результативного признака нужно оценить значимость соответствующей дисперсии (или дисперсий). Если обнаружится, что при таком допущении вероятность получения 2 2 данного значения s А (или к А ) слишком мала, то это можно рассматривать как аргумент для отказа от нулевой гипотезы в пользу альтернативной гипотезы, а это равносильно признанию статистической значимости влияния фактора А на результативный признак. 9.2. Разложение суммы квадратов и дисперсии при дисперсионном анализе (на примере однофакторного комплекса) Дисперсионный анализ основывается на возможности расчленения общей суммы квадратов центральных отклонений и соответствующего ей числа степеней свободы на отдельные составляющие, определяемые структурой дисперсионного комплекса. В простейшем случае, когда ре-
184 Глава 9 зультаты измерений Ху образуют однофакторный комплекс с а градациями фактора >4 и повторностью щ (i = 1, 2,..., a;j - 1, 2,..., nt) можно вычислить три суммы квадратов: общую сумму Су, представляющую собой сумму квадратов отклонений отдельных х% от общего среднего х=^ , гдеЛ^=Е«г: Cr=SZ(^-*)2; <9-4) ' J факториальную сумму квадратов СА, представляющую собой сумму квадратов отклонений частных средних х~( от общей средней х , взвешенных соответствующим числом повторностей щ\ ^ =!»,(*,-*)2; (9-5) случайную сумму квадратов Cw, отражающую варьирование в пределах отдельных градаций фактора А и равную сумме квадратов отклонений xtj от своих частных средних xf: <V=I (9.6) \T.(*y-xi) L J Происхождение названий сумм квадратов очевидно: Ст характеризует общее варьирование в пределах дисперсионного комплекса, связанное с влиянием на результативный признак всех возможных (тотальных) факторов Т как случайных, так и учитываемых. СА - варьирование в ряду средних, которое может быть в определенной степени результатом воздействия на изучаемый признак учитываемого нами фактора A, Cw - варьирование, связанное с влиянием на результативный признак неучтенных, случайных факторов W. Можно показать, что между Ст, Cw и СА существует простая зависимость: CT=CA + CW. (9.7) Число степеней свободы, с которым вычисляется общая сумма квадратов равно. Vj- = N- 1. Число степеней свободы, соответствующее факто- риальной сумме квадратов, зависит только от числа средних х.: vA = а — 1. Для Cw число степеней свободы равно объему комплекса N за вычетом числа средних х~., т.е. a: \w =N- a . Очевидно, что здесь также имеет место свойство слагаемое™: vT=vA + vw. (9.8)
Дисперсионный анализ 185 Ai Al А2 Аз А, А5 3,05 3,30 3,01 3,42 2,99 ХИ 3,19 3,21 3,17 3,29 2,87 3,27 3,09 3,26 3,36 3,11 3,13 3,44 3,08 3,21 3,15 «/ 4 4 4 4 4 Таблица 9.1 2>* 'У 12,64 13,04 12,52 13,28 12,12 X i 3,16 3,26 3,13 3,32 3,03 1 В существовании указанных соотношений легко убедиться на примере, в качестве которого возьмем П модель однофакторного равномерного комплекса. Результативный признак - содержание гумуса Х(%), фактори- альный признак А - индивидуальные особенности местоположения разрезов, в которых из пахотного слоя отбирались образцы в 4-кратной повтор- ности (л, = п - 4). Число разрезов a = 5 соответствует пяти случайным градациям фактора А. Объем дисперсионного комплекса N = £л, = an = 20. Результаты проведенных анализов сведены в табл. 9.1. Поскольку Zx,y= 63,60 и х = 63,60 20 3,18 получим: Ст= (3,05 - 3,18)2 + ... + (3,15 - 3,18)2 = 0,4050; СА = 4[(3,16 - 3,18)2 + ... + (3,03 -ЗД8)2] = 0,2056; Cw = (3,05 - ЗД6)2 + .... + (3,15 - 3,03)2 = 0,1994; СА + Cw = 0,2056 + 0,1994 = 0,4050 = Ст\ vr = 20 - 1 = 19; \А = 5 - 1 = 4; vw= 20 - 5 = 15; \А+ v^= 4 + 15 = 19 =vr. Вычисление сумм квадратов обычно осуществляется не по формулам (9.4) - (9.6). Учитывая, что в однофакторном равномерном комплексе все повторности щ одинаковы и равны л, то, принимая обозначения IX иЯ = —, N можно получить следующие рабочие формулы для отыскания С а - НА - Н, Сх = 02 — Н, Cw = S2 - НА. (9.9) (9.10) (9.11)
186 Глава 9 Для рассматриваемого примера имеем: НА = 202,4536, #=202,2480, S2 = 202,6530 и Ст= 0,4050, СА = 0,2056, Cw= 0,1994. При делении суммы квадратов на соответствующее число степеней свободы получаются средние квадраты, называемые соответственно общим, фаюпориалъным и случайным: *-£i! «■-£! = *-£;• (912) Средний квадрат Qt служит оценкой общей дисперсии а2, характеризующей варьирование значений Ху вокруг общей средней х , вызванное влиянием на результативный признак как изучаемого фактора А, так и случайных причин. Случайный средний квадрат Q^ служит оценкой слу- 2 2 чайной дисперсии a w и, значит, Qw=s w. Средний квадрат Q^ характеризует варьирование в ряду выборочных средних xt, и поэтому он отражает не только варьирование средних ц,, если щ для разных градаций А неодинаковы, но и то варьирование, которое имеет место в силу того, что вместо ц,- мы используем их оценки ~xt. Можно показать, что в случае равномер- 2 2 ного комплекса II модели Q^ является оценкой a w + па А , а для I модели - «2 2 оценкой а w + л*:^ . Отсюда следует, что зная средние квадраты Q^ и Q^ ,можно получить оценки s А (или к А ) для а А (или я:^ ), характеризующих варьирование (неодинаковость) средних \х(\ 2 / ,2ч Qa ~Q\V /c\ ii\ sA (илик^)^-^ ^. (9.13) п 2 2 Обычно нахождение оценки дисперсии sA (или кА) имеет смысл проводить лишь в том случае, когда влияние изучаемого фактора не вызы- вает особых сомнений, т.е. когда есть основания утверждать, что о А (или кА) отлична от нуля. Значимость влияния фактора на результативный признак оценивается с помощью статистики F, которую можно вычислить как отношение: Faav- —• Если F> Fa для Vi = a-1 и v2 = N— а, то с соответствующей вероятностью влияние фактора на результативный признак считается статистически значимым.
Дисперсионный анализ 187 2 2 Действительно, поскольку Q^ является оценкой выражения aw + na A (или а^ + пк2А)уа Qw - оценкой a w, то дисперсионное отношение в случае отсутствия влияния фактора на результативный признак, т.е. ко- ? 2 гда оЛ (или к А ) равно нулю, будучи отношением двух независимых оценок QA и Q^ одной и той же дисперсии a w, должно варьировать около 1. 2 2 Если ал (или кА) больше 0, то центр распределения F оказывается больше 1. Если выборочная величина F оказывается настолько большой, что случайными причинами появление такого ее значения трудно объяснить, нулевую гипотезу об отсутствии влияния изучаемого фактора отбра- 2 2 сывают и признают, что о А (или к А ) больше 0. Для приведенного выше примера получим: Q,- <^ = 0,0514, (W^^?1 =0,0133 4 15 _ 0,0514 и rW= = 3,9, 0,0133 что превышает F0,o5 = 3,1 для vi = 4 и v2= 15. Поскольку с вероятностью Р=0,95 влияние местоположения разрезов на содержание гумуса статистически значимо, можно оценить и дисперсию а А , которая характеризует степень варьирования среднего содержания гумуса между разрезами: ^ = 0,0514-0,0133 =0(Ю95 Таблица 9.2 Источник варьирования Местоположение разреза (фактор Л) Случайные причины (фактор W) Случайные и учитываемые факторы (7) V 4 15 19 Сумма квадратов С 0,2056 0,1994 0,4050 Средний квадрат Q 0,0514 0,0133 0,0213 Оцениваемый параметр 2 2 aw + noA 2 2 2 2 gt=gA+ow F 3,9* ^ = 0,0133 ^ = 0,0095 ^=0,0115 ^ = 0,097 *F>F0,05 = 3,1.
188 Глава 9 Если в результате проведенного анализа обнаруживается, что величина Faw < Fa и, следовательно, нет оснований считать, что изучаемый фактор оказывает влияние на распределение результативного признака, то средние квадраты Q^ и Q^ в равной степени можно рассматривать как оценки одной и той же дисперсии a w, характеризующей в этом случае 2 варьирование в пределах всего комплекса. При этом лучшей для a w мож- но считать оценку s ., усредненную из Qw и Qj. Усреднение следует проводить с учетом "веса" этих средних квадратов, в качестве которого выступает соответствующее им число степеней свободы: 2 =Qw{N-a) + QA(a-l) ** (N-a) + (a-l) Откуда, учитывая, что Qw(N -a) = CV, QA(a -1) = CA, Сц^-СА=Ст, получим ** N-1' Как видим, в том случае, когда влияние фактора на результативный признак незначимо, оценкой дисперсии изучаемой величины может служить s T. Если результаты дисперсионного анализа свести в таблицу, то она примет вид, представленный в табл. 9.2. Проведенное исследование свидетельствует о том, что содержание гумуса варьирует как в образцах, отобранных в одном разрезе (степень этого варьирования характеризуется величиной Sw= 0,115%), так и от одного разреза к другому (степень варьирования средних для разрезов содержания гумуса почти столь же велика, как и в пределах одного разреза, и оценивается величиной sA = 0,097%). Значимость между средними квадратами обычно отображают звездочками у значений F, отмечая в примечании к таблице, какому минимальному уровню значимости соответствует различие (см. табл. 9.2). 9.3. Оценка степени влияния изучаемого фактора Установление влияния изучаемого фактора на результативный признак вызывает естественное желание оценить степень этого влияния, т.е. ту долю варьирования результативного признака, которая обязана своим происхождением воздействию данного фактора. Очень привлекательным в этом плане представляется равенство (9.7). Однако попытку взять отно- СА шение —— в качестве оценки показателя степени влияния нельзя считать
Дисперсионный анализ 189 удачной по той причине, что факториальная сумма квадратов является не только (а нередко и не столько) результатом влияния изучаемого фактора А на признак, но и следствием варьирования оценок х.. Для получения исправленного показателя степени влияния из величины Са нужно взять лишь ту часть, которая своим происхождением обязана только влиянию фактора А. С учетом этого для II модели дисперсионного комплекса степень влияния можно оценить по формуле Миллса где е А - показатель степени влияния фактора А в долях единицы. Для модели I типа в качестве показателя степени влияния пользуются так называемым внутриклассовым коэффициентом корреляции, вычисляемым по формуле - - Qa'Qw (9.15) или lr1 Л. 2 кА +sw (9.16) Следует иметь в виду, что как гА, так и е А, вычисляемые по форму- лам (9.14) - (9.16), оказываются смещенными оценками рА и ц А, причем тем более смещенными (преуменьшенными), чем меньше число градаций а при данном объеме дисперсионного комплекса N. Вычисление е А и г а имеет смысл производить лишь в том случае, когда влияние изучаемого фактора статистически значимо. Рассмотренный в 10.2 пример относится ко II модели дисперсионного анализа. Учитывая, что фактор А влияет значимо, оценим степень этого влияния: е^1-М133=0,38. А 0,0213 Полученная величина означает, что местоположение разреза на 38% определяет варьирование содержания гумуса. Остальные 62% из общей вариабельности свойства являются следствием влияния случайных факторов, т.е. не учитываемых нами и обусловливающих наличие неоднородности в содержании гумуса в пределах одного разреза.
190 Глава 9 9.4. Оценка существенности различий между средними значениями При условии значимости влияния изучаемого фактора на результативный признак приобретает смысл установление границ возможных значений средних |д по отдельным градациям фактора А. Эти доверительные границы вычисляют согласно выражению %a=h^a^9 (9.17) где ta берут из табл.Ш Приложения для v = vw= N - я, a sw = yJQw . Если влияние фактора статистически значимым не признано, то доверительные границы среднего для комплекса в целом можно оценить по формуле где ta берется для v = N -1 , a sT = ^JQp . По результатам дисперсионного анализа содержания гумуса (Табл. 9.1 и 9.2) имеем: sw = 0,115 , при \w = 15 *0,05 = 2,13 и ]cj..0 05 = х( ± 0,12 . Для градации Аь например, получаем 3^.0 05 = 3,16 ± 0,12%. Для оценки значимости различий между средними значениями часто рассчитывают так называемую наименьшую существенную разность (НСР): HCP = tasd, (9.19) -^ где sd = J—— , a ta берется для числа степеней свободы v = In - 2 . Если разность между любыми средними превышает НСР, эти средние считаются различными. Проведем сравнение средних для предыдущего примера. В нашем случае ^ 01326 =0,0814, v=2*4-2=6, 10,05=2,45, 4 НСР=0,081*2,45=0,200. Расположив средние значения в порядке возрастания, подчеркнем незначимо различающиеся: 3,03 3^13 3,16 3,26 3,32
Дисперсионный анализ 191 Несмотря на широкую распространенность этого метода, он не свободен от недостатков. Если исследователем получено к выборочных оценок среднего, то число их возможных пар при сравнениях равно 0,5к(к-1). Чем больше к, тем шире возможность найти достаточно большую величину разности, что приходится учитывать при сопоставлении средних, когда к > 2. Недоучет этого обстоятельства приводит к преувеличению числа значимых разностей. Поэтому более обоснованно сравнивать средние следующим образом. Рассчитывается величина da. da = qas-, (9.20) где qa - некоторая величина, являющаяся функцией числа степеней свободы v, с которым найдена ошибка среднего (v = a{n - 1)), и числа сравниваемых средних g (см. табл. ГХ Приложения). Если g = 2, то qa= tay/2 • Можно для всего ряда средних вычислить одну критическую величину da (чаще всего именно так и делают), но это обычно приводит к тому, что значимость различий несколько преуменьшается. Более правилен подход, согласно которому в ранжированной последовательности оценок х, от наименьшей j^* до наибольшей xf сначала оценивают значимость различий между ц* и \х*к по разности д£ - jEJ* сравнением ее с da, вычисленной по формуле (9.20), где qa берется для g = а. Если ~х*к - х* < da, то все х* считают оценками одного среднего и на этом анализ значимости различий заканчивается. Если же окажется, что хк - х* >da, то различия между [х к и \х, считают значимыми и приступают к сравнению j^ с хк_х, разность между которыми сравнивают с da , вычисленной при qa , взятой из табл. XI для того жеуи^ = а- 1. Если и здесь окажется, что d > da, то сравнивают х* с хк_2 и т.д. до тех пор, пока разность между оценками средних не окажется меньше критической. На этом сравнение оценок средних с х* завершают. В ранжированной последовательности эти оценки и все оценки, лежащие между ними, подчеркивают одной сплошной линией, показывающей, что эти оценки могут считаться оценками одного среднего. Затем процедуру сравнения повторяют для 3£, Зс3* и т.д., в каждом случае завершая подчеркиванием незначимо различающихся средних, если эти средние уже не объединены одной сплошной линией при предыдущем сравнении. При всех сравнениях средних значение qa берут из табл. XI для g, зависящего от числа оценок, заключенных между сравниваемыми оценками. Если в ранжирован-
192 Глава 9 ной последовательности номера сравниваемых оценок равны / и /и, причем / < m, то g = /и - / + 1. Так, при сравнении х^ с а£ получимg = 6 - 2 + 1 = 5. Для рассматриваемого выше примера число выборок ^0,05= tfoV 2 0,226 3 0,231 4 0,232 5 0,232 Так что однородные группы, выделяемые этим методом, отличаются от групп, выделенных ранее: 3,03 3,13 3,16 3,26 3,32 9.5. Условия применимости дисперсионного анализа и преобразования значений результативного признака Дисперсионный анализ строится в предположении, что изучаемый признак имеет нормальное распределение и его дисперсия по всем градациям учитываемого фактора одинакова. Как показывает практика, условие нормальности распределения не является очень жестким, но условие однородности дисперсий должно выполняться строго. Проверка выполнения этого условия осуществляется с помощью критериев однородности дисперсий. Если обнаружится, что дисперсии нельзя считать одинаковыми, то дисперсионный анализ с исходными значениями х результативного признака проводиться не может и приходится прибегать к некоторым нелинейным преобразованиям значений результативного признака. Так, если случайная величина X имеет распределение Пуассона, когда дисперсия равна среднему, то дисперсионный анализ явно не применим. В этом случае можно воспользоваться преобразованием у = 4х и вести дисперсионный анализ по значениям у, для которых дисперсия почти не зависит от среднего. В случае пропорциональности стандарта распределения среднему, а также в условиях, когда эффекты воздействия факторов не суммируются (в основе дисперсионного анализа лежит слагаемость эффектов), а перемножаются, значения результативного признака можно заменить их логарифмами. Заметим, что проведение преобразований не всегда дает желаемый эффект, в силу чего после проведения преобразований проверку пригодности данных для дисперсионного анализа следует повторить.
Дисперсионный анализ 193 Замена значений х на линейные функции от них (увеличение или уменьшение всех значений на постоянную величину, умножение или деление на постоянную величину) не изменяет пригодности данных для проведения дисперсионного анализа, однако к таким преобразованиям иногда прибегают с целью упрощения вычислений. Вычисленные по преобразованным данным значения F, г и е2 в полной мере относятся и к не- преобразованным данным. Если для исследователя представляют интерес средние, дисперсии и стандартные отклонения для исходных данных, то полученные при дисперсионном анализе линейно преобразованных данных соответствующие оценки требуют корректировки. 9.6. Сравнение более чем двух дисперсий Если число сравниваемых дисперсий больше двух, то имеется возможность подбора разных пар оценок дисперсий для нахождения их отношений. Использование в подобных случаях критерия, основанного на F- распределении, приводит к завышению значимости различий, причем оно тем больше, чем больше выборок сравниваются друг с другом. В связи с этим проверку однородности дисперсий, когда число оценок более двух, осуществляют с помощью специальных статистик. В том случае, когда совокупности имеют распределение, близкое к нормальному, и все оценки дисперсий найдены с одинаковым числом степеней свободы v, можно использовать критерий, основанный на отношении максимальной оценки дисперсии к минимальной: г max = ^ max ^ min * V^l) Если Fmax > Fmaxja, где F'та^а - табулированные критические значения Fmax в зависимости от v и числа а сравниваемых оценок дисперсий (см. табл. VIII Приложения), то дисперсии считаются неоднородными, т.е. отдельные оценки дисперсий являются оценками по меньшей мере двух разных дисперсий. Можно воспользоваться интересным приемом, представляющим попарное сравнение всех дисперсий. Наиболее просто и сравнение, и отображение его результатов осуществляется методом Ньюмена-Койльса, со- ~ 2 гласно которому все а оценок дисперсии s . располагают в ранжированный ряд от наименьшей s* до наибольшей л£ . Сначала оценки дисперсий сравнивают с s*2, начиная с наибольшей. Если Fmax = s%t : s*2 <Fmax;a при g = а, то нулевую гипотезу об однородности дисперсий не отвергают и на этом сравнение дисперсий заканчивают. Если же F^ > F^^ (для v и g = а), то различия между дисперсиями а* и G*k расценивают
194 Глава 9 как значимые и приступают к сравнению оценок s{ и sk_x сопоставлени- *2 *2 ем Fmax = sk_{ /sx с Fmax;a для числа степеней свободы v и числа сравни- *2 ваемых дисперсий g = к - 1. При F^ < ^ma^v^-i) все дисперсии от a j до *2 ст к_х включительно считают одинаковыми и дальнейшее сравнение оценок с sx прекращают. При F^ >F^;a(vtk-i) считают, что а*{ Ф а*к_{ и присту- *2 *2 г. пают к сравнению s k_2 с s { , отношение которых сравнивают с F^^ для числа степеней свободы v и числа сравниваемых оценок g = к - 2. Такое сопоставление, если нужно, производят для всех пар оценок дисперсий. При значимости этих различий с s *x 2 затем сравнивают ^_3 и т.д., до тех пор, пока различия не окажутся незначимыми. Тогда берутся за срав- *2 *2 нение оценок, начиная опять с большей, с s2 , затем с s3 и т.д. Если номера оценок сравниваемых дисперсий в ранжированной последовательности равны / и /и, причем / < т, то для отношения Fmax= s ** /s *2 критическое значение Fmax;a берут для g = т -1 + 1. Подчеркивая в ранжированной последовательности незначимо различающиеся оценки дисперсий и лежащие между ними оценки одной сплошной линией, можно получить простую форму представления результатов такого анализа. Так, для рассмотренного примера с пространственной изменчивостью гумусаранжированные величины дисперсий равны: Местоположение Дисперсия Отношение дисперсий 1 0,0082 1,00 2 0,0085 1,04 3 0,0118 1,44 4 0,0160 1,95 5 0,0218 2,66 Обращаясь к табл.VIII Приложения, находим значение Fmax при уровне значимости а = 0,05 для g = 5 и числа степеней свободы, с которой определена дисперсия в каждой выборке v = 4 - 1=3. Это значение равно ^тах=50,7, что намного превышает значения, полученные при делении величин выборочных дисперсий на максимальную из них. Таким образом, дисперсии гумуса могут считаться однородными. Здесь рассмотрен лишь один из критериев, позволяющих проверить однородность дисперсий. Существует много других критериев (Бартлета, Кокрена и др.), однако, так же, как и критерий Fmax , все они чувствительны к различным отклонениям от нормальности., поэтому мы здесь привели, на наш взгляд, наиболее простой и наглядный критерий.
Дисперсионный анализ 195 9.7. Дисперсионный анализ неравномерного однофакторного комплекса Схема вычислений при анализе неравномерного комплекса мало чем отличается от приведенной выше. Отличия состоят в том, что объем дисперсионного комплекса N можно найти только как Ел, , а величину НА - S2 как сумму отношений ——, вычисленных для отдельных градаций фактора А: nt S2 А ^"i В неравномерном комплексе при оценке к\ (или sА) и гА по формулам (9.13) и (9.15) вместо п следует подставлять усредненную величину п , вычисляемую по формуле п= т^-. (9.22) N(a-l) 9.8. Дисперсионный анализ двухфакторного комплекса с повторностями Наиболее простым является тот случай, когда в двухфакторном комплексе для каждой градации одного фактора (например, А) имеется полный набор всех градаций другого фактора (В). Если для любого сочетания градаций факторов А и В величина результативного признака определялась с повторностью, превышающей единицу, то можно не только определить влияние факторов АиВ в отдельности, но и влияние взаимодействия факторов АВ (наличие такого влияния проявляется в том, что характер изменений результативного признака при смене градаций одного фактора зависит от градации другого фактора). При анализе равномерных комплексов с повторностью п общая сумма квадратов Ст может быть представлена в виде Ст = Сд + Св + Сдв + Cw • Если число градаций фактора А равно а, а число градаций фактора В равно Ь, то объем дисперсионного комплекса N = abn , а числа степеней свободы, с которыми находятся отдельные суммы квадратов, таковы: vT = N-l9 v,4 = tf-l, VB=b-l,VAB = vAvB9 vw = ab(n-l). Очевидно, что vT = vA + vB + vab + vw • Схема вычислений и все необходимые формулы при проведении дисперсионного анализа двухфакторного равномерного комплекса, где значе-
196 Глава 9 ния результативного признака равны х# (i= 1, 2,..., a; j = 1,2, ..., b; /=1,2,..., и), представлены в таблице 9.3. Обычно оценку значимости факторов начинают с АВ. В том случае, когда FAB/w < Fa (vi = vAB и v2 = v^) это влияние признают незначимым, и тогда в качестве оценки для ст ^ берут усредненную величину С , Q. -^ -jr V ^ 2 2 где С , = Cw + С^д и v „ = vw + Vab- Значимость дисперсий а А и а в в fF ЙР этом случае определяют по отношению соответствующих средних квадратов к Q^.: Qa Fa/w=z7T~ ; (Vl = Va и V2= v^ ) Qn и FB/w=—2-; (vi = v5hv2=v^). В том же случае, когда влияние взаимодействия факторов АВ оказывается значимым, способ оценки значимости дисперсий а А и а в или к А и к5 зависит от того, каков характер градаций учитываемых факторов. Если факторы имеют фиксированные градации (I модель), то Q^, QB и 2 2 Qab взаимно независимы, и тогда значимость оА пав определяют по величине отношения Q^ и СЬ к случайному среднему квадрату: Qa FAw = -f-;(vx = \A и v2 = vw) Qw Qr И FB/W= -2-\ (V! = VB И V2= VW). Qw Если же градации факторов имеют случайный характер (II модель), то и Qa, и Qb содержат некоторую часть, зависящую от совместного влияния факторов. В связи с этим проверку статистической значимости 2 2 а а и ав (те- проверку отличия этих дисперсий от нуля) осуществляют Qa Qb по величине отношений FA/AB =—— (vi = vA и v2=vAB) и FB/AB = Qab Qab (vi = v5 и v2=v^).
Дисперсионный анализ 197 Таблица 9.3 Схема вычислений при дисперсионном анализе двухфакторного равномерного комплекса с а градациями по фактору A, b градациями по фактору В и повтороностью п (/ = 1,2,.., a;j = 1,2,..,b; I = 1,2,.., n; S = ]£]#«; Щ jl N' 2>; ± bn и i 2 V-o2 s>; 2s N = abn; И =^; ИЛ = -!—; H, • ^ ; H/B --! ) an Источник варьирования A В AB W T V a-1 b-1 VaVb ab(n-l) N-l С HA-H Hb-H Ct-Ca-Cb-Cw $2 -Ндв S2-H Q CA/vA Cb/vb CWvab Cw/vw CT/vT I модель Qa/Qw Qb/Qw Qab/Qw F II модель Qa'Qab Qb/Qab Qab/Qw Наконец, если дисперсионный комплекс соответствует смешанной модели, то значимость влияния фактора с фиксированными градациями определяют по отношению соответствующего среднего квадрата к Q^, a влияние фактора со случайными градациями - сравнением среднего квадрата с Qjb. Qa'Qw /2 _QB~Qw /2 _QAB~Qw . I модель: кА =- II модель: sA = bn ,2 Qb-Qw KB ~ an j2 _QaB KAB ~ QA-QAB 2_QB-QaB > *B """ Qab-Q w bn an Роль факторов А, В и их взаимодействия АВ в варьировании результативного признака при условии, что соответствующее F по меньшей мере превышает 1, можно оценить величинами s \ , s в ns2AB (или кА9кв,кАВ). Техника подобных вычислений, в сводном виде представленная в табл. 9.3, может быть проиллюстрирована следующим примером. Изучалось влияние характера органических добавок в почву (фактор А) и вида дождевых червей (фактор В) на водопрочность копролитов. Для этого в сосуды с почвой были помещены черви двух видов (градации В\ и В2), причем в одни сосуды органических добавок не вносили (Ах), а в другие добавляли листья различных деревьев (А2 и Аъ). Водопрочность копролитов (х,%) определялась с повторностью п = 2 (табл. 9.4).
198 Глава 9 Таблица 9.4 Зависимость водопрочное™ капролитов (х#/, %) от характера органических добавок в почву (фактор А) и вида дождевых червей (фактор В). (I модель двухфакторного равномерного комплекса с а = 3; b = 2; п = 2; /=1.2,... a;j = 1,2,... Ь; / = 1,2,... /?) Градации фактора А, А, А2 А3 Sj % Градации< в, xiji 11 15 14 16 29 35 (4) (121) (225) (196) (256) (841) (1225) S» 26 30 64 120 14400 (Sy) (676) (900) (4096) фактора Bj В2 xiji 3 8 24 30 27 32 (4) (9) (64) (576) (900) (729) (1024) Ъ 11 54 59 (Ф (121) (2916) (3481) 124 15376 *, 37 84 123 i = 244 sf 1369 7056 15129 = 23554 S2 = 6166; ^Я2 =29776; £s2 = 12190; 244 N = 3-2-2=12; H==?—= 4961,3; 12 Я, =^3554 = 5888>5; Яд = 29776 =49ед Я,в= 1^=6095,0. Источник варьирования А В АВ W Т V 3-1=2 2-1 = 1 2- 1=2 2-3-(2-1) = 6 12-1 = 11 С 5888,5-4961,3 = 927,2 4962,7-4961,3 = 1,4 1204,7- 927,2 -1,4 - 71,0 = 205,1 6166-6095,0 = 71,0 6166-4961,3 = 1204,7 Q 463,6 1,4 102,6 11,8 109,5 F 39,3*** 0,Г 8,7* ! ^ = 463,6-11,8 = 1 к1 102,6-11,8 ^2-2 ^5 2 F > ^о,05» F > ^о,оо1 у ~F > ^o,( ,05
Дисперсионный анализ 199 Проведение дисперсионного анализа обычно завершают сопоставлением полученных оценок средних. В многофакторных комплексах средние можно вычислять для разных групп подмножеств данных и при этом возникает известная трудность в индексации оценок. Удобная форма лаконичной индексации для стандартной последовательности буквенных обозначений состоит в замене индекса на точку для тех индексов, по которым осуществлено усреднение. Так, в двухфакторном комплексе с а градациями фактора А и Ь градациями фактора В средние можно вычислить для отдельных градаций одного из факторов или для конкретного сочетания обоих факторов. Если в последовательности индексов ij при оценке среднего, где i = 1, 2,..., а иу = 1, 2,..., Ь, заменить индекс i на точку, то xmj будет означать среднее по всем градациям фактора А для у-й градации В. Аналогично, х~.т есть среднее для i'-й градации фактора А, а х- - среднее для сочетания i-й градации фактора А с у-й градацией В. Используя подобную систему индексации, рассмотрим некоторые результаты проведенного дисперсионного анализа. Как следует из табл. 9.4, наиболее существенно на водопрочности копролитов сказывается характер органических добавок. В среднем для обоих видов червей без внесения листьев водопрочность копролитов равна 37 *1#=^=9%, _ 84 _10/ _ 123 _10/ а при внесении листьев разных деревьев jc2#=— =21%и jc3#= =31%. Сам по себе вид червей не оказывает значимого влияния на водопрочность копролитов. Это проявляется в том, что в среднем по всем градациям фактора А водопрочность копролитов очень близка: *., = —=20% и 7- = —=21%. 1 6 #2 6 Однако водопрочность копролитов зависит от сочетания вида червей с характером органических добавок. Действительно, если внесение листьев (градация А2) сравнительно с контролем (А{) у вида червей В\ практиче- • — 26 ,~п, ски не приводит к увеличению водопрочности капролитов ( х п = —= 13% и _ 30 х 2i= —= 15%) то у червей вида В2 водопрочность капролитов увеличи- _ 11 _ 54 вается от х 12 = — = 6% до х 22= —= 27%. Различие в органических добавках (А2 и А3) практически не сказывается на водопрочности копролитов червей вида В2(х 22 = 27% и х Ъ2 = 30%), но очень заметно проявляется в водопрочности капролитов червей вида Bj ( х 2Х = 15% и х 3i = 32%).
200 Глава 9 Эти особенности нашли свое отражение в том, что водопрочность копро- литов значимо зависит от взаимодействия факторов А и В. 9.9. Дисперсионный анализ двухфакторного бесповторностного комплекса В двухфакторном комплексе каждому сочетанию градаций факторов может соответствовать лишь одно измерение результативного признака. В таких комплексах, называемых бесповторностнылш, общую сумму квадратов СТ можно разложить на три части, одна из которых С а связана с влиянием фактора А, другая Св определяется влиянием фактора В и третья Cw зависит от воздействия на результативный признак случайных причин: Ст= Са+ Св + Сцг. Соответственно общее число степеней свободы v оказывается суммой чисел степеней свободы, с которыми найдены отдельные суммы квадратов: vT = vA + vB + vw, где vA = a - 1, vB = b - 1, vw= vAvB, vT = N - 1. Заметим, что в бесповторностном комплексе нельзя оценить влияние взаимодействия факторов АВ, и если такое влияние существует, то оно может существенно сказаться на величине случайной суммы квадратов (и соответствующем среднем квадрате), поскольку взаимодействие факторов оказывается отнесенным к случайным факторам. Таблица 9.5 Схема вычислений при дисперсионном анализе бесповторностного двухфакторного комплекса с а градациями фактора А и Ъ градациями фактора в (N = ab;S = Yxi}' *=E*J; 5< = Zv $=2>f' i = l,2,..,a;y = 1,2, ,.,Ь) Источник варьирования А В W т V vA=a-l vB=b- l vw=vAvB vT=N-l С CA= Нд- Н Св^ Нв —Н Cw=Ct-Ca-Cb Cj=: S2—Н Q Qa=Ca/va Qb=Cb/vb Qw=Cw/vw Qt^ Cy/Vf F Fa/w=Qa/Qw Fb/w=Qb/Qw ,2 / 2 л Qa ~Qw ,i2 / 24 Qb ~Qw b a
Дисперсионный анализ 201 Таблица 9.6 Результаты взвешивания пробных укосов клевера (двухфакторный бесповторностный комплекс; использовано преобразование вида у?= Ю0(х9- 0,50); в скобках приведены квадраты соответствующих значений) Градации Ai Al А2 Аз А4 As SJ s] i yj Уу(Уу) при градации 5, Вх 13 (169) 28 (784) 4 (16) (121) 6 (36) 62 3844 12 в2 30 (900) 32 (1024) 27 (729) 15 (225) 24 (576) 128 16384 26 в, 22 (484) 31 (961) 19 (361) 33 (1089) 35 (1225) 140 19600 28 в4 37 (1369) 33 (1089) 25 (625) 27 (729) 31 (961) 153 23409 31 в5 14 (196) 22 (484) 13 (169) 19 (361) 20 (400) 88 7744 18 Be 15 (225) 11(121) 22 (484) 8 (64) 12 (144) 68 4624 14 Si 131 157 ПО 113 128 S = 639 5tf = =75605 sf 17161 24649 12100 12769 16384 У I 22 26 18 19 21 2X= 1 =83063 & = 16121 a = 5,b = 6, N=5 6 = 309 H=^-= 13611, 30 TT 83063 „ОЛЛ „ 75605 ,сл^л _ ^ HA= =13844, #* = =15121, >> = 21. 6 5 Схема вычислений при анализе двухфакторного бесповторностного комплекса (табл. 9.5) достаточно проста и не требует особых пояснений. 2 2 Заметим лишь, что Qa и QB являются оценками соответственно aw + bo A 2 2 2 2 2 2 и a w + ao в для II модели или ow + bKA how + okb для I модели, a Qw - 2 2 оценкой а w (и значит Q^=^^). Обычно вычисление оценок s A (kA)nsB (к в) имеет смысл только в том случае, если влияние соответствующих факторов статистически значимо, т.е. когда
202 Глава 9 Qa Fjuw=~pf' ZFa (при vj = vA и v2=vw) Qw Qb и FB/W=-^- > Fa (при Vj = vB и v21 Qw vw)- Если же один из факторов оказывает незначимое влияние (например, А), то соответствующий средний квадрат (Q^) можно рассматривать наря- ду с Q^ как независимую оценку генеральной случайной дисперсии a w, что позволяет вычислить усредненную оценку случайной дисперсии (при незначимости влияния А) по формуле Q * = s „ = С „ /v „, где С m = Cw+CAnv , V^+Ч,. Тогда при вычислении оценки значимой дисперсии (например, оце- 2 2 нок ^ 5 или к в ) в соответствующей формуле (см. табл. 9.5) можно использовать вместо Q^ величину Q w* Предположим, что для оценки однородности травостоя на каждом из пяти вытянутых вдоль склона участков, занятых клевером, было выкошено по 6 пробных двухметровых площадок, равномерно размещенных вдоль склона (табл. 9.6). Чтобы выяснить, влияет ли индивидуальность участков (фактор А, а = 5) и их местоположение в разных частях склона (фактор В, Ь = 6) на величину укоса клевера, проведем дисперсионный анализ этого комплекса согласно приведенной выше схеме (табл. 9.7). Из табл. 9.7 следует, что влияние индивидуальности участков (фактор А) на урожай клевера незначимо, но очень надежно обнаруживается влияние местоположения пробных площадок на различных частях склона (фактор В). Таблица 9.7 Окончание дисперсионного анализа (см. табл. 9.6) Источник варьирования А В W т V 5-1=4 6-1=5 4-5 = 20 30-1=29 С 13844-13611=233 15121-13611 = 1510 2510-233-1510 = 767 16121-13611=2510 Q 58 302 38 87 F 1,5" 7,9*** 'W* 4 + 20 = 24, С w, = 233 + 767 = 1000, Q,.=!M=42;k^302-42 = 52 w* 24 в 5 F>Fqqqi, F<FQt
Дисперсионный анализ 203 9.10. Иерархическая схема дисперсионного анализа В рассмотренных выше схемах дисперсионного анализа каждая градация одного фактора сочеталась с каждой градацией другого фактора, причем в принципе было безразличным, какой фактор считать первым (А)9 а какой - вторым (В). Однако подобные схемы встречаются далеко не всегда. Если, например, на а участках (фактор А) отобрано по Ь растений (фактор В), с каждого из которых взято для определения хлорофилла по п листьев, то очевидно, что хотя каждое растение и можно рассматривать как градацию фактора В, но эти градации для разных градаций фактора А не одинаковы: данному растению на участке Ах нельзя однозначно найти соответствующее растение на участке ^2- Отсутствие таких соответствий приводит к отсутствию взаимодействия факторов. Особенностью подобных схем является то, что по своему влиянию на результативный признак факторы могут быть расположены в определенной последовательности от более общих факторов к более частным. Полученная при этом ступенчатая схема дисперсионного комплекса получила название иерархической схемы (или схемы выборки из выборок). Иерархические лестницы факториальных признаков могут иметь различную длину, а сами ступени - различную "высоту". Например, в качестве ступеней можно взять участки поверхности почвы увеличивающейся крупности: 0,01 м2 в пределах 1 м2, 1 м2 в пределах 25 ж, 25 м2 в пределах 0,1 га и т.д. Такое построение дисперсионного комплекса позволяет обнаружить ту часть от общего варьирования результативного признака, которая возникает на отдельных этапах, ступенях увеличения размеров характеризуемых объектов. Здесь ступени могут быть и более "высокими": например, отдельные поля в пределах территории одного хозяйства, отдельные хозяйства в пределах района и т.д. Предположим, что на а контурах, соответствующих одной и той же почвенной разности, взято по Ь площадок, в пределах которых в с "точках" отобрано по d образцов. Бели каждый образец проанализирован п раз, то общее варьирование всех полученных значений х изучаемого свойства можно рассматривать как результат влияния случайных факторов W, обусловливающих неодинаковость данных анализа одного и того же образца (аналитическая погрешность), и как результат варьирования свойства между образцами в пределах одной "точки" (фактор D), между "точками" в пределах одной площадки (фактор С), между площадками в пределах одного контура (фактор В) и, наконец, между контурами (фактор А). Таким образом, возрастание варьирования изучаемого признака по мере увеличения площади опробования можно рассматривать как ступенчатый процесс, в котором переход на очередную ступень крупности площади как-то сказывается на общем варьировании свойства. Задача дисперсионного анализа в этом случае сводится к оценке той роли в общем варьировании признака, которую играют отдельные ступени.
204 Глава 9 В рассматриваемом примере все четыре учитываемые фактора имеют случайные градации, и следовательно, дисперсионный комплекс относится ко II модели. В равномерном комплексе его объем ЛГ= abcdn. Если в таком четырехфакторном комплексе принять i = 1, 2,..., a;j = 1, 2,..., b; k = 1, 2,..., с; I = 1,2,..., d;m = 1,2,..., и, где a,b,c,d - соответственно число градаций по факторам А,В,С и Д а п -повторность, то с учетом отмеченных выше особенностей иерархического комплекса получим, что число градаций по факторам А, В, CvlD окажется соответственно равным a, ab, abc и abed. При этом отдельные градации факторов можно обозначить с помощью индексов: Aif By, Счъ, Ду#. Иерархический дисперсионный анализ строят исходя из допущения о возможности разложения общей дисперсии а2 на отдельные составляющие, характеризующие вариацию средних для отдельных градаций более низкого уровня в пределах градаций последующего более высокого уровня: о2 = о2А + о2в + а2с + o2D+ Сф. (9.23) В соответствии с этим общую сумму квадратов С можно представить в виде Ct=Ca + Cb+Cc + Cd + Cw. Для нахождения этих сумм квадратов требуется прежде всего вычислить суммы значений xijfdm (в дальнейшем для простоты индексы при х будем опускать) в пределах отдельных градаций факторов и в целом по комплексу, а также сумму квадратов всех N значений х: ijklm jklm klm Im ^=5>>*2 = £*2- (9-24) m ijklm Схема дальнейших вычислений и используемые при этом формулы приведены в табл. 9.8. Напомним, что каждое значение F сопоставляется с табличным для чисел степеней свободы \\ и v2, соответствующих числам степеней свободы, с которыми при вычислении F найдены средние квадраты, стоящие в числителе и знаменателе. Например, для FC/d это Vi = vcn v2 = Vd- Отметим, что если средние квадраты Qw^Qt являются оценками соответственно дисперсий a 2W и ст2 (и, значит, Q^= s w и Q^ = s2\ то остальные средние квадраты оценивают более сложные выражения: Qd^cj^ + wg^; Qc-> cjJ^ + n<32D+dno2c ; Qb~> оw + паD + drtac + cdnaв ;
Дисперсионный анализ 205 Qa -> ст»г + no2D + dna2c + cdna \ + bcdno2A. (9.25) Соотношения (9.22) лежат в основе тех формул (см. табл. 9.8), по которым находятся оценки отдельных дисперсий. При F < 1 оценка соответствующей дисперсии не может быть вычислена и ее условно можно приравнять нулю. Сумма дисперсий, стоящих в правой части формулы (9.20), лишь приближенно оказывается равной оценке s2 дисперсии су2, как это и должно быть, учитывая, что мы имеем дело с оценками. При условии значимости влияния соответствующего фактора (и по меньшей мере при F> 1): г _Qd-Qw 2_Qc~Qd J_Qb-Qc 2_Qa-Qb dn cdn bcdn Для иллюстрации техники вычислений при анализе подобного комплекса допустим, что в пределах поля в случайном порядке было выбрано два участка площадью 500 м2 (фактор A, a = 2), внутри каждого из которых также случайно взяты по две площадки размером 5 м2 (фактор В, Ь = 2). В каждой из таких площадок взято в случайном порядке по 4 площадки по 1 м2 (фактор С, с- 4), с которых отбиралось по два образца объемом 100 см3 (фактор D, d = 2). Из каждого образца бралось две пробы и в них определялось значение рН (и = 2). Таблица 9.8 Схема вычислений при дисперсионном анализе равномерного иерархического четырехфакторного комплекса (II модель). (Числа градаций по факторам А, В, С и D соответственно равны а, b, с, d, повторность равна л, объем дисперсионного комплекса 5Х N = abcdn,H=—, Яд N А bcdn Z3 Z* нв = cdn ,НС = ijk lLsijki dn 'HD = ijkl Источник варьирования A В С D W T V v=a -1 v = a(b-l) v = ab(c -1) v = abc(d -1) v = abcd(n -1) v = N-l С CA = HA-H С в = Нв -HA С с — Hq -Нв Ср = HD —He Cw = HW-HD Сj — S2 — H Q Qa = CJva Qb=Cb/vb Qc=Cc/vc Qd = Cd/vd Qw = Cff/vw Qt^Ct/vt F F^=Qa/Qb Fb/c=Qb/Qc\ Fc/d = Qc/Qd Fd/w= Qd/Qw\
206 Глава 9 Таблица 9.9 Четырехфакторный иерархический равномерный комплекс (х- значения рН; использовано преобразование вида у = 100(х- 7,00)) Комера градаций факторов i 1 2 J 1 2 1 2 k 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 1 2 1 2 1 2 1 7 1 7 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 •V(rtt« 42 22 25 33 37 23 42 9 23 -8 4 33 43 18 43 18 21 18 37 9 23 41 -28 -2 -7 12 30 11 46 46 i 25 27 39 42 37 18 41 42 17 70 75 7 8 29 34 33 32 34 18 15 39 8 37 41 -67 2 -1 14 4 32 61 59 33 1 37 УуЫт 1764 484 625 1089 1369 529 1764 81 529 64 16 1089 1849 324 1849 324 441 324 1369 81 529 1681 784 4 49 144 900 121 2116 2116 625 729 1521 1764 1369 324 1681 1764 789 400 675 49 64 841 1156 1089 1024 1156 324 225 1521 64 1369 1681 4489 4 1 196 16 1024 3721 3481 1089 1369 sm 81 64 62 51 78 65 59 29 48 -1 12 62 77 51 75 52 39 33 76 17 60 82 -95 0 -8 26 34 43 107 105 58 64 S2 6561 4096 3844 2601 6084 4225 3481 841 2304 1 144 3844 5929 2601 5625 2704 1521 1089 5776 289 3600 6724 9025 0 64 676 1156 1849 11449 11025 3364 4096 SJ 145 I 113 143 88 47 74 128 127 72 93 142 -95 18 77 212 122 S2 21025 12769 20449 7744 2209 5476 16384 16129 5184 8649 20164 9025 324 5929 44944 14884 s«\ 489 376 212 429 s2 и 239121 141376 44944 184041 Si\ 865 641 s2 748225 410881 5=1506; S2 =61452; J^S^ =116588; ^Sfjk =211288; ^Sj =609482; J^sf =1159106.
Дисперсионный анализ 207 В этой схеме "выборки из выборок" можно оценить тот вклад в общую дисперсию изучаемого свойства, который определяют неоднородности более мелких участков поверхности в пределах более крупных участков. Для упрощения вычислений отдельные значения рН (обозначим их х) были преобразованы по формуле: у = 100(л: - 7,00). Исходные данные для значений у и все этапы отыскания различных сумм S представлены в табл. 9.9. Так как a =2, b = 2, c = 4,d = 2un = 2, то N = 64 и тт 15062 „^„0 тт 1159106 ^„„ тт 609482 „ОЛЛ„ Н=— = 35438, НА= ———=36222, Яд =———=38093, 64 32 16 Не ^1^52822,*»= П^=58294. Дальнейшие вычисления, сведенные в табл. 9.10, показывают, что влияние факторов АиВ оказалось незначимым. Окончательные, приведенные к значениям рН, средние квадратиче- ские отклонения, характеризующие варьирование этого свойства в пространстве, таковы: sw= 0,10, sD = 0,11, sc = 0,15, sB = sA = 0. Эти результаты говорят о том, что в пределах изучаемого поля варьирование значений рН в образцах, отобранных на метровке, характеризуется стандартным отклонением sD = 0,11. Таблица 9.10 Окончание дисперсионного анализа (см Источник варьирования Различия между участками, Л Различия между площадками, В Различия между метровками, С Различия между образцами, D Случайные причины, W Факторы в целом, Т V 1 2 12 16 32 63 С 36222 - 35438 = 784 38093-36222=1871 52822-38093 = 14729 58294 - 52822 = 5472 61452-58294 = 3158 61452-35438 = 26014 .табл. Q 784 936 1227 342 99 413 10.9) F 784:936 = 0,8~ 936: 1227 = 0,8^ 1227:342 = 3,6** 342 : 99 = 3,4** 2 342-99 2 1227-342 2 sD = = 122; sc = = 221; sB = О; Л = 0; sw = 9,9; sD = 11,0; sc= 14,9. F< ^о,05» ^o,oi <F<F0,i ,001
208 Глава 9 Практически такая же вариабельность наблюдается и между метровками в пределах 25-метровой площадки (sc = 0,14). Между площадками в пределах одного участка, как и между отдельными участками на поле, различия по величине рН допустимо считать отсутствующими. Все это может служить основанием для заключения, что вариабельность величин рН возникает лишь на низших ступенях увеличения площади поверхности почвы, когда эта площадь менее 25 м2, т.е. варьирование рН является результатом микронеоднородности почвы, а в мезомасштабе - между площадками и между участками - дополнительного варьирования не возникает, а, значит, как отдельные площадки размером 25 м2, так и участки по 500 м2 можно считать по величине рН однородными. Применение дисперсионного анализа в большинстве случаев оказывается возможным лишь тогда, когда при получении экспериментального материала учитывается предполагаемая схема его анализа. Для дисперсионного анализа планирование эксперимента дает важные преимущества, главные из которых состоят в том, что в многофакторных опытах удается установить не только влияние отдельных факторов на результативный признак, но и эффект взаимодействия этих факторов, который нередко оказывается очень важной характеристикой при анализе некоторых явлений. Постановка правильно спланированного многофакторного эксперимента - это хорошо продуманный перечень вопросов, который ставится перед изучаемым природным явлением, а, как справедливо заметил Р.А. Фишер, природа охотнее всего отвечает на логичный и продуманный вопросник и часто воздерживается от ответа впредь до решения какого-либо другого вопроса, если мы задаем ей один, казалось бы, простой вопрос. Каждое значение результативного признака в многофакторном комплексе служит для оценки влияния всех факторов и всех эффектов взаимодействия, а не одного какого-то фактора, как это обычно бывает при сложившихся принципах постановки опытов. В силу этого дисперсионный анализ позволяет дать более полную картину существующих взаимосвязей при меньшей затрате средств и времени на постановку экспериментов. Вопросы для самоконтроля 1. В чем принципиальное различие I и П модели дисперсионных комплексов и какое это находит отражение в технике вычислений и интерпретации результатов? 2. Что является непременным условием возможности проведения дисперсионного анализа?
Дисперсионный анализ 209 3. Почему анализ влияния фактора на средние значения признака называется дисперсионным анализом? 4. На чем основаны принципы дисперсионного анализа? 5. Что представляет собой разложение суммы квадратов и всегда ли факториальные суммы квадратов являются результатом влияния факторов на результативный признак? 6. Почему средние квадраты не всегда являются оценками дисперсий и оценками чего в таких случаях они являются? 7. Допустимо ли применять дисперсионный анализ, если результативный признак представляет собой случайную величину, распределенную по закону Пуассона? 8. С чем связаны трудности дисперсионного анализа неравномерных комплексов? 9. Какие особенности присущи иерархическому дисперсионному комплексу и к какой модели он относится? 10. С чем связана возможность проведения дисперсионного анализа, если эксперимент проведен без повторностей?
Глава 10 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ 10.1. Виды связей и их представление Среди задач, решаемых с помощью статистических методов, особое место занимают задачи, связанные с изучением связей между переменными величинами. Наиболее просто дело обстоит в том случае, когда связь функциональная и каждому значению одной переменной соответствует вполне определенное значение другой переменной, как, например, связь между площадью круга и его радиусом. В почвоведении большинство представляющих интерес связей имеют не столь определенный характер. Так, при всей очевидности наличия зависимости между массой агрегатов и их объемом, можно легко убедиться, что при этом агрегаты одинакового объема имеют более или менее различные массы и наоборот. Связи, при которых одному и тому же значению одной переменной могут соответствовать неодинаковые значения другой переменной, получили название корреляционных1. Степень варьирования значений одного признака при фиксированном значении другого может быть различной. Если эта степень варьирования относительно мала, то связь близка к функциональной. При большом варьировании связь между изучаемыми величинами менее выражена, степень связи меньше. Если любому значению одного признака может соответствовать любое значение другого признака, то связь между такими признаками отсутствует. Корреляционные связи, таким образом, могут быть разной степени выраженности, разной степени тесноты. Предельным случаем наибольшей тесноты связи является связь функциональная. Наименьшая теснота связи соответствует случаю отсутствия связи, когда варьирование обоих признаков осуществляется взаимно независимо. Степень тесноты связи может быть выражена с помощью специальных показателей, вычисляемых при проведении так называемого корреляционного анализа. Характер взаимной изменчивости сравниваемых признаков может быть отображен в различной форме. При сравнительно небольшом объеме 1 Correlation - связь, соотношение. Корреляционная связь - это связь связности величин (точнее, связность, парность).
Корреляционный анализ 211 выборок результаты наблюдений над двумя признаками можно представить в виде двух сопряженных рядов так, что в паре с каждым значением jc,- величины X стоит соответствующее значение # переменной Y. Такой ряд попарно связанных значений именуется корреляционным рядом. Примером корреляционного ряда может служить ряд, отражающий взаимозависимость между содержанием в почве углерода (jc) и общего азота (у) в процентах: X У 0,90 0,08 1,00 0,11 1,08 0,09 1,20 0,11 1,27 0,10 1,36 0,12 Число пар значений в корреляционном ряду называется его объемом. В данном случае объем ряда п - 6. При больших объемах выборочных наблюдений прибегают к построению корреляционных таблиц, или корреляционных решеток. В таких таблицах столбцы соответствуют отдельным классам с серединами х. по признаку Х(/ =1,2, ..., к, где к число классов по X), а строки - классам с серединами у{ по признаку Y(l = 1, 2,..., т, где т- число классов по У). В каждую клетку, находящуюся на пересечении отдельных столбцов и строк, вписываются частоты j£/, показывающие, сколько раз встречаются значения признака X, попадающие в класс с х., когда сопряженные значения второго признака принадлежат к классу yt. Так, из корреляционной табл. 10.1 следует, что при содержании физической глины менее 10% (хх- 5) величина наименьшей влагоемкости менее 5,0% ( ух = 2,5) была встречена 3 раза (fn = 3). Таблица 10.1 Корреляционная таблица зависимости наименьшей влагоемкости (у,%) от содержания в почве физической глины (х,%) Ух 2,5 7,5 i 12,5 17,5 22,5 27,5 fj *J 5 3 10 15 3 31 15 10 13 1 24 25 1 6 1 8 35 3 3 45 2 1 3 55 2 1 3 65 8 8 75 6 6 fi 3 10 26 22 9 16 n = 86
212 Глава 10 При том же содержании тины в 10 случаях была обнаружена наименьшая влагоемкость в пределах 5,0 - 9,9% (у2 = 7,5), причем та же величина наименьшей влагоемкости была зафиксирована и в тяжелых почвах: в 10 случаях, когда х2 - 15 и один раз при х3 = 25. В корреляционной таблице сумма частот по столбцам^ характеризует распределение частот одного признака (х), а сумма частот по строкам^ - распределение частот второго признака. Очевидно, что объемы выборок по обоим признакам пх= Щ и пу= 3$ одинаковы и равны объему корреляционной таблицы п. Связь между признаками может быть выражена графически. Если по одной оси координат отложить значения признака х, а по другой - у, то каждой паре наблюдений на графике будет соответствовать точка с координатами jc, и #. Совокупность точек для всех наблюдений образует на полученном точечном графике корреляционное поле (рис. 10.1). Когда результаты наблюдений после группировки сведены в корреляционную таблицу, визуализация связи с помощью корреляционного поля точек уже невозможна, но в принципе может быть осуществлена путем построения призмограммы. Построение такого графика обычно занимает много времени и не всегда оправдано, поскольку с таким же успехом решает задачу визуализации сама корреляционная таблица, если принимать во внимание как размещение ненулевых частот^/ в поле таблицы, так и поведение значений этих частот. К примеру, из таблицы 10.1 следует, что с увеличением содержания физической глины влагоемкость возрастает, причем наиболее заметно величина влагоемкости увеличивается при изменении х- от 5% до 25%. Влагоемкость у1 < 7,5 встречается лишь при 3tj = 5, а при хj > 65 встречается только yt = 27,5. У 1- 0- -1 -2- -3- ^0 20 40 60 х Рис. 10.1. Зависимость между логарифмом диффузивности (у) и влажностью (х) почвы
Корреляционный анализ 213 1,40 |l,20 § 1,00 | один 0,60 w V 0,40-|—I—|—I—|—I—|—I—I—I—г- 0,0 2,0 4,0 6,0 8,0 10,0 Гумус, % Рис. 10.2. Зависимость между плотностью почвы и содержанием гумуса в ней (верхние горизонты почв в лесных биогеоценозах) Как корреляционные, так и функциональные связи по форме могут быть прямолинейными (или просто линейными) и криволинейными. При корреляционной линейной связи, хотя каждому значению одного признака и соответствует ряд отличных значений другого признака, однако равным приращениям одного признака соответствуют в среднем одинаковые приращения другого признака. Графическое изображение такой связи представляет собой корреляционное поле точек, достаточно часто имеющее вид более или менее вытянутого эллипса, длинная ось которого и отражает усредненную тенденцию прямолинейной зависимости между признаками (см. рис. 10.1). При функциональной линейной связи корреляционный эллипс стягивается в прямую линию. Криволинейность при корреляционной связи проявляется в том, что корреляционное поле точек имеет изогнутую форму и среднее течение линии, характеризующей взаимное изменение значений переменных, идет по кривой, так что равным приращениям одного признака соответствуют в среднем разные приращения другого. Примером подобной связи может служить зависимость между плотностью почвы верхних слоев и содержанием в них гумуса в лесных биогеоценозах (рис. 10.2). Прямыми связями называют такие, в которых увеличение одного признака сопровождается увеличением другого и наоборот (см. рис. 10.1). При обратных связях увеличению одной переменной соответствует уменьшение другой. О наличии криволинейности и характере направленности связей иногда можно судить и по корреляционным таблицам. К примеру, из табл. 10.1 следует, что связь между влагоемкостью и содержанием физической глины отчетливо криволинейна и в своем характере прямая, хотя к криволинейным связям обычно понятие прямых и обратных связей применяется редко, тем более, что само направление связи в разных участках значений переменных может быть разным.
214 Глава 10 10.2. Коэффициент корреляции В большинстве случаев исследователь не знает a priori вид связи, существующей между случайными величинами. Обычно о характере зависимости судят лишь после получения экспериментальных данных. В зависимости от характера точечного графика в первом приближении решается вопрос, можно ли изучаемую связь аппроксимировать уравнением прямой или эту связь более целесообразно считать криволинейной. Действительно прямолинейные связи встречаются достаточно редко. Но во многих случаях аппроксимация линейной зависимостью оказывается удачной, особенно если переменные принимают значения в узком диапазоне. Часто небольшой криволинейностью пренебрегают умышленно по той причине, что линейные связи наиболее просто анализируются. Показателем степени прямолинейной связи между признаками служит коэффициент корреляции. Проведение корреляционного анализа для оценки степени связи с помощью коэффициента корреляции может считаться корректным, если выборочные совокупности соответствуют полностью рандомизированной (недетерминированной) модели, т.е. когда обе переменные, связь между которыми изучается, являются величинами случайными. Если для одного из признаков значения произвольно подбираются исследователем (детерминированная модель), что в явной или скрытой форме имеет место достаточно часто, то технически вычисление коэффициента корреляции возможно, но возникают трудности с интерпретацией результатов корреляционного анализа (на что обычно не обращается, к сожалению, внимания). Выборочная величина коэффициента корреляции, вычисленная для полностью рандомизированной модели, является оценкой соответствующего генерального коэффициента корреляции. Однако интерпретация величин коэффициента корреляции и оценка их значимости хорошо известны лишь для случая, когда значения сопоставляемых величин в генеральных совокупностях распределены нормально, т.е. когда имеет место двумерное нормальное распределение. Недетерминированные модели такого типа можно назвать корреляционными моделями. Для пояснения особенностей коэффициента корреляции как меры линейной связи между случайными величинами обратимся к корреляционному ряду, отражающему зависимость между содержанием в почве углерода (х) и общего азота (у): Xi У1 0,90 0,08 1,00 0,11 1,08 0,09 1,20 0,П 1,27 0,10 1,36 0,12 Заменим этот исходный ряд xt иу( на ряд сопряженных значений стандартизированных отклонений
Корреляционный анализ 215 Xj-x yt-y Хх- = ~ >И Ту. =— учитывая, что лс = 1,135, $х = 0,173, у = 0,102 и sy= 0,015, получим г*'' [ \ -1,36 -1,47 -0,78 +0,53 -0,32 -0,80 +0,38 +0,53 +0,78 -0,13 +1,30 +1,20 Очевидно, что в случае прямой связи между сопоставляемыми величинами стандартизированные отклонения в парах предпочтительно должны иметь одинаковый знак (как в нашем случае, например), а при обратной связи, когда возрастанию одного признака соответствует уменьшение другого, знаки отклонений должны быть по преимуществу противоположные. Поэтому если попарно перемножить стандартизированные отклонения и найти сумму всех произведений Ътхту, то как знак этой суммы, так и ее значение могут нести информацию о направлении связи и ее величине. Мешает использованию И,тхту в качестве меры связи то, что будучи суммой, эта величина зависит от длины корреляционного ряда. Учитывая, что Ътхту не может по абсолютной величине превышать число п - 1, где п - объем корреляционного ряда, причем равенство Ътхту= п-\ возможно лишь в том случае, когда связь между х и у строго линейна и функциональна, отношение Итхту к п - 1 может быть использовано в качестве меры корреляционной связи. Эта мера получила название коэффициента корреляции и в качестве параметра двумерного распределения обычно обозначается греческой буквой р, а ее оценка, найденная по выборочным наблюдениям, обозначается аналогичной буквой латинского алфавита г, и таким образом TJT, х у /2-1 (10.1) Для рассматриваемого примера будем иметь: тхту: 1,999 -0,413 0,256 0,201 -0,101 1,560, Хтхту = +3,502 и, учитывая, что „.5, г= 1,502= о,7о. Поскольку т =- х. -х иг*=- 6-1 у,-у , из формулы (10.1) получим
216 Глава 10 г = _Z(*/-*)(y<-y) (Л-1)5,5 (10.2) Z(*,-*)U->') г = - я-1 5 S х у (10.3) В формуле (10.3) числитель представляет собой оценку среднего значения попарных произведений центральных отклонений, получившего название ковариации и обозначаемого обычно cov {*,>>}. Таким образом, в генеральных совокупностях хну коэффициент корреляции _соу{х,у} а а х у (10.4) представляет собой отношение ковариации к произведению стандартных отклонений соответствующих случайных величин. Поскольку ковариация может рассматриваться как мера совместной вариации величин, как "совместная дисперсия х и уп а произведение ахсту есть среднее геометрическое из дисперсий oxay=Jcr2<j2 , то коэффициент корреляции можно считать стандартизованной ковариацией. в г Рис. 10.3. Вид корреляционного эллипса при различной степени связи
Корреляционный анализ 217 Величина коэффициента корреляции может принимать значения в интервале от -1 до +1. Эти крайние случаи соответствуют функциональной прямолинейной связи между признаками, обратной, когда р = -1, и прямой при р = +1. При отсутствии прямолинейной связи р = 0. Промежуточные величины р между нулем и единицей соответствуют разной степени тесноты связи. При линейной связи на точечном графике, отражающем эту связь между значениями нормально распределенных величин хну, корреляционное поле точек имеет вид более или менее вытянутого эллипса. По мере увеличения тесноты связи корреляционный эллипс делается все более вытянутым, и при функциональной связи р = 111 он превращается в прямую линию (рис. 10.3). При р = 0 корреляционное поле точек имеет форму круга. Таким образом, по виду корреляционного эллипса можно составить представление о степени тесноты связи (и, конечно, о ее направлении). 10.3. Оценки и значимость коэффициента корреляции Коэффициент корреляции г, вычисляемый по выборочным данным, является точечной оценкой генерального коэффициента р, который характеризует степень связи между признаками в генеральных совокупностях. В силу выборочности даже при отсутствии связи (при р = 0) оценка г обычно отлична от нуля. Поэтому, получив оценку г, исследователь вынужден сразу же решать вопрос, дает ли полученная оценка какие-либо основания для утверждения, что связь есть, имея в виду связь в генеральных совокупностях, а не в рамках полученных выборок. Другими словами, вопрос сводится к оценке значимости связи, т.е. к проверке утверждения, что р * 0. Как всякая оценка, г является величиной случайной и, следовательно, она может быть охарактеризована стандартным отклонением, именуемым ошибкой коэффициента корреляции. Обычно оценку ошибки коэффициента корреляции вычисляют по формулам при п > 100: 1- 2 sr=-7=^, (10.5) yjn-\ или при п < 100 *г=,р!_ (Ю.6) Для проверки нулевой гипотезы Н0: р = 0 против альтернативы Н\. р*0 прибегают к вычислению статистики /-Стьюдента (учитывая, что при верности нулевой гипотезы г - р = г):
218 Глава 10 И t = *-±, (10.7) и если t >ta (ta берется при п < 100 для v = п - 1, при п > 100 для v = оо), то Но отвергается и с соответствующим уровнем значимости делается утверждение о наличии линейной связи (р Ф 0). Подобный способ оценки значимости коэффициента корреляции не является безукоризненным, особенно если оцениваемый коэффициент корреляции по абсолютной величине близок к единице (при этом распределение оценок г заметно отличается от нормального, а распределение отношений И — - от распределения Стьюдента). Более правильную оценку значимости р можно получить, если воспользоваться преобразованием z, предложенным Р. А. Фишером, где z = 0,5{ta(l + r)-ln(l-r)} (10.8) (z =f(r) см. в табл. XI Приложения). Преимущество случайной величины z по сравнению с г состоит в том, что z распределена приближенно нормально практически независимо от величины среднего значения |i2 и объема выборок п. К тому же среднее квадратическое отклонение az, характеризующее варьирование z, определяется только объемом выборок л и не зависит от z: gz^-jL=. (10.9) Vw-3 Поскольку гипотезе Н0: р = 0 соответствует Щ: \xz = 0, то критерий проверки гипотез сводится к вычислению t = —=zj^3 (10.10) и сравнению полученного t с ta для v = оо. При t > ta можно утверждать (с риском ошибиться в 100а% случаев), что связь имеется (р Ф 0). К примеру, для г = +0,70, согласно табл. ХШ, z = 0,8673. При л = 6 / = 0,8673 V6-3 = 1,50, что меньше t0fi5 = 1,96, поэтому утверждать, что |nz значимо отличается от нуля, нет оснований, а соответственно нельзя утверждать, что р ф 0. Как видим, хотя полученный коэффициент корреляции и достаточно велик, однако при столь малом объеме корреляционного ряда считать корреляцию статистически значимой нельзя. Такое значение коэффициента корреляции г может быть результатом обычной игры случая, когда связь между изучаемыми явлениями отсутствует.
Корреляционный анализ 219 Использование преобразования z дает возможность корректного получения интервальной оценки р. Для этого следует найти доверительные границы jjz, что легко сделать, принимая во внимание нормальность распределения z и то, что математическое ожидание для z примерно равно Mz = 0,5{ln(l + p)-ta(l->o)}-^—: (10.11) f Г Z ~ taCJz - < Hz < Z + taaz- 2(„-l) ^ — — 2(n-\) {ta берется для v = oo). Затем, прибегая к помощи табл. ХП Приложения, можно найти те значения г, которые соответствуют нижней и верхней границам ДЛЯ |iz. Так для нашего примера получим (п = 6; г = 0,70; z = 0,8673; a = 0,05): 0,8673 - 1,96-4—— < Н* < 0,8673 + 1,96-|=-— , V3 2-5 V3 2-5 т.е. -0,33 <н*< 1,93. Нижняя граница для цг получилась в данном случае отрицательной, а это значит, что нижняя граница интервальной оценки р также отрицательна по знаку. Обращаясь к табл. XIV, найдем, что доверительные границы коэффициента корреляции оказываются равными TjJ 05 = -0,32 -ь 0,96. Как видим, с a = 0,05 генеральное значение коэффициента корреляции может находиться в очень широкой области, включающей не только практически все положительные значения коэффициента корреляции, но и большую часть отрицательных. Очевидно, он может иметь и нулевое значение. Все операции по проверке значимости коэффициента корреляции можно упростить, заранее вычислив для различных абсолютных значений оценок г минимальные объемы корреляционных рядов, обеспечивающих возможность утверждать с уровнем значимости а, что р Ф 0 (табл. ХП1 Приложения). Та же таблица может служить для оценки необходимого и достаточного числа повторностей По, чтобы при ожидаемой величине г коэффициента корреляции можно было утверждать, что связь есть (р * 0) при заданном уровне значимости а. Именно этот подход и положен в основу при составлении соответствующей таблицы. Как следует из формулы (10.10), чтобы отклонить #0:Mz = 0 (и Я0:р = 0) для заданного z (и г), нужно по меньшей мере обеспечить равенство t = ta. Тогда искомое па определится по формуле t2 «а=-*-+3. (10.12) Z
220 Глава 10 Так, воспользовавшись табл. XV, мы обнаружим, что коэффициент корреляции, оценка которого по модулю равна 0,70, можно считать статистически значимым са = 0,05, если п по крайней мере равно 9. У нас повтор- ность п = 6, что меньше 9, следовательно, коэффициент корреляции незначим. И минимальная повторность, которая может обеспечить значимость коэффициента корреляции при г = 0,70, есть n0j05 = 9, что следует иметь в виду, если опыт планируется повторить. 10.4. Величина коэффициента корреляции и его смысл При корреляционных связях абсолютная величина р обычно отлична от единицы, в связи с чем перед исследователями возникает проблема качественной оценки степени тесноты связи между изучаемыми признаками, т.е. при каких р связь можно считать тесной, а при каких - слабой. Общепринятой градации для такой оценки не существует, но некоторые условные рекомендации дать можно. Они основываются на том, что квадрат коэффициента корреляции является оценкой в долях единицы той части варьирования одного признака, которая связана с варьированием другого признака. Если, например, связь между содержанием в почве углерода и валового азота характеризуется коэффициентом корреляции г = 0,70, то это можно интерпретировать так, что на 0,702, или на 49%, варьирование содержания углерода связано с варьированием содержания азота, а на 51% варьирование этих признаков осуществляется взаимно независимо. Величина квадрата коэффициента корреляции может иметь самостоятельный интерес, поэтому ее иногда выделяют в качестве особого параметра, именуемого коэффициентом детерминации. Если с учетом сказанного оценить разные абсолютные значения коэффициентов корреляции, то за весьма тесную связь условно можно считать такую, при которой |р| > 0,85 (при этом варьирование признаков взаимосвязано приблизительно на 75% и более), за тесную связь - когда 0,85 > р > 0,7 (при этом взаимосвязанная вариация признаков лежит в пределах 75-50%), и слабой можно считать связь, если р < 0,7 (при этом варьирование одного признака менее чем на 50% связано с варьированием другого признака). Указанные придержки для качественной характеристики степени связи хотя и условны, однако они в определенном смысле и абсолютны, так как установлены безотносительно к изучаемым явлениям, исходя лишь из особенностей самого коэффициента корреляции. Нужно иметь в виду, что строго прямолинейные связи между свойствами природных объектов и явлений - достаточно редкий случай. Обычно даже там, где связь считается прямолинейной, в действительности имеет
Корреляционный анализ 221 место некоторая криволинейность, которую либо не замечают, либо ею пренебрегают. В силу этого коэффициент корреляции, являющийся мерой прямолинейной связи, обычно отличается от единицы, даже если связь функциональная, но не прямолинейная2. Еще более важным обстоятельством, определяющим величину коэффициента корреляции, является то, что каждый изучаемый признак часто находится в сложной взаимосвязи с большим числом других признаков, прямо или косвенно оказывающих влияние на его варьирование. В силу этого связь между каждой парой взятых признаков оказывается в той или иной мере затушеванной, смазанной влиянием всех прочих не учитываемых признаков. Роль не принятых во внимание факторов может быть разной, как следствие этого, коэффициент корреляции будет то больше, то меньше отличаться от единицы. Так, связь между величиной максимальной гигроскопичности и содержанием физической глины для некоторого типа почвы обычно достаточно велика, хотя и осложнена недоучетом минералогического состава почв, характера поглощающего комплекса и некоторых других явлений, так или иначе сказывающихся на величине максимальной гигроскопичности. Связь же между урожайностью некоторой культуры и, например, содержанием в почве подвижных фосфатов, хотя и существует, однако обычно бывает невелика, так как в неменьшей, а обычно и в большей степени, урожайность зависит еще и от множества других факторов: различные свойства почв, погодные условия, особенности хозяйствования, сортовая специфика культуры и т.д. Следует заметить, что величина коэффициента корреляции, даже если она и велика, еще не дает оснований для суждения о практической важности обнаруженной связи. Нередко встречаются случаи, когда небольшая по величине связь оказывается очень важной в практическом отношении, и в то же время связь, близкая к функциональной, может подчас представлять лишь академический интерес. Причина разной практической значимости одной и той же величины связи заключена в особенностях коэффициента корреляции, что обнаруживается из рассмотрения формулы (10.1). Поскольку стандартизированные отклонения тх и ту не претерпевают изменений при линейных преобразованиях переменных х и у, то коэффициент корреляции оказывается одинаковым для очень разных по внешнему облику корреляционных рядов. Рассмотрим для примера ряд значений х, и соответствующие ему ряды значений у\, yj и у" : Оценивание р возможно лишь при априорной гарантии отсутствия нелинейных связей. Так, если *ь x2,..jcn ~ независимые реализации нормальной величины с нулевым средним и единичной дисперсией, а >>, = Xj- (xjf/3 ,1 < j < n , то гп-> р(х,у) г 0, хотя между хиу имеется функциональная связь.
222 Глава 10 *f У\ У] у" 0,90 10 80 100,08 1,00 40 ПО 100,11 1,08 20 90 100,09 1,20 40 110 100,11 1,27 30 100 100,10 1,36 50 120 100,12 Оценка корреляции между значениями ряда х и любым из рядов у дает одинаковый результат: г = 0,70, поскольку >>* = )>/+70 и ^=100 + + 0,001 у], а при подобных преобразованиях т'у = тпу = т" . В то же время, если допустить, что х есть плотность почвы, а у -урожай сена, то связь в парах значений xt - y\ несомненно заслуживает дальнейшего изучения, в парах я:, - у* это менее интересно, а в парах xt - у" с практической точки зрения никакого значения не имеет, даже если бы она была очень статистически значимой. При интерпретации результатов анализа следует иметь в виду, что коэффициент корреляции отражает степень связи между изменчивостью случайной величины вне зависимости от абсолютной величины этой изменчивости и от того среднего уровня переменной величины, на котором изменчивость проявляется. Сам по себе коэффициент корреляции не вскрывает ни природы связи, ни что от чего зависит. Он характеризует меру связи между величинами, а не зависимость х от у или наоборот (это проявляется в том, что г^ = г^). Природу связи, причинно-следственные отношения, лежащие в основе связей, позволяет вскрыть лишь предметный анализ. 10.5. Техника вычислений коэффициента корреляции Формула (10.1) хорошо вскрывает смысл и особенности коэффициента корреляции. Однако при вычислении коэффициента корреляции исходят из выражения, вытекающего из формулы (10.2): г= .Сху , (10.13) где С2х и С2у есть суммы квадратов центральных отклонений для рядов х и у, а Сху по аналогии с принятыми обозначениями в формуле (6.2) есть сумма попарных произведений центральных отклонений: c*y=L(*,-*)U-7)- 0014) Суммы С2х и С2у обычно находятся согласно формулам:
Корреляционный анализ 223 С2х=521АиС =S Л, (10.15) П П а Сху по аналогичной формуле S S C„ = S„-±2-9 (10.16) где Sx = 2>,., Sy=X^/ > *2Х = £** > S2y = 2>? > Sv = 2>Л . Таким образом, для вычисления г нужно найти перечисленные суммы. Техника нахождения этих сумм представлена в табл. 10.2 и как и последующие вычисления С2х, С2у9 Сч и г, пояснений не требует. Таблица 10.2 I Xi 0,90 1,00 1,08 1,20 1,27 1,36 6,81 yt 0,08 0,11 0,09 0,11 0,10 0,12 0,61 2 Xi 0,8100 1,0000 1,1664 1,4400 1,6129 1,8496 7,8789 2 Уг 0,0064 0,0121 0,0081 0,0121 0,0100 0,0144 0,0631 *У 0,0720 0,1100 0,0972 0,1320 0,1270 0,1632 0,7014 С2х =7,8789-6,812/б = 0,1496; С2у = 0,0631-0,612/б = 0,0011; С =0,7014-6,81 0,61/6 = 0,0090; г= *0090_ ^0,1496 0,0011 При вычислении коэффициента корреляции по данным, представленным в виде корреляционной таблицы, нахождение сумм S осуществляется на основе середин классов с учетом соответствующих частот: s*=I/A; *,=Е/Л; ^=1/Л2> *2,=Z//#. *<,=Z/i№ где/ =1,2,..., &, к- число классов по признаку X, 1=1, 2,..., /и, /и - число классов по признаку У, fj - частота класса с серединой х,, ft - частота класса с серединой y^fo- частота для сочетания классов х. и у{. Если взять в качестве примера данные, приведенные в табл. 10.1, то получим &=2090, 5^=1435, £*= 97550, 5^ = 28038, 5^=47025 и С2х = 46758, С2у = 4093, С^ = 12151 и, наконец, г = 0,88.
224 Глава 10 Вопросы для самоконтроля 1. В чем отличие корреляционных связей от функциональных? 2. Что называется корреляционным рядом и корреляционной таблицей? 3. Какие связи называются прямыми и прямолинейными? 4. Какая модель называется корреляционной? 5. Что собой представляет коэффициент корреляции и каковы пределы его колебаний? 6. Что называется корреляционным эллипсом? Какова связь его формы с величиной коэффициента корреляции? 7. Как оценивается статистическая значимость коэффициента корреляции и что это означает? 8. Насколько статистическая значимость и величина коэффициента корреляции могут определять практическую важность изучаемой связи?
Глава 11 РЕГРЕССИЯ 11.1. Понятие о регрессионном анализе Корреляционный анализ дает возможность получить общее представление о наличии взаимно связанной вариации у признаков и степени тесноты этой связи. Для решения некоторых задач этого бывает вполне достаточно, однако в значительном числе случаев корреляционный анализ может рассматриваться как первый этап в изучении взаимной изменчивости признаков. Следующим этапом является определение количественной зависимости между значениями переменных, осуществляемое с помощью регрессионного анализа. Регрессионному анализу может и не предшествовать корреляционный, и не только потому, что первый является вполне самостоятельным анализом, но и в силу того, что условия применимости регрессионного анализа гораздо менее жестки, чем корреляционного. Очень часто значения одного из признаков произвольно подбираются, исходя из задач эксперимента. Вычисление коэффициента корреляции в такой детерминированной модели нельзя считать корректным, но регрессионный анализ здесь обычно может быть использован, так как основное условие правомерности его применимости состоит в том, что для любого заданного значения переменной, взятой в качестве аргумента (независимая переменная), распределение величин второго признака (зависимой переменной) близко к нормальному Такая модель нередко именуется регрессионной. Очевидно, корреляционная модель всегда является и регрессионной, но при этом обратного сказать нельзя. Предположим, имеется ряд сопряженных результатов измерения величины испарения (в мм/сутки) со свободной водной поверхности (х) и с поверхности насыщенной влагой почвы (у) в пределах некоторого участка почвенного покрова: X У 0,3 0,4 0,3 0,5 0,4 0,4 0,4 0,6 0,4 0,7 0,5 0,5 0,5 0,7 0,6 0,6 0,6 0,9 0,7 0,6 0,7 0,9 0,7 1,0 0,8 0,9 " 1,0
226 Глава 11 Из приведенных данных видно, что при одинаковом испарении с поверхности воды испарение с поверхности почвы в большей или меньшей мере отлично друг от друга. Усредняя значения у, для каждого отдельного значения х получим так называемые условные средние >VX\ (среднее значение признака Упри условии, что Xимеет заданное значение): X \) 0,3 0,45 0,4 0,57 0,5 0,60 0,6 0,75 0,7 0,83 0,8 0,95 Построив точечный график (рис. 11.1) и соединив соседние точки отрезками прямых, получим некоторую линию, именуемую эмпирической линией регрессии. Эта линия показывает, как меняются условные средние значения испарения с поверхности почвы с изменением испарения со свободной водной поверхности. Очевидно, что любое значение у,}, будучи вычисленным на основе выборочных данных, есть в действительности лишь оценка некоторого условного среднего //v . И этим прежде всего объясняется обычно наблюдаемая изломанность эмпирической линии регрессии. Изучаемую зависимость /л от х с большим или меньшим приближением можно описать уравнением того или иного вида. Вид зависимости может быть теоретически выведен, но чаще всего о характере связи исследователь нечто узнает лишь в результате проведения эксперимента, и практически всегда математическое описание зависимости представляет собой более или менее удачную аппроксимацию истинной связи. Уравнения, описывающие зависимость между переменными при корреляционном характере связи, получили название уравнений регрессии. Будучи аппрок- У 1,0 0,9- 0,8- 0,7- 0,6 0,5- 0,4- *0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 X Рис. 11.1. Эмпирическая (пунктир) и теоретическая линии регрессии испарения влаги из почвы (у) от испарения с водной поверхности (х) - 1; теоретическая линия регрессии х/у-2 2/ ь • /* s* • о /г У' /7' /S / * ^ / •
Регрессия 227 симацией, такие уравнения дают возможность получить условное среднее для заданного значения х, выровненное согласно выбранному виду уравнения регрессии, и поэтому в зависимости от выбора вида уравнения одному и тому же значению х могут соответствовать более или менее совпадающие с истинными условными средними ju выровненные средние /2 При рассмотрении рис. 11.1, например, в качестве аппроксимирующего очень напрашивается уравнение прямой: tyM=ayf* + f*y/*X' (ПЛ) где а , и Р / есть некоторые постоянные величины, именуемые параметрами уравнения регрессии, в данном случае линейной, при условии, что у рассматривается в качестве функции от х, что нашло отражение в индексах при этих коэффициентах. Не располагая всей полнотой информации о случайных величинах х и у, мы лишены возможности в точности определить а > и р * , но оценки ау/х и Ьу/х для них могут быть получены. При этом уравнение регрессии (11.1) может быть записано: У{х) = ау/х + Ъу/хк, (11.2) где у(хЛ - выровненная оценка условного среднего uv . Если в рассмат- риваемом примере ау^ - 0,16 и Ьу/х = 0,97, то (11.2) приобретает вид: у(х) = 0,16 + 0,97*. Графически выражение такой зависимости (в данном случае это прямая линия, см. рис. 11.1) получило название теоретической линии регрессии. Для каждого сопряженного ряда величиной Yобычно бывает можно найти множество уравнений данного вида (например, уравнений прямой) с разными коэффициентами, которые удовлетворительно характеризуют количественную зависимость между изучаемыми признаками. Но среди всех этих уравнений, видимо, может существовать одно, которое в некотором смысле наилучшим образом описывает изучаемую связь. Наиболее часто наилучшими оценками параметров уравнения регрессии считаются такие, которые обеспечивают получение минимальной суммы квадратов отклонений эмпирически найденных значений зависимой переменной у( от вычисленных по уравнению у, ч: %[у* ~*м) =min''= *'2'""й* (11'3)
228 Глава 11 Способ, позволяющий найти оценки параметров уравнения данного вида, удовлетворяющие уравнению (11.3), получил название способа наименьших квадратов. Говорить о существовании связи между признаками можно лишь тогда, когда условные средние одного признака различны для отличающихся значений другого признака. Параметры уравнения регрессии, количественно характеризующие изменение функции с изменением аргумента, получили название коэффициентов регрессии. Таким коэффициентом регрессии, например, является р , в уравнении (11.1) или его оценка Ьу/х в уравнении (11.2). Если коэффициент регрессии равен нулю, то функция от соответствующего аргумента не зависит. Так, предположив, что в уравнении (11.1) РУ1Х- 0, получим, что fi =ау/х ПРИ Л1°бых значениях х и \х) при этом все fi одинаковы и равны \\у. Оценки коэффициентов регрессии никогда не бывают в точности равны нулю, даже если в генеральных совокупностях связь между переменными полностью отсутствует. В связи с этим перед регрессионным анализом встает еще одна задача, а именно выяснить, насколько неслучайно эмпирически полученный коэффициент регрессии отличен от нуля и, следовательно, можно ли утверждать, что связь между признаками реально существует. Критерии, используемые для оценки статистической значимости коэффициентов регрессии (значимости отличия их от нуля), требуют соблюдения еще одного дополнительного условия: дисперсии зависимой переменной при различных значениях независимой переменной должны быть одинаковы. Обычно это условие достаточно хорошо соблюдается. Там же, где есть основания предполагать, что это допущение не соответствует действительности, следует провести проверку однородности дисперсий описанными выше способами. 11.2. Прямолинейная регрессия Наиболее простым видом регрессии является линейная регрессия. Она легче поддается анализу, а в графическом выражении для такой регрессии проще обнаруживаются все отступления от нее. Не удивительно поэтому, что если есть возможность какими-либо способами свести криволинейную регрессию к прямолинейной, то такие возможности используются. Наиболее часто при этом применяется изменение масштаба для одной или обеих переменных, например, путем замены величин на их ло-
Регрессия 229 гарифмы, квадраты, квадратные корни и пр. Вид необходимого преобразования проще выбрать при наличии точечного графика. Подобрав способ преобразования, следует убедиться, что к полученным преобразованным данным регрессионный анализ может быть применен. Если при различных значениях аргумента значения зависимой переменной нельзя считать хотя бы приблизительно распределенными нормально, а тем более, если дисперсии функционального признака при различных значениях аргумента нельзя считать одинаковыми, то регрессионный анализ таких данных корректно выполнен быть не может, даже когда зависимость между преобразованными переменными очень хорошо описывается уравнением прямой. Если аппроксимирующим уравнением берется уравнение прямой вида (11.2), то для отыскания оценок ау/х и Ьу/х нужно иметь систему из двух уравнений. При использовании способа наименьших квадратов коэффициенты ау/х и Ьу/х находятся путем решения системы уравнений nayix+byixlLx=lLy [Оу/хЦх + Ьу/хЦ*2= !>■ Из этой системы следует, что (11.4) Ьф= ^-^ 01.5) л (5>) I аф= ^ , (П.6) или ау/х=У-Ьу/**' (1L7)- Из приведенных формул следует, что для нахождения оценок параметров линейной регрессии нужно найти суммы Хк, Еу, Еде2 и Хдгу, а дальнейшие вычисления трудностей не представляют. Для примера со скоростью испарения влаги из почвы у в качестве функции от скорости испарения с водной поверхности (х) техника вычислений выглядит следующим образом (размерность х и у мм/сутки):
230 Глава 11 X 0,3 0,3 0,4 0,4 0,4 0,5 0,5 0,6 0,6 0,7 0,7 0,7 0,8 0,8 I Ex = 7,7 У 0,4 0,5 0,4 0,6 0,7 0,5 0,7 0,6 0,9 0,6 0,9 1,0 0,9 1,0 Iy = 9,7 x2 0,09 0,09 0,16 0,16 0,16 0,25 0,25 0,36 0,36 0,49 0,49 0,49 0,64 0,64 Sx2 = 4,63 xy 1 0,12 0,15 0,16 0,24 0,28 0,25 0,35 0,36 0,54 0,42 0,63 0,70 0,72 0,80 Zxy = 5,72 5,72- by/x=' 7,7-9,70 14 4,63 7,7Z 14 0,385 0,395 = 0,97, ay/x 9,70-0,97-7,7 14 = 0,16. В уравнении линейной регрессии коэффициенты аириих оценки а и Ь представляют собой размерные величины: свободный член а (и а) имеют размерность функционального признака, коэффициент регрессии р (и Ь) - отношение размерностей функции к аргументу. Так, в полученном уравнении у,* = 0,16 + 0,97 х ау/х = 0,16 мм/сутки и Ьу/х = 0,97(мм/сутки)/(мм/сутки), т.е. Ьу/х оказывается в нашем примере безразмерным по причине одинаковости размерностей функции и аргумента. Пользуясь уравнением регрессии можно установить, чему в среднем равно значение зависимой переменной при заданном значении независимой переменной. Если коэффициенты в уравнении являются оценками, как это обычно и бывает, то результат вычислений будет оценкой условного среднего. Так, при х = 0,5 получим Ъ * = 0,16 + 0,970,5 = 0,64мм/сутки. Следует заметить, что всякое уравнение регрессии имеет определенные границы применимости. В общем случае нельзя уравнение, получен-
Регрессия 231 ное на основании анализов одной группы объектов (например, подзолистых почв), использовать для прогнозирования значений зависимой переменной другой группы (например, у солонцов). Рискованно также прибегать к уравнению регрессии для оценки значений функционального признака, если значения аргумента выходят за пределы тех значений свойства, по которым уравнение было выведено, поскольку часто те зависимости, которые мы рассматриваем как прямолинейные в действительности являются некоторой частью криволинейной зависимости, отчетливо обнаруживаемой лишь при соответствующем расширении значений аргумента. Именно поэтому, приводя уравнения регрессии, всегда следует указывать область их применимости. Если регрессионный анализ проводится на корреляционной модели, то в качестве функции с равным основанием может быть взят и признак У, и признак X. Этим двум подходам будут соответствовать два уравнения регрессии: Коэффициент регрессии Ьу/Х в первом из них показывает, насколько изменяется в среднем у при изменении х на единицу измерения, Ъ^у во втором - на сколько изменится в среднем х при изменении у на единицу измерения. На первый взгляд может показаться, что bx/y представляет собой обратную величину от Ъу/х. И если, к примеру, Ьу/х = 0,97, то Ъ^ должен быть равен 1/0,97 = 1,03, т.е. при изменении испарения с поверхности почвы на 1 мм/сутки испарение с водной поверхности должно измениться на 1,03 мм/сутки. Легко убедится, что в действительности это далеко не так. Заменив в формуле (11.5) х над; и наоборот и выполнив все вычисления по нахождению необходимых сумм, получим 0,65, п что существенно отличается от ожидаемого нами значения 1,03. При корреляционных связях абсолютная величина любого коэффициента регрессии всегда меньше обратной величины другого, в силу чего эти коэффициенты и именуются коэффициентами регрессии (от латинского regressio - движение назад). По этой причине недопустимо простыми алгебраическими преобразованиями из уравнения регрессии j/ no x получать уравнение х по у. Искомые коэффициенты в уравнении регрессии х по у можно получить лишь с помощью формул (11.5-11.7) (поменяв в них хиу местами). Для нашего примера эта зависимость будет иметь вид: £ ч=0,10+0,65>>. у„ Ly-Lx 7 ~ П Х1У &ш 5,72-9'70-7'7 14 9 72 7,31-^- 14 0,385 0,589
232 Глава 11 Соответствующая этой зависимости теоретическая линия регрессии х/у (рис. 11.1) не совпадает с линией регрессии у/х, и в этом проявляется специфика корреляционной связи. Чем меньше степень линейной связи, тем больше угол между линиями регрессии. При г (или р) = 0 линии регрессии х/у и у/х оказываются взаимно перпендикулярными и идущими параллельно осям координат. При строго функциональной связи (|р| = 1) линии регрессии сливаются в одну. Эти особенности линейной регрессии хорошо вскрываются при рассмотрении взаимосвязи коэффициента регрессии и коэффициента корреляции. Если в формуле (11.5) числитель и знаменатель разделить на п - 1 и обобщить полученное выражение на генеральную двумерную совокупность, то мы получим генеральный коэффициент регрессии в виде По аналогии с ним коэффициент регрессии х по у будет представлять собой отношение ковариации величин х и у к дисперсии а : °У Из формулы (11.4) видно, что со\{хуу} = рах<ту (11.10) и, следовательно, а Jy/x~ Ku=—p С»-") <У~ *1у~^-Р- <»-l2> у Из последних формул видно, что любой из коэффициентов регрессии может быть равен обратной величине другого только в том случае, когда |р| = I. Из тех же формул следует, что при р = 0 р^ = Рл# = 0, а при р Ф 0 оба коэффициента регрессии и коэффициент корреляции всегда имеют одинаковый знак. Перемножая коэффициенты регрессии, получим т.е. коэффициент корреляции есть среднее геометрическое из коэффициентов регрессии. Поскольку всегда |р| < 1, то произведение коэффициентов
Регрессия 233 регрессии не может превышать единицу, что можно использовать для проверки правильности вычислений. Соотношения (11.11-11.13) остаются справедливыми и для оценки соответствующих параметров: byl>=fr>b*ly=fr;r = Jb^ly. (11.14) Так для рассматриваемого нами примера, согласно формуле (11.13), можно найти, что г = 0,80, а поскольку sx = 0,174 и sy - 0,213, то А =М11.0,80 = 0,97, 6х/=-5^-0,80 = 0,65иг = 70,970»65=^79 у/х 0,174 х/у 0,213 у (возможные различия в численном значении оценок, вычисляемых по разным формулам, связаны с округлениями при вычислениях). Следует заметить, что при исследовании корреляционных связей всегда имеется техническая возможность вычисления и коэффициента корреляции и обоих коэффициентов регрессии, но корректность таких вычислений и интерпретируемость результатов корреляционно-регрессионного анализа определяется мерой соответствия изучаемой системы корреляционной или регрессионной моделям. 11.3. Значимость параметров линейной регрессии При корреляционных связях уравнения регрессии вида (11.1-11.2) показывают, как в среднем меняется с изменением аргумента среднее значение функции, а не отдельные ее значения. В регрессионной модели, как было отмечено ранее, дисперсия функции при разных значениях аргумента предполагается одинаковой. Тогда отдельные значения функции, например, у в зависимости от аргумента х могут быть описаны уравнением где w - значения случайной величины W, имеющие размерность >>, со 2 1 средним Ци, и некоторой дисперсией aw Ф 0 . Соответственно дисперсию функции а в этом случае можно представить в виде суммы двух диспер- 1 Иначе говоря, предполагается, что случайные величины uw = У(х)-ау/х-Ру/х'Х = —^ при всех хь х2, ..., хп независимы, одинаково распределены crw (т.е. линейность исчерпывает все связи) и их распределение не сильно отличается от стандартного нормального.
234 Глава 11 2 сий, одна из которых а связана с зависимостью fiv отх согласно (11.1), У(х) У(х) 2 ~ а вторая aw - с вариацией у(х) возле // \х) Для конкретной выборочной реализации, когда формула (11.15) приобретает вид У(хГ аУ*+ Ьу/хХ+ W = y^ + W , (11.17) и когда J есть оценка среднего, используя принцип дисперсионного анализа, можно общую сумму квадратов Ст=Сг,=1.(У1-у)2 О118) с соответствующим ей числом степеней свободы V7*= п - 1 разложить на две составляющих: факториальную Су/х, связанную с наличием регрессии у/х cy/x=Z(y(x)-y)2 (»•»»> с числом степеней свободы vy/x = 1, и случайную Cw с vw= п-2: ^=Е(^-%))2- о1-20) Очевидно, что при этом Ст = Су/х + CV и vT= vy/x + v^. С практической точки зрения, полезно знать, принимая во внимание обозначения (11.18-11.20), что существует ряд равноценных формул для вычисления С: с2 Cw=C2y-b,/xCvt (11.22) Cw=(\-r2)c2y. (11.23) Рабочие формулы для вычисления С2у, С^ С^ были приведены ранее (10.14-10.16). Сумме квадратов Cw соответствует vw = п - 2, поэтому оценкой дисперсии aw, характеризующей случайное варьирование отдельных значений^ вокруг линии регрессии у/х, может служить величина 2 _ cw Sw~n-2' Cw (11.24)
Регрессия 235 Среднее квадратическое отклонение sw используется для оценки статистической значимости параметров уравнения регрессии а и Р по их оценкам а и Ъ и для построения доверительной зоны регрессии. Для регрессии^: ошибки для а и Ъ могут быть получены согласно формулам или й(*|-*)2 ^ (11.25) (11.26) (11.27) Используя эти ошибки, можно оценить статистическую значимость параметров аир. Проверяемые при этом нулевые и альтернативные гипотезы имеют вид: Я0: а = О, Яьа^О, Я0:Р = 0, ЯьР^О. Проверка гипотез осуществляется с использованием критерия Стью- дента: при t < ta считается верной нулевая гипотеза, при t>ta- нулевая гипотеза отвергается в пользу альтернативной. Здесь ta - значение величины / при v = п - 2 и заданном уровне значимости a, a t - вычисленное значение: 1-1 Щ Sa h В рассматриваемом примере с испарением влаги для случая регрессии у/х С2у = 0,589, Сь = 0,395, С^ 0,385, откуда по формуле (11.21) Cw= 0,589 -^^- = 0,214. 0,395 При я = 14 по формуле (11.24), s^ = — = 0,0178 и sw= 0,134. Поскольку 52(=4,63, то по формулам (11.25) и (11.27) найдем:
236 Глава 11 ,.= 0,134 О* \140, 6^=0,123и^=-^ = 0,213. 395 * 7035 Поскольку при v = 14 - 2 = 12 *0>05 = 2,18, а для ау/х = 0,16 и й^ = 0,97 * = 0,16 , „„ 0,97 „ ^ 0 = 1,30 и / = = 4,55, то есть основание утверждать, что р^д * 0, 0,123 0,213 но в отношении а^ того же сказать нельзя. Значимость отличия коэффициента регрессии от нуля означает, что условные средние для функционального признака можно считать зависимыми от значений переменной х. Незначимость отличия су* от нуля можно рассматривать как свидетельство того, что линия регрессии может проходить через начало координат. В этом случае уравнение линейной регрессии может быть представлено в виде \Г^Х (1L28) и соответственно где оценка коэффициента регрессии по способу наименьших квадратов вычисляется по формуле Ъ JUb*L = bL. (П.30) При этом ошибка коэффициента регрессии = -?» **.,.=-£-. ("-3D J2x где Sw находится согласно формуле (11.24), а si Cw=Siy~- 01-32) 32х В нашем примере получим Cw =7,31 -^?_ = 0,243; sw= 0,142; w 463 5,72 , „. 0,142 =-—=1,24 и 5,, = , 4,63 ьу1* ДбЗ Ьу/Х=-— = 1,24 и sb , = -^== = 0,066
Регрессия 237 Поскольку t = by/x _ 1,24 sb 0,066 18,73 существенно больше %5 = 2,18 (и даже fo,ooi = 4,32), то можно с очень большой уверенностью утверждать, что Р^ * 0. По полученным данным уравнение будет иметь вид: у,-. = 1,24дс. 11.4. Доверительная зона регрессии Можно интерпретировать предсказанное значение у двумя способами. При первом способе исследователь заинтересован в оценивании значения Y для индивидуума, у которого X принимает значение х. В этой ситуации у есть наилучшая оценка единственного значения У, соответствующего Х=х. В этом случае доверительный интервал для у определяется выражением y±sl W \Уг 1+—+- -■- ' где ta берется для числа степеней свободы v=n-2. (11.33) 95% доверительный интервал ./ / Оценка линии регрессии \У 95% интервал для /\ средней линии \ регрессии Зксперименгалыше Рис. 11.2. Доверительные зоны регрессии
238 Глава 11 При втором подходе исследователь делает выводы о среднем значении Упри условииХ=х. Тогда доверительный интервал определяется как лУг y±sw _ц_ <*-*)2 (11.34) 1=1 для того же числа степеней свободы. Заметим, что когда х удаляется от х , доверительный интервал увеличивается, то есть оценка становится менее точной. В качестве примера на рис. 11.2 приведено соотношение этих интервалов. 11.5. Анализ криволинейных связей Прямолинейные связи представляют собой один из наиболее простых видов связей, к тому же далеко не самый распространенный. Гораздо чаще исследователю приходится сталкиваться со связями криволинейными. При этом лишь сравнительно редко вид связи теоретически оказывается предсказуем, и тогда задача сводится к нахождению параметров уравнения регрессии данного известного вида. В большинстве случаев почвовед получает первое представление о характере изучаемой связи после проведения эксперимента. О виде связи в этом случае можно только догадываться, что вынуждает исследователя подбором наиболее удачного вида уравнения регрессии. Для этого можно брать уравнения разного вида и, определив их параметры, оценивать хотя бы визуально, степень сходства полученных теоретических линий регрессии с эмпирической. Большую помощь в выборе вида уравнений связи при этом оказывает точечный график. Нередко бывает, что несколько уравнений разного вида хорошо описывают характеризуемую связь, но не зная природу взаимосвязи, нельзя с определенностью сказать, какое из этих уравнений более правильно. Удачный подбор уравнения еще не есть основание для утверждений, что изучаемая связь в действительности имеет именно такой вид, что именно это уравнение должно объяснить природу связи. Основной задачей при анализе криволинейных связей является нахождение оценок параметров в уравнении данного вида. Чаще всего оценки параметров отыскиваются по способу наименьших квадратов согласно условию (11.3). Технически наиболее просто проводятся вычисления по этому способу, когда уравнение регрессии может быть представлено в виде линейной связи относительно оцениваемых параметров. При этом требуется решить систему из стольких уравнений, сколько параметров входит в предполагаемое уравнение связи. В общем случае способ получения отдельных уравнений такой системы состоит в том, что сначала отыскивается общий вид уравнений системы, для чего все члены исходного уравне-
Регрессия 239 ния связи последовательно умножаются на коэффициенты при определяемых параметрах, и в результате получается столько уравнений, сколько параметров содержит исходное уравнение. К примеру, в уравнении параболы второго порядка общего вида у = а + Ъх + сх2 требуется определить значения a, b и с. Коэффициенты при этих параметрах соответственно равны 1, х и х2. Умножая все члены исходного уравнения на 1, получим вид первого уравнения системы, умножая на х - второго, на х2 - третьего: у = а + Ьх + сх2, ух = ах + Ъх2 + сх3, ух2=ах2+Ьхъ + сх*. Если в каждое из этих уравнений последовательно подставить все пары значений х и у и затем все полученные уравнения одного вида просуммировать, то получится система уравнений, решая которую относительно а, Ь и с можно получить искомые оценки по способу наименьших квадратов. Так, если имеется п пар значений х и у, то первое уравнение будет получено в результате суммирования: 2 ух = а + Ьхг + схх у2=а + Ьх2 + сх2 2 Уп=а + Ьхп+СХп J^y^na + b^x.+c^xf . Аналогичным образом можно получить и другие два уравнения, и тогда система уравнений примет вид \ЦУ1 =па + Ь^Х;+с^х* Легко убедиться, что такой же способ составления системы использован и в случае линейной регрессии (11.4). Основная вычислительная работа при отыскании оценок параметров криволинейной зависимости, как следует из способа составления системы уравнений типа (11.35), связана с нахождением различных сумм: Z*, L*2 и др. Для наглядности рассмотрим технику вычисления при аппроксимации связи между величиной наименьшей влагоемкости (х, %) и содержанием в
240 Глава 11 Таблица 11.1 Вычисление сумм для оценки параметров уравнения параболы 2-го порядка (х- содержание физической глины.%; у- наименьшая влагоемкость почвы,%) I £ X 2 3 7 5 6 9 6 8 11 19 13 21 24 21 45 56 65 59 65 71 76 592 У 4 7 10 12 13 13 15 15 15 15 18 18 19 22 23 26 26 27 27 29 30 384 х2 4 9 49 25 36 81 36 64 121 361 169 441 576 441 2025 3136 4225 3481 4225 5041 5776 30322 х3 8 27 343 125 216 729 216 512 1331 6859 2197 9261 13824 9261 91125 175616 274625 205379 274625 357911 438976 1863166 х4 16 81 2401 625 1296 6561 1296 4096 14641 130321 28561 194481 331776 194481 4100625 9834496 17850625 12117361 17850625 25411681 33362176 121438222 ху 8 21 70 60 78 117 90 120 165 285 234 378 456 462 1035 1456 1690 1593 1755 ! 2059 2280 14412 * 1 16 63 490 300 468 1053 540 960 1815 5415 3042 7938 10944 9702 46575 81536 109850 93987 114075 146189 173280 808238 почве физической глины (у,%) уравнением параболы второго порядка (табл. 11.1). Система уравнений в общем виде для этого случая нами уже получена (11.35). Подставив в нее соответствующие суммы из табл. 12.1 и учитывая, что п = 21, получим [384 = 21а + 5926 + 30322с <П4412 = 592д + 303226 + 1863166с 808238 = 30322а + 1863166* + 121438222с.
Регрессия 241 Решая эту систему, найдем а = 8,46, Ъ = 0,540, с = -0,00375 и соответственно уравнение регрессии вида: у = 8,46 + 0,540*-0,00375х2. Подставляя в это уравнение содержание физической глины х, можно получить усредненную оценку наименьшей влагоемкости почвы. Например, для х - 20% получим у =8,46 + 0,540-20-0,00375-202 =17,7. Изучаемая связь может аппроксимироваться уравнениями разного вида. В целом схема вычислений для оценки параметров уравнений регрессии остается той же, как в рассмотренном нами примере, хотя иногда приходится прибегать к некоторым преобразованиям исходного уравнения, чтобы придать зависимости линейную форму. Ниже приводятся системы уравнений, которые приходится решать для отыскания параметров уравнений регрессии некоторых видов. \.у = ах + blgx \Y,yx=alLx2+blLxXzx [^yl8x = aYdx\gx + bY,(\gxf. 2.у = abx; Igy = Iga + xlgb Ъ.у = аде*; Igy = Iga + blgx plgJ^wlga+^lgx [XlgJ'lg* = lga£lgx+&]r(lg*)2. Вычисление оценок параметров уравнений регрессии обычно представляет собой достаточно трудоемкую процедуру, особенно если объем корреляционных рядов велик, а число параметров в уравнении регрессии превышает два. Поэтому подобного рода работу целесообразно осуществлять на ЭВМ. 11.6. Множественная регрессия Переменная величина у нередко может рассматриваться в качестве функции к разных величин хи х2, ..., х*. Значения независимых переменных могут быть заданы исследователем (детерминированная модель), а
242 Глава 11 могут быть получены в результате рандомизированного отбора (рандомизированная, или недетерминированная модель). Если в последнем случае распределение величин У, Хь Х2,..., Хк допустимо считать нормальным, то модель считается корреляционной. При числе независимых переменных больше одного регрессионный анализ именуется множественным. Это проведение корректно только в том случае, когда распределение зависимой переменной при различных фиксированных значениях независимых переменных близко к нормальному и дисперсия зависимой переменной у при различных значениях признаков х может считаться одинаковой. При прямолинейной множественной регрессии, т.е. когда зависимая переменная рассматривается как линейная функция от каждой из независимых переменных, уравнение регрессии имеет вид: ^1,х2,..^)=а + ^1+^2+- + 6Л' О1'36) гДе У( \ - есть оценка условного среднего значения признака Y при данных значениях независимых переменных Хъ Хъ ...Д*, а а, Ь\, Ъъ —, Ьь~ оценки параметров уравнения регрессии. Систему уравнений, позволяющую отыскивать оценки искомых параметров по способу наименьших квадратов, можно составить согласно правилам, изложенным в предыдущем параграфе, но следует иметь в виду, что при числе независимых переменных, превышающем два (а их число может в некоторых случаях измеряться десятками!), трудность вычисления очень велика и лишь вычисления с помощью ЭВМ по специальным программам дают возможность решить эти задачи. Чтобы рассмотреть особенности множественного регрессионного анализа обратимся к простейшему из уравнений регрессии этого типа, включающему лишь две независимых переменных: По способу наименьших квадратов параметры этого уравнения могут быть найдены по формулам: С, С -С С h - 2 у*1 Х{Х2 у*2 °\ — 2 ' ^2хх '^2х2 ~^ххх2 С С -С -С и 2х, ух2 ххх2 ухх ь = - , с -с, -с2 a-y-bxlcx-b7x2, (11.38) где у , 5cj и х2 - средние арифметические зависимой и независимых переменных, а величины С по формулам:
Регрессия 243 С2хх -S2x} — 1 J П ^2x2 ~ ^2x2 П *\*2 У*\ ' С xxx2 У*\ ~~ = s - x\ *2 n S S У *\ n S S У*! У*г (11.39) где ^=Zxi/' sx2=lLx2i> fi> = Z^/5 ^=Z4' ^ =Z4; ^*, = Z ^л*; ^2 = Z jv*2* ;«= ь2> •••>*• Допустим, для черноземных почв некоторого района имеются сведения о величине максимальной гигроскопичности, содержании ила и гумуса. Рассматривая величину максимальной гигроскопичности как зависимую переменную (у), желательно найти уравнение регрессии, отражающее зависимость у от содержания ила (jci) и гумуса (jc2). В табл. 11.2 приведены исходные данные и все вычисления, связанные с отысканием необходимых S. Подставляя найденные суммы S в уравнения (11.39) и учитывая, что п = 13, найдем 3342 94 72 С2х =9124—— = 542,77; С7г = 835,89-^— = 146,04; 334-94 7 155 3-334 С =2504,8- ' =71,74; С =4124,3- ^ =134,28; 155 3-94 7 С№ =1186,66- ' ' =55,36; У = 155,3:13 = 11,95; *i =334:13 = 25,7; х2 =94,7:13 = 7,28. Отсюда по формулам (11.38): , 146,04134,28-71,74-55,36 Л ^ ^1 = 5— = 0,21, 542,77-146,04-71,742
244 Глава 11 и 542,77-55,36-71,74-134,28 542,77-146,04-71,742 а = 11,95-0,21-25,7-0,28-7,28 = 4,5. Следовательно, уравнение регрессииу/х\^г имеет вид: ;Р(^2)=4,5 + 0,2Ц+0,28х2. В уравнении множественной регрессии коэффициенты bu Ь2, ..., ^являются так называемыми частными коэффициентами регрессии, отражающими зависимость переменной у от одного из признаков я:^,..,** при исключении влияния остальных независимых переменных, что можно отобразить индексами у соответствующих коэффициентов регрессии, например, b , .х х х , для частной регрессии у по х\ при исключенном влиянии независимых переменных х2, х3,..., хк (в индексе они отделены точкой). Так, в рассмотренном нами примере Ьх=Ъу, =0,21 и Ь2=Ь , =0,28. Частные коэффициенты регрессии всегда в той или иной мере отличаются от соответствующих парных коэффициентов регрессии. Так, для Таблица 11.2 Вычисление сумм S при множественном регрессионном анализе (у- максимальная гигроскопичность, Xi - содержание ила, х2 - содержание гумуса; все переменные в % массы сухой почвы) |_s У 14,1 13,1 13,7 11,1 12,2 14,0 10,5 14,9 11,4 11,0 13,3 10,5 5,5 Xl 31 31 25 32 28 37 29 27 21 19 22 20 12 хг 7,6 7,5 5,1 7,4 7,8 7,7 4,6 11,7 5,8 2,2 13,1 12,2 2,0 * 961 961 625 1024 784 1369 841 729 441 361 484 400 144 4 57,76 56,25 26,01 54,76 60,84 59,29 21,16 136,89 33,64 4,84 171,61 148,84 4,00 Х\Х2 235,6 232,5 127,5 236,8 218,4 284,9 133,4 315,9 121,8 41,8 288,2 244,0 24,0 У*\ 437,1 406,1 342,5 355,2 341,6 518,0 304,5 402,3 239,4 209,0 292,6 210,0 66,0 ух2 107,16 98,25 69,87 82,14 95,16 107,80 48,30 174,33 66,12 24,20 174,23 128,10 11,00 / 198,81 171,61 187,69 123,21 148,84 196,00 110,25 222,01 129,96 121,00 176,89 110,25 1 30,25 155,3 334 94,7 9124 835,89 2504,8 4124,3 1186,66 1926,77
Регрессия 245 рассматриваемого примера легко установить, что С2 =71,53, а поскольку С2 =146,04 и С =55,36, то коэффициент корреляции между;; и х2 по формуле (10.13) г I = 0,88. Найдя, что s = 2,44, a s = 3,49 , получим, согласно формуле (11.14), парный коэффициент регрессии Ь ,х = 0,62, который существенно отличается от аналогичного частного коэффициента регрессии by/x2.Xi = 0,28 . Размерность частных коэффициентов регрессии, как и парных коэффициентов, равна отношению размерности зависимой переменной к размерности соответствующей независимой переменной. При множественной регрессии случайная (остаточная) сумма квадратов Cw может быть найдена по формуле аналогичной (11.22): Cw =С2у-Ь,Сщ -Ь^ -...-hC^ . (11.40) Поскольку Cw соответствует число степеней свободы v = п- к— 1,то оценка случайной дисперсии „2 Cl (П41) " п-к-1 Располагая величиной sw, можно вычислить ошибки отдельных коэффициентов регрессии s^ В случае двух независимых переменных ошибки s. и^ могут быть найдены по формулам (11.42) (11.43) Поскольку материалы выборочных наблюдений позволяют получать лишь оценки параметров уравнения регрессии, то одной из задач множественного регрессионного анализа является оценка статистической значимости коэффициентов регрессии, т.е. определение значимости отличия отдельных рь р2,..., Р* от нуля при данных значениях их оценок Ьи Ь2,..., Ьк и соответствующих им ошибок s. , s. ,..., ^ . Значимость коэффициента регрессии проверяется с помощью статистики t= —. Если t > ta для v = v — - Sbl v — - \ i Г~ fb, Г~ К yw С2 х\*2 V С2 *1*2
246 Глава 11 = л-£ — 1,тос уровнем значимости а соответствующий коэффициент регрессии считается значимым (т.е. Р ф 0), а тем самым признается наличие связи между у и соответствующей независимой переменной. Так, в рассматриваемом примере имеем / 27 84 (^=71,58-0,21-134,28-0,28-55,36 = 27,83, %=i/ =1,67, s^ = ' = = 0,074 и / = 0,21 : 0,074 = 2,85, 542,77- 71'742 /• 146,04 s, = 1>67 =0,143 и / - 0,28 : 0,143 - 1,92. 71 742 146,04-^-^- \ 542,77 Учитывая, что при v = 10 f0,05= 2,23, приходим к выводу, что величина максимальной гигроскопичности статистически значимо связана с содержанием ила (xi), о влиянии же содержания гумуса с заданной уверенностью ничего определенного сказать нельзя. При множественном регрессионном анализе зависимость функции от отдельных аргументов может быть представлена не только линейным видом. Если есть основания для беспокойства, что линейная аппроксимация зависимости у от того или иного аргумента слишком груба, то в уравнение множественной регрессии могут быть введены нелинейные составляющие, и тогда уравнение множественной регрессии будет относиться к нелинейным. Чаще всего нелинейность вводится либо в виде параболических составляющих, либо логарифмических, чтобы сохранить линейность относительно оцениваемых коэффициентов, например в таком виде: y(xl,x2,x3) = a + blxl +b2x2 +b3x2 +64jc3 + b5\gx3. И хотя соблюдение линейности упрощает процедуру вычислений, проведение множественного регрессионного анализа практически всегда является трудоемким процессом, а в случае, когда число оцениваемых параметров превышает 3-4, когда число независимых переменных велико (а оно может иногда измеряться десятками), проведение множественного регрессионного анализа с технической стороны оказывается весьма сложной задачей, решить которую можно лишь с помощью ЭВМ. Но если трудности вычислений в настоящее время сравнительно легко преодолимы при обеспеченности современной вычислительной техникой, то интерпретация результатов статистического анализа всегда остается уделом исследователя, а эта задача подчас не менее сложна, нежели сама техника счета.
Регрессия 247 11.7. Частный коэффициент корреляции Рассмотрим более подробно связь между обычными и частными коэффициентами корреляции. Коэффициент корреляции г^, отражает связь между случайными величинами X и Г в данных общих условиях проведения испытаний. Среди второстепенных условий при этом могут быть и обычно бывают факторы, которые в большей или меньшей мере оказывают влияние на какую-либо одну или на обе случайные величины. Это влияние может быть прямым или опосредованным, но сам факт возможности такого влияния означает, что перевод того или иного фактора из второстепенных условий в общие может повлиять на характер изучаемой связи. В эксперименте далеко не всегда имеется техническая возможность тот или иной фактор стабилизировать на заданном уровне, но, если в качестве одной из случайных величин, например Z, этот фактор может быть измерен наряду с Xи У, то связь между Хи Yпри исключении влияния Z может быть оценена. Коэффициент корреляции, характеризующий подобную связь, получил название частного коэффициента корреляции. Его принято обозначать буквами р или г (соответственно для константы или ее оценки) с индексами, указывающими, между какими признаками связь оценивается, а через точку - при исключении какого признака. В случае, когда между любой парой признаков из X,Y и Z связь не очень сильно отличается от прямолинейной и степень связи оценивается парными коэффициентами корреляции г^ г^ и г^, то частный коэффициент корреляции Гхуш2 между признакамиXи Упри исключенном влиянии Z может быть вычислен по формуле Так, если связь между урожайностью травосмеси (У) и суммой поглощенных оснований (X) оценивается г^ = 0,78, а между урожайностью и содержанием глины (Z) - г^ = 0,86, то естественно возникает вопрос, не является ли связь между X и У следствием всего лишь того, что урожайность зависит от содержания глины, а поскольку от этого последнего очень существенно зависит сумма поглощенных оснований, то наличие связи между урожайностью и суммой поглощенных оснований представляется вполне естественным. Подтверждением правомерности таких соображений служит и то, что между содержанием ила и суммой обменных катионов связь весьма велика: Гхг = 0,88. Возникающие в этой ситуации предположения могут быть проверены либо постановкой специальных опытов, где при фиксирован- ности содержания физической глины изучается зависимость урожайности
248 Глава 11 травосмеси от различий в сумме поглощенных оснований, либо путем вычисления частного коэффициента корреляции г^ , что технически, очевидно, проще (хотя равноценность этих подходов не очевидна). Согласно формуле (11.44) получаем 0,78-0,86-0,88 *xy.z ^(l-°,862)(l -0,882) = 0,10. Как видим, зависимость урожайности травосмеси от суммы поглощенных оснований при исключенном влиянии содержания физической глины оценивается очень маленькой величиной коэффициента корреляции. Относительно высокая величина коэффициента корреляции г^= 0,78 явилась, очевидно, следствием того, что урожайность прямо или косвенно связана с содержанием глины, а сумма поглощенных оснований в определенной степени является косвенной оценкой содержания глины. Графически отношение между ХиУ может быть отображено с помощью корреляционных эллипсов. При различных фиксированных значениях Z корреляционное поле точек на графике зависимости у от jc по форме оказывается весьма близким к кругу, так как r^z= 0,10 мало отличается от нуля (эти корреляционные поля на рис. 11.3 обведены сплошной линией). Однако в целом корреляционное поле точек в координатах у и х для различных z оказывается сильно вытянутым (эллипс, очерченный пунктирной линией) в силу того, что частные корреляционные эллипсы для разных z оказываются смещенными друг относительно друга вдоль некоторой линии. В результате этого получается положительный корреляционный эллипс, отражающий достаточно большую степень связи. Вообще говоря, соотношение между частными корреляциями и общей корреляцией может быть различно. На рис. 11.4 схематично показаны Рис. 11.3. Соотношение между частными корреляционными эллипсами (сплошная линия) и общим корреляционным эллипсом (пунктирная линия)
Регрессия 249 Рис. 11.4. Некоторые виды соотношений между частными и общими корреляционными эллипсами некоторые из возможных случаев такого соотношения. Общий положительный корреляционный эллипс может получиться в результате суммирования не только положительных частных корреляционных эллипсов (а\ но и при суммировании отрицательных частных корреляционных эллипсов (б). При наличии заметной отрицательной частной корреляции общая связь может быть как положительной (б), так и отрицательной (в) и равной нулю (г). Следует иметь в виду, что умышленно организуя эксперимент или непреднамеренно проводя его в узком интервале значений интенсивно влияющего фактора, исследователь может получить оценку по сути дела частного коэффициента корреляции, иногда даже не догадываясь об этом. Учитывая, сколь заметно могут отличаться общие и частные коэффициенты корреляции, необходимо с большой осторожностью сравнивать направления и тесноту связей между одинаковыми признаками казалось бы в очень сходных условиях. 11.8. Множественная регрессия в стандартизованном виде Частные коэффициенты регрессии отражают количественную зависимость признака, рассматриваемого в качестве функции от значений отдельных независимых переменных. Однако роль каждой из независимых переменных в определении значения зависимой переменной определяется не только величиной коэффициента регрессии, но и тем, как сильно могут меняться значения разных аргументов. Степень участия каждой из независимых переменных в оценке величины функционального признака может быть охарактеризована с помо-
250 Глава 11 щью стандартизованных коэффициентов регрессии Ь, показывающих насколько меняется нормированное отклонение _y(xvx2,..9xk)-y У S У х — х зависимой переменной, если нормированное отклонение их = одной Sx из независимых переменных меняется на единицу. Уравнение регрессии в стандартизованном масштабе имеет вид: Qy=bluXi+blux^^bkuXk. (11.45) Вычисление коэффициентов регрессии осуществляется по формулам Ы = 6^, 4 = Z>2^,..., к =6* — . (П.46) S S S У У У Применение этих коэффициентов должно осуществляться с осторожностью, так как их обоснованная интерпретация возможна только в случае корреляционной модели (для недетерминированной модели эти коэффициенты могут быть вычислены и при этом они могут служить оценками о для /3 в генеральной многомерной совокупности, однако интерпретация этих коэффициентов оказывается затруднительной). Так, если в результате проведенного анализа было установлено, что уравнение регрессии, описывающее зависимость удельной теплоты смачивания (у, дж/г почвы) от содержания ила (х\, %), величины максимальной гигроскопичности (х2, %) и содержания гумуса (х3, %), имеет вид y(x1,jc2,jc3) = l,6 + 0,034x1 +1,71jc2 +1,25a:3, a sy = 7,64, sXi = 9,40, s^ = 2,89 и ^ = 2,59, то, допуская, что рассматриваемый пример соответствует корреляционной модели, получим: Ъ\ = 0,034^-^ = 0,04; Ь2 =1,71^^-= 0,64, ft. = 1,25-^- = 0,42. 7,64 7,64 3 7,64 В стандартизованном масштабе уравнение регрессии приобретает вид и , ч = 0,04мг + 0,64мг + 0,42мг . Из этого уравнения видно, что при изменении отдельных аргументов на одно стандартное отклонение функциональный признак (теплота сма-
Регрессия 251 чивания), измеренный в аналогичных единицах, изменяется далеко не одинаково. Наиболее значительно влияние максимальной гигроскопичности (х2), и совсем ничтожно влияние содержания ила (х\): на единицу изменения и значение и , ч меняется в среднем на 0,04. Полезно заме- л1 %(*...) тить, что абсолютная величина стандартизованных коэффициентов регрессии не связана с их статистической значимостью. В рассматриваемом примере при п = 20 и ошибках коэффициентов регрессии s. = 0,290 , s. =0,96 и 5. = 0,46 из трех аргументов статистически значимое влияние оказывает лишь содержание гумуса (*з), но стандартизованный коэффициент регрессии при этом признаке на треть меньше, чем при л:2 (максимальной гигроскопичности). Если множественный регрессионный анализ проводится на корреляционной модели, можно вычислить множественный коэффициент корреляции R, характеризующий степень связи между зависимой переменной и всеми независимыми переменными: Л =11—Цт. (11.47) Величина R2 (множественный коэффициент детерминации) при этом оценивает ту долю от общего варьирования признака у9 которая обусловлена существованием связи между у и величинами независимых переменных х. и о В рассматриваемом примере R2 =1 — = 0,69 и R = 0,83. Варьи- 58,3 рование значений теплоты смачивания на 69% связано с вариацией учтенных в исследовании признаков, а на 31% варьирование происходит под влиянием случайных неучтенных факторов. Квадрат множественного коэффициента корреляции можно представить в виде: ^-Ь^ЬХ^ 1 У*2 к Ухк п-к-\ (11.48) где г , г , —,г есть парные, вычисленные по формуле (10.2) или (11.3) коэффициенты корреляции между признакамиуих\,уих2,..., у и хк. Если объем множественной модели п достаточно велик, а число неза- висимых переменных к настолько мало, что отношение допусти- п-к-1 мо считать практически равным единице, и соответственно величиной
252 Глава 11 можно пренебречь, то Л2 с достаточным приближением можно п-к-1 оценить по выражению ,2 - Ci Д.=1~- О1-49) Чу При этом доля участия каждой из независимых переменных х\9 х^ ..., хЛ (при исключенном влиянии всех остальных) в создании общего варьиро- о о о вания признака >> будет оцениваться величинами by r , b2 ryx , ...,bk r^ , a в сумме они дадут оценку доли вариабельности признака ;>, обусловленной влиянием всех учитываемых независимых признаков х: £=кгуХ1+Ъ2Гуъ+~ + ЬкгуХк. (11.50) В нашем примере коэффициенты корреляции между у и jci, дгг и *з соответственно равны: г =0,60, г =0,76 и г =0,54. Согласно формуле (11.50) получаем В?= 0,040,60 + 0,640,76 + 0,420,54 = 0,024 + 0,486 + 0,227 = 0,74. В рассматриваемом примере п очень невелико, в силу чего формула (11.50) дает преувеличенное представление о той роли, которую играют как отдельные независимые переменные, так и учитываемые факторы в целом в варьировании значений у. Однако даже в данном случае расхождения между коэффициентами детерминации R2 = 0,69 и Д, = 0,74 не настолько велики, чтобы пренебречь возможностью оценки относительной доли участия отдельных факторов в создании вариабельности зависимой переменной. Из разложения R+ видно, что около 49% варьирования значений теплоты смачивания связано с вариацией максимальной гигроскопичности, около 23% - с вариацией содержания гумуса и лишь 2% (в принципе об этом вообще не стоит и упоминать) - с вариацией содержания ила. Статистическую значимость множественной регрессии (корреляции) можно оценить с помощью статистики F, если найти отношение оценки sl/x х х дисперсии, обусловленной существованием регрессии у по пе- 2 ~ ременным хь х2,..., хк, к оценке sw случайной дисперсии: F= y,x^~'Xk , (11.51) sw
Регрессия 253 ?2 ylxx,x2,... У1х\>*2 >хк ,.,хк у1хьх2 к = С2у- >•>** Сцг . где С„,„ „ „ (11.52) (11.53) Если F >Fa для V] = knv2 = n-k- 1, то связь между у и хотя бы одним из аргументов признается статистически значимой. В нашем примере C2y=l\0S, Cw=2S5 и С^ =1108-285 = = 823. Поскольку к = 3, то -^-274 у1хХух2,хъ ^ 2 274 Учитывая, что sw = 17,8, получим F = = 15,4. При п = 20 и £= 3 17,8 V! = 3 и v2 = 16. Пользуясь табл. V Приложения узнаем, что при таких числах степеней свободы для а = 0,01 F = 5,3, что существенно меньше полученного нами. Следовательно, практически с полной уверенностью можно утверждать, что теплота смачивания связана с учитываемыми признаками (или хотя бы с одним из них). 11.9. Интерпретация результатов регрессионного анализа Регрессионный анализ - весьма эффективное средство познания изучаемых явлений, однако всегда нужно иметь в виду, что интерпретация результатов такого анализа должна проводиться с большой осторожностью и со знанием специфики предмета исследования. Прежде всего нельзя упускать из вида то важное обстоятельство, что ни корреляционный, ни регрессионный анализ не вскрывают в явном виде причинно-следственные связи между изучаемыми признаками. Нахождение функции по известному аргументу может иметь смысл как определения следствия по известной причине, так и причины, вызвавшей известное следствие. Примером первого служит уравнение регрессии влажности завядания (у) по величине максимальной гигроскопичности (х): Я*) = 2,34 + 1,41*. Оценкой причины (влажности почвы, у,%) по известному следствию (электропроводности, jc, ом"1) служит уравнение Я*) = 10,2 + 3-104х.
254 Глава 11 В некоторых случаях вообще бывает трудно указать, что есть причина, а что следствие, как, например, при изучении зависимости между объемом агрегатов и их массой. Иногда наличие той или иной связи между признаками вызвано их зависимостью от некоторого фактора, оставшегося в рамках проведенного эксперимента "за скобками". Так, возможная связь между твердостью почвы и объемом пор аэрации может быть следствием зависимости и того и другого от влажности. Явно недооцениваемые трудности в интерпретации результатов регрессионного анализа связаны с тем, что в почвоведении изучаемые зависимости обычно представляют собой "вырезку" из весьма сложной цепи взаимосвязанных явлений, в силу чего учитываемые факторы, выступающие в качестве аргументов функции, берут на себя обязанности отразить влияние многих других факторов, нами не учитываемых. По этой причине коэффициенты регрессии при тех или иных аргументах практически никогда не отражают в чистом виде роль соответствующих факторов, что существенно затрудняет интерпретацию коэффициентов регрессии. Для иллюстрации этого методологически важного положения обратимся к примеру, рассмотренному в разделе 11.5. При анализе связи между величиной максимальной гигроскопичности (у) и содержанием ила (х\) и гумуса (х2) мы нашли, что й^=4,5 + 0,2Ц+0,28*2. Из этого уравнения следует, что каждый процент гумуса изменяет максимальную гигроскопичность на 0,28%. Если исключить из рассмотрения содержание ила, то уравнение регрессии примет вид: у =7,4 + 0,62х2, здесь каждый процент гумуса приводит к изменению максимальной гигроскопичности в среднем на 0,62%. Еще более удивительный результат получается, если наряду с илом и гумусом учесть влияние суммы обменных оснований(хз): 5V2,*3 =2,7 + 0,12x,+0,03x2+0,13x3. Согласно этому уравнению, содержание гумуса практически не влияет на максимальную гигроскопичность почвы. Стоит заметить, что при этом меняются не только абсолютные значения коэффициентов регрессии, но и их статистическая значимость. Исследователь почти всегда не может учесть влияние всех факторов, связанных с функциональным признаком, в силу чего всегда имеется опасность преуменьшения или преувеличения роли того или иного фактора, а из приведенного примера видно, сколь могут быть велики различия в коэффициентах регрессии. В большинстве случаев получающиеся результаты регрессионного анализа не противоречат логике изучаемого явления, в силу чего интерпретация результатов выглядит вполне правдоподобной и даже убедитель-
Регрессия 255 ной. Но не следует забывать, что правдоподобность еще не есть свидетельство соответствия действительности. Необходимость осторожности в интерпретации результатов бывает очевидна лишь в том случае, когда получающаяся связь выглядит противоречащей здравому смыслу. Так, для степных почв Крыма урожайность зерновых (у, ц/га) связана с запасом в почве подвижного фосфора в пересчете на Р205 (лс, т/га) уравнением у(х) = 21,7 -8,9*. Поскольку отрицательная зависимость между урожайностью и содержанием фосфора представляется странной, исследователь догадывается, что здесь что-то не так, и по размышлении устанавливает, что во всем виновата солонцеватость почв, которая повышает подвижность фосфора, но в то же время снижает урожай. Повышение содержания подвижного фосфора в почве может оказывать положительное влияние на урожайность, но отрицательное влияние солонцеватости такое влияние маскирует. Для прогноза урожайности по содержанию подвижного фосфора последнее уравнение пригодно, но оно, очевидно, не годится для разработки приемов активного воздействия на урожай, и не только потому, что для повышения урожая нужно было бы извлекать фосфор из почвы. Дело в том, что если бы из уравнения следовали более естественные и более выполнимые рекомендации по управлению функцией, это еще не означает, что наши попытки управления оказались бы эффективными. Ведь отрицательная связь урожая с запасами подвижного фосфора вполне закономерна, но даже если бы мы сумели убрать какое-то количество фосфора из почвы, урожайность вряд ли бы возросла, так как в изучаемой природной обстановке урожайность снижается с ростом содержания фосфора не благодаря этому росту, а несмотря на этот рост. И подобные подчас неожиданные ситуации могут возникать в казалось бы вполне понятных и легко анализируемых условиях. Именно по этой причине уравнения регрессии оказываются пригодными для прогноза функции по известным значениям аргументов в условиях, аналогичных тем, в которых собирался фактический материал для построения уравнения, но они с большой осторожностью могут быть использованы для целей разработки методов управления функциональным признаком путем воздействия на признаки, выступающие в качестве аргументов. Вопросы для самоконтроля 1. Какой анализ называется регрессионным и какое у него назначение? 2. В чем проявляется сходство и различие эмпирической и теоретической линий регрессии?
256 Глава 11 3. Какими качествами обладают оценки параметров уравнения регрессии, найденные по способу наименьших квадратов? 4. В чем отличие корреляционной модели от регрессионной? 5. Для чего используются уравнения регрессии и что регламентируют условия их применения? 6. Когда и почему при линейной регрессии коэффициент регрессии х по у не равен обратной величине коэффициента регрессии у по х 7. Есть ли ограничения на величину и знак произведения коэффициентов линейной регрессии Ь 1х Ьх/ и что такое произведение показывает? 8. Как проверяется значимость параметров уравнения регрессии? 9. В чем отличие линейной регрессии от криволинейной? 10. Что показывают коэффициенты регрессии в уравнении множественной регрессии и какова их размерность? 11. Каковы особенности использования и интерпретации уравнений множественной регрессии в стандартизованном виде? 12. Какой смысл имеет коэффициент множественной корреляции и как он связан с парными коэффициентами корреляции? 13. В какой мере уравнения регрессии отражают причинно-следственные отношения между признаками? 14. Как и для решения какого рода задач можно использовать уравнения регрессии? 15. В чем заключаются трудности интерпретации результатов регрессионного анализа?
Глава 12 НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ Параметрическая статистика - это та часть математической статистики, в которой для получения статистических выводов используется гипотеза о параметрическом представлении для функции распределения (или функций распределения). Та же часть математической статистики, которая не использует то или иное параметрическое представление для функций распределения, называется непараметрической статистикой. Эта ветвь статистики в последнее время бурно развивается, поскольку не требует жесткого соблюдения нормальности распределения, на котором построена вся классическая статистика и которое столь часто нарушается для реальных выборок. 12.1. Анализ единичной выборки 12.1.1. Квантильный анализ Анализ квантилей может оказаться весьма полезным как для интерпретации особенностей изучаемой случайной величины, так и для понимания результатов других статистических вычислений. Поскольку в качестве некоторого стандарта при изучении распределений очень часто используется нормальное распределение, полезно заметить, что для нормально распределенной случайной величины нижний и верхний квантили симметрично отстоят от медианы (и среднего арифметического) в меньшую и большую сторону. Абсолютное отклонение крайних квартилей от медианы, выраженное через стандартное отклонение, равно 0,674а. Поэтому межквартильный размах Rq равен 1,348а, и это может быть использовано для оценки стандарта по размаху: ** =U48 =0'742(X<°'75> ~*<°>25>)- °2Л) Симметричные относительно медианы квантили *(o,i5) и JC(o,85) при нормальном распределении отстоят от медианы на 1,036а, а следователь-
258 Глава 12 но, отклонения х(0,5о) -*(о,15) = *(о,85) ~ *(о,50) по своему значению примерно в 1,5 раза больше, чем отклонения от медианы нижнего и верхнего квартилей: Х(0,50)~*(0,15) _ *(0,85)~X(0,50) = *(0,85) ~*(0,15) _ * ^ ,уу ~ч Х(0,50) ~ Х(0,25) *(0,75) ~ ^(О^О) Х(0,75) ~ Х(0,25) Междецильный размах x(0,90) - *(о,ю) оказывается почти в 2 раза больше межквартильного размаха: *(0,50) Х(0,Ю) _ *(0,90) *(0,50) Х(0,90) *(0,10) = 1,90. (12.3) *(0,50) Х(0,25) Х(0,75) ^(О^О) *(0,75) *(0,25) Если доля у<0,5, то отношение разности отклонений у- и (1-у)- квантилей от медианы JC(0,50) k сумме этих отклонений может служить показателем асимметричности распределения: _ 1_*(1-Г) "*(0,50) J~ 1_*(0,50) ~*00 ] _ *(!-/) + Ху ~2*(0,50) п~ лл \_Х(\-Г) ~ *(0,50) J + |_*(0,50) " х(у) J *0-Г) ХГ Если верхние квантили [X(i-y)] отклоняются от медианы на большую величину, чем нижние [%)], то ау принимает положительные значения, что соответствует положительной асимметрии. В противном случае асимметрия отрицательна. В случае симметричности распределения яу= 0. Таким образом, при нормальном распределении асимметрия проявляется в различии отклонений у- и (1- у) - квантилей от медианы, а эксцес- сивность - в отклонении значений отношений от приведенных в выражениях (12.2) - (12.3) в большую сторону при положительной эксцессивно- сти и в меньшую при отрицательной. Пусть, например, валовое содержание (в %) Si02 в горизонте А2В дерново-подзолистой почвы характеризуется следующими квантилями: *(о,ю)= 75,8; х(о,25)= 80,4; х(0,50) = 81,6; х(0>15)= 82,6; *(о,90)= 84,2. Подставляя значения в (12.4) при у=0,25, получаем 82,6 + 80,4-2>81,6 ппо #0 25 = = —")0У. 82,6-80,4 Об асимметрии можно судить и по более простому показателю а у: (12.5) , _ Х(\-Г) *(0,50) *(0,50) Ху принимающему значения, равные 1, для симметричных распределений, а у < 1 при отрицательной асимметрии и а у> 1 при положительной. В данном примере при у=0,25 имеем
Непараметрические методы 259 82,6-81,6 = Д 81,6-80,4 Показатели Оу и a \ между собой связаны зависимостью ау=-£— (12.6) а£+1 и содержат по сути дела одну и ту же информацию об асимметрии распределения, однако по соображениям удобства интерпретации более предпочтительным можно считать показатель аТ Итак, крайние квартили рассматриваемого распределения весьма симметрично расположены относительно центра. Если теперь сопоставить крайние децили, то мы обнаружим, что отклонение нижнего дециля от медианы существенно больше, чем верхнего: *(о,50) ~~ ^(о,10) = 81,6 — 75,8 = 5,8 и Х(о,90)~~ *(о,50)= 84,2 — 81,6 = 2,6. Это является свидетельством асимметричности распределения в области значений, ограниченных крайними децилями, что подтверждается ростом значений коэффициента асимметрии: 84,2-81,6 а(°'10) 81,6-75,8 согласно формуле (12.6) имеем = 0,45; 0,45-1 а(0-,0, = М57Т ' Как видим, в изучаемом распределении асимметричность обнаруживается лишь в распределении крайних значений, но не в центре. Изучаемое распределение проявляет не только отрицательную асимметричность, но и положительную эксцессивность, о чем свидетельствует отношение междецильного размаха к межквартильному размаху, в 2 раза превышающее значение 1,9 (см. формулу (12.3)): *(o,9)~*(o,i) _ 84,2-75,8 х(о,75) *(о,25) °2,6 80,4 Эксцессивность особенно заметно оказывается связанной с левой ветвью распределения (со значениями, меньшими медианного), где *(0,5) ~*(0,1) л 0 = 4,8, в то время как аналогичное отношение для правой *(0,5)~*(0,25) части распределения равно 2,6, что гораздо меньше отличается от значения 1,9, присущего нормальному распределению.
260 Глава 12 Очевидно, распределение содержания SiC>2 в горизонте А2В является следствием отсутствия в ограниченной части объема горизонта А2В элювиальных процессов и (или) наличия в этой части иллювиальных процессов. Существенное снижение содержания Si02 в этой части объема и приводит к возникновению отрицательной асимметрии и положительного эксцесса. Квантильный анализ позволяет выяснить тонкие особенности поведения значений случайной величины, за счет каких групп значений возникают отличия от нормального распределения и пр. Так, с помощью кван- тильного анализа в распределениях, нормальность которых не отвергается критерием хи-квадрат, часто устанавливается, что центральная часть действительно ведет себя как нормально распределенная и лишь один или оба крайних дециля (или Jt(0,o5)> *(o,95> лимиты) слишком далеко отстоят от медианы. Эти большие отклонения от центра и определяют появление высоких коэффициентов асимметрии. Анализ поведения квантилей и лимитов часто оказывается очень полезным для понимания поведения изучаемого свойства и механизмов влияния факторов, его определяющих. 12.1.2. Представление данных на нормальной бумаге Для выявления особенностей данных, выдвижения гипотез о характере распределения случайных величин, а также для приближенной оценки параметров распределений часто может быть использован графический анализ данных. Так, если предположить, что функция распределения случайной величины F(x) принадлежит определенному типу распределений, то в обоих этих случаях точки с координатами где j = 1, 2, ..., и, F0- модельная функция распределения, достаточно хорошо ложатся на прямую у = Ьх + а. Здесь Fq1 есть а-квантиль распределения F0 (х). Если F0 (x) есть функция стандартного нормального распределения, то говорят об анализе данных на нормальной бумаге, причем а-квантиль в этом случае задается функцией y/(d), обратной функции нормального распределения. В том случае, когда экспериментальные точки достаточно хорошо ложатся на прямую, гипотезу о типе распределения можно считать приемлемой. Конечно, степень "хорошести" зависит от субъективного взгляда исследователя, но с накоплением личного опыта, путем построения таких графиков можно различать определенные ситуации и выявлять новые, для которых нужен более тщательный анализ.
Непараметрические методы 261 Таблица 12.1 Расчеты для представления данных о содержании органического вещества на нормальной бумаге j 1 2 3 4 5 У(п + 1) 0,10 0,20 0,30 0,40 0,50 * 2,04 2,06 2,13 2,22 2,26 №n + D) -1,282 -0,841 -0,524 -0,253 0,000 / 6 7 8 9 У(п+1) 0,60 0,70 0,80 0,90 * 2,32 2,40 2,48 2,60 vwn+m +0,253 +0,524 +0,841 +1,282 J = 2,28 5=0,192 Для нормального (логнормального) распределения точка пересечения прямой с горизонталью ^о ( г) =0 будет оценкой // генерального среднего. Для определения оценки стандартного отклонения надо провести горизонталь ^о ( г) = 1 до пересечения с прямой и определить значение х', соответствующее точке пересечения. Тогда s'будет равно разности между этим значением и значением оценки среднего: s'= x' - х. Лучшей является оценка s \ определяемая по формуле S =~2^X ~Х^ где х" - абсцисса точки пересечения горизонтали F* ( ) = - 1 с пря- л + 1 мой, a jc ' определенно выше. Построим на нормальной бумаге данные о содержании органического вещества в пахотном горизонте дерново-подзолистой почвы (п = 9). Для этого необходимо рассчитать значения jl{n + 1), где у - номер значения в упорядоченной последовательности, и по табл. II приложения определить значения yt[j/(n + 1)] - функции, обратной функции стандартного нормального распределения. Расчет приведен в табл. 12.1. Как видно из рис. 12.1, данные очень неплохо ложатся на прямую. Она пересекает ось абсцисс в точке х = 2,28, следовательно, оценка среднего равна jc = 2,28. Оценка s стандартного отклонения будет равна: s = V2 (2,50 -2,05) = 0,225 Определение точекх'их" показано на рис. 12.1.
262 Глава 12 Рис. 12.1. Представление на нормальной бумаге данных о содержании органического вещества в дерново-подзолистой пахотной почве Построим на нормальной бумаге данные о содержании гербицида си- мазина в дерново-подзолистой почве (С, мг/кг почвы, п = 9). Расчет приведен в табл. 12.2. Рис. 12.2. Представление данных о содержании симазина в дерново-подзолистой пахотной почве на нормальной бумаге а - "натуральные" данные; б - логарифмы данных
Непараметрические методы 263 Таблица 12.2 Расчеты для представления данных о содержании симазина на нормальной бумаге j 1 2 3 4 5 6 7 8 9 j/(n + l) 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 * XJ 0,53 0,68 0,95 1,02 1,07 1,37 1,66 3,07 3,60 In x*j -0,63 -0,38 -0,05 +0,02 +0,07 +0,30 +0,51 +1,12 +1,28 W* + ») -1,282 -0,841 -0,524 -0,253 0,000 +0,253 +0,524 +0,841 +1,282 Как видно из рис. 12.2 а, на нормальной бумаге никакого спрямления данных не происходит. По экспериментальным точкам можно провести кривую, отклоняющуюся вправо. Взяв In x j вместо х у и оставив ось ординат прежней, получим, что по экспериментальным точкам можно провести более или менее подходящую прямую. Конечно, точки ложатся не идеально (рис. 12.2), но лучше, чем в случае нормальной бумаги. Это свидетельствует в пользу логарифмически нормального закона распределения содержания симазина. 12.1.3. Проверка гипотез о типе распределения Нулевая гипотеза в этом случае формулируется как h0 \J{x) = Fm<Kj (г), где Fmod (x) - некоторая модельная функция распределения, F(x) - эмпирическая функция распределения. Альтернативными гипотезами в этом случае могут быть H]:F(x)^Fmod(x) H2:F(x)>Fmod(x) H3:F(x)<Fmod(x) Гипотезы Н2 и Н3 соответственно означают, что F(x) статистически больше (меньше) Fmod(x). Гипотетическая модельная функция задана либо однозначно (Fmod(x)= = Fo(x), где F0(x) - полностью известная функция), либо с точностью до принадлежности к некоторому параметрическому семейству Fmod(x) = = F0(x, в), где в- некоторый параметр, значение которого оценивается по выборке.
264 Глава 12 Рис. 12.3. Эмпирическая (а) и теоретическая (б) функции распределения В почвенных исследованиях первый случай практически не встречается. Второй случай чаще всего сводится к проверке возможности аппроксимации нормальным (реже логарифмически нормальным) законом. Для проверки гипотез о типе распределения случайной величины в почвоведении наиболее часто используется критерий £. Однако он обладает рядом недостатков: им можно пользоваться, если объем выборки достаточно велик (не менее 50, а лучше 100 и более данных), зависит от группировки. Наконец, сама процедура вычисления этого критерия весьма трудоемка, хотя использование компьютера полностью снимает эту проблему. Для проверки гипотезы о типе распределения может быть использован непараметрический критерий Колмогорова. Пусть имеется x]f x2, ... , хп - п наблюдений случайной величины £ Упорядочим Х*х<Х*2<... <х\. Для того чтобы построить эмпирическую функцию распределения, будем считать, что каждому значению x*j соответствует скачок функции распределения —. Нанеся на график точки с координатами (х j, — ) и по- п п строив ступенчатый график, получим графическое изображение эмпирической функции распределения Fn{x). Модельную (теоретическую) функцию распределения можно изобразить на этом же графике (рис. 12.3). Так как распределение непрерывно, то теоретическая функция будет изображаться плавной кривой. В качестве меры близости между теоретической и эмпирической функциями распределения берется максимум расстояния между ними. Эта величина называется статистикой (критерием) Колмогорова. Из рис. 8 видно, что отклонения от теоретической функции могут быть как в большую сторону (Р+„% так и в меньшую (D~n):
Непараметрические методы 265 Z>+„ = max [Fn(x) - F^ (x)]9 D~n = max [Fmod(x)-Fn(x)l где Fn(x) - эмпирическая функция распределения, построенная по выборке объемом п. Если нулевая гипотеза проверяется против альтернативы Н2, то с критическим значением сравнивается D+„; если рассматривается альтернатива Н3, то с критическим значением сравнивается D ~ „; если же задача состоит в проверке нулевой гипотезы против альтернативы Hj, то с критическим значением сравнивается величина Dn = max(D\,D-n). В том случае, если распределение Fmod (x) точно известно, то распределение статистики - D„ не зависит от конкретного вида Fmod (х) - будь то нормальное, логнормальное, экспоненциальное и любое другое распределение, можно пользоваться одними и теми же критическими значениями Dn(a) для заданного уровня значимости а и объема выборки п. Но чаще всего известно лишь, что теоретическое, модельное распределение принадлежит к какому-либо типу распределений, а параметры этого распределения необходимо оценить по выборке. В этом случае распределение статистики D„ (и D+n, и D ~ „) зависит от конкретного вида распределений. Для наиболее распространенных распределений - нормального (логнор- мального), показательного - рассчитаны таблицы их квантилей D„(a). Обнаружено, что величина Dn может быть преобразована к виду, практически не зависящему от объема выборки л. Для нормального (лог- нормального) распределения это так называемая модифицированная форма статистики. Колмогорова; она имеет вид ^=ДД^-°,01 + ^) (12.7) Зная значения D*„(a) для небольшого числа уровней значимости (табл. 12.3), можно проводить проверку гипотез практически при всех объемах выборок. Таблица 12.3 Значения критерия Колмогорова-Смирнова Статистика D\(a) Модифицированная форма d;-d.(vJ-oloi+2*) Уровень значимости 0,15 0,775 0,10 0,819 0,05 0,895 0,025 0,955 0,01 1,035
266 Глава 12 Рассмотрим подробнее процедуру проверки гипотезы о том, что распределение случайной величины может быть аппроксимировано нормальным законом. Для этого необходимо рассчитать значения эмпирической функции распределения Fn(x) =j/n,j = 1, 2,..., п, и значения теоретической функции распределения (в нашем случае нормальной), со средним х и стандартным отклонением s, которые рассчитываются по выборке: Для вычисления теоретической функции вначале необходимо для каждого x*j рассчитать нормированные отклонения а затем, воспользовавшись таблицей стандартного нормального распределения со средним /i =0 и стандартным отклонением а = 1 (табл. II Приложения), определить значения Ф(и j). После этого рассчитываются значения D+n = max \j/n - &(Mj)]9 D n = max [Ф(и*у) - (j- l)/w], и выбирается наибольшее из них Д, = max (D\, IT.). (12.8) Затем рассчитывается модифицированная форма критерия и ее значение сравнивается с критическим при выбранном уровне значимости а. Нулевая гипотеза отвергается, если D*n > D*n(a) Таблица 12.4 Расчеты для проверки гипотезы о нормальности распределения при помощи критерия Колмогорова j 1 2 3 4 5 6 7 8 1 9 * | 0,53 0,68 0,95 1,02 1,07 1,35 1,66 3,07 3,60 j/n 0,111 0,222 0,333 0,444 0,556 0,667 0,778 0,889 1,000 * UJ -0,95 -0,81 -0,56- 0,49 -0,45 -0,18 0,10 1,41 1,90 *r«V 0,171 0,209 0,288 0,302 0,326 0,429 0,540 0,921 0,971 }/п-Ф(и$ 0,60 0,013 0,045 0,132 0,230 0,238 0,238 0,032 0,029 <D(uj)-(j-l)/n 1 0,171 0,098 0,066 0,021 0,118 0,127 0,127 0,143 0,082 x = 1,55, s = 1,076, D% = 0,238, D~9 = 0,171, D9 = 238, D\ = 0,779, £>У0,05) = 0,895, D%< D*e(0,05).
Непараметрические методы 267 .Проверим гипотезу о нормальном распределении значений содержания симазина в дерново-подзолистой почве (С, мг/кг, п = 9). Расчеты приведены в табл. 12.4. Как видим, нулевая гипотеза о нормальности распределения не отвергается при уровне значимости a = 0,05. 12.2. Анализ группы выборок 12.2.1. Квантильный анализ Наряду с решением задач о сходстве или различии тех или иных констант, характеризующих сравниваемые случайные величины, часто интерес представляет анализ более тонкой структуры в организации данных и ее изменении в разных объектах. Например, для объяснения природы объектов исследователю может помочь не только установление факта изменчивости средних или дисперсий, но и то, как такая изменчивость происходит. Ведь при переходе от одного объекта к другому среднее, например, может измениться как в силу изменения всех значений на некоторую величину, так и вследствие того, что лишь некоторая часть значений заметно возросла или уменьшилась. В решении этих вопросов большую помощь оказывает анализ поведения квантилей распределений. Для иллюстрации интерпретационных возможностей квантильного подхода рассмотрим поведение квартилей и крайних децилей содержания валового Si02 в дерново-подзолистой почве. Элементы опробования представляли собой цилиндрические образцы изометрической формы объемом 10 смЗ, что имеет принципиальное значение для интерпретации результатов анализов. |Si02,% 84- 82- 80- 78- 76- 74- -<^ ^И вен -^л ^ \ V вен А2В ЧЛу = 0,90 \у = 0,75 ^^.7=0,50 Х^>у = 0Д5 V^Y=0,W В С в1 1 Рис. 12.4. Изменение квантилей содержания валового Si02 по подгоризонтам дерново-подзолистой почвы
268 Глава 12 Предварительно заметим, что с процессом оподзоливания связывается повышение содержания Si02 в валовом составе почвы и чем этот процесс сильнее выражен, тем больше содержание оксида кремния. Следовательно, значения верхних квантилей соответствуют более оподзоленному материалу в пределах горизонта, а нижних - менее оподзоленному или даже иллювиально обогащенному продуктами выноса из вышележащих горизонтов. Если напряженность и направленность элювиально-иллювиальных процессов с глубиной во всех частях горизонта меняется одинаково, то квантили содержания Si02 должны меняться по профилю почвы однообразно. На рис. 12.4 представлены квантили раздельно по верхним (в), средним (с) и нижним (н) третям исследовавшихся горизонтов, показывающие, что в горизонте AiA2 и вплоть до середины А2В медианное содержание Si02 остается практически без изменений, после чего резко снижается. В то же время нижний дециль JC(o,io> остающийся постоянным в средней и нижней третях AiA2, начинает резко уменьшаться уже в верхней трети горизонта А2В, отражая тем самым появление и увеличение в горизонте А2В и Bi доли участия почвенного материала, не затронутого элювиальными процессами или содержащего признаки иллювиальных явлений. В верхней трети А2В объемная доля участия такого материала близка к 10% и заведомо меньше 25%, так как нижний квартиль *(о,25) здесь еще не меняет своего значения по сравнению с вышележащими горизонтами. В середине А2В доля слабо или совсем незатронутого элювиальными процессами материала уже превышает 25%, но меньше 50% (здесь медиана еще не обнаруживает изменений). Верхние квартиль и дециль содержания Si02 соответствуют наиболее обогащенным кремнекислотой участкам, а это в рассматриваемом случае может быть связано с локально наиболее оподзоленными участками горизонтов. Примечателен тот факт, что верхние квартиль и дециль до середины А2В не только не проявляют еще тенденции к снижению, но имеют еще тенденцию увеличивать свое значение, что связано с тем, что хотя элювиальные процессы в горизонте А2В и не идут повсеместно также интенсивно, как в AiA2, но локально эти процессы здесь заходят значительно глубже. Более того, можно утверждать, что в горизонте А2В локально оподзоленные участки не просто репрезентируют вышележащий элювиальный горизонт AjA2, а содержат материал с экстремально выраженными элювиальными явлениями. Рассмотрение поведения квантилей в разных горизонтах (слоях, глубинах) позволяет судить о характере изменчивости изучаемого свойства по профилю почвы. Прежде всего заслуживает внимания анализ размаха колебаний между у- и (1 - у)-квантилями (между лг(0,25) и Х(о,75> *(o,i)и *(о,9) и другими). Например, из рис. 12.4 видно, что степень изменчивости в содержании Si02, оцениваемая по размаху между первым и третьим квартилями, при переходе от горизонта А\ А2 к нижней трети горизонта А2В уве-
Непараметрические методы 269 личивастся в 3 раза, причем в верхней трети горизонта А2В увеличения размаха еще не наблюдается. В то же время размах между крайними деци- лями уже в верхней трети горизонта А2В в 2 раза больше, чем в AiA2 и достигает максимума к середине А2В. Особый интерес здесь представляет неодинаковость поведения размахов между первым и третьим квартилями и нижним и верхним децилями при переходе от горизонта A^2 к верхней трети горизонта А2В. При неизменности межквартильного размаха (и, соответственно, вариации в средней области ранжированного ряда) децили уже определенно отражают рост вариации переменной. Столь богатой информации о характере изменчивости изучаемого свойства обычные статистические методы дать не могут. Наряду со степенью изменчивости квантили позволяют судить об асимметричности в изменчивости и характере ее проявления. Для этого достаточно рассмотреть отклонения у- и (1 - у)-квантилей от медианы, которые при симметричности в изменчивости должны быть одинаковы. Так, по содержанию Si02 в горизонте AiA2 изменчивость в пределах крайних квартилей и децилей можно считать почти симметричной (медиана располагается близко к середине между крайними квантилями). В верхней и средней третях горизонта А2В асимметрия отчетливо выражена в гораздо большей (в 2 - 2,5 раза) удаленности нижнего дециля от медианы сравнительно с верхним децилем. Как видим, рассмотрение квантилей и их изменения по профилю почвы позволяет вскрыть детальную картину характера изменчивости изучаемого свойства. Квантили могут оказаться весьма ценным способом характеристики переменных в случае анализа особенностей влияния отдельных факторов на изучаемый признак. Например, рассмотрение долевого участия тех или иных значений переменной величины может помочь в выяснении особенностей увеличения содержания в почве питательных элементов при внесении удобрений, вскрыть характер неравномерности увлажнения почвы при орошении или специфику расходования из почвы влаги путем ее де- сукции. Квантили могут оказать большую помощь также для анализа структур смены почв в пространстве, например в условиях комплексного почвенного покрова. Учитывая, что определение квантилей не предполагает каких-либо ограничений на характер переменных величин, оправданность применения квантильного метода анализа оказывается гораздо более широкой, чем обычных статистических методов обработки данных. 12.2.2. Проверка гипотез об однородности Основное содержание непараметрической статистики составляют процедуры, основанные на рангах значений. Пусть xJf x2, ... , хф - произвольная последовательность чисел. Ранг Rj произвольного Xj из заданного
270 Глава 12 ряда xh х2, ... , хп определим разностью между числом элементов ряда, не превышающих xj9 и число элементов, стоящих в ряду правее xj и равных ему. Например, для ряда 22, 3, 18, 1, 6, 22, 30, 43, 16, 37, 4, 22, 18, состоящего из 13 чисел, ранги определяются так: Rj = 10 - 2 = 8; R2 = 2 - 0 = 2; R3 = 1 - 1 = 6; R4 = 1 и т. д. Заменяя значения выборки их рангами, можно проверять разнообразные гипотезы. Серийный критерий Самый простой критерий, позволяющий сравнивать распределения, - это критерий серий. Если две сравниваемые выборки принадлежат одной генеральной совокупности, естественно предположить, что в объединенной совокупности, упорядоченной по возрастанию, элементы каждой из двух исходных выборок должны чередоваться. Так, если x]f x2, ... , хт - первая выборка пу\, j/2, •••, уп- вторая выборка, то расположение их * * * **** * X iX 2Х з ...X ту jy 2У 3 -У п (х j и у j - упорядоченные элементы выборок) явно будет противоречить нулевой гипотезе, а расположение х*]ут1у*2хт2х*3...х*т у\ более соответствует нулевой гипотезе. Если теперь определить серию как непрерывную последовательность либо иксов, либо игреков, то число серий можно рассматривать как количественную меру близости двух выборочных распределений, а точнее, антиблизости: чем меньше число серий, тем менее вероятно, что обе выборки имеют одно распределение. Итак, для того чтобы проверить гипотезу Н с помощью этого критерия, достаточно определить число серий Q и сравнить его с табличным значением при выбранном уровне значимости. Нулевая гипотеза отвергается, если Q > Q(a). Таблица 12.5 Расчеты для критерия серий * 0,53 0,68 У! 0,15 1,37 0,46 0,60 0,80 0,83 № серии 1 2 3 4 5 * Xj 0,95 1,02 1,07 0,35 1,66 3,07 3,60 // 1,21 1,34 2,15 № серии 6 7 8 9 10
Непараметрические методы 111 Рассмотрим две выборки значений содержания симазина (мг/кг) в дерново-подзолистой почве в рядках (выборка х) и междурядьях (выборка у) кукурузы. Объемы выборок т = п = 9. Расчет приведен в табл. 12.5. Для этих выборок число серий равно Q = 10. Обращаясь к табл. XVIII Приложения, находим, что для a = 0,05 £?(0,05) = 6. Так как Q > Q(a)9 заключаем, что нулевая гипотеза с заданным уровнем значимости не отвергается. Если объем одной из выборок больше или равен 20, можно воспользоваться нормальным приближением, т.е. тем, что значения имеют при объемах выборок п > 20 распределение, близкое к нормальному со средним значением Q = 1 + a/N, где a = 2mn, N= m + n, и дисперсией c^Q = a(a-N)l[^{N-\)l Рассчитав Q и og, далее поступают обычным образом: рассчитываем нормированное отклонение и = (Q-Q- 1/2)/ag (1/2 - поправка на непрерывность) и сравниваем его с табличным значением ta при уровне значимости а и числе степеней свободы v=oo . В том случае, если и > ta , нулевая гипотеза отвергается с соответствующим уровнем значимости. Критерий Колмогорова-Смирнова При малых объемах выборок критерий серий малочувствителен, и в тех случаях, когда число серий Q равно Q(a) при заданном уровне значимости а равно или отличается от Q(a) на одну-две единицы, следует обратиться к критерию Колмогорова-Смирнова. Критерий основан на сравнении рядов накопленных частот обеих совокупностей. Пусть Ffx) и Ffyi) - накопленные относительные частоты выборок х и у; где j - номер значения в общем вариационном ряду. Максимальная по величине разность Z} = max[FXx)-F/y)] (12.8) служить мерой близости двух распределений. Если эта разность слишком велика, нулевая гипотеза о равенстве распределений отвергается. Естественно, решение о том, слишком или не слишком велика разность, зависит от выбранного уровня значимости а и объемов сравниваемых совокупностей. При больших объемах совокупностей (m, n > 100) вычисленную разность можно либо сравнивать с D(a), пользуясь специальными таблицами, либо пользоваться тем замечательным фактом, что величина X2 = Dlmn/(m + n) (12.9) при больших т и п не зависит от них. Тогда, вместо того чтобы обращаться к таблицам, по величине D рассчитывается X2 и сравнивается с X2 для
272 Глава 12 Таблица 12.6 Значения модифицированного критерия Колмогорова-Смирнова Статистика D*M 0,10 0,224 Уровень значимости 0,05 1,358 0,025 1,480 0,01 1,628 одного из выбранных уровней значимости а. Для а = 0,05 А,2(0,05) = 1,84; для а = 0,01 А,2(0,01) = 2,65. В том случае, если А,2 > А,2(а), нулевая гипотеза отвергается, Если объемы совокупностей малы, приходится вводить поправки. Введем величину v = тп/(т + п), где т и п - объемы сравниваемых совокупностей. Тогда где A(w, п) = 1/v [Ь + \т- п\/6(т + л)] - l/6v; 1 тт(/и,«)-Я.О.Д.(/и,л). " 2: т + п + Н.О.Д(т,п) Н.О.Д.(/и, п) - наибольший общий делитель чисел тип. При небольших объемах совокупностей вычисляется модифицированная форма D\ = Dv fVv + 0,12 + 0,11/Vv) (12.10) и сравнивается со значением D*v(a) при выбранном уровне значимости а (табл. 12.6). Процедуру вычисления критерия Колмогорова-Смирнова покажем на примере. Рассмотрим выборки, показывающие содержание симазина в дерново-подзолистой почве в междурядьях (выборка х, т = 6) и рядках (выборка у, п = 7) кукурузы (срок 42 дня после внесения, слой 0-5 см, содержание симазина, мг/кг почвы). Вычисления даны в табл. 12.7. В графы 7 и 2 выпишем упорядоченные значения выборок х и у. В графы 3 и 4 занесем абсолютные частоты значений этих выборок и/jc) и п/у). Так как распределение значений непрерывно, то теоретически совпадений быть не может и абсолютные частоты равны 0 или 1. Но практически совпадающие значения могут появляться, и тогда с ними поступают так же, как и в случае критерия Вилкоксона (см.след.раздел). Следующие две графы занимают накопленные абсолютные частоты sj(x) и s/y). Разделив sjfx) на /и, a s/y) на п, получим относительные накопленные частоты, которые записаны в графах 7 и 8. В последней, графе 9 выписаны абсолютные величины разностей А/7} = \Fj{x) - F/y)\. Нетрудно заметить, что максимальные значения AFj находятся на стыках серий х и у.
Непараметрические методы 273 Таблица 12.7 Расчеты для критерия Колмогорова-Смирнова I * 0,04 0,18 0,31 0,36 0,80 0,87 * У; 0,02 0,03 0,12 0,13 0,19 0,57 1,05 n/x) 0 0 1 0 0 1 0 1 1 0 1 1 0 ъ<у) 1 1 0 1 1 0 1 0 0 1 0 0 1 s/x) 0 0 1 1 1 2 2 3 4 4 5 6 6 sj&) 1 2 2 3 4 4 5 5 5 6 6 6 7 Ffi* 0 0 0,167 0,167 0,167 0,333 0,333 0,500 0,667 0,667 0,833 1,000 1,000 F/y) 0,143 0,286 0,286 0,429 0,572 0,572 0,713 0,713 0,713 0,858 0,858 0,858 1,00 AFj 0,143 0,286 0,119 0,162 0,405 0,239 0,380 0,213 0,046 0,191 0,025 0,142 0,00 Выбирая максимальное значение из AFj, получим max AFj = 0,405, и, следовательно, D = 0,405. Так как т и п малы, необходимо вычислить величину v и поправку А: v = 6*7/(6 + 7) = 3,23, Ъ = Vi (6 - 1)/(6 + 7 + 1) = 0,179; А(6, 7) = 1/3,23[0,179 + (16 - 71)/6(6 + 7)] - 1/6*3,23 = -0,008. Тогда Д, = 0,405 - 0,008 = 0,397. Рассчитываем модифицированную форму: D\ = 0,397 (V3,23+ 0,12 + 0,ИЛ/3,23) = 0,785. Обращаясь к табл. 12.6, видим, что для уровня значимости a = 0,05 D*v < D*v(a)9 следовательно, при этом уровне значимости нулевая гипотеза не отвергается. Критерий Вилкоксона Пусть имеются две выборки: xit x2> ... , хт и yJt у>2, ... , уф причем их объемы могут быть неодинаковыми. Объединим обе выборки в одну и упорядочим полученную выборку, '"запомнив" при этом, какие значения принадлежат каждой выборке. Полученный ряд может быть, к примеру, таким (прит = 5 ип =4) : ********* х \У 1Х2Х3У2У3Х4У4Х5, либо таким: ********* х ix 2х Зх 4х 5у jy 2У зУ 4
274 Глава 12 При взгляде на эти две выборки ясно, что в первом случае центральные тенденции могут быть близкими, так как игреки размещаются между иксами в произвольном (на взгляд) порядке. Во втором случае здравый смысл подсказывает, что, скорее всего, случайно такое расположение иксов и игреков вряд ли может получиться, и, по-видимому, выборки по центральной тенденции различаются. В качестве меры близости центральных тенденций двух выборок берется сумма рангов значений, принадлежащих каждой исходной выборке. Эта величина называется статистикой (критерием) Вилкоксона. В том случае, если центральные тенденции обеих выборок близки, близки и суммы рангов этих выборок. В противном случае сумма рангов одной из выборок будет существенно меньше, чем другой. Итак, имеем две величины: Wx=ZR(x% Wy=ZJ?0> О2-11) где R(x j), R(y J) - ранги значений иксов и игреков в общей упорядоченной выборке. Конкретный расчет рангов хорошо просматривается в примерах, даваемых ниже. Заметим, что общая сумма рангов для объединенной совокупности представляет собой сумму чисел натурального ряда от 1 до N, где N - т + п, и равна T=-N(N + \). так что Т= Wx + Wy. Поэтому при заданных значениях тип различие между центрами распределений можно характеризовать лишь одним числом: Wx или Wr Таблица 12.8 Вычисление критерия Вилкоксона (т=4, п=14) * I I Xj 0,31 y*j I 0,22 0,32 0,34 0,38 0,39 0,45 0,46 0,48 0,55 Щх) \ 2 R(y*j) [ x*j 1 1 0,56 3 4 5 6 0,66 0,70 7 II 8 1 9 1 ю 1 ij 0,65 0,68 0,89 1Д1 1,72 *frV 11 13 15 *tf> 1 12 14 16 17 i 18
Непараметрические методы 275 В том случае, если объемы выборок одинаковы, с критическим значением сравнивается меньшая сумма рангов. Нулевая гипотеза отвергается с уровнем значимости а против альтернатив Н2 и Н3 и с уровнем значимости 2а против альтернативы Hj тогда, когда Wx (или Wy) < W(d), где W(a) - критическое значение статистики Вилкоксона. Для выборок с неодинаковыми объемами поступают следующим образом. Рассчитывается W для выборки с меньшим объемом и "дополнение" W — т(т + п + 1) - W, где т - объем меньшей выборки. Меньшая из величин (Wu W) сравнивается с критическим значением W{a) для заданных объемов выборок тип (табл. XV Приложения). В остальном принятие или отвержение гипотезы о равенстве центральных тенденций аналогичны описанному выше. При суммарном объеме выборок n+m>20 распределения WxnWy приближаются к нормальному со средними значениями ^ ^т(т + п + \)^ ф п(т + п + \) (J2 n) и дисперсиями а2=а2 = тп(т + п + 1) (1213) Значимость отклонения Wx от Wx можно оценить по критерию Стьюдента с числом степеней свободы v=oo: W-W„ /=- В качестве примера сопоставим центры распределений содержания симазина (мг/кг) в дерново-луговой почве, определенного в смешанных (выборках, т = 4) и в индивидуальных (выборка;;, п = 14) образцах. Данные выписаны сразу в упорядоченном виде (табл. 12.8). Объем объединенной совокупности равен N= 4 + 14 = 18. Общая сумма рангов равна Т= 1/2(18 * 19) = 171. Wx =41, Wy = 130. Проверим правильность вычисления Wx и Wy\ их сумма должна быть равна Т. Wx + ЖУ = 41 + 130=171. Проверим нулевую гипотезу против альтернативы Hj. Рассчитываем "дополнение" *Г=4(4+14+1)-41=35 и определяем rmn(W, W*) =35. Обращаясь к табл. XV Приложения, на пересечении строки п = 14 и столбца п - m = 10 получаем FF (0,01) =16, FF(0,25)=19, ЙГ(0,05) = 21.
276 Глава 12 При двусторонней гипотезе (против альтернативы Hi) эти уровни значимости соответствуют а' = 2а. Сравнивая полученное значение с табличным, видим, что при всех уровнях значимости W > W(a), так что нулевая гипотеза не отвергается при любом из выбранных уровней значимости. Сравним средние значения содержания симазина, определенные в индивидуальных и смешанных образцах при помощи критерия Стьюдента: х=5,6;У = 0,57;^=0,087;*у=0,076; v = 4 + 14-2 = 16; t = , °'57-°'56 =0,02 V(0,0872+0,0762) / = (0,57 - 0,56)Л/(0,0872 + 0,0762) = 0,02; /(0,05) = 2,12; /(0,01) = 2,92; / < /(а). Таким образом, по критерию Стьюдента получаем тот же результат. Однако насколько проще все выкладки для критерия Вилкоксона! Теоретически в сравниваемых выборках не может быть совпадений, так как значения представляют реализации непрерывных случайных величин. Однако на практике из-за округлений совпадающие значения встречаются достаточно часто. Если совпадающие значения появляются внутри одной из выборок или в обоих, но не равны между собой, то ранги их можно взять в произвольном порядке. Например, если в разных местах выборки есть три значения 5,1, то неважно, какому из них мы припишем ранг к, какому к + 1, а какому к + 2. Когда же совпадают значения, принадлежащие разным выборкам, следует воспользоваться одним из следующих подходов: 1)если объемы выборок велики, а совпадений не слишком много, то можно просто отбросить совпадающие значения с соответствующим уменьшением объемов выборок. Для выборок небольшого объема такой подход не годится, так как отбрасывание приводит к существенной потере информации; 2) метод случайного ранга - в группе совпавших значений им случайным образом приписывается ранг (например, бросанием монетки); 3) метод среднего ранга - совпадающим значениям приписывается средний ранг группы. Этот способ наиболее предпочтителен. Критерий Вилкоксона, прост, нагляден, не требует трудоемких расчетов. В тех случаях, когда распределения заведомо отличны от нормального, он оказывается более мощным, нежели наиболее часто используемый критерий Стьюдента. В тех же случаях, когда выборка образована значениями случайной величины с нормальным распределением, он оказывается менее чувствительным, чем /-критерий, и может не обнаруживать различий там, где с помощью /-критерия они обнаруживаются.
Непараметрические методы 277 Модификация критерия Вилкоксона для проверки гипотезы об однородности дисперсий Поступим с выборками х и у так же, как и в случае критерия Вилкоксона: объединим эти выборки в одну и упорядочим по возрастанию. Ранги после этого определим следующим образом. Припишем ранг 1 наименьшему значению, ранг 2 - наибольшему, ранг 3 - первому перед наибольшим, ранг 4 - первому после наименьшего, ранг 5 - второму после наименьшего, ранг 6 - второму перед наибольшим и т.д. Так же как и в случае статистики Вилкоксона, общая сумма рангов будет равна N(N + 1) общ <\ ' где N- т + п, З^щ = Sx + Sy, Sx - сумма рангов для выборки х, Sy - сумма рангов для выборки у Пусть S'-меньшая из суммSxnSyn S'=rmn(m,n)(N+l)-S. Нулевая гипотеза отвергается с уровнем значимости 2 а (против альтернативы Hj)> если S и S' оказываются меньше критического значения Ща) для статистики Вилкоксона (табл. XV Приложения). Отметим, что та же проверка против односторонних альтернатив Н2 и Н3 дает уровень значимости а. Если же т = я, то S < S'. При объемах выборок т + п > 20 (т > 10, п > 10) можно воспользоваться тем же нормальным приближением, что и в случае критерия Вилкоксона. Таблица 12.9 Расчеты критерия Сиджела-Тьюки для проверки гипотезы об однородности дисперсий I * 0,53 0,68 0,68 0,95 /j 0,15 0,37 0,46 0,60 0,80 0,83 R(x*j) 8 12 17 *<y*j) 1 4 5 9 13 16 l * 1 1,02 1,07 1,35 1,66 3,07 3,60 /j 1,21 1,34 R(x*j) 15 14 7 6 3 2 R(y*j> и 10 N = 9 + 8 = 17; й&ц = 153; Sx = 84; Sy = 69.
278 Глава 12 Проверим гипотезу об однородности дисперсий содержания симазина в рядках (выборка х, т = 9) и междурядьях (выборка у п = 8) кукурузы (табл. 12.9). Меньшая сумма рангов принадлежит выборке х. Рассчитываем дополнение S' = 8 (8 + 9 + 1) - 69 = 75 и выбираем меньшее из S и S'. В нашем случае S меньше S', значит, с табличным значением надо сравнивать S. Выбирая уровень значимости 2 а = 0,05 и обращаясь к табл. XV приложения, заключаем, что нулевая гипотеза не отвергается [W(0,025) = 51; S > > 0/(0,025)]. Проверим гипотезу об одинаковости дисперсий при помощи F-крите- рия. Рассчитаем средние и дисперсии наших выборок: jc =1,55; у = 0,72; s2x = 1,158; s2y = 0,175; F= 6,62; F(0,1) =6,62; F (0,05) = 3,73; F (0,01) = 6,84. Как показывает расчет, с уровнем значимости а = 0,05 гипотезу следует отвергнуть. Однако имеется серьезное основание подозревать, что распределения сравниваемых выборок отличны от нормального, поэтому можно предпочесть результаты применения непараметрического критерия и считать, что дисперсии обеих выборок одинаковы. Проверка гипотезы об однородности нескольких выборок Подход, развиваемый в критерии Вилкоксона, может быть распространен на большее число выборок. Пусть имеется 1, 2, ...,у,..., А: групп данных, причем каждаяу-я группа имеет i = 1, 2, ..., rij наблюдений. Если представить Ху в виде Хц = aj + еу, где а\,..., я* - неизвестные числа, а еи- - независимые одинаково распределенные случайные величины, то нулевая гипотеза формулируется как Ho:ai = a2=ak. Задача сравнения нескольких выборок, как видно из формулировки, есть задача дисперсионного анализа, однако классический дисперсионный анализ применим лишь к выборкам из нормальных совокупностей, т. е. предполагается, что ву - нормально распределенные случайные величины с нулевым средним и одинаковой дисперсией. При проверке гипотезы непараметрическими методами никаких ограничений на распределение etj не накладывается, оно может быть любым, но одинаковым для всех Ху. Объединим все к выборок в одну общую объемом N = Елу и проран- жируем значения в этой выборке. Для каждой j-й группы рассчитаем средний ранг Rj—t^ 02-14) ч *=1
Непараметрические методы 279 где Щ, — ранг xtj в объединенной совокупности. Средний ранг по всем группам наблюдений будет равен R = (N+ l)/2. В случае справедливости нулевой гипотезы Rj будут отклоняться от среднего ранга лишь в силу случайных причин. Если нулевая гипотеза неверна, то будет наблюдаться значительное отклонение Rj от R. В качестве меры отклонения Крускал и Уоллис предложили величину к При расчетах удобнее пользоваться другой формулой - 12 Я=- :1^ -3(JV + 1), (12.15) (12.16) где Sj - сумма рангов дляу-й выборки. Нулевая гипотеза отвергается, если для заданного уровня значимости а выполняется соотношение Н >Н(а). При небольших объемах выборок для оценки значимости а нужно пользоваться специальными таблицами. При увеличении иу распределение статистики Н приближается к распределению £ с (к - 1) степенями свободы, В этом случае нулевая гипотеза отвергается с уровнем значимости а, если Н> £(а) с (к— 1) степенями свободы. Проверим гипотезу об отсутствии динамики содержания подвижного калия в пахотном горизонте дерново-подзолистой почвы. Образцы отобраны в июне, июле и августе, объемы выборок одинаковы: rt\ - п2 = пъ = 5. Общий объем совокупности равен N=5 + 5 + 5 = 15. Ранги значений приведены в табл. 12.10. Так как объемы всех трех выборок равны, формулу для вычисления Н можно упростить: 12 -£^-3(ЛГ + 1). н N(N + \)n4 Таблица 12.10 Вычисление критерия Крускала—Уоллиса № точки 1 2 3 4 5 Содержание К20, м г/100 г июнь 15,8 25,5 21 48,2 13 июль 7,8 23,5 16 7,9 12 август 18,5 14,2 24,5 8,8 5 № точки 1 2 3 4 5 Ъ Ранги июнь 8 14 11 15 6 54 июль 2 12 9 3 5 31 август 10 7 13 4 1 35
280 Глава 12 Подставляя в эту формулу наши данные, получим #=(12/15/16/5)* (542 + 312 + 352) - 3(15 + 1) = 3,02. Из табл. ХУЛ Приложения находим, что #(0,049)=5,78, Н(0,010) = 7,98. Так как вычисленное значение меньше любого из них, нет оснований утверждать, что содержание подвижного калия в пахотном горизонте меняется в течение исследованного отрезка времени. Обратим внимание, что из-за сильной вариабельности исходных данных без статистического анализа выводы могли бы быть очень разными - например, по изменению содержания калия в точке 4 можно было бы говорить о резком его уменьшении в течении вегетационного периода, а в точке 3 его содержание практически не меняется. 12.3. Анализ взаимосвязей 12.3.1. Коэффициент корреляции Спирмена Рассмотренные ранее коэффициенты корреляции вычисляются и интерпретируются исходя из допущения о нормальности распределения обеих случайных величин. В действительности такое допущение не всегда выполняется. И хотя к малым отклонениям от нормальности коэффициент корреляции не очень чувствителен, однако "засоренность" той или иной выборки даже одним-двумя сильно отклоняющимися от остальной группы значениями может оказаться причиной не только изменения меры тесноты связи, но и ее знака. В тех случаях, когда о законе распределений ничего не известно, а тем более, когда есть серьезные основания думать, что одна или обе случайные величины имеют распределения заметно отличные от нормального или "засоренные" сильно отклоняющимися от основной массы значениями, целесообразно прибегать к характеристике меры коррелированности с помощью коэффициента корреляции Спирмена ps (или его оценки rs). Коэффициент корреляции Спирмена относится к категории ранговых статистик. Для его вычисления необходимо значения jc, и yt в корреляционном ряду заменить их рангами R(xt) и R(yi). Для этого значения каждой случайной величины ранжируются (см. § 2.5) и в порядке возрастания приписываются ранги от 1 до я, где п - объем выборки. Ранги таким образом представляют собой целые числа 1, 2,..., л, соответствующие номеру занимаемого места в ранжированной последовательности. Если два или большее число значений имеют одинаковую величину, им обычно приписывается одинаковый ранг, равный среднему значению из номеров, занимаемых этими значениями мест. К примеру, в корреляционном ряду, отражающем связь между содержанием углерода (хг) и азота (yt) по результатам анализа п-в образцов:
Непараметрические методы 281 Xi У( 1,00 0,11 1,08 0,09 1,20 0,11 1,27 0,10 1,30 0,08 1,36 0,12 Заменив xt uyt на их ранги R(x,) и R(yt), получим корреляционный ряд: RM RW 1 4,5 2 2 3 4,5 4 3 5 1 6 6 Очевидно, при положительной связи меньшим рангам Rfa) должны соответствовать меньшие ранги R(yt) и наоборот. При отрицательной связи меньшим значениям рангов R(xt) будут соответствовать большие ранги R(yi). Неустойчивость в таких соотношениях должна соответствовать снижению тесноты связи вплоть до ее отсутствия, когда любому рангу одного признака может соответствовать любой ранг другого признака. Коэффициент корреляции Спирмсна, отражающий эту меру связи, вычисляется по формуле п\п -11 (12.17) где dt= R(xt) - Rtyi), т.е. попарная разность рангов. Коэффициент корреляции Спирмена может принимать значения от -1 до +1. В рассматриваемом примере, поскольку ряд разностей имеет вид 4:-3,5; 0;-1,5; 1; 4; 0 и £</,2 -31,5, получаем rs=1_J^l_=o,io. 6(36-1) Будучи вычислены на основании результатов выборочных экспериментов, значения rs оказываются оценками генеральных значений этих коэффициентов ps. Поэтому, чтобы иметь уверенность в том, что связь, характеризуемая подобным образом, есть, нужно оценить значимость коэффициента корреляции рЛ т.е. значимость его отличия от нуля. Таким образом, нулевая гипотеза при этом имеет вид H0:ps=0. Альтернативой этой гипотезе чаще всего выступает предположение ЯьР^О. Проверку нулевой гипотезы против Н\ проще всего осуществить, сопоставив вычисленное значение rs с критическим значением rs , извле-
282 Глава 12 каемым из табл. XVII Приложения для заданного уровня значимости а и соответствующего объема корреляционного ряда п. При |r«y| > rs нулевая гипотеза отвергается с уровнем значимости а и делается заключение о наличии связи. В нашем примере « = 6и, согласно табл. XVI, rs = 0,85, что существенно больше полученного rs= 0,10 , поэтому говорить о наличии связи между X и У у нас нет никаких серьезных оснований. Критическое значение rs при п > 10 можно оценить с хорошим приближением по формуле V^T -Э'Н (12.18) где ta берется из табл.1 Приложения для v = оо. При п > 40 хорошую оценку rs можно получить по более простой формуле г =-<<* *« л/^Т (12.19) Для иллюстрации устойчивости коэффициента корреляции Спирмена к единичным "выбросам" значений обратимся к только что рассмотренному примеру. Можно установить, что обычный коэффициент корреляции здесь столь же мал (г = 0,04), как и г$= 0,10. Теперь допустим, что в исходном корреляционном ряду последнее значение jc,- оказалось не 1,36, а 1,86. Очевидно, что это изменение не повлечет за собой изменения соответствующего ранга, а поэтому и коэффициент корреляции Спирмена останется без изменения. Но обычный коэффициент корреляции при этом возрастет до г = 0,43. Коэффициент корреляции Спирмена с успехом может быть использован для оценки наличия закономерного изменения переменной во времени или пространстве, если такое изменение не слишком отличается от линейного. Отличная от случайной последовательность, проявляющаяся в повышении (или понижении) случайной величины вдоль некоторой линии, именуется линейным трендам. Поскольку коэффициент корреляции Спирмена является мерой линейной связи между рангами, то о наличии линейного тренда можно судить по rs. В этом случае оценивается связь между рангом переменной и номером (рангом) места этой переменной в пространственной (или временной) последовательности. Так, если 10-кратное измерение мощности горизонта А вдоль некоторой линии через каждые 0,5 м дало результаты (jcI5 cm): Xi 5 7 6 10 9 12 12 И 14 12
Непараметрические методы 283 наталкивающие исследователя на предположение, что эта последовательность неслучайна, то, заменив последовательность дг, последовательностью их рангов R(xt), и приписав /-му месту в пространственной последовательности ранг Ri9 численно равный i, получим корреляционный ряд: * ЯЫ 1 1 2 3 3 2 4 5 5 4 6 8 7 8 8 6 9 10 10 8 Ряд попарных разностей dt при этом оказывается равным: | 4 0 -1 +1 -1 +1 -2 -1 +2 -1 +2 Поскольку п = 10 и JV2 = 18, получаем Ъ=1 7^Ц=+0'89- io(io2-i) Из табл. XVII Приложения следует, что при п = 10 rs = 0,79, а значит с большой уверенностью можно утверждать (риск ошибиться в этом утверждении не превышает 1%), что мощность горизонта А линейно связана с положением точки промера вдоль линии опробования и увеличивается от начала линии к ее концу (об этом свидетельствует положительный знак у rs). Иначе говоря, можно утверждать, что в изменении мощности горизонта А имеется линейный тренд, к тому же весьма отчетливо выраженный, поскольку rs близок к единице. Из приведенных примеров легко усмотреть важную особенность рассматриваемого коэффициента - отсутствие необходимости количественного выражения результатов измерений. Действительно коэффициент корреляции Спирмена может быть использован для оценки степени связи, когда один или оба признака оказываются измеренными на порядковой шкале. Так, один из признаков может представлять собой, например, степень окрашенности почвенного образца в серый цвет, если образцы по этому признаку ранжировать, а затем приписать им соответствующий ранг в получаемой последовательности. В заключение следует заметить, что приписывание смежным в ранжированной последовательности значениям х, или >>, одинаковых рангов не может не сказаться на значении коэффициента корреляции Спирмена, вычисляемого по формуле (12.18). И хотя rs можно считать достаточно устойчивым к замене нескольких разных рангов в их последовательности на одинаковые ранги, равные средним их значениям, при большом числе усредняемых рангов, а тем более когда усреднение приходится делать на от-
284 Глава 12 носительно большой группе рангов, коэффициент корреляции Спирмена следует вычислять по формуле, учитывающей усреднение рангов: Ы-'-'У^-т.-т, Г8|1„(„»-,)-2Г,][1„р-,) -2Г, (12.20) где Г представляет собой уменьшенную в 12 раз сумму произведений числа m смежно расположенных усредненных рангов на квадрат этого числа без единицы: 12 ы где / = 1, 2, ..., к, к - число групп усредненных рангов, /и/ - число усредненных рангов в /-й группе (т/> 2). Индексы у Т показывают, что соответствующая величина находится для ряда рангов в совокупности признака X или Y. Для иллюстрации техники вычислений в подобной ситуации допустим, что 15 образцов почвы, в которых было определено содержание органического углерода, были ранжированы по окраске (по выраженности у образцов серого цвета). В отличие от содержания углерода (признак X), где одинаковых значений не оказалось и ранги R(xt) со значениями от 1 до 15 (п = 15) нигде усреднять не пришлось, окраска почвы (признак У) у ряда образцов оказалась настолько сходной, что в ранжированной по окраске последовательности ряду образцов пришлось приписывать одинаковые ранги R(yt). В окончательном виде корреляционный ряд получил вид: | Щх) Щуд 1 2 2 2 3 2 4 4 5 6,5 6 5 7 6,5 8 9 9 9 10 11,5 11 9 12 11,5 13 14 14 15 15 ! 13 Легко убедиться, что здесь ^df = 19,0, и по формуле (12.18) 619,0 rs=l- 15(l52-l) = 0,966. В ряду R(Xj) усреднения рангов не было и поэтому Тх= 0. В ряду R(y>j) имеется к = 4 группы усредненных рангов со средними значениями 2; 6,5; 9 и 11,5. Число от/ в двух группах оказалось равным 2 и в двух группах - 3. Поэтому по формуле (12.22) получим Ту=—Гз(з2 -l) + 2(22 -1)+з(з2 -l) + 2(22 -l)l = 5,0.
Непараметрические методы 285 Воспользовавшись формулой (12.21), найдем rs более точно: ^•15(l52-l)-19,0-0-5,0 = 0,966. i-15(l52-l)-2-5,0 Как видим, с точностью до тысячных результат оказался таким же, как по формуле, не редусматривающей введения поправки. Рассмотренный пример может дать кое-какое представление о том, какие усреднения рангов могут не играть роли для оценки коэффициента корреляции Спир- мена. 12.3.2. Тетрахорический показатель связи Для вычисления обычного парного коэффициента корреляции необходимо, чтобы оба признака были измерены на количественных шкалах. Коэффициент корреляции Спирмена можно вычислить, если один или оба признака измерены на порядковой шкале. Но связь может существовать и между признаками качественными и даже альтернативными. В этом последнем случае она проявляется в отсутствии независимости их взаимного появления. Такая связь тоже может быть измерена. Поскольку альтернативные признаки могут иметь лишь две градации, то корреляционная решетка, отражающая связь между такими двумя признаками, оказывается представленной четырехклеточной таблицей. Бели столбцы такой таблицы соответствуют например, признаку А с двумя градациями А и А, из которых первая обозначает наличие этого признака, а вторая - отсутствие, а строки принадлежат признаку В с аналогичными градациями В и В , то весь возможный набор сочетаний признаков оказывается ограниченным четырьмя вариантами: АВ, А В , АВи А В , а частоты этих событий /разместятся на пересечении соответствующих столбцов и строк, имея соответствующие индексы (табл. 12.11). Таблица 12.11 Схема четырехклеточной корреляционной решетки В В в А fAB *ав Га А А Jab Jab h /в h n=fA+fA=fB + fs J}.15(l52-l)-2.0
286 Глава 12 Сумма частот по столбцам дает общее число случаев fA - fM + f^ с наличием признака А или /^ = fjB + /-^ с его отсутствием. Общее число случаев с наличием или отсутствием второго признака дают частоты /я = fAB + fjB и $в~ ?ав + fjB ' Сумма всех частот четырехклеточной таблицы дает общий объем корреляционной решетки п. Если допустить, что единичные результаты измерения есть единица при наличии того или иного признака и ноль при его отсутствии, то оценками средних значений для признаков А и В будут доли рА = fA/n и рв = fB/n, а формула вычисления коэффициента корреляции по редуцированной до четырех клеток корреляционной решетке примет вид (формула Бравэ) Jab ' Jab Jab ' *ав yjJA ' Ja'Jb jb (12.22) Вычисленный по этой формуле коэффициент Бравэ нередко именуется тетрахорическым показателем связи. Как и обычный коэффициент корреляции г в может принимать значения в интервале от -1 до +1. В первом случае это соответствует наличию признака А, когда (и только когда) отсутствует признак В и наоборот. Если наличие признака А неизбежно влечет за собой наличие признака i? и наоборот, то гв = 1. Во всех остальных случаях -1 < гв <+1. Если вспомнить, что вероятность (см. раздел 3.3) совместного осуществления независимых событий А к В равна произведению вероятностей этих событий, то соответствующие этому условию теоретические частоты в клетках четырехпольной таблицы могут быть найдены путем деления произведения итоговых частот в соответствующих строке и столбце на общий объем корреляционной таблицы. Например, эмпирической частоте /ав будет соответствовать теоретическая частота, соответствующая усло- f . f вию независимости признаков А и В, /^ = ———, частоте f^ - теоре- п f '/- тическая частота fA= = ——— и т.д. В случае, если эмпирические часто- п ты в точности равны теоретическим, что соответствует независимости признаков А и В, тетрахорический показатель связи оказывается равным нулю, в чем легко убедиться, подставив в формулу (12.23) вместо эмпирических частот их теоретические значения. Будучи вычисленным на основании выборочных данных, гв оказывается оценкой некоторого генерального показателя рд. Поскольку отличие рв от нуля означает отсутствие независимости признаков А и В, то критерием проверки гипотезы Я0: рв= 0 можно взять критерий согласия, основанный на статистике %2: если
Непараметрические методы 287 2 n{{fAB'fAB-fAB'fAB(-nl2) 2 J a' Jn' fa'JI (12.23) для v = 1, признаки Л и 5 считаются не независимыми, a p#* 0. В числителе левой части неравенства (12.23) член я/2 представляет собой так называемую поправку на непрерывность. Если объем выборочной совокупности насчитывает по меньшей мере несколько сотен наблюдений, эту поправку можно не вносить и тогда 2 2 (12.24) Оценку значимости рв с помощью х2 допустимо проводить при условии, что все теоретические частоты в клетках таблицы должны быть не менее 5. Для иллюстрации техники вычислений тетрахорического показателя связи рассмотрим результаты измерений в п = 182 точках принадлежности почв к лугово-каштановым (А) или прочим (А; солонцы, светло- каштановые), а растительности - с наличием типчака (В) и без него (В). Учитывая, что при наличии лугово-каштановых почв в fA= 38 случаях, а типчака в fB = 58 (табл. 11.4), при взаимной независимости этих событий частота их совместной встречи должна была бы быть fAB = = 12,1, а это меньше эмпирической частоты fAB = 32, можно ожидать, что сравниваемые явления не независимы. Поскольку fAB, являющаяся наименьшей из всех четырех теоретических частот, больше 5, то проверка значимости связи с помощью %2 допустима. По формуле (12.23) получаем 32118-6-26 V38 144-58-124 ■- 0,577. Таблица 12.12 Корреляционная решетка зависимости наличия (А ) или отсутствия (А ) лугово-каштановой почвы при наличии (В ) или отсутствии (В ) типчака В в А 32 6 Л = 38 А 26 118 /~144 Л = 58 //Г124 и = 182
288 Глава 12 Формулы (12.24) и (12.25) дают значения %2 соответственно равные 57,6 и 60,6, что существенно выше Хо оо5= ^,88 даже для а = 0,005, поэтому каких-либо достойных внимания сомнений в наличии связи здесь быть не может. Следует заметить, что гв могут достигать своих крайних значений +1 и -1 лишь в тех случаях, когдаfB = /а и соответственно, fj^fB- В рассмотренном примере получить гд= 1 принципиально невозможно, поскольку типчак встречен в 58 точках, а лугово-каштановая почва только в 38. Если бы даже все события А произошли при условии наличия события # к/ав= 38, мы получили бы гв = 0,70. В тех случаях, когда один или оба признака измерены на количественных шкалах, альтернативные классы одного из признаков можно выделить таким образом, чтобы было обеспечено равенство fA =fB. Допустим, признак А, измеренный на классификационном уровне, среди п измерений был обнаружен в/А числе случаев. Если второй признак В, измеренный на количественной шкале, предпочтительно связан с А таким образом, что наличию А соответствуют более высокие значения, то числу /а случаев наличия А должно соответствовать равное ему число fB наиболее высоких значений признака В, которые и составят класс В по этому признаку. К классу В будут отнесены все остальные более малые значения. Например, в ранжированной последовательности признака х граничным значением, разделяющим классы В и В будет у-квантиль jfy), где у = 1 -рв, рв = fB/n- доля значений jc, больших х(у) при условии fA =fB. Тогда событием В будет х >Х(у), а В - х <Х(Уу Если частоты fA w.fB одинаковы, то одинаковы частоты fjuf^n f~AB ~ ?ав * ^ этом случае, сохраняя обозначение п для объема четырехкле- точной таблицы nfAB для частоты совместных событий А и В и принимая обозначения / = /а=/в, получим более простое выражение для формулы (12.23): "-Ч^к- (,125) Так, если среди п = 100 кубиков с ребром 2 см в пределах карбонатно- иллювиального горизонта солоди белоглазка (А) была обнаружена ъ/А =16 случаях, и резонно допустить, что именно этим образцам должно соответствовать наибольшее содержание карбонатов (событие В), то, принимая/* = /в = 16 и имея рв = 16 : 100 = 0,16 и у = 1 - 0,16 = 0,84, по известным формулам (2.13 - 2.14) можно вычислить квантиль Х(о,84) содержания карбонатов, который оказался равным 17,9%. После подсчета частот четырехпольная таблица обрела вид, представленный в табл. 12.13.
Непараметрические методы 289 Таблица 12.13 Корреляционная таблица связи наличия белоглазки (А) с содержанием СаСОз более х(0)84)= 17,9% (в) В(х>\1,9) В(х<\7,9) А 9 7 16 А 1 11 84 16 84 100 Подставляя в формулу (12.26) соответствующие значения, получим гв- 9 100-16^ 16(100-16) = 0,48. Несимметричные меры ассоциации Тетрахорический показатель связи относится к центрированным (ноль - отсутствие связи, пределы колебаний от -1 до +1) симметричным показателям. Его можно трактовать и как меру приуроченности появления одного признака к наличию второго, и второго к первому, и как меру связи между отсутствием одного признака и отсутствием второго, так как гав '- ГВА-Г1В=ГШ Однако существуют явления, связь между которыми не имеет симметричного характера. Возникновение оглеения, например, мы связываем практически однозначно с повышением увлажнения почвы, но отнюдь не всегда повышение увлажнения влечет за собой оглеение. Такого рода связи могут оцениваться несимметричными мерами ассоциации, наиболее широко используемыми в геоботанике. Весьма часто в качестве несимметричной меры ассоциации используется коэффициент Дайса -JAB "/в9 KDA 'ш- (12.26) показывающий, насколько наличие признака В влечет за собой появление события А. Соответственно коэффициент KDB/A = ?f- (12.27) J A отражает ассоциированность события В с событием А. В этих формулах /а и/в- частоты появления событий А иВ среди п испытаний,/^ - частота совместного их появления (см. табл. 11.3). Коэффициент Дайса нецентри- рован. Например, КД*/» = 0 соответствует "отрицательной ассоциации"
290 Глава 12 событий: при наличии В событие А отсутствует. Если события В и А независимы друг от друга, KDa/b = 0,5. При КЦ^ = 1 наличие признака В однозначно вызывает появление признака Л. Оценки коэффициентов Дайса имеют дисперсии KDALB(l-KDA/B) fs *kda/b = , — О2-28) s2 KDBIA(X-KDBIA) J A Принимая во внимание, что повторности при оценках подобных мер ассоциации обычно исчисляются десятками и более, допустимо считать, что ошибкам, полученным по формулам (12.28-12.29) соответствует число степеней свободы v = оо. Эти ошибки можно использовать для нахождения доверительных интервалов KD. Обращаясь к ранее рассмотренным данным, представленным в табл. 12.12, получим два коэффициента Дайса: KDa/B= 32/58 = 0,55 и KDB/a = = 32/38 = 0,84, из которых следует, что наличие типчака в растительности (В) практически не играет роли в том, будет ли здесь почва лугово- каштановая или нет, поскольку KD^^= 0,55 близок к 0,5, соответствующему отсутствию ассоциированности. Это, означает, что проведение границ распространения лугово-каштановых почв по границам распространения типчака лишено оснований. Но в то же время предпочтительность наличия типчака на лугово-каштановой почве не вызывает сомнений. Из рассмотренного примера уже должно быть видно, что коэффициенты Дайса неудобны для интерпретации из-за своей нецентрированности. В связи с этим более удобно пользоваться центрированной модификацией коэффициентов Дайса, так называемым трансформированным коэффициентом Дайса - TKD. Для оценки меры ассоциированности признака А с признаком В TKD может быть вычислен по формулам (обозначения см. в табл. 12.11) TKDM=JГлв~?ав ^ (123о) или 7X0^ = 2^.-1. (12.31) JB Соответственно, для нахождения меры ассоциации признака В с признаком А получим
Непараметрические методы 291 f - f - TKDB/A = JAB JAB , (12.32) /a или -~>JAB TKDB/A = 2±f--1. (12.33) Очевидно, что между TKD и KD существует связь очень простого вида: TKD = 2KD-1. Удобство TKD как меры ассоциации заключается в том, что этот коэффициент так же как коэффициент корреляции г и rs, как показатель связи г в, может меняться в интервале значений от -1 до +1. Эти крайние значения соответствуют либо непременному отсутствию одного признака при наличии другого (TKD = -1), либо обязательному присутствию первого, если второй есть (TKD = +1). Нулевое значение TKD соответствует отсутствию зависимости появления одного признака от наличия второго. Проверка значимости зависимостей, измеряемых TKD (и KD) может приближенно осуществляться с помощью %2, вычисляемых по формулам: fjf»-/») =(TKDAIBf.fB (12.34) JB для зависимости наличия А от наличия В и ^(fAM-fa) =(TKDBIAf.fA (12.35) J A для зависимости Вот А. Если %2 ^ Ха2 для v = 1, то с уровнем значимости а гипотеза о независимости отвергается. Для данных, представленных в табл. 12.12, будем иметь TKDm= ^?£ =0,103 58 TKDB/A= 2—-1=0,684. 38 Соответственно для зависимости А/В: *£= 0,1032-58 = 0,62, для зависимости Я/Л: х2=0,6842-38 = 17,79 . Поскольку для v = 1, Хоо5 = 3,84 и Xooi= 6564, можно заключить, что о какой-либо зависимости А от В говорить не приходится, а обратная зависимость статистически очень значима. Это проявляется и в значениях
292 Глава 12 TKD, мало отличного от нуля для ТКЕ>л/& = 0,103 и достаточно высокого у ТКГ>5/л = 0,68. Как и при анализе коэффициентов Дайса, мы пришли к заключению, что распространение типчака отчетливо связано с наличием лугово- каштановых почв, хотя обратного никак нельзя утверждать. При этом вывод об отсутствии ассоциированности лугово-каштановых почв с типчаком на основе анализа TKD выглядит гораздо более естественно, чем при рассмотрении нецентрированных коэффициентов Дайса. Вопросы для самоконтроля 1. Что такое непараметрические методы? 2. Что такое «представление данных на нормальной бумаге? 3. Для проверки каких гипотез используются серийный критерий и критерий Колмогорова-Смирнова? 4. Что такое ранг значения в выборке? 5. Для проверки какой гипотезы используется критерий Вилкоксона? 6. Для проверки каких гипотез критерий Вилкоксона может быть модифицирован? 7. В чем специфика коэффициента корреляции Спирмена? 8. Какие задачи можно решать с помощью коэффициента корреляции Спирмена? 9. Какими показателями можно измерить взаимную сопряженность альтернативных признаков? 10. С помощью какого критерия оценивается статистическая значимость тетрахорического показателя связи? 11. Что общего и в чем отличие тетрахорического показателя связи, коэффициента Дайса и трансформированного коэффициента Дайса?
ПРИЛОЖЕНИЯ Таблица I Таблица случайных чисел (2500 случайных цифр) 00 01 02 03 04 оь 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 (ИМИ 54463 15389 85941 61149 05219 41417 28357 17783 40950 82995 96754 34357 06318 62111 47534 98614 24856 96887 90801 55165 75884 16777 46230 42902 81007 68089 20411 05-09 22662 85205 40756 69440 81619 98326 94070 00015 84820 64157 17676 88040 37403 52820 09243 75993 03648 12479 21472 77312 12952 37116 43877 66892 00333 01121 67081 10-14 65905 18850 82414 11286 10651 87719 20652 10806 29881 66164 55659 53364 49927 07243 67879 84460 44898 80621 42815 83666 84318 58550 80207 46134 39693 51111 89950 15-19 70639 [39226 02015 88218 67079 92294 35774 83091 85966 41180 44105 71726 57715 79931 00544 62846 09351 66223 77408 36028 95108 42958 88877 01432 28039 72373 16944 20-24 79365 42249 13858 58925 92511 46614 16249 91530 62800 10089 47361 45690 50423 89292 23410 59844 98795 86085 37390 28420 72305 21460 89380 94710 10154 06902 93054 25-29 67382 90669 78030 03638 59888 50948 75019 36466 70326 41757 34833 66334 67372 84767 12740 14922 18644 78285 76766 70219 64620 43910 32992 23474 95425 74373 87687 30-34 29085 96325 16269 52862 84502 64886 21145 39981 84740 78258 86679 60332 63116 85693 02540 48730 39765 02432 52615 81369 91318 01175 91380 20423 39220 96199 96693 35-39 69831 23248 65978 62733 72095 20002 05217 62481 62660 96488 23930 22554 48888 73947 54440 73443 71058 53342 32141 41943 89872 87894 03164 60137 19774 97017 87236 40-^44 47058 60933 01385 33451 83463 97365 47286 49177 77379 88629 53249 90600 21505 22278 32949 48167 90368 42846 30268 47366 45375 81378 98656 60609 31782 41273 77054 45-49 08186 26927 15345 77455 75577 30976 76305 75779 90279 37231 27083 71113 80182 11551 13491 34770 44104 94771 18106 41067 85436 10620 59337 13119 49037 21546 33848 J
294 Приложения Окончание таблицы I 27 28 29 30 31 32 33 34 зь 36 37 38 39 40 41 42 43 44 45 46 47 48 49 00-04 58212 70577 94522 42626 16051 08244 59497 97155 98409 45476 89300 50051 31753 79152 44560 68328 46939 83544 91621 91896 55751 85156 | 07521 05-09 13160 42866 74358 86819 33763 27647 04392 13428 66162 84882 69700 95137 85178 53829 38750 83378 38689 86141 00881 67126 62515 87689 1 56898 10—14 1 06468 24969 71659 85651 57194 33851 09419 40293 95763 65109 50741 91631 31310 77250 8635 63369 58625 15707 04900 04151 21108 95493 1 12236 15-19 15718 61210 62038 88678 16752 44705 89964 09985 47420 96597 30329 66315 89642 20190 56540 71381 08342 86256 54224 03795 80830 88842 60277 20-24 1 82627 76046 79643 17401 54450 94211 51211 58434 20792 25930 11658 91428 98364 56535 64900 39564 30459 23068 46177 59077 02263 00664 1 39102 25-29 1 76999 67699 79169 03252 19031 46716 04894 01412 61527 66790 23166 12275 02306 18760 42912 05615 85863 113782 55309 11848 29303 55017 1 62315 30-34 1 05999 42054 44741 99547 58580 11738 72882 69124 20441 65706 05400 24816 24617 69942 13953 42451 20781 08467 17852 12630 37204 55539 12239 35-39 1 58680 12696 05437 32404 47629 55784 17805 82171 39435 61203 66669 68091 09609 77448 79149 64559 09284 89469 27491 98375 96926 17771 07105 40-44 1 96739 93758 39038 17918 54132 95374 21896 59058 11859 53634 48708 71710 83942 33278 18710 97501 26333 93842 89415 52068 30506 69448 1 11844 45-491 63700 03283 13163 62880 60631 72655 83864 82859 41567 22557 03887 33258 22716 48805 68618 65747 91777 :55349 23466 60142 09808 87530 1 01117
Приложения 295 Таблица II Интеграл вероятности 1 * -*- F(z) =-== [е 2dz (вероятность P(z\<z) = F(z); ноль целых и запятая опущены) Z -3,9 -3,8 -3,7 -3,6 -3,5 -3,4 -з,з -3,2 -3,1 -3,0 -2,9 -2,8 -2,7 -2,6 -2,5 -2,4 -2,3 -2,2 -2,1 -2,0 -1,9 -1,8 -1,7 -1,6 -1,5 -1,4 0,00 00005 00007 00011 00016 00023 00034 00048 00069 00097 00135 00187 00256 00347 00466 00621 00820 01072 01390 01786 02275 02872 03593 04457 05480 06681 08076 -1,3 J 09680 0,01 00005 00007 00010 00015 00022 00032 00047 00066 00094 00131 00181 00248 00336 00453 00604 00798 01044 01355 01743 02222 02807 03515 04363 05370 06552 07927 09510 0,02 00004 00007 00010 00015 00022 00031 00045 00064 00090 00126 00175 00240 00326 00440 00587 00776 01017 01321 01700 02169 02743 03438 04272 05262 06426 07780 09342 0,03 00004 00006 00010 00014 00021 00030 00043 00062 00087 00122 00170 00233 00317 00427 00570 00755 00990 01287 01659 02118 02680 03362 04182 05155 06301 07636 09176 0,04 00004 00006 00009 00014 00020 00029 00042 00060 00084 00118 00164 00226 00308 00414 00554 00734 00964 01255 01618 02068 02619 03288 04093 05050 06178 07993 09012 0,05 00004 00006 00009 00013 00019 00028 00040 00058 00082 00114 00159 00219 00298 00402 00539 00714 00939 01222 01578 02018 02559 03216 04006 04947 06057 07353 08851 0,06 00004 00006 00008 00013 00019 00027 00039 00056 00079 00111 00154 00212 00289 00391 00523 00695 00914 01191 01539 01970 02500 03144 03920 04846 05938 07214 08692 0,07 00004 00005 00008 00012 00018 00026 00038 00054 00076 00107 00149 00205 00280 00379 00508 00676 00889 01160 01500 01923 02442 03074 03836 04746 05821 07078 08534 0,08 00003 00005 00008 00012 00017 00025 00036 00052 00074 00104 00144 00199 00272 00368 00494 00657 00866 01130 01463 01876 02385 03005 03754 04648 05705 06944 08379 0,09 00003 00005 00008 00011 00017 00024 00035 00050 00071 00100 00140 00193 00264 00357 00480 00639 00842 01101 01426 1 01831 02330 02938 03673 04551 1 05592 06811 08226 1
296 Приложения Продолжение таблицы II Z -1,2 -U -1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -03 -0,2 -0,1 -0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 0900 1 11507 1 13567 | 15866 18406 21186 24196 27425 30854 34458 38209 42074 46017 50000 50000 53983 57926 61791 65542 69146 72575 75804 78814 81594 84134 86433 88493 90320 91924 93319 94520 95543 96407 1 97128 0901 1 11314 1 13350 1 15625 18141 1 20897 23885 27093 1 30503 34090 37828 41683 45620 49601 50399 54380 58317 62172 65910 69497 72907 76115 79103 81859 84375 86650 88686 90490 92073 93448 94630 95637 96485 1 97193 0,02 1 11123 1 13136 15386 17879 20611 23576 26763 30153 33724 37448 41294 45224 49202 50798 54776 58706 62552 66276 69847 73237 176424 79389 82121 84614 86864 88877 90658 92220 93574 94738 95728 96562 | 97257 0,03 1 10935 1 12924 1 15150 17619 20327 23270 26435 29806 33360 37070 40905 44828 48803 51197 55172 59095 62930 66640 70194 73565 р76730 79673 82381 84850 87076 89065 90824 92364 93699 94845 95818 96638 1 97320 0,04 1 10749 1 12714 1 14917 17361 20045 22965 26109 29460 32997 36693 40516 44433 48405 51595 55567 59483 63307 67003 70540 73891 77035 79955 82639 85083 87286 89251 90988 92507 93822 94950 95907 96712 | 97381 0,05 1 10565 1 12507 14686 17106 19766 22663 25785 29116 32697 36317 40129 44038 48006 51994 55962 59871 63683 67364 70884 74215 77337 80234 82894 85314 87403 89435 91149 92647 93943 95053 95994 96784 1 97441 0,06 1 10384 1 12302 1 14457 16853 19489 22363 25463 28774 32276 35942 39743 43644 47608 52392 56356 60257 64058 67724 71226 74537 77637 80511 83147 85543 87698 89617 91308 92786 94062 95154 96080 96856 1 97500 0,07 1 10204 1 12100 1 14231 16602 19215 22065 25143 28434 31918 35569 39358 43250 47210 52790 56749 60642 64431 68082 71566 74857 77935 80785 83398 85769 87900 89796 91466 92922 94179 95254 96164 96926 197558 0,08 1 10027 1 11900 14007 16354 18943 21770 24825 28096 31561 35197 38974 42858 46812 53188 57142 61026 64803 68439 71904 75175 78230 81057 83646 85993 88100 89973 91621 93056 94295 95352 96246 96995 1 97615 0,09 1 09852 1 11702 1 13786 16109 18673 21476 24510 27760 31207 34827 38591 42466 46416 1 53586 57535 61409 65173 68793 72240 75490 78524 81327 83891 86214 88298 90147 91774 93189 94408 95449 96327 97062 J97670
Приложения 297 Окончание таблицы II Z 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0,00 97725 98214 98610 98928 99180 99379 99534 99653 99744 99813 99865 99903 99931 99952 99966 99977 99984 99989 99993 99995 0,01 97778 98257 98645 98956 99202 99396 99547 99664 99752 99819 99869 99906 99934 99953 99968 99978 99985 99990 99993 99995 0,02 97831 98300 98679 98983 99224 99413 99560 99674 99760 99825 99874 99910 99936 99955 99969 99978 99985 99990 99993 99996 0,03 97882 98341 98713 99010 99245 99430 99573 99683 99767 99831 99878 99913 99938 99957 99970 99979 99986 99990 99994 99996 0,04 97932 98382 98745 99036 99266 99446 99585 99693 99774 99836 99882 99916 99940 99958 99971 99980 99986 99991 99994 99996 0,05 97982 98422 98778 99061 99286 99461 99598 99702 99781 99841 99886 99918 99942 99960 99972 99981 99987 99991 99994 99996 0,06 98030 98461 98809 99086 99305 99477 99609 99711 99788 99846 99889 99921 99944 99961 99973 99981 99987 99992 99994 99996 0,07 98077 98500 98840 99111 99324 99492 99621 99720 99795 99851 99893 99924 99946 99962 99974 99982 99988 99992 99995 99996 0,08 98124 98537 98870 99134 99343 99506 99632 99728 99801 99856 99896 99926 99948 99964 99975 99983 99988 99992 99995 99997 0,09 98169 98574 98899 99158 99361 99520 99643 99736 99807 99861 99900 99929 99950 99965 99976 99983 99989 99992 99995 99997 1
298 Приложения Таблица III Критические значения статистики Стьюдента ta при различном числе степеней свободы v; вероятность P(\t\ > Ifcj) = а V | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо Уровень значимости а | 0,50 1 1,00 0,82 0,76 0,74 0,73 0,72 0,71 0,71 0,70 0,70 0,70 0,70 0,69 0,69 0,69 0,69 0,69 0,69 0,69 0,69 0,69 0,69 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,68 0,68 1 0,67 0,20 1 3,08 1,89 1,64 1,53 1,48 1,44 1,42 1,40 1,38 1,37 1,36 1,36 1,35 1,34 1,34 1,34 1,33 1,33 1,33 1,32 1,32 1,32 1,32 1,32 1,32 1,32 1,31 1,31 1,31 1,31 1,30 1,30 1,29 1 1Д8 0,10 1 6,31 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,72 1,72 1,72 1,71 j 1,71 1,71 1,71 1,70 1,70 1,70 1,70 1,68 1,67 1,66 1 1,64 0,05 1 12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 1 2,14 2,13 2,12 2,11 2,10 2,09 2,09 j 2,08 2,07 2,07 2,06 2,06 2,06 2,05 2,05 2,04 2,04 2,02 2,00 1,98 1 1,96 0,02 1 31,82 6,96 4,54 3,75 3,36 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,52 2,51 2,50 2,49 2,48 2,48 2,47 2,47 2,46 2,46 2,42 2,39 2,36 1 2,33 0,01 1 63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,83 2,82 2,81 2,80 2,79 2,78 2,77 2,76 2,76 2,75 2,70 2,66 2,62 1 2,58 0,002 1 318,3 22,33 10,21 7,17 5,89 5,21 4,78 4,50 4,30 4,14 4,02 3,93 3,85 3,79 3,73 3,69 3,65 3,61 3,58 3,55 3,53 3,50 3,48 3,47 3,45 3,44 3,42 3,41 3,40 3,38 3,30 3,23 3,16 | 3,09 0,001 1 636,6 31,60 12,94 8,61 6,86 5,06 5,40 5,04 4,78 4,59 4,44 4,32 4,22 4,14 4,07 4,02 3,96 3,92 3,88 j 3,85 3,82 3,79 3,77 3,74 3,72 3,71 3,69 3,67 3,66 3,65 3,55 3,46 3,37 1 3,29
Приложения 299 Таблица IV 2 2 2 Квантили распределения х (вероятность Р( % > %а) = а) 1 v 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 1 Уровень значимости а 0,995 0,0439 0,010 0,072 0,21 0,41 0,68 0,98 1,34 1,74 2,16 2,60 3,07 3,57 4,08 4,60 5,14 5,69 6,27 6,84 7,43 8,03 8,64 9,26 9,89 10,52 11,16 11,81 12,46 13,12 13,79 14,46 0,990 0,0316 0,020 0,115 0,30 0,55 0,87 1,24 1,65 2,09 2,59 3,05 3,57 4,11 4,66 5,23 5,81 6,42 7,02 7,63 8,26 8,89 9,54 10,19 10,86 11,52 12,19 12,88 13,57 14,26 14,95 15,66 1 0,975 0,0398 0,051 0,22 0,48 0,83 1,24 1,69 2,18 2,70 3,24 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,28 10,98 11,69 12,40 13,12 13,84 14,57 15,31 16,05 16,79 17,54 0,950 0,0239 0,103 0,35 0,71 1,15 1,64 2,17 2,73 3,33 3,94 4,58 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,12 10,85 11,59 12,33 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 19,28 1 0,050 3,84 5,99 7,82 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,69 24,99 26,29 27,59 28,87 30,14 31,41 32,61 33,93 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 44,99 0,025 5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,54 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 48,23 0,010 6,64 9,21 11,35 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,12 37,57 38,93 40,29 41,64 42,98 44,61 45,64 46,96 48,28 49,59 50,89 52,20 0,005 7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,96 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 39,99 41,40 42,79 44,18 45,56 46,93 48,29 49,65 50,99 52,34 53,67 55,00 1
300 Приложения Окончание таблицы IV 32 33 34 35 36 37 38 39 | 40 Уровень значимости а \ 15,13 15,82 16,50 17,19 17,89 18,59 19,29 19,99 20,71 16,36 17,07 17,79 18,51 19,23 19,96 20,69 21,43 22,16 18,29 19,05 19,81 20,57 21,34 22,11 22,88 23,65 24,43 20,07 20,87 21,66 22,47 23,27 24,08 24,88 25,69 26,51 46,19 47,40 48,60 49,80 50,99 52,19 53,38 54,57 55,76 49,48 50,73 51,97 53,20 54,44 55,67 56,89 58,12 59,34 53,48 54,78 56,06 57,34 58,62 59,89 61,16 62,43 63,69 56,33 | 57,65 58,96 60,28 61,58 62,88 64,18 65,48 66,77
Приложения 301 и i? л 1(5 S? IS ю <-> о S о s 11 сБ f S т <D <D is 00 S 51 « > в 3 к g: I * Ip Ф со 5 к \~*\rl s ^ о 5 s CO 5* 8 500 200 100 \u-i r о »л о H* о СП Я о CN vo т OI *""* о OS 00 о- VO «п "3" СП OI ~ц К© "* "1 "1 *"1 ""> "1 ^ ° "* °* **" ^ ^ °* °^ <** ^ °^ "^ ^° ^ "**" ^ Ко w os 2 <N °°~ 2 "^ <* "^ vo" сп" »п" сп" тг of ^" of cn of cn" of cn" of ^Tf^^^in^voo^roNr^r^«>iovoscnp--ovvovoTr,^-cn ЧО ^ OS 2) сЗ °°~ 2 "^ OSГ Tf vo" СП «П СП ТГ of rr" of СП of cn" of СП of ^^^^^^^t^^Tfovr^r-cnovOTtr-ovor-Trxrcn $ OJ g 2 8 ^ 2 ^ Os" Tf" vo" СП «О СП "^ ** * ** "* ^ ^ ** ™ ** К(п'л.,л.г!уо10.Гчн^0,чоомоо^оооуо,ч,л,Г1^ Ко ^ Оч 2 «n °^ 2 >о" оС Tf" r^ cn" vf cn <n" cn" ^" of ^ of cn" of cn" of £^cn^^^V0^r^.■-«,«fr©r•>00cnOO^O00^-<v0t■■••<Л«Г>^^* чо ^ S\ 2 cn °°" 2 ^ os" тг t^" cn" <o" cn v^" сп тг" of тг" of cn of cn oj o(NVlvl^vot,,lt4N,!,,'400№f,lrHO,000rH<'00,oyo ^ vo ^ os 2 cn °° 2 "о оГ ^ г-" сп «п" сп щ* сп тг" of ^-" of en of сп of ^^^^'^VO^t^cn«n'-HOOO>cnT-H^HVOOOCNr-as«r>VO'4f- S N 8 и S " и ^ л * ь" л « « « « * N "*"* «^ ** г* ** е*\ vo ^ о\ 2 S °°" 2 ^ л" ^* *** сп vo" сп «о сп" •*" of vf" of сп4 of сп" of ^^^^so#4VOCT^ooio»ocnooi--H"4}-cn'-«^0\cnc^Ovoooio 8 ^ о^ 2 cn °°~ 2 ^ «^ "^ ^ ™ *°Л сп" «п" сп" чг of ^" of «ф4 of cn" of goo^^t^r--^oovovoTrovcs^r'd-cNoooN'!roo^Hr-ON>n S «^ os 2 cn °°" 2 <л o> ^f К n" vd m" <л n тг cn rr of "*•" of cn of фчр^^^С^^00Г^У01П0ЛСП«П»ЛО|0\©«П00О|О«-ОЧ0 vo <N §s 2 cn °°* ^ >о oCrr Г-" cn vo" cn" »n" cn" tj- cn" Tf" of rf" of rf" сч ^^^^^f-'^OSOOVOVOOTt-w-ivooloovooscnr-^vo vo °* os 2 cn °°*2i ^a\^r^^vo*cn"w^cnRirrcn4^rof^rof^of О 3: ^ 4. ^ f^^O^ONO^t-^C^in VO^ t^ СП^ —^ <-^ t^ OVb Tf OO (S O-J чЗ oi os ^ CN °°" 2h ^oCTf"o^^"vo"cn^vfcnnw^cn"rirof^jrofrjrof 2 5 t, 4 w. м ^. Os 4 h м о «n vo h ^ N »-" oo a «л oo N ^ S ^ o\ 2) S °°"31 ^ 2 ^" ^" ^" «" ^" ^" w" •л «^ "^ «n" ^ «^ ^ «ч* ^04^^«4oo4P^o'~io-0\i-HVovoc»cncnt-<Oso«nOscnoo § 04 ON S CN °°" 2 ^2 ^" Г^" ТГ" VO" СП V^ СП" «Л СП '«Г Of Tf" Of Tt" Of 8 5 t t t oo ^ о °l oo о и h м> t t q о, о « a тг oo g o^ os 2 cn °°" 2 ^2 "t" oo" rr" vo" cn m" cn" »o cn in сп" чг" of ^r" of * 21 *• ^* ^* *. x* ° rt" °°. rt ^ °° ^ ° 4 ^ fi H. ^ ^ °. "i aJ й Я as 2) cn °°" 2 ^2 ^" oo" ^" vo" cn" vo" cn" io" сп «о сп" тг" сп" тг" of X^^^^c*^^^o\cnoi©oooi«nvocnoi»-HOs©r>as S^^*!«0^0scioir^OiOcnol0ST»-v000'*Tj-oi^-H00O 5^ <N OS ^ CN *^ ^ ^ 2 *^^ °°" ^ f* «^ ^C^ ^" «Л «*f <^ <*? ^^ «^ ^ «^ Jg^««>lol,l«n0.H»^inOVOhHin*Ol»inMHrt ^^^SS^S^^^w^r-^-vOfnsofOinntnntOfn ^^<4f4r^'-H^Tr0-OlOI«OOs^HOOOTfVOO«nO-TrTrcn )Solos2^^S^^^<^^^^^fri40f<i40rr>,ncn,nro o^^r^l/^frir^vo,^'*i"OOoo«nTrvo^ovovoo-oj4voo«o ^ м o\ 2 rs л* S ^ 2 ^ °^ ■* °°* 't f4* ^" ^ w* ^ w" ^ w* ^ **4 o^g0-0-^vo^oscflooONs^-.vor^r-4oocnosr-.oj4Ooso\ 5 S OS 2 rn °^ 2 ^2 ^2 «Л Os" TJ-" OO" -^f ОО" "Ч"" Г-" ^"" O» Tf* vo" СП Й S ^ ^ H- H«^ ^ w« « ^ о м. ю "l n Ч н о о h oo со oo § ~ on 2 S 2 Jn ^ i2 ^ 2 *f 2 «n ^ <o 2 «л 2 ^ os" Tf os" rr ^oicnTj-tr>vot^ooos2^^J
302 Приложения zr s ё Р CD § о. СЧ СП СЧ ГО ГО СП СП сп СП СП т* СП *т СП «о СП МО СП г- СП 00 СП OS СП 4,0 СЧ СЧ сч сч СЧ сч СП сч СП сч сп сч СП сч тг сч тГ СЧ «л> сч *о сч V© сч N© СЧ" о СП о СП ~ СП ~ СП ~ СП сч СП СП СП сп СП тг СП «г> СП чо СП г» СП 3,8 -« гч ^ СЧ СЧ сч сч СЧ сч сч сч СЧ СП сч СП СЧ тг сч т* СЧ Tt сч «о сч 2,5 OS СЧ os СЧ On сч о СП о СП г- СП сч СП сч СП СП СП Tl- СП »л СП Ч© СП сп4 ~ гч гч сч -ч СЧ ^ сч СЧ сч сч сч СЧ сч СП СЧ СП сч СП СЧ тг сч т* сч 2,5 00 гч оо сч оо сч os сч On сч о СП о СП ^ СП СЧ СП СП СП тг СП «о СП 3,5 о СЧ о сч о сч ^н сч — сч ~ сч СЧ сч сч СЧ сч сч СП сч СП сч тг СЧ СЧ г- сч г» сч г- сч оо сч оо сч os сч os сч о СП — СП сч СП СП СП TJ- сп 3,5 о СЧ о сч о СЧ о сч о сч .-. сч ~ сч сч сч СЧ сч сч сч СП сч СП сч 2,4 чо сч ЧО сч чо сч г- сч г- сч оо сч оо сч On сч о СП ^ СП СЧ СП СП СП 3,4 os ~ On - ON ^ о СЧ о сч о сч ^ сч ^ СЧ .-. сч сч СЧ сч СЧ СП СЧ 2,3 »п сч v> сч «о сч VO сч VO сч г» сч 00 сч On сч OS сч о СП ^н СП сч СП 3,3 On - OS - On - On - о СЧ о СЧ о сч ,-. сч ,-, сч ^ сч сч сч СП СЧ 2,3 ч* сч тг сч *г> сч <г> сч чо сч чо сч с- сч оо СЧ On сч On сч о СП ^ СП <ч СП оо *ч оо - On ~ os *- On *- о сч о сч о сч ^ сч ^ СЧ СЧ сч сч СЧ 2,3 т* СЧ чГ сч тг сч «о сч «л сч чо сч ЧО сч с-» сч оо сч On сч о СП .-. СП 3,2 оо *- оо — оо *- On — ОЧ — OS '- о сч о сч о сч ^н сч ~ сч сч СЧ 2,2 СП сч СП сч "ЧГ сч "Ч- сч »о сч чч сч ЧО сч г^ сч с- сч оо сч On сч о СП сп" оо •ч оо ^ оо *- оо ~ оо ^ OS -ч os •ч о СЧ о сч ^н сч ~ СЧ сч СЧ сч СП сч СП сч СП СЧ ТГ сч т* сч •п сч ю сч чо сч г- сч оо сч OS сч о СП 3,1 00 — оо - оо ~ оо — 00 — Os *-" Os — о сч о сч о сч ^н сч ^н СЧ 2,2 СЧ СЧ сч сч СП сч СП сч тг сч т* сч *п сч ЧО сч г- сч г- сч оо СЧ OS сч 3,0 г- ~ г- - оо ~ оо — оо -ч Os — Os -ч Os ~ о сч о сч ~ СЧ ^н сч 2,2 сч г- СЧ -* сч г-» СЧ -н сч t- сч -* СП ОО СЧ —| СП ОО сч ^ тг оо сч «-• rr OS СЧ «ч «Л Os сч —1 чо о сч сч г- о сч сч ОО ^ч сч сч Qv. ^н сч сч о сч сп" сч" «-« г- сч" *-« г-" Г- сч —• СЧ Г» сч i-<\ сч оо сч" ^-< СП ОО сч" *-* •Ч" оо сч" —■ ■ч- оо сч" ^ «О On сч" -н О OS сч" ^ г- о сч" сч | оо О сч" сч | ON —1 сч сч" сп сч" ©^ чо os^ чол г^ -«Г4 СЧ" сп" СЧ" сп" '"2, ^ °\ ^ °Чч -*" сч" сп" сч" сп" сч^ г^ о^ г-^ о^ ^г* сч" "^ сч" сп" **! °°- *~1 ^ ^ ^г" сч" тг" сч" тг" ^ 00^ СП^ ОО^ »-^ ^f сч" -^ сч" тг" ЧО OS «О OS СП ЧГ* СЧ" ^Г" СЧ" тг" Os^ С^ Г*^ С^ чг^ ■^ сп" тг4 сп" т^ °i 'Ч °^ *~1 °1 «rf сп" «сГ сп" ^ ^ Чч ^ ^ Чч •о4 сп" «сТ сп" «гГ Г^ ОО^ «С^ Г*^ "^ чсГ сп" чсГ сп чсГ ^ ^ °\ *°л ^ OS ^" ОО Tf ОО ^ЧС^и^^Т^Т^Т^т^СП^СП^СП^СЧ^СП^СЧ^СП^^СЧ^ сч"сп"сч"сп"сччсп"сч"сп"сч"сп"сч"сп"сч"сп сч"сп"сч" Ч ^ ^ Ч "I "l Ч Ч, Ч, Ч, м* 'Т, л. ^ м. Ч1 сч"сп"сч"сп"сч"сп"сч"сп"сч"сп"сч"сп"сч"спчсч"сп"сч" чо^оо^и^г^^чр^^ч^^т^^^^сп^сп^сп^^ сч"сп"сч"сп"сч"сп"сч"сп"сч"сп"с^сп"с^сп"сч"сп"сч" чрлО^чри0С^чрлС^^чол^чс^г1^«л>л'Ч^^'*>'^^ сч"сп"сч"сп"с^сп"сч"сп"сч"сп"с>Гсп"сч"сп"сч"сп"сч" г^с^г^о^чг^оо^чс^оо^^с^м^чо^и^чо^^»^"^ сч"^сч"сп"сч"сп"сч"сп"сч"сп"сч"сп"сч"сп"сч"сп"сч" сч"^сч"^сч"^сч"сп"сч"спсч"спсч"сп"сч"сп"сч" Os Tf On СП 00лСЧ » N Г-;'-4 f^k^1^^^^^ сч" 5Г гч" тг" сч" "Ч-" сч" "Ч-" сч" тг" сч" -ч-" сч" "Ч-" сч" тг" сч" ^оо^с^^с^чо^о^^о^^о^тг^оо^споо^сп^оо^ сп" ^ сп" "^ сп" тг* сч" "Ч-" сч" -Ч-" сч" тг" сч" ^-" сч" ^-" сч" СП^СП^СЧ^СЧ^СЧ^^СЧ^С^^О^^О^^ОО^С^ОО^С^ сп"«гГсп «сГсп и^сп"»гГгп"'Чгсп"т|гсп"^гсп"тг,сп" Р^СЧ^ЧС^^ЧС^С^^О^^ООл»^ООл«г^Г^'^Р^тГч сп"чЬ"сп"ч6"сп"чо"сп"^сп"^сп"«с>сп'«гГсп"«гГсп" ^оо"^"оо"^оо"^"оо"^"оо"т1гоо"^гг^'Чгс>^,Чг *~1 °1 R. ^l ^ч *Ч сп" сч" сп сч" сп" сч" *Ч **1 '"J. *Ч *~i *Ч сп" сч" сп" сч" сп" сч" *Ч **1 °t ^ 'Ч **! сп сч" сп сч" сп" сч" Чч Чч *** ^'Х ГПч **! сп" сч" сп" сч" сп" of "1 Ч> "1, Ч. Ч, Т сп" сч" сп сч" сп" сч" с-, «л vq «л no "л сп" сч" сп сч" сп сч" Os^ 4f£ Os^ чо^ оол чо^ сп" сч" сп" сч" сп" сч" сч оо <Ч оо^ ^ г*^ rf" сч" "Ч- сч" -Ч-" сч" с-* о г-- о чо о ^ Чч ^Я "Чч "^. "Чч v? сп" «гГ сп" «гГ сп" 00 СП ОО СЧ^ Г- СЧ t-T та-" с-Г tj- г-" " £«|СН
Приложения 303 S" 8 500 200 100 «о г* <=> No о г* ° ГО Г* ГЦ О ГЦ SO ,""H ^Г ГЦ - о о 00 г* VO •о Tiro ГЦ - -1 Uh'HhO'00*OOlOONioa^M^OO(Oh^>nntn(S-iOO »^l^^Ht-vr-i400SOONOONVOONSOOS«nOO«nr~V^40'^'«rkrO<Srl»-«^-t rjr^^t^^^^t^oso©soo>soosvoc>«nooinvo^U4foror4fNr4 r^t^fNr^»-^r-t--ir~or-0400soovDa>sooo«ot^'«i-vO'*'*fO'^'ri С^^^^С^^^^^^Г^^^^^^^^^^^^^г-,^-.^^-,^ r^oor^c^r^^rit^^r-^voo,oovoovoON«ot---«nso^«nroTfro oi rt(N)rt(sfrHM"rH(SrHfSrt(Sr-l(NrtM'rHrtrHr-lrHrtrHrtrtrHrH rooocNoorooor4oor*t^^t^^r^.^t^©t^ONsoooint^»/^vo^»oro ri ^ri^r4^ri«^ri^ri'»^<^^^^ri^^^^»^'--«'-''--''--'^»-' ^ООГОООГОООГОООГЧООГЦГ^СЦГ-^Г-'-нГ'ОЧООЧЧОООкЛЧОтГчОтГ rf^r^^c^^rf^^f^ri^ra^ri^ri^ri^^^^^^^^»-* ^0\тГ^Г^ОО^ООГООО(^ООГОООГЦООГ|Г-'-нГ-О^^ЧОГ-«/>Г-«Л ^^ГЦ^гТ^ГЦ^ГЦ^ГЦг^гТ^Г^^^^гГ-нГЦ^-н ^-.^г-чг-ч ,-. гч <r>o\ir>ON<oON<oosTi-os^toorooorooorooorir-—i r^ © so oo «n oo »o ri^ri^ri'^rfr-^rf^ri^ri'^ri'^ri^ri^ri-Hri^H^»-^^^ VOOVOO*00»«nO\^a<nO\^0\TrO\^WfnhHhHhO\*00\^ rir^ririri^ri^ri^rii-^ri^rNf^ri^ri.^riT^rf^»-'»-* «-■ *-• r-Ot^ot^or>04D040os»no>>oas»nON'4toorooorir--or>ovo ririririririririririri*-* см —« ri t-< ri^ ri ^ ri ^-* ri *-* rT •-« (N ^ ОО^нОО»-<ОООГ-ОГ-ОГ^ОЧОО^ОЧОСЛи->0>ГОООСОООт-1Г-^Г- riririririririririciririrs ri ri ri ri -* ri ^ ri *-* ri —< ri т-i ri *-ч ririririririririririririririririririri^ri^ri^-Ггц «-I" м ~*\ го" гц ri ri ri ri ri ri ri ri rf rf ri ri rf ri* ri ri ri ri ri »-^ rf r-Г гГ «-Г гц ,-Г ^ rs q q о г| о ts о\л ^ о^ ^н о^ >н x ph oo -h rs q vo ож «л ел -* x rn oo rori'rorirori'ro'riri'ririri'ririri ro"riro"riro"riro"riro"riro"ririririririri<>f^^^ ~*\ ro" ri ro" ri ro riro riro^ra ro"riro"riro"rifo"riric^ririririririri ~*\ ч ч> ч ч w«м. п«м. 'ч ^ 'Ч ^ 't ^ i ^ i **)> °. 'Ч °i ^« °°. ^. ^ °. ^ pJ ro"riro"riro"riro"riro"riro riro riro^rico'riro^ririri'ririririri rf ro"riro"riro"riro"riro"riro"riro"riro"riro"riro"r^ OO^VO^OO^VO^r^^t^W^r^V^SO^^VO^^^V^^l/^^Tl^fO^fO^r^ гц| ro"riro"riro"riro"riro"riro"riro"riro"riro"riro"r^ го" Ы\ 1 ^ 1 ^ 4 ^ °. ^ 9, f"; °1, 4 °i, Ч °1 4 °°» Ч ^. 4 4 "l "'I "1, 4, 4, ''I 4. Tf4 ri rf" ri <** ri 4fr* ri -^T ri го* ri го* rf со ri ro" ri ro" ri ro ri ro" ri ro* ri со" ri «fr4 го" тГ ri -si-"4 rf -^ rf ■*' ri ^t4 rf ^t" rf ^ ri ^ ri -sf ri -*4 ri «з-" ri ro" ri ro" ri ч^го"«гГго"^го"«гГго"^го"^го"^го"и^со"^го"«^со"^со^ ro4 ь (S vq r| « n «o N <л ^ -* ^i ^-ч ^'^rrl'"H.>c4PPP0i40\r"^0\v0..(XjJ r^ Tf4 r-" "^ rV ^ r^4 ^ г>" "«г* r^4 ■^r r^ "Г* r^ тг~ r^4 re" г-»" тг* гл^ rf vo" ro" so" ro" so" ro" r-ooavOri^-voooooo2S qI пгцгцгогогогого^«пг-2^
304 Приложения Таблица VI Критические значения rmax в зависимости от объема выборки п. Р(т >т ) = а v max maxa ' п 1 3 4 5 i 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 1 27 а \ 0,05 1 1,41 1,71 1,92 2,07 2,18 2,27 2,35 2,41 2,47 2,52 2,56 2,60 2,64 2,67 2,70 2,73 2,75 2,78 2,80 2,82 2,84 2,86 2,88 2,90 1 2,91 0,01 1 1,42 1,73 1,97 2,16 2,31 2,43 2,53 2,62 2,69 2,75 2,81 2,86 2,90 2,94 2,98 3,02 3,05 3,08 3,11 3,13 3,16 3,18 3,20 3,22 1 3,24 п J 28 29 30 35 40 45 50 60 70 80 90 100 120 150 200 300 400 500 600 700 800 900 1000 1500 1 2000 а | 0,05 1 2,93 2,94 2,96 3,02 3,08 3,12 3,16 3,22 3,28 3,33 3,37 3,40 3,46 3,53 3,61 3,73 3,80 , 3,87 3,92 3,96 3,99 4,02 4,05 4,14 0,01 1 3,26 3,28 3,29 3,36 3,42 3,48 3,52 3,58 3,64 3,70 3,74 3,77 3,83 3,90 3,98 4,09 4,17 4,24 4,28 4,32 4,35 4,38 4,41 1 4,50 1 4,21 | 4,56
Приложения 305 Таблица VII Достаточная численность единичной выборки па, где L v п J кх >9,0 4,46 - 9,0 2,48-4,45 2,18-2,47 1,68-2,17 1,40-1,67 1,28-1,39 1,18-1,27 1,09-1,17 1,03-1,08 0,97-1,02 0,93 - 0,96 0,89-0,92 0,85-0,88 0,82 - 0,84 0,80-0,81 0,77 - 0,79 0,75-0,76 0,73 - 0,74 0,71-0,72 0,69 - 0,70 0,67 - 0,68 0,65 - 0,66 0,63-0,64 | 0,61-0,62 0,59 - 0,60 0,57 - 0,58 Уровень значимости а 0,20 2 2 2 ' 2 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 7 7 0,10 2 2 3 3 3 4 4 4 5 5 5 6 6 6 6 7 7 7 7 8 8 8 9 9 10 10 И 0,05 2 з. 3 4 4 5 5 6 6 7 7 7 8 8 9 9 9 9 10 10 И И 12 13 13 14 15 0,01 3 4 5 5 6 7 в 9 10 10 11 12 13 13 14 14 15 16 17 17 18 19 20 21 22 23 24 0,001 4 5 7 8 9 11 12 14 15 16 17 18 1 20 21 | 22 | 23 24 25 26 27 29 30 31 33 35 37 39 1
306 Приложения Окончание таблицы VII 0,55 - 0,56 0,53 - 0,54 0,51-0,52 0,50 0,49 0,48 0,47 0,46 0,45 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 < 0,37 1 Уровень значимости а | 7 8 8 8 9 9 9 10 10 10 10 10 И 12 12 13 14 1,7 * 11 | 12 13 13 13 14 14 15 15 15 17 17 18 19 20 21 22 2,9 1 *> 15 16 17 18 19 19 20 21 22 22 23 24 25 26 28 29 30 | 4,0 1 *V_ 26 28 29 30 32 33 34 35 37 38 40 42 44 46 48 50 53 6,8 1 *,2 42 | 44 | 47 49 51 53 55 58 60 63 65 68 71 75 79 83 88 11,5 1 к 1
Приложения 307 Таблицами Критические значения статистики F,v в зависимости от числа степеней нихо свободы v, с которыми найдены оценки дисперсий, и числа сравниваемых оценок дисперсий д для а = 0,05 вероятность P(t!Tmx > f^ ) = а 1 v г з 4 5 6 7 8 9 10 12 15 20 30 60 оо 8 2 39,0 15,4 9,60 7,15 5,82 4,99 4,43 4,03 3,72 3,28 2,86 2,46 2,07 1,67 1,00 3 87,5 27,8 15,5 10,8 8,38 6,94 6,00 5,44 4,85 4,16 3,54 2,95 2,40 1,85 1,00 4 142 39,2 20,6 13,7 10,4 8,44 7,18 6,31 5,67 4,79 4,01 3,29 2,61 1,96 1,00 5 202 50,7 25,2 16,3 12,1 9,70 8,12 7,И 6,34 5,30 4,37 3,54 2,78 2,04 1,00 6 266 62,0 29,5 18,7 13,7 10,8 9,03 7,80 6,92 5,72 4,68 3,76 2,91 2,11 1,00 7 333 72,9 33,6 20,8 15,0 11,8 9,78 8,41 7,42 6,09 4,95 3,94 3,02 2,17 1,00 8 403 83,5 37,5 22,9 16,3 12,7 10,5 8,95 7,87 6,42 5,19 4,10 3,12 2,22 1,00 9 475 93,9 41,1 24,7 17,5 13,5 ИЛ 9,45 8,28 6,72 5,40 4,24 3,21 2,26 1,00 ю 550 104 44,6 26,5 18,6 14,3 11,7 9,91 8,66 7,00 5,59 4,37 3,29 2,30 1,00 11 626 114 48,0 28,2 19,7 15,1 12,2 10,3 9,01 7,25 5,77 4,49 3,36 2,33 1,00 12 704 124 51,4 29,9 20,7 15,8 12,7 10,7 9,34 7,48 5,93 4,59 3,39 2,36 1,00 1
308 Приложения ГооечсО'-ч©сооощсо»-«©о>оооооооог^Г--г-ооо>_ _ i ©л V\ Ол 00^ Г-^ VO^ Ч\ Ш^ Ч\ Ч\ «П т^ ^ ч^ тГл -^ т£ ТГ^ ТГ^ ^ "^ Ч\ U^ J_ чо rj- ^ го en (OOOOOOf-r^C-OOOS©"^ ; ^ Ч^ т*л rf ^ т^ т^ ^ in in s oo ч- in vo ©л v\ ©л oo^ I JZJ vo^^^co^c^c^c^c^co'eo'i со со со со со CO CO CO CO CO CO CO CO ^v04"4cocococococococococococococococococococococo ^vo^-^cocoeocococoeocoeoco i CO CO CO CO CO CO j_; vo "4- тг CO CO CO CO CO CO CO CO CO CO CO CO CO CO i со со со со со ^00r4C0'-«OC000inc0^O00r^vO\0in'*Tt-TffNOChr->4DTf VO Tf ^" CO CO CO CO CO CO CO CO CO CO CO СО СО СО СО СО СО СО СО СО СО СО $ ?со сч с* *—• о> г^ m со «-< on, ^^^^^со^со^со^со^со^ г^ ^V04"4COCOCOCOCOeOCOcOCOeOCOCOCOCOcOcOCOCOCOCOCOCO SToOr»cO'-«OcOOO'*fNONt->VO'*cOf4»-HOOONr^incO^ONV01 ^C^inC^OO^r^VO^inin^in^Tj^^T^^Tf^Tf^Tl^^T^CO^CO^ ^ VO Ч" Ч" СО СО СО СО СО СО СО СО СО СО СО СО СО СО СО СО СО СО СО СО СО СО ^roofSco^ocooo^rooovoTi-co^ooNoooor^TrcNOooinco £^ VO^^Tl^C^CO^CO^COCO^CO^CO^CO^CO^CO^CO^C^ On <»^-^^^^.^^^^^^^^^^^<4^if4'4',^| Ч'Ч'СОсОСОСОСОеОсОсОСОсОсОеосОсО* со со со со со го со JZ; vo 4* Ч со со со со со со со со со со со со со со со со со со со со со < „C»fN|rO*-HOOONC4l>COOr-incO'-HOOOr-VOVOcOOr~,*<NON, J^ vo^^^co^co^co^co^co^co^co^co^co^c^co^co'co со со cf со со" со* со* со со 00C4C0Oinin00f400^«-<0Nt--in^-fS»-HO0\V0C0Or-5fN J^VO^^COCOCOCOCOCOCOCOCO' COCOCOCOCOCOCOCOCOCOCO' OO CN —< 1П -_ , . .._.___ . _.vO<NOOOVOTtcOCS»-^ ^mOMnttnNriNNHHHH ^ VO Tj" Tf -.-.-.- - - - - - - - OOOT|-ONVOCNOOOVOTtcOCS»-'Or^'«4-'-'OOincN — — — ---- — -- *-^ ол ©л ©л o^ o\ o\^ en fi fn ro' en w en rn w n" <n" en ri' ro en <n en м ri ri r| — _.. ^ _ , voom.-HOovoco~4©oot>-vo<nc4o>\voco©c-* C^in^O^vfe^cO^C^r^^^OC^C^C^C^O^O^O^O^O^ ^ vo'tt'co'co^co'co^co^co^co'co^co'c^co^co* i vo ■ •-< CN CO rf in VO Г-.
Приложения 309 Таблица X Достаточная суммарная численность двух выборок /?а па=/ а,п-2 П к2 >24,6 12,2 - 24,5 4,62-12,1 3,24-4,61 2,32 - 3,23 2,02 2,31 1,61-2,01 1,29-1,60 1,10-1,28 1,00-1,09 0,94 - 0,99 0,82-0,93 0,75-0,81 0,70 - 0,74 0,62 - 0,69 0,57-0,61 0,54 - 0,56 0,51-0,53 0,47 - 0,50 0,45 - 0,46 0,42 - 0,44 0,39-0,41 0,37 - 0,38 0,35 - 0,36 0,33 - 0,34 0,31-0,32 Уровень значимости а 0,20 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 7 7 7 7 0,10 4 4 4 4 4 5 5 5 5 6 6 6 7 7 7 8 8 8 8 9 9 10 10 10 11 11 0,05 4 4 4 5 5 5 6 6 7 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 15 15 0,01 4 5 6 7 7 8 9 10 11 11 12 13 13 14 15 16 17 17 18 19 20 21 22 23 24 26 0,001 6 7 8 9 11 12 13 15 16 17 18 19 21 22 24 25 | 26 27 29 30 32 34 35 37 39 41 J
310 Приложения Окончание таблицы X 0,29-0,30 0,27 - 0,28 0,25 - 0,26 0,23 - 0,24 0,22 0,21 0,20 0,19 0,18 0,17 0,16 0,15 0,14 0,13 <0,13 Уровень значимости а | 8 8 9 9 9 10 10 ■11 И 11 12 13 13 14 1,7 к2 12 12 13 14 15 15 16 16 17 18 19 20 21 22 2,9 к2 16 17 18 19 20 21 22 23 24 25 26 28 30 33 4,0 1 к2 27 29 30 33 34 36 37 39 41 44 46 49 51 55 6,8 *2 43 1 46 49 53 56 58 61 64 67 71 75 80 86 92 11,5
Приложения 311 Таблица XI Значения величины z для значений г от 0,00 до 0,99 г 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0 0,0000 0,1003 0,2027 0,3095 0,4236 0,5493 0,6931 0,8673 1,0986 1,4722 1 0,0100 0,1105 0,2132 0,3206 0,4356 0,5627 0,7089 0,8872 1,1270 1,5275 2 0,0200 0,1206 0,2237 0,3317 0,4477 0,5763 0,7250 0,9076 1,1568 1,5890 3 0,0300 0,1308 0,2342 0,3428 0,4599 0,5901 0,7414 0,9287 1,1881 1,6584 4 0,0400 0,1409 0,2448 0,3541 0,4722 0,6042 0,7582 0,9505 1,2212 1,7380 5 0,0500 0,1511 0,2554 0,3654 0,4847 0,6184 0,7753 0,9730 1,2562 1,8318 6 0,0600 0,1614 0,2661 0,3769 0,4973 0,6328 0,7928 0,9962 1,2933 1,9459 7 0,0700 0,1717 0,2769 0,3884 0,5101 0,6475 0,8107 1,0203 1,3331 2,0923 8 0,0800 0,1820 0,2877 0,4001 0,5230 0,6625 0,8291 1,0454 1,3758 2,2976 9 0,0900 0,1923 0,2986 0,4118 0,5361 0,6777 0,8480 1,0714 1,4219 2,64671
312 Приложения Таблица XII Значения величины г для значений z от 0,00 до 2,99 (ноль целых и запятая опущены) Z i o,o 0,1 0,2 0,3 0,4 0,5 0,6 07 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 1 2,9 0 1 0000 0997 1974 2913 3800 4621 5370 6044 6640 7163 7616 8005 8337 8617 8854 9051 9217 9354 9468 9562 9640 9704 9757 9801 9837 9866 9890 9910 9926 1 9940 1 1 0100 1096 2070 3004 3885 4699 5441 6107 6696 7211 7658 8041 8367 8643 8875 9069 9232 9366 9478 | 9571 9647 9710 9762 9805 9840 9869 9892 9912 9928 1 9941 2 1 0200 1194 2165 3095 3969 4777 5511 6169 6751 7259 7699 8076 8397 8668 8896 9087 9246 9379 9488 9579 9654 9716 9767 9809 9843 9871 9894 9914 9929 1 9942 3 1 0300 1293 2260 3185 4053 4854 5580 6231 6805 7306 7739 8110 8426 8692 8917 9104 9261 9391 9498 , 9587 9661 9722 9771 9812 9846 9874 9897 9915 9931 1 9943 4 1 0400 1391 2355 3275 4136 4930 5649 6291 6858 7352 7779 8144 8455 8717 8937 9121 9275 9402 9508 9595 9668 9727 9776 9816 9849 9876 9899 9917 9932 1 9944 5 \ 0500 1489 2449 3364 4219 5005 5717 6351 6911 7398 7818 8178 8483 8741 8957 9138 9289 9414 j 9518 9603 9674 9732 9780 9820 9852 9879 9901 9919 9933 j 9945 Ь [ 0600 1586 2543 3452 4301 5080 5784 6411 6963 7443 7857 8210 8511 8764 8977 9154 9302 9425 9527 ! 9611 9680 9738 9785 9823 9855 9881 9903 9920 9935 j 9946 ~^7 [ 0700 1684 2636 3540 4382 5154 5850 6469 7014 7487 7895 8243 8538 8787 8996 9170 9316 9436 9536 9618 9686 9743 9789 9827 9858 9884 9904 9922 9936 j 9947 "~8 [ 0800 1781 2729 3627 4462 5227 5915 6527 7064 7531 7932 8275 8565 8810 9015 9186 9329 9447 9545 9626 9693 9748 9793 9830 9861 9886 9906 9923 9937 1 9948 ""^ 1 0900 1877 2821 3714 4542 5299 5980 6584 7114 7574 7969 8306 8591 8832 9033 9201 9341 9458 9554 9633 9699 9753 9797 9834 9864 9888 9908 9925 9938 ! I 9949
Приложения 313 Таблица XIII Минимальный объем корреляционного ряда па, при котором с вероятностью Р = 1 - а можно утверждать, что р *0 при данном г I r 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 1 а 0,10 27964 6769 ЗОЮ 1695 1022 753 554 424 336 272 225 190 162 140 122 107 95 85 77 69 63 58 53 49 45 42 39 36 34 32 0,05 38419 9607 4272 2404 1534 1067 785 601 476 385 318 268 228 197 172 151 134 119 107 97 88 80 74 68 62 58 54 50 47 44 i 0,01 66361 16593 7377 4151 2647 1841 1354 1035 819 663 547 460 391 338 294 258 229 204 183 165 149 136 124 114 105 97 90 84 78 73 0,001 108310 27080 12038 6773 4318 3002 2208 1687 1335 1080 891 748 637 549 478 419 371 330 296 267 242 220 201 184 170 156 145 134 125 117 1 г 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 0,80 1 а 0,10 12 12 11 11 11 10 10 10 9 9 9 9 8 8 8 8 8 7 7 7 7 7 7 6 6 6 6 6 6 6 0,05 16 15 1 15 14 14 13 13 12 12 11 И 11 10 10 10 10 9 9 9 9 8 8 8 8 8 7 7 7 7 7 0,01 24 23 23 22 21 20 19 19 18 17 17 16 16 15 15 14 14 13 13 12 12 12 11 11 11 10 10 10 9 9 0,001 38 36 35 33 32 31 29 28 27 26 25 24 23 22 22 21 20 19 19 18 17 17 16 15 15 14 14 13 13 12 J
314 Приложения Окончание таблицы VIII 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 1 0,50 а 1 30 28 27 25 24 23 21 20 19 19 18 17 16 16 15 14 14 13 13 12 41 38 36 34 32 31 29 27 26 25 24 2 22 21 20 19 18 18 17 16 68 64 60 56 53 50 47 45 43 40 38 37 35 33 32 30 29 28 27 25 109 | 102 96 90 85 80 75 71 67 64 61 58 55 52 50 47 45 43 41 39 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 0,99 а \ 6 6 5 5 5 5 5 5 5 5 5 5 4 4 4 4 4 4 4 7 | 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 4 4 4 9 8 8 8 8 7 7 7 7 7 6 6 6 6 5 5 5 5 4 12 | 12 11 11 10 10 10 9 9 8 8 8 7 7 7 6 6 6 5
Приложения 315 Таблица XIV Значения <р = 2arcsinvP (<р даны в радианах; Р, %) 1 р 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 2 3 4 5 6 7 8 9 10 11 12 13 | 14 ■15 16 17 18 19 20 21 22 | 1 ° 0,000 0,063 0,089 0,110 0,127 0,142 0,155 0,168 0,179 0,190 0,200 0,284 0,348 0,403 0,451 0,495 0,536 0,574 0,609 0,644 0,676 0,707 0,738 0,767 0,795 0,823 0,850 0,876 0,902 0,927 0,952 0,976 1 1 0,020 0,066 0,092 0,111 0,128 0,143 0,156 0,169 0,180 0,191 0,210 0,291 0,354 0,408 0,456 0,499 0,539 0,577 0,613 0,647 0,679 0,711 0,741 0,770 0,798 0,826 0,853 0,879 0,905 0,930 0,955 0,979 | 2 0,028 0,069 0,094 0,113 0,130 0,144 0,158 0,170 0,181 0,192 0,220 0,298 0,360 0,413 0,460 0,503 0,543 0,581 0,616 0,650 0,682 0,714 0,744 0,773 0,801 0,828 0,855 0,881 0,907 0,932 0,957 0,981 1 3 0,035 0,072 0,096 0,115 0,131 0,146 0,159 0,171 0,182 0,193 0,229 0,304 0,365 0,418 0,465 0,507 0,547 0,584 0,620 0,653 0,686 0,717 0,747 0,776 0,804 0,831 0,858 0,884 0,910 0,935 0,959 0,984 1 4 0,040 0,075 0,098 0,117 0,133 0,147 0,160 0,172 0,184 0,194 0,237 0,311 0,371 0,423 0,469 0,512 0,551 0,588 0,623 0,657 0,689 0,720 0,750 0,778 0,807 0,834 | 0,861 0,887 0,912 0,937 0,962 0,986 1 5 0,045 0,077 0,100 0,118 0,134 0,148 0,161 0,173 0,185 0,195 0,246 0,318 0,376 0,428 0,473 0,516 0,555 0,592 0,627 0,660 0,692 0,723 0,752 0,781 0,809 0,837 0,863 0,889 0,915 0,940 0,964 0,988 6 0,049 0,080 0,102 0,120 0,136 0,150 0,163 0,175 0,186 0,196 0,254 0,324 0,382 0,432 0,478 0,520 0,559 0,595 0,630 0,663 0,695 0,726 0,755 0,784 0,812 0,839 0,866 0,892 0,917 0,942 0,967 0,991 7 0,053 0,082 0,104 0,122 0,137 0,151 0,164 0,176 0,187 0,197 0,262 0,330 0,387 0,437 0,482 0,524 0,562 0,599 0,633 0,666 0,698 0,729 0,758 0,787 0,815 0,842 0,868 0,894 0,920 0,945 0,969 0,993 1 8 0,057 0,085 0,106 0,123 0,139 0,152 0,165 0,177 0,188 0,198 0,269 0,336 0,392 0,442 0,486 0,528 0,566 0,602 0,637 0,670 0,701 0,732 0,761 0,790 0,818 0,845 0,871 0,897 0,922 0,947 0,972 0,996 9 0,060 0,087 0,108 0,125 0,140 0,154 0,166 0,178 0,189 0,199 0,277 0,342 0,398 0,446 0,491 0,532 0,570 0,606 0,640 0,673 0,704 0,735 0,764 0,793 0,820 0,847 0,874 0,900 0,925 0,950 0,974 0,998 J
316 Приложения Продолжение таблицы XIV р 1 23 J 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 0 1 1,000 | 1,024 1,047 1,070 1,093 1Д15 Ы37 1,159 1,181 1,203 1,224 1,245 1,266 1,287 1,308 1,328 1,349 1,369 1,390 1,410 1,430 1,451 1,471 1,491 1,511 1,531 1,551 1,571 1,591 1,611 1,631 1,651 1,671 1 1,691 1 1 1,003 1 1,026 1,050 1,072 1,095 1,117 1,140 1,161 1,183 1,205 1,226 1,247 1,268 1,289 1,310 1,330 1,351 1,371 1,392 1,412 1,432 1,453 1,473 1,493 1,513 1,533 1,553 1,573 1,593 1,613 1,633 1,653 1,673 | 1,693 2 1 1,005 | 1,029 1 1,052 1,075 1,097 1,120 1,142 1,164 1,185 1,207 1,228 1,249 1,270 1,291 1,312 1,333 1,353 1,374 1,394 1,414 1,434 1,455 1,475 1,495 1,515 1,535 1,555 1,575 1,595 1,615 1,635 1,655 1,675 | 1,695 3 1 1,007 1 1,031 1,054 1,077 1,100 1,122 1,144 1,166 1,187 1,209 1,230 1,251 1,272 1,293 1,314 1,335 1,355 1,376 1,396 1,416 1,436 1,457 1,477 1,497 1,517 1,537 1,557 1,577 1,597 1,617 1,637 1,657 1,677 1 1,697 4 1 1,010 1 1,033 1 1,056 1,079 1,102 1,124 1,146 1,168 1,190 1,211 1,232 1,253 1,274 1,295 1,316 1,337 1,357 1,378 1,398 1,418 1,438 1,459 1,479 1,499 1,519 1,539 1,559 1,579 1,599 1,619 1,639 1,659 1,679 I 1,699 ~~5 1 1,012 | 1,036 1,059 1,082 1,104 1,126 1,148 1,170 1,192 1,213 1,234 1,256 1,277 1,297 1,318 1,339 1,359 1,380 1,400 1,420 1,440 1,461 1,481 1,501 1,521 1,541 1,561 1,581 1,601 1,621 1,641 1,661 1,681 | 1,701 ~в Г 1,015 | 1,038 1,061 1,084 1,106 1,129 1,151 1,172 1,194 1,215 1,237 1,258 1,279 1,299 1,320 1,341 1,361 1,382 1,402 1,422 1,442 1,463 1,483 1,503 1,523 1,543 1,563 1,583 1,603 1,623 1,643 1,663 1,683 1 1,703 ~~7 [ 1,017 | 1,040 1,063 1,086 1,109 1,131 1,153 1,175 1,196 1,217 1,239 1,260 1,281 1,302 1,322 1,343 1,363 1,384 1,404 1,424 1,444 1,465 1,485 1,505 1,525 1,545 1,565 1,585 1,605 1,625 1,645 1,665 1,685 1 1,705 8 1 1,019 | 1,043 1,066 1,088 1,111 1,133 1,155 1,177 1,198 1,220 1,241 1,262 1,283 1,304 1,324 1,345 1,365 1,386 1,406 1,426 1,446 1,467 1,487 1,507 1,527 1,547 1,567 1,587 1,607 1,627 1,647 1,667 1,687 1 1,707 "~^ 1 1,022 1 1,045 1,068 1,091 1,113 1,135 1,157 1,179 1,200 1,222 1,243 1,264 1,285 1,306 1,326 1,347 1,367 1,388 1,408 1,428 1,448 1,469 1,489 1,509 1,529 1,549 1,569 1,589 1,609 1,629 1,649 1,669 1,689 1 1,709
Приложения 317 Продолжение таблицы XIV 1 р 1 57 1 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 1 ° 1,711 1,731 1,752 1,772 1,793 1,813 1,834 1,855 1,875 1,897 1,918 1,939 1,961 1,982 2,004 2,026 2,049 2,071 2,094 2,118 2,141 2,165 2,190 2,214 2,240 2,265 2,292 2,319 2,346 2,375 2,404 2,434 89 1 2,465 1 1 1 1,713 1,734 1,754 1,774 1,795 1,815 1,836 1,857 1,878 1,899 1,920 1,941 1,963 1,984 2,006 2,029 2,051 2,074 2,097 2,120 2,144 2,168 2,192 2,217 2,242 2,268 2,294 2,321 2,349 1 2,377 2,407 2,437 2,469 | 2 1,715 1,736 1,756 1,776 1,797 1,817 1,838 1,859 1,880 1,901 1,922 1,943 1,965 1,987 2,009 2,031 2,053 2,076 2,099 2,122 2,146 2,170 2,194 2,219 2,245 2,271 2,297 2,324 2,352 2,380 2,410 2,440 2,472 1 3 | 1,717 | 1,738 1,758 1,778 1,799 1,819 1,840 1,861 1,882 1,903 1,924 1,946 1,967 1,989 2,011 2,033 2,056 2,078 2,101 2,125 2,148 2,172 2,197 2,222 2,247 2,273 2,300 2,327 2,355 2,383 2,413 2,443 2,475 4 1,719 1,740 1,760 1,780 1,801 1,821 1,842 1,863 1,884 1,905 1,926 1,948 1,969 1,991 2,013 2,035 2,058 2,081 2,104 2,127 2,151 2,175 2,199 2,224 2,250 2,276 2,302 2,330 2,357 2,386 2,416 2,447 2,478 5 1,721 1,742 1,762 1,782 1,803 1,823 1,844 1,865 1,886 1,907 1,928 1,950 1,971 1,993 2,015 2,038 2,060 2,083 2,106 2,129 2,153 2,177 2,202 2,227 2,252 2,278 2,305 2,332 2,360 2,389 2,419 2,450 2,482 6 1,723 1,744 1,764 1,784 1,805 1,826 1,846 1,867 1,888 1,909 1,931 1,952 1,974 1,995 2,018 2,040 2,062 2,085 2,108 2,132 2,156 2,180 2,204 2,229 2,255 2,281 2,308 2,335 2,363 2,392 2,422 2,453 2,485 1 7 1,725 1 1,746 1,766 1,786 1,807 1,828 1,848 1,869 1,890 1,911 1,933 1,954 1,976 1,998 2,020 2,042 2,065 2,087 2,111 2,134 2,158 2,182 2,207 2,232 2,258 2,284 2,310 2,338 2,366 2,395 2,425 2,456 2,488 8 1,727 1,748 1,768 1,789 1,809 1,830 1,850 1,871 1,892 1,913 1,935 1,956 1,978 2,000 2,022 2,044 2,067 2,090 2,113 2,136 2,160 2,185 2,209 2,234 2,260 2,286 2,313 2,341 2,369 2,398 2,428 2,459 2,491 9 1,729 1,750 1,770 1,791 1,811 1,832 1,853 1,873 1,894 1,916 1,937 1,958 1,980 2,002 2,024 2,047 2,069 2,092 2,115 2,139 2,163 2,187 2,212 2,237 2,263 2,289 2,316 2,343 2,372 2,401 2,431 2,462 2,495 1
318 Приложения Окончание таблицы XIV ! Р 90 91 92 95 96 97 98 99,0 99,1 99,2 99,3 99,4 99,5 99,6 99,7 99,8 99,9 J 100 0 2,498 2,532 2,568 2,691 2,739 2,793 2,858 2,941 2,952 2,962 2,974 2,987 3,000 3,015 3,032 3,052 3,078 | 3,142 1 2,501 2,536 2,572 2,695 2,744 2,799 2,865 2,942 2,953 2,964 2,975 2,988 3,001 3,017 3,034 3,054 3,082 2 2,505 2,539 2,575 2,700 2,749 2,805 2,872 2,943 2,954 2,965 2,976 2,989 3,003 3,018 3,036 3,057 | 3,085 3 2,508 2,543 2,579 2,705 2,754 2,811 2,880 2,944 2,955 2,966 2,978 2,990 3,004 3,020 3,038 3,059 3,089 4 2,512 2,546 2,583 2,709 2,760 2,818 2,888 2,945 2,956 2,967 2,979 2,992 3,006 3,022 3,040 3,062 3,093 5 2,515 2,550 2,587 2,714 2,765 2,824 2,896 2,946 2,957 2,968 2,980 2,993 3,007 3,023 3,042 3,064 3,097 6 2,518 2,553 2,591 2,719 2,771 2,831 2,904 2,947 2,958 2,969 2,981 2,994 3,009 3,025 3,044 3,067 3,102 7 2,522 2,557 2,594 2,724 2,776 2,837 2,913 2,948 2,959 2,971 2,983 2,996 3,010 3,027 3,046 3,069 3,107 8 2,525 2,561 2,598 2,729 2,782 2,844 2,922 2,949 2,960 2,972 2,984 2,997 3,012 3,028 3,048 3,072 3,113 9 1 2,529 1 2,564 1 2,602 2,734 2,788 2,851 2,931 2,951 2,961 2,973 2,985 2,999 3,013 3,030 3,050 3,075 3,122
Приложения 319 Таблица XV Критические значения Wa (Критерия Вилкоксона) п 4 5 6 7 8 9 1 10 т 4 10 5 И 17 15 6 12 10 18 16 26 23 7 13 10 20 17 27 24 36 32 8 14 И 21 17 29 25 38 34 49 43 9 15 И 22 18 31 26 40 35 51 45 63 56 10 15 12 23 19 32 27 42 37 53 47 65 58 78 71 Число для a = 0,05 напечатано обычным шрифтом, а для a = 0,01 - жирным шрифтом.
320 Приложения Таблица XVI Критические значения коэффициента корреляции Спирмена г_ (ps отличен от нуля с уровнем значимости а, если rs>rs ) п | 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 | 22 а 1 0,05 1 0,94 0,85 0,78 0,72 0,68 0,64 0,61 0,58 0,56 0,54 0,52 0,50 0,48 0,47 0,46 1 0,45 0,44 0,43 0,01 1 0,94 0,88 0,83 0,79 0,76 0,73 0,70 0,68 0,66 0,64 0,62 0,60 0,58 0,57 0,56 1 0,54 п \ 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 | 40 а | 0,05 0,42 0,41 0,40 0,39 0,38 0,38 0,37 0,36 0,36 0,36 0,34 0,34 0,33 0,33 0,33 0,32 0,32 1 0,31 0,01 1 0,53 0,52 0,51 0,50 0,49 0,48 0,48 0,47 0,46 0,45 0,45 0,44 0,43 0,43 0,42 0,41 0,41 1 0,40 J
Приложения 321 Таблица XVII Критические значения статистики Н(а) Крускала-Уоллиса П1 5 5 5 5 п2 2 3 3 3 п3 2 1 2 3 Н(а) 6,1333 5,0400 4,2933 6,400 4,8711 4,0178 6,8218 5,2509 4,4945 7,0788 5,6485 4,5455 1 а 0,013 0,056 0,122 0,012 0,052 0,095 0,010 0,049 0,101 0,009 0,049 0,097 И/ 5 5 5 5 5 5 5 5 5 п2 4 4 4 4 5 5 5 5 5 п3 1 2 3 4 1 2 3 4 5 Н(а) 6,8400 4,9855 3,9873 7,1182 5,2682 4,5182 7,4449 5,6308 4,5487 7,7440 5,6571 4,6187 7,3091 4,9091 4,0364 7,2692 5,2462 4,5077 7,5429 5,6264 4,5451 7,7914 5,6429 4,5229 7,9800 5,7800 4,5600 а 0,011 9,044 0,098 0,010 0,050 0,101 0,010 0.050 0,099 0,011 0,049 0,100 0,009 0,053 0,103 0,010 0,051 0,100 0,010 0,051 0,100 0,010 0,050 0,099 0,010 0,049 0,100 1
322 Приложения я s ё .се ю о о" II со R ° CN о\ оо г- SO «о тГ СИ fS - о Оч ОО г> SO •о тг 5 сн си си 40 <<Г "* en СП г- •о -чг "*" СП СП 1 °° so «п «л 4t Tf СП Os VO SO so «п »л Tt СП о г- 1^ SO SO ю 10 Tt СП г оо оо г- г- vo ЧО «л ^ "* CN OS OS оо оо р^ so so "* "* ТГ СП о OS OS оо оо с- Г-» so v> 1 *° "^Г 1 1 о о Os Os оо оо г"* so SO 1 ""* тг «г> - - - о о Os оо оо t> so so v"> "* so CN CM 1 \ о о Os Os oo l> 1^ SO *rt TJ- Г-. СП СП гм CN \ - о о Os оо оо г- so •о тг оо тг "* СП СП CN <N - о о Os оо оо Г-- so •о т* Os <л ТГ ^г СП СП CN CN \ \ о Os Os оо г- SO •о тг ° CN
Приложения 323 Основные обозначения Латинские буквы А - обозначение учитываемого фактора в дисперсионном анализе; оценка коэффициента асимметрии. а - оценка параметра а в уравнении регрессии; постоянная величина; число градаций фактора А в дисперсионном анализе. В - обозначение учитываемого фактора в дисперсионном анализе; статистика Бартлета. Ь - оценка параметра в уравнении регрессии; постоянная величина; число градаций фактора В в дисперсионном анализе. С - обозначение учитываемого фактора в дисперсионном анализе; сумма квадратов центральных отклонений. с - число градаций фактора С в дисперсионном анализе; ширина класса (классовый промежуток). cov - ковариация. D - дисперсия; обозначение случайной величины (разности между случайными величинами). d - разность между значениями. Е - обозначение математического ожидания; оценка коэффициента эксцесса. е2 - оценка показателя степени влияния. F - интеграл вероятности; статистика Фишера. ^тах - статистика для проверки однородности группы дисперсий. / - абсолютная частота; обозначение функции. g - среднее геометрическое; целочисленная переменная величина. Н - вспомогательная величина при вычислении суммы квадратов; обозначение гипотезы. i - обозначение номера в некоторой последовательности. j - обозначение номера в некоторой последовательности. KD - коэффициент Дайса. к - вспомогательная величина при планировании численности выборок; оценка к в дисперсионном анализе; целое число (при вычислении квантилей); число классов. / - логарифм логнормально распределенной случайной величины; номер места в последовательности. Med - медиана. Мо - мода. т - номер места в последовательности. med - оценка медианы.
324 Приложения mo - оценка моды. N - объем генеральной совокупности; объем дисперсионного комплекса; число выборок. п - объем выборки. Р - вероятность, доверительная вероятность; доля событий с наличием признака; показатель точности опыта. Ра - показатель относительной вероятной погрешности. р - относительная частота; оценка доли. Q - вероятность альтернативного события; доля событий с отсутствием признака; средний квадрат центральных отклонений в дисперсионном анализе. q -оценкадоли. qa - вспомогательная величина (коэффициент Дункана). R - оценка множественного коэффициента корреляции; размах варьирования; ранг значения случайной величины. г -оценка коэфициента корреляции. гв - тетрахорический показатель связи (коэффициент Бравэ). rs - оценка коэффициента корреляции Спирмена. S - сумма значений случайной величины. s - оценка стандаргного (среднего квадратического) отклонения. Т - вспомогательная величина при вычислении rs; обозначение суммарного источника варьирования в дисперсионном анализе. TKD - трансформированный коэффициент Дайса. t - статистика Стьюдента. и - вспомогательная величина при вычислении числа степеней свободы; нормированное (стандартизованное) отклонение. V - коэффициент вариации. v - оценка коэффициента вариации. W - суммарное обозначение случайных источников варьирования в дисперсионном анализе; статистика Уилка-Шапиро. w - значение случайной величины, имеющей //„,= 0. X - обозначение случайной величины (аналогично: Y, Z и другие). х - значение случайной величины X (аналогично у, z и другие). Ху - у-квантиль случайной величины X. - « л 2 1 z - значение нормально распределенной случайной величины с /iz = 0naz =1; вспомогательная величина, функция от оценки коэффициента корреляции г. Греческие буквы а - коэффициент асимметрии; параметр уравнения регрессии; уровень значимости, вероятность ошибки 1-го рода.
Приложения 325 Р - вероятность ошибки И-го рода; параметр распределения; параметр уравнения регрессии. у - доля значений переменной величины, не превышающих значения Ху. А - неотрицательная дробная часть числа; погрешность измерений. Да - абсолютная вероятная погрешность оценки среднего с уровнем значимости а. е - коэффициент эксцесса. ц2 - показатель степени влияния. G - среднее абсолютное отклонение. к2 - вклад в общую дисперсию результативного признака фактора с фиксированными градациями (дисперсионный анализ). X - параметр распределения. jli - среднее арифметическое. о //,£ч - начальный момент k-той степени. Идо - центральный момент £-той степени. v - число степеней свободы. р - коэффициент корреляции. а - среднее квадратическое (стандартное) отклонение, стандарт. т - нормированные (стандартизованные) отклонения. Ъпах - статистика для проверки правомерности выбраковки. Ф - интеграл вероятности; угол, функция доли. %2 - статистика хи-квадрат. со - плотность вероятности. Надбуквенные символы — обозначение усреднения, обозначение точечной оценки среднего. = - обозначение доверительного интервала. — обозначение середины класса. л - обозначение выровненного условного среднего; обозначение теоретической частоты. Верхние индексы * - обозначение ранжированности значений переменной. ' и " - обозначение начала и конца класса. ' и " - обозначение нижних и верхних границ доверительного интервала.
326 Приложения Литература Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М., 1983. Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика. Исследование зависимостей. М., 1985. Благовещенский Ю. #., Самсонова В. 77., Дмитриев Е. А. Непараметрические методы в почвенных исследованиях. М., 1987. Дмитриев Е. А. Использование статистических методов при проведении режимных наблюдений. В кн.: Принципы организации и методы стационарного изучения почв. М., 1976. Зайцев Г. 77. Математическая статистика в экспериментальной ботанике. М., 1984. Мостеллер Ф., ТьюкиДж. Анализ данных и регрессия. М., 1982. Чертко Н. К Математические методы в физической географии. Минск, 1987. Справочники Большее Л. Н., Смирнов Н. В. Таблицы математической статистики. М., 1983.