Текст
                    MATHEMATICAL
METHODS
OF STATISTICS
by
Harald Cramer
Professor in the University
of Stockholm
1946


Гаральд Крамер МАТЕМАТИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Перевод с английского А, С. МОНИНА и А. А. ПЕТРОВА под редакцией академика А. Н. КОЛМОГОРОВА Издание второе, стереотипное ИЗДАТЕЛЬСТВО «МИР» Москва 1976
Книга выдающегося шведского математика Г. Крамера «Математические методы статистики» — классическое руководство по этой дисциплине. Впервые на русском языке она была издана в 1948 г. и сыграла большую роль в развитии теоретических работ по математической статистике, а также в повышении уровня прикладных работ. Собственно математической статистике посвящена третья (последняя) часть книги, а ее вторая часть до сих пор является одним из лучших учебных пособий по теории вероятностей. Книга необходима всем изучающим математическую статистику и ее приложения. Редакция литературы по математическим наукам ^ плчм\ 7к**~75 © Перевод на русский язык, «Мир», 1975
ПРЕДИСЛОВИЕ КО ВТОРОМУ РУССКОМУ ИЗДАНИЮ Монография Г. Крамера является классическим руководством по математической статистике. За четверть века, прошедшие со времени ее появления в русском переводе, эта книга сыграла важ- важную роль в развитии теоретических и прикладных работ по мате- математической статистике и в воспитании квалифицированных специа- специалистов в данной области. Несмотря на обширную литературу, поя- появившуюся позднее, книга Г. Крамера сохраняет большой интерес для современного читателя. В частности, в нашей стране она оста- остается почти обязательной составной частью программ подготовки аспирантов — и математиков, и прикладников,— в круг интересов которых входит математическая статистика. Этим и вызвана необ- необходимость нового издания книги. При этом мы сочли возможным, не изменяя основного текста, дополнить книгу материалом справоч- справочного характера, содержащим краткие комментарии к отдельным главам книги, и новой библиографией, что должно помочь читателю ориентироваться в современной математической статистике. Эта работа выполнена А. В. Прохоровым. При составлении допол- дополнения мы воспользовались замечаниями и рекомендациями Л. Н. Большева и Ю. В. Прохорова, которым выражаем иск- искреннюю благодарность. А. Н. Колмогоров
ИЗ ПРЕДИСЛОВИЯ К ПЕРВОМУ РУССКОМУ ИЗДАНИЮ Задача книги Г. Крамера в первую очередь чисто научная: созда- создание удовлетворяющей современным требованиям системы изложения математической статистики. Общие контуры это» системы были в последние годы ясны многим исследователям и неоднократно изла- излагались в ряде журнальных статей. Тем не менее, существовавшие до настоящего времени систематические курсы математической статис- статистики строились на теоретическом фундаменте, совершенно не соот- соответствующем современным требованиям, и поэтому в своей практи- практической части в значительной мере приобретали чисто рецептурный характер. Из этих традиционно построенных курсов едва ли не луч- лучшим и самым полным в мировой литературе является русский курс В. И. Романовского («Математическая статистика», 1938). Однакоза последнее время широкое развитие получили принципиальные общие исследования по теории статистической проверки гипотез и статисти- статистической оценки параметров (или непосредственной «непараметричес- «непараметрической» оценки законов распределения), что вызвало необходимость существенно нового изложения самих основ математической статис- статистики. Таким образом, исследования по специальным вопросам мате- математической статистики переросли тот уровень изложения матема- математических и теоретико-вероятностных предпосылок, который все еще по традиции сохранялся во всех руководствах, и постепенно сдела- сделалась ясной своевременность попытки систематического изложения принципиальных вопросов математической статистики с вполне сов- современных позиций. Ясно было, однако, что окончательную убеди- убедительность новая система изложения приобретет лишь в том случае; если будет проделан большой труд по подчинению ей всего богатого материала конкретных фактов, найденного на различных разроз- разрозненных путях. Настоящая книга является попыткой осуществления этой программы. Книга Г. Крамера не свободна от недостатков. Некоторые4 важ- важные общие направления исследований в математической статистике не нашли в ней должного отражения: «непараметрические задачи», в которых наиболее существенные результаты принадлежат Н. В. Смирнову; временные ряды, серьезная трактовка которых опи-
рается на общую теорию случайных процессов; доверительные гра- границы для случайных величин; только что начавший развиваться «последовательный анализ». Возможно, с другой стороны, что изло- изложение общих основ теории удастся в будущем сделать более элемен- элементарным и более доступным (я имею в виду при этом не отказ от поль- пользования общей теорией меры и понятиями измеримости по Борелю и интеграла Лебега, а еще более доступное изложение этих концеп- концепций, подкрепленное конкретными примерами, относящимися не- непосредственно к теории вероятностен и статистике). Наконец, общие концепции Крамера, сводящие задачи научного исследования к «опи- «описанию», «анализу» и «предсказанию» (см. гл. 13), имеют заметный оттенок эмпиризма (трудно сказать больше, так как автор очень скупо высказывается по этим вопросам). Для чтения книги Крамера необходимо хорошее знание класси- классического математического анализа. Все вспомогательные математи- математические средства, выходящие за эти пределы, изложены на страницах первой части книги. Здесь читатель может познакомиться с языком геометрии «-мерного эвклидова пространства, чрезвычайно сущест- существенным для понимания действительного замысла многих вполне «классических» выводов в теории вероятностей и математической статистике, с соответствующими этом геометрии фактами из линей- линейной алгебры, с преобразованиями Фурье как в одномерном, так и в л-мерном случае. Наиболее трудными для нематематиков в этой части покажутся, вероятно, главы, посвященные теории меры и теории интегрирования. Читателям, знающим теорию вероятностей, следует, однако, иметь в виду, что определение интеграла Лебега по своей логической сущности просто совпадает с определением ма- математического ожидания, а типичные приемы рассуждения «метри- «метрической теории функций» повторяют вывод Чебышевым его знамени- знаменитого неравенства. Вторая часть книги посвящена систематическому изложению теории вероятностей. Нам не хотелось бы рекомендовать ее взамен какого-либо обычного курса теории вероятностей. Желательно, чтобы читатель до чтения книги Г. Крамера уже знал элементы тео- теории вероятностей из какого-либо другого руководства. Для чита- читателей-математиков между первой и второй частью книги Г. Краме- Крамера можно рекомендовать прочесть маленькую книжку А. Н. Колмо- Колмогорова «Основные понятия теории вероятностей»1). Читатель, осно- основательно знакомый с теорией вероятностей, может ограничиться просмотром второй части книги Г. Крамера с целью систематизации и пополнения своих знаний в направлениях, используемых в тре- третьей части. 1) Второе издание этой книги вышло п издательстве «Наука» в 1974 г., первое—в 1933 г.
Третья часть книги является основной и посвящена собственно математической статистике. Изложение третьей части следует в зна- значительной мере индуктивному пути. После общей предварительной характеристики задач статистической оценки (главы 25—26) рас- рассматривается ряд специальных задач (главы 27—31), и лишь после этого идут уже упомянутые основные, с точки зрения общей теории, главы 32—35, после которых изложение (в главах 36—37) вновь возвращается к более сложным специальным задачам. Эти послед- последние главы — 36 (дисперсионный анализ) и 37 (уравнения регрес- регрессии) — написаны несколько конспективно в отличие от глав 27— 31, где изложение доведено до числовых примеров, заимствованных из реальной статистической практики. Если учесть объем третьей части B50 страниц), то изложенный в ней конкретный материал следует признать весьма богатым. Впрочем, в качестве сводки специальных статистических приемов и соответствующих формул книга Крамера все же не может заменить трактата В. И. Рома- Романовского, охватывающего в более догматическом изложении еще более обширный материал. Так как книга Крамера, как ясно из сказанного, рассчитана лишь на квалифицированного читателя и не предназначена служить элементарным учебником математической статистики, то мы не со- сочли целесообразным подвергнуть ее какой-либо переработке, пред- предпочитая, чтобы она дала подготовленному читателю представление об определенном этапе развития науки. По сравнению с подлинником в русском издании сделаны лишь следующие изменения: 1) Ссылки на иностранную учебную литературу заменены ссыл- ссылками на русские учебники. Ссылки же автора на научные журналь- журнальные статьи оставлены без изменения. 2) Общий указатель терминов разделен на две части. В первой части даны специальные термины из теории вероятностей и мате- математической статистики. При них в скобках указаны страницы кни- книги, где дается их определение, и соответствующие английские тер- термины. А. Н. Колмогоров
ИЗ ПРЕДИСЛОВИЯ АВТОРА Последние 25 лет отмечены большим прогрессом статистической науки, достигнутым благодаря блестящим работам статистиков анг- английской и американской школы, среди которых на первом месте должно быть упомянуто имя профессора Р. А. Фишера. В течение этого же времени, главным образом благодаря трудам француз- французских и русских математиков, классическое исчисление вероятностей превратилось в чисто математическую теорию, удовлетворяющую современным требованиям строгости. Целью настоящего труда является объединяющее эти две линии изложение математической теории современных статистических ме- методов, основывающихся на понятии вероятности. Полное понимание теории этих методов требует достаточно обширных познаний из высшей математики. В связи с этим я постарался изложить в книге все необходимое с точки зрения читателя, свободно владеющего элементарными понятиями дифференциального и интегрального ис- исчисления, алгебры и аналитической геометрии. В первой части книги, являющейся математическим введением, излагаются необходимые для понимания второй и третьей частей математические сведения, предварительное знание которых читате- читателем ие предполагается. Особое внимание здесь уделено фундамен- фундаментальному понятию распределения и интегрированию относительно распределения. В главах 4—5 излагается краткая теория лебего- лебеговой меры и интегрирования, а указанные основные понятия вводят- вводятся в главах 6—7 в результате непосредственного обобщения этой теории. Вторая часть книги содержит общую теорию случайных величин и распределений вероятностей, а третья часть посвящена теории выборочных распределений, статистической оценки и критериев значимости. Выбор вопросов, излагаемых в третьей части, по необ- необходимости был несколько произволен, но я постарался изложить в первую очередь вопросы наиболее общего значения. Если они бу- будут изучены полностью, то читатель сможет самостоятельно приме- применять их к частным проблемам. Чтобы ограничить объем книги ра- разумными пределами, я был вынужден оставить в стороне некоторые очень интересные темы, которые я первоначально намеревался
изложить, как, например, теорию случайных процессов статисти- статистических временных рядов и периодограмм. Теория статистических критериев иллюстрирована численными примерами, заимствованными из различных областей приложения этой теории. Количество примеров пришлось значительно урезать из-за недостатка места. Пришлось также отказаться от обсуждения вопросов, связанных с необходимостью последовательного прове- проведения статистических расчетов. Для изучения второй и третьей частей книги нет необходимости читать первую часть целиком. Читатель, стремящийся как можно скорее проникнуть в суть дела, может ограничиться лишь беглым знакомством с указанными выше основными понятиями. Для этой цели рекомендуется прочитать главы 1—3 и параграфы 4.1—4.2, 5.1-5.3, 6.1—6.2, 6.4-6.6, 7.1—7.2, 7.4—7.5 и 8.1-8.4. Затем читатель может перейти к главе 13 с тем, чтобы возвращаться к пер- первой части лишь по мере появления соответствующих ссылок. Книга основана на моих университетских лекциях, читанных приблизительно с 1930 г., и написана в основном в течение 1942— 1944 гг. Из-за условий военного времени иностранная научная ли- литература поступала в Швецию неполностью и со значительными за- задержками, что должно послужить оправданием возможных пробелов в ссылках. Я обязан профессору Р. А. Фишеру за разрешение воспроизвести таблицы распределений х2 н / из книги «Статистические методы для исследователей». В подготовке книги значительную помощь оказали мне мои дру- друзья. Профессора Гаральд Бор и Эрнст Якобсталь, нашедшие в Шве- Швеции убежище от испытаний военного времени, прочитали часть кни- книги на стадии рукописи и корректуры и оказали мне помощь своей критикой и советами. Профессор Герман Вольд очень внимательно просмотрел корректуру всей книги, и я чрезвычайно благодарен ему за его ценные замечания. Отделение математической статистики Стокгольмского университета Май 1945 Г. К.
ЧА СТЬ ПЕРВАЯ МАТЕМАТИЧЕСКОЕ ВВЕДЕНИЕ
ГЛАВЫ 1 — 3 ТОЧЕЧНЫЕ МНОЖЕСТВА ГЛАВА I ОБЩИЕ СВОЙСТВА МНОЖЕСТВ 1.1. Множества. В чистой и прикладной математике часто встре- встречаются положения, когда приходится рассматривать совокупность все- всевозможных объектов, обладающих некоторыми определенными свойст- свойствами. Совокупность объектов, определенная таким образом, называется множеством, а каждый объект, принадлежащий такому множеству, называется элементом множества. Элементы множества могут быть объектами любого рода: точками, числами, функциями, вещами, лицами и т. д. Так, например, можно рассматривать: 1) множество всех положительных целых чисел, 2) мно- множество всех точек данной прямой линии, 3) множество всех рациональ- рациональных функций двух переменных, 4) множество всех людей, родившихся н данной стране и живущих к концу 1940 г. В первой части книги мы будем иметь дело главным образом с мно- множествами, элементы которых суть точки или числа, но в этой вводной главе мы займемся рассмотрениями, приложи мыми в самом общем случае, когда элементами множества могут быть объекты произвольного рода. В приведенном выше четвертом примере наше множество состоит из конечного, хотя возможно и неизвестного нам, числа элементов, тогда как в трех первых примерах мм, очевидно, имеем дело с множествами, число элементов которых бесконечно. Таким образом, мы должны делать различие между конечными и бесконечными множествами. Бесконечное множество называется счетным, если его элементы могут быть расположены в последовательность х1г х.,,..., хп ,... так, чтобы а) каждое хп было элементом множества и Ь) каждый элемент множества занимал определенное место в этой последовательности. При таком расположении элементов мы устанавливаем взаимно-одно- взаимно-однозначное соответствие между элементами данного множества и элемен- элементами множества всех положительных целых чисел 1, 2,. .., «,..., которое образует простейший пример счетного множества.
В дальнейшем мм увидим, что существуют также несчетные беско- бесконечные множества. Если из такого множества мы выберем какую-либо последовательность элементов лу, х2,..., хп,..., то всегда найдутся элементы этого множества, не принадлежащие нашей последователь- последовательности. Можно сказать поэтому, что несчетное множество — бесконечное высшего порядка по сравнению со счетным множеством. Мы покажем и дальнейшем (см. параграф 4.3), что множество всех точек данной прямой линии дает пример несчетного множества. 1.2. Подмножества. Пространство. Если множества 5 и 5, таковы, что каждый элемент множества 5, принадлежит к 5, то мы говорим, что 5, есть подмножество множества 5, и пишем 5,с5 или 5z>5,. Иногда мы будем, говорить, что в этом случае 5, содержится в 5 или 5, принадлежит 5. Если 5, состоит из одного элемента х, то мы будем употреблять то же обозначение xcS и говорить, что х принад- принадлежит множеству 5. В частном случае, когда выполнены оба соотношения 5, с 5 и 5cz5,, множества 5 и 5, называются равными, и мы пишем Иногда удобно рассматривать множество 5, которое не содержит ни одного элемента. Мы называем его пустым множеством и пишем 5 = 0. Пустое множество является подмножеством любого множества. Если рассматривать пустое множество как честный случай конечного множества, то ясно, что каждое подмножество конечною множества само конечно, в то время как каждое подмножество счетного мно- множества конечно или счетно. Так, например, множество всех натураль- натуральных чисел, заключенных между 20 и 30, есть конечное подмножество множества всех натуральных чисел 1, 2, 3, ... , в то время как множе- множество всех нечетных натуральных чисел 1, 3, 5, ... есть счетное под- подмножество того же множества. Во многих исследованиях нас будут интересовать свойства и взаимоот- взаимоотношения различных подмножеств данного множества S. Множество 5, содержащее, таким образом, все элементы, которые могут встретиться в нашем исследовании, называется пространством. Если, например, мы рассматриваем различные множества точек на дайной прямой, то
мы можем выбрать за нсше пространство множество S всех ее точек. Подмножество 5 пространства S называется кратко множеством в S. 1.3. Операции над множествами. Пусть теперь дано простран- пространство 5 и мы рассматриваем различные множества в S. Определим сна- сначала операции сложения, умножения и вычитания множеств. Сумма двух множеств 5, и 52, 6" = 5,+ 5,, есть множество S1 всех элементов, принадлежащих по крайней мере одному из множеств 5, и 52. Произведение S'=S1St Фиг. 1. Простейшие операции над множествами. есть общая часть множеств 5, и S2, т. е. множество Л~ всех эле- элементов, принадлежащих обоим множествам 5, и S2. Наконец, разность Stt 4» О 1 2 определяется лишь в случае, когда 53 есть подмножество 5,, и S" есть множество всех элементов, принадлежащих S, и не принадле- принадлежащих 5г. Так, если 5t и St состоят из всех точек, находящихся внутри замкнутых кривых С, и С2 (фиг. 1), то 5, -\- S2 есть множество всех точек внутренних по отношению хотя бы к одной из двух кри- кривых, в то время как 5,6*3 есть общая часть обеих областей, ограни- ограниченных данными кривыми.
Произведение 6*,^2 есть, оченидно, подмножество каждого из мно- множеств 5, и 6'2. Разность 5Я— S,St (где «=1, 2) есть множество всех точек 5Я. не принадлежащих 5,5г. В частном случае, когда 5, и 5а не имеют общих элементов, их произведение пусто, т. е. SiS9 = 0*). С другой стороны, если Sl—SI, то их разность есть пустое множество, 5, — -52п=0. ¦ В частном случае, когда 5S есть подмножество 5,. имеем Л,+ 5. = 5, и 5,5, = 4. Ил симметричною характера наших определений суммы и произве- произведении следует, что операции сложения и умножении коммутативны. т. е. 5, -|- 5а = 5а -f 5, и Л',5. = 5,5,. Далее легко видеть, что эти операции ассоциативны и дистрибутивны, подобно соответствующим операциям арифметики, т. е. 5,E, 4-5.,) =5,5, Отсюда следует, что мы можем говорить о сумме и произведении ко- конечного числа множеств 5,4-5,4- ...+5И и 5,5,...5Я, где порядок слагаемых и сомножителей произволен. Можно распространить определение этих операций на случай счет- счетной последовательности слагаемых или сомножителей. Пусть дана по- последовательность 5,,5г, ... множеств в S. Определим сумму как множество всех элементов, принадлежащих по крайней мере од- одному на множеств 5„ и произведение *) В этом случае мм часто будем говорить, что множества .S^ и Ss не пере, секаются. (Прим. пере».)
как множество всех элементов, принадлежащих всем 5,. При этом имеем, например, 5Ej-|-52-|- ...) = 55j -j- SSa -j- .... Так, если S, есть множество всех действительных чисел, таких, что —г—г г^*г^—, то легко видеть, что VS, есть множество всех х, для v-M » ^ которыхО<дс<1,а JJS, есть пустое множество. Если же S, есть Множество всех х, для которых 0з^дг< —, то сумма 2^v совпадает с 5], а произве- 00 дение JJS, состоит из одного элемента, а именно из числа дг = О. 1 Важный частный случай операции вычитания имеет место, когда 5, совпадает со всем пространством 5. Разность с* с с есть множество всех элементов нашего пространства, не принадлежащих 5, и называется дополнительным множеством или просто допол- дополнением к 5. Очевидно, что 5-f-5* = S, 55* = 0 и (S*)* = S. Важно отметить, что дополнение к данному множеству 5 зависит от того пространства S, в котором 5 содержится. Если наше простран- пространство есть множество всех точек прямой L, а 5 есть множество всех точек этой прямой, имеющих положительную координату, то дополне- дополнение 5* состоит из начала координат О и всех точек с отрицательной координатой. Если же наше пространство состоит из всех точек не- некоторой плоскости Р, содержащей L, то дополнение 5* к тому же самому множеству 5 содержит, кроме того, все точки Р, не принадлежащие к L. Во всех случаях, когда существует возможность ошибки, будем употреблять выражение: 5* есть дополнение множества 5 по отноше- отношению к S. Операции сложения и умножения могут быть выражены одна через другую с помощью понятия дополнительного множества. Действительно, для всякой конечной или счетной последовательности St,Sa, ... мы имеем A.3.1) (i Первое соотношение показывает, что дополнение к сумме множеств есть произведение дополнений к слагаемым. Это непосредственно
следует из данных нами определений. В самом деле, дополнение E, -\-S2 -\-... )* есть множество всех элементов х пространства, не принадлежащих ни одному из множеств Sv, т. е. принадлежащих всем дополнениям 5*, т. е. принадлежащих произведению S\ Si-.. . Вто- Второе соотношение вытекает из первого при замене Sy на 5,. Аналогич- Аналогично для операции вычитания получаем A.3.2) S1 — S.i = S1S*2. Читатель легко убедится, что понимание таких соотношений, как A.3. 1) и A.3.2), сильно облегчается употреблением рисунков типа фиг. 1. 1.4. Последовательности множеств. Когда мы употребляем слово последовательность без дальнейшей конкретизации, то мы имеем в виду конечную илн счетную последовательность; последовательность Sj, Sit...,Sa, ... часто обозначается кратко {Sn}. При рассмотрении суммы последовательности множеств часто бывает полезно представить 5 в виде суммы последовательности множеств, никакие два из которых не имеют общих элементов. Это можно осуществить следующим образом. Положим Z, = Таким образом, Z, есть множество всех элементов S,, не принад- принадлежащих ни одному из предшествующих множеств Sv ..., •Sv_1. Легко видеть, что множества Zf и Z, не имеют общих элементов прн {i^v, Положим, например, }i<^v. Тогда Z есть подмножество S^, в то время как Zv есть подмножество 5*, т. е. Z^Z4 = 0. Положим теперь 5'=Z, +Z, + • • ¦ • Так как Zvc5, при любом v. то S' с S. С другой стороны, пусть х есть элемент из S. Согласно определению, х принадлежит по крайней мере одному из множеств 5,. Пусть Sn есть первое множество из последовательности Sv 5a, ..., которое содержит х. Тогда, согласно определению Za, x принад-
лежит к ZB, а следовательно, и к S'. Таким образом, имеем S с S1 и S' с S, т. е. S' = S и S=rZ,-t-Z,+ ... . Употребим это преобразование, чтобы показать, что сумма счет- счетной последовательности счетных множеств есть счетное множе- множество. Если <SV счетно, то Zv как подмножество S4 должно быть конечно или счетно. Пусть элементы Zv суть х^, хп,... Тогда элементы мно- множества <S = 5J5, = 2^< образуют двойную последовательность xiv хп> хп> • ¦ • xav а последняя может быть представлена в виде простой последователь- последовательности, получаемой, например, чтением по диагоналям: хп, хп, хг1, jcls, xn, jfj,,... Легко видеть, что каждый элемент из 5 займет опре- определенное место в этой последовательности, и, следовательно, множество S счетно. 1.5. Монотонные последовательности. Последовательность. Sv 58,... называется неубывающей, если Su с 5п+1 для всех я. Если Sn гз Sn+l для всех л, то последовательность называется невозраста- невозрастающеи. Последовательности этих двух типов называются монотонными. Для неубывающей последовательности имеем и это делает естественным определение предела такой последователь- последовательности как lim 5И = 2 я->оо Аналогично, для невозрастающеи последовательности имеем П и, соответственно, определяем в этом случае
Пусть Sn есть множество всех точек {х, у, г), расположенных внутри сферы х* + у* + ** = 1 . Тогда последовательность Si, S^, ... — неубывающая, a limSn есть множество всех внутренних точек сферы х*-{-у*-\-& = 1 С другой стороны, если Sn есть множество всех внутренних точек сферы х*-{-уг-\-з1*=1 -\ 1 то последовательность [Sa\ иевозрастающая, и HmS,, есть множество всех внутренних точек и всех точек поверхности сферы Можно распространить определение предела также на некоторые типы последовательностей, которые не являются монотонными. Однако такие случаи не будут встречаться в этой книге. 1.6. Аддитивные классы множеств. Если дано пространство S, то мы можем рассматривать различные классы множеств в 5. Важное значение будет иметь понятие аддитивного класса множеств в 5. Класс © множеств в 5 называется аддитивным*), если он удовлетво- удовлетворяет следующим трем условиям: a) Все пространство 5 принадлежит ©. b) Если все множества последовательности SVS,,,... принадлежат (?, то сумма Sl -\- 58 -|-... и произведение StS принад- принадлежат &. c) Если 5, и St принадлежат CS и 6^ с 5,, то разность 5,—S^ принадлежит ©. Если (& есть аддитивный класс, то, производя конечное или счет- счетное число раз операции сложения, умножения и вычитания над эле- элементами класса 6, мы никогда не выйдем за пределы класса (&. Нужно отметить, что приведенные выше три условия не являются независимыми друг от друга. В самом деле, соотношения A.3.1 и A.3.2) показывают, что условиям а), Ь), с) эквивалентны следующие условия: а,) Все пространство 5 принадлежит E. bj) Если все множества последовательности 5,, <Sa,... принадлежат 6, то и сумма Sj -\- St 4-... принадлежит 6. *) В этой книге мы будем всегда употреблять слово .аддитивный* в том смысле, как в этом параграфе, т. е. по отношению к конечной или счетной последовательности слагаемых. Нужно отметить, что некоторые авторы упот- употребляют в этом случае термин .полная аддитивность*, в то время как выра- выражения .аддитивность* или .простая аддитивность* употребляются для обоз- обозначения этого свойства лишь по отношению к конечному числу слагаемых.
Cj) Если 5 принадлежит @, то и дополнительное множество 5* принадлежит ©. Название .аддитивный класс* обусловлено тем, что среди приве- приведенных условий важнейшую роль играет условие аддитивности Ь,). Класс всевозможных подмножеств S есть очевидный пример адди- аддитивного класса. В следующей главе мы встретимся с более интерес- интересным примером. ГЛАВА 2 ЛИНЕЙНЫЕ ТОЧЕЧНЫЕ МНОЖЕСТВА 2.1. Интервалы. Пусть наше пространство есть множество /?, всех точек данной прямой. Любое его подмножество называется линейным точечным множеством. Если мы выберем на нашей прямой начало координат, единицу измерения и положительное направление, то, как хорошо известно, можно установить взаимно-однозначное соответствие между всеми действительными числами и всеми точками прямой. Таким образом, мы можем говорить, не делая различия, о точке х прямой или о действительном числе х, соответствующем этой точке. Отметим, что мы рассматриваем лишь точки, соответствующие конечным числам. Простейшим примером линейного точечного множества является интервал. Если а и b— некоторые точки, такие, что e==S&, то мы употребляем следующие термины для обозначения множеств всех точекх, удовлетворяющих указанным неравенствам: a ==s x^ b—замкнутый интервал (а, Ь); а<^х<^Ь—открытый интервал (а, Ь); — полуоткрытый интервал {а,Ь), замкнутый справа; — полуоткрытый интервал (а,Ь), замкнутый слева. Если мы говорим просто об интервале (а, Ь) без дальнейших ука- указаний относительно его типа, то подразумевается, что все сказанное справедливо для всех четырех типов интервалов. В предельном случае, когда а = Ь, мы говорим о вырожденном интервале. В этом случае замкнутый интервал стягивается в множество, состоящее из единственной точки х = а, а каждый из остальных трех интервалов есть пустое множество. Если в приведенных выше неравенствах мы позволим b стремиться к -4" °°> то получим неравенства, определяющие соответственно замк- замкнутый и открытый бесконечный интервал {а, -\- оо):
Аналогично, если а стремится к —зо, то мы получим неравенства b и х < Ь для замкнутого и открытого бесконечного интервала (—ее, ft). Наконец, все пространство /?, можно рассматривать как бесконечный интервал (—оо, Ц-сю). Ниже будет показано (см. .параграф 4.3), что всякий невырож- невырожденный интервал есть несчетное множество. Произведение конечной или счетной последовательности интервалов есть интервал, но сумма двух интервалов, вообще говоря, не является интервалэм. Чтобы привести пример, когда сумма интервалов есть интер- интервал, рассмотрим п-\-\ точек а <^ х1 <^... <Cx,i~i *C *• Если все интер- интерналы, встречающиеся в следующем соотношении, полуоткрыты и замк- замкнуты с одной и той же стороны, то мы, очевидно, имеем (а, Ь) = (а, хх) и никакие два интервала в правой части этого соотношения не имеют общих точек. Это соотношение выполнено и тогда, когда все интер- интервалы замкнуты, но в этом случае каждые два соседних слагаемых имеют одну общую точку. С другой стороны, если все интервалы открыты, то наше соотношение не справедливо. 2.2. Некоторые свойства множеств в /?,. Рассмотрим некоторое непустое множества S. Если точка а такова, что для любого е^>0 существует по крайней мере одна точка из S, принадлежащая замк- замкнутому интервалу (a, ot-f-e)> и в то же время не существует точки из S, принадлежащей открытому интервалу (—ее, а), то мы называем а нижней границей множества S. Если не существует конечного а, обладающего этим свойством, то мы говорим, что нижняя граница множества 5 есть — оо. Аналогично мы определим верхнюю границу $ множества S. Множество называется ограниченным, если оно имеет конечные верхнюю и нижнюю границы. Ограниченное множество есть, таким образом, подмножество замкнутого интервала (a, fi). Сами точки аир могут как принадлежать, так и не принадлежать множеству S. Если е есть произвольное положительное число, то открытый интер- интервал {х — г, х-\-е) называется окрестностью точки х или, точнее, г-окрестностью точки х. Точка z называется предельной точкой для множества S, если каждая окрестность z содержит по крайней мере одну точку из 5
отличную от z. Если это условие выполнено, то легко видеть, что в действительности каждая окрестность z содержит даже бесконечное множество точек из S. При этом сама точка z может и не принад- принадлежать к S. Теорема Больщно — Вейерштрасса утверждает, что каж- каждое ограниченное бесконечное множество имеет по крайней мере одну предельную точку. Мы предполагаем это уже известным. Если z есть предельная точка, то множество S содержит последователь- последовательность точек *,, х2,..., такую, что хп —*z при я—юо. Точка х из S называется внутренней точкой множества S, если существует такое s, при котором е-окрестность х целиком содержится в S. Очевидно, что внутренняя точка всегда является предельной. Дадим теперь примеры, поясняющие введенные выше понятия. Пусть сперва S есть конечный невырожденный интервал (а, 6). Тогда а есть ниж- нижняя, а Ь — верхняя граница множества S. Каждая точка, принадлежащая замкнутому интервалу (а, fr), есть предельная точка для S, а каждая точка, принадлежащая открытому интервалу (а,Ь), есть внутренняя точка множе- множества S. Рассмотрим теперь множество R всех рациональных точек х = *-, при- принадлежащих полуоткрытому интервалу 0<дг<1. Если мы выпишем после- последовательность 1 Г' 1 Т1 1 ~л ' I Т* 2 2 ' 2 ~3 ' 2 4"' 3 Т ' 3 4 ' 4 4 ' и затем пыбросим все числа —, в которых р и q имеют общий сомножи- сомножитель, то каждая точка из R встретится в нашей последовательности ровно один раз, и, следовательно, множество R счетно. Множество R не содержит ппутреиних точек. Каждая точка замкнутого интервала @, 1) есть предельная точка для R. Дополнение R* множества R по отношению к интервалу 0 < х а^ 1 есть множество всех иррациональных точек этого интервала. R* несчетно, так как в противном случае интервал @, 1) был бы суммой двух счетных множеств и, следовательно, сам был бы счетным множеством. Подобно самому /?, множество R* не имеет внутренних точек, н каждая точка замкнутого интер- интервала @, 1) является предельной для /?*. Из того, что множество R счетно, непосредственно вытекает, что мно- множество Rn всех рациональных точек лг, принадлежащих интервалу я <* ^я + Ь
счетно при любом целом я. Из предложения, доказанного в параграфе 1.4, следует, что множество всех положительных и отрицательных рацио- рациональных чисел счетно. Действительно, последнее множество есть сумма последовательности \Rn\, где л принимает все целые значения и, следова- следовательно, в силу параграфа 1.4, есть счетное множество. 2.3. Борелевские множества. Рассмотрим класс всех интервалов в Я, — замкнутых, открытых, полуоткрытых, вырожденных и невырож- невырожденных, конечных и бесконечных, включающий в себя, в частности, само пространство Rv Очевидно, что этот класс множеств не является аддитивным, так как сумма двух интервалов не является, вообще го- говоря, интервалом. Попытаемся построить аддитивный класс мно- множеств посредством расширения этого класса интервалов. В качестве первого обобщения рассмотрим класс ^ всех множеств I, являющихся суммами конечных или счетных последовательностей интервалов. Если /,, /2, ... суть множества, принадлежащие классу %, то, согласно 1.4, сумма /, ¦¦}- /3 -|-... есть также сумма конечной или счетной последовательности интервалов и, следовательно, сама принад- принадлежит классу ^. То же имеет место и для конечного произведения /,/2... 1п вследствие свойства дистрибутивности (см. параграф 1.3). Мы покажем, однако, на примерах, что как бесконечное произведение ',/2... , так и разность /, — /г могут и не принадлежать к % Дей- Действительно, множество /?, рассмотренное в предыдущем параграфе, принадлежит %, так как оно является суммой счетной последователь- последовательности вырожденных интервалов, каждый из которых содержит единст- единственную точку — . С другой стороны, разность @, 1) — R не содержит невырожденного интервала, а если мы попытаемся представить его в виде суммы вырожденных интервалов, то таких интервалов потре- потребуется несчетное множество. Таким образом, эта разность не принад- принадлежит к ^. Далее, эта разность может быть представлена в виде произведения У,/2..., где /я есть разность между интервалом @,1) и множеством, содержащим только л-ю точку множества R. Таким обра- образом, само это произведение множеств из ^ не принадлежит классу % Хотя в главе 4 класс 3f найдет себе важное применение, ясно, что для нашей теперешней цели этот класс недостаточен. Для того, чтобы построить аддитивный класс, нужно класс 3; расширить, дополнив его множествами более общего характера. Если мы добавим к ^ все суммы и произведения последователь- последовательностей множеств из % и все разнести между теми множествами из ^f,
для которых разность определена (некоторые из таких множеств, конечно, могут уже содержаться в 30, то мы получим расширенный класс мно- множеств. Однако можно показать, что даже этот расширенный класс не будет удовлетворять всем условиям аддитивного класса. Мы, таким образом, должны повторять этот процесс расширения снова и снова, не приходя к концу. Множество, полученное на некотором этапе этого процесса, обладает тем свойством, что ¦ оно может быть получено, отправляясь от интервалов, выполнением операций сложения, умноже- умножения и вычитания в конечном или счетном числе. Вся совокупность множеств, получаемых таким образом, называется классом $8t борелевских множеств в /?j и является аддитивным классом. В са- самом деле, каждое данное борелевское множество может быть образо- образовано, как было описано выше, посредством не более чем счетного числа шагов, и любая сумма, произведение или разность таких мно- множеств будет содержаться в классе всех множеств, получаемых этим путем. Таким образом, сумма, произведение и разность борелевских мно- множеств сами являются борелевскими множествами. В частности, предел монотонной последовательности (см. параграф 1.5) борелевских мно- множеств всегда есть борелевское множество. С другой стороны, пусть ® — произвольный аддитивный класс мно- множеств из Rv содержащий все интервалы. Тогда непосредственно из определения аддитивного класса следует, что © должно содержать каждое множество, которое может быть получено из интервалов конеч- конечным или счетным повторением операций сложения, умножения и вычи- вычитания. Таким образом, © должно содержать весь класс 39j борелев- борелевских множеств, и можно сказать, что класс 33, есть наименьший адди- аддитивный класс множеств из Rv заключающий в себе все интервалы* глава з ТОЧЕЧНЫЕ МНОЖЕСТВА В ПРОСТРАНСТВЕ Rn 3.1. Интервалы. Хорошо известно, что наряду с взаимно-однознач- взаимно-однозначным соответствием между действительными числами х и всеми точками прямой линии можно установить аналогичное соответствие между па- парами действительных чисел (xv x2) и всеми точками плоскости, а также между тройками действительных чисел (*,, х2, хя) и всеми точками трехмерного пространства.
Обобщая, можно рассматривать систему из я действительных чисел (лг,, jc2, ..., хп) как точку или вектор х эвклидова п-мерного прост- пространства Rn. Числа Jfp ..., хп называются координатами точки х- Как и в одномерном случае, мы рассматриваем лишь точки, соответ- соответствующие конечным значениям координат. Расстоянием между точ- точками * = (*! х„) и У — {У1 У„) называется неотрицательная величина Расстояние удовлетворяет так называемому неравенству треугольнике: \х— у\<,\х~г\ +\у — ж\. Пусть дины Чп чисел av ..., а„ и Л,, ..., Ьп, таких, что а„<; ft, для v = 1, ..., п. Множество всех точек х, определенных соотноше- соотношениями </„ sS •*„ <1 Ьч (V = 1, ..., л), называется замкнутым п-мерным интервалом. Если все знаки ^ заменить на <^, то получим откры- открытый интервал, а если в указанных неравенствах встречаются оба вида знаков, то имеем полуоткрытый интервал. В предельном случае, когда av=:/>v хотя бы для одного значения v, интервал называется вырожденным. Если одно или несколько из чисел л, стремятся к — оо или одно или несколько из чисел /»v стремятся к -\- оо, то мы полу- получим бесконечный интервал. Как и в параграфе 2.1, все пространство Rn можно рассматривать, как бесконечный интервал. Ниже мы покажем (см. параграф 4.3), что любой невырожденный интервал есть несчетное множество. Произведение конечной или счет- счетной последовательности интервалов есть также интервал, но сумма двух интервалов не является, вообще говоря, интервалом. 3.2. Некоторые свойства множеств из Rn. Множество S в Rn называется ограниченным, если все точки из S содержатся в конеч- конечном интервале. Если а = (а, а„) есть данная точка, а г — положительное число, то множество всех точек х, таких, что | х — а \ <^ г, называется окре- окрестностью или, точнее, г-окрестношью точки а. Определения понятий предельной и внутренней точек и сделанные в параграфе 2.2 в связи с этими понятиями для случая п = 1 замечания применяются без изменения в рассматриваемом здесь общем случае.
Мы видели в параграфе 2.2, что множество всех рациональных чисел в Rx счетно. В силу параграфа 1.4, отсюда вытекает, что множество всех точек плоскости с рациональными координатами счетно, и, далее, по индукции, что множество всех точек Rn с рациональными координатами счетно. 3.3. Борелевские множества. Класс интервалов в /?„, так же как и. соответствующий класс в Rv не является аддитивным классом множеств. Для того чтобы расширением этого класса образовать адди- аддитивный класс множеств, мы поступаем так же, как и в случае интер- интерналов в Rl. Так, мы рассматриваем сперва класс $„ всех множеств /, которые являются суммами конечных или счетных последовательностей интер- интервалов в /?„ . Если /j, /„, ..., —множества, принадлежащие к этому классу, то сумма 11-\-/г-\-... и конечное произведение /j/2... /„ также принадлежат к ^„. Так же как и в случае л=1, бесконечное произ- произведение /j/g... и разность /,—/г могут и не принадлежать к Зя. Расширяя класс ^„ присоединением всех сумм, произведений и раз- разностей множеств из ^л и повторяя этот процесс расширения снова и снова, мы приходим к множествам, которые можно получить из интервалов, производя операции сложения, умножения и вычитания конечное или счетное число раз. Совокупность множеств, которые могут быть получены этим путем, называется классом 33„ боре- левских множеств в Rn; 23„ является аддитивным классом. Так же как и в случае л = 1, класс 39„ есть наименьший аддитив- аддитивный класс множеств из Rn, заключающий в себе все интервалы. 3.4. Линейные множества. В случае я ^> 3 множество всех точек про- пространства Ru, удовлетворяющих некоторому уравнению F(xv ..., xj = — О, называется гиперповерхностью. Если F есть линейная функция, то соответствующая гиперповерхность называется гиперплоскостью. Уравнение гиперплоскости может быть всегда записано в виде где tn = (mv .. .,тп) есть произвольная точка гиперплоскости. Пусть C.4.1) Н, - ап (*, — «,) + ... -\-ain(xH—т„) = 0, (/= 1,2 р) суть уравнения р гиперплоскостей, проходящих через точку й*. Ура- Уравнения C.4.1) называются линейно независимыми, если не существует
линейной комбинации k^i1 -\-... -\- kpHp, где kt — постоянные, не все равные нулю, которая была бы тождественно равна нулю. Соответствующие гиперплоскости также называются линейно незави- независимыми. Пусть р<Сп- Рассмотрим множество L всех точек пространства #,., принадлежащих к р линейно независимым гиперплоскостям C.4.1). Если рассматривать C.4.1) как систему линейных уравнений с неиз- неизвестными xv ...,xu, то ее общее решение (см. параграф 11.8) есть */ = Щ + СП К + • • • + «I, п-р Ьп-р* где с1к— постоянные, зависящие от коэффициентов aik, a tv .. -,ttt — произвольные параметры. Таким образом, координаты точки множества L могут быть представлены линейными функциями от л—р независимых параметров- Поэтому множество L называется линейным множеством размер- размерности п — р и будет обычно обозначаться через Ln . Для р = 1 это гиперплоскость, для р = п — 2 — обычная плоскость, а для р = п—1—прямая. Обратно, если Ln_ есть линейное множество размерности п — р и если j»=(m,,.. .,шк) есть произвольная точка LH , то ?я-|, может быть представлено как общая часть (или про- произведение н смысле параграфа 1.3) р линейно независимых гиперпло- гиперплоскостей, проходящих через т. 3.5. Подпространства. Произведение пространств. Рассмотрим пространство Rn всех точек je = (jt,, ...,хп). Выберем группу из k<^n координат, скажем дг,, ..., xk, и положим все оставшиеся л — к координат равными нулю: д:А+1= ... =ха=0. Таким образом, мы получим систему из л — k линейно независимых уравнений, которые определяют линейное множество Lk размерности к. Оно называется ft-мерным подпространством, порожденным координатами xv ..., xk. Подпространство, порожденное другой группой из k координат, определяется аналогичным образом. Так, в случае д = 3, k=2 дву- двумерное подпространство, порожденное координатами х, и х2, есть ПрОСТО ПЛОСКОСТЬ (jfj, Х2). Пусть S есть множество в ^-мерном подпространстве, порожден- порожденном координатами jCj,...,jft. Множество всех точек х из Rn, таких, что (дг,, ..., хк, 0,..., 0) с: S, называется цилиндрическим множест- множеством с основанием S. В случае л = 3, k = 2 это обычный трех-
мерный цилиндр, имеющий своим основанием множество 5 в плоскости Далее, если S1 и S.z — множества, расположенные соответственно в подпространствах, порожденных координатами xv ..., хк и xk+v ..., хя, то множество всех точек X из Rn, таких, что {xlt ...,xk, 0, . ..,0) с: с 5, и @, ..., 0, xk+1,... хи) с 52, называется прямоугольным множеством со сторонами 5, и 52. В случае, когда я = 2, а 5, и ?2 — одномерные интервалы, это обычный прямоугольник на пло- плоскости (jfj, X.). Наконец, пусть Rm и Ra суть, соответственно, т- и «-мерное пространства. Рассмотрим множество всех пар точек (х, у), где х = = (*!, ...,*„) — точка в Яя, a j» = (^ уа) — точка в Ля. Это множество называется произведением пространств Rm и /?„. Оно является (/и -(- л)-мерным пространством, содержащим все точки (Хц .. .,хт, ylt.. ,,уп) в качестве своих элементов. Так, беря /» = = л —1, мы видим, что плоскость (XpJTj,) можно рассматривать как произведение, двух одномерных пространств — прямых xt и дг2. При т = 2, л=1 мы получим трехмерное пространство (jfj, jc2, д?3) как произведение плоскости (xlt х2) на одномерное пространство xt и т. д. Распространение данного нами определения произведения пространств на случай больше чем двух пространств-сомножителей не пред- представляет трудностей. Заметим, что введенное здесь произведение пространств есть нечто совершенно отличное от произведения мно- множеств, определенного в параграфе 1.3. Литература к главам 1—3. Теория точечных множеств была основана Г. Кантором около 1880 г. Она имеет фундаментальное значение для многих областей математики, например для современной теории интегрирования и теории функций. Большинство руководств по этим вопросам содержит главы о точечных множествах. Читатель может обратиться, например, к кни- книгам Бореля [6] и Валле-Пуссена [40]"*. *) Цифры в квадратных скобках относятся к списку цитированной лите- литературы в конце книги. {Прим. перев.) * На русском языке см.П.С. Александров и А. Н. Колмогоров .Введение в теорию функций действительного переменного" или Ф. X а у с- дорф .Теория множеств*. [Прим. ред.)
ГЛАВЫ 4 — 7 ТЕОРИЯ МЕРЫ И ИНТЕГРИРОВАНИЯ в /?, ГЛАВА 4 МЕРА ЛЕБЕГА ЛИНЕЙНЫХ ТОЧЕЧНЫХ МНОЖЕСТВ 4.1. Длина интервала. Длиной конечного интервала (а, Ь) в R. называется неотрицательная величина b—а. Таким образом, длина имеет одно и то же значение как для замкнутого, так и для откры- открытого и полуоткрытого интервалов, имеющих одни и те же концы. Длина вырожденного интервала равна нулю. Длину бесконечного интер- интервала мы, по определению, полагаем равной -j- со. Таким образом, каждому интервалу мы ставим в соответствие определенную неотрицательную длину, которая может быть конечной или бесконечной. Это можно выразить, сказав, что длина L (/) есть неотрицательная функция интервала i, и записав L(t) = b—а или L(i)= -\-оо, в зависимости от того, конечен или бесконечен интервал /. Если интервал i есть сумма конечного числа попарно непересекающихся интервалов (см.. параграф 2.1): ' = '1 + h + • • • "Г" /. (V, = 0 при JA ф V), то длина всего интервала / равна, очевидно, сумме длин интервалов ik; Покажем теперь, что это соотношение справедливо и в случае счет- счетной последовательности интервалов ik. Для читателя, который сталкивается с подобными вопросами впервые, это утверждение может показаться тривиальным. Тщательное изучение приведенного ниже доказательства может убедить его в том, что это не так. Для того чтобы дать строгое доказательство нашего утверждения, мы нуждаемся в следующем предложении, известном под названием леммы Бореля Пусть нам дан конечный замкнутый интервал (а, Ь) и мно- множество Z интервалов, таких, что каждая точка интервала (а, Ь) есть-
внутренняя точка по крайней мере одного из интервалов, принад- принадлежащих к Z. Тогда существует подмножество Z' множества Z, содержащее только конечное число интервалов, и такое, что каж- каждая точка интервала (а, Ь) есть внутренняя точка по крайней мере одного из интервалов, принадлежащих Z'. Разделим интервал (а, Ь) на я частей равной длины. Лемма будет доказана, если мы сможем показать, что можно подобрать я так, чтобы каждая из л частей (рассматриваемая как замкнутый интервал) целиком содержалась в некотором интервале, принадлежащем Z. Действительно, предположим, что такого л не существует. Обо- Обозначим через /„ первую из л частей (считая от конца а), не содержа- содержащуюся целиком ни в каком интервале, принадлежащем к Z. Длина <„, очевидно, стремится к нулю при л—»-с». Обозначим середину интер- интервала /„ через хп и рассмотрим последовательность точек xvx2 Так как она ограничена, то, по теореме Больцано — Вейерштрасса (см. параграф 2.2), она имеет предельную точку х. Любая окрестность этой точки х содержит некоторый интервал in, который не содержится целиком в интервале, принадлежащем к Z. С другой стороны, х есть точка интервала (а, Ь) и, следовательно, по предположению, есть внутренняя точка некоторого интервала, принадлежащего Z. Получен- Полученное противоречие доказывает лемму. Очевидно, что как сама лемма, так и приведенное выше ее доказа- доказательство могут быть непосредственно обобщены на случай простран- пространства произвольной размерности. Рассмотрим теперь последовательность попарно непересекающихся интервалов /? = (а,, Ь,), таких, что сумма всех /, есть конечный ин- интервал i = (a, b): 00 ' = S'v (У'» = ° при Докажем, что D.1.1) Каково бы ни было л, интервалы /,, ..., /я попарно не пересекаются и содержатся в /; поэтому 21 (/,)<?(/).
Переходя к пределу при я—»со, получим Остается доказать обратное неравенство. Эта часть доказательства не тривиальна. Рассмотрим множество Z, состоящее из: 1) интервалов |"„ 2) от- открытых интервалов (а — е, a -J— s) и (Ь — е, Ь-{-е), где s положительно и произвольно мало, 3) открытых интервалов (а, ";>а»~Ьг;) и (ft,— х;» *» 4" т;)» где v= 1,2, .... Тогда очевидно, что каждая точка замкнутого интервала (а, ft) есть внутренняя точка по крайней мере одного интервала, принадлежащего Z. В силу леммы Бореля, мы можем покрыть / конечным числом интервалов, принадлежащих Z, и сумма длин этих интервалов должна быть больше, чем ?(/) = = Ь — а. Сумма длин всех интервалов, принадлежащих Z, должна, тем более, превосходить L(i), так что Отсюда, так как s произвольно, 2/. е,) >м<ъ т. е. соотношение D.1.1) доказано. Легко далее показать, что соотношение D.1.1) имеет место и в случае, когда / — бесконечный интервал. В этом случае имеем L(i) = = -f- ее, и если /„ есть некоторый конечный интервал, содержащийся в /, то из последней части приведенного выше доказательства выте- вытекает, что 00 2 L(L)Z5>L (/,,). i Так как интервал i бесконечен, то можно выбрать /0 так, чтобы L (/0) было больше любой наперед данной величины, и, таким образом, равенство D.1.1) будет справедливо в том смысле, что обе его части равны -|- ее.
Таким образом мы доказали, что если интервал разбит на конеч- конечное или счетное число попарно непересекающихся интервалов, то длина всего интервала равна сумме длин его частей. Часто выра- выражают это свойство, говоря, что длина L(i) есть аддитивная функ- функция интервала L 4.2. Обобщение. Длина интервала есть мера его протяженности. Мы видели в предшествующем параграфе, что основные свойства этой меры суть ее неотрицательность и аддитивность. Длина интервала L (/') есть неотрицательная аддитивная функция интервала L Значе- Значения этой функции могут быть как конечными, так и бесконечными. Займемся теперь вопросом о возможности определения меры, обладающей теми же основными свойствами для множеств более сложных, чем интервалы. Со всяким множеством S, более или менее общего типа, мы хотим связать конечное или бесконечное*) число L(S)—-меру множества S, так, чтобы были выполнены следующие три условия: a) L(S)^0. b) Если 5 = 5,-1-5з + "- и -VS» = ° ("Ри JJL:7fcv)> то с) В частном случае, когда 5 есть интервал, Z. E) совпадает с дли- длиной интервала S. Таким образом, мы хотим расширить определение функции интер- интервала L(i) так, чтобы получить неотрицательную аддитивную функ- функцию множества L (S), которая в частном случае, когда 5 есть интер- интервал г, совпадает с L(i). Естественно спросить, почему это расширение ограничивается „более или менее общим классом множеств" и почему нельзя попытаться опре- определить ЛE) для любого множества S. Можно, однако, показать, что это невозможно. Поэтому мы удовольствуемся тем, что покажем, что функция множества L(S), удовлетворяющая требованиям а), Ь), с), может быть определена для класса множеств, заключающего о себе весь класс 33, борелевских множеств. Такая функция 1E) называется лебеговой мерой множества 5. Мы покажем далее, что *) Для функции множества L (S) и более общих функций множества, рас- рассматриваемых в главе 6, мы будем допускать бесконечные значения. С дру- другой стороны, для точечных множеств и обычных функций мы будем иметь дело с бесконечностью только в смысле предела, а не как с определенном точкой или значением (см. параграфы 2.1 и 3.1).
существует только одна функция множества L(S), определенная для всех борелевских множеств и удовлетворяющая условиям »), Ь), с). 4.3. Мера суммы интервалов. Определим сперва меру /.(/) для множеств /, принадлежащих к классу 3>> рассмотренному в пара- параграфе. 2,3. Каждое множество из ^ есть сумма конечной или счетной последовательности интервалов. Согласно параграфу 1.4, эти интер- интервалы можно выбрать так, чтобы они попарно не пересекались. (Дей- (Действительно, если множества 5„, рассматривавшиеся в параграфе 1.4, суть интервалы, то каждое Zv будет суммой конечного числа попарно не пересекающихся интервалов.) Таким образом, любое множество из 3 может быть представлено в виде D.3.1) /в=/1 + ^+..., где /, — интервалы, такие, что у, = 0 при ji=^=v. Согласно условиям Ь) и с) параграфа 4.2, мы должны определить меру L(I) так: D.3.2) L(l)=L{il)-\-L(iz)+..., где, как и прежде, ?(/,) обозначает длину интервала /,. Очевидно, однако, что представление / в форме D.3.1) не един- единственно. Пусть D.3.3) /=у1+уг+... другое представление того же множества / в виде суммы попарно непересекающихся интервалов /„. Мы должны показать, что D.3.1) и D.3.3) приводят к одному и тому же значению /.(/), т. е. ео оо )=2ад. Это может быть доказано следующим образом. Так как /^ с /, то для каждого интервала /^ имеем я, таким образом, в силу аддитивности длины, D.3.5) V- »
Тем же способом получим D.з.б) 2ВД=22 *(',/,)• V 7 (I Теперь могут представиться три случая: 1) интервалы i j4 все конечны, и двойной ряд 2МО\) с неотрицательными членами схо- дится; 2) все интервалы * /, конечны, но указанный двойной ряд расходится; 3) по крайней мере один из интервалов / / бесконечен. В" случае 1) выражения, стоящие в правых частях D.3.5) и D.3.6), конечны и равны, следовательно, соотношение D.3.4) выполняется. В случаях 2) и 3) те же выражения оба бесконечны. Итак, в любом случае справедливость D.3.4) доказана, и, следовательно, определение D.3.2) приводит однозначно к некоторому (конечному или бесконеч- бесконечному) значению L(I). Очевидно, что определенная таким образом мера L(I) удовлет- удовлетворяет условиям а) и с) параграфа 4.2. Остается показать, что условие Ь) также. выполнено. Пусть /j,/2, ...—последовательность множеств из % таких, что / А =0 при Ht^v, и пусть будет представлением /^ в виде суммы неперекрывающихся интервалов. Тогда есть также множество из % и интервалы /^ попарно не пересекаются. Если теперь представить двойную последовательность i в виде про- простой последовательности i\i",..., (например, нумеруя iay по диаго- диагоналям, как указано в параграфе 1.4), то мы будем иметь Исследование возможных случаев (аналогичное проведенному выше) покажет, что Итак, мы доказали, что соотношение D.3.2) определяет един- единственным образом для всех множеств I, принадлежащих к клас- СУ% меру ?(/), удовлетворяющую условиям а), Ь), с) параграфа 4.2.
Выведем теперь некоторые свойства меры /.(/). Прежде всего рас- рассмотрим последовательность /,, 1г, .. . множеств из ^, не предполагая, что множества /^ u /v не пересекаются. Для суммы /=/,-f-/2-|-... мы получим, как и выше, представление l = i'-\-Г-\~..., но интер- интервалы V, Г, ... могут теперь иметь общие точки. Тогда, применяя преобразование, изложенное в параграфе 1.4, легко видеть, что всегда •но дает D.3.7) Л( (В частном случае, когда 7^/,, —0 при Ji^v, как мы уже видели, это соотношение превращается в равенство.) Заметим, далее, что любая счетная последовательность точек л-,, х,,,.... есть множество, входящее в класс ^\, так как каждую точку х„ можно рассматривать как вырожденный интервал с длиной, равной нулю. Тогда из определения D.3.2) следует, что леера счет- счетного множества равна нулю. Отсюда мы получаем простое доказа- доказательство свойства, приведенного выше (см. параграфы 1.1 и 2.1) без доказательства: множество всех точек, принадлежащих невырож- невырожденному интервалу, несчетно. Действительно, мера этого множества равна длине интервала, т. е. есть положительная величина, в то время как мера счетного множества равна нулю. То же свойство имеет место и для невырожденных интервалов в Rn (при я ]> 1). Наконец, мы докажем следующую теорему, которая будет необ- необходима впоследствии для распространения определения меры на более общие классы множеств: Если множества 1 и J из % имеют конечную меру, то D.3.8) Рассмотрим.спериа случай, когда 1 к J являются суммами конеч- конечного числа интервалов. Из соотношений =/ + (У—/У), J = U-\- (J—U) мы получим, принимая во внимание, что все множества принадлежат 3 и слагаемые в правых частях наших соотношений не пересекаются,
что откуда н вытекает D.3.8). В общем случае, когда / и J суть суммы конечного ила счетного числа интервалов, это рассуждение не подходит, так как мы не можем быть уверены в том, что множество У—/У входит в 3 (см- параграф 2.3), и, значит, в этом случае мера L(J—/J) может быть еще не определена. Возьмем представления / и J в виде D.3.1); СО 00 /=2v -/=2/,. и положим я /л= 2v -V— 2л- Как было показано выше, При л —у зо каждый член этого соотношения стремится к соответ- соответствующему члену соотношения D.3.8), н тем самым это последнее доказано. 4.4. Внешняя и внутренняя меры ограниченного множества. В предыдущем параграфе мы определили меру L (/) для всех мно- множеств /, принадлежащих классу J. Для того чтобы распространить это определение на более общий класс множеств, мы введем теперь две вспомогательные функции — внутреннюю и внешнюю меры, кото- которые будут определены для любого ограниченного множества из /?г Во всем этом параграфе мы будем рассматривать только ограни- ограниченные множества. В качестве нашего пространства мы выбираем некоторый фиксированный конечный интервал (а, Ь) и рассматриваем только такие точки и множества, которые принадлежат (а, Ь). Соответ- Соответственно этому, под дополнением S* к множеству S мы будем под- подразумевать дополнение по отношению к (а, Ь) (см. параграф 1.3). Для того чтобы определить эти новые функции — внутреннюю и внешнюю меры, рассмотрим множество /, принадлежащее классу 3». и такое, что 5 с / с (д, А). Таким образом, мы заключаем множество 5
в сумму / интервалов, содержащихся, в свою очередь, в (а, Ь). Это всегда можно сделать, так как мы можем, например, выбрать 1 = (а, Ь). Множество / имеет меру L (/), определенную в предыдущем параграфе. Рассмотрим множество чисел L (/), которые соответствуют всем таким множествам I, содержащим S. Очевидно, что это множество имеет конечную нижнюю границу, так как L (/) 5з 0. Вишней мерой L E) множества S называется нижняя граница чисел L(l). Внутренняя мера ? E) множества S определяется соотношением L{S) = (b — а) — L E*). Так как мы рассматриваем здесь множества S, содержащиеся в ин- интервале (а, Ь), который сам является множеством из ^f, то, очевидно, 0<:АE)<* — a, 0<iE)«Sft — a. Далее, непосредственно из определений получаем, что L(S) и L{S) суть монотонные функции, от S-, т. е. при Sl с S2 D.4.1) Z (S,)< ГE2), 1E,)<4Eг). Действительно, для любого /, такого, что 52 с /, имеем 5, с/, от- откуда первое неравенство вытекает непосредственно. Второе неравен- неравенство получается из первого переходом к дополнительным множествам. Далее, если S с /, и 5* с /2, то каждая точка интервала (а, Ь) принадлежит, по крайней мере, одному из множеств /, и /2. Так как оба множества /, и /а содержатся в (с, Ь), то мы имеем /1-|-/а = = (а, Ь) и, следовательно, согласно D.3.7), Выбирая всеми возможными способами множества 1% и /2, содержащие, соответственно, S и 5*, получим, что соответствующее неравенство должно быть выполнено и для нижних границ чисел /.(/,) и L{ft), так что + b — a, т. е. D.4.2) 1E)<ZE). Пусть 5Р S2, ... есть данная последовательность множеств, пере- пересекающихся или непересекающихся. Согласно определению внешней
меры, для любого я можно найти такое /Л, что Sn с /„ и где е произвольно мало. Тогда имеем St -\- Sz -f- ... с /, -\- /4 -\-... и из D.3.7) получаем 1E, + S,-f... ) Так как г произвольно, то D.4.3) Z Для того чтобы вывести соответствующее неравенство для внут- внутренней меры L(S), рассмотрим два непересекающихся множества St и 52- Пусть дополнительные множества Si и Sj содержатся, соответ- соответственно, в /, и /2. Тогда (* - в) - L(Sr) = ГE1) = inf L (/,), где множества It и /2, содержащие S* и 5а, выбираются всевозможными способами. Далее, по A.3.1) имеем но отсюда мы можем только заключить, что D.4.5) (Ь — а) - L (S, + 52) = Г[E, + S2)*J < inf Z. (/,/,), так как, помимо произведения /,/я, могут быть и другие множества /, содержащие E,-}-52)*. Из D.4.4) и D.4.5) выводим, используя D.3.8), что L E, + 52) - L E,) ~ L E2) > Inf [L (/,) + L (/2)] — inf L (/, /2) —(* — «)> > inf [? (/,) Ц- L (/.) - L (/, /,)] — -(*-«) = = inf ^(/, + /,) — (* — а).
Так как 5, н 52 не пересекаются, то /, -^-I.^Si -\-Sl^ Ej52)* = — (a,b). С другой стороны, /, и Л, содержатся в (а, Ь), так что 1х-\-1„ с (а, Л). Таким образом, /,-{-/., = («, Л) и А E,+5.) >L E,) + ^E,). Пусть теперь 5,, 52, ... есть последовательность попарно непересе- непересекающихся множеств. Повторным применением последнего неравенства получим D.4.6) 1E, + 5,4- ¦ • •) > L (S{) 4- 4 E.) 4" • • • В частном случае, когда 5 есть интервал, из определений легко следует, что и ? E) и L(S) равны длине интервала. Если / = 2'* есть множество из '.J, где /v — непересекающиеся интервалы, то из D.4.3) и D.4.6) получим и, следовательно, согласно D.4.2) и D.3.2), D.4.7) Z Наконец, заметим, что внешняя и внутренняя меры не зависят от интервала (а, Ь), в котором, по предположению, содержатся наши множе- множества. Согласно параграфу 2.2, ограниченное множество S всегда содер- содержится в замкнутом интервале (а, '}), где а и *5 суть нижняя и верх- верхняя границы S. Если (а, Ь) есть некоторый интервал, содержащий 5, то as^a и Ь^г'р. Простое рассмотрение покажет, что два интервала (а, Ь) и (a, {J) дадут одни и те же значения внешней и внутренней меры 5. Таким образом, величины L (S) и L (S) зависят только от самок» 5 и не зависят от интервала (а, Ь). 4.5. Измеримые множества и лебегова мера. Ограниченное множество 5 называется измеримым, если его внешняя и внутренняя меры равны. Их общее значение обозначается через L (S) и назы- называется лебеговой мерой или просто мерой S: Неограниченное множество 5 называется измеримым, если* произ- произведение ixS, где ix обозначает замкнутый интервал (—х, х), изме-
римо при любом х ^> 0. Мера L (S) определяется тогда соотношением Z.(.S) = lim L{ixS). Согласно D.4.1), L(ixS) есть неубывающая функция от х. Таким образом, этот предел, конечный или бесконечный, всегда существует. В частном случае, когда 5 есть множество из % новое определе- определение меры совпадает с определением D.3.2). Для ограниченного мно- множества / это следует непосредственно из D.4.7). Для неограниченного множества / мы получим тот же самый результат, рассматривая огра- ограниченное множество ixl и перехоля к пределу при х—*оо. Согласно D.4.1), L (S) и L (S) суть монотонные функции множе- множества 5. Из данного нами определения следует, что то же имеет место и для L (S). Для любых двух измеримых множеств S{ и Sn, таких, что 5, сSa, мы, таким образом, имеем D.5.1) Z(S,XZ.(S.,). Покажем теперь, что мера L (S) удовлетворяет условиям а), Ь), с) параграфа 4.2. По отношению к условиям а) и с) это следует не- непосредственно из сказанного выше; остается доказать, что выполнено условие Ь), что составляет содержание следующей теоремы: Если попарно непересекающиеся множества S{, S.t,. ¦. изме- измеримы, то сумма 5, ~\- Sv -\- ¦. . также измерима и D.5.2) L E, + 5,: +.. •) = L (SJ + L (SJ f .... Рассмотрим сперва случай, когда все Sv 52,... содержатся в не- некотором конечном интервале (а, Ь). Тогда, так как все Sn измеримы то соотношения D.4.3) и D.4.6) дают Согласно D.4.2), L E, + 5. -f • • •) *? I E, + S. + ...) „, следо- следовательно, так что в этом случае наше утверждение доказано. В общем случае мы рассматриваем произведения ivSv ivSt, ..., каждое из которых содержится в конечном интервале ix. Проведенное
выше доказательство показывает, что произведение ix Ei -f- 58 -f- • - •) измеримо при любом х и Итак, 5,-}-52-{-¦•• измеримо, а так как все члены ряда в правой части последнего равенства суть неубывающие функции от х, то Таким образом, D.5.2) доказано, и лебегова мера удовлетворяет всем трем условиям параграфа 4.2. Множество 5, такое, что L {?) = 0, называется множеством мери нуль. Если внешняя мера Z,(«S) = O, то из определения меры следует, что множество 5 измеримо и имеет меру нуль. Мы уже видели в па- параграфе 4.3, что, в частности, каждое счетное множество имеет меру нуль. Из сказанного выше легко следуют следующие два предложения: Любое подмножество множества меры нуль есть множество меры нуль. Сумма последовательности множеств меры нуль есть множе- множество меры нуль. Эти предложения являются прямыми следствиями соотношений D.4.1) и D.4.3) для внешней меры. 4.6. Класс измеримых множеств. Рассмотрим класс 2 всех изме- измеримых множеств в ¦/?,. Мы собираемся доказать, что 2 есть аддитив- аддитивный класс множеств (см. параграф 1.6). Так как мы уже видели в предыдущем параграфе, что 2 содержит все интервалы, то отсюда сле- следует, что У содержит весь класс З^ борелевских множеств, так что все борелевские множества измеримы. Действительно, докажем, что класс 2 удовлетворяет условиям а,), Ь,) и Cj) параграфа 1.6. Выполнение условия аг) очевидно. Рассмотрим условие с,). Требуется доказать, что дополнение S* из- измеримого множества 6' само измеримо. Рассмотрим сперва случай ограниченного множества 5. Пусть S*—дополнение множества «S по отношению к некоторому конечному интервалу (a, h), содержащему S. Так как 5 измеримо, то. согласно определению внутренней меры, имеем L(S*) = {h — a)— L{S) = (b — a) — ?(S)=Z (S*),
так что 5* измеримо и имеет меру (Ь — а) — L{S). В общем случае, когда S измеримо, но не обязательно ограничено, то же рассужде- рассуждение показывает, что произведение Z^S*. где S* теперь означает до- дополнение S по отношению ко всему пространству /?,, измеримо при любом х^>0. Тогда, по определению, S* измеримо. Рассмотрим теперь условие Ь2). Нужно показать, что сумма «S, -f- + 52-f-... измеримых множеств Sv S2,... сама измерима. В част- частном случае, когда «S(l«S, = O (при ц =?>,»), это уже было доказано в предыдущем параграфе. Остается еще доказать общий случай. Достаточно рассмотреть случай, когда все 5Я содержатся в конеч- конечном интервале (а, Ь). Действительно, если бы наше утверждение было уже доказано в этом случае, то, рассмотрев множества ixSv f^S2,. -. мы нашли, бы, что их сумма **(«Si-{-«Sj-f-- ••) измерима при любом х~^>0. Тогда, по определению, Sj -f-S2 +... было бы измеримо. Таким образом, мы должны доказать, что если измеримые мно- множества Sv S2,... содержатся все в (а,Ь), то сумма «Si-f-«S2-|--¦ • измерима. Сперва докажем это для частного случая, когда мы имеем только два множества St и S2. Пусть л—индекс, принимающий значения 1 и 2, и пусть дополнительные множества берутся по отношению к интервалу (а, Ь). Так как Sn и Sn измеримы, то можно найти такие множества /„ и Jn из 3> что D.6.1) 5„с/дс(а, Ь), S'n<=Jac(a, Л), а разности ?(/„) — L{Sn) и L(Ja) — L(Sl) обе меньше данного е > 0. Теперь, согласно D.6.1), каждая точка интервала (a, ft) должна при- принадлежать, по крайней мере, одному из множеств 1„ и Jn, так что /„ + Уя = (а, Ь) и, следовательно, согласно D.3.8), D.6.2) L(InJn) = L(fn)-\-L{Jn)-(b-a) = Из D.6.1) следует далее, что и, следовательно, L (Sx + 58) >(* - а) — L (
Легко видеть, что /, 4-/2 4-У,./., = (а, ?). Тогда, применяя еще раз D.3.8), получаем из соотношения D.6.3) 1 (S, 4- Ss) — L (S, 4-Ss) < Lf(/, 4- /,)У,Л]. Теперь (/, 4- /.,)У,/г = /,7,/, 4- /.,7,7,с/,7, 4- V,, так что мы получаем с помощью D.5.1), D.3.7) и D.6.2) I E, -f 5,,) — ? E,4- Ss) < ? (/,4*4- Z. (/,,/,)< 4 s. Так как г произвольно, а внутренняя мера никогда не превосходит внеш- внешнюю, то отсюда следует, что Z,E, 4-<?>)=:?.A^1 "Ь^гЬ т- е. 5j + ^ измеримо. Отсюда непосредственно следует, что сумма 5, 4-... 4- Sk лю- любого конечного числа измеримых множеств, содержащихся в (а, Ь), из- измерима. Соотношение 5j52... Sn — (Si 4"- • -4-Sn)* показывает, что то же верно и для произведении. Рассмотрим, наконец, случай бесконечной суммы. С помощью пре- преобразования, изложенного в параграфе 1.4, получим где Zv=Si... S%,\S., и ZlfZ.l = Q (при JA-/-V). Так как S\, . ¦ ¦ S-,.. 1 неизмеримы, то и Zv измеримо. Наконец, согласно D.5.2), сумма Z, 4- Z» 4-... измерима. Итак, мы доказали, что измеримые множества образуют адди- аддитивный класс 2. Следовательно, сумма, произведение и разность конечного или счетного числа измеримых множеств измеримы. В ча- частности, борелевские множества измеримы. 4.7. Измеримые множества и борелевские множества. Класс I' из- измеримых множеств в действительности тире, чем класс чй, борелеи- ских множеств. В качестве иллюстрации различия между обоими клас- классами мы упомянем без доказательства следующее предложение: каж- каждое измеримое множество есть сумма борелевского множества и множества меры нуль. Все множества, встречающиеся обычно в при- приложениях математического анализа, суть борелевские множества, и мы будем поэтому, вообще говоря, ограничиваться рассмотрением класса S^j и соответствующего класса Фп в л-.мерных пространствах.
Докажем теперь утверждение, сформулированное в параграфе 4.2, что лебегова мера есть единственная функция, определенная для всех борелевских множеств и удовлетворяющая условиям а), Ь), с) параграфа 4.2. В самом деле, пусть Л E) есть некоторая функция множества, удов- удовлетворяющая сформулированным условиям. Для каждого / из ^ мы должны, очевидно, иметь Л (/) = ?(/), так как наше определение D.3.2) меры L(l) однозначно продиктовано условиями Ь) и с) параграфа 4.2. Пусть теперь 5 есть ограниченное борелевское множество. Заключим 6' в множество / из класса '$. Тогда из условий а) и Ь) следует, что Л (S)«S Л(/) = /_(/). Нижняя граница чисел /_(/) для всех У, содер- содержащих 5, равна L E) и, следовательно, А E) ^ L (S). Заменяя 5 его дополнением S* по отношению к некоторому конечному интервалу, имеем АE*)^ АE*) и, следовательно, \(S)^L(S). Таким образом, Л (S) и L (S) совпадают для всех ограниченных борелевских множеств. Это же совпадение имеет место и для неограниченных борелевских множеств, так как* неограниченное борелевское множество может быть, очевидно, представлено как сумма последовательности ограниченных борелевских множеств. Наконец, докажем теорему относительно меры предела (см. па- параграф 1.5) монотонной последовательности борелевских множеств. Со- Согласно параграфу 2.3, каждый такой предел есть борелевское множество. Если Sv S2,...ecmb неубывающая последовательность борелев- ских множеств, то D.7.1) hmL(Sn) = L(\imSn). То же равенство выполняется и для невозрастающей последо- последовательности борелевских множеств, если только L (S,) конечно. Действительно, дли неубывающей последовательности мы имеем lim Sm = и, в силу D.5.2), L (lira Sn) = L E,) + L E2 — SJ Для невозрастающей последовательности, такой, что АE2) конечно, требуемое соотношение доказывается переходом к дополнительным множествам 5* по отношению к Sr Пример Sn = (я, -f-oo) показы- показывает, что требование конечности L(St) существенно.
ГЛАВА S ИНТЕГРАЛ ЛЕБЕГА ОТ ФУНКЦИЙ ОДНОЙ ПЕРЕМЕННОЙ 5.1. Интеграл от ограниченной функции по множеству конеч- конечной меры. Все точечные множества, рассматриваемые далее в этой книге, суть борелевские множества, "если специально не оговорено противное*"*. Пусть 5 есть данное множество конечной меры L (S), a g(x)—функ- g(x)—функция действительного переменного х, определенная для всех значений х, принадлежащих к S. Мы будем предполагать, что g(x) ограничена на S, т. е. что нижняя и верхняя границы значений, принимаемых функцией g(x) на множестве 5, конечны. Обозначим эти границы со- соответственно через от и М, так что m^g(x)^M для всех х, принад- принадлежащих S. Разобьем 5 на конечное число попарно не пересекающихся частей Sv... ,Sn так, что На множестве 5„ функция g(x) имеет нижнюю границу /и, и верх- верхнюю границу Мч; при этом т <: тч ^ Mv ^M. Теперь определим связанные с этим разбиением нижнюю и верх- верхнюю суммы Дарбу соотношениями E.1.1) z Очевидно, что mL E)< z< Z ^ ML Непосредственно видно также, что каждое продолжение нашего раз- разбиения, т. е. такое разбиение, которое получается при дальнейшем подразбиении частей S.,, даст нижнюю сумму не меньшую, а верхнюю сумму не большую, чем соответствующие суммы при первоначальном разбиении. Каждое разбиение множества 5 на произвольное конечное число попарно не пересекающихся частей даст, согласно E.1.1), нижнюю сумму г и верхнюю сумму Z. Рассмотрим множество всех нижних сумм г и множество всех верхних сумм Z, получающихся при всевоз- *) Для того чтобы дать полное изложение теории интеграла Лебега, не- необходимо рассматривать измеримые множества, а не только борелевские множества. Однако, как указано в параграфе 4.7, ограничение борелевскимк множествами вполне достаточно дли наших целей.
ножных разбиениях множества S. Будем их кратко называть 2-множе- ством и Z-множеством. Оба эти множества ограничены., так как все г и Z заключены между mL (S) и ML [S). Покажем, что верхняя грани- граница z-множества не превосходит нижней гранииы Z-множества, Таким образом, эти два множества имеют, самое большее, одну общую, точку, и, не считая этой точки, все элементы .z-множества лежат левее всех элементов Z-множества. Для того чтобы доказать это утверждение, предположим, что z' есть произвольная нижняя сумма, соответствующая разбиению 5=5^-}- -}-•. .-j-5/,1, a Z" есть произвольная верхняя сумма, соответствующая разбиению S=«Si + ... -{-S^». Очевидно, достаточно показать, что z'^Z". Это, однако, непосредственно следует из рассмотрения раз- биения 5=2*2 5/5*, являющегося продолжением каждого из дан- ных разбиений. Если соответствующие этому новому разбиению суммы Дарбу суть z0 и Zo, то мы, согласно сделанному выше замечанию имеем я'=ё z0 =ё Zo < Z*, и тем самым наше утверждение доказано. Верхняя граница z-множества (будем обозначать ее sup г) назы- называется нижним интегралом функции g(x) на множестве S, а нижняя граница Z-множества (обозначаем ее infZ) называется верхним и«- тегралом функции g(x) на множестве S. Мы пишем E.1.2) \ Из сказанного выше следует, что E.1.3) mL (S) < Г g{x) dx^J g{x) dx < ML (S). s s Если верхний и нижний интегралы равны (т. е. если sup z = inf Z), то говорят, что g(x) интегрируема в смысле Лебега или, коротко, интегрируема на S. Общее значение обоих интегралов называется интегралом Лебега функции g(x) на множестве S, и мы пишем. $ g{x) dx=] g(x) dx = J^(jr) dx. s s s Для того чтобы функция g(x) была интегрируема на множестве S, необходимо и достаточно, чтобы для каждого е^>0 существовал»
такое разбиение S, что соответствующая разность Z—г меньше 6. Действительно, если это условие выполнено, то из наших определений верхнего и нижнего интегралов следует, что разность между ними меньше г, и так как е произвольно, то эти интегралы совпадают. Обратно, если известно, что g{x) интегрируема, то отсюда непосред- непосредственно следует, что должны существовать такая нижняя сумма г' и такая верхняя сумма 2", что 2*— z'<[e» Разбиение, которое служит продолжением разбиении, соответствующих суммам г' и Z", дает ниж- нижнюю сумму г0 и верхнюю сумму Zo, такие, что Zo— ^о^5- Мы видим, что приведенное рассуждение совершенно аналогично обычному определению интеграла Римана. Для интеграла Римана множество 5 есть интервал, разделенный на конечное число подинтер- валов 5V, а суммы Дарбу образуются согласно E.1.1), где Z.EV) обо- обозначает длину у-го интервала 5„. Единственное отличие заключается в том, что в разобранном нами случае мы рассматриваем более общий класс множеств, чем интервалы, так как 5 и 5, могут быть любыми бо- релевскими множествами. В то же время мы заменяем длину интер- интервала Sv ее естественным обобщением — мерой множества ?v. В частном случае, когда 5 есть конечный интервал (а, Ь), каждое разбиение (а, Ь) на подинтервалы, рассматриваемое при определении интеграла Римана, есть частный случай разбиений на борелевские множества, фигурирующие в определении интеграла Лебега. Однако .мы рассматриваем также разбиения интервала {а, Ь) на борелевские множества, не являющиеся интервалами. Эти более общие разбиения могут увеличить значение верхней границы 2-множества и уменьшить значение нижней границы Z-множества. Мы видим, таким образом, что верхний и нижний интегралы, определенные соотношением E.1.2), за- заключены между соответствующими римановыми интегралами. Если g(x) есть функция, интегрируемая в смысле Римана, то последние равны и, следовательно, равны и интегралы E.1.2), т. е. g(x) инте- интегрируема также и в смысле Лебега, причем значения интегралов Ри- Римана и Лебега совпадают. Если мы рассматриваем функции, интегрируемые в смысле Рима- Римана, и их интегралы, распространенные на интервалы, то нет на- надобности различать оба вида интегралов. Определение интеграла Лебега, конечно, несколько сложнее, чем опреде- определение интеграла Римана. Введение этого усложнения оправдывается тем, что свойства интеграла Лебега проще, чем свойства интеграла Римана. Для
того чтобы показать, что интеграл Лебега существует для более общего класса функций, чем класс функций, интегрируемых по Римаиу, рассмотрим, например, функцию g(x), равную нулю, если х иррационально, и равную 1, если х рационально. В каждом невырожденном интервале эта функцня имеет нижнюю границу, равную нулю, и верхнюю границу, равную единице. По- Поэтому нижняя и верхняя суммы Дарбу в определении риманова интеграла функции g(x) на интервале @,1) при любом разбиении @,1) на подынтервалы равны соответственно 0 и 1, так что интеграл Римапа не существует. Если с другой стороны, мы разобьем интервал @,1) на две часги St и Sn содер- содержащие соответственно все иррациональные и все рациональные точки ин- интервала, то g{x) равна нулю на множестве 5/ и равна единице на множе- множестве Sr. Далее, Si имеет меру 1, a Sr—меру 0, так что обе суммы Дарбу E.1.1), соответствующие этому разбиению, равны 0. Тогда верхний и нижний интегралы E.1.2) также оба равны 0 и, следовательно, интеграл Лебега функ- функции g(x) на интервале @,1) существует и равен 0. Интеграл Лебега на интервале (а,Ь) обычно обозначается так же. как и интеграл Римана: ь {g(x)dx. а Мы увидим ниже (см. параграф 5. 3), что этот интеграл имеет одно и то же значение, независимо от того, рассматриваем ли мы интервал (а, Ь) как замкнутый, открытый или полуоткрытый. В частном случае, когда g(x) непрерывна для а «с х^ b, интеграл G(x)=[g(t)dt существует (как н смысле Римапа, так и в смысле Лебега) и мм имеем E.1.4) Gl(x)^g(x) для всех х из интервала (о, Ь). 5.2. /^-измеримые функции. Мы говорим, что функция g(x), опре- определенная иа множестве S, измерима в смысле Бореля или В-измерима на множестве S, если множество всех точек х из S, для которых g{x)^k, есть борелевское множество при любом действительном зна- значении k. Мы докажем следующую важную теорему: Если g(x) ограничена и В-измерима на множестве S конечной меры, то она интегрируема на S.
Предположим, что m<^g(x)^ M для всех х, принадлежащих 5. Пусть дано s ^> 0. Разобьем интервал (т, М) на подынтервалы точками уч, такими, что т = уо<У1 <¦ ¦ '<Уп-х<У„ = М, и при этом длина каждого подинтервала меньше г. Очевидно, что это всегда можно сделать, взяв п достаточно большим. Теперь пусть 5, обозначает множество всех точек, принадлежащих S, и таких, что (>=!. 2,..., я). Тогда S = S,-|-•••+.!>„ и 5^5v = 0 при n=^v. Далее, 5, есть раз- разность между двумя борелевскими множествами, определенными соответ- соответственно неравенствами g(x)^yy и g(x)^)\_v и, следовательно, Sv есть борелевское множество. Разность Л/,— /я, между верхней и нижней границами функции g(x) на множестве Sy не превосходит уч—Уч-\<С.?- Отсюда мы получаем для сумм Дарбу, соответствую- соответствующих данному разбиению множества ¦?, Но 6 произвольно мало, и, следовательно, согласно предыдущему па- параграфу, g(x) интегрируема на S. Важность доказанной теоремы следует из того, что все функ- функции, обычно встречающиеся в приложениях математического ана- анализа, В-измеримы. Поэтому в дальнейшем мы будем рассматривать только В-измеримые функции. Как и в случае борелевских множеств, предположение В-измеримости рассматриваемых функций специально оговариваться не будет. Здесь мы остановимся лишь кратко на обосновании этого утверждения, отсылая за дальнейшими деталями к специальным работам, например, Валле- Пуссена [40]. Рассмотрим сперва случай, когда S есть конечный или беско- бесконечный интервал (a, t), и будем говорить просто о .f-язмеримости' вместо .^-измеримости на интервале (а, Ь)'. Если?\ н & — В-измсримые функции, то сумма gx + Si, разность g\ — gt и произведение &й также ^-измеримы. До- Докажем это для суммы, другие случаи доказываются аналогично. Пусть дано А и пусть U обозначает множество всех х из (д,й),для которых ?i+ &=?:*, a lfr и U* обозначают соответственно множества, определенные неравен- неравенствами gi^r и gi^k — r. Тогда, по предположению, U'r и и" суть борелев- ские множества при любых ft иг, и можно проверить, что U=IlWr + l/'r), где г пробегает счетную последовательность положительных и отрицатель-
ных рациональных чисел. Так как, согласно параграфу 2.3, U есть борелев- борелевское множество при любом значении к, то, следовательно, & + й есть fi-нз- меримая функция. Доказательство непосредственно переносится на случай суммы или произведения любого конечного числа ^-измеримых функций. Рассмотрим теперь бесконечную сумму ?=gi-}-&+•--В-измеримых функций, котирую мы предполагаем сходящейся для всех х в интервале (а, Ь). Пусть е1; е2, ... есть убывающая последовательность положительных чисел, стремящаяся к нулю, и пусть Qmn обозначает множество всех точек х из (а,Ь), для которых Д+ .-. + йп<* + ея- Тогда Qmn есть борелевское множество и, если мы положим Rmn = QmnQm+\,n--> Vn = /?1и + R*i + ¦ ¦ ¦. U=U1Ui..., то, как в этом нетрудно убедиться, U есть множество точек х из (а, Ь), для которых g{x)^k. Так как при определении U использованы только суммы и произведения борелевских множеств, то U есть борелевское множество, и следовательно, функция g(x) В-измерима. Далее, если g есть предел сходя- сходящейся последовательности gj, g^ ... В-нзмеримых функций, то ?=&-+- -M&—?i) + (Si— ?>)-{-¦••> и, следовательно, функция g ^-измерима. Теперь очевидно, что функция g(x) = cxn В-измерима при любой постоянной с и при любом натуральном п. Следовательно, всякий полином есть В-из- меримая функция. Всякая непрерывная функция есть предел некоторой по- последовательности полиномов и, следовательно, представляет собой /^-измери- /^-измеримую функцию. Аналогично, любая функция, полученная посредством предель- предельных переходов из непрерывных функций, В-измерима. При доказательстве этих предложений предполагалось, что S есть интер- интервал. Пусть функция g(x) В-нзмерима на (a,b), a S есть борелевское множество в интервале (а, Ь). Тогда функция е (дг), равная 1 на S и 0 на S*. очевидно, В-измернма на (а, Ь), и, следовательно, произведение е (дг) g(x) есть функция, В-измеримая на (а,Ь)\ отсюда вытекает, что g(x) ^-измерима на S. Если в частности,Sесть множество всех л:из интервала (a,t), для которых g(x)^0, то \g(x)\ = g{x) — 2e(x) g(x). Таким образом, модуль В-измеримой функции есть В-измеримая функция. Таким образом, когда мы имеем дело с ^-измеримыми функциями, то обычные операции над ними и предельные переходы приводят снова к Я-измеримым функциям. По теореме, доказанной выше, всякая огра- ограниченная функция, полученная этим путем, интегрируема по Лебегу на любом множестве конечной меры. Для интеграла Римана соответ- соответствующее предложение неверно*); это — одно из свойств, которое де- делает интеграл Лебега понятием в некотором смысле бдлее простым, чем интеграл Римана. *) Даже если предел g(x) последовательности функций, интегрируемых по Риману, ограничен на интервале (а, Ъ), то и тогда нельзя утверждать, что интеграл Римана функции g(x) на интервале (а, 6) существует. Рассмотрим, например, последовательность функций gb gt,..., где g, равно 1 для всех ра-
Сделаем, наконец, еще одно замечание, которое будет использовано в дальнейшем (см. параграф 14.5). Пусть g(x) есть Я-измеримая функция на множестве S. Уравнение y = g(x) определяет соответствие между переменными х я у. Обозначим через Y некоторое данное множество на оси у, а через X—множество всех х из S, таких, что y=g(x)czY. Будем тогда говорить, что множество X соответствует множеству К. Очевидно, что если Y есть сумма, произведение или разность некото- некоторых множеств Yv К2,..., то АГесть сумма, произведение или разность соответствующих множеств Xv Х2,.,. Далее, если К есть замкнутый бесконечный интервал (— со, k), то, как мы знаем, X есть борелевское множество. Каждое борелевское множество может быть получено из таких интервалов сложением, умножением и вычитанием. Следовательно, множество X, соответствующее борелевскому множеству Y, есть борелевское множество. 5.3. Свойства интеграла. В этом параграфе мы будем рассматри- рассматривать только ограниченные функции и множества конечной меры. Сле- Следующие свойства E.3.1) — E.3.4) совершенно аналогичны соответ- соответствующим свойствам интеграла Римана и доказываются таким же образом с помощью определений, данных в параграфе 5.1: E.3.1) f|>, (х) + ft (*)] dx = ^ (x) dx -|- J g2 (x) dx, s $ s E.3.2) \ E.3.3) mL (S) < [g(x) dx^ML (S), s E.3.4) \ g(x) dx =* ^g{x) dx + [g(x) dx, где с—постоянная, т и М обозначают нижнюю и верхнюю границы функции g(x) на S, а множества 5, и Sa не имеют общих точек. Свойства E.3.1) и E.3.4) непосредственно распространяются на случай циональных х со знаменателем, меньшим л, и равно 0 для всех осталь- остальных точек. Очевидно, что gn интегрируема по Риману на интервале @,1), но предел функции ga при л -*¦ со есть функция g(x), равная 0 при ирраци- иррациональном х и 1 при рациональном х, а мы видели уже в предыдущем пара- параграфе, что эта функция не интегрируема в смысле Римана на интервале @,1).
произвольного конечного числа слагаемых. Если мы рассмотрим неот- неотрицательную функцию \g(x)\±g(x), то из E.3.3) следует, что E.3.5) В частном случае, когда g(x) тождественно равно 1, неравенства E.3.3) дают \'dx = L{S). s Далее, из E.3.3) следует, что интеграл любой ограниченной функции g{x) на множестве меры 0 равен нулю. В силу E.3.4) отсюда сле- следует, что, если функции gt(x) и g2(x) совпадают для всех х из S, за исключением, может быть, подмножества меры нуль, то \ gl(x)dx=\gi{x)dx. 8 Следовательно, если произвольным образом изменить значения подин- тегральной функции на подмножестве меры нуль, то это не изменит значения интеграла. Мы можем даже допустить, чтобы функция была совсем не определена на подмножестве меры нуль. Мы видим также, что если множества Sl и 52 отличаются друг от друга лишь на мно- множестве меры нуль, то интегралы любой ограниченной функции g(x) на множествах S, и 52 совпадают. Отсюда следует, в частности, пра- правильность сделанного в параграфе 5.1 утверждения, что интеграл на интервале имеет одно и то же значение, независимо от того, является ли он замкнутым, открытым или полуоткрытым. Из сказанного выше следует, что в теории интеграла Лебега часто можно пренебрегать множествами меры нуль. Если некоторое условие выполнено для всех х, принадлежащих рассматриваемому множеству 5, за исключением, быть может, некоторых значений х, образующих под- подмножество меры 0, то мы будем говорить, что это условие выполнена почти всюду на S или для почти всех значений х из S. Докажем теперь важную теорему, принадлежащую Лебегу, относи- относительно интеграла функции, являющейся пределом сходящейся последо- последовательности функций. Будем говорить, что последовательность g{(x), gt (x),... равномерно ограничена на множестве S, если существует постоянная К, такая, что \g4(x)\<^K для всех v й для всех х из S,
Если последовательность {g^(x)\ равномерно ограничена на S и если предел lim g4 (x) = g(x) существует почти всюду на S, то У -ЮЗ E.3.6) lira \gy{x)dx=\g(x)dx. Если Iung4(x) существует не для всех х из S, то мы дополняем определение-функции g(x) на множестве S, полагая g(x) = 0 в тех точках х, для которых этот предел не существует. Тогда \g(x)\^K для всех х т S и из предыдущего параграфа вытекает, что g(x) ^-измерима на S, а следовательно, и интегрируема на S. Пусть теперь дано е > 0. Рассмотрим множество Sn всех точек х из S, в которых I ёу (х) — 8(х) | «? б при v = л, л + 1. .. • Тогда Sa суть борелевские множества, Sv S2 ,... образуют неубывающую последовательность, а предельное множество lim 5„ (см. параграф 1.5) содержит каждую точку х из S, для которой limgv(x) существует. Таким образом, со- согласно предположению, lira 5„ имеет ту же меру, что и S, и, согласно D.7.1), имеем lim L (Sh) = L (lira Sn) = L (S). Итак, мы можем выбрать л такое, что L(Sn)^>L(S) — e или L{S—5„)<^?, и тогда получим для всех vS*« J s-s* Так как е произвольно и 5 то теорема тем самым доказана. Теорема E.3.6) может быть сформулирована в другой форме, как теорема о почленном интегрировании ряда: 00 Если ряд 2/»(*) сходится почти всюду на S и если частные суммы ? U (х) равномерно ограничены на S, то E.3.7) j(|/, (х)) dx= jt\fy(*)dx.
В этой форме теорема является обобщением равенства E.3.1) на бесконечное число слагаемых. Покажем теперь, что соответствующее обобщение соотношения E.3.4) может быть получено как следствие из E.3.7). Если S = S,-\-Ss-\- ..., где 5^5, = 0 для рфу, то E.3.8) \ g(x)dx = ] i Пусть ev(jc) есть функция, равная 1 для всех х из 5V и равная О во всех остальных точках. Для каждого х, принадлежащего множе- множеству S, имеем тогда *(*)=2 «,(*)*(*)• Очевидно, что частные суммы этого ряда равномерно ограничены на 5. Тогда, в силу E.3.7), В частном случае, когда g(x)=\, соотношение E.3.8) сводится к аддитивности лебеговой меры (см. D.5.2)). 5.4. Интеграл от неограниченной функции на множестве конечной меры. В параграфах 5.1 и 5.2 мы видели, что интеграл Лебега [g{x)dx $ имеет определенное значение при двух предположениях: 1) ^(jc) огра- ограничена на 5 и 2) 5 имеет конечную меру. Попытаемся теперь устра- устранить эти ограничения. В этом параграфе мы будем рассматривать слу- случай, когда множество 5 все еще имеет конечную меру, но g{x) уже не обязательно ограничена на S. Пусть а и Ь — какие-нибудь числа, такие, что а<^Ь. Положим !а, если g(x), если Ь, если
Очевидно, что gajb(x) ограничена, ^-измерима на 5 и, следовательно, интегрируема на S. Если предел E.4.1) lim [ga.b(x)dx=\g(x)dx ft»foo существует и имеет конечное значение, то мы будем говорить, что интегрируема на множестве S, а сам этот предел называется инте- интегралом Лебега функции g(x) на множестве S. Непосредственно из определения следует, что любая функция ин- интегрируема на множестве меры нуль и что значение этого интеграла равно нулю, как и в случае ограниченной функции. В определении E.4.1) мы можем предположить, что а и тогда ёа,Ь (*) = Sa,b — ga,0 + g I «"(*) I..» =4*1.,» = — g-a Для фиксированного х ga>0{x) и gOAb{x) суть неубывающие функ- функции от а и Ь. Следовательно, обе функции g(x) и |^(л:)| интегри- интегрируемы тогда и только тогда, когда пределы E.4.2) lim \gaA{x)dx и lim [g ь(х)dx оба конечны. Отсюда следует, что интегрируемость функции g(x) эквивалентна интегрируемости функции |g(x)|. Далее, отсюда вытекает, что если g(x) интегрируема на S, то она интегрируема и на любом его подмножестве*). Если для всех х из 5 имеем |?(*)|<С[б(лг), где G(x) интегри- интегрируема на S, то \g]a,b^Gajb, так что \g(x)\, а значит и g(x)i инте- интегрируемы на S. Теперь мы непосредственно обнаружим, что свойства E.3.2) — E.3.5) интеграла выполнены для любой интегрируемой g(x). Что ка- касается E.3.3), то нужно, конечно, заметить, что одна из границ т и М или даже обе могут быть бесконечны. Перейдем к обобщению E.3.1), которое несколько сложнее. Пред- Предположим, что функции f(x) и g(x) интегрируемы на S. Из того, что *) Напомним, что, согласно сделанному в начале этой главы замечанию рассматриваются только борелевские (н, следовательно, измеримые) подмно- подмножества. [Прим. перев.)
следует, что f(x)-\-g(x) также интегрируема. Мы должны показать, что в этом случае выполняется E.3.1), т. е. E.4.3) Предположим сперва, что / и g неотрицательны на S. Тогда (/+?¦)„,<> = /в,о = О = °. (/ + А,* < /о,* и, следовательно, Переходя к пределу при а—>— ею, Ь—»-Ц-оо, получим E.4.3). В общем случае множество 5 может быть разбито на шесть попарно не пересекающихся подмножеств, на каждом из которых ни одна из трех функций f,gn f-\-g не меняет знака. Для каждого из этих подмно- подмножеств соотношение E.4.3) доказывается проведенным выше рассужде- рассуждением. Складывая результаты и применяя E.3.4), получим E.4.3). Мы, таким образом, показали, что все свойства E.3.1) — E.3.5) интеграла выполнены и для нашего более общего случая. Для того чтобы обобщить также свойства, выражаемые соотношениями E.3.6) — E.3.8), мы докажем сперва следующую лемму: Если g(x) интегрируема на множестве 50 и если задано г>0, то всегда существует такое i^>0, что E.4.4) для каждого подмножества S с 50, удовлетворяющего условию- Так как нами уже было доказано выполнение условия E.3.5), то достаточно доказать лемму в предположении, что функция g(x) неот- неотрицательна. В этом случае [gdx= liin \gu,bdx, и, следовательно, можно найти такое Ь, что 5.
Так как подинтегральное выражение неотрицательно, то из E.3.4) и E.3.3) следует, что для любого подмножества S d Su имеем f(ff— [ftdx< (ft,, d* + I g < M. E) + i 6. VIЛ И Выбирая 5 = 2ft> получим утверждение леммы. Следствием этой леммы является следующее утверждение: если X g(x) интегрируема на интервале (а, Ь), то интеграл $g(t)dt есть не- а прерывная функция от х при а^х<^Ь. Теперь мы можем перейти к обобщению свойства E.3.6). Предпо- Предполагая, что lim g,,(x) = g(x) почти всюду на S, мы покажем, что со- отношение E.4.5) llm \^(x)dx=\g(x)dx ч -Ю05 s выполняется, если последовательность fev(je)} равномерно ограничена некоторой интегрируемой функцией, т. е. если | §•, (х) | <^ О (х) для всех v и для всех х, принадлежащих S, где О(х) интегрируема на множестве S. В частном случае, когда G (х) = const, это сводится к E.3.6). Доказательство вполне аналогично доказательству E.3.6). Из сде- сделанного предположения вытекает, что |#(лО| *S G(x) почти всюду на 5, и, следовательно, gv и g интегрируемы на S. Пусть задано е]>0. Обозначим через Sn множество всех х, принадлежащих S, для кото- которых \g4(x) — g(x)\^e при всех vSsn. Тогда SvSi>>.. есть неубы- неубывающая последовательность и L(Sn)~+L{S). Используя лемму E.4.4), определим теперь е так, чтобы \Q(x)dx<fe для всех подмножеств S'cS с мерой ?(?')<3, и выберем л так, чтобы L(Sn) >iE)~i и, следовательно, L(S—Stt)<^b. Тогда получим для всех ^ = J+ J <eAE) + 2j O(x)dx< S ss ss s-sn
и, таким образом, E.4.5) доказано. Соответствующие обобщения для E.3.7) и E.3.8) получаются непосредственно. 5.5. Интеграл на множестве бесконечной меры. Устраним теперь также второе ограничение, упомянутое в начале параграфа 5.4, и рас- рассмотрим интегралы Лебега на множествах бесконечной меры. Пусть <S есть борелецское множество бесконечной меры. Обозначим через Sa<b произведение (общую часть) множества S и замкнутого интервала (а,Ь\ где а и b конечны. Разумеется, Saj6 есть множество конечной меры. Если функция g(x) интегрируема на множествах SOjb при всех а и b и если предел m^ [\g(x)\dx=[\g(x)\dx . -- Sn.h S существует и имеет конечное значение, то мы будем говорить, что функция g(x) интегрируема на множестве S *). Легко видеть, что в этом случае предел E.5.1) lim f g(x)dx=\g(x)dx существует и имеет конечное значение; мы будем поэтому говорить, что интеграл Лебега-функции g(x) на множестве 5 сходится*). Предел E.5.1) и есть, по определению, значение этого интеграла. Если функция g(x) интегрируема на 5, то она также интегрируема и на любом подмножестве множества S. Если \g(x)\<^G(x) для всех х, входящих в S, причем 0(х) ин- интегрируема на множестве S, то, как легко видеть, ?(*) также интегри- интегрируема на S. Так как I?,-|-?"г I «S \gt \-\- \g2\, то сумма двух интегри- интегрируемых функций есть интегрируемая функция. Непосредственно из определения следует, что интегралы функций на множествах бесконечной меры обладают свойствами E.3.1), E.3.2) и E.3.4). Вместо E.3.3) мы будем иметь только неравенство Y если *) Строго говоря, мы должны были бы сказать, что функция g{x) абсо- абсолютно интегрируема на множестве S и что интеграл функции g(x) на мно- множестве S абсолютно сходится. Так как мы будем пользоваться не абсо- абсолютно сходящимися интегралами только в исключительных случаях, то мы можем без недоразумении использовать более простую терминологию, при- принятую в тексте.
для всех х, принадлежащих S. Однако этого достаточно, чтобы уста- установить E.3.5) для любой интегрируемой функции g(x). Теперь приступим к обобщению свойства E.4.5), которое само является обобщением свойства E.3.6). Если lim g; (x) = g (x) почти всюду на 5 и если | ?v | <C G> где О—функция, интегрируемая на множе- множестве 5, то, как и в предыдущем параграфе, отсюда следует, что |g|=s;Gno4TH всюду на S. Следовательно, функция g(x) интегрируема на множестве S, и мы можем выбрать а и b так, чтобы для всех у )dx<^-^ e. Множество Satb имеет конечную меру, и из доказательства E.4.5) следует, что мы можем выбрать п так, чтобы для всех v^/i выпол- выполнялось неравенство \ \g,-g\dx<2 J 5„,Ь S-Sa,b Sa,b При v^/г будем иметь Sa afi S-Sa,b Так как г произвольно, то нами доказана, таким образом, следующая теорема, содержащая E.3.6) и E.4.5) как частные случаи: Если предел lim g, (x) = g(x) существует почти всюду на мно- н -»оо жестве S конечной или бесконечной меры и если \ g4 (х) | <^ О(х) для всех v и для всех х, входящих в S, где G (х) интегрируема на S, то функция g(x) интегрируема на S и E.5.2) lira [g4(x)dx=[g(x)-dx. Теорема E.5.2) может быть, конечно, также сформулирована по- подобно E.3.7) как теорема о почленном интегрировании ряда. Нако- Наконец, рассуждение, использованное при доказательстве E.3.8), приме- применимо, очевидно, и в настоящем случае и приводит к следующему обобщению этой теоремы: Если функция g(x) интегрируема на множестве S и если 5= z=51 + 52 + ... , где 5^5,= 0 при ji^v, то оо E.5.3) JV (*) dx — 2 J 8 № dx.
5.6. Интеграл Лебега как аддитивная функция множества. Рассмотрим фиксированную неотрицательную функцию /(*), инте- интегрируемую на всяком конечном интервале, и положим для каждого борелевского множества S {I / (x) dx, если / (х) интегрируема * на множестве S, -[- оо во всех остальных случаях. Тогда Р (S) есть неотрицательная функция множества 5, однозначно определенная для всех борелевских множеств 5. Пусть теперь 5 = S, + -f-S8+... , где 5^ = 0 при рфу. Тогда из E.5.3) следует, что выполняется соотношение аддитивности как только Р (S) конечно. Однако то же самое соотношение выпол- выполняется, даже если Р (S) бесконечно. Если бы это было не так, то можно было бы выбрать множества 5 и Sv S2,... так, чтобы P(S)=-f-°°i в т0 время как сумма Р (St) -\-P(S9)-{-... была бы конечной. Это, однако, повлекло бы за собой соотношение Переходя к пределу при я—» — ос, Ь—+-\-оо, получим, что функ- функция f{x) интегрируема на множестве 5, что противоречит сделанному допущению. Таким образом, функция Р (S), определенная соотноше- соотношением E.6.1), есть неотрицательная аддитивная функция множе- множества, определенная для всех борелевских множеств S пространства Rv В частном случае, когда /(дс) = 1, имеем Р (S)=?(S), так что Р (S) тождественно равно лебеговой мере множества 5. Другой важный частный случай возникает, когда функция / (х) интегрируема по всему пространству ?,. В этом случае Р (S) всегда конечна, и мы имеем для каждого борелевского множества Оо }"/<*) Ас.
ГЛАВА в НЕОТРИЦАТЕЛЬНЫЕ АДДИТИВНЫЕ ФУНКЦИИ МНОЖЕСТВА в Rx 6.1. Обобщение меры Лебега и интеграла Лебега. В главе 4 мы определили меру Лебега для борелевского множества S. L E) есть число, связанное с 5, или, как мы выражались, функция множества S- Мы видели, что эта функция множества удовлетворяет трем усло- условиям параграфа 4.2, которые требуют, чтобы функция L (S) была а) неотрицательна, Ь) аддитивна и с) для каждого интервала равна era длине. Наконец, мы видели, что L (S) есть единственная функция мно- множества, удовлетворяющая этим трем условиям. С другой стороны, если мы опустим условие с), то L (S) не будет уже больше единственной функцией множества, удовлетворяющей остальным двум условиям. Так, например, функция P(S), определенная соотношением E.6.1), удовлетворяет условиям а) и Ь), в то время как с) выполняется только в частном случае f(x) ¦¦= 1, когда P(S} = =L(S). Другой пример получается следующим образом. Пусть xv х2,...— последовательность точек, apv р2,...—последовательность положитель- положительных чисел. Теперь положим для каждого борелевского множества 5 где сумма распространяется на все у, для которых хн принадлежат 5. Очевидно, что функции Р (S), определенная таким образом, удовле- удовлетворяет условиям а) и Ь), но не удовлетворяет условию с). Таким образом, мы приходим к общему понятию неотрицательной аддитивной функции множества, как к естественному обобщению меры Лебега L (S). В настоящей главе, в параграфах 6.2—6.4, мы исследуем сначала некоторые общие свойства функций этого типа. В применениях к теории вероятностей и статистике, которые будут изложены далее в этой книге, фундаментальную роль будет играть один специальный класс неотрицательных аддитивных функций множества. Этот класс будет рассмотрен в параграфах 6.5—6.8. В главе 7 мы покажем, что вся теория интеграла Лебега может быть обобщена посредством замены в основном определении сумм Дарбу (см. E.1.1)) меры Лебега L (S) произвольной неотрицательной аддитив- аддитивной функцией множества Р (S).
Обобщенный интеграл, полученный таким образом, называется интег- интегралом Лебега — Стильтьеса; он также играет основную роль п приме- применении к теории вероятностей и математической статистике. 6.2. Функции множества и функции точки. Будем рассматри- нать функцию множества Р (S), определенную для всех борелевских множеств S и удовлетворяющую следующим трем условиям: A) Р (S) неотрицательна: P(S)^0. B) P(S) аддитивна: Р (S, + S2 + . • .) = Р (S,)-j-P E2) + - •. (S№S,= 0 при )i.=?v). C) Р (S) конечна для всякого ограниченного множества S. Мы будем предполагать, что все функции множества, рассмат- рассматриваемые в дальнейшем, удовлетворяют этим трем условиям. Из условий А) и В), которые совпадают с соответствующими усло- условиями в частном случае лебеговой меры L (S), мы непосредственно получаем некоторые свойства функции Р (S), которые доказываются так же, как и для L (S). Так, если 5, с 52, то F.2.1) />(?,)<Я (S2). Для пустого множества имеем Я@) = 0. Если SvSi, ... — последова- последовательность множеств (безразлично, пересекающихся или нет), то F.2.2) P(siJrS2 + ...)^:P(Sl) + P(S2)-\-... (см. соотношение D.3.7), которое, очевидно, выиилняется для любых борелевских множеств). Для неубывающей последовательности Slt Sv ..: имеем (см. D.7.1)) F.2.3) UmP(Sn) = P(\imSn). Для невозрастающей последовательности то же соотношение справед- справедливо в предположении, что Р E,) конечно. Если множество S состоит из всех точек ?, удовлетворяющих не- некоторому соотношению, то мы будем часто записывать значение Р E), просто заменяя символ 5 в скобках соотношением, о котором идет речь. Так, например, если 5 есть замкнутый интервал (а, Ь), то мы будем писать Если 5 есть множество, состоящее из одной точки ? = /7, то будем писать P(S) = P(l = a) и т. д.
Мы называем Р (S) функцией множества, так как аргументом этой функции является множество. Для обычной функции Р (*,,..., хп) одной или нескольких переменных аргумент можно рассматривать как точку с координатами х1,...,хп, и поэтому мы будем часто говорить о такой функции, как о функции точки. Если даны функция множе- множества Р (S) и постоянная А, то определим соответствующую функцию точки F (х; А), положив I Р(А<?<дг) при •*>*. F.2.4) F(x; k) = ) О при *=*, ( — Р(*<?<А) при Каково бы ни было значение параметра к, для любого конечного ин- интервала (а, Ь) F(b; k) — F(a; k) = P (a< ?< &K*0, откуда видно, что F (x; А) есть неубывающая функция от х. Если в последнем соотношении перейти к пределу при а—*— оо или b—>-j-oo, то из F.2.3) следует, что то же соотношение выполняется и для бес- бесконечных интервалов. В частном случае, когда Р E) есть лебегова мера L(S), имеем F(x; k) = x—А. Функции F (x; А), соответствующие двум различным значениям па- параметра А, разнятся на величину, не зависящую от х. В самом деле, если А, <^ kv то F {х; А,) — F (х; А2) = Р (А, < ? < *,). Таким образом, если мы выберем произвольное значение k0 параметра k и обозначим соответствующую функцию F (x; k0) просто через F{x), то любая другая функция F(x; k) представляется в виде F(x)-\- const. Мы можем, таким образом, сказать, что любой функции Р (S). удовлетворяющей условиям А), В), С), соответствует неубывающая функция точки F (х), такая, что F.2.5) F(b) — F(a) = P{a<s^b), причем функция F (х) определяется однозначно с точностью до постоянного слагаемого. Выберем теперь произвольное, но фиксированное значение пара- параметра А и рассмотрим соответствующую функцию F (дг). Так как F(x) неубывающая функция, то преданы F(a-\-0)= lim P(x), F (а — 0) = lim F (х) .v-»o-L0 х-ю—0
существуют для всех значений а, и F{a— 0)^F (a-\-0). Согласно F.2.5), имеем для х^>а F (x) — F (а) = Р (<*<$<*). Рассмотрим это соотношение для убывающей последовательности зна- значений х, стремящейся к фиксированному значению а. Соответству- Соответствующие полуоткрытые интервалы а<^?^х образуют убывающую последовательность множеств. Предел этой последовательности есть пустое множество. Таким образом, согласно F.2.3), имеем F(x) ~F(a)-*Q, т. е. С другой стороны, для и аналогичное рассуждение показывает, что F(a — O) = F(a) — P (s = a)^F (a). Итак, функция F (х) непрерывна справа. Для каждого значения х, такого, что Р\?=х)^>0, функция F(х) имеет разрыв со скач- скачком Р (? = х). Для каждого значения х, такого, что Р (% = х) = О, функция F(x) непрерывна. Каждая точка х, такая, что функция Р (S) принимает положитель- положительное значение на множестве S, состоящем из единственной точки х, является, таким образом, точкой разрыва функции F(x). Эти точки называются точками разрыва также и для функции- P{S), а точки не- непрерывности функции F (х) называются также точками непрерывности функции P(S). Точки разрыва функций Р (S) и F (х) образуют не более чем счетное множество. Действительно, рассмотрим точку разрыва х в интервале /„, определенном неравенствами я<^лг^я-|-1, причем Р(Е = лг)^> — . Пусть 5, — множество, состоящее из v таких точек, скажем xt, ... , хг Так как S, есть подмножество интервала /„, то или v<l с Р (/„). Таким образом, /„ содержит только конечное число
точек х, таких, что Я E=*)]>¦—. Предполагая теперь, что с при- принимает значение с =1,2,... , получим, что множество точек разрыва в интервале /„ не более чем счетно. Суммируя по п-= О, rh1, ±2,... , получим (см. параграф 1.4) сформулированное предложение. Пусть теперь X есть множество всех точек разрыва xv хъ, ... функций Р (S) и F (х). Положим Я(Е = *,)=р?. Для любого множе- множества 5 произведение SX состоит из всех точек х^, принадлежащих S, в то время как множество S—SX=SX* содержит все остальные точки множества 5. Определим две новые функции Pt и Р2 соотно- соотношениями F.2.6) P1(S) Непосредственно видно, что Я, и Я2 удовлетворяют условиям А), В), С). Далее, имеем S—SX-{-SX* и, следовательно, F.2.7) P(S) = Pl(S) + P2(S). Из F.2.6) следует, что Рл (S) есть сумма скачков рч во всех точках разрыва хч, принадлежащих 5. Значит Я, (?):=0 для всякого множе* ства S, не содержащего точек х-. С другой стороны, соотношение F.2.6) показывает, что функция Р2 (S) везде непрерывна, так как все точки, принадлежащие X*, суть точки непрерывности функ- функции Р (S). Таким образом, соотношение F.2.7) дает разложение не- неотрицательной аддитивной функции множества Р (S) на разрыбную часть Pl (S) и непоерывную часть Pz (S). Если F, Fj и F2—неубывающие функции точки, соответствующие Я, Я, и Рг, и если во всех трех случаях выбрана одна и та же по- постоянная k, то из F.2.4) и F.2.7) вытекает F-2.8) F{x) = F1(x) + Ft{x). В этом соотношении функция F2 (x) непрерывна, а функция Ft{x) есть .ступенчатая функция", постоянная на каждом интервале, не со- содержащем точек *„, и имеющая .скачок" />„ в каждой точке хч. Легко видеть, что любая неубывающая функция F (х) может быть пред- представлена в форме F.2.8), и притом единственным способом, как сумма двух неубывающих функций, одна из которых — ступенчатая, а дру- другая — непрерывная.
6.3. Построение функции множества. Теперь мы докажем сле- следующее обращение теоремы F.2.5): Каждой неубывающей функции точки F (х), конечной при всех конечных значениях х и всюду непрерывной справа, соответствует функция множества Р (S), однозначно определенная для всех боре- левских множеств S, удовлетворяющая условиям А), В), С) пара- параграфа 6,2 и такая, что соотношение F(b) — F(a)=P{a<Z<:b) выполнено для любого конечного или бесконечного интервала (а, о). Очевидно, что две функции Ft (x) и Ft {x) порождают одну и ту же функцию P(S) тогда и только тогда, когда разность Fx — F2 есть постоянная. Сравнивая это утверждение с теоремой F.2.5), находим, что если две функции F] и Fv отличающиеся друг от друга на постоянную, считать тождественными.то существует взаимнооднозначное соответствие между функциями множества Р (S) и неубывающими функциями точки F(x). Прежде всего неубывающая функция точки F{x) определяет неотри- неотрицательную функцию интервала Р (/), которая может быть определена как приращение функции F (х) на интервале /. Для каждого полуоткрытого интервала a<JK0 полагаем Р (/) = Я(в< *< b)=^F (b) — F {a). Для остальных трех типов интервалов, с теми же конечными точками а и Ь, определим значение P(i) с помощью простого предельного перехода: Р <6 3П Р 1 ' ' ' Р Р {a*^x<b) = F(b —0) — Да —0); таким образом, функция P(i) определена для всех интервалов /. Теорема будет доказана, если мы покажем, что существует неот- неотрицательная аддитивная функция множества, определенная для всех борелевских множеств 5 и совпадающая с P{i) в случае, если мно- множество 5 есть интервал. Это есть обобщение проблемы, рассмотренной в главе 4. .Там мы имели частный случай F (х) = х с соответствующей функцией интер- интервала /—длиной L(i). Вся теория меры Лебега, как она развивалась в главе 4* состоит в построении неотрицательной аддитивной функции
множества, определенной для всех борелевских множеств 5 к совпа- совпадающей с функцией L (<), когда 5 есть интервал /. Теперь требуется провести аналогичное построение для случая, когда длина или „/.-мера* интервала L(i) = b — а, заменена более общей „Р-мерой", опре- определенной соотношением F.3.1). Это может быть сделано точно тем же методом, какой мы применяли « частном случае в главе 4. За двумя небольшими исключениями, ко- которые будут оговорены ниже, каждое утверждение и каждая формула главы 4 останутся справедливыми, если 1) слова мера и измеримое заменить словами Р-мера и Р-измеримое, 2) длину L(i) — b — а интер- интервала заменить Р-мерой Р( /) и 3) символы L и 2 заменить символами Ри|. Этим способом, строго следуя схеме, изложенной в параграфах 4.1—4.5, мы устанавливаем существование неотрицательной аддитив- аддитивной функции множества P{S), однозначно определенной для некото- некоторого класса SJ3 множеств, называемых Р-измеримыми, и совпадающей с P(i) в тех случаях, когда множество 5 есть интервал i. Далее, точно так же, как и в параграфе 4.6, доказывается, что класс $Р всех Р-измеримых множеств есть аддитивный класс, содержащий все боре- левские множества. Наконец, так же как и в параграфе 4.7, доказы- доказывается, что P(S) есть единственная неотрицательная аддитивная функ- функция, определенная для всех борелевских множеств, которая сводится к функции интервала Р(/) в случае, если множество 5 есть ин- интервал /. Наша теорема, таким образом, доказана. Более того, из до- доказательства становится ясно, почему полезно ограничиться рассмотре- рассмотрением борелевских множеств. Действительно, несмотря на то, что класс всех Р-измеримых множеств зависит от исходной функции F(x), он всегда содержит весь класс 1i3, борелевских множеств. Таким образом, каждое борелевское множество всегда Р-измеримо, и функция множе- множества P(S), соответствующая любой заданной функции F{x), всегда может быть определена для борелевскнх множеств. Остается только сделать те оговорки, которые упоминались выше. Содержание первой очень просто и не имеет прямого отношения к до- доказательству нашей теоремы. В параграфе 4.3 мы доказали, что лебе- лебегова мера счетного множества всегда равна нулю. Это следует из того, что счетное множество можно рассматривать как сумму последователь- последовательности вырожденных интервалов, каждый из которых имеет длину, рав- равную нулю. Соответствующее предложение для Р-меры очевидно неверно, если функция F (х) имеет хотя бы одну точку разрыва. Вырожденный
интервал, состоящий из единственной точки а, может иметь положи- положительную Р-меру, так как, согласно первому из соотношений F.3.1), Р (х = а) = F(a) — F{a — 0). Если счетное множество содержит хотя бы одну точку разрыва функции F(x), то оно имеет положительную Р-меру. Вторая оговорка возникает в связи с обобщением результатов па - раграфа 4.1, где был» доказано, что длина есть аддитивная функция интервала. Для того чтобы установить аналогичное предложение для Р-меры, мы должны показать, что где /' и /,, /.. ... — интервалы, такие, что I — /, -{-/, -{-... и /^/, = 0 для jt^v. Для непрерывной функции F (х) это доказывается с помощью леммы Бореля, так же, как и в случае соответствующего соотношения D.1.1), только с заменой длины интервала его Р-мерой. Заметим, что в ходе доказательства равенства D.1.1) мы рассматривали некоторые интервалы, например, интервал {а—s, a-f-e), который был выбран так, чтобы его длина равнялась 2 е. При обобщении этого доказательства на слу- случай Р-меры мы должны заменить этот интервал интервалом (а— А, а -\- А), н котором А выбрано так, чтобы Р-мера этого интервала F(a-\-h) — — F(a—А) была равна 2 6. С другой стороны, если F[x)—-ступенчатая функция, имеющая на интервале /' точки разрыва xr xv ... с соответствующими скачками pv /)„, ... , то мы имеем Так как интервалы /„ попарно не пересекаются, то каждая точка х, принадлежит в точности одному интервалу /„, и справедливость соотно- соотношения F.3.2) вытекает из свойств сходящихся двойных рядов. Наконец, согласно замечанию, сделанному в связи с F.2.8), каж- вдя функция F{x) есть сумма некоторой ступенчатой функции /=", и некоторой непрерывной функции F2, причем обе функции Fx и Ft — неубывающие. Для. обеих этих функций соотношение F.3.2) выпол- выполняется, следовательно, оно справедливо- также и для их суммы F(x). Мы рассмотрели, таким образом, оба отклонения от главы 4 в обо<3-
щении результатов главы 4 на случай произвольной Р-меры, и дока- доказательство теоремы, сформулированной в начале этого параграфа, этим завершено. 6.4. Р-мера. Функция Р (S), удовлетворяющая условиям А), В), С) параграфа 6.2, определяет Р-меру множества S, которая является обобщением лебеговой меры L (S). Подобно последней Р-мера неот- неотрицательна и аддитивна. Согласно предыдущему параграфу, Р-мера однозначно определена для каждого борелевского множества S, если известна соответствующая неубывающая функция точки F(x). Так как, согласно параграфу 6.2 функция F(x) всегда непрерывна справа, то достаточно знать значе- значения функции F(x) во всех ее точках непрерывности. Если для некоторого множества S мы имеем P(S) = Q, то будем говорить, что S есть множество Р-меры нуль. Согласно F.2.1), лю- любое подмножество S также имеет тогда Р-меру нуль. Сумма последо- последовательности множеств Р-меры нуль, согласно F.2.2), сама имеет Р-меру, равную нулю. Если F(a) = F{b), то полуоткрытый интервал а <[х <? есть множество Р-меры нуль. Если некоторое условие выполнено для всех точек, принадлежа- принадлежащих множеству S, за исключением, может быть, некоторого подмноже- подмножества точек Р-меры нуль, то говорим (см. параграф 5.3), что это усло- условие выполнено почта всюду (Р) или для почти всех (Р) точек на 5. 6.5. Ограниченные функции множества. Для любого борелев- борелевского множества S, согласно F.2.1), имеем РC)^Р(^). Если зна- значение Р (/?j) конечно, то мы говорим, что функция множества P(S) огрй' ничена. Если функция P(S) ограничена, то будем всегда фиксировать постоянное слагаемое в соответствующей неубывающей функции точки F(x), полагая в F.2.4) k== — оо, так что для любого значения х F.5.1) /><x)s=P(S<x). Если х стремится в этом соотношении к — оо, то множество всех точек Z^x имеет своим пределом (см. параграф 1.5) пустое множество- Таким образом, согласно F.2.3), имеем F(—оо) = 0. С другой стороны, если х—1--J-OO, то множество точек E«Sjc имеет своим пределом все пространство #, и F.2.3) дает F(-\-tx>) = P(R1), Так как функция F(x)— неубывающая, то для всех х имеем F.5.2) 0
6.6. Распределения. Фундаментальную роль в приложениях к тео- теории вероятностей и математической статистике играют такие неот- неотрицательные аддитивные функции множеств, для которых P(/fl) = t. Функция P(S), принадлежащая этому классу, очевидно ограничена, а соответствующая неубывающая функция точки F(x) определяется, согласно F.5.1), так, что F.6.1) 0 </>(*)< 1, F{ — oo) = 0 Пара функций P(S) и F(x) этого типа часто будет интерпретиро- интерпретироваться посредством распределения массы по одномерному простран- пространству /?j. Представим себе единицу массы, распределенную по простран- пространству #] так, что для каждого х количество массы, распределенное на бесконечном интервале ?^х, равно F{x). Построение функции множества P(S) посредством данной функции точки F{x), описанное в параграфе 6.3, может быть интерпретировано теперь так, что каж- каждое борелевское множество S несет на себе определенное количество массы P(S). Общее количество массы на всей прямой есть Р(/?,) = 1. Мы можем задавать это распределение как с помощью функции P(S), так и с помощью соответствующей функции точки F(x). Упот- Употребляя терминологию, приспособленную к приложениям этих понятий к теории вероятностей и математической статистике, которые будут делаться в дальнейшем, будем называть функцию Р (S) вероятност- вероятностной функцией распределения, а функцию F(x) — функцией распреде- распределения. Таким образом, функция распределения есть неубывающая функция точки F(x), которая всюду непрерывна справа и такова, что F( — оо) = 0 и (f-|-oo) = l. Обратно, из параграфа 6.3 следует, что любая заданная функция ^(лг), обладающая этими свойствами, определяет единственное распределение, имеющее F(x) своей функцией распределения. Если х0 есть точка разрыва функции F(x) со скачком, равным р0, то масса р0 будет сосредоточена в точке х0, которую назовем точ- точкой сосредоточения массы в данном распределении. С другой стороны, если х0 есть точка непрерывности, то количество массы, находящееся я интервале (х—Л, x-\-h) будет стремиться к нулю при А—<-0.
Отношение ' " есть средняя плотность массы, на- находящейся в интервале х — Л <[ ? <; д: -j- Л. Если существует производ- производная F'(x) = f(x), то средняя плотность стремится к f(x) при А—*0, и, таким образом, f(x) представляет собой плотность массы в точ- точке х. В приложениях к" теории вероятностей f(x) называется плот- плотностью яероятности или функцией плотности распределения. Всякая плотность вероятности f(x) есть неотрицательная функция, интеграл которой по бесконечному интервалу (— ое, оо) равен единице. Из F.2.7) и F.2.8) следует, что каждое распределение может быть разложено на разрывную и непрерывную части F 6 2) Здесь с, и c,t — неотрицательные постоянные, такие, что с,-[-^ = 1 г Р, и Ft обозначают соответственно вероятностную функцню и функцию распределения массы в точках сосредоточения массы (таким образом, Fj есть ступенчатая функция). Функции же Л„ и F2 соответствуют распределению без точек сосредоточения массы (таким образом, функ- функция Ft всюду непрерывна). Постоянные с, и с,, так же как и функции Р,, P., Ft и F2, однозначно определяются заданным распределением. В предельном случае, когда с, = 1, сг = 0, функция распределе- распределения F(x) есть ступенчатая функция, и вся масса в этом распределении сосредоточена в точках разрыва функции F{x), каждая из которых заключает в себе массу, равную соответствующему скачку. В проти- противоположном предельном случае, когда с,=0, еа = 1, F{x) всюду непрерывна и не существует ни одной точки, в которой было бы со- сосредоточено положительное количество массы. Общая теория распределений в /?, будет подробно развита в главе 15. В последующих главах 16—19 будут разобраны и проиллюстрированы на примерах некоторые важные специальные распределения. Сейчас же читатель сможет найти трафики распределения для случая с, = 1, с2 = 0 на стр. 191 (фиг. 4—5) и для случая с, = 0, с2= 1 на стр. 193 (фиг. 6—7). 6.7. Последовательности распределений. Будем называть интер- интервал (а, Ь) интервалом непрерывности для данной неотрицательной аддитивной функции множества Р (S) и для соответствующей функции
точки F{x), если а и b суть точки непрерывности (см. параграф .6.2) функций Р E) и F(*)*). Если две функции множества совпадают . для всех интервалов, являющихся интервалами непрерывности для обеих этих функций, то легко видеть, что соответствующие функции точки отли- отличаются друг от друга на постоянное слагаемое, так что сами функции множества совпадают. Рассмотрим теперь последовательность распределений с вероятно- стными функциями Р, (S), P2 (S), ... и функциями распределения Ft (x), Fs (x), .... Будем говорить, что последовательность распреде- распределений сходится, если существует неотрицательная аддитивная, функция множества P(S), такая, что Pn(S)—+P{S) для любого интервала не- крерывности 5 функции P(S). Так как всегда 0^Рп (S) ^ 1, то для -сходящейся последователь- последовательности имеем 0 «g: P (S) =й 1 для любого интервала непрерывности S=(a, Ь). Если а—+—сю, b—«--{-оо, то из F.2.3) вытекает, чю P(Rt)^\. Случай, когда Р(Я,)=1, имеет специальный интерес. В этом случае P{S) есть вероятностная функция некоторого распре' деления, и поэтому мы будем говорить, что наша последовательность сходится к некоторому распределению, а именно, к распределению, соответствующему Р (S). Обычно только этот случай сходимости инте- интересен в приложениях и нам часто будет нужен критерий, который позволял бы определить, сходится ли наша последовательность распре- распределений к некоторому распределению или нет. Задача отыскания тако- такого критерия решается в дальнейшем (см. параграф 10.4), сейчас же мы только докажем следующее предварительное предложение: Последовательность распределений с функциями распределения Fx (x), F2 (х), ... сходится к некоторому распределению тогда и только тогда, когда существует функция распределения F(x), такая, что Fn(x)—-F{x) в каждой точке непрерывности функ- функции F(x). Если такая функция F(x) существует, то она соответ- соответствует распределению, являющемуся пределом нашей последова- последовательности распределений, и мы будем коротко говорить, что последовательность {Fn(x)\ сходится к функции распределения F(x). Покажем сперва, что сформулированное условие необходимо и что функция распределения F(x) соответствует предельному распределению. *) Заметим, что внутренняя точка интервала может быть и точкой разрыва.
Обозначая, как обычно, через Р„ (S) вероятностную функцию, соответ- соответствующую Fn (х), мы допустим, что Рп (S) стремится к некоторой вероят- вероятностной функции Р E) для любого интервала непрерывности S=(a,b) функции Я E). Обозначим через F(x) функцию распределения, соот- соответствующую P(S). Мы должны показать, что Fn(x)—*F(x), где х — произвольная точка непрерывности функции F(x). Так как Р{/?])=1, то мы можем выбрать интервал непрерывности S = (arb), содержащий х, такой, что P(S)> 1 —е, где е^> 0 произвольно мало. Тогда l-8<PE)=f(J)-F(a)<l-f(fl), следовательно, Q^F(a)<^e. Далее, по предположению, имеем Fn(b)— Fn(a)—» —»¦ F (b) — F (a) ~^> 1 — e, так что для всех достаточно больших я имеем Fn{b) — /?л(а)>1 — 2s или 0<Fn(a)<Fn(b)— I + 2е<2e. Так как (а, х) есть интервал непрерывности функции Р (S), то, со- согласно предположению, имеем Fn (х) — Fn (а) —¦• F (х) —. F (а). Для всех достаточно больших я имеем, таким образом, \Fn(x)—F(x)— — Fn(a)-\-F(a)\<!^e и, следовательно, согласно сказанному выше, \Fn(x) — /=¦(*) К Зе. Так как е произвольно, то Fn(x)—*F(x). Обратно, если мы допустим, что Fn(x) стремится к функции рас- распределения F(x) в каждой точке непрерывности функции F(x), и обозначим через P(S) вероятностную функцию, соответствующую F(je)> то очевидно, что Fn(b) — Fn(a)—*F(b) — F(a)t т. е. Pn{S)—*P(S), где 5 — любой полуоткрытый интервал непрерывности а <^ х ^ b функции P(S). Далее, так как F(x) есть неубывающая функция, непре- непрерывная при х=аи *=*, то Fn (а — 0) —»-F(а) и Fn(b — 0)—>-F(b). Отсюда следует то же соотношение Рп (S) —¦• Р (S) для любого интер- интервала непрерывности 5, замкнутого, открытого или полуоткрытого. Таким образом, наше предложение доказано. Для того чтобы показать на примере, что последовательность распреде- распределений может быть сходящейся, не сходясь в то же время к распределению, мы рассмотрим распределение, при которой вся единица массы сосредоточена в одной точке х = 0. Обозначая соответствующую функцию распределения через t (jt), имеем Тогда ? {х — а) есть функция распределения, при котором вся масса (равная единице) сосредоточена в точке х — а. Рассмотрим теперь последователь- последовательность распределений, определяемых функциями распределения Fn(x\ — ==е(дг — я), где я=1, 2 Очевидно, что, согласно дачному выше опре- определению, эта последовательность сходится, так как масса, содержащаяся в лю-
бом интервале, стремится к нулю при л -+ да. Предельная функция множества, однако, тождественно равна нулю и не является, таким образом, вероятност- вероятностной функцией. При л -*¦ оо масса в наших распределениях исчезает, .уходя* по направлению к -f оо. Можно было бы спросить, почему в нашем определении сходимости мы не требуем, чтобы Pn{S) -+ P(S) имело место для каждою борелееского множества S. Однако легко показать, что это определение было бы слиш- слишком узким. Действительно, рассмотрим последовательность распределений, определяемых функциями распределения г (х V где л=1, 2,... . При л-м распределении в этой последовательности вся единица массы сосредото- сосредоточена в точке х=~. Очевидно, что разумное определение сходимости л должно быть таким, чтобы эта последовательность сходилась к распределе- распределению, определяемому соотношением F.7.1), при котором вся единица массы сосредоточена в точке х=0. Легко проверить, что определение сходимости, данное выше, удовлетворяет этому условию. Если, с другой стороны, мы рассмотрим множество S, состоящее из единственной точки х = 0,т Pn(S) = 0 при любом я, в то время как для предельного распределения P(S) = 1, так что Pn(S) не стремится к P(S). Функция распределения s (х 1 стремит- стремится к ? (х) в каждой точке непрерывности функции е (х), т. е. при любом х Ф О, но не в точке разрыва х = 0. 6.8. Теорема сходимости. Последовательность функций распреде- распределения Fj (*), f2 (х), ... называется сходящейся, если существует не- неубывающая функция F(x), такая, что Fn(x)—-F(x) в каждой точке непрерывности функции F(x). Всегда имеет место 0 <: F (лг) <: 1, но пример Fn (x) = s(x — л), рассмотренный в предыдущем параграфе, показывает, что F(x) не всегда является функцией распределения. Таким образом, последовательность {Fn(x)\ может быть сходящейся и в то же время не сходиться к функции распределения. Докажем теперь следующее предложение, которое потребуется в дальнейшем. Каждая последовательность {Fn(x)\ функций распределения со- содержит сходящуюся подпоследовательность. Ее предел F(x) всегда может быть определен так, чтобы он был всюду непрерывен справа. Пусть /¦,, г2, .,. есть счетное множество всех положительных и отрицательных рациональных чисел, включая нуль. Рассмотрим после- последовательность F1(ri), Fs(rj), .... Это — ограниченная бесконечная последовательность действительных чисел, которая по теореме Больцано- Вейерштрасса (см. параграф 2.2) имегт по крайней мере одну предель- предельную точку. Последовательность чисел {Fn(rl)) всегда содержит, таким
образом, сходящуюся подпоследовательность. То же самое можно вы- выразить, говоря, что последовательность функций \Fn(x)\ всегда со- содержит .подпоследовательность Z,, сходящуюся для частного значения *=/-,. Таким же образом находим, что Z, содержит подпоследова- подпоследовательность, сходящуюся при х = г^. Повторяя этот процесс, мы полу- получаем одну за другой последовательности Z,, Z2, ..., где Za есть подпоследовательность последовательности <?„_,, и Zn сходится для частных значений *=/•,, г2, ..., гп. Образуем теперь „диагональную" последовательность Z, состоящую из первого члена последователь- последовательности Z,, второго члена последовательности Z8 и т. д.. Нетрудно видеть, что последовательность Z сходится при любом рациональном значении х. Пусть члены последовательности Z Ьущл FUl (x), /="„, (х) По- Положим limFn(r!) = ci A = 1,2,...). ¦»-> да v Тогда \ct) есть ограниченная последователоность, и так как каждая функция Fn4— неубывающая, то C/^cft при /¦/^/"л. Теперь определим функцию F(x) следующим образом: F (х) — inf с(. для всех г, ^> jr. Непосредственно из определения следует, что F(x) есть ограниченная неубывакмЦан функция от х. Легко доказать также, что F(x) всюду непрерывна справа. Покажем теперь, что в каждой точке непрерыв- непрерывности функции F(x) мы имеем F.8.1) l\mFnJx) = F(x), ¦»-*ое т. е. подпоследовательность Z сходится. Если х есть точка непрерывности функции F (х), то мы можем выбрать А>0 так, чтобы разность F(x-\-h) — F(x — А) была меньше любого заданного е^>0. Пусть г{ и гк — рациональные точки, принадлежащие соответственно интервалам (д: — А, х) н (лс, x-{-h), так что F.8.2) F{х - А)< с, < F(*) < ск < F (х-\ А). Далее, для каждого v имеем <6-8-3) Fn (г,) < /-nv (х) < FKi (rk).
ГПч(Г[) и ^„„(г*) стремятся соответственно к пределам с( и ск при 7—-<х>. Разность между этими пределами, согласно F.8.2), меньшее, и величина F(x) заключена между с( и ск. Так как е произвольно, то Fn^(x) стремится к F(x). Таким образом, последовательность Z сходится, и наша теорема доказана. ГЛАВА 7 ИНТЕГРАЛ ЛЕБЕГА — СТИЛЬТЬБСА ОТ ФУНКЦИЙ ОДНОГО ПЕРЕМЕННОГО 7.1. Интеграл от ограниченной функции по множеству конеч- конечной Р-меры. В предыдущей главе мы видели, что теория меры Лебега, развитая в главе 4, может быть обобщена с помощью введения общего понятия неотрицательной аддитивной Р-меры. Покажем теперь, что совершенно аналогичное обобщение может быть применено к теории интеграла Лебега, развитой в главе 5. Предположим, что задана некоторая фиксированная Р-мера. Эта мера может быть определена неотрицательной аддитивной функцией множества Р (S) или<оответствующей неубывающей функцией точки F (х). Мы видели в предыдущей главе, что каждая из этих двух функций может одинаково хорошо служить для определения Р-меры. Пусть, далее, g(x) есть данная функция от х, определенная и ограниченная на данном множестве S конечной Р-меры. Так же, как и в параграфе 5.1, мы разбиваем множество 5 на произвольное конеч- конечное число попарно не пересекающихся множеств ?,, Sa, ..., Sn. За- Заменяя теперь в основном определении E.1.1) сумм Дарбу /.-меру Р-мерой, получим обобщенные суммы Дарбу G.1.1) где, как и раньше, wtv и /И, обозначают нижнюю и верхнюю границы функции g(x) на множестве ?,. Дальнейшее развитие вполне аналогично проведенному в иара- графэ 5.1. Верхняя граница множества всевозможных значений г назы- называется нижним интегралом функции g(x) по множеству 5 относительно данной Р-меры. Нижняя граница множества всевозможных значений Z
есть соответственно верхний интеграл. Как и в параграфе 5.1, пока- показывается, что нижний интеграл меньше или равен верхнему интегралу. Если нижний и верхний интегралы равны, то функция g(x) назы- называется интегрируемой на множестве S относительно данной Р-меры, а общее значение обоих интегралов называется интегралом Лебега— Сталыпьеса функции g(x) no множеству S относительно данной Р-меры и обозначается одним из следующих двух выражений \g{x)dP(S) = \g(x)dF(x). s i В тех случаях, когда это не может привести к недоразумению, будем писать вместо dP(S) и dp(x) просто dP и dF. Вместо .интеграл относительно данной Р-меры" будем обычно говорить .интеграл отно» сительно P(S)" или „относительно F(x)*, в зависимости от того» определена ли Я-мера посредством функции Р E) или посредством функции F(x). Пока мы будем иметь дело с функциями одной пере- переменной, мы будем, как правило, употреблять функцию F(x). В частном случае, когда F (х) = х, имеем Р (S) = L (S), и очевидно, что данное нами определение интеграла Лебега — Стильтьеса сводится к определению интеграла Лебега, данному в параграфе 5.1. Такии образом, интеграл Лебега — Стильтьеса получается из интеграла Лебега просто заменой .в определении интеграла лебеговой меры более общей Я-мерой. Все свойства интеграла Лебега, выведенные в параграфах 5.2 и 5.3, легко обобщаются на случай интеграла Лебега—Стильтьеса. Доказатель- Доказательства этих свойств остаются точно теми же, только везде i-мера заме» няется Я-мерой. Так, мы находим, что, если g(x) ограничена и В-из- мерима на множестве 5 конечной Я-меры, то g(x) интегрируема иа множестве 5 относительно Я E). Для ограниченных функций и множеств конечной Я-меры, мы получаем следующие обобщения свойств, выведен- выведенных в параграфе 5.3: G.1.2) | (ft (х) + g2 (x)) dF=$gl (x) dF + j gt (x) dF, GЛ.З) \cg(x)dF=c\g(x)dF, 5 i G.1.4)
G.1.5) J g(x)dF=\g(x)dF+[g(x)dF, s,+s, 5, s, G.1.6) 3 где с — постоянная, т и At обозначают нижнюю и верхнюю границы функции g{x) на множестве S, а 5, и S2—два непересекающихся множества. Из G.1.4) следует, что интеграл ограниченной функции по множеству Р-меры нуль равен нулю. Таким образом, значение инте- интеграла не изменится от произвольного изменения значений функции g {x) на множестве Р-меры нуль. Имеет место также следующее обобщение предложения E.3.6). Если последовательность {gv (хЦ равномерно ограничена на множестве 5 и если Jim g4[x) = g{x) существует почти всюду (Р) на S, то V-+00 G.1.7) Иш \g,(x)dF=<\g(x)dF. Аналогичные обобщения соотношений E.3.7) и E.3.8) получаются точно так же, как и в параграфе 5.3. Если с, и с2 — неотрицательные постоянные, то легко вывести сле- следующее соотношение, не имеющее аналога в случае интеграла Лебега: g(x) rf(V, + «,/=;) = *, j g(x) dF^cS g{x)dFt. S 3 В частном случае, когда множество 5 состоит из единственной точки лс0, непосредственно из определения получаем j g(x)dF=g(xo)P(x = xo). Рассмотрим теперь случай, когда F(x) есть ступенчатая функция (см, параграф 6.2) со скачками рч в точках * = *,, и обозначим множество всех точек *, через X. Используя то, что интеграл по- множеству Р-меры нуль равен нулю, и упомянутое выше обобщение E.3.8), получим G.1.8) [g[x)dF=\ g{x)dF=* 2 ^ В частном случае, когда g(x)=*\, имеем
Мы будем часто рассматривать интегралы от функций g(x), при- принимающих комплексные значения g(x) = a(x)-\-ib{x), где а(х) и Ь (х) — действительные ограниченные функции на множестве S. В этом случае определим интеграл так: f g{x\dF=\a (x) dF + / \b (x) dF. Все свойства, выведенные выше, легко распространяются на интегралы этого типа. Для соотношения G.1.6) это распространение несколько менее очевидно, чем в других случаях, и мы его здесь проведем. Положим где г и v — действительные числа, причем г 3* 0. Действительная часть величины \g(x)\—e~ivg(x) всегда неотрицательна. Следовательно, действительный интеграл \\g()\- r= S = \\g{x)\dF— s \g(x)dF s а это эквивалентно соотношению G.1.6). 7.2. Неограниченные функции и множества бесконечной Р-меры. Распространение понятия интеграла Лебега на случаи неограниченных функций и множеств бесконечной меры, рассмотренное в параграфах 5.4 и 5.5, может быть совершенно аналогично проведено и для инте- интеграла Лебега — Стильтьеса. Действительно, любое утверждение и любая формула параграфов 5.4 и 5.5 сохраняются при замене меры Лебега и интеграла Лебега Р-мерой и интегралом Лебега — Стильтьеса относи- относительно Р-меры. Таким образом, функция g(x) называется интегрируемой относи- относительно P(S) (или относительно F(x)) на множестве 5 конечной Р-меры, если предел (см. E.4.1)) • im \ go_ b{x)dP=\g(x)dP = f к(х)dF -•5 5 S f ЭО lim •¦•- Ь-t -f- ЭО
существует и имеет конечное значение. В этом случае функция \g{x)\ также интегрируема относительно Р по множеству 5. Далее, если 5 есть множество бесконечной Р-меры *), то функ- функция g(x) называется интегрируемой относительно Я (или относително F) на множестве 5, если (см. параграф 5.5) g(x) интегрируема относи- относительно Р по всем множествам Sa ь и если предел lim J \g(x)\dP=\\g(x)\dP=:[\g(x)\dF a-* ft -* + oo существует н имеет конечное значение. В этом случае предел (см. E.5.1)) G.2.1) lim \ g(x)dP = а-* —со s «-¦ — oo s ft -» + oo ajb также существует и конечен, и мы будем говорить, что интеграл Ле- Лебега—'Стильтьеса функции g(x) относительно Р(или относительно F) по множеству S сходится **) и предел G.2.1) есть, по определению, значение этого интеграла. Если \g(x)\<^0(x), где G(x) — инте- интегрируемая функция, то g{x) также интегрируема. Свойства G.1.2) — G.1.6) интеграла Лебега — Стильтьеса справед- справедливы для любых функций, интегрируемых относительно данной Р-меры. В случае, когда 5 есть множество бесконечной Р-меры, неравен- неравенства G.1.4) должно быть заменено, однако, неравенством: \ g(x)dF&*Q, если g(x)^O для любых х из 5. Наконец, мы имеем следующее обобщение предложения G.1.7): Если limg,(x) = g(x) существует почти веюду (Р) на множе- множестве S конечной или бесконечной Р-меры и если \g^(x)\<^G{x) для всех у и всех х из S, где G(x) есть функция, интегрируемой относительно F на множестве S, то g(x) интегрируема относи- относительно F на S и G.2.2) lim \iAx)dF=[g(x)dF. »->оо5 if *) В случае, если функция P(S) ограничена (например, если Р{$) есть вероятностная функция, си. параграф 6.6), множеств бесконечной Р-меры, конечно, не существует. **} Относнтельно теркинологии ножет быть сделано такое же ваиечание, что н в случае E.5.1).
Обобщение проведенных выше рассмотрений на случай функции g(x), принимающей комплексные значения, очевидно. В частном случае, когда F (*) = *, все наши теоремы сводятся, конечно, к соответствующим теоремам относительно обычного интеграла Лебега. 7.3. Интегралы Лебега—Стильтьеса с параметром. Мы часто будем иметь дело с интегралами типа где t—параметр, а 5—данное множество конечной или бесконечной Я-меры. Нам понадобятся некоторые теоремы относительно непрерывности, а также о дифференцировании и интегрировании таких интегралов по параметру t. В частном случае, когда F(x) = x, эти теоремы сводятся к теоремам относительно интеграла Лебега. Предположим, что функция g(x, t) принимает комплексные значе- значения и что для любого фиксированного значения параметра t действи- действительная и мнимая части этой функции суть /-"-измеримые функции от х, интегрируемые на множестве 5 относительно F{x). Через Gj(*), G2 {x), ... будем обозначать некоторые функции, интегрируемые на множестве 5 относительно F(x). 1) Непрерывность. Если для почта всех {Р) значений х из S функция g(x, t) непрерывна в точке t=t0 и если для всех t в не' которой окрестности точка t0 имеем \g(x,t)\<^ G1(x), то u(t) не- непрерывна в точке t=t0, так что*) G.3.1) lim J g {x, t) dF (x)=\g (jc, t0) dF (x). Это непосредственно следует из соотноше ния G.2.2). В самом деле, для любой последовательности значений t1,ti,— (из данной окрест- окрестности), стремящейся к t0, выполняются условия предложения G.2.2), если взять gy{x) = g(x}t4) и g(x) = g{x, tj. Таким образом, со- согласно G.2.2), имеем а(^)—-u{t0), и, следовательно, то же соотно- соотношение выполнено и в том случае, когда / стремится к t0 непрерывно. *) Эта теорема справедлива и так же доказывается и в случае <0=± оо.
Если условия предложения I) выполнены для всех t0 в открытом интер- интервале (а, Ь), то a(t) непрерывна во всем интервале. 11) Дифференцирование. Если для почта всех (Р) значе- значений х из S выполнены следующие условия: 1) существует частная производная.-^ягг > 2) |«Ё^=*&$|<(>,<*) для где п0 не зависит от х, то G.3.2) u>(t) = §t§g(x, t,dF\x) = j^M>dF(x). 3 S Подобно предыдущему предложению, это непосредственно следует из G.2.2). Для любой последовательности Лх, А2 , где |й и А,—» 0, выполнены условия предложения G.2.2), если взять Таким образом, 5 так что производная и' (t) существует и имеет значение, данное соот- соотношением G.3.2). Заметим, что если частная производная -Л существует и удовле- удовлетворяет условию м' <* О. (х) для всех t в открытом интер- вале {а, Ь), то из соотношения вытекает, что G.3.2) справедливо для всех t из (а, Ь). Заметим, что условие 2) предложения II) не выполнено, если мы, напри- например, возьмем F{x) = x, S={— да, да) и для х- В этом случае имеем оо g{x, t)dxz= \ е ялс = 1, — 00 (
и G.3.2) дает оо оо u(t)~ J ndx=)е dx=zl- — оо i что, очевидно, неверно. Чтобы правильно вычислить и'{(), надо учесть пере- переменный нижний предел интеграла, тогда оо )=\e*-xdx—1=0. t III) Интегрирование. Если для почти всех (Р) значений х из S функция g(x, t) непрерывна not на конечном открытом интер- интервале (а, Ь) и удовлетворяет условию \ g(x, t) К <?< (х) для всех t из {а, Ь), то ъ ь ь G.3.3) [u(t)dt = ][ f g{x, t)dF(x)] dt=[[[g(x, t)dt]dF{x). a as S a Далее, если сформулированные здесь условия выполняются для любого конечного интервала (а, Ь) и если, кроме того, оо j 18 (¦*> ') I <" <С ^в(*)> т0 *¦) 00 00 00 G.3.4) J u(t)dt=\ [ j g(x,t)dt]dF(x). — оо S — оо Рассмотрим сперва случай конечного интервала (а, Ь). Для почти [Р) значений х из S интеграл t а имеет, согласно E.1.4), частную производную — L —g(xt t) для всех t из (a, ft), так что |д-^^|'<04(х). Далее, |Л(*./)|<(fr —а)О4(х), следовательно, h(x,t) интегрируема на S относительно F{x). Запи- Записывая v\t)=\h{x,t)dF(x), *) Необходимые изменения этих условий, в случае, когда мы хотим инте- интегрировать и (?) на (а, оо) или (— оо, о), очевидны.
мы можем применить к v(t) замечание к теореме II) и найти v'(t)=jg{x,t)dF(x)=u(t). Согласно 1), функция иA) непрерывна на (а, Ь), так что разность имеет производную Д'(/) = я(*)— v'{t)=0. Для t=a имеем А(х, а)=0, v(a) = 0 и, значит, Д(в) = 0. Следовательно, Д(/) = 0 для a^t^b и, в частности, Д(&) = 0, что тождественно G.3.3). Если выполняются условия второй части теоремы, то G.3.3) имеет место для любого конечного интервала (о, Ь), и мы получим ь \g(x,t) \dF (x)) dt = J [ J \g[x, t)\dt] S a oo Таким образом, интеграл j \u(t)\dt сходится. Если в соотношении G.3.3) — оо заставить а и b стремиться соответственно к —оо и -|-оо, то левая часть этого соотношения будет стремиться к левой части соотноше- соотношения G.3.4). Применяя G.2.2), находим, что при этом правая часть G.3.3) стремится к правой части G.3.4). Таким образом G.3.4) доказано. Теоремы, доказанные в этом параграфе, показывают, что при не- некоторых условиях предельный переход, дифференцирование и интегри- интегрирование можно производить под знаком интеграла. 7.4. Интегралы Лебега — Стильтьеса относительно распределе- распределения. Если P(S) есть вероятностная функция распределения (см. па- параграф 6.6), то интеграл G.4.1) [g(x)dP= J g(x)dP= J g(x)dF R, — oo — oo может быть конкретно, хотя и недостаточно точно, интерпретирован как взвешенное среднее значение функции g(x) для всех значений х,
причем веса составляются из масс dP или dF, сосредоточенных в окрест- окрестности каждой точки х. Сумма всех весов равна единице, так как со ее f dP— \ rf/7=P(^1)=l. Каждая ограниченная ^-измеримая функция g(x) интегрируема отно- относительно Р (или F) на интервале (—oo, -j-oo). Если распределение масс представляется, согласно F.6.2), как сумма двух компонент, то интеграл G.4.1) равен g(x)dFi, —00 где первое слагаемое правой части сводится, как показывает соотно- соотношение G.1.8), к сумме по точкам сосредоточения массы в данном распределении. Если для некоторого целого положительного v функция ху инте- интегрируема относительно F(x) по (— со, -4~°°)t To интеграл оо а,= \ x*dF(x) — 00 называется моментом v-го порядка или просто ч-м моментом рас- распределения, и мы говорим, что v-й момент существует. Тогда, как легко видеть, любой момент порядка v'<[v также существует. Из элементарной механики известно, что первый момент аг есть абсцисса центра тяжести массы распределения, а второй момент ае представляет собой момент инериии массы относительно перпендику- перпендикулярной оси, проходящей через точку х=0. Моменты распределения будут играть большую роль в приложениях, разбираемых далее в этой книге. Если для некоторого А > 0 функция распределения F(х) удовлетворяет условиям (относительно принятых обозначений см. параграф 12.1) F(x)=0(\х\-*), если х-+— оо, 1 — F(x) = 0{x-k), если х -*¦ + «, то любой момент порядка v < k существует. Чтобы это доказать, достаточно, согласно параграфу 7.2, установить, что интеграл функции \хЬ относитель- относительно F (х) по интервалу (а, Ь) меньше некоторой постоянной, ие зависящей от
а и Ь. По предположению, ; 2rv (FBr) — /J1B''-1))^2r> A — Ftf'1)) < y^,,) , *-x 2 где С не зависит от г. Аналогичное соотношение «меет место и для инте- |рала по (—2Г, — 2Г~!). Суммируя по г = 1,2,... н присоединяя интеграл по (—1,1), который не превосходит 1, получим для любого интервала (а, Ь) ь 2С и, таким образом, у-й момент существует. 7.6. Интеграл Римава—Стяльтьеса. Рассмотрим интеграл Лебега — Стильтьеса G.5.1) I g(x)dF{x) в частном случае, когда / есть конечный полуоткрыгый интервал a g{x) непрерывна на / и стремится к конечному пределу при х—«г-|-0. Разобьем интервал I на п подынтервалов /?=(х,_, точками и рассмотрим суммы Дарбу G.1.1), соответствующие разбиению /=/,-}-...-\-in- Получаем 2 G.5.2) \ где т, и Мч суть нижняя и верхняя границы функции g{x) на /,. Пусть теперь е^>0 задано. По предположению, существует &, такое, что Мч — /», <[е при ху — *,_1<С* Для всех v, и мы имеем Z —*<•[/>(*)-/><«)].
Таким образом, если п стремится к бесконечности и в то же время максимум длин подинтервалов г\ стремится к нулю, то Z и z стремятся к общему пределу, который должен быть равен интегралу G.5.1): ь G.5.3) lira Z — lira z=\*\ g{x)dF{x). л -f оо я -*оо % Таким образом, в рассматриваемом здесь частном случае простые выражения G.5.2) сумм Дарбу достаточны для определения значения интеграла Лебега—Стильтьеса. Если положить F (х) — х, то эти выра- выражения эквивалентны суммам Дарбу, рассматриваемым в теории обыч- обычного интеграла Рнмана. Соответственно интеграл, определяемый соот- соотношением G.5.3), называется интегралом Римана — Стильтьеса. Из изложенного выше следует, что если этот интеграл существует, то он имеет всегда то же значение, что и соответствующий интеграл Лебега — Стильтьеса. Если в каждом подынтервале i4 выбрать произвольную точку 5,, то, очевидно, имеем G.5.4) lim S^(S,)[fW-/4*,-i)]= \ gi*)dF{x). я->оо l ~ я->оо так как сумма в левой части заключена между z и Z. Интеграл Римана—Стильтьеса G.5.3) существует даже в более об- общем случае, когда g(x) ограничена на {а, Ь) и имеет не больше ко- конечного числа точек разрыва гч, при условии, что функция F(x) непрерывна во всех точках г„. Действительно, в этом случае мы мо- можем заключить точки г, в подынтервалы /v, которые составят сколь угодно малую часть сумм г и Z. В частном случае, когда F (х) непрерывна на (а, Ь) и имеет не- непрерывную производную F {х) всюду, за исключением, может быть, ко- конечного числа точек, имеем для каждого интервала /v, не содержа- содержащего этих точек, где 6„ — некоторая точка, принадлежащая *\. Из G.5.4) следует, чю в этом случае интеграл G.5.3) сводится к обычному интегралу Ри- Римана ? * G.5.5)
Все эти свойства непосредственно распространяются на случай функ- функции g(x), принимающей комплексные значения, а также на случай бесконечных интервалов (а, Ь) при условии, что функция g(x) интегри- интегрируема на (а, Ь) относительно F(x). Если это условие выполнено, то имеет место, например, следующее обобщение, G.5.4): G.5.6) Ит 2?(?,)[/=¦(*,) — H-V-,)] = \g(x)dF(x), я-»оо 1 _и где, как и раньше, максимум длин подынтервалов (#,_,, ху) стремится к нулю при я—к» и в то же время х0—»• — оо и хя—»-}-оо. Предположим, что даны две неубывающие функции F(x) и G(.v-), непрерывные на замкнутом интервале {а, Ь), за исключением, может быть, конечного числа точек разрыва, являющихся внутренними точ- точками интервала (а, Ь). Предположим, далее, что ни одна точка интер- интервала (а, Ь) не является точкой разрыва обеих функций F и О. Вы- Выбирая подинтервалы так, чтобы ни одно jtv не являлось точкой разры- разрыва, имеем = SF(Jf.)[О(*v)- О(*,_,)] + 2 О(xy_,)[F(х,) — F(*,_,)]. Два слагаемых в правой части заключены соответственно между нижними и верхними суммами Дарбу интегралов \ FdG и \GdF. Переходя к пределу, мы получим, таким образом, формулу интегрирова- интегрирования по частям: ь ъ ь G.5.7) ]d(FG) = ]FdG-\- j GdF. Рассмотрим, наконец, последовательность функций распределения t\ (x), F2 (x) сходящуюся к неубывающей функции F(x) в каждой точке непрерывности последней. (Согласно параграфу 6.7, предел F(x) необязательно является функцией распределения.) Пусть функция g(x) всюду непрерывна. При любом конечном интервале (а, Ь), таком, что а и b суть точки непрерывности функций F(x), рассмотрение сумм Дарбу, определяющих соответствующие интегралы, показывает, что ь ь G.5.8) lim J ^(л:) dFn (х) = J g(x) dF(x).
Предположим, далее, что для каждого s ^> 0 можно иайти такое А, что — А для л = 1,2, ... . Всегда можно выбрать А так, чтобы функция F(x) была непрерывна в точке х = А; тогда, согласно G.5.8), где В^А—другая точка непрерывности функции F('x). Таким об' разом, последний интеграл не превосходит е для любого В>Д и для интеграла по (—В, —-А) имеет место такое же соотношение. Следовательно, g(x) интегрируема на (—В,—А) относительно F(x). Если в G.5.8) взять а =—А и Ь= -{-А, то каждый интеграл отли- отличается от соответствующего ему интеграла на (—оо,-)-оо) не больше чем на 2s. Так как е произвольно, то ОО 00 G.5.9) Urn \g(x)dFn(x)= \ g(x)dF(x). Это соотношение непосредственно распространяется и на функции g(x), принимающие комплексные значения. Литература к главам 4—7. Классическая теория нятегрирования полу- получила свое законченное развитие в знаменитой работе Римана A854). Около 1900 г. Борелем и Лебегом была основана теория меры точечных множеств и последним было введено понятие интеграла, носящего его имя. Интеграл относительно неубывающей функции F(x) был рассмотрен уже в 1894 г. Стиль- тьесом и в 1913 г. Радоном [205], исследовавшим свойства аддитивных функ- функций множества и теорию интегрирования относительно таких функций. Существует большое число работ, посвященных современной теории ин- интегрирования. Читатель, в частности, отсылается к книгам самого Лебега [23], Валле-Пуссена [40] и Сакса [33]. Книга Валле-Пуссена дает прекрасное вве- введение в теорию интеграла Лебега и содержит также несколько глав относи- относительно аддитивных функций множества, в то время как другие две книги углубляются в более трудные части теории.
ГЛАВЫ 8—9 ТЕОРИЯ МЕРЫ И ИНТЕГРИРОВАНИЯ В Ra ГЛАВА 8 МЕРА ЛЕБЕГА И ДРУГИЕ АДДИТИВНЫЕ ФУНКЦИИ МНОЖЕСТВА в RH 8.1. Мера Лебега в/?„. Элементарная мера протяженности одномер- одномерного интервала есть его длина. Соответствующая мера для двумер- двумерного интервала (см. параграф 3.1) есть его площадь, а для трехмер- трехмерного интервала—объем. Вообще, если I есть я-мерный интервал, определенный неравен- неравенствами «,<*„<*, (v=±= 1, 2, ... ,я), то его л-мерным объемом называется неотрицательная величина Для открытого, полуоткрытого и замкнутого интервалов с общими гра- границами а, и Ьу объем имеет одно и то же значение. Объем вырож- вырожденного интервала всегда равен нулю. Для бесконечного невырожден- невырожденного интервала положим I (/)==-(-оо. Лемма Бореля (см. параграф 4.1) непосредственно распространяется на случай л измерений. Слегка обобщая доказательство D.1.1), на- находим, что L(i) есть аддитивная функция интервала. Так же, как и в параграфе 4.2, можно поставить вопрос, может ли мера с теми же основными свойствами, что и /.(/), быть опре- определена для более общего класса множеств, чем интервалы. Мы, таким образом, хотим найти неотрицательную аддитивную функцию множества L E), определенную для всех борелевских множеств в Rn и принимающую значение L (i) в случае, когда 5 есть интервал /. В параграфах 4.3— 4.7 мы детально исследовали эту проблему в случае л = 1 и показали, что она имеет единственное решение: решением служит мера Лебега в #i- Случай, произвольного п не требует никаких изменений. Каж- Каждое утверждение и каждая формула параграфов 4.3—4.7 останутся
справедливыми, если заменить везде линейные множества л-мерными, а длину интервала — л-мерным объемом. Итак, существует неотрицательная аддитивная функция мно- множества L (S), однозначно определенная для всех борелееских мно- множеств в Rn и равная в частном случае, когда S есть интервал, его п-мерному объему. L(S) называется п-мерной мерой Лебега*) мно- множества S. 8.2. Неотрицательные аддитивные функции множества в Rn Точно так же, как и в одномерном случае, мы можем и для л^> 1 рассматривать неотрицательные аддитивные функции множества P(S) более общего вида, чем л-мерная мера Лебега L(S). Будем рассматривать функции множества P(S), определенные для всех борелевских множеств 5 в Rn и удовлетворяющие условиям А), В), С) параграфа 6.2. Непосредственно видно, что эти условия не содержат ссылок на число измерений. Соотношения F.2.1) — F.2.3) выполняются, очевидно, при любом числе измерений. С каждой функцией множества P(S) этого типа можно связать функцию точки F(x) = F(xv ... ,хя) подобно тому, как это делается- для одномерного случая посредством равенства F.2.4). Однако не- непосредственное обобщение F.2.4) на случай произвольного л несколько затруднительно. Поэтому мы рассмотрим только случай ограниченной Р (S), когда определение соответствующей функции точки может быть упрощено подобно тому, как в одномерном случае это достигается посредством F.5.1). Этим мы будем заниматься в следующем параграфе. Как и в случае я= 1, любая неотрицательная аддитивная функ- функция множества P(S) в Rn определяет некоторую л-мерную Р-меру множества S, которая служит обобщением л-мерной меры Лебега L (S). Замечания параграфа 6.4 относительно множеств Я-меры нуль при- применимы в случае любого числа измерений. *) ЧтоСы быть вполне точным, нужно было бы принять обозначение, явно указывающее на число измерений, например Ln (S) вместо L (S). Одна- Однако это не может привести к недоразумению, если все время помнить, что мера данного точечного множества относится к пространству, в котором оно содержится. Так, если мы рассмотрим, например, интервал @,1) на прямой линии как множество точек в Rv то его (одномерная) мера равна 1. Если, с другой стороны, мы возьмем ось х на плоскости и рассмотрим тот же ин- интервал как множество точек в Rit то мы имеем дело с вырожденным интер- интервалом, (двумерная) мера которого равна нулю.
8.3. Ограниченные функции множества. Если значение P(Rn) конечно, то мы говорим (см. параграф 6.5), что функция P{S) ограничена. При этом всегда P{S) «S P (Rn). Обобщая F.5.1), определим для ограниченной функции P(S) функцию (8.3.1) F(x) = F[x1 xH)=Pfa<xlt .... ?„<*„). Очевидно, что по каждому перемени эму дг^ функция F(x) не убывает, везде непрерывна справа, и для всех х (см. F.5.2)) В одномерном случае значение P(S) для полуоткрытого интервала/,, м, Фяг. 2. Функция множества и функции точки в R*. определенного неравенством a<^x^a-\-h, задается, согласно F.2.5), разностью первого порядка функции F{x): Эта формула может быть обобщена на случай произвольного п. Рас- Рассмотрим сперва функцию множестваP(S) в^и двумерный интервал /,, определенный Имеем (8.3.2) неравенствами аг <^xt ^ ax -\- A,, e3 <^ x ^ а2 -\- А2. Это ясно из фиг. 2. Если Mv Мг, М3, Mi суть значения, принимае- принимаемые функцией P(S) в каждой из прямоугольных областей, указанных на чертеже, то из аддитивности P(S) получаем Мл=(М1 + М2+Mt+Af4)—(уИх + Мг) — (М, +MS)+Mv что, согласна определению (8.*3.1) функции F(x), эквивалентно (8.3.2). Обобщение на случай произвольного л очевидно. Если P(S) есть
функция множества в Rn, а 1п—полуоткрытый интервал, заданный неравенствами ач <[ х„ ^ а, -}- А„ (v = 1, 2, ... , л), то (8.3.3) P(ia) = bnF( F(a,, fl-j-f A2, .... <7B Любой ограниченной РE) в /?„ соответствует, таким образом, функ- функция точки F(x1, ... , дгп), которая не убывает и непрерывна справа по любому переменному хн и обладает свойством, что л-я разность, опре- определяемая соотношением (8.3.3), всегда неотрицательна. Обратно, обоб- обобщая рассуждения параграфа 6.3, мы видим, что для каждой данной функции F, обладающей этими свойствами, однозначно определяется функция множества P(S), удовлетворяющая условиям А), В), С) пара- параграфа 6.2, которая для любого интервала in принимает значение, дан- данное равенством (8.3.3). Если одна из переменных, например хч, стремится к —оо, в то время как остальные остаются фиксированными, то, как и в пара- параграфе 6.5, показывается, что F стремится к нулю. Аналогично, если все Jtv одновременно стремятся к -f-oo, то F стремится к P(Rn). Если все аргументы функции F, за исключением одного, скажем х„ стремятся к + оо, то F стремится к пределу—к некоторой неубывающей ограниченной функции /\(*v) переменной *„. Согласно параграфу 6.2, функция /\ (-О имеет не более чем счетное множество точек разрыва z,; zv, ... . Будем рассматривать эти точки как исключенные зна- значения переменной х,, тем самым допуская для х, лишь значения, от- отличные от z[, zv, ... . Точно так же каждая из переменных xv ... , хп имеет свое собственное конечное или счетное множество исключен- исключенных значений. В каждой неисключенной точке x—{xv ... , хп) (т. е. Такой, в которой ни одно из значений хч не является исклю- исключенным) функция F непрерывна. Это следует из неравенства \F(x-\-h)—F(x)\^F(x-\-\h\) — F(x— где A = (Aj, ... , kn) есть произвольная точка, | h | обозначает точку (| А, |, ... , |An |), а сумма x->\-h, разность x — h и т. п. образуются
по правилам векторного сложения (см. параграфы 11Л—11.2). Фиг. 2 поможет уяснить это неравенство. Всякий л-мерный интервал, такой, что ни одна из его границ ач и Ьч не является исключенным значением соответствующей перемен- переменной ху, называется интервалом непрерывности функции P(S). Значе- Значения, принимаемые функцией P(S), когда 5 есть интервал непрерыв- непрерывности, будут меняться, очевидно, непрерывным образом при неболь- небольших изменениях ач и Ьч. Если две ограниченные функции множества в /?„ совпадают для всех интервалов, являющихся интервалами непре- непрерывности для них обеих, то (см. параграф 6.7) эти функции совпадают. 8.4. Распределения, Неотрицательные аддитивные функции P(S), такие, что Р(^я)=1> играют, подобно соответствующим одномерным функциям (см. параграф 6.6), фундаментальную роль в приложениях.. Согласно предыдущему параграфу, функция точки F(x), связанная с функцией множества P{S) этого класса, удовлетворяет соотношениям. (8.4.1) F{— oo, хг,.. .,*„)= ...=/=¦(*„..., хп_Лу — оо) = О, F(-\-oo -f-oc)=l. Как и в одномерном случае, функции P{S) и F(x) будут интер- интерпретироваться посредством распределения единицы массы по простран- пространству /?л, при котором каждое борелевское множество 5 несет массу P{S). Как в параграфе 6.6, мы можем задавать распределение как функ- функцией множества P{S), так и соответствующей функцией точки F(x), представляющей количество массы, заключенной в бесконечном интер- интервале ?]*?*, Za*?xn. Разница между этими двумя способами оп- определения, конечно, только формальная, и в каждом данном случае мы употребляем тот или другой из них в зависимости от удобства. Как в параграфе 6,6, P(S) будем называть вероятностной функцией распределения, a F(x) — функцией распределения. Таким образом, функция распределения F(x) = F(xv,.., хп) не убывает и всюду не- непрерывна справа по каждой переменной хч и обладает свойством, что п-я разность, определенная соотношением (8.3.3), всегда неотрицатель- неотрицательна. Обратно, из предыдущего параграфа следует, что любая заданная функция F, обладающая этими свойствами, есть функция распределе- распределения некоторого однозначно определенного распределения в /?„.
Если множество, состоящее из единственной точки х = а несет положительное количество массы, то а называется точкой сосредо- сосредоточения массы в данном распределении. Множество всех точек сосре- сосредоточения массы не более чем счетно, как это вытекает из простого обобщения соответствующего доказательства в параграфе 6.2. Оче- Очевидно, что каждая точка сосредоточения массы а есть точка разрыва функции распределения F. В случае л = 1 мы видели (в параграфе 6.6), что, обратно, функция F непрерывна во всех точках X, за исключе- исключением точек сосредоточения массы. Это, вообще говоря, неверно при п~^>\. Действительно, в многомерном пространстве масса может быть сосредоточена на линиях, поверхностях и гиперповерхностях так, что точек, несущих положительное количество массы, может не суще- существовать, в то время как функция F может быть разрывна в некоторых точках. В предыдущем параграфе мы видели, однако, что возможно исключить некоторые значения каждой переменной jcv, так что функ- функция F будет непрерывной во всех „ненскл юченных" точках. Рассмотрим, например, распределение единицы массы с равномерной плот- плотностью по интервалу @,1) оси х2 в плоскости (хь х2). Очевидно, что это рас- распределение не имеет точек сосредоточения массы, н тем не менее соответ- соответствующая функция распределения /-'(^г» •**). разрывна в каждой точке @, х2), где дг2>0. Соответственно, функция Fi(x1) = \im Р{хх,хг), рассмотренная в ++о предыдущем параграфе, разрывна при xl = 0, которое является единствен- единственным .исключенным" значением хг. Для х2 исключенных значений нет, и, та- таким образом, F(xb xt) непрерывна в любой точке {xv х2), где дгх Ф 0. Мы увидим далее, что каждое распределение в Rn может быть единственным образом представлено в виде F.6.2) как сумма двух компонент, первая из которых соответствует распределению, при ко- котором вся масса заключена в точках сосредоточения массы, в то вре- время как вторая компонента соответствует распределению без точек сосредоточения массы. Из сказанного выше следует, что при я^>1 мы не можем утверждать, что функция распределения второй компо- компоненты непрерывна. Пусть / обозначает л-мерный интервал Отношение ...Л„ •
где разность ДЛР определяется соотношением (8.3.3), представляет собой среднюю плотность массы на интервале /. Если существует частная производная d"F f(xv...,xa) ^=дХ1дхг....дха' то средняя плотность стремится к этому значению, если все Ич стремятся к нулю, и соответственно )(xv..., хп) представляет плотность массы в точке X. Как и в одномерном случае, эта функция будет называться плотностью вероятности или функцией плотности. Пусть F(xv..., х„) — функция распределения для некоторого дан- данного распределения. Если все переменные, за исключением фиксированно- фиксированного ху, стремятся к -)-св, то F будет стремиться (см. параграф 8.3) к пределу FH (*„), который язляется некоторой функцией распределения переменной^; так, например, F1{x1) -F(xv +¦ оо,.. .,-[-оо). Функ- Функция /\ (jc,) определяет некоторое одномерное распределение, которое мы будем называть частным распределением переменной хч, Мы можем конкретно представить себе это частное распределение так: предположим, что каждая частица массы в первоначальном л-мерном распределение движется к оси лс, по прямой перпендикулярной оси *„, до тех пор, пока не осядет на эту ось. Когда, наконец, вся масса спроектируется таким образом на ось ху, то распределение, порожденное на этой оси, и есть частное распределение хч. Каждая переменная дгу имеет, конечно, свое собственное частное распределение, которое может быть отлично от частных распределений других переменных. Выделим теперь какую-нибудь группу из й<л переменных, ска- скажем xv..., xk, и предположим, что остальные л — k переменных стре- стремятся к -|-<х>. Тогда F будет стремиться к некоторой функции рас- распределения переменных xx,...,xk, которая определяет k-мерное ча- частное распределение этой группы переменных. Это распределение можно конкретно представить с помощью проектирования массы первона- первоначального распределения в 6-мерное пространство переменных xv..., xk (см. параграф -3.5). Пусть Р—вероятностная функция л-мерного распределения, а Р1г.ш,гк—вероятностная функция частного распре- распределения переменныххх,,. .,хк. Пусть, далее,S' — произвольное множе- множество в 6-мерном пространстве переменных хх,..., xk, a S есть цилин- цилиндрическое множество (см.параграф 3.5) всех точекх в Rn, которые проек- проектируются в точки подпространства, принадлежащие S'. Тогда имеем,
очевидно, (8.4.2) /V.. что является аналитическим выражением проекции массы первоначаль- первоначального л-мерного распределения в А-мерное подпространство перемен- ИЫХ Aj | • • « ) *j^" Теория распределений в Rn будет далее развита в главах 21—24. 8.6. Последовательности распределений. Как и в одномерном случае (см. параграф 6.7), мы будем говорить, что последовательность распре- распределений в Rn сходится, если соответствующие вероятностные функ- функции сходятся к неотрицательной аддитивной функции множества Р (S) на каждом интервале непрерывности этой последней. Если, кроме того, предел P(S) есть вероятностная функция, т. е. если Р(#я) = 1, та мы говорим, что последовательность сходится к распределению. С точкн зрения приложений важен, вообще говоря, только этот по- последний случай сходимости. Для последовательности сходящейся, но не сходящейся к распределению, инеем P{RnX 1> что можно интерпретировать, говоря, что некоторая часть массы в наших распределениях .исчезает в бесконечности" при переходе к пределу. Простое обобщение результатов параграфа 6.7 показывает, что последовательность распределений сходится к распределению тогда и только тогда, когда соответствующие функции распределения Fv F2,... стремятся к функции распределения F во всех „не исключенных" точ- точках последней (см. параграф 8.3). Дальнейший критерий для решения вопроса, сходится ли данная последовательность распределений к не- некоторому распределению или нет, будет дан в параграфе 10.7. Как и в параграфе 6.8, будем говорить, что последовательность функций распределения FVF2>... сходится, если существует такая функция F, неубывающая по каждому переменному jcv, что Fn—> Г в каждой .не исключенной" точке функции F. Всегда имеем О <>Р-^ 1, но, соответственно сказанному выше, F не обязательно представляет собой функцию распределения. Далее, имеет место следующее обобщение пред- предложения, доказанного в параграфе 6.8 для одномерного случая. Каждая последовательность функций распределения содержит сходящуюся подпоследовательность. Это может быть доказано непосредственным обобщением доказательства параграфа 6.8, которое мы здесь прово- проводить не будем.
8.6. Распределения в произведении пространств. Рассмотрим два пространства Rm и Rn с переменными точками x = (xv.,., хт) и у = (jfj,..., уп). Предположим, что в каждом из этих пространств задано некоторое распределение и пусть Fy и Рг суть функция рас- распределения и вероятностная функция распределения в Rm, a F2 и Р2 имеют аналогичный смысл для распределения в Rn. В произведении пространств Rm-Rn (см. параграф 3.5) размерности т-\-п обозначим переменную точку через z = {x,y) — (xv..., хт, у1,...,уа).Ех..пи S1 и S2 суть соответственно множества в пространствах Rm и Rn, то обозначим через 5 прямоугольное множество (см. параг- параграф 3.5) всех таких точек г = (х, у) в произведении пространств, для которых х с 5, и у с 5г. Почти очевидно, что мы можем всегда найти бесконечное число распределений в произведении пространств, таких, что для каждого из них частные распределения (см. параграф 8.4), соответствующие подпространствам Rm и Rn, совпадают с двумя заданными распреде- распределениями в этих пространствах. Среди этих распределений отметим, в частности, одно, имеющее специальный интерес для приложений. Это распределение задается следующей теоремой: Существует одно и только одно распределение в произведении пространств Rm^Rn, такое, что (8.6.1) P(S)=P1[S1)P2(S2) для всех прямоугольных множеств S, определенных соотношениями xcS1 nyczS2. Это распределение задается функцией распределения (8.6.2) F(z)=F1(x)F2(y) для всех точек z = [x,y). Заметим сперва, что функция F{z), определенная равенством (8.6.2), является, конечно, функцией распределения в Rm-Rn, так как она обладает характеристическими свойствами функций распределения, сформулированными в параграфе 8.4. Рассмотрим теперь распределе- распределение, заданное функцией F{z). Из (8.3.3) следует, что для любого полуоткрытого интервала / = (/р/г), определенного нера- неравенствами типа я, <*„«?*„ с, <_у, s? rfv. Каждое борелевское мно жество S, в Rm может быть получена из интервалов /, применением
операций сложения и вычитания. (Согласно A.3.1), операция умноже- умножения может быть сведена к сложениям и вычитаниям.) Из аддитивности функции Pj следует, что для любого прямоугольного множества вида „V — (S1? /„) имеем P(S)=P1(Sl)P2(Ii). Поступая таким же образом с интервалами /2, мы, наконец, получим (8.6.1). С другой стороны, каждое распределение, удовлетворяющее условию (8.6.1), удовлетворяет также условию (8.6.2), потому что последнее является просто частным случаем предыдущего. Так как рас- распределение однозначно определяется своей функцией распределения, то, таким образом, может существовать только одно распределение, удовлетворяющее условию (8.6.1). Если в (8.6.1) положить S2= Rn, то из (8.4.2) будет следовать, что частное распределение, соответствующее подпространству Rn, сов- совпадает с заданным в этом пространстве распределением с вероятно- вероятностной функцией Pv Аналогично, полагая Sj = /?m, находим, что част- частное распределение в Rn совпадает с заданным в этом пространстве распределением. Заметим, наконец, что теорема может быть обобщена на распре- распределения в произведении любого числа пространств. Доказательство вполне аналогично проведенному выше, а соотношения (8.6.1) и (8.6.2) заменяются очевидными обобщениями: P=PlP3...PknF=F1F,...Fk. ГЛАВА 9 ИНТЕГРАЛ ЛЕБЕГА — СТИЛЬТЬЕСА ОТ ФУНКЦИЙ я ПЕРЕМЕННЫХ 9.1. Интеграл Лебега — Стильтьеса. Теория интеграла Лебега— Стильтьеса от функций одного переменного, развитая в главе 7, мо- может быть непосредственно обобщена на функции л переменных. Если в выражениях G.1.1) для сумм Дарбу допустить, что P(S) обозна- обозначает неотрицательную аддитивную функцию множества в Rn, а /л„ и Afv суть нижняя и верхняя границы данной функции g(x) = g{xv ...,*„) на я-мерном множестве 5„ то интеграл Лебега — Стильтьеса (9-1.1) $g(x)dP = \g(xv...,xn)dP S S
оказывается определенным точно так же, как и в одномерном случае. Функция g(x) называется ^-измеримой на множестве S, если при любом действительном k подмножество всех точек xcS таких, что g{x) =^ k, есть борелевское множество. Все замечания относительно Zf-измеримых функций, сделанные в параграфе 5.2, без труда распро- распространяются на функции л переменных. Если g(x) ограничена и Л-измерима на множестве 5 конечной Я-меры, то она интегрируема на множестве 5 относительно Р. Опре- Определения интеграла и интегрируемости в случае неограниченной функ- функции g(x) и в случае множества 5 бесконечной Р-меры получаются непосредственным обобщением определений параграфа 7.2. Все свой- свойства интеграла, упомянутые в параграфах 7.1—7.3, легко распро- распространяются на случай л переменных, все доказательства полностью аналогичны доказательствам для случая л = 1. В частном случае, когда P(S) есть л-мерная лебегова мера, полу- получим интеграл Лебега функции g(x), который часто записывается в форме обычного кратного интеграла [g{x)dL=\ g{xlt ...,xa)dXl... йхя. S s Если 5 есть интервал, a g(x) интегрируема в смысле Рнмана на этом интервале, то интеграл Лебега совпадает с обычным кратным интегралом Римана, как мы это уже отмечали для одномерного слу- случая (см. параграф 5.1). 9.2, Интегралы Лебега — Стильтьеса относительно распреде- распределения. Замечания, сделанные иа эту тему в параграфе 7.4, очевидно, применимы также и в случае л ^> 1. Моменты распределения в Rn суть интегралы где v, — неотрицательные целые числа. Как и в одномерном случае, мы будем говорить, что соответствующий момент существует, если функция х^... х'? интегрируема на Jtn относительно Р. Рассмотрим теперь интеграл (9.2.1) [g(xv...,xn)dP
в случае, когда функция g зависит только от некоторого числа пере- переменных, скажем xv -.., хк, где к<^п. Обозначим через Rk ft-мер- ное подпространство этих переменных. Предположим сперва, что функ- функция g ограничена, и рассмотрим разбиения где &v суть борелевские множества в Rk, такие, что 5'5'v = 0 при M=^=v, a 5, обозначает цилиндрическое множество (см. параграф 3.5) в /?Л с основанием S[. Верхняя сумма Дарбу Z=MlP(Sl)+ .. . + MqP[Sq), соответствующая интегралу (9.2.1), совпадает, согласно (8.4.2), с суммой 2=М1Ри...,к{?1)+...+М,Р1 k(S'g) (где /*!,...,» обозначает вероятностную функцию частного распре- распределения переменных xlt...,xk), которая является верхней суммой Дарбу для ^-мерного интеграла *¦ Так как то же соотношение справедливо и для нижних сумм Дарбу, то, следовательно, для любой ограниченной функции g(xv ...,хк) имеем (9.2.2) f g(xlt .... xk)dP= \ g(xv .... xk)dPu... k, так что в этом случае л-мерный интеграл сводится к 6-мерному. Легко видеть, что это соотношение выполняется, когда g интегри- интегрируема на Rk относительно Р1г...,к, даже если g не ограничена. Можно предполагать также, что функция g принимает комплексные значения. 9.3. Теорема о повторном интегрировании. Если функция g(x,y) непрерывна в прямоугольнике a^x^b, i^y^d, то
известно, что справедливы равенства ь d ь d й ь J \g(*> y)dxdy= j ( j g(x, y)dy) dx=\ ( j g(x, y)dx) dy, a e a e e a так что двойной интеграл может быть выражен двумя способами в виде повторного интеграла. Соответствующая теорема справедлива и для случая интеграла Лебега — Стильтьеса любого числа измерений, мы сейчас докажем ее для одного специального случая. Используя те же обозначения, что и в параграфе 8.6, рассмотрим две вероятностные функции Р1 и Я2 соответственно в пространствах Rm и /?„ и однозначно определенную вероятностную функцию Р в произведении пространств Rm-Rn, удовлетворяющую условию (8.6.1). Пусть 5, и 53 обозначают множества, заданные соответ- соответственно в Ля и J?,, a S = (SV 52) — прямоугольное множество со .сто- .сторонами" Sj и 52. Пусть, далее, g(x) и h(y) суть заданные функции точки соответственно в Jtm и /?„, такие, что g(x) интегрируема на Sl относительно Pv а А (у) интегрируема на 52 относительно Ръ. Тогда функция g(x)h(y) интегрируема на S=(St,Sa) относи- относительно Р и (9.3.1) J 1$ Предположим сперва, что функции g(x) и А (у) ограничены и не- неотрицательны. Рассмотрим суммы Дарбу для интегралов в равенстве (9.3.1), соответствующие разбиениям 5, = S^> -\-... -j- SJ*>, 5а=5У>+ +.. •-J-5JV>, 5=2^'л. где 5<'Л обозначает прямоугольное мно- множество {SV\ Sip). Если обозначить эти суммы через г и Z для инте- интеграла в левой части и через zv Z1 и z2, Z2 для двух интегралов в правой части, то имеем Теперь (9.3.1) вытекает непосредственно из определения интеграла. Заменяя, далее, g и А на g—g* и К — А', где g", g4, A', V суть ограниченные неотрицательные функции, мы установим (9.3.1) для любых действительных ограниченных функций g и А. Распространение на произвольные интегрируемые функции и иа функции, принимающие комплексные значения, следует непосредственно из определения инте- интегралов для таких функций.
9.4. Интеграл Римана—Стильтьеса. Содержание параграфа 7.5 может быть также обобщено на случай л переменных, причем мы должны употреблять функцию точки F(x}, ...,хя) и разность ДЯР вместо функции точки F(x) и разности F(x^)—F(x1_l). В частности, если для всех точек интервала / («v <: jc, sg />э; d*F v== 1, ..., л) существует непрерывная производная — , а функ- ох1... охп ция g(x) непрерывна на /, то интеграл (9.1.1) при S = / может быть представлен как кратный интеграл Римана: =у .. j g(xv ..., хаK-—-ш-dXl...dxa. Это свойство непосредственно распространяется на случай функции g{x), принимающей комплексные значения, и на случай бесконечных интервалов, при условии, что g{x) интегрируема на / относительно Р. 9.5. Неравенство Шварца. Рассмотрим две действительные функ- функции g(x) и- л (х), такие, что их квадраты g2 и Л2 интегрируемы отно- относительно Р на множестве 5 в Rn. Квадратичная форма 5 vh (*)]* dP=ф \ ?*ар + 2uv[ghdP-\-v*\ hn-dP неотрицательна для всех действительных значений переменных и н v. Следовательно (см. параграф 11.10), детерминант этой формы не- неотрицателен, откуда вытекает (9.5.1) 8 $
ГЛАВЫ 10—12 РАЗЛИЧНЫЕ ВОПРОСЫ ГЛАВА 10 ИНТЕГРАЛЫ ФУРЬЕ Для применений к теории вероятностей и статистике нам понадобится ряд теорем относительно некоторых специальных классов интегралов Фурье; мы выведем их в этой главе. Относительно общей теории этих вопросов см. Бохнер [4], Тичмарш [38] и Винер [41]. ЮЛ. Характеристическая функция распределения в #}. Пусть F(x) обозначает некоторую одномерную функцию распределения (см. параграф 6.6), a t—действительное число. Функция g(x) = = еш'¦'= cos tx-\-i sin tx, согласно параграфу 7.4, интегрируема на (— оо, оо) относительно F{x), так как |е"*| = 1. Функция действи- действительного переменного t 00 A0.1.1) <?(*) = [ eitxdF(x) называется характеристической функцией распределения, соответ- соответствующего F(x). Вообще говоря, y(t) есть функция переменного t, принимающая комплексные значения. Очевидно, всегда ср @) = 1 и для- всех значе- значений t (через а обозначаем комплексную величину, сопряженную с а). Далее, из параграфа 7.3 следует, что <р (t) непрерывна для всех действитель- действительных t. Если момент А-го порядка (см. параграф 7.4) данного распределения существует, то из параграфа 7.3 вытекает, что мы можем дифферен- дифференцировать равенство A0.1.1) k раз по t, так что для 0<:vsg; ft имеем оо A0.1.2) ¦>,(¦>) (t) = F [ x'cilxdF(x). — so
Отсюда, согласно параграфу 7.3, следует, что функция непрерывна для всех действительных /, и мы имеем 00 = f» \ В окрестности точки ? = 0 имеем, таким образом, разложение в ряд Маклорена: 5 где остаточный член, деленный на tk, стремится к нулю при t—+Q (см. параграф 12.1). Обратно, если известно, что характеристическая функция имеет для част- частного значения tf = 0 конечную производную порядка 2k, то эта производная равна пределу =Ит J (t^f^ — 00 —00 Для любого конечного интервала (в, Ь) имеем, согласно G.1.7), ь ь \х* dF(x) = lira G*E** f dF(x) < | *<2*> @) |. t-*0 J \ X I a a Следовательно, момент aik существует и соотношение A0.1.2) выпол- выполняется для 0^уг^2Л и всех значений t. Мы видим, таким образом, что свойства дифференцируемости tp(/) связаны с поведением функции F(x) при больших значениях х, так как от этого поведения зависит, существуют или нет моменты а,. Можно также показать, что, обратно; поведение функции <o(t) в бес- бесконечности связано с непрерывностью и свойствами дифференцируе- дифференцируемости функции F(x). Предположим, например, что функция F(x) всюду непрерывна и что непрерывная плотность вероятности F'(x) = =f(x) существует для всех х, за исключением, быть может, конеч- конечного числа точек. Согласно G.5.5), имеем 00 A0.1.4) «р(*)= J e"*f(x)dx, — 00 и можно показать, что <p(t) стремится к нулю прн t—*-Ч^оо, Если, кроме того, л-я производная /'">(.*¦) существует для всех Jt, причем
j/M(Jc)| интегрируема на (— оо, сю), то повторное интегрирование по частям показывает, что для всех t, где К—некоторая постоянная. Здесь мы, однако, не бу- будем проводить подробного доказательства этого утверждения. Предположим, с другой стороны, что F(x) есть ступенчатая функ- функция со скачками высоты р, в точках х = х^ Тогда, согласно G,1.8), имеем A0.1.5) <?(*) = 2/V*"*'. V причем этот ряд сходится абсолютно и равномерно для всех t, так как 2/\=1- Каждый член ряда есть периодическая функция от t и, •ш следовательно, не стремится к нулю при t—»-=Ьсо. Так, например, характеристическая функция функции распределения е(х), определен- определенной соотношением F.7.1), тождественно равна 1. Не каждая функция <р (t) может быть характеристической функцией неко- некоторого распределения. Для этого необходимо, чтобы функция ?(f) была не- непрерывной и удовлетворяла условиям: | <p(f) К1, <р@)=1 и <р(—f)=y(*j- Однако эти условия недостаточны для того, чтобы функция была характе- характеристической функцией распределения. Если, например, у (О вблизи ^ = 0 имеет инд f (<) = 1 + О (**+8), где 8 > 0, то из A0.1.3) следует, что распределение, со- соответствующее функции <р A), должно иметь ^ = ^ = 0. Это означает (см. пара- параграф 16.1), что вся масса данного распределения сосредоточена в точке f = 0, следовательно, соответствующая функция распределения есть ш(х), а харак- характеристическая функция ч (f) = 1. Итак, в этом случае у (t) не может быть ха- характеристической функцией, если она не равна тождественно единице. Так м 1 например, функции е~ ^ и .-^гп |1е являются характеристическими функция- функциями, хотя обе они удовлетворяют приведенным выше необходимым условиям. Известны различные необходимые а достаточные условия того, чтобы данная функция была характеристической. Наиболее простым таким условием представляется следующее (Крамер [71]): Для того чтобы данная ограни- ограниченная непрерывная функция <рA) была характеристической функцией некоторого распределения, необходимо и достаточно, чтобы <р@)—1 и чтобы функция А А <!< (х, А) = f f f (t — и) eix (t~a) dt du была действительна и неотрицательна для всех действительных х и всех А > 0.
Легко видеть, что эти условия необходимы. Действительно, если есть характеристическая фуикция, соответствующая функции распределения Р{х), то а последнее выражение, очевидно, действительно и неотрицательно. Доказа- Доказательство достаточности этих условий опирается на свойства некоторых инте- интегралов, аналогичных тем, которые используются в двух следующих парагра- параграфах. Однако оно несколько сложнее, и мы его здесь приводить не будем. 10.2. Некоторые вспомогательные функции. Рассмотрим функции т s{h, Т)= — \ —V— dt, о т c(htT) = ^\X-™htdt, о где h действительно, а 7)>0. Очевидно, что c(/i, ТM=0 и s{ — h, T)=—s(k, T), c( — h, T) = c[h, T). С помощью простых преобразований получим для h ^> 0 пт ., „. 2hCsint.. 2 1 — cosA7" C(h, T) = -\-rdt—- j. . о В учебниках интегрального исчисления доказывается, что интеграл о ограничен для всех jc)>Oh имеет предел -^ при х—»-оо. Отсюда следует, что функция s(h, T) ограничена при всех дей- действительных h и всех Г>0и что, равномерно для | 1 для А>0, A0.2.1) lims(^7) = J о для Л = 0, Г I —1 для Л<0.
Далее, для всех действительных h получаем 00 A0.2.2) Hmc{h, T)=l Г-оо * 10.3. Теоремы единственности для характеристических функ- функций в /?j. Если (а — А, а-\-h) есть интервал непрерывности (см. па- параграф 6.7) функции распределения F(x), то г A0.3.1) F(a + h) — F(a — A) = lim - Эта важная теорема (Леви [24]) показывает, что распределение однозначно определяется своей характеристической функцией. Действи- Действительно, если два распределения имеют одну и ту же характеристиче- характеристическую функцию, то, согласно доказанной теореме, эти два распределе- распределения совпадают для лю ого интервала, являющегося для них обоих интервалом непрерывности. Следовательно, согласно параграфу 6.7, эти распределения тождественны. Для того чтобы доказать эту теорему, пишем т г оо dti tit Модуль функции —p-e«(*-fl) не больше, чем А, так что условия, установленные в параграфе 7.3 для изменения порядка интегрирова- интегрирования, выполнены. Следовательно, 00 Т /= i j dF(x) j **J*e"(*-°)dt= — оо —Т oo 7" 00 = !¦-j dF(x)$s^coS(x-a)tdt= J g(x, T)dF{x), — oo 0 —oo где
Таким образом, согласно предшествующему параграфу, | g(x, T) \ меньше некоторой абсолютной постоянной, и мы имеем ' 0 при lim g(x, T) = - — Л, ¦к- при х=а — А, 1 при а— 1 <1 «^ а-\- А, при x = t л* О при x~^>i Следовательно, можно применить теорему G.2.2). Так как F{x) непрерывна при x = a + ft, то получим Ига У= V dFl так что A0.3.1) доказано. В частном случае, когда |(р(/)| интегрируема на (— с», ос), из A0.3.1) следует, что -F(x-h) 2Л I f ~2n J sin ht tl ht e если F непрерывна в точках х+h. Если А стремится к нулю, то подинтегральная функция стремится к e~itxif(t), в то время как ее модуль не превосходит интегрируемой функции | <р (t) \. Таким образом, применяя G.3.1), мы убедимся, что производная F'(x)=f(x) суще- существует для всех х и что (Ю.3.2) Тогда f(x) есть плотность вероятности (см. параграф 6.6) данного распределения, и из параграфа 7.3 следует, что f(x) непрерывна для всех значений х. Обращаем внимание на взаимную обратимость соот- соотношений A0.3.2) и A0.1.4). Для того чтобы определить F(x) посредством соотношения A0.3.1), мы должны знать функцию <р (*) на всем бесконечном интервале (— оо, оо). Зна- Знание же функции f (t) на некотором конечном интервале недостаточно для определения функции F(x).
В самом деле, Гнеденко [117] дал пример двух характеристических функ- функций, совпадающих на конечном интервале, но не тождественных при всех t. Мы приведем несколько более простой пример, принадлежащий Хинчнну. Функции /1—1*1 О лрн 1 , 4/cos я* , cos3itf . cos5itf / ) \ являются характеристическими. <fi{t) есть характеристическая функция рас- распределения, определенного плотностью вероятности 1 —cos л: то можно видеть, полагая в A0.3.3) Л — 1, F(x) = e(x) и j(f)=l. Функция ?s (?) соответствует распределению, при котором масса -к- сосредоточена в точке 2 д: = 0 я массы-j-: — в точках х — пт. (я=±1, rt3, ...). Суммируя триго- нометрический ряд для ?j(t), убеждаемся, что ft(<) = ip.(<) при |(|<1. С дру- другой стороны, для \t I > 1 функция у 1 @ равна нулю, а функция f, @ — пе- периодическая с периодом 2. Теперь перейдем к доказательству формулы, которая тесно свя- связана с A0.3.1), но отличается от нее тем, что она содержит абсолютно сходящийся интеграл. В следующем параграфе эта формула найдет важное применение. Для любых действительных а и h~^>0 имеем к со A0.3.3) J[F<a-K*) —F(a-*)]rfz=l j !=«««е-ш 0 —oo Преобразуем интеграл в. правой части так же, как и в доказа- доказательстве A0.3.1); при этом изменение порядка интегрирования законно в силу 7.3. Обозначая правую часть A0.3.3) через У,, получим У, = 1 J dF (х) J l-™sht e» (*-) dt = — 00 —00 09 00 ^— I dF(x)\ « cos(jf — a)tdt.
Из A0.2.2), как и выше, следует 00 — a — /i| — 2\х — а\ __ I' e-j- = \ e-j- A h — \x-a\)dF{x). a-h Применяя формулу интегрирования по частям G.5.7) к последнему интегралу, взятому по каждому из интервалов (а — А, а) н (а, а-\-п) в отдельности, убеждаемся, наконец, что Jx совпадает с выражением в левой части A0.3.3), так что соотношение A0.3.3) доказано. 10.4. Теорема непрерывности для характеристических функ- функций в /?1# В предыдущем параграфе мы видели, что существует взаимно-однозначное соответствие между распределениями и их харак- характеристическими функциями !р(?): функция F(x) всегда однозначно определяется соответствующей характеристической функцией <?(*)» и преобразование, с помощью которого мы переходим от F(x) к <?(/) или обратно, всегда единственно. Докажем теперь теорему, которая показывает, что при некоторых условиях это преобразование также и не- непрерывно, так что соотношения Fn {х)—*- F (х) и <ря (t)—*<? (t) равносильны. Эта теорема очень важна для приложений, так как она дает кри- критерий, который часто позволяет решить, сходится ли данная последо- последовательность распределений к распределению или нет. В параграфе 6.7 мы видели, что последовательность распределений сходится к распре- распределению тогда и только тогда, когда соответствующая последователь- последовательность функций распределения сходится к функции распределения. Однако в приложениях иногда бывает очень трудно прямо обнаружить сходимость последовательности функций распределения, в то время как вопрос о сходимости соответствующей последовательности харак- характеристических функций может быть решен сравнительно легко. В таких случаях мы будем часто пользоваться следующей теоремой, принад- принадлежащей Левн [24, 25] и Крамеру [11]: Дана последовательность распределений с функциями распределе- распределения Fj(x), F2(x), ... и характеристическими функциями #f,(t), <ра(*) Для того чтобы последовательность {Fa(x)) сходилась к фу ними распределения F(x), необходимо и достаточно, чтобы при любом t последовательность \<fa(t)} сходилась к пределу непрерывному при t = 0.
Если это условие выполнено, то предел <р (t) совпадает с харак- характеристической функцией предельной функции распределения F(x). Покажем сперва, что это условие необходимо и что предел <f(t) служит характеристической функцией функции распределения F(x). Действительно, это непосредственно следует из G.5.9), так как усло- условия этого соотношения, очевидно, выполнены, если взять g(x) = eltx. Основная трудность заключается в доказательстве достаточности этого условия. Предположим, что tpn (t) стремится при каждом / к пре- пределу <p(t), который непрерывен при / = 0, и докажем, что при этом предположении Fn{x) стремится к некоторой функции распределе- распределения F(x). Если это будет доказано, то из первой части теоремы бу- будет следовать, что предел <o(t) совпадает с характеристической функ- функцией функции распределения F(x). Согласно параграфу 6.8, последовательность {Fn (x)} содержит под- подпоследовательность {Fn [x)), сходящуюся к некоторой неубывающей функции F(x), где F(x) можно определить так, чтобы она была всюду непрерывна справа. Докажем сперва, что F(x) есть функция распре- распределения. Так как, очевидно, 0 *?. F{х) *?. \, то достаточно доказать, что F(-f-oo)— F(—ос) = 1. Из A0.3.3), полагая а = 0, получим АО оо Г 1 Г 1- '— 1 ^я (?)dz = — \ — J т П J О —А —Оо В обеих частях этого равенства мы можем заставить v стремиться к бесконечности под знаками интегралов. Действительно, интегралы слева берутся по конечным интервалам, в которых Fn равномерно ограничены и стремятся почти всюду к F, так что мы можем при- применить E.3.6). Справа модуль подинтегральной функции не превосхо- превосходит функции 1 — cos Л» tz ' интегрируемой на (—оо, оо), так что мы можем применить более общую теорему E.5.2). Таким образом, разделив на А, получим Л 0 оо 1 Г _i r — А —оо 00
В этом соотношении мы возьмем последовательность значений А, стремящуюся к бесконечности. Тогда первый член будет стремиться, очевидно, к /г(-|-оо) — F(—со). С другой стороны, <р(*) непрерывна при * = 0, так что (р f ^-J стремится при любом / к пределу ср @) Имеем <p@) = lim <ря@), но (рЛ@)=1 при любом л, так как <р (/) л-» со есть характеристическая функция. Следовательно, <р @) = 1. Применяя еще раз E.5.2), мы получим для последнего интеграла, используя A0.2.2), — 09 Таким образом, F(-{- со)= 1, F(—оо) = 0, и предел F (л?) последова- последовательности {Ftt (х)} есть функция распределения. Согласно же первой части доказательства, предел <р(?) последовательности {<р„ (/)} совпа- совпадает с характеристической функцией функции распределения F(x). Рассмотрим теперь какую-нибудь другую сходящуюся подпоследова- подпоследовательность последовательности {Fn(x)$ и обозначим предел этой новой подпоследовательности через F* (х); при этом предположим, что F* (х) всюду непрерывна справа. Так же, как и раньше, показываем, что F*(x) есть функция распределения. По предположению, характеристи- характеристические функции новой подпоследовательности имеют для всех значе- значений / тот же предел <р(*), что и раньше; следовательно, tp(f) есть характеристическая функция обеих функций распределения F(x) и F*(x). Согласно теореме единственности A0.3.1), F (х) = F* {х) для всех х. Итак, каждая сходящаяся подпоследовательность последовательности {Fn(x)\ имеет один и тот же предел F(x). Это, однако, эквивалентно утверждению, что последовательность {Fn(x)\ сходится к F(x), и так как мы показали, что F(x) есть функция распределения, то наша теорема доказана. В параграфе 10.1 мы видели, чти характеристическая функция непрерывна при любом t. Таким образом, из доказанной выше теоремы следует, что предел »(() последовательности характеристических функций непрерывен при любом t, если только он непрерывен при f=0. Однако условие, что предел должен быть непрерывен при f = 0, существенно. В самом деле, покажем на примере, что утверждение теоремы может быть неверно, если пренебречь этим условием. Пусть Fn (x) — функция рас-
пределення, определенная равенствами О при лгг^ —л, 1 при Соответствующая плотность вероятности равна ^- на интервале (— л, л) и исчезает вне этого интервала. Соответствующая характеристическая функ- функция, согласно A0.1.4), есть л 1 Г .. . sin л* = я- I eU*dx = - l аг Еслн л стремится к бесконечности, то ?„(*) сходится при любом t к пре- пределу <q(t), определенному равенствами {1 при < = 0, О при t Ф 0. Таким образом, этот предел не непрерывен при f = 0. Соответственно этому при любом фиксированном х имеем Fn (х) —•¦ —, так что предел последова- последовательности Fn(x) не является функцией распределения. В случае Fn (х) = е (х — л), рассмотренном в параграфе 6.7, имеем <fa(t) = eiat, так что последовательность характеристических функций нигде не сходится, за исключением t, кратных 2с. Соответственно этому, при лю- любом фиксированном х имеем Fn(x)—»-0, так что предел последовательности Fn(x) не является функцией распределения, как мы уже убедились в пара- параграфе 6.7. 10.5. Некоторые интегралы..Выведем теперь некоторые формулы, которыми будем пользоваться в дальнейшем. В учебниках интеграль- интегрального исчисления приводится интеграл 09 — ОО Подставляя х у -^ вместо дг, получим для любого I' — оо
На основании параграфа 7.3 легко видеть, что это равенство можно дифференцировать по h любое число раз, так что A0.5.1) ( Jfl>e~s*"dx=-&№- V*th~4~*U (v = 0, 1,2,...). J 2* v! — oo Рассмотрим теперь интеграл о» 1 °° \ е 2 dje= I 0 — ОО Частные суммы ряда под интегралом в правой части не превосходят \tx\ —• ¦— Ал* функции, е 2 , интегрируемой на (—оо, оо). Таким образом, согласно E.5.2), этот ряд можно почленно интегрировать. Так как члены нечетного порядка (относительно /), очевидно, исчезают, то получим 00.5.2, Г 00 - — 00 -Fa Полагая А = 1 и вводя функцию A0.5.3) Ф(*)=-т!= J e *dt, — оо имеем, следовательно, A0.5.4) \ е"*с1Ф(ху=-±= \ г 2dx=e 2. J у 'Is. J — 00 -00 Соотношение A0.5.3) показывает, что Ф(.г)есть неубывающая и всюду непрерывная справа функция, такая, что Ф(— оо) = 0 и Ф(-|-оо)=1. Таким образом, Ф(*) есть функция распределения, и из A0.5.4) _р_ видно, что соответствующая характеристическая функция есть е 2. Распределение, определяемое функцией Ф(^), имеет важное значение и называется нормальным распределением. Оно будет рассмотрено
в главе 17. Повторный интегрированием по частям получим из A0.5.4) A0.5.5) \ -00 Далее рассмотрим интеграл 00 09 A0.5.6) -i J eUx-Mdx— \z<i$txe-xdx= — оо О \t sin for — cos to _xl oo 1 Это выражение можно рассматривать как характеристическую функцию, соответствующую плотности вероятности f(x) = -^e~^. Так как эта характеристическая функция интегрируема на (—со, оо), то из A0.3.2) получим оо 10.6. Характеристическая функция распределения в Rn. Если рассматривать t = (tlt ...,tn) и х =(xv ...,xn) как векторы-столбцы (см. параграф 11.2), соответствующие точкам в /?„, то через t'x мы обозначим произведение, образованное по правилу A1.2.1) умножения векторов: Определение A0.1.1) характеристической функции одномерного распределения обобщается тогда следующим образом: A0.6.1) К где P=P(S) есть вероятностная функция распределения в /?я. Харак- Характеристическая функция y(t) распределения является, таким образом функцией я действительных переменных tv...,tn. Очевидно, всегда tp(O, .. .,0)= 1, и для всех значений переменных tv .. ,,ta
Далее, функция <f(t) всюду непрерывна. Если существуют все моменты распределения (см. параграф 9.2) до некоторого порядка, то в окрестности точки <=0 имеем разложение функции y(t), аналогич- аналогичное A0.1.3). Следующая теорема, которая является непосредственным обобще- обобщением теоремы единственности A0.3.1), показывает, что распределение в Rn однозначно определяется своей характеристической функцией. Если интервал I, определенный неравенствами av—Л,<С*»<С <Св»Ч-*» (v=l,...,/i). есть интервал непрерывности (см. пара- параграф 8.3) функции P(S), то A0.6.2) P(/) = lim 1 Г ... Г П Доказательство этой теоремы является простым обобщением дока- доказательства A0.3.1). В частном случае, когда функция |<р@| интегри- интегрируема на Rn, находим, как и в A0.3.2), что плотность вероятности дд « (см. параграф 8.4) т- -— ~f(xl xn)=f{x) существует и непрерывна при всех х и, кроме того, A0.6.3) f(x) = —l— \ ... Г e-lt'*<o(t)dtt ... dta. Bic) *¦ J Обратная формула, соответствующая A0.1.4), оо ос A0.6.4) ?(*)= J • • • j e""f(x)dxl ... *.-„. — 00 —OS получается из A0.6.1) и справедлива, если плотность вероятности/(х) существует и непрерывна, за исключением, может быть, некоторых точек, принадлежащих конечному числу гиперповерхностей в R,r Нам понадобится также следующее обобщение теоремы A0.3.3), которое доказывается так же, как и в одномерном случае: Пусть /с„ ..,,,Л есть интервал, определенный неравенствами «, —*„<*„<>,, + *» (>=! «>•
Для любых действительных а, и положительных А, имеем *, *- A0.6.5) \... \ Р(/г, х„ )dzx ... dzn = 8 о If i м ш' 1 ~^ Cos hi Г^2 —— I ill * * ?"*~ ttyulf (ft f/I rff - fl/ — оо —ее • v 10.7. Теорема непрерывности для характеристических функ- функций в /?„. Теорема непрерывности, доказанная в параграфе 10.4, мо- может быть непосредственно обобщена на многомерные распределения. Со- Согласно параграфу 8.5, последовательность распределений в Rn сходится тогда и только тогда, когда соответствующие функции распределения сходятся к некоторой функции распределения. Как и в одномерном случае, часто в приложениях бывает проще решать вопрос о сходи- сходимости соответствующей последовательности характеристических функ- функций. В этом случае будет полезна следующая теорема: Дана последовательность распределений в Rn с функциями рас- распределения F1{x),F2(x), ... и характеристическими функциями *Pi(*)> t\s(')> • • • • Лля того чтобы последовательность {Fn(x)\ схо- сходилась к некоторой функции распределения F(x), необходимо и до- достаточно, чтобы при любом t последовательность {<pn {t)\ сходилась к пределу <p(t), непрерывному при t = 0. Если это условие выполнено, то предел <f{t) совпадает с харак- характеристической функцией предельной функции распределения F(x). Доказательство необходимости этого условия вполне аналогично соответствующей части доказательства п параграфе 10.4 и использует обобщение соотношения G.5.9) на интегралы в /?„ (см. параграф 9.4). Отсюда также следует, что предел <s(t) есть характеристическая функция функции распределения F{x). Для того чтобы доказать, что наше условие достаточно, рассмотрим подпоследовательность {Fm (x)}, сходящуюся (см. параграф 8.5) к пределу F(x) =F{xv ..., лгя), который является функцией неубывающей и непрерывной справа по каждой пере- переменной *„. Мы хотим показать, что F(x) есть функция распределения, т. е. что соответствующая неотрицательная аддитивная функция мно- множества P(S) есть вероятностная функция. Для этой Цели достаточно показать, что Р(/?л) = 1. Затем применяем A0.6.5) к каждой <р {t), полагая все в„ = 0. Если jt стремится к бесконечности, то тем же
рассуждением, что и в параграфе 10.4, получим о — оо —оо 1 v Выбирая А, стремящимися к бесконечности, получим, совершенно аналогично с одномерным случаем, так что предел Р (S) последовательности {Р E)} есть некоторая вероятностная функция. Завершается доказательство так же, как н в параграфе 10.4. ГЛАВАU МАТРИЦЫ, ДЕТЕРМИНАНТЫ И КВАДРАТИЧНЫЕ ФОРМЫ Содержание настоящей главы излагается во многих учебниках в эле- элементарной форме, вполне пригодной для нашей цели. Мы отсылаем читателя, в частности, к книгам Эйткена [1], Бохера [3], Бора и Моллерупа [5] *). Мы огра- ограничимся здесь тем, что дадим для удобства читателя краткий обзор — во мно- многих случаях без законченных доказательств — основных определений и свойств, которые будут употребляться в дальнейшем, проводя полностью доказательства лишь некоторых теорем, не содержащихся в учебниках. II. 1.. Матрицы. Матрица А порядка /и-л есть прямоугольная таблица чисел или элементов aik, расположенных в т строках и п столбцах: Кратко пишем A = {ailt} или, если мы хотим выделить порядок матрицы, пишем Ат„ вместо А. Будем всегда предполагать, что эле- - действительные числа. *) См. также А. Г. Курош, .Курс высшей алгебры", 1946, или И. М. Гсльфанд, .Лекции по линейной алгебре", 1948. {Прим. ред.)
В частном случае, когда т = п=\, матрица А состоит из един- единственного элемента ап; мы будем идентифицировать такую матрицу с числом сп. Две матрицы А и В мы будем называть равнцми и писать А = В тогда и только тогда, когда они имеют одинаковый порядок и все соответствующие элементы их равны: aik=b\k для всех / и А. Опре- Определим теперь три операции над матрицами: 1. Произведение матрицы А на число с определяется как матрица, получаемая умножением всех элементов А на с. Таким образом, сА = = Ас=В, где элементы В суть bik—caik. Если с = — 1, пишем — А вместо (—\)А. 2. Сумма двух матриц А я В определяется только в случае, когда обе матрицы имеют один и тот же порядок. Тогда сумма С = — А-\-В определяется как матрица того же порядка с элементами cik=aik-\-btk- 3. Произведение двух матриц А к В определяется только в слу- случае, когда первый сомножитель А имеет порядок т-г, а второй сомножитель В — порядок r-п, так что число столбцов первого сомножителя совпадает с числом строк второго сомножителя. Тогда произведение С = АВ или Стп = АтгВтП определяется как матрица порядка fli-iic элементами cik, заданными выражением г *;* = Да.у V Элемент в i-й строке и А-м столбце произведения есть, таким обра- образом, сумма всех произведений соответствующих элементов из /-й стро- строки первого сомножителя и А-го столбца второго сомножителя. Определенные таким образом три операции над матрицами ассо- ассоциативны и дистрибутивны. Кроме того, две первые операции ком- коммутативны, в то время как третья операция, вообще говоря, не коммутативна. Таким образом имеем, например, С(А-\-В) = СА-\-СВ, ) = сА-\-сВ, но, вообще говоря, АВ = ВА не справедливо. Даже если оба про- произведения АВ и В А определены, они могут не совпадать. Таким об- образом, необходимо различать умножение справа и умножение слева.
Из этих свойств следует, например, что линейная комбинация CjA, + .... -\-CpAp однозначно определена, если только все матрицы А, одного и того же порядка, и что порядок слагаемых может быть изменен произвольным образом. Аналогично, произведение Dmn = = АтгВгяСзп однозначно определено, но здесь нельзя менять порядок сомножителей. Элементы dhk матрицы D даются выражением A*vS 2 Если задана матрица A = {aik) порядка т-п, то транспонирован- транспонированной матрицей А'= {а'(к} называется матрица порядка «•/», такая, что a'lk~aki. Таким образом, строки матрицы А' являются столбцами матрицы 'А, а столбцы матрицы А' являются строками матрицы А. Имеем, очевидно, {А')'^=А, (А+ВУ = А' + В', (АВ)'=В'А'. Любая матрица, получаемая нычеркиваннем некоторого числа строк и столбцов из матрицы А, называется подматрицей матрицы А. В частности, каждый элемент матрицы А есть подматрица порядка 1 • 1, а строки и столбцы суть подматрицы соответственно порядков 1 -л и тЛ. Если т = я, то матриц;) А называется квадратной. Вследствие ассоциативности умножения матриц ясно, что следует понимать под степенями А2, А!!, ... квадратной матрицы А. Элементы сп, а22, ..., ат квадратной матрицы образуют главную диагональ матрицы и назы- называются диагональными элементами. Квадратная матрица, симметричная относительно своей главной диа- диагонали, называется симметричной. Симметричная матрица совпадает со своей транспонированной, так что А'— А или а^ = а{к. Для про- произвольной матрицы А = Атп произведения АА' и А'А суть симметрич- симметричные матрицы соответственно порядков т-т и п-п. Симметричная матрица, все недиагональные элементы которой равны нулю, называется диагональной. Если Атп—произвольная матрица, a Dnm и Dan—диагональные матрицы, то произведшие DmmAmn получается умножением строк матрицы А на соответствующие диагональные элементы матрицы D, а произведение AmnDnn получается
умножением столбцов матрицы А на соответствующие диагональные элементы матрицы D. Единичной матрицей I называется диагональная матрица, все диагональные элементы которой равны 1. Для любой матрицы Д = ¦" ' «*л*м ИМ6СМ 1А = А1=А, где / обозначает единичную матрицу порядка т-т в первом произ- произведении и порядка п-п—во втором произведении. Матрица (не обязательно квадратная), все элементы которой равны нулю, называется нулевой и обозначается через 0. 11.2. Векторы. Вектор есть матрица, состоящая из одной строки или из одного столбца; она называется вектором-строкой в первом случае и вектором-столбцом—во втором. Таким образом, вектор- строка х — [хп .. .,-*"„} есть матрица порядка 1-я. а вектор-столбец есть матрица порядка л-1. Для упрощения записи будем, однако, обычно записывать последний вектор в форме х=(дг,, ..., х„); круг- круглые скобки вместо фигурных указывают на то, что вектор нужно представлять себе как вектор-столбец. Большинство векторов, встреча- встречающихся в приложениях, будут именно этого рода. Транспонированием вектора-столбца х=(*,, ..., хн) получаем вектор-строку x' — {xv ....*„}. и обратно. Если jc = (jt,, .. .,лг„) и yz=z(yv уп) суть дча вектира-столГ>- ца, то произведение х'у есть матрица порядка 1 • 1. т. е. обычное число 01-2.1) *> = *ьу1 + ...4-*1,Л- В частном случае при х=у имеем Х1Х---гХ*+...+х2н. Произведения ху' и хх\ с другой стороны, янляютс» не числами, но матрицами порядка п-п. Векторы дг, х называются линейно зависимыми, если суще- существуют такие числа с,, не все равные нулю, что = 0.
В противном случае векторы х1,..,,х называются линейно незави- независимыми. Аналогично, р функций fv ...,fp одной или более перемен- переменных называются линейно зависимыми, если соотношение Cj/, 4- ... -f- -\-epf —0, где с,- — некоторые постоянные, не все равные нулю, выполнено при всех значениях переменных. Если существуют несколько линейных соотношений такого вида, то они называются независимыми, если соответствующие векторы c = (clt ...,c) линейно независимы. 11.3. Матричное обозначение линейных преобразований. Линей- Линейное преобразование ... 4- «,„Л, устанавливает некоторое соотношение между двумя системами перемен- переменных хх, .. .,хт и уЛ уа, где т не обязательно равно п. Матрица А = Атп = {aik\ называется матрицей этого преобразования. Если теперь x = (xv .. .,хт) и ji = (y),...j,) рассматривать как векторы-столбцы, то правые стороны равенств A1.3.1) суть эле- элементы матрицы-произведения Ау порядка /и-1, т. е. некоторого век- вектора-столбца. Таким образом, A1.3.1) выражает, что соответствующие элементы векторов-столбцов х и Ау равны, так что в матричном обозначении преобразование A1.3.1) принимает простую форму х —Ау. 11.4. Матричное обозначение для билинейных и квадратичных форм. В векторах-столбцах х и у предыдущего параграфа будем рас- рассматривать теперь Х[ и ук как два множества независимых перемен- переменных и образуем матрицу-произведение х"Ау, где A = Amn = {ai/l). Эта матрица имеет порядок 1-1, т. е. это — обычное число где / = 1,2, ..., т и k = 1,2, ..., п. Таким образом, билинейная форма переменных лг- и ук в правой части последнего соотношении имеет простое выражение в матричном обозначении. В важном частном случае, когда т = п, х=у и матрица А сим- симметрична, билинейная форма A1.4.1) принимает вид A1.4.2) ^
где аы = а(к. Это выражение называется квадратичной формой пере- переменных *,, ...,*„ и часто обозначается Q{x) или Q(jc,, .. .,хп). В матричном обозначении имеем, таким образом, Q(x) = x'Ax. Сим- Симметричная матрица А называется матрицей квадратичной формы Q. Если, в частности, А=1, то имеем Q=x'Ix=*'x=x\ -j- ... -\-х%. Матричные выражения A1.4.1) и A1.4.2) особенно удобны для изучения линейных преобразований билинейных и квадратичных форм. а Так, если в квадратичной форме Q(xv .. .,хп)= 2 aikxixk BB0" дятся новые переменные yv ...,ym с помощью линейного преобразова- преобразования х = Су, где С = Спт, то результат есть квадратичная форма Qjiyjt ...,Ут) относительно новых переменных: т Q(xv ..., j:;,) = Q1(^1 ут)= 2 и матричное выражение A1.4.2) непосредственно дает Q=х'Ах=У С АСу =у'Ву, где В = С'АС. Транспонируя, убеждаемся, что это симметричная матрица, и, таким образом, матрица преобразованной формы есть С АС. Ее порядок, конечно, есть т-т. 11.5. Детерминанты. Каждой квадратной матрице A = Ann = {al/t) соответствует некоторое число А, называемое детерминантом матрицы; оно обозначается ап ап • •• аы ап1 ап2 н определяется как сумма А ^= где вторые индексы rv ...,rn пробегают все л! возможных перестано- перестановок чисел 1,..., л, а знак каждого слагаемого берется -j- или — в зависимости от того, является ли соответствующая перестановка чет- четной или нечетной. Число л называется порядком детерминанта.
Детерминанты квадратной, матрицы А и транспонированной матрицы А' равны: А = А'. Если переставить две строки или два столбца в матрице А, то детерминант меняет знак. Следовательно, если две строки или два столбца матрицы А одинаковы, то ее детерминант равен нулю. Если А, В и С—квадратные матрицы, такие, что АВ = = С, то соответствующие детерминанты удовлетворяют соотношению ЛВ=С. Если А — произвольная матрица (не обязательно квадратная), то детерминант любой ее квадратной подматрицы называется минором матрицы А. Если матрица А квадратная, то главными минорами называются миноры, диагональные элементы которых суть диагональ* ные элементы матрицы А. В квадратной матрице A = {atk) алгебраическим дополнением элемента atk называется минор Atk, получаемый вычеркиванием /-й строки и ft-ro столбца, умноженный на (—1)'+*. Имеют место следующие важные тождества: " [А при i — k, A1.5.1) 21вО^/={ " (А при i = k, A1.5.2) Л/»л^»{ и далее A1.5.3) A = anAn— где Alllk есть алгебраическое дополнение элемента atk в Аи. 11.6. Ранг. Ранг матрицы А (не обязательно квадратной) есть максимальное число г, такое, что матрица А содержит по крайней мере один минор порядка г, не равный нулю. Если все миноры мат- матрицы А равны нулю, то А есть нулевая матрица и мы полагаем г=0. Если А = Атп, то ранг г не превосходит меньшего из чисел тип. Будем рассматривать строки и столбцы матрицы А как векторы. Если А — матрица ранга г, то в ней можно найти г линейно незави- независимых строк, в то время как любые г -f-1 строк линейно зависимы. То же справедливо и для столбцов.
Если Av A2, ..., Ар—матрицы рангов rvr,L, ..., гр, то ранг суммы Ау-\-... -f- Ар не больше суммы г^-\- ... -\-гр, а ранг произведения не превосходит наименьшего из чисел /¦,,..., гр. Если квадратная матрица А = Апп такова, что А^О, то она имеет ранг п. Такие матрицы называются невырожденными, а квадрат- квадратные матрицы А, для которых .4 = 0, называются вырожденными. Если произвольную матрицу В умножить (слева или справа) на невырожден- невырожденную матрицу А, то произведение будет иметь тот же ранг, что и В. Линейное преобразование называется вырожденным или невырожден- невырожденным в зависимости от того, вырожденная или нет матрица этого преобразования. Если матрица А симметрична и имеет ранг г, то существует по меньшей мере один главный мннор матрицы А порядка г, не равный нулю. Следовательно, в частности, ранг диагональной матрицы равен числу диагональных элементов, отличных от нуля. в Ранг квадратичной формы Q = x'Ax= 2 athxixk Равен, по определению, рангу матрицы А. Соответственно, форма Q называется вырожденной или невырожденной в зависимости от того, вырождена матрица А или нет. Невырожденное линейное преобразование не изменяет ранга формы. Если при таком преобразовании Q пере- г ходит в 2zi^ r^e ж1'-ф® "Ри <"= 1, 2, .. ,,г, то ранг формы Q равен г. Ранг есть наименьшее число независимых переменных, к функ- функции которых Q может быть приведена всевозможными невырожденными линейными преобразованиями. Часто бывает полезно следующее предложение. Если Q может быть записано в виде Q — L\-\- ... -А- V1, где L{ суть линейные функ- функции переменных xv...,xn, и если существуют ровно А независимых линейных соотношений (см. параграф 11.2) между Lt, то ранг формы Q равен р—h. Следовательно, если мы знаем, что существует не менее h таких линейных соотношений, то ранг формы Q не больше р — А. 11.7. Присоединенная и обратная матрицы. Пусть A = \alk\ — квадратная матрица и пусть, как и раньше, Atk обозначает алгебраи- алгебраическое дополнение элемента aik. Если мы образуем матрицу {Aik\, а затем транспонируем ее, то получим новую матрицу Л* = {л*А}, где
a*k = Aki. Будем называть матрицу Л* присоединенной к Л. Из тождеств A1.5.1) и A1.5.2) получим (А О ... О A1.7.1) О А ... О О О... А Для алгебраического дополнения А*к элемента а*к=А# в матрице Л* получим соотношение A1.7.2) A*k = An-*akl. Это только частный случай общего соотношения, которое выражает любой мннор матрицы А* через А и его миноры. Здесь мы только сошлемся на дальнейший частный случай A1.7.3) — А\\ Atk — Ац ^ik — AA ix.tk- Если матрица А — невырожденная, то матрица А = — Л* = /Я = J-^l называется обратной к А. Из A1.7.1) получим I л ) A1.7.4) АА-1 = Л-М = /. Матричные уравнения АХ=1 и ХА = 1 оба имеют одно решение, а именно: Х=А~г. Следовательно, детерминант матрицы Л ра- равен А~х. Далее, имеют место следующие соотношения: (А-»)'=(*')-», Если матрица А симметрична, то Au = Alll, так что матрицы Л* н А также симметричны. Матрица, обратная к диагональной матрице D с диагональными элементами d,,...,dn, есть также диагональная мат- матрица D~x с диагональными элементами tfj, • • ¦, dJT1- Если Q=x'Ax есть невырожденная квадратичная форма, то форма Q~1 = x'A~1x называется обратной к Q. Очевидно, что (Q-i)~1 = Q. Пусть х=(Jfp ... jXn) и t = {tlf..., ta)—переменные векторы- столбцы. Если новые переменные y = (yv ... ,ут) и « = («j, ...,um)
вводятся посредством преобразований A1.7.5) у = Сх, t=C'u, где С^С^ то A1.7.6) Гх = и'Сх Билинейная форма t'x = rfjJCj -{-••• + tnxn преобразовывается, таким образом, в билинейную форму и'у = ulyl -f-... -\- итут от новых пере- переменных. Два множества переменных х{ и t{, которые преобразуются согласно A1.7.5), называются контрагредаентными множествами пере- переменных. В частном случае, когда т = л и матрица С невырожденная, соотношение A1.7.5) может быть записано в виде A1.7.7) У = Сх, и 11.8. Линейные уравнения. Мы будем рассматривать здесь только некоторые частные случаи. Неоднородная система <»ii*i + ачхг + • •. + а\пхп—hv A1-8.1) эквивалентна матричному соотношению Ax=h, где A==1\atk\> x = (xly...,xtt) и *=(*!,...,*„). Если матрица А невырожденная, то можно обе стороны этого соотно- соотношения умножить слева на А1 и, таким образом, получить единствен» ное решение x = A~lh или, в развернутой форме, A1.8.2) **=-tS*Ai (*=».2 а). Таким образом, xk выражается дробью с знаменателем А и числи- числителем, равным детерминанту, получаемому из А заменой элементов kro столбца элементами А,,...,А;(. Этот классический результат принад- принадлежит Крамеру A750 г.). Рассмотрим теперь однородную систему onor, -f ахгхг + ... (U.8.3)
или, в матричном обозначении, Ах=О, где т не обязательно равно л. Согласно 11.6, матрица А имеет ранг rs^n. Если г=п, то система A1.8.3) имеет только тривиальное решение х = 0. С другой стороны, если г<^п, то можно найти л— г линейно независимых векторов с1 сп-г> таких> что общее решение системы A1.8.3) может быть записано в виде х = Vi~f" •*• • ~\~*п-гсп-г' где 'i — произвольные постоянные. 11.9. Ортогональные матрицы. Характеристические числа. Квадратная матрица С = {c!k) называется ортогональное, если СС = 1. Следовательно, С2=1, так что ее детерминант С=|С| = 4;1. Очег видно, что, транспонируя ортогональную матрицу С, получим снова ортогональную матрицу С. Далее, С~1 = С, и, таким образом, со- согласно определению обратной матрицы, C;k=Cclk для всех / и ft н следовательно, в силу тождеств A1.5.1) и A1.5.2), М10П V,, _/1 при / = ft, {Xh9A) JL*'А/- \О при /фft, /iiqo) V/- г Л при /^ft, A' >9'2) 2- С^С^* — 10 при / ^ ft. Произведение СгС2 двух ортогональных матриц одного порядка, есть ортогональная матрица. Если дано произвольное число р<^ п строк сп, с;2,... ,с1я (/= 1, 2,... ,р), для которых выполняются соотноше- соотношения A1.9.1), то можно всегда найти еще л — р строк, таких, что, добав- добавляя их, мы получим ортогональную матрицу порядка п-п. То же спра- справедливо, конечно, и для столбцов. Линейное преобразование х = Су, где С есть ортогональная мат- матрица, называется ортогональным преобразованием. Квадратичная форма х"х =jcJ-{-. . . —f- лс^ инвариантна относительно такого преобразования, т. е. она преобразуется в форму у'ССу=у'у=у\-\- .. .-|-^стой же матрицей /. Обратное преобразование у = С~гх также ортогонально, так как матрица С~1 = С ортогональна. Ортогональные преобразования имеют важное геометрическое зна- значение. Действительно, ортогональное преобразование можно рассматри- рассматривать как аналитическое выражение преобразования координат в /2-мер- /2-мерном эвклидовом пространстве, которое осуществляется вращением осей прямоугольной системы координат около фиксированного начала коор-
динат. Расстояние С*"?-}-.. .-f-*n) ' от начала координат до точки (Jtj,... ,¦*"„) инвариантно относительно всякого такого вращения. Если А— произвольная симметричная матрица, то всегда можно найти такую ортогональную матрицу С, что произведение С АС есть диагональная матрица: A1.9.3) С'АС = К= О хг...О О О...'*„ Любая другая ортогональная матрица, удовлетворяющая этому условию, дает те же самые диагональные элементы xt,..., хп, хотя, возможно, расположенные в другом порядке. Числа ха,..., хй, которые зависят, таким образом, только от матрицы А, называются характеристиче- характеристическими числами матрицы А. Эти числа суть л корней векового урав- уравнения A1.9.4) ап — х а 12 Мп "'jl ^22 ~~* " =о, и все они действительны. Так как матрица С невырожденная, то мат- матрицы А и К имеют один и тот же ранг (см. параграф 11.6). Следова- Следовательно, ранг матрицы А равен числу корней xit отличных от нуля Из A1.9.3) получаем, рассматривая детерминанты обеих частей этого соотношения и учитывая, что С2 = 1, A1.9.5) Л=х,*2...х„. Если матрица А невырожденная, то тождество A1.9.6) \А~1 — х/|=( — х)"А- иоказывает, что характеристические числа матрицы А~1 суть числа обратные к характеристическим числам матрицы А. Наконец, пусть В есть матрица порядка т-п, где /и«ёя. Если матрица В имеет ранг т, то все характеристические числа симметрич- симметричной матрицы ВВ' порядка т-т положительны. Следовательно, в част- частности, матрица ВВ' — невырожденная. Это доказывается без труда, если взять в A1.9.3) А = ВВ' и выразить произвольное характеристиче- характеристическое число xt посредством правила умножения.
11.10. Неотрицательные квадратичные формы. Если для всех действительных значений переменных xv ..., лгп мы имеем Q (*„ ...,*„)= где atk — akl, то форма Q называется неотрицательной квадратичной формой. Если, кроме того, знак равенства в последнем соотношении имеет место только тогда, когда все х{ равны нулю, то форма Q назы- называется положительно определенной. Форма Q называется полуопреде- полуопределенной положительной, если она неотрицательна, но не является поло- положительно определенной. Свойство формы быть неотрицательной, поло- положительно определенной или полуопределенной положительной, очевидно, инвариантно относительно невырожденных линейных преобразований. Симметричная матрица А = {atk) называется неотрицательной, поло- положительно определенной или полуопределенной положительной в зависи- зависимости от того, каким из этих свойств обладает форма Q = x'Ax. Ортогональное преобразование * = Су, где С — ортогональная матрица, фигурирующая в преобразовании A1.9.3), превращает Q в форму, содержащую только квадраты: A1.10.1) Q(Xl, .... хя)=ж1у\+1ьА+¦¦•+*„? или в матричном обозначении х'Ах=у'Ку> где xt— характеристиче- характеристические числа матрицы А, а К— соответствующая диагональная матрица из A1.9. 3). Это же самое ортогональное преобразование преобразо- преобразовывает форму Q—х(дг1+ . ..+л?)в(хд — x)j/f-f-• • •-f (xn — x)yl. Если ж не превосходит наименьшего характеристического числа мат- матрицы А, то последняя формам очевидно, неотрицательна и, следова- следовательно, форма Q — x(jfj-f- • • • + ¦*&) с матрицей А — xl обладает тем же свойством. Если Q — положительно определенная форма, то форма, стоящая в правой части соотношения A1.10.1), обладает тем же свойством, и, следовательно, при этом все характеристические числа xt поло- положительны. Следовательно, согласно A1.9.5), А~^>0, так что матрица А невырожденная. Если, с другой стороны, Q есть полуопределенная положительная форма, то аналогичное рассуждение показывает, чтб по крайней мере одно из характеристических чисел равно нулю, так что А = 0. Если Q имеет ранг г, то существует ровно г положительных характери-
стичееких чисел, а остальные п — г равны нулю. В этом случае суще- существует ровно л— г линейно независимых векторов хр—(х{р), ... ,х^'}), таких, что Q(xp) = 0. Геометрический смысл рассмотренного выше ортогонального преоб- преобразования заключается в том, что соответствующим вращением системы координат гиперповерхность второго порядка, изображаемая уравне- уравнением Q(xv ..., хя) = const, приводится к своим главным осям. Если Q—положительно определенная форма, то уравнение Q = const пред- -'/i т. ставляет л-мерный эллипсоид с полуосями щ . Для полуопределен- полуопределенных форм Q получаются различные классы эллиптических цилиндров. Если форма Q положительно определенная, то, приравнивая одну или несколько х( нулю, мы получим положительно определенную форму. Следовательно, любой главный минор Q положителен. Для полуопре- полуопределенной положительной формы Q то же рассуждение показывает, что любой главный минор неотрицателен. Следовательно, в частности, если в неотрицательной форме Q не встречается квадрат х], то Q не зави- зависит от xL. Действительно, в противном случае главный минор ааакк—°'* был бы отрицателен при некотором к. Обратно, если величины А, Ап, AiUsl, ..., A1V22 ... я_1} п_1 все положительны, то форма Q положительно определенная. Подстановка х = А~гу преобразует форму Q=x'Ax в обратную форму Q~1=y'A~1y. Таким образом, если Q — положительно опре- определенная форма, то Q также положительно определенная, и обратно. В этом можно убедиться и непосредственно из A1.9.6). Рассмотрим теперь соотношение A1.5.3) для положительно определенной симмет- симметричной матрицы А. Так как любая главная подматрица матрицы А также положительно определенная, то последнее слагаемое в правой части соотношения A1.5.3) есть положительно определенная квадра- квадратичная форма переменных ап ,..., аы, так что мы имеем 0<^4 ^ апАп и, вообще, A1.10.2) 0<Л<яйЛ,/ (/=1,2 л). Повторяя то же рассуждение, получим (П.Ю.З) 0<Л<йпам...аяп. Знак равенства здесь имеет место только в случае, когда А—днаго» нальная матрица. Вообще же для неотрицательных матриц соотношение
A1.10.3) будет выполняться, конечно, если заменить знак < зна- знаком 5^. я , 11.11. Разложение формы У]хг В некоторых приложениях к статистике встречаются различные соотношения вида A1.11.1) где Qt (/=1,2, ..., А)—неотрицательная квадратичная форма переменных лг,, ..., хп ранга г,. Рассмотрим сперва частный случай k=2 и предположим, что суще- существует ортогональное преобразование, переводящее Q, в сумму г, квадратов: Q = \\y2i. Применим это преобразование к обеим частям Я о соотношения A1.11.1). Левая часть перейдет в Jj»; и, следова- п „ тельно, Q2 перейдет в V yt. Таким образом, ранг формы Qs есть г2=п — Tj, и все ее характеристические числа равны 0 или 1. В каче- качестве примера рассмотрим тождество +2 — 1 л где х =— 2*/- Ортогональное преобразование у = Сх, где первая строка матрицы С есть -^= , -== , ..., =т=., переводит форму V п у п у п «J?= ( -7=-{-тт== Ч~ • ¦ • "Ь^^ I в J'i- Таким образом, это преоб- \Vп у п Уп j " — п ¦ 2 Я 2 разование переводит V (*/ — ^J2 в У\У1' & разложении у\ jcJ, соглас- 12 1 но A1.11.2), два члена в правой части имеют соответственно ранг 1 и л —1. Рассмотрим теперь соотношение A1.11.1) при произвольном ?^>1. Докажем следующее предложение, принадлежащее Кохрену [66] (см. также [154]):
Если 2Г*==Й1 то существует ортогональное преобразование г = Су, переводящее все Qt в суммы квадратов такого вида: где никакие две различные формы Q, не содержит общей перемен- переменной у{. Докажем эту теорему с помощью индукции. Для k = \ справед- справедливость теоремы очевидна. Таким образом, нужно показать, что если теорема справедлива при разложении на ? — 1 членов, то Она спра- справедлива также и при разложении на k членоп. Чтобы это показать применим к A1.11.1) ортогональное преобразование x = Ciz, перево- л _ дящее Qt в 2*i2'* Это дагт 1 2A —*i)*l + 2 *?=Q»+- • •+<&» где ОЬт ..., Qb обозначают формы, в которые перешли при этом •?»• •••> Qk- Утверждаем теперь, что все х1 равны 1. Предположим, действительно, что р чисел ж{ отличны от 1, а остальные равны 1. Обе части последнего соотношения суть квадратичные формы перемен- переменных zlt ..., zn. Ранг левой части равен я — i'l-\-p, а ранг правой части, согласно параграфу 11.6, не больше чем г2-\- .., -|-гл = л — гг Таким образом, р = 0 и все xt = 1, так что (П.11.3) 2*f = Qi+--- + Qft- Здесь переменные г,, ..., zr не входят в левую часть; мы теперь покажем, что эти переменные не входят такжг ни в одно слагаемое правой части. Если бы, например, Q'% зависело от zv то, согласно предыдущему параграфу, Q2' содержало бы член czf, где с>0. Так как коэффициенты при z\ в Q'3t ..,, Qh неотрицательны, то это пред- предположение приводит к противоречию с A1.11.3). л _ Таким образом, A1.11.3) дает представление 2 zt в виде суммы k — 1 неотрицательных форм от переменных zri^v ..., zn. По предпо-
ложению, теорема Кохрена для этого разложения справедлива. Таким образом, существует ортогональное преобразование я—г, переменных, переводящее zri+v ,..,zn в новые переменные yrt+v '>-,уя, такие, что Если дополнить это преобразование г, уравнениями zl=yl, ..., гГ1=уг, то получим ортогональное преобразование я переменных Л = С^у, для которого соотношение A1.11.4) выполнено. Результат последовательного выполнения преобразований x = Ctz и a = Cjj> будет ортогональным преобразованием jf = CjCfj>, так как произведение двух ортогональных матриц есть ортогональная матрица. Это преобразование обладает всеми требуемыми свойствами, и, таким образом, теорема доказана. Заметим, что если относительно соотношения A1.11.1) известно только, что каждая форма Q; неотрицательна и ранг ее не превосхо- к дит rt, где У\г1 = п, то мы можем сразу заключить, что Q{ действи- действительно имеет ранг rt, так "что условия теоремы Кохрена выполнены Действительно, так как ранг суммы квадратичных форм не больше суммы рангов слагаемых, то, обозначая через г\ ранг формы Qt, имеем 1 1 Таким образом, "^п = 2rf и r' *^ri- Отсюда, очевидно, следует, Чт0 ^==г, для всех i. Заметим, наконец, что теорема Кохрена, очевидно, остается в сале, если заменить левую часть соотношения (\ 1.11.1) квадра- квадратичной формой Q некоторого числа переменных, которая ортого- п „ нальным преобразованием может быть переведена ey\xt. 1 11.12. Некоторые интегральные формулы. Докажем сперва важ- важную формулу A1.12.ta) J ... J е-- z dXl....dxa = {^=-e * , A
или в обычных обозначениях я 1 «о {Х\ tjXi- jQ(xu ...,*„) A1.12.1b) С ... \вТ dxl...dxn=, CO 00 — CO —00 где Q — положительно определенная квадратичная форма с матрицей А, a t = (tit ..., tn) — некоторый действительный вектор. Как и в пре- предыдущем параграфе, А есть детерминант | А |, a Q~l есть обратная форма, определенная в параграфе 11.7. Для я=1 формулы A1.12.1а — Ь) сводятся к A0.5.2). Для того чтобы доказать A1.12.1), вводим новые переменные у=(у„ ..., уп) подстановкой х — Су с ортогональной матрицей С (см. A1.9.3)), такой, что САС = К, где К—диагональная матрица, образованная характеристическими числами ху- матрицы А. В то же время мы заменяем вектор t новым вектором а ==(«,, ...» ип) по- посредством контрагредиентной подстановки (см. A1.7.7)) t = {C')~la, ко- которая в этом случае сводится к t = Ca, так как матрица С ортогональна. Согласно A1.7.6), имеем t'x = u'y. Так как С=^1, то, обозначая интеграл в левой части соотношения A1.12.1) через 7, получим У=\... * 2 dy, ... dyn=\\ \e 2 'rfyy. —оо —оо /=i —oo Применяя к каждому множителю правой части формулу A0.5.2), получим я и' ) 2 так как, согласно 11.7, диагональная матрица с диагональными элемен- элементами — совпадает с К~г, а в силу A1.9.5), мы имеем А = х,х2 .,. хм. Так как матрица С ортогональна, то мы имеем К'~1 = (С'АС)~1 = = С-1Л~1 (С) = C'i4-JC. Следовательно, и'К^и = и'С'А^Си = = *'Л-1* и, таким образом, J— я/2 -L
т. е. формула A1.12.1а) доказана. Полагая, в частности, /==0, получим формулу ор оо 1 я/2 A1.12.2) 1 ... \ e~Ql* "^ ... dx. = <*L . —оо —оо ' п Это имеет место даже для матрицы А с комплексными элементами при условии, что матрица, составленная из действительных частей этих элементов, является положительно определенной. Рассмотрим далее интеграл ( [ *:, ... dxn, представляющий /i-мерный „объем" области, ограниченной эллипсои- эллипсоидом Q = с2. Использованное выше ортогональное преобразование, выте- вытекающее из простой замены у{ = -т=г(, показывает, что Последний интеграл представляет объем л-мерной „единичной сферы", в/2 и мы покажем ниже, что он равен —.— , так что A) и/2 A1.12.3) V= 1- с" Наконец нам понадобится значение интеграла. Blk=\...\ xixk dxl... dxn, распространенного на ту же область, что и интеграл V. Делая такую же замену переменных, что и в случае V, находим теми же вычисле- вычислениями, что матрица В с элементами Blk есть
где Ниже мы покажем, что так что Ц1.12.4) дл== Использованные выше интегралы Дирихле h=\... f йхх...йжя иуа= f ... С ^^...dr» П взятые do л-мерной единичной сфере 2*? "О- могут быть вычислены по- посредством преобразования Z1=COSf1, г2 = sin Yi cost* гп=sin «pi... sin <ря_г cos f „, которое устанавливает взаимнооднозначное соответствие между областями 2*5 < 1 и 0 < f/ < « (f= 1,2, • • • i «)• Якобиан этого преобразования равен (— 1)" (sin ft)" (sin f^o~x ... sin f „. С помощью соотношения f (sin f)«dT = 2V (sinr)»rff = /w + 2v /«, в « г 1^-) которое доказывается подстановкой jc = sin*? и применением A2.4.2), получим я"/2 Г Г я h = \ (sin ?i)" rff i • • • \ sin <pnrf?n = —r- = Г (sin ?1)° соь« ?l rfTl ((sin f j)" dn ... f sin ?я rf?n = 8 о Й
ГЛАВА 12 РАЗЛИЧНЫЕ ДОПОЛНЕНИЯ 12.1. Символы О, о и -V-. Когда мы исследуем поведение функции фи х—+ 0, при х—<¦ оо или при других предельных переходах, часто бывает желателып сравнить порядок величины f(x) с порядком величины некоторой известной простой функции g(x). В этом случае мы будем часто употреблять следующие обозначения. fix) 1) Если -*-7-тг остается ограниченным, когда х стремится к своему 8\х) пределу, то мы пишем f(x) = O(g(x)) и говорим, что »/(*) имеет по- порядок не больший, чем g{x)u. 2) Если стремится к нулю, то пишем f(x) = o{g(x)\ и говорим, 8^) что я/(х) высшего порядка малости сравнительно с g{x)u. 3) Если -j~y стремится к единице, то пишем f(x) ¦>- g[x) и говорим, что vf(x) асимптотически равна g{x)u. Таким образом, при х—>-оо имеем, например, Символы О(лс), оA) и т. п. употребляются часто без отношения к определенной функции f(x). Так, например, О (х) будет обозначать любую функцию порядка не большего, чем х, О A) —любую ограни- ограниченную функцию, а оA) — любую функцию, стремящуюся к нулю. В качестве примера рассмотрим еще функцию f(x), имеющую в неко- некоторой окрестности х = 0 непрерывные производные до л-го порядка вклю- включительно. Тогда имеет место разложение Маклореиа где RAx^^^-^M х- @<в<» По предположению, /*"* (в х) — / ^ @) стремится к нулю при х -¦'О. Согласно сказанному выше, при х -+ 0 можно писать
Это соотношение, которое справедливо и для функций f (х), принимающих комплексные значения, уже было использовано в A0.1.3). 12.2. Формула Эйлера — Маклорена. Определим последователь- последовательность вспомогательных функций Pt (x), Я2 (дг), ... с помощью тригоно- тригонометрических выражений оо cos 2vkx sin 2vitje A2.2.1) оо Все эти функции периодические с периодом 1, так что Для я^> 1 ряд, представляющий Рп(х), абсолютно и равномерно схо- сходится для всех действительных х, так что Рп{х) ограничена и непре- непрерывна на всем интервале (— ос, оо). С другой стороны, ряд для Р1(х) сходится лишь условно; хорошо известно, что P,(jc) = — х~\--о ПРИ 0<1 лг <^ 1. Обозначая через [х] наибольшее целое число, не превосходящее х, и используя периодич- периодичность функции Рх (х), получим для всех нецелых значений х Таким образом, каждое целое число является точкой разрыва функции Рх (дг), и мы имеем | Pt {х) | < ^ для всех х. Для целых значений х имеем оо "а* \т)=: v2*-ir2* 2^ ^га z= ' '' 1 Числа Ву, появляющиеся здесь, суть числа Бернулли, определяемые соотношением A2.2.2) ,-^Л
Имеем я—1 я — 1 я—А я — _! л —1 Щ — 1, о1 — 2 ' 2 6 ' * 30 * • — 42'' " При нечетных v ^ 3 все Ву равны нулю. Для и ^> 1 имеем При я^>2 это соотношение справедливо для всех х, а при я = 2— только для нецелых значения лг. Рассмотрим теперь функцию g{x), непрерывную и имеющую непрерывную производную g'(x) для всех х, заключенных в замкну- замкнутом интервале (a-{-«,A, a-{-«2A), где а и А\>0— постоянные, а я, и и2 — положительные или отрицательные целые числа. Для любого целого v, такого, что nl^v<^n2, интегрированием по частям находим ¦г*. (x)g'(a-\-hx)dx=— i- Следовательно, суммируя по v = «,,..., я2—1, получим A2.2.3) ?ff(a + Av) = Это простейший случай формулы Эйлера—Маклорена, которая часто бывает полезна при суммировании рядов. Если g(x) имеет непре- непрерывные производные высших порядков, то последний член может быть преобразован повторным интегрированием по частям, и мы получим общую формулу я, "• A2.2.4) ?
где s может быть любым неотрицательным целым числом; при этом предполагается, что все встречающиеся в формуле производные суще- существуют и непрерывны. со оо Если ряд ?j g{a-\-h-/) и интеграл \ g(a-\-hv)dx оба сходятся, — оо —оо то из формулы A2.2.3) получим ов ов оо A2.2.5) XfiP(e + A'-')= [g(a + hx)dx—h [Pl{x)g4a + hx)dx, —оо —оо —оо где последний интеграл также должен сходиться. Если, кроме того, для v = l,2, ... ,s, g<2*-D(x) —>¦ 0 при дг—«-ЧЬЮ, то из A2.2.4) по- получим A2.2.6) ? —оо —оо оо Если в A2.2.3) взять g{x) — — , й = 0, Л=1, «!=!, п2— », то получим 1 Из определения PjW легко видеть, что так что имеем A2.2.7) где оо х = 0,5772. есть так называемая постоянная Эйлера. 12.3. Гамма-функция. Гамма-функция Т(р) определяется для всех действительных р^>0 соотношением A2.3.1)
Согласно параграфу 7.3, эта функция непрерывна и имеет непрерывные производные всех порядков: 00 -*dx для любого /»>0. Если р стремится к 0 или к -{-00» то Г(/») стре- стремится к -f-oo. Так как вторая производная всегда положительна, то Г(р) имеет единственный минимум на @, оо). Приближенное вычисление показывает, что минимум находится в точке ро= 1,4616, где функция принимает значение Г (р0) =0,8856. Интегрированием по частям получаем из A2.3.1) для любого р^>0 Т(Р+1)=рТ(р). Если р есть положительное целое число я, то повторное применение последнего равенства дает так как ГA) = 1. Далее, из A2.3.1) получим A2.3.2) где о>0, >.>0. Если заменить здесь а через a-j-/f и разложить множитель е~Их в ряд, то можно показать, что последнее соотношение справедливо и для комплексных значений а в предположении, что дей- действительная часть а положительна1"). Согласно A2.3.2), функция 0 при х обладает относительно переменной х основными свойствами функции плот- плотности (см. параграф 6.6): эта функция всюду неотрицательна, и ее интеграл по (—оо.оо) равен 1. Соответствующее распределение играет важную роль в приложениях (см. например, параграфы 18.1 и 19.4). Его харак- *) Читатель, знакомый с теоремой Коши об интегрировании функции комплексного переменного, может вывести A2.3.2) для комплексного а с по- помощью простого применения этой теоремы.
тернстнческая функция — оо A2.3.4) j eilxf(x;a,k)dx — ] ГA> _ «\* ' 12.4. Бэта-функция. Бэта-функция B{p,q) определена для всех действительных />^>0, ^^>0 соотношением A2.4.1) Докажем важное соотношение <12.4.2) Интеграл -а \ iP+«-ixP-ie-Hi +*1 </* == Г (/») ^-Jr-', uJ рассматриваемый как функция параметра /, удовлетворяет условиям теоремы 111 параграфа 7.3 на любом интервале (г, ос) при Ь так что Г (р) J fedt j 0 Когда s стремится к нулю, левая часть стремится к Т(р)Т(д). В пра- правой части интеграл относительно t стремится, возрастая, к пределу Y(p-\-g) '¦ , интегрируемому относительно х по @, оа). Со- гласно E.5.2), получим Г (р) Г (д) = Г (/7 + д) j о .V. Вводя новое переменное У=-г-^— , получим A2.4.2). 1 -j- X Полагая, в частности, в A2.4.2) /» = <?, получим, вводя новое пере- переменное у = 2х — 1, ( 12.4.3) гщ= \ xP-i (I — jcy-i ^ = 2!-! j
При р = -7> это дает JУ о С другой стороны, полагая в A2.4.3) уг = г, получим -i.-V.dz_2»~V A2.4.4) Если определить функцию р (х; р, q) соотношением A2.4.5) для 0<^лг<^1 и положить $(x;p,q)=0 вне этого интервала, то из A2.4.1) и A2.4.2) будет следовать, что эта функция обладает основ- основными свойствами функции плотности. Соответствующее распределение, при котором вся масса заключена в интервале @,1), будет далее рас- рассмотрено в параграфе 18.4. 12.5. Формула Стерлинга. Выведем теперь известную формулу Стирлинга, дающую асимптотическое выражение для Г [р) при боль- больших значениях р. Докажем сперва соотношение A2.5.1) при любом Повторным интегрированием по частям находим О Левая часть этого соотношения может быть записана в виде оо §g{x,n)dx, где g(x,n} = xP-i (l — -j)" при 0<><я и g(x,u)=0 о при x&zit. Когда я стремится к бесконечности, g(x, n) стремится к лг^-'г-'для любого х~^>0, и легко видеть, что всегда О -*е-*. Отсюда, в силу E.5.2), получим A2.5.1). оо о
Из A2.5.1) следует, что log Г (/>) = lim Sn, где П-rOS Применяя формулу Эйлера — Маклорена A2.2.3) к обеим суммам в этом выражении, получим после некоторых упрощений О Когда п стремится к бесконечности, второе слагаемое в правой части стремится к —р, а оба интеграла сходятся (хотя и не абсолютно), так как Рх(х) последовательно меняет знак. Таким образом, получим A2.5.2) где k—постоянная, а остаточный член R(p) выражается так: 0 Этот интеграл может быть преобразован повторным интегрированием по частям, как показано в A2.2.4), и мы, таким образом, получим - mm о для * = 0, 1, 2, .... Интеграл в этом равенстве абсолютно сходится при любом s^>0, и его модуль меньше, чем р где А — некоторая постоянная. Отсюда, в частности, следует, что +0 при р—»-сс.
Для того чтобы найти значение постоянной А в равенстве A2.5.2), заметим, что, согласно A2.4.4), log Г Bр) = log Г (р) ¦+- log Г (/; + -I j -f (»/»— 1) log 2 — -I log it. Замени» здесь гамма-функции их выражениями, полученными из A2.5.2), и заставляя /> стремиться к бесконечности, мы находим после некото- некоторых упрощений Таким образом, нами доказана формула Стирлинга: A2.5.3) 1е*Г(/>) = (/>— 1) log/»— /> + 1Iog2ir-f где ее y Из формулы Стирлинга мм выводим, и частности, асимптотическое выражение я!=Г(я-И) -V- (j)ny и, далее, если р—»-<х, а А фиксировано, Дифференцируя, получим из формулы Стирлинга 00 A2.5.4) о Г"(Л __ ^Cl(rtV-14--L 4-о f -ui^L rf^ To») V гip) j — p^ips'T-) (p + x? "*¦ и При р -- 1 первое равенство дает A2.5.5) r-(l) = -i-|(r^-rf.v^_I-J^),/.c = -C, и 1 где С —постоянная Эйлера, определенная равенством A2.2.7). Дифференцируя равенство Г(р-\-1)=рГ{р). получим, далее, Г </»
и, следовательно, для целых значений р A2.5.6) J^J Применение формулы Эйлера—Маклорена A2.2.3) дает. а я Полагая во втором равенстве A2.5.4) р—-п, мы, таким образом, получим 12.6. Ортогональные полиномы. Пусть F(x) — некоторая функ- функция распределения с конечными моментами (см. параграф 7.4) а-, всех порядков. Скажем, что х0 есть точка возрастания функции F(x), если F(xa-\-h)^>FixQ — А) при любом А>0. Предположим сперва, что множество точек возрастания функции F бесконечно. Покажем, что тогда существует последовательность поли- полиномов р0 (х), рг (х), ... , однозначно определенных следующими усло- условиями: a) Полином рп{х) имеет степень л, н коэффициент при Xя положи- положителен. b) Полиномы ря{х) удовлетворяют условиям ортогональности 7 ,х) u)dFix) = ' при J» " " I ° пРи Полиномы р„(х) называются ортогональными полиномами, связан- связанными с распределением, соответствующим функции F{x). Заметим, что при любом л 3= 0 квадратичная форма л —(— I перемен- переменных «0, «,, ... ,«„ эо я { («о + и,лг + ... + «Я*Т- d/7 (х) = ? а,+* «,«А является положительно определенной. Так как, согласно предположе- предположению, F(x) имеет не меньше л -f-1 точек возрастания и по крайней мере одна из этих точек отлична от всех п нулей полинома ao-f- -f-«j*-|- ... -\-ияхп, то этот интеграл всегда положителен, если только
не все и,- равны нулю. Отсюда следует (см. параграф 11.10), что детерминант рассматриваемой формы положителен: а0 а,... аа Очевидно, /7y(jf)=l. Теперь положим Р» (*) = "о + uix + • • • + *«*". где л^>0, и попытаемся определить коэффициенты ut из условий а) и Ь). Так как полином р1 (лг) имеет степень i, то х1 может быть пред- представлено как линейная комбинация полиномов р6{х), ... , Pt(x). Следо- Следовательно, { xtpH{x)dF(x) = 0 при / = 0,1, ... ,л—1. Выполняя интегрирование, мы получим, таким образом, п линейных однородных уравнений с л-|-1 неизвестными и0, ... , //„; следовательно, любой полином ря (лг), удовлетворяющий нашим условиям, должен иметь вид A2.6.1) 1 X ...Xя где К—некоторая постоянная. При АГ=-0 этот полином имеет сте- степень я, так как коэффициент при х" равен Dn_1 ^> 0. Таким обра- зом, полином р„(х) однозначно определен условием \ n2df=l и тем, что коэффициент при х" должен быть положительным4'). Таким обра- образом, мы установили существование однозначно определенной последо- последовательности ортогональных полиномов, соответствующих распределению с бесконечным числом точек возрастания. Если F{x) имеет только N точек возрастания, то из приведенного выше доказательства легко вытекает, что полиномы рп (х) существуют — 1/, *) Можно показать, что К'=(Ля,г/>п) . См., например, Cere [36}.
и однозначно определены для н = 0,\, ... ,N—1. Детерминанты Dn в этом случае положительны при л = 0,1, ... »iV — 1, но при я^ЛГ мы имеем Dn — 0. Рассмотрим, в частности, распределение с непрерывной плотностью вероятности f(x) = F (х), и пусть р0 (х), р, (х),... — соответствующие ортогональные полиномы. Если g(x) — какая-нибудь другая функция плотности, то мы можем попытаться разложить g(x) в ряд A2.6.2) g[x) = boPo(x)f(x) + blPl(x)f(x)-{-.... Умножим это соотношение на рп(х) и предположим, что можно инте- интегрировать A2.6.2) почленно. Тогда соотношения ортогональности дают ОС < 12.6.3) *„= j pn(x)g(x)dx. «-GO Отсюда, в частности, Ьо = \. Разложения такого вида иногда бы- бывают полезны для аналитического представления распределений. Дадим теперь некоторые примеры ортогональных полиномов. 1. Полиномы Эрмита Ия(х) определяются соотношениями A2.6.4) (?)"е ^(-\)"Ип(х)е 2 (я = 0,1, 2, ...). Ип(х) есть полином степени п; имеем Я0(х) = 1, Ht(x)=x, H*(x) = x*—\, Х " ' H(x) = xt 5x°— 15, Повторным интегрированием по частям получим J т " Y'2i *¦ я» я — 00 — СО {л! при да = л, О при т^п, откуда видно, что J -тг^ Ял (д:) L есть последовательность ортогональ- ортогональных полиномов, связанных с нормальным распределением (см. A0.5.3)). Отметим также разложения A2.6.7) ?^i?L/.=*""* о
VI «с I л* 4- су — 'II A2.6.8) S^^^ 2(l-'!) Первое из этих разложений легко вытекает из определения A2.6.4). Доказательство второго, данное Крамером, можно найти в книге Шарлье [9а], стр. 50—53. 2. Полиномы Лагерра L^{x) определяются соотношениями которые лают Повторным интегрированием но частям находим ! ( } прн т —¦я- 1ч 0 при т jc я, так что I '" | есть последовательность ортогональных полино- мов, связанных с распределением, определяемым функцией плотности f(x;a,X) (см. A2.3.3)) при о=1. 3» Рассмотрим распределение, которое получим, поместив массы ~гт- в каждую из N точек xlt х* ... , xN. Соответствующая функция распреде- распределения есть ступенчатая функция со скачками высоты -^ в каждой точке х^ Пусть рй(х), ... , Рц-\(х) — ортогональные полиномы, связанные с этим распределением. Согласно сказанному выше, они определены однозначно. Соотношения ортогональности сводятся к I Этими полиномами удобно воспользоваться, например, при решении сле- следующей проблемы. Предположим, что мы инеем iV наблюденных точек (хъУ\)' • • • . (хЫ'Уи) и хотим найти параболу у =?д(х)степениn<N, лающую наилучшее приближение к наблюденным ординатам в смысле принципа наи- наименьших квадратов, т. е. такую, что
имеет наименьшее значение. Записываем q{x) в виде q (х) = eilPl) (дг) 4- ... 4" с„рн (х) Обычное правило нахождения минимума непосредственно ласт .V для г —О, 1, ... , п, а соответствующее значение ruin U есть N iniii U— -^ ^ Случай, когда точки X/ — равноотстоящие, особенно важен в приложениях. В этом случае численные значения qix) w inin U могут быть найдены сравнительно легко. См., например, Эсшер [82] и Эйткен [50]. См. ниже теорию параболической регреееаи н параграфе 21.6.
ЧАСТЬ ВТОРАЯ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ
ГЛАВЫ 13—М ОСНОВАНИЯ ГЛАВА 13 СТАТИСТИКА И ВЕРОЯТНОСТЬ 13.1. Случайные эксперименты. В самых разнообразных областях практической и научной деятельности встречаются случаи, когда неко- некоторые эксперименты или наблюдения могут быть повторены большое число раз при одинаковых условиях. В каждом таком случае наше внимание бывает сосредоточено на результате наблюдения, выражае- выражаемом некоторым числом характеристических признаков. Во многих случаях эти характеристики имеют непосредственно ко- количественный характер: при каждом наблюдении нечто вычисляется или измеряется. В других случаях характеристики являются качественными: наблюдается, например, цвет какого-либо объекта, наступление или ненаступление некоторого событии в связи с каждым экспериментом, и т. д. В последнем случае характеристики всегда можно выразить в количественной форме в некоторой условной системе обозначений. Всегда, когда это удобно, мы можем предполагать, что результат каждого наблюдения выражается некоторым количеством величин. 1. Если совершается ряд бросаний обычной игральной кости, то каждое бросание дает в результате одно из чисел 1, 2,... , 6. 2. Если измеряются длина и вес те.ча каждого представителя из некоторой группы животных одного и того же вида, то в результате наблюдения нал каждым индивидом получаются два числа. 3. Если производятся выборки из ежедневной продукции стале- сталелитейного завода и измеряются твердость стали, сопротивленце на разрыв и содержание углерода, серы и фосфора, то результат каж- каждого наблюдения выражается пятью числами. 4. Если наблюдаются цены k различных товаров в определенные промежутки времени, то результат каждого наблюдения выражается к числами. б. Если регистрируется пол каждого ребенка, родившегося в дан- данном районе, то результат каждого наблюдения непосредственно
числами не выражается. Однако, можно условиться обозначать рож- рождение пальчика единицей, а рождение девочки — нулем, тогда наши результаты будут выражены в числах. В некоторых случаях наблюдаемое явление изучено настолько хо- хорошо, что можно считать оправданным точное предсказание результата каждого отдельного наблюдения. Так, например, если наши экспери- эксперименты заключаются в ежегодном определении числа затмений солнца, наблюдаемых в данной обсерватории, то мы можем на основании астро- астрономических вычислений без колебаний предсказать точное значение этого числа на ближайший год. Подобное положение имеет место в каждом случае, когда пред- предполагается, что законы, управляющие явлением, известны и при этом достаточно просты, чтобы их можно было использовать для практи- практических вычислений. Однако в большинстве случаев наши знания недостаточно точны для того, чтобы можно было предсказывать результаты отдельных наблюдений. Так обстоит дело в примерах 1—5, приведенных выше. Даже если приняты все меры к тому, чтобы контролировать условия, влияющие на эксперимент, результат эксперимента может при этом меняться от одного наблюдения к другому самым неправильным обра- образом, сводя на нет все наши попытки предсказания результата. В та- таких случаях мы будем говорить, что имеем дело с последователь- последовательностью случайных экспериментов. Каждая систематическая сводка результатов подобной последова- последовательности экспериментов будет образовывать множество статисти- статистических данных, относящихся к изучаемому явлению. Основным объ- объектом статистической теории является исследование возможности получить надежные выводы из статистических данных и выработка методов, с помощью которых эти выводы могут быть получены. Прежде чем изучать эти вопросы, в ближайших двух параграфах мы предварительно рассмотрим некоторые общие свойства случайных экспериментов. 13.2. Примеры. Повиднмому, невозможно дать точное определение того, что подразумевается под словом „случайный". Смысл этого слова лучше всего разъяснить на примерах. Если многократно бросать обыкновенную монету, стараясь сохра- сохранять условия эксперимента по возможности во всех отношениях не-
«змеиными, то обнаружится, что мы не в состоянии предсказать, упа- упадет ли монета при данном бросании вверх гербом или решеткой. Если в первом бросании выпал герб, и в следующем бросании мы старались придать монете то же самое начальное положение и движение, то окажется, тем не менее, что невозможно обеспечить последующее вы- выпадение герба. Даже если мы постараемся построить машину, бросающую монету каждый раз совершенно одинаково, то все же невероятно, чтобы нам удалось предсказывать результаты отдельных бросаний. Наоборот, ре- результат эксперимента всегда будет меняться неконтролируемым образом от одного бросания к другому. Сначала может показаться, что такое явление трудно объяснить. Если мы станем на точку зрения детерминизма, то мы должны будем утверждать, что результат каждого бросания однозначно определяется начальным положением и движением монеты (при фиксированных внеш- внешних условиях, таких, как сопротивление воздуха и физические свой- свойства стола). Поэтому может показаться, что теоретически возможно дать точное предсказание результата отдельного бросания монеты, коль скоро известно ее начальное состояние, и что возможно полу- получить любой желаемый результат, задавшись соответствующим началь- начальным состоянием. Минутное размышление покажет, однако, что даже ничтожно малое изменение начального состояния может оказать реша- решающее влияние на результат. Практически начальное состояние никогда не известно точно, а лишь с некоторым приближением. Таким образом, если мы и попытаемся поддерживать полную неизменность начальных состояний в течение ряда бросаний монеты, мы все же никогда не смо- сможем исключить небольшие отклонения, величина которых зависит от точности механизма, осуществляющего бросания. В пределах точности приближения всегда будет находиться множество различных начальных состояний, приводящих к обоим возможным результатам — выпадению герба или решетки; поэтому точное предсказание результата отдель- отдельного бросания практически невозможно. Такие же замечания можно высказать и относительно ряда дру- других аналогичных случаев: бросаний кости в примере 1 предыдущего параграфа и вообще относительно всех обычных азартных игр в кости или карты. Предположим, далее, что мы выделили некоторое количество людей одного и того же возраста и по прошествии некоторого времени,
например, одного года, регистрируем, живо ли данное лицо или умерло за истекшее время. Предположим, что мы можем получить подробные сведения о состоянии здоровья каждого наблюдаемого лица, а также о его занятиях, привычках и т. д. Тем не менее очевидно, что точно предсказать смерть отдельного человека невозможно, так как причины, определяющие тот или иной исход, слишком многочисленны и сложны, чтобы их можно было точно учесть. Даже наблюдатель, располагающий гораздо более совершенными биологическими знаниями, чем те, кото- которые доступны нам в настоящее время, придет к такому же практи- практическому выводу, вследствие многочисленности и сложности причин в рассматриваемом явлении. Примеры 2 и 4 предыдущего параграфа обнаруживают большую аналогию с рассмотренным сейчас примером. Управляющие явлением законы не известны достаточно хорошо ни в том, ни в другом случае, и даже если бы они были известны значительно лучше, чем в насто- настоящее время, природа каждого явления столь сложна, что индивидуаль- индивидуальное предсказание все равно было бы практически невозможно. В этих и во многих других аналогичных случаях результаты наблюдений обна- обнаруживают такую же нерегулярность от случая к случаю, как и в рассмотренных выше примерах. Важно отметить, что такое положение может встретиться даже в тех случаях, когда мы можем считать законы явления полностью из- нестными, если только эти законы достаточно сложны. Возьмем, напри- например, явление солнечного затмения, упомянутое в предыдущем параграфе. Мы допускаем, что предсказание ежегодного числа затмений возможно, и, при наличии необходимых таблиц, подобное предсказание может осуществить каждый. Однако если таблиц нет, то производство необ- необходимых вычислений было бы чрезвычайно трудной задачей. Если эту трудность считать непреодолимой, то предсказание окажется практй. чески невозможным, и колебания числа затмений за год будут казаться похожими на колебания результатов в серии азартных игр. Предположим, наконец, что наш эксперимент состоит в ряде повтор- повторных измерений некоторой физической константы, причем метод изме- измерения и влияющие на эксперимент внешние условия поддерживаются неизменными, насколько это возможно, в течение всего ряда измерений. Хорошо известно, что, несмотря на все предосторожности, принятые наблюдателем, последовательные измерения дают, вообще говоря, раз- различные результаты. Это явление обычно приписывается действию боль-
шого количества малых возмущающих факторов, общий эффект которых создает некоторую суммарную „ошибку" в каждом отдельном измере- измерении. Величина этой ошибки колеблется от одного наблюдения к дру- другому неправильным образом, что делает невозможным предсказание результата в каждом отдельном измерении. Подобные же замечания применимы также к колебаниям качества продукции, как в примере 3 предыдущего параграфа. Малые и некон- неконтролируемые изменения производственного процесса и колебания качества сырья в совокупности создают неправильные колебания свойств окончательной продукции. Рассмотренные выше примеры являются представителями большой и важной группы случайных экспериментов. Малые изменения начального состояния наблюдаемых объектов, которые не удается обнаружить нашими инструментами, могут создать значительные изменения окон- окончательного результата. Сложный характер законов наблюдаемого явле- явления также может сделать точное вычисление практически, если не теоретически, невозможным. Наконец, не поддающееся контролю воз- воздействие малых возмущающих факторов можгт привести к неправильным отклонениям от гипотетического „истинного значения". Ясно, конечно, что между этими видами случайности нет резкого различия. По большей части, дело вкуса — относить ли колебания, например, в результатах обстрела цели, главным образом за счет ма- малых изменений начального состояния снаряда, сложной природы бал- баллистических законов или за счет малых возмущающих факторов. Сущ- Сущность дела состоит и том, что во всех случаях, когда мы находимся в тех или иных условиях такого рода, точное предсказание результа- результатов индивидуальных экспериментов оказывается невозможным, и обнару- обнаруживаются неправильные колебания, характерные для случайного экспе- эксперимента. Сейчас мы увидим, что в такого рода случаях среди всех непра- неправильностей в колебаниях результатов экспериментов обнаруживается некоторая характерная закономерность, которая и будет служить ба- базисом для математической теории статистики. 13.3. Статистическая устойчивость. Мм видели, что в последо- последовательности случайных экспериментов невозможно предсказывать инди- индивидуальные результаты, так как в этих результатах обнаруживаются неправильные случайные колебания, не поддающиеся точному учету.
Однако, как только мы перенесем свое внимание с индивидуальных экспериментов на последовательность экспериментов в целом, поло- положение коренным образом изменится, и обнаружится чрезвычайно важное явление: Несмотря на неправильное поведение индивидуальных ре- результатов, средние результаты достаточно длинной последователь- последовательности случайных экспериментов обнаруживают поразительную устойчивость. Чтобы пояснить эту важную закономерность, рассмотрим опреде- определенный случайный эксперимент @, который может быть повторен боль- большое количество раз при одинаковых условиях. Пусть S—множество всех возможных a priori различных результатов индивидуального экспери- эксперимента, а 5 — некоторое его фиксированное подмножество*). Если в некотором отдельном эксперименте получен результат ?, принадле- принадлежащий подмножеству S, то будем говорить, что произошло -собы- -событие, определяемое соотношением ?cS, или, короче, событие ?т5. Мы будем часто обозначать событие одной буквой Е и записывать E = E(*c:S); поэтому не будем делать различия между «событием Е* и .событием %<zS*. Если наш эксперимент (? состоит в бросании игральной кости, то мно- множество 5 содержит шесть чисел 1, 2, ... ,6. Пусть S обозначает, например, подмножество, состоящее из трех чисел 2,4,6. Тогда событие 6cS произойдет в каждом бросании кости, в котором выпадает четное число. Если мы занимаемся измерением некоторой физической константы х, значе- значение которой a priori совершенно неизвестно, то, по крайней мере теорети- теоретически, результатом измерения может оказаться любое действительное число Тогда 5 будет одномерным пространством /?j. Пусть 5 обозначает, например, вамкнутый интервал (а, Ь). Тогда событие ? С 5 будет происходить всякий раз, когда измерение дает значение ?, такое, что Будем повторять наш эксперимент @ большое число раз, всякий раз наблюдая, происходит ли событие Е = Е (ScS). Если мы обнаружим, что в первых п экспериментах событие Е произошло ровно v раз, то отношение — будет называться частотой события Е в последователь- п вости, образованной первыми л экспериментами. *> Здесь мы предполагаем, что S — некоторое множество простой струк- структуры, так что можно непосредственно наблюдать, принадлежит Л к S или нет. В следующей главе этот вопрос будет рассмотрен с более общей точки зрения.
При наблюдении частоты — фиксированного события Е для воз* растающих значений п обнаруживается, что эта частота, вообще говоря, амсет тенденцию принимать при больших значениях п более ала менее постоянное значение. Фиг. 3. Частота выпадения .герба' в последовательности бросаний монеты. (Логарифмическая шкала по оси абсцисс). Иллюстрацией к этому явлению служит фиг. 3, на которой изо- изображены изменения частоты — события ,выпадение герба" в последо- л вательности бросаний монеты. Как видно из графика, частота сильно колеблется при малых значениях п, но постепенно амплитуда колеба- колебаний становится меньше, и из графика может получиться впечатление, что, если бы ряд экспериментов был неограниченно продолжен при неизменных условиях, то частота приближалась бы к некоторому опре- определенному идеальному или предельному значению, очень близкому к .1. Из многочисленных опытоа явствует, что описанная устойчивость частоты обычно наблюдается в длинном ркду повторяющихся при неизменных условиях случайных экспериментов. Для события типа «с5, наблюдающегося в связи с таким рядом экспериментов, как правило, будет получаться график, вообще говоря, такого же характера, как
и в частном случае, иллюстрированном на фиг. 3. Более того, в тех случаях, когда это утверждение не оправдывается, тщательное иссле. дование обычно обнаруживает, что неизменность условий эксперимента так или иначе нарушена. Мы вправе поэтому выдвинуть предположение, что, вообще говоря, частота рассматриваемого здесь типа приближалась бы к определенному идеальному значению, если бы соответствующий ряд экспериментов можно было неограниченно продолжить. Предположение такого рода, конечно, не может быть ни доказано, ни опровергнуто фактическими опытами, так как мы никогда не мо- можем осуществить бесконечную последовательность экспериментов. Од- Однако опыты подтверждают менее точное предположение, что для каждого ссбытия Е, связанного со случайным экспериментом E, можно указать такое число Р, что в длинном ряду повторений эксперимента @ частота события Е окажется приблизительно равной Р. Такова типичная форма статистической устойчивости, служащей эмпирической основой статистики. Теперь мы должны попытаться при- придать точный смысл тем несколько неопределенным выражениям, кото- которые встречались в приведенном выше утверждении, исследовать законы» управляющие подобной статистической устойчивостью, и показать, как эти законы могут применяться для извлечения выводов из эмпириче- эмпирического материала. Для решения этой задачи мы должны прежде всего постараться построить математическую теорию явлений, в которых обнаруживается статистическая устойчивость. Предварительно полезно будет привести в следующем параграфе некоторые общие замечания о природе и предмете любой математической теории, описывающей некоторую группу эмпирических явлений. Описанное выше замечательное свойство частот впервые было замечено в области азартных игр, простейшим частным случаем которых служит наш пример с бросанием монеты. Уже давно было подмечено, что во всех рас- распространенных играх в карты, кости и т. п. частота определенного исхода данной игры группируется вблизи некоторого числа, если игра повторяется много раз. Попытки дать математическое толкование некоторым обнару- обнаруженным фактам такого рода послужили непосредственной причиной возник, новенпя (около 1650 г.) и развития математической теории вероятностей В трудах Паскаля, Ферма, Гюйгенса и Якова Бернулли. Позднее такого же рода устойчивость была обнаружена для частот, связанных с различными демографическими данными, и на этом была основана статистическая тео- теория народонаселения Область применения статистических методов посте-
пенно расширялась, и в настоящее время можно считать эмпирически уста- установленным, что .устойчивость длинного ряда* частот есть общая харак- характеристика случайных экспериментов, производящихся при неизменных усло- условиях. В некоторых случаях, особенно тогда, когда наблюдению подвергаются совокупности людей (или других биологических особей), статистическую устойчивость часто интерпретируют, рассматривая такие совокупности как выборки из некоторой очень обширной или даже бесконечной генеральной совокупности. Рассмотрим сначала случай конечной генеральной совокупности, состоя- состоящей из N индивидуумов. Для каждого наблюдаемого индивидуума отметим некоторую характеристику 5 и обозначим через Е некоторое Специальное со- событие вида ?<S. Частота события Е в выборке из л наблюденных ин- индивидуумов стремится при возрастании размеров выборки к частоте собы- события Е в полной совокупности и фактически достигает этого значения, если положить n = N, т. е. если наблюдаются все индивидуумы в полной совокуп- совокупности. Понятие бесконечной генеральной совокупности есть математическая абстракция, как и представление о том, что данный случайный эксперимент можно повторить бесконечное число раз. Бесконечную совокупность можно рассматривать, как предельный случай конечной совокупности, когда число N всех индивидуумов неограниченно возрастает. Частота события Е в выборке из я индивидуумов из бесконечной совокупности всегда подвержена случай- случайным колебаниям, пока л конечно, но кажется естественным предположение, что при неограниченном возрастании числа л эта частота в конце концов достигнет .истинного* значения, соответствующего частоте события Ев пол- полной бесконечной совокупности. Такая интерпретация, посредством понятия выборки, может быть рас- распространена на любые случайные эксперименты. Действительно, каждую конечную последовательность повторений случайного эксперимента можно представлять себе, как выборку из гипотетической бесконечной совокупности всех осуществимых при данных условиях экспериментов. Мы вернемся к этому в главе 25, где понятие о выборке будет подвергнуто дальнейшему иссле- исследованию. 13.4. Объект математической теории. Если в некоторой группе доступных наблюдению явлений обнаруживается определенная законо- закономерность, то можно пытаться построить математическую теорию этих явлений. Такую теорию можно считать математической моделью запаса эмпирических фактов — данных, полученных наблю- наблюдениями. И качестве отправной точки мы выбираем некоторые из наиболее существенных и наиболее простых черт той закономерности, которая обнаружена и полученных данных. Эти признаки мы ныражаем в упро-
щепной и идеализированной форме как математические предложения,— аксиомы, которые мы кладем в основу нашей теории. Из аксиом получаются различные тееремы с помощью чистой логической дедук- дедукции, без каких-либо ссылок на опыт. Логически непротиворечивая си- система утверждений, построенная таким способом на аксиоматической основе, образует нашу математическую теорию. Двумя классическими примерами такого построения являются гео- геометрия и теоретическая механика. Геометрия является системой чисто математических предложений, служащей математической моделью боль- большой группы эмпирических фактов, связанных с положением и конфи- конфигурацией различных тел в пространстве. Геометрия ограничивается сравнительно небольшим количеством аксиом, введенных без доказа- доказательства. Как только аксиомы выбраны, полная система геометрических теорем получается из них чистой логической дедукцией. При выборе аксиом мы руководствуемся закономерностями, обнаруженными в эмпи- эмпирических данных, которыми ыы располагаем. Однако, аксиомы могут быть выбраны различным образом, и, соответственно, существуют раз- различные геометрии: Эвклида, Лобачевского и т. д. Каждая из этих геометрий есть логически непротиворечивая система математических предложений, опирающаяся на свою систему аксиом. Аналогичным об- образом, теоретическая механика есть система математических теорем, служащая математической моделью наблюдаемых фактов, связанных с равновесием и движением тел. Каждое предложение в такого рода системе истинно, в математи- математическом смысле этого слова, если оно правильно выведено из соответ- соответствующих аксиом. С другой стороны, важно подчеркнуть, что никакое предложение лгсбей математическей теории не доказывает ничего относительно явлений, имеющих место в действительности. Точки, линии, плоскости и т. д., рассматриваемые в абстрактной геометрии, не являются предметами, воспринимаемыми нами из непосредственного опыта. Чистая теория принадлежит целиком к области понятий и имеет дело с абстрактными объектами, которые полностью определяются своими свойствами, выраженными посредством аксиом. Для этих объектов предложения теории точны и истинны. Но никакое предложение отно- относительно этих идеальных объектов никогда не содержит логического доказательства свойств предметов, воспринимаемых посредством опыта. Математические рассуждения принципиально непригодны для доказа- доказательства физических фактов.
Так, например, теорема эвклидовой геометрии о том, что сумма углов треугольника равна тг, полностью верна для идеального тре- треугольника, определяемого в абстрактной геометрии. Но отсюда не следует, что сумма углов, измеренных в конкретном треугольнике, необходимо должна равняться it, так же как из теорем классической механики не следует, что солнце и планеты необходимо должны дви- двигаться в соответствии с ньютоновым законом тяготения. Эти вопросы могут быть решены только непосредственным «аблюдением фактов. Однако, некоторые предложения математической теории могут быть практически испытаны. Так, теорему эвклидовой геометрии о сумме углов треугольника можно сопоставить с измерениями конкретных треугольников. Если из таких непосредственных проверок обнаружится, что различные следствия теории действительно согласуются до- достаточно точно с имеющимися в нашем распоряжении эмпирическими данными, то можно быть более или менее уверенным в том, что су- существует некоторое сходство между математической теорией и струк- структурой наблюдаемого реального мира. Мы ожидаем также, что согласие теории с опытом будет иметь место в дальнейшем и распространяться на те следствия теории, которые еще не подвергались непосредствен- непосредственной проверке; такого рода ожиданием мы руководствуемся в нашей деятельности. Так обстоит дело, например, с эвклидовой геометрией. Какое бы предложение этой теории ни сопоставлялось с эмпирическими наблюде- наблюдениями, всегда обнаруживалось совпадение, достаточное для всех обыч- яых практических целей (отсюда необходимо исключить некоторые приложения, связанные с новейшими выводами физики). Таким обра- лом, хотя нельзя логически доказать, что сумма углов конкретного треугольника должна равняться тг, мы считаем практически несомнен- несомненным, т. е. пригодным для практических действий, что наши измере- измерения дадут сумму углов, приблизительно равную этому значению. Более того, мы уверены, что такая же согласованность будет обнару- обнаруживаться для каждого предложения, выведенного из аксиом Эвклида, которое мы стали бы испытывать на практике. Естественно, что наша уверенность в дальнейшей согласованности между теорией и опытом будет расти по мере того, как будут нако- накопляться результаты, свидетельствующие о такой согласованности. За- Заметим, что „практическая несомненность" утверждений эвклидовой геометрии отличается от практической несомненности утверждений.
связанных, например, со вторым законом термодинамики. Далее, точ- точность ожидаемого совпадения результатов теории и опыта не всегда будет одной и той же. Тогда как в некоторых случаях даже наиболее чувствительные инструменты не могут обнаружить ни малейшего рас- расхождения, в других случаях, где научный „закон" выражает лишь главные черты наблюдаемых явлений, появляются отклонения, интер- интерпретируемые как „ошибки" или „возмущения". В тех случаях, когда установлено более или менее точное и по- постоянное согласие теории с опытом, математическая теория приобре- приобретает практическое значение, совершенно независимое от ее чисто математического интереса. Тогда теория может быть использована для различных практических целей. Большинство обычных применений ма- математической теории можно грубым образом разбить на три рубрики: описание, анализ и предсказание. Прежде всего теория может употребляться для чисто описатель- описательных целей. Большое количество эмпирических данных с помощью тео- теории можно свести к сравнительно небольшому числу характеристик, представляющих в сжатом виде существенную информацию, получен- полученную из опыта. Так, например, сложная совокупность астрономических наблюдений, относящихся к движению планет, в сжатом виде резюми- резюмируется системой Коперника. Далее, результаты теории могут применяться как инструмент для научного анализа наблюдаемых явлений. Этой цели служит почти всякое научное исследование. Основной принцип, лежащий в основе таких применений теории, может быть выражен следующим образом: каждая теория, не приспособленная к фактам, должна быть из- изменена. Предположим, например, что мы пытаемся определить, влияют ли на интересующее нас явление изменения какого-нибудь фактора. Мы пытаемся тогда построить теорию, но которой такое влияние не будет иметь места, и сравниваем следствия из этой теории с нашими наблюдениями. Если в каком-нибудь месте мы обнаружим явное несов- несовпадение, то это будет означать, что мы должны приступить к исправ- исправлению нашей теории, чтобы учесть то влияние, которым мы пренебрегли. Наконец, можно использовать теорию для предсказания событий, которые произойдут при данных условиях. Так, например, с помощью геометрической и механической теории астроном может предсказать дату затмения. Это является непосредственным применением указанного выше принципа, согласно которому ожидается, что согласие теории
с фактами будет иметь место также и для будущих событий. Этот же принцип применяется тогда, когда теоретические сведения исполь* зуются для осуществления некоторого определенного события, например, когда специалист по теории стрельбы дает указание, как следует на- направить орудие, чтобы поразить цель. 13.5. Математическое понятие вероятности. Теперь мы присту- приступим к построению теории, которая будет служить математической мо- моделью явлений, обнаруживающих статистическую устойчивость. Нам нужна теория, которая базировалась бы на основных фактах, харак- характеризующих устойчивость такого рода, и которую можно было бы использовать в различных направлениях, кик это описано в предыду- предыдущем параграфе. Закладывая фундамент этой теории, мы будем стараться возможно точнее придерживаться классического построения, описанного в пре- предыдущем параграфе. В случае геометрии, например, мы знаем, что с помощью определенных действий с линейкой и куском мела мы можем создавать некоторые объекты, известные в повседневной речи как точки, прямые линии и т. п. Эмпирическое изучение свойств этих объектов обнаруживает наличие некоторых закономерностей. Тогда мы постулируем существование абстрактных копий этих объектов: точек, прямых линий и т. д. в чистой геометрии. Дапее, основные черты наблюденных закономерностей мы фиксируем, в идеализированной форме, в качестве геометрических аксиом. Подобным же образом в нашем случае мы знаем, что посредством некоторых действий, а именно, осуществляя ряд известных эксперимен- экспериментов, мы получаем совокупность наблюденных чисел, называемых часто- частотами. Эмпирическое изучение поведения частот обнаруживает наличие некоторой типичной формы устойчивости, описанной в параграфе 13.3. Рассмотрим некоторое событие П, связанное со случайным эксперимен- экспериментом ®. Согласно параграфу 13.3, частота события Е в последователь- последовательности из я повторений эксперимента E обнаруживает тенденцию стать постоянной, когда л возрастает; мы вынуждены высказать предположе- предположение, что при больших я частота с практической несомненностью ста- становится приблизительно равной некоторому определенному числу Р. В ношей математической теории мы должны, таким образом, ввести определенное число Р, которое будем называть вероятностью события Е в случайном эксперименте E.
Всякий раз, когда мы говорим, что вероятность события Е » эксперименте (S равна Р, точный смысл этого утверждения заклю- заключается просто в следующем: практически несомненно, что частота события Е в длинном ряду повторений эксперимента @ будет приблизительно равной Р*). Это утверждение будет называться также частотной интерпретацией вероятности Р. Вероятность Р, введенная таким путем, будет являться абстрактное копией эмпирической частоты; Будет обнаружено, что для определения вероятности Р окажется необходимым точно задать как тип случайного аксперимента (S, так и событие Е. Однако обычно мы будем считать эксперимент (S фиксированным, и тогда можно без какой бы то ни было неопределенности говорить о вероятности события Е. Для дальнейшего развития теории мы должны будем рассмотреть основные свойства частот и выразить эти свойства в идеализированном виде как утверждения относительно свойств соответствующих вероятностей. Эти утверждения, вместе с постулатом существования вероятностей, будут служить аксиомами в нашей теории. В настоящем параграфе мы должны добавить лишь несколько предварительных заме- замечаний, сами аксиомы будут сформулированы в следующей главе. Для каждой частоты — мы, очевидно, имеем 0 sg: — «^ 1. Так л л как, согласно определению, каждая вероятность Р приблизительно равна некоторой частоте, то естественно предположить, что Я удов- удовлетворяет соответствующему неравенству Это действительно будет одним из сиойств, выраженных нашими аксиомами. Если Е — невозможное событие, т.е. событие, которое при осуще- осуществлении эксперимента® никогда не может произойти,то каждая частота события Е должна равняться нулю, и соответственно мы положим Р=0. С другой стороны, если известно, что для некоторого события Е мы имеем Р = 0, то Е не необходимо будет невозможным событием. Действительно, частотная интерпретация вероятности Р показывает лишь то, что частота — события Е при больших и приблизительно равна нулю, так что в длинной серии экспериментов событие Е произойдет ') На дальнейших стадиях исследовании (в u.ipai рпфе 16.3) мы сможем придать чтому утверждению более точную форму.
лишь в очень малой доле всех случаев. Такой же вывод справедлив не только в случае Р=0, но даже при более общем предположении, что ОгдгЯ^е, где е — некоторое очень маленькое число. Если Е— событие такого рода, и если эксперимент E осуществляется всего один раз, то моокно считать практически несомненным, что событие Е не произойдет. Этот пример частотной интерпретации вероятности будет часто применяться в дальнейшем. Аналогично, если Е — достоверное событие, т. е. событие, которое в эксперименте (§ происходит всегда, то мы положим Р = 1. С другой стороны, если известно, что Р=\, то мы не можем считать событие ? достоверным и можем утверждать лишь, что в длинной серии эксперимен- экспериментов событие Е будет происходить всегда, за исключением случаев, доля которых от общего числа очень мала. Такой же вывод справедлив и при более сбщем предположении, что 1—е<^Р<;1, где е—очень малое число. Если Е — событие такого рода, и если эксперимент <? осуществляется всего один раз, то можно считать практически несомненным, что событие Е произойдет. В литературе встречается множество различных мнений относительно обоснования теории вероятностей. Никакое из этих мнений не может считаться общепризнанным. Мы закончим настоящий параграф очень кратким обзором основных точек зрения. Теория вероятностей возникла при изучении проблем, связанных с обычными азартными играми (см. параграф 13.3). Во всех этих играх результаты a priori распадаются на конечное число случаев, которые можно считать совер- совершенно симметричными, как, например, случаи шести сторон игральной кости, 52 карт в обычной карточной колоде и т. д. Этот факт, казалось, мог слу- служить основой для рационального объяснения устойчивости частот. Математики XV1U столетия воспользовались этим фактом и ввели знаменитый принцип равновозможных случаев, который был точно сформулирован Лапласом в классическом труде [22], как основной принцип всей теории. Ранее этот принцип принимался авторами в неявном виде. В соответствии с этим принципом, разбиение на .равновозмежные* случаи осуществимо в любых наблюдениях, и вероятность события есть отношение числа случаев, благо- благоприятных явлению, к общему числу возможных случаев. Слабость этого определения очевидна. Прежде всего, неизвестно, каким образом решать, можно ли считать два случая равновозможными. Более того, трудно, а го мнению некоторых даже невозможно, точно указать разбиение на равновозможные случаи результатов опытов, не принадлежащих к азартным играм. Много труда было положено на попытки преодолеть эти трудности и улучшить классическое определение вероятности. С другой стороны, многие авторы старались заменить классическое определение вероятности каким-нибудь существенно отличным определением
На современных работах этого направления сказалась общая тенденция и построению всякой математической теории на аксиоматической основе. Так, некоторые авторы стараются ввести систему аксиом, непосредственно осно- основывающуюся на свойствах частот. Основным представителем этой школы является Мизес (см. [27], [23], [159]), который определяет вероятность события как предел частоты — этого события, когда п стремится к бесконечности. Существование этого предела, в строгом математическом смысле, посту- постулируется как первая акснома теории. Хотя такое определение на первый взгляд, бесспорно, кажется очень заманчивым, оно ведет к некоторым мате- математическим трудностям, которые лишают это определение большей части его кажущейся простоты. Кроме того, предлагаемое определение вероятности приводит к смешению эмпирических и теоретических элементов, а современные аксиоматические теории обычно избегают этого смешения. Указанное опреде- определение вероятности можно сравнить, например, с определением геометрическоЗ точки, как предела пятен мела неограниченно убывающих размеров, а подоб- подобного определения современная аксиоматическая геометрия не вводит. Другая школа выбирает в качестзе отправиой точки те же данные опыта как и частотная школа, по нг постулирует существования определенных пределов для частот, а вводит вероятность события просто как число, связанное с этим событием. Аксиомы теории, выражающие правила, но которым можно оперировать с этими числами, суть идеализированные утверждения относительно наблюдаемых свойств частот. Теория этой школы с чисто матема- математической точки зрения изложена. Колмогоровым [21]. Более или менее похожих точек зрения придерживаются Дуб [75], Феллер [84] и Нейман [30]. К тому- же кругу идей принадлежит работа автора [11], а настоящая книга представ- представляет собой попытку построить на тех же принципах теорию статистики. До сих пор мы занимались исключительно теорией вероятностей, рас- рассматривая последнюю как математическую теорию явлений, в которых обна- обнаруживается статистическая устойчивость. Согласно этой точке зрения, вероят- вероятности имеют своих двойников в наблюдаемых частотах, и вероятность, приписываемая фиксированному событию, в принципе должна быть доступна эмпирической проверке. Различие между описанными выше школами заклю- заключается главным образом в основаниях и в математическом изложении предмета, в то время как с точки зрения приложений все эти школы в значительной, степени эквивалентны. В коренной оппозиции к описанным выше направлениям стоит более общая концепция теории вероятностей — теория степеней правдоподобии, представляемая, например, Ксйнсом [20] и Джсффрнсом [18]. Согласно этой теории в ее наиболее развитой форме, данной Джеффрисом, каждое предло- предложение имеет вероятность, выражаемую числом. Так, например, можно было бы выразить численно степень .практической несомненности* будущего со- согласия некоторой математической теорией с опытными данными (см. пара- параграф 13.4). Подобным же образом должна была бы существовать определенна» численная вероятность истинности всякого утверждения, вроде «.Железная
маска* был братом Людовика XIV», „нынешняя европейская война закон- закончится в течение года"*) или .на планете Марс существует органическая жизнь* Вероятности такого рода не имеют непосредственного отношения к случай» ным экспериментам и не имеют, очевидно, частотной интерпретации. В на- настоящей книге мы не будем заниматься вопросами, можно ли. выразить численно такие вероятности и, в случае утвердительного ответа, могут ди такие численные выражения принести какую-нибудь пользу. глава л ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И АКСИОМЫ 14.1. Случайные величины. (Аксиомы 1—2.) Рассмотрим некоторый случайный эксперимент (§, который может быть повторен большое число раз при неизменных условиях. Будем предполагать, что результат каждого отдельного эксперимента дается некоторым числом действитель- действительных величин ?,, Sg,..., %k, где A^l. Введем соответствующую переменную точку или вектор ?=(?,,.. . ,$л) в А-мерном пространстве Rk. Мы будем называть § k-мерной случай- случайной величиной **). Каждое осуществление эксперимента (? дает в результате наблю' денное значение величины ?, координаты которого суть значения вели- величин 5Р...» ?ft, наблюденные в этом конкретном случае. Пусть 5 обозначает некоторое достаточно простое точечное мно- множество в ftp например А-мерный интервал (см. параграф 3.1). Рас- Рассмотрим событие § cz S, которое может произойти или не произойти при каждом отдельном осуществлении эксперимента (&. Мы будем предполагать, что это событие имеет определенную вероятность Р, к смысле, установленном в параграфе 13.5. Число Р будет, очевидно, зависеть от множества 5 и соответственно будет обозначаться одним ил следующих выражений: Таким образом, мы видим, что вероятность можно рассматривать как функцию множества. Разумно требовать, чтобы эта функция множеств была однозначно определена, по крайней мере, для всех •) Книга писалась в 1942-1944 гг. {Прим. ред.) ••) Во всем изложении общей теории случайные величины будут предпоч- предпочтительно обозначаться буквами бит). Жирный шрифт употребляется дли многомерных величин (А > 1), обычный шрифт —для одномерных.
ft-мерных интервалов. Однако ясно, что неудобно ограничиваться рас- рассмотрением только интервалов. Может понадобиться рассмотреть вероят- вероятности событий, которым соответствуют, например, множества, полу- получающиеся из интервалов с помощью операций сложения, вычитания и умножения (см. параграф 1.3). Мы видели в параграфах 2.3 и 3.3, что с помощью таких операций мы получим класс борелевских множеств 9 Rk в качестве естественного расширения класса всех интервалов. Поэтому представляется разумным непосредственно распространить наши рассмотрения на этот класс и предположить, что Р (S) опреде- определена для каждого борелевского множества. Если 5 — некоторое боре- лгвекое множество сложной структуры, то событие |cS может и не поддаваться непосредственному наблюдению, и введение вероятностей для таких событий следует считать теоретической идеализацией. Однако некоторые следствия из теории будут всегда поддаваться непосредственному наблюдению, и практическое значение теории будет оцениваться согласованностью между поддающимися наблюдению след- следствиями теории и эмпирическими фактами. Итак, мы сформулируем нашу первую аксиому. Аксиома 1. Каждой случайной величине g в Rk соответствует некоторая функция множества P(S), однозначно определенная для всех борелевских множеств в Rk и такая, что значение P{S) пред- представляет собой вероятность события (ила соотношения) g cr 5. Как мы уже видели в параграфе 13.5, естественно предполагать, что всякая вероятность Р удовлетворяет неравенству 0 <; Р sg 1. Далее, при каждом осуществлении эксперимента (В наблюденное значение ве- величины ? должно лежать где-нибудь в Rk, так что событие § с: Rk есть достоверное событие, и поэтому, в соответствии с параграфом 13.5, мы положим P(Rk)=\. Пусть теперь St и 52—два множества в Rk без общих точек*). Рассмотрим последовательность п повторений эксперимента (?, и пусть Vj — число наступлений события |cSr va . • „ g с: о2, •) Как уже было условлено в параграфе 5.1, мы рассматриваем только борелевские множества.
Тогда, очевидно, v = Vj-}-v2, и поэтому соответствующие частоты удовлетворяют соотношению При больших значениях п, согласно предположению, практически не- несомненно, что частоты —, — , -3 приблизительно равны соответ- л ' л ' я ственно вероятностям /*($,-|-.Sa), PE,) и РE2). Поэтому разумно потребовать, чтобы вероятность Р обладала свойством аддитивности: Наши рассуждения немедленно распространяются на любое конечное число множеств. Однако, чтобы получить простую и последовательную математическую теорию, мы должны ввести дальнейшую идеализацию. Действительно, мы будем предполагать, что свойство аддитивности функции Р (S) может быть распространено даже на счетные последо- последовательности попарно не перекрывающихся множеств St, S2, ... , так что P(St т-?г +...) = P($i) fP(S,) 4-.. • (как и в случае ак- аксиомы 1, здесь приходится, конечно, вводить соотношения, которые нельзя наблюдать непосредственно). В терминах, введенных в пара- параграфах 6.2 и 8.2, мы можем теперь сформулировать нашу вторую аксиому. Аксиома 2. Функция P{S) есть неотрицательная аддитивная функция множества в Rh, такая, что P[Rk) = \. Согласно параграфам 6.6 и 8.4, каждая функция множества P(S) со свойствами, указанными в аксиоме 2, задает некоторое распреде- распределение в /?ft, которое можно конкретно интерпретировать как распре- распределение единичной массы по пространству /?ft, при котором множе- множество S содержит массу P(S). Это распределение будет называться распределением вероятностей ел тайной величины §, а функция множества Р (S) будет называться вероятностной функцией для ?. Функция точки F[x) = F{xlt..., xk), которая определена формулой F.6.1) в случае k = l и формулой (8.4.1) в общем случае и соответствует функции P{S), будет называться функцией распределения для ?. Как показано в параграфах 6.6 и 8.4, распределение однозначно определяется как функцией множеств P(S), так и функцией точки F(x).
В заключение заметим, что аксиомы 1 и 2 могут быть вкратце сформулированы следующим образом: Каждая случайная величина имеет единственное распределение вероятностей. Если, например, эксперимент E заключается в бросании игральной кости, то соответствующая случайная величина 5 — число выпавших очков — может принимать значения 1,2,..., 6, и только такие значения. Тогда наши ак- аксиомы утверждают, что в R^ существует распределение масс р\, р*..., р& сосредоточенных в точках 1,2,...,6, такое, что рг представляет собой вероят- 6 ность события Z=r, и ^рг = 1. С другой стороны, — и это важно отме- 1 тить, — из аксиом 1 и 2 не следует равенства р, = -^ для всех г. Дей- Действительно, числа рг можно считать физическими постоянными той играль- игральной кости, которой мы пользуемся, и вопрос об их численной величине не может быть решен с помощью аксиом теории вероятностей, точно так же как размеры и вес кости не определяются геометрическими и механическими аксиомами. Однако, опыт показывает, что для тщательно сделанной кости частота каждого события i — r в длинной серии бросаний обычно близка к -тг-; в соответствии с этим, прибегая в дальнейшем для иллюстрации к при- примеру с костью, мы часто будем предполагать, что все рг равны -g- . Это, однако, лишь предположение, а не логическое следствие из аксиом. Если, далее, эксперимент <? заключается в измерении роста Е людей из некоторой заданной группы, то для S можно предполагать любое значение лежащее в некоторых пределах, и каши аксиомы утверждают, что в R\ су- существует неотрицательная аддитивная функция множеств P(S), представля- представляющая вероятность того, что 5 имеет значение, принадлежащее к множеству S Аксиомы 1 и 2 для рассмотренного здесь класса случайных величин экви- эквивалентны аксиомам Колмогорова [21]. Однако, аксиомы Колмогорова приме- применимы к случайным величинам, определенным в пространствах более общего характера, чем рассматриваемые здесь. Те же аксиомы, что и выше, исполь- использованы в работе [11] автора настоящей книги. 14.2. Составные величины. (Аксиома 3.) Сначала мы рассмотрим один частный случай. Пусть случайные эксперименты @ и $ связаны соответственно с одномерными случайными величинами ? и Г/. Таким образом, результат эксперимента (§ представляется величиной S, а ре- результат эксперимента ^ — другой величиной ^. Часто случается, что нам приходится рассматривать составной эксперимент ((§, %), кото- который заключается в осуществлении обоих экспериментов © и § при соблюдении известных правил и в совместном наблюдении обоих ре- результатов.
Это означает, что мы наблюдаем переменную точку (?, ц), координатами которой являются результаты 5 и jj эксперимен- экспериментов б и g?. Поэтому мы можем рассматривать точку (?, 7j) как значение некоторой двумерной величины, которая называется состав- составной величиной, определяемой величинами $ и 7]. Пространство значе- значений этой составной величины есть двумерное пространство—произве- пространство—произведение (см. параграф 3.5) одномерных пространств величин $ u ij. Пусть эксперимент 6 заключается в бросании одной игральной кости, а эксперимент SF— в бросании другой кости; тогда составной эксперимент (©, 8) заключается в бросании обеих костей. Результатом эксперимента Й является число ?, которое может принимать значения 1,2,..., 6, то же самое спра- справедливо и для результата -ц эксперимента %. Тогда составная величина (€, ч) выражает совместный результат бросания обеих костей, и ее возможными .значениями" являются 36 пар чисел A,1),..., F,6). Если, с другой стороны, эксперимент 6 заключается в измерении роста ? женатых мужчин, а эксперимент 3— в измерении роста ц замужних жен- женщин, то составной эксперимент (<?, 8) может состоять, например, в измерении роста (?, г)) обоих супругов. Точка (€, ц) в этом случае может занимать любое место в некоторой определенной части плоскости. Принцип образования составных величин можно применять и в более общих случаях. Пусть случайные эксперименты (?,,..., @я связаны соответственно со случайными величинами §v..., §„ размерностей Aj,..., ka; рассмотрим составной эксперимент (@j,..., (Sn), за- заключающийся в осуществлении каждого из экспериментов @, и сов- совместном наблюдении всех результатов. Мы получим составную вели- величину ($,,..., §„), представляемую точкой (A, -f- ...+*«)- мерного пространства — произведения пространств всех ?„ (см. параграф 3.5). Эмпирическое изучение частот, связанных с составными эксперимен- экспериментами, обнаруживает такую же статистическую устойчивость, как и для составляющих экспериментов. Каждый эксперимент, составленный из случайных экспериментов, действительно имеет характер случайного эксперимента. В соответствии с этим мы можем сформулировать нашу третью аксиому: Аксиома 3. Если ?,,..., ?л — случайные величины, то каждая составная величина (gv..., gn) также является случайной величиной. Тогда из предыдущих аксиом следует, что каждая составная вели- величина имеет единственное распределение вероятностей в (kt -\-... -J- кяу мерном пространстве. Это распределение часто будет называться сов- совместным распределением величин ?,,..., §„.
Рассмотрим теперь две случайные величии ? и Ц размерностей соответственно Л, и А2. Путь Р1 и Р2 обозначают вероятностные функции величин ? н 1J, а Р—вероятностную функцию составной величины §, *!)• Если 5—некоторое множество в пространстве величины §* то выражение P(§czS) представляет вероятность того, что составная величина (?, 1]) принимает значение, принадлежащее цилиндрическому множеству (см. параграф 3.5), определяемому соотношением ? с 5 или, другими словами, вероятность того, что ? имеет значение, принадле- принадлежащее множеству 5, безотносительно к значению величины ^- По- Подобным же образом, если Т—некоторое множество в пространстве величины Ч> то /'(Чс Л есть вероятность того, что Ц принимает значение из 7", безотносительно к значению ?. Таким образом, мы имеем A4.2.1) и, согласно (8.4.2), это означает, что частные распределения (kx -j- -|- ?2)-мерного совместного распределения относительно подпространств величин ? и Ц совпадают соответственно с распределениями величин § и 1J. Очевидно, это можно обобщить на случай любого числа со- составляющих величин. Если массу в совместном распределении «спроек- «спроектировать, на подпространство какой-нибудь из составляющих величин, то получающееся при этом частное распределение всегда совпадает с распределением соответствующей составляющей величины. Важный случай образования составной величины возникает при рассмо- рассмотрении последовательности повторений случайного эксперимента (?. Пусть составной эксперимент заключается в л-кратном осуществлении одного и того же эксперимента бив наблюдении результатов Si, ..., ?„ всех п повторных экспериментов. Тогда результатом этого составного эксперимента будет значение составной величины (g]t ..., Еп), выражающее совместный результат всех я повторений эксперимента 6- Если, например, ® заключается в бросании кости, то соответствующая одномерная случайная величина Е имеет шесть возможных значений 1,2,..... 6. Составная величина E^..., ?л) выражает совместный результат п после- последовательных бросаний кости, и ее ,значениями" служат 6" систем из л чи- чисел: A 1), ...,{6, ..., 6). По аксиоме 3, в Ra существует распре- распределение вероятностей для (Si, .... Sn) с определенными вероятностями Pi, —. 1 »•••• /*«,... ,61 соответствующими всевозможным значениям этой состав- составной величины. В тех вопросах, где одновременно рассматриваются различные слу- случайные величины, мы всегда будем предполагать, что для всех отно-
сящихся к изучаемому вопросу случайных величин задано правило их комбинирования, так что составная величина определена. Как правило, мы будем при этом употреблять P(S) для обозначения вероятностной функции составной величины. 14.3. Условные распределения. Пусть § и 1] — случайные вели- величины размерностей kx и kv связанные со случайными экспериментами {? и ?у. Пусть Р обозначает вероятностную функцию составной вели- величины {§, 1J), 5 и Т — множества соответственно в простран- пространствах величин ? и 1\. Тогда выражение P(|c5,5JcT) представ- представляет собой вероятность события, определяемого совокупностью соот- соотношений ^ с 5, Ч с Г, или, другими словами, вероятность того, что составная величина (?, Ц) имеет значение, принадлежащее прямоуголь- прямоугольному множеству со сторонами S к Т (см. параграф 3.5). Допустим, что P(^cS))>0. Введем при этом условии новую величину РA) сг Т\§ с S), определяемую соотношением A4.3.1) Р(Цс T\g<=S) = Подобным же образом, допустив, что Р A} с Т)~^> О, мы введем другую величину Р(§ с S\H с Т), положив A4.3.2) P{g cS\n<z T)= Чтобы оправдать названия, которые будут даны этим величинам, мы рассмотрим теперь некоторые важные свойства последних. Предположим сначала, что в A4.3.2) множество Т фиксировано, а 5 есть переменное множество в пространстве Rkt величины ?. Тогда правая часть равенства A4.3.2) будет неотрицательной аддитивной функ- функцией множества 5. Если <S=/?ft , то прямоугольное множество ? с Rк , Чсг7" совпадает с цилиндрическим множеством IJcT (см. параграф 3.5), так что правая часть п A4.3.2) будет иметь значение 1. Таким образом, при фиксированном Т Р(§ с: S|tj cr T) есть неотрицательная аддитивная функция множества S, которая при S = Rki принимает значение 1. Другими словами, Р(§ с 5|1)С Т) при фиксированном Т есть ве- вероятностная функция для некоторого распределения в ftki. Точно так же можно показать, что Р(ц с Т\§ cz S) при фиксированном 6' есть вероятностная функция для некоторого распределения в про- пространстве Rkt величины 1J. Теперь мы покажем, что в некотором
обобщенном смысле эти величины можно действительно считать веро- вероятностями, допускающими определенную частотную интерпретацию. Рассмотрим последовательность Z из и повторений составного эксперимента (б, $). Каждый из я экспериментов, являющихся эле- элементами последовательности Z, дает в результате „значение" состав- составной величины (§, 7}). Пусть в последовательности Z v, обозначает число наступлений события |с5, v» » » , я 7J с Т, v . . - , gcS^cT, a Zv Z2 и Z—соответствующие подпоследовательности из Z тех экспериментов, в результате которых имели место соответственно первое, второе и третье события. Очевидно, третье событие происходит тогда н только тогда, когда происходят оба первых события, так что Z со- состоит в точности из общих элементов подпоследовательностей Zx и Z2. В соответствии с частотной интерпретацией вероятностей (см. пара- параграф 13.5) практически несомненно, что при больших и приближенно удовлетворяются соотношения P{gcl!) = 2, />(Чс Г) = -?,/>(?<=?, ЧСГ)=1. Поэтому, согласно формулам A4.3.1) и A4.3.2), мы получаем прибли- приближенные равенства (П.3.3) in\g) ^ Рассмотрим теперь Vj элементов подпоследовательности Zj. Эти эле- элементы являются теми случаями из наших л повторных экспериментов, is которых произошло событие ?cS. Среди этих случаев существует точно у таких, в которых, кроме того, произошло событе i] с Т; последние v случаев образуют подпоследовательность Z. Таким образом, отношение — есть частота события Т)с7* в подпоследовательности Z,, или можно ска- сказать еще так: — есть условная частота события ijc T при условии § сS. Простой пгрестановкой получается соответствующее свойство отношения —. Приближенные соотношения A4.3.3) дают частотную интерпре- интерпретацию для выражений Р (т) с Т | § с S) и Р (g с S | ц с Г), чем оправ- оправдывается введение следующих определений:
Число Р(ц <z T\g C.S), определяемое формулой A4.3.1), назы- называется условной вероятностью события т) с: Т при условии §с5, В соответствии с этим распределение в Rki, определяемое форму- формулой A4.3.1) при фиксированном S, называется условным распреде- распределением величины 7) при условии ^с5. Аналогичные определения вводятся для величины Р(§ с: 5|т) с Г), определенной форму- формулой A4.3.2). Следует заметить, что условная вероятность определена только в том случае, когда вероятность соответствующего условия от- отлична от нуля. Если Р(§ cz S) и Р G) с Г) обе отличны от нуля, то из формул A4.3.1) и A4.3.2) получается соотношение A4.3.4) P(g<=S, n<zT) В примере, рассмотренном в предыдущем параграфе, где S — рост жена- женатого мужчины, а т) — рост его жены, данные, соответствующие всем наблю- наблюденным значениям 5, определяют распределение, величины 5. Так, например, вероятность соотношения а < ? «S * будет приближенно определяться часто- частотой соответствующего события в совокупности наших данных. Предположим теперь, что из наших данных выбираются подмно- подмножества всех случаев, в которых ч превышает некоторую задаииую константу с. Данные для 5 в случаях, принадлежащих к этому подмно- подмножеству, определяют условное распределение величины 5 при условии ч><?- Так, например, частота события a<5«S& ваутрн указанного подмножества является определенной выше условной частотой и при большом числе наблю- наблюдений с практической несомненностью становится приблизительно равной условной вероятности соотношения а < ?^ Ь при условии ч > с. Множеством S здесь служит интервал а < 5=^6, а множеством Т—интервал т) > с. Очевидно, что в этом случае есть основания предполагать, что эта услов- условная вероятность отлична от вероятности в полной совокупности данных, так как в среднем рослые женщины, соответствующие условию ч > с, становятся женами рослых мужчин чаще, чем малорослых. С другой стороны, пусть S попрежнему обозначает рост женатого муж- мужчины, а 1) обозначает на этот раз рост замужней женщины в непосредственно следующей супружеской паре в том списке, из которого мы черпаем наши данные. В этом случае нет причин ожидать, что условная вероят- вероятность соотношения д<5^й при условии ч>с будет отличаться от без- безусловной вероятности Р (а < ? «S *)• Наоборот, следует ожидать, что услов- условное распределение величины ? не зависит от каких-либо гипотез относи- относительно величины 1), и, обратно, условное распределение т) не должно зависеть от гипотез относительно ?. Если это условие выполнено, то мы имеем дели
со случаем независимых случайных величин, который; будет исследован и следующем параграфе. 14.4. Независимые величины. Рассмотрим важный частный слу- случай пведэнных в предыдущем параграфе понятий, когда для любых множеств S и Т удовлетворяется условие мультипликативности A4.4.1) Соотношения A4.3.1) и A4.3.2) показывают, что в этом случае A4.4.2) P(gcS\n<zT) = Pi&cS), если Р(Т)с=Г)>0, A4.4.3) Р(ЧсГ||с5) = Р()]сЛ, если />($c.S)>0, так что условное распределение величины § не зависит от каких- либо гипотез относительно величины т), и наоборот. В этом случае мы будем говорить, что ? и 1J независимые слу- случайные величины и что событии ^ с S и 1] с Г суть независимые события. Обратно, предположим, что одно из двух последних соотношений, например A4.4.2), выполняется при любых множествах S и Т, таких, что условная вероятность в левой части равенства определена, т. е'. что Р(Ц с 7')^>0. Тогда из формулы A4.3.2) следует, что при этом выполняется условие мультипликативности A4.4.1). Однако при P(^Jc:T) = 0 равенство A4.4.1) тривиально, так как при этом обе части равенства обращаются в нуль. Таким образом, A4.4.1) выпол- выполняется для всех 5 и Т, и отсюда мы получаем A4.4.3). Итак, каждое аз соотношений A4.4.2) или A4.4.3) является необходимым и до- достаточным условием независимости. Теперь мы дадим другое необходимое и достаточное условие. Пусть Я, и Р.г — вероятностные функции для ? и 1J, а функциями распределения для §, 1) и (§, ij) являются соответственно F1(x)-=F1{x.l xki) = P1{Sl<x1,.... , ? где / = 1,2, ... , i, и /== 1,2, ... , k2. Условие мультипликатив- мультипликативности A4.4.1) может быть записано и виде A4.4.4)
В параграфе 8.6 было показано, что если Рг и Р3—заданные ве- вероятностные функции в пространствах величии § и ij, то в произведе- произведении этих пространств существует одно и только одно распределение, удовлетворяющее условию A4.4.4). Оно определяется функцией рас- распределения (Н.4.5) F(x,y) = F1(x)F2(y). Итак, A4.4.5) есть необходимее и достаточное условие независи- независимости величин § и 1J. Рассмотрим теперь л случайных величин §v ..., ?„ с вероят- вероятностными функциями Pv ... , Рп и функциями распределения Fv ..., Fn. Пусть Р и F обозначают соответственно вероятностную функцию и функцию распределения составной величины (?j, ... , §п). Непосредственно обобщая сказанное выше, мы будем говорить, что ?𠦦¦> §п —независимые случайные величины, если для любых множеств Sj, .,., Sn выполняется условие мультипликативности A4.4.6) P{g1cS1, ..., gncSn)=tl P(grczS,)= ft Pr{Sr). г=1 Используя заключительное замечание параграфа 8.6, мы обнаружим, что условие A4.4.5) можно непосредственно обобщить и показать, что равенство F=F,f8 ... Fn есть необходимое и достаточное условие независимости величии §г. Если §f и составная величина (§v ••• . §r-i) ПРИ ''¦ = 2, 3, ... , я независимы, то ?„ ... , §п независимы. Это непосредственно следует из определения независи- независимости A4.4.6). Если в последовательности ?,, ?2, ... случайных величин груп- группа §i, ••• . Йп ПРИ любом л состоит из независимых величин, то мы говорим, что ?𠧄, ... есть последовательность независимых величин. Важный случай такой последовательности встречается при рас- рассмотрении последовательности повторений случайного эксперимента 6. Если последовательные эксперименты производятся при совершенно одинаковых условиях, то нельзя допустить, что результаты первых // — 1 экспериментов влияли на вероятность Р определенного резуль- результата л-го эксперимента. Это означает, что распределение случайной величины §п, связанной с л-м экспериментом, не зависит от каких- либо гипотез относительно значений составной величины (?,, ... ,?я_|)» т. е. §п и (?,, ..., §„_г) независимы. Согласно сказанному
выше, отсюда следует, что ?,, §2, ... образуют последователь- последовательность независимых величин. Такая последовательность повторений случайного эксперимента (? будет коротко называться последователь- последовательностью независимых повторений эксперимента @. Мы всегда будем считать, если только не оговорено противное, что рассматриваются независимые последовательности повторений. Рассмотрим составной эксперимент, заключающийся в двух бросаниях некоторой игральной кости. Будем повторять этот составной эксперимент большое число раз, сохраняя условия каждого отдельного бросания неизмен- неизменными, насколько это возможно. Тогда мы можем изучить поведение условной частоты какого-нибудь данного результата второго бросания при какой-либо гипотезе относительно результата первого бросания. Многочисленные опыты не обнаружили никакого влияния таких гипотез на поведение условной ча- частоты, так что мы вправе предполагать, что случайные величины, связанные с этими двумя бросаниями, независимы. Такое же положение обнаруживается при рассмотрении составного эксперимента, оирпзовапного л бросаниями, где л может иметь любое значение; в соответствии с этим мы предполагаем, что последовательность бросаний, осуществляемых при одинаковых условиях, образует последовательность независимых повторений в установленном выше смысле. Предположим теперь, что в каждом бросании все шесть возможных ре- результатов имеют вероятность -г. Тогда по A4.4.6) каждый из 6" возможных / 1 \« результатов л последовательных бросаний будет иметь вероятность ( -g- 1 ¦ Рассмотрим, наконец, я независимых величин ?,,..., ?„. Если в условии мультипликативности A4.4.6) некоторое число множеств Sr будет совпадать с пространствами соответствующих величин, то из условия A4.4.6) будет следовать, что любые «,<" из этих величин независимы. Обратное предложение неверно. Это показывает построенный С. Н. Бсрн- штейном пример трех одномерных величии ?, ч, с, любые две из которых независимы, но все три величины 5, ч, С не независимы. Пусть трехмерное рас- распределение составной величины (;, ч, С) таково, что в каждой из четырех точек A,0,0), @,1,0), @,0,1), A,1,1) сосредоточена масса j . Тогда легко убедиться, что каждое одномерное частное распределение содержит массы -^, сосредо- сосредоточенные в двух точках 0 и 1, а каждое двумерное частное распределение содержит массы -j-, сосредоточенные в четырех точках @,0), A,0), @,1) и A,1). Отсюда следует, что любые две величины независимы. Например, мы
имеем и нетрудно видеть, что аналогичные соотношения справедливы для любых событий bcS, 1)СГ, так что A4.4.1) выполняется. Но три величины ?, % ' не независимы, так как мы имеем РE 1 1 Cl) 14.5. Функции случайных величин. Рассмотрим сначала случай одномерной случайной величины % с вероятностной функцией Р. Предполо- Предположим, что при каждом осуществлении случайного эксперимента, с кото - рым связана величина ?, мы наблюдаем не самое величину ?, а неко- некоторую действительную функцию g(S), конечную и однозначно опреде- определенную для всех действительных ?. Как обычно, мы предполагаем, что g(%) Я-измерима (см. параграф 5.2). Уравнение !}=?¦(») определяет соответствие между величинами S и J]. Обозначим через К некоторое данное множество на оси 7) и через X—соответствующее множество (см. параграф 5.2) всех тех?, для которых H = g{?)cz Y. В параграфе 5.2 было показано, что мно- множество X, соответствующее любому борелевскому множеству Y, само является борелевским множеством. Если X и Y—соответствующие множества, то ij с Y тогда и только тогда, если ? с X, так что два события TjCKh iczX полностью эквивалентны. Последнее событие, согласно аксиоме 1, имеет определенную вероятность Р(Х), следова- следовательно, событие ij с К должно иметь такую же вероятность. Итак, мы видам, что каждая функция т; = #¦(?) случайной ее- личины ? сама является случайной величиной с распределением ве- вероятностей, определяемым распределением величины ?. Действительно, если Q обозначает вероятностную функцию для 7), то из сказанного выше следует, что для каждого борелевского множества Y мы имеем (Н.5.1) Q(Y)=P(X), где X есть множество, соответствующее множеству Y. Если, в частно- частности, в качестве Y выбрать замкнутый интервал (— оо, у) и обозначить через Sy множество тех ?, для которых 7j = g-(?)«?!.у, то функцией распределения величины 7) будет 04.5.2)
Пусть распределение величины ? интерпретируется обычным образом, как распределение массы на оси 5. Представим себе, что каждая частица массы в этом распределении движется от своего исходного места на оси ? сначала в вертикальном направлении, пока она не достигнет кривой ?) = &(?), и затем горизонтально по направлению к оси т>. Полученное таким путем распределение массы на оси т, будет распределением, заданным форму- формулой A4.5.1). Наши рассмотрения немедленно обобщаются на случай произволь- произвольного числа измерений. Пусть ? = C!,.. . ,?у)— случайная величина в /-мерном пространстве Rj, P — ее вероятностная функция. Рассмотрим А-мерную векторную функцию Ч = ?¦(?) = С],,. • ч1*)| конечную и однозначно определенную для всех ? в Rj. Сам вектор т) представ- представляется точкой А-мерного пространства Rk. Предположим, что каждая компонента tjv величины ij есть /^-измеримая функция (см. параграф 9.1) величии ?р., .,?,. Отсюда, как и в одномерном случае, будет следовать, что 1\ есть случайная величина в Rk с вероятностной функцией Q, определяемой соотношением A4.5.1), в котором К обозначает теперь произвольное множество в Rk, a X—соответствующее множество тех ? из Rp для которых !) = ?•(?) с Y- Если для множества Y соответствующее множество X пусто, то, конечно, Q(Y) = 0. Условие, что функция g(§) конечна и однозначно определена для всех § из Rj, можно, очевидно, заменить более общим условием, что точки ?, в которых g(§) не является конечной или однозначно определенной, образуют множество S, такое, что P(S) — 0. Возьмем, например, g(§) = ($v.. .,$г), где r<^j, так что g(§) будет просто проекцией точки ? на некоторое r-мерное подпростран- подпространство (см. параграф 3.5). Тогда вероятностной функцией для g(§) бу- будет Q(Y) = P(X), где У—множество из этого подпространства, а X—цилиндрическое множество (см. параграф 3.5) в RJt определяемое соотношением Cj,.... ?,.. 0...., 0) с К. Соответствующим распреде- распределением будет частное распределение (см. параграф 8.4) для (?,,.. .,5Г), которое получается проектированием исходного распределения на вы- выделенное r-мерное подпространство. Если положить, в частности, /"=1, то мы видим, что каждая компонента ?г случайной величины ? сама является случайной величиной с частным распределением, полу- чающимся проектированием исходного распределения на ось ?г. Функцию H = g{§i,. ••,§„) от п случайных величин можно рассма- рассматривать как функцию от составной величины (§v... ,§„). Таким образом, согласно сказанному выше, 1} всегда является случайной величиной
с распределением вероятностей, однозначно определяемым совместным распределением величин §v. ••,§„¦ Если §v. •., §„ — независимые величины,то непосредственно видно, что величины 4'1(^1)>. • -igniSa) также независимы. 14.6. Заключение. Содержание настоящей главы можно вкратце резюмировать следующим образом. Из эмпирических данных, связанных со случайными экспериментами, мы извлекли основной факт статисти- статистической устойчивости, т. е. устойчивости длинного ряда частот. В нашей математической теории мы идеализировали этот факт, постулируя суще- существование абстрактных дубликатов частот — математических вероятно- вероятностей. Затем процесс идеализации был продвинут еще на один шаг нашим предположением, что свойство аддитивности вероятностей можно распространить с конечных последовательностей событий на счетные. Таким путем мы пришли к понятиям случайной величины и ее распре- распределения вероятностей. Далее мы высказали допущение, что любое количество случайных экспериментов можно объединить в составной случайный эксперимент, обнаруживающий тот же вид статистической устойчивэсти, как и составля - ющие эксперименты. Таким способом мы ввели представление о совмест- совместном распределении вероятностей некоторого чн;ла случайных величин. Изучение некоторых условных частот заставило нас ввести их абстрактные дубликаты пад названием условных вероятностей. Пос- Последние связаны с некоторым условным распределением случайной величины, которое, в частном случае, дает основание для введения важного понятия независимых случайных величин. Наконец, было по- показано, что ^-измеримая функция любого количества случайных величин сама является случайной величиной с распределением вероятностей, однозначно определяемым совместным распределением аргументов. Таким образом, мы заложили фундамент чисто математической теории случайных величин и распределений вероятностей. Теперь нашей* ближайшей задачей будет детальная разработка этой теории; этой цели будут посвящены дальнейшие главы части II. В главах 15—20 мы в основном будем заниматься одномерными случайными величинами и рас- распределениями, а в главах 21—24 будет изучен многомерный случай. В части III мы обратимся к вопросам проверки математической теории опытом и использования теоретических результатов для целей получения статистических выводов из эмпирических данных.
ГЛАВЫ 15—20 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И РАСПРЕДЕЛЕНИЯ В ГЛАВА IS ОБЩИЕ СВОЙСТВА 15.1. Функция распределения и плотность вероятности. Рас- Рассмотрим некоторую одномерную случайную величину ?. Согласно ак- аксиомам 1 и 2 параграфа 14.1, ? обладает определенным распределе- распределением вероятности в /?:. Это распределение может быть конкретно интерпретировано как такое распределение единицы массы по Rv при котором количество массы P(S), приходящееся на произвольное борелев- ское множество S, равно вероятности того, что величина ? прини- принимает значение, принадлежащее S. Как мы видели в параграфе 6.6, такое распределение может быть задано как посредством неотрицательной аддитивной функции мно- множества P(S), называемой вероятностной функцией величины ?, так и посредством соответствующей функции точки F(x), определенной соотношением и называемой функцией распределения величины ?. В рассматриваемом случае одномерного распределения мы будем обычно пользоваться функцией F(x). Общие свойства функций распределения уже были исследованы нами в параграфе 6.6. В частности, там было доказано, что любая функция распределения F{x) есть неубывающая функция от х, всюду непрерывная справа, и такая, что F( — оо) = 0 и F(-|-oo) = l. Разность F(b) — F(a) представляет вероятность того, что величина $ принимает значение, принадлежащее интервалу a<^$s^b: Р {а < $ < b) = F(b) — F(a). Если х0 есть точка разрыва функции F{x) со скачком, равным />„, то из параграфа 6.6 следует, что в точке х0 сосредоточена масса р0; это означает, что вероятность для величины ? принять значение л-(( равна />0:
С другой стороны, если в некоторой точке х существует произ- производная F {x)=f{x), то f(x) представляет плотность массы в этой точке и называется плотностью вероятности или функцией плот- плотности данной случайной величины. Вероятность того, что величина ? принимает значение, принадлежащее интервалу х < S <[ х -f- &х, будет тогда для малых Ддс асимптотически равна f(x)Lx, что записывается в обычных дифференциальных обозначениях P(x<Z<x-{-dx)=f(x)dx. Этот дифференциал будем называть элементом вероятности дан- данного распределения. Любая функция ij = g(?) случайной величины S, согласно парагра- параграфу 14.5, сама есть случайная величина с функцией распределения, заданной соотношением A4.5.2). Рассмотрим два простых примера, которые будут часто встречаться в дальнейшем. В случае линейной функции tj = eS -|— ft соотношение Tj^y экви- эквивалентно соотношению S=s?^—— или Sgs^ ¦ , в зависимости от а а того, положительно или отрицательно число а. Из A4.5.2) следует, что 1} имеет функцию распределения ) при«>0, G{y) = \ V a! ' где F(x) есть функция распределения величины J. Такое выражение О {у) при в<^0 справедливо только для тех у, для которых ¦2^- есть точка непрерывности функции F. В точках разрыва, по нашему обычному соглашению, функция О (у) должна быть определена так, чтобы она была непрерывна справа. Если плотность вероятности f(x) = F' (х) существует для всех значений х, то jj имеет плотность вероятности A5.1.2) g{y)=(r{y) = Рассмотрим затем функцию tj = S2. Величина 7j всегда неотрица- неотрицательна и при _У^>0 соотношение ^^у эквивалентно соотношению
. Поэтому j] имеет функцию распределения 10 при >»<0, A5.1.3) %)=jf(V7)_f(_^ „р„ у>0. На этот раз последнее выражение справедливо только тогда, когда — У у есть точка непрерывности функции F. Если плотность вероят- вероятности f{x) = F'(x) существует для всех х, то jj имеет плотность вероятности !0 при 15.2. Два простых типа распределений. В большинстве вопро- вопросов, встречающихся в приложениях к статистике, мы имеем дело с распределениями одного из двух простых типов — дискретного и непр ерывного. 1. Дискретный тип. Случайная величина ? называется величи- величиной дискретного типа или обладающей распределением этого типа, если вся распределенная масса содержится в точках сосредоточения массы *) и если, кроме того, всякий конечный интервал содержит не более чем конечное число точек сосредоточения массы. (Согласно пара- параграфу 6.2, множество всех точек сосредоточения массы конечно или счет- счетно.) Обозначим точки сосредоточения массы через д:,, х2,..., а соответ- соответствующие массы через pj,p2,... .Распределение случайной величины $ будет полностью описано, если указать, что для любого v вероятность того, что $ принимает значение jev, равна pv: Для любою множества 5, не содержащего ни одной из точек лгч, имеем, с другой стороны, Так как вся распределенная масса равна единице, то *) Это соответствует случаю c^—l, c2 = 0 в F.6.2).
Функция распределения F(x) задается при этом соотношением A5.2.1) F(x) S где суммирование распространено на все значения индекса >, для которых .*, sS х. Таким образом, F(x) есть ступенчатая функция (см. параграфы 6.2 и 6.6), равная постоянной на любом интервале, не содержащем точек хч, и имеющая в каждой точке лс, скачок /»у. Распределение дискретного типа может быть графически представ- представлено посредством графика функции F(x) или графика, на котором каждой точке фиг. 4 и 5. х отнесена ордината высоты pv, как показано на Г" 1 i 1 I г О Х3 Хг, X Фиг. 4. Функция распределения дискретного типа. (Заметьте, что ме- днана неопределенна; см. стр. 201) 2 г Xf Xz 0 %3 Xfy Xs Фиг. 5. Вероятности, соответствующие распределению на фиг. 4. В приложениях к статистике величины дискретного типа встречаются, например, тогда, когда исследуемая случайная величина представляет число каких-нибудь единиц, например: число поросят в помете, число телефонных вызовов на данной станции в течение одного часа, число банкротств в тече- течение года. В этих случаях точки сосредоточения массы х-, суть просто целые неотрицательные числа 0, 1,2,
2. Непрерывный тип. Величина ? называется величиной не- непрерывного типа или обладающей распределением этого типа, если функция распределения F(x) всюду непрерывна*), и если, кроме того, плотность вероятности f(x) — F'(x) существует и непрерывна для всех значений х, за исключением, быть может, некоторого множества, не обладающего ни одной конечной предельной точкой. В этом случае функция распределения F(x) есть Это распределение не имеет точек сосредоточения массы и, следова- следовательно, вероятность того, что величина ? принимает частное значе- значение х0, равна нулю при любом л:0: Вероятность того; что величина ? принимает значение, принадлежа- принадлежащее конечному или бесконечному интервалу (а, Ь), имеет, таким обра- образом, одно и то же значение, независимо от того, рассматриваем ли мы интервал (а, Ь) как замкнутый, открытый или полуоткрытый; она равна Так как вся распределенная масса равна единице, то со — 00 Распределение непрерывного типа может быть графически представ- представлено графиком функции распределения F(x) или плотности вероятно- вероятности f(x), как показано на фиг. 6 и 7. Кривая y=f(x) называется кривой плотности данного распределения. В приложениях к статистике величины непрерывного типа встречаются тогда, когда мы имеем дело с измерением величин, могущих принимать любое значение в некоторых пределах, например, цена товара, рост человека, раз- размер урожая. В этих случаях величины рассматриваются как непрерывные, хотя, строго говоря, фактические данные всегда разрывны, так как каждое *) Это соответствует случаю сх = 0, с, = 1 в F.6.2).
измерение выражается целым числом, кратным наименьшей единице измере- измерения данной величины. Так, цена выражается в денежных единицах, длина может быть выражена в сантиметрах, вес в килограммах и т. д. Таким обра- образом, всегда, когда для теоретических целей величины этого рода рассматри- рассматриваются как непрерывные, совершается некоторая математическая идеализация действительно наблюдаемых фактов. У Фиг. 6. Функция распределения непрерывного типа. (Заметьте, что это распределение имеег единственную медиану в точке дс0; см. стр. 201) х Фиг. 7. Функция плотности распределения, показанного на фиг. 6. Заштри- Заштрихованная площадь соответствует вероятности Р (а < ?*S*). Распределение имеет единственную моду (см. стр. 202) в точке с. Асимметрия (си. стр. 207) положительна.
15.3. Средние значения. Рассмотрим случайную величину $ с функ- функцией распределения F(x). Пусть ?(?) есть функция, интегрируемая на (— оо , оо) относительно F (см. параграф 7.2). Интеграл 00 $g{xLF{x) —00 интерпретировался в параграфе 7.4 как взвешенное среднее значение функции g(x) для всех значений х, причем весами служили массы dF, сосредоточенные в окрестности точек х. В соответствии с этим будем называть такой интеграл средним значением или математическим ожиданием случайной величины g(%) и писать w A5.3.1) E(g?))= ]g(x)dF(x). — оо Вообще, если ? есть /-мерная случайная величина с вероятностной функцией P(S) и если ?(?)есть одномерная функция (см. параграф 14.5; частный случай при k=l) от §, интегрируемая по Rj относительно P(S), то мы определяем среднее значение g(§) соотношением A5.3.2) Для функций g(§)=a(§)-\-ib(§), принимающих комплексные значе- значения, мы пользуемся той же формулой для определения среднего зна- значения и получаем E(b(g)). В тех случаях, когда это не может привести к недоразумению, мы будем писать просто Е g(g) или E(g) вместо E(g(§)). В случае одномерного распределения дискретного типа среднее значение сводится, согласно G.1.8), к конечной или бесконечной сумме: а для непрерывного типа в предположении, что функция g(x) непре- непрерывна всюду кроме, может быть, конечного числа точек, мы получаем, согласно G.5.5), обычный риианов интеграл: со )= [g(x)f(x)dx.
Условие, что функция g{x) должна быть интегрируема на (— оо, оо) относительно F, в последних двух частных случаях эквивалентно абсо- абсолютной сходимости ряда или интеграла, представляющего среднее значение. Таким образом, содержание этого условия заключается в том, что среднее значение существует. Это условие всегда выполнено в случае ограниченной функции ?(?)> как указано в параграфе 7.4. Рассмотрим теперь две случайные величины | и 1), определенные в пространствах R" и R" любого числа измерений, с вероятностными функциями Я, и Pv Пусть g{§) и АA})—две действительные или комплексные функции, такие, что средние значения Е g(§) и Еп(т\) существуют. Рассмотрим сумму g (§) -\- h (ij). Согласно параграфу 14.5, эта сумма есть случайная величина, которую можно рассматривать как функцию составной величины {§, ц). Если R обозначает пространство составной величины, а Р—соответствующую вероятностную функцию, то среднее значение суммы имеет вид E{g{g)+hW)=\ig(x) + h{y))dP = \g(x)dP+ \h(y)dP. Согласно (9.2.2), последние два интеграла сводятся к \g{x)dP1 = Eg(§) и [ так что A5.3.3) Это соотношение непосредственно распространяется на произволь- произвольное конечное число слагаемых, и мы получаем, таким образом, следую- следующую важную теорему: Среднее значение суммы случайных величин равно сумме сред- средних значений слагаемых в предположении, что эти последние суще- существуют. Нужно заметить, что эта теорема была доказана без каких бы то ни было предположений относительно зависимости между слагаемыми, В случае же среднего значения произведения невозможно получить столь общий результат. Употребляя те же значения, что и выше, имеем
Для того чтобы привести этот интеграл к более простому виду, пред- предположим, что величины ? и ij независимы, так что вероятностная функция Р удовлетворяет соотношению мультипликативности A4.4.4). Согласно замечанию в конце параграфа 14.5, величины g(§) и Л(Т)), при этом также независимы. При этом предположении формула для среднего значения сводится, согласно (9.3.1), к A5.3.4) (?П [1[ * k» Распространение на произвольное конечное число сомножителей про- производится непосредственно, так что имеет место следующая теорема: Среднее значение произведения независимых случайных величин равно произведению средних значений сомножителей в предположе- предположении, что эти средние значения существуют. Рассмотрим, наконец, некоторые простые частные случаи соотно- соотношений A5.3.3) и A5.3.4). Если g—одномерная случайная величина, такая, что среднее значение ?(?), которое получается, если положить в A5.3.1) ?(;) = $, существует, то для любых постоянных а и b A5.3.5) ? Полагая Е{*) = т, имеем, в частности, A5.3.6) ?(?—«).= « — т = 0. Полагая в теореме сложения A5.3.3) ?($) = &, A(jj)=i], получим A5.3.7) ?E-И) = ?E) + ?(>1). Если ? и 7) независимы, то теорема умножения A5.3.4) дает A5.3.8) ?(?Ч) =?(?)? (г,). 15.4. Моменты. Моменты одномерного распределения были вве- введены в параграфе 7.4. Если для некоторого целого положительного числа v функция х» интегрируема на (— со, с») относительно F(x), то среднее значение СО A5.4.1) а, = ? (?*) = j *v dF(x) —00 называется моментом порядка v, или просто v-м моментом этого рас- распределения или соответствующей случайной величины, и мы говорим,
что момент конечен или существует*. Очевидно, что о0 всегда суще- существует и равен единице. Если о, существует, то функция jjcj» также интегрируема, так что существует v-й абсолютный момент A5.4.2) Следовательно, если ak существует, то существуют о, и [J, для 0 sg; v s^ k. Для распределения дискретного типа моменты, согласно параграфу 15.3, выражаются рядами а для распределения непрерывного типа—римановыми интегралами оо я*= J —оо. Только когда ряд или интеграл, представляющий момент, абсолютно сходится, мы говорим, что этот момент существует. Первый момент ах равен среднему значению или, короче, сред- среднему самой случайной величины и будет часто обозначаться через т: Пели с—постоянная, то величины ос 1—сУ]= J (x — называются моментами относительно точки с. При с = 0 получаем обычные моменты. Аналогично определяются абсолютные моменты относительно с. Моменты относительно среднего /я называются часто центральными моментами. Они особенно важны и обозначаются со A5.4.4) nv = E[(S-~m)*]= f (x-m
Раскрывая (х—ту, находим A5 4 4) ^=а2 — а„ — 3/и4, Для второго момента относительно точки с имеем так что второй момент имеет минимальное значение при с = т. Моменты любой функции g(S) суть средние значения степеней ?(?). В частном случае линейной функции g(^.) = al-\- b момент е^ задается выражением В параграфе 7.4 было дано простое достаточное условие того, что момент данного порядка k существует. Заметим далее, что если случайная величина Е ограничена, т. е. если можно найти конечные а и Ьь такие, что Р (а < 1 < Ь) = 1, то все моменты конечны и | а, | sg | а |* +1Ь у. Докажем теперь одно важное неравенство для абсолютных момен- моментов (J,, определенных соотношением A5.4.2). Квадратичная форма переменных и и v ] -— очевидно, неотрицательна. Следовательно, согласно параграфу 11.10 детерминант этой формы неотрицателен, т. е. ру_]р,+1 — р? ^ 0 или A0.4.0) Р^ ^ p»-lPv + r Полагая последовательно v = 1, 2, ..., v и перемножая все получен- полученные таким образом неравенства, получим ^+1<Р'л_, или. оконча- окончательно, U5.4.6) &;<Р;# (v=i, 2,...). Часто важно знать, однозначно ли задается распределение после- последовательностью своих моментов. Мы не будем углубляться в пол-
ное исследование этой трудной проблемы и удовольствуемся доказа- доказательством следующего критерия, который часто бывает полезен. Пусть ао = 1, аи а2, ... суть моменты некоторой функции распределения F{x), каждый из которых предполагается конечным. со Предположим, что ряд Zy'* абсолютно сходится при некото- о ром г^>0. Тогда F{x) есть единственная функция распределения, обладающая моментами а0, а,, аг, ... . Покажем сперва, что Щг*—»-0 при л—«-сю. Для четных п это следует прямо из нашего предположения. Для нечетных л это также верно, так как, в силу A5.4.5), имеем неравенство h Для любого целого я ^> 0 и любого действительного z имеем разло- разложение Маклорена я! О где Ь — действительное или комплексное число, модуль которого не превосходит единицы. Отсюда, посредством A0.1.2), мы получим для характеристической функции y(t) функции F(x) такое разложение: = \ ethxeitxdF(x)~ 00 -\-i)% \ \xy —00 я-1 При |А|<^г остаток стремится к нулю, так что при любом t характеристическая функция <р (t -\- А) может быть разложена в ряд Тейлора, сходящийся при \h\<^r. Полагая сперва t = 0, находим, что ряд (пишем теперь t вместо А) A5.4.7)
представляет функцию <р(?) по крайней мере на интервале —/¦<[<<[ г В этом интервале функция <о (/) определена, таким образом, своими моментами о, однозначно. В точках t = 4; — г ряд, получаемый диф- дифференцированием равенства A5.4.7) любое число раз, сходится, так что все производные <p<v> (i r) МОГУТ быть вычислены из соотно- соотношения A5.4.7), т. е- по моментам а,. Эти производные служат коэф- коэффициентами разложения в ряд Тейлора для <р Hr-jrr-|-/м , которое сходится и представляет <р(?) при |A|<V. Тем самым область опре- 3 Ч деления <p(f) расширяется теперь до интервала —-я- r<^t< ~ г. Из последнего разложения мы можем теперь вычислить производные <р(*>(?) в точках <=Ч;г и использовать их в качестве коэффициентов ряда Тейлора для ?(±/" -f А) и т. д. Этот процесс, который можно про- продолжать неограниченно, показывает, что моменты а, однозначно опре- определяют характеристическую функцию f(t) для всех значений /*). И* теоремы единственности A0.3.1) следует, что функция распределения также однозначно определена моментами ач, и наша теорема доказана. В частном случае, когда F{x) есть функция распределения огра- ограниченной случайной величины, из замечания, сделанного выше, сле- следует, что условия этой теоремы всегда выполнены. 15.5. Характеристики расположения. В приложениях бывает важно суметь описать распределение хотя бы в общих чертах, посред- посредством немногих простых параметров. Прежде всего, часто мы хотим характеризовать расположение значений случайной величины в данном распределении с помощью некоторого типичного значения этой вели- величины, которое можно представлять себе как нейтральную точку распределения. Существуют различные способы вычисления таких типичных параметров. Рассмотрим здесь три наиболее важных харак- характеристики такого рода, а именно среднее, медиану и моду. Среднее ?(?)=« — первый момент распределения — было уже определено в предыдущем параграфа. В терминах нашей механиче- механической интерпретации распределения вероятностей как распределения массы среднее имеет важный конкретный смысл: это — абсцисса *) Этот процесс в теории аналитических функций носит название ана- аналитического продолжения.
центра тяжести в данном распределении массы (см. параграф 7.4). Это свойство придает среднему роль некоторого типичного параметра. Если точка лг0 разделяет всю распределенную массу на две рав- равные части, каждая из которых содержит массу -= , то хп называется медианой распределения. Таким образом, медиана есть любой корень уравнения F (х) = -^. Чтобы исследовать возможные случаи, рас- рассмотрим кривую F(x), причем каждый вертикальный отрезок, соответ- соответствующий скачку функции F, будем рассматривать как часть нашей кривой. Мы получим некоторую связную неубывающую кривую (см. фиг. 4 и 6). Эта кривая имеет по крайней мере одну точку пересе- пересеченна с прямой у = ~. Если существует только одна точка пере- пересечения, то абсцисса этой точки есть единственная медиана распреде- распределения (см. фиг. 6). Может случиться, однако, что кривая F(x) и прямая у = ~2 имеют общий замкнутый интервал (см. фиг. 4). В этом случае абсцисса любой точки интервала, удовлетворяющего уравнению F(x) = ~, может быть принята за медиану распреде- распределения. Мы видим, таким образом, что каждое распределение имеет по крайней мере одну медиану. Мы будем различать определенный слу- случай, когда медиана единственна, и неопределенный случай, когда медианы заполняют некоторый замкнутый интервал. Среднее значение может вообще не существовать. Однако даже н тех случаях, когда оно существует, иногда предпочитают брать в качестве типичного параметра медиану, так как на среднее могут оказать значительное влияние массы, расположенные на большом рас- расстоянии от основного сгустка распределения. Как показано в предыдущем параграфе, среднее т характери- характеризуется тем, что второй момент относительно с имеет минимальное значение при с=т. Аналогичным свойством обладает и медиана: первый абсолютный момент Е(|& — с\) принимает минимальное значение, когда с есть медиана. Это справедливо даже в неопреде- неопределенном случае, и момент ?(|S — с\) имеет одинаковое значение при любом возможном значении медианы с. Действительно, обозначая медиану (или, в неопределенном случае, любое значение медианы)
через ft, будем иметь с ^Л Л ¦ Ь It I ^^ I .. к. ш ^^ Л т. при при Вторые слагаемые в правых частях, очевидно, положительны, если только с не совпадает с ц или (в неопределенном случае) с каким- нибудь другим значением медианы, косда эти слагаемые обращаются в нуль*). Доказательство приведенных здесь соотношений предста- представляется читателю в качестве упражнений. Мода распределения определяется только для двух простых типов распределений, рассмотренных в параграфе 15.2. Для непрерывного распределения модой называется любая точка дг0 максимума плотности вероятности f{x). Единственная мода существует, таким образом, только в случае, когда кривая плотности _v—/(лг) имеет один макси- максимум {см. фиг. 7). Такие унимодальные распределения часто встре- встречаются в приложениях к статистике. Если кривая плотности имеет два или более максимумов, то распределение называется соответственно бимодальным или мультпмодальным. Для дискретного распределе- распределения предположим, что точки сосредоточения массы л-.( расположены в порядке возрастания. Тогда точка лг, называется модой распределе- распределения, если />, ]>/>„._| и /\^>/>„.,.j. Унимодальное, бимодальное и мульти- модальное распределении определяются в этом случае так же, как и для непрерывных распределений. В частном случае, когда распределение симметрично относительно неко- некоторой точки а, имеем F{a + x)-{-/-'(а — х) = 1, если только а 2: лс суть точки непрерывности функции /•'. Отсюда видно, что средног (если оно существует) и медиана раны а. Если, кроме того, распределение унимо- унимодально, то мола также равна а. 15.6. Характеристики рассеяния. Если известно типичное зна- значение случайной величины, то часто бывает необходимо вычислить некоторый параметр, показывающий, насколько широко разбросаны *) В частном случае, когда |i есть точка разрыва функции /•', обычное определение интегралов в upauux. частях должно быть несколько изменено, так как чти интегралы должны тогда включать половину приращения, вы- вызванного разрывом.
значения этой величины по каждую сторону от типичного значения. Параметр такого рода называется характеристикой рассеяния нли, иногда, характеристикой сосредоточения. Рассеяние и сосредоточение находятся, конечно, в обратной зависимости: чем больше рассеяние, тем меньше сосредоточение, и наоборот. Если наше типичное значение есть среднее т распределения, то в качестве меры рассеяния естественно рассматривать второй момент ц, относительно среднего. Он называется дисперсией величины и пред- представляет момент инерции распределенной массы относительно перпен- перпендикулярной оси, проходящей через центр тяжести (см. параграф 7.4). Всегда, конечно, jj^S^O. Если }ia = 0, то из определения ju^ следует, что вся распределенная масса содержится в точке т (см. параграф 16.1). Чтобы иметь характеристику рассеяния той же размерности, что и сама случайная величина S, часто предпочитают рассматривать неот- неотрицательное значение квадратного корня из ;jl>, которое называется стандартным (или средним квадратическим) отклонением величины и обозначается через /?(?) или иногда через в. Для любой величины, для которой второй момент существует, имеем ) = <,«- = ц2 = Е [E - ?SJ] = ВД - Из A5.3.5) следует, что для любых постоянных а и Ь Если величина ? имеет среднее значение т и стандартное откло- отклонение а, то часто рассматривают соответствующую нормированную величину -^—, представляющую отклонение ? от среднего т, выра- выраженное в единицах стандартного отклонения а. Из последнего соотно- соотношения и из A5.3.5) следует, что нормированная величина имеет среднее значение, равное нулю, и стандартное отклонение, равное единице: ?(?==)-€. *(!==)-1. Если ? и 1} — независимые случайные величины, то из A5.3.8) следует, что A5.6.1) Л2(:4-Т() = Л2B)-ЬОМЧ). Это соотношение непосредственно распространяется на любое конечное число слагаемых. Если случайные величины 5,, ..., ?„
независимы, то A5.6.2) Мы уже видели, что второй момент минимален, когда он берется относительно среднего, а первый абсолютный момент минимален, когда он берется относительно медианы (см. параграфы 15.4 и 15.5). Если в качестве типичного значения взять медиану ji, то за характери- характеристику рассеяния естественно принять первый абсолютный момент который называется средним отклонением величины. Иногда средним отклонением называется первый абсолютный момент относительно среднего значения, однако употреблять этот термин в таком смысле не рекомендуется. Точно так же, как с помощью уравнения F(x) = -^ была опре- определена медиана, можно с помощью уравнения F(Zp)=p, где р есть некоторое данное число, такое, что 0<^р<^1, определить величину С , которую будем называть квантилыо распределения порядка р. Подобно медиане квантиль Ср может быть неопределенной. Кван- Квантиль &>, есть, конечно, сама медиана. Знание квантилей ?fl для некоторого разумно выбранного множества значений р, как, например, 113 р=:-г , тг , -г ИЛ11 /7 = 0,1; 0,2; ...; 0,9 дает, очевидно, хорошее представление о расположении и рассеянии данного распределения. Квантили v/, " ?>/< называются соответственно нижней и верхней квартилыо, а величины *;„ ,; Со>:!; ... называются децилями. Величи- Величина -s- (С»;, — *v,) иногда используется как характеристика рассеяния и называется ссми-ишперквартильной широтой *>. Если вся распределении» масса заключена в конечном интервале, то существует верхняя граница gвсех точек х, для которых F(x)~-0. и нижняя граница О всех точек х, для которых F(x) = \. Интер- Интервал (g. О) содержит всю распределенную массу. Его длина О — g *) В книге В. И. Р ома и о не кого .Математическая статистика* эта величина носит названии .вероятного отклонения*. (Пром. перев.)
называется широтой распределения и может быть использована как характеристика рассеяния. Если интервал (g, (?) известен, то мы уже имеем некоторое пред- представление о расположении и рассеянии распределения. Для распреде- распределения, широта которого конечна, такие интервалы, как (т — а, т-\-а) или (С>/, > &/«)> хотя они и не содержат всей распределенной массы, могут быть также использованы в качестве некоторых геометрических характеристик расположения и рассеяния распределения (см. параграф 21.10). Все характеристики расположения, рассеяния и других аналогич- аналогичных свойств в большой степени произвольны. Это вполне естественно, так как свойства, описываемые такими параметрами, определены слиш- слишком расплывчато, чтобы каждое из них можно было точно характе- характеризовать с помощью одного числа. Каждая характеристика имеет свои достоинства и недостатки, и характеристика, вполне пригодная в одном случае, может оказаться более или менее бесполезной в другом. Если, в частности, за характеристику рассеяния выбрать диспер- дисперсию а2 или стандартное отклонение в, то мерой разброса массы в распределении со средним /л = 0 будет служить величина Сосредоточение случайной величины около точки т = 0 будет изме- измеряться той же величиной: чем меньше ?(?3), тем больше это сосре- сосредоточение, и наоборот. Итак, Е($2) рассматривается как мера откло- отклонения ? от нуля. Это — одна из форм выражения известного, принципа наименьших квадратов, с которым мы будем часто сталкиваться в дальнейшем. Из сказанного выше следует, что нет логической необ- необходимости принимать этот принцип. Напротив, принятие или неприня- непринятие этого принципа есть в значительной степени вопрос соглашения. Основной довод в пользу этого принципа заключается в сравнительной простоте приемов вычислений, к которым он приводит. Так, например, имеет место простое правило сложения A5.6.2), в то время как дру- другие характеристики рассеяния, рассмотренные выше, подобному пра- правилу не подчиняются.
15.7. Теорема Чебышева. Докажем теперь следующее обобщение теоремы, принадлежащей Чебышеву: Пусть #($) есть неотрицательная функция случайной вели- величины S. Тогда для любого К~^>0 имеем A5.7.1) PfelS) 5* *]§ где Р обозначает, кок обычно, вероятностную функцию вели- величины ?. Если обозначить через 5 множество всех ;, удовлетворяющих неравенству g(?)^K, то справедливость теоремы вытекает непосред- непосредственно из соотношения i Очевидно, что теорема остается справедливой и сохраняет то же дока- доказательство, если заменить ? случайной величиной ? любого числа измерений. Полагая, в частности, ?(;) = (*—даK, К=№з*, где т и а суть среднее значение и стандартное отклонение величины 5, получим для любого А^>0 неравенство Бьенэме — Чебышева; A5.7.2) />(|$ —«IIS* As ? Это неравенство показывает, что количество распределенной массы, лежащей вне интервала т — ke <[ € <С т Ч~ Аи, превосходит -р и, таким образом, дает хорошее представление о том, в каком смысле а может быть использована как мера рассеяния. Для распределения со средний значением т и стандартным отклоне- отклонением с, при котором в каждой точке лг = ;я± Аз заключена масса - г , а в точке х = т масса 1—-?, имеем Я(|?—MlSsA»)= й и, таким обра- образом, видно, что верхний предел вероятности A5.7.2) не может, вообще го- говоря, быть улучшен. С другой стороны, если ограничиться некоторыми классами распределе- распределений, то неравенство A5.7.2) иногда удается улучшить. Так, Гауссом было показано (в 1821 г.), что для унимодальных распределений (см. параграф 15.5)
непрерывного типа при любом, k > 0 имеем U5.7.3) где Xq — мода, а т» = о»+(дг0 — шJ-второй момент относительно моды. Про- Простое доказательство этого соотношения указано в упражнении 4 на стр, 283, Отсюда получается следующее неравенство для отклонения от среднего: A5.7.4) PflS-mlSsfto)^ J- • frU^jji при любом ft > Is], где s обозначает пирсоновскую меру асимметрии (см. выражение A5.8.3)). Для небольших значений \s\ это неравенство часто дает меньшее значение предела левой части, чем A5.7.2). Так, если Is |< 0,25, то вероятность отклонения, превышающего За, согласно A5.7.4), меньше, чем 0,0624, в то время как A5.7.2) дает менее точный предел 0,1111. Для вероятности отклонения, превышающего 4с, соотношение A5.7.4) дает 0,0336 а A5.7.2) дает 0,0625. 15.8. Характеристики асимметрии и эксцесса. В симметричном распределении каждый момент нечетного порядка относительно сред- среднего, очевидно, равен нулю (если он вообще существует). Любой момент, не равный нулю, можно, таким образом, рассматривать как характеристику асимметрии данного распределения. Простейшая из этих характеристик }13 выражается в единицах измерения самой слу- случайной величины в третьей степени. Чтобы свести размерность этой величины к нулю и получить, таким образом, абсолютную характе- характеристику, рассматривают в качестве меры асимметрии отношение 05.8.1) Ь = 3- Мы будем называть Yi коэффициентом асимметрии. В приложениях к статистике часто встречаются унимодальные непрерывные распределения типа, изображенного на фиг. 7 (см. стр. 193), когда кривая плотности такова, что по одну сторону от моды расположена ее «длинная часть», а по другую — «короткая часть>. На фиг. 7 длинная часть кривой плотности расположена справа от моды и в выражении ji8 кубы положительных отклонений перевесят отрицательные кубы, так что коэффициент */i будет положи- положителен. В таких случаях будем говорить, что распределение обладает положительной асимметрией. Аналогично мы будем говорить об отрицательной асимметрии, если коэффициент Yi отрицателен; в этом случае длинная часть кривой плотности расположена слева от моды.
Выражая четвертый момент щ в абсолютных единицах, как это было сделано выше для щ, получим так называемый коэффициент эксцесса A5.8.2) у2==?_3, который иногда используется в качестве характеристики сглаженности кривой плотности около ее центра. Для нормального распределения (см. параграф 17.2) коэффициент эксцесса у2 равен нулю. Положитель- Положительное значение у2 указывает на то, что кривая плотности в окрестности моды имеет более высокую и более острую вершину, чем нормальная кривая. Обратно, отрицательное значение "{2 указывает на более низ- низкий и более плоский характер вершины сравнительно с нормальной кривой. В первом случае обычно говорят о положительном эксцессе по сравнению с нормальной кривой, во втором — об отрицательном эксцессе. Это словоупотребление, однако, имеет свои недостатки см. параграф 17.6). Часто в литературе вместо величии Ti и т* используют величины Предлагались и многие другие характеристике асимметрии и эксцесса. Так, К. Пирсон ввел в качестве меры асимметрии разность между средним и модой, поделенную на стандартное отклонение: A5.8.3) s=^—^. Для класса распределений, входящих в систему Пирсона (см. параграф 19.4) можно показать, что ¦ _ Если yi и ft малы, то это приближенно дает 1 « "ли х т Последнее соотношение также приближенно выполняется для распределений, за- задаваемых разложениями Эджворта и Шарлье (см. параграфы 17.6—17.7). Шарлье употребляет коэффициент S = —— Ti в качестве меры асимметрии и Е= -„- tt как меру эксцесса. о
15.9. Характерястические функции. Среднее значение функции 00 A5.9.1) <р (*) = ?(*'«)= j e"*dF(x), 0 есть функция действительной переменной t и называется характера' стшеской функцией случайной величины (; или характеристической функцией соответствующего распределения. Математическую теорию характеристических фуикций читатель найдет в главе 10. Там, в част- частности, было установлено, что существует взаимнооднозначное соот- соответствие между распределениями и характеристическими функциями. Если два распределения совпадают, то их характеристические функ- функции также совпадают, и обратно. Из этого свойства вытекают важ- важные следствия. Во многих вопросах, когда бывает нужно найти рас- распределение некоторой данной случайной величины, сравнительно просто найти ее характеристическую функцию. Если окажется, что она совпадает с характеристической функцией некоторого уже известного распределения, то наше искомое распределение должно совпадать с этим последним. Характеристическая функция функции g(?) есть среднее значе- значение е"*'К В частном случае линейной функции g(?) = a?-\-b харак- характеристическая функция имеет вид A5.9.2) Е (е'< <*+»>) = e»"ip (в*). Так, например, функция — s имеет своей характеристической функцией <р(—t) = y(t). Далее, нормированная случайная вели- великана т- имеет характеристическую функцию fA —m _ гШ Е(е • )=е ' ч 15.10. Семя-инварианты. Если А-й момент распределения сущест- существует, то, согласно A0.1.3), характеристическая функция может быть разложена в ряд Маклорена при малых значениях t: A5.10.1) г " Для функции log(l -J-г) соответствующее разложение имеет вид
Заменяя \-\-z через <р (I), получим после перестановки слагаемых такое разложение: * A5.10.2> log у Щ=? Ь Коэффициенты x.v, введенные Тиле [37], называются семи-инвариаН- тами или кумулянтами распределения. Для того чтобы вывести соотношения между моментами а, и семи- семиинвариантами %,, воспользуемся формально тождествами СО 3 не исследуя вопроса о существовании моментов и о сходимости ряда. Очевидно, что хп есть полином от переменных а, а„ и, обратно а„ есть полином от х,, ..., хп. В частности, имеем A5.10.3) xs = a8 — Зал *4 = а, — За| - 4a,as +12^2а2 — 6а?, и обратно =i = аг= A5.10.4) О3 = «4 = Можно выразить х„ через центральные моменты *2 = J*2 = 3!, * = ft, A5.10.5) х4 — j Xj = } *« = )
Отсюда коэффициенты асимметрии и эксцесса, введенные в пара* графе 15.8, равны соответственно Семи-инвариантны %'у линейной функции g(t)—a?-\-b находятся согласно A5.9.2), из разложения log [ebtty (at)] = ? -^- (ity -j- о (/*). Сравнивая с A5.10.2), получим ж\ =oxj -\-Ь и х'^ = я1'*, при v^> 1. 15.11. Независимые величины. Пусть ; и ij—случайные вели- величины с функциями распределения F, и Ft и с вероятностной функцией Р их совместного распределения. Согласно A4.4.5), для независи- независимости ? и ц необходимо и достаточно, чтобы для всех х и у сов- совместная функция распределения этих величин удовлетворяла соотно- соотношению *) Вели обе величины обладают распределениями одного и того же про- простого типа, то условие независимости можно выразить в более удоб- удобной форме. Рассмотрим сперва случай, когда обе рассматриваемые величины— дискретного типа с распределениями, заданными равенствами где v=l, 2,... . Тогда легко видеть, что условие независимости A5.11.1) эквивалентно соотношениям A5.11.2) для всех значений у. и v. графе *) Другое необходимое н достаточное условие будет дано в пара» № 21.3.
В случае, когда обе реличины—непрерывного типа, дифференци- дифференцируем равенство A5.11.1) по х и по у и получим A5.11.3) f^x,y) где /j и /а — плотности вероятности величин ? и ij, a / есть, согласно параграфу 8.4, плотность вероятности совместного распреде- распределения обеих величин или совместная функция плотности величин ? и ij. Обратно, из A5.11.3), интегрируя, получаем A5.11.1). Таким образом, A5.11.2) ec/ftb необходимое и достаточное усло- условие независимости двух величин дискретного типа, а A5.11.3) необходимое и достаточное условие независимости двух величин непрерывного типа. Оба условия непосредственно распространяются на любое конечное число случайных величин. 15.12. Сложение независимых случайных величин. Пусть ? и 1] — независимые случайные величины с известными распределениями. Согласно параграфу 14.5, сумма ?-j-7j имеет распределение, одно» значно определенное распределениями величин ? и jj. Во многих вопросах бывает нужно выразить функцию распределения, характеристическую функцию, моменты и т. д. этого распределения через соответствую- соответствующие функции и величины данных распределений ? и ij. Эта задача может быть, конечно, обобщена на случай суммы произвольного конечного числа независимых величин. Рассмотрим сперва характеристические функции. Пусть <f1(t), <#*(?)• ?(') обозначают соответственно характеристические функции чвеличин ?, jj, S-j-f. Тогда, согласно теореме A5.3.4) о среднем зна- значении произведения независимых сомножителей, имеем <р (t) = ? (е" <'+ч)) = ? («« е"-п) = Е (*"*) ? (е"ч) = tp, (t) <p2 (t). Это соотношение непосредственно распространяется на случай произ- произвольного конечного числа случайных величин: если ?,, ..., ?„ — неза- независимые величины с характеристическими функциями <pj (t), ..., <ря (*) то характеристическая функция tp (t) суммы ?j -|- ... 4- ?л есть A5.12.1) <? (t) = ?,(*)*,(/)... <?„«). Итак, мы имеем следующую важную теорему, выражающую основное свойство характеристических функций:
Характеристическая функция суммы независимых случайных величин равна произведению характеристических функций сомно- сомножителей. Выразим теперь функцию распределения суммы Е-Ь7] через функ- функции распределения Р1 и F2 слагаемых. Применим к этой задаче общий метод нахождения функции распределения по ее характеристи- характеристической функциии (см. параграфы 10.3 и 15.9). Рассмотрим интеграл F(x)= J F1(x-z)dF2(z). Так как функция F1 ограничена; то этот интеграл, согласно параграфу 7.1, определен и имеет конечное значение при любом х. F1{x-^z) при любом фиксированном z есть неубывающая функция от х, всюду непрерывная справа и стремящаяся к 1 при х—»--|-оо и к 0 при х—<¦ — оо. Рассмотрим разность F{x-\-h) — F(x), где А>0. Из G.1.4) следует, что эта разность неотрицательна, а из G.3.1) — что она стремится к нулю при А—»-0. Далее, из G.3.1) следует, что F(x) стремится к 1 при х—>--{- схэ и к 0 при х—>— оо. Итак, F(x) есть функция распределения. Соответствующая харак- характеристическая функция оо e"*dF{x) есть, согласно G.5.6), предел при л—*-оо сумм sn вида в предположении, что максимум длины подынтервалов (*„_,, ху) стре- стремится к нулю и при этом х0—»¦—оо и хп—»--f-oo. Вводя в это соотношение интегральное выражение функции F(x), получим где =jrv- z.
Для каждого фиксированного z суммы s'e при н —*¦ х> стремятся к пределу Далее, величины s'n равномерно ограничены, так как 1 Согласно G.1J), отсюда следует, что lim $„ =: Таким образом, характеристическая функция, соответствующая функции распределения F(x), совпадает с характеристической функ- функцией <р (t) = ;р, (*) <е2 [t) суммы €-f> следовательно, F{x) есть иско- искомая функция распределения. Так как, очевидно, в нашем выводи функции Ft и F2 можно всюду поменять местами, то нами установ- установлена следующая теорема: Функция распределения F{x) суммы двух независимых случай- случайных величин есть со ос A5.12.2) F(x)= где Ft и F2 суть функции распределения слагаемых*). Если три функции распределения F, Ft и /\ удовлетворяют соот- соотношению A5.12.2), то будем говорить, что F есть композиция функ- функций Fj и Fj, и употреблять следующее сокращенное обозначение: A5.12.2а) F(x) = F1(x)*Fi(x) = Fs(x)^F1(x). Функции же Т7] (х) и F.t (х) будем называть компонентами этой опе- операции. *) Читателю следует поприбивать дать прямое доказательство этой тео- теоремы, не пользуясь характеристическими функциями. Для этого надо пока- показать, что в двумерном распределении независимых случайных, величин Бит) количество массы Fix), заключешой в полуплоскости ?-1-1)^*. задается равенством A5.12.2). См. Крамер [И].
Согласно A5.12.1), такое символическое умножение функций рас- распределения соответствует обычному умножению характеристических функций. Если даны три независимые случайные величины $р !^ и Sa, то, повторяя доказательство A5.12.2) с некоторыми очевидными измене- изменениями, получим, что сумма «i-|-?2-|-$3 имеет функцию распределе- ния (F1*Fi)*F3 = FimFi*Fa). Ясно, что это можно обобщить на любое конечное число компонент и что операция композиции ком- коммутативна и ассоциативна. Для суммы п независимых случайных вели- величин Sj -J- ... -J- ?л функция распределения есть 03.12,3) f^F,*/%*... */*„. Рассмотрим теперь следующие два частных случая композиции функции распределения из двух компонент по правилу A5.12.2): a) Обе компоненты — дискретного типа (см. параграф 15.2). b) Обе компоненты — непрерывного типа, и по крайней мере одна из функций плотности, скажем fl = Fv ограничена для всех х. В случае а) пусть хх, хг, ... и yv уг, ... обозначают соответ- соответственно точки разрыва функций F1 и Fv Тогда очевидно, что вся масса распределения, задаваемого композицией F, содержится в точках х,-\-у3, где г к s принимают значения 1, 2, .... Если множество всех таких точек не имеет конечных предельных точек, то композиция также принадлежит к дискретному типу. Это условие соблюдается, например, в случае, когда все хт и ys неотрицательны или когда хотя бы одна из последовательностей {*,} и \у3) конечна. В случае Ь) первый интеграл в соотношении A5.12.2) удовлетво- удовлетворяет условиям теоремы G.3.2). Далее, согласно G.3.1) и G.5.5), про- производная F'{x)=f{x) непрерывна при всех х л может быть выра- выражена римановым интегралом: A5.12.4) /(*)= J/,(*_*)/,(*)<!*= $/.(*-*)/,(*)&. Таким образом, композиция принадлежит к непрерывному тииу, и плот- плотность вероятности f(x) всюду непрерывна. Возвращаясь к общему случаю, обозначим соответственно через 'Ир ш2 и m средние значения и через t,, s, и t стандартные откло- отклонения величин 5, ц и ?-|-ij. Так как ? и ij независимы, то, согласно
A5.3.7) и A5.6.1), имеем A5.12.5) m = mi + m2, & = e»-r-of. Для моментов высшего порядка относительно среднего общее выраже- выражение выводится из соотношения ^ ±= Е [(? + г, - т)>] = Е [E - /я, -f Ч ~ «.)']• Так как любой первый момент относительно среднего равен нулю, то имеем, в частности, употребляя очевидные обозначения, A5.12.6) Выражения для моментов композиции непосредственно распростра- распространяются на случай любого конечного числа случайных величин. Так для суммы п независимых случайных величин имеем следующие простые пыражеиия для моментов трех первых порядков: A5.12.7) o« = a?+o*+...+o«, Для моментов высших порядков (у ^> 3) формулы становятся более сложными. Наконец, рассмотрим сеыи-инварианты композиции. Теорема умно- умножения характеристических функций дает log <|> (t) = log;?! (t) -f bgip, (t). Следовательно, из A5.10.2) получаем х, = я<]) -|- х'25'. Это простое правило композиции есть главное основание для введения семи-иива- риаптов. Оно непосредственно распространяется на случай я незави- независимых случайных величин: A5.12.8) х, = х<» + жB) -f- ¦ ¦ • + *<">.
ГЛАВА 16 РАЗЛИЧНЫЕ ДИСКРЕТНЫЕ РАСПРЕДЕЛЕНИЯ 16.1. Функция ?(х). Простейшее дискретное распределение то. при котором вся масса сосредоточена в единственной точке, скажем, в точке х=0. Таково распределение случайной величины ?, которая .почти всегда" равна нулю, т. е. такова, что Р($ = 0)=1. Соответ- Соответствующая функция распределения s (x) задана посредством соотношения (О при х<*0, Как мы уже заметили в параграфе 10.1, соответствующая характери- характеристическая функция тождественно равна единице. Вообще, случайная величина, почти всегда- равная х0, имеет функ- функцию распределения е(дг—хо)н характеристическую функцию е"*°. Сред- Среднее значение этой случайной величины есть лс0, а ее стандартное отклонение равно нулю. Обратно, если известно, что стандартное откло- отклонение некоторой случайной величины равно пулю, то (см. параграф 15,6) вся распределенная масса содержится в единственной точке, и, следовательно, функция распределения имеет вид г(х— х0). Общая функция распределения дискретного типа, заданная соотно- соотношением A5.2.1), может быть записана в виде: A6.1.2) /="(*) = 5! Л е <* — *„)• Рассмотрим частный случай дискретной случайной величины ? с рас- распределением A6 1 3> ?= Л с веР°ЯТНОСТ1>ю Р> \ 0 с вероятностью q = 1 — р. В следующем параграфе случайные величины, обладающие распре- распределением такого рода, найдут себе важное применение. Из A6.1.2) мы получим функцию распределения такой величины S: характеристическая функция, следовательно, имеет вид A6.1.4) ;p(f) = p*"-f?= 1 +/!(«»—1). Среднее значение и дисперсия величины ? суть ,7@ — pf =
16.2. Биномиальное распределение. Пусть E есть данный слу- случайный эксперимент. Обозначим через Е событие, вероятность наступ- наступления которого при каждом осуществлении эксперимента © равна р. Рассмотрим ряд из п независимых повторений эксперимента & (см. па- параграф 14.4) и определим случайную величину 2Г, связанную с r-м по- повторением эксперимента, положив 1, если событие Е происходит при r-м повторении экспери- эксперимента ($ (соответствующая вероятность=/>), О, если событие Е не происходит при r-м повторении экспе- эксперимента G (соответствующая вероятность = q = 1 — р). При этом случайные величины €,, ... , ?л независимы и каждая вели- величина ?, имеет распределение вероятностей A6.1.3), рассмотренное в предыдущем параграфе. Очевидно что ?, обозначает число наступлений события Е в г-м эксперименте, следовательно, сумма есть число наступлений события Е в ряде из п повторений экспе- эксперимента E. Так как у есть сумма я независимых случайных величин, то v есть случайная ветчина*), распределение которой может быть найдено методами параграфа 15.12. Таким образом, согласно A5.12.7) и A6.1.5), получим следующие выражения для среднего, дисперсии и стандарт- стандартного отклонения величины v: A6.2.1) ?(v) = /i/>, Отношение — выражает частоту события Е в нашем ряде из п п повторений эксперимента E. Для среднего значения и стандартного отклонении величины — имеем я *) В общей теории, развитой в предыдущей главе, мы систематически употребляли для обозначения случайных величин буквы ? и ц. Однако в даль- дальнейшем было бы неудобно строго следовать этому правилу. Поэтому мы часто будем употреблять для обозначения случайных величин и другие гре- греческие и латинские буквы. Необходимо поэтому всегда с большим вниманием следить за значением различных букв, входящих в формулы.
Характеристическая функция величины v, согласно A5.12.1), есть произведение характеристических функций всех ?г. Таким образом, из A6.1.4) получаем A6.2.3) ?{«"') = (ре"+ ?)" = A+/»(«" — 1))". Раскрывая это выражение, находим Согласно A0.1.5), это есть характеристическая функция случайной величины, принимающей значения г = 0, 1,..., л с вероятностями Pr = (^)prgn~r. Вследствие взаимнооднозначного соответствия между распределениями и характеристическими функциями можно заключить (см. параграф 15.9), что распределение вероятностей для v задаете» соотношением A6.2.4) Р (v =:/-) = />,--= (?)/>У" С = 0,1 в). Это—биномиальное распределение, простейшие свойства которого предполагаются уже известными. Это распределение дискретного тина, зависящее от двух параметров пир, где п есть положительное целое число, а 0 <Ср<С 1 • (Случаи /> = 0 и />=1 тривиальны и исключаются ил дальнейших рассмотрений.) Соответствующая функция распределения A6.2.5) Вп (х; р) = Р (v < х) = 2 (?)/>'</'-' есть ступенчатая функция со скачками Рг в я -\- 1 точках сосредото- сосредоточения массы г = 0, 1, ... , п. Для того чтобы найти моменты }i, относительно среднего значении биномиального распределения, рассмотрим характеристическую функцию отклонения v — пр: ^_ (речп ц_ qe~p(t)n _ Lr-0 Отсюда мы видим, что все моменты \Lr конечны и могут быть найдены сравнением коэффициентов в соотношении
В частности, находим A6 2 6) Для коэффициентов асимметрии и эксцесса имеем, следовательно, вы- выражения Асимметрия положительна при р <[ -^ , отрицательна при р ]> -* и равна нулю прир = -я-. Оба коэффициента Yi и Уз стремятся к нулю при п—юо. Пусть Vj и v2 — две независимые случайные величины, имеющие обе биномиальные распределения с одним и тем же значением пара- параметра р и со значениями nt и л3 параметра п. Можно, например, взять Vj и v2 равными числу наступлений события Е в двух независимых рядах из пг и п2 повторений эксперимента (&. Сумма Vj -f- vs будет равна тогда числу наступлений события Е в ряде из л, -\- /ij повторений эксперимента (S. Характеристическая функ- функция величины vx -f- v2. есть (см. параграф 15.12) Мы пришли к характеристической функции биномиального распределе- распределения с параметрами р и nl-\-n2. Таким образом, сложение двух неза- независимых случайных величин с функциями распределения В„к{х; р) » Ва,(х; р) дает (как в этом можно убедиться, конечно, и непосред- непосредственно) случайную величину с функцией распределения В„1+„г(х; р). В сокращенных обозначениях (см. A5.12.2а)) это может быть записано в виде ВП1(х, p)*Bni{x; p)=:B,lt+ni(x; p). Таким образом, биномиальное распределение воспроизводит само себя при сложении независимых случайных величин. Этот факт мы будем называть теоремой сложения для биномиальных распределений* Позднее мы увидим, что подобные (хотя н менее очевидные) теоремы
сложения имеют место также для некоторых других важных распреде- распределений. 16.3. Теорема Бернулли. Для частоты —, рассмотренной в предыдущем параграфе, имеем, согласно A6.2.2), п/ \ п Применим теперь неравенство Вьенэме — Чебышева A5.7.2), полагая A—ei/— , где с — некоторое данное положительное число. Обо- V pq значая через Р вероятностную функцию случайной величины V, полу- получим следующий результат: A6.3.„ Если 8 обозначает другое данное положительное число, то при я^> -^j- вероятность в левой части неравенства A6.3.1) меньше 8, Так как Ь произвольно мало, то нами доказана следующая теорема: у Вероятность того, кто частота — отличается по модулю от своего среднего значения р не меньше чем на г, стремится а- нулю при п—>-сс, как бы мало ни было е. Эта классическая теорема была доказана первоначально Яковом Бернулли в его посмертной работе „Ars Conjectandi" A713) совер- совершенно иным способом. Бернулли рассматривал две дополнительные вероятности М" I / |г-л^|<л« и доказывал прямой оценкой слагаемых биномиального разложения, что для любого данного s ^> 0 отношение —=— превзойдет заданную величину, если выбрать достаточно большое п. Согласно предыдущему параграфу, величина v связана с составным экс- экспериментом, заключающимся в п повторениях исходного эксперимента I?. Таким образом, согласно параграфу 13.5, любое вероятностное утверждение относительно v является утверждением относительно приближенного зилчеиня
частоты некоторого событии в ряде повторений составного эксперимента. Таким образом, частотная интерпретация (см. параграф 13.5) любого такого веро- вероятностного утверждения связана с рядом повторений составного экспери- эксперимента. Рассмотрим, например, частотную интерпретацию (см. параграф 13.5) оп- определенной выше вероятности 5. Мы осуществляем я повторений экспери- эксперимента © и регистрируем число v наступлений события Е. Это —первое осу- осуществление нашего составного эксперимента. Если наблюденное число v удов- летворяст неравенству /»1^е, то мы условимся говорить, что при пер- первом осуществлении составного эксперимента имеет место событие И'. Вероятность события ?' есть 5. Затем мы осуществляем всю серию из я повторений основного экспе- эксперимента (I большие число я' раз, получая в конечном счете ряд из л' по- повторений составного эксперимента. Общее число осуществлений эксперимента 8 будет, конечно, равно п'п. Пусть ¦»' есть число наступлений события Е' в полном ряде из л' повторений составного эксперимента. Тогда частотная интерпретация вероятности ш заключается в следующем утверждении: для у' больших значений л' практически несомненно, что частота —j приблизитель- приблизительно равна <5. Теорема Бернулли, выраженная соотношением A6.3.1), показывает, что при л > -тут иМеем 5 < К где & есть заданное произвольно малое число. В длинной серии повторений составного эксперимента (т. е. при больших л') I v I мы должны ожидать, что событие /> S*s будет наступать с частотой, \п v | меньшей &. Выбирая S очень малым, мы можем считать практически несомнен- несомненным (см. параграф 13.5), что при единственном осуществлении составного экс- эксперимента, т. е. в одном ряде из я повторений эксперимента ©, событие |-—р Эгг не наступит. I я I Значение 3, которое нужно выбрать для того, чтобы достичь достаточ- достаточной степени .практической несомненности", зависит от допускаемого риска ошибки наших предсказаний. Предположим, что мы согласились рассматри- рассматривать некоторое значение Ьц как достаточно малое для нашей цели. Возвра- Возвращаясь к исходному событию Е, имеющему вероятность р, можно дать следу- следующую, более точную, чем в параграфе 13.5, формулировку частотной интер- интерпретации: Пусть задано е > 0. Если выбрать п > гт~Т' то практически несо- несомненно, что в единственном ряде из п повторений эксперимента @ мы бу- будем иметь р < е.
Это утверждение может быть названо частотной интерпретацией тео- теоремы Бернулли. Подобно всей частотным интерпретациям, это не матема- математическая теорема, а утверждение относительно некоторых наблюденных фак- фактов, которое должно быть справедливым, если наша математическая теория имеет какое-либо практическое значение. 16.4. Теорема Муавра. Случайная величина A6.4.1) v = S1 + S2 + ... + Sn, рассмотренная в двух предыдущих параграфах, имеет, согласно A6.2.1 )t среднее значение пр и стандартное отклонение V^npq. Нормированная величина (см. параграф 15.6) A6.4.2) имеет, таким образом, среднее 0 и стандартное отклонение 1. Пре- Преобразование, с помощью которого мы переходим от v к X, состоит, конечно, только в смещении начала координат и изменении масштаба на оси абсцисс. Ординаты графика, изображающего распределение ве- вероятностей, будут одинаковыми для обеих случайных величин. Действительно, используя обозначения предыдущего параграфа, по- получим для г=0, 1, ... , я Функция распределения и характеристическая функция величины v задаются соотношениями A6.2.5) и A6.2.3). Обозначая через Fn(x) и ср„ (t) соответствующие функции нормированной величины \, получим (см-, параграф 15.9) Fn (*) = вп («/»+* /пря; р). A6.4.3) / J^ --^L)" Vir+ Vnp4i ' Рассмотрим теперь поведение распределения вероятностей вели- величины. \ при возрастании п и фиксированном р. Преобразуем сперва выражение характеристической функции <рл (/). Для любого целого ?^>0 и любого действительного г имеем раз- разложение Маклорена
где & означает действительное или комплексное число, по модулю не превышающее единицу. Используя это разложение для А = 3, получим -JPJL и, следовательно, Полагая получаем При я —> <х и фиксированном * величина у стремится, очевидно, к — — . Следовательно, — стремится к нулю, а — log f I -}- —) стре- стремится к 1. Отсюда следует, что log !ря (t) стремится к —-п-и, наконец, что при любом t Теперь мы можем применить теорему непрерывности для характе- характеристических функций (см. параграф 10.4). Мы только что доказали, что последовательность характеристических функций {tpn{')}, опреде- определенных соотношением A6.4.3), сходится при любом t к непрерывной функции е '*. Согласно теореме непрерывности, заключаем, что 1) предел е 2 есть характеристическая функция некоторой функ- функции распределения и 2) последовательность функций распределения {Fn(x)\, определенная соотношением A6.4.3), сходится к функции распределения, соответствующей характеристической функции е 2. Согласно A0.5.3) и A0.5.4), имеем
где так что е 2 есть характеристическая функция функции распределения Ф (х), заданной последним соотношением. Эта весьма важная нормаль- нормальная функция распределения будет предметом исследования следующей главы. Сейчас заметим только, что Ф(*) непрерывна при любом х. Нами доказана, таким образом, следующая предельная теорема для биномиального распределения, полученная впервые Муавром в 1733 г. При любых фиксированных х а р имеем A6.4.5) Urn Вп (пр -\-х -/npq ; р) = Ф (х). л-»оо Таким образом, биномиальное распределение величины v=5J-f- -|-...-f-Sft, нормированной• согласно A6.4.2), стремится к нормаль- нормальному распределению при л —* оо. Мы увидим позднее (см. параграф 17.4), что это только частный случай более общей и важной теоремы относи- относительно распределения суммы большого числа независимых случайных величин. Использованный выше метод доказательства был выбран с целью подготовить читателя к доказательству этой общей теоремы. Однако в рассматриваемом сейчас частном случае биномиального рас- распределения можно достигнуть того же результата более прямым ме- методом без использования характеристических функций, как это обычно и делается в учебниках. Ограничимся здесь лишь несколькими крат- краткими указаниями; детали вывода читатель сможет найти в обычных руководствах по теории вероятностей. Соотношение A6.4.5) эквивалентно соотношению A6.4.6) 2 G)/>V-*— Ф().г)-Ф {).,) = np+i.L для любого фиксированного интервала (Xt,X2). Соотношение A6.4.6) может быть доказано простой оценкой слагаемых в биномиальном разложении. Для этой цели выражаем факториалы в биномиальных
коэффициентах A6.4.6) с помощью формулы Стирдинга A2.5.3). После некоторых вычислений получим выражение A6.4.7) где С есть величина, зависящая от р, но не зависящая от v и л, a ft имеет тот же смысл, что и раньше. Таким образом, левая часть со- соотношения A6.4.6) равна »—по М OS Шкалаv Шкало 0 1 2 3*5 ~г -Т" "о ----------- Фиг. 8. Функция распределения у (или X) и нормэльиая функция распределения, р — 0,3; л = 5. 0.5 0 Шпалаv Шкала to го Фиг. 9. Функция распределения v (или 1) н нормальная функция распределения. р = 0,3; я = 30
где сумма распространяется на те же значения V, что и в A6.4.6). При я —)- ос второе слагаемое в этом выражении стремится к нулю; первое же слагаемое представляет собою сумму Дарбу для интеграла в правой части соотношения A6.4.6) и, следовательно, стремится к этому интегралу при я—*-оо. Таким образом, соотношение A6.4.6) доказано. Шкапа V Шкало О > 8 3 U 5 Фиг. 10. У прц ("\p'q*~'' и нормальная функция плотности. /> —0,3; я- 5 аз аг 0.1 А \ \ Школа v .- -- 0 го Шкала \ПЩ -г j Фиг. 11. Vnpq (^Jp'GR^v и нормальная функция плотности, р-— 0,3; я = 30. Для графической иллюстрации предельной теоремы A6.4.5) можно прибегнуть к простому сравнению графиков функций Вп и Ф на фиг. 8 и 9. Можно, однако, также использовать соотношение A6.4.7). Предполагая, что v стремится к бесконечности при п—>-оо таким
V ПР образом, что Тр— -стремится к конечному пределу х, получим Если на шкале v принять за начало координат среднее пр, за едини- единицу масштаба стандартное отклонение ynpq, и если в то же время каж- каждую вероятность Я, умножить на у npq , то концы соответствующих ор- 1 -- динат при п —>¦ оо будут приближаться к кривой плотности у = —т=е 2 У 2с нормального распределения, как это показано на фиг. 10—11. 16.5. Распределение Пуассона. В предыдущем параграфе мм видели, что дискретное биномиальное распределение может быть преобразовано с помощью предельного перехода в новое распределения непрерывного типа, а именно, в нормальное распределение. Соответствующим изменением предельного перехода можно также по- получить предельное распределение дискретного типа. Предположим, что в биномиальном распределении вероятность р зависит от я так, что р стремится к нулю при я—>-оо. Точнее, предположим, что A6.5.1) />==7' где ). — некоторая положительная постоянная. Для вероятности Рг, за- заданной соотношением A6.2.4), получим при л—*сю п я (я — р. = г! — г\ \ п) -,е~к для любого фиксированного г=0, 1,2 Сумма всех предельных значений равна единице, так как Если случайная величина $ имеет распределение вероятностей A6.5.2) Р? = г)=?-е-к при г=0, 1,2
то говорят, что она обладает распределением Пуассона. Это—дис- Это—дискретное распределение с одним параметром X, который всегда положи- положителен. Все точки г= 0,1,2, ... суть точки сосредоточения массы. Два случая этого распределения изображены на фиг. 12—13. Характеристическая функция распределения Пуассона есть A6.5.3) г=0 Согласно A5.10.2), это показывает, что семи-инварианты этого рас- распределения все конечны и равны I. Для вычисления первых двух семи- семиинвариантов находим среднее зна- 0 чение и стандартное отклонение Полагая р = — во втором вы- 0 g$ ражении A6.2.3) характеристиче- характеристической функции биномиального рас- распределения, можно без труда убедиться в том, что эта функция стремится при я—>оо к характе- характеристической функции A6.5.3) рас- пределения Пуассона. Тогда из фиг- 12- Распределение Пуассона, 3l := 0,8 теоремы непрерывности (см. параграф 10.4) следует, что биномиальное распределение стремится к распределению Пуассона, что подтверж- подтверждает результат, уже полученный при непосредственном изучении ве- вероятности Рг. Легко также показать, что, не нарушая результата, можно заме- заменить условие A6.5.1) более общим условием: пр—Л. Наконец, если независимые случайные ветчины ?} и $2 обладают распределениями Пуассона с параметрами Хд и i2, то сумма Sj -J- S2 имеет характеристическую функцию т. е. характеристическую функцию распределгния Пуассона с парамет- параметром X,+Хг. Таким образом, сумма ^Ч-Sj обладает распределением Пуассона с параметром ij+X2. Мы видим, что распределение Пуас- Пуассона, как и биномиальное, воспроизводит само себя при сложении
независимых величин. Обозначая через F(x; \) его функцию распреде- распределения, получим теорему сложения для распределения Пуассона A6.5.4) F(x; l2)=F(x; В приложениях к статистике распределение Пуассона встречается часто, когда мы имеем дело с числом наступлений некоторого события при большом числе наблюдений, и при малой вероятности наступления этого события в каж- каждом отдельном наблюдении, например: число самоубийств за гол, число взве- взвешенных частиц в пробе малого объема из большого количества суспензии и т. д. (См., например, Борткевич [63а].) о.г О,' о I г з ii з 6 7 8 9 w и Фиг. 13. Распределение Пуассона, X = 3,5. В одном важном классе приложений основной случайный эксперимент состоит в наблюдении числа наступлений некоторого события за промежуток времени г, причем выбор t произволен. Такое положение встречается, напри- например, при рассмотрении числа телефонных вызовов за различные промежутки времени. Предположим в этом случае, что числа наступлений события за не- непересекающиеся промежутки времени независимы. Предположим далее, что вероятность тоги, что за промежуток времени А* событие произойдет ровно один раз, при малом Af равна г де \ — постоянная, а вероятность того, что это событие за то же время Af наступит более одного раза, есть o-(&t). Разделив промежуток времени t на я равных частей, можно рассматривать эти я частей как я повторений случай- случайного эксперимента, где вероятность наступления события в каждом отдель- отдельном случае есть ний Заставляя я стремиться к бесконечности, находим, что общее число наступле- события за время t обладает распределением Пуассона с параметром It.
Величинами такого типа, кроме уже упомянутого числа телефонных вызовов являются: число распавшихся радиоактивных атомов, число претензий к стра- страховой компании и т. д. 16.6. Обобщенное биномиальное распределение Пуассона. Пред- Предположим, что я случайных экспериментов (&1г ...,©„ таковы, что случайные величины, связанные с этими экспериментами, независимы. С каждым экспериментом мы связываем событие ?,, вероятность на- наступления которого при осуществлении эксперимента ©г равна />г= = \-qr. Допустим, что каждый из экспериментов ©,,...,(?„ осуществляется ровно одни раз и при этом в каждом случае регистрируется, насту- наступает ли связанное с данным экспериментом событие или нет. В этом случае мы говорим о ряде независимых испытаний. Если при осуще- осуществлении эксперимента @г связанное с ним событие ЕТ наступает, то говорим, что г-е испытание имеет благоприятный исход, в противном случае говорим, что оно имеет неблагоприятный исход. Пусть v есть общее число благоприятных исходов во всех я испытаниях. Каково распределение вероятностей величины V? В частном случае, когда все эксперименты <Sr и все события Ег тождественны, величина v сводится к величине, рассмотренной в пара- параграфе 16.2, и искомое распределение есть биномиальное распределе- распределение. Описанный общий случай был рассмотрен Пуассоном [32]. Так же, как и в параграфе 16.2, определяем величину S,, связан- связанную с г-м испытанием и принимающую значение 1 при благоприятном исходе (с вероятностью рг) и значение 0 при неблагоприятном неходе (с вероятностью qr=\—рг). Величины ?1;..., ?я независимы и каж- каждая из них имеет распределение вида A6.1.3). Как и в предыдущем случае, общее число благоприятных исходов равно v = ?t-(-... -\-Ьп- Характеристическая функция случайной величины v есть произве- произведение характеристических функций всех ?г: ?(«"•)= П (*,«"+?,)• Возможные значения v суть v = 0, 1, ... , я, и вероятность того, что v принимает значение г, равна коэффициенту при eitr в разложении на- написанного выше произведения.
Для среднего значения и дисперсии величины v имеем следующие выражения: A6.6.1) Обозначая через Р вероятностную функцию величины v и через р среднее арифметическое — У^рг, получаем с помощью неравенства Бьенэме — Чебышева A5,7.2) результат, аналогичный A6.3.1): A6.6.2) J Таким образом, имеем следующее обобщение теоремы Бернулли, найденное Пуассоном: Вероятность того, что частота благоприятных исходов —от- —отличается по модулю от среднего арифметического вероятностей рг не меньше чем на е, стремится к нулю при п—юо, как бы мало ни было s. Частотная интерпретация этой обобщенной теоремы вполне аналогична частотной интерпретации теоремы Бернулли, данной в параграфе 16.3. Рас- Рассмотрим, в частности, случай, когда все вероятности рг равны р. Мы тогда видим, что в длинном ряде независимых испытаний, при которых вероят- вероятность благоприятного исхода постоянно равна р, хотя испытания могут относиться к различным экспериментам, практически несомненно, что частота благоприятных исходов приблизительно равна р. Существует также обобщение теоремы Муавра A6.4.5) на наш случай. Оно здесь доказываться не будет, но ниже M6I выведем его как частный случай из более общей теоремы, доказанной в параграфе 17.4. Для дисперсии величины v получено значение D'i(v) = ^prqr В ряде из я испытаний с постоянной вероятностью р=— ]?]/>,. соответствующая дис- 1 Персия равна npq, где q=\ —;> = -— V^r Для того чтобы сравнить эти две дисперсии, пишем: Таким образом, .пуассоновская дисперсия" ^рд, всегда меньше соответст- соответствующей „бернуллиевой дисперсий" npq. На первый взгляд этот результат
может показаться несколько неожиданным. Он становится более естествен- естественным, если рассмотреть предельный случай, когда все вероятности рг равны О или 1 (причем фактически встречаются как те, так и другие). Тогда пуассо- новская дисперсия равна 0, а бернуллиева дисперсия положительна. ГЛАВА П НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 17.1. Нормальные функции. Нормальная функция распределения, которая уже встречалась в параграфах 10.5 и 16.4, определяется равенством —оо Соответствующая нормальная плотность вероятности есть Графики этих функций даны на фиг. 14—15, а их численные зна- значения— в таблице I в конце книги. Среднее значение этого распределения равно 0, а его стандартное отклонение равно 1, как это видно из A0.5.1): оо & —00 A7.1.1) 00 00 ?> *e *dx=\. Вообще, все моменты нечетного порядка равны нулю, а моменты чет- четного порядка равны, согласно A0.5.1), A7.1.2) \х^е1Ф=~\ *2V2rf.*:=b3...Bv— 1). — 00
У ьо -и -з -г -1 о i г з * Фиг. 14. Нормальная функция распределения. -з -г -I о/ г Фиг. 15. Нормальная плотность вероятности. Наконец, характеристическая функция есть, согласно A0.5.4), ОО 00 _. f A7.1.3) 17.2. Нормальное распределение. Случайная величина ? назы- называется нормально распределенной с параметрами т и о или, короче, нормальной {т, о), если функция распределения величины ? есть
Ф (* а mj. где <J>0 и m — постоянные. Тогда плотность вероятно- вероятности есть и из A7.1.1) получаем —оо —5 {т+ах)е dx==m' т. е. m и о обозначают, как обычно, среднее значение и стандарт- стандартное отклонение нашей величины. Кривая плотности симметрична и унимодальна (см. параграф 15.5) и достигает своего мак- максимума в точке х = т, так что т есть одновременно среднее, медиана и мода нашего распределения. При х = т±<з кривая имеет две точки перегиба. Изменение значения т вызывает только смещение кривой без изменения ее формы, тогда как изменение величины а вызывает изме- изменение масштаба на обеих координатных осях. Площадь, заключенная между кривой и осью абсцисс, равна, конечно, единице. Кривые, соот- соответствующие нескольким различным значениям а, изображены на фиг. 16. Чем меньше а, тем большая часть массы сосредоточена в окрест- окрестности точки х=т. В предельном случае о = 0 вся масса сосредо- сосредоточена в точке х = т,н, следовательно, (см. параграф 16.1) функция распределения сводится к s (x — /и). Этот случай будет рассматриваться как вырожденный предельный случай и будет называться несобственным нормальным распределением. Соответствующая функция распределения Ф у ~т ] будет всегда интерпретироваться как г(х—т). Часто бывает важно уметь найти вероятность Р того, что нормально распределенная величина отличается по модулю от своего среднего больше, чем на некоторое кратное своего стандартного отклонения — Ха. Эта вероятность равна сумме площадей двух „остатков", отрезан-
ных от кривой плотности ординатами, проходящими через точки х = т±\а. Вследствие симметричности распределения dx. Обратно, можно рассматривать X как функцию от Р, определенную последним соотношением. Тогда X выражает (в единицах стандартного -6 -5 -и -з -г -1 о i г з и 5 б Фиг. 16. Нормальные кривые плотности, т = 0; о = 0,4; 1,0; 2,5 отклонения а) то отклонение от среднего значения от, которое превы- превышается с данной вероятностью Р. Если Р выражается в процентах, скажем Р = -^, то соответствующее X = Хр называется р-процентным ~~т значением нормального опиелонения . Некоторые численные зна- значения р как функции от \р и \р как функции от р приведены в таб- таблице II в конце книги. Для значения Хр при р == 50 квартили (см. пара- параграф 15.6) нормального распределения равны /п +0,6745 в. Далее, 5-процентное значение *~~" равно приблизительно 2,0; 1-процентное о значение близко к 2,6; 0,1-процентное значение близко к 3,3. Отклоне- Отклонения, превышающие учетверенное стандартное отклонение, имеют крайне малые вероятности.
Нормированная величина имеет функцию распределения Ф (я) и, следовательно, согласно A7.1.3), ее характеристическая функция есть е 2. Из A5.9.2) следует, что величина S имеет характеристи- характеристическую функцию A7.2.1) Из этого выражения, согласно A5.10.2), находятся семи-инварианты A7.2.2) х1 = т, хг = и2, х3 = х4—... =0. Моменты относительно среднего значения величины ? равны A7.2.3) H,v+1 = 0, щ,= 1.3...(Л—1)о«'. В частности, коэффициенты асимметрии и эксцесса (см. параграф 15.8) равны Заметим, наконец, что если величина ? нормальна (т, а), то из A5.1.1)следует, что линейная функция а$-\-Ь нормальна (о/в-f-^» 1<*|а). 17.3. Сложение независимых нормальных величин. Пусть ?2; ..., $„ — независимые случайные величины, из которых каждая ?v распре- распределена нормально с параметрами ту и <j.t. Рассмотрим сумму Обозначая через /я и j среднее значение и стандартное отклонение величины S, имеем, согласно A5.12.7), т = от, + Щ + • • • + »'„. <17А1> По правилу умножения A5.12.1) характеристическая функция вели- величины ? есть произведение характеристических функций всех Sv. Из вы- выражения A7.2.1) для характеристической функции нормального распре- распределения получим Это— характеристическая функция нормального распределения с па- параметрами т и а. Таким образом, нами доказана следующая важная теорема сложения для нормального распределения:
Сумма любого числа независимых нормально распределенных ве- величин сама распределена нормально: A7.3.2) где т и 9 заданы соотношениями A7.3.1). Упомянем без доказательства следующее обращение этой теоремы (Кра- (Крамер [Щу. Если сумма я независимых величин S = Ei-f- ...+5Л распреде- распределена нормально, то каждая из величин S, сама распределена нормально. Таким образом, верно не только, что нормальное распределение при компо- композиции воспроизводит само себя, но и, кроме того, то, что нормальное распре- распределение не может быть точно представлгно как композиция не нормально рас- распределенных компонент. С другой стороны, мы видели в предыдущем пара- параграф, что при очень общих условиях композиция большого числа не нор- нормальных компонент представляет приближенно нормальное распределение. Так как, согласно предыдущему параграфу, линейная функция нор- нормальной величины сама нормальна, то из A7.3.2) следует, что линей- линейная функция Oj?, Ц- д2?2 -f-...-}- ajzn -f- Ь независимых нормальных величин сама нормальна с параметрами т = а1т1 +...-(- аптп -\- Ъ и а* = а\а\-\-... -\-a\o\. В частности, имеет место следующая важ- важная теорема: Если ?],..., ?п независимы и все нормальны (т,о), то среднее п арифметическое ? =—V ? само нормально 17.4. Центральная предельная теорема. Рассмотрим сумму A7.4.1) 5 = 51+...+?„ п независимых величин, где S, имеет среднее т, и стандартное откло- отклонение а„. Среднее значение т и стандартное отклонение а суммы ? задаются тогда обычными выражениями A7.3.1). В предыдущем параграфа мы видели, что если величины ?, рас- распределены нормально, то и сумма ? распределена нормально. С дру- другой стороны, теорема Муавра (см. параграф 16.4) показывает, что в част- частном случае, когда величины $г имеют простое распределение A6.1.3), рас- распределение суммы приблизительно нормально для больших значений п. Действительно, теорема Муавра утверждает, что в этом частном слу- случае функция распределения нормированной величины стремится к нормальной функции Ф(х) при я—^сс. Весьма замечательно, что
утверждение теорем/л Муавра справедливо а при гораздо более общих условиях. Удобно ввести следующую терминологию. Если распределение слу- случайной величины X зависит от параметра я и если две величины т0 и а0 (зависящие или не зависящие от л) могут быть выбраны так, что функция распределения величины ~от° стремится к Ф(х) при п—*¦ аа,. °0 то говорим, что X асимптотически нормальна {т0, в0). Отсюда не сле- следует что среднее и стандартное отклонения величины X стремятся к т9 и в0, — эти моменты могут даже не существовать, — это просто эквива- эквивалентно тому, что для любого интервала (а, Ь), не зависящего От я, lim Я К + аа0 < Л"< т0 + bo,) =Ф(Ь) — Ф (а). П-* 00 Таким образом, например, величина v, рассматривавшаяся в теореме Муавра, асимптотически нормальна [пр, Vnpq). Так называемая центральная предельная теорема в математиче- математической теории вероятностей может быть выражена теперь следующим об- образом: Каковы бы ни были распределения величин ?,, при некото- некоторых весьма общих условиях, сумма ?=?,-{- ... -\-?п асимптоти- асимптотически нормальна (т, о), где т и о заданы соотношениями A7.3.1)^ Эта фундаментальная теорема была впервые высказана Лапласом [22] в 1812 г. Строгое доказательство при довольно общих условиях было дано Ляпуновым [146], [147] в 1901 г. Проблема нахождения более общих условий, при которых справедлива эта теорема, была решена Феллером, Хинчиным и Леви [85], [86], [140], [145]. Докажем здесь эту теорему для двух частных случаев, достаточных для боль- большинства приложений к статистике. Рассмотрим сперва случай равных компонент, т. е. случай, когда все &, в A7.4.1) имеют одинаковые распределения. В этом случае m=nmlt о = <зг\^п~ и нормированная величина может быть записана в виде я * — "* t — Ш»1 I г-ч ,» где все отклонения ?, — т1 имеют одинаковые распределения. Обозна- Обозначим через (pj (О характеристическую функцию любого такого отклоне- отклонения, а через F(x) и <р(?) — функцию распределения и характеристи-
ческую функцию нормированной величины -——. Тогда из A5.9.2) н A5.12.1) будет следовать, что A7.4.2) Первые два момента величины 5V — тх равны 0 и а?, так что, со- согласно A0.1.3), для соответствующей характеристической функции бу- будем иметь выражение Заменяя / на —-==-, получим из A7.4.2) где для каждого фиксированного t величина С (я, t) стремится к нулю при л—><х. Отсюда следует, что y(t)—*e 2 при любом t, и, сле- следовательно, мы можем, так же как и в параграфе 16.4, заключить, что соответствующая функция распределения F(x) стремится к Ф(х) при любом х. Таким образом, мы получаем следующий случай централь- центральной предельной теоремы, доказанный впервые Линдебергом и Леви [24], [148]: Если независимые случайные величины ?р;2, ... имеют все одно и то же распределение вероятностей и если каждое $, имеет среднее я значение /я, а стандартное отклонение sv то сумма $=2$, асимп- асимптотически нормальна (nmlt a^n). Следовательно, среднее ариф- п метическое « = —^S» асимптотически нормально (mv-^=Л . В случае равных компонент для выполнения центральной предель- предельной теоремы достаточно, таким образом, предположить, что общее распределение всех %г имеет конечный момент второго порядка. При переходе к общему случаю, когда не предполагается, что переменные S, имеют одинаковое распределение, существование всех вторых мо- моментов величин ?v уже недостаточно, и мы должны наложить на ?v не- некоторые дополнительные условия. Эти дополнительные условия сводятся, в сущности говоря, к предположению, что вероятность для отдель-
составить значительную часть суммы 5 мала. Интересное достаточное условие такого рода было найдено Линдебер- дом. Однако мы приведем здесь только следующую несколько менее общую теорему, принадлежащую Ляпунову: Пусть Sj.i», ... суть независимые случайные величины. Обозна- Обозначим через тч среднее значение и через av стандартное отклонение величины Sv. Предположим, что третий абсолютный момент вели- величины $., относительно ее среднего конечен при любом v и положим Если выполняется условие Ит t =o; то сумма 2 = 2L^» ^имтпотинески нормальна (т,а),гдет изза- 1 даны соотношениями A7.3.1). В частном случае, когда все $у имеют одно и то же распределение, имеем ря = яр1, 5! = /и? и, таким образом, -- = ^ ¦..., так что ус- условие lim-^-^rO выполнено. Нельзя, однако, заключить, что доказан- л-юс 3 ная выше теорема Линдеберга — Леви есть частный случай теоремы Ляпу- Ляпунова, так как первая не предполагает существования третьих моментов. Чтобы доказать теорему Ляпунова, обозначим через <o.t{t) характе- характеристическую функцию v-ro отклонения ?у — /я„, а через (р(?) — характе- п ристическую функцию нормированной сумм/л ~ "' = — У. ($..—¦ wy). Тогда из A5.9.2) и A5.12.1) будет следовать, что A7.4.4) <p(<) = n< 1 Как и раньше, достаточно доказать, что для любого фиксированного t имеем f(t)—>-е 2 при л—»-сю, .так как тогда наша теорема будет
непосредственно следовать из теоремы непрерывности (см. параграф 10.4). Используя A6.4.4) при А = 3, получим «>)) = 1 — 1 о;** + i где, как и в параграфе 16.4, & обозначает некоторое число, не пре- превосходящее единицу по модулю. Далее получим где Вследствие условия A7.4.3) для всех достаточно больших значений п будем иметь и, следовательно, замечая, что, в силу A5.4.6), ffv«^p, при любом*;, Условие A7.4.3) показывает, что z—+0 при я—»-оо для любого фик- фиксированного Л Таким образом, | г \<^ -г для всех достаточно больших л. При | z | <^ у имеем, однако, и, следовательно, Суммируя по v = 1, 2,..., л, получаем, согласно A7.4.4),
Из условия A7.4.3) следует, что при я—>-оо logy(f) стремится к — тг для каждого фиксированного t, и, таким образом, теорема Ляпу- нова доказана. л В случае величины v,-—^?г (см. параграф 16.6), выражающей число бла- 1 гоприятиых исходов в ряде из п независимых испытаний с вероятностями Р\ Рп> имеем 1 и, таким образом, Если рял%р/1г расходится, то условие Ляпунова A7.4.3) выполнено и, сле- дователыю, величина у асимптотически нормальна расходимости ряда 2/;г0гДостатоЧ1Ю'чтобысУществовало число <г>0,такое, что с < рг < 1 — с при любом г. Если же ряд 2 РгЯг сходится, то можно до- доказать (см. Крамер [11]), что величина » не является асимптотически нор- нормальной. 17.5. Дополнительные замечания к центральной предельной теореме. Центральная предельная теорема была развита впоследствии в различных направлениях. В этом параграфе мы сделаем несколько кратких замечаний по этому поводу, в то время как следующие па- параграфы будут посвящены некоторым частным вопросам, принадлежа- принадлежащим к тому же кругу идей. 1. Теоремы предыдущего параграфа имели дело исключительно с функциями распределения случайных величин. Было показано, что е функция распределения нормированной суммы стремится к нор- нормальной функции распределения Ф(х). Если все компоненты S, — не- непрерывного типа, то возникает вопрос, стремится ли функция плотно- плотности величины ^ИЗ к нормальной функции плотности ф'(л:) = 1 -- = -==е 2. Действительно, можно показать (Крамер [11], [70]), что
это имеет место, если наложить на компоненты некоторые общие ус- условия (см. A7.7.4)). 2. В проблемах теоретической статистики часто приходится рассмат- рассматривать функцию g(?v..., ?„) от л независимых случайных величин, где л может рассматриваться как большое число. Если функция g имеет непрерывные производные первого и второго порядка в окре* стности точки т = {т1,..., т„), где тч обозначает среднее значение величины ?,, то можно взять разложение Тейлора A7.5.1) g^,.. .,Zn) = g(mv..., т„)+ ^ де здесь cv есть значение ^ в точке т, а остаточный член R содержит производные второго порядка. Первое слагаемое в правой части по- постоянно, а второе слагаемое есть сумма п независимых случайных вели- величин, каждая из которых имеет среднее значение, равное нулю. Со- Согласно центральной предельной теореме, при некоторых общих условиях сумма первых двух слагаемых, асимптотически нормальна со средним значением, равным первому слагаемому. Во многих важных случаях можно показать, что в пределе при л—«-сю присутствие слага- слагаемого R не оказывает влияния на распределение, так что функ- функция g при больших значениях п распределена асимптотически нормально (см. Мизес [157], [158]). Мы вернемся к этому вопросу в главе 28. 3. Центральная предельная теорема может быть распространена на различные случаи, когда величины ?, не являются независимыми. Ука- Укажем здесь только на один случай (см. Крамер [10]) важный для при- приложений, особенно к биологии. За дальнейшими сведениями отсылаем читателя к книге Леви [25] и статьям Бернштейна [63], Кэптейна [135] и Виксела [230]. Условимся употреблять здесь терминологию, непосред- непосредственно связанную с некоторыми биологическими приложениями. Если наша случайная величина есть размер некоторого определенного органа, который мы наблюдаем, то действительный размер этого органа в кон. кретном частном случае можно рассматривать часто как совместный эффект большого числа взаимно независимых причин, действующих в определенном порядке в течение роста организма. Если эти причины просто складывают свои эффекты, которые предполагаются случайными величинами, то, согласно центральной предельной теореме, их сумма распределена асимптотически нормально.
Однако, вообще гоиоря, предположение, что взаимодействие при- причин выражается простым сложением, не кажется правдоподобным. Более естественно предположение, что каждая причина даст некото- некоторый импульс, эффект которого зависит от силы импульса и от раз- размера органа, уже достигнутого к моменту действия импульса. Предположим, что мы имеем п импульсов Sj,..., «„, действующих в порядке возрастания их индексов. Будем рассматривать их как не- независимые случайные величины. Обозначим через x,t размер органа, достигнутый благодаря действию импульсов ^,...,3,. Можно предпо- предположить, например, что прирост, вызванный импульсом ?(+1, пропор- пропорционален ?<+1 и некоторой функции g{x4) от размера органа в дан- данный момент времени: A7.5.2) ^h-i--= Мы будем иметь, следовательно, я—1 Если каждый импульс вызывает только незначительный прирост органа, то приближенно Ха где х=хп обозначает окончательный размер органа. По предполо- предположению, величины ?],..., ?л независимы, и а можно рассматривать как большое число. В условиях центральной предельной теоремы имеем, таким образом, что в пределе функция случайной величины х, появ- появляющаяся в правой части последнего соотношения, распределена нор- нормально. Рассмотрим, например, случай g(t) = t. Эффект каждого импульса прямо пропорционален тогда размеру органа в соответствующий мо- момент времени. В этом случае мы, таким образом, находим, что log.r распределен нормально. Вообще, если log{x—а) нормален (т, а), то легко видеть, что величина х имеет при х"^>а функцию плотности 1 (tog (х-а)-ту A7.3.3) Ц-ттг' 2°"
а при jcs^a ее функция плотности равна нулю. Соответствующая кривая плотности унимодальна и положительно асимметрична. Она изоб- изображена на фиг. 17. Эта функция плотности логарифмически-нор- мального распределения может быть использована при разложении в ряд, подобно тому как функция плотности нормального распределения используется в следующем параграфе. Фиг. 17. Кривая плотности логарифмическо-нормалыюго распределения а — О; /«.= 0,46; вт=1 Аналогичные рассуждения могут быть применены также в других слу- случаях, например, в некоторых областях экономической статистики. Рассмотрим распределение дохода или имущества в некоторой популяции. Каждое кон- конкретное значение на шкале имущества можно рассматривать как эффект большого числа импульсов, каждый из которых вызывает некоторое прира- приращение богатства. Конечно, допущение, что эффект такого импульса будет пропорционален уже достигнутому богатству, несколько спорно. Если все- таки принять это допущение, то нужно ожидать, что распределение дохода или имущества приблизительно логарифмически-нормальное. Для низких значе- значений дохода логарифмически-нормальная кривая довольно хорошо согласуется с действительными кривыми дохода (Квензель [201], [202]). Для умеренных же в высоких доходов более подходящим, вообще говоря, представляется распределение Парето (см. параграф 19.3). 17.6. Ортогональное разложение, основанное на нормальном распределении. Рассмотрим случайную величину A7.6.1) e=?i+&2+. ••+?„. являющуюся суммой п независимых случайных величин. В условиях центральной предельной теоремы функция распределения нормирован- нормированной величины ¦ ~стпри больших и приближенно равна Ф(х). Далее,
если все компоненты S, имеют распределения непрерывного типа, то плот- плотность вероятности f(x) =F' (х) будет (см. параграф 17.5) при некоторых общих условиях равномерности приближенно равна нормальной функции плотности») <p(jc)=O'(jc). Если положить <17.6.2) то R(x) и r(x) = R' (x) будут малы при больших значениях я, так что Ф(х) и <р(х) можно рассматривать как первые приближения к функциям F(x) h/(jc). Тогда естественно поставить вопрос, можем ли мы при дальнейшем анализе остаточных членов R(x) и г(х) найти более точные приближения, например в форме некоторого разложения R (х) и г(лг) в ряды. Этот же вопрос можно рассматривать с более общей точки зре- зрения. В приложениях мы часто сталкиваемся с функциями плотности и функциями распределения, которые приблизительно нормальны даже в случаях, когда нет основания предполагать, что соответствующая случайная величина образуется в виде A7.6.1) как сумма независимых величин. Тогда естественно записывать эти функции в виде A7.6.2) и пытаться найти подходящее разложение для остаточных членов. Рассмотрим здесь два различных типа таких разложений. В насто- настоящем параграфе мы будем иметь дело с разложением по ортогональ- ортогональным полиномам, известным под названием ряда Грама — Шарлье типа А |см. [9], [65], [118]), а следующий параграф будет посвящен асимпто- асимптотическому разложению, введенному Эджвортом. В обоих случаях, по- поскольку полные выводы очень сложны, мы ограничимся формальными разложениями и краткой формулировкой основных результатов. Рассмотрим сперва случайную величину ? с распределением непре- непрерывного типа, не предполагая, что ? представляется в виде A7,6.1). Как обычно, обозначаем через т среднее значение и через а стандарт- стандартное отклонение величины ?, а через ;л, — центральный момент v-ro порядка (см. параграф 15.4) величины ?, который предполагается конечным *) Как правило, лы используем букву е для обозначения характеристи- характеристической функции. Однако в параграфах 17.6 и 17.7 j (дг) будет обозначать нор- 1 -? мальную функцию плотности в (х) — Ф' {х) — -г?=-е 2, а для обозначе- обозначения характеристических функций будет служит буква ¦?•
при любом v. Рассмотрим нормированную величину ¦ " и обозна- обозначим через F(x) ее функцию распределения, а через f(x) =. F' (х)— ее функцию плотности. Дли любой функции плотности рассмотрим разложение в виде A7.6.3) /м=<v? w+f; где с,-—постоянные коэффициенты. Согласно A2.6.4), ' = (—1)*Нч(х)у(х), где Нч{х) есть полином Эрмита степени v, и, та- таким образом, A7.6.3) есть фактически разложение вида A2.6.2) по ортогональным полиномам. Определим теперь, так же как и в пара- параграфе 12.6, коэффициенты этого разложения, предполагая возможность почленного интегрирования ряда A7.6.3). Умножая этот ряд на Н^(х) и интегрируя, непосредственно из соотношений ортогональности A2.6.6) получим A7.6.4) <•, = (— 1)' \ «,(*)/(*) dx. -во Функция плотности f(x) нормированной величины * имеет среднее значение, равное нулю, стандартное отклонение, равное единице, п v-й -момент, равный ~. Соответственно находим со=1, cl = ci = O. так что разложение A7.6.3) и разложение, полученное формальным интегрированием, могут быть записаны и виде A7.6.5) f{x) = ? (дг) +1 ?< где сч заданы равенствами A7.6.4). Из выражений A2.6.5) первых- полиномов. Эрмита получим, в частности, обозначая через Yi и Y* коэффициенты асимметрии и эксцесса (см. параграф 15.8) величины \. Рв V 33 II с __ JM A7.6.6) 4 с __ JM S = Y Т
Со всякой нормированной величиной ^—;— , имеющей конечные момен- моменты всех порядков, можно, таким образом, формально связать разло- разложения A7.6.5), коэффициенты которых заданы равенством A7.6.4). Будут ли, однако, эти разложения действительно сходиться и представ- представлять f(x) и F(x)? Можно показать (см., например, Крамер [69], [70]), что если только интеграл 00 д-3 A7.6.6а) \e*dF(x) —эо сходится, то первый ряд A7.6.5) будет сходиться при любом х к сумме F(x). Если, кроме того, функция плотности /(jc) имеет огра- ограниченную вариацию на (—оо, оо), то второй ряд A7.6.5) сходится к f(x) в каждой точке непрерывности функции f(x). С другой сто- стороны, можно показать (см. упражнение 18, стр. 286), что, если эти условия не выполнены, то разложения могут расходиться. Таким обра- образом, законность разложений A7.6.5) можно утверждать только для сравнительно небольшого класса распределений. Действительно, боль- большинство важных распределений, встречающихся в следующих двух главах, не входит в этот класс. Однако в практических приложениях в большинстве случаев зна- знание свойств сходимости наших разложений не имеет большого зна- значения. Что в действительности интересно знать, это — дает ли неболь- небольшое число слагаемых (обычно не более двух или трех) достаточно хорошее приближение к функциям f(x) и F(x). Если это имеет место, то нас не интересует больше вопрос, сходятся или расходятся наши бесконечные ряды. Обратно, если мы знаем, что один из рядов A7.6.5) сходится, то это не принесет практической пользы, если для того, чтобы получить частную сумму ряда, дающую достаточно хоро- хорошее приближение, необходимо вычислить большое число коэффициен- коэффициентов cv. Указанный вопрос приобретает особенное значение, когда рассмат- рассматривается величина ?, образованная в виде A7.6.1). Как указано выше, при некоторых общих условиях функции F{x) и f(x) при большом п приближенно равны Ф(х) и <f(x). Улучшится ли приближение, если ввести в формулу A7.6.2) член, содержащий третью производную? Даст ли рассмотрение дальнейших членов разложении еще лучшее
приближение? Мы увидим ниже, что здесь мы сталкиваемся с вопро- вопросом, относящимся к асимптотическим свойствам наишх разложений при больших значениях п. Для упрощения алгебраических выкладок рассмотрим случай рав- равных компонентам, параграф 17.4), когда Sj,..., ?„ в A7.6.1) имеют одно и то же распределение со средним значением т1 и стандартным отклонением alt так что т = л/я,, а = зх Vn. В этом случае мы пред- предполагаем изучать поведение коэффициентов сч А-рядов A7.6.5) при больших значениях п. Пусть ty(t)—характеристическая функция нормированной величины —— . а ф, (t) — характеристическая функция отклонения S,—т,. Тогда, согласно A7.4.2), Обозначим через xv семи-инкариаиты велячинм I—/» = 2 E,— Щ), а через х> — семи-инвариаиты пеличнпы S, — ml (v=l,2....) и по- положим A7.6.7) У Ь >'Л * Тогда, согласно A5.12.8К п 7.6.8) xv ib) определению характеристической функции ф(?), имеем е'> ф(/)= ) <»* ' /(*)</*. —во и, слсдовате.и.но, согласно A2.6.7), получаем разложение ft 00 М7.6.9) е~'П*) = ^~г (— UY, и или A7.6.10) ф Ю = «Г*"+?( Гт § ~Т где cv задано равенством A7.6.4).
Вообще говоря, нельзя утверждать, что степенной ряд, стоящий в правой части A7.6.10), сходится; мы можем только сказать, что это соотношение выполняется асимптотически при малых значениях t к том же смысле, как и соотношение A0.1.3). Сравнивая A7.6.10) с разложением видим, что члены этих двух разложений соответствуют друг другу посредством следующего соотношения, получаемого из A0.5.5): A7.6.12) [ eitxи(¦•){х) dx = (— it)*e~T. (v = О. 1. 2....)• —эо Как указано но аналогичному поводу в параграфе 15.10, со степенным рядом вида A7.6.9) можно обращаться чисто формально, не заботясь о сходимости, до тех пор, пока нас интересуют алгебраические со- соотношения между различными параметрами, такими, как cv п /.,. Следо- Следовательно в соответствии с параграфом 15.10, используя A7.6.7), мы можем написать Величина S, — /Я] имеет среднее значение, ранное нулю, к стандарт- стандартное отклонение аг Следовательно, xJ = On х'3 — з1, так что )\=0 и \» = 1. Отсюда последнее соотношение может быть записано в виде ч  -л- (,;--) A7.6.13) р-' Щ—е ;| . Чтобы получить явное выражение дл i rv через 'к[, остается только рас- расположить это выражение но степеням t и отождествить получающийся
ряд с A7.6.9). При этом получаем A7.6.14) и вообще откуда A7.6.15) И обозначает наибольшее целое число < =-, a ovft — полино- з мы относительно переменных АУ. не зависящие от п. Таким образом, при л—*ос. Следующая таблица показывает порядок- величины с, для первых :1наченни у. v | порядок <rv 3 4,6 3,7.9 8.10, И, 13, 12 15 я—1/» «-1 я-* я-* Мы видим, что порядок величины члена А-ряда с возрастанием v не убывает монотонно. Предположим, например, что мы хотим вы- вычислить частную сумму ряда A7.6.11) с учетом всех членов, вызы- вызывающих поправки к у(х) порядка л~*'|( или «-'. Тогда из нашей та- таблицы следует, что мы должны рассматривать члены до 7=6 вклю- включительно. Для того чтобы вычислить коэффициенты с, этих членов но формулам A7.6.6) млн A7.6.14), нужно знать моменты ц, или семи- семиинварианты X', до шестого порядка. Соотношения A7.6.14) показывают,
однако, что поправки порядка я " и п~г не содержат семи-инва- риантов порядка выше четвертого, так что в действительности нет необходимости вычислять эти семи-инварианты. Если мм захотим пойти *| далее и учесть члены, содержащие множители я \ н~- и т. д., то легко видеть, что мы столкнемся с подобным же явлением. Таким образом, Л-ряд Грама — Шарлье не может рассматриваться как удовлетворительное решение проблемы разложения функций F(x) и /(*). Действительно, нам нужен ряд, который давал бы разложение по степеням п~', и такой, что для определения членов до некото- некоторого порядка не приходилось бы вычислять лишние моменты или семи- семиинварианты. Этим условиям удовлетворяет ряд Эджворта, который мы рассмотрим в следующем параграфе. 17.7. Асимптотическое разложение, основанное на нормальном распределении. В предыдущем параграфе разложение функции A7.7.1) е ло степеням t давало выражение для коэффициентов с, Л-ряда. Однако эта же функция может быть также разложена и другими способами, —*/• например, по степеням я . Записывая &(&> v <">8ft получим 2 где *v, ,+1А—полиномы относительно переменных Аз» • • •) "*¦,'—a+3i не зависящие от я. Согласно A7.6.12), имеем соответствующее разложе- — Ч« нне по степеням л : A7.7.2) /(jc)
Записывая в одну строку члены одного порядка относительно а и выписывая первые члены разложения, имеем 5! л'Г V 7! я-' Г V 9! я¦• Согласно A7.6.7) и A7.6.8), коэффициенты этого разложения могут быть выражены через семи-инварианты ху, которые в свою очередь могут быть заменены центральными моментами ц, с помощью соотношений A5.10.5). Этим путем мы получаем ряд, введенный Эджвортом [80]: _ 1 . ^ A7.7.3) 3! о» V( где в каждой строке выписаны члены одного и того же порядка. Для того чтобы получить соответствующее разложение для функции рас- распределения F(x), нужно только заменить <f{x) на Ф(дг). Асимптотические свойства этих рядов были исследованы Краме- Крамером ([И], [70]); им было показано, что при довольно общих условиях ряд A7.7.2) действительно дает асимптотическое разложение /(*) по степеням п~ ', с остаточным членом порядка первого отброшенного члена. Аналогичный результат справедлив и для F(x). Если рассмат- рассматривать только первые члены соответствующих рядов, то, в частности, получим A7.7.4) [Н*)^ jL где А и В —постоянные*). *) Эссшюм [83] и Бергстремом [62] было показано, что это неравенство для |/-¦ ф | выполнено при единственном условии, что семи-инвариант *'3 конечен.
—»/2 Члены порядка п в ряде Эджворта содержат моменты д3, ..., > которые как раз и необходимы для приближения этого порядка. На практике обычно не рекомендуется итти дальше третьего и четвер- четвертого моментов. Члены, содержащие эти моменты, часто дают доста- достаточно хорошее приближение. Для численных* подсчетов необходима таблица производных <pW(je) —они даны в таблице I в конце книги. Вводя коэффициенты асимметрии и эксцесса у, и у3 (см. параграф 15.8), можно записать выражение для f(x) до членов порядка п~1 в виде A7.7.5) f(x) = (f(x)-\ ^^ 0,1 -0,1 Фиг. 18. Производные нормальной функции плотности у (.<¦) — т Графики производных tp<3>, (p<4> и ts <6> с коэффициентами, встре- встречающимися в A7.7.5), изображены на фиг. 18. Кривые ср14) и (р<в> симметричны относительно jc = O, а третья производная (р<3) вводит в выражение асимметричный элемент. При больших х выражение A7.7.5) будет давать иногда неболь- небольшие отрицательные значения для /(•*"). Это, конечно, вполне согла- согласуется с тем, что A7.7.5) дает приближенное, но не точное выраже- выражение для функции плотности. Для моды х0 функции плотности получим из A7.7.5) приближенное выражение •*„ = — "оТк т-с- характеристику асимметрии Шарлье.
Далее, имеем /@)—у@) 1 5 ., НО) ~1 Ч*~ 24 ^i- Первое слагаемое спрани характеризует эксцесс кривой плотности y=.f(x) относительно нормальной кривой у = у(х) в точке jc = O*). Именно эту величину, т. е. тгУа» Шарлье ввел в качестве характе- характеристики эксцесси. Однако, чтобы получить выражение эксцесса с точ- — 1 иостыо до членов порядка п , надо еще цвести и второе слагае- слагаемое с "jf'i (см- параграф 15.8). 17.8. Роль нормального распределения в статистике. Нормаль- Нормальное распределение было найдено впервые Муавром [29] в 1733 г. в связи с его исследованием предела биномиального распределения, разобранного в параграфе 16.4. Открытие Муавра, повидимому, прошло незамеченным и только некоторое время спустя нормальное распределение было снова открыто Гауссом [16] в 1809 г. п Лапласом [22] в 1812 г. Последний затра- затрагивал эту тему уже к некоторых работах, написанных около 1780 г., хотя и не углублялся в нее до своей знаменитой работы 1812 года. Гаусс и Лаплас пришли к нормальной функции в связи со своей работой по теории ошибок наблюдений. Лаплас, кроме того, дал первую (не- (несовершенную) формулировку рассмотренной нами выше центральной предельной теоремы и лал большое число важных приложений нор- нормального распределения к различным вопросам теории вероятностей. Под влиянием великих работ Гаусса и Лапласа долгое время счи- считалось едва ли не аксиомой, что практически все статистические рас- распределения должны приближаться к нормальному распределению как к идеальной предельной форме, если только мы можем располагать достаточно большим числом достаточно точных наблюдений. Отклоне- Отклонение случайной величины от ее среднего рассматривалось как „ошибка", подчиненная „закону ошибок", выраженному нормальным распреде- распределением. *) Если вместо сравнения ординат в среднем значении х=0 сравнить ординаты в модах этих двух кривых, то получим в первом приближении /Сго)-т@)_1 .. 1 2 Т @) ~~ 8 12 12Tl'
Хотя такая точка зрения определенно преувеличивает роль нор- нормального распределения и должна быть значительно изменена, тем не менее несомненно, что в большом числе важных приложений встре- встречаются распределения по крайней мере приблизительно нормальные. Это имеет место, например, в случае распределений ошибок физиче- физических и астрономических измерений, большого числа демографических и биологических распределений, и т. д. Центральная предельная теорема дает теоретическое объяснение этих эмпирических фактов. Согласно .гипотезе элементарных ошибок", введенной Хагеном и Бесселем, суммарная ошибка физического или* астрономического измерения рассматривается как сумма большого числа взаимно независимых элементарных ошибок. Тогда, согласно централь- центральной предельной теореме, суммарная ошибка должна быть распреде- распределена приблизительно нормально. Часто, например в биологических исследованиях, естественно видеть в случайной величине суммарный эффект большого числа независимых причин. Такая же точка зрения может быть применена к случайным величинам, встречающимся во многих вопросах техники й экономики. Так, общее потребление элект- электрической энергии, вырабатываемой некоторой станцией, есть сумма величин энергии, приходящихся на долю отдельных потребителей, прибыль или убыток страховой компании есть сумма прибылей и убыт- убытков по каждому отдельному полису и т. д. В случаях этого рода можно ожидать по крайней мере приблизи- приблизительно нормальных распределений. Если же число компонент недоста- недостаточно велико, или если различные компоненты нельзя рассматривать строго как слагаемые, или их нельзя считать независимыми, то видо- видоизменения центральной предельной теоремы, приведенные в парагра- параграфах 17.5—17.7, могут все же показать, что распределение прибли- приближенно нормально; в других случаях они могут привести к распределениям, тесно связанным с нормальным, например, к распределению, задаваемому соотношением вида A7.7.3) или к логарифмически-нормальному распре- распределению A7.5.3). В условиях центральной предельной теоремы среднее арифметиче- арифметическое большого числа независимых величин распределено приблизительно нормально. Замечания, сделанные в связи с выражением A7.5.1), по- показывают, что то же имеет место и для некоторых функций более общего характера, чем среднее. Эти свойства имеют фундаментальное значение для многих методов, используемых в статистической практике,
где мы в значительной мере имеем дело со средними и другими ана- аналогичными функциями наблюденных значений случайных величин (см. гл. 28). Существует известное замечание Липмана (цитируемое Пуанкаре [31]), гласящее, что .каждый уверен в справедливости закона ошибок, экспериментаторы — потому, что они думают, что это математическая теорема, математики — потому, что они думают, что это эксперимен- экспериментальный факт". Стоит отметить., что обе стороны совершенно правы, если только это нх убеждение не слишком безусловно: математическое доказательство говорит нам, что при некоторых ограничительных условиях мы вправе ожидать нормального распределения, а статисти- статистический опыт показывает, что в действительности распределения являются часто приближенно нормальными. ГЛАВА II РАЗЛИЧНЫЕ РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ В этой главе мы будем рассматривать распределения некоторых простых функций нормально распределенных величин. Все эти распределения имеют важные статистические приложения; они еще появятся по различным поводам в части III. 18.1. ^-распределение. Пусть S—случайная величина, нормаль- нормальная @,1). Функция плотности ее квадрата 42 есть, согласно A5.1.4), 1 -1 при х ^> 0. При х ^ 0 функция плотности равна нулю. Соответствую- Соответствующую этой функции плотности характеристическую функцию о получим, положив в A2.3.4) а = \ — т?. Пусть теперь каждая из п независимых случайных величин Ej, ...,?„ нормальна @,1). Рассмотрим величину A8.1.1) Х2
Каждая величина ^ имеет характеристическую функцию A—2Н) "» следовательно, по теореме умножения A5.12.1), сумма ха имеет ха- характеристическую функцию A8.1.2) Мы пришли к характеристической функции, которая может быть получена, если в A2.3.4) положить а= -% ,\ = — я; соответ- соответствующее распределение определяется, таким образом, функцией, плотности fix; -^ , тт ") (см. формулу A2.3.3)). Введем обозначение для этой функции плотности, полагая при любом л=1, 2 ... к —— ~r\ i X * при x > 0, A8.1.3) (о при х <, 0. Итак, кп (х) есть плотность вероятности величины jB, т. е. *„ (х) их = Я (*< х* < * 4- At). Соответствующая функция распределения равна при jc ^ 0 нулю, а при х > О A8.1.4) /Ги(д:)=-.-Л(Х* <*)==¦ 1 -.*->-Г -;-! f Распределение, заданное функцией плотности Ал(л:) или функцией рас- распределения Кп{х), известно под названием "^-распределения. Приложе- Приложения этого важного распределения к статистике излагаются в главе 30. ^-распределение содержит параметр п, который часто называется числом- степеней свободы этого распределения. Смысл этого термина будет объяснен п главе 29. ^-распределение было впервые рассмот- рассмотрено Хельмертом [125] и К. Пирсоном [183]. При я ^ 2 функция плотности kn (jc) постоянно убывает для л?>0, а при л])>2 имеет единственный максимум в точке х = п — 2. Гра- Графики функций kn (x) для некоторых значении я изображены на фиг. 19.
Моменты а, и семи-инварианты хч ^-распределения конечны при всех v, и их общие выражения могут быть получены, например, из характеристической функции A8.1.2), с помощью формул парагра- параграфов 10.1 и 15.10: —2), о г и 6 в ю к Фиг. 19. х'-распределение. Кривые плотности для п—. 1,2,6. Отсюда, в частности, A8.1.6) Пусть Xi и Zl—две независимые величины, распределенные со- согласно A8.1.4) со значениями параметра л, и лг. Тогда выражение A8.1.2) показывает, что характеристическая функция суммы Х?~|~Х2 есть Т* »х+вщ A—2/0 2A—2iY) 2=A— 2it)
Таким образом, ^-распределение подобно биномиальному распре- распределению, распределению Пуассона и нормальному распределению, вос- воспроизводит само себя при композиции, и мы имеем теорему сло- сложения: A8.1.7) *¦„, Это соотношение можно рассматривать как очевидное следствие опре- определения A8.1.1) величины %2, так как сумма у* -f- x| есть сумма пг -\- п% независимых квадратов. Подробные таблицы, относящиеся к ^-распределению, можно найти в различных местах (см., например, [262], [264], [265]). Во многих приложениях бывает важно найти вероятность Р того, что величина ]C принимает значение, превышающее данную вели- величину у%. Эта вероятность равна площади, ограниченной ветвью кри - вой плотности, расположенной справа от ординаты, проходящей через точку x = yfc. Таким образом, i Обычно более удобно табулировать у% как функцию вероятности Р. Если Р выражается в процентах, скажем, />=щ, то соответствую- соответствующее х||==Хл называется р-процентным значением I2 Для п степеней свободы. (См. таблицу III в конце книги). Дадим теперь некоторые про- простые преобразования ^-распределения, которые часто бывают необхо- необходимы в приложениях. Если каждая из независимых величин xv ..., хп нормальна @, 9), где 0^>О — какая угодно постоянная, то величины -*, ..., — незави- независимы и нормальны @,1). Таким образом, согласно сказанному выше, плотность вероятности величины 2(—) равна kn(x). Тогда, по л формуле A5.1.2), получаем функцию плотности величины 2-*«: 1
Подобными же простыми преобразованиями находим функцию нлот- п ности среднего арифметического — ^ х%, неотрицательного квадрат- квадратного корня ского /Is* квадратного корня из среднего арифметиче- Результаты даны и следующей ниже таблице. Величины х1,...,хп повсюду предполагаются независимыми и нор- нормальными @, о). При jc<^0 все функции плотности равны нулю. Величина Плотность вероятности (х > 0) /I* /it 1 k t-)—- ——1 — ^г, х - е X JC2 Если горизонтальное и вертикальное отклонения и н v снаряда от центра цели независимы и нормальны @, о), то расстояние г — Уиг -\- xi* имеет плотность вероятности Если компоненты и, о и и» скорости молекулы в прямоугольной системе координат независимы и нормальны @, в), то скорость г = 1 имеет плотность вероятности 2х .
18.2. Распределение Стьюдента. Предположим, что п-\-\ слу- случайных величин ? и ?,,...,?„ независимы и нормальны @, з). Поло- /* ~~]С^ (берется положительное значение квадратного 1 корня) и рассмотрим величину A8.2.1) * = i: Пусть 5Я (х) обозначает функцию распределения величины /, так что $„(;«•) = По предположению, величины $ и >) независимы; следовательно, согласно A5.11.3), их совместная функция плотности есть произведение функ- функций плотности ? и J]. Величина ? нормальна @, 9) и ij имеет функцию плотности, данную в последней строке таблицы предыдущего пара- параграфа, так что совместная функция плотности есть*) где г,>0н Вероятность соотношения -<^х выражается интегралом от совмест- совместной функции плотности по области, определенной неравенствами *) К к правило, мы до сих пор пользовались для обозначения случайной неличины и аргумента ег функции распределения или функщи плотности соответствующими друг другу буквами греческого и латинского алфавитов н употребляли, например, выражение: .Случайная величина 6 имеет функцию плотности / (х)'. Однако,если рассматриваются одиовременно различные величи- величины, то практически иногда удобно отходить от этого правили и использо- нать в обоих случаях одну и ту же букву. Мы будем, таким образом, по временам употреблять такие выражения, как .случайная величина \ имеет функцию плотности / @* или .случайные величины S и ч имеют совместную функцию плотности /E, т,)*.
ее = Cn \\ 1,-1 Вводя новые переменные и, v с помощью подстановки A8.2.2) i = uv, r,=zv, якобиан которой д .*' = v, получим X оо л-1-ц' t —«о О A8.2.3) „ f ^ш = -оо(л + й2) а _ 1 * у 2 X г(!±1) -it! = _L. V 2 ) A + *\ 2 У^ г(-) \ п> Соответствующая функция плотности sn {х) -= S'n (x) существует для всех значений х и задается выражением A8.2.4) sn{x) Распределение, задаваемое функцией плотности sn (x) или функ- функцией распределения Sn (x), известно под названием распределения Стьюдешпа пли t-распределения. Оно было впервые использовано в одной важной статистической проблеме В. Госсетом, писавшим под псевдонимом „Стиодент? (Student) [221]. Как и в случае ^-распре- ^-распределения, параметр п часто называется числом степеней свободы нашего распределения (см. параграф 29.2). Из выражения функции плотности sn(x) видно, что это распреде- распределение не зависит от стандартного отклонения а основных величин ? и ?,. Этого, конечно, и следовало ожидать, так как величина t есть однородная функция нулевой степени от основных переменных. Далее мы увидим, что это распределение унимодально и симметрично отно-
сительно х = 0. При v <[ л момент v-ro порядка конечен. В частности, среднеа значение конечно при я^> 1, а стандартное отклонение — при я^>2. Вследствие симметричности распределения все существующие моменты нечетного порядка равны нулю; несложное вычисление дает и вообще при 2v <C n 4)...(п — 2v) ' Вероятность того, что величина < отличается по модулю больше чем на заданную величину t0 от своего среднего ¦ значения (равного нулю), так же как и в случае нормального распределения, равна сумме площадей отрезанных от кривой плотности ординатами, прохо- проходящими через точки + tf0. ^ СИЛУ симметрии ^-распределения, она равна A8.2.5) Р = Исходя из этого соотношения, можно табулировать отклонение ta как функцию вероятности Р. Если Р = -^, то соответствующее t0 = tp называется р-процентным значением t для п степеней свободы. Числен- Численные значения этой функции даны в таблице IV в конце книги. Для больших значений п величина t асимптотически нормальна @,1) в соответствии с соотношениями llm Sn(х) = Ф (х), lira sn (д) = Ф'(*) = -L Lе~* которые будут доказаны в параграфе 20.2. Для небольших значе- значений л, однако, ^-распределение заметно отличается от предельного нормального распределения, как видно из таблицы IV, где числа, соот- соответствующие предельному случаю, даны в графе я = оо. График рас- распределения Стьюдента для л = 3 вместе с приведенной для сравнения нормальной кривой дан на фиг. 20. Из этого графика очевидно, что вероятности больших отклонений от среднего значительно больше при /-распределении, чем при нормальном распределении.
Если вместо величины t, определенной соотношением A8.2.1), рассмот- рассмотреть величину то числитель и знаменатель не будут независимыми, и распределение такой величины нельзя вывести таким путем, как раньше. Очевидно, что всегда *2<я, так чю плотность вероятности т, конечно, равна нулю вне интер- интервала (— V ~п, Y~n). Полагая t' = $ ж 1 Ж 4 И #/ / \\ \ « \ % \» \» \ V ¦г Фиг. 20. Кривая плотности распределения Стыодеата прия~3. Пунктиром показана кривая нормальной плотности, т = 0, о —1 видим, что V задается соотношением тина A3.2.1), в котором я заменено нал—1. Таким образом, величина ? распределена по закону Стьюдента с функцией распределения &'я-1 (х). Если т возрастает от — V~n до V~n, то, как мы увидим ниже, V постоянно возрастает от — оо до -J- оо. Следова- Следовательно, неравенство - < х эквивалентно неравенству
и мы имеем Таким образом, нами найдена функция распределения величины т. Диф- Дифференцируя по х, получим выражение для плотности вероятности т <¦•« _ 1 \2) ( jft\ » где |.*|^V л. При л = 2 кривая плотности .(/-образна*, т. е. имеет мини- минимум в точке среднего значения х — 0. При я = 3 функция плотности посто- постоянна, и мы получаем прямоугольное распределение (см. параграф 19.1). При л>3 это распределение унимодально и симметрично относительно лг = О. При всех л среднее значение этого распределения равно нулю, а стандартное отклонение — единице. 18.3. 2-распределение Фишера. Предположим, что т \-п случай- случайных величин Sj,...,&m, i)j, ...,ije независимы и нормальны @, а). Положим и рассмотрим величину A8.3.1) Пусть Fmn обозначает функцию распределения величины х. Так как величины $ и tj обе неотрицательны, то х^О, ч Fm,(x) равна нулю при х<^0. При дс^>0 для нахождения Fmn{x) можно восполь- воспользоваться тем же приемом, что и в предыдущем параграфе. Так как, по предположению, величины | и 1) независимы, то Fmn{x) равна ни-
тегралу от произведения функций плотности величин 5 и J] по области, определенной неравенствами J)^>0, 0<^?<^jcj]. Функции плотности неличин ? и щ могут быть взяты из таблицы в параграфе 18.1. Получаем т п Ир 5у ч1 • "**! где \ / \ Вводя новые переменные и, v с помощью подстановки A8.2.2), на- находим X т во Я14-Я В + 1 Дифференцируя, получим функцию плотности fmn {х) = F' (х) вели- величины х: Г I ^ ) х Подобно ^-распределению, это распределение не зависит от а. В част- частном случае т—\ величина пж имеет то же выражение, что и квад- квадрат величины t, определенной равенством A8.2.1). В дисперсионном анализе Фишера (см. гл. 36) рассматривается величина г, определенная соотношением 1Г A8.3.3) е2г=:^х=. т. С „2
Среднее значение и дисперсия величины е-в легко находятся из рас- распределения величины х: При /я^>2 распределение величины ег* имеет единственную моду от—2 л в точке дс= от Чтобы найти распределение самой величины z, заметим, что когда х возрастает от 0 до оо, то, как видно из A8.3.3), z монотонно воз- возрастает от —оо до -f-oo. Таким образом, неравенство z<^x экви- валентно неравенству х <, — е™ и функция распределения величины z есть P(z<x) = l Дифференцируя по х, получим для плотности вероятности величины z выражение, данное Фишером ([13], [94]): (т±п\ A8.3.5) 2-г°" /'«-—* п...¦>¦> V 2 18.4. Бэта-распределение. Употребляя те же обозначения, чго и в предыдущем параграфе, рассмотрим величину*) A8.4.1) Имеем, очевидно, 0 ^ >. ^ 1, так что плотность вероятности X равна нулю вне интервала @, 1). Когда * возрастает от 0 до оо, X монотонно возрастает от 0 до 1. Неравенство \<^х эквивалентно, таким образом, неравенству х <^ . , и функция распределения *) В частном случае т—\, величина (л-(-1I выражается так же, как квадрат величины т, определенной равенством A8.2.6).
величины X есть Отсюда мы получаем плотность вероятности X: Г (т+*\ „ Это — частный случай функции плотности $(х;р, q), заданной соот- соотношением A2.4.5) при п = ~ д = —. В общем случае распределе- ние, заданное функцией плотности A8.4.3) $(X,p,q) = называется бэта-распределением. Его v-й момент есть ,.8.4.4, о Следовательно, в частности, среднее значение равно —?—, а диспер- дисперсия равна РЧ При />^>1. Q^>1 существует единственная мода в точке -2- ГЛАВА 19 ДРУГИЕ НЕПРЕРЫВНЫЕ РАСПРЕДЕЛЕНИЯ 19.1. Прямоугольное распределеиие. Будем говорить, что слу. чайная величина ? имеет прямоугольное распределение, если ее функ- функция плотности равна ,jr на некотором конечном интервале (а — //, д-4-Л) и равна нулю вне этого интервала. Тогда кривая плотности изображается прямоугольником с основанием (а—h, a-\-h) и высо- высотой -хг. Будем также говорить, что в этом случае величина % равно-
мерно распределена по (а — h, a-\-h). Среднее значение этого рас- А* пределения равно а, а дисперсия равна -=¦ . Ошибка, происходящая от округления числа, может часто рассматри- рассматриваться как равномерно распределенная по интервалу ( —2 '  ) в едн"ицах последнего знака. С помощью линейного преобразования интервал, на котором наша величина равномерно распределена, может быть переведен в любой заданный интервал. Так, например, величина ц = ^ равномерно распределена но интервалу @,1). Соответствующая функция плот- плотности есть 1 на интервале @, 1), 0 вне интервала @, 1). Если независимые величины jjt, тJ, ... равномерно распределены по @,1), то очевидно, что сумма ij, -j-,.. -|- jjrt ограничена интерва- интервалом @, л). Если /„ (х) обозначает плотность вероятности для 1i + • • • + -f-ijn> то отсюда следует, что fn(x) равна нулю вне @, л). Далее, из A5.12.4) следует, что —оо* х^-1 С помощью простых вычислений получаем из этих соотношений: — / "* Г*{Х)-\х~-2(х-\) при Г x* при 0<д:<1, ¦g-lJC* — d(jc— lK) при l<. -?-(-«*— 3(jc— lK-f3(jc — 2)*) при 2<jc<3. С помощью индукции можно проверить следующее общее выра- выражение где 0<^л;<^л, а суммирование продолжается до тех пор, пока аргу- аргументы х, х—1, х — 2,... остаются положительными.
Функция /j есть разрывная функция плотности, f2 непрерывна, но имеет разрывную производную, /8 имеет непрерывную первую произ- производную, но разрывную вторую производную, и т. д. Графики fv /2 н /8 показаны на фиг. 21. Среднее значение и стандартное отклонение суммы t)j -\- ... -\- i)n равны |и у Ш1 так чт0 пл°тность вероят- вероятности нормированной суммы есть При возрастании я это выражение быстро приближается к нор- 1 -- мальной функции плотности -~= е 2 . \ Фиг. 21. Прямоугольное распределение и родственные ему распределении Выражение для /2(лг), данное выше, может быть записано в виде /,(*)= 1—[1-*|, @<*<2). Эта функция плотности и любая функция плотности, полученная из нее линейным преобразованием, задает распределение, называемое иногда треугольным. 19.2. Распределения Коши и Лапласа. В частном случае п=\ распределение Стьюдента A8.2.4) имеет функцию плотности 1 характеристическая функция которой, согласно A.0.5.7), есть «~1'1. С помощью линейного преобразования, получим функцию плотности \ A9.2.1) с(х;\, |i)=4 !»+(*-«»
с характеристической функцией A9.2.2) Ci»v-M4 , где ).^>0. Распределение с функцией плотности c(jr;i,,jt) или с соот- соответствующей функцией распределения С(х; л, Jt) называется распреде- распределением Коиш. Это распределение унимодально и симметрично относи- относительно точки jc = ji, являющейся модой и медианой этого распреде- распределения. Ни один из его моментов положительного порядка (в том числе лаже среднее значение) не существует. Квартили (см. параграф 15.6) равны "i^hi, так что семи-ннтерквартильная широта равна X. Если величина S распределена согласно A9.2.1), то любая линейная функция a$-j- b имеет распределение того же типа с параметрами V = |aU и ji' = a<i-{-h. Вид характеристической функции A9.2.2) непосредственно показы- показывает, что это распределение воспроизводит само себя при композиции, так что имеет место следующая теорема сложения: A9.2.3) С(х; Xv Ц,)*С(*; А2, ^) = С(*; >.,+>..,, я,+;ц). Отсюда мы выводим следующее интересное свойство распределения Коиш: Если величины ?,. ... , $„ независимы и имеют все одно П и то же распределение Коиш, то среднее арифметическое S — — 2L ?. имеет то же распределение, что и каждое $v. Два взаимные интеграла Фурье A0.5.6) и A0.5.7), связывают распределение Коши с распределением Лапласа, которое имеет функцию плотности -7J- е — i*i . Последняя имеет конечные моменты любого но- рядка, а ее производная разрывна при дг = О. С помощью линейного преобразования получим функцию плотности A9.2.4) ±е * с характеристической функцией 19.3. Усеченные распределения. Предположим, что мы имеем дело со случайной величиной ?, связанной со случайным эксперимен- экспериментом (?. Пусть, как обычно, Р и F обозначают соответственно вероят-
ностную функцию и функцию распределения величины ?. Из последо- последовательности повторений эксперимента © выбираем подпоследователь- подпоследовательность, для которой наблюденное значение ? принадлежит некоторому фиксированному множеству 50. Распределение ? в группе выбранных случаев есть условное распределение величины ; при условии х с 50. Согласно A4.3.1) или A4.3.2), условная вероятность события ? с 5, где S есть подмножество множества So, может быть записана в виде Случай, когда 50 есть интервал a<[$s?*, часто встречается в при- приложениях; при этом мы отбрасываем все наблюдения, при которых были зарегистрированы значения величины <• ss: а или ^> Ь. Остаю- Остающиеся наблюдения дают усеченное распределение с функцией распре- распределения (О при 1 при х > Ь. Если существует плотность вероятности f(x) = F'(x), то усеченное распределение имеет функцию плотности, равную для всех х из интервала (а, Ь) и равную нулю вне этого интервала. Как а, так и Ъ могут быть, разумеется, бесконечны. 1. Усеченное нормальное распределение. Предположу что рост лиц, являющихся па призывную комиссию, можно рассматривать как случайную величину, нормальную {т, о). Если годными к военней службе при- признаются лишь тс лица, рост которых превосходит некоторый фиксированный предел х{Ь то рост отобранных призывников дает усеченное нормальное рас- распределение с функцией распределения Если положить
то первые два момента усеченного распределения равны aj = т -f- la, aj = m2 -f- \i (х0 -\- т) -\- сг. Если jtq, а, и а2 даны, а т и в неизвестны, то для определения /п н о нмеем два уравнения. Таблицы, дающие численное решение этих уравнений были даны К. Пирсоном [264]. 2. Распределение Парето. Усеченные распределения часто встречаются в различных задачах экономической статистики. Так, например, налоговые органы обычно интересуются распределением годовых доходов тех лиц, годовой доход которых превосходит некоторый предел хь, установлен- установленный законами о налогообложении. Это и некоторые аналогичные распреде- распределения иногда считаются приближении совпадающими с распределением Па- Парето, заданным соотношением Р (? > дг) = ^ ", {х > л-0, « > 0). Функция плотности этого распределения равна — (—) * при х>х0 и нулю xq \х j при x*^Xq. При о> 1 среднее значение конечно и равно . хй. Медиана распределения есть2*лг0. По вопросам, связанным с распределением Парето мы отсылаем читателя к работам Хагстрема [121], [122]. 19.4. Система Пирсона. Для большинства непрерывных распределе- распределений, изложенных в главах 17—19, функция плотности y—f(x) удо- удовлетворяет дифференциальному уравнению вида A9 4 1) v' — -у-Ьд у 1 ' У —^* где а и Ь{ суть постоянные. Легко проверить, что эти выполняется, например, для нормального распределения, ^-распределения, бэта- распределения, распределений Стыодента, Фишера и Парето. Любое распределение, получаемое из одного из перечисленных посредством линейного преобразования случайной величины, будет, конечно, удо- удовлетворять уравнению того же вида. Дифференциальное уравнение A9.4.1) определяет систему кривых плотности, введенную К. Пирсоном (см. [180], [181], [184] и т. д.). Можно показать, что постоянные уравнения A9.4.1) могут быть выражены через первые четыре момента распределения, если только эти моменты конечны. Решения классифицируются по характеру корней уравнения Ьй -f- ft,x -J- bzx2 = 0. Этим способом получается большое разнообра- разнообразие возможных типов кривых плотности. Знание первых четырех
моментов для любой функции плотности, принадлежащей этой си- системе, достаточно для полного определения функции. Полное описа- описание пирсоновских типов было дано Элдертоном [12], к книге которого мы и отсылаем читателя. Здесь мы только упомянем некоторые из наиболее интересных типов. Постоянный множитель А, встречающийся во всех приведенных ниже уравнениях, может быть в каждом случае определен так, чтобы интеграл правой части относительно х но ука- указанной области был равен единице. Тип I. v = i4(* — ар-ЦЬ — л:)*-1; «< При a = 0, b=\, получим бэта-распределение A8.4.3) как частный слу- случай распределения типа 1. Полагая p = q = — Ьг, а = —ft и застав- заставляя ft стремиться к бесконечности, получим нормальное распределение к качестве предельного случая. Другой предельный случай получаем, полагая q — ba; при ft—<¦» получим после изменения обозначений следующий Тип HI. y = A(x—ji)*-'<?-«(*-iO; *>}t; a>0, л>0. Это—обобщение функции плотности f{x; а, X), определенной равен- равенством A2.3.3), и a fortiori, обобщение /^-распределения A8.1.3). Тип VI. V = А (х — a)*-i (х — b)i-i; х > ft; а < b, q > 0, р -\- q < 1. Этот тип содержит в качестве частного случая (при а = — 1, ft = 0) распределение A8.3.2). Тип VII. У = {{х_? + Г)п; — ос<*<»; /»>~. Этот тип содержит как частный случай распределение Стьюдента. ГЛАВА 30 НЕКОТОРЫЕ ТЕОРЕМЫ О СХОДИМОСТИ 20.1. Сходимость распределений и случайных величин. Если дана последовательность случайных величин 3,, %,, ... с функциями распределения ^ (дг), F2(x), ... , то часто бывает важно знать, схо- сходится ли (см. параграф 6.7) эта последовательность функций распре- распределения к некоторой предельной функции распределения F(x). Так,
например, центральная предельная теорема утверждает, что некоторая последовательность функций распределения сходится к нормальной функции распределения Ф{х). В следующем параграфе мы дадим дру- другие важные примеры сходимости к нормальному распределению. Важно заметить, что всякое утверждение относительно сходимости последовательности функций распределения {?„{*)} необходимо от- отличать от утверждения относительно сходимости последовательности случайных величин {?„}• В этой книге мы не будем проводить пол- полное исследование вопроса о сходимости последовательностей случай- случайных величин. По этим вопросам мы можем отослать читателя к кни- книгам Фреше [ 15] и Леви [25]. Здесь мы будем пользоваться только поня- понятием сходимости по вероятности, которое будет рассмотрено в па- параграфах 20.3—20.6. 20.2. Сходимость некоторых распределений к нормальному. 1. Распределение Пуассон а. Согласно параграфу 16.5, вели- величина ?, имеющая распределение Пуассона, имеет среднее значение X, стан- стандартное отклонение У\ и характеристическую функцию «М*"—D. 5 \ Нормированная величина "~г= имеет, таким образом, характеристиче- скую функцию it При X —>- оо это выражение стремится к е 2 и согласно теореме не- непрерывности (см. параграф 10.4), соответствующая функция распре- распределения стремится к Ф(лг). Таким образом, величина ? асимптотически нормальна (X, У\). 2. /_2-р аспре деление. При а степенях свободы величина у2 имеет, согласно A8.1.6) и A8.1.2), среднее значение я, стандартное откло- отклонение Yin и характеристическую функцию A—2//)""' .Таким обра- образом, нормированная величина L ~" имеет характеристическую функ- V 2л ЦП10 О-*/¦?)
При любом фиксированном t можно выбрать л настолько большим, чтобы это выражение могло быть записано в виде где |&|<1. При я—"-ооэто выражение, очевидно, стремится к е 2; следо- вательно, функция распределения величины - .._- стремится к Ф(х), так что величина */s асимптотически нормальна (я, Рассмотрим- теперь вероятность неравенства которое может быть записано также в виде *<¦+(*+>&) Когда х фиксировано, а п стремится к се , —j=? стремится к нулю, так что вероятность последнего неравенства стремится к тому же пре- пределу, что и вероятность неравенства у? <^ л -\- х Y2n, т. е. к Ф(дг). Таким образом, величина Vif^ асимптотически нормальна \\^2п, 1). Согласно Р. Фишеру [13], эта аппроксимация будет улучшена, если заменить 2« на 2л — 1 и рассматривать V2y? как нормально рас- распределенную величину со средним значением )/Г2п—1 и стандартным отклонением, равным единице. При я ^ 30 это- дает аппроксимацию, часто достаточную для практических целей. 3. Распределение Стьюдента. Плотность вероятности (.18.2.4) распределения Стьюдента может быть записана в виде Согласно формуле Стирлинга A2.5.3), первый сомножитель стре- стремится к единице при я -+ ее, и при любом фиксированном х имеем откуда 1 -- B0.2.2) sn(x)—»-j=e *.
Далее, пусть г обозначает наибольшее целое число, содержащееся в я~у . Тогда г ^ ¦? и при всех й>1 мы имеем для всех действи- тельных х п -1-1 Таким образом, последовательность {$„(•*)} равномерно ограничена функцией вида А (\ -f--, хА , так что E.5.2) дает B0.2.3) 5„(*)= j sn(t)dt-^ J^ J 4. Бэта-распределение. Пусть ?—случайная величина, имеющая бэта-распределенне A8.4.3) со значениями параметров пр и nq. Среднее значение и дисперсия равны тогда, согласно 18.4, и -(р + д)Ц^\„д + Т7' П>сть тепеРь Р и « Фиксированы, а я стремится к бесконечности. Тогда с помощью вычислений, подобных проделанным выше, можно доказать, что плотность вероятности норми- 1 -- рованной величины стремится к нормальной функции плотности —=.е г и что соответствующая функция распределения стремится к нормаль- нормальной функции распределения Л*(х). 20.3. Сходимость по вероятности. Пусть $,, $,, ... — после- последовательность случайных величин и пусть Fn(x) и 'fn@ обозначают функцию распределения и характеристическую функцию величины ?„. Будем говорить (см. Кантелли [64], Слуцкий [214], Фреше [112]), что ?п сходится по вероятности к постоянной с, если при любом s^>0 вероятность соотношения \%п — с|]>0 стремится к нулю При П—«-OQ.. Так, если ;, обозначает частоту — события Е при п повторениях случайно- случайного эксперимента К, то теорема Всрпулли (см. параграф 16.3) утверждает, что у — сходится по вероятности к р.
Очевидно, для того чтобы последовательность ?„ сходилась по вероятности к с, необходимо и достаточно, чтобы функция распределе- распределения Fn{x) стремилась при каждом фиксированном х^с к функции распределения г(х — с), определенной в параграфе 16.1. Согласно теореме непрерывности (см. параграф 10.4) это условие эквивалентно тому, что характеристическая функция an (t) стремится npyt любом фиксированном t к пределу eclt. 20.4. Теорема Чебышева. Докажем следующую теорему, принад- принадлежащую в основном Чебышеву. Пусть ?р?., ... ¦—случайные величины и пусть тп и зп обозна- обозначают среднее значение а стандартное отклонение величины ?„. Если з„ —>¦ 0 при и —»• ос , то $„—тп. сходится по вероятности к нулю. Чтобы доказать эту теорему, достаточно применить неравенство Бьенэме — Чебышева A5.7.2) к величине ?„ — т„. Тогда видно, что вероятность соотношения | $„ — тп | > ? не превосходит "-Л и, следова- следовательно, по предположению, стремится к нулю при и—»-сю. Предположим теперь, что величины ?,, $2, ... независимы, и по- положим я п Тогда имеем следующее следствие нашей теоремы: Если я B0.4.1) 1 то % — т сходится по вероятности к нулю. Действительно, величина ? имеет среднее значение т и стандарт- ное отклонение Л I/ VaJ . По предположению, последнее выражение 1 стремится к нулю при л—>-оо, и, следовательно, наше утверждение следует из теоремы Чебышева. В частном случае, когда 2„ суть переменные, рассмотренные в па- параграфе 16.6 в связи с рядом независимых испытаний, то 9а ограни- ограничены, и, значит, условие B0.4.1) выполнено. Тогда наше следствие сводится к обобщению Пуассона теоремы Бернулли.
20.5. Теорема Хинчина. Если даже не предполагать существо- существования конечных стандартных отклонений у величин 3V, рассмотренных в предыдущем параграфе, то все же можно получить некоторый ре- результат, аналогичный следствию из теоремы Чебышева. Рассмотрим только случай, когда все $., имеют одинаковое распределение вероят- вероятностей, и докажем следующую теорему, принадлежащую Хинчииу [139]: Пусть независимые случайные величины ?j, ?2, ... имеют одну и ту же функцию распределения F (х) и пусть F (х) имеет конеч- _ я ное среднее значение т. Тогда величина ?=_^Г$, сходится по вероятности к т. Если -s (t) — характеристическая функция распределении ве- величины ?v, то характеристической функцией величины ? служит |ср ( — )) • Согласно A0.1.3), при t—>-0 имеем <о @ = н, следовательно, дли любого фиксированного t при п—- со (» D))'= (•+?+• (±))"—'• В силу параграфа 20.3, теорема этим доказана. 20.6. Теорема о сходимости. В различных приложениях бывает полезна следующая теорема: Пусть ?,, ?2, ... —последовательность случайных величин с функциями распределения F,, F.,, ... . Предположим, что Fa(x) стремится к функции распределения F (х) при я —* оо . Пусть, далее, rn, ris, ... —другая последовательность случай- случайных величин, предположим, что rin сходится по вероятности к некоторой постоянной с. Положим B0.6.1) *„=<-, +v к,=«л., гп=Л. Тогда фушеция распределения величины Хп стремится к F(x—с). Далее, если с~^>0, то функция распределения величины Ya стре- стремится к F (^j , а функция распределения величины Zn к F(cx). (Изменения в формулировке, необходимые в случае с <^ 0, очевидны.
Важно отметить, что в этой теореме не требуется независимое/пи входящих в нее случайных величин. Достаточно доказать какое-нибудь одно из утверждений теоремы, другие доказательства проводятся аналогично. Возьмем, например, величины Zn. Пусть х—точка непрерывности функции F(x). Обозна- Обозначим через Рп совместную вероятностную функцию величин ?п и ц„. Нужно доказать, что при я —>-оо. Множество 5 всех точек плоскости (?л, г,л) таких, что — *^х, есть сумма непересекающихся множеств S, и St, определен- определенных неравенствами: с 1 " ^ ^= » I in I **e -I Таким образом, Рп E) •= Pn EJ -4- Рп E8). 5 есть подмножество множе- множества | j|n — с|}>е, и, по предположению, PB{SS) —«-О при любом е] Далее, Pn(<S]) заключена между пределами Каждый из этих пределом отличается от соответствующей величины ) = Р„ «с ± г) *) меньше, чем на Рп (| г1п—с | }> г). При л —¦ со последняя величина стре- стремится к нулю, и мы, таким образом, видим, что Рп (S) заключена между двумя пределами, которые выбором достаточно малого е можно сде- сделать сколь угодно близкими к F(x). Тем самым наша теорема дока- доказана. Отсюда мы выводим следующее утверждение, принадлежащее Слуцкому [214]: Если случайные величины 5n, ijn, ... , ря сходятся по вероят- вероятности соответственно к постоянным х, у, ... , г, то любая ра- рациональная функция R($n, Ч„, ... , р„) сходится по вероятности к постоянной R(x,y, ... , г), если только R(x,y г) ко- конечно. Отсюда, в частности, следует, что любая степень /?*(?„, 5]„ о„) при ft]>0 сходится по вероятности к Rk(x,y г).
Упражнения к главам 15—20 1. Случайная величина 5 имеет плотность вероятности f(x). Найти плот- плотность вероятностей величин т, =-г и С = cos 6. Дать условия существования моментов величин ч и Z. 2. При любом к > 1 функция / (дг) = ш) . . .—rj^ есть плотность ве- вероятности с широтой (—со, оо). Показать, что л-й момент существует тогда и только тогда, когда я < к. 3. Неравенство A5.4.6) для абсолютных моментов ря есть частный случав следующего неравенства, принадлежащего Ляпунову [147]: для любых неот- неотрицательных я, р, q (не обязательно целых) При и = 0, 9=1 это сводится к A5.4.6), так как Ро=1. Общее неравенство выражает, что хорда, соединяющая две точки кривой у = log P.v (x > 0), лежит целиком выше кривой, так что logf>x есть выпуклая функция х. (Подробное доказательство см., например, в книге Успенского [39], стр. 265.) 4. Если g{x) не возрастает при х > 0, то при любой к > 0 имеем ОС ОО A2 j gixfdx^-^ ал: к и Сперва докажите, что это неравенство выполнено в частном случае, когда g(x) постоянна при 0<jc<c и равна нулю при дг>с. Затем определите функцию Л(jc), которая равна g(k) при 0<дг<*-|-а и равна нулю при 00 х>к-\-а, где а определяется соотношением ag(k)— \ g(x) dx, и покажите, что 00 00 ОО ОС А2 ) g(x) dx = А* I Л (л-> dx «g — \ .г* Л (jf) dx ^ з" \ х*?(х) dx. * A U О Используйте этот результат для доказательства неравенств A5.7.3) и A5.7.4). 5. Если F(x) есть функция распределения со средним значением 0 и стандартным отклонением в, то F{x)^ г . при х<0 я F(x) Ssj3 . ^ при х > 0. Для х < 0 это следует hj неравенств оа оо — х = \ 0' — х) dF ^ \ {у — .v) dF, — ос х 00 CD СУ—дг) rf/5") ^ \ rf/' • \ (у — .tj* rf/''^A — /-"(-v. X
Для х > 0 доказательство аналогично. Показать на примере, что эти нера- неравенства не могут.быть улучшены. 6. Неравенство Бьенэме — Чебышевп A5.7.2) может быть улучшено, если известен какой-нибудь центральный момент у?п (л > 1). Имеем, например, для Применить A5.7.1)с *= 1 н g® = 1 + ?Г, 7. Покажите, используя A5.4.6), что семи-инвариант хл произвольного распределения удовлетворяет неравенству U,,l<«»?ff (Крамер[11], стр. 39). 8. Докажите неравенство I я -f- Ь | a sg 2»-i ( i a |» -f-1 * I ")¦ Выведите от- отсюда, что если я-е моыенты х и у существуют, то существует н я-й момент суммы х-\-у. 9. Пусть G(p, q)= 2j {")ргда~г- Покажите, что первый абсолютный г>пр момент этого биномиального распределения относительно среднего есть где >i есть нлнмеиьшее целое число > пр. При больших я отсюда следует, что 10. Покажите, что если 1 — F(x) — О {е —«*) при х—»--j-oo и F{x) — = О {е~ с |л:| ) при х —^ — оо (с > 0), то распределение однозначно опреде- определяется своими моментами. 11. Факториальными моментами (Стефснссн [217]) какого-нибудь ;ш скретного распределения называются величины a(,j = 2/V-*r'> r^e ^ о°о- г значает выражение х(х—1) ... (х — v-f-1). Аналогично центральные фак- ториальные моменты суть M(,j = 2^r(Jfr —/я)''1- Выразите а., н ji.v, че- рез обычные моменты. Покажите, что (*+»1>1' —.г'1''-+-(][)*''—1'>'"-{- ... • ¦ • +J> ' и выведите отсюда соотношения между Я[.(] к р^. 12. Хараетеристическая функция распределения п предыдущем упражне- упражнении есть f (t) = 2 Pt^itxr. Заменяя здесь е" на t, получим производящую г функцию ^{t)z=^prtxr. Покажите, что ifW(l)=i[vJ и, в частности, Е(х) — - у (i)_(i'(i))?. Используя этот результат, выведите выражения ам = п^р'> лля биномиального распределения и я(,. = ;.* для распределении Пуассонл.
13. а) Производим ряд независимых испытаний, при каждом из кото- которых вероятность благоприятного исхода равна /> = 1 — q до тех лир, пока не получим подряд у благоприятных исходов, где v > 0 задано. Пусть /»„„ обозначает вероятность того, что дли этой цели необходимо ровно п испы- испытаний. Найдите производящую функцию и покажите, что b) С другой стороны, предположим, что мы производим я испытаний, где и задано и наблюдаем наибольшее число р. произошедших подряд благо- благоприятных исходов при этих я испытаниях. Обозначай через Р,1у вероятность того, что ц < у, покажите, что i, следовательно, 'V(t)— У Р ;«— (t>~ jL и"-1 Отсюда можно показать (Крамер [68]), что РПч — е~аР*я равномерно стре- стремится к нулю при я—»сю для l^v^w. Отсюда следует, что для больших л 14. Величина % нормальна (т,:). Покажите, что среднее отклонение есть ?(|Е — от|)=г 1/ ^-— 0,79788 з. 15. В обоих случаях центральной предельной теоремы, доказанной в па- раграфс 17.4, имеем Е \ у — прн я—»-оо. Использовать G.5.9) и (9.5.1). (См. упражнение 9.) 16. Пусть независимые величины ц, 12, ... таковы, что ?, может прини- принимать значения 0 н ±»« соответственно с вероятностями 1—v~2", -^v~Zl. Таким образом, ?„ имеет среднее значение, равное 0, и стандартное отклоне- отклонение, равное 1. Покажите, что условие Ляпунова A7.4.3) выполнено при « <-к- и не выполнено при s^s— . Таким образом, при а < — ¦ сумма 6 = ^ Z ? л = ^5, асимптотически нормальна @, Vn). При я > -- вероятность того,
что ?!—... =?я = 0 не стремится к нулю при л—>», так что в этом слу- случае распределение Е не стремится к нормальному. Последний результат имеет место н при а = -2" (см. Крамер [11], стр. 79). 17. Если аг и aj — первые два момента логарифмически-нормального рас- распределения A7.5.3) и если 1) — действительный корень уравнения т,* + Зч — — Y! = о, где ?1 есть коэффициент асимметрии, то параметры а, т и о этого распределения задаются соотношениями а—-Ч ?, сг = log (l+1s), m=log(al — a) — tj-o». 18. Рассмотрим разложение A7.6.3) функции плотности / (х) в ряд Грама — _** Шарлье и возьмем f(x) =—7= в 2°*. При дг = О имеем /@) = —т=,и в у 2it о V 2ic разложение принимает вид Однако это разложение верно только при в2 ^2. При с*>2 этот ряд рас- расходится. Найдите а н р, такие, чтобы а/ (.г) -КР/ (?3^) было плотностью веро- вероятности некоторой нормированной случайной величины, и покажите на этом примере, что коэффициент -j в условии сходимости A7.6.6а) не" может быть заменен меньшим числом. 19. Вычислите коэффициенты fi и fa распределений, рассмотренных в главе 18. 20. Если величина i) равномерно распределена на интервале (в — h, a -f- h), то характеристическая функция величины ц есть - . t^t. Если \ — произ- произвольная случайная величина, независимая от •% с характеристической функ- функцией <f (*), то сумма ? + 1) имеет характеристическую функцию j Покажите, что с помощью этого результата формула A0.3.3) может быть выведена непосредственно из A0.3.1). 21. Пусть п есть случайная величина, имеющая распределение Пуассона с вероятностями —%"¦», где v = 0, 1, ... Если рассматривать параметр х как случайную величину с плотностью вероятности =-j-. x*~xe~'x, {х> 0),
то вероятность того, что л принимает данное значение », равна Найдите характеристическую функцию, среднее значение и стандартное от- отклонение этого распределения, которое называется отрицательно-биноми- отрицательно-биномиальным распределением. 22. Независимые величины Х\, хг, ... имеют одинаковое распределение со средним значением 0 н стандартным отклонением 1. Используя теоремы, параграфов 20-5 и 20.6, покажите, что величины асимптотически нормальны @,1). 23, Если ха и \'„ асимптотически нормальны, соответственно (а, —= ) V VnJ (к \ i— z — а Ь, -—= 1, где Ь Ф 0, то величина г„—К л -3 асимптотически иор- Уп J Уп мальпа 10, -. 1. Заметьте, что в этом случае не фигурирует условие независимости.
ГЛАВЫ 21—24 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И РАСПРЕДЕЛЕНИЯ В Rn Г Л А В А 21 СЛУЧАЙ ДВУХ ИЗМЕРЕНИЙ 21.1. Два простых типа распределений. Рассмотрим две одно- одномерные случайные величины s и ц. Совместное распределение вероят- вероятностей (см. параграф 14.2) величин • и )] есть распределение в /?„, или двумерное распределение. Этот случай будет разобран в настоящем параграфе, прежде чем мы перейдем к общему случаю случайных величин и распределений в /t-мерном пространстве. Согласно параграфу 8.4, мы можем определить совместное распреде- распределение величин S и т} как вероятностной функцией P{S), представляющей вероятность соотношения (;, Jj)cS, так и функцией распределения F(x, у), задаваемой соотношением F(x. у) = Р(?<д:, i}< v). Мы будем часто интерпретировать распределение вероятностей посредство» распределения единицы массы но плоскости (?. г)). Проек- Проектированием массы двумерного распределения на одну из координатных осей получим (см. параграф 8.4) частное распределение соответствую- соответствующей величины. Обозначая через Ft (х) функцию распределения частного распределения величины ? и через F.,{x) соответствующую функцию для г„ имеем F1(x) = P?SZx) = F(x, oo), F.,{x) = P(r\^y) = F(ce, у). Как и в одномерном случае (см. параграф 15.2) удобно ввести в рас- рассмотрение два простых типа распределений: дискретный и непрерывный. 1. Дискретный тип. Говорят, что двумерное распределение принадлежит к дискретному типу, если соответствующие частные рас- распределения принадлежат оба к дискретному типу, определенному в параграфе 15.2. Тогда в каждом частном распределении вся масса заключена в некоторых точках сосредоточения массы, причем любой
конечный интервал содержит не более конечного числа этих точек. Обозначим через xv Jf2, ... и ylt yt, ... соответствэнно точки со- сосредоточения массы в частных распределениях величин ? и jj. Тогда вся масса двумерного распределения будет сосредоточена в точках пересечения прямых ? = *, и ц=_уА, т. е. в точках (х{, укO где i и k независимо Друг от друга принимают значения 1, 2, 3, .... Если обозначить массу, заключенную в точке (xt, yk)t через pft, то {21.1.1). а для каждого множества S, не содержащего точек (xt, yk), имеет место равенство P(S) = 0. Так как вся масса распределения равна единице, то всегда Для некоторых комбинаций индексов может оказаться, конечно, что р,А=0. Точки {х{, ук), для которых pik^>0, являются точками со- сосредоточения массы распределения. Рассмотрим теперь частное распределение величины ?, с точками сосредоточения массы xv xv .... Если pt- есть масса, заключенная в точке х{, то очевидно, что B1.1.2) A. Аналогично, в частном распределении величины i], в точках ук за- заключена масса B1.1.3) р^ = Р(ч=ук) = ^1р.к. Согласно A5.11.2), для независимости величин ? и ij необходимо и достаточно, чтобы для всех / и k B1.1.4) Pik=Pi:P.k. 2. Непрерывный тип. Говорят, что двумерное распределение принадлежит к непрерывному типу, если функция распределения F (х,у) непрерывна и если плотность вероятности (см. параграф 8.4) существует и непрерывна всюду, за исключением может быть неко- некоторого множества точек, принадлежащих конечному числу кривых.
Для любого множества 5 P(S)=[f(x,y)dxdy, и, в частности, при ? = &, ОО 00 j \ f(x, y)dxdy=1. — оо —"оо Частное распределение величины ? имеет функцию распределени X 00 X Я E < х) = J j /(А а) Лrf« = j /, {t) dt, — 00 —00 —00 где оо B1.1.5) /,(*)= [f{x, y)dy. — 00 Если в некоторой точке х = х0 функция /(х, у) непрерывна по х для почти всех (см. параграф 5.3) значений у и если в некоторой окрестности х0 имеет место неравенство f(x, y)<C.O(y), в котором функция G(y) интегрируема на (—оо, оо), то из G.3.1) следует, что Д (х) непрерывна в точке х = х0. Во всех случаях, которые будут встре- встречаться в приложениях, эти условия выполнены для всех х — х0 за исключением может быть только конечного числа точек. В таких случаях f1(x) имеет не больше конечного числа точек разрыва, так что частное распределение величины ? принадлежит к непрерывному типу и имеет плотность вероятности ft(x). Аналогично находим, что частное распределение г( имеет плотность вероятности B1.1.6) f2[y)=Jf(*,y)dx. —сю Согласно A5.11.3), для независимости величин S и 7) необходимо и достаточно, чтобы для всех хну выполнялось равенство B1.1.7) /(*, jO =/,(*)/, ДО. 21.2 Средние значения, моменты. Среднее значение функции g-(?, tj), интегрируемой на R2 относительно двумерной вероятностной функции. P{S) было определено формулой A5.3.2) как интеграл B1.2,1) E[g& n))=[g{x, y)dP(S).
Для распределения, принадлежащего к одному из двух простых ти- типов, этот интеграл сводится к сумме или обычному интегралу Рнмана, как отмечено в параграфе 15.3 для одномерного случая. Основные правила вычисления средних значений уже были выведены в параграфе 15.3 для любого числа измерений. Моменты распределения (см. 9.2) суть средние значения B1.2.2) ett=?(S'ij*)= f*y *P(S), где / и k — неотрицательные целые числа. Сумма i-\-k индексов есть порядок момента aik. Моменты ai0 = ?($0 и aok = E(rtk) тождественны с моментами одномерных частных распределений величин ? и ij, как это показывает равенство (9.2.2). В частности, полагаем Точка с координатами S = /«1, г^ = тъ есть центр тяжести распре- деленной в плоскости массы. Для моментов относительно центра тя- тяжести будем употреблять обозначения B1.2.3) ^ = ?(F— /я,)'"(Ч — и,У*). В частности, имеем )х,о = цО1 = О и Ц20 = <?, Ц02 = б2, где s1 и о2 — стандартные отклонения величин 5 и jj. Между моментами aik и центральными моментами nik имеют место соотношения, аналогичные данным в параграфе 15.4 для одно- одномерного случая. Для моментов второго порядка имеем B1.2.4) JA20 = aM — m\ }iu = a11 — m1m2, <1п = ат — т1. Момент цп часто называется смешанным моментом второго порядка. В частном случае, когда величины Евч независимы, по теореме умно- умножения A5.3.4) имеем ulk = aioaok и ц« = wol^ Таким образом, в частности, в этом случае Для любых действительных t н а «имеем B1.2.5) Е [(t^— Левая часть этого тождества есть среднее значение квадрата и, сле- следовательно, неотрицательна. Отсюда следует, что правая часть B1.2.5) есть неотрицательная квадратичная форма (см. параграф 11.10)
от / и а; следовательно, матраца вторых моментов M=i^w неотрицательна и B1.2.6) Ранг г матрицы Л1 (см. параграф 11.6) может принимать одно из значений 0, 1 и 2. При г=2 в B1.2.6) имеет место знак ^> а при г = \ и г=гО — знак =. Покажем теперь, что некоторые про- простые свойства распределения непосредственно связаны со значением г. г=0 тогда и только тогда, когда вся распределенная масса, содержится в единственной точке. г=\ тогда и только тогда, когда вся масса распределена на некоторой прямой линии, но не в одной ее точке. г=2 тогда и только тогда, когда не существует прямой ли нии, содержащей всю распределенную массу. Очевидно, доказательство достаточно провести для случаев г = 0 и г=\, а случай г=2 будет являться их следствием. Если г = 0, то fi20 = fi02 = 0, так что масса при каждом из частных распределений сосредоточена в одной точке (см, параграф 16.1). Тогда в двумерном распределении вся масса должна быть сосредоточена в центре тяжести /я,, m2). Обратно, если известно, что вся распределенная масса со- содержится в одной точке, то отсюда непосредственно следует, что ji20 = jiC2 = 0 и, следовательно, согласно B1.2.6), р.п = 0, так что ранг матрицы М равен нулю. Далее, если г=1, то форма B1.2.5) является полуопределенной (см. параграф 11.10) и, следовательно, принимает значение, равное нулю, при некоторых t= t0 и и = и0, ие равных нулю одновременно. Это воз- возможно только, если вся распределенная масса лежит на прямой B1.2.7) /0(S — miL-«oC4 — *»)=<>• Обратно, если известно, что вся распределенная масса лежит на пря- прямой линии, но не заключена вся в одной точке, то очевидно, что эта прямая должна проходить через центр тяжести, и, следовательно, должно удовлетворяться соотношение вида B1.2.7). Тогда среднее значение в левой части соотношения B1.2.5) равно нулю при t = ta, и = иа, так что квадратичная форма в правой части этого соотноше- соотношения является полуопределенной, и, следовательно, матрица Af имеет ранг, равный единице. Таким образом, наша теорема доказана.
Пусть теперь мы имеем распределение, при котором оба момента jj30 и ^ положительны. (Это означает, что ранг матрицы М равен 1 или 2.) Определим тогда величину р, положив (91 о Й\ л I'll Й1_ B1'2-8) р--Гн^-™' Согласно B1.2.6), р2^1 или —is^psSl. Далее, р3 = 1 тогда и только тогда, когда матрица М имеет ранг 1, т. е. когда вся рас- распределенная масса лежит на некоторой прямой линии. В частном случае, когда величины $ и J] независимы, имеем jin = 0 и, следо- следовательно, р = 0. Величина р называется коэффициентом корреляции величин ? и т]; мы будем иметь с ним дело далее, в параграфе 21.7. Предположим, что заданы величины тЛ, т2 и р^, Цц, Рю, такие, что квадратичная форма \i^t2 -f- 2pufo -\- р^а2 неотрицательна. Тогда всегда можно найти распределение, имеющее моменты первого порядка тг, т2 и централь- центральные моменты второго порядка ря, рц, рщ. Поставленным условиям удовле- 1 + р творяет, например, дискретное распределение, при котором масса —?-? помещена в каждой из двух точек (oti + °i> ikj+oj) и (я^ — о1г тг—в,) 1 р а масса . ¦ — в каждой из двух точек (я^ + ох, щ — oj) и (тъ— Величины аъ в2 и р определяются, конечно, приведенными выше соотношениями. 21.3. Характеристические функции. Среднее значение B1.3.1) <р(*, в) = ^ есть характеристическая функция двумерной случайной величины F, Tj) или соответствующего распределения. Мы будем также часто называть <р(/, а) совместной характеристической функцией двух од- одномерных величин & и J]. Согласно теории характеристических функций, развитой в главе 10, взаимнооднозначное соответствие между одномерными распределениями и их характеристическими функциями (см. параграф 15.9) распростра- распространяется на распределения произвольного числа измерений. Если два рас- распределения совпадают, то их характеристические функции также совпа- совпадают, и обратно. Если моменты второго порядка совместного распределения величин ? и ij конечны, то в окрестности точки t=u=0 имеет место
разложение, аналогичное A0.1.3): B1.3.2) <р (t, а) = 1 + ± (<!,/+а01и) -f Ч о (/• + и») = В важном частном случае, когда средние значения т1 и /л2 оба равны нулю, будем иметь: B1.3.3) <р (*, и) = 1 -1 (j^ + 2ди*«+ »1ога2) + о (<• Ч- в*). Характеристические функции частных распределений величин | и jj суть B1.3.4) ?(e'«)p=<p(f, 0) и ?(*""!) = ср(О, а). Если величины ? и 7j независимы, то так что совместная характеристическая функция y(t, а) равна произ- произведению характеристических функций частных распределений вели- величин ? и Г). Обратно, допустим, что совместная характеристическая функция величин ? и J] имеет вид <р1(О'(Рг(в)> Вводя в это произведение, если нужно, постоянный множитель, мы можем, очевидно, добиться того, чтобы (р,@) = ср8@) = 1; тогда из B1.3.4) будет следовать, что функции <рх(?) и <р2(я) являются соответственно характеристиче- характеристическими функциями величин 5 и 7j. Если двумерный интервал л, <^ ? <C^i> ff2<^»]<^ft2 есть интервал непрерывности (см. параграф 8.3) совместного распределения величин ? и jj,to из A0.3.1) и A0.6.2) следует, что Заставляя а1 и аъ стремиться к —оо, получим, в частности, поль- пользуясь теми же обозначениями, что и в параграфе 21.1, F(x, y) = = F-t (х) • F2 {у) для всех х и у, являющихся соответственно точками непрерывности функций Ft и f2. Согласно общим свойствам непре- непрерывности функций распределения, полученное соотношение непосред- непосредственно распространяется на все значения х и у. Из A4.4.5) следует
тогда, что величины & и ц независимы! Таким образом, нами дока- доказана следующая теорема: Для независимости двух одномерных случайных величин необ- необходимо а достаточно, чтобы их совместная характеристическая функция имела вид {21.3.5) «p(f, tt) = ffl(t)fh(u). 21.4. Условные распределения. Условное распределение случай- случайной величины г; при условии, что другая величина S принадлежит некоторому данному множеству 5, было определено в параграфе 14.3. В настоящем параграфе мы рассмотрим этот вопрос несколько более подробно для распределений, принадлежащих к одному из двух про- простых типов, определенных в параграфе 21.1. 1. Дискретный тип. Рассмотрим дискретное распределение, заданное соотношением B1.1.1). Пусть xt — некоторое значение, для которого частная вероятность P(% — xl) = y\plk=pu положительна. к Тогда условная вероятность события ^=ук при условии &=лг„ согласно A4.3.1), равна B1.4.1) При фиксированном х{ условные вероятности различных возможных значений yk определяют условное распределение величины ij при ус- условии ?==*,-. Сумма всех этих условных вероятностей равна, ко- конечно, единице. Если (?, ^-распределение интерпретировать как распределение единицы массы в точках (*г, yk), то это условное распределение по- получаем, фиксируя х( и умножая каждую массу, расположенную на прямой ?=лг/, на — , так чтобы сумма всех масс стала равной единице. Условное среднее значение функции g(?, jj) при условии ?== jc, определяется как среднее значение функции g(xit ij) относительно условного распределения величины jj, определенного соотношением B1.4.2) •\Pa
При g(?, ij) = T| получим условное среднее величины rt, которое яв- является ординатой центра тяжести массы, лежащей на прямой ?=х{: B1.4.3) С другой стороны, положив g(?, ij)=(Jj— Я1^J| получим условную дисперсию величины i]. Условное распределение величины ? при условии ц=ук и соот- соответствующие условные средние значения определяются с помощью перестановки случайных величин в данных выше выражениях. В частном случае, когда величины Е и т) независимы, соотношение 21.1.4) показывает, что Pilc=pl.p.k и, таким образом, 2]44, в соответствии с общими соотношениями A4.4.2) и A4.4.3). 2. Непрерывный тип. Пусть f(x, у) — совместная плотность вероятности величин & и ij. Рассмотрим интервал (х, x-\-k), такой, что масса, заключенная в вертикальной полосе х <^ ? <^ х -\- А, пред- представляющая вероятность +ft 00 f(x,y)dxdy, Jt+ft 00 X X —00 положительна. Тогда условная вероятность события Щ^у при усло- условии х<^?<^х-|-А, согласно A4.3.1), равна x+h у j ffUc,y)dxdy x —oo x+h oo / f f(x,y)dxdy X —00 Это — функция распределения, соответствующая условному распреде- распределению величины г/ при условии х < & < х -\- А. Она выражает коли- количество массы, заключенной в полосе x<^b<^x-\-h и принадлежащей прямой Jj=j/, деленное на количество всей массы, заключенной в указанной полосе. Пусть теперь А—»-0. Если условия непрерывности,
связанные с B1.1.5), выполнены в точке х и если частная плотность вероятности /, (лт) принимает в точке х положительное значение, то из E.1.4) следует, что условная функция распределения стремится к пределу B1.4.5) /С*. При фиксированном х этот предел как функция от у представляет собой, очевидно, функцию распределения и называется условной функ- функцией распределения величины 7] при условии ?=х. Если функция f(x, у) непрерывна по у, то полученную условную функцию распределения можио дифференцировать по у, и мы получим соответствующую условную плотность вероятности величины tj: B1.4.6) Условное среднее значение функции g($, 7j) при условии ?= в этом случае равно 00 \g\x,y)f(x,y)dy Умножая иа /, (х) и интегрируя по х, получим 00 00 B1.4.7) Eg& r()=J \ g(x, y)f(x,y)dxdy= = J — оо —оо оо
Условное среднее и условная дисперсия величины Jj равны соответ- соответственно: 00 B1.4.8) 00 f{x, y)dy — oo oo B1.4.9) f(x,y)dy Точка с координатами ? = *, Г|=/иг(дг) есть предел центра тяжести массы, заключенной в полосе х <^ ? <^ х -(- А, при Л—».О. Условное распределение величины ? при данном значении i) и со- соответствующие условные средние значения определяются аналогично. Так, например, условная плотность вероятности величины ? при усло- условии Ti=y есть B1.4.10) f(x\y)= fi*'y) = \ /(«.Л — 00 а условное среднее ?(?| Tj=j;)=/»1(j;) есть среднее величнны 5 соответствующее плотности вероятности /(х|_у). Если величины S и jj независимы, то /(х, y)=fl{x)fi(y). От сюда следует, что при этом условная плотность вероятности одной величины не зависит от предположений, сделанных относительно зна- значения другой величины, и равна плотности вероятности соответствую щего частного распределения. Соответственно, условные средние зна- значения для обеих величин совпадают со средними значениями частных распределений. B1.4.11) m1(y) = mv 21.5. Регрессия, I. Пусть случайные величины & и г, имеют сов- совместное распределение непрерывного типа. Предположим, что соот- соответствующая плотность вероятности f(x, у) удовлетворяет условиям непрерывности, связанным с B1.1.5), при любом х, в котором частная плотность вероятности ft(x) положительна.
Тогда, согласно предыдущему параграфу, условная плотность ве- вероятности f(y\x), заданная соотношением B1.4.6), представляет рас- распределение массы в бесконечной узкой вертикальной полосе, прохо- проходящей через точку к = х. Мы можем здесь рассматривать 5 как независимое переменное; тогда фиксированному значению &=* соот- соответствует распределение вероятностей зависимой переменной J] с плот- плотностью вероятности f{y\x). Рассмотрим теперь некоторое типичное значение этого условного jj-распределения, такое, как среднее, мода, медиана и т. п. Вообще говоря, это значение будет зависеть от х и может быть обозначено а) Ы Фиг* 22. а) Регрессия ч на ?. Ь) Регрессия ? на ч. через ух. Если х меняется, то точка (х, ух) описывает некоторую кривую. По виду этой кривой мы можем судить о расположении ус- условного ^-распределения для различных значений 5 (см. фиг. 22а). Кривая этого типа называется кривой регрессии, и говорят, что она изображает регрессию г, на S. В дальнейшем, если не оговорено противное, мы будем всегда выбирать за ух условное среднее тг(х) величины J], заданное соотношением B1.4.8), и получать, таким об- образом, кривую регрессии для среднего величины J] как траекторию точки (х, т%(х)) при переменном х: B1.5.1) у=т,{х)=Е{ц\Ъ=х). Если вместо Е рассматривать ij как независимое переменное, то условная плотность вероятности зависимого переменного & при фикси- фиксированном значении тц=у будет задана соотношением B1.4.10). Любое типичное значение ху условного распределения величины ? приводит
к некоторой кривой регрессии, изображающей регрессию ? на 7j (см- фиг. 22, Ь). Такии образом, кривая регрессии для среднего вели- величины ? есть траектория точки (т1(у), у) при переменном у; она имеет уравнение B1.5.2) х^т^ Две кривые регрессии B1.5.1) и B1.5.2) не будут, вообще го- говоря, совпадать. Во многих важных для приложений случаях обе кри- кривые регрессии будут прямыми, или, по крайней мере, приблизительно прямыми. Так, например, в частном случае, когда ? и Jj независимы, из B1.4.11) следует, что кривые регрессии суть прямые линии, па- параллельные координатным осям и проходящие через центр тяжести (/»,, /и4). Если кривая регрессии есть прямая, то будем говорить, что мы имеем дело со случаем линейной регрессии. Кривые регрессии B1.5.1) и B1.5.2) обладают одним важным свойством минимальности. Попробуем найти среди всех функций g(Z) такую, которая дает возможно лучшее представление другой вели- величины Vj. Понимая выражение «возможно лучшее" в смысле принципа наименьших квадратов (см. параграф 15.6), мы должны определить g(?) так, чтобы сделать выражение ею оо Я[Ч-«E)?= J J LV-*(*)?/<*, y)dxdy= B1.5.3) » °? = \ f1(x)dx \ [y-g(x)ff(y\x)dy — со -^оо возможно более малым (см. B1.4.7)). Однако, согласно параграфу 15.4 интеграл по у в последнем выражении при любом значении х принимает наименьшее значение тогда, когда функция g (x) равна условному сред- среднему тг(х). Итак, среди всех возможных функций g($) минимум выражения E[rt — ?($)]г достигается при функции g(?) = mz(?), изображаемой графически кривой регрессии B1.5.1). Аналогично, выражение ?[? — Л (г()]2 достигает минимума при функции A(ij) = ml(y)> которая соответствует кривой регрессии B1.5.2). Аналогичные определения могут быть введены в случае распределения дискретного типа, заданного соотношением B1.1.1). Для любого значения х, величины С, для которого частная вероятность п. положительна, условное распределение величины ч задано соотношением B1.4.1). Рассмотрим некото- некоторое типичное значение этого распределения, например, условное сред-
нее пбр, заданное соотношением B1.4.3). Когда ? принимает все возможные значения xh мы получаем последовательность точек (xt, /«^.представляющую регрессию ч на ?. Регрессия ? на i) представляется последовательностью точек (т^\ у^), где т\^ — условное среднее величины ? при условии i) =Уц- В обоих случаях можно соединить точки, соответствующие последовательным значениям i или к, прямолинейными отрезками и рассматривать образованные таким образом ломаные как кривые регрессии дискретного распределения. 21.6. Регрессия, II. В литературе часто называют кривыми ре- регрессии другой тип кривых, отличный от рассмотренного нами в пре- предыдущем параграфе. Сейчас мы перейдем к рассмотрению этого дру- другого типа кривых. В экстремальной задаче, рассмотренной в связи с B1.5.3), мы пытались найти среда всех возможных функций g(?) такую, для которой среднее значение величины (ij— g(t)J имело бы возможно мень- меньшее значение, и обнаружили, что решение этой задачи дается кривой регрессии B1.5.1). Вместо того чтобы рассматривать всевозможные функции g(z), можно, однако, ограничиться функциями, принадлежа- принадлежащими некоторому данному классу, например, всевозможными линей- линейными функциями, всевозможными полиномами данной степени п и т. д. Итак, будем искать среди всех функций g(l), принадлежащих данному классу, такую, которая дает возможно лучшее представление вели- величины tj в смысле принципа наименьших квадратов. В этом случае наша экстремальная задача может иметь попрежнему определенное решение, но оно будет, вообще говоря, соответствовать кривой, от- отличной от кривой регрессии B1.5.1). Кривые, полученные этим путем, будут называться кривыми средней квадратической ре- регрессии. Простейший случай есть случай линейной средней квадратической регрессии. В этом случае мы ищем наилучшую линейную аппрокси- аппроксимацию величины ij посредством величины ?, т. е. такую линейную функцию g(l) = a-\-$?, для которой среднее значение величины (ij — йг(?))г принимает наименьшее возможное значение. Употребляя обозначения, введенные в параграфе 21.2, и предполагая > мы можем написать Е (ц — а — [КJ = Е (г, — /л2 — р (\ — я,) 4- я», - а — КJ = B1.0.1) _^р 2^ + ^ j{ma pmK
Простое вычисление показывает, что поставленная экстремальная задача имеет единственное решение B1.6.2) p = pt,=to = &, a = mt-hlml, где р — коэффициент корреляции, определенный равенством B1.2.8). Таким образом, прямая средней квадратмеской регрессии имеет уравнение B1.6.3) У ^ Эта линия проходит через точку (mv m2) и ее уравнение может быть также записано в виде B1.6.4) J=*? = pfLzi»l. Заметим, что эта прямая может быть определена для любого распре деления, обе дисперсии которого конечны и положительны, а не только для непрерывных и дискретных распределений, как кривые регрессии предыдущего параграфа. Величина E21, определенная первым равенством B1.6.2), есть ко- коэффициент регрессии 7] на ?. Если ввести в B1.6.1) значения а и [4, данные равенствами B1.6.2), то B1.6.1) достигнет своего минималь- минимального значения B1.6.5) г Выражение ?(ij — о — p?)*=Wj> — а — pc)%dP можно рассмат- ривать как взвешенное среднее квадрата расстояния по вертикали у—а—$х между частицей массы dP с координатами (х, у) и пря- прямой у = a -f- pAT. Так как это среднее становится минимальным для прямой регрессии B1.6.4), то эта прямая дает среди всех остальных прямых наилучшее в смысле принципа наименьших квадратов пред- ставдение нашего распределения, если расстояния до этой прямой измеряются вдоль оси у. В случае распределения, при котором кривая регрессии у=т2(х), определенная соотношением B1.5.1), существует, выражение Е(щ — — а — pSJ может быть записано в виде — Щ ($))' + 2Е [(ч — т2 E)) К F) — а —
Согласно B1.4.7) и B1.4.8), второе слагаемое в этом выражении равно нулю. Таким образом, для любых а и [J B1.6.6) Е (г, — а — $)* = E(Tt — m2 E))» + ? К (S) — а — ft?. В этом соотношении первое слагаемое правой части не зависит от а и C, так что второе слагаемое достигает своего минимума при тех же значениях аир, что и левая часть соотношения, т. е. для значений B1.6.2). Так как т2(х)— а — $х есть расстояние по вертикали между кривой регрессии у=т2{х) и прямой .у.—а + рдг, то прямая средней квадратической регрессии B1.6.4) может рассматриваться как прямая, дающая наилучшее приближение к кривой регрессии у = т2{х), если измерять расстояния вдоль оси у. Отсюда непосредственно вытекает, что в случае, когда кривая регрессии у = т2{х) есть прямая линия, она совпадает с прямой средней квадратической регрессии B1.6.4). Мы рассмотрели линейную среднюю квадратическую регрессию щ иа ?. В случае регрессии ? на J) нужно иайти значения а и j}, при которых выражение B1.6.7) Е (S — а — prj)^ = J (л:—а — pj/)* dP принимает возможно меньшее значение. Так же, как и выше, находим, что эта задача имеет единственное решение и что прямая, дающая минимум, может рассматриваться как прямая, дающая среди всех остальных прямых наилучшее представление массы нашего распределе- распределения (а также и кривой регрессии х=т1(у)) при условии, что рас- расстояния измеряются по горизонтали, т. е. вдоль оси х. Уравнение этой линии — прямой средней квадратической регрессии величины ? — может быть записано в виде B1.6.8) у_-тг^1_х-щ а коэффициент регрессии имеет выражение B1.6.9) HP,.-J=5. в то время как соответствующее значение минимума выражения B1.6.7) есть B1.6.10) Етт?—а — рЧ)»
Обе прямые средней квадратической регрессии B1.6.4) и B1.6.8) проходят через центр тяжести (mv тг). Эти две прямые никогда не совпадают, за исключением предельных случаев р = ±1, когда вся распределенная масса лежит на одной прямой (см. параграф 21.2). В этом случае обе прямые регрессии совпадают с этой прямой. При р = 0 уравнения прямых средней квадратической регрессии сводятся к у = т2 и х = т1, так что эти линии параллельны соот- соответствующим координатным осям. Этот случай имеет место, например, тогда, когда величины ? и ij независимы (см. параграфы 21.2 и 21.7). W , . а) У i i i i i i i Фиг. 23. Прямые средней квадратической регрессии. т1 = тг=0, о1 = о2— 1. а) р>0, Ь) р<0 Если нормировать наши случайные величины, переместив начало координат в центр тяжести и выбрав в, и в8 соответственно за еди- единицы измерения величин ? и ij, то уравнения прямых средней квадра- квадратической регрессии принимают простой вид у = рх и у=~. Если а Р не равно ни нулю, ни ^hl, то эти прямые расположены, как пока- показано на фиг. 23а и 23Ь. Если вместо измерения расстояния между точкой и прямой линией вдоль одной из координатных осей рассматривать кратчайшее расстояние, то мы получим новый тип прямых регрессии. Пусть d есть кратчайшее расстояни между точкой E, то) н прямой L. Если прямая L определена так, что Е(сР) принимает наименьшее возможное значение, то она называется прямой орто- ортогональной средней квадратической регрессии. Эта прямая наилучшим обра- образом представляет [Z, ^-распределение, если расстояния измеряются по перпен- перпендикулярам к прямой. E(tP) можно рассматривать как момент инерции распределенной массы относительно прямой L. Для данного направления прямой L ои всегда достигает минимума, когда L проходит через центр тяжести. Таким образом уравнение /.может быть записано в виде (Е — ту) sin ? — (ч — /я.) cos у г= О
где f есть угол между L и положительным направлением оси 5. Тогда момент инерции есть Е (О3) = ?((? — т{) sin f — (ч — т$ cos |)г = = |i» sin* ? — 2jiu sin f cos ? + Лм cos* T- Если на прямой L по обе стороны от центра тяжести отложить отрезок. длина которого обратно пропорциональна Ye (еР), то геометрическое место концов таких отрезков при различных значениях f есть эллипс инерции нашего распределения. Легко найти уравнение этого эллипса: 2?(? — тх)<ц — 1И3) , (тч--mtf_ При различных значениях с мы получим семейство гомотетичных эллипсов с обпмм центром (mla пгг). Направления главных осей этого семейства эллип- эллипсов получаются нз уравнения а уравнения этих осей суть B1.6.11) ч — Я1,= 14о — ft)» i К (ft» — РотJ +¦ 4l»?i В последнем соотношении нижний знак соответствует большой оси эллипса, следовательно,— минимуму E{d2), т. е. прямой ортогональной средней квад- ратической регрессии. В случае Рп = Ы ~ Ню = ° задача становится неопределенной. Во всех остальных случаях существует единственное решение. Параболическая средняя квадрашическая регрессия порядка л 3> 1 есть обобщение линейной средней квадратической регрессии. В этом случае мы хотим определить полином gfi) = {50 -\-... + Pn5"t при котором среднее значение Af = ?(ij — g(*))* имеет возможно меньшее значение. Тогда кривая y = g(x) есть парабола л-го порядка, дающая наилучшую аппроксимацию распределения массы, или кривой регрессии у=т2(х). Предполагая, что все моменты, встречающиеся в наших формулах, конечны, получим следующие условия минимума: где v = 0, 1, ..., я. Если моменты atk известны, то для определения п-\-\ неизвестных р0, ..., рп имеем, таким образом, п -\-1 уравнений.
Вычисления, необходимые для определения неизвестных коэффициентов, могут быть значительно упрощены, если полином регрессии g(x) рас- рассматривается как линейная комбинация ортогональных полиномов ру(х), связанных с частным распределением величины $ (см. параграф 12.6). Для всех порядков, для которых эти полиномы определены однозначно, имеем B1.6.12) Я (А, E) И при т = п, прИ И где полином р„ (х) имеет степень я, a F, (х) обозначает частную функ- функцию распределения величины ?. Любой полином g(x) степени п мо- может бить тогда записан в виде g(x) = сор„ (х) + ...-(- спрп (х) с постоянными коэффициентами со,...,сп. Условия минимума приоб ретают тогда такой вид: B1.6.13) ±Щ =E\pAt)(gM — TM = c4 — E[rlP,{b)) = O. Отсюда коэффициенты с.( получаются непосредственно: сч = Е(црч[Ь)). Далее, выражение для сч не зависит от степени я. Таким образом, если известен, например, полином регрессии степени п и ищется соответствующий полином степени п-\-\, то нужно вычислить только слагаемое ся+1/?я+1 {х). Вводя коэффициенты cv в выражение для сред- среднего значения М, находим минимальное значение М: 21.6.14) ?„|„(г( —?(S)P = ?(rf) —с» —... —«*. Заметим, наконец, что для выполнения приведенных выше сот- ношений несущественно, что /?,{*) суть полиномы. Любая последова- последовательность функций, удовлетворяющая условиям ортогональности B1.6.12), может быть использована для образования кривой средней квадратической регрессии y = g(x) = Vcv/>, (x), и соотношения B1.6.13) и B1.6.14) будут выполняться, каков бы ми был вид функ- функций рч(х). 21.7. Коэффициент корреляции. Согласно B1.2.8), коэффициент корреляции р величин S и ij определяется выражением Mi _ YE E — тхУ Е G1 —
и мы видели в параграфе 21.2, что —ls^psSl. Коэффициент кор- корреляции является важной характеристикой E, ^-распределения. Его основные свойства тесно связаны с прямыми средней квадратической регрессии у-/н8 х-тх B1.7.1) У~т%^\ х-тх каждая из которых дает наилучшую аппроксимацию (?, ^-распределе- ^-распределения в смысле, определенном в предыдущем параграфе. Точность аппроксимации, даваемой каждой из этих прямых, характеризуется соответственно выражениями B1'7) Таким образом, если из одной величины вычесть ее наилучшее приближение посредством линейной функции другой величины, то дисперсия «остатка" уменьшится сравнительно с дисперсией самой величины в отношении A — р2):1. Выражения B1.7.2) называются иногда остаточными дисперсиями величин tj и ?. Если р = 0, то дисперсию величины Tj нельзя уменьшить, вычитая из нее какую бы то ни было линейную функцию от ?, и, наоборот, дисперсию величины ? нельзя уменьшить, вычитая из нее линейную функцию от Tj. В этом случае будем говорить, что наши величины. некоррелированы. Если рт^О, то дисперсию величины tj можно уменьшить, вычитая из нее некоторую линейную функцию от S, и, обратно, дисперсию величины ? можно уменьшить, вычитая из нее некоторую линейную функцию от 7j. Максимальная величина, на которую можно таким спосо- способом уменьшить дисперсию, тем больше, чем больше абсолютная величина коэффициента корреляции р. При р^=0 мы будем говорить, что наши величины коррелирован/* и что корреляция положительна или отри- отрицательна соответственно при р^>0 и р<^0. Если р достигает одного из своих экстремальных значений Ч- 1, то, как показывает B1.7.2), остаточные дисперсии равны нулю. Мы уже показали в 21.2, что этот случай имеет место тогда и только тогда, когда вся масса (&, ^-распределения лежит на некоторой пря- прямой, совпадающей тогда с обеими прямыми регрессии B1.7.1). В этом
экстремальном случае существует точная функциональная зависимость между нашими величинами: каждому значению $ соответствует един- единственное значение ij, и обратно. Каждая величина является линейной функцией другой, и обе величины меняются в одном направлении, если р = + 1, и в разных направлениях, если р = — 1. Вследствие этих свойств коэффициент корреляции р можно рас- рассматривать как меру прямолинейности (?, ^-распределения. Эта прямо- прямолинейность достигает своего максимума при р = 4; 1, когда вся распределенная масса лежит на некоторой прямой линии. Противо- Противоположный крайний случай р = 0, когда дисперсия* одной из величин не может быть уменьшена вычитанием из нее какой-либо линейной функции другой величины. В параграфе 21.2 уже было показано, что в частном случае, когда величины ? и j] независимы, р = 0. Таким образом, две незави- независимые величины всегда некоррелированы. Важно отметить, что обрат- обратное места не имеет: две некоррелированные величины не обяза- обязательно независимы. Действительно, рассмотрим одномерную плотность вероятности g(x), отличную от нуля только при д;)>0 и имеющую конечный второй момент. Тогда есть функция плотности двумерного распределения, при котором плот- плотность массы на любой окружности дг2-4-<у2 = са постоянна. Центр тя- тяжести есть m1 = m2 = 0 и, в силу симметрии распределения, имеем jin = 0, следовательно, р = 0. Таким образом, величины с таким совместным распределением некоррелированы. Однако, согласно A5.11.3), для независимости этих величин необходимо и достаточно, чтобы функция f(x, у) представлялась в виде /j (at) ft{y), а это условие выполняется не всегда, как это видно на примере g(x) = е~х. Если р есть коэффициент корреляции величин $ и ij, то непосред- непосредственно из определения следует, что вэличины ?' =а?-\-Ь и ij' = z=ct[-\-d имеют коэффициент корреляции p' = psgn(ac), где sgnje = = -f-1 при ж>Ои sgnх = — 1 при х<i0. В частном случае дискретного распределения, при котором каждая величина способна принимать только два возможных значения (соот- (соответственно дг,, Агг ну1,у2)> после некоторых упрощений, используя
обозначения параграфа 21.1, находим, что B1.7.3) ? 21.8. Линейное преобразование случайных величин. Рассмот- Рассмотрим линейное преобразование случайных величин ? и i), соответствую- соответствующее повороту координатных осей около центра тяжести. Вводим новые переменные X и У, определенные соотношениями B18 1 = {i~ m,)cos<f>-H7j—w2)sin =— (? — /л,) sin'f-j-(rj—m2)cos<p. Обратное преобразование записывается так: — К sin to, B1.8.2) i v • i v ij = m2 -+- AT sin 'f -j- К cos (p. Если угол поворота <р определяется уравнением tg2<p = —^—, то Е (XY) = цп cos 2ср — у Oijo — ji02) sin 2? = О, так что величины X и У некоррелированы. 6 частном случае Цп = = ц2о — }л02 = 0, когда уравнение для (р неопределенно, E{XY) = 0 при любом (р. Таким образом, величины $ и ц всегда можно предста- представить в виде линейных функций двух некоррелированных величин. Рассмотрим частный случай, когда матрица вторых моментов Л1 = <|"г0 ^п J. имеет ранг 1 (см. параграф 21.2). Тогда р=±^ и кя распределенная масса лежит на прямой 7\ — т2 = —* (S—/»,). Определим теперь угол поворота 'f из уравнения tg<p = ^. Тогда из B1.8.1) находим Е (К2) = а\ sin2 (р — гра^ sin <p cos <p -f- <s\ cos2 <f = = (Sj sin <p — pe2 cos (pJ = 0. Таким образом, дисперсия величины Y равна нулю, так что величина почти всюду равна нулю (см. параграф 16.1). Если в B1.8.2) положить Y= 0,то получающиеся соотношения между 5, к] и X будут выполняться с вероятностью, равной единице. Итак, две величины Е и i), такие, что матрица М их вторых моментов имеет ранг 1, могут быть
с вероятностью, равной единице, представлены в виде линейных функций одной случайной величины. 21.9. Корреляционное отношение и средняя квадратическая связанность. Рассмотрим две величины 5 и tj с распределением не- непрерывного типа, при котором условное среднее т„{х) есть непре- непрерывная функция от а-. Полагая в B1.6.6) а = тъ, [5 = 0, получим B1.9.1) з| = ?(г( — m^ = E(ri — м,(;)K + ?(«. (S) —лу». Мы видим, что дисперсия величины ij может быть представлена как сумма двух компонент, а именно, среднего квадратического отклоне- отклонения jj от ее условного среднего тг ($) и среднего квадратического отклонения /н„(;) от ее среднего /м2. Определим теперь величину 6и, положив 00 I I B1. 03 B1.9.2) 0^ =~ ? («, E) - пиу- ^=-L j (да, (х) — мг,)"/, (*) Л». 2 '- — э» Эта величина 0,-. есть корреляционное отношение *) г, на ?, введенное К. Пирсоном. В приложениях обычно рассматривают квадрат этой величины, и поэтому ее знак можно оставить неопределенным. Из B1.9.1) получим B1.9.3) 1-0^ = Л,?(г,-/Ме,)». и, следовательно, B1.9.4) О<0»?<1. Далее, пишем уравнение первой прямой средней квадратической регрессии B1.7.1) в виде у=^а-\-$х и подставляем эти значения а и р в B1.6.6). Тогда, в силу B1.7.2) и B1.9.3), получим после некоторых упрощений B1.9.5) ^ = f -f-i- Е {пи (I) - а - ОД». Отсюда следует, чго 0^ = 0 тогда и только тогда, когда т^(х) не зависит от X. Действительно, если wid(jc) постоянно, то кривая регрессии y = mi(x) есть горизонтальная прямая; следовательно. *) В литературе обычно корреляционное отношение обозначается бук- буквой ч. Этим обозначением мы не можем здесь пользоваться, так как через ч X нас обозначена случайная величина.
р = р = О и f/2E = 0. Обратное доказывается аналогично. Далее, из B1.9.3) видно, что о\ = 1 тогда и только тогда, когда вся распре- распределенная масса лежит на кривой регрессии у = тг(х), так что суще- существует точная функциональная зависимость между нашими величинами. Для промежуточных значений О2, B1.9.3) показывает, что корреляцион- корреляционное отношение можно рассматривать как меру стремления массы накапливаться около кривой регрессии. Если регрессия г, на ? линейна, так что у — /и„ (х) есть прямая линия, то B1.9.5) показывает, что 0?- = р8, и B1.9.3) сводится к первому из соотношений B1.7.2). В этом случае вычисление кор- корреляционного отношения не дает ничего нового, если уже известен коэффициент корреляции р. С другой стороны, в случае нелинейной регрессии 0* всегда пре- превосходит р2 на величину, характеризующую отклонение кривой у = = /и2(лг) от прямой, дающей наилучшую аппроксимацию нашего рас- распределения в смысле, указанном ранее. Корреляционное отношение 0^, ? на tj определяется, конечно, ана- аналогичным образом. Для распределения дискретного типа корреляционное отношение может быть определено аналогично, причем соотношения B1.9.2) и B1.9.3) заменяются соотношениями B1,9.2а) 0* = ~Е «> — та)< = -I ? ,>,. (/»!," — и,)», °2 e2 i Ш .9.3а) 1 - в». = -V Е (г, - /и('>)г. *2 где /»Л и тМ определяются соответственно соотношениями B1.1.2) и B1.4.3). Соотношения B1.9.4). B1.9.5) и сделанные выше заключе- заключения относительно свойств корреляционного отношения справедливы с очевидными видоизменениями и в этом случае. Как коэффициент корреляции, так и корреляционное отношение служат для характеристики „степени зависимости'1 между двумя величи- величинами в смысле, истолкованном выше. Для этой же цели предлагались и многие другие характеристики. Из них мы упомянем здесь только среднюю квадраншческую связанность, введенную К. Пирсоном. Рас- Рассмотрим две величины ?, ij с совместным распределением дискретного типа, определенным равенствами B1.1.1), и предположим, что число
возможных значений конечно для обеих величин. Тогда вероятности pik образуют матрицу, имеющую, скажем, т строк и п столбцов. Так как любой столбец или любая строка, состоящие исключительно из нулей, могут быть отброшены, то можно предположить, что каждая строка и каждый столбец содержат по крайней мере один положительный элемент, так что все суммы ри и р.А положительны. Тогда средняя квадратическая связанность распределения определяется так: B1.9.6) y(Pit-PtP^y P Согласно B1.1.4), <p2 = Q тогда и только тогда, когда наши величины независимы. С другой стороны, из последнего выражения, в силу неравенств pik^pi. и pik^p.k, следует, что <p8sS0—1, где q== = min(m, и) обозначает наименьшее из чисел тип или их общее значение, если т = п. Далее, знак равенства в последнем соотношении имеет место тогда и только тогда, когда одна из величин есть, одно- иг a?g I значно определенная функция другой. Таким образом, Oagg' __. и величина ¦ _. может быть использована (на нормированной шкале) как мера степени зависимости между величинами ? и ц. В частном случае т = п = 2 после некоторых преобразований получаем B1 9 7) ф2= IPnPn-PnPvP Таким образом, при этом <р2 есть квадрат коэффициента корреляции р, «г заданного соотношением B1.7.3). В этом случае q=2 и —^ совпа- совпадает с <рг. Далее, <р2 принимает свое максимальное значение 1 только в двух случаях: р12=р21 = 0 или ри=рг2 = 0. 21.10. Эллипс рассеяния. Рассмотрим некоторую одномерную случайную величину S со средним значением т и стандартным отклоне- отклонением в. Если ?' — другая случайная величина, равномерно распределен- распределенная (см. параграф 19.1) по интервалу (т — о|^3, m-f-oV^), то легко видеть, что $' имеет то же среднее значение и то же стандартное отклоне- отклонение, что и S. Таким образом, интервал (т—аУ~3, т-\-в 1^3) можно считать геометрической характеристикой концентрации 5-распределе- ния около его центра тяжести т (см. также параграф 15.6).
Будем теперь искать аналогичную геометрическую характеристику концентрации двумерного распределения около его центра тяжести (т1,т2). Для этой цели ищем кривую, окружающую точку (/n,,m2), и такую, что если единица массы равномерно распределена по пло- площади, ограниченной этой кривой, то такое распределение имеет те же моменты первого и второго порядка, что и данное распределение. (Пол «равномерным распределением" мы подразумеваем, конечно, распределение с постоянной плотностью вероятности.) В этой общей форме задача, конечно, является неопределенной, и мы ограничимся отысканием эллипса, обладающего указанными свойствами. Для упрощения записи предположим, что т1 — т2 = 0. Пусть р^о, Рц и ц02—центральные моменты второго порядка данного распределения. Предположим, что р2<О> так чт0 наше распределе- распределение не принадлежит предельному типу, при котором вся масса лежит на некоторой прямой. Рассмотрим неотрицательную квадратичную форму Я (&. П) = "it* + 2a12Sq + e^Jf. Согласно A1.12.3), площадь, ограниченная эллипсом q = c2, равна -7=" i гДеЛ = лпй22 — а% • Если единица массы равномерно распре- V л. делена по этой площади, то моменты первого порядка этого распре- распределения, очевидно, равны нулю, а моменты второго порядка, согласно A1.12.4) равны с» аи с2 <*ц u d eu Т"А' ~Т"А И 4 "А ¦ Нужно определить с и aik так, чтобы эти моменты совпадали соответ- соответственно с jj^o, Vn и (Iqj. Легко видеть, что это выполняется при c« = 4 и "и — м* «12— м ¦ «22— м . где Af=^olxO2 — Ий- Получаемая таким образом форма q(?, ij) является обратной (см. параграф 11.7) к форме Q & Ч) = РиР + 2*ito + jFtt4». Возвращаясь к общему случаю произвольного центра тяжести (mv т2) и заменяя ]itk их выражениями через о,, а2 и р, получим, что
равномерное распределение единицы массы по площади, ограниченной эллипсом имеет те же моменты первого и второго порядков, что и данное распределение. Зтот эллипс называется эллипсом рассеяния, соответ- соответствующим данному распределению. Область, ограниченную эллипсом B1.10.1), можно, таким образом, рассматривать как двумерный аналог интервала (т — з Va, /я-f- зУ~3). Если два распределения в Л. с общим центром тяжести таковы, что эллипс рассеяния одного из них лежит целиком в другом, то говорят, что первое распределение имеет меньшее рассеяние по сравнению со вторым. Это понятие найдет важ- важное применение в теории оценок (см. параграф 32.7). Если заменить постоян- постоянную 4 в уравнении B1.10.1) произвольной постоянной с-, то получим для различных значений с2 семейство подобных эллипсов с общим центром (mv тг), которое совпадает с семейством эллипсов инерции, рассмотренным в параграфе 21.6. Общая боль- большая ось этих эллипсов совпадает с прямой ортогональной средней квадратической регрессии нашего распределения (см. параграф 21.6). Обычные прямые средней квадратической регрессии являются диамет- диаметрами этих эллипсов, сопряженными с одной из координатных осей (фиг. 24). 21.11. Сложение независимых случайных величин. Рассмотрим двумерные случайные величины хх =E], rtl) и jc2 = (?d, rB). Определим сумму х = х, -f- x2 по правилу векторного сложения Фиг. 24. Эллипс рассеянии и иримые puipec- син, р>0. Q — центр тяжести, QA — прямая ортогональной средней квадратичегкой ре- регрессии, QB — прямая средней квадратической регрессии г, на 5, QC — прямая средней киадра- тической регрессии 5 на т).
Согласно параграфу 14.5, х есть двумерная случайная величина с распределением, однозначно определенным совместным распределением величин xt и х.,. Предположим теперь, что величины хх и х2 независимы (см. параграф 14.4), и обозначим через y(t, и), ух (t, и) и y2(t, и) характеристические функции величин х, хх и х.г Согласно теореме A5.3.4), имеем Ф и, u) = E(et <* *-»ч)) = B1.11.1) Y ' . ,, , Обобщение на случай произвольного числа слагаемых очевидно. Таким образом, мы получаем ту же теорему, что и для одномерных величин (см. параграф 15.12): Характеристическая функция суммы независимых слагаемых есть произведение характеристических функций слагаемых. Рассмотрим теперь сумму х = х1-]-х2-\-.. .-\-хп, где величины jcv = (Sv, rh) независимы и все имеют одно и то же двумерное распре- распределение. Предположим, что это последнее распределение имеет конеч- конечные моменты второго порядка ji20, ци, у.йг и что моменты первого порядка равны нулю: /л,=/л2=0. Если <f(t,u) есть характеристи- характеристическая функция этого распределения величины лсу, то, согласно B1.3.3). имеем B1.11.2) ? [t, и) = 1 -1 (,л,0^ + 2^ i'« + Ро.) + <»('• + «")• С другой стороны, имеем х = (;, -(- ... +2„, »], -|- ... + >]„) и Если <рп (t, и) есть характеристическая функция величины —ж , то нз сказанного выше следует, что Заменяя в B1.11.2) t ч и на -^ и 77=1 получим frt— li ^¦*8 + 2«'1*И + 1НИЦ* | ' '— [ 2я ~ 2я где при любых фиксированных t и и величина Ь (я, t, и) стремится к нулю при я—|-ос. Следовательно, таким же образом, как и при
доказательстве теоремы Линдеберга — Леви (см. параграф 17.4), получим B1.11.3) 11ш <?„(<, U)=.-e-^" п-*оо Следовательно, <р„ (t, и) при любых t и и стремится к пределу, кото - рый, очевидно, является функцией непрерывной в точке (t, и) = @, 0). Согласно теореме непрерывности для характеристических функций, доказанной в параграфе 10.7, мы можем утверждать, что этот предел есть характеристическая функция некоторого распределения, которое в свою очередь служит пределом распределения величины -j==f при я—»-оо. Итак, если двумерные величины xltx2,... независимы и все имеют одно и то ще распределение с конечными моментами второго порядка и моментами первого порядка, равными нулю, то распределение величины Ху •••+_х& стремится при п—юо к не- некоторому предельному распределению; характеристическая функ- функция предельного распределения задается правой частью соотноше- соотношения B1.11.3). Исключая тривиальное ограничение mi—m2=z0i это есть обобщение теоремы Линдеберга — Леви (см. параграф 17.4) на двумерный случай. Нужно заметить, что относительно моментов второго порядка здесь предположено только, что они конечны. Предположим теперь, что заданы величины jj20, jxn и jjt02, такие, что квадратичная форма ^2 + 2,^ + Роз»2 неотрицательна; тогда можно найти (см. параграф 21.2) распределение, при котором т1 — тг = 0 и вторые моменты которого равны данным щ0, цп, ц03. Если принять это распределение за распределение каж- каждой из величин jrv в доказанной выше теореме, то выражение в пра- правой части B1.11.3) будет характеристической функцией распределения некоторой величины х. Вводя постоянный вектор т=(т1, /яа), полу- получим, что величина т-\-х имеет характеристическую функцию Распределение, соответствующее этой характеристической функции, есть двумерное нормальное распределение, которое будет рассмот- рассмотрено в следующем параграфе.
21.12. Нормальное распределение. Перейдем теперь к изучению распределения, соответствующего характеристической функции B1.11.4). Нужно различать два случая, соответственно тому, является ли не- неотрицательная квадратичная форма Q(t, и) = 1ър + 2jinfc + J*ca«* положительно-определенной или только полуопределенной (см. пара- параграф 11.10). В первом случае будем говорить, что мы имеем собствен- собственное нормальное распределение, во втором случае — несобствен- несобственное нормальное распределение. Говоря просто о нормальном распре- распределении, мы будем иметь в виду оба случая. Рассмотрим сперва случай положительно-определенной формы Q {t, и). При этом обратная форма Q-1 (х, у) существует и имеет выражение (см. параграф 21.10): М 1— ? V'l '1=2 где М=ц2вц0а — v*x = a\a\(\ — р*). Из (ll.12.lb) получим или, заменяя х на х — /и, и у на у—т2, 1 Г Г ? '(** +«V) -г — ев —ев Hmtt + т*) - -| Q (/, а) Последнее соотношение показывает, что функция {21.12.1) /(*,Л=5 1=—ГТ^'1- есть двумерная функция плотности с характеристической цией B1.12.2)
Разложение B1.3.2) для характеристической функции показывает, что величины т, и ц1к имеют для этого распределения свой обычный смысл средних значений и центральных моментов второго порядка. Функция f(x, у), определенная равенством B1.12.1), есть нормальная функция плотности от днух переменных. Она имеет максимальное значение в центре тяжести (т,, т2). Подобные эллипсы /С* —"i)* _лZpjx—mjiy — mt),(у — mtf\ __с2 V olOj ^ ^ / B1 12 31 1 /С* —" * 2A -pi) V в? уже встречавшиеся раньше в параграфах 21.6 и 21.10, играют в этом случае роль кривых равных вероятностей. Действительно, для любой точки, принадлежащей к эллипсу B1.12.3), имеем f(x,y)= Так как, согласно A1.12.3), площадь кольца между эллипсами, соот- соответствующими значениям с и c-\-dc, равна то масса, лежащая в этом кольце, равна 2ce~cidc, и, следовательно, масса, лежащая вне эллипса B1.12.3), равна Форма эллипса равных вероятностей B1.12.3) дает хорошее пред- представление о виде нормальной поверхности плотности z=f{x,у). При р=0, di = s2 эллипсы превращаются в окружности. Когда р при- приближается к -\-1 или — 1, эллипсы становятся более тонкими и вытянутыми, что является показателем стремления массы сосре- сосредоточиваться около общей большой оси этих эллипсов, являющейся прямой ортогональной средней квадратической регрессии (см. параграф 21.6) нашего распределения. О величине (?, ij) с плотностью вероятности B1.12.1) говорят, что она обладает собственным нормальным распределением. Согласно B1.3.4), характеристическая функция частного распределении вели- величины ? есть
Согласно параграфу 17.2, величина ? нормальна (/»,, 9,) с частной плотностью вероятности Заменой индексов получаем соответствующее выражение для частной плотности вероятности f2 (у) величины i). В частном случае, когда р = 0, видно, что f(x,y)=/j{x)f2{y), откуда следует, что величины $ и ij независимы. Таким образом, для нормального распределения справедливо утверждение, что две некор- некоррелированные величины независимы, хотя мы видели в параграфе 21. 7, что в общем случае это неверно. Условная плотность вероятности величины i) при условии $ = дг. согласно B1.4.6), равна B1.12.4) o2V2i:(l — f) Это — нормальная функция плотности относительно у со средним зна- значением и стандартным отклонением J2VT~—р2. Таким образом, регрессия т\ на !• линейна, и условная дисперсия величины 7) не зависит от значе- значения, принимаемого ?. Аналогичные свойства условного распределения величины с при данном значении ij выводятся точно так же. Если неотрицательная форма Q (t, и) является полуопределенной, то детерминант М равен нулю, и обратной формы не существует (см. параграфы 11.7 и 11.10). Однако из предыдущего параграфа следует, что выражение B1.12.2) попрежнему является характеристической функ- функцией некоторого распределения, которое будет называться несобствен- несобственным нормальным распределением. Согласно параграфу 21.2, при этом распределении вся масса сосредоточена в одной точке или на одной прямой линии, соответственно тому, равен ли ранг матрицы М нулю пли единице. В этом случае очевидно, что не существует конечной двумерной функции плотности. Однако несобственное нормальное распределение
можно всегда рассматривать как предел последовательности собствен- собственных нормальных распределений. Чтобы убедиться в этом, рассмотрим последовательность собственных нормальных распределений, соответ- соответствующих данным значениям/и2 и w2 и последовательности положительно- определенных форм Q4(t, u) = Q(t, и)-]-&*(&-{-и2), где ev—>-0. Соот- Соответствующие характеристические функции стремятся, конечно, к пре- пределу B1.12.2), и, согласно теореме непрерывности (см. параграф 10.7), эти собственные распределения стремятся тогда к данному несобствен- несобственному распределению. Рассмотрим какое-нибудь несобственное нормальное распределение с матрицей вторых моментов М ранга 1. Согласно параграфу 21.8, соот- соответствующие величины $ и 7j с вероятностью, равной единице, могут быть представлены как линейные функции одной величины X. Обратно, X есть линейная функция от ? и ij, и характеристическая функция mil—1 в"Р величины X имеет вид е z , так что величина X распределена нормально. Случай, когда матрица М имеет ранг 0, можно рассмат- рассматривать как предельный случай от —0. Таким образом, имеет место следующий результат: Двумерное несобственное нормальное распределение можно рас- рассматривать как обычное одномерное нормальное распределение на некоторой прямой линчи. При m1 = m2=0 нз A2.6.8) получаем следующее разложение нормальной плотности вероятности по степеням B1.12.5) f(x,y)-. , со 1_ V-» у! о Этот ряд можно проинтегрировать почленно н получить соответствующее разложение нормальной функции распределения {21.12.6) I ( /(а, у! — 00 —00 U При х=у-=§ из B1Л2.5) получим
и, следовательно, После интегрирования no p \ [ dr \ \ dr 1 ?"= .т- I г = о" arc sin a. г 1т^У\ft 2я v! * Чт. )Y~l ft 2я 1 О Теперь соотношение B1.12.6) дает О о /(я, о) dudv = — -f- ,j- arcsin p. —oo—oo и и и Из симметрии функции плотности f(x,y) следует, что в первой и третьей четвертях плоскости (*, у) заключено по — -J- — arc sin p массы в каждой, а во второй и четвертой четвертях заключены массы -.- —zr arc sin p. Эти соотношения были найдены Стнльтьесом [220] и Шеппардом [211]. ГЛАВА 32 ОБЩИЕ СВОЙСТВА РАСПРЕДЕЛЕНИЙ В Rn 22.1. Два простых типа распределений. Условные распреде- распределения. Совместное распределение вероятностей л одномерных случай пых величин ?j, ..., ?я (см. параграф 14.2) есть распределение в /г-мерном пространстве /?„ величины jc=Ej, ;..., 2„). Вероятностная функция (см. параграф 8.4) этого распределения есть функция множества Р(S) = P(x. с: S), которая для любого множества .S из Rn представляет вероятность соотношения х с 5. Функция рас- распределения есть функция от л действительных переменных, определен- определенная соотношением (8.3.1): F(xv .... xn) = Распределение однозначно определяется как функцией Р, так и функцией F. Как и раньше, мы будем часто использовать механическую интер- интерпретацию распределения вероятностей в виде распределения единицы массы по пространству /?п. Если выделить группу из k величин $п,.. .Х,к и спроектировать массу исходного л-мерного распределения на А-мер- ное пространство выделенных величин, то получим (см.параграф 8A)k-Jtep- ное частное распределение величин ?,,, ..., ^к. Соответствующая част- частная функция распределения получается, как и в двумерном случае, если
остальные л— k переменных в F положить равными -(-сю. Так, напри- например, частная функция распределения величины ?, есть F, (jc) = = F(x, oo,... , оо). Аналогичным образом получается частная функ- функция распределения любой величины &,. Как и в случаях п = 1 и 2 (см. параграфы 15.2 и 21.1) рассмотрим два простых типа распределений: дискретный и непрерывный. Их опреде ¦ ления и свойства совершенно аналогичны приведенным в параграфе 21.1, мы ограничимся здесь лишь несколькими краткими замечаниями. Для распределения дискретного типа на каждой оси ?, имеем конеч- нре или счетное множество точек хч, хч, ... сосредоточения массы частного распределения величины ?v. Тогда вся масса л-мерного рас- распределения величины jc = (?j, ..., ?„) заключена в точках сосредото- сосредоточения массы (лг];|, ..., хп1а), каждая из которых содержит массу Pi,... 1„ ^ 0> так что 2 Р- ¦ = 1- «»¦••• 'n Частное распределение любой группы из k величин также принадлежит дискретному типу и соответствующие значения р получаются, так же как и в B1.1.2) и B1.1.3), суммированием pti . по всем значениям остальных л — k величин. Для распределения непрерывного типа, функция распределения всюду непрерывна и плотность вероятности или функция плотности (см. параграф 8.4) dnF f(xv ..., хп) = дх^ дх^ существует и непрерывна всюду, за исключением, может быть, некото- некоторых точек, принадлежащих конечному числу гиперповерхностей в /?„. Дифференциал /(*,, ..., xn)dxt ... dxa называется элементом веро- вероятности (см. параграф 15.1) нашего распределения. Плотность вероятно- вероятности частного распределения любой группы из k величин получается интегрированием f{xv ..., хп) по остальным л — k величинам, как это было показано для двумерного случая соотношениями B1.1.5) и B1.1.6). Если величины ?2, ..., ?л имеют распределение непрерывного типа. то условная плотность вероятности величин Sj, ..... ?ft при
условиях ?ft+, = *ft+i. ...,€„— *„ задается выражением, обобщающим B1.4.10): B2.1.1) /(*„ .... хл\хк+1, ..., л-„) = ! хп) Наконец, рассмотрим две величины * = ($,, .. . ,?т)иу = (т1г . ..,rin), такие, что (/л -\- л)-мерная составная величина (*, у) имеет распреде- распределение непрерывного типа. Тогда, обобщая B1.1.7), находим, что для независимости величин х и у необходимо и достаточно, чтобы B2.1.2) f(xv ..., xm,yv ..., yn)=ft (*„ ..., xm)f2(yv ..., yn), где /, /, н /2 суть соответственно плотности вероятностей величин (х, у), X ну. Это условие непосредственно обобщается на случай про- произвольного числа величин х, у, .... 22.2. Замена переменных в непрерывном распределении. Пусть x = ($v ..., ?„)—случайная величина в /?„. Рассмотрим от функций B2.2.1) ru =g[ (?„...,?„), (i = l,2,..., in), где m не обязательно равно п. Тогда, согласно параграфу 14.5, вектор y=(Hv ..., rlm) представляет собой случайную величину в /я-мерном пространстве Rm с распределением вероятностей, которое однозначно задается распределением величины X. Рассмотрим здесь только частный случай, когда ш = п и распре- распределение величины х принадлежит к непрерывному типу. Если функции gt удовлетворяют некоторым условиям, то, как мы сейчас покажем, распределение величины у может быть точно определено. Предположим, что для всех х, таких, что плотность вероятности f{xv ..., хп) отлична от нуля, выполнены следующие условия: A) Функции gt всюду однозначны и непрерывны и, кроме того, имеют непрерывные частные производные -^ во всех точках х, за исключением, может быть, некоторых точек, принадлежащих к конеч- конечному числу гиперповерхностей. B) Соотношения B2.2.1), в которых мы полагаем т=п, опреде- определяют взаимнооднозначное соответствие между точками .*=(?„ ..., ?„), ИУ=(Ч1> • ¦ ¦» rJ> так что, обратно, lt — ht (rlv ... ,rtn) при i— 1,...,п, где функции ^ однозначны.
Рассмотрим точку X, не принадлежащую ни к какой из „особых" гиперповерхностей, в которой якобиан ¦.,.1'"" ,1" — ^~ отличен от нуля. Тогда якобиан обратного преобразования J — ' ''— _'- "J = -^ i 7 г г г в» Di, . . . , Ля) Uifcl конечен в точке у, соответствующей точке х, так как <* «1. • • •. «п) ' д D1. • • •. Чя) Если 5—достаточно малая окрестность точки х, а Т — соответствую- соответствующее ей множество в ^-пространстве, то J конечен во всех точках Т, и мы имеем B2.2.2) РE)= \f(xlt ...,xn)dXl... dxn = = \ где в последнем интеграле х{ должны быть заменены их выражениями xi = bi(yv ••-• Л) чеРез Л- Элемент вероятности распределения пел и чины X преобразовывается, таким образом, согласно равенству B2.2.3) /(*„ ..., хп) dx, ... dxn =/(jr,, ..., хв)! J | dy, ... dyn, где в правой части xi = hi(yv ..., _у„). Плотность вероятности новой величины У = (т[ , Щп) раина, следовательно, f(xlt ..., лся)|У|. Если я=1 и преобразование rj^g'(l) или $=:AGj) однозначно в обоих направлениях, то B2.2.3) сводится к f(x)dx=f[h(y)]\kl(y)\dy, где коэффициент при dy есть плотность вероятности величины щ. При- Примером может служить выражение A5.1.2), относящееся к линейному преобразованию г( = я? -\- Ь или S = г'~ ¦ . Предположим теперь, что условие В) не выполнено* Каждой точке х попреж- нему соответствует одна и только одна точка у, но обратное преобразование не однозначно: некоторой точке у может соответствовать несколько точек х. В этом случае нужно разделить лг-пространство на несколько частей, таких, что в каждой части соответствие однозначно в обоих направлениях. Тогда масса, лежащая на множестве Т в ^-пространстве, равна сумме масс, лежа- лежащих в множествах, соответствующих множеству Т в каждой из частей де-про- странства. Каждая из этих составляющих масс представляется кратный инте- интегралом, который может быть преобразован по формуле B2.2.2) Отсюда еле-
дует, что плотность вероятности величины у может быт-ь выражена в виде 2 ДIJ* I > гДе сумма распространяется на всевозможные точки х, соответг ствующие данной точке у, а /, и /„— соответствующие значения/ (jfj хп) и J. В случае я = 1 примером такого рода может служить преобразование т, = ?*, рассмотренное в параграфе 15.1. Выражение A5.1.4) для плотности вероят- вероятности является, очевидно, частным случаем общего выражения У]/.,|Л, |. Полее сложные примеры встретятся в параграфе 29.3. 22.3. Средние значения, моменты. Среднее значение функции g(ix, ..., ?„)¦ интегрируемой на Rn относительно л-мерной вероятно- вероятностной функции Р(S), было определено (см. равенство A5.3.2)) интегралом Моменты этого распределения (см. параграфы 9.2 и 21.2) опреде- определяются так: B2.3.1) а,, . . ,п = Е (Г/ ... О = [хг1--- х>р> ft» причем V] -j- ... -f-vn есть порядок момента. Для моментов первого порядка будем употреблять, обозначение «, = ?&)= \х,йР. Точка т = (т1, ..., тп) есть центр тяжести массы я-мернош рас- распределения. Центральные моменты jiv ,.,, или моменты относительно точки т получаются заменой в B2.3.1) степеней^' степенями E, — '«/)v;. Цен- Центральные моменты второго порядка играют важную роль в дальней- дальнейшем и, если не будет оговорено обратное, мы будем всегда предпо- предполагать, что они конечны. При л^>2 обычные обозначения для этих моментов неудобны из-за большого числа необходимых индексов. Чтобы упростить запись, введем следующие обозначения, положив B2 3 2) Х""= °= Таким образом, ).н обозначает дисперсию, о,- — стандартное откло- отклонение величины $(., а ).i/t обозначает смешанный второй момент вели- величин ?,. и 5А. Коэффициент корреляции ?,л = ^- определен, конечно, только когда о,- и ak положительны.
Очевидно, имеем Xw = \k, pw = р!к и р,, = 1. В частном случае п = 2 имеем Хп = Ци. X,t = Ци, L2 = Jio:. Обобщая B1.2.5), находим, что среднее значение B2.3.3) яB«|E|—™i)V= 2 WA \ 1 / /ftl неотрицательно, так что правая часть соотношения B2.3:3) есть неот- неотрицательная квадратичная форма от переменных flt ..., /л. Матрица этой формы есть матрица вторых моментов а форма, получаемая заменой tt = ~, соответствует матрице коэффи- коэффициентов корреляции Pal • • ¦ Рн j которая определена, если только все st- положительны. Таким образом, симметричные матрицы А и Р обе неотрицательны (см. параграф 11.10). Между А и Я существует соотношение где 2 обозначает диагональную матрицу с диагональными элементами <3ц... ¦, <V Согласно параграфу 11.6, матрицы А и Р имеют одинаковый ранг. Для соответствующих детерминантов |A] = |Xlft| и Р = |р.А| имеем | A| = ij2 ... <jJP. Из A1.10.8) получим B2.3.4) 0<|Л!<ли..Л„„, В частном случае, когда Х;А=0 при i=fik, будем говорить, что неличины ti ?„ некоррелированы. Матрица вторых моментов А в этом случае является диагональной матрицей, и | А | =Х1Х .. .Х„„. Если, кроме того, все а,- положительны, то матрица коэффициентов корре- корреляции Р существует и совпадает с единичной матрицей /, так что Р= 1- Более того, равенства | А | = Хц •.. Х„„ и Р = 1 имеют место только в случае некоррелированных величин.
22.4. Характеристические функции. Характеристическая функ- функция я-мерной случайной величины Jt = ($i, ..., %,) есть функция вектора t — (t1,...,tn), определенная как среднее значение функции «"'* •¦? {t) = Е (с'*") = J *"•* dP, где, в соответствии с A1.2.1), t'x=tlZl-\- ... -\-tJzn. Свойства характеристической функции двумерной величины (см. параграф 21.3) непосредственно распространяются на случай произвольного я. В част- частности, в окрестности точки t = 0 имеем разложение, обобщающее B1.3.2), B2.4.1) ?W = *"">(l+4ZV При и* —О это сводится к B2.4.2) f (*) = 1 _ 1X V/* $ Л* / Семи-инварианты л-мерного распределения определяются посред- посредством рпз.южения log'^, так же как и в параграфе 15.10 для случая Так же как и в параграфе 21.3, можно показать, что для неза- независимости величин х и у необходимо и достаточно, чтобы их совме- совместная характеристическая функция имела вид Характеристическая функция частного распределении любой группы из k величин, выбранных из Sj, ..., ?„, получается из tp(f), если положить /,. = 0 для всех л — k остальных величин. Таким образом, совместная характеристическая функция величин Zv ..., 5А есть B2.4.3) Е(в'('А+ ••• +<*»>) = ?(*!, ..., ik, 0, .... 0). 22.5. Ранг распределения. Ранг распределения в Rn (Фриш [ИЗ]; см. также Лукомский [151]) определяется как ранг г матрицы вторых моментов А (или как равный ему ранг матрицы коэффициентов кор- корреляции Р). Распределение называется собственным или несобственным в зависимости от того, имеет ли место г<^п или г=п. В частном случае л = 2, А совпадает с матрицей М, рассмотрен- рассмотренной в параграфе 21.2. Там было показано, что ранг матрицы М
непосредственно связан с некоторыми свойствами вырождения распреде- распределения. Докажем теперь, что аналогичная связь существует и в случае произвольного л. Распределение в Rn является собственным тогда и только тогда, когда не существует гиперплоскости в Rn, которая содержит всю распределенную массу. Для того чтобы распределение в Rn имело ранг г<^п, необхо- необходимо и достаточно, чтобы вся распределенная масса принадлежала некоторому линейному множеству Lr размерности г, но не принад- принадлежала бы ни одному линейному множеству размерности, меньшей г. Очевидно, достаточно доказать вторую часть нашей теоремы, так как первая часть является ее непосредственным следствием. Напомни», что, согласно параграфу 3.4, линейное множество размерности г в Rn определяется п — г независимыми линейными соотношениями между координатами. Предположим сперва, что задано распределение ранга г<^я. Квад- Квадратичная- форма матрицы Л B2.5.1) Q (t) = 2 А,* /, tk = Е ; 2 tt (?. - т,)\s имеет тогда ранг г, и поэтому (см. параграф 11.10) существует роино п —г линейно независимых векторов /=(#?>, ..., f<P>), таких, что Q(t )— 0. Для каждого вектора t соотношение B2.5.1) показывает, что равенство B2.5.2) 2 ^(^ -«,)-= 0 должно выполняться с вероятностью = 1. Тогда н — г соотноше- соотношений, соответствующих п — г векторам t , определяют некоторое линей- линейное множество Lr, которое содержит всю распределенную массу; так как любой вектор t, такой, что Q(?) = 0, должен быть линейной ком- комбинацией векторов tp, то не может существовать линейного множества меньшей размерности, обладающего тем же свойством. Обратно, если известно, что вся распределенная масса принадлежит некоторому линейному множеству Lr, но не существует линейного мно- множества меньшей размерности, обладающего этим свойством, то, пре- прежде всего, очевидно, что LT проходит через центр тяжести т, так что каждое из л — г независимых соотношений, определяющих Lr, должно иметь вид B2.5.2). Тогда соответствующее множество коэффициенте); ffi определяет, согласно B2.5.1), вектор t , такой, что
и так как существует ровно п—г независимых соотношений такого рода, то Q(t) имеет, согласно параграфу 11.10, ранг г, и наша теорема доказана. Итак, для распределения ранга г <^ л существует ровно л— г не.ча- ииспммх линейных, соотношении между величинами ^, которые выпол- выполнены с вероятностью, равной единице. Как пример мы можем рас- рассмотреть случай л = 3. Несобственное распределение в /?я имеет ранг 2, 1 или 0, соответственно тому, лежит ли вся масса в некоторой пло- плоскости, на некоторой прямой, или в некоторой точке, или соответ- соответственно тому, существует ли одно, два или три независимых линейных соотношений между величинами *,, 3:> 1-л, которые выполняются с веро- вероятностью, равной единице. 22.6. Линейное преобразование величин. Пусть случайные вели- величины !;, ?„ обладают данным распределением и /?„, таким, что /я = 0. Рассмотрим линейное преобразование B2.6.1) ru= y\clktk (i = 1, 2, ..., m). *¦-1 с матрицей С — Стп — {cik}, где т не обязательно равно п. В мат- матричном обозначении (см. параграф 11.3) преобразование B2.6.1) имеет вид.у = Сх. Это преобразование определяет новую случайную величину j>=_-Gjj, ..., rlm) с /н-мерным распределением, однозначно определенным данным л-мерным распределением величины х (см. па- параграфы 14.5 и 22.2). Очевидно, каждая величина гA- имеет ере wee значение, равное нулю. Далее, полагая \1к = Е (?Д), ^0, = Е (rtirik), получим и:» B2.П. 1) п V-ik~~ 2 CirkrsCks- r,s=l Это справедливо даже при щ^О и показывает, что матрицы вторых моментов А = АПП = {Х/Л} и М = Мтт = {р.{к} связаны с соотношением B2.6.2) М = СКС. Если в характеристической функции zi(t) величины х заменить ?,, ..., tn новыми переменными «,,..., ит посредством контрагрс- днентного преобразования (см. A1.7.5)) t = C'u. то, согласно A1.7.(i). t'x=a'y и, следовательно, B2.6.3) у (t) = Е (е"'*) = Е (<?'«'>) = ф (в). где ф (в) = ф («j, ..., ит) — характеристическая функция новой слу- случайной величины у.
Из B2.6.2) мм заключаем, основываясь на свойствах ранга мат- матрицы произведения (см. параграф 11.6), что ранг распределения вели- величины у никогда не превосходит ранга распределения величины X. Рассмотрим теперь частный случай ш = я и предположим, что матрица С = Ст„ не вырождена. Тогда, согласно параграфу 11.6, матрицы А и М имеют одинаковый ранг, так что в этом случае преобразование B2.6.1) не влияет на ранг распределения. Выберем, в частности, в качестве матрицы С ортогональную матрицу, такую, чтобы преоб- преобразованная матрица М была диагональной (см. параграф 11.9). Отсюда бу- будет следовать, что ц,-Л = 0 при / ^ k, так что величины ij,, ..., ria некор- релированы (ср. случай п = 2, параграф 21.8). В этом случае обрат- обратная матрица С существует (см. параграф 11.7), и обратное преобразова- преобразование х = С~гу показывает, что величины S,- могут быть представлены как линейные функции величин i;,. Если распределение величины х имеет ранг г, то диагональная матрица М содержит ровно г положительных диагональных элементов, а все другие ее элементы равны нулю. Если г<^п, то всегда можно занумеровать величины ги так, чтобы ji,,, .... iLj.f. были положительны. Тогда при i = r-\-\, ..., п будем иметь \lu = Е (т$) = 0; отсюда видно, что величина Гц почти всюду равна нулю. Таким образом, получаем следующее обобщение резуль- татоп параграфа 21.8: Если распределение п величин ?,,...,?„ имеет ранг г, то вели- величины ?,. могут быть с вероятностью, равной единице, представ- представлены в виде линейных функций г некоррелированных величин Ъ V Понятие сходимости по вероятности (см. параграф 20.3) непосредст- непосредственно распространяется на случай .многомерных величин. Величина ДГ —(?j, ...,?„) называется сходящейся по вероятности к постоянному вектору а = (я,, ..., ап), если ?; сходится по вероятности к at при /=1, .... «. Нам понадобится следующий аналог теоремы сходимости из параграфа 20.6, который можно установить, непосредственно обоб- обобщив доказательство, данное для одномерного случая: Предположим, что для всех v=l. 2, ... где хч. у, и г., суть п-мерные случайные величины, а А — матрица порядка п-п с постоянными элементами. Предположим далее, что яри п —* о© п-мерное распределение величины х., стремится к неко-
шорому предельному распределению, a z4 сходится по вероятности к нулю. Тогда предельное распределение величин j?v задается линей- линейным преобразованием у = Ах, где величина х имеет распределение, л- которому стремится распределение величины хч. 22.7. Эллипсоид рассеяния. Определение эллипса рассеяния, дан- данное в параграфе 21.10, может быть обобщено на любое число изме- измерений. Пусть величины $,, .. . ,?п имеют собственное распределение > А, с ffl=0 и с центральными моментами второго порядка ).ik. Рас- Рассмотрим неотрицательную квадратичную форму Если единица массы распределена равномерно (т. е. так, что плот- плотность вероятности постоянна) по области, ограниченной /t-мерным эл- эллипсоидом q=c*, то моменты первого порядка этого распределения, очевидно, будут равны нулю, а моменты второго порядка будут, согласно A1Т12.4), равны Теперь нужно определить с и aik так, чтобы эти моменты совпадали с данными моментами \ik. Легко видеть, что это имеет место при с*=л-\-2 и Таким образом, эллипсоид B2.7.1) ?($1, ...,?„)«= V ?*Ц.^г= л + 2 Л* обладает требуемым свойством. Он называется эллипсоидом рассеяния, соответствующим данному распределению, и служит геометрическим описанием сосредоточения распределенной массы около начала коорди- координат. Изменения в определении, которые нужно сделать п случае про- произвольного т, очевидны. Если два распределения с общим центром тяжести таковы, что один из эллипсоидов рассеяния лежит целиком в другом, то говорят, что первое распределение является более сосре- сосредоточенным, чем последнее. Квадратичная форма B2.7.1) является обратной к форме 2
(Так как матрица А симметрична, то в обратной матрице можно заме- заменить кк{ на Art — см. параграф 11.7.) л-мерный объем эллипсоида B2.7.1) равен, согласно A1.12.3), г (.f где детерминанты А = | Х1Л ] и Р = \ р[к | положительны, так как распре- распределение собственное. Если а,, ..., а„ заданы, то из B2.3.4) следует, что этот объем достигает своего максимума, когда величины некор- релированы (Р=1). С другой стороны, объем этот стремится к нулю, если р1й стремятся к коэффициентам корреляции некоторого несоб- несобственного распределения. Отношение между объемом и его максималь- максимальным значением равно V~P\ эта величина называется коэффициентом разброса данного распределения (Фриш [ИЗ]). Его можно рассматри- рассматривать как меру „невырожденности" распределения. При л = 2 имеем С другой стороны, квадрат объема эллипсоида пропорционален детерминанту A=sJ ,.. j^p-t такое выражение называется обобщен- обобщенной дисперсией распределения (Уилкс [232]). При л = 1 А сводится к обычной дисперсии а2, а при л = 2 имеем А=--з|а^A—р2). Наконец, заметим, что тождественность семейств подобных эллип- эллипсов рассеивания и эллипсов инерции, указанная в параграфе 21.10 для двумерного случая, не имеет места при л]>2. ГЛАВА 23 РЕГРЕССИЯ И КОРРЕЛЯЦИЯ В Rn 23.1. Поверхности регрессии. Кривые регрессии, введенные в па- параграфе 21.5, могут быть обобщены на любое число измерений, если распределение принадлежит к одному из наших двух простых типов. Рас- Рассмотрим, например, л величин 3,, ..., ?„ с распределением непрерыв- непрерывного типа. Условное среднее значение величины ^ при условиях S?=jt,- (i = 2, ..., л) равно 00 \
Геометрическое место точек (и/,, x.v ..., хя) при всевозможных значе- значениях хч, ..., хп есть поверхность регрессии для среднего значения величины С] и имеет уравнение х1 — ш1(х2 хП), «по является непосредственным обобщением B1.5.2). 23.2. Линейная средняя квадратическая регрессия. Рассмотрим теперь п величин ?,,...,{¦„ с совершенно произвольным распределе- распределением, имеющим конечные моменты второго порядка. Для упрощения записи будем предполагать в этой главе, что т = 0. Формулы для произвольного центра тяжести будут получаться просто заменой в данных ниже соотношениях ?,- на 5,-— /я,. Плоскость средней кеадратической регрессии величины {-, отно- относительно ?2> • • • i ?« определяется как такая гиперплоскость B3.2.1) ;, = ?„.„...„*, + ?13.2*...Л+ • • • +Pl*.23-e-Ai' которая дает наилучшую аппроксимацию «-мерного распределения в том смысле, что среднее значение B3.2.2) ?(€i-p12.34...A-"- -?1«.Я...«-А)а имеет наименьшее возможное значение. Таким образом, выражение в правой части соотношения B3.2.1) является наилучшей линейной оценкой величины 5t величинами ?8, ...,?„ в смысле обращения в мини- минимум выражения B3.2.2). Мы можем рассматривать здесь $2> ...,$„ как независимые переменные, a ?j как зависимую переменную, которая при- приближенно представляется или оценивается линейной комбинацией неза- независимых" переменных. Аналогично определяем плоскость средней квадратической регрес- регрессии для любой другой величины %. В этом случае, конечно, $г зани- занимает место зависимой переменной, а остальные переменные 5р..., ?,-_,, ?/+р ..., %п рассматриваются как независимые. Для коэффициентов регрессии*) § мы используем здесь обозна- обозначения, введенные Юлом [251]. Каждый коэффициент [5 имеет л индек- индексов, причем первые два индекса отделены точкой от остальных я — 2 *) Они часто называются также частными коэффициентами регрессии.
индексов. В первой группе из двух индексов, которые называются первичными индексами, первый индекс относится к зависимому пере- переменному, а второй к той из независимых переменных, при которой стоит данный коэффициент. Таким образом, порядок первичных индексов существен. Вторая группа индексов, которые мы будем называть вторичными, указывает на номера оставшихся переменных, взятых в произвольном порядке. Иногда, когда это не сможет при- привести к недоразумению, мы будем опускать эту вторую группу индексов. Чтобы определить коэффициенты регрессии, дифференцируем выра- выражение B3.2.2) по каждому из л—1 неизвестных коэффициентов ft и получаем таким образом л — 1 уравнений '•Л1* Вторичные индексы здесь опущены, так что (Ji*.23...t_j,*+i...n обозна- обозначены просто через $1Л. Детерминант этой системы уравнений равен Ап— алгебраическому дополнению элемента \п в детерминанте |А| = Предположим сперва, что распределение величины х — собствен- собственное (см.параграф 22.5). Матрица вторых моментов А и матрица коэффи- коэффициентов корреляции Р являются тогда положительно-определенными, так что Ап >0, и, согласно A1.8.2), наши уравнения имеют един- единственное решение B3.2.3) ^______._. Простой перестановкой индексов получим соответствующее выражение B3.2.4) $lk = -b*= — Ь.. §* для коэффициента [J,-A в плоскости регрессии величины ?,. Итак, в собственном распределении плоскость регрессии каждой величины относительно остальных величин определена однозначно, и коэффициенты корреляции задаются соотношением B3.2.4). В частном случае п некоррелированных величин все коэффициенты регрессии равны нулю, так как А/й = 0 при
Предположим теперь, что распределение величины*—несобственное с рангом г<^п. Тогда может иметь место равенство AlV=0 и соответ- соответственно некоторые коэффициенты регрессии могут быть бесконечны или неопределенны. В качестве примера рассмотрим случай я = 3. Для рас- распределения ранга 2 вся масса лежит в некоторой плоскости. Если эта плоскость не параллельна ни одной из координатных осей, то оче- очевидно, что все три плоскости регрессии совпадают с этой плоскостью, так что все коэффициенты регрессии конечны и однозначно опреде- определены. Если же эта плоскость параллельна одной из осей, скажем, оси ?,, то в двумерном частном распределении величин ?2 и €3 вся распределенная масса лежит на некоторой прямой. Матрица вторых моментов этого частного распределения имеет детерминант Ап, и. таким образом, Лп = 0. В этом случае можно сказать, что плоскость регрессии величины ?, параллельна оси с.1, так что по крайней мере один из коэффициентов регрессии р12-з и р1з-2 бесконечен. Для рас- распределения ранга 1 или 0 вся распределенная масса сосредоточена на некоторой прямой или в некоторой точке. Тогда каждая плоскость регрессии должна проходить через эту линию или эту точку, в осталь- остальном оставаясь совершенно неопределенной. Как и в параграфе 21.6, мы можем показать, что плоскость сред- средней квадратической регрессии B3.2.1) есть также плоскость, дающая наи- наилучшую аппроксимацию поверхности регрессии JCj = т1 (*.„ ..., хп), для всех распределений, для которых последняя существует. Если известно, что поверхность регрессии есть плоскость, то она совпадает с пло- плоскостью средней квадратической регрессии. Рассмотрим, далее, группу из А<^я величин ?, скажем ?,-, ?,, .. . ,?^ А-мерное частное распределение этих величин имеет в качестве своей матрицы вторых моментов некоторую подматрицу А* матрицы А. Тогда можно образовать плоскость регрессии величины с, относительно Су, ..., йд, и коэффициенты регрессии будут заданы выражениями, ана- аналогичными B3.2.4), в которых Л,7 и Al/t заменяются соответствующими алгебраическими дополнениями в детерминанте | А* |. Если, в частности, рассмотреть группу из л—1 величин 6j, ..., $,_.,, ?уЧ1, . ..,?„, то получим B3.2.5) Р'* где Ayy.lft — алгебраическое дополнение элемента Х(й в Ayy. (см. A1.5.3)).
23.3. Остатки, остаточная дисперсия. Предположим, что Разность B3.3.1) Ч,.я..в = ?1 —Ma----—PiA. где коэффициенты регрессии {JlA заданы соотношением B3.2.3), можно рассматривать как часть величины $,, остающуюся после вычитания из нее ее наилучшей линейной оценки величинами Е2, ...,?„. Она назы- называется остатком величины $, относительно $2, ...,?„. Остаток некоррелирован с любой из „вычитаемых* величин. Действительно, вводя выражение коэффициентов р, имеем 123.3.2) W..B= Следовательно, ?(jj ) = 0 и ,23.3.3) E(W b)=1L ? >,ЛА1Л=<[.у "Р" /=1. [1*=:i @ при / = 2, 3, ..., л. Отсюда следует, что остаточная дисперсия <з^ш23 п = Щч*.» я) за- задается выражением и что остатки 7ji.23...n и У-jk...q нскоррелированы в предположении, что все индексы i, j, ..., q встречаются среди вторичных индексов первого остатка. Остаточную дисперсию з^.23 п можно рассматривать как меру приближения при представлении 1Х посредством линейной комбинации величии $,,,...,?„. В случае л = 2, выражение B3.3.4) сводится, в соответствии с B1.7.2), к ^2 = 02A—рЗ). 23.4. Частная корреляция. Корреляция между величинами &, и ?2 характеризуется коэффициентом корреляции р12, который иногда назы- называется также полным коэффициентом корреляции ?, и $2. Если рас- рассматривать $j и $s совместно с остальными л — 2 величинами ?8,...,«л, то можно считать, что изменение величин ^ и S, вызывается в какой- то мере изменением остальных величин. Остатки j}1-34 л и tj представляют, согласно предыдущему параграфу, те части вели- величин S, и ?j, которые остаются после вычитания из них их наилуч- наилучших линейных оценок величинами $3> •••» *«• Таким образом, коэф-
фициент корреляции между этими двумя остатками можно рассматрн вать как характеристику корреляции между величинами $, н Sj после устранения изменений, вызванных влиянием S8,..., ?„. Он назы- называется частным коэффициентом корреляции <;, н ?« относительно ?3, ..., Srt и обозначается через р (Порядок индексов в каж- каждой из групп, разделенных точкой, конечно не существен.) Таким образом, имеем B3 4 1) Р Это выражение, будучи обычным коэффициентом корреляции между двумя случайными величинами, должно удовлетворять соотношению — 1 ««Р12-М...Л <1. Остатки -ь34 л и ri2-M я могут быть выражены в виде, анало- аналогичном B3.3.2), если использовать выражение B3.2.5) для -коэффи- -коэффициентов регрессии в группе из я — 1 величин. Тогда получим два следующих выражения, аналогичных B3.3.4): и далее ft , 2 ..22 Подставляя этн выражения в B3.4.1), получим простую формулу B3.4.2) р = Перестановкой индексов получим аналогичное выражение для частного коэффициента корреляции любых двух величин S, и ?t относительно остающихся я — 2 величин. Таким образом, любой частный коэффициент корреляции может быть выражен через центральные моменты llk или через полные коэф-
фициенты корреляции р/Л рассматриваемых величин. Так, например, в случае л = 3 B3.4.3) Pi2.3=i В частном случае некоррелированных величин из B3.4.2) следует, что все частные коэффициенты корреляции, подобно полным коэффи- коэффициентам корреляции, равны нулю. Так, например, р12,34 в = р,2 = 0. Если же корреляция между величинами существует, то р12.м л, вообще говоря, отличен от р12. Легко видеть, например, из B3.4.3), что р12 и р123 могут иметь различные знаки и что любой из этих коэффициентов может быть равен нулю, в то время как другой отли- отличен от нуля. Если полные коэффициенты корреляции р1к известны, то частные коэффициенты корреляции могут быть вычислены непосредственно из B3.4.2) и аналогичных выражений при других индексах. Численные расчеты могут быть упрощены использованием некоторых рекурент- ных соотношений, таких, как B3 4 4) О = ^18М — "-1 Р'л-а4-И-' Р2л'84 ..в-1 ? <1-р1Л-34...Я-1«1-р2Л-84...л-1) (см. упражнение 11, стр. 351), которое сходно с B3.4.3). Согласно этому соотношению, любой частный коэффициент корреляции может быть выражен через такие же коэффициенты с меньшим (на единицу) числом вторичных индексов. Исходя из полных коэффициентов р,й> мы можем, таким образом, вычислить сперва все частные коэффи- коэффициенты ptj.k с одним вторичным индексом, затем коэффициенты ptj.ki с двумя вторичными индексами и т. д. Если известны полные и частные коэффициенты корреляции, то любая остаточная дисперсия и любой частный коэффициент регрессии могут быть вычислены с помощью следующих соотношений (см. упраж- упражнения 12 —13, стр. 351): °!.23... я=°? о - &> о - pU A - &.*> • • -о - pL.23...»-,)- B3.4.5) которые являются непосредственным обобщением B1.6.9) и B1.6.10) (аналогичные соотношения получаются путей перестановки индексов).
Из последнего равенства B3.4.5) получаем 23.5. Сводный коэффициент корреляции. Рассмотрим остаток где ?* = jj^Sj -f- ... -f- $,„?„ есть наилучшая линейная оценка ?д вели- величинами ?2, ..., ?„. Легко показать, что среди всех линейных комби- комбинаций величин ?2, ..., Ел величина ?J имеет наибольшую корреляцию с ?,; последняя измеряется, конечно, обычным коэффициентом корре- корреляции. Коэффициент корреляции величин $i и $* можно, таким обра- образом, рассматривать как характеристику корреляции между величиной 5,, с одной стороны, и всей совокупностью величин $2, ..., ?я, с другой. Будем называть его сводным коэффициентом корреляции между ?} и ($2, ..., ?„) и писать Опуская вторичные индексы у lji-gj..^, имеем, согласно B3.3.3) и B3.3.4), е ед=е E, EХ - 4lM=л„ --^, и, следовательно, B3.5.2) Рнм= у i-^= /тг^:. В силу A1.10.2), A<ij,An, так что При/»1<23 п)=1 величина ?, япочти несомненно" равна некоторой линейной комбинации величин ?2, ..., $л. Это означает, что при сов- совместном распределении всех л величин вся масса заключена в некото- рой гиперплоскости пространства /?„, так что это распределение несобственно, и, в соответствии с B3.5.2), А = /> = 0. С другой
стороны, для собственного распределения из разложения A1.5.3) сле- следует, что п 1 fi tea ~n)~P\l tf±2 где сумма в правой части есть, согласно параграфу 11.10, положитель- положительно-определенная квадратичная форма величин р12, ..., р1п. Таким обра- образом, j»j{S3... л) = 0 тогда и только тогда, когда pis= ... =рм —О, т. е. когда ?j некоррелировано ни с одним ?,- (/ = 2,3, ...,л). Для численных вычислений удобно использовать соотношение (см. упражнение 13 на стр. 351) 23.6. Ортогональная средняя квадратнческая регрессия. Ортогональ- Ортогональная средняя квадратнческая регрессия, рассмотренная в параграфе 21.6, может быть обобщена иа любое число величии. Гиперплоскость Н, проходящая через центр тяжести т = 0 нашего л-мерного распределения, имеет уравнение где ?ii • • ¦, ?я — направляющие косинусы перпендикуляра к этой плоскости, так что 2?/ —*• квадрат расстояния между И н точкой х = Ei, ...,5Я) равен d* = ?]№/)*• Попробуем найти гиперплоскость Н, такую, что среднее значение Е (йг) принимает наименьшее возможное значение. Если такая гипер- гиперплоскость Н существует, то она называется плоскостью ортогональной сред- средней кеадратической регрессии (см. К. Пирсон [183а]). Для распределения, ранг которого меньше я, эта задача тривиальна, так как тогда вся масса лежит в некоторой гиперплоскости Н, которая дает зна- значение Е((р)г= 0. Поэтому мы можем предположить, что величина х имеет собственное распределение, откуда, согласно параграфу 11.9, следует, что все характеристические числа х,< матрицы вторых моментов Л положительны. Пусть хо — наименьшее из характеристических чисел и пусть at,..., <х„ — реше- решение однородной системы (in — "oJ'i-f >2i«i + Ou — *o) «s + ¦ ¦ • 4- >-2«a/. = 0, причем *i не все равны нулю. Согласно параграфу 11.8, такое решение непре- непременно существует, так как |Л — )ц/| = 0. Далее, мы можем, очевидно, предполо- предположить, что 2 в? = !¦ Тогда гиперплоскость /Уо с уравнением 2 *fii = ° обла- обладает необходимыми свойствами. Действительно, пусть rf0 есть расстояние
от точки х до Иц, ad— расстояние до какой-нибудь другой гипер- гиперплоскости 2РА —0* Тогда, полагая z,==fl~а,- н имея в виду, что /, ft 2222 /,* i ft i.k где ?/А суть элементы единичной матрицы /. Так как /q есть наименьшее нз характеристических чисел матрицы Л, то матрица Л — ц1, согласно пара- параграфу 11.10, неотрицательна и, следовательно, Можно показать, далее, что, если *q — простой корень векового урав- уравнения Матрицы Л, то плоскость ортогональной регрессии Н$ определяется этим способом однозначно, тогда как, если xg — кратный корень, то сущест- существует бесконечное множество плоскостей, обладающих требуемыми свойствами. Эти результаты становятся интуитивно ясными, если вспомнить, что, согласно A1.9.6), обратная матрица Л имеет характеристические числа —, так что квадраты главных осей эллипсоида рассеяния B2.7.1) пропорциональны числам х/. Это показывает, что плоскость ортогональной средней квадрати- ческой регрессии ортогональна к наименьшей оси эллипсоида рассеяния и, таким образом, определена или не определена однозначно в зависимости от того, существует ли одна такая наименьшая ось или несколько. Мы можем определить также прямую L, дающую наилучшую аппрокси- аппроксимацию распределения, в том смысле, что Е(Щ становится минимальным, где 8 обозначает кратчайшее расстояние между L и точкой х. Можно пока- показать, что эта прямая совпадает с наибольшей осью эллипсоида рассеяния. ГЛАВА 24 НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 24.1. Характеристическая функция. Как и в двумерном случае (параграфы 21.11 н 21.12), введем сперва характеристическую функ- функцию нормального распределения. Пусть ...,/e)=2VA /,*
обозначает неотрицательную квадратичную форму от f = (<j, »..,<„), а т = (OTj, ..., тп) — некоторый действительный, вектор. Покажем тогда, что функция '2 «Л-у <?<'• '»> = <?(tv...,tn) = e i B4.1.1) является характеристической функцией некоторого распределения в Rn, которое мы будем называть нормальным распределением. Прежде чем перейти к доказательству этого утверждения, кото- которое будет дано в двух следующих параграфах, сделаем несколько вводных замечаний. В матричном обозначении (см. параграфы 11.2 и 11.4) выражение B4.1.1) имеет вид ll&'t — — t'At B4.1.2) <p(f) = e 2 Разложение B2.4.1) показывает, что величины ttij и \Jk, как обычно, играют роль средних значений и центральных моментов второго по- порядка. Далее, из B2.4.3) следует, что любое частное распределение нормального распределения само нормально. Если матрица вторых моментов A = {lyft} является диагональной, то характеристическая функция B4.1.1) представляется в виде произ- произведения !f>j (<j).. .<fn(tn), в котором каждый множитель есть характе- характеристическая функция некоторого одномерного нормального распреде- распределения. Таким образом, л некоррелированных нормально распределенных величин всегда независимы. Как и в двумерном случае, мы должны различать два случая соот- соответственно тому, является ли неотрицательная форма Q определенной или полу определенной. Очевидно, мы можем везде предполагать, что т = 0, так как переход к этому случаю от общего влечет за собой только сложение величины x = (?v ..., ?„) с постоянным вектором. Мы используем те же обозначения длл моментов, коэффициентов кор- корреляции и т. д., что и в Предыдущих главах. 24.2. Собственное нормальное распределение. Если квадратич- квадратичная форма Q является положительно-определенной, то обратная форма Q~l существует, и мы имеем (см. 11.7) j
(Так как матрица вторых моментов Л симметрична, то мы вправе писать \jk вместо А^,). Тогда, согласно (ll.12.lb), 2 4 *>•••«- Это показывает, что функция «ешь плотность вероятности в Rnc характеристической функцией 42 B4.2.2) ?(*) = « '¦* Заменяя в B4.2.1) *у на Xj — т}, получим плотность вероятности общего собственного нормального распределения в /?п, характеристи- характеристическая функция которого задана соотношением B4.1.1). Для этого распределения семейство подобных эллипсоидов 2Т X ЛУ* (*У ~ т/> <** — от*) = с*' /.* порожденное эллипсоидом концентрации B2.7.1), суть поверхности равных вероятностей. Плотность вероятности на каждой из этих поверхностей пропорциональна e~ei. 24.3. Несобственное нормальное распределение. Если неотрица- неотрицательная форма Q является полуопределенной, то обратной формы ие существует, и выражение B4.2.1) для плотности вероятности становится неопределенным. Как и в двумерном случае (см. параграф 21.12), нахо- находим, однако, что функция tp(t) = e 2 может быть представлена как предел последовательности функций того же типа, но с определенными формами Qv. (Можно, например, взять Q, = Q + e*2*y> где ev—*-) Тогда из теоремы непрерывности (см. параграф 10.7) следует, что соот. ветствующие собственные нормальные распределения стремятся к пре- предельному распределению и что <f(t) есть характеристическая функция
этого предельного распределения, которое будет называться несобст- несобственным нормальным распределением. Если обозначить ранг полуопределенной формы Q через г, то г<^п, и матрица А вторых моментов величин 5It..,, ?„ имеет тоже ранг г. Тогда из параграфа 22.5 следует, что вся распределенная масса лежит в некотором линейном множестве Lr размерности г. Далее, согласно параграфу 22.6, величины %v.... ,?п могут быть с вероятностью, равной 1, представлены в виде линейных функций от г некоррелированных, величин rip..., rir, которые сами являются линейными функциями величин ?у. В следующем параграфе будет показано, что любые линейные функ- функции нормально распределенных величин сами распределены нормально, а из параграфа 24.1 мы знаем, что некоррелированные нормально рас- распределенные величины всегда независимы. Отсюда выводим следующую теорему: Если п величин ^ ,...,?„ имеют нормальное распределение ранга г, то они с вероятностью, равной 1, могут быть предстсв- лены в виде линейных функций от г независимых и нормально рас- распределенных величин. Очевидно, что эта теорема справедлива и в слу- случае г = п. 24.4. Линейное преобразование нормально распределенных величин. В дальнейшем, говоря о .нормальном распределении* и „нормально распределенных величинах", мы будем иметь в виду как собственные, так и несобственные нормальные распределения. Пусть величина х = E, ,...,€„) имеет в /?„ нормальное распределе- распределение, такое, что я*=0. С помощью линейного преобразования B2.6.1> вводим новую случайную величину y = (riv..., 7jm), где т не обяза- обязательно равно в. Тогда в матричном обозначении j> = Сх, где С = Стп. Между матрицами А и М вторых моментов величин хну имеем, согласно B2.6.2), соотношение Af = CAC, которое выполнено, даже если тфО. Попробуем теперь найти характеристическую функцию величины .у. Согласно B4.1.2), характеристическая функция величины х в матрич- матричном обозначении имеет вид Если в этом выражении заменить t переменной а, положив t = C'u, то, согласно B2.6.3), получим характеристическую функцию ф(о)
величины^. Таким образом, ф(в) = Е(е'и'У) = е 2 —с Последнее выражение является характеристической функцией нормаль- нормального распределения в Rm с матрицей вторых моментов М. Таким образом, взятые в любом числе линейные функции нормально рас- распределенных величин сами распределены нормально. Сделанное в параграфе 24.1 замечание, что частное распределение нормального распределения само нормально, содержится в этом пред- предложении как частный случай. 24.5. Распределение суммы квадратов. В параграфе 18.1 мы я изучили распределение суммы 2«<> где величины ^ независимы и 1 нормальны @,1). Это — ](г"РаспРеделение с п степенями свободы и плотностью вероятности kn(x), определенной равенством A8.1.3). В дальнейшем (см. параграфы 30.1—30.3) нам понадобится более общий'случай распределения 2$*> когда величины $р ..., 3„ распре- распределены нормально со средними значениями, равными нулю, и с мат- матрицей вторых моментов Л, все характеристические числа (см. 11.9) которой равны 0 или 1. Предположим, что р характеристических чисел равны 0, а остальные л — р равны 1. Тогда можно найти таксе- ортогональное преобразование у=-Сх, заменяющее старые величины х = (Sj, ... , ?„) новыми у = (ij,, ..., ijn), что преобразованная матрица вторых моментов М = СКС есть диагональная матрица, первые п — р диагональных элементов которой равны 1, а остальные р — нулю. Тогда новые величины fy,.. •. 7)„_р независимы и нормальны @,1), а Чл-в+п • • ч 1л имеют средние значения и дисперсии, равные нулю, и поэтому сами равны нулю с вероятностью 1. Следовательно, с вероятностью 1 имеем я л а—р S»2 K>Jt V J! 1 1 1 a Итак, 2&v распределена как сумма квадратов п — р независи- 1 л мых величин, которые нормальны @,1), т. е. 2Sv имеет -^-распре- -^-распределение сп—р степенями свободы и плотностью вероятности
Рассмотрим, наконец, еще более общий случай последовательности случайных величин х', Xя,..., такой, что распределение общего члена последовательности х = (?,,...,?„) стремится к нормальному распре- распределению рассмотренного выше типа. Применяя к характеристической функции величины 2 ^v теорему параграфа 10.7 и многомерную форму соотношения G.5.9), получим, что в пределе сумма квадратов 2$? имеет -^-распределение с п—р степенями свободы. 1 24.6. Условные распределения. Пусть п величин $,,...,$„ имеют собственное нормальное распределение с от = 0, плотность вероятности которого задана формулой B4.2.1). Условная плотность вероятности некоторого числа этих величин в предположении, что остальные вели- величины принимают фиксированные значения, задается выражением вида B2.1.1), и легко видеть, что эта плотность непременно будет собст- собственной нормальной плотностью вероятности. В качестве примера рас. смотрим условные распределения для одной и двух величин. Условное распределение одной величины. Условная плотность вероятности величины ?, при условиях &/ = *, (/ = 2, ... , л) равна, согласно B2.1.1), где А и В не зависят от дг,, но могут зависеть от хг,,.. ,хп. Послед- Последнее выражение есть функция плотности от xv и, следовательно, мы должны иметь 5=1/ ^Ч » так что условное распределение величины Sj нормально с дисперсией т- и средним "h(-*2>- • •>.*„)= л7**г • • • A^f х" ~ Р»*а "Ь *"' "bPi»*»' где (} суть коэффициенты регрессии, заданные соотношением B3.2.3). Та- Таким образом, регрессия линейна, н поэтому (см.параграф 23.2) поверхность регрессии для среднего значения величии ?, совпадает с плоскостью средней квадратической регрессии. Далее замечаем, что условная дисперсия
д- не зависит от х2,...,хп и равна остаточной дисперсии ?(гд.2з...в)> заданной соотношением B3.3.4). Условное распределение двух величин. Условная плотность вероятности величин ^ и ^ равна 00 09 — oo—oo = Се 2Л ' где С, D и ? не зависят от х, и хг. Введем теперь величины Тогда, согласно A1.7.3), получим а аналогично __Лк 4 Л ' A — так что Сравнивая это выражение с выражением двумерной нормальной плот- плотности вероятности в параграфе 21.12, находим, что условное распределение величин Ej и $з есть собственное нормальное распределение с услов- условными дисперсиями . ** и . п и с условным коэффициентом корре- корреляции — • f u . Заметим, что все эти три величины не зависят от УЛЛ •хв'"->хп- Дисперсии совпадают с дисперсиями остатков iJ,.S4...n и Чг-84.-п> изученными в параграфе 23.4, а условный коэффициент кор- корреляции совпадает с частным коэффициентом корреляции pia-84...rt. заданным соотношением B3.4.2). Для нормального распределения пос- последний коэффициент имеет важное значение, так как он характеризует не только корреляцию между остатками, но и корреляцию между ве- величинами i-j и $з при любых фиксированных значениях $,,....?„,
24.7. Сложение независимых величин. Центральная предельная теорема. Сумма двух л-мерных случайных величии je = (E1,.. .,$„) н j>=(jj,,. .., тш) определяется, как и в двумерном случае (см. параграф 21.11), а именно:X-\-y==(^-\-Tiu... ,?я-|-^я). Как ив параграфе 21.U, доказывается, что характеристическая функция суммы независимых величин есть произведение характеристических функций слагаемых. Выражение B4.1.1) для характеристической функции нормального распределения показывает, что сумма любого числа нормально распределенных и независимых величин сама распределена нормально, как это доказано в параграфе 17.3 для одномерного случая. В параграфе 21.11 мы рассматривали сумму большого числа неза- независимых двумерных величин, имеющих одно и то же распределение. Мы доказали, что если эту сумму разделить на квадратный корень из числа слагаемых, то распределение этой нормированной суммы стре - мится к некоторому нормальному распределению, когда число слагае- слагаемых стремится к бесконечности. Непосредственное обобщение доказа- доказательства этой теоремы показывает, что эта теорема справедлива для величин любого числа измерений. Это обобщение теоремы Линдеберга— Леви на случай п измерений является простейшим случаем централь- центральной предельной теоремы для величин в /?„. Общая форма этой тео- теоремы утверждает, что при некоторых условиях4 сумма большого числа независимых п-мерных случайных величин распределена асимптоти- асимптотически нормально. Точные условия выполнимости этой теоремы в общем случае, когда слагаемые могут иметь различные распределе- распределения, несколько сложнее, и мы не будем здесь углубляться в их выяснение. Довольно общее предложение было найдено Крамером ([И], теорема 21а). Упражнения к главам 21—24 1. 5 и г) суть величины, имеющие конечные моменты второго порядка. Показать, что D* E -f- т,) = D2 (?) -f D* W тогда н только тогда, когда эти величины некоррелированы. 2. Пусть <fI (t), f2 (f) и f @ суть характеристические функции величин 5. ч и E-f т,. В параграфе 15.12 было показано, что у (*) = ?t (f) у г (t), если величины i и т) независимы. Обратно, если известно, что ?(O = ftWTt(O Для всех t. то следует ли отсюда, что величины I и п независимы? Рассмотрите плот- плотность вероятности f(x,y) — -f[l-\-xy(x*~y*)], (|дг|<1, \У\<1) и покажите на этом примере, что ответ на поставленный вопрос отрицателен.
3. Рассмотрите разложение B1.3.2) характеристической функции двумер- двумерного распределения. Покажите, что если распределение имеет конечные моменты всех порядков, то это разложение можно продолжить до любых степеней t и и. Используя это разложение, показать, что для нормального распределения любой центральный момент \чк четного порядка i-\-k~1n равен коэффициенту при f'n* в полиноме 4. Совместное распределение величин S и т, нормально со средним значе- значением, равным нулю, н коэффициентом корреляции р. Показать, что коэффи- коэффициент корреляции величин Р н г,* равен ?. 5. Рассмотрим две величины 5 и т( с совместным распределением непре- непрерывного типа. Пусть <((t,u) есть совместная характеристическая функция. Используя обозначения параграфа 21.4, имеем -in $?ttx dx J u=0 -~eo —» CO — /» \ o* E № 15 = x) /t (.r) dx. — eo Обратно, справедлива формула, аналогичная A0.3.2): л=о если только последний интеграл абсолютно сходится. Используя итог резуль- результат, вывести свойства условного среднего н условной дисперсии нормального распределения, данные в параграфе 21.12. 6. Будем использовать те же обозначения, что и в предыдущем упраж- упражнении, и предполагать, что величина Tj неотрицательна. Если интеграл *»-« !$)„.,/< сходится равномерно относительно х, то он представляет плотность вероят- вероятности величины—. (Обобщение результата Крамера, доказанного в {11J для частного случая независимых величин 5 н г,,) Используя этот результат, вы- вынести распределения 18.2 и 18.3 и обобщить распределение Стьюлспта на случай, когда величина ? в A8.2.1) нормальна (от, в), где т ф 0 (.нецентраль- (.нецентральное* ^-распределение). 7. Найти необходимые и достаточные условия того, что три данные чпела Pu'Pis ч ?-и могли быть коэффициентами корреляции некоторого трехмерного
распределения. Найти возможные значения с в частном случае, когда р12 — 8. Каждая из величии х, у и г имеет среднее значение 0 и стандартное отклонение 1. Величины эти удовлетворяют соотношению ах -f- by -f- eg — О- Найти матрицу вторых моментов Л и показать, что а* -|- i* -J- с4 ^ 2 (л2?2 -|- в'с2 -|- ЬЧ2). 9. Результатом некоторого случайного эксперимента может быть любое из я несовместимых событии Ец..., Еп, причем вероятность наступления события я ?|уравна/>у> 0и2р/='• В ряде из N повторений нашего эксперимента л событие Е] наступает vy раз и 2 vy=W. Показать, что вероятность этого Л'! „ , „ результата равиа —j jp-^...р^. Совместное распределение величин vj, •••!*„, определенное этими вероятностями, есть обобщение биномиального распределения — так называемое мультиномиальное распределение. Показать, что для этого распределения mj = E(v})'=Npj,\jj=E{4j — Npjf = r= Npjll —pj), >/*= E ((v;- — Npj) (v# ->- Npi,)) = — Npji ь- Для матрицы вторых моментов Л имеем |Л |=0 н Луу = Л'я-1/;1/;г.. ,рп^0, так что ранг распре- я деления равен я — 1 в соответствии с соотношением 2 v/ = N между величина- 1 ми У/. Показать, что Pu-u-..j—у A_/,1_А_..._^,11_Л_Л_..ш_^ при / —3,...,я. Показать, далее, что совместная характеристическая функция величин есть tUl ^)=Г^? ^(SV^OV ЛГ. со стремится к пределу Это — характеристическая функция некоторого нормального распределения в Rn. Покажите, что это распределение имеет ранг л — 1 и что эти величины л удовлетворяют соотношению ^Xjifpj — O. Найти рц и р12-м---/-
10. Положить в мультиномиальном распределении /1 =JfU = l я— Исследовать предельное распределение при N -*¦ со (многомерное распреде- распределение Пуассона). 11. Показать, что остаток та.;,,.„, определенный соотношением B3.3.1), может быть также интерпретирован как остаток величины тI-я...п-1 отно- относительно единственной величины Ъп-п...п-\- Показать, что с помощью этого результата формула B3.4.4) для частного коэффициента корреляции может быть выведена из B3.4.3). 12. Используя результат предыдущего упражнения, доказать равенство Е A1.23 ...«) = Е ft |.23 ... Л-l) (Х — Pl«.23... Я—1>- Оно показывает, что представление 5Х линейной комбинацией величин ?„ ..., ?„_} может быть улучшено с помощью введения следующей величины 5Я тогда н только тогда, когда р1я.я.. .я_а Ф 0. 13. Доказать соотношения B3.4.5) и B3.5.3). 14. Используя теорему непрерывности (параграф 10.7), доказать следующее предложение: если последовательность нормальных распределений в Rn сходится к некоторому распределению, то предельное распределение нормально. (За- (Заметьте, что, в соответствии с параграфом 24.4, выражение .нормальное распре» деление* включает как собственный, так и несобственный случай.) 15. Величины Sj ,...,?„ имеют собственное нормальное распределение со средними аначениями mlt...,mn и матрицей вторых моментов А. Используя A1.12.3) и заключительное замечание в параграфе 24.2, показать, что величина /,Л = 1 имеет х'-распределение с л степенями свободы и плотностью вероятности заданной соотношением A8.1.3). 16. Величины ?1г...,5д независимы, нормально распределены и имеют одно и то же стандартное отклонение в, в то время как нх средние значения могут быть различны. Ортогональным преобразованием вводятся новые ве- величины ^„„v С помощью параграфа 24.4 показать, что величины ц1 независимы, нормально распределены и имеют все то же самое стандартное отклонение в, что и Е/.
ЧАСТЬ ТРЕТЬЯ СТАТИСТИЧЕСКИЕ ВЫВОДЫ
ГЛАВЫ 25—26 ОБЩИЕ ПОНЯТИЯ ГЛАВА 2S ПРЕДВАРИТЕЛЬНЫЕ ПОНЯТИЯ, ОТНОСЯЩИЕСЯ К ВЫБОРУ *) 25.1. Вводные замечания. В соответствии с тем, что было ска- сказано в главах 13—14, теорию случайных величин и распределений вероятностей, развитую во II части книги, следует рассматривать как систему математических предложений, служащую моделью явления ста- статистической устойчивости, наблюдаемого в связи с последовательно- последовательностями случайных экспериментов. Как уже было указано в параграфе 14.6, теперь наша задача ныработать методы испытания нашей математической теории на опыте и показать, как можно использовать эту теорию в проблемах получения статистических выводов из эмпирических данных. Эти вопросы и будут предметом III части книги. Среди совокупностей статистических данных, встречающихся в при- приложениях, можно обнаружить некоторые классы, для теоретической обработки которых требуются различные методы. В настоящей главе мы вкратце укажем некоторые из таких наиболее важных классов. Сле- Следующая глава будет посвящена предварительному обзору принципиаль- принципиальных вопросов, связанных с проверкой и применениями теории. 25.2. Простой случайный выбор. Рассмотрим случайный экспери- эксперимент E, связанный с одномерной случайной величиной %. Осуществив и независимых повторений эксперимента ©, мы получим последова- последовательность л наблюденных значений величины ;, которые обозначим Такая последовательность, представляющая собой результат я неза- независимых повторений некоторого случайного эксперимента, является представителем простого, но чрезвычайно важного класса статистических данных. Рассматривая статистические данные, относящиеся к этому *) Мы будем употреблять термин „выбор" для обозначения процесса вы- выбора, оставляя термин .выборка" для результата выбора, т. е. для множе- множества выбранных объектов. (Прим. перев.)
классу, мы часто будем употреблять общепринятую терминологию, заимствованную, как мы сейчас покажем, из некоторых частных при- приложений. Рассмотрим случайный эксперимент © такого типа: задано некото- некоторое множество, содержащее конечное число элементов; наш экспери- эксперимент заключается в том, что мы выбираем наугад какой-нибудь элемент атого множества, регистрируем значение некоторой определенной харак- характеристики ? этого элемента и затем возвращаем элемент в множество. Предполагается при этом, что эксперимент организован так, что веро- вероятность быть выбранным одинакова для всех элементов. Мы будем на- называть заданное множество генеральной совокупностью, а элементы этого множества—его членами или индивидуумами (см. параграф 13.3). Группа индивидуумов, наблюденных при я повторениях эксперимента (S, будет называться случайной выборкой из генеральной совокупности, а описанный процесс выбора — простым случайным выбором. Часто мы интересуемся не индивидуумами как таковыми, а только значениями характеристической величины с и их распределением среди членов совокупности. В таких случаях будет удобно рассматривать гене- генеральную совокупность, как состоящую не из индивидуумов, а из зна- ченай величины а- Последовательность л наблюденных значений xv ... , хп будет тогда рассматриваться как случайная выборка из этой совокуп- совокупности значений ?. С этой точки зрения мы можем заменить генераль- генеральную совокупность урной, содержащей билеты, по одному на каждый член совокупности, с написанными на них соответствующими значени- значениями величины Б. Эксперимент (& будет тогда заключаться в том, что мы наугад вынимаем билет, отмечаем написанное на нем значение и воз- возвращаем билет обратно в урну. Так как в урне имеется лишь конечное число билетов, случайная величина ? будет иметь конечное число возможных значений, так что ее распределение будет дискретного типа (см.параграф 15.2). Однако, по- полагая число N билетов очень большим, можно сколь угодно точно при- приблизить это распределение к любому наперед заданному распределению, и если N стремится к бесконечности, то ошибку такого приближения можно заставить стремиться к нулю. Таким образом, мы можем интер- интерпретировать любой случайный эксперимент G" как случайный выбор инди- индивидуума из бесконечной генеральной совокупности (см. параграф 13.3). При этом мы представляем себе урну, содержащую бесконечное коли- количество билетов, на каждом из которых написано некоторое число,
причем распределение этих чисел совпадает с распределением случайной величины ?, связанной с экспериментом (§. Каждое осуществление экс- эксперимента © интерпретируется как вынимание билета из урны, а по- последовательность х1,...,хп наблюденных значений величины $ рас- рассматривается как случайная выборка из бесконечной совокупности чи- чисел, написанных на билетах. Значения xlt ..., хп соответственно бу- будут называться выборочными значениями. Необходимо особо подчеркнуть, что распространение идеи выбора на случай бесконечной генеральной совокупности следует рассматри- рассматривать как простую иллюстрацию случайного эксперимента; мы прибе. гаем к ней лишь с целью введения удобной терминологии. Такие по- понятия, как случайный выбор индивидуумов из бесконечной совокупно- совокупности, ни в коей мере не следует считать частью нашей теории. Имея в виду эту оговорку, мы будем, однако, часто пользоваться терминологией выбора в указанном выше расширенном смысле. Мно- Множество наблюденных значений случайной величины с некоторой функ- функцией распределения F(x) будет, таким образом, часто рассматри- рассматриваться как случайная выборка из совокупности, имеющей функцию распределения F (х) или, как мы иногда будем говорить, случайная выборка из распределения, соответствующего F(x). В дальнейшем всякий раз, когда выражения „выборка" или „вы- „выбор" будут употребляться без дальнейшего уточнения, всегда будет подразумеваться, что мы имеем дело с простым случайным выбором. Все высказанное выше можно непосредственно распространить ни случайные величины любого числа измерений. Тогда каждый индиви- индивидуум в нашей воображаемой бесконечной совокупности будет характе- характеризоваться k числами, где k—размерность соответствующей случай- случайной величины, а каждая последовательность наблюденных значений 6-мерной случайной величины может интерпретироваться как случайная выборка из ^-мерной бесконечной совокупности. 25.3. Распределение выборки. Рассмотрим последовательность п наблюденных значений xv ..., хп одномерной случайной величины ? с функцией распределения F (х). В соответствии с предыдущим пара- графом, мы можем рассматривать дг,, ..., хп как множество выборочных значений, „вынутых" из генеральной совокупности с функцией распре- распределения F (дг). Выборку можно представить геометрически множеством п точек дг,, ..., хп на оси л\
Распределение выборки будет тогда определяться как распределе- распределение, которое получим, поместив массы, равные — , в каждой из то- точек jcj, ..., лгя. Это дискретное распределение, имеющее л точек со- сосредоточения массы (некоторые из которых, конечно, могут совпадать). Соответствующая функция распределений, которую мы будем обозна- обозначать F*(x), является ступенчатой функцией со скачками высоты — и каждой точке х(. Если обозначить через v число выборочных значе- значений, не превосходящих .г, то, очевидно, (-'5.3.1) F*(x)=^, гак что F* (х) представляет собой частоту события 3 s%: х и нашей последовательности из п наблюдений. Очевидно, распределение выборки однозначно определяется самой выборкой. С другой стороны, две выборки, состоящие из одних и тех же значений, но полученных в разном порядке, дадут одно и то же распределение. Действительно, распределение определяется лишь поло- положением выборочных значений на оси х, но не их порядком в выборке. Для определенного таким образом распределения с функцией рас- распределения F*(x) можно вычислить различные характеристики—мо- характеристики—моменты, семи-инварианты, коэффициенты асимметрии и эксцесса и т. д., но общим правилам для одномерных распределений, данным в главе 15 Эти характеристики будут называться моментами, семи-инвариантами н т. д. выборки; их следует отличать от соответствующих характери- характеристик распределения, соответствующего случайной величине $ и функ- функции распределения F {х). Последние характеристики будут называться также моментами, семи-ннвариантами и т. д. генеральной совокупности. Так, например, согласно параграфу 15.4, v-й момент выборки является средним арифметическим v-x степеней выборочных значений, СО тогда как соответствующий момент совокупности есть av=\ x'dF\x). — оо Введенные выше определения непосредственно распространяются на выборки из многомерных совокупностей. Предположим, например,
что мы имеем выборку л нар значений (*1,.у1), ..., (ха,уп) двумер- двумерной случайной величины. Эта ныборка может быть представлена гео- геометрически множеством л точек плоскости {х^у^), ..., (хп,уп ), и рас- распределением выборки является дискретное распределение, которое по- получим, поместив в каждой из этих л точек массу, равную — . Для этого распределения можно вычислить моменты, коэффициенты регрес- регрессии и корреляции и другие характеристики по общим правилам для днумерных распределений, данным в главе 21. Эти характеристики будут моментами и т. д. выборки в отличие от соответствующих ха- характеристик распределения (или генеральной совокупности). Обобще- Обобщение на выборки из совокупностей большего числа измерений очевидно. Распределение выборки, так же как моменты и другие характери- характеристики этого распределения, г. дальнейшем будут играть важную роль. Н связи с этим мы введем и параграфе 27.1 особую систему обозначений. 25.4. Выборочные значения как случайные величины. Выбороч- Выборочные распределения. Чтобы получить выборку из п значений одно- одномерной случайной величины с функцией распределения F(x), мы дол- должны осуществить п независимых повторений случайного эксперимента (S, с которым эта величина связана. Такая последовательность л по- нторений образует составной эксперимент, дающий и независимых вели- величин *,,..., хп, где xi соответствует /-му повторению эксперимента ©. Выборочные значения xt, ... , хп, представляющие результат этого со- составного эксперимента, образуют составную л-мерную случайную неличину (хг ..., хп), причем псе х: суть независимые величины, име- имеющие одну и ту же функцию распределения ^(д:). Значения величин -*¦,,...,*„, наблюденные в фактически осуществленной выборке, обра- образуют наблюденное „значение" л-мерной случайной величины (xv ..., д:„). Если выборочные значения рассматривать как случайные величины, то каждая функция otxv .. . , хп будет, согласно параграфу 14.5, случай- лой величиной с некоторым распределением, однозначно определяемым со- совместным распределением величии .v,-, т. с. функцией распределения F{x), Каждый момент или любая другая характеристика выборки есть не- некоторая функция g(xJt ..., хп) выборочных значений. Следовательно, л-аждая выборочная характеристика является случайной величиной с распределением, однозначно определяемым функцией F(x). Если из некоторой совокупности повторно извлекать выборки, со- состоящие из и значений, и для каждой выборки вычислять характери-
стику g(xv ..., хп), то последовательность получаемых таким обра- образом значений образует последовательность наблюденных значений слу- случайной величины g(xit ...,xn). Распределение вероятностей для этой величины будет называться выборочным распределением соответствую- соответствующей характеристики. Эти замечания немедленно обобщаются на случай выборок из мно- многомерных совокупностей. В том же смысле, как и выше, выборочные значения будут рассматриваться как случайные величины. Далее, лю- любой момент, коэффициент корреляции или любая другая характеристика такой выборки являются функциями выборочных значений и, таким образом, образуют некоторые случайные величины, распределения ко- которых однозначно задаются распределением совокупности и называются выборочными распределениями этих характеристик. Таким образом, мы можем говорить о выборочном распределении среднего значения выборки, дисперсии, коэффициента корреляции и т. д. Свойства выборочных распределений различных важных выборочных характеристик будут изучены в главах 27—29. 25.5. Статистический аналог для распределения. В качестве примера применения понятий, введенных в предыдущем параграфе, мы рассмот- рассмотрим функцию распределения F* (х) Одномерной выборки, являющуюся, согласно B5.3.1), функцией от выборочных значений, содержащей пе- переменный параметр х. Как указано в параграфе 25.3, F* (х) равна частоте события ?^х при л повторениях эксперимента (§. Согласно определению функции распределения F(x) величины 3, событие S^jc имеет вероятность F(x). Таким образом, из теоремы Бернулли сле- следует, как это было показано в параграфе 20.3, что F* (х) сходится по вероятности к F(x) при и — >оо. Если л велико, то практически несомненно, что функция распреде- распределения выборки F* (х) приблизительно равна функции распределения со- совокупности F(x). Следовательно, распределение выборки можно рас- рассматривать, как некоторого рода стапшапический аналог для распре- распределения совокупности. График y — F*(x) ступенчатой функции F* (х) мы будем называть эмпирической функцией распределения выборки- Таким образом, можно ожидать, что при больших значениях л эмпи- эмпирическая функция распределения выборки будет давать хорошее при- приближение для кривой y = F(x). В качестве примера мы приводим на фиг. 25 эмпирическую функцию распределения для выборки в сто сред-
них июньских температур в Стокгольме (см. таблицу 30.4.2, стр. 476) вместе с. (гипотетической) нормальной функцией распределения соответст- соответствующей совокупности. На практике выборки из непрерывных, распределений часто под- подвергаются группировке. При этом индивидуальные выборочные, значе- значения не даются, а указывается лишь число выборочных значений, по- попавших в интервалы некоторого определенного разбиения. Затем О.60 W 13' at' 15' 16' 18' Фиг. 25. Эмпирическая функция распределения для 100 средних июньских температур (в с С) в Стокгольме за 1841—1940 гг. и нормальная функция распределения каждый интервал этого разбиения принимается за основание прямоуголь- прямоугольника высоты —, где А — длина интервала, a v обозначает число вы- выборочных значений, попавших в этот интервал. Получающаяся при этом фигура называется гистограммой выборки. Площадь каждого прямо- прямоугольника гистограммы равна частоте — соответствующей группы. При больших п можно ожидать, что эта площадь будет приблизительно равна вероятности для наблюденного значения попасть в соответству- соответствующий интервал, т. е. будет приблизительно равна интегралу от плот- плотности вероятности f(x), распространенному на данный интервал. Таким образом, верхняя часть контура гистограммы образует статистический
аналог для плотности вероятности, так же как эмпирическая функция распределения является статистическим аналогом для функции распре- распределения. В качестве примера мм приводим на фиг. 26 гистограмму лыборки 12 000 размеров бобов, приведенной в таблице 30.4.3, на стр. 477, вместе с (гипотетической) плотностью вероятности соответ- соответствующей совокупности, полученной с помощью разложения Эджворта (см. формулу A7.7.5)). Аналогичные замечания можно высказать относительно распреде- распределения выборки любого числа измерений. Позднее мы обнаружим, что между различными характеристиками распределения выборки и распре- распределения совокупности существует соответствие такого же рода, как UD5 -10 Фиг. 26. Гистограмма для размеров 12 000 бобов и плот- плотность вероятности, найденная с помощью ряда Эджворта. Шкал;* пг) горизонтальной оси соответствует условной ну- нумерации интервалов разбиения." и в одномерном случае. Действительно, в параграфах 27.3 и 27.8 бу- будет показано, что при весьма общих условиях характеристика выборки сходится по вероятности к характеристике совокупности, когда объем выборки стремится к бесконечности. В таких случаях выборочные характеристики можно рассматривать как оценка для соответствую- соответствующих характеристик совокупности. Систематическое исследование таких оценок и их распределений вероятностей дадут в дальнейшем некото- некоторые из наиболее мощных средств статистических выводов. 25.6. Пристрастный выбор. Таблицы случайных чисел. Когда мы имеем дело с конечной генеральной совокупностью, понятие про- простого случайного выбора имеет точный и конкретный смысл. Мы всегда можем предполагать, что постановка эксперимента удовлетворяет уело-
ниям случайного выбора индивидуумов из такой совокупности с рав- равными шансами для всех индивидуумов, лаже тогда, когда практиче- практическая реализация этих условий представляет большие трудности. На практике часто при выборе обнаруживается предпочтение некоторым индивидуумам или группам индивидуумов; тогда приходится говорить о пристрастном выборе. Опыт показывает, например, что такого рода * пристрастность" следует ожидать всегда, когда выбор индивидуумов лз генеральной совокупности записит от воли человека. В план настоящей книги не входит рассмотрение вопросов, отно- относящихся к технике случайного выбора, например, о мерах, устраня- устраняющих, насколько это возможно, пристрастность выбора. Мы лишь за- заметим, что во многих случаях полезно употреблять таблицы случай- случайных чисел (см. [262], [263], [267]). Такая таблица состоит из после- последовательности целых чисел, представляющих результат простого слу- случайного выбора из совокупности цифр 0,1,..., 9. Объединяя два столбца этой таблицы, мы получим последовательность чисел, образован" ных таким же образом и:> совокупности, содержащей 102 чисел 00, ... , 99i и аналогично для трех, четырех или любого большего числа столбцов. Предположим, что мы хотрм использовать такую таблицу для по- получения случайной выборки в 100 индивидуумов из совокупности, состоящей, скажем, из 8183 членов. Тогда сначала следует перенуме- перенумеровать члены совокупности, присвоив им порядковые номера от 0000 до 8182, затем следует читать последовательность четырехзначных чисел из таблицы, пропуская числа, превышающие 8182, пока мы ис наберем 100 чисел. Тогда наша выборка будет состоять из индивиду- индивидуумов, занумерованных этими числами. Если осуществляется выбор без возвращения (см. параграф 25.7), то при чтении чисел в таблице мы должны пропускать тс числа, которые уже встречались ранее. Таблицы случайных чисел могут употребляться также для полу- получения выборки наблюденных значений случайной величины с данной функцией распределения ^(д:). Предположим, что функция F(x) табу- табулирована так, что для любого от-значного числа г можно решить от- относительно аг уравнение F(a}) = r-\0~m. Тогда в нашей таблице слу- случайных чисел мы прочтем последовательность /к-значных чисел т и составим выборку значений дг так, чтобы значение дг, соответствую- соответствующее числу г, находилось в интервале °r<Cx^ar+i- Таким образом мы получаем сразу группированную выборку: выборочные значения не определяются точно, но наш процесс дает число выборочных значений,
принадлежащих каждому интервалу (аг, аг+1), причем вероятность по- попадания какого-нибудь выборочного значения в этот интервал в точ- точности равна выражению Чем большее т мы возьмем, тем более частое получается разбие- разбиение, и тем точнее определяются выборочные значения. Подробности о таблицах случайных чисел и об их использовании читатель найдет го введениях к таблицам и в двух статьях Кендала и Бебингтона Смита [137]. 25.7. Выбор без возвращения. Метод репрезентативной выборки. На практике выбор из конечной совокупности часто совершается таким образом, что вынимаемый индивидуум не возвращается в основную совокупность перед следующим выниманием. Такая последовательность выниманий, очевидно, не носит характера повторений случайного экспе- эксперимента при неизменных условиях, так как состав основной совокуп- совокупности меняется от одного вынимания к другому. При этом мы гово- говорим о выборе без возвращения, который следует отличать от простого случайного выбора, являющегося выбором с возвращением. Если основ- основная совокупность очень велика и выборка составляет лишь очень малую часть всей совокупности, то, очевидно, различие между этими двумя видами выбора несущественно, и в предельном случае, когда совокуп- совокупность становится бесконечной, а объем выборки остается конечным, это различие пропадает. Выбор без возвращения играет важную роль в прикладной стати- статистике. Если необходимо получить сведения о характеристиках некото- некоторой большой совокупности, например, совокупности жителей данной страны, илн деревьев в данном районе, или товаров, поставляемых данной фабрикой, и т. п., то часто бывает практически невозможно подвергнуть наблюдению или измерению каждый индивидуум такой совокупности. В таких случаях обычно употребляется метод, известный иод названием метода репрезентативной выборки: для наблюдения извлекается выборка индивидуумов, причем стараются сделать эту вы- выборку, насколько это возможно, показательной для всей совокупности- В таких случаях обычно применяют выбор без возвращения. Метод выбора может быть случайным или преднамеренным; в последнем слу- случае мы выбираем индивидуумы, входящие к нашу выборку, обдуманно.
<тремясь сделать выборку показательной. Часто употребляются также (мешанные методы. По вопросам теории метода репрезентативной выборки мы отсылаем читателя к работе Неймана [161]. Некоторые простые случаи будут рассмотрены в параграфах 34.2 и 34.4. ГЛАВА 26 СТАТИСТИЧЕСКИЕ ВЫВОДЫ 26.1. Вводные замечания. В параграфе 13.4 было подчеркнуто, что никакая математическая теория не изучает непосредственно вещи, с которыми мы сталкиваемся на опыте. Математическая теория всецело принадлежит к области понятий и оперирует с чисто абстррктными объектами. Однако теория служит моделью некоторой группы явлений* реального мира, и абстрактные объекты и предложения теории имеют своими двойниками некоторые наблюдаемые вещи и соотношения между вещами. Для того чтобы такай модель была практически полезна, дол- должна существовать некоторая согласованность между предложениями тео- теории и их эмпирическими дубликатами. Если некоторое предложение имеет своим двойником какое-нибудь непосредственно наблюдаемое со- соотношение, то мы должны требовать, чтобы наши наблюдения дейст- действительно подтверждали наличие этого соотношения. Если такого рода согласованность обнаруживается при повторных проверках, и если мы считаем ее достаточно точной и перманентной, то теорию можно при- принять для использования на практике. В настоящей главе мы рассмотрим некоторые вопросы, возникаю- возникающие при применении общих принципов к математической теории веро- вероятностей. Сначала мы рассмотрим вопрос о проверке согласованности теории с данными опыта, а затем дадим краткий обзор приложений теории для целей получения статистических выводов. 26.2. Согласованность теории с данными опыта. Критерии зна- значимости. Понятие математической вероятности, определенное в пара- параграфе 13.5, имеет своим эмпирическим двойником некоторые непосред- непосредственно наблюдаемые частоты. Предложение: «Вероятность события Е, связанного со случайным экспериментом (S, равна Я" имеет своим двойником, согласно параграфу 13.5, утверждение, называемое частот-
ной интерпретацией вероятности Р и гласящее: „Практически несо- несомненно, что частота события Е в длинном ряду повторений экспери- эксперимента E будет приближенно равна Р*. В соответствии с этим мы должны требовать, чтобы всякий раз, когда теоретаческие выводы приводят к определенному численному значению для вероятности некоторого наблюдаемого события, наши наблюдения подтверждали бы истинность соответствующей частот- частотной интерпретации. Так, например, если вероятность какого-нибудь события очень мала, то мы должны требовать, чтобы в длинном ряду наблюдений это со- событие осуществлялось лишь в очень малой доле всех повторений со- соответствующего эксперимента. Следовательно, мы должны считать прак- практически несомненным, что при одном осуществлении этого экспери- эксперимента рассматриваемое событие не произойдет (см. параграф 13.5). Аналогично, если вероятность события очень близка к единице, то мы должны требовать, чтобы с практической несомненностью событие происходило при однократном осуществлении соответствующего экспе- эксперимента. Во многих случаях задача проверки согласованности теории с опыт- опытными данными представляется в таком виде: мы располагаем выборкой, состоящей из я наблюденных значений некоторой случайной величины, и хотим узнать, можно ли считать, что распределение вероятностей этой величины имеет некоторые заданные свойства. Иногда гипотети- гипотетическое распределение точно задано заранее: например, мы можем по- поставить вопрос, допустимо ли предположение, что наша выборка полу- получена простым случайным выбором из совокупности, имеющей нормаль- нормальное распределение с /и = 0 и 9=1 (см. параграф 17.2). В других случаях мы задаем некоторый класс распределений и спрашиваем, мо- может ли наша выборка быть получена из совокупности с некоторым распределением, принадлежащим к данному классу. Рассмотрим простой случай, в котором гипотетическое распреде- распределение полностью задано заранее, например, посредством его функции распределения F(x). Тогда мы должны проверить статистическую гипотезу о том, что наша выборка получена из совокупности с этим распределением. Мы начинаем с предположения, что подлежащая проверке гипо- гипотеза верна. Тогда, согласно параграфу 25.5, функция распределении выборки f* (х) должна служить приближением к данной функции рас-
иределения F(x), если я велико. Определим некоторую неотрицательную меру отклонения F* от F. Конечно, эту меру можно определить различ- различными способами, но каждая мера отклонения D будет некоторой функцией от выборочных значений и потому, в соответствии с параграфом 25.4, будет иметь определенное выборочное распределение. С помощью этого выборочного расгпределения мы сможем вычислить вероятность P(D"^> Do) того, что отклонение D превышает некоторое данное число Do. Эту вероятность можно сделать сколь угодно малой, если выбрать доста- достаточно большое Д,. Выберем Do так, чтобы P(D]>D0) = e, где е столь мало, что мы можем считать практически несомненным, что со- событие с вероятностью s не произойдет при единичном опыте. Пред- Предположим теперь, что нам фактически задана некоторая выборка, со- состоящая из я значений. По этим значениям мы вычисляем величину D. Если окажется, что D~^>D0, то это будет означать, что событие, об- обладающее вероятностью г, произошло. Однако, по нашей гипотезе та- такое событие практически не может произойти при единичном опыте, и поэтому мы должны притти к выводу, что в этом случае наша гипо- гипотеза опровергнута опытом. С другой стороны, если обнаружится, что D^D0, то мы будем готовы признать нашу гипотезу разумной интерпретацией имеющихся данных, по крайней мере до тех пор, пока это подтверждают дальнейшие опыты. Мы привели пример рассуждения, очень часто встречающегося в ста- статистических выводах. Нам часто придется иметь дело с более или менее сложной гипотезой о свойствах распределений вероятностей не- некоторых величин и будет требоваться проверить, согласуются ли с этой гипотезой имеющиеся в нашем распоряжении статистические данные. Первый путь подхода к этой проблеме таков же, как и в рассмотрен- рассмотренном выше простейшем случае. Если гипотеза верна, то наши выбороч- выборочные значения образуют статистический аналог (см. параграф 25.5) для гипотетического распределения, и в соответствии с этим мы вводим подхо- подходящую меру D отклонения выборки от этого распределения. С помощью выборочного распределения величины D мы найдем такое число Do, чтобы Р (D > Do) = е, где г задается так же, как и раньше. Если в нашем конкретном случае мы получим значение D"^>D0, то мы ска- скажем, что такое отклонение значимо, и будем считать гипотезу опровергнутой. Если же D «S Do, то будем считать, что отклонение D вызвано случайными колебаниями, и статистические данные считаем согласующимися с нашей гипотезой.
Критерий такого общего характера будет называться критерием значимости для рассматриваемой гипотезы. В простейшем случае, когда выясняется согласие между распределением множества выбо- выборочных значений и теоретическим распределением, мы пользуемся спе- специальным термином и говорим о критерии согласия. Вероятность s, которую можно фиксировать произвольным образом, называется уров- уровнем значимости критерия. В случае, когда наша мера отклонения D превышает предел зна- значимости Do, мы будем считать, что гипотеза опровергнута опытом. Но такое опровержение, конечно, никоим образом не равноценно ло- логическому опровержению. Даже если гипотеза верна, событие D~^> Do, имеющее вероятность s, может произойти в отдельном исключительном случае. Однако, если s достаточно мало, мы вправе на практике ис- исключать такую возможность. С другой стороны, получение одного значения D ^.DQ не является доказательством правильности гипотезы. Это лишь показывает, что с точки зрения того частного критерия, к которому мы прибегли, со- совпадение между теорией и наблюдениями удовлетворительно. Прежде чем считать статистическую гипотезу практически обоснованной, ее следует подвергнуть повторной проверке с помощью различных кри- критериев. В главах 30—31 мы будем изучать различные простые критерии значимости и дадим численные примеры их применения. В главе 35 будут подвергнуты критическому анализу общие основания такого рода критериев. 26.3. Описание. В параграфе 13.4 мы разбили приложения всякой математической теории на описание, анализ и предсказание. Конечно, между этими тремя рубриками нет резких границ, и сама классифи- классификация введена лишь для удобства изложения. Теперь мы вкрат- вкратце дадим пояснения к некоторым важным приложениям этих трех видов. Во-первых, теория может быть использована для чисто описательных целей. Когда имеется большое множество статистических данных, мы часто интересуемся некоторыми частными свойствами исследуемого яв- явления. Сведения об этих свойствах, которые могут содержаться в мно- множестве статистических данных, желательно получить в сжатой форме, в пиде небольшого числа описательных характеристик. Для этих це-
лей можно с выгодой использовать обычные характеристики распре- распределения выборочных значений, как, например, моменты, семи-ннварианты, коэффициенты регрессии и корреляцни и т. д. Использование графиков плотности вероятности для упорядочения данных, которое играло важ- важную роль в ранней литературе по статистике, также принадлежит в ос- основном к этой группе приложений теории. Заменяя исходное множество данных небольшим количеством опи- описательных характеристик, мы осуществляем, по терминологии Р. Фи- Фишера [13], [89], сокращение данных. Очевидно, важно, чтобы при таком сокращении данных по возможности все существенные сведения, относящиеся к исследуемому вопросу и содержащиеся в исходных дан- данных, содержались в выбранных описательных характеристиках. Сущест- Существенные свойства любой выборочной характеристики выражаются с по- помощью ее выборочного распределения, следовательно, перед тем, как развивать методы сокращения данных, нам необходимо систематически исследовать выборочные распределения; этой цели будут посвящены главы 27 — 29. В большинстве случаев, однако, при статистических исследованиях не ставятся чисто описательные задачи. Действительно, описатель- описательные характеристики обычно требуются лишь для некоторых опреде- определенных целей. Например, когда мы хотим сравнить дне различные со- совокупности данных опыта с помощью характеристик каждой из них или хотим получить оценки для характеристик тех данных, которые мы рассчитываем получить в будущем, то при этом описание налич- наличных данных составляет лишь предварительную стадию исследования, в действительности же мы имеем здесь дело с приложениями, отно- относящимися к одному из двух следующих типок. 26.4. Анализ. Если математическая теория испытана и принята, то ею можно воспользоваться для получения средств научного ана- анализа наблюденных данных. В нашей области мы можем охарактеризо- охарактеризовать этот тип приложений теории как попытку судить об основной совокупности по выборке. Мы имеем некоторые статистические дан- данные, которые представляем себе как выборки из каких-то совокуп- совокупностей, и стараемся использовать эти данные для того, чтобы узнать что-либо о распределении самих совокупностей. В статистической прак- практике встречается множество разнообразных проблем такого рода. В на- нашем предварительном обзоре мы лишь упомянем некоторые из основ-
ных типов таких проблем, которые будут изучены более подробна в следующих главах. В параграфе 26.2 мы уже встретились со следующим типом проблем: задана некоторая выборка наблюденных значений величины и спраши- спрашивается, есть ли основания предполагать, что эта выборка была полу- получена из распределения, принадлежащего к некоторому данному классу. Можно ли говорить, например, что ошибки некоторых физических измерений имеют нормальное распределение или что распределение доходов среди населения некоторого государства следует закону Па- рето (см. параграф 19.3)? Распределение наличной выборки ни в каком случае не может точно совпадать с гипотетическим распределением, так как первое распределение дискретно, а второе непрерывно. Но вправе ли мы приписать отклонение наблюденного распределения от гипотетичес- гипотетического случайным колебаниям или же мы должны заключить, что это отклонение значимо, т. е. указывает на действительное различие между неизвестным нам распределением совокупности и гипотетическим рас- распределением? В параграфе 26.2 мы видели, как можно подойти к решению этого вопроса с помощью введения критерия значимости. Мы должны тогда вычислить некоторую меру отклонения D, и отклонение в конкретном случае будет считаться значимым, если D превышает некоторое за- заданное значение ?>0; в противном случае отклонение приписывается случайным колебаниям'. В других случаях мы предполагаем, что общий характер распределений известен из предыдущих опытов и требуется получить сведения о значениях некоторых частных характеристик этих распределений. Предположим, например, что мы хотим сравнить эффек- эффективность двух различных методов лечения одной и той же болезни, причем Для каждого метода имеется постоянная вероятность выздо- выздоровления. Различны ли эти две вероятности? Чтобы решить это, мы рассмотрим выборки случаев для каждого метода и сравним две час- частоты выздоровления. Вообще говоря, они будут различны, и перед нами встанет тот же вопрос, что и в предыдущем случае: создается ли эта разность случайными колебаниями или она значима, т. е. ука- указывает на действительное различие между вероятностями? Подобные, хотя часто и более запутанные задачи встречаются во многих случаях, например, в сельскохозяйственной, промышленной или медицинской статистике, когда требуется сравнить эффективность раз- различных методов лечения или различных способов производства. Мы
рассматриваем средние значения или какие-либо другие характерис- характеристики наших выборок и спрашиваем, можно ли приписать различия между наблюденными значениями этих характеристик случайным коле- колебаниям или их следует считать значимыми. В таких случаях часто бывает полезно начать с гипотезы о том, что эффективность методов одинакова и что в действительности все наши выборки заимствованы из одной и той же совокупности (такое предположение иногда называется нулевой гипотезой). Если сделать это предположение, то часто оказывается возможным выработать кри- критерий значимости для разностей между средними значениями или дру- другими интересующими нас характеристиками. Если разности превышают некоторые пределы, то их следует считать значимыми, и мы должны заключить, что существует действительное различие между методами; в противном случае мы будем приписывать эти разности случайным ко- колебаниям. Этот тип приложений относится к области статистического анализа причинности. Предположим, в общем случае," что мы хотим узнать, существует ли какая-либо ощутимая причинная связь между двумя ис- исследуемыми величинами х и у. В качестве первого подхода к этой проблеме мы можем принять нулевую гипотезу, которая в этом случае будет означать, что величины хну независимы, и попытаемся вырабо- выработать критерий значимости для этой гипотезы в указанном выше общем смысле. Предположим, например, что мы хотим проследить возможную связь между количествами х и у двух продуктов, потребляемых за год данной группой людей. По выборке наблюденных значений дву- двумерной величины (х, у) мы можем вычислить, например, выборочный коэффициент корреляции г. Вообще говоря, этот коэффициент не будет равен нулю, тогда как по нулевой гипотезе коэффициент корреляции р соответствующего распределения равен нулю. Значима ли полученная разность или ее можно приписать случайным колеба- колебаниям? Чтобы ответить на этот вопрос, мы должны выработать критерий значимости, основанный на свойствах выборочного распределения вели- величины г. Если г отличается от нуля значимо, то это можно считать указанием на некоторую зависимость между величинами х и у. Однако обратный вывод был бы незаконным. Даже если значение f- для сово- совокупности равно нулю, величины могут быть зависимы (см. параграф 21.7). Различные критерии значимости, приспособленные к общим про- проблемам, намеченным выше, будут рассмотрены в главах 30 — 31.
Критерий значимости, применимый к данной проблеме, всегда можно вы- выбрать многими различными способами. Поэтому возникает важная про- проблема исследования принципов, на которых основан выбор критерия, сравнения свойств различных критериев и, если это возможно, нахож- нахождения критерия, который был бы наиболее действенным для данной цели. Такие вопросы будут изучены в главе 35. В других проблемах статистического анализа требуется, используя множество выборочных значений, получить оценки для различных ха- характеристик совокупности, из которой, по предположению, извлечена данная выборка, а также получить представление о точности таких оценок. Простейшей проблемой этого типа является классическая за- задача обращении вероятности: задана частота события Е в последо- последовательности повторений случайного эксперимента, и требуется опре- определить, какие выводы могут быть сделаны относительно неизвестного значения р вероятности события ?. Совершенно очевидно, что в этом случае за оценку для р можно принять наблюденную частоту; но можно ли измерить точность этой оценки или высказать какие-либо надежные вероятностные утверждения о разности между оценкой и неизвестным «истинным значением" р ? Более сложная проблема такого же рода встречается в теории ошибок, когда мы располагаем совокупностью измерений величин, связанных с некоторым количеством неизвестных констант, и требуется получить оценки для значений этих констаит и определить точность таких оценок. Подобные проблемы встречаются также в связи с методом регрессии, который имеет большое значение во многих прикладных областях. В некоторых экономических пробле- проблемах, например, предполагается, что существуют какне-то линейные или приблизительно линейные соотношения между величинами, связанными с доходами потребителей и количеством и ценами различных предметов потребления, производящихся или потребляемых на данном рынке. По имеющемуся в нашем распоряжении множеству наблюденных значений этих величин требуется получить оценки для коэффициентов в соот- соотношениях между рассматриваемыми величинами. Проблему оценки*) можно сформулировать в общем виде следующим образом. Мы рассматриваем случайную величину (какого-нибудь числа *) Поскольку это не может вызвать недоразумений, мы будем упо- употреблять один и тот же термин .оценка' как для процесса получения оценки некоторой величины, так и для результата этого процесса. (Прим. пере».)
измерений), распределение которой имеет известную математическую форму, но содержит некоторое число неизвестных постоянных пара- параметров. Нам задана выборка наблюденных значений величины и тре- требуется, используя выборочные значения, получить оценки для гара- метров и определить точность этих оценок. Вообще говоря, суще- существует бесконечное количество различных функций от иыборочных зна- значений, которые можно использовать в качестве оценок. Поэтому важно уметь сравнивать свойства различных возможных оценок для одного н того же параметра и, в частности, находить функции (если таковые существуют), которые давали бы оценки максимальной точности. Да- Далее, если некоторые оценки уже вычислены, естественно спросить, можно ли высказать какие-либо надежные вероятностные утверждения отно- относительно отклонений этих оценок от неизвестных «истинных значений" параметров. Проблемы такого рода служат предметом теории оценок, которой будут посвящены главы 32— 34. Наконец, некоторые приложения изложенных теорий будут изложены в главах 36 — 37. 26.6. Предсказание. Слово „предсказание" следует понимать здесь очень широко в смысле возможности ответа на вопросы вроде следу- следующих: Что случится при данных условиях? Какие последствия можно ожидать, если действовать тем или иным способом? Как ми должны действовать, чтобы осуществилось некоторое данное событие? Предсказание, в этом широком смысле, является практической целью всякой науки. Вопросы указанного типа часто встречаются в связи со случайными вел тинами. Приведем некоторые примеры. Какое количеств браков, рождений и смертей можно ожидать в дайной стране в будущем году? Какой эффект можно вызвать определенным повышением или понижением цены такого-то тоиара? Если заданы результаты некоторых определенных испытаний выборки из партии произведенных товаров, то следует ли эту партию забра- забраковать или выпустить в продажу с гарантией? Какие взносы и премии должно установить страховое общество, чтобы обеспечить себе устойчивый доход? С каким запасом должна быть запланирована новая
телефонная станция, чтобы свести к разумным пределам риск пере- перегрузки линий? Если предполагать, что для случайных величин в вопросах такого типа известны распределения вероятностей, то можно убедиться, что часто мы будем в состоянии дать хотя бы предварительный ответ на эти вопросы. Однако для полного исследования таких вопросов обычно требуется основательное знакомство с соответствующей прикладной областью. В книге, посвященной общей статисти- статистической теории, нет возможности заниматься такими исследованиями.
ГЛАВЫ 27—29 ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ ГЛАВА 17 ХАРАКТЕРИСТИКИ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ 27.1. Обозначения. Рассмотрим одномерную случайную величину 3 с функцией распределения F(x). Для моментов и других характе- характеристик распределения величины ? мы будем употреблять обозначения, введенные в главе 15. Таким образом, т и а будут обозначать сред- среднее значение и дисперсию этой случайной величины, о„ ji, и хч — со- соответственно момент, центральный момент и семи-инвариант порядка V. В дальнейшем, не оговаривая этого особо, мы будем предполагать эти величины конечными всякий раз, как они понадобятся при выводе на- наших формул. Повторяя п раз случайный эксперимент, с которым связана вели- величина ?, мы получаем последовательность п наблюденных значений jfj, х2, ... , хп нашей случайной величины. Как уже указывалось в па- параграфе 25.2, мы будем, пользуясь терминами простого случайного выбора, рассматривать множество значений лг,, .,., хп как выборку из некоторой совокупности, описываемой функцией распределения F(x). Распределение выборки получается (см. параграф 25.3) сосредоточением в каждой точке xt массы, равной — , а моменты и другие характеристи- характеристики выборки определяются как характеристики этого распределения. Во всех исследованиях относительно характеристик выборки чрез- чрезвычайно важно пользоваться ясной и согласованной системой обозна- обозначений. В этом отношении мы всюду до конца книги будем следовать, насколько это возможно, следующим трем правилам: 1. Среднее арифметическое какого-либо количества величин, например, дг, ,.. . хп или ух у„, будет обозначаться соответ- соответствующей буквой с черточкой наверху: х или у. 2. Если некоторая характеристика совокупности (т. е. рас- распределения случайной величины 5) обозначается обычно греческой буквой, то та же характеристика выборки будет обозначаться соответствующей латинской буквой', s* вместо аа, ач вместо а, и т. д.
3. В случаях, выходящих за рамки двух предыдущих правил, мы обычно будем обозначать выборочные характеристики той же буквой, что и соответствующую характеристику совокупности, но со звездочкой; так, например, F* [х) будет обозначать функцию распределения выборки из основной совокупности с функцией рас- распределения F(x). Таким образом, для среднего значения и дисперсии выборки будем нметь выражения B7.1.1) г=т?**. *' = -¦¦¦? <*<-*>'• t i где суммирование распространяется на все выборочные значения. Мо- Моментами а„ и центральными моментами тч выборки будут B7.1.2) «.^т Ц Коэффициентами асимметрии и эксцесса выборки будут, в соответствии с A5.8.1) и A5.8.2), B7.1.3) Л = "ЗГ' g8=^—3' Соотношения A5.4.4) между моментами и центральными моментами справедливы для любого распределения; в частности, они справедливы, если вместо /я, а, и ц, взять соответствующие выборочные характе- характеристики "х, ан и wiv. Для функции распределения выборки мы имеем уже введенное в B5.3.1) обозначение F*(x). Аналогично, характеристической функ- функцией выборки*) будет B7.1.4) «* (t) = f eUx <tF* (x) = ~. Z «**'. i а семи-инварнантами выборки будут величины, определяемые в соот- соответствии с A5.10.2) разложением**) B7.1.5) log ?*(<)== i *) Тогда, когда возможны недоразумения, мы будем обозначать мнимую единицу жирной буквой I. *¦) Здесь наши обозначения отличаются от обозначений -Р. Фишера A3], который обозначает несмещенную оценку величины \ через *,; мы обозна- обозначаем эту оценку через Кч (см. параграф 27.6).
Все моменты и семиинварианты выборки конечны, н соотно- соотношения A5.10.3) — A5.10.5) между моментами и семи-инвариантамн остаются справедливыми, если характеристики совокупности заменить выборочными характеристиками. Те же самые правила будут употребляться и для выборок из мно- многомерных совокупностей. Так, например, если заданы п пар наблю- наблюденных значений (xvy1) ,. .. , (д:л, уп) из двумерного распределении, то мы будем писать (см. параграф 21.2) B7.1.6) В частности, величина г, определяемая соотношением является коэффициентом корреляции выборки, соответствующим коэф- коэффициенту корреляции р совокупности. Так как г есть коэффициент корреляции фактического распределения (т. е. распределения выборки), то из параграфа 21.2 следует, что — 1 <г< 1, Предельные значения г=4=1 могут достигаться лишь тогда, если все выборочные точки. (xltyi) расположены на одной прямой линии в плоскости х, у. Для выборки более чем двух измерений мы будем употреблять обозначения, получаемые согласно нашим правилам, из обозначений, введенных в главах 22—23. Так, например, мы будем обозначать че- через Si стандартное отклонение выборочного значения /-й величины, а через г(, — коэффициент корреляции между выборочными значениями j-й и у-й величин. Далее, детерминант \r{J\ будет обозначаться через /?, а коэффициенты регрессии, частные коэффициенты корреляции и т. д. выборки (см. B3.2.3.) и B3.4.2)) — символами
где k—число измерений, a /fy — алгебраическое дополнение элемента r,j в детерминанте R. Как и прежде, все соотношения мажду характе- характеристиками, выведенные в части И, остаются справедливыми при замене характеристик совокупности выборочными характеристиками. Вернемся на один момент к одномерному случаю. В соответствии с параграфом 25.4, каждая характеристика g{xlt ... , хп) наличной выборки может рассматриваться как наблюденное значение случайной величины g(xt> ..., л"п), где л:,,... , хп — независимые величины, имеющие то же распределение, что и исходная величина ?. Распре- Распределение случайной величины g^Jfj, ..., хп) называется выборочным распределением характеристики g(xv ... , хп). Таким образом, мы можем говорить о выборочном распределении среднего значения х, дисперсии s2 и т. д. Такие же замечания можно сделать относительно выборок любого числа измерений. Каждую выборочную характеристику можно рассмат- рассматривать как наблюденное значение некоторой случайной величины, рас- распределение которой называется выборочным распределением этой ха- характеристики. Таким образом, мы можем говорить о выборочном рас- распределении коэффициента корреляции г, корреляционного детерминанта R и т. д. Для каждой выборочной характеристики g мы можем, таким образом, рассматривать ее выборочное распределение и вычислять по этому рас- распределению моменты, семи-инварианты и т. д. Как обычно (см. параграфы 15.3 и 15.6), мы употребляем в этих случаях символы E(g) и D(g) для обозначения среднего значения и стандартного отклонения случайной величины g = g(xv ... , jcn). Далее, если мы имеем дело с некоторой характеристикой распределения величины g (например, с центральным моментом, семи-инвариаитом и т. д.) с заданным стандартным обозна- обозначением (например ja, или х,), то иногда мы будем употреблять то же обозначение этой характеристики, указывая в скобках случайную величину, к которой характеристика относится. Так, например, для центрального момента порядка v выборочной характеристики g = g(x лг„) мы будем писать Подобным же образом, если рассматриваются одновременно две харак- характеристики f(xv ..., хп) н g{xv ... ,хп), то коэффициент корреля- корреляции их совместного выборочного распределения будет обозначаться
символом р (/.?)=¦ Всякий раз, когда мы имеем дело с выборочными распределениями, связанными с данной совокупностью, всегда следует иметь в виду, что выборочные характеристики (х, s, /wv, ftv, rum. д.) рассматри- рассматриваются как случайные величины, в то время как характеристики основной совокупности (т, о, jiv, х,, р и от. д.) суть фиксированные (хотя иногда неизвестные) постоянные. 27.2. Выборочное среднее значение х. Рассмотрим одномерную выборку со значениями xlt ... , хп. Считая х{ независимыми случай- случайными величинами, каждая из которых имеет функцию распределения F(x), мы получим B7.2.1) 4 Таким образом, случайная величина х = — J^jc, имеет среднее значе- значение т и дисперсию ^ и, следовательно, стандартное отклонение -j=.. Тогда из теоремы Чебышева (см. параграф 20.4) немедленно следует, что выборочное среднее значение ~х сходится по вероятности к сред- среднему значению совокупности /и, когда п стремится к бесконечности*). Записывая х — т== — ^^(х( — т) и имея в виду, что х{ незави- независимы и что каждая разность х, — т имеет среднее значение, равное нулю, мы получаем, далее, <27.2.2) М*> = ? (*—«)s=;p- *) Из менее элементарной теоремы Хинчнна (см. параграф 20.5) следует, что указанное свойство имеет место всегда, Когда существует среднее значение для совокупности т, даже если ^ не имеет конечного значения.
B7.2.2) }ц , 3 (я — 1) 2 3jt2, 14 —3|t2 -Я3"Г „3 r*2 „2 f „з Старшие центральные моменты величины х можно найти посред ством аналогичных, хртя и несколько более громоздких вычислений. Таким образом, мы находим и вооби^е B7.2.3) ? i* — m)«*-i = О (р) , ? (Je - /и)=* = o( ^) , В важном частном случае, когда распределение совокупности нормаль- нормальное (т, а), величина х, как было указано в параграфе 17.3, также является нормальной со средним значением т и стандартным откло- отклонением -р=. Отсюда следует, что в этом случае все центральные мо- V п менты IЧ {х) нечетного порядка равны нулю, а три первых централь- центральных момента четного порядка имеют значения 27.3. Моменты аг Для каждого выборочного момента а, = = —51Х1 *1Ы получаем, в качестве прямого обобщения формул B7.2.1) и B7.2.3) 127.3.1)
В силу теоремы Хинчина (см. параграф 20.5) и первого из этих трех соотношений, выборочный момент ач сходится по вероятности к av при п —>ее, если только момент совокупности а, существует. В силу следствия из теоремы параграфа 20.6, каждая рациональ- рациональная функция или степень рациональной функции от выборочных моментов а^.сходится по вероятности к постоянной, получаемой подстановкой в эту функцию av вместо каждого ач, если только все эти а„ существуют и если получаемая таким образом постоянная конечна. Отсюда следует, в частности, что все центральные моменты /и,, сечи - инварианты &v и коэффициенты^ и g2, определяемые формулой B7.1.3)» при п—<-оо сходятся по вероятности к соответствующим харак- характеристикам совокупности. Таким образом, при больших выборках все эти выборочные характеристики можно рассматривать как оценки для соответствующих характеристик совокупности. Ниже, однако, мы об" наружим, что получаемые таким образом оценки не всегда являются наилучшими из тех оценок, которые можно получить (см. параграфы 27.6 и 33.1). Каждое среднее значение вила B7.3.2) где p,q, ... — целые числа, может быть получено непосредственным хотя часто и громоздким вычислением; при этом следует пользоваться лишь тем, что лг,- — независимые величины и ?(jc/) = ov. В частном слу- случае, когда среднее значение совокупности т равно нулю, ov совпадают с центральными моментами рц,. Если среди множителей в B7.3.2) встре- встречается выборочное среднее ах =х, то вычисления упрощаются, так как среднее значение каждого члена, содержащего одно нз этих xt в первой степени, равно нулю. 27.4. Дисперсия /и2. Центральный выборочный момент т,= = — ZJ-xi — ¦*)' не зависит от положения начала отсчета на шкале значений исходной случайной величины ?. Совмещая начало отсчета со средним значением совокупности, мы получим т = 0. Если мы имеем дело с выборочными распределениями величин /я,, то всегда можно лредполагать, что т =0, и добиться упрощения, о котором упоми-
налось в конце предыдущего параграфа. Полученная при этом формула будет справедливой независимо от значения т. Итак, предположим, что т = О, и рассмотрим выборочную дис- дисперсию т2 = s2 = —^ (Х[ —хJ = а2 — л2. Так как т = 0, то из фор- формул B7.2.1) н B7.3.1) мы получим B7.4.1) ?^ Далее, мы имеем т\ = а\ — 2xia2-{-xl. Полагая всюду /и = 0, мы получим и отсюда, после приведения подобных членов, B7.4.2) Г" л« Старшие центральные моменты для щ можно получить таким же об- образом. Вычисления длинны и неинтересны, но не представляют никаки х принципиальных трудностей. Мы приведем лишь главные члены треть- третьего и четвертого моментов: B7.4.3) Рассмотрим, наконец, смешанный второй момент (см. параграф 21.2) среднего значения х и дисперсии т2 выборки. При любом значении т
этот смешанный момент равен «,) = ?((* — т)(т2 — -2=1 fi2) j == ? ((х — от)/я2). Так как ясно, что последнее выражение не зависит от положения начала отсчета, мы опять можем предположить, что уи=0, и после таких же вычислений, как и выше, получим B7.4.4) fi,i {х, щ) = Е (Ьи,) = Е (Хаг) ~ Е C?) = "~ я л2 ~~ л* ^3> Для каждого симметричного распределения мы имеем ji3 = 0, так что х и тг некоррелированы. Позже мы увидим (см. параграф 29.3), что в частном случае нормальной совокупности х и т2 не только некорре- некоррелированы, но даже независимы. Для нормальной совокупности формулы B7.4.1) и B7.4.2) имеют вид B7.4.5) 27.5. Старшие центральные моменты и семи-инварианты. Вы- Выражения для характеристик выборочных распределений величин тч и &v быстро усложняются, когда v становится больше 2; мы укажем лишь немногие сравнительно простые случаи, опустив подробности вычисле- вычислений. Дальнейшие сведения читатель может почерпнуть, например, из статей Чупрова [227] и Крейга [67]. С помощью таких же вычислений, как и в предыдущих парагра- параграфах, мы получаем выражения B7.5.1) Для любого ту мы имеем B7.5.2) mv= 12>,—X)' = e,— (j Как и прежде, можно предполагать, что т = 0, так что ?(a,) = ji>, и
Дли l<^t^v, используя неравенство Шварца (9.5.1), из формул B7.2.3) и B7.3.1) получаем & (j? «,_,) < Е (ЗР) Е (*?_/) = О Q — t2 так что E(x/a^_i) = O(n ' ), и из B7.5.2) получим B7.5.3) Далее, согласно B7.5.2), каждая степень разности /и, — fiv состоит из членов вида х1 (а —щУ я*, <**,••• ,-и так же, как и выше, можно показать, что среднее значение такого члена имеет порядок л • . Та- Таким образом, чтобы вычислить главную часть Е («, — }i,)*, достаточно из ять >", — 'А, = О,~ Ъ— (i) *«,-!• так как нее следующие члены в B7.5.2) дают добавки более высокого порядка малости. При А = 2 мы получим, таким образом, выражение B7.5.4) так как, в силу B7.5.3), разность Е(/м„) — \l4 имеет порядок //. Вообще, для каждой четной степени разности тн — \i.t B7.5.5) Среднее значение произведения {/»„ — jjlv> (/лр — jip) можно вычислить таким же способом; используя снова B7.5.3), мы получим следующее выражение для смешанного второго момента между ту. и /я,: B7.5.6) |1„ («„«,) = п ' V«V ¦ Выражения для первых семи-инвариантов выборки получаются за- заменой в формуле A5.10.5)-моментов совокупности |1, выборочными мо- моментами /яч. Мы получаем при этом Затем мы можем вывести выражения для среднего значения н диспер- дисперсии величин Ау с помощью ланных выше формул для ту. В частности,
выражая ?(&„) через семи-инварианты совокупности ху, мы этим спо- способом получим l27'5'7) EIk \ <"-•«"-*>x -1) 2 27.6. Несмещенные оценки. Рассмотрим выборочную дисперсию т„ = — УЧ*,-—Я'J. В соответствии с параграфом 27.3, т2 сходится по вероятности к дисперсии совокупности <i2, когда п—»-оо, так что при больших значениях п мы можем использовать щ в качестве оценки для }12. Согласно терминологии Р. Фишера [89], [96], оценка, сходящаяся но вероятности к оцениваемой величине при неограниченном возрас- возрастании объема выборки, называется состоятельной оценкой. Таким об- образом, /я2 является состоятельной оценкой для }12. С другой стороны, формула B7.4.1) показывает, что средним зна- значением величины тг является не }i2, а я~ ji2. Таким образом, если мы повторно извлекаем из данной совокупности выборки фиксирован- фиксированного объема п и вычисляем дисперсию /яа для каждой выборки, то среднее значение всех наблюденных значений т2 будет сходиться по вероят- вероятности не к „истинному значению" р.2, а к несколько меньшему значе- значению }12. Как оценка для }i2 величина т2 получает, таким образом, некоторое отрицательное смещение, которое можно устранить, если за- заменить т2 величиной Действительно, тогда Е (М2) = —^—: Е{т2) = %А2, ив соответствии с этим М2 называется несмещенной оценкой для ftz. Поскольку мно- житель стремится к единице при п—«.«, то и М2 и т2 схо- сходятся по вероятности к р2, так что М2 является и состоятельной и несмещенной, в то время как /я2 является состоятельной, но не яв- является несмещенной оценкой для |i2.
Подобным же образом, согласно параграфу 27.3, все центральный моменты т„ и семи-инварианты &, выборки являются состоятельными оцен- оценками соответствующих величин у.ч или ж^, но из формулB7.5.1) и B7.5.7) следует, что при v> 1 эти оценки ле являются несмещенными. Как и для т2, мы можем с помощью простых поправок получить оценки, которые будут и состоятельными и несмещенными. Так, например, для v = 2,3,4 мы получим следующие исправленные оценки для ц, и х. м — п2 уи«-~(л—1) (л—2) '"«' я(я»-2л + 3) _ ЗяBл-3) 4 — (я—1)(л —2)(л —3) 4 (л—1)(л —2)л—3) _]) (л_2) OT3> С помощью формул, приведенных в двух предыдущих параграфах, легко проверить, что во всех этих случаях E(Afv) = fiy и E(f(J = x^. При больших значениях п часто бывает безразлично, используются ли Мч и Af, или тч и А,, но когда п невелико, при пользовании ве- величинами тч и ftv может получиться существенное смещение. К вопро- вопросам, связанным со свойствами оценок, мы вернемся в главе 32. В предыдущих параграфах мы видели, что вычисления при выводе формул для выборочных характеристик величин ;», и k4 становятся весьма утомительными, как только мы переходим от простейших слу- случаев к более сложным. Р. Фишер [99], который ввел величины Кч (обозначенные им через ky, см. сноску на стр-. 376), обнаружил, что соответствующие выкладки для величин Кч можно значительно упрос- упростить с помощью методов комбинаторики. Эти методы далее были раз- развиты самим Фишером, Висхартом и другими авторами. Хороший обзор этого предмета содержится в книге Кендала [19], где приведены также многочисленные ссылки на литературу. 27.7. Функции от моментов. Часто бывает необходимо получить среднее значение и дисперсию некоторой функции от выборочных мо-
ментов. Если эта функция является полиномом относительно jc и цент- центральных моментов «,, то проблему можно решить с помощью методов, развитых в параграфах 27.3—27.5. Аналогичным прямым методом часто можно пользоваться и тогда, когда функция содержит дробные степени X и /и„. Рассмотрим в качестве простого примера стандартное откло- отклонение выборки s = Vт», • Мы имеем тождество отз—14 (от, — щр В силу формулы B7.4.1), первое слагаемое в правой части имеет сред- среднее значение порядка п~1. Второе слагаемое по абсолютной величине не превышает ~ ¦, так что, в силу формул B7.4.1) и B7.4.2), среднее значение этого члена также имеет порядок п~1. Таким об- образом, B7.7.1) С помощью аналогичных выкладок мы получаем B7.7.2) » Однако, во многих случаях мы имеем дело с функциями, содержа- содержащими отношения степеней некоторых моментов, например, коэффици- коэффициенты g, и g2, коэффициент корреляции и т. д. Мы докажем теорему, охватывающую наиболее важные из этих случаев. Эта теорема будет сформулирована и доказана для случая функции #(/я,, /ир) от двух центральных моментов, но ее можно непосредственно обобщить на любое число аргументов, включая среднее значение х. Теорема спра- справедлива и тогда, когда функция Н зависит только от одного аргу- аргумента. Теорема и ее доказательство распространяются также на функ- функции от моментов многомерных выборок (см. параграф 27.8). Рассмотрим функцию //(/я.,, т), не содержащую явно п. Мы можем рассматривать Н либо как функцию от двух аргументов т> и отр, либо, если заменить /я, и mf их выражениями через выборочные значения, как функцию от и величин xv ..., хп. В последнем случае функция, конечно, может содержать я явно. Докажем теперь сле- следующую теорему:
Предположим, что выполнены следующие два условия: 1) В некоторой окрестности точки mv = |i4, mf = ]tp функция Н непрерывна и имеет непрерывные первые и вторые производные по аргументам тч и тр. 2) Для всевозможных значений величин xt выполняется нера- неравенство \Н\<^Сп", где С и р — неотрицательные постоянные. Тогда если обозначить через Н^, Н1 и Нъ значения функции //(wv, /и,) и ее первых частных производных в точке /wv = fiv, т = }1, то среднее значение и дисперсия случайной селичины /У(/и„, m?) будут определяться формулами № (Н) = lAa К) Н\ Л- 2ц,, К, В силу формул B7.5.4) и B7.5.6), дисперсия функции Н имеет, таким об- образом, инд — -f- О (п~Щ, где с — постоянная. Имеющиеся в литературе дока- доказательства приведенных соотношений часто неулоплетворительны. Приведенное пыше условие 2) можно значительно обобщить, но некоторые условия такого типа необходимы для справедливости теоремы. Действительно, если полностью отбросить условие 2), то, например, для каждой совокупности с ^ > 0 функ- функция — должна была бы иметь среднее значение вида —V-O(n~^). Однако что, очевидно, неверно. Среднее значение величины — не может быть ко- печным для всех совокупностей с распределением Дискретного типа, так как для них с положительной вероятностью /л2 = 0. Легко показать, что анало- аналогичные противоречия могут быть обнаружены даже для непрерывных распределений. В параграфе 28.4 будет доказано, что функция //(mv, mp) при больших значениях п распределена асимптотически нормально. Интересно заметить что в этом локазательстве не потребуется никаких условий, соответствующих условию 2). Обозначим через P(S) вероятностную функцию совместного рас- распределения величин xv хъ, ..., хп. P(S) есть функция множества в пространстве /?я величин х{. Если в теореме Чебышева A5.7.1) положить g($) = (/«, — fi,J*T то из формулы B7.5.5) будет следовать, что при любом е ^> О
или где А—постоянная, независящая от я и е. Соответствующий резуль- результат справедлив, конечно, и для т?. Обозначим через Z множество всех точек в Rn, для которых удовлетворяются оба неравенства \тч — J*J<CS> \tnf — !ipKe, а через Z* — дополнительное множе- множество. Тогда, в соответствии со сказанным выше, мы получим B7.7.4) Далее, =.- <\HdP-\-\HdP, 2 i и, в силу условия 2), модуль последнего интеграла будет меньше, ч ем —га~а" • ^сли выбрать k ^> p -f-1, то B7.7.5) Е(И)= Вели е достаточно мало, то но условию 1) для каждой точки мно- множества Z мы будем иметь К ) 0 t , 2 Ир — jip) -f- R, B7.7.6) R^ i^ ^ ^ где ///у — значении вторых производных в некоторой промежуточной точке между (<iv, jij и (mv, /и,). Поэтому f К - B7.7.7) Рассмотрим слагаемые в правой части последнего равенства. В силу неравенств B7.7.4), первый член отличается от //0 па величину по- порядка п~к, т. е. меньшего, чем п~г, так как k^>p-\-1 2= 1. Дм следующих члена имеют порядок не выше п~1, так как //, и //2
нс зависят от п, и, в силу формул B7.5.3) и B7.5.5) и неравенства Шварца (9.5.1), имеем f К - |1,)<И>=Я(|», -10 - \ К - lO dP = ii аналогичные оценки для члена, содержащего ти. Наконец, в силу условия 1), производные//^, при достаточно малом е ограничены, и так же, как и выше, мы убеждаемся, что последний член в B7.7.7) имеет порядок п~х. Так как первый член в B7.7.7) отличается от Ио на величину порядка я~' и справедлива формула B7.7.5), первое из соотношений B7.7.3) доказано. Для доказательства второго соотношения B7.7.3) запишем к* Выбирая теперь к ^> 2/7 -j- -jr-, с помощью условия 2) и уже доказан- доказанного первого соотношения B7.7.3) получим =\Vi — Я0J dP Затем представим (Н—//0)а с помощью B7.7.6) и проделаем те же выкладки, что и выше. При этом выкладки будут совершенно анало- аналогичны сделанным выше, кроме оценки члена \ (от —\LjRdP, для которой получим, используя A5.5.6) и B7.7.5), //'„ (/я, - Ю" dP\ < К Е A /я, - ^ |») < Этим доказательство теоремы заканчивается.
Теперь применим формулы B7.7.3) к некоторым примерам. Рас- Рассмотрим сначала выборочные коэффициенты асимметрии и эксцесса: ft=3' А~3 Эти функции удовлетворяют условию 1), если только Щ^>0- Чтобы показать, что условие 2) также выполняется, запишем откуда Аналогично доказывается, что | gt | <^ я для всех я ]> 3. Таким обра- образом, для нахождения средних значений и дисперсий величин gt и g3 можно применять формулы B7.7.3). Из формул B7.5.4) и B7.5.6) получим, с той же степенью приближения, что и формулы B7.7.3), 127.7.8) Если генеральная совокупность нормальна, то эти приближенные выражения примут вид B7.7.9) | % Точные выражения для нормального случая будут даны в параграфе 29.3 (см. формулы B9.3.7)). В качестве следующего примера рассмотрим отношение которое называется коэффициентом изменчивости выборки. Если рас- распределение совокупности таково, что наша величина принимает только
положительные значения, то получим так что можно применять формулы B7.7.3), заменяя в них, в соот- соответствии с предварительным замечанием к нашей теореме, /л, на х- В силу формул B7.2.1), B7.4.2) и B7.4.4), получим, с той же сто- неиыо приближения, что и формулы B7.7.3), m B7.7.10) Нормальное распределение не обладает тем свойством, что неличина принимает только положительные значения, и легко видеть, что для такого распределения величина V неограничена, так что условие '2) не выполняется. Однако можно рассмотреть нормальное распределение, усеченное в точке дг = О (см. параграф 19.3), и если — достаточно ма- мало, то центральные моменты такого распределения будут приблизительно равны соответствующим моментам полного нормального распределения. В этом случае приближенное выражение для дисперсии величины V принимает вид B7.7.11) 27.8. Характеристики многомерных распределений. Формулы для выборочных характеристик, выведенные в параграфах 27.2—27.0. так же как и теорему, доказанную в параграфе 27.7, можно непо- непосредственно распространить на характеристики многомерных выборок. При этом выкладки совершенно аналогичны произведенным выше, так что мы приведем здесь лишь некоторые формулы для двумерно- двумерного случая. Обозначения, которыми мы будем пользоваться, введены в параграфе 27.1; всюду предполагается, что все встречающиеся в
формулах моменты конечны. Мы имеем Выборочный коэффициент корреляции удовлетворяет, очевидно, условиям теоремы параграфа 27.7, так как |г| ^ 1. Обозначая через р значение коэффициента корреляции со- совокупности, с помощью приведенных выше соотношений получим (с той же степенью приближения, что и формулы B7.7.3)) B7.8.1) D-j/rt — JP? .P4Q | ftvt I 2fta I 4ц22 4ft» 4ц13 \ В случае нормальной совокупности выражение д;п1 дисперсии сводится (см. упражнение 3, стр. 349), с точностью до величины порядка /»-*/•, к следующему выражению; B7.8.2) DS(r) = iLzfV. В заключение заметим, что теорема параграфа 27.3 о сходимости но вероятности выборочных характеристик справедлива без всяких изменений и в многомерном случае. Так, например, г сходится по вероятности к р, частный коэффициент корреляции гк.и_шшк выборки сходится по вероятности к p,...D....ft " т. д. 27.9. Поправки к группировке. На практике ныборкн очень часто подвергают группировке (см. параграф 25.5). Предположим, что мы из^ влекли иыборку в п значении из одномерного распределения непрерывного типа с плотностью вероятности /(¦*•), и пусть выборочные значения группированы по интервалам длины Л со средними точками $,- = ?0-{-/Л, где i=Q, +1, +2, ... В таких случаях при вычислении моментов и других выборочных характеристик обычно предполагается, что все
выборочные значения, принадлежащие некоторому интервалу, совпа- совпадают со средней точкой этого интервала. Тогда мы в действительности производим выбор из распределения дискретного типа, в котором величина принимает каждое значение ?? = ?0-\-ih с вероятностью p,= j f(x)dx. Моменты и другие характеристики, которые мы оцениваем по нашим выборочным характеристикам, пользуясь формулами, приведенными в предыдущих параграфах этой главы, будут, таким образом, момен- моментами этого .группированного распределения": Однако во многих случаях мы в действительности хотим знать не эти моменты, а моменты данного непрерывного распределения: 00 — 00 Важно поэтому исследовать соотношения между этими двумя множе- множествами моментов. Мы покажем, что при некоторых условиях прибли- приближенные значения моментов а, можно получить, прибавляя некоторые поправки к групповым моментам а,. Групповые моменты можно записать в виде «.«Ее — 00 . 1 . Si—j* где ^ = ?0-)-/Л и B7.9.1) gC) = ?" \ f(x)dx. Предполагая, что f(x) непрерывна при всех х, по формуле суммиро-
нания Эйлера — Маклорена A2.2.5) получим «.= J & ь+*,+1 J j B7.9.2) -00 «.+**-3* 3 00 Допустим пока, что остаточным членом R можно пренебречь. Тогда, меняя порядок интегрирования, получим ?—|o A (So 4- hyydy = [m/21 1 y./ v4-l\/A\2' Таким образом, групповые моменты av могут быть выражены линей- линейными функциями от .истинных" моментов а,. Решая последовательно уравнения относительно о,, получим 127.9.3) a4 = 54_|iaft8+2|oft 7 31 = ав — ? 54А2 + ^ а2А4 —
Эти формулы известны под названием поправок Шеппарда [212]. Общая формула имеет вид (см. Вольд [245J) /=о где В{ — числа Бернулли, определяемые формулой A2.2.2). Если поместить начало отсчета в среднюю точку распределения, то a,=at^=0, и получаются поправки для центральных моментов: _ 1 B7.9.4) »»• = *•' Эти соотношения справедливы в предположении, что остаточным членом R в B7.9.2) можно пренебречь. Предположим теперь, что заданы два целых положительных числа s и k такие, что: 1) f(x) и ее первые 2s производных непрерывны для всех х. 2) Произведение лс*+2/<'> (л:) ограничено для всех х и для / = = 0, 1, ..., 2*. Тогда функция g(?), заданная формулой B7.9.1), будет непре- непрерывна при всех ? вместе со своими первыми 2s-\-\ производными. и легко видеть, что при v=l, 2, ..., Аи / = 0, 1, ..., 2s-} имеем B7.9.5) при ? —* 4; оо. Следовательно, можно применять формулу Эйлера — Маклорена в виде A2.2.6), так что остаточный член /? можно запи- записать следующим образом: я=(_1)*+1А«+1 J О Тогда из A2.2.1) и B7.9.5) следует, что где А и В—постоянные, не записящие от h. Таким образом, если длина А интервалов разбиения достаточно мала, то остаточным чле-
ном R можно пренебречь, и при применении поправок B7.9.3) или B7.9.4) к моментам любого порядка v^6 получающаяся ошибка будет иметь порядок А2*. Всякий раз, когда в случае распределения конечной широты график плотности вероятности y=f(x) имеет .соприкасание высокого порядка с осью х в точках g и О (см. параграф 15.7), указанные выше условия 1) и 2) выполняются но крайней мере для не слишком больших значений s и к. В таких случаях на практике обнаруживается, что применение поправок Шегшарда дает обычно хорошие результаты, лаже если Л не очень мало. Однако всегда следует сравнить величину поправки, применяемой к моменту, со стандартным отклонением выбо- выборочного распределения этого момента. Если, как это часто случается, поправка составляет лишь малую долю от стандартного отклонения, ю не имеет значения, применялась поправка или нет. В случаях, когда график плотности вероятности не имеет сопри- соприкасания высокого порядка с осью х на концах интервала (g, G), обычно лучше не применять поправок Шеппарда. Для таких случаев сущест- существуют другие поправочные формулы, но применимость их, повидимому, весьма ограничена (см. Элдсртон [12], стр. 231). Лэнгдон и Оре [144] и Вольд [245], [246] дали поправки для семи-инвариантов, которые применимы при тех же условиях, что и по- поправки Шеппарда. Эти поправки имеют простой вид *, = *„ *у = *, — 7'А'- (*>!)• Вывод поправок Шеппарда можно распространить на моменты мно- многомерных выборок. В частности, для двумерного распределения с ин- интервалами разбиения длины А, по оси х и h2 по оси у мы имеем М-2=V62 — i2 J*20*2 — 12 ?ог''1 + 144 Al *2' Поправки для }i]2 и <i,3 получаются, конечно, перестановкой индексов, а поправки для частных моментов ji,n и \luj получаются непосред- непосредственно из B7.9.4), так что с помощью формул B7.9.6) можно по- получить поправки для всех моментов порядка, не превосходящего четырех.
В заключение следует заметить, что проблема поправок к группи- группировке исследовалась также с различных других точек зрения (см. на- например, Фишер [89] и Кендал [136]). глава за АСИМПТОТИЧЕСКИЕ СВОЙСТВА ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ 28.1. Вводные замечания. В параграфах 27.3 и 27.8 мы видели, что все обычные выборочные характеристики, являющиеся функциями от моментов, сходятся по вероятности к соответствующим характеристи- характеристикам совокупности, когда объем выборки л стремится к бесконечности. В настоящей главе мы рассмотрим подробнее асимптотическое поведе- поведение выборочных распределений этих и некоторых других характери- характеристик при больших л. Следуя замечанию, сделанному в параграфе 17.5, сначала покажем, что при весьма ебщих условиях характеристики, ос- основанные на выборочных моментах, распределены асимптотически нормально при больших я. Затем мы рассмотрим другие классы выборочных характеристик; некоторые из них, подобно моментиым характеристикам, асимптотически нормальны, в то время как другие имеют совершенно иное асимптотическое поведение. 28.2. Моменты. Рассмотрим л выборочных значений дг,, ... ,хп, выбранных из некоторого одномерного распределения. Величина па^ — = 2** есть сумма я независимых случайных величин х), имеющих одно и то же распределение со средним значением Е (х)) = ov и дисперсией ZJ (дг/) = cr2v — а,. Применяя центральную предельную теорему в фор- формулировке Линдеберга—Леви (см. параграф 17.4), мы обнаружим, что при я—»-со функция распределения нормированной суммы стремится к нормальной функции распределения Ф{х). В соответствии с терминологией, введенной в параграфе 17.4, каждый выборочный момент ev является, таким образом, асимптотически нормальным (а»>1/ ."*""" **). Мы замечаем, что параметры предельного пор-
мального распределения совпадают со средним значением и стандарт ным отклонением величины a.t, заданными формулами B7.3.1). В част- частности, среднее значение выборки а1 = х асимптотически нормально [/я, ¦ ° 1 , как уже было указано в параграфе 17.4. \ уп I Подобным образом, если мы рассмотрим одновременно две случай- случайные величины нач = ^х) и па,= ^х^, то, применяя двумерную форму теоремы Линдеберга—Леви (см. параграф 21.11), мы убедимся, что совместное распределение двух величин уп (ач — я,) и ]/~п (а — а) стремится к некоторому двумерному нормальному распределению. Дока- Доказательство, очевидно, имеет общий характер, и с помощью многомер- многомерной формы теоремы Линдеберга—Леви (см. параграф 24.7) получается следующий результат: Совместное распределение любого количества величин \^п (а, — а,) стремится к нормальному распределению с нулевым средним значе' нием и вторыми моментами .l) Х,р = Е (я (ач — я„) {ap — af)) = а„+? — о„ар. Таким образом, если ввести нормированные величины 2,, положив B8.2.2) «, = «, + так что каждое г, будет иметь среднее значение 0 и стандартное от- отклонение 1, то совместное распределение величин г^ будет асимпто- асимптотически нормальным со сметанными вторыми моментами Все изложенное прямо распространяется на моменты многомерных выборок. 28.3. Центральные моменты. Согласно замечаниям к формуле B7.5.2), каждый центральный момент тч можно записать в виде где w — случайная величина, для которой E{w2) не превышает не- некоторой величины, не зависящей от п. В соответствии с парагрз-
фом 27.4, можно без нарушения общности полагать /я = 0, так что в, = 14. и /я,— }!, = «, — a, — + * , + . Вводя нормированные величины г„, определяемые формулой B8.2.2), получим B8.3.1) /я (/и, — }iv) = avzv — va,^*, + -^-, где R = w — vffja,.!^,.!. Далее, в силу формулы (9.5.1), Е(|^И-vj,a,_, ?(|*а_, I)< так что ? (| R \) не превышает некоторой величины, не зависящей от л, it поэтому из теоремы Чебышева A5.7.1) следует, что —?=- сходится по вероятности к нулю. Применяя к выражению B8.3.1) теорему па- параграфа 20.6, мы обнаружим, что величина V~n {тч — j*v) имеет в пре- пределе при и—»-оо то же распределение, что и линейное выражение ovzY—vajji^z,. Однако совместное распределение величин я, и z, асимптотически нормально, и каждая линейная комбинация нормально распределенных величин, в силу параграфа 24.4, сама распределена нормально. Таким образом, каждый центральный момент выборки тч распре- распределен асимптотически нормально со средним значением щ и дисперсией Мы замечаем, что дисперсия предельного нормального распределе- распределения совпадает с главным членом D2 (от,) в формуле B7.5.4). Если одно- одновременно рассматривать любое количество величин /я,, то мы тем же способом получим, используя последнюю теорему параграфа 22.6, что совместное распределение величин тч асимптотически нормально со средними значениями ]i,t и дисперсиями и смешанными вторыми момен- моментами, совпадающими с главными членами выражений B7.5.4) н B7.5.6). Как и в предыдущем параграфе, полученный результат прямо распро- распространяется на моменты многомерных выборок.
28.4. Функции от моментов. Как и в параграфе 27.7, ограничимся случаем функции Н(тч,т^ от двух центральных моментов одномерной выборки. Однако распространение на любое количество аргументов, на многомерные выборки и на совместное распределение любого ко- количества функций получается немедленно. Докажем следующую теорему. Если в некоторой окрестности точки m,l = )t4, тр = ц функция И (/и,, /и) непрерывна и имеет непрерывные первые и вторые произ- производные по аргументам /», и /ир, то случайная величина H(m4,mf) асимптотически нормальна, причем среднее значение и дисперсия предельного нормального распределения совпадают с главными чле- членами формул B7.7.3). В этой теореме отсутствует требование, соответствующее условию 2) тео- теоремы, доказанной в параграфе 27.7. Таким образом, можно утверждать, на- например, что функция — асимптотически нормальна) — , —_i-_i-), хотя в некоторых совокупностях (см. параграф 27.7) и среднее значение, и дисперсия величины — бесконечны. В этой связи напомним замечание, сделанное в параграфе 17.4: величина может быть асимптотически нормальной, даже если ее среднее значение и дисперсия не существуют или не стремятся к среднему значению н дисперсии предельного нормального распределения. Как и в параграфе 27.7, рассмотрим множество Z всех точек (лс,,..., хп) таких, что \тч — JiJ<C6 и |ир — ИрК!8* Однако теперь мы будем считать величину е зависящей от п, именно, положим s = n~"!: Тогда, пользуясь обозначениями параграфа 27.7 и полагая k = 1, получим Если л достаточно велико, то в каждой точке множества Z справед- справедливо разложение B7.7.6), которое можно записать в виде Уп (Н- Щ = Я, Уп(тч - )ц) + Н2 У7(т? - ц где | R \1i\ < Кгг У~п = Кп " Таким образом, неравенство <^ Кп ' удовлетворяется с вероятностью ^Р B) ^> 1 — 2Ап ", следо- следовательно, НУп сходится по вероятности к нулю. Согласно теореме параграфа 20.6, величины У~п~\Н — Но) и Н1Уп (/»„ — Ц,) + -\-НгУп (т—ji0) в пределе при л—»-оо имеют одно и то же распре- распределение. Однако, в силу предыдущего параграфа, вторая из этих вели-
чин асимптотически нормальна именно с тем средним значением и с той дисперсией, которые требуются нашей теоремой. Поэтому тео- теорема доказана. Из этой теоремы следует, что любая выборочная характеристика, образованная из моментов, при больших значениях п распределена приближенно нормально около соответствующей характеристики совокупности, с дисперсией вида —, при одном лишь условии, что главные члены формул B7.7.3) дают конечные значения для сред- среднего значения и дисперсии предельного распределения. Это остается справедливым и для выборок любого числа измере- измерений. Так, например, коэффициенты асимметрии и эксцесса (см. параграф 15.8), коэффициенты регрессии (см. параграфы 21.6 и 23.2), обобщен- обобщенная дисперсия (см. параграф 22.7) и полный, частный и сводный коэффициенты корреляции (см. параграфы 21.7, 23.4 и 23.5) — все распределены асимптотически нормально около соответствующих коэф- коэффициентов совокупности. В этой связи необходимо сделать следующее важное замечание. Вообще говоря, постоянная с в выражении для дисперсии должна иметь положительное значение. Однако в конкретных случаях с может быть нулем, и тогда дисперсия будет меньшего порядка, чем п~1. Из дока- доказательства теоремы видно, что в этом случае величина К» (Я—Ни) сходится по вероятности к нулю, что можно выразить, сказав, что Н асимптотически нормальна с нулевой дисперсией, пока рассматриваются члены порядка л. Может случиться, однако, что некоторое выраже- выражение вида пр{Н—Но) с р^>~2 будет иметь определенное предельное распределение, но не обязательно нормальное. Пример такого явления встретится в параграфе 29.12 в связи с распределением сводного коэф- коэффициента корреляции, в частном случае, когда соответству ющая харак- характеристика совокупности равна нулю. 28.5. Квантили. Рассмотрим выборку в п значений из одномерного распределения непрерывного типа с функцией распределения F(x) и плотностью вероятности f(x) = F'(x). Пусть ч=ч^ обозначает кван- квантиль порядка р этого распределения (см. параграф 15.6), т. е. (по пред- предложению единственный) корень уравнения F(Q = p, гдеО</><Ч. Бу- Будем предполагать, что в некоторой окрестности точки x — Z,p плотность вероятности/^) непрерывна и имеет непрерывную производную f (х).
Обозначим, далее, через гр соответствующую квантиль выборки. Если пр ие есть целое число, и если мы расположим выборочные зна- значения лс, «S х2 <...«=? хп в порядке возрастания, то существует един- единственная квантиль zp, равная выборочному значению лг^,, тле ц = [пр] обозначает наибольшее целое число, не превосходящее пр. Если же пр — целое число, то мы имеем неопределенный случай (см. парагра- параграфы 15.5—15.6), и гр может иметь любое значение из интервала {хпр, дгв/>+1). Во избежание тривиальных усложнений, будем в дальнейшем предполагать, что пр не есть целое число. Обозначим через g(x) плотность вероятности случайной величины z=-z. Вероятность g(x)dx того, что z попадает в бесконечно малый интервал (х, x-\-dx), совпадает с вероятностью того, что }А=[лр] выборочных значений ие превосходят х, ал—ц—1 выборочных зна- значений превосходят x-\-dx, так что оставшееся значение попадает между X и x-\-dx. Поэтому g{x) dx = ^ j (л - ji) (F(х))Ц\ - F (x))"-*~i f(x)dx. Чтобы изучить поведение распределения величины z при больших «, рассмотрим случайную величину у= у —f(Q (z — С)> где q=±= 1 — р. Согласно формуле A5.1.2), у имеет плотность вероятности где для каждого фиксированного х при п—>-оо имеем (см. A6.4.8)) ^ Ио F№ — P> и поэтому
Подстаилия это it выражение для А,, после некоторых вычислений по- получим .4, —Г», tjk что плотность вероятности величины v стремится к нормальной ? плотности вероятности -гт== с 2. При этом видно, что Л,, A,,/Ij рав- равномерно ограничены в любом интернале а<^х<^Ь, так что, согласно E.3.6), вероятность неравенства а<^у<^1> стремится к пределу ь _? е 2 dx. а Отсюда следует, что выборочная квантиль zp асимптотически нормальна (уС 7п[\\ п) ' где *• ~ *"/» ~~ соотм'жтвутцая кван- квантиль совокупности. В частности, медиана выборки асимптотически нормальна (с»;~'.-""; ' г^е **~bl* — медиана совокупности. Д.чя нормального распределения с параметрами т и в медианой ян.чяотся т, и мы имеем /(/») = —-;=. Таким образом, медиана z вы- е f'Л боркп /* значений и» нормального распределения асимптотически иор- / . / Т малыш Ш, 3 у п / Ш С другой стороны, известно, что среднее значение ~х такой выборки в точности нормально (т, ¦/¦—¦) • Если я ->¦ оо, то и z и Зс сходятся по веро- ятности к т, и при больших значениях л в качестве оценки для т можно употреблять или г, пли х. Однако последнюю оценку следует считать более точной, так клк стандартное отклонение —уг=-, соответствующее Уп ^= 1,2533 у^, соот- соответствующее оценке г. Систематическое сравнение точности различных оце- оценок для характеристик совокупности будет предпринято в теории оценок (см. главу 32). Рассмотрим теперь совместное распределение двух квантилей г' и z" порядков /», и рг, где Рх<^рг- С помощью таких же вычислений, как и выше, можно показать, что это распределение асимптотически
нормально. Средними значениями предельного нормального распреде- распределения являются соответствующие квантили совокупности С и С а асим- асимптотическими выражениями для моментов второго порядка }i» (z'), бУдУт Ptfi PiQt РгЧг" П ' л/(С)/С") * п/ 1 3 Ксли положить, в частности, />, = -.- , /)j = j, то " и С будут верх- верхней и нижней квартилями совокупности, и мы. обнаружим, что семи- интерквартильная широта (см. параграф 15.6| выборки, -тг(г" — z'), распределена асимптотически нормально со средним значением 7^E" — ?') и стандартным отклонением Для нормальной (ш, 9) совокупности среднее значение семн-интер- квартильной широты равно 0,6745 з, а стандартное отклонение 0,7867-^=- . У п 28.6. Экстремальные значения и широта выборки. Пока мы рас- рассмотрели лишь такие выборочные характеристики, распределения ко- которых в больших выборках стремятся к нормальным распределениям. Теперь обратимся к группе характеристик, имеющих совершенно иное поведение. У одномерной выборки, состоящей из н значений, всегда имен поя два конечных и однозначно определенных экстремальных значе- значения *) и также конечная широта, являющаяся разностью между этими экстремальными значениями. Вообще, расположим п выборочных значений к порядке их не.ш- чины и рассмотрим значение, стоящее на v-м месте от начала или от конца этой последовательности (v-oe нижнее или верхнее значения). При v=l получаются, конечно, экстремальные значения. *) Если, например, два наивысших значения равны, то каждое ил них можно считать верхним экстремальным значением, и аналогично в дру- других случаях.
Часто бывает важно знать выборочные распределении экстремаль- экстремальных значений, v-x значений, широты и других подобных характеристик выборки. Сейчас мы рассмотрим некоторые свойства этих распределений. Ограничимся случаем, когда совокупность имеет распределение не- непрерывного типа с функцией распределения F и плотностью вероятности f — F'. Обозначим через х v-e верхнее значение выборки в л элемен- элементов из этой совокупности. Дифференциал вероятности g\i(x)dx выбо- выборочного распределения величины х совпадает с вероятностью того, что среди п выборочных значений я— v значений <^л- и v — 1 значений ]> х -f- dx, так что остающееся значение попадает между х и х -f- dx.. I1оэтому B8.6.1) g4 {х) dx = п (^Z\) (F W)"~v (' - F W)'-1 /(*>dx- Если ввести новую величину. S, положив B8.6.2) 5 = яA— F{x)), и» имеем 0^2«^и, и плотностью вероятности //.,(;) этой новой ве- величины будет „8.6.3, MS)=(«-;)(!)-(,_ 4) при Os-sSsgrt. и AvE) = 0 вис интервала @, л). При п -* оо д, (;) для любого SssO сходится к пределу *' B8.6.4) lim *,?> = ? Г*' Далее, AV(S) равномерно ограничена для всех п в каждом конечном интервале значений ?, так что, согласно E.3.6), величина с в пределе при «—»-оо распределена с плотностью вероятности B8.6.4), которая есть частный случай для A2.3.3). Аналогично, если у обозначает v-e нижнее значение нашей выборки и если ввести новую величину jj, положив B8.6.5) rr-=nF(y), то мы убедимся, что jj имеет плотность вероятности я, (jj), и, таким v-l образом, в пределе при н—к» плотность вероятности тгту«~ч. Можно рассмотреть также совместное распределение v-ro верхнего значения х и v-ro нижнего значения у. Введя величины $ и ij формулами
B8.6.2) н B8.6.5), таким же образом, как и выше, убеждаемся, что совместная плотность вероятности для ? и J] имеет вид B8.6.6) -2 [(у_1)ф(я_2У/! где S>0, ij>0, 3 —f->]<d" и 2v<«. При и—»-оо это выражение стремится к ,28.6.7) *^..-«. *?.-,, тик что в пределе S л jj независимы. Если функция распределения F(x) задана, то иногда можно точно решить уравнения B8.6.2) и B8.6.5) относительно х и у. Тогда по- получим v-e значения х и у, выраженные через вспомогательные вели- величины ? и Г/, распределения которых известны. Если же точное реше- решение невозможно, то часто можно получить асимптотическое решение для больших значений я. В таких случаях известные распределения вели- величин ? и 1} можно использовать для нахождения предельных форм рас- распределений v-x значений, широты и т. д. 1. Прямоугольное распределение. Пусть величина, из значений которой извлекается выборка, равномерно распределена (см- параграф 19.1) по интервалу (а, Ь). Если в выборке в л значений из этого распределения л* и у суть v-e верхнее и нижнее значения, то формулы B8.6,2) и B8.6.5) дадут где ? и 7j имеюг совместную плотность вероятности B8.6.6) с предель- предельной формой B8.6.7). Поэтому получаем и аналогичные выражения для у. Далее имеем B8 6 8) Е (?+У^ — !±* П! (Х+Л — - iЬ — а)" откуда видно, что среднее арифметическое v-x значений .v и у яв- является состоятельной и несмещенной оценкой (см. параграф 27.6) для среднего значения ^t— всего распределения.. Наконец, для разности
X—у имеем При v=l разность х—у является, конечно, широтой выборки. 2. Треугольное распределение. В случае треугольного рас- распределения (см. параграф 19.1) по отрезку (а, Ь), уравнения B8.6.2) и B8.6.5) при *>?±*, у<±±± дают х = Ь-(Ь-а) j/i, y^ Рассмотрим только частный случай v = 1, когда х и ji' — экстремаль- ные значения выборки. Тогда получим B8.6.10) 3. Распределение Кош и. Дчя распределения, заданного плот- плотностью вероятности A9.2.1), величина B8.G.2) имеет вид со или где 5 имеет предельное распределение B8.6.4). Остаточный член схо- сходится по вероятности к нулю и поэтому из параграфа 20.6 следует, что i J" v-e верхнее значение х в пределе распределено так же, как и »i+ -- v, где v—j- имеет плотность вероятное!и f7~r v~'~*e "• Амало1ично v-e нижнее значение у распределено так же, как и ц - - ^- ы1. где tt*< и пре-
деле независима от v и имеет такое же, как v, распределение. В слу- случае v = 1 средние значения величин хну бесконечны. При v — 2 мы имеем Мы замечаем, что дисперсия не стремится к нулю при п—¦* оо. Соответ- Соответственно этому, —-к— не сходится но вероятности к ft, так что ^ не является состоятельной оценкой (см. параграф 27.6) для ji. 4. Распределение Лапласа. В случае плотности вероятности A9.2.4) для v-ro верхнего значения х мы получаем, если .V^>}1, JC = p.-|-A. log1 ^ —"'-logs, где ? имеет предельное распределение B8.6.4). Пода-лилии v вместо — logS, получим где v = — log? имеет в пределе плотность вероятности Аналогично, v-e нижнее значение имеет вид где w u пределе независима от г> и имеет плотность вероятности д В частном случае v=l имеем (см. следующий пример) B8.6.12) Е(Ц>-)= и мы замечаем, что, как и в предыдущем случае, *^~- не явлиетси состоятельной оценкой для р.. 5. Нормальное распределение. Рассмотрим скачали нор- нормальное распределение с нормированными параметрами т = 0 и 3 = 1 Если х есть v-e верхнее значение выборки в я значений из этого распре- распределения, то B8.6.2) имеет вид во р е 2 dt.
Требуется найти асимптотическое решение х этого уравнения при большом п. Интегрируя по частям, приведем уравнение к виду и Предполагая, что $ ограничено, после некоторых вычислений получим л. __ у 2 |r..r» _ '"в ™& " т~ loS ^ *°8« О 2 Г 2 log я V21og« ' \Vyg n откуда следует, что остаточный член сходится по вероятности к нулю. Рассматривая общий случай нормального распределения с произволь- произвольными параметрами т и а, воспользуемся лишь заменой х на х~т Заменяя также —logS на г>, мы таким образом получим, что верхнее v-e значение X может быть представлено в виде B8.6.13) x = |де величина v-~ — logs имеет в пределе при п—»-оо нлотность вероятности B8.6.14) Л((,)==т^_,-«-,-, с которой мы уже встречались в предыдущем примере. Аналогично для v-ro нижнего значения у получим выражение B8.6.15) , = т-9уШ& та -^= 2V21ogn У 2 log где да в пределе независима от v и имеет плотность вероятности /,(w). Таким образом, при больших значениях п v-e значения х и у полу- получаются с помощью простого линейного преобразования из величин, имеющих предельное распределение, определяемое плотностью вероят- вероятности B8.6.14). Графики плотности вероятности и =/, (v) для некото- некоторых значений v изображены на фиг. 27. Мы замечаем, что предельное распределение, с точностью до нормирования, имеет тот же вид, что и в предыдущем примере. Прямое обобщение вышеиз- вышеизложенных методов показывает, что та же самая плотность вероятности j\ (v) кстрочается по всех случаях, когда плотность вероятности генеральной сово- совокупности при больших значениях I x | имеет асимптотическое выражение где А, В н р —положительные постоянные.
Модой величины, имеющей плотность вероятности у, (г>), является — Jog>, в то время как среднее значение и дисперсия этой величины лаются выражениями Eiv) = \ vj (v)dv=—-=ггг I 5* log* e-'i/2 = С —. * ' I *v ' ' I IV) I -ос О 09 -j -г -/ <? / г j <i J в 7 Фиг. 27. Плотность вероятности «=/»(») при v = 1,2; 3,4 получающимися с помощью A2.5.6) и A2.5.7). Здесь С обозначает постоянную Эйлера, определяемую формулой A2.2.7), а величины 5, и .S\j имеют вид Отсюда получаем для -v-го верхнего значения дс: «и—+
и аналогичные выражении для у-го нижнего значения. Далее, получаем Е (it*-) =„,, B8.6.17) хЛ-У так что в этом случае —-j-^- являетси состоятельной оценкой для т, хотя дисперсия стремится к нулю лишь как (log«)~1, т. е. далеко не так быстро, как я-'. Для разности х — у между v-ми значениями по- получим РIX ,Л — а D log Я ~~ log log Я ~ log *" ~ 2 F' ~ ^ B8.6.18) Таким образом, можно получить состоятельную оценку для и, умно- умножая х—у на подходящую постоянную, и дисперсия этой оценки при заданном большом значении п будет приблизительно пропорциональна величине Предельные формы, исследованные выше в связи с нормальный распределением и распределением Лапласа, получены частично Р. Фишером и Типпетом [110] и частично Гумбелем [120], в статьях ко- которых можно найти дальнейшие сведении о свойствах этих распреде- распределений и их статистических приложениях. В предельных выражениях для случаи нормального распределении остаточные члены имеют такой же морилок, как отрицательная степень log». Поскольку logrt стремится к бесконечности медленнее любой степени п, приближение к предельным формам здесь значительно медленнее, чем, например, в случае приближения к нормальности рас- распределения какой-нибудь моментной характеристики. Точные распреде- распределения экстремальных значений и широты выборки в случае совокуп- совокупности с нормальным распределением были изучены многими авторами, имеются также соответствующие таблицы. Читатель может обратиться
к таблицам К. Пирсона [264J н к статьям Ирвина [131], Типпета [226], К. Пирсона и Дэви [190], Е. Пирсона и Гартли [197]. На фиг. 28 приведено точное распределение для наибольшего члена вы- выборки в сравнении с соответствующими распределениями, вычислен- вычисленными ни предельным выражениям B8.6.13)-- B8.6.14). Фиг. 28. Функция распределении для верхнего экстремального значения 1>ы- порки в я значений ил нормальной совокупности с от=0 из=1, точна» и вычисленная по приближенной форму.-ie (пунктир) гллвл а» ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 29.1. Постановка проблемы. В двух предыдущих главах мы пока- показали, как вычислять моменты и различные другие характеристики вы- выборочных распределений, и изучили асимптотическое поведение рас- распределений при неограниченном no:ip;icтанин объема выборки. Однако ясно, что знание точного вида выборочного распределения имеет зна- значительно большее значение, чем знание некоторого количества номент- ных характеристик распределения и предельного выражении при боль- больших значениях я. Асимптотические выражения иногда резко расходятся с истинными распределениями, в особенности если мы имеем дело с малыми выборками, как это часто бывает в приложениях; в таких случаях знание точного вида распределения особенно желательно. Предположим, что мы имеем дело с выборкой в п наблюденных значений из одномерного распределения с функцией распределения F(x\ и мы хотим отыскать выборочное распределение некоторой выбо- выборочной характеристики g(xi х„). Задача заключается в том,
чтобы отыскать распределение заданной функции g(xv ... ,хп) от я не- независимых случайных величин xv...,xn, имеющих одну и ту же функцию распределения F(x). Теоретически эта задача была решена в параграфе 14.5, где было показано, что если заданы функции F и g, то всегда существует единственное решение. Задачу часто можно решить численно, вы- вычисляя таблицы с помощью приближенных формул. Однако, если требуется, чтобы решение было выражено явно через известные функ- функции, то положение резко меняется. При современном состоянии нашей науки такое решение можно получить лишь в сравнительно редких случаях. Одним из случаев, н которых результат может быть получен с из- известной общностью, является простой -случай среднего значения одно- одномерной выборки x = — 2^xt. В главах 16—19 мы видели (см. па- параграфы 16.2, 16.5, 17.3, 18.1, 19.2), что многие распределения удовлетворяют так называемой теореме сложения, которая дает точ- точное выражение для функции распределения Gn{x) суммы хг + ... -\-Х„, где Х{ — независимые величины с одной и той же заданной функцией распределения F(x). Тогда функцией распределения среднего значения х является Gn (nx), так что можно отыскать точное выборочное рас- распределение среднего значения, если только распределение генераль- генеральной совокупности удовлетворяет теореме сложения. Приведем не- несколько примеров: Если функция распределения F(x) нормальна (т, а), то, как мы видели в параграфе 17.3, среднее значение х нормально (т, -т=\ • Если F(x) соответствует распределению Коши, то, согласно пара- параграфу 19.2, х имеет ту же самую функцию распределения F(x), что и генеральная совокупность. Если генеральная совокупность имеет распределение Пуассона с параметром >, то среднее значение х имеет возможные значения °' Т' ?' •'' ' и из <16-5-4) "едует, что Кроме случая среднего значения (см. Ирвин [132]) относительно точного вида выборочных распределений известно очень мало резуль- результатов общего характера. Лишь в одном частном случае, именно в слу- случае выбора из нормальной генеральной совокупности (любого числа
измерений), удается систематически исследовать проблему и добиться достаточно полных результатов. В настоящей главе мы будем зани- заниматься именно этим случаем. Некоторые отдельные результаты, относящиеся к описанному здесь кругу идей, были получены на ранней стадии, развития статистической теории Гельмсртом, К. Пирсоном и Стыодентом. Однако впервые этот предмет был систематически изучен Р. Фишером, который дал строгие доказательства полученных ранее результатов и установил точ- точный вид распределении и новых чре:шычайио важных случаях. В своей работе, посвященной этим проблемам, Фишер широко использует ме- методы многомерной аналитической геометрии. Позже к проблемам опи- описанного нами типа были применены и другие методы, как, например, использование характеристических функций, некоторые преобразовании переменных и т. д. В дальнейшем мы приведем примеры испольпо- вания различных методов. 29.2. Лемма Фишера. Степени свободы. При изучении выбо- выборочных распределений, связанных с нормально распределенными вели- величинами, часто оказывается полезным следующее преобразование, полу- полученное Р. Фишером [97]. Предположим, что xv ... , хп — незави- независимые случайные величины, каждая из которых нормальна @, а). Рассмотрим ортогональное преобразование (см. параграф 11.9) B9.2.1) У, = с,& + с/4*24- • • • +с1вхп, A= 1, 2, .... я). «водящее вместо х1г ... , хп новые неличины у1, ... , уа. Согласно параграфу 24.4, совместное распределение величин у; нормально, и мм получим (см. упражнение 16, стр. 351) E{yt) = 0 и " ( G3 при i = k. *OW*) = в5 Д «1/*/ = ^ 0 при гфк, так что новые величины у( некоррелированы. Тогда из параграфа 24.1 следует, что эти величины даже независимы. Таким образом, преобра- преобразованные величины у{ независимы и нормальны (О, а). Геометрический смысл этого результата очевиден. Преобразование B9.2.1) соответствует (см. параграф 11.9) вращению координатной системы около начала координат, и наш результат означает, что рас- рассмотренное здесь нормальное распределение частного вида в /?„ инва- инвариантно относительно такого вращения.
Теперь предположим, что сначала задано лишь некоторое число /j<« линейных функций yv уе, ... , ур, где y, = eltxl-\-... + -\-с1пхп, a ctj удовлетворяют условиям ортогональности • I 1 при / = *, b^ifkj— | 0 при 1фк, для /=1,2, ... , р; к= 1, 2, ...,/>. Согласно параграфу 11.9, можно найти л—р строк чисел с„, ... , с1я, где /=/j-f-t я, таких, что полная матрица Cnn = {clk\ будет ортогональной. Рассмот- Рассмотрим квадратичную форму величин хх% ... , хп B9.2.2) Q(xlt ... , хп) = ^х)—у\ ->г2. Ес.ж к этой форме применить ортогональное преобразование B9.2.1). Л II то 2-*?, согласно параграфу 11.9, преобразуется в 2.Ур и мы получим Таким образом, Q равна сумме квадратоз п — р независимых нормаль- нормальных @, о) величин, которые, кроме того, не зависят от ylt ... , ур. Используя A8.1.8), получим следующую лемму, доказанную Р. Фише- Фишером [97]: Величина Q, определяемая формулой B9.2.2), независима от У\> ур и имеет плотность вероятности n—p 2 2 « где кп(х) — плотность вероятности A8.1.3) распределения Xs- Число п —р есть ранг формы (?(см. параграф 11.6), т. е. наименьшее число независимых величин, к которым может быть приведена форма Q с помощью неособенного линейного преобразования. В статистических приложениях это число свободных величин в данной задаче обычно называется, в соответствии с терминологией, введенной Р. Фишером, числом степеней свободы задачи или распределения случайных вели- величин, рассматриваемых в этой задаче.
Так, например, величина 72 = i$2 и ее плотность вероятности 1 кп (х), рассмотренные в параграфе 18.1, имеют я степеней свободы, так как квадратичная форма х2 имеет ранг я. Соответствующее распределе- распределение называется распределением /2 с п степенями свободы. п Аналогично, рассмотренная выше форма Q = 2 *?—У\— • • • —У\ ранга п—р имеет п — р степеней свободы, и доказанный выше ре- результат означает, что величина ~ имеет распределение у} с п—р степенями свободы. Такая же терминология часто употребляется и для других распре- распределений. В случае распределения Стьюдента принято говорить, что плотность вероятности sn(x), определяемая формулой A8.2.4), соот- соответствует распределению Стьюдента с п степенями свободы, так как квадратичная форма в знаменателе величины t, определяемой форму- формулой A8.2.1), имеет ранг я. Для ^-распределения Фишера (см. параграф 18.3) мы будем делать различие между /я степенями свободы в числителе формулы A8.3.1) и я степенями свободы в ее знаменателе. 29.3. Совместное распределение величины х и sa в выборках из нормального распределения. В параграфе 29.1 мы уже указали, что среднее значение х выборки в п элементов из совокуп- совокупности с нормальным (/те, а) распределением само нормально (т, г4=]' Теперь рассмотрим распределение выборочной дисперсии s2 = m2=~to — *J и> одновременно, совместное распределение величин х и s2. Можно предполагать без ограничения общности, что среднее значение совокупности т равно нулю, так как это не меняет sa и эквивалентно прибавлению к некоторой постоянной. Таким образом, предположим, что каждое х{ нормально @, а), и рассмотрим тождество (см. A1.11.2)) B9.3.1) и**=2 to—-vJ—2*?—ч*2- 1 1 -р=-\~ ••• -j-^==] есть квадрат линейной
формы clx1 -j- ... -\- спх„, для которой с\ -(- ... -f cl = 1 • Поэтому можно применить лемму предыдущего параграфа, положив в B9.2.2] р=\ и _у, = К я *. Возвращаясь к общему случаю среднего зна- значения совокупности т, получим следующую теорему, впервые строго доказанную Р. Фишером [97]: Среднее значение х и дисперсия s2 нормальной выбор/си независимы. причем х нормально \т, ~=\, а ~у имеет распределение X2 с а—1 степенями свободы. Можно показать, что независимость х и ss имеет место только в случае нормальной генеральной совокупности (см. Лжейри [115] и Лукас |150). С дру- другой стороны, в параграфе 27.4 мы видели, что х и s2 некоррелировонь, если только третий центральный момент |»з генеральной совокупности равен нулю. Из доказанной нами теоремы следует, что несмещенная оценка (см. параграф 27.6) для дисперсии, т. е. величина -^П 5*» имеет плотность вероятности ~ Ая_, ( —:=у*— J . Сравни- п вая последнюю с плотностью вероятности величины — ^ х?, дан- данной в таблице в конце параграфа 18.1, мы увидим, что величина л ¦ ^ s* = ¦ ¦: 7. (лс,-—л1J распределена так же, как среднее ариф- арифметическое й — 1 квадратов независимых нормальных @, а) величин, в соответствии с тем фактом, что распределение имеет п — 1 степеней свободы. Среднее значение и дисперсия величины 8*=тг уже были полу- получены ранее (см. формулу B7.4.5)). С помощью формулы A8.1.5) мы получаем следующее общее выражение для моментов: B9.3.2) ? (ml) = С Отсюда выводятся выражения для коэффициентов асимметрии и экс- эксцесса: Т.,К>=р=, Т. («*.) = „-—. Е1ля стандартного отклонения выборки s = Vm2 получаем, с помощью
соответствующей общей теоремы и испол!зуя формулу Стирлинга A2.5.3), B9.3.3) в согласии с общими выражениями B7.7.1) и B7.7.2). Вследствие большого значения теоремы о совместном распределе- распределении величин ~х и а2 дадим для нее еще одно доказательство, комби- комбинируя использование некоторых преобразований переменных с геомз- трическими соображениями. Как и прежде, при доказательстве будем предполагать, что /я = 0. Рассмотрим «-мерное пространство выборок Ra величин *,,..., ха. Наша выборка изображается в этом пространстве переменной точкой— выборочной точкой Х=Х(хх, ... , хп). Пусть XR— перпендикуляр, опущенный из точки X на линию xt =х2=... =Jfn. Тогда/? имеет координаты (х, ... , к), так что квадраг расстояния OR между точкой R и началом координат О равен пх2, и, следовательно. XR* = OX* — ORi = '%x'—. ядл=ns2. 1 ' Совместное распределение величин х, рассматривается обычным образом, как распределение единичной массы по ?„, и дифференциал вероятности этого распределения равен 1 !?4ji dP==17W C dxt...dxH. Bк) с» Повернем координатные оси так, чтобы одна из них совпала с пря- прямой OR. Этот поворот выражается ортогональным преобразованием л у{ = 2]сfjXji где-одна из величин у{, например, у„, равна унх=- = р=-Ь--- + Г^- О«юм получим 2*2 = 2>?=»;*г+ 2Л- и, далее, 2 yj = ns2. Детерминант преобразования равен или
или 1, и по формуле B2.2.3) имеем dP — ев rfy,... (/=1,2, ... , я —1), Сделаем замену переменных B9.3.4) yt = V"nszt, которая означает, что мы принимаем длину XR = \^ns за единицу масштаба. Однако при последней замене переменных вместо я—1 величин yt получаем я новых величин s и zv ... , zn_l. Соответ- Соответственно этому, между новыми переменными существует соотношение, которое можно найти, возведя в квадрат и складывая я— 1 уравнений B9.3.4). При этом получим л-1 B9.3.5) 23 «5 = 1. 1 так что одна из величин г,-, например, zn_v может быть выражена как функция от я — 2 остальных zt, так что в B9.3.4) старые пере- переменные yv ... , уп_1 заменяются новыми переменными s и г,, .., , zn-i' Так как—4L=-1= — , то якобиан J преобразования имеет вид "*/ zn-\ V~nzx J = Vп г2 V~nzn_, у п s О О О V"ns О О О к-1 -'!__?__ 1 О О 1 О о л—1 л-1 *п- п-\
Для любой системы значений (у,, ... , уп_1)ф@, ..., 0) мы полу- получаем по формулам B9.3.4) н B9.3.5) однозначно определенную систему значений zv ... , гп_г и s, для которой s]>0. С другой стороны, л—2 любой системе значений zv ... , гл_2 и s, для которой S г/<С' и ^^> 0, соответствуют дед значения zn_v отличающиеся знаком и опре- определяемые из формулы B9.3.5), именно гп_1 = +-1/Л1—z\—...—z'2n_., t а поэтому две системы значений yt, именно ylf ... , yn_v, _Ьуп_у Обе эти системы дают одно и то аде значение дифференциала ве- вероятности dP и модуля |У| якобиана, так что с помощью замечании к параграфу 22.2 получаем выражение 2 1 •*¦ 1 v n •- \ 2") - — X д—1 2 Элемент вероятности dP получается здесь в виде произведения трех множителей, именно элементов вероятности для х и s и совмест- совместного элемента вероятности величин zv ... , zn_2. Таким образом, ми видим (см. B2.1.2)), что х и s ье зависят не только друг от друга, но также и от составной, величины (zv ... , ¦?„_¦>), и что распределения величин х и s те же самые, что и распределения, даваемые приведенной выше теоремой *). Для дальнейших целей в заключение укажем, что в общем случае, когда среднее значение совокупности т не равно нулю, приведенное *) Этот же результат можно получить с помощью преобразования Х( = х -\- S2{, которое использовали для этой и для других целей Береис [60], Стеффенсеи [2)8], Раш и Хальд [206].
выше преобразование элемента вероятности можно записать в виде 1 • ¦ • илп — л-1 J/I-1 X 1>ассмотрим результат этого преобразования для выражения С помощью тождества B9.3.1) легко показать, что каждое xt—х преобра- преобразуется в линейную комбинацию величин у5,..., yn_t. Тогда из формул 29.3.4) и '29.3.5) следует, что mvw2~v/2 есть функция только от гу,..., *„_8 • Таким образом, три величин» х, s и nv*J~*'2 нюависимы (см. Джейрн[116]}. Следуя Джейрн, можно использовать этот резулЪ1>т для получения точ- точных выражений (впервые полученных Фишером J101]) лля среднего знамения и дисперсии коэффициентов gi = пг^п^* • «ft=«,">г~ г — 3, в вето асимпто- асимптотических выражений B7.7.9). Действительно, из теоремы о независимости следует, что Е (тРщ * ) Е («/) = ? так что среднее значение величины {myni^'t!7f можно вычислить по "Р и Е{щ*). Таким образом, получим ^ 2Ыя-^(« — 3)
Таким образом, ft получается с отрицательным смещением порядка яг1, а gt является несмещенной. Если вместо ft и g. мы рассмотрим аналогичные величины _ _ *-, Vntn-l) т я —2 B9.3.8) где ЛГУ — несмещенные оценки семи-инвариантов по Фишеру (см. параграф 27.6), то смещение пропадает, и получим m,rtv6п(п— B9.3.9) *»1<0> 24ntn-lfi 29.4. Стьюдентово отношение. Рассмотрим величины V п (х — я») и 2_ s% в том случае, когда распределение генеральной совокупности нормально (т, о). В соответствии с предыдущим параграфом, эти две величины независимы, причем ]fnft — m) нормальна @, о), а ——,s* распределена так же, как среднее арифметическое я—1 квадратов независимых нормальных @, а) величин. По определению распреде- распределения Стьюдента в параграфе 18.2, отношение B9.4.1) /= имеет распределение Стьюдента с п— 1 степенями свободы. Такнм образом, t имеет плотность пероятности ф Это можно, конечно, доказать и непосредственно. Предположив, для простоты, что т = 0, заменим выборочные величины х„ .... *„ но- новыми переменными yv ... , уп с помощью ортогонального преобразо-
вания, при котором yl =Vп х = -^= -{-¦••+ $= • Тогда us" — V п V п л « =2-*'/—я*а=2з'?>так чт° причем, согласно параграфу 29.2, величины yt независимы и нормальны (О, а). Поэтому можно непосредственно применить доказательство формул A8.2.1) —A8.2.4). Если в первом выражении дл» t в формуле B9.4.1) заменить величину п sp ее средним значением с2, то получим величину V /Г х ~ т, которая. sp ее средним значением с, то получим величину V /Г очевидно, нормальна @,1). Из параграфа 20.6 следует, чго разность t— Vn ' сходится по вероятности .к нулю при л—»-оо. В со- соответствии с формулой B0.2.2), плотность вероятности для t стремится к X !<? 2 при л—»во. Величина t, определяемая формулой B9.4.1), известна под назва- названием стьюдентова отношения*). Ее распределение впервые было получено Стьюдентом [221], результаты которого были затем строго доказаны Р. Фишером [97]. Как уже было указано в параграфе 18.2, плотность вероятности sn_v так же как и сама величина t, не содержат а. Как только известно т, можно вычислить t по выборочным значениям и сравнить вычисленное значение t с теоретическим распределением. Таким путем мы полу- получаем практически важный критерий значимости для отклонения вы- выборочного среднего значения ~х от некоторого гипотетического зна- значения среднего значения совокупности т (см. параграфы 31.2 и 31.3, пример 4). Чрезвычайно большое практическое значение имеет применение распределения Стьюдента в критерии значимости разности мещду двумя средними значениями (Р. Фишер [97]; см. параграф 31.2)- *) Стыодспт рассматривал величину г= , =¦ =- . V п — 1 s
Относящееся к этой проблеме выборочное распределение получается следующим образом. Предположим, что даны две независимые выборки xv ... , х„ и у,, ... , уп извлеченные из некоторой нормальной совокупности. Без ограничения общности можно предположить, что /» = 0. Обозна- -IV , 1 V чим х = —У.х1 и « = — Za(xi — ¦*) среднее значение и дисперсию Я1 г *  1 первой выборки, a j; и s2 — соответствующие характеристики второй выборки. Заменим все пу-\-п^ величин xv ... , дт„ ) yv ... , у п но- новыми величинами г,, ... , zn +я с помощью ортогонального преобра- преобразования, при котором zl = V~nx'x и z^ = yrit2y. Тогда квадратич- квадратичная форма 1 1 преобразуется в Q= 2 г?> откуда видно, что ранг (или число сте- з пеней свободы) формы Q равен п1 -\- п2 — 2. Если определить случайную величину и соотношением B9.4.2) я= ?1г -\Г- + nt — 2) л; — У то эта величина и при нашем ортогональном преобразовании выра- выразится так: 3 «!+"« где и> и гл, ... , zn +я —независимые и нормальные @, а) величины. Теперь можно снова применить рассуждения параграфа 18.2, из кото- рых будет следовать, что величина и имеет распределение Стьюдента с /»j -|— ла — 2 степенями свободы, так что и имеет плотность вероят-
пости .«„ >;,2_j (x). Этот результат справедлив, очевидно, независимо от знамения т. Можно заметит!:, что в этом случае im величина а, ни соответствующая плотность вероятности не содержат какого-нибудь ыз параметров /я и a pa пределения генеральной совокупности. Таким образом, можно вычислить и непосредственно по выборочным значе- значениям и сравчить полученное значение и с теоретическим распределе- распределением (см. параграфы 31.2 и 31.3, пример 4). л л Рассмотрим квадратичную форму ns3 = ^(xe — дг)г = 2-т'/~п^г от" носитечьио я выборочных переменных .*,,..., ха, предполагая, что среднее значение совокупности т равно нулю. Заменяя xt новыми переменными yt с помощью ортогонального преобразования, при котором первыми двумя но- новыми переменными будут мы преобразуем форму ns2 к виду ^У(- Стедовате-чьно, величина 2 B9.4Л) t= х*~ х, s киторая выражает отклонение выборочного значения Xi от выборочного сред- среднего значения х, измеренное стандартным отклонением выборки s, принятым яп единицу масштаба, после нашего преобразования примет вид t= Но величины у*,..., уп независимы и нормальны @, с), так что, в силу фор- формул A8.2.6) и A8.2.7), величина " имеет плотность вероятности (см. Томсон [225] и Арлей [53]) Тогда величина , согласно параграфу 18.2, имеет распределение Стьюдсита с л — 2 степенями свободы. Из определения величины * следует,
что эти результаты справедливы независимо от значения т. Каждое отно- Xi— X сительное отклонение -* имеет, конечно, такое же распределение, как 11 т. Эти результаты имеют большое значение в вопросе о критерии для бра- коски наблюденных выборочных значений, лежащих далеко от среднего зна- значении. Вообще, если рассмотреть средние арифметические хц = ' '"¦*¦"'* *, где 1 =.=s А < л, и положить т* = — , то величина тА |/ ———-: имеет плотность вероятности B9.4.4), и, следовательно, величина »29.4.5) имеет распределение Стьюдента ел — 2 степенями свободы (Томсоп [225]). Это можно использовать для проверки значимости разности между средним значением полгруппы и средним значением всей совокупности (см. параграф 31.3, пример 5;. 29.5. Лемма. Теперь приступим к изучению выборочных распре- распределений, связанных с многомерной нормальной генеральной совокуп- совокупностью. В этом предварительном параграфе мы докажем некоторые результаты, полученные Висхарюм [240] и Бартлеттом [241], кото- рыс потребуются нам в дальнейшем. Пусть А —- \ }, где Oji-=a{j; — положительно-определенная матрица (см. параграф 11.10) с постоянными элементами, а X— \ >, где лг./ = лг/,, If V I \xk\ • •• xkk ' — переменная матрица. В силу симметрии X содержит, конечно, лишь *(*¦+•!) п —Y—- различных переменных x(j. Детерминанты этих матриц будем обозначать А=]a(j \ и А"= |xtj I. Рассмотрим теперь ^—-мерное пространство RUk+)\ вели- Г" чнн xtj., где А;эН. Пусть 5 обозначает множество всех точек этого пространства, в которых соответствующая матрица X положительно определенна, а 5*—дополнительное множество. Для любого п'
определим следующую функцию от переменных х(у. B9.5.1) Ск„А 2 X 2 В S, О в S*, ,,. где Скп—'постоянные, зависящие от k и я, но не от a{j или хх Сумма в показателе при е распространяется на /=1,2 It и /=1, 2 ¦&. Теперь покажем, что постоянные Скп мощно определить так, чтобы /„(jfn, ... , xkk) была плотностью вероятности некоторого распределения в Rk,k , ^ . Действительно, за Скп следует взять 2 B9.5.2) Ск1 *(*—г ¦ rhr]r(—J-r(-r-j При ft=l формулы B9.5.1) — B9.5.2) дадут я—1 „ 2 я-З — _/л_1\ * 0, л>0), и эта функция является, очевидно, плотностью вероятности в J?,. При А^>1 следует показать, что Скп могут Сыть определены таким образом, чтобы интеграл от fn по всему пространству раннялся 1. Сначала рассмотрим частный случай, когда А—диаго- А—диагональная матрица (см. параграф 11.1), так что а^=0 при i=?j. По- Поскольку А положительно-определенна, аа^> 0 при /= 1, ... , к. В лю- любой точке множества 5 мы имеем дг/;^>0 при /=1 к. Про- Произведя для любого xtj с i=4=j подстановку B9.5.3) *ч=УцУхцХ& получим Vji—yy и X=DYD, где D обозначает диагональную ма- матрицу с элементами Vxu, Y— , ... , Vxkk, 1 ^'i3 • • • Ух У-ik К Уц
Обозначив через У детерминант матрицы Y, таким образом, имеем X=xuxi2 ...xkkY. Если X положительно определенна, то это же верно и для Y, и обратно. Якобиан преобразования B9.5.3) равен k—\ (хпхг2 ... xkU) 2 , так что имеем г к со /г—3 — 2^ <*ti*il V / v* v \' \ * Р /i \* fi \* * • 1 \Л ] |**оо • • • •*• kh) Cf^i j 1^2 • • * о я—к- 2 ...Й?ДГЛЛ^К 2 rfVjo . .. ^'fe_i,4, 3' где интегрирование но j/,y. распространяется на множество 5' всех у/у, для которых Y положительно определенна. Очевидно, инте- интеграл по переменным ylJy который мы обозначим Jk, зависит только от k и я, так что весь интеграл по множеству 5 сводится к п— 1 я—1 ' й ... akk) 2 A 2 где Нкп зависят только от k и я. Если в B9.5.1) положить СА„ = //^Л1 , то интеграл от fn\xu xkk) по всему пространству Rkih + 1) бу- дет равен 1, так что /„ (которая, очевидно, неотрицательна) является плотностью вероятности некоторого распределения в /?*/ь,., а \К "г 1) • 2 Чтобы завершить доказательство в случае, когда в//=0 при / ??/, остается проверить выражение B9.5.2) для Ckn. Из вышеизлиженного следует, что надо доказать равенство n—k~i k(k-V) к Г [П~~1\ при 2 ^ А < я. Это можно доказать по индукции, и мы лишь наметим общий путь доказательства. При А=2 наше соотношение сводится к соотношению -И г_-Л Г
которое может быть проверено непосредственно, так как подстановка у2 — z превращает этот интеграл бэта-функцию (см. параграф 2.4>. Предположим теперь ,чго наше соотношение доказано для некоторого значения к, и рассмот- рассмотрим У4+1. Раскрывая детерминант, стоящий под знаком интеграла, по фор- формуле A1.5.3) получим для Л-1-1 выражение л—к—з )л—к 2 где интегрирование по переменным _y,;ftr] распространяется на все значения к этих переменных, для которых 2 ^//У/,*+1 /*+i<^* Последний интеграл /,/=1 можно вычислить таким же способом, как и интегралы A1.12.3) — A1.12.4), и получим "' * Таким образом, нате соотношение остается справедливым для А +1. чем доказательство закончено. В общем случае, когда Л—любая положительно определенная матрица, рассмотрим преобразование B9.5.4) САС-Bt C'XC—Y, где С — ортогональная матрица, такая, что В — диагональная матрица (см. параграф 11.9). Множество .9 в пространнее переменных х преобра- преобразуется в аналогичное множество St в пространстве переменных у. Из приведенного выше доказательства следует, что функция .щ CiO'n' •• ¦ » Уш— \ о 5* есть плотность вероятности в пространстве неременных у (заметим, что Ь-. = 0 при i^=j). Поскольку детерминант матрицы С равен ±1- имеем А = В и X=Y, и далее непосредственной подстановкой можно убедиться, что X<*/,-*//= 2 ^nva- Таким образом, если в распределе- пни B9.5.5) произвести преобразование случайных величин, опреде- определяемое формулами B9.5.4), то, в соответствии с параграфом 22.2, мы получим преобразованное распределение с плотностью вероятности /„(a-,,,..., xklc). Таким образом, /„ есть плотность вероятности, и наше утверждение доказано.
В частном случае-* = 2 мы имеем три переменных лгц, дг22 и A-12 = jr2)# Множество S есть область, определяемая неравенствами хп > О, д:и > 0. х\2 ^ А'пдг»- В S имеем B9.5.6) fn{xn, х№ хп) = и—1 л-4 ,2 2"~3 где (см. параграф A2.4.4)) Вне S плотность вероятности равна нулю. Рассмотрим также характеристическую функцию yn(tlv ... , tkl), соответствующую шптности вероятности /„(¦*",,, ... , Jfw), опреде- определяемой формулой B9.5.1). Пусть 7> = {///} обозначает симметричную матрицу переменных t^, и положим eij -li 1 при i — /, при Поскольку в S* /я = 0, характеристической функцией, соответствую- соответствующей плотности вероятности /„, является U (Чтобы избежать недоразумений, мы пишем здесь I — обозначение мнимой единицы — жирным шрифтом, как уже было указано в пара- параграфе 27.1.) При *fy = O этот интеграл равен 1, так что имеем j и-Я-2 — X 2 е S Заменяя здесь а,у на atj — ihfij и обозначая через А* детерминант \atj — &,у^у|, получим окончательное выражение я-1 B9.5.7) (^
для характеристической функции, соответствующей распределению B9.5.1)*). 29.6. Выбор из двумерного нормального распределения. В фундаментальной работе 1915 года Р. Фишер [88] дал точные выражения для некоторых выборочных распределений, связанных с дву- двумерной нормальной генеральной совокупностью. Мы докажем некоторые из результатов Фишера, используя метод характеристических функций, впервые примененный к таким задачам Романовским [208], [209]. При этом будет показано, что полученные распределения представляют собой частные случаи распределений, рассмотренных в предыдущем параграфе. Рассмотрим собственное нормальное распределение двух величин (см. параграф 21.12). Без ограничения общности можно предполагать, что моменты первого порядка равны нулю, так что в обычных обо- обозначениях плотность вероятности имеет вид Г * где Af=ji80jx02 — Дм = aia|(l — р8) — детерминант матрицы вторых моментов Л|=^ *° п>. По выборке в а наблюденных пар значений yV-n М-оа' (xv Уд< • • •» (-*/!> Уп) вычислим моментные характеристики первого и второго порядка (см. B7.1.6)) 4 ^ B9.6.1) [ ' тп = «,*2 = - X (*i — *) IJi —У) = ^ *) Ингам [130] показал прямым методой, что характеристическая функ- функция B9.5.7) дает, в соответствии с формулой обращения A0.6.3), плотность вероятности B9.5.1).
Постараемся отыскать совместное распределение пяти случайных вели- величин х, у, /я80, тп и тт. Характеристическая функция этого распре- распределения есть функция от пяти аргументов tv /2, tw, tu, /C2, именно B9.6.2) где <> == i {fxx 4-... а интегрирование распространяется на 2л-мерное пространство значе- значений величин xv ..., хп, ;', jn. Заменим х,, ..., хп новыми переменными ?,, ..., Sn с помощью ортогонального преобразования, при котором St = \fn x, и применим преобразование с такой же матрицей к величинам yv ..., уп, кото- которые при этом заменятся новыми величинами т;,, ..., г1п, причем ril=Vny. Тогда имеем и отсюда а= аJb* +(» &-« Подставляй это выражение для Q в формулу B9.6.2), приведем 2Л'Кратный интеграл к произведению я двойных интегралов, каждый из которых может быть вычислен непосредственно с помощью формул (П.12.1) и A1.12.2). Тогда совместная характеристическая функция B9.6.2) примет вид B9.6.3)
где 2М 2/И 2M 2М .4* = 2М ' 2 М ' *20 Л* 2 М 2Л1 Совместная характеристическая функция B9.6.3) есть произведение двух множителей, первый нз которых содержит лишь переменные tt и tv а второй — лишь /20, /и и *02. Первый множитель является, согласно B1.12.2), характеристической функцией некоторого нормального распределения с нулевым средним значением *) и матрицей вторых моментов п~]М. С другой стороны, второй множитель есть частный случай характеристической функции B9.5.7). Действительно, если в предыдущем параграфе положить Л=2 и 2ЛГ '2М 2М Ш Т = то характеристическая функция B9.5.7) превратится во второй сомно- сомножитель формулы B9.6.3). Поэтому соответствующее распределение есть частный случай рас- распределения B9.5.1) при &=2 (который уже был дан формулой B9.5.6)), с заменой величин хи, х:2, хп соответственно на /я20, /я,,, т02. Таким образом, в силу параграфа 22.4 мы получили следующую теорему: Составные случайные величины (х, у) и (mi0, /и,,, mOi) незави- независимы. Совместное распределение величин х и у нормально и имеет те оке моменты первого порядка, что и распределение гене- генеральной совокупности, и матрицу вторых моментов п~*М- Сов- местное распределение величин тга, тп, mOi имеет плотность ве- *) Если, вообще, рассмотреть распределение генеральной совокупности с произвольными средними значениями, то, очевидно, мы получим здесь те же самые средние значения, что и у генеральной совокупности.
роятноспш fn, задаваемую формулой B9.6.4) /„(/»20, т,х,тю) = я-4 #t" ~* ^ I ttlanfttitr, —» №.. I гГ(л —2) 2ЕТ М 2 е '""" """ в области /л20^>0, /вот]>0, /wi,</л20/и02, причем /„-—О яие з/иой области. Средние значения и матрицу вторых моментов для пяти выборочных моментов можно вычислить по характеристической функции B16.3). При этом получим, например, ? (тя)) = ^- им, ?(«11) = ^-цц, ?(/«02) — ^р Не* в соответствии с параграфами 27.4 и 27.8. 29.7. Коэффициент корреляции. Введем новую переменную г в совместное распределение B9.6.4) величин /и20, тп и /и02, полагая Щ\ = г V OTo0mo2» так что г—коэффициент корреляции выборки. Тогда в силу формулы B2.2.3), получим следующее выражение для совмест- совместной плотности вероятности величин /иао, т02 и г: ут20т02 /„ (/и20> г у т20т02, /л02) = я—1 //—3 я —3 я — 4 Л —it- —х- ч<~чГ " ч Л--1W20 W02 V Г I e 4яГ(л—2)Л4 2 где т2а ^> 0, /Ид2 ^> 0, г2 <^ 1. Частная плотность вероятности для г получится интегрированием совместной плотности вероятности по mi0 и /яС2 от 0 до -)-со. Интегрирование можно произвести точно, если разложить в степенной ряд множитель ем , и мы получим при этом плотность вероятности для выборочного коэффициента корреляции г: B9.7.D /„w^^ZLo-pifrd-^ v '* v=o при — 1 <^ r <^ 1. Входящий в это выражение степенной ряд можно преобразовать различными способами. Например, с помощью простых
вычислений можно получить: и отсюда получается следующее выражение для плотности вероятно- вероятности величины г: п— 1 н-4 ,. п—2 B9.7.2) /(г) = ^A—?«)~М1 —г*)~ ' * Распределение для г было получено F. Фишером [88]. Укажем замечательное свойство этого распределения: оно зависит только от объема выборки я и от коэффициента корреляции совокупности р. При я = 2 плотность вероятности fn{r) обращается в нуль, в со- соответствии с тем фактом, что коэффициент корреляции, вычисленный по выборке, состоящей только из двух значений, необходимо ра- равен + 1, так что в этом случае распределение принадлежит к дискрет- дискретному типу. При я = 3 плотность вероятности U-образна, с бесконечными ординатами в точках г = + 1. При л = 4 получается прямоугольное распределение, если р = 0, н J-образное распределение в случае р^О. При л]>4 распределение унимодально, с модой в точке г = 0, если р = 0, и около точки /"=р, если р=^0. Некоторые примеры изобра- изображены на фиг. 29 а и 29 Ь. Распределение для г было детально изучено различными авторами (см., например, Сопер и др. [216] и Романовский [208]), подробные таблицы опубликованы Дэвндом [261]. Известны различные точные и приближенные формулы для характеристик этого распределения* Любой момент для г можно, конечно, непосредственно вычислить, исходя из формулы B9.7.1), но мы ограничимся здесь асимптотиче- асимптотическими формулами для Е(г) и D2(r) при больших п, которые уже даны в B7.8.1) и B7.8.2). Для практических целей часто предпочтительно употребляется преобразование B9.7.3) z=Ilog|-^, :==•'- log\±f, введенное Р. Фишером [13], [90]. Фишер показал, что величина z уже для небольших значений п распределена приблизительно нормально,
со средним значением и дисперсией, задан- заданными приближенными выражениями B9.7.4) Дг) = Таким образом, в первом приближении форма z-раснределения не зависит от значе- значения р, в то время как распределение для г значительно изменяет форму при изменении р. В этом отношении поучительно сравнить иллюстрации для рас- распределений величин г и z, приведенные на фиг. 29 и фиг. 30. (См. ниже параграф 31.3, пример 6.) В частном случае p=tO плотность веро- вероятности B9.7.1 ), в силу формулы A2.4.4), сводится к B9.7.5) /п(г) = и—1 Фиг: f98- Графики плотности вероятности для коэффиценга корреляции г в выборках из иор- малыши совокупности, л = Ю 8,0* как это предполагал Фиг. 29Ь. Графики плотвости вероятности для коэффициента корреляции г в выборках из нор- нормальной совокупности, п = 50
Стыодент [222] еще в 1908 г. Mw уже встречались с эгой плотностью пероитности в связи с формулами A8.2.7) и B9.4.4). Согласно параграфу 13.2, преобразованная величина f = \/~п~ 2 г — P--Q.Q Фиг. 30а. Графики плотности вероятности для г^-j-log.j в выборках из нормальной совокупности, и = 10 1 1 +г Фиг. ЗОЬ,Графики плотности вероятности для г=-j logТ^Гг в выборках из нормальной совокупности, п=50 в этом случае имеет распределение Стыодента ел — 2 степенями свобо- свободы. Если tp обозначает ^-процентное значение t прн п — 2 сте- степенях свободы (см. параграф 18.2), то мы получаем с вероятностью
/>°/0 значение t такое, что | /1 ^> t •. последнее неравенство эквива- эквивалентно (см. параграф 31.3, пример 7) следующему: B9.7.6) -2 29.8. Коэффициенты регрессии. Коэффициенты- регрессии для генеральной совокупности были определены в параграфе 21.6. В соответствии с общими прави- правилами параграфа 27.1, соответствующие коэффициенты регрессии для выборки будут обозначаться через B9.8.1) *2]__-__, ьп-т^-ц. Достаточно рассмотреть выборочное распределение одной из этих величин, например, Ьгх. Тогда распределение для Ь1г получится пере- перестановкой индексов. Заменим тп в совместном распределении величин т20, тп, /яоа (формула B9.6.4)) новой величиной Ь21, положив тп =/иго<>2]. Тогда можно непосредственно осуществить интегрирование сначала по всем значениям /и02, для которых /лог^> /я20&21» и затем по всем положи- положительным значениям /мго, и мы получим следующее выражение для плотности вероятности выборочного коэффициента регрессии btl: Г(п V 2 ;И2О2 Это распределение впервые было получено К. Пирсоном [ 185] и Ро- Романовским [210]. Если ввести здесь новую величину B9.8.3) 1 = где Л7=Ц20Ц02 — Jin, то обнаружится, что t имеет распределение Стьюдента с п — 1 степенями свободы. Мы видели, что распределение для г содержало лишь параметр совокупности, прямо соответствующий самой величине. Распределение
же величины Ьг1 не обладает этим привлекательным свойством. Дей- Действительно, плотность вероятности B9.8.2) содержит все три мо- момента ji20, •!,, и ji0?, и если мы хотим вычислить величину t по формуле B9.8.3), чтобы проверить какое-нибудь гипотетическое зна- значение величины j32,, то мы должны ввести гипотетические значения всех трех моментов. Чтобы избавиться от этого неудобства, рассмотрим величину B9.8.4) r==^^ где характеристики совокупности з,, з2 и f, входящие в B9.8.3), иаменены соответствующими выборочными характеристиками sv s2 и г, л множитель Vn—1 заменен на \гп — 2. Если эту величину ? ввести вместо /и02 в совместное распределение B9.6.4), то можно непосред- непосредственно осуществить интегрирование по переменным тп и /л20, и мм получим интересный результат: /' имеет распределение Стьюдента с п — 2 степенями свободы (Бартлет [54]). Замена характеристик совокупности выборочными характеристиками привела, таким образом, к потере одной степени свободы. Если требуется проверить гипотети- гипотетическое значение величины jj,,, то теперь можно вычислить V непосред- непосредственно по фактической выборке, и мы получим, таким образом, критерий значимости для отклонения наблюденного значения Л,, от гипотетического р21 (см. параграф 31.3, пример 6). 29.9. Выбор из Jfe-мерного нормального распределения. Резуль- Результаты параграфа 29.6 можно обобщить па случай 6-мерной нормальной генеральной совокупности. Рассмотрим собственное Л-мерное нормаль- нормальное распределение (см. параграф 24.2). Без ограничения общности можно считать моменты первого порядка равными нулю, так что плотность вероятности имеет вид (см. параграф 24.2.1) B9.9.1)i где A = {)./y} — матрица вторых моментов, а />={р/у} — корреляцион- корреляционная матрица распределения (см. параграф 22.3). А и Р—соответ- Р—соответствующие детерминанты. Повсюду в этом параграфе индексы / и / будут пробегать значения от 1 до k.
Предположим теперь, что мы извлекли выборку в а наблюденных точек из этого распределения. Обозначим v-io точку выборки чере:* (*ь> Х2,' ••¦' ¦**,)» где v = l, 2, ..., п, и предположим, что «>/л Затем вычислим выборочные моменты первого и второго порядка. В соответствии с общими правилами параграфа 27.1 и обозначениями для соответствующих моментов совокупности, введенными в параграфе 22.3, будем обозначать выборочные моменты следующим образом: я п - 1 V , 2 1 B9.9.2) '-1 Существует k выборочных средних значений x-t и k дисперсий 1И = st. fr If. U Далее, поскольку l}i -=//y-, существует —^— различных смешанных вторых моментов [^ с i^=j. Общее число различных пеличин /fji равно, таким образом, —^— . Матрицы L = {ltj\ и /? = {г,/} суть матрица вторых моментов и корреляционная матрица выборки; соответствующие детерминанты обозначим через L = | /^ J и Я = ] /^ [. Совместное распределение всех ведь ;чн xL и ltJ можно получить таким же образом, как и соответствующее распределение в пара- параграфе 29.6. Непосредственно обобщая формулы B9.6.2), получим для совместной характеристической функции величин х{ и l;j выражение B9.9.3) Bг) K где интегрирование распространяется на &л-мерное пространство вели- величин xlt(i— 1, ..., k; v=l,...n), и, так же, как и в параграфе 29.5, мы обозначили s,v=l при /.=/ и e/y=-s- при i= При любом / заменим л величин .*,,, ..., х1я системой и но- новых величин-5;,, , Sfn с помощью ортогонального преобразования,
при котором $n = Vn Xf, используя одну и ту же матрицу преоб- преобразования при всех значениях /. Тогда для всех i и j будем иметь п п п и отсюда — nxixJ = B9.9.4) Вводя это выражение для Q в B9.9.3), можно преобразовать интеграл таким же образом, как соответствующий интеграл в B9.6.2), и сов- совместная характеристическая функция B9.9.3) примет вид I B9.9.5) е U . (-d_) , где А и А* обозначают детерминанты матриц А— \~wf-тл • 2Л Таким образом, в частности, ,4=:Г-^-| А '. Так же как и в пара- параграфе 29.6, совместная характеристическая функция есть произведение двух множителей, первый из которых является характеристической функцией некоторого нормального распределения, а второй имеет вид B9.5.7), так что соответствует распределению вида B9.5.1) с Д = = -g-nA~1 и с матрицей переменных A"=Z = {/;y}. Обозначая через 5 множество всех точек —^—i-мерного пространства переменных ltJ, для которых симметричная матрица L положительно определенна, по- получим следующее сбобщенне теоремы параграфа 29.6: Составные случайные величины (x1,...,xk)u (lluln, ..., lkk) независимы, совместное распределение величин *,, ..., хк нормально.
имеет те оке моменты первого порядка, что и распределение генеральной совокупности, и матрицу вторых моментов я—1 А. Совместное распределение ^ различных величин 1и имеет плотность вероятности <29.9.6) каждой точки множества S, и f „ = О в дополнительном мно- множестве S*. Постоянные Скп даются формулой B9.5.2). Эта теорема была впервые доказана Висхартом [240] с помощью геометрических методов, предложенных Р. Фишером, и затем Висхартом и Бартлетом [241] методом характеристических функций. Ми реко- рекомендуем читателю также статью Снмонсена [213а]. 29.10. Обобщенная дисперсия. Детерминант L = \1^\ представ- представляет собой обобщенную дисперсию выборки (см. параграф 22.7). Следуя Уилксу [232], покажем, как можно определить моменты вели- величины L. Относительно точного распределения для L мы отсылаем читателя к Кульбаку [143]. Интеграл от плотности вероятности fH в B9.9.6) по множеству S равен, очевидно, единице. Множество 5 инвариантно относительно любого преобразования вида чц1) = я//у, где а^>0. Полагая а = п и обозначив №г=|-гг»/у|, получим Поскольку это равенство справедливо лри всех значениях п > k, можно заменить п на /i-j-2v, и, возвращаясь к переменным ltj, мы получим После умножения на Скп( "-Л * > вспоминая формулы B9.9.6) и
B9.5.2), получим при я+ 2»'>ft, т. е. для всех v>—^- . В частности, имеем Для одномерного распределения (й^1) имеем L = l11 = m2 и Л = о5 и тогда приведенное выше выражение для E(L*) сводится к формуле B9.3.2). 29.11. Обобщенное Стьюдентово отношение. Рассмотрим теперь выборку из /fe-мерного нормального распределения с произвольными средними значениями mv m2, ...,mk и обозначим через 1\. смешан- смешанные моменты относительного среднего значения совокупности: 1 " 1 _ _ B9.11.1) r,j=njjxh — m,) (xj4 — m.j) = 1и+(х: — m^ixj— nij), где лг, и lfJ. даются формулами B9.9.2). Существует различных величин I'. Если обозначить %h = xh — mt, то совместная характеристическая фунцкия величин /' примет вид где Сравнивая это с B9.9.3)—B9.9.5), мы обнаружим, что характери- характеристической функцией величин Г является (-т,)"'» где А и А* обозна-
чают те же детерминант», что и в B9.9.5). Отсюда следует, что совместную характеристическую функцию величин /' можно по- получить, если заменить в B9.9.6) п на а -\- 1 и отбросить два мно- множителя яэт и tjt» происходящие из матрицы А. Полагая L'=|/J.|, получим с помощью такого же преобразования, как и в предыдущем параграфе, -/ , \ для любого ja^> -5—т. . С другой стороны, в соответствии т. с B9.11.1), V есть функция от случайных величин /,. и $, = *,- — mh и совместной плотностью вероятности всех этих величин является, ¦согласно теореме параграфа 29.9, функция „к:ч где /n(') = /nUji> ^12' • • •• '**) лается формулой B9.9.6). Таким обра- образом, можно записать где интегрирование производится по всему множеству 5 (определен- (определенному в параграфе 29.6) относительно переменных //у. и от —во до -4- ос по каждому ?,. Теперь можно применить здесь снова преобра- преобразование предыдущего параграфа, положив ¦w,, = nli, и rti = \fn ?| и затем заменив я на п-\-2ч. Приравнивая два выражения для E(L'*)t лолучим для любых v^>0 и ;х^> — v— Полагая здесь <i^ —v, получим (n — k , \ r
Таким образом, согласно формуле A8.4.4), величина -р имеет те же моменты, что и бэта-распределение с плотностью вероятности B9.11.2) Р (*;*=*. 4) = г пЩ1 / »Ч Поскольку распределение с конечной широтой однозначно опреде- определяется своими моментами (см. параграф 15.4), то величина т,имеет плотность вероятности B9.11.2). С другой стороны, из формулы B9.11.1) получаем Z. 1 2- ~r <*<—OT') (jfy - где ?,y — алгебраическое дополнение элемента t[} в детерминанте L. Квадратичная форма в знаменателе неотрицательна, так как L — матрица вторых моментов некоторого распределения, именно, распределения выборки. Если ввести теперь новую величину Т, полагая B9.11.3) ^(¦-Ц^Й- *)(*,-«,). где Т^О, то получим L н—Ц 1 Л— и с помощью простого преобразования формулы B9.11.2) получим плотность вероятности для величины Т в виде B9.П.4) При k = \ это выражение превращается в положительную половину обычного стьюдентова распределения A8.2.4) с я — 1 степенями
свободы. Распределение величины Г было получено Хотел лингом [126], а приведенное выше доказательство принадлежит Уилксу [232]. Таким же образом, как обычное стыодентово отношение t можно использовать для критерия значимости отклонения наблюденного сред- среднего значения ~х от некоторого гипотетического значения т, обоб- обобщенное стьюдентово отношение Т дает критерий д;ш совместного отклонения выборочных средних значений xv ..., ~xk от некоторой гипотетической системы значений /л,, ..., mk. В параграфе 29.4 мы показали, как можно изменить Стьюдентово отно- отношение, чтобы получить критерий для разности между двумя средними значе- значениями. Аналогичное видоизменение можно применить и к обобщенному отно- отношению Т. Предположим, что заданы две выборки соответственно в л, и пг индиви- индивидуумов из одной и той же А-мсрной нормальной совокупности, и пусть ^и> hi/ и *v> hi] — средние значения, дисперсии и смешанные вторые момен- моменты двух выборок. Пусть, далее Н обозначает матрицу а И и Ну—соответствующие детерминант и алгебраические дополнения Полагая J29 1 BУ. 1 Н где U—0, мы сможем показать теми же методами, как и выше, что U имеет плотность вероятности B9.11.4), в которой п заменено на ii+"s—1- Выражение B9.11.5) не содержит параметров генеральной совокупности, так что U можно непосредственно вычислить по выборке и использовать как критерий совместного расхождения между двумя системами выборочных средних хц и ху. При k= 1, как легко видеть, U2 обращается в величину и2, определяемую формулой B9.4.2). 29.12. Коэффициенты регрессии. В случае двумерного распре- распределения мы видели, что величина B9.8.4), связанная простым образом с выборочным коэффициентом регрессии, имеет ^-распределение с я — 2 степенями свободы. Этот результат был обобщен Бартлетом [54] на случай распределений любого числа измерений. Заменяя в B3.2.3) и B3.4.5) характеристики совокупности выбороч- выборочными характеристиками, получим для коэффициента регрессии bl2si,., ft выражения ^ ?l.^H==/- Si-34. ..ft
где остаточные дисперсии 5 могут быть вычислены по выборочным коэффициентам г, как показывает первое соотношение B3.4.S). Если ($|2-з4-.-* обозначает значение коэффициента регрессии для совокупности, то величина B9.12.1) t имеет распределение Стьюдеита с я — k степенями свободы. Таким же образом, как и в случае B9.8.4), можно получить критерий значи- значимости для отклонения наблюденного значения коэффициента регрессии b от какого-либо гипотетического значения ($ (см. параграф 31.3, пример 7)- 29.13. Частные и сводные коэффициенты корреляции. Теперь мы приступим к некоторым дальнейшим применениям распределении B9.9.6), ограничиваясь частным случаем, когда k величин в нормаль- нормальной генеральной совокупности независимы. В этом случае ХG, р,,, А;/ обращаются при i=fcj в нуль, так что матрица вторых моментов Л — диагональная матрица, а корреляционная матрица Р — единичная матрица (см. параграф 22.3). В совместном распределении величин 1ц B9.9.6) заменим ltJ с i=fcj выборочными коэффициентами корреляции rtj с помощью подстановки Jrj=rijVh?7r Тогда полУчим i='ii's2---/**^. r-&e Я = 1го-| — Де- Детерминант корреляционной матрицы выборки R. Якобианом преобразо- ft-i вания (см. аналогичное преобразование B9.5.3)) является (ln...lkk) 2 , и совместная плотность вероятности величин 1и и г,у, согласно фор- формуле B2.2.3), в рассматриваемом здесь частном случае принимает вид я—1 я—3 л—k—2 лри /|7^> 0. и для всех значений r{j, при которых матрица R является положительно определенной.. Для всех других значений переменных плотность вероятности равна нулю. Теперь можно непосредственно интегрировать по каждому 1и от О до ос. Вспоминая значение B9.5.2) постоянной СЬп, мы получим совместную плотность вероятности выборочных коэффициентов корреляции ги:
В соответствии с терминологией Фриша [ИЗ], детерминант R есть квадрат коэффициента разброса выборки (см. параграф 22.7). Моменты величины /?.можно определить методом параграфа 29.10. Обозначая через В^, множитель при R 2 в формуле B9.13.1), получим, например, B9.13.2) Частный коэффициент корреляции между выборочными значениями величин лг, и х2 получаете»., после исключения остающихся переменных jc8, xv...,xk, в силу формулы B3.4.2), в виде B9.13.3) гц.и...» = где/?(/—алгебраические дополнения в /?. В рассматриваемом здесь част- частном случае некоррелированной генеральной совокупности соответствующее значение характеристики совокупности p12.84...ft равно, конечно, нулю. Чтобы отыскать распределение величины Гц.31...ц, будем рассма- рассматривать B9.13.3) как результат замены г12 новой величиной г1г.зА.[.к, в то время как все г,., кроме г]2, остаются переменными. /?,, и /?v2 не содержат г|2, так что, используя обозначения, аналогичные обо- обозначениям параграфа 11.5, можно записать B9.13.3) в виде где Q не содержит гп. Отсюда видно, что существует взаимно-олнознач- нос соответствие между этими двумя множествами величии. Якобианом преобразования является Далее, т формул A1.7.3) и B9.13.3) получим 11-Я Произведя в B9.13.1) замену B9.13.3), мы обнаружим, что совместной плотностью вероятности величины г,,.84...4 и веек r_t., отличных ст гA,
является e-*-i 11.22 где С—некоторая постоянная. Эта функция есть произведение двух множителей, один из которых зависит только от г]г.з4...А, а другой — только от r(j. Поскольку величина г^.м...* изменяется в интервале (—1,1), постоянный множитель в ее плотности вероятности можно легко определить, и, в силу B2.1.2), мы получим следующую теорему: Частный коэффициент корреляции г,г.м...А независим от всех Гц, отличных от г]2> а имеет плотность вероятности Заметим, что полный коэффициент корреляции г,2, согласно фор- формуле B9.7.5), имеет в настоящем случае плотность вероятности в-4 Чтобы перейти от распределения величины гп к распределению вели- величины r12.84,,.t, мы, таким образом, должны лишь заменить п на я— (k—2), т. е. вычесть из я число исключаемых переменных. Р. Фишер [93] показал, что это свойство сохраняется даже в общем случае, когда величины в генеральной совокупности не независимы. В случае независимости (см. параграф 29.7) величина t— = Уя — к . _, где r=rn.si..,k, имеет распределение Стьюдента с п — k степенями свободы. Следовательно, неравенство B9-13.5) К.„..., pi я * (где tp есть ^-процентное значение t при п — k степенях свободы) имеет вероятность р°/0{си. параграф 31.3, пример 7). Сводным коэффициентом корреляции г,(г...Д) между выборочными качениями величин дг, и {х2,,..,хк) является, согласно B3.5.2),
неотрицательный квадратный корень B9.13.6) rlB...ft)= j/l-^ Соответствующая характеристика совокупности p,B...ft) в нашем случае некоррелированной нормальной генеральной совокупности равна нулю. Постараемся отыскать распределение величины Г,B.,.А). В совместном распределении B9.13.1) величин т1} заменим k—1 переменных г12, гш ,.., rlk k новыми переменными r = r,B...ft) и Zv...,zk с помощью соотношений B9,13.6) и ru = z,r {i = 2, 3 k). Тогда, в силу A1.5.3), мы имеем следующее соотношение между новыми величинами: к с помощью этого соотношения одну из величин zlt например zv можно выразить как функцию от остальных zt и от rtJ с Якобианом нашего преобразования является Or 1 дг dz3 дгк г О 6 ,д±г dz, О г О О где Q' не содержит г. Далее, из B9.13.6) мы получаем R=RU A —г-) и, используя это при описанной выше замене переменных в B9.13.1), получим для совместной плотности вероятности новых величин выра- выражение вида д-»-2 г*-2A — г*) 2 Q", где Q" не содержит г. Таким образом, сводный коэффициент корреляции r,B...ft) неза- независим от всех r{j с />1, j^> 1 и имеет плотность вероятности B9.13.7) 2Г {п — \\ —»-8
Квадрат гг имеет бэта-распределение с плотностью вероятности Распределение величины г било найдено Р. Фишером [94], кото- который решил также в [98] более общую задачу нахождения этого рас- распределения в случае произвольной нормальной генеральной совокупно- совокупности. В этом общем случае плотность вероятности для г можно пред- представить в виде произведения функции B9.13.7) и степенного ряда, содержащего характеристику совокупности р^.,.^, так же, как это было сделано в случае обычного коэффициента корреляции (см B9.7.1)). В заключение рассмотрим повеление распределения величины г*. при больших значениях п. Величина яг2 имеет плотность вероятности г (tzl) которая при п —* оо стремится к пределу к — 3 B9.13.9) A_i ' * * « 7 последнее выражение является плотностью вероятности распределения I2 с k—1 степенями свободы (см. параграф 31.3, пример 7). Таким образом, распределение величины г2 не стремится к нормаль- нормальному при «--*оо. Соответственно, из B9.13.8) получаем так что здесь мы имеем пример исключения, упомянутого в конце параграфа 28.4, когда дисперсия имеет порядок, меньший чем n~J, и теорема о сходимости к нормальному распределению неприменима. Однако это имеет место лишь в рассмотренном здесь частном случае» когда характеристика совокупности р равна нулю. Если f^zO, то дисперсия величины rs будет иметь порядок л и распределение будет приближаться к нормальному при п—> ее.
ГЛАВЫ 30—31 КРИТЕРИИ ЗНАЧИМОСТИ, 1 ГЛАВА 3lt КРИТЕРИИ СОГЛАСИЯ И АНАЛОГИЧНЫЕ КРИТЕРИИ 30.1. Критерий хг в случае полностью определенного гипо- гипотетического распределения. Теперь мм приступаем к вопросу про- проверки согласия между теорией вероятностей и фактическими наблюде- наблюдениями. В настоящем параграфе мы будем находиться в обстановке, описанной в параграфе 26.2, когда имеется выборка в п наблюденных значений некоторой величины (любого числа измерений), и мы хотим узнать, разумно ли рассматривать эту величину как случайную величину, имеющую некоторое данное распределение вероятностей. Будем называть гипотезой Н гипотезу о том, что наши данные образуют выборку в п значений случайной величины с данной вероят- вероятностной функцией Р(S). Мы предполагаем здесь, что P(S) пол- полностью определена, так что в ее выражении не содержится никаких не- неизвестных параметров, и вероятность РE) может быть вычислена для любого заданного множества 5. Требуется выработать метод дли проверки того, можно ли считать, что наши данные согласуются с гипотезой Н. Если гипотеза И справедлива, то распределение выборки (см. пара- параграф 25.3), которое является простым дискретным распределением масс — , сосредоточенных в п наблюденных точках, можно рассматривать как статистический аналог (см. параграф 25.5) для генерального рас- распределения, определенного функцией Р (S). Из-за случайных колебаний эти два распределения, как правило, не будут совпадать, но можно ожидать, что при больших значениях п распределение выборки будет служить приближением для генерального распределения. Как уже было указано в параграфе 26.2, естественно ввести некоторую меру рас- расхождения этих двух распределений и базировать спой критерий на свойствах выборочного распределения этой меры. Такие меры расхождения можно конструировать различными способами, но наиболее употребительна мера, связанная с важным
критерием х~, введенным К. Пирсоном [183]. Предположим, что прост- пространство значений изучаемой величины разбито на конечное число г частей 5,,.. ,,Sr без общих точек, и пусть р„ ... ,рг — соответству- соответствующие значения заданной вероятностной функции, так что /7, = P(Sf) г и 2 /;/ = 1 • Предположим, что все р, > 0. Эти г частей S{ могут быть, например, г группами, на которые разбиты наши выборочные значения для целей табулирования. Пусть соответствующие групповые частоты в выборке суть v,,...,vr, так что каждому множеству St принадлежат V, выборочных значений, и при этом 2vi = w- Первой нашей задачей является отыскание подходящей меры рас- расхождения между распределением выборки и гипотетическим распреде- распределением. Любое множество St содержит в первом распределении массу — , во втором распределении — массу р{. В соответствии с общим прин- принципом наименьших квадратов (см. параграф 15.6), примем за такую меру расхождения выражение вида ^сД —— рА где коэффициенты с{ могут быть выбраны более или менее произвольно. К, Пирсон показал, что если положить cL = — , то получится мера расхождения с чрезвы- чрезвычайно простыми свойствами. Таким способом получается выражение пр, ** Таким образом, х2 просто выражается через наблюденные частоты v, и ощидаемые частоты npt для всех г групп. Исследуем теперь выборочное распределение величины j[3i все время предполагая, что гипотеза И верна. При этом окажется, что C0.1.1) />2(Zs) = 2(r-l)-fi-(?l-r2-2r-f 2) Теперь мы докажем следующую теорему К. Пирсона [183J, которая показывает, что при увеличении объема выборки выборочное распре- распределение величины хг стремится к предельному распределению, совер- совершенно не зависящему от гипотетической вероятностной функции P(S).
При n —* оо выборочное распределение величины у} стремится к распределению, определяемому плотностью вероятности Г-3 _? <30.1.2) kr_l(x)= г_г 1 х2 е 2 изученной в параграфе 18.1. Употребляя терминологию, введенную в параграфах 18.1 и 29.2, можно сказать, что в пределе величина X1 имеет распределение X2 с г— 1 степенями свободы. В каждом из п наблюдений, дающих п наблюденных точек нашей выборки, мы получаем с вероятностью р, результат, принадлежащий множеству S[. Для всякого множества неотрицательных целых чисел Vj,...,vn, таких, что2^ = й> вероятность того, что в течение п наблюдений мы получим ровно v, раз результат, принадлежащий мно- множеству S,, где /=1,...,г, равна (см. упражнение 9, стр. 350) это выражение является общим членом в разложении полинома </>t —|— ... -\-ргУ. Таким образом, совместным распределением г груп- групповых частот v,,... ,уг является простое обобщение биномиального распределения, известное под названием мультиномиального распре- распределения. Совместной характеристической функцией величин v,,...,vr является + что можно непосредственно доказать, прямо обобщая вывод соответ- соответствующего выражения A6.2.3) в биномиальном случае. Положим C0.1.3) Х==Ч11ЖУ (/=1,2 к); Vnp тогда х, удовлетворяют тождеству 2,? и ? ± Далее, совместной характеристической функцией величин xv..,,xr является , *) = • ^ W
Из разложения Маклорсна для этой функции с помощью нетрудных вычислений выводятся выражения C0.1.1). Далее, лля любых фикси- фиксированных L, ... ,tr получим так что характеристическая функция стремится к пределу „ у л-юо Квадратичная форма Q{t,,... ,tr)~?tj — (З'Л^Рр имеет мат- матрицу Л = /—/»/»', где / обозначает единичную матрицу (см. параграф 11.1), а р — вектор-столбец (см. параграф 11.2) p = (\fpl,... tfpr). Заменяя tlt.. .,tr новыми переменными uv ..., иг с помощью ортого- г нальиого преобразования, при котором иг = 2 i/VPn получим (см. па- параграф 11.11) Отсюда следует, что Q(tv...,tr) неотрицательна и имеет ранг г—I (см. параграф 11.6) и что матрица Л имеет г— 1 характеристических чисел (см. параграф 11.9), равных 1, в то время как r-е характеристи- характеристическое число равно нулю. Таким образом, при п —> зо совместная характеристическая функция -1Q величин xv, . .., хг стремится к выражению е '1 , являющемуся харак- характеристической функцией некоторого несобственного нормального распре- распределения (см. параграф 24.3) ранга г— 1, в котором вся масса сосредото- сосредоточена на гиперплоскости 2 j:iVT'/ = O. Из теоремы непрерывности (см. параграф 10.7) следует, что в пределе величины xv .. . ,хг имеют несоб- несобственное нормальное распределение с нулевыми средними значениями и матрицей вторых моментов Л. Из параграфа 24.5 следует, что в пределе- г величина у}= 2-*/ имеет распределение у! с г -1 степенями сво- свободы. Таким образом, теорема К. Пирсона доказана.
С помощью этой теоремы введем теперь критерий для рассмат- рассматриваемой выше гипотезы Н. Пусть '/* обозначает /7-процентное зна- значение у2 при г— 1 степенях свободы (см. параграф 18.1 и таблицу III). Тогда но теореме К. Пирсона, вероятность Р=Р(у2^>х?) при боль- больших п будет приблизительно равна />°/0. Фиксируем теперь такое малое р, чтобы можно было считать практически несомненным, что при одном испытании событие с вероятностью р°/0 не произойдет (см. параграф 26.2). Предположим, далее, что а столь велико, что для практических целей вероятность Р можно отождествить с се предельным значением р°/0. Пели гипотеза Н верна, то практически невозможно встретить в единственной выборке значение у/, превышающее tj,. Если в наличной выборке обнаруживается значение у2 ]>yj, то мы скажем, что наша выборка обнаруживает значимое отклонение от гипо- гипотезы И, и мы должны забраковать эту гипотезу, по крайней мере до тех пор, пока мы не получим дальнейших данных. Вероятность того, что такое положение возникнет в случае, когда гипотеза Н на самом деле справедлива, т. е. была забракована неправильно, в. точ- точности есть вероятность Я =P(j[2^>j[J), приближенно равная Л°/о- Поэтому будем говорить, что нами выработан /^-процентный уровень значимости. о Если, с другой стороны, мы обнаружим значение y.a=SLX/" то это значение можно считать совместимым с гипотезой Н. Очевидно, отдель- отдельный результат такого рода нельзя считать достаточным доказательством истинности гипотезы. Чтобы получить такое доказательство, мы должны повторно .применить критерий к новым данным аналогичного характера. Следует применить также и другие критерии, если это воз- возможно. Когда критерий j?2 применяется на практике и все ожидаемые частоты яр,-^ Ю, то предельное распределение Xs. приведенное в таблице III на стр. 610, дает, как правило, значение yjL соответствующее заданному Р=щ , с достаточным для обычных целей приближением. Если некото- некоторые из л/?, < 10, то обычно бывает целесообразно перед применением критерия объединить маленькие группы, чтобы каждая группа содержада по крайней мере 10 ожидаемых результатов. Если наблюдений так мало, что этого сделать нельзя, то таблицами X3 >'(-> следует пользо- пользоваться, но некоторую информацию можно все же извлечь из значении ?(Х2) и D{%s), вычисляемых но формулам C0.1.1).
Таблица III применима лишь тогда, если число степеней свободы «^ 30. При большем числе степеней свободы обычно достаточно поль- пользоваться теоремой Р. Фишера (см. параграф 20.2) о том, что величина уШ2 при л степенях свободы распределена приблизительно нормально, <о средним значением ]^2я—1 и с дисперсией, равной 1. 30.2. Примеры. В практических приложениях различных крите- критериев значимости часто употребляются 5-, 1-й 0,1-процентные уровни значимости. Конечно, в каждом данном случае уровень значимости вы- выбирается в зависимости от конкретных условий. В численных приме- примерах, которые будут приведены в этой книге, будем называть значе- значения, превосходящие 5-процентный предел, но не 1-процентный предел, почти значимыми, значение между 1-й 0,1-процентными пределами — значимыми и значения, превышающие 0,1-процентный предел, — высоко значимыми. Конечно, эта терминология чисто условна. Пример 1. В последовательности п независимых испытаний со- событие Е произошло v раз. Совместимы ли эти данные с гипотезой о том, что событие Е имеет в каждом испытании заданную вероят- вероятность р = 1 — qi Данные можно рассматривать как выборку в п значений величины, равной 1 или 0, в зависимости от того, произошло или не произошло событие Е. Гипотеза Н заключается в том, что эти две альтернативы имеют фиксированные вероятности р и д. Таким образом, мы имеем две группы данных с наблюденными частотами v и п — V, причем соответствующие ожидаемые частоты равны пр и nq. Поэтому /ЧП01\ v2 (* —яр)8 i (я—у —я?)» (у— пр)* Л " ' ' Л пр ' nq npq Согласно теореме предыдущего параграфа, эта величина X2 при боль- больших я приближенно подчиняется распределению у? с одной степенью свободы. Это согласуется с тем фактом (см. параграфы 16.4 и 18.1), что нормированная величина ~ асимптотически нормальна @,1), так V npq что ее квадрат в пределе имеет плотность вероятности Aj(jc). Соот- Соответственно, процентные значения величины %г при одной степени сво- свободы, данные в таблице III, суть квадраты соответствующих значений для нормального распределения, данных в таблице II. При п = 4040 бросаниях монеты Бюффон получил v = 2048 вы- выпадений герба и п — у =1992 выпадений решетки. Совместимо ли это с гипотезой о том, что существует постоянная вероятность р = -я
выпадения герба? Здесь Xs = пр == ®>?76, что лежит ниже 5-про- 5-процентного значения величины хг c одной степенью свободы, равного (согласно таблице III) 3,841, так что данные можно считать совме- совместимыми с гипотезой. Соответствующее значение Я==Я(хг5* 0,776) равно приблизительно 0,38, так что мы имеем вероятность около 38°/0 получить отклонения от ожидаемого результата по крайней мере та- такое же большое, как фактически наблюденное. Пример 2. Предположим, что в нашем распоряжении имеется k независимых множеств результатов наблюдений, содержащих соответст- соответственно по л,,..., пк результатов, причем событие Е произошло соот- соответственно у,,...,Уд раз. Гипотезу о том, что наступление события ? имеет постоянную вероятность р, можно проверить различными способами. Вся совокупность наших данных состоит из Л = 2л/ результатов наблюдений с v = 2vf наступлениями события Е, так что мы полу- получим первый критерий, вычисляя величину х3 = * ~ • Далее, вели чина х* = ~" дает самостоятельный критерий для /-го множе- множества результатов наблюдений. Тогда Хь • • • > X*' независимы и при больших а имеют асимптотиче- асимптотически одинаковое распределение, именно распределение х2 с одной сте- степенью свободы. По теореме сложения (см. A8.1.7)), сумма JJX? имеет в пределе распределение уг с k степенями свободы, что дает совме- совместный критерий для всех наших значений х?- Наконец, если числа щ велики, то Х?>«-.. X* можно считать вы- выборкой в k наблюденных значений величины с плотностью вероятности kx (д) и можно применить критерий хг для оценки отклонения выборки от этого гипотетического распределения. Пример 3. В заключение рассмотрим пример, н котором гипоте- гипотетическое распределение принадлежит к непрерывному типу. Эйткен ([2], стр. 49) приводит следующие распределения для показаний часов и двух выборках по 500 часов, выставленных н витринах часовщиков (час 0 обозначает промежуток времени от 0 ч. до 1ч., 1— от 1 ч. до 2 ч. и т. д.). Согласно гипотезе о том, что показании часов равномерно распреде- распределены по интервалу @,12), ожидаемое число случаев каждого класса должно равняться -т^ = 41,С7, откуда мы получаем х? = 10,000 для
ВыЛорка 1 2 0 41 36 l 34 47 2 54 41 Т 3 39 47 1 б Л 4 49 49 л ца < 5 45 45 30.2 НС b 41 32 Л 33 37 8 37 40 9 41 41 10 47 37 и 39 4» Всего оОО первой выборки и ](|= 8,032 для второй выборки, причем для состав- составной выборки из всех 1000 случаев получается ^ = 9,464. В каждом случае имеется 12 —1 = 11 степеней свободы, и по таблице III мы убеждаемся, что совпадение хорошее. Можно рассмотреть также сум- сумму -А _|_ уЯ —18,032, имеющую 22 степени свободы, и это также по- покажет хорошее совпадение. 30.3. Критерий х2' в случае, когда по выборке оцениваются некоторые параметры. Случай вполне определенного гипотетического распределения встречается в приложениях очень редко: Значительна чаще встречаются случаи, когда гипотетическое распределение содер- содержит некоторое количество неизвестных параметров, относительно зна- значений которых мы можем располагать лишь теми сведениями, какие могут быть извлечены из самой выборки. При этом нам задается ве- вероятностная функция P(S; а,,..., а,) известной математической фор- формы, но содержащая s неизвестных параметров av..., as. Гипотеза Ht которую надлежит проверить, заключается в том, что наша выборка извлечена из совокупности, имеющей распределение с вероятностной функцией Р при некоторых значениях параметров а . Как и в параграфе ЗОЛ, предположим, что наша выборка разбита на г групп, соответствующих г непресекающимся множествам Sv..., S/, обо- обозначим наблюдаемую группу частот через v,,..., vr, а соответствующие вероятности — через pt(av..., as) = P(St; я,,..., a,), i= 1, 2,.... г. Не ли бы „истинные значения" параметров ау. были известны, остава- оставалось бы лТиШь вычислить величину г C0.3.1) Xя—51- и применить критерий, описанный в параграфе 30.1, так что не потребо- потребовалось бы никаких дальнейших исследований.
Однако в настоящем случае значения параметров оу неизвестны и должны быть оценены по выборке. Тогда если заменить в C0.3.1) неизвестные постоянные a.j их оценками, вычисленными по выборке, то Pi уже не будут постоянными, а будут функциями от выборочных значений, и мы не сможем применять теорему параграфа 30.1 о предельном распределении для у\ Как уже было указано в параграфе 26.4, суще- существует, вообще говоря, бесконечное количество различных возможных методов оценка параметров Яу, так что следует ожидать, что свойства выборочного распределения величины хг будут в той или иной сте- степени зависеть от избранного метода. Проблема нахождения предельного распределения для у} при этих усложненных условиях впервые была рассмотрена Р. Фишером ([91], [95]), который показал, что в этом случае необходимо видо- видоизменить предложенное К. Пирсоном предельное распределение C0.1.2). Для одного важного класса методов оценок изменение, пред- предложенное Р. Фишером, имеет очень простой вид: необходимо лишь уменьшить число степеней свободы предельного распределения C0.1.2) на столько единиц, каково число параметров, оцениваемых по вы- выборке. Мы выберем здесь одни особенно важный метод оценки и приве- приведем детальный вывод соответствующего предельного распределения величины у}. В параграфе 33.4 будет показано, что существует целый класс методов оценки, приводящих к тому же предельному распределе- распределению. Естественно попытаться определить „наилучшие" значения пара- параметров Яу так, чтобы сделать величину у?, определяемую формулой C0.3.1), сколь возможно малой. Это — метод оценки по минимуму X8- При этом методе следует решить относительно а,, аг..., а, уравнения Ч 9) где у=1,2 s, и затем подставить найденные при этом :шичения a.j в формулу C0.3.1). Предельное распределение величины х8 Для этого метода оценки было изучено Нейманом и Е. Пирсоном [170], которые использовали методы многомерной геометрии, аналогичные методам, введенным Р. Фишером. Мы отсылаем читателя по атому вопросу также к статье Шеппарда. [213].
Систему уравнений C0.3.2) часто очень трудно решать даже в простейших случаях. Однако можно показать, что при больших п влия- влиянием второго члена в скобках можно пренебречь. Если при дифферен- дифференцировании у} по а,- знаменатель второго члена в C0.3.1) считать постоянным, то C0.3.2) заменяется системой C0.3.3) ?*Х=р|< = 0> (/=1,3,...,,). иметь дело с которой обычно гораздо проще. Метод оценки, заклю- заключающийся в определении ctj из этой системы уравнений, называется видоизмененным методом минимума X2. Оба метода при довольно общих условиях дают одинаковое предельное распределение X3 ПРИ больших значениях п, но мы рассмотрим здесь лишь более простой метод, основанный на уравнениях C0.3.3). В силу условия а) нижеследующей теоремы, уравнения C0.3.3) приво- приводятся к виду C0.3.3а) §Л^ эти уравнения можно записать также в виде з- = 0, где L =Р\' ¦• ¦ • р? ¦ Метод оценки, заключающийся в определении таких значений я у, для которых величина L принимает наибольшее возможное значение, называется методом максимума правдоподобия; этот метод, предложенный Р. Фишером, будет изучаться ниже, в главе 33. С точки зрения задачи, рассматриваемой в этом параграфе, видоизмененный метод минимума х2 совпадает с методом макси- максимума правдоподобия. Однако последний метод применим также к задачам вначительно более общего характера. Вследствие важности вопроса мы дадим вывод предельного распре- распределения для хг при наиболее общих условиях, в предположении, что параметры ау. оцениваются с помощью видоизмененного метода ми- минимума X2- Сначала приведем подробную формулировку подлежащей доказательству теоремы. Пусть заданы г функций pz(av .... а,), ..., pr{av .... а3) от S<^r переменных а,,..., аз, удовлетворяющие для всех точек некоторого невырожденного интервала А в s-мерном пространстве значений а;- следующим условиям: г a) Зл(ац--ч «*) = !; b) pt(av ... , а,}]>са]> 0 при всех i;
c) все р{ имеют непрерывные производные Р а d) матрица D = №\, где i=l,...,r и /=!,... ,s, имеет ранг s. Пусть возможные результаты некоторого случайного экспери~ мента © разбиты на г непересекающихся групп, и предположим, что вероятность получения результата, принадлежащего к 1-й группе, равна р] =/>,(в° а°), где О0 = (а?> ... , а?) — внут- внутренняя точка интервала А. Пусть v, обозначает число результа- результатов, принадлежащих к i-й группе, которое было получено в после- г довательности п повторений эксперимента 6, так что 2 V/ = л. Тогда уравнения C0.3.3) видоизмененного метода минимума хг имеют в точности одну систему решений OL — (av ... ,as), такую, что а сходится по вероятности к во при п—»-оо. Значение %2, получаемое при подстановке этих значений а} в C0.3.1), в пределе при п —•¦ оо имеет распределение у? с г — s — 1 степенями свободы. Доказательство этой теоремы довольно сложно, и мы разобьем его на две части. В первой части будет показано, что уравнения C0.3.3) имеют единственное решение а, сходящееся по вероятности (см. параграф 20.3) к do- Во второй части доказательства мы рассмотрим величины C0.3.4) у/-^(«! «,)f (/==] r)> где а=Cх> • • • > 3j) — решение уравнений C0.3.3), существование которого будет уже установлено. Мы покажем, что при п —- оо совместное распределение величин у{ стремится к некоторому несобственному нормальному распределению, аналогичному предельному распределению величин х{, определяемых формулой C0.1.3). Как и в соответствую- соответствующем доказательстве в параграфе 30.1, предельное распределение для г Хг = 2 .У? будет непосредственно получено из параграфа 24.5. В Доказательстве будем все время предполагать, что индекс / про- пробегает значения 1, 2, ... , г, а индексы j и k — значения 1,2, ... ,5. Сначала введем некоторые матричные обозначения и приведем урав- уравнения C0.3.3) к матричному виду. Обозначив через (з значение
dpi производной ~ в точке а0, мы сможем записать C0.3.3) в виде ^^). +.,«. где Обозначим через в матрицу порядка r-s B = '*/0 Согласно параграфу 11.1, B = P0D0, где/*0—диагональная матрицасэле- мснтами -?= ,..., ,7= по Д«агона.чл, a Do — матрица, получаемая из * Pi ' Рг матрицы D=l*p\, если положить ау = а°. Поэтому, в силу усло- условия d), матрица В имеет ранг s (см. параграф 11.6). По аналогии с C0.1.3) положим C0.3.7) х, = -у^ и обозначим через а, а„. ФИ {а) и х векторы-столбцы (см. параграф 11.2) « = C! <О- ао=(а? а0,), «(«)=(«! (а) <«,(«))¦ JC = (Л^!, .... X,), первые три ин которых можно считать матрицами порядка s«1, я чет- четвертый — матрицей порядка г-1. В матричных обозначениях систему уравнений C0.3.5), где у= — 1,2,.. ...v, можно переписать следующим образом (см. параграф 11.3) В'В (а — aj = iTHmB'x А- со (а).
В'В—симметричная матрица порядка 5• 5, которая, согласно параграфу 11.9, невырождена, так что существует (см. параграф 11.7) обратная матрица (В'В)-1, и мы получаем *) C0.3.8) й=о0+n"'U (в'в)-1 Вх + (в'Д)-» т (л). Таким образом, это матричное уравнение эквивалентно основной си- стеме уравнений C0.3.3). При каждом фиксированном / случайная величина v, имеет сред- среднее значение лр? и стандартное отклонение у пр°((\—р°{); согласно неравенству Бьенэме—Чебышева A5.7.2), вероятность соотношения IV, — л/>? | S» X V п не превышает ' ^—— < -—. Следовательно, вероятность того, что | V| — яр? | S» X V~n хотя бы при одном значении I не превышает Х~г2/'?==/-~2' и> обратно, с вероятностью большей, чем 1 —)."', имеем C0.3.9) | v, — пр* j < >. V л для всех i = 1, ..., г. Теперь будем предполагать, не оговаривая этого в дальнейшем, что V| удовлетворяют соотношениям C0.3.9). Под X будем понимать функцию от л, такую, что сама она стремится к бесконечности вместе с л, a -j=. стремится к нулю. Например, можно положить 1 = я*. 0^^<^-г. Все результаты, полученные при этих предпо.ю- жениях, будут справедливы с вероятностью, превышающей 1 —.X"9 и поэтому стремящееся к 1 при п—»-оо. Согласно условию Ь), получим из C0.3.7) <30.3.10) 1**1<7" Далее, если а'=(а\, ..., a's) и а" = [а.*, ..., a"s) — какие-либо точки из интервала А, то после некоторых вычислений, используя усло- *) Заметим, что здесь нельзя писать (В'В)-1 = В-1(В')-*, так как по предположению * < г и матрица В не квадратная, так что обратная матрица в не определена. Если положить * = г, то мы увидим, что условия тео- теоремы а) и d) несовместны. В этом случае, если предполагается, что условия а) — с) удовлетворены, то матрицы D,B и В'В должны быть вырожденными, так что обратная матрица (?'?)-* не определена и C0.3.8) не имеет смысла.
вия Ь) и с) и разлагая формулу C0.3.6) в ряд Тэйлора, получим C0.3.11) И,-(<*') — «у («О К В правой части этого неравенства \а — Ь\ обозначает расстояние (см. параграф 3.1) между точками а и Ь в s-мерном пространстве значе- значений а,, а Кл есть постоянная, не зависящая от а', а", у и я. Теперь определим последовательность векторов сс„ = (а^'\ ..., $^v)), полагая для v = 1, 2, ... (зо.з. 12) av=а0+/fVi (fi'fi)-1 fi'*4- (B'B)~* (о (а,_,). Покажем, что последовательность а,, а,, ... сходится к определен* ному пределу а, который, очевидно, будет решением уравнения C0.3.8). Согласно C0.3.6), имеем О(в0) = 0, так что C0.3.13) о, — а„ = /Г/§(в'в)-« В'х, а для v^>0 C0.3.14) <xv+, - а, = (fi'fi)-i [«(а,) - <а («,_,)]. Обе матрицы (В'В)~1В' и (В'В)~Х не зависят от я. Если обозначить через g верхнюю границу абсолютных значений элементов этих двух матриц, то, во-первых, из C0.3.13) и ^30.3.10) будет следовать, что каждый элемент вектора а, —оа удовлетворяет неравенству так что где К2 не зависит от п. Таким же образом из C0.3.14) и C0.3.11) следует, что дли всякого v^>0, причем К3 не зависит ни от v, ни от я. Из по- последних двух неравенств по индукции следует, что для всех доста- достаточно больших я и для всех v=0, 1, 2,... имеем C0.3.15) | а,+, - а, |< К,
По предположению, <х0— внутренняя точка интервала А; поэтому из последнего неравенства следует, что при достаточно большом л все векторы сс]( а2, ... (рассматриваемые как точки в пространстве зна- значений а) принадлежат к Л, и последовательность а,, а,, ... сходится к определенному пределу C0.3.16) а=во-Ь(а1 — ао) + (аа-а1)+... . Этот предел, как уже было указано, является решением уравнения C0.3.8), а следовательно, и исходных уравнений C0.3.3). Из C0.3.15) следует, что а—-а^ при я—>со. Более того, а есть единственное решение уравнения C0.3.8), стремящееся к а0 при п—юо. Действи- Действительно, если а' — другое решение, стремящееся к а^, то о' — а=(В'В)-1 (о> (а') — «о (а)); рассуждая так же, как и выше, мы видим, что где выражение в скобках стремится к нулю при я—юо; это, оче- очевидно, возможно лишь в том случае, когда a' = a для всех доста- достаточно больших л. Все это было доказано в предположении, что удовлетворяются соотношения C0.3.9), т. е. все доказанное справедливо с вероятностью, превышающей 1—л~г и, следовательно, стремящейся к 1 при л—»-оо. Таким образом, нами установлено существование в точности одного решения уравнения C0.3.8) или системы уравнений C0.3.3), сходяще- сходящегося по вероятности к а0, чем заканчивается первая часть доказа- доказательства. Предполагая попрежнему, что удовлетворяются соотношения C0.3.9), мы получим из C0.3.8), C0.3.13) и C0.3.16): (В'В)-* со (ее)=а - а, = (а, - а,) + (а, - а,) 4-... • Из C0.3.15) следует, что каждая компонента вектора (в'в)-1а)(а) не превышает К'—, где К' не зависит от л, так что C0.3.8) можно переписать в виде C0.3.17) о ~ <х0 = /Г'" (fi'fi) В'х + — 61, где в, = (8|, ..., 0^) обозначает некоторый вектор-столбец, для кото- которого i^]^l при j=\, ...,s.
Рассмотрим теперь величины у{, определимые формулой C0.3.4). Предполагая, что соотношения C0.3.9) удовлетворяются, мы получим с помощью C0.3.7), C0.3.10) и C0.3.17): у -- Ч~п$ _ л/— l'i — P°i I *t—nPt (} Выражая это соотношение в матричных обозначениях, получим где у = О',, ...,Л>» • t = (К' • • • • б> причем 1GJ|< 1, а /Г — по- постоянная, не зависящая от п. Подставляя сюда выражение C0.3.17) для а — Oj, получим у=х — В (B'B)-iB'x+-J? в = C0.3.18) ^ = [/—BiB'B)~W] х + -^ в, г « где / — единичная матрица порядка г-г, а 0 = {вл..... 0^.), где |0;|^ 1; АГ—постоянная, не заиисящая от п. Далее мы уже не будем предполагать, что соотношения C0.3.9) удовлетворяются, и определим вектор z = (zv .... zr), положив y = Ax-\-z, где А обозначает симметричную матрицу Тогда из C0.3.18) будет следовать, что с вероятностью большей, чем 1—Х~а, \г(\^К-т= при всех /, так мто г сходится по вероят- У я ности к нулю. Далее, в параграфе 30.1 было показано, что вели- величины xv..,,xr в пределе при п—><» распределены нормально с нулевыми средними значениями и матрицей вторых моментов Л=/—рр', где pas (у pPv .. .,у р°г). Из последнего предложения параграфа 22.6 следует, что предельное распределение величины у получается с помощью линейного преобразования у = Ах, где
jc = (jcp ...i*r) имеет нормальное предельное распределение с матри- матрицей вторых моментов Л ранга г — 1. В силу параграфа 24.4, совместное предельное распределение величин yv...,yr— нормальное с нулевыми средними значениями и матрицей вторых моментов А\А' = [/—В (B'B)-W) [t—pp1] [/— В (В'В)-* В']' Согласно условию а), /-м элементом вектора В'р является так что вектор В'р тождественно равен нулю. Поэтому после пере- перемножения мм убеждаемся в том, что матрица вторых моментов пре- предельного распределения для у сводится к C0.3.19) Остается лишь показать, что эта симметричная матрица порядка г-г имеет г — s — 1 характеристических чисел, равных 1, а остальные характеристические числа этой матрицы равны нулю, так что влияние последнего члена в C0.3.19) заключается в понижении ранга матрицы на s единиц. Тогда из параграфа 24.5 будет следопять, что сумма квадратов ? имеет в пределе распределение х2 с г —s—' степенями снободы, и наша теорема будет доказана. Для этой цели сначала заметим, что, согласно параграфу 11.9, * характеристических чисел ху. симметричной матрицы В'В положительны. Полагая, х = \i?, где }1у-^> 0, и обозначии через Л! диагональную матрицу с элементами ft,, ..., «л, но диагонали, можно, согласно параграфу 11.9, найти ортогональную матрицу С порядка S'S, такую, что С'В'ВС — №, откуда (S'fi)-i — (СЛ12С')-1=^СЛ1-1.Л|-1С'. Отсюда елгдлст, что C0.3.20) В (В'В)-*В' = ВСМ-* -Л!-1 С В' = НН', где Н=ВСМ~1 — матрица норядка /••.<?, такая, что нн=м-*св>всм-1 z^m- причем / обозначает здесь единичную матрицу порядка .«¦*. Послед- Последнее соотношение означает, чти s столбцов матрицы Н удовлетворяют
условиям ортогональности A1.9.2). Выше было показано, что В'р=0, откуда Н'р=--М-1С'В'р = 0. Таким образом, если дополнить мат- матрицу Н столбцом с элементами у р^,..., у р°г, то s -\- 1 столбцов новой матрицы Н1 будут удовлетворять условиям ортогональности. Поскольку s<^r, то, согласно параграфу 11.9, можно найти ортогональ- ортогональную матрицу К порядка г-г, последние s-\-1 столбцов которой будут совпадать с матрицей Н1. Тогда Кр будет матрицей порядка г»1, т. е. вектором-столбцом, и по правилу перемножения матриц мы получим К'р = @, ...., 0,1). Таким образом, произведение К'рр'К — @, ..., 0,1)-{0, ..., 0,1 } есть матрица порядка г-г, все элементы которой равны нулю, кроме последнего элемента главной диагонали, равного единице. Аналогич- Аналогичным образом, произведение К'НН'К есть матрица порядка r-г, все элементы которой равны нулю, кроме s диагональных элементов, непосредственно примыкающих к последнему элементу и равных еди- единице. Согласно C0.3.20), матрица вторых моментов C0.3.19) принимает вид /—рр' — ИН'. Из вышеуказанного следует, что преобразован- преобразованная матрица К{I—рр' — НН')К—диагональная матрица, первые г — s—1 диагональных элементов которой равны 1, а остальные диа- диагональные элементы равны нулю. Этим доказано наше утверждение относительно характеристических чисел матрицы вторых моментов C0.3.19). Как указано выше, на этом заканчивается доказательство нашей теоремы. С помощью этой теоремы теперь можно ввести критерий для гипотезы И в точности таким же образом, как и в простейшем слу- случае, рассмотренном в параграфе 30.1. В следующем параграфе будут приведены некоторые примеры применения этого критерия. 30.4. Примеры. Рассмотрим применение критерия у? к двум осо- особенно важным случаям, именно к распределению Пуассона и к нор- нормальному распределению. Другие простые распределения можно исследонать аналогичным образом. Пример 1. Распределение Пуассона. Предположим, что тре- требуется проверить гипотезу о том, что данная выборка в я значений JC|, ..., хп извлечена из некоторого распределения Пуассона с неиз- неизвестным значением параметра X. Каждое xf есть некоторое неотрица- неотрицательное целое число /; разобьем ху но их значениям на, г групп,
объединив малочисленные данные отдельно для больших и малых / Предположим, что при этом мы получили vA наблюдений с х<А, V, „ x = i, где i = ft-f- I k-\-r — 2. Если обозначить &. = P(x = i)=z---e-x, то соответствующими вероят- вероятностями будут рч = Р (х ^ ft) =¦= 23 00 Чтобы оценить неизвестный параметр а с помощью видоизменен- видоизмененного метода минимума у?, следует решить систему C0.3.3) или экви- эквивалентную ей систему C0.3.3а). Поскольку неизвестный параметр только один, то .?=•], система сводится к одному уравнению, и C0.3.3а) дает 2 й Это уравнение имеет единственный корень ). = /,*, равный * 00 О *+» Здесь второй член в скобках равен сумме всех х^ таких, что Л<^*|1<^А-[-'"—1» а первый и последний члены приблизительно равны сумме всех х^, которые =^Л «ли ^k-\-r—1 соответственно. Таким образом, оценкой V для \ может служить среднее арифмети- арифметическое выборочных значений
Полагая в теореме предыдущего параграфа s = 11 мы обнару жим, что предельное распределение у? в этом случае имеет г— 2 степеней сво- свободы. Таблица 30.4.1. Применение критерия у2 к распределению Пуассона 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Всего Пример la -И iM 57 203 383 525 532 408 273 139 45 27 10 4 2 — —* —. — — — — — — 2 608 Щ 54,399 210,523 407,351 525,496 508,418 393,515 253,817 140,325 67,882 29,189 17,075 — — — — _ — — — — — — 2608,000 х = 3,870 ? W 0,1244 0,2688 1,4568 0,0005 1,0938 0,5332 1,4498 0,0125 7,7132 0,1642 0,0677 —. —. — — — — —. — — — 12,8849 Хэ= 12,885 Р=0,17 Пример 1Ь §!! числ лени В1НЫ ¦ — — 1 3 5 8 13 14 15 15 21 18 17 16 9 6 3 2 2 1 169 Щ —. — — — _ 15,7955 11,4043 15,0930 17,9773 19,4661 19,3217 17,7032 15,0616 11,9599 8,9034 16,3140 — — — — 169,0000 7 = 11,91 Х« = 4,006 />= 0,91 ? г __ — 0,0919 0,2233 0,0792 0,4931 1,0247 0.1458 0,0050 0,2495 1,3648 0,0010 0,3282 — — — — 4,0065 1 Пример 1с расте- (вет- — р— 5 2 10 19 20 42 27 25 23 11 5 6 4 — — — — 1 — 200 — — 25,0217 19,1330 24,1934 26,7639 26,3178 23,2913 18,7389 13,8199 22,7171 — _ — — — — — — 200,0000 ? — — 2,5717 0,0010 0,7268 8,6736 0,0177 0,1254 0,9689 0,5754 1,9861 — __ — — — — — — 15,6466 г = 8,850 Х* = 15,647 Я=0,03
В таблице 30.4.1 приведены три численных примера применения нашего критерия. Пример 1а дает число а-частиц, излучаемых дис- диском в течение 2608 периодов по 7,5 секунды, согласно наблюдениям Резерфорда и Гейгера (см. [2], стр. 77). Пример 1Ь дает числа красных кровяных шариков в 169 отделениях гемацитометра, наблю- наблюденные Н. Хольмбергом. Пример 1с дает числа цветков на 200 растениях Primula veris, подсчитанные М.-Л. Крамер A928 г.). В соответствии с правилами, приведенными в параграфе 30.1, отдельные группы в каждой выборке следует объединить так, чтобы каждая группа содержала по крайней мере 10 результатов наблюдений. Так, в примере 1Ь наблюденные частоты в группах / = 7 и /=17 равны соответственно 1 +3 + 5-f-8= 17 и 6-j-3-f-2-f-2-j- I = 14. Совпадение оказалось хорошим в примере 1а, очень хорошим в 1Ь, но в 1с обнаружилось .почти значимое* отклонение от гипотетического распределения Пуассона, вызванное главным образом чрезмерным числом растений с восемью цветками. Рассмотренные в этих примерах величины принадлежат к классу вели- величин, которые часто хорошо согласуются с распределением Пуассона. Если данные обнаруживают значимое отклонение от распределения Пуассона, то совпадение можно значительно улучшить, введя гипотезу о том,- что пара- параметр X сам есть случайная величина, имеющая распределение пирсонова типа III с плотностью вероятности шгт-*хх~1е~*хг (.*>0), где а и х—поло- х—положительные параметры. При этом получается отрицательно-биномиальное распределение (см. упражнение 21, стр. 286), которое имеет интересные при- приложения, например, к статистике несчастных случаев и заболеваний (Гринвуд и Юл [119], Эггенбергер [31], Ньюболд [159а]) к к задачам, связанным с количеством индивидуумов данной породы в выборках из биологических совокупностей (Энерот [31а], Фишер, Корбет и Вильяме ЦП]). В статистике несчастных случаев введение величины X можно интерпретировать как спо- способ учета различных степеней риска для членов данной совокупности. Ана- Аналогичные интерпретации возможны и в других случаях. Этот вопрос можно рассматривать также с точки зрения случайных процессов (см. Лунд- берг [152]). Пример 2. Нормальное распределение. Пусть выборка в п зна- значений xl%.,.,xa разбита на г групл так, что /-я группа, содержа- содержащая V, значений, принадлежит интервалу u, — -jh, Sf-j-yAj, где ?, = Sj-{-(/"—1)А. Нам надлежит проверить гипотезу о том, что эта выборка извлечена из некоторой нормальной совокупности с неизвест- неизвестными значениями параметров т и о. Если эта гипотеза верна, то
вероятность pt, соответствующая /-Й группе выборочных значений, равняется где интегрирование производится по /-му интервалу разбиения. Для двух крайних групп (/=] и / = г) за интервалы разбиения следует принять соответственно I — оо, S, -j--=¦ h\ и fS,—тгЛ, -|-оо] Тогда, обозначая для краткости g{x) = e *»* , получим Тогда уравнения C0.3.3а) после некоторых простых преобразований примут вид 1 V [ при этом все интегралы распространены на соответствующие интер- интервалы разбиения. Сначала предположим, что выборка разбита на группы так, что крайние группы не содержат наблюденных значений. Тогда V]=vr = 0. При малых значениях k можно получить приближенное решение, просто заменяя функции под знаками интегралов их значе- значениями в средних точках Zt соответствующих интервалов разбиения. При этом мы получим оценки /и* и и*, определяемые выражениями Таким обраюм, /ws и з*' совпадают со средним значением Зг и дисперсией sa группированной выборки, вычисленными по обычному правилу (сч. параграф 27.9), согласно которому все выборочные значения некоторой группы перемещаются п среднюю точку соответствующего
интервала разбиения. Чтобы получить лучшее приближение, можно разло- разложить функции, стоящие под знаками интегралов, в ряды Т эй лора в окрестностях средних точек ?,. При малых h после некоторых вычислений убеждаемся, что приведенные выше формулы надлежит исправить следующим образом: '«* = 7 Z VA + О (h% a*3 = i ? v, ft - «•)» - * + О (А*). Итак, пренебрегая членами порядка Л4, можно использовать в каче- качестве оценки для т среднее значение группированной выборки, а для дисперсии необходимо применить поправку Шеппарда (см. параграф 27.9). Такая процедура может дать удовлетворительное приближение, да- даже если Л не очень мало, а крайние группы фактически не пусты, но содержат лишь малую часть всей выборки. На практике удобно объединять крайние группы выборки в соответствии с правилом па- параграфа 30.1 так, чтобы каждая группа содержала хотя бы 10 выбо- выборочных значений. В качестве оценок для т и и2 следует взять зна чения х и s2, вычисленные по первоначальной группировке до какого- либо объединения групп, причем к *а должна быть применена поправка Шеппарда. Если г—число групп после объединения, фактически ис- использованное при вычислении j[a» то предельное распределение для i* имеет г — 3 степени свободы, так как два параметра мы определяем по выборке. Если генеральное распределение нормально, то асимптотические выражения для средних значений и дисперсий выборочных характе- характеристик g, и g2 даются формулами B7.7.9), а соответствующие точные выражения — формулами B9.3.7). Дальнейший признак нормальности распределения заключается в сравнении величин gx и g2, вычисленных по фактической выборке, с соответствующими средними значениями и дисперсиями. В таблице 30.4.2 приведен результат подбора нормальных кривых к распределениям средних температур июня и июля в Стокгольме в течение я=100 лет A841—1940). В исходных данных приведены значения, округленные до ближай- ближайшего десятичного знака, так что точными интервалами разбиения являются A2,45; 12,95) и т. д. Мы пользуемся здесь несколько меньшими группами, чем это обычно рекомендуется. Оба значения %* показывают удовлетворительное согласие с гипотезой о нормальном
распределении. В. таблице приведены также значения g, и ga. Соот- ветствующие гипотезе точные выражения B9.3.7) дают, в обоих случаях f(S,) = 0, D(g,) = 0,238; ?(.?,) = - 0,059, D(g2) = 0,55, так что никакое из наблюдаемых, значений не отличается значимо от соответствующего среднего значения. Т аблица 30.4.2 Распределение средних температур июня и июля в Стокгольме A841—1940 гг.) Июнь Температуря (в осГ <12,4 12,5—12,9 13,0—13,4 13,5—13,9 14,0—14,4 14,5-14,9 15,0-15,4 15,5-15,9 16,0-16,4 >16,5 Сумма Частота наблюденная ожидаемая 10 12 9 10 19 10 9 6 7 8 100 12,89 •7,89 10,20 11,93 12,62 12,08 10,46 8,19 5,81 7,93 100,00 х г. 14,23 «=1,574 ft= 0,0<)8 gj-0,062 ,[2 — 7,83 G степ, своб.) Р =0,35 Июль Температура ^14,9 15,0-15,4 15,5-15,9 16,0—16,4 16,5-16,9 17,0-17,4 17,5-17,9 18,0—18,4 18,5—18,9 >19,0 Сумма Частота наблюденная И 7 8 13 14 13 6 9 7 12 100 ожидаемая 10,41 6,72 9,00 10,95 12,12 12,20 11,16 9,28 7,02 11,14 100,00 дг= 16,98 5 = 1,615 gi = 0,332 ?, = -0,044 f =3,34 G стен, своб.) Я =0,85 На фиг. 25, стр. 361, приведена диаграмма эмпирического закона распределения для июня (но выборке в 100 выборочных значений) вместе с соответствующей нормальной кривой. Если значения gt или g2 значимы, то совпадение с нормальной кривой часто можно значительно улучшить, используя разложения
Шарлье или Эджворта, изучавшиеся в параграфах 17.6 —17.7. При этом следует иметь в виду, что для каждого дополнитель- дополнительного параметра, определяемого по выборке, число степеней свободы следует уменьшить на единицу. В таблице 30.4.3 приведено распределение размеров я = 12 000 бо- бобов Phaseolus vulgar is (данные Иогансена, заимствованные нами у Шарлье [9], стр. 73). Согласно гипотезе о нормальном распределе- распределении, имеем = 0, 0(?1) = О,О224 и E(g2)=— 0,0005, D(ft) = 0,0447, Таблица 30.4.3 Размеры бобов (^ — 6,825 мм, h = 0,25 мм) Номер группы / 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 Сумма Наблюденная частота vj 32 103 239 624 1187 1650 1883 1930 1638 1130 737 427 221 НО 57 32 12000 -х — 8,512 * = 0,6163 gl = -0,2878 Л = 0,1953 Ожилаемяя частота itpt нормальное распределение 67,6 132,2 309,8 617,3 1 045,7 1 505,8 1 842,3 1 919,9 1697,9 1 277,3 817,0 444,2 205,3 80,7 27,0 10,0 12000,0 Х«= 196,5 A3 степ, своб.) Р < 0,001 первое при- приближение 17*6 98,3 291,5 648,9 1 142,2 1630,4 1 918,1 1 892,4 1 587,3 1 158,8 752,4 441,9 235,6 112,7 47,5 24,5 12000,0 Х'^34,3 A2 степ, своб.) Р< 0,001 иторое при- приближенно 26,6 90,4 277,2 636,8 1 141,1 1 639,9 1 931,6 1 905,2 1 599,5 1 163,5 745,1 427,3 223,8 109,1 49,7 32,2 12000,0 Х*=14,9 A1 степ, своб.) Р = 0,19
так что фактические значения gt и gv приведенные а таблице, зна- значимо отличаются от значений, которые мы ожидаем при гипотезе о нормальном распределении. В таблице приведены также ожидаемые частоты и соответствующие значения х2. вычисленные но каждой из трех гипотез о том, что, в соответствии с A7.7.3) или A7.7.5)*), плотность вероятности норми- нормированной величины х~х имеет вид: S 1 --' а) нормальная: ф (лг) = -т=гг- е 2, У 2я b) первое приближение: у (х) — ^ 'f*8' {х), c) второе приближение: 'f {х) — |j- <f(8) {х) -\- & <р(*) (^) -\- -g^'-p(ebr. В первых двух случаях отклонения выборок от гипотетических рас- распределений высоко значимы, поскольку Р <^ 0,001; но в третьем слу- случае Р = 0,19, так что совпадение удовлетворительное. На фиг. 26, стр. 362, показана гистограмма этого распределения и дан график плотности вероятности, для второго приближения. Более подробные исследования этого и других примеров приведены у Крамера [70]. 30.5. Таблицы сопряженности признаков. Предположим, что п элементов выборки расположены в таблицу с двумя входами типа таблицы 30.5.1, по двум переменным признакам (количественным или качественным). Таблица такого рода называется таблицей сопряженности при- признаков, и часто требуется проверить гипотезу о том, что переменные признаки, по которым построена таблица, независимы. Обозначим через p,j вероятность того, что выбранный случайным образом индивидуум принадлежит к /-Й строке и /-му столбцу этой таблицы. Тогда гипо- гипотеза о независимости эквивалентна (см. B1.1.4)) гипотезе о том, что существует r-\-s постоянных р{. и р.,, таких, что *) Тем же методом, как и выше, можно показать, что в качестве оценок для коэффициентов fi и fa следует использовать g\ и gt, вычисленные по группированной выборке с использованием поправок Шеппарла.
Признаки 1 2 Г Сумма Т 1 1 "•1 аб лица 2 ... »и- • • »й- ¦ ¦ v,2. . . V.j. . . 30.5.1 s ¦ »|* • W-J Сумма »1- »»• V л В соответствии с этой гипотезой, совместное распределение двух признаков содержит r-\-s — 2 неизвестных параметра, так как с по- помощью двух последних соотношений две из г-\-$ постоянных, напри- например, рг. и р„ можно выразить через остальные г -\- s — 2 постоянные. Чтобы применить к этой проблеме критерий у?, следует вычислить np[.p.j где суммирование распространяется на все rs групп в таблице сопря- сопряженности признаков, и затем заменить здесь р(. и p.j их оценками, по- полученными из уравнений C0.3.3) или C0.3.3а), которые в этом случае имеют вид Решением утих уравнений является Р'—'п' P-J — T* так что оценками, которые надлежит использовать, являются просто частоты, вычисленные по частным суммам. После подстановки этих оценок вместо р,. и р.;- выражение для у} принимает вид C0.5.1) t?
Поскольку мы имеем здесь rs групп и r-{-s — 2 параметров, опре- определяемых по выборке, предельное распределение для Xs имеет rs— —(г -\-s — 2) — 1=(г — \)(s — 1) степеней свободы. Точные выражения для среднего значения и дисперсии величины jB> определяемой форму- формулой C0.5.1), были получены различными авторами (см. Холден [123], где приведены дальнейшие ссылки на литературу). Предполагая, что гипотеза о независимости верна, получим <30.5.2) Е (t) = -^j- (г- 1) (s - 1) Дисперсия имеет сложное выражение, которое мы здесь не приводим. Большое значение Ха будет означать, что отклонение от гипотезы о независимости значимо, но из этого нельзя извлечь прямых сведе- сведений о степени зависимости или связанности признаков. С другой стороны, величина я я я л является выборочной характеристикой, соответствующей средней квад- ратической сопряженности <f3, определяемой формулой B1.9.6). Если q — наименьшее из чисел г и s, то из параграфа 21.9 следует, что Верхний предел 1 достигается тогда и только тогда, когда каждая строка (при r^s) или каждый столбец (при r^s) содержат лишь Y2 одни отличный от нуля элемент. Таким образом, —г-4—гг можно счи- тать мерой связанности признаков, обнаруженной в выборке. Распре- Распределение этой меры получается, конечно, с помощью простой замены переменной в распределении для jr2. (О других мерах связанности см., например, учебник Юла и Кендала [43], гл. 3—4.) По шведской переписи населения в марте 1936 г. из совокупности всех супружеских пар в районах Швеции была получена выборка в 25 263 пары, вступивших в брак в течение пяти последних лет. В таблице 30.5.2 приведено распределение годовых доходов и коли- количества детей у супружеских цар в этой выборке. По формуле C0.5.1) получаем Х' = 568,5 с E—1)D—1)=12 степенями свободы, так что
отклонение от гипотезы о независимости высоко значимо. С другой стороны, мера связанности равна . _ .. = 0,00750, что указывает лишь на очень слабую зависимость между признаками. Таблица 30.5.2 Распределение супружеских пар по годовому доходу и количеству детей Количество детей 0 1 2 3 S=4 Сумма Доходы C1 единицу принято 1000 крон) 0-1 2161 2 755 936 225 39 6116 1-2 3577 5 081 1753 419 98 10 928 2-3 2 184 2 222 640 96 31 5 173 >» 1 636 1 052 306 38 14 3 016 Сумма 9558 11 МО 3 635 778 182 25 263 В частном случае, когда г = s = 2, таблица сопряженности приз паков становится четырехзначной таблицей, и выражение C0.5.1) обращается в C0.5.3) у* =. п так что/2 = — соответствует выражению B1.У.7) для »2. Если приз- признаки количественны, то /г совпадает с квадратом коэффициента кор- корреляции выборки (см. B1.9.7) и B1.7.Ч)). В случае четырехзначной таб- таблицы в предельном распределении д;ш f} имеется лишь B — 1) B — 1) ^ 1 степень свободы и q — 1 = 1. В таблице 30.5.3 приведено распределение цвета волос на юлове и бровей у 46 542 шведских призывников, согласно данным Лундборга и Линдерса [26]. По формуле C0.5.3) получаеи /2 =- 19 288 и /* = 0,41+, что указывает на заметную зависимость между признаками. Когда в четырехзначной таблице ожидаемые частоты —-- малы, п то приближение, получаемое с помощью обычных таблиц X*- можст быть улучшено, если вычислить f} по первому выражению C0.5.1) и перед возвышением к квадрат уменьшить абсолютное зна-
V/.V.y J чение каждой разности tt, на -» . Это называется поправкой Иэйтса [250]. Таблица 30.5.3 Цвет волос у шведских призывников Цвет бровей Светлые или рыжие Темные Сумм» Цвет волос на голове светлые или рыжие 30 472 3 364 33 836 темные 3238 9 463 12 706 Сумма 33 710 12832 46 542 30.6. хг как критерий однородности. Таблица сопряженности, признаков 30.5.1 представляет собой совокупный результат последова- последовательности я повторений случайного эксперимента, причем результаты классифицируются по двум переменным признакам. Однако во многих случаях встречаются таблицы формально такого же вида, но совер- совершенно иной природы. Предположим, что осуществлено s последовательных рядов экспе- экспериментов, состоящих соответственно из «,, ... , я, единичных наблю- наблюдений, причем числа п} не случайны, а должны рассматриваться как заданные. В каждом эксперименте наблюдается некоторый переменный признак, и результаты каждого ряда наблюдений разбиваются по зна- значениям этого признака на г групп. Количество результатов наблюдений в i-й группе /-го ряда будем обозначать через v/y-. Тогда наши данные будут располагаться в таблице такого же вида, как таблица 30.5.1, причем суммы по столбцам v.y в этой таблице обозначены здесь через пг В этом случае, однако, таблица представляет собой не результат одной единственной последовательности наблюдений, как в случае таб- таблицы 30.5.1, а результат s независимых рядов наблюдений, каждому из которых соответствует в нашей таблице один столбец. В таких случаях часто бывает необходимо проверить гипотезу о том, что s выборок, представляемых столбцами таблицы, извлечены из одной а той же совокупности, или, иначе говоря, что в этом отно- отношении наши данные однородны. Такая гипотеза эквивалентна гипотезе О том, что существует г постоянных рг рг таких, что
и вероятность принадлежности отдельного результата к i-й группе во всех ? последовательностях равна pt. Чтобы проверить эту гипотезу, вычислим у? по той же формуле C0.5.1), что в предыдущем случае. Незначительно изменив доказатель- доказательство теоремы параграфа 30.3, убеждаемся, что если гипотеза верна, то ха имеет обычное предельное распределение с тем же числом степеней свободы (г— 1) {s — 1). Последнее утверждение в отличие от соответствующего утверждения о предыдущем параграфе не является прямым следствием общей теоремы параграфа 30.3, а требует самостоятельного доказательства. Действительно, эту теорему можно обобщить на случай, когда рассматриваются s независимых выборок по ях,..., ns элементов, разбитых на одинаковое число г групп, и с помощью видоизмененного метода минимума хг> примененного к выражению •j* = 5) — —- » определяется некоторое число t неизвестных параметров. Непосредственное обобщение доказательства теоремы, приведенной в параграфе 30.3, показывает, что х8 имеет обычное предельное распределение с (г — 1) s — i степенями свободы. В рассматриваемом выше случае мы имеем дело с гипотезой о том, что все s выборок извлечены из одной и той же совокупности, без даль- дальнейшего уточнения вида распределения этой совокупности, так что параметрами являются сами вероятности р{. Благодаря соотношению 2л = 1 имеется i лишь t=r—1 параметров, так что мы получаем (г—1) (s—1) степеней свободы. Обобщая теорему параграфа 30.3, можно использовать х2 также для проверки гипотезы о том, что заданные 5 выборок извлечены из одной и той же совокупности заданного типа, например, имеющей распределение Пуассона, нормальное распределение и т. п. В таком случае применение видоизмененного метода минимума х2 показывает, что параметры распре- распределения отыскиваются так же, как и в случае одной единственной выборки с групповыми частотами, равными суммам строк v;. в данной таблице. Доказательство этого утверждения предоставляется читателю в качестве упражнения. В частном случае г = 2 таблицу можно записать следующим образом: Vl Vj ... V, П1~ Vt Я3—Vj ... П, — V, —Sv л
Здесь мы имеем s последовательностей наблюдений, в каждом из которых некоторое событие Е осущестпляется соответственно v,,...«v, раз, и спрашивается, есть ли основание предполагать, что событие Е во всех этих наблюдениях имеет одну и ту же постоянную, хотя и не- неизвестную, вероятность р. Оценкой для р здесь должна служить ча- частота события ? во всей совокупности данных: />* = 1 — q* = — и по формуле C0.5.1) *> получаем cs—1 степенями свободы. Величина Q = у -д?>_^ х* совпадает с введенным Лексисом коэффициентом расхождения. В соответствии с C0.5.2) имеем Е(О*) = \ (см., например, Чупров [227а] и Крамер [10], стр. 105-123). В таблице 30.6.1 приведено число детей, родившихся в Швеции в течение s=12 месяцев 1935 г. Оценкой для вероятности рожде- рождения мальчика является р* = ^щ = 0,5175082. По формуле C0.6.1) получаем X" —14,986 с 11 степенями свободы; этому соответствует Р = 0,18, и можно считать, что данные совместимы с гипотезой о по- постоянной вероятности. Таблица 30.6.1 Распределение пола детей, родившихся в Швеции в 1933 г. ю 12 ИТОГО Мальчики Девочки 3743 3550 4017 4173 4117 3944 3964 3797 3712 3512 3392 3761 3537 34073866 3711 3775 3665 3621 35Э6;3491 3391 31603371 45582 42591 Общее число 7280 6957 7883 7884 7892 7609 7585 7393 7203 (W03 6552 7132 88273 *) См. также C0.2.1).
В заключение рассмотрим спучай ? = '2. В этом случае мы имеем дне независимые выборки и хотим узнать, изапечены ли они из одной и той же совокупности. Таблицу можно записать в виде Pi vl V-r v- nt n H + *i ftt + vj rV+V m-\-n Здесь имеется г— 1 степеней свободы, и C0.5.1) дает (см. К. Пирсон [186Jh.P. Фишер [91]): C0.6.2) X2 = ff Таблица 30.6.2 Распределение доходов по шведской переписи 1930 г. Доходы (за единицу принято 1000 крон) 0-1 1-2 2-3 3-4 4 — 6 >6 Все рабочие а служащие в про- промышленности возрастные группы 40-50 W 7 831 26 740 35 572 20 009 11527 6 919 108 598 50-60 v« 7 558 20685 24185 12 2S0 6 776 4 222 75 707 «О, 0,50883997 0.56383764 0,59526758 0,61968472 0.62978747 0,62103940 0,58922981 Xa=t 840,62 E степ, своб.) Р< 0,001 Заводские мастера возрастные группы 40-50 71 430 1072 1609 1 178 158 4 518 50-60 п 54 324 394 1202 903 112 3 489 Л, 0,56800000 0,57029178 0,54526958 0,57239417 0,56607400 0,58518519 0,56425528 Хг = 4,27 E степ, своб.) Р = 0,51 Если положить &, = —Ц— и ш = т, , то выражение C0.6.2) све- W "гv/ м-(-й г дется к следующему выражению, пачученному Снедекором ([35J, стр. 173) и часто удобному для практических подсчетов: C0.6.3) jj. =l тп п/ шA—w)^^-**' '
В таблице 30.6.2 приведены некоторые распределения доходов ко шведской переписи 1930 года. Если сравнивать распределения доходов у возрастных групп 40—50 и 50—60 лет всех промышленных рабо- рабочих и служащих, то C0.6.2) даст хв = 840,62 с-5 степенями свободы, что обнаруживает высоко значимую разность между распределениями. Очевидно, что в этом случае числа й, имеют тенденцию возрастать при возрастании доходов. Однако, если рассмотреть более однородную группу заводских мастеров, то этой тенденции не обнаруживается, и сравнение распределений доходов у двух возрастных групп дает Х2 = 4,27 и Р = 0,51, так что последние две выборки можно считать извлеченными из одной и той же совокупности. 30.7. Критерий для процента смертности. Предположим, что при изучении смертности получены следующие данные для двух различных классов лиц (проживающих в различных районах, имеющих различные профессии и т. п.): Возрастная группа 1 2 г Класс А количество подвергаю- подвергающихся риску «1  "г количество умерших й\ dr Класс В количество повергаю- повергающихся риску «; «; «; количество умерших «; "г Требуется проверить, отличаются ли значимо друг от друга получен- dt d't мые из этих данных последовательности чисел ^- и —, характеризу- характеризующих смертность. Для каждой возрастной группы можно образовать таблицу следующего типа: Класс А Класс В Количество умерших Количество оставшихся в живых
Вычислим по формуле C0.6.2.) соответствующее значение у* с одной степенью свободы: - d't) U n't ' (d, -f d't) (я, + n'f - Различные -? независимы. Таким образом, если предположить, что смертность в обеих совокупностях одинакова, то сумма Ха= будет иметь обычное предельное распределение с г степенями свободы и будет служить критерием для высказанной гипотезы (см. К. Пирсон и Тохер [187], Р. Фишер [91], Валунд [228]). В таблице 30.7.1 приведены некоторые данные из наблюдений Г. Берга [61] над туберкулезом. Требуется установить, существует ли какая-либо значимая разница в смертности мужчин и женщин в тече* иие первого года после установления заболевания. Суммарное %2 рав- равняется 22,2 и имеет 10 степеней свободы, чему соответствует Р = 0,014, так что, по принятой нами терминологии (см. параграф 30.2), откло» нение „почти значимо". Из значений $, приведенных в последнем таблица 30.7.1 Смертность среди больных, страдающих легочным туберкулезом в открытой форме, в течение первого года после заболевания Возрастная группа 15—19 20—24 25—29 30—34 35-39 40—44 45—49 50—54 55-59 5*60 Всего Мужчины количество заболевших J4 400 695 585 454 274 221 153 ПО 69 89 3 056 количество умерших di 156 204 169 128 82 68 41 34 36 43 961 смертность в% 38,4 29,4 28,9 28,2 29,9 30,8 26,8 30,9 52,2 48,3 — Женщины количество заболевших -; 500 816 619 433 257 194 94 58 29 47 3 047 количество умерших 174 246 184 150 92 83 39 20 13 28 1029 смертность в% 34,8 30, 29,7 34,6 35,8 42,8 41,5 34,5 44,8 59,6 — 1,25 0,11 0,09 4,22 2,10 6,43 5,75 0,23 0,45 1,57 22,20
столбце Таблицы, видно, что основную часть yf составляют значения, соответствующие возрастам 30—50 лет, причем смертность среди женщин значительно выше, чем среди мужчин. 30.8. Дальнейшие критерии согласия. Как уже указывалось в па- параграфе 30.1, критерий^ всегда полезно дополнять другими критериями. Во многих случаях простой просмотр знаков и абсолютных величин разностей между наблюленными и ожидаемыми частотами обнаруживает систематические отклонения от проверяемой гипотезы, даже и тогда, когда ?* имеет незначимую величину. Если критерий */* применяется к сравнительно небольшой выборке, то приходится прибегать к группировке с большими интервалами раз- разбиения и, следовательно, жертвовать большой долей сведений, содер- содержащихся в выборке. В таких случаях желательно применить критерий, базирующийся на индивидуальных выборочных значениях. Рассмотрим вкратце один критерий такого типа. Пусть требуется проверить гипотезу о том, что выборка в п на- наблюденных значений jCj,..., хп извлечена из совокупности с заданной функцией распределения F (х). Функцией распределения выборки (см. па- параграф 25.3) является F* (х) = — , где v — число выборочных значений, не превышающих х. Поскольку при любом фиксированном х функция F* сходится по вероятности к F (см. параграф 25.3), можно принять за меру отклонения нашей выборки от гипотезы интеграл где функция К{х) может быть выбрана более или менее произвольно. Критерии, базирующиеся на мерах такого рода, впервые были введены Крамером [10], [70] и Мнзесом [27]. Следуя Смирнову [215], поло- положим здесь К {х) = F (х) и получим, таким образом, интеграл _ J Если выборочные значения л:, хп расположены в порядке возра- возрастания, то при любой непрерывной F (х) будем иметь 2» —
Если известны индивидуальные выборочные значения, то можно легко вычислить точное значение шг. Если же имеется в распоряжении лишь группированная выборка, то можно найти приближенное значение, на- например, при обычном предположении, что дг, расположены в средних, точках интервалов разбиения. Как было указано в параграфе 25.5, F*(x) есть частота событии с вероятностью F (х) в последовательности я испытаний. Поэтому Е {F* — F)% = — ~ . С помощью этого замечания можно получить среднее значение и дисперсию величины ш2, которые оказываются не зависящими от F (х): Сравнивая значение ю3, найденное по фактической выборке, со сред- средним значением и дисперсией, вычисленными по этим формулам, получим критерий для нашей гипотезы. Выборочное распределение величины ш2, которое также не зависит от F (х), было подвергнуто дальней- дальнейшему исследованию Смирновым [215]; он показал, что при я—их величина лю* имеет некоторое предельное распределение, не являю* щееся нормальным и не зависящее от а (см. пример с пг" в параграфе 29.13). Было бы желательно обобщить эту теорию на случай, когда гипотетическая F (х) полностью не задана, а содержит некоторые параметры, подлежащие оценке по выборке. Другие важные критерии согласия были предложены, например, Нейманом [164] и Е. Пирсоном [191]. ГЛАВА 31 КРИТЕРИИ ЗНАЧИМОСТИ ДЛЯ ПАРАМЕТРОВ 31.1. Критерии, основанные на стандартных ошибках. В при- приложениях часто требуется использовать множество выборочных значе- значений для проверки гипотезы о том, что некоторый параметр соответ< ствующей совокупности, например, среднее значение, коэффициент корреляции и т. п., имеет наперед заданное значение. В других слу- случаях мы располагаем несколькими независимыми выборками, и требуется установить, являются ли разности между наблюденными значениями некоторой выборочной характеристики значимыми, т. е. указывающими
иа действительную разность между соответствующими параметрами со- совокупности, В гтве 28 мы видели, что некоторые важные классы выборочные характеристик в больших выборках асимптотически нормальны, с( средними значениями и дисперсиями, определяемыми по параметра! совокупности. Поэтому можно получить критерий значимости для ги потез вышеуказанного типа, следуя общим правилам, изложении» в параграфе 26.2 (см. также параграф 35.1). Так, например, если выборка в п значений xv ... , хп извлечена из некоторой (не обязательно нормальной) совокупности со средним значением т и стандартным отклонением и, то из параграфов 17.4 и 28.2 известно, что среднее значение выборочных значений асимптоти- асимптотически нормально (т, -4= J . Предположим на минуту, что о известно и проверяется гипотеза, что т имеет некоторое фиксированное зна- чение т0. Если эта гипотеза верна, то х асимптотически нормально f/я0, гг=ч .Обозначив черезX р-процентное значение нормального от- отклонениями, параграф 17.2), можно получить при большом п отклонение \х — л/0|, превышающее р=, с вероятностью, приблизительно равной р°10. Работая с ^-процентным уровнем значимости, мы, таким образом, должны забраковать нашу гипотезу, если \х— /яо| превышает этот предел, тогда как меньшее отклонение следует считать совместимым с гипотезой. На практике о обычно неизвестно. Однако, согласно параграфу 27.3, стандартное отклонение выборки s сходится по вероятности к а при л—»-оо. Поэтому при большом л вероятность того, что разность | s—-<j\ превышает некоторое малое число, сама очень мала. Таким образом, в нашем критерии можно просто заменить с иа s и действовать так, как если бы проверялась гипотеза о том, что ~х нормально \mQ> Zr^) > где s—известное нам значение, вычисленное по выборке. Если наблюденное отклонение | х — /и01 превысит у =, то с точки зрения р-процентного уровня значимости мы должны будем забрако- забраковать гипотезу m = m0, тогда как меньшее отклонение следует считать совместимым с этой гипотезой.
Такой же метод можно применять и в более общих случаях. Рас- Рассмотрим какую-нибудь выборочную характеристику г, распределение которой в больших выборках асимптотически нормально. Заменим каж- каждый неизвестный параметр совокупности в выражении для дисперсии асимптотически нормального распределения величины г соответствующей известной выборочной характеристикой и сохраним лишь главный член этого выражения при большом я. Полученное при этом выражение d(z) будет называться стандартной ошибкой величины z в больших выборках. Если требуется проверить гипотезу о том, что Е(г) имеет некоторое фиксированное значение г0, то будем считать, что z рас- распределена нормально с известным стандартным отклонением d(z). Если отклонение (я—го| превысит \pd(z), то гипотеза E(z) = zQ будет забракована с точки зрения р-процентного уровня значимости; в про- противном случае гипотеза будет подтверждена. Все выражения для стандартных отклонений выборочных характе- характеристик и асимптотически нормальных распределений этих характеристик, выведенные в главах 27—28, могут быть преобразованы в стандарт- ные ошибки изложенным выше способом. Так, например, в силу формул B7.2.1), B7.4.2) и B7.7.2), стандартными ошибками выбороч- выборочного среднего значения х, выборочной дисперсии s3 = ma и стандарт- стандартного отклонения выборки $=\^тг являются Если предполагается, что совокупность нормальна, то для стандарт- стандартных ошибок можно получить более простые выражения. Так, например,- в силу параграфа 28.5, стандартной ошибкой медианы нормальной выборки будет "JL= 1,2533 ±=. Если значение выборочной характеристики z вычислено, то на практике обычно указывают степень точности, приписывая к вычисленному значению + й(г). Так, например, выборочное среднее значение запи- записывается в виде ~х -+- г-= . Для частоты события с постоянной вероят- — Уп постно г в последовательности л испытаний имеем, согласно формуле A6.2.2), е( — | —р и d(—^ = Л/ ^ 1 так чт0 стандартной ошиб- Vя/ Vя/ ' п
кой является л/ ^—vl, и. следовательно, частота записывается в V л3 виде — -4- Л/ v ~ ¦ Соответствующая величина в процентах to = 100~fi записывается в виде й+ 1/ ——~ *" . Если заданы две независимые выборки, то разность между их средними значениями или какими-либо другими характеристиками можно исследовать с помощью стандартных ошибок. Если средние значения - - / *i\ хну рассматриваются как нормальные, соответственно !/»,, Ч/гЦг) и {"Ч» у53/» т0 разность х—у нормальна [щх—щ, л/ .f>_i__f?) и всякую гипотезу о значении разности Ъ—у можно проверить указанным выше способом. В частности, гипотеза /в, = /яа будет забракована с точки зрения ^-процентного уровня значимости, если J_j_—• и бУДет подтверждена, если \х—у\*? Все указанные выше методы действительны лишь при условии, что наши выборки „велики". При этом условии предполагалось: а) что выборочные распределения наших характеристик нормальны, Ь) что некоторые характеристики совокупности можно заменить соответствую- соответствующими значениями, вычисленными по выборке. На практике часто довольно затруднительно выяснить, достаточно ли велики наши выборки, чтобы указанные два предположения оправдывались. Однако можно все же указать некоторые практические правила. Если мы имеем дело со средними значениями, то уже при я^>30 получаются обычно хоро- хорошие результаты. Для дисперсий, медиан, коэффициентов асимметрии и эксцесса, коэффициентов корреляции в окрестности значения р = 0 рекомендуется требовать, чтобы л было, по крайней мере, около 100. Для коэффициентов корреляции, значительно отличающихся от нуля, даже выборки в 300 индивидуумов не всегда дают удовлетворитель- удовлетворительное приближение. Но даже в случаях, когда л меньше, чем требуется по указанным только что правилам, или когда выборочное распределение не стремится к нормальному, часто лес же с помощью стандартных ошибок можно
получить некоторые сведения, хотя при этом всегда рекомендуется особенная осторожность в выводах. Если выборочное распределе- распределение значительно отличается от нормального, то таблицы нормального распределения не дают удовлетворительного приближения для вероят- вероятности отклонения, превышающего фиксированное значение. В этих случаях всегда можно использовать неравенство A5.7.2), которое дает для любого распределения верхний предел -г, вероятности того, что отклонение от среднего значения превышает умноженное на k стандарт- стандартное отклонение. Однако в большинстве встречающихся на практике случаев этот верхний предел слишком велик. Так, например, из {15.7.4) следует, что этот предел можно существенно понизить для всех унимодальных и умеренно асимметричных распределений. Это же следует из неравенства, приведенного в упражнении 6 на стр. 284, если только коэффициент у2 для распределения не слишком велик. Если имеются основания предполагать, что выборочное распределение именно такого типа, то отклонение, превышающее учетверенное стан- стандартное отклонение, можно, как правило, считать значимым. Если я недостаточно велико, то рекомендуется использовать полные выраже- выражения для стандартных отклонений (конечно, если эти выражения известны), а не только их главные члены. Далее, при этом следует использовать несмещенные оценки (см. параграф 27.6) для значений параметров совокупности; например, для стандартной ошибки среднего значения s s вместо у= брать уп^Л ' Однако лучше всего использовать в этих случаях критерии, основанные на точных распределениях. Такие кри- критерии будут рассмотрены в следующем параграфе. 31.2. Критерии, основанные на точных распределениях. Если точные выборочные распределения интересующих нас характеристик известны, то приближенные методы оценок, изложенные в предыдущем параграфе, можно заменить точными методами. Как было замечено в параграфе 29.1, такое положение возникает главным образом в тех случаях, когда производится выбор из нормальных совокупностей. Предположим, например, что задана выборка в л значений из нор- нормальной совокупности с неизвестными параметрами т и о и требуется проверить гипотезу о том, что т имеет некоторое заранее задан- заданное значение. Если эта гипотеза верна, то выборочное среднее
/ с \ значение х будет в точности нормально у т, у^\ и нормированная вели- величина Y~n^—j- будет нормальна @,1). Приближенный метод предыду- предыдущего параграфа заключается в замене неизвестного параметра в его- оцеикой, вычисленной по выборке, — при малом л предпочтительно оценкой |/ —2-г s. Полученное при этом выражение / = У л —1 * ~ " Т ft *^™ 1 S рассматривается как нормальное @,1). Это выражение / совпадает со стьюдентовым отношением (см. параграф 29.4), которое, как мы видели, имеет распределение Стьюдента с /»— 1 степенями свободы. Если / обо* значает р-процентное значение величины / ся—1 степенями свободы (см. параграф 18.2), то вероятность получить отклонение /, такое, что |*|>*р, будет в точности равна р°/0. Таким образом, гипотетическое значение т следует забраковать с точки зрения р-процентного уровня значимости, если \t\^>t^ в противном же случае это значение т будет принято. При я — + оо /-распределение приближается к нормальному (см. пара- параграф 20.2); это предельное распределение приЕедеко в последней строке таблицы IV. Из этой таблицы видно, что нормальное распределение достаточно хорошо аппроксимирует /-распределение уже при я ^30. Однако при малом я вероятность большого отклонения от среднего значения у /-распределения существенно больше (см. фиг.20, стр.266). Если мы хотим проверить, значимо ли отличаются друг от друга средние значения х и у двух независимых нормальных выборок, то можно принять „нулевую гипотезу", согласно которой обе выборки извлечены из одной и той же нормальной совокупности. В пара- параграфе 29.4 было показано, что если эта гипотеза верна, то величина имеет /-распределение с пх -j- яа — 2 степенями свободы. Если заданы средние значения и дисперсии выборок, то и можно вычислить непо- непосредственно по выборкам. Если при этом | и \ превысит р-процентное значение величины / с Л] -f-flj — 2 степенями свободы, то наши данные будут значимо отклоняться от нулевой гипотезы, с точки зрения р-про- р-процентного уровня значимости. Если имеются основания предполагать, что совокупности в действительности нормальны и что стандартные
отклонения этих совокупностей ох и ff2 равны друг другу, то отказ от нулевой гипотезы будет значить, что средние значения этих сово- совокупностей т1 и щ различны (см. параграф 35.5). Очевидно, что совершенно так же можно действовать и в случае любой функции z от выборочных значений, если только точное рас- распределение этой величины z известно. Мы выдвигаем вероятностную гипотезу, что наблюденное значение величины z с большой вероят* ностью принадлежит окрестности некоторого фиксированного значения z0. Если эта гипотеза Н верна и г имеет некоторое известное раст пределение, то по этому распределению можно найти р-процешпнов значение отклонения \z—го|, т. е. величину hp, такую, что веро- вероятность отклонения \г — 20|^>йр в точности равна //>/,,. Работая с р-процентным уровнем значимости и придерживаясь правил параграфа 26.2, мы должны будем забраковать гипотезу //, если по фактической выборке получится отклонение \z—zo\, превышающее А; меньшее отклонение мы должны будем считать совместимым с гипотезой Н (см. параграф 35.1). Если мы имеем дело с выборками, извлеченными из нормальных совокупностей, то критерии значимости для различных параметров, могут быть основаны на точных выборочных распределениях, выведен- выведенных в главе 29. На практике величины, встречающиеся в различных областях статистики, очень часто могут считаться хотя бы приближенно нормальными (см. параграф 17.8). В таких случаях критерии, выведен- выведенные для нормального случая, обычно дают удовлетворительное при- приближение. Действительно, мы уже видели, что даже значительные отклонения генеральной совокупности от нормального распределения не очень сильно влияют на выборочные распределения различных важных характеристик. По этому вопросу мы отсылаем читателя к некоторым экспериментальным исследованиям Е. Пирсона [190] и к дис- диссертации Квензеля [200] о некоторых выборочных распределениях, связанных с совокупностями Шарль е типа А. Продолжение этих ис- исследований было бы очень желательным. 31.3. Примеры. Теперь покажем некоторые применения критериев, рассмотренных в двух предыдущих параграфах. Сначала рассмотрим случаи, в которых выборки настолько велики, что совершенно законно использовать критерии, основанные на стандартных ошибках. Затем перейдем к различным случаям выборок малого или умеренного объема.
При этом для обозначения различных степеней значимости мы будем пользоваться терминологией, введенной в параграфе 30.2. Пример 1. В таблице 31.3.1 приведено распределение 928570 детей, родившихся в Норвегии в течение 1871—1900 г. по полу и по Таблица 31.3.1 Количество детей, родившихся в Норвегии в 1871—1900 гг. I Воз- | раст отца . Мальчики <20 20—25 25-30 30—35 35-40 40—45 45—50 50—55 55—50 60—65 65—70 Sa75 Всего Девочки <20 20-25 25-30 30-35 35—40 40—45 45—50 50—55 55—60 60-65 65—70 3*70 Всею Возраст матеря у <20 377 2173 1814 700 238 103 47 21 5 10 6 2 549S 319 2133 1793 707 236 101 33 16 12 6 3 1 5 365 20—25 974 18043 26 956 14 252 4738 1791 695 311 133 57 25 12 67 987 861 16 990 25 147 13 254 4 676 1670 640 284 120 54 29 18 63 743 25—30 555 11173 43 082 38505 17914 6585 2593 995 412 190 68 4S 122119 504 10643 40817 36745 17165 6278 2 384 964 406 171 87 30 116194 30—35 187 3448 16 760 41208 32240 16214 5952 2 503 925 408 173 59 120 077 206 3193 15 637 38 619 30453 15323 5603 2 469 874 331 154 67 112 979 35—40 93 1022 4564 14475 31573 24770 12453 4492 1790 736 266 119 9G353 91 979 4 305 13 669 29 858 23 803 11764 4221 1726 591 277 103 91392 40—45 25 258 973 3243 8 426 18079 13170 6 322 2 141 822 283 ИЗ 53855 22 242 943 3 018 78S3 16 933 12 336 5 815 2 000 750 247 115 1 50 354 SH5 6 30 123 287 836 2 171 4 006 2574 1036 348 131 48 11646 3 45 96 292 772 1941 3 823 2 480 1079 325 114 40 11010 Сумма 2217 36147 94272 112670 95 965 69 714 38916 17 218 6492 2571 952 399 477 533 2 006 34 225 88738 106 304 91043 66099 36588 16249 6 217 2 278 911 379 451037
возрасту родителей (данные заимствованы у Виксела [231]). Требуется, используя эти данные, исследовать зависимость, если таковая имеется, пола потомства от возраста родителей. В качестве первого подхода к решению этой проблемы вычислим процент случаев рождения мальчиков и соответствующую стандартную ошибку для четырех больших возрастных групп, указанных в таблице 31.3.2. Между числами в этой таблице нет значимых разностей. Наиболь- Наибольшая разность — между числами 51 589 и 51 111 — составляет 0,478 -4- + 0,222. Здесь наблюденная разность в 2,15 раза больше соответ- соответствующей стандартной ошибки, т. е., по нашей условной терминологии, эта разность лишь „почти значима". Тем не менее, таблица может внушить предположение, что избыток мальчиков имеет тенденцию увеличиваться при уменьшении разности возрастов родителей х—у. Чтобы исследовать вопрос более тщательно, рассмотрим возрасты хну родителей ребенка как наблюденные значения двумерной слу- случайной величины. Тогда таблица 31.3.1 будет давать совместные распределения величин х и у в двух выборках по я, = 477 533 и я2 = 451037 значений («j — количество родившихся мальчиков, л2 — количество родившихся девочек). Если соотношение полов среди ново- новорожденных изменяется в зависимости от возрастов родителей, то рас- распределения (х,у) должны быть различны для мальчиков и девочек, так что две выборки нельзя будет считать извлеченными из одной и той же совокупности. Таблица 31.3.2 Процент рождений мальчиков Возраст отца * <35 >35 Возраст матеря у <30 51,409 ±0,090 51,111 ±0,18? >30 51,589 ±0,122 51,430 it 0,031 В таблице 31.3.3 приведены групповые моменты для обеих вы- выборок и исправленные моменты с учетом поправок B7.9.4) и B7.9.6). Прежде всего мы замечаем, что распределение значимо отличается от нормального распределения. Рассмотрим, например, частное
Таблица 31.3.3 Выборочные моменты для таблицы 3J.3.1 (За единицу принята длина интервала разбиения 5 лет.) Центральные моменты от20 Щя Щя тЪ\ «K «18 «0* Мальчики центр. моменты групповые 2,9127 1,4140 1,7956 3,0699 0,4588 28,6579 10,3527 7,7285 5,8110 7,5250 центр. моменты исправленные 2,8294 1,4140 1,7123 3,0699 0,4588 27,2307 9,9992 7,3431 5,4575 6,6564 Девочки центр. моменты групповые 2,9036 1,4085 1,7929 3,0391 0,4588 28,4535 10,2509 7,6970 5,8320 7,5260 центр. моменты исправленные 2,8203 1,4085 1,7096 3,0391 0,4588 27,0309 9,8988 7,3126 5,4499 6,6587 распределение возраста х отцов у мальчиков. По гипотезе о том, что это распределение нормально, мы получаем с помощью исправленных моментов #, = 0,6450 4-0,0035 и ^а = 0,4015±0,0071, причем стан- стандартные ошибки вычислены по формуле B7.7.9). Отклонение от нуля в обоих случаях высоко значимо, так что гипотеза о нормальности явно несостоятельна *). Таблица 31.3.4 Выборочные характеристики для таблицы 31 Л. 1 (За единицу принят один год.) Характеристика ~х~ У * —У *1 St г Для мальчиков 35,699 ±0,0122 32,128 ±0,0095 3,571 ±0,0095 8,410 ±0,0094 6,543 ±0,0053 0,6424 ±0,00097 Дли девочек 35,703 ±0,0125 32,116 ±0,0097 3,587 ±0,0097 8,39Г± 0,0097 6,533 ±0,0055 0,6414 ±0,00101 Разность X U* + 4 ±17,5 — 12 ±13,6 Н-16 ±13,6 — 13 ±13,5 — 5± 7,6 -1,0 ± 1,40 *) По Вякселу, это распределение приблизительно логарифмически-нор- логарифмически-нормально (см. параграф 17.5;.
В таблице 31.3.4 приведены значения некоторых важнейших вы- выборочных характеристик для количества рождений мальчиков и дево- девочек, а также разности между соответствующими характеристиками этих двух выборок. Стандартные ошибки вычислены, в соответствии с правилами параграфа 31.1, по общим формулам B7.2.1), B7.7.2) и B7.6.1); таким образом, более простые выражения B7.8.2) и B9.3.3), соответствующие случаю нормальной совокупности, не были применены для вычисления стандартных ошибок. Для разности х —у получаем °? — 2рз,«. 4- о? y)iР' 2 и, следовательно, квадрат стандартной ошибки имеет вид Из таблицы 31.3.4 видно, что между характеристиками нет значимых разностей. В частности, среднее значение разности возрастов родителей х—у для девочек незначимо превышает соответствующее значение для мальчиков, так что предположение, которое было вызвано рас- рассмотрением таблицы 31.3.2, не подтверждается дальнейшим анализом. Наконец, для проверки того, можно ли считать две выборки в таблице 31.3.1 извлеченными из одной и той же совокупности, можно непосредственно применить критерий х2. Действительно, в каждой из двух выборок имеется 12-7=84 группы, так что всю таблицу 31.3.1 можно считать таблицей с 84 столбцами и 2 строками, аналогичной таблицам, рассмотренным в параграфе 30.6, и однородность данных в этой таблице можно проверять с помощью метода у?, используя для вычисле- вычисления значения I2 формулы C0.6.2) или C0.6.3). Объединив все группы с отцами старше 60 лет и с матерями старше 40 лет, имеем таблицу с 60 столбцами и 2 строками, для которой получим х2 = 51,97 с F0—1)B—1)=59 степенями свободы. Согласно фншеровскому методу приближения (см. параграф 20.2), У^2?8 = ю,20 будет наблюденным значением нормальной величины со средним значением jAl7 = 10,82 и с единичным стандартным отклонением. Вероятность получить зна- значение х2 по крайней мере столь же большое, как и фактически наблюденное значение, по таблице I (стр. 603) равняется приблизительно 1 —ФA0,20— 10,82) = 0,73, так что совпадение очень хорошее, и наши
данные оказываются совместимыми с гипотезой о том, что обе выборки извлечены из одной и той же совокупности. Таким образом, анализ данных, приведенных в таблице 31.3.1, не обнаружил никакого значимого влияния возраста родителей на пол детей. Пример 2. Распределения различных измерений тела в совокуп- совокупности людей одной и той же расы обычно хорошо совпадают с нор- нормальной кривой, а малые отклонения достаточно хорошо описываются первыми членами рядов Шарлье или Эджворта (см., например, A7.7.5)). По этому вопросу мы отсылаем читателя к статье Крамера [70], в которой приведены подробные примеры. В таких случаях стандартные ошибки выборочных характеристик можно вычислять по упрощенным формулам, справедливым для случая нормальной генеральной совокупности. Так, например, в силу формулы B9.3.3), стандартную ошибку для 5 можно принять равной -Д=,стан- V'ln дартную ошибку коэффициента изменчивости V можно вычислять по формуле B7.7.11) и т. д. Хульткранц [128] вычислил выборочные характеристики для роста шведских призывников в среднем возрасте 19 лет 8 месяцев по измерениям в 1915/16 и 1924/25 гг. Мы при- приводим эти данные в таблице 31.3.5. Из этой таблицы обнаруживается высоко значимое увеличение среднего значения и- медианы за проме- ж уток между измерениями в 9 лет. С другой стороны, стандартное Таблица 31.3.5 Выборочные характеристики для роста шведских призывников Характеристики П Среднее х (см) Медиана (см) Стандартное откло- отклонение (см) Семи-интерквар- тнлышя широта (еж) ioov=iooi X 1915Д6 гг. 80084 171,80 ±0,022 171,81 ±0,027 6,15 ±0,015 4,05 ±0,017 3,58 ±0,0090 1924/25 гг. 89 337 172,58 ±0,020 172,55 ±0,025 6,04 ±0,014 4,02±0,016 3,50 ±0,0083 Разность X 10* + 78±3,0 + 74 ±3,7 -11±2,1 — 3±2,3 — 8±1,2
отклонение и коэффициент изменчивости обнаруживают высоко значнмое уменьшение, а уменьшение семи-интерквартильной широты незначимо. Эти результаты хорошо согласуются с имеющимися в нашем рас- распоряжении дальнейшими данными измерений роста шведских призыв- призывников. В течение последних 100 лет средний рост призывников не- неуклонно увеличивался, а стандартное отклонение уменьшалось. Согласно таблице 31.3.5, увеличение среднего роста за 9 лет по наблюденным выборкам равняется 0,78+ 0,030 см. Какие заклю- заключения из этого факта можно сделать относительно неизвестного уве- увеличения Дм среднего значения совокупности /я? В действительности мы имеем наблюденное значение 0,78 см величины, распреде- распределенной приблизительно нормально, с неизвестным средним значе- значением А/я и со стандартным отклонением, приблизительно равным 0,030 см. Предположим, что слово „приблизительно" в обоих слу- случаях можно опустить, и обозначим, как обычно, через А р-процентное значение нормального отклонения (см. параграф 17.2). Рассмотрим гипотезу Д/я = с, где с — заданное число. Если мы работаем с /7-процент- ным уровнем значимости, то эту гипотезу, очевидно, можно считать согласующейся с данными, когда с лежит в пределах 0,78 + 0,030 \р; в других случаях от этой гипотезы следует отказаться. Значения 0,78 + 0,030 X называются р-процентными доверительными преде- пределами для Д/м, а интервал, определяемый этими пределами, назы- называется р-процешпным доверительным интервалом. К этим понятиям мы вернемся в главе 34. Пример 3. Достижение исключительно высоких или низких уровней воды в озерах или реках часто имеет большое практическое значение. Для средних июньских уровней воды в озере Вэнерн за /I = 124 года A807—1930), по данным Линдквиста (49], среднее значение равняется х — 4454,5 см над уровнем моря, а стандартное от- отклонение 5 = 48,51 см. Распределение хорошо совпадает с нормальной кривой. Объединяя исходные данные (которых мы здесь не приводим) в девять групп с интервалом разбиения длины h = 20 см, получаем •? = 3,728. При 9—2—1=6 степенях свободы этому значению у* соответствует Р = 0,71, так что согласие с гипотетическим распреде- распределением очень хорошее. Если обозначить через ху v-e верхнее значение нормальной выборки в п значений, а через уч v-e нижнее значение этой выборки, то сред- среднее значение и стандартное отклонение для хч можно вычислить
по формуле B8.6.16), а соответствующие выражения для ун найдутся путем небольшого видоизменения этой формулы. Заменяя в этих выражениях параметры совокупности т и а приведенными выше выборочными значениями ~х и * и пренебрегая поправочными членами, мы получим средние значения и стандартные ошибки, при- приведенные в таблице 31.3.6, в которой содержатся также предельные июньские уровни, фактически наблюдавшиеся в течение указанного периода. Таблица 31.3.6 Предельные июньские уровни воды в i 2 3 4 5 *ч наблю- наблюденное 4566 4548 4546 4535 4535 прибл. 4532,1 4566,5 4558,7 4553,4 4549,5 20,04 12,55 9,82 8,32 7,35 Разность в еди- единицах стандарт- стандартной ошибки -0,80 -1,47 — 1,29 — 2.21 -1.97 озере У* наблю- наблюденное 4350 4356 4360 4366 436 Вэнерн прибл. 4326,9 4342,6 4350,4 4355,6 4359,5 A807-1930 гг.) 20,04 12,55 9,82 8,32 7.35 Разность в еди- единицах стандарт- нов ошибки + 1.15 + 1,07 + 0,98 + 1.25 + 0.88 Абсолютная величина разности между наблюденными значениями и соответствующими средними значениями ни в одном случае не превышает значений, которые можно приписать случайным колебаниям. Однако мы замечаем, что все хч меньше соответствующих средних значений Е(х^, а все уч больше значений E(yJ. Это объясняется отчасти корреляцией между величинами хч (и между yj, а отчасти тем, что значительные ошибки оказывают влияние на приближенные средние значения, так как мы имеем дело со сравнительно небольшим значением л = 124. Если допустить, что распределение останется неизменным в тече- течение, скажем, 500 лет, то мы получим тем же способом, как и выше, среднее значение для максимального хх в течение всего периода т = 4603,5 см и стандартную ошибку 17,6 см. Поэтому пред- представляется совершенно невероятным, чтобы в течение рассматри- рассматриваемого периода уровень воды превысил 4603,5-j-4> 17,6=4673,9 см. Пример 4. В таблице 31.3.7 приведены данные, заимствованные из классической работы Стьюдента [221] о /-распределении. По этим
данным требуется проверить, существует ли значимая разница между действием двух снотворных средств А и В. Если предположить, что разность между дополнительными часами сна, вызванными действием этих двух, наркотиков, распределена нормально, то последний столбец в таблице 31.3.7 будет представлять выборку в я =10 значений из нормальной совокупности. Согласно обычной нулевой гипотезе о том, что разницы между действием обоих наркотиков не существует, сред- среднее значение этой нормальной совокупности mg = 0. Если нулевая гипотеза верна, то стьюдентово отношение /=1/?Г г~ имеет {-распределение с 9 степенями свободы (см. параграф 31.2). По на- наблюденным значениям получаем /=4,06, чему соответствует значениеР, заключающееся между 0,01 и 0,001 (см. таблицу IV, стр. 611). Таким образом, отклонение от нуля значимо, и нулевая гипотеза опровергнута. В этом случае значение л = 10 невелико, так что можно ожидать, что приближенный критерий, основанный на Стандартной ошибке ве- величины ~z, не даст особенно точного результата. Если применить этот критерий, используя для стандартной ошибки оценку ¦ s* , то мы должны будем считать то же значение, что и выше, именно У9 -^- = 4,06, наблюденным значением величины, которая, согласно нулевой гипотезе, нормальна @,1). По таблице II (стр. 609) этому на- наблюденному значению соответствует вероятность Р<^ 0,0001. Если срав- сравнить вероятность Р<^ 0,С001 со значением Р, получающимся для точного критерия, то обнаружится, что ошибка, возникающая при использовании приближенного критерия, ведет к преувеличению значимости отклонения. Если для проверки действия двух снотворных средств в экспери- экспериментах, зарегистрированных таблицей 31.3.7, были бы использованы две различные группы пациентов, по десять человек в каждой группе! то полученные данные можно исследовать также и другими способами (см. Р. Фишер [13], стр. 123—125). Предположим, что длительность сна после приема каждого из снотворных средств имеет нормаль- нормальное распределение с одинаковыми в обоих случаях стандартными от- отклонениями. Тогда выборки х и у будут независимыми выборками из нормальных совокупностей с одной и той же о, и требуется прове- проверить нулевую гипотезу о том, что средние значения /и, и тъ этих совокупностей равны Величина и, определяемая формулой C1.2.1).
в которой следует положить я, = я3 = 10, имеет в нашем случае /-распределение с 18 степенями свободы, и по таблице 31.3.7 полу- получаем и =1,86, чему соответствует P = 0,08, так что мы не обнару- обнаруживаем какой-либо значимой разницы между действием двух снотвор- снотворных средств. Таблица 31,3.7 Дополнительные часы сна у десяти пациентов» вызванные действием двух снотворных средств А и В Пациент 1 2 3 4 5 6 7 8 9 10 Наркотик А X 1,9 0,8 1,1 0,1 -0,1 4,4 5,5 1.6 4,6 3,4 Зс = 2,33 ^ = 1,899 Наркотик В У 0,7 -1.6 -0,2 -1.2 -0,1 3,4 3.7 0,8 0,0 2.0 >i = 0.75 «2 = 1,697 Разность г = х-у 1.2 2.4 1,3 1.3 0,0 1.0 1,8 0,8 4,6 1.4 z = 1.58 s8= 1,167 В случаях, когда можно предполагать, что столбцы хну неза- независимы, применимы оба вышеописанных метода, и если один из крите- критериев обнаружит явно значимую разность, то мы должны отка- отказаться от нулевой гипотезы, даже если второй критерий не обнару- обнаруживает какой-либо значимой разности. Однако в интересующем нас случае с таблицей 31.3.7 существует очевидная корреляция между столбцами х и у, созданная тем, что соответствующие друг другу числа относятся к одному и тому же пациенту, так что применение второго метода незаконно. Пример 5. Среднее значение и стандартное отклонение для июльских температур в Стокгольме за л = 100 лет A841 —1940) (см. таблицу 30.4.2) равняются х= 16,982 и s= 1,6145. Средние значения за 30 первых и 30 последних лет этого периода соответ-
ственно равны 16,893 и 17,463. Значимо ли отличаются эти групно - вые средние значения от общего среднего значения 16,982? По формуле B9.4.5) получаем t = — 0,36 для А = 30 первых лет и /=1,97 для 30 последних лет, в обоих случаях с я— 2 — 98 степенями свободы. Оба значения лежат ниже 5-процентного пре- предела значимости, так что примененный критерий не обнаруживает никаких значимых колебаний летней температуры в течение столетия. У woo вое 600 600 800 woo Фиг. 31. Цены на картофель в 46 районах Швеции, декабрь 1936 (дг) и декабрь 1937 0')- Линии регрессии и линия ортогональной регрессии (пунктир). Пример 6. На фиг. 31 изображено распределение цен на кар- картофель (в эре за 100 кг) в декабре 1936 г. (х) и в декабре 1937 г. {у) в л = 46 различных местах в Швеции по данным официальной статистики. Обычные характеристики выборки имеют значения Jc = 660,57; j» = 732,59; 5, = 106,86; st= 120,91; r= 0,7928; Ьгг — 0,7007; &21 = 0,8971. Предположим, что значения (х,у) образуют выборку из нормальной совокупности и требуется получить сведения о неизвестных значениях коэффициента регрессии (J2I и коэффициента корреляции р этой со- совокупности.
В соответствии с B9.8.4), величина t = ¦ V^.-==- {bn — (J81) имеет распределение Стьюдента с п — 2 степенями свободы. Подставляя сюда приведенные выше значения выборочных характеристик, мы сможем проверить гипотезу о том, что $31 равняется какому-нибудь заданному числу с. Если мы работаем с р-процентным уровнем значимости, то гипотезу следует считать согласующейся с данными, когда с лежит в пределах где t означает р-лроцентное значение t при я — 2 степенях свободы; в других случаях гипотезу следует забраковать. Указанные пределы являются р-процентными доверительными пределами для {J21 (см. выше пример 2). В нашем конкретном случае для fi21 получаются следую- следующие доверительные пределы: р = 5°/о — 0,687 и 1,107, р = 1°/о — 0,617 и 1,177, р = О,1°/о— 0,530 и 1,264. Для выборочного коэффициента корреляции г=0,7928 получаем по формулам B7.8.1) и B7.8.2) приближенное среднее значение р и стандартную ошибку d (г) = Ь^ = 0,0548. Если выборочное распределение для г достаточно близко к нормаль- нормальному, то это распределение можно использовать для проверки гипо- гипотезы о том, что р равно какому-либо заданному числу. Однако, если р значительно отличается от нуля, то выборочное распределение для т стремится к нормальному довольно медленно, и при л = 46 следует ожидать, что получаемые с помощью стандартной ошибки результаты не очень точны. Поэтому рекомендуется использовать точные таблицы распределения величины т (Дэвид [261]) или логарифмическое преоб- преобразование B9.7.3) — B9.7.4), предложенное Р. Фишером. В последнем случае величину z=-n l°?rir~ следует считать распределенной нор- нормально, со средним значением y bg у-^+гТ^ГГП и стандартным
отклонением , , так что величина У 3 У« — 3 l±r нормальна @,1). Таким образом, работая е /7-процентным уровнем значимости, мы должны считать данные совместимыми с каким-нибудь гипотетическим значением р, если 2 IUK1— p i 2 (я — 1) лежит в пределах где Х„—/7-процентное значение нормального отклонения; в других случаях гипотетическое значение р следует забраковать. Если г из- известно, то указанные пределы можно вычислить при любом р, и тогда соответствующие значения р можно получить численным решением уравнения вида у log _ ^ -\- _ . ^_ . ^ 6. Эти значения будут р-про- центными доверительными пределами для р. В нашем конкретном случае для р получаются следующие доверительные пределы: р = 5°/0 —0,6486 и 0,8783, р = \°1о —0,5913 и 0,8980, р=0,1°/0—0,5164 и 0,9171. Пример 7. В таблице 31.3.8 приведены заимствованные из офи- официальных отчетов значения следующих четырех величин за л = 30 лет A913—1942): xt — средний урожай озимой пшеницы в килограммах с 104м* в 20 сельских районах Кальмара (Швеция). хг — средняя температура воздуха в Кальмаре за предыдущую зиму (октябрь-—март) в градусах Цельсия. х3 — средняя температура воздуха в Кальмаре за текущий вегета- вегетационный период (апрель — сентябрь). х4 — количество осадков в миллиметрах за вегетационный период, среднее для трех метеорологических станций в районе. В этом случае нмеет смысл рассматривать величины х2, xt и дс4 как причины, оказывающие то или иное влияние на количество
Таблица 31.3.8 Урожай пшеницы, температура и количество осадков в районе Кальмара Год 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 Урожай пше- пшеницы *i 1990 1950 1630 1720 1560 1680 1980 2180 2370 1790 2400 1410 2570 2180 2150 2530 2100 2330 1850 2230 2510 2600 2480 1940 2770 2570 2510 1420 810 1990 Зимняя тем- температура х, 2,7 3,1 1,9 1,3 1,0 1,6 2,3 1-7 3,1 1,1 1,6 0.1 3,7 1,1 2,5 0,8 0,8 3,6 1,6 1,9 2,2 3,0 3,2 2,8 2,1 3,3 3,8 -и -0,4 -2,4 Летняя тем- температура •г, 12,8 13,7 12,0 П.7 12,7 12,0 12,2 12,8 13,1 11,8 11,2 11,8 13,2 12,5 12,2 10,5 10,9 12,4 10,7 12,5 11,9 13,5 12,3 12,3 13,5 12,9 13,4 11,3 11,3 11,2 Количество осадков •г. 230 268 188 315 180 261 216 346 131 256 327 320 382 279 351 324 196 381 273 289 338 267 372 357 353 202 311 172 194 261 Наилучшая линейная оценка для дг, * 2125 2295 1899 2058 1794 2004 2017 2223 1995 1918 2100 1913 2580 1996 2313 1956 1718 2529 1970 2123 2234 2271 2453 2370 2332 2154 2461 1434 1572 1434
урожая хх. Требуется исследовать природу причинной зависимости между этими величинами. Если данных так мало, как в нашем примере, то нельзя надеяться достичь очень точных результатов и придется удо- удовлетвориться лишь некоторыми общими сведениями о значимости или незначимости различных возможных связей между нашими величинами. Будем предполагать, что совместное распределение наших четырех величин нормально. Корреляционная матрица выборки ? = {г/у} имеет вид 1 0,59107 0,41082 0,46120 0,59107 1 0,67028 0,31838 0,41082 0,67028 1 0,10720 0,46120 0,31838 0,10720 1 Детерминант /?=|г(.у| есть квадрат коэффициента разброса выборки (см. параграф 22.7). Если xt независимы, то по формуле B9.13.2) получим ?(/?) = 0,806, a D(R) приближенно равно 0,115. По приведен- приведенной выше матрице R получаем значение /?=0,273, так что зависимость между нашими величинами явно существует. Значимость различных rlf можно оценить с помощью распределе- распределения B9.7.5), которое имеет место, когда х} независимы. Согласно B9.7.6), гипотеза о независимости величин х{ и х} должна быть за- забракована с точки зрения /»-процентного уровня значимости, если \гЛ превышает значение . р , где tp обозначает /j-процентное значе- " /? + * ние t при у = л — 2 степенях свободы. Таблица величины —-^-? при различных значениях пир приводится у Фишера и Иэйтса [262]. Для обычных 5-, 1- и 0,1 -процентного уровней значимости значениями неличины —_ р являются: Число степеней свободы р = 5°/0 />=1°/0 /> = 0,1°/0 у = 26 у = 27 Для наших rtj имеем v = n — 2 = 28 степеней свободы, так что все rtJ, кроме г24 и rsl, превышают 5-процентный уровень значимости. 0,3740 0,3673 0,3609 0,4786 0,4706 0,4629 0,5880 0,5790 0,5703
ru лежит между 5- и 1-процентным уровнями значимости, Гц почти равняется 1-процентному уровню значимости, а г12 и г2в даже превос- превосходят 0,1-процентный уровень значимости. Интересно отметить, что г12 значительно превосходит г,3: температура предыдущей зимы, по- видимому, влияет на урожай сильнее, чем температура лета. Частные коэффициенты корреляции Гц.к можно вычислить по фор- формуле B3.4.3), и мы получаем следующие значения: г J.з= 0,4666 г «.г = 0,0244 г и.2 = 0,3570 г 12.4 =0,5281 г13.4 = 0,4096 г,4.3 = 0,4602 Для пределов значимости величин г^.к имеем, согласно формуле B9.13.5), выражения такого же вида, как и для величин г/у., с v = = л — 3 = 27 степенями свободы. Таким образом, из шести приведенных выше коэффициентов r/y.ft лишь г12.4 превышает 1-процентный уровень значимости, хотя г]2.3 и ги.а очень близки к этому уровню. Если сравнить, например, r]S = 0,41082 со значениями для г]3.2 и /13.4, то обнаружится, что пренебрежение влиянием зимней температуры хг сводит корреляцию между урожаем хг и летней температурой х3 к совершенно незначимой величине г13.2 = 0,0244, а пренебрежение влиянием количества осадков xt практически не меняет этой корреляции. С другой стороны, сравнение величины г12 = 0,59108 со значениями Г12.3 и Г12.4 показывает, что корреляция между урожаем и зимней температурой при пренебре- пренебрежении влиянием летней температуры или количества осадков умень- уменьшается несущественно. Такие же выводы, как для г]2, получаются и для ги. Эти соображения заставляют предположить, что действительно важными факторами являются зимняя температура хг и количество осадков xit а влияние летней температуры ха объясняется главным образом тем, что х3 довольно сильно коррелирована с хг (г23 = 0,67028). Частные коэффициенты корреляции с двумя вторичными индексами вычисляются по формуле B3.4.4). Находим Г12.34 = 0,3739, г13.24 = 0,0848, г14.2з = 0,3650, так что эти значения подтверждают высказанное выше предположение, хотя ни одно из этих значений, строго говоря, не является значимым. Здесь мы имеем v = « — 4 = 26 степеней свободы, и 5-процентный предел значимости для TijM равняется 0,3740. Рассмотрим теперь сводные коэффициенты корреляции. С помощью формулы B3.5.3) получаем ) = 0,6575, г1C4)=0,5872, г, B34) = 0,6606.
Сравнение r12 = 0,5911 с г^23) = 0,5914 подтверждает уже получен- полученные результаты, так как показывает, что сведения о хв практически ничего не прибавляют к сведениям об урожае xv если х2 уже из- известно. Аналогично, сводный коэффициент корреляции r^2i) лишь не- несущественно меньше, чем г^шу Если величины xv ... ,хк независимы, то согласно B9.13.9), про- произведение л/^B...*) при больших л приближенно имеет распределение X2 с А — 1 степенями свободы. В нашем конкретном случае пг*^) = 10,344 с 2 степенями свободы, а пга1(Ш)= 13,092 с 3 степенями свободы. Поскольку и Г](и) и /1B4) превышают rjC4), все четыре сводных коэф- коэффициента корреляции, приведенные выше, значимо отличаются от нуля. Наконец, вычислим частные коэффициенты регрессии: ^12.34= 133,65, соответствующее ?= 2,055, 613.24 = 44,87, „ t= 0,434, bu.23 = 1,9963, , *= 1,999, где значения t вычислены по формуле B9.12.1) при гипотезе о том, что соответствующие значения для совокупности fij/.y* равны нулю, t име- имеет 26 степеней свободы, так что, согласно таблице IV (стр. 611), ни одно из трех вычисленных значений коэффициентов регрессии не является зна- значимым, хотя Ьп и Ьи очень близки к 5-процентному пределу значимости. Если наблюденные значения Ь отождествить с неизвестными значениями для совокупности, то это будет означать, например, что повышение средней зимней температуры на один градус в среднем вызовет повы- повышение урожая на 134 кг с 10* м2 при неизменных летней температуре н количестве осадков, а повышение на один градус летней темпера- температуры создает увеличение урожайности лишь на 45 кг с 10* м2. Уравнение выборочной плоскости регрессии для л:, дает наилучшую ли- линейную оценку наблюденного значения^ по значениям х2,х3,х^. х*= 133,65 xz -\- 44,87 хъ -\- 1,9963 xt -f 730,9. Значения хг, вычисленные по этой формуле, приведены в последнем столбце таблицы 31.3.8. Значения х1 и х\ изображены также на фиг. 32. Следует помнить, что во всех рассмотренных выше критериях по- повсюду предполагалось, что мы имеем дело с выборками, полученными методом простого случайного выбора (см. параграф 25.2). Это
означает, что выборочные значения предполагаются взаимно независимы- независимыми. Однако во многих приложениях такое предположение незаконно. Такие случаи часто наблюдаются, например, при анализе статистиче- статистических временных рядов. Предварительный план этой книги подразуме- 3000 2500 гооо 1500 W00 500 1915 19F.0 WS Фиг. 32. Графики урожайности пшеницы ¦*1 и наилучшей линейной оценки лг, (пунктир). пал включение главы, посвященной анализу временных рядов, основан- основанному на математической теории случайных процессов. Однако автору пришлось уделить много места для обобщения теории на случай много- многомерных пространств, и это, к сожалению, помешало полной реали- реализации предварительного плана. Исследование статистических временных рядов читатель может найти в диссертации Вольда [246а].
ГЛАВЫ 32—34 ТЕОРИЯ ОЦЕНОК*) ГЛАВА 32 КЛАССИФИКАЦИЯ ОЦЕНОК 32.1. Постановка проблемы. В предыдущих главах мы неодно- неоднократно встречались с проблемой оценки некоторых параметров сово- совокупности при помощи множества выборочных значений. Теперь мы приступим к более систематическому исследованию этой проблемы. Основой теории оценок послужил ряд фундаментальных работ Р. Фишера ([89], [96], [103], [104] и др.). В главах 32 — 33 мы из- изложим некоторые из основных идей, введенных Фишером, дополняя кое-где его результаты. В этой главе мы займемся классификацией и исследованием свойств различных видов оценок. Глава 33 будет посвящена рассмотрению некоторых общих методов оценки, в частности, важного метода максимума правдоподобия, предложенного Р. Фи- Фишером. К главе 34 будет исследована возможность использования оценок для получения надежных выводов относительно значений параметров. Допустим, что нам задана выборка из совокупности, распределение которой имеет известную математическую форму, но содержит неко- некоторое количество неизвестных параметров. Всегда существует беско- бесконечное число функций от выборочных значений, которые можно пред- предложить в качестве оценок для параметров. Поэтому возникает сле- следующий вопрос: Как наилучшим образом использовать данные для получения оценок? А в связи с этим вопросом немедленно возникает следующий: Что подразумевать под „наилучшими" оценками? Соблазнительно было бы назвать наилучшей оценкой такую, кото- которая наиболее близка к истинному значению оцениваемого параметра. Однако следует иметь в вицу, что каждая оценка является функцией от выборочных значений, так что се следует считать наблюденным *) Значительная часть излагаемых в этих главах вопросов является в выс- высшей степени дискуссионной, и в литературе встречается множество противо- противоположных мнений относительно достоинств различных рассматриваемых здесь понятий и истодов.
значением некоторой случайной величины. Поэтому мы никак не можем предсказать индивидуальное значение оценки в данном частном случае, так что о качестве оценки следует судить не по индивидуальным ее значениям, а лишь по распределению ее значений, которые обнаружи- обнаруживаются в длинном ряду испытаний, т. е. по выборочному распределению оценки. Если основная часть массы в этом распределении сосредото- сосредоточена в малой окрестности истинного значения оцениваемого пара- параметра, то с большой вероятностью можно считать, что оценка отли- отличается от истинного значения лишь на малую величину. С этой точки зрения оценка будет тем „лучше", чем меньшее рассеяние от истин- истинного значения показывает выборочное распределение оценки, и постав- поставленный выше вопрос можно сформулировать более точно следующим образом: Как следует использовать данные, чтобы получить оценки с минимальным рассеянием"? Этот вопрос будет служить отправной точкой нашего исследования. В части II мы видели, что рассеяние (или, наоборот, концентра- концентрацию) распределения можно измерять различными способами и что вы- выбор между различными мерами в большой степени произволен. Такой же произвол, конечно, будет иметь место в выборе различных оценок. Каждой мере рассеяния соответствует некоторая „наилучшая" оценка, т. е. оценка, имеющая наименьшее возможное рассеяние с точки зре- зрения этой выбранной меры. В дальнейшем мы будем рассматривать исключительно меры рас- рассеяния и концентрации, связанные с дисперсией и ее многомерными обобщениями. Во-первых, этот выбор оправдывается общими сообра- соображениями в пользу принципа наименьших квадратов, выдвинутыми в па- параграфе 15.6. Далее, в том важном случае, когда выборочные рас- распределения оценок хотя бы приблизительно нормальны, любая имею- имеющая смысл мера рассеяния определяется вторыми моментами, так что при этом возможна лишь единственная мера. Изложение этого вопроса с некоторых других точек зрения читатель сможет найти в статьях Питмена [198], [199] и Джейри [116а]. Сначала удобно рассмотреть случай выборок из совокупности, рас- распределение которой содержит лишь один неизвестный параметр. Этому случаю посвящены параграфы 32.2 — 32.5. В параграфах 32.6 — 32.7 будут рассмотрены случаи с многими неизвестными параметрами. Параграф 32.8 будет посвящен некоторому важному обобщению изло- изложенной теории.
32.2. Две леммы. В этом параграфе ми докажем две леммы, ко- которые понадобятся и дальнейшем. Каждая из этих лемм связана с од- одним из двух простейших типов распределений и является частным слу- случаем одной общей теоремы, которую мы здесь не приводим. Лемма 1. Предположим, что функция g(x;a.) при каждом фик- фиксированном значении а, принадлежащем некоторому невырожденно- невырожденному интервалу А, является плотностью вероятности, имеющей первый момент^ (а) и конечный, второй момент. Пусть, далее, почти всюду на оси х для всех а из А существует частная производная -? , при- причем dj да <За(х),где Go, а также xG0,— функции, интегрируемые Тогда для всех а из А существует производная --¦, причем на (—ос,--]-со). Того C2.2.1) —00 —ОО Знак равенства при фиксированном значении а достигается тогда и только тогда, когда существует число k, не зависящее от х, но, может быть, зависящее от а., такое, что /о9 9 9ч д\а%% ,, . [oZ.Z.Z) — =^ К(Х и) для почти всех х, удовлетворяющих неравенству g (x; а) ^> 0. По предположению для ксех а из Л имеем 00 00 C2.2.3) (^(д:;а)йГд:=1, jxj -¦¦00 —00 и оба эти интеграла удовлетворяют условиям дифференцируемое™ но параметру под знаком интеграла (см. параграф 7.3), так что — суще- существует и имеет вид*) J J Й- J'jf**- Jc-iJ*- f««-« *) Если ?(.v;a) = 0 для всех х, принадлежащих некоторому интервалу, fig то и ~^0, так как в противном случае ? имела бы отрицательные значе- значения. Тогда выражение —~-?}fg= ._ -Д должно было бы равняться нулю.
Соотношение C2.2.1) получается немедленно применением неравенства Шварца (9.5.1)*) Знак равенства и (9.5.1) достигается тогда и только тогда, когда суще- существуют дне постоянные к и г», не равные одновременно нулю, и такие, что Ug(x)~\- vh (х) — 0 для почти всех (Р) значений дг. Поскольку (х — о) Vg не может равняться нулю почти всюду на оси х, то при фиксирован- фиксированном значении а знак равенства в C2.2.1) достигается тогда и только тогда, когда для почти всех х, причем k не зависит от х. Тем самым лемма I полностью доказана. Приведем два примера, в которых выполняется условие C2.2.2). Легко проверить, что в обоих sTiix примерах в C2.2.1) достигается знак равенства. Пример 1. Нормальное распределение со средним значением я и по- постоянным стандартным отклонением. Полагая (*-«)¦ г ie з не зависит ни от х, пи от а, мы получим <ji{o) = a и. —~-^ = —Т- Ста о2 для всех л: и а. Пример 2. Распределение хэ. Согласно A8.1.6), плотность вероятности kn(x) распределения х2 имеет первый момент п. Таким образом, плотность поройтност» ?(-*¦; «) — —Ал( —). гДе а>0, имеет первый момент ф(а)==а и и.1 A8.1.3) получается —^Si2 = —[х — а) для всех а->0 и а > 0. Лемма. 2. Предположим, что при каждом значении а, принад- принадлежащем некоторому невырожденному интервалу А, конечная или счетная последовательность функций /?, (а), рг(я), ... представляет собой вероятности некоторого распределения дискретного типа, причем соответствующие точки сосредоточения массы их,иг, ... не зависят от а. Пусть, далее, это распределение имеет первый момент ф(а) и конечный второй момент и производные р\{а) существуют для "¦') Я обязан профессору Л. Альфорсу одним заметанием, упростившим мое первоначальное доказательство.
всех i и для каждого а из А, причем ряд 2 atPt (a) сходится аб- абсолютно и равномерно в А. Тогда для всех а из А существует произ- водная —^, причем, C2.2.4) Знак равенства при фиксированном значении а достигается тогда и только тогда, когда существует число k, не зависящее omi, но, может быть, зависящее от а, такое, что C2.2.5) для всех i, удовлетворяющих условию р{ (а) ]> 0. Эта лемма вполне аналогична лемме 1 и доказывается таким же способом с помощью следующих соотношений, соответствующих соот- соотношениям C2.2.3): Как и в предыдущей лемме, мы приведем два примера, в которых вы- выполняется условие C2.2.5). Легко проверить, что в обоих этих примерах в C2.2.4) достигается знак равенства. Пример 3. Для биномиальною распределения с р = — имеем щ = I п (п\ f *\l f а\ «—' . ) I•-) A — — 1 , где / = 0,1,.... я. Поэтому среднее значение ... rflogp/ / л — i л , равняется ф (а) = я/> = а и -_*??=- - _. = ^-- (и, _ а). Пример 4. Если я ->• оо при фиксированном ч, то биномиальное рас- распределение стремится к распределению Пуассона с «/^=i ир(= <rj-e~a. .1 i , ч d \ог pi и> — а Здесь мы имеем 4 (а) = а и —. = — . па а 32.3. Минимум дисперсии оценки. Эффективные оценки. Пред- Предположим, что каждому значению параметра а, принадлежащему к не- невырожденному интервалу А, соответствует некоторая функция распре- распределения F(x;a). Пусть xlt ..., хп — выборка в л значений из
совокупности с функцией распределения F{x; а), где а — какое-то значение из интервала А, и требуется оценить неизвестное „истинное значение" параметра а. Для обозначения какой-нибудь функции от выборочных значений, предлагаемой в качестве оценки для а, будем употреблять общий символ а* = а*(л:1, ... , хп)*\ В параграфах 32.3 — 32.4 мы будем считать объем выборки п фиксированным числом ^ 1. В параграфе 32.5 мы перейдем к во- вопросам, относящимся к асимптотическому поведению наших оценок при больших я. В соответствии с терминологией, введенной в параграфе 27.6, а* называется несмещенной оценкой для о, если Е(а*) = а. Как было по- показано на некоторых простых примерах в параграфе 27.6, часто можно с помощью простой поправки исключить смещение оценки и получить несмещенную оценку. Однако в общем случае оценка имеет некоторое смещение Ь(а), зависящее от а, так что Можно показать, что при некоторых общих условиях среднее квадратичное отклонение Е(а* — оJ ограничено снизу некоторым полощительным числом, зависящим только от функции распреде- распределения F(x; а), объема выборки п и смещения Ь(а). В частном слу- случае, когда а* является несмещенной оценкой, каково бы ни было истинное значение а из А, смещение Ь(а) тождественно равно нулю, и дисперсия О'Ца*) ограничена снизу некоторым числом, зависящим только от F и а. Мы ограничимся доказательством этой теоремы для случая, когда функция распределения принадлежит к одному из дпух простейших типов. 1. Непрерывный тип. Рассмотрим распределение непрерыв- непрерывного типа с плотностью вероятности f(x; о), где а может иметь лю- любое значение из интервала А. Значения Jt,, ...,xn, получаемые при *) Здесь важно указать на различие в значении символов а* и а. По опре- определению, а* есть функция от выборочных значений хь ..., х„, которые рассматриваются как случайные величины. Таким образом, а* сама есть слу- случайная величина, имеющая некоторое выборочное распределение. С другой стороны, а есть переменная величина в смысле обычного анализа, которая для совокупности, соответствующей данной выборке, может принимать про- произвольное фиксированное, хоти и, может быть, неизвестное, значение из ин- интервала А.
независимых выборках из этого распределения, суть независимые случай- случайные величины, имеющие одну и ту же плотность вероятности f(x; О). Каждая конкретная выборка представляется определенной точкой x = (xv ...,хп) в пространстве выборок Rn переменных xv ..,, хп, и дифференциал вероятности совместного распределения имеет вид L (л:,, ..., л-„; a) dxx ...dxn =f{xx; а).. ./(*„: a)dxY.. ,dxn. Совместная плотность вероятности L=f(xt; a)...f{xn; а) называется функцией правдоподобия для выборки (см. параграф 33.2). Пусть a* = a*(jf1,..., хп) — однозначная функция от лг,, ..., хп, не зависящая от а, непрерывная и имеющая непрерывные частные производные -г-г во всех точках х, кроме, может быть, некоторых точек, лежащих на конечном числе гиперповерхностей. Постараемся использовать о* в качестве оценки для а и предположим, что Е(а*)=^а-\-Ь(а), так что b(a) — смещение оценки а*. Уравнение а* = е при различных значениях с определяет семей- семейство гиперповерхностей и Rn, и каждую точку в Rn можно одно- однозначно определить значением а*, соответствующим той гиперповерх- гиперповерхности этого семейства, на которой лежит рассматриваемая точка, и и—1 „локальными" координатами ?, 5я_р определяющими положение точки на этой гиперповерхности. Рассмотрим теперь пре- преобразование, при котором старые переменные xv...,xn заменяются новыми переменными a*, Sj, ..., Se t. Выбирая „локальные" коорди- координаты ?j так, чтобы это преобразование удовлетворяло условиям А) и В) параграфа 22.2, мы сможем записать совместную плотность вероятности новых величин в виде /(*,; а).../(*„:*)! Л. где J — якобиан преобразования, а xt следует заменить их выраже- выражениями через новые величины. Случайная величина о* имеет некоторое распределение, зависящее, вообще говоря, от параметра а; обозначим соответствующую плот- плотность вероятности через #(а*; а). Далее, совместное условное распре- распределение величин ?j, ..., ?n_j, соответствующее заданному значению а* имеет плотность вероятности, которую мы обозначим через
Согласно B2.1.1), имеем C2.3.1) f(xi;a)...f(xn;a) |7|=*(а*; <»)*&, .... 5я_,|а*; а), и преобразование дифференциала вероятности можно записать, в со- соответствии с B2.2.3), в виде C2.3.2) /(*,; а)... /(*„; а) dxx.. .dxn = = *(**; a) A (S, ^.Jo*;^* <*&,...<*$„_,. Предположим теперь, что для каждого а из Л при почти всех зна- значениях х, а*, ?,,..., Sn_j существуют частные производные J-, -j —, причем да. где Fo, О0, о*О0 и Яо — функции, интегрируемые соответственно по всему пространству л:, а*, а* и 5Х, ...,5n_j. В таком случае будем говорить, что мы имеем дело со случаем регулярной оценка непре- непрерывного типа, причем а* будет называться регулярной оценкой для а. Теперь мы приступим к доказательству основной теоремы, которую можно сформулировать следующим образом: В каждом случае регулярной оценки непрерывного типа среднее квадратичное отклонение оценки а* от истинного значения a удовлетворяет неравенству * — C2.3.3) E(a —00 При любом а из А знак равенства достигается тогда и только тогда, когда удовлетворяются следующие два условия, коль скоро g(a*;a)>0: А) Плотность вероятности n(?v ..., Sn_j |a*; о) не зависит от а. В) fag== & (а* — я), где k не зависит от а*, но может зави- зависеть от а. В частном случае, когда а* является несмещенной оценкой, каково бы ни было значение а из А, мы имеем b(a)~Q, и C2.3.3)
обращается в C2.3.3а) D* (а*) ^ —00 Согласно нашему предположению относительно функций / и Л, соот- соотношения со оо оо J f(x;a)dx = J... J AF11...,6e_1|a*;o)rfS1...rf^_1 = l —оо —ео —оо удовлетворяют условиям дифференцируемости по параметру а под знаком интегралов (см. параграф 7.3). Получающиеся при этом соот- соотношения можно записать в виде 00 C2.3.4) —оо —00 —00 Беря логарифмические производные по а от обеих частей равенства C2.3.1), мы получим, поскольку якобиан J не зависит от о, C2.3.5) Возведем обе части этого равенства в квадрат, умножим соответственно на праэую и левую части равенства C2.3.2) и проинтегрируем полу- полученные выражения по всему пространству. Согласно C2.3.4), все слагае- слагаемые, содержащие произведения двух различных производных, обра- обратятся в нуль, и мы получим C2.3.6) п ] (^)V(*; a)dx = J (^ —оо —оо —00 —00 J J
Приведенное здесь доказательство этого неравенства принадлежит Дюге [76]. Знак равенства здесь достигается тогда и только тогда, когда .— = 0 почти во всех точках, в которых g^>0, т. е. если выполняется условие А). Наконец, плотность вероятности g(a*; а) удовлетворяет условиям леммы 1 предыдущего параграфа при ф(а) = а-|-*(я). и, применив лемму к неравенству C2.3.6), мы получаем доказательство нашей теоремы. Интеграл в знаменателях правых частей равенств C2.3.3) и C2.3.3а) можно представить одним из следующих эквивалентных выражений: j да ) J \ да J J J/ Легко видеть, что доказанная только что теорема верна и в слу- случае выборок из многомерной совокупности с плотностью вероятности f(xv ...,xk; а), содержащей неизвестный параметр а. Рассмотрим теперь случай регулярной и несмещенной оценки о*. В этом случае правая часть равенства C2.3.3а) представляет собою наименьшее возможное значение дисперсии D2(a*). Отношение этого минимального значения к фактическому значению D2 (а*) называется эффективностью оценки а* и обозначается е (а*). Очевидно, что 0 =sS ? (a*) s? 1. Если в C2.3.3а) достигается знак равенства, то D3 (а*) достигает своего наименьшего возможного значения, и е(а*)=1. В этом случае мы будем говорить, что а* — эффективная оценка*). Это понятие было введено Р. Фишером [89], [96]. Из доказанной выше теоремы следует, что регулярная несмещен- несмещенная оценка эффективна тогда и только тогда, когда выполнены •) Как правило, этот термин употребляется для описания повеления оценки в больших выборках, т. е. при неограниченном возрастании п. Однако здесь удобнее проводить различие между эффективной оценкой, под которой понимается оценка с минимальной для данного конечного объема я выборки дисперсией, и асимптотически эффективной оценкой (см. пара- параграф 32.5), которая имеет аналогичное свойство в случае выборок неограниченно возрастающего обгема. Эффективная оценка существует лишь при весьма ограничительных условиях (см. параграф 32.4), в то время как существование асимптотически эффективной оценки можно доказать при некоторых об- общих условиях регулярности (см. параграф 33.3).
условия А) и В). Это делается очевидным, если записать е (а*) в виде C2.3.7) .<«)_ Оба множителя в последнем выражении не превышают единицы, а для эффективности необходимо, чтобы оба множителя равнялись единице. Но первый множитель равен единице тогда и только тогда, когда выполняется условие А) доказанной выше теоремы, а второй множи- житель обращается в единицу тогда и только тогда, когда выпол- выполняется условие В). Если эффективная оценка существует, то ее всегда можно получить с помощью метода максимума правдоподобия, предложенного Р. Фишером (см. параграф 33.2). Пусть теперь ctj — эффективная оценка, а а* — какая-нибудь регу- регулярная несмещенная оценки с эффективностью с^>0. Покажем, что коэффициент корреляции между а\ и al равняется р(а*, а2) = К е- Действительно, регулярная несмещенная оценка о* = A — &)ctj-f- —|— ^сс^ имеет дисперсию и если p^L]/g, то коэффициент при D2(tXi) всегда можно сделать меньшим 1, придавая числу k достаточно малое положительное или отрицательное значение. Но тогда получим D2(a*)<[/J(a*), и а* будет иметь эффективность ^> 1, что невозможно. В частности, при г=1 мы имеем р = 1, так что две эффектив- эффективные оценки а* и а* имеют одно и то же среднее значение о, одну и ту же дисперсию и коэффициент корреляции р = 1. Тогда из парагра- параграфа 21.7 будет следовать, что еся масса в совместном распределении величии а* и а* сосредоточена на прямой а* = а*. Таким образом, две эффективные оценки одного и того же параметра .почти всегда" равны друг другу.
В этом параграфе мы приведем несколько примеров эффективных оценок (примеры 1—2 для непрерывного случая, примеры 3—4 для дискретного слу- случая). Читатель проверит, что во всех случаях для эффективных оценок вы- выполняются условия А) и В). Чтобы убедиться в этом,—мы говорим здесь о непрерывном случае, в дискретном случае все может быть сделано анало- аналогично,— следует прежде всего найти плотность вероятности ?(**;<*) иссле- исследуемой оценки, и тогда выполнение условия В) будет доказано с помощью примеров параграфа 32.2. Далее следует ввести подходящие вспомогательные переменные 5t, ..., ?„_г и вычислить условную плотность вероятности Л по формуле C2.3.1); тогда останется лишь проверить, что Л не зависит от а. Во всех примерах, кроме четвертого, мы имеем дело лишь с регулярными оцен- оценками. Читатель должен проверить это детально хотя бы в некоторых слу- случаях. Пример 1. Среднее значение нормальной совокупности. Полагая 1 _< о У2п где в = от' — параметр, подлежащий оценке, а о — известная постоянная, мы можем выбрать в качестве А любой конечный интервал и получим = i Следовательно, дисперсия любой регулярной несмещенной оценки т* удо- влетворяет неравенству D2 (/я*) :э= —. В частности, для оценки т* = ~х — 51 ~ п ~* п получаем, согласно параграфу 27.2, ?(jc)—/и и /J(л) = —, так что сред- среднее значение есть эффективная оценка для т. Мы видели выше, что некоторые другие возможные оценки для т, как, например, выборочная медиана (см. параграф 28.5) и среднее v-x верхнего и нижнего значений выборки (см. B8.6.17)) имеют ббльшую дисперсию, чем ~х. Поучительно рассмотреть различные другие функции от выборочных значений, которые можно использовать в качестве несмещенных оценок для т; при этом окажется, что их дисперсия всегда но меньшей мере о2 равна —. Приведем здесь простой пример такого рода. Рассмотрим выборку вл = 3 значения из указанной выше нормальной совокупности и располо- расположим выборочные значения в порядке возрастания величины: л^ =^ лга =^ лг3 Можно было бы думать, что взвешенное среднее значение 2с) xs + схь
при некотором выбранном подходящим образом значении с будет „лучшей* оценкой для т, чем простое среднее арифметическое значение, получающееся при с — -g . Однако Е (г) =« и -¦)'. так что дисперсия для г достигает наименьшего значения в точности при <?=-=-. Доказательство формулы для D2(z) и проверку выполнения условий о регулярности оценки мы предоставляем читателю в качестве упражнения. Пример 2. Дисперсия нормальной совокупности. Полагая i (* - т)' Г где а = о2— параметр, подлежащий оценке, а т — известная постоянная, мы можем выбрать в качестве А любой конечный интервал а < о* < Ь, а > 0. и получим Следовательно, дисперсия любой регулярной несмещенной оценки для в* будет по меньшей мере равна .—. Исправляя за счет смещения выборочную дисперсию S- (см. 27.6), мы получим выражение П .s2 =2^ J которое, согласно B7.4.5), является несмещенной оценкой для а3, имеющей 2о* дисперсию ——т. Очевидно, эта оценка не является эффективной, а имеет эффективность < 1. С другой стороны, рассмотрим оценку *о =—51 (•*¦/ — mJ- Это законно, поскольку т — известная постоянная. Легко видеть, что s% имеет среднее значение я2 и дисперсию —, т. е. является эффективной оценкой для ог. Пример 3. Стандартное отклонение нормальной совокупности. Если в распределении предыдущего примера вместо дисперсии ог считать подлежащим оценке параметром стандартное отклонение а, то получим
Следовательно, дисперсия любой регулярной несмещенной оценки для о будет по меньшей мере равна д-. Рассмотрим, например, выражение где *—стандартное отклонение выборки. По формуле B9.3.3) получаем ) = " и так что эффективность e(s') стремится к 1 при «—».оо. Однако при малом я эффективность значительно меньше единицы. Полагая, например, я = 2, полу- получим е(s')~ .,, 1 ¦ = 0,4380, а при лг=3 e{s') = rr-r^—- = 0,6100. Аналогично убеждаемся, что выражение *o = 1/ T ./„, j_ «\ s» где So — величина, определенная в примере 2, является несмещенной оценкой для я, имеющей дисперсию Эффективность e(s'^) стремится к 1 при п—>-оо. При п = 2 имеем g(s'o) — -—1-—=0,9151, а при я=3 е (sj) = оТяя^Гя» ~ 0>9358' т- с- зна" чительно больше, чем эффективность оценки з'. Для среднего отклонения *i = —2 I ¦*' — т\ ПОЛУЧИМ после простых выкладок так что 1/ -^- 5t является несмещенной оценкой для о с эффективностью 1 =0,8760. с—2
Пример 4. Нерегулярный случай. Если плотность вероятности имеет точки разрыва, расположение которых зависит от параметра, то условия ре- регулярности обычно нарушаются. В таких случаях часто можно найти несме- несмещенные оценки .ненормально высокой" точности, т. е. такие, что их дисперсия меньше, чем нижний предел для регулярных опенок, определяемый форму- формулой C2.3.3а). Рассмотрим, например, плотность вероятности f(x; а), равную ег"х при х ^ а и 0 при х < а. В точке х = а производная J- не существует, так что мы имеем нерегулярный случай. Как мы видели в параграфе 7.3, равенство \fdx-~ = 1 в этом случае нельзя дифференцировать обычным образом; действи- действительно, \J.dx = l. Если перейти от C2.3.5) к C2.3.6), то все л2 слагаемых J оа в левой части будут равны 1. Предполагая, что функции g и Л удовлетво- удовлетворяют нашим условиям,мы получим вместо Ог(а*)^— , что следовало бы нз C2.3.3а), лишь более слабое неравенство D2(a*)^-j. В частности, для оценки a* = min х> , где тшлг,- обозначает иаимень- л шее из выборочных значений, мы получим плотность вероятности л/(ла*, ла— 1), так что?(а*) = а, 03(а*) = -^. Таким образом, а* есть несмещенная оценка, дисперсия которой при всех л > 1 меньше, чем предел, определяемый фор- формулой C2.3.3а). Другой пример такого рода получим, рассматривая прямоугольное рас- распределение и используя среднее значение или разность между крайними зна- значениями выборки в качестве оценки для среднего значения или широты совокупности. В соответствии с формулами B8.6.8) и B8.6.9), в обоих случаях дисперсия имеет порядок п~г и потому при большом л становится меньшей, чем предел, определяемый формулой C2.3.3а). 2. Дискретный тип. Рассмотрим дискретное распределение с точками сосредоточения массы и,, и2, ... и соответствующими вероятностями р1 (а), р2 (а), ... , где а может иметь любое значение из интервала А и а{ не зависят от а. Этот случай, во многом ана- аналогичный предыдущему, будет рассмотрен лишь вкратце. Как и в пре- предыдущем случае, мы рассматриваем оценку а* = а*{xlt ..., хп) со средним значением Е(а*) = а-\-Ь(а). Вероятность того, что выборочная точка в Rn с координа- координатами xv хп занимает положение М, определяемое равенствами jct = «<,, ..., хп = щл, равна р/ж(а).. .pia(a). Однако, точку М можно.
определить также и другими л координатами, именно значением а* , которое а* имеет в точке М, и п — 1 новыми координатами Vj, .... vn_p определяющими положение точки М на гиперповерхности а* = а*. Если обозначить через q,(a) вероятность того, что а* имеет значе- значение а*, и через /•„„ .,., »„_,) у (а) — условную вероятность множества значений V, vn-i> соответствующих точке М, при данном v, то получим следующее соотношение, аналогичное формуле C2.3.2); C2.3.8) /»Л (а) .../>/„ (а) = q4 (а) г,,,.... ,_,,,(«). Определим теперь случай, регулярной оценки дискретного типа следующим условием: при всяком а из Л существуют все производ- производные р'.(а), q'y(a) и r'V[ n_iIv (а), причем ряды 2#(«) и т- п- со- соответствующие аналогичным интегралам в непрерывном случае, схо- сходятся абсолютно и равномерно в Л. В этом случае будем также называть а* регулярной оценкой для с. В каждом случае регулярной сценки дискретного типа справед- справедливо следующее неравенство, аналогичное неравенству C2.3.3): C2.3.9) Е(а* — о)а 5* При любом а из А знак равенства достигается тогда и только тог- тогда, когда выполняются следующие два условия, коль скоро qy{o.)~^>0\ A) Условная вероятность r.,it ...,-;„_, i.-< (а) не зависит от а-. B) —^-*=:&(а* — а), где к не зависит от V, но может зави- зависеть от а. В частном случае, когда а* является несмещенной оценкой, каково бы ни было значение а из А, имеем Ь(а)-=О, и C2.3.9) обра- обращается в 1 C2.3.9a) 0s (а*); faiogpiY Эта теорема доказывается так же, как и соответствующая тео- теорема для непрерывного случая: берем логарифмическую производную от обеих частей равенства C2.3.8), возводим в квадрат, умножаем
соответственно на левую и правую части равенства C2.3.8) и затем суммируем по всевозможным выборочным точкам М. Доказательство завершается применением леммы 2 предыдущего параграфа. Как и в непрерывном случае, несмещенная оценка будет назы- называться эффективной, если в C2.3.9а) достигается знак равенства. Определение эффективности оценки и замечания относительно корре- корреляции между различными оценками распространяются на дискретный случай с очевидными видоизменениями. Выражения C2.3.3а) и C2.3.9а) суть частные случаи более общего нера- неравенства D> (a* oo / EL dF которое справедливо при некоторых общих условиях даже для функций рас- распределения F(x, я), не принадлежащих к одному из двух простейших типов. Интеграл, стоящий в знаменателе правой части этого неравенства, известен под названием интегралы Хеллингера (см., например, Гобсои [17], ], стр. 609). Мы не будем здесь заниматься этим общим случаем, а перейдем к рассмот- рассмотрению дальнейших примеров эффективных оценок. Пример 5. Для биномиального распределения имеем Pi = ( , } где а=р — параметр, подлежащий оценке, а N—известное целое число и q= 1 —р. Тогда = 1G—TV Pl=m Таким образом, дисперсия любой регулярной несмещенной оценки/»41, вычис- вычисляемой по выборке в п злачений, по меньшей мере равна ^-~/. В частности, для оценки p*j=^z=—7,3^ получаем Е(р'*)=р и D3(p*) = Sl.i так что эта оценка является эффективной. Пример 6. Для распределения Пуассона с параметром \ имеем Pi —Тхе~х и < о Таким образом, дисперсия любой регулярной несмещенной оценки по меньшей
мере равна —. В частности, для оценки k*=jc = 51— имеем ?(Х*) = * и Я2 (X*) = — , так что эта оценка является эффективной, л 32.4. Достаточные оценки. Для того, чтобы регулярная несме- несмещенная оценка а* была эффективной, т. е. имела минимальную дис- дисперсию, необходимо и достаточно выполнение обоих условий А) и В) предыдущего параграфа. Если же требовать выполнения лишь одного условия А), то получится более широкий класс оценок. В настоящем параграфе мы рассмотрим этот класс оценок, ограничиваясь распре- распределениями непрерывного типа, так как дискретный случай исследуете» совершенно аналогично. Условие А) в непрерывном случае сводится к тому, чтобы услов- условная плотность вероятности A (Sj, ...,$„_, | а*; а) не зависела от а, коль скоро g(a*; a)j>0. Это означает, что распределение массы в бес- бесконечно тонкой области, ограниченной двумя соседними гиперповерх- гиперповерхностями а* и a*-{-da*, должно быть независимым от а. В таком случае можно считать, что оценка а* подытоживает все существенные сведения о параметре а, содержащиеся в выборке. Действительно, если известно значение а*, соответствующее нашей выборке, скажем, а*, то выборочная точка М должна лежать на гиперповерхности а* = а^, a условное распределение на этой гиперповерхности не зависит от а, так что дальнейшее уточнение положения точки М не даст никаких новых сведений о параметре аг. Пользуясь терминологией Р. Фишера [89]: [96], будем называть а* достаточной оценкой. Поскольку якобиан J в C2.3.1) не зависит от а, то оценка а* будет достаточной тогда и только тогда, когда C2.4.1) / (*,; а).../ (*„; a)~g (а*; а) //.(*„ ..., дг„), где И не зависит от а. Из самого характера условий А) и В) вытекает, что ожидать су- существования эффективных или достаточных оценок можно лишь для некоторых специальных классов совокупностей. Если существование таких оценок установлено, то их можно вычислять с помощью метода максимума правдоподобия (см. параграф 33.2), и между ними обна- обнаруживаются важные связи. Дальнейшие сведения об условиях существования и других свой- свойствах эффективных и достаточных оценок читатель может найти в статьях
Фишера [89], [96], [103], [104] и др., Неймана [162], Неймана и Е. Пирсона [173], Купмеиа [141], Дармуа [74], Дюге [76] и др. В примерах 1,2,5 и 6 предыдущего параграфа были рассмотрены ра (лич- (личные конкретные эффективные оценки. Все они, a fortiori, являются достаточ- достаточными. Это можно непосредственно показать в ка"ждом случае, рассматривай преобразование, заменяющее исходные выборочные переменные оценкой а* ил—1 новыми переменными, выбранными подходящим образом; следует лишь проверить, что удовлетворяется условие А). Мы рекомендуем читателю провести эти преобразования подробно. (См. также аналогичный случай в па- параграфе 32.6, пример 1.) Оценка Sq, определенная в примере 3 параграфа 32.3 является примером регулярной несмещенной оценки, удовлетворяющей ус- условию А), но не удовлетворяющей условию В), т. е. примером достаточной, но не эффективной оценки. Другие примеры такого рода будут приведены в параграфе 33.3 (см. пример 3). Таким обраиом, класс достаточных оценок является действительно более широким, чем класс эффективных оценок. Приведенное выше определение достаточной оценки применимо к классу регулярных несмещенных оценок, но его можно непосредственно распростра- распространить на класс всех регулярных оценок как несмещенных, так и смешенных. После этого обобщения ил определения достаточных оценок будет немедленно следовать, что свойство оценки быть достаточной инвариантно относительно преобразования параметра. Таким образом, если о* есть достаточная оцеик i параметра л и если а заменяется новым параметром ?(а), то $(«'•¦) будет достаточной оценкой для ?(я). Соответствующей теоремы для эффективных оценок не существует. 32.5. Асимптотически эффективные оценки. В предыдущих па- параграфах мы считали объем выборки п фиксированным числом 5* 1. Предположим теперь, что регулярная несмещенная оценка а*—- -—а*(лг,,..., л*„) определена для всех достаточно больших значений п, и рассмотрим асимптотическое поведение а* при «--><х>. Если а* сходится по вероятности к я при и—»-оо, то а* являете*; состоятельной оценкой для а (см. параграф 27.6). В главах 27—29 ми видели (см., например, параграфы 27.7 и 2S.4), что но многих важных случаях стандартное отклонение оценки а* имеет при больших п порядок —1/, _ 1', а , так что D(a*)^~cn , где с — некоторая постоянная. Нел» а* — несмещенная оценка со стандартным отклонением такого вида, то очевидно, что а* — состоятельная оценка (см. параграф 20.4). Далее, в ьтом случае эффективность е(а*), определяемая формулой C2.3.7), стремится при п- +'»к определенному пределу: C2.5.1) 11.,. е (а*) = ео(а*) =^ V i J о ^-л -3
13 дискретном случае получается аналогичное выражение. Этот предел называется асимптотической эффективностью оценки а*. Очевидно, Рассмотрим, далее, важный случай оценки а*, смещенной или не- несмещенной, которая при больших л асимптотически нормальна (a, —?=¦] . \ У п) В параграфе 28.4 мы видели, что этот случай может иметь место даже тогда, когда Е{а*) или D[a*) не существуют. Однако, если я велико, то для практических целей можно считать распределение ве- величины а* эквивалентным нормальному распределению со средним зна- значением ос и стандартным отклонением -= и, соответственно, даже в этом Уп случае называть величину е0 (а*), определяемую правой частью равенства C2.5.1), асимптотической эффективностью оценки а*. Если ео(а*) = 1, то будем называть о* асимптотически эффек- эффективней оценкой параметра а. При довольно общих условиях асимпто- асимптотически эффективная оценка может быть найдена с помощью метода максимума правдоподобия (см. параграф 33.3). Пример 1. Для нормальною распределения медиана выборки может быть использована в качестве оценки среднего значения т, и, в силу пара- п графа 28.5, эта оценка имеет асимптотическую эффективность — =» 0,6366. Та- Таким образом, если мы оцениваем т, вычисляя медиану для выборки, например, в л = 10 000 элементов, то получаемая оценка имеет такую же точность, как оценка, получаемая вычислением среднего значения х по выборке лишь 2л в — = 6366 элементов. Тем не менее, медиана иногда употребляется на прак- 1С тике, так как ее можно вычислить очень быстро. В качестве оценки для т можно использовать также среднее значение v-x верхнего и нижнего значений выборки. В силу формулы B8.6.17), асимпто- асимптотическая эффективность такой оценки равна нулю. Если в нормальном распределении известно т и требуется оценить дис- дисперсию о3 или стандартное отклонение с, то можно использовать различные оценки, связанные с выборочной дисперсией Л Мы уже встречались с асимп- асимптотически эффективными оценками такого рода в примерах 2—3 параграфа 32.3. В качестве оценки для о можно использовать также разность между v-ми верхним и нижним значениями выборки, умноженную на подходящую постоянную. В соответствии с B8.6.18), асимптотическая эффективность такой оценки будет равна нулю. Поэтому использование такой оценки в больших выборках приведет к ,потере информации* большей даже, чем в случае рассмотренной выше медианы выборки. Тем не менее, на практике часто упот- употребляются оценки для т и для о, основанные на v-x значениях выборки,
так как этм оценки вычисляются очень просто, а при небольших значениях п потеря информации незначительна (см. статьи, упомянутые в этой связи в параграфе 28.6). Пример 2. Для распределения Коша с плотностью вероятности я> A?logA- 4 ? (x-tfdx 1_ Таким образом, дисперсия любой регулярной несмещенной оценки для ц 2 по меньшей мере равна —. Согласно параграфу 19.2, выборочное среднее л значение ~х имеет ту же самую плотность рероятности / (х\ ц), так что среднее значение не является состоятельной оценкой для р. Это же справедливо отно- относительно среднего арифметического v-x верхнего и нижнего значении ьыборкн (см. B8.6.11)). С другой стороны, выборочная медиана, согласно параграфу 28.5, асимптотически нормальна yfr — ] и имеет, таким образом, асимптотиче- асимптотическую эффективность — : -^- = — =0,8106. П 4Л It* 32.6. Случай двух неизвестных параметров. Покажем вкратце, как можно обобщить понятия и теоремы предыдущих параграфов на случаи нескольких неизвестных параметров. При этом достаточно при- привести точные формулировки результатов для непрерывных распреде- распределений, так как соответствующие результаты в дискретном случае по- получаются по аналогии. Для упрощения записей мы ограничимся в дальнейшем случаем несмещенных оценок. В настоящем параграфе мы рассмотрим распределение с двумя неизвестными параметрами о и fi, имеющее заданную плотность ве- вероятности f{X;a, р). По выборке в я значений jti,.. ., дгя, извлечен- извлеченных из этого распределения, мы вычисляем две функции о* = = a* {xv..., хп) и {}* = fj* (лгх,..., хп), которые будут являться несмещенными оценками, соответственно, для а.и р. Затем рассмот- рассмотрим преобразование в пространстве выборок Rn, при котором старые переменные xt,... ,хп заменяются новыми переменными о*, ji*, Sti... >?я_4. Для этого преобразования имеем следующие соотношения, аналогичные
формулам C2.3.1) и C2.3.2): Г> а> ?) = *(**. Р*; <*, р) Л & ?„_., | a», р*; о. >]!•••> Ч„_3 | ¦* , p , a, Здесь g—совместная плотность вероятности величин а* и {i*, a A— условная плотность вероятности величин ?]>..., ?я_2 при данных зна- значениях а* и ji*; наконец, J-—якобиан, не зависящий от аир. Случай регулярной оценки определяется теперь как случай, в котором плотности вероятности f,gnh удовлетворяют условиям ре- регулярности, установленным в параграфе 32.3, по обоим параметрам о и р. Действуя так же, как в параграфе 32.3, и беря вместо частных произ- производи ых по а полный дифференциал по а и р, мы получим (см. Дюге [76]): C2.6.1) причем знак равенства достигается тогда и только тогда, когда условная плотность вероятности А не зависит от а и р, коль скоро g"^>0. Если это условие выполняется, то можно считан., что оценки а* и {J* подытоживают всю содержащуюся в выборке существенную информацию относительно а и р. Обобщая определение, данное в па- параграфе 32.4, мы будем называть а* и Р* совместно-достаточными оценками для а и ji. Правая и левая части равенства C2.6.1) суть квадратичные формы относительно da и d$. В силу однородности, такое же неравенство между значениями квадратичных форм будет справедливо, если заме- заменить da ii rfp какими-нибудь величинами и и v, так что C2.6.1) можно записать в виде ^) uv+E Hfl
Рассмотрим теперь неравенство C2.2.1), выражающее основной результат леммы 1 параграфа 32.2, и допустим, что ф(а) = а. Тогда C2.2.1) можно записать в виде неравенства между двумя квадратич- квадратичными формами от одной переменной: ( 2 где g=g (а*; о) — плотность' вероятности со средним значением Е(а*) = — а, а квадратичная форма в правой части неравенства — обратная к форме Е (а* — о)ги2. Выраженная в такой форме лемма 1 может быть обобщена на плотности вероятности, содержащие несколько па- параметров (см. Крамер [72]; подробного доказательства такой обоб- обобщенной леммы мы здесь не приводим). В случае двух параметров обобщенная лемма утверждает, что правая часть неравенства C2.6.2) (Ю меньшей мере равна квадратичной форме, обратной к форме Е (а* — аJ Ф + 2Е [(я* — а) (?* — р)] wo -\- E (fl* — fl)"- <о*- = где Jj, а2 и р обозначают стандартные отклонения и коэффициент корреляции для величин а* и ji*, так что <32.6.3) Е (^p)V + 2( и2 2pav . о* Эллипс рассеяния для совместного распределения величин о* и |J* имеет уравнение (см. B1.10.1)) _ Таким образом, неравенства C2.6.2) и C2.6.3) означают, что фиксированный эллипс «2.6.5) , лежит целиком внутри эллипса рассеяния любой пары регулярных несмещенных оценок a*, fj*. Э/яо является обобщением неравенства <30.3.3а) на случай двух параметров.
Если в обоих соотношениях C3.6.2) и C2.6.3) достигается чник равенства, то мы будем говорить, что а* и fj* суть совместно-эффек- шитые оценки для а и jii. В этом случае два эллипса C2.fi.4-) и C2.6.5) соипадают, и совместное распределение не.чпчнп а* и ($* имеет меньшее рассеяние (см. параграф 21.10). чем распределение любой неэффективной пары оценок. Рассмотрим теперь какую-нибудь пару совместно--,ффектпвннх оце- оценок ао и [}(,. Дисперсии этих оценок и коэффициент корреляции между ними можно иолучип , отыскав кнадритичную форму, обратную к форме н левой части равенства C2.6.5): где 'log/с» Отсюда получаем, например, V r: »-./dloa/<J-log-/\ / „ пели с I—-^- —^?^ ) =p- 0, то дисперсия величины а~ превышает дис- дисперсию эффективной оценки для случая, когда а— единственный не- неизвестный параметр (см. C2.3.3а)). В случае двух неизвестных пара- параметров часто бывает необходимо оценить ттшь одни ил параметров, например а, и тогда возникает вопрсс, нельзя л-и найти другую пару регулярных несмещенных оценок, для которой D- (a*)<^ D" (а*), причем безразлично, сколь велико при этом D- ({!*). Однако, поскольку эллипс C2.6.5) лежит целиком внутри эллипса C2.6.4), максимальное значение абсциссы для всех точек первого эллипса равно, самое большее, соответствующему максимуму для вто- второго эллипса. Поэтому после некоторых выкладок мы получаем неравенство
из которого следует, что невозможно найти оценку для а, которая была бы „лучше", чем а*0. Отношение двумерной дисперсии (см. параграф 22.7) нары совместно- эффективных оценок aj*, [>q к соответствующей дисперсии любой пари регулярных несмещенных оценок а*, р* мы будем называть совместной эффективностью оценок а* и |j* и обозначать через е (а*, [$*). Эта величина равна квадрату отношения площадей эллипсов C2.6.5) и C2.6.4), т. е., согласно A1.12.3), Понятии асимптотинесксй эффективности и асимптотически- эффективной опенки (см, параграф 32.5) непосредственно переносятся на рассматриваемый случай двух оцениваемых параметров. Как и в параграфе 32.3, все полученные выше результаты оста- остаются верными для выборск из многомерной совокупности с плотностпо вероятности f(xx,..., xf; a,В), содержащей два неизвестных параметра. Пример 1. Если в нормальном распределении неизвестны оба пара иетра а = /и и р = г2, то имеем (см. параграф 32.3, примеры 1—2) A?logA2_ I F(d\ogfd\ogf\_ \ dm } —о2 ' \~dih д&~) - ' ( V так что в этом случае оптимальный эллипс C2.6.5) имеет уравнение (а— т)* , (у— су _4 Следовательно, этот фиксированный эллипс лежит внутри эллипса рассеянии совместного распределения любой пары регулярных несмещенных оценок для т и ег. В частности, для пары оценок a*=JF и р== ri2 соотноше- соотношение B9.3.6) представляет собой преобразование, с помощью которого выбо- выборочные переменные хь ..., хп заменяются новыми переменными х, s и ^i,...,^rt_j. Последний множитель в выражении для плотности вероятности новых величии есть условная плотность вероятности величин Z\,..., гя_4 и ие зависит от неизвестных параметров т и о (а также от ~х и а но послед- последнее не имеет значения для нашей задачи). Отсюда следует, что х и ^ суть совместно-достаточные оценки для т и аг. Далее, имеем —^— я — 1
Таким образом, эллипс рассеяния для х и —-^— s1 имеет уравнение Квзлрат отношения площадей эллипсов дает для совместной эффективности оценок значение . При я -*- оо эффективность стремится к единице, я так что х и г s2 суть асимптотически-аффективные оценки для т и сг. Это же справедливо, конечно, и для * и s2, хотящие является несмещенной. Пример 2. Рассмотрим двумерную нормальную плотность вероятности B1.12.1) с известными значениями о^ о2 и р, в то время как а = mt и^=/па — неизвестные параметры. По выборке в л пар значений (д:^^),.. .,(лгл,уя) мы образуем оценки а* = х и f* = J. Легко показать, что в этом случае эллипс рассеяния оценок J и v совпадает с фиксированным эллипсом C2.6.5), урав- уравнение которого имеет вид я Пи — т{12 '2р (ц — т{) (ч — щ) . (р — . Таким обрдзом, х и ~у суть совместно-эффективные (и a fortiori совместно- достаточные) опенки для т.\ н т?. 32.7. Случай нескольких неизвестных параметров. Результаты предыдущих параграфов можно обобщить на распределения, содержа- содержащие любое количество неизвестных параметров. Если аи..., а* — какие-нибудь регулярные несмещенные оценки для k неизвестных па- параметров av...,ak, то таким же способом, как и при k = 2, можно показать, что ^-мерный эллипсоид C2-7.1) п V лежит целиком внутри эллипсоида рассеяния (см. параграф 22.7) совмест- совместного распределения величин а^ ,... , а*. В предельном случае, когда оба эти эллипсоида совпадают, мы будем говорить, что ctj,..., a^ суть совместно-эффективные оценки для a,,..., ak. Таким образом, рас- распределение множества совместно-эффективных оценок имеет меньшее рассеяние (см. параграф 22.7), чем распределение любого множества не- неэффективных оценок. Матрица вторых моментов для множества совместно-
эффективных оценок — обратна матрице квадратичной формы в левой части равенства C2.7.1), как это было показано для случая двух па- параметров. Понятия достаточности, эффективности и т. д. вводятся так же, как и в случае k = 2. Рассмотрим, например, двумерную нормальную плотность вероятности с пятью неизвестными параметрами от,, от2, р.2О, ;in и jj.1J- По выборке в л пар значений (xv ух),..., (х„, у„) мы получаем несмещенные оценки х, у, _ тж, г"'п и — 1 т\я (см- параграф 29.6). Матрицу вторых моментов для со- совместного распределения si их пяти оценок можно получить, например, с. по- помощью выражения B9.6.3) для совместной характеристической функции оценок. Далее, коэффициенты в уравнении C2.7.1) оптимального эллипса можно найти, подставляя выражение для плотности вероятности в C2.7.1) и осуществляя- интегрирование. С помощью простых, хотя и несколько громоздких вычисле- вычислений мы убедимся, что совместная эффективность этих пяти оценок равна /п—1\з ^ I I . Эта величина стремится к единице при и-»- оо, тлк что наши оценки агимптотически-эффектнвиы. 32.8. Обобщение. В настоящей главе мы имели дело с пробле- проблемой оценки некоторых параметров по множеству значений, извлечен- извлеченных независимым образом из фиксированного распределения. Однако наши методы применимы и в более общих условиях. Рассмотрим, на- например, следующую проблему: Величины х1,...,хп имеют в Rn совместное распределение с плот- плотностью вероятности f(xv..., хп; а), где функция / задана, но содер- содержит неизвестный параметр а. Изг.естна наблюденная точка je = _—: (jCj ,..., гя), и требуется найти «наилучшую возможную» оценку а* = а* (д1г..., *„) для а по наблюденным координатам xt. В частном случае, когда совместная плотность вероятности имеет иид /(-*у, a)...f(xn; а), поставленная проблема уже решена в пара- параграфе 32.3, где х; рассматривались как независимые величины с одним и тем же распределением. Общая проблема включает также случаи, когда jc,- коррелированы или когда они образуют несколько незави- независимых выборок из различных распределений. Но и в этом общем случае мы будем называть точку je = (jrI,.... лг„) выборочной точкой, принадлежащей пространству выборок Rn. Рассмотрим такое же преобразование переменных в пространстве выборок, как в C2.3.1) и C2.3.2). Однако теперь мы должны ввести
в формулы этого преобразования общее выражение для совме- совместной плотности вероятности, так что, например, равенство C2.3.2) будет иметь вид f(xv...,xH; = g(a*;a)k(S1,...,*lt_i\a*;a)da*dtl...dla_l. Все рассуждения параграфов 32.3 — 32.5 (непрерывный случай) по- повторяются почти без изменения, и таким способом понятия несме- несмещенных, эффективных, достаточных оценок и т. д. обобщаются на рассматриваемый общий случай. Так, например, обобщенная форма неравенства C2.3.3а) для дисперсии несмещенной оценки имеет вид ПЧа*)~~-\\ Г fd'og Я*1'•••'¦*»''"Л8;/,- х a\dx dx I ица K*^...\ ^ ^ j f(x1,...,xa,a)axl...axn^ и если здесь достигается знак равенства, то мы называем а* эффек- эффективной оценкой. Если условная плотность вероятности h не зависит от а, мы называем а* достаточней оценкой, и т. д. Такое же обобщение можно, очевидно, осуществить и для дискрет- дискретных распределений, а также для распределений, содержащих несколько неизвестных параметров. г л а в а зз МЕТОДЫ НАХОЖДЕНИЯ ОЦЕНОК 33.1. Метод моментов. Теперь мы перейдем к рассмотрению неко- некоторых общих методов нахождения оценок для параметров распреде- распределения по выборочным значениям. Самым первым общим методом, предложенным для этой цели, яв- является метод моментов, введенный К. Пирсоном ([180], [182], [184] и другие работы) и интенсивно используемый им и его школой. Этот метод заключается в приравнивании определенного количества выбо- выборочных моментов к соответствующим моментам распределения, являю- являющимся функциями от неизвестных параметров. Рассматривая коли- количество моментов, равное числу подлежащих оценке параметров, и решая полученные уравнения относительно этих параметров, мы по- получаем искомые оценки. На практике этот метод часто приводит к срав- сравнительно простым вычислениям.
Оценки, получаемые таким способом с помощью множества выбо- выборочных значений, суть функции от выборочных моментов, и некоторые свойства выборочных распределений этих оценок можно получить из результатов глав 27—28. Так, например, мы видели (см., в частности, параграфы 27.7 и 28.4), что при довольно общих условиях распре- распределение оценки такого рода при больших л асимптотически нормально и что среднее значение такой оценки отличается от истинного значе- значения параметра на величину порядка «-', а стандартное отклонение асимптотически имеет вид 77^ • Смещение такой оценки часто удается исключить с помощью простых поправок, и при этом получается несмещенная оценка для параметра (см. параграф 27.6). Таким образом, при некоторых общих условиях метод моментов позволяет найти опенки, для которых существует асимптотическая эффек- эффективность, определенная в параграфе 32.5 (или соответствующая величина в случае нескольких параметров). Однако Р. Фишер [89] указал, что получаемая в методе моментов асимптотическая эффективность часто значительно меньше единицы, так что оценки, найденные с помощью метода моментов, с точки зрения эффективности не являются .наилуч- .наилучшими" из возможных, т. е. в больших выборках они имеют не наи- наименьшую возможную дисперсию. Тем не менее, метод моментов часто очень удобен для практических целей. Иногда оценки, получаемые с помощью метода моментов, можно принять в качестве первого при- приближения, по которому можно определять другими методами дальнейшие оценки более высокой эффективности. В частном случае нормального распредглання метод моментов дает для неиз- неизвестных параметров т и а? оценки х и s*. Исключая смещение, мы получаем не- несмещенные и асимптотически эффективные (см. параграф 32.6, пример 1) оценки ~х и п ^s\ Фишер [89] показал, что в этом отношении нормальное распре- распределение является исключением среди распределений системы Пирсона (см. па- параграф 19.4), так как в других распределениях этой системы асимптотиче- асимптотический эффективность, как правило, получается меньше 1. Некоторые примеры мы приведем в параграфе 33.3. 33.2. Метод максимума правдоподобия. Наиболее важным с тео- теоретической точки зрения общим методом нахождения оценок является метод максимума правдоподобия. В частных случаях этот метод при- применялся еще Гауссом [16], но как общий метод для нахождения оценок он впервые был предложен Р. Фишером в краткой статье [87]
в 1912 г. и получил свое дальнейшее развитие в ряде его рабсн ([89], [96], [ЮЗ], [104] и т. д.). Важные результаты были получены и другими авторами; в этом отношении мы особенно рекомендуем чи- читателю работу Дюге [76]. Используя обозначения параграфа 32.3, определим функцию прав- правдоподобия L для выборки в п значений из совокупности непрерывного типа соотношением C3.2.1а) L(xv...,xn; a) =/(*,; a)...f(xn; а); в дискретном случае положим C3.2.lb) L (хи ..., хп; а) = />,-, (а)... ри (а). Если выборочные значения фиксированы, то функция правдоподобия L является функцией от единственного переменного аргумента а. Метол максимума правдоподобия заключается в том, что в качестве оценки дли неизвестного параметра совокупности а принимается такое значение а, при котором L достигает наибольшего возможного значения. По- Поскольку log L достигает максимума при том же. значении а, что и L, следует решать относительно а уравнение правдоподобия C3.2.2) ^й^ = 0. При этом следует отбросить все корни вида а^^const к считать ре- решением лишь тот корень, который действительно зависит от выбороч- выборочных значений хх,. .., хп. Каждое решение уравнения правдоподобия будем называть оценкой максимального правдоподобия для а. В этом параграфе мы рассмотрим некоторые свойства метода мак- максимума правдоподобия для выборок фиксированного объема я; в следу- следующем параграфе будет исследовано асимптотическое поведение оценок максимального правдоподобия при больших значениях п. Важность ме- метода выясняется следующими двумя предложениями: Если для параметра а существует эффективная оценка Л*, пю уравнение правдоподобия имеет единственное решение а*. Если для параметра я существует достаточная оценка а*, то каждое решение уравнения правдоподобия является функцией от а* ¦ Эти утверждения достаточно доказать для непрерывного случаи; доказательство для дискретного случая получится с помощью оче- идных видоизменений. Если существует эффективная оценка а*.
то условия А) и В), установленные в связи с формулой C2.3.3а), выполнены, и мы получаем по формуле C2.3.5) у) _d\ogg ., » . где k не зависит от выборочных значений, но может зависеть от а. В соответствии с тем, что мы условились понимать под решением урав- уравнения правдоподобия C2.2.2), это уравнение имеет единственное ре- решение а = а*. Далее, если существует достаточная оценка о*, то удовлетворяется условие А) параграфа 32.3, и, в силу формулы C2.3.5), уравнение правдоподобия принимает вид *. a) 01 di Функция g зависит лишь от двух аргументов я* и- я, так что каждое решение будет функцией от а*. Приведенные пыше определения и теоремы можно непосредственно обобщить на случай нескольких неизвестных параметров и на случай выборок из многомерных распределений. Так, например, для непрерыв- непрерывного распределения с двумя неизвестными параметрами а и J5 функцией правдоподобия является L (,v,,... , хп; a, jj) —Ц/С*,-; a, ,fj), и оценки мак- максимального правдоподобия для аир получаются при совместном реше- решении уравнений —28-^-^=0, —^— = 0 относительно а и р. Если су- существует пара совместно-эффективных оценок а* и fj-, то уравнении правдоподобия имеют единственное решение а = а*\ j$ = js*. Метод максимума правдоподобия можно применять даже при общих условиях, рассмотренных в параграфе 32.8. В этом случае метод за- заключается к том, что в качестве оценки берется то значение а, при котором совместная плотность вероятности f(X-, ... ,хп;а) принимает максимальное возможное значение при фиксированных хг В следующем параграфе мы приведем некоторые примеры. 33.3. Асимптотические свойства оценок максимального правдо- правдоподобия. Теперь мы исследуем асимптотическое поведение оценок мак- максимального правдоподобия при больших значениях п. Сначала рассмот- рассмотрим случай единственного неизвестного параметра а.
Мы покажем, что при некоторых общих условиях уравнение правдоподобия C3.2.2) имеет решение, сходящееся по вероятности при п —>- <х> к истинному значению параметра а. Это решение яв- является асимптотически-нормальной и асимптотически-эффективной оценкой для а. Как и выше, достаточно привести доказательство для случая непре- непрерывного распределения с плотностью вероятности f(X; а). Воспользуемся методом доказательства, предложенным Дюге [76]. Предположим, что выполнены следующие условии: 1) При каждом а, принадлежащем некоторому невырожденному ин- интервалу А, для почти всех х существуют производные °^ ¦¦, °^' 2) При каждом а из А имеем з? <С ^i (¦*)• \^г (х), где функции F, и F2 интегрируемы на (—оо, сю) и \ H(x)f(x,a)dx<^M, причем М не зависит от а. — оо оо 3) При каждом а из А интеграл \ ( ? ) fdx конечен и поло- —"оо \ " ' жителен. Обозначим через а0 неизвестное истинное значение параметра а в распределении, из которого производится выбор, и предположим, что а0 есть внутренняя точка интервала А. Покажем сначала, что урав- уравнение правдоподобия имеет решение, сходящееся по вероятности к а0. Указывая индексом 0, что следует положить а = 20, для каждого а и:) А получаем где 1 . Таким образом, после умножения на — уравнение прав- правдоподобия C3.2.2) можно записать в виде C3.3.1) !-*^ = Д, + В1(а-оо)-|-1
где, записывая /, вместо f(xit ct), имеем Величины Вч суть функции от случайных величин xv...,xn, и остается показать, что с вероятностью, стремящейся к 1 нрил—»оо, уравнение C3.3.1) имеет корень, заключенный в пределах aort8, где 5 — сколь угодно малое положительное число. Рассмотрим поведение еличпн Sv при больших значениях я. Из условий 1) и 2) следует (см. C2.3.4)), что для каждого а из /1 — 00 и поэтому ffriog/Л = Г \}Ж-A.д1 \ <?я2 У о J I / да2 V / да где, согласно условию 3), k~^>0. Таким образом, в сн/iy формулы C3.3.2), величина Во есть среднее арифметическое я независимых слу- случайных величин, имеющих одно и то же распределение с нулевым сред- средним значением. Из теоремы Химчина (см. параграф 20.5) следует, что б0 сходится по вероятности к нулю. Таким же образом убеждаемся, что В-у сходится по вероятности к —А8, а Вг сходится по вероятности к неотрицательному значению ЕИ(х)<^М. Пусть теперь Ь и е — фиксированные произвольно малые положи- положительные числа, а Р (S) — совместная вероятностная, функция для слу- случайных величин JCj, ... ,хп. При достаточно больших я, скажем, для
всех я ^> я0 = п0 (8, е), имеем Пусть 5—множество всех точек ле—(л-,, ...,л:л), для которых удо- удовлетворяются все три неравенства Дополнительное множество S* состоит из всех точек х, для которых не выполняется хотя бы одно из этих трех неравенств, так что* со- согласно F.2.2), P(S*XPi + P2 + Ps<e-n поэтому P(S)>1 — е< Таким образом, вероятность попадания точки jc в множество 5, совпадающая с Р-мерой множества 5, превышает 1 —е, еслил^Яф^.е). При а = ао + & правая часть равенства C3.3.1) принимает значе- значение Во +; В\Ь -\- -j 0 Вг ?2. В каждой точке х, принадлежащей 5, сумма первого и третьего слагаемых в этом выражении по абсолютной вели 1 2 чине меньше, чем (A/-j-lM8, a BjjS<^—„ k4. Еслид<^ ¦ . . , то знак всего выражения при а = ай 4^ 3 определяется вторым слагаемым, так что dl°lL >0 при а = ай — Ъ п -^^-<0 приа = ао+$. Далее, но условию 1), функция -~— для почти всех х = (х1, ... , хп) есть непрерывная функция от а из А. Таким образом, при произвольно малых 5 и ? уравнение правдоподобия имеет, с вероятностью, превы- превышающей 1—г, корень, заключенный в пределах ао + ^' если только «^>лоE, s). Следовательно, первая часть доказательства закончена. Пусть, далее, а* = а*(лг,, ... ,хп) есть решение уравнения правдо- правдоподобия, существование которого уже установлено. Из C3.3.1) и C3.3.2) получаем 1 у / О log fj \ (ЯЗ.3.4) кУ* ) '
Из вышесказанного следует, что знаменатель дроби в правой части этого равенства сходится по вероятности к 1. Далее, согласно фор- формуле C3.3.3), (—^ ) есть случайная величина со средним значением О и стандартным отклонением k. В силу теоремы Линдеберга — Леей (см. я параграф 17.4), сумма ^ ( д 1 асимптотически нормал! на @, и, следовательно, числитель дроби в правой части равенства C3.3.4) асимптотически нормален. @,1). Наконец, из теоремы сходимости параграфа 20.6 следует, что kVn {а* — а0) — величина асимптотически нормальная@,1), так что я* асимптотически нормальна (а0, —?=-) , где -^ ==** = ? ( ?gM . По \ Уп I е \ "а /о формуле C2.5.1) асимптотическая эффективность оценки а* равняется 1 так что наша георема доказана. Соответствующая теорема для дис- дискретного распределения доказывается аналогичным образом. В случае нескольких неизвестных параметров следует ввести усло- условия, служащие непосредственным обобщением условий 1) — 3). Тогда можно доказать, таким же способом, как и выше, используя много- многомерную форму теоремы Линдеберга—Леви (см. параграфы 21.11 и 24.7), что уравнения правдоподобия имеют систему решений, являющихся асимптотически нормальными и совместно асимптотически эффектив- эффективными оценками для параметров. Пример 1. Логарифм -функции правдоподобия для выборки в л значе- значений из нормального распределения с неизвестными параметрами т н а- имеет вид log L = — ^г, ? (xt - mf - -| п log гз — - л log 2s, и метол максимума правдоподобия приводит к уравнениям Отсюда ичлучаем следующие оценки максимального правдоподобия:
эти оценки совпадают с оценками, получаемыми с помощью метода моментов. Мы уже видели (см. параграфы 28.4 и 32.6, пример 1), что эти оценки асимптотически нормальны и асимптотически эффективны. Пример 2. Рассмотрим распределение типа 111 (см. параграф 19.4) f (х; X) = -~ х\-Ч-х, (х > О, X > 0) с неизвестным параметром X. К каждому конечному интервалу а <X < Ь (в > 0) можно применить пгравенство C2.3.3а), и при этом обнаружится, что нижний предел дисперсии регулярной несмещенной оценки для X по выборке в л значений имеет вил (см. параграф 12.3) 1 1 1 .в Чтобы оценить параметр \ с помощью метода моментов, приравниваем сред- среднее значение выборки х первому моменту величины X в распределении и по- получаем Х* = Дс. При этом /?(Х*) = Х и Ds(\*)=z—. Отсюда, о силу формул C2.3.7) и A2.5.4), следует, что эффективность оценки X* не зависит от я и представляется выражением Это выражение всегда меньше 1 и стремится к нулю при X -»¦ 0. С другой стороны, метод максимума правдоподобия приводит к уравнению j,*jogL=ly , dlognX) п дк п *¦+ 6 ' «X и оценкой максимального правдоподобия является единственный положитель- положительный корень этого уравнения X —X**. Согласно доказанной выше общей тео- теореме, X** асимптотически нормальна X, (п -°-j J * I, и асимптотиче- асимптотическая эффективность оценки X** равна 1. Это нетрудно обнаружить и нелосред- d log Г(Х) ствеино, так как величина logjc имеет среднее значение —=-т—- и дисперсию .г , так что, по теэреме Линдеберга—Леви (см. параграф 17.4), величина vi [rflogPU) /I </*logr(X)VM a log xt асимптотически нормальна —*_—'f r_ «^_s. l\ . Пример 3. В распределении типа Ш / (дс; а) = щ- лгХ-1<г-«*( (х > 0, а > 0),
будем считать X заданной положительной постоянной, а «— неизвестным параметром. Тогда будем иметь В этом случае и метод момеитов н метод максимума правдоподобия приводят к одной и той же оценке — для п. Исключая смешение, получим несмещен- несмещенную оценку а*= т=— , которая имеет плотность вероятности что можно без труда вывести, например, с помощью характеристической функции A2.3.4). Предполагая, чтолХ>2, мы получим Я(а*) = а, 02(п*)™ «»_ ~nl-2 " Таким образом, в этом случае л ? (— Щ- ] = Е (—~-^] , так что в C2.3.6) \ оа J \ оо. ) достигается знак равенства, и, следовательно, условие А) теоремы C2.3.3) вы- выполняется. Отсюда следует, что а* является достаточной оценкой для а, что можно проверить также и непосредственно. с помощью формулы C2.4.1). С другой стороны, условие В) не. выполняется, так как &-= не может быть представлено в виде k (а* — а). Эффективностью оценки а* является , л, 1 лХ — 2 ., ??(в*)г= = < 1, так что а* не является эффективной ни при кйком конечном п (см. пара1раф 32.3). Заставляя и стремиться к бесконечности, видим,что т? является асимп- тотическп-эффектнвноИ оценкой. 33.4. Метод минимума */г. Рассмотренной, в параграфе 30.3 метод минимума у" применим лишь и случае группированного непрерывного рас- распределения или дискретного распределения. Оценки, получаемые этим методом, при больших п асимптотически эквивалентны оценкам, полу- полученным с помощью более простого видоизмененного метода миниму- минимума I2, выражаемого уравнениями C0.3.3) или C0.3.3а), и в параграфе йО.З уже было отмечено, что в рассматриваемых случаях последний метод совладает с методом максимума правдоподобия.
Основная теорема о предельном распределении Xs для случая, когда некоторые параметры оцениваются по выборке, была доказана в параграфе 30.3 в предположении, что оценки находятся с помощью видоизмененного метода минимума ^. Однако там же было указано, что имеется целый класс методов нахождения оценок, приводящих к тому же самому пре- предельному распределению для jB. Теперь мы докажем это утверждение. Асимптотические выражения для оценок, получаемых с помощью видоизмененного метода минимума X2. были приведены в явной форме C0.3.17) для общего случая s неизвестных параметров av ...,аг. Предположим, что выполнены условия 1)—3) предыдущего параграфа или аналогичные условия для дискретного распределения. Тогда из предыдущего параграфа следует, что оценки C0.3.17) асимптотически нормальны (это уже было показано в параграфе 30.3) и асимптотически эффективны. Во всех множествах асимптотически нормальных и асимптотически эффективных оценок для параметров имеются члены порядка п~\ та- такие же, как и в C0.3.17). Однако из вывода предельного распреде- распределения для у2 следует, что это предельное распределение полностью определяется членами порядка п~Ч' в C0.3.17). Действительно, по фор- т мулам C0.3.1) и C0.3.4) получаем jB= ? у?, и C0.3.18) показывает, что предельное распределение для .у = (у,, .... у„) определяется именно указанными членами. Таким образом, теорема параграфа 30.3 о предельном распреде- распределении величины хг справедлива для любого множества асимптоти- асимптотически нормальных и асимптотически-эффективных оценок пара- параметров. ГЛАВА 34 ДОВЕРИТЕЛЬНЫЕ ОБЛАСТИ 34. 1. Вводные замечания. Предположим, что множество выбо- выборочных значений используется для получения оценок некоторого коли- количества неизвестных параметрсв в распределении известного математи- математического вида, причем известны выборочные распределения оценок, так что можно вычислять соответствующие средние значения, диспер- дисперсии и т. д.
Можем ли мы в такой обстановке высказать какие-либо вероятностные утверждения относительно истинных значений параметров? Возможно ли, например, указать для какого-нибудь параметра два предела и утверждать, что с некоторой определенной вероятностью истинное значение параметра должно лежать между этими пределами? В ранней литературе по этому предмету вероятностные утверждения такого типа вводились с помощью известной теоремы Байеса; одной из типичных задач, решаемых таким способом, была классическая про- проблема обращения вероятности (см. параграф 34.2, пример 2). Однако эти приложения теоремы Байеса часто подвергались резкой критике, и появилось стремление избегать рассуждений такого рода и пересмотреть вопрос с совершенно иных точек зрения. Сделанные в этом направлении попытки можно разбить на две группы, одна из которых связана с теорией доверительных вероятностей, предложенной Р. Фишером (см., например, [14], [100], [102], [105]—[109]), а другая — с теорией доверительных интервалов, построенной Нейманом (см., например, [30], [161], [163], [165]—[167]). Мы ограничимся здесь в основном кратким изложением теории Неймана. В следующем параграфе будет рассмотрен случай единственного неизвестного параметра, для которого мы проведем сравнение старого метода исследования с помощью теоремы Байеса и современной теории. В параграфе 34.3 мы перейдем к более общим случаям, и, наконец, в параграфе 34.4 будут рассмотрены некоторые прнмгры. 34.2. Единственный неизвестный параметр. Рассмотрим выборку в п значений xv . .., хп из распределения, содержащего лишь один не- неизвестный параметр а. Предположим сначала, что это распределение—не- распределение—непрерывного типа, имеющее плотность вероятности f{x;a). Предположим лля простоты, что f(x; а) определена для всех значений параметра а. Пусть a* = a*(xv ,..,хп) —оценка для а и g(a*;a) — плотность вероятности этой оценки. Вычислив значение а* по фактической выборке, мы задаем вопрос: можно ли высказать какое-либо разумное вероятностное утверждение относительно неизвестного значения параметра а в распределении, из которого извлечена выборка? Этот вопрос будет рассмотрен с двух совершенно различных точек зрения. 1. Классический метод. В некоторых случаях законно пред- предполагать, что фактическое значение параметра а в совокупности, ил
которой извлекается выборка, определяется случайным эксперамешпом. Случаи такого рода встречаются, например, в статистике массового производства, где а обозначает некоторую неизвестную характеристику большой партии произведенных товаров, которую требуется оценить по небольшой выборке. Отдельная партия товаров рассматривается как индивидуум, извлеченный из совокупности аналогичных партий товаров, и значения параметра а испытывают случайные колебания, вызываемые изменениями производственного процесса и качества сырья. Извлечение одного индивидуума из этой совокупности партий товаров является случайным экспериментом, который и определяет фактическое значение параметра а. Аналогичные случаи встречаются, например, в некоторых вопросах генетики. В таких случаях параметр а сам является случайной величиной, имеющей некоторое априорное распределение. Предположим, что это распределение характеризуется известной плотностью вероятности 5>(а). Функция п> (а) является частной плотностью вероятности для а в совместном распределении величин а и а*, a g(a*; а) является условной плотностью вероятности для а* при заданном значении а. Обратно» условной плотностью вероятности для а при заданном значении я* будет, согласно формуле B1.4.10), Это соотношение выражает теорему Байеса для нашего конкретного случая. Поэтому величина C4.2.1) P(k1<a<k2\a*)= J h(a\a*)<ta = J представляет собой условную вероятность события Aj<^a<^A2 при заданном значении а*. Эта вероятность обычно называется апостери- апостериорной вероятностью события ftj<^a<[*2, в отличие от априорной к вероятности этого события, равной \S>(a)da. *, В силу параграфов 14.3 и 21.4, апостериорная вероятность C4.2.1) допускает частотную интерпретацию, которая заключается
в следующем. Рассмотрим последовательность большого количества независимых испытаний, каждое из которых заключается в извлечении партии товаров из совокупности всех партий и, затем, в извлечении выборки в/{значений из выбранной партии (мы используем терминологию, связанную с рассмотренным выше примером, но наши рассуждения имеют, очевидно, общий характер). По выборке вычисляем оценку а* и, далее, предполагаем, что можно исследовать все товары в полной партии, так что соответствующее значение а может быть определено непосредственно. Таким образом, результатом каждого испытания будет пара наблюденных значений величин а и а*. Из последовательности всех испытаний выберем подпоследовательность, образованную из тех случаев, в которых наблюденное значение а* принадлежит к некоторой малой окрестности заранее заданного значения oj. Частота события Л]<С«<С^г в эт°й подпоследовательности будет, с точностью, опреде- определяемой случайными колебаниями, дана значением апостериорной вероят- вероятности C4.2.1) при o* = aj. Вышеизложенное является премий частотной интерпретацией апостериор- апостериорной вероятности. С помощью' небольшого видоизменения этих рассуждений можно получить результат, имеющий большее формальное сходство с приве- приведенной ниже теорией доверительных интервалов. Пусть задано число е, такое, что 0<е< 1. Для каждого заданного а* можно определить в C4.2.1) такие пределы Aj = к^ (г", е) и fc2 — k2 (а*, е), что вероятность P(kx < a < As | а*) будет иметь значение 1 — г. (Читатель может обратиться для наглядности к фиг. 33 на стр. 555, в которой вместо ct и с% следует взять kx и /гг). Рассмотрим снова вышеописанную последовательность всех испытаний и вычислим пределы *! г-_- 1ц (а*, е) и А, — *а (г*, %) по выборке, полученной в каждом испытании. Интервал (Л1( А2) будет зависеть от а*, так что, вообще говоря, последовательные испытания будут давать различные интервалы. Будем считать в каждом испытании осуществление события ?1<а<А2 .успехом" и осуществление обратного события—.неудачей". Тогда вероятность успеха постоянно равна 1 — ? и, соответственно (см. параграф 16.G), частота успехов в длинном ряду испытаний будет, с точностью, определяемой случайными колебаниями, рав- равняться 1 — г. Практические выводи из этого результата, в случаях, когда применение изложенного метода законно, будут аналогичны выводам, изла- излагающимся ниже. 2. Метод доверительных интервалов. В случае, когда имеются определенные основания считать а случайной величиной с известным распределением вероятностей, применение предыдущего метода совершенно законно и приводит к точным вероятностным утверждениям о значении а, соответствующем заданной выборке. Однако в большинстве-
встречающихся на практике случаев эти условия не выполняются. Как правило, а является просто неизвестной постоянной, и нет никаких оснований полагать, что истинное значение этой постоянной определяется какой-либо последовательностью действий, схожей со случайным экспе- экспериментом. Часто даже имеются указания противоположного характера, как, например, в случаях, когда значения а для различных совокупностей испытывают систематическое изменение во времени или в пространстве. Более того, даже если законно считать а случайной величиной, обычно не имеется достаточных сведений об априорном распределении этой величины. Таким образом, весьма желательно найти подход к нашей проблеме без каких бы то ни было гипотез о случайной или неслучайной природе параметра а. Авторы, упомянутые в предыдущем параграфе, разработали некоторые методы в этом направлении, и мы теперь постараемся показать, как можно решить поставленную проблему с помощью метода доверительных интервалов, предложенного Нейманом (см. также Уилкс [42J, [234]). В настоящем параграфе мы изложим этот метод при некоторых упрощающих предположениях; более общие случаи будут рассмотрены в следующем параграфе. Теперь будем считать а переменной величиной в смысле обычного анализа, т. е. значение этой величины в совокупности, из которой извлечена наша выборка, предполагается постоянным, хотя и неизвестным. Полученные результаты будут справедливы независимо от того, определяется ли значение а случайным экспериментом или нет, так что излагаемый метод фактически является более общим, чем преды- предыдущий. Как и раньше, рассмотрим выборку в а значений из распределения с плотностью вероятности f(x; а) и обозначим через g(a*;a) плотность вероятности оценки а* = а*(х1, ,.., хп). Обозначим, далее, через Р {S; а) совместную вероятностную функцию выборочных величин дгр ...,*„ и зададим число е, такое, что 0<?<1. При каждом фиксированном а плотность вероятности g(a*',a) задает распределение вероятностей величины а*, которое можно интерпре- интерпретировать как распределение единичной массы по вертикальной прямой в плоскости (а, а*), проходящей через точку (а, 0) (см. фиг. 33). Предположим теперь, что для каждого значения а определены два числа у, = у1(а, е) и уг = Уг(а'е)> такие, что количество массы, попа- попадающей на интервал Y i "<С в* <С Ys соответствующей вертикали, т.е.
вероятность события Yi <Ca* <C Уг ПРИ значении оцениваемого параметра, равном а, равно C4.2.2) Р (y, < а* < y,) = j g (а*; а) da* = 1 -1. Ti Очевидно, такие числа Yi и Ys всегда можно отыскать, и притом бесконечным количеством способов, так как эти числа можно определить из соотношений Ti оо \ g da* = s, и -оо Тш Фиг. 33. Доверительные интервалы для единственного неизвестного параметра где 8j и ег — любые положительные числа, сумма которых равна е. Если извлекается выборка в л значений из распределения, соот- соответствующего какому-либо значению а, то событие Yi <C a* <C Ys всегда имеет вероятность 1 — е. Числа Yi и Ys зависят от а, и если о меняется, то точки (а, Чу) и (a, Y2) описывают в плоскости (а, а*) две кривых, как показано на фиг. 33. Предположим, что каждая из этих кривых пересекается с прямой, параллельной оси а, лишь в одной точке. Обозначим точки пересечения этих кривых с горизонтальной прямой, проходящей через точку @, а*), буквами с, = ct (а*, е) и с2=с2(а\ е), и пусть D(s) обозначает область, заключенную между нашими двумя
кривыми. Рассмотрим три соотношения (a,e*)cD C4.2.3) Yi («.«)<«•<Т. При любом фиксированном значении а каждое из этих соотношений удовлетворяется на некотором множестве точек х={х1,.. ,,хп) в пространстве выборок. Однако все три соотношения совершенно экви- эквивалентны, так как они выражают один и тот же факт, что точка (а, о*) принадлежит области D (б). Таким образом, три соответствующих множества точек в пространстве выборок совпадают, и, следовательно, при любом значении а из C4.2.2) получаем C4.2.4) Р(с, <а<с2; а) = 1-е. Оба соотношения C4.2.2) и C4.2.4) дают значение функции мно- множества P(S;a) для некоторого множества 5 в пространстве выборок, определяемого двумя различными, но эквивалентными способами, именно, двумя последними соотношениями C4.2.3). Первое из этих соотно- соотношений означает, что случайная величина а* принимает значение, заключенное между постоянными пределами у, и уг. С другой стороны, последнее соотношение C4.2.3) означает, что случайная величина с, (а*, е) имеет значение меньше а, а случайная величина сг(я*,а) имеет значение больше а, или, другими словами, что переменный интервал (cv с2) покрывает фиксированную точку а. В соответствии с C4.2.4), вероятность этого события равна 1—г, каково бы ни было значение а. Рассмотрим теперь последовательность независимых испытаний, каж- каждое из которых заключается в извлечении выборки в и значений из совокупности с плотностью вероятности /(а5 я), причем значения а, соответствующие последовательным испытаниям, могут сохраняться постоянными или меняться совершенно произвольным образом, случайно или неслучайно. По каждому множеству выборочных значений вычисляем величины с1 = с1(а*, е) и с2 = с2(а*, е), используя заранее заданное значение е. Вообще говоря, в различных испытаниях сг и с3 будут иметь различные значения. Каждое испытание будем считать „успехом", если интервал (с,, с„) покрывает соответствующую точку а, и „неудачей" в обратном случае. В силу формулы C4.2.4), вероятность успеха постоянно равна 1 — е, и, следовательно (см. параграф 16.6), частота
успехов в длинной последовательности испытаний будет, с точно- точностью, определяемой случайными колебаниями, равняться 1 — е. Предположим теперь, что мы постоянно придерживаемся следующего порядка действий. Прежде всего, выбираем раз и навсегда некоторое малое число е, скажем, е = г^т. Всякий раз, когда выборка уже извлечена и вычислены соответствующие пределы с1 и с2, будем утверждать, что неизвестное значение а в соответствующей сово- совокупности заключено между ct и с2. В соответствии с изложенным выше, вероятность того, что это утверждение неверно, всегда равняется s = щ . Таким образом, в длинном ряду испытаний наше утверждение будет неверным лишь приблизительно в рп\й случаев, а в остальных случаях будет правильным. Интервал (citc^\ будем называть доверительным интервалом для параметра а, соответствующим коэффициенту доверия 1 —• s или доверительному уровню ? = тля . Числа с, и с2 являются соответ- соответствующими доверительными пределами. Сравнивая этот способ исследования со способом, основанным на теореме Байеса, мы видим, что метод доверительных интервалов не требует никаких гипотез о случайной или неслучайной природе вели- величины а. С другой стороны, из самой общности метода доверительных интервалов вытекает, что этот метод не приводит к вероятностным утверждениям такого типа: „Вероятность того, что а заключено между такими-то фиксированными пределами, равняется 1 —8". Действительно, такое утверждение не имеет смысла, если а не является случайной величиной. Утверждения, которые следуют из метода доверительных интервалов, являются утверждениями типа соотношения C4.2.4), или, в словесной форме, такого типа: „Вероятность того, что такие-то пределы (которые могут меняться от выборки к выборке) заключают между собой значение параметра а, соответствующее фактической выборке, равняется 1—г". Как указано выше, из этого утверждения можно вывести правило действий, связанное с постоянным риском ошибки, равным s, где S может быть любым фиксированным числом. Следует заметить, что заданному б соответствует не единственная система доверительных интервалов. Так же, как мы могли брать различные оценки для одного и того же параметра а, мы можем рассматривать различные системы доверительных интервалов, прнво-
дящие к различным правилам действий, связанным с одним и тем же риском ошибки. Это — ни в кое?* мере не .противоречие. Как мы видели выше, доверительные интервалы, получаемые с помощью данного правила, мо,>т .меняться от выборки к выборке, и естественно, что для данной выборки разные правила могут привести к различным интервалам (см. ниже, пример 1). Очевидно, в наших интересах выработать такие правила, которые при данных условиях приводили бы к возможно более коротким интервалам. Предположим, например, что мы имеем дело с несмещенными и приблизительно нормально распределенными оценками а*. Полосу D (е) в фиг. 33 можно сделать возможно более узкой, выбирая для а* оценку с минимальной дисперсией. Таким образом, классы эффективных и асимптотически эффективных оценок, изученные в главе 32, при весьма общих условиях приводят к кратчайшим или асимптотически кратчайшим доверительным интервалам. Мы не имеем возможности входить здесь в дальнейшее рассмотрение этого вопроса и отсылаем читателя к статьям Неймана [165] и Уилкса [233]. В заключение заметим, что приведенные выше определения и выводы применимы даже в случае дискретного распределения, содержащего- единственный неизвестный параметр. Однако в этом случае необходимо сделать одно важное изменение. Если распределение на вертикали, проходящей через точку (а, 0) на фиг. 33, имеет точки сосредоточения массы, то пределы Yi и Ys не всегда можно определить так, чтобы P(Yi< a*<Y2;fl0==1—е> как эт0 требуется формулой C4.2.2). Мы должны будем удовлетвориться выбором таких Yi и Ys» чтобы Я (у, •<«*¦< Yal a)S» 1 — е, что, очевидно, всегда возможно. Тогда полоса D(e) и доверительный интервал (cv c2) определятся так же, как и в непрерывном случае. В этом случае риск ошибки при утверждении, что а принадлежит (cJt c2), не точно равняется е, я не превосходит е. За этим исключением, все рассуждения в дискретном случае совершенно аналогичны рассуждениям, приведенным выше. Пример 1. Пусть требуется оценить среднее значение т нормальной совокупности с известным стандартным отклонением о. Заменяя на фиг. 38 г и а* на /л и /и*, рассмотрим сначала эффективную оценку /n* = Jc = 2J— • шторая нормальна [т, гт=) . Дтя доверительного уровня * —укт» пределы 'Л и y* на фиг. 33 можно положить равными т±-?~ , где \р — р-процентное
значение нормального отклонения. Тогда границами области D (t) будут прямые линии х =т±-у—- Соотношения У п очевидно, эквивалентны, так что пределы сг и сг равны л ± -^-= . Таким образом, правило, заключающееся в утверждении, что как только выборка фактически получена, неизвестное среднее значение т заключено между пределами х + -z,— > дает постоянный риск ошибки, равный р °/о- Действительно, указанный доверительный интервал уже был рассмотрен в параграфе 31.3 (пример .2), н мы видели, что если пользоваться р-процентным уровнем значимости, то гипотеза о равенстве среднего значе- значения распределения заранее заданному числу с должна считаться совместимой с наличными данными, когда с заключено между доверительными пределами х + zr— , а в противном случае должна быть отвергнута. С другой стороны, предположим, что рассматривается неэффективная оценка т* = г, где г — медиана выборки. Согласно параграфу 28.5, г асимптотически нормальна 1т, тт^) • гДе *= 1/ — = 1,2533. Предположим, для простоты V f ft ' r 2 вывода, что ошибкой аппроксимации можно пренебречь, так что распреде- распределение 2 в точности нормально. Каждое из эквивалентных соотношений У У п У п имеет вероятность />%, и, следовательно, в этом случае мы получаем /«-про- /«-процентные доверительные пределы г ±. —/1. Таким образом, мы по данной У п выборке получили различные доверительные интервалы для т, соответственно правилам, основанным на х или на г. Тем не менее, риск ошибки в обоих случаях одинаковый, если используется одно и то же значение е. Очевидно, первое правило всегда дает более короткий интервал, чем второе. Пример 2. Предположим, что осуществлено л повторений случайного эксперимента, причем событие F, произошло v раз. Требуется оценить неизвестную вероятность р события F. Эта классическая проблема обращения вероятности в большинстве учебников решается с помощью теоремы Байеса. Применим здесь к этой проблеме теорию доверительных интервалов и рас- у смотрим эффективную оценку (см. параграф 32.3, пример 5) />*== —, которая
асимптотически нормальна (/;, 1/ — J, где q=\—p. Полагая пределы 7i и Y2 равными р ±. \ А/ ^ и считая, как и в предыдущем примере, что распределение в точности нормально, вместо фиг. 33 получим фиг. 34. Область D (г) ограничена здесь кривыми р'* =р ± X у ^ , образующими две половины эллипса; ). есть lOOs-процентное значение нормального откло- Ф.1Г. 34. Доверительные интервалы для неиз- неизвестной вероятности, л = 100, «— 0,05 нения. Тот факт, что точка (р, />*) расположена внутри эллипса, можно выразить иначе, сказав, что р" лежит в пределах р ±).\/ ^3, ил я г п эквивалентным утверждением, что р лежиг в пределах C4.2.5) Последние пределы определяют ЮОг-процентный доверительный интервал для р. Конечно, этот результат — приближенный, так как в действительности р* имеет дискретное распределение, лишь приближенно нормальное. Е. Пирсон и Клоппер [195] построили графики, основанные на точном распределении и
позволяющие определять доверительные интервалы 5- и 1-процеитного уровней. Пирсон и Клоппер указывают, что их графики можно использовать, напри- например, для определения значения л, которое необходимо взять, чтобы достичь желаемой степени точности в оценке вероятности р. Предположим, например, что р примерно равно 50%, и что требуется получить доверительный иитер- ва.1, по длине ие превышающий Ь. С помощью приближенного решения C4.2.5) получим, полагая р* = -^ , —, s? i или n^zP . Yn -4- ).2 ° Взяв, например, 3 = г = 0,01, мы получим я > 66340. Пример 3. Предположим, что задана совокупность из N индивидуумов {Л^—конечное число), Np из которых обладают некоторым признаком А, а остальные Nq = N—Np этим признаком не обладают. Требуется оценить неизвестную пропорцию р методом репрезентативной выборки (см. пара- параграф 25.7). Извлечем бесповторно случайную выборку в я индивидуумов и отметим в этой выборке число v индивидуумов, обладающих признаком А. В общепринятых учебниках по теории вероятностей (см., например, Кра- Крамер [10], стр. 38) показывается, что E -) = n) " \nj N—i n Далее, величина р* = — распределена приблизительно нормально, если п и /V — л велики. Принимая р* за оценку для р, мы, как и выше, предположим что ошибкой, вызванной допущением о нормальности распределения, мож- можно пренебречь. Тогда вероятность того, что р* лежит между пределами р + X Л/ ~2_ . Р—, равна е (здесь X имеет то же значение, что и в предыду- предыдущем примере). Таким образом, мы получим доверительные пределы для не- дг 1 известной пропорции р, просто беря в C4.2.5) -л вместо я. 34.3. Общий случай. Развитая в предыдущем параграфе теория доверительных интервалов л'егко обобщается на более общие случаи. Рассмотрим распределение непрерывного типа, содержащее k неиз- неизвестных параметров ар ... , ал, и предположим, что из этого рас- распределения извлечена выборка в п элементов. Как обычно, будем считать выборочные значения координатами точки jc = (jfj, ... , хп) в я-мериом пространстве выборок Rn, и, аналогично, множество параметров распределения будем представлять точкой a={av ... , ап) в А-мерном пространстве параметров Pk.
Для простоты допустим, что распределение определено для всех то- точек Л в Рк, и обозначим совместную вероятностную функцию величин xv ... , хп через P(S;a), где S—множество из пространства вы- выборок /?я. Для дальнейших исследований нет необходимости предполагать, что величины xv ... , хп независимы и имеют одно и то же распре- распределение. Действительно, при том же обобщении, что и в параграфе 32.8, можно через P(S; а) обозначить любую я-мерную вероятност- вероятностную функцию непрерывного типа, определенную для всех точек <х=(а,, ... , ак) из пространства параметров. Для каждой точки а из пространства параметров Рк можно опре- определить такое множество S(a) точек х в А?„, что C4.3.1) P[xcS(a);a\- 1 — е, где б — заранее заданное число. Множество S (ас) соответствует интер- интервалу Yi <C«*<СYa Ha Фиг- 33*), а соотношение C4.3.1) соответствует C4.2.2). Далее, области D(e) на фиг. 33 соответствует множество D всех точек (а, х) пространства-произведения Pk'Rn, для которых выполняется соотношение х с S (а). Для каждой точки х в Rn рас- рассмотрим множество 2 (х) всех точек л из Рк таких, что (а, х) с D. Тогда 2 (*) соответствует интервалу с, < а < с2 на фиг. 33, и три соотношения (a, x)aD, xcS(a), а с 2 (х) эквивалентны по тем же причинам, что и соответствующие соотноше- соотношения C4.2.3). Отсюда получаем аналог для C4.2.4): C4.3.2) Р[ас 2(*);«] = 1-е. Дальнейшие рассуждения совершенно аналогичны рассуждениям в пре- предыдущем частном случае. Если мы повторно извлекаем выборки в я зна- значений из распределений данного типа, то соответствующие точки а из пространства параметров можно сохранять неизменными или считать меняющимися совершенно произвольным образом, и если для каждой выборки мы утверждаем, что некоторая фиксированная точка а про- пространства параметров принадлежит множеству 2(х), соответствую- соответствующему этой выборке, то в каждом случае будем иметь вероятность •) Можно считать, что фиг. 33 относится к выборке единственного на- наблюденного значения а* из распределения с плотностью вероятности ?(«*; а).
g = ~r ошибочности этого утверждения. Следовательно, в длинном ряду таких утверждений мы будем ошибаться лишь приблизительно в р°/0 всех случаев. Для точки а из пространства параметров будем называть мно- множество 2 (х) доверительной областью, соответствующей коэффи- коэффициенту доверия 1 — е или доверительному уровню е = —. В част- частности, если множеством 2(jc) служит интервал в Pk, определяемый единственным соотношением вида C4.3.3) М*. «)<«,<"»(*.«). где г — один из индексов 1, ... , k, а с1 и с2 не зависят от а,, ... , ак, то будем называть 2(х) доверительным интервалом для пара- параметра аг. Последнее определение, очевидно, включает в себя опре- определение предыдущего параграфа как частный случай. В более общем случае, когда 2 (х)—цилиндрическое множество (см.параграф 3.5), основа - пнем которого является некоторое множество в подпространстве пара- параметров ах аг где r<^k, то будем говорить, что 2 (х) есть доверительная область для, параметров av ... , аг. Замечания предыдущего параграфа относительно обобщения на распределения с точками сосредоточения массы применимы и в настоя- настоящем общем случае. Наконец, обобщение на случай выборок из много- многомерных, распределений получается непосредственно. 34.4. Примеры. В примере 6 параграфа 31.3 мы уже встречались с некоторыми доверительными интервалами для коэффициентов регрес- регрессии и корреляции в случае выборок из двумерного нормального рас- распределения. Теперь рассмотрим несколько дальнейших примеров, которые послужат поводом для некоторых общих замечаний. Пример 1. Среднее значенче нормального распределения. Если xv ... , хп — множество выборочных значений из нормального рас- распределения с неизвестными параметрами /пи о, то величина (см. пара- параграф 29.4) , -ш/ 7 X fit S имеет распределение Стьюдента с я — 1 степенями свободы с соот- соответствующей ллотност1 ю вероятности sn _](/). Дли всякого интер- интерпала (/', I") соотношение C4.4.1)
I" имеет, таким образом, вероятность I sn_l(t)dt, не завксыцую от па- I' раметров т и 0, и, выбирая подходящим образом /' и Г, можно сделать эту вероятность равной любому наперед заданному числу 1 —?. Предположим, что (¦' и Г фиксированы. Тогда для каждой точки (/и, о) из пространства параметров соотношение C4.4.1) определяет множество точек х из пространства выборок, отвечающее множеству S (а) предыдущего параграфа. Однако C4.4.1) \:ожно записать также в следующем эквивалентном виде: C4.4.2) Для каждой фиксированной точки x = (xv .., ( х„) из пространства вы- выборок это соотношение определяет интервал из пространства параметров, не зависящий от о, т. е. являющийся частным случаем интернала C4.3.3), в котором вместо о, стоит т. Согласно определению предыдущего пара- параграфа, C4,4.2) является доверительным интервалом для среднего значения т, и мы получаем следующее соотношение, отвечающее общему соотношению C4.3.2): I" C4.4.3) P^-f^=<«<i-<-^T; «. a) = Таким образом, если мы повторно извлекаем выборки и // значений ик нормальных совокупностей, причем значения т и з, соответствующие последовательным выборкам, остаются постоянными или изменяются произвольным образом и если для каждой выборки мы вычислим до- верительные пределы х — t" и х — /'-.. — , то частота слу- V п—1 Уп— 1 чаев, в которых т будет заключено между этими пределам», в длин- t" ном ряде наблюденьй будет приблизительно равна \ sn_, {t)dt. v Каждый выбор чисел /' и f будет, согласно C4.4.3), данать пра- гило вычисления доверительных интервалов для параметра т, соот- ютствующих коэффициенту доверия \ sn_, (/) dt. Полагая, например,
I' =—/ и t" = tp, где tp — р-процентное значение величины t с „ — 1 степенями свободы, мы получим доверительные пределы соответствующие коэффициенту доверия 1 — -^ или доверительному уровню />°/0. Рассмотрим выборку вл=10 значений из нредполояштелыю нориалыюй совокупности, приведенную в последнем столбце таблицы 31.3.7. Среднее зна- значение и стандартное отклонение выборки соответственно равны 1,58 и 1,167 Отсюда получаем, согласно последнему правилу, доверительные пределы для неизвестного среднего значения совокупности т: 1,53 ±0,339^ Для довери- доверительного уровня р = 5°/0 получается доверительный интервал 0,70 < т < 2,46, для р = 1%— интервал 0,32_< т < 2,84. Выбирая f и t" иначе, мы получим другие правила вычисления доверительных интерзалов для т. Предположим, например, что нам заранее задан интервал (а, Ь). Извлечем выборку в п значении из нормальной совокупности и обозначим полученную выборочную точку через дс0, среднее значение выборки через х0 и стандартное откло- отклонение— через sr По этим значениям х0 и sa определим V и f так, чтобы хо—Г 0 Как и любые другие значения, f и t", определенные таким способом, соответствуют некоторому правилу вычисления доверительных интер- интервалов для т, и для нашей наличной выборки х0 это правило при- приводит в точности к данному интервалу (а, Ь). Решая приведенные выше уравнения относительно V и t", найдем, что соответствующий коэффициент доверия равен C4.4.4) J sn_,(t)dt. Если выборка х0 известна, то число C4.4.4) можно вычислить для любого интервала (а, Ь). Таким образом можно говорить, что при оценке параметра т с помощью выборочных характеристик х и s
наблюденная выборка х0 приписывает любому заданному интервалу {а, Ь) коэффициент доверия, определяемый формулой C4.4.4)*). Однако последнее утверждение следует употреблять очень осто- осторожно, не отступая от его точного смысла. Мы не говорим, что суще- существует вероятность C4.4.4) попадания т в интервал (а, Ь). Как уже было указано в параграфе 34.2, такое утверждение имеет смысл лишь в случае, когда т есть случайная величина. В действительности мы утвер- утверждаем лишь то, что существует правило вычисления доверитель- доверительных интервалов для т, которое в частном случае выборки х при- приводит к заданному интервалу (а, Ь), причем это правило отно- относится к коэффициенту доверия C4.4.4). В рассмотренном выше случае выборки в л =10 значений из таблицы 31.3.7 мы с помощью таблицы IV (стр. 611) обнаруживаем, что интервал + 2,78 0,5 < т < 2,5 имеет коэффициент доверия \ s3 (t) dt =. 0,97. — 2,37 Как и в нарагргфе 34.2, следует заметить, что приведенная выше система доверительных интервалов и коэффициентов доверия не един- единственна. Если, например, заменить х и s медианой и средним от- отклонением выборки, то получится другая система правил. Пример 2. Разность между средними значениями двух нор- нормальных распределений. Пусть xv ... , хя и yv ... , уп% — две независимые выборки со средними значениями jc и у и стандартными отклонениями s1 и s2. Предположим, что эти выборки извлечены из нормальных совокупностей со средними значениями тг и т2 и стан- стандартными отклонениями а, и а2. Предположим, что все четыре пара- параметра неизвестны, и требуется оценить разность тх — тг между средними значениями совокупностей. Эта проблема неоднократно диску- дискутировалась в литературе (см., например, Бартлет [55], [56], Беренс [60], Фишер [105] — [109], Нейман [167], Велч [229]). В параграфе 31.2 был рассмотрен вопрос о том, значимо ли /в,— тг отличается от нуля, причем для упрощения предполагалось равенство параметров о, и о2. Если вместо х—у в величине а, определяемой формулой C1.2.1), взять х—у — (т1 — т2) и предположить, что °i = °»' то полученная величина будет иметь распределение Стью- дента с л, —(— /га—-2 степенями свободы. Отсюда мы получаем, так же. *) В этом месте мы, возможно, выходим за границы теории Неймана fi67). Это же замечание относится к соответствующему месту в примере 2.
как и в предыдущем примере, следующие доверительные пределы для неизвестной разности т1—тг: Здесь следует брать t с nl-\-n2 — 2 степенями свободы. Теперь мы сделаем некоторые замечания относительно общего случая, когда а, и а2 могут иметь любые значения. Любой точке (т\, т2, а1( <з2) пространства параметров соответ- соответствует совместное распределение пх •+ пг величин xt и у{, представляе- представляемых переменной точкой в (и,-\-л2)-мерном пространстве/?. Пусть заданы четыре постоянные kv k2, cv c2, удовлетворяющие единственному условию &,<С[&2. Для каждой точки пространства параметров соот- соотношение определяет некоторое множество 5 точек (лг, y) = (xv... ,xn,yx,... ,yn в пространстве R. Поскольку случайные величины „ а= независимы и имеют распределения Стьюдента соответственно с й, и «g степенями свободы, вероятность того, что выборочная точка [X, у) принадлежит множеству S, равна C4.4.6) J где интегрирование распространяется на область, определяемую соот- соотношением Величина J не зависит от параметров, и множество 5 соответствует множеству S(a). параграфа 34.3. Соотношение, определяющее мно- множество S, можно записать в эквивалентном виде ,34.4.7) Sf.l- — — *.<?!!!Ll + a!!?< —+ — — *!•
Для каждой фиксированной точки {х, у) это соотношение задает неко- некоторое цилиндрическое множество 2 (х, у) в четырехмерном простран- пространстве величин (от,, щ, а,, о„), основанием которого является полоса, ограниченная двумя параллельными прямыми в подпространстве (от,, от.,). Таким образом, в соответствии с параграфом 34.3, множество 2(дг, у) является доверительной областью для /я, и /л2 с коэффициентом до- доверия J, определяемым формулой C4.4.6). Каждый выбор постоянных kv A2, сг .и сг порождает, но C4.4.7), некоторую доверительную область дЛя от, и т2, причем соответствую- соответствующий коэффициент доверия дается формулой C4.4.6). Подходяицш выбором этих постоянных можно добиться того, чтобы коэффициент доверия принял наперед заданное значение 1 — е. Как и в предыдущем примере, предположим теперь, что заранее задан интервал (а, Ь) и извлечены две выборки х0 н у0. По зна- значениям х0, ус, sj и s^ вычисленным для этих выборок, определи» Л,, kv с, и с„ так, чтобы с, =6°, с.г= — s°, *, = хй—у0— b; k2 = 'x0—у„ — а. Как и любые другие значения наших постоянных, эти значения соот- соответствуют некоторому правилу определения доверительных областей для т1 и тг. Подставляя наши значения постоянных в C4.4.7), мы обнаружим, что в случае выборок лс0 и у0 это правило приводит к области а область интегрирования н выражении C4.4.6) для коэффициент доверия имеет вид C4.4.8) го_у„ Таким образом, существует правило определения доверительных областей для тх и тг, которое в частном случае выборок х0 и у,> приводит к области л<Ой,—тг<^Ь, причем это правило связано- с коэффициентом доверия J, заданным формулой {34.4.6)i, где инте- интегрирование распространяется на область C4.4.8). В этом смысле можно говорить, что выборки х0 и у0 приписывают области « <С wi — т2 *С b коэффициент доверия J. Отсюда можно вывести критерий значимости, предложенный Бе- репсом и Фишером ([60] и [105] — [109]). Пусть заданы две выборки со
средними значениями л- и у и стандартными отклонениями s^ и s2, и пусть в такой угол, что где г=1/-jL_j fl_ К Я1_1-гл,_г Рассмотрим интеграл J в C4.4.6), распространенный по области /sin в и определим d так, чтобы J = %, где ? — заданное число, удовлетво- удовлетворяющее неравенству 0 <^ 3 <^ 1. При фиксирозанном 3 величина «? есть функция от й(, л, и 6, которую можно вычислить, если значе- значения аргументов известны. Если х— y^>dr, то область inl^m2, в соответствии с вышесказанным, имеет коэффициент доверия меньший, чем Ь. Аналогично, если х—у<^— dr, то область тг^тг также имеет коэффициент доверия меньший, чем Ь, Если 8 достаточно мало, то средние значения х и у следует считать отличающимися друг от друга значимо, когда \~х—y\^>dr. Для применения этого критерия имеются таблицы (см. [223] и f2t>2j). Пример 3. Среднее значение конечной совокупности (см. параграф 34.2, пример 3). Предположим, что имеется совокупность, состоящая из большого, но конечного числа iV индивидуумов, среди которых распределен некоторый признак х. Для среднего значения, дисперсии и других характеристик вели- величины х в полной совокупности мы используем обычные обозначения: т, с2, v-i и т. д. Требуется оценить неизвестное среднее значение совокупности т с по- помощью метода, репрезентативной выборка (см. параграф 25.7). Извлечем бес- позтпрно случайную выборку в п индивидуумов и обозначим через х — 2~ и s3 = 2~? средиег значение и дисперсию я наблюденных выборочных значений величины х. Тогда имеем (см., ншрпмгр, Нейман [160], Хагстрем [121а]) M?t-\ writ Л N—" °2 г -> N П — 1 , — N{N-n) (я-1)с« Г _ _ <ЛГ—1Я(ЛГ—2)<iV—3) я» L o(«-t-i)^ ij-t- + <nN- N- n — 1) (N— 1)
где-ц^'т' — 3 коэффициент эксцесса (см. параграф 15.8) для совокупности. Если или N—п велики, то х приблизительно нормально, так что величина У —тт——(л: — т) приблизительно нормальна @, а). Формулы для сред- среднего значения и дисперсии величины s1 можно записать в виде где (р = 1^ . Если предположить, что можно пренебречь эксцессом сово- совокупности Y2i то из A8.1.6) будет следовать, что при большом Л' величина ~ имеет приблизительно такое же среднее значение и дисперсию, как рас- N(n — 1) л v пределение х2 с ¦ ^ —¦ степенями свободы. Хотя в этом случае точное рас- распределение для s2 или q2 неизвестно, можно в первом приближении предпо- предположить, что величина N-n хл '"'_ ./(jV-l)(w-l) х-т N—л s имеет распределение Стьюдента A8.2.4), где вместо п взято —^ -• Дли неизвестного среднего значения совокупности мы тогда получим, как и в при- примере 1, ^-процентные доверительные пределы Г—л (ЛГ-1)(я-1Г
ГЛАВЫ 35—37 КРИТЕРИИ ЗНАЧИМОСТИ, II ГЛАВА 3> ОБЩАЯ ТЕОРИЯ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТКЗ •) 35.1. Выбор критерия значимости. Н предварительном обзоре проблем статистических выводов, приведенном в главе 26, введение кри- критерия значимости для статистической гипотезы было описано (см. па- параграфы 26.2 и 26.4) в следующих общих выражениях: если требуется проверить, согласуется ли множество выборочных значений с заданной гипотезой Н, то мы рассматриваем распределение выборки и вычисляем некоторую подходящую меру D ^ 0 отклонения этого распределения от гипотетического распределения; по выборочному распределению вели- величины D мы определяем критическое значение DQ, такое, что если гипотеза N верна, то P(?)]>D0) = s, где ? — заранее заданный уро- уровень значимости. Если в конкретном случае мы обнаружим отклонение D ^> Do, то гипотеза Н отвергается, в то иремя как появление зна- значения D^D9 считается совместимым с i ипотезой Н, которая тогда принимается. Приняв это правило, мы с вероятностью, равной г, можем отвер- ! нуть в действительности справедливую гипотезу Н. Поскольку s можно выбрать произвольно, эту вероятность можно сделать сколь угодно малой. Описанный общий принцип, лежащий в основе всех рассмотренных и главах ЗС—31 частных критериев, несомненно, во многом опирается на интуицию. При данной гипотезе появление очень большого откло- отклонения D имеет очень малую вероятность. Если такое отклонение обна- обнаружено в нашем конкретном случае, то мы, естественно, склонны считать гипотезу опровергнутой опытом. С другой стороны, появле- появление какого-либо .умеренною" отклонения принадлежит к разряду событий, которых следует ожидать, если гипотеза верна. Исследуем, однако, этот принцип более подробно. Предположим, например, что D имеет непрерывное распределение с плотностью веро- *) См.-сноску в начале гл. 32.
ятности, подобной распределению X2 "Р" «]>2(сн. фиг. 19, стр. 260). Тогда справедливо, что при гипотезе Н вероятность большого откло- отклонения, скажем, D ]>?>„, мала. Действительно, эта вероятность равна площади под графиком плотности вероятности, расположенной справа ог ординаты точки Do, и Do всегда можно задать так, чтобы такая площадь была равна любому наперед заданному ?^>0. Но равным образом верно и то, что появление очень малого отклонения, скажем, D<^DV также имеет малую вероятность, так как ?), можно задать так, чтобы площадь иод кривой слеза от ординаты точки Dl была равна ?. Если мы условимся отвергать гипотезу Н, когда D<^DV и принимать эту гипотезу в остальных случаях, то мы получим ту же самую веро- вероятность s отвергнуть в действительности верную гипотезу. Вообще можно бесконечным количеством способов выбрать такое точечное мно- множество S, что D имеет значение из 5 с вероятностью P(DcS) = e, если гипотеза Н верна. Для какого-нибудь такого множества 5 рас- рассмотрим критерий, по которому гипотеза И отвергается, когда D имеет значение из S, и принимается в остальных случаях. Вероятность ощи- бочно отвергнуть в действительности справедливую гипотезу Н всегда будет равна е, так что с этой точки зрения все критерии, основан- основанные на различных множествах S, эквивалентны. Интуитивно же мы склоняемся к критерию Do, где 5 есть интерзгл больших отклонений D^>D0 и определенно противимся критерию Dv согласно которому мы отвергаем гипотезу как раз в тех случаях, когда отклонения малы. Однако можно ли привести какие-нибудь разумные доводы в пользу некоторых определенных множеств 5 сравнительно с остальными мно- множествами? В качестве примера, рассмотрим критерий у2? В главе 30 мм называли наблюденное значение /2 значимым, если оно превосходило р (= 100;)-проце»т- ное значение Хр- Это, очевидно, соответствует упомянутому выше критерию Дь и множеством S здесь является интервал у} > Xp- Если число я степеней сво- свободы велико, то У^р можно считать нормальным (V 2л—1, 1), и . то же самое множество S можно приближенно представить интервалом У'Щ}>У'2л — 1 -{-12р или X' > т(V2я — 1 + hPJ>(hp— 2/»-процеитное зна- значение нормального отклонення);прн этом площадь под правым концом прибли- приблизительно нормальной кривой равна ~z — г. Однако в последнем случае имеет смысл принимать во внимание оба конца нормальной кривой и считать у2 зна- значимым, если i ТЛЗх3 — У'2п — 11 > I, В этом случае множество S состоит и\
I 1 двух интервалов у2 < -}- (Y'ln — 1 — ).р? и х2 > -я-( У 'in— I + i^)*. В обоих случаях вероятность того, что наша гипотеза будет несправедливо отвергну- отвергнута, равна г. Далее, мера отклонения D определяется вовсе не однозначно. Например, согласие гипотетического распределения с выборкой можно измерять величинами у?, <о2 и т. д. Аналогичным образом, отклонение нормальной выборки от гипотезы о том, что среднее значение сово- совокупности равно т, можно измерять, например, величинами \~х — /л|или ¦г-—т |, где "х и z—среднее значение и медиана выборки, и т. д. Для каждой меры отклонения Д можно бесконечным числом способов найти такое точечное множество 2, что Р (Д с 2) = е, если гипо- гипотеза И верна. Критерий, согласно которому мы отвергаем гипотезу И, когда Д принимает значение из 2, и принимаем эту гипотезу в осталь- остальных случаях, попрежнему отвечает заданной вероятности е забрако- забраковать в действительности верную гипотезу Н. Очевидно, возникает важная проблема научиться сравнивать раз- различные возможные критерии для данной гипотезы. Можно ли при- приписать разумный смысл утверждению, что олин из двух критериев, соответствующих одному и тому же значению е, „лучше* или „более эффективен", чем другой? В течение последних лет этой проблеме был посвящен ряд работ Неймана, Е. Пирсона и их последователей. Мы отсылаем читателя к серии фундаментальных статей [170J — [173] Неймана и Пирсона и к общему изложению этой теории Нейманом [168], где можно найти многочисленные библиографические указания. Основную идею теории Неймана — Пирсона можно вкратце описать следующим образом. Если критерий значимости применяется на прак- практике, то в каждом случае возникает следующая альтернатива: можно решить или отвергнуть или принять предложенную гипотезу Н и дей- действовать в соответствии с этим решением*). И в том, и в другом случае наше решение может оказаться ошибочным, так как можно отвергнуть гипотезу//, когда она в действительности верна, и принять *) Конечно, существует и третья возможность: можно решить оставить гипотезу под сомнением и отложить дальнейшие действия до тех пор, пока не будут получены новые данные. Однако, здесь мы рассматриваем случай, когда мы уже располагаем всеми доступными нам данными, и необходимо решить, в каком направлении действовать.
гипотезу, когда она неверна *). Повидимому, совершенно разумно исхо- исходить из того принципа, что при выборе критерия мы должны ста- стараться, насколько это возможно, уменьшить возможность соверше- совершения обоих видов ошибок. Для признания критерия гипотезы Н .хорошим* необходимо потребовать, чтобы при этом критерии вероятность отвергнуть гипотезу Н, если она в действительности верна, была мала, а веро- вероятность отвергнуть Н, когда она ошибочна, была велика. Из двух критериев, соответствующих одной п той же вероятности s отвер- отвергнуть в действчтельности правильную гипотезу И, следует предпо- предпочесть тот, который дает большую вероятность отвергнуть И, когда эта гипотеза ошибочна. Теперь мы покажем некоторые применения этого общего принципа. Нам придется ограничиться лишь кратким изложением некоторых из наиболее элементарных черт этой важной теории, которая в настоящее время интенсивно развивается. 35.2. Простые и сложные гипотезы. Рассмотрим п случайных величин JCj, ..., хп с совместным распределением в Rn непрерывного типа, определяемым вероятностной функцией Р E; a) = P(S; а,, ..., ak) известного математического вида, но содержащей k неизвестных пара- параметров ар . •.) eft, или соответствующей плотностью вероятности /(*, а) =/(*!, .... xn;av ..., ak). Если, в частности, xt— независимые величины, имеющие одно и то же распределение, то мы имеем обычный случай выборки в п значе- значений из этого распределения. Однако, как было указано в аналогич- аналогичном случае в параграфе 32.8 (см. также параграф 34.3), приведенные выше определения пригодны и в более общих случаях, как, например, в случае, когда xt состоят из нескольких независимых выборок, извлечен- извлеченных, может быть, из неодинаковых распределений. И в общем случае мы будем называть точку x = {xv ..., хп) и пространство #„ соответственно *) Этой возможностью двойной ошибки наша проблема отличается от того, что мы имели в теории нахождения оценок. Например, когда мы утвер- утверждали, что неизвестное значение некоторого параметра принадлежит такому-то доверительному интервалу, то это утверждение могло быть или правильным, или ошибочным, но существовала лишь одна возможность ошибиться, именно указать интервал, который на самом деле не содержит истинного значения параметра.
выборочной точкой и пространством выборок. Параметры Оу изобра- изображаются точкой a=(av ..., ак) в пространстве параметров Рк. Предположим теперь, что выборочная точка х определена посред- посредством одного случайного эксперимента, соответствующего составной величине (jclt ..., хп). Гипотеза о том, что неизвестная параметриче- параметрическая точка а в распределении этой составной величины принадлежит заданному точечному множеству <о из пространства параметров Рк, будет коротко называться гипотезой Н. Если <о состоит из единствен- единственной точки Од, то будем называть гипотезу простой, в других случа- случаях гипотеза будет называться слощчой. Очевидно, простая гипотеза полностью задает распределение, а сложная гипотеза оставляет рас- распределение более или менее неопределенным. Каждая параметрическая точка я, считаемая a priori возможной, будет называться допустимой точкой, соответствующей допустимой гипотезе. Множество Й всех допустимых точек может совпадать со всем пространством параметров Pk или составлять лишь часть про- пространства Pk. Если xt образуют выборку независимых значений из собственного нормального распределения, о параметрах т и в которого не имеется ника- никаких сведений, то множество 2 допустимых гипотез состоит из точек полу- полуплоскости в > 0. Гипотеза /я = 0, в=1 является простой, а гипотеза т = 0 (без указания значения в) —сложной. 35.3. Критерии для простых гипотез. Наиболее мощные кри- критерии. Предположим, что требуется проверить простую гипотезу На, согласно которой неизвестная параметрическая точка а совпадает с дан- данной точкой Од. Критерий для этой гипотезы будет заключайся в пра- правиле, согласно которому Но должна быть отвергнута, когда наблю- наблюденная точка х принадлежит некоторому множеству 5 из Rn, а в осталь- остальных случаях Но должна быть принята. Множество 5 будет называться критическим множеством критерия; сам критерий, опирающийся на критическое множество S, часто будет коротко называться крите- критерием 5. Если критическое множество 5 фиксировано, то вероятность отвер- отвергнуть гипотезу //0 совпадает с вероятностью Р {S; а0) попадания выбо- выборочной точки во множество 5. Эта вероятность есть функция от к пере- переменных о,, ..., ак; условимся называть ее функцией мощности
критерия. В соответствии с общей установкой, высказанной в пара- параграфе 35.1, мы должны попытаться построить критерий так, чтобы его функция мощности была мала, если Но верна (т. е. если а совпадает с oto) и велика, если Но неверна (т. е. если а—какая-либо допу- допустимая точка, отличная от а0). Поскольку распределение величины х непрерывно, всегда суще- существует бесконечное количество множеств 5 таких, что Р (S; а0) = s, где s — заранее заданный уровень значимости. Если за критическое множество критерия избрать какое-либо из этих множеств S, то веро- вероятность отвергнуть Но, когда эта гипотеза на самом деле верна, будет равняться г; будем коротко говорить^ что мы имеем дело с кри- критерием уровня s. Среди всех критериев уровня s теперь требуется отыскать такой критерий, при котором вероятность отвергнуть гипо- гипотезу Но, когда эта гипотеза в действительности неверна, будет как можно большей, т. е. такой критерий, функция мощности которого Р (S; а) принимала бы возможно бол1 шие значения для любой допу- допустимой точки Яу^а,,. Пусть а,—фиксированная допустимая точка, отличная от а„. Так как мы можем произвольно изменять значения плотности вероятности на множествах меры нуль, то всегда можно предполагать, чтоf(x, а^) и /(*, а,) конечны и определены для всех х. Тогда для любого с :э= 0 будет вполне определено множество X всех точек х, для которых C5.3.1) fix,al)^.ef{x,a0). При возрастании с от 0 до ос функция ф (с) = Р{Х; щ) нигде не воз- возрастает. Далее, ф @) = 1, и легко обнаружить, что 0 ^ <Ь (с) ^ —, так что <|>(с)—*0 при с—»-оо. Чтобы избежать тривиальных затруднений, предположим *), что существует такое значение с, для которого 'Ь(с)=е. *) Всегда существует такое значением, что ${с — 0Mse, if(e -|-O)ss;s. Исключительный случай, когда <Ис) фактически не принимает значения е, можно включить в наше доказательство, слегка изменив определение мно- множества X. Действительно, <J> (с — 0) — $ (с -|- 0) есть интеграл от / (дг, оо) по мно- множеству Z всех точек дг, таких, для которых в C5.3.1) достигается знак равен- равенства. Исключая из множества X надлежащим образом выбранную часть множества Z, всегда можно получить множество, удовлетворяющее соотно- соотношению C5.3.2). Во всех точках этого видоизмененного множества X удовле- удовлетворяется соотношение C5.3.1), а для всех точек дополнительного множе- множества имеем /(лг, &x)*zcf(x,a0). Очевидно, этого достаточно для получения вывода C5.3.6).
Для соответствующего множества X имеем C5.3.2) P(X;ao)=[f(x,ao)dx = e Пусть теперь 5—критическое множество какого-нибудь критерия уровня е, так что C5.3.3) Покажем теперь, что <35.3.4) Р(Х; a1) Таким образом, среди всех критериев уровня е критерий X дает наибольшее возможное значение вероятности забраковки гипотезы Ио. когда верна другая гипотеза //,, согласно которой а = ец. В соот- соответствии с этим, критерий X будет называться наиболее мощ- мощным критерием для гипотезы Но относительно гипотезы И1 среди всех критериев уровня е. Из формул C5.3.2) и C5.3.3) получаем C5.3.5) Р (X— SX; а0) = г — Р (SX; а„) = Р (S— SX; а0). Из определении C5.3.1) множества X следует, что для любого х, не принадлежащего множеству X, с/(х,ао)^>/(х,а,). Поэтому C5.3.6) Р(X — SX; лх)^сР(X—SX; О,,) = сР(S — SX; оц)> Прибавляя к обеим частям последнего неравенства P(SX;at), полу- получим C5.3.4). Может случиться, что для всех допустимых точек а1фа0 мы полу- получим одно и то же множество X. В таком случае будем говорить, что среди всех критериев уровня г критерий X является равномерно наибо- наиболее мощным критерием для гипотезы Ио относительно всего множества 2 допустимых гипотез. Если равномерно наиболее мощный критерий существует, то ясно, что его можно считать лучшим сравнительно с любым другим критерием того же самого уровня г. К сожалению, такое положение встречается очень редко. Рассмотрим случай, когда ду суть п выборочных значений из распреде- распределения, содержащего сдипстпенный неизвестный параметр i, н предположим, что
для « существует достаточная оценка а*. По параграфу 32.4, совместную плот- плотность вероятности / {хь..., хп; а) в этом случае можно записать в виде про- произведения g{**', а) Н(хх,.,., х„), где Н не зависит от а. Если Н > О, то C5.3.1) принимает вид g(<x*\a{)^cg(a*\(i^. Если удовлетворены некоторые общие условия регулярности, то множеством X будет служить область, ограничен- ограниченная гиперповерхностью g(a*, ах) = cg{**\ а0), и это уравнение эквивалентно некоторому количеству уравнений вида а* = const. Если для различных вза- взаимно исключающих друг друга гипотез %х граничной гиперповерхностью множества X всегда служит один и тот же представитель семейства а* = const, то равномерно наиболее мощный критерий существует. Однако на примерах можно показать (см. Нейман н Пирсон [173]), что это свойство выполняется не всегда. Поэтому даже в рассматриваемом простом случае мы не можем утверждать существование равномерно наиболее мощного критерия без вве дения дополнительных ограничений. (См., далее, Нейман [165], где этот во прос рассматривается в связи с упомянутой в параграфе 34.2 проблемой нахождения кратчайших доверительных интервалов.) Еще более простым случаем, в котором наши рассуждения приводят к полному решению задачи, является случай наличия лишь двух различных гипотез. В этом случае совместную плотность вероятности величин х/ можно записать в виде A — «)/о (¦*)-!-»Д (¦*)> где/ои Д— заданные плотности веро- вероятности, а допустимыми значениями а являются 0 и 1. Подлежащей проверке гипотезой Но является гипотеза а = 0, т. е. гипотеза о том, что наблюденные выборочные значения извлечены из распределения с плотностью вероятности /0, тогда как единственной допустимой альтернативой является Д. Тогда нам сле- следует отыскать множество X всех таких точек х, для которых Д ^ с/0, где с опре - деляется условием \fu(x)dx=e. Критерий, согласно которому гипотеза Не, 'х отвергается, когда наблюденная выборочная точка принадлежит множеству X и принимается в остальных случаях, будет наиболее мощным критерием уровня г. Этот критерий можно применить, например, к проблемам следую щего типа (см. Квензель, Эссен—Меллер [203]): предположим, что измеряются некоторые характеристики х( двух людей А к В, причем требуется про- проверить гипотезу, что А является отцом В. Если известны распределении величии X/ среди детей всех лиц, имеющих тс же характеристики, что и А а также среди всей совокупности людей, причем плотности вероятности этих распределений мы обозначим соответственно /о и Д, то по нашей гипотезе выборочные значения характеристик лица В должны быть извле- извлечены из совокупности с плотностью вероятности /0, поскольку альтернатив- альтернативной гипотезой является Д. Эта гипотеза может быть проверена с помощью иышеопнсаиного критерия. Другой пример будет приведен в следующем параграфе. 35.4. Несмещенные критерии. Ограничимся теперь случаем един- единственного неизвестного параметра а. Пусть допустимые значения а обра- образуют интервал А, и предположим, что почти для всех x = (xt, ..., х„\
плотность вероятности/^,о) имеет во всех внутренних точках а интер« вала А частную производную ? =/i(*, а), такую, что |Д {*, а) \ <Т(лс), где F{x) — функция, интегрируемая по /?„. Тогда, согласно параграфу 7.3, производная C5.4.1) существует для каждого множества S в Rn и для каждого а из А Предположим, что рассматривается простая гипотеза Но, согласно которой а = а0, где о0 — внутренняя точка интервала А, и обозначим через 5 критическое множество некоторого критерия с уровнем 8. Тогда функция мощности Р (S; а) будет функцией от а, такой, что P(S;ao) = e. Если для некоторого допустимого о, фа0 мы получим PtSjfltjXe, то это будет означать, что менее вероятно, что мы отвергнем гипотезу Но в случае, когда верна противоположная гипотеза Нх, согласно которой a = alf чем в случае, когда верна сама гипотеза Но. Критерий, обладающий таким, очевидно, неже- нежелательным, свойством, мы будем называть смещенным критерием. С другой стороны, если Р E; о) S* s для всех допустимых точек а то критерий и его критическое множество 5 будут называться несме- несмещенными. Поскольку P(S;ao) = s и производная C5.4.1) существует для всех а из А, в случае несмещенного критерия имеем C5.4.2) В обобщение определения C5.3.1) рассмотрим теперь множество А' всех таких точек х, для которых C5.4.3) f(x, а,) > с/(х, а0) + с,/, (*, о0). где Oj=7^a0 есть внутренняя точка интервала А, а постоянные с^О и с, определяются так, чтобы удовлетворялись следующие условия *) C5.4.4, др(Х, >(Х:а)\ __ Г j (x; a0) dx = 0. *) Такими же рассуждениями, как для C5.3.2), можно показать, что посто- постоянные с и cv обладающие указанными свойствами, могут быть определены всегда, кроме некоторых исключительных случаев, в которых, о.пнако, можно изменить определение множества X таким же образом, как это было указано в предыдущей сноске, т. е. исключить из X некоторое подмножество множе- множества Z всех точек х, для которых в C5.4.3) достигается знак равенства.
Критическое множество S любого несмещенного критерия уровня е удовлетворяет соотношению C5.3.5), и из формул C5.4.2) и C5.4.4) получаем аналогичное соотношение fdP(X—SX;a)\ _ __ fdP(SX;a)\ __ /дР(S — SX; *) \ V Oi H~ { да H~\ da Jo Таким же способом, как и в параграфе 35.3, затем получаем Может случиться, что для всех допустимых точек ai^=a0 мы полу- получим одно и то же множество X. Это будет означать, что критерий X является несмещенным и среди всех несмещенных критериев дает наи- наибольшее возможное значение вероятности отвергнуть гипотезу Но, когда верна любая противоположная гипотеза a = cii*). Такой кри- критерий X будет называться наиболее мощным несмещенным крите- критерием для гипотезы Но. Рассмотрим случай выборки в я значений хг, ..., х„ из нормального распределения с известным стандартным отклонением ч и неизвестным сред- средним значением т, и пусть требуется проверить гипотезу Hq, согласно кото- которой т=т<). Сначала постараемся найти условия существования равномерно наиболее мощного критерия, соответствующего заданному уровню е. Для любого rnt Ф т0 соотношение C5.3.1) принимает вил не М-=\'п ———, ). = !•'я — -. Предположим гнячалл, чго «i > щ. Тогда М > 0, и если мм положим С :=<? где р = 100 г и '/.2р есть 2/>-процсптное значение нормального отклонения, ю неравенство C5.4.5) будет выполняться на множестве X всех таких точек х — (jfj, ..., х„), для которых a Ss '*,, или И ^ т0 -f- -^L ¦ Очевидно, это мно- 1 ft лество не зависит от ть к вероятность того, что х принадлежит множеству X, согласно гипотезе Ип, равняется -^ = s, так что условие C5.3.2) выполнястси. Таким образом, критерий, основанный па множестве А' к заключающийся *) Это утверждение является некоторым видоизменением предложсни.1» полученного Нейманом и Пирсоном [172].
н гом, что//0 отвергаете», когда х t'- mu -f- —JL , является равномерно паи- Уп более мощным критерием для Но относительно множества всех ги потев, по которым /«1 > /н<). Для всех т1<тй таким же способом получим равномерно наиболее мощ- мощный критерий, основанный на критическом множестве X, определяемом соот- соотношением х^т^ Ц=-¦ Однако, если множество допустимых гипотсм со- У п держит значении т, лежащие как справа, так и слева от точки та, мы более не получим одного и того же множества X для всех допустимых тх. Отсюда следует, что я таком случае равномерно наиболее мощного критерия не существует. Рассмотрим функцию мощности критерия, основанного на критическом множестве -tFs= m0 -J- -& . Функция мощности равна вероятности того, чго V п выборочная точка принадлежит этому множеству, если истинное сред нее значение есть т. Указанная вероятность равна 1 — Ф (г), где г = lip -j- У~п~ —2 ; она монотонно возрастает вместе с т я при « = /Kq принимает значение s. Таким образом, при «>/«„ функций мощности > г, так что мы имеем вероятность > е отвергнуть гипотезу f/ц, когда истинное среднее значение превышает гщ. С другой стороны, если «</я0, то функция мощности < е; это означает, что критерий является смещенным. Конечно, подобными же свойствами обладает также критерий основанный на множестве jesg тй 7— . Уп Теперь рассмотрим наилучший несмещенный критерий, используй тот же. что и выше, уровень з=-^-.. Условие C5.4.3) имеет здесь вид Уп где ct — Ci— Постоянные с и сх всегда можно выбрать так, чтобы знак- равенства здесь достигался, когда \= + }.р, н тогда множество X будет со стоять из всех тех точек х, для которых | X | ^г ).„ или \х — та \ ^ -?- . Оче- У~п видно, это множество X удовлетворяет обоим условиям C5.4.4). Таким обра- образом, обычный критерии, по которому гипотеза Нй отвергается, когда абсолютное отклонение \ х — тй | превышает -BL, является наиболее Уп мощным несмещенным критерием для Нй. Функция мощности этого критерия равняется Ф (г') -}- 1 — Ф (г*), где ,i \ _i^i/'~mu—"' » 1 I */—¦ та — т * =¦— ip+у п—-— г =А/)-1-у п ^-, а т — истинное среднее
значение. Легко видеть, что эта функция достигает минимума при m=mt и значение этого минимума равно е. При т ф щ функция мощности всегда превосходит е и стремится к 1 при т -> ± оо. В соответствии с вышеуказан- вышеуказанным, график функции мощности лежит целиком выше соответствующего графика для любого другого несмещенного критерия. Функция мощности предыдущего критерия, основанного на множестве х S= «о + $=¦. при т > отв превышает рассматриваемую функцию мощности, но при т < щ оказывается меньше последней и даже стремится к нулю при т -*¦ — оо. В обычных критериях, основанных на использовании стандартных оши- ошибок (см. параграф 31.1), предполагалось, что исследуемую величину г с практи чески достаточной точностью можно считать распределенной нормально с из- востным стандартным отклонением d(z). Если на основании одного наблюден- наблюденного значения г мы проверяем гипотезу о том, что среднее значение Е(г\ имеет некоторое определенное значение zQ, и если реальные условия задачи позволяют ограничить множество 2 допустимых гипотез, например областью Е(г)^г()у то из вышеизложенного вытекает, что следует воспользоваться критерием, но которому наша гипотеза (при уровне ЮОг =/»%) отвергается, когда г^го-]-1гра{г). Такое положение иногда встречается на практике, например, когда мы имеем Дело с данными относительно эффективности некоторого метода, который, повидимому, не ухудшает, а, может быть, улуч- улучшает качество производящейся продукции. С другой стороны, если мы не можем a priori ввести ограничение такого «одностороннего* типа, то следует пользоваться лишь обычным критерием, основанным на абсолютном откло- отклонении \z — го\. 35.5. Критерии для сложных гипотез. При переходе (it простых гипотез к сложным теория значительно усложняется; мы ограни- ограничимся здесь лишь некоторыми краткими замечаниями, отсылая чита- читателя за дальнейшими сведениями к оригинальным работам, упомя- упомянутым в параграфе 35.1. Пользуясь общими обозначениями, введенными в параграфе 35.2, рас- рассмотрим гипотезу И о том, что неизвестная параметрическая точка а при- принадлежит заданному множеству ш, являющемуся подмножеством множе- множества Q всех допустимых точек. Как и в случае простой гипотезы, кри- критерий для гипотезы И будет представлять собой правило, по которбму И. отвергается, если наблюденная выборочная точка х принадлежит не- некоторому критическому множеству S, и принимается в остальных случаях. К соответствии с общим пожеланием, высказанным в параграфе 35.1, следует стараться определить множество S так, чтобы функция мощ- мощности Р (s; а) была мала, когда а принадлежит к со, и велика, когда а принадлежит подмножеству допустимых точек Q — ю.
В некоторых случаях можно отыскать множество 5 (и даже семей- семейство множеств), такое, чтобы Р (S; а) постоянно равнялась заданному уровню е для всех а из со. Тогда мы будем говорить, что 5 подобно пространству выборок*) относительно множества ш. Критерий S, т. е. критерий, основанный на критическом множестве 5, всегда приводит к вероятности е отвергнуть гипотезу Н, когда она на самом деле верна, каково бы ни было значение а из го, и в соответ- соответствии с этим мы говорим, что критерий 5 есть критерий уровня е. Предположим теперь, что можно отыскать такой критерий X уровня е, что при любом а из Q — ш и при любом критерии 5 уровня е выполняется неравенство Р (X; а)^Р (S; а). По аналогии с параграфом 35.3, будем говорить, что среди всех критериев уровня е критерий X является равномерно наиболее мощным критерием для гипотезы Н относительно множества допустимых гипотез Q — ш. Подобным же образом, если для критерия 5 уровня е имеем Р E; tt) S* 8 при всех допустимых а, то критерий будет называться несмещенным. Наиболее мощным несмещенным критерием является гакой критерий X уровня е, что Р (X; а) &* Р (S; а) для всех а из 2 — го и для всех несмещенных критериев 5 уровня е. Общие условия, при которых существуют эти классы критериев, и методы, с помощью которых такие критерии могут быть найдены, до сих пор известны лишь частично. Приведем лишь некоторые при- примеры без доказательств. Рассмотрим я выборочных значений хь ...,х„ из нормального распре деления с неизвестными параметрами от и о. Пусть требуется проверить гипотезу о том, что т=тй, без указания значения в. Множеством 2 всех допустимых гипотез в плоскости (т, я) является (см. параграф 35.2) полуплос- полуплоскость о>О, и множество <о состоит из той части прямой т-=т^, которая лежит в этой полуплоскости. Обозначим чергз Т какое-нибудь множество действительных чисел, для которого^ *„_! 't) dt;=s, где *„_,(/) — плотность вероятности Стьюдеитова отношения t = yn— \ *~"'0, и пусть Sобозначает множество всех точек х S из /?„, для которых соответствующее значение t принадлежит множеству Т. Тогда для каждого а имеем Р E; от0, и) = Р (t С Т) = s, откуда следует, что Л' подобно пространству выборок относительно заданного множества ю. ¦) Введение этого термина оправдывается тем. что множество S~Rn удовлетворяет поставленному условию с ; = 1.
Если множество допустимых точек U — ш ограничивается точками с т > /я0 и если в качестве S берется множество всех х, для которых < > tip, где /> = Ю0е, то можно показать (см. статьи, упомянутые в параграфе 33.1), что критерий 5 нвляется равномерно наиболее мощным. Подобным же образом для точек т < /м0 критерий, основанный на множестве t < — tip, является ран номерно наиболее мощным. Если допустимые точки содержат значения т, ле- лежащие как справа, гак и слева от значения т0, то равномерно наиболее мощ- мощного критерия не существует, но критерий, но которому гипотеза Н отвергается при \t\>tp, является наиболее мощным несмещенным критерием уровня е Все эти результаты аналогичны результатам, доказанным в параграфе 35.4 для случая, когда в известно. Случай разности между средними значениями двух нормальных распре- распределений исследовали, исходя из функции мощности, Уэлч [229] и Хзу [127] Ими было обнаружено, что критерий | и | > tp, использованный в параграфах 31.2 и 31.3 (пример 4), является единственным удовлетворительным критерием для гипотезы тх = ть когда известно, что а^ = зг. Этот критерий может ока- оказаться сильно смещенным, если допустимые гипотезы содержат случай с а, ф в». ГЛАВА об ДИСПЕРСИОННЫЙ АНАЛИЗ 36.1. Изменчивость средних значений. Дисперсионный анализ объединяет группу статистических приемов, предложенных Р. Фише- Фишером ([13], [14]) в связи с некоторыми экспериментальными задачами в различных областях биологических исследований, в особенности в сельскохозяйственной статистике. Однако область применения этих приемов значительно шире, и они с успехом применяются в самых разнообразных экспериментах. Предположим, что результатом эксперимента являются наблюден ные значения xv..., дгв некоторых величин и что эти значения можно считать независимо извлеченными из нормальных распределений с по- постоянным, хотя и неизвестным стандартным отклонением з. С другоЯ стороны, средние значения mt этих распределений могут меняться пол влиянием некоторых факторов, входящих в эксперимент, как, напри мер, под влиянием различных способов обработки, различия видок животных или растений, неоднородности почвы и г. п. Целью экспе- эксперимента является исследование этой изменчивости средних значений так что может потребоваться проверить различные гипотезы относи- относительно этих величии, как, например, нулевую гипотезу (см. параграф 26.4) о том. что различие в способе обработки или вид животных не
влияет на средние значения, и т. и. Конечно, может потребоваться также отыскать оценки для некоторых средних значений или функций от средних значений. При общей нулевой гипотезе о том, что все х{ имеют одно и то же среднее значение, несмещенной оценкой для неизвестной дисперсии а2 является, как известно, сумма квадратов отклонений от среднего- значения выборки 2(*|—*J> "оделенная на соответствующее число степеней свободы (именно, на п—1). Основная идея дисперсионного анализа заключается в разбиении этой суммы квадратов отклонений на несколько компонент, каждая из которых соответствует действи- действительной или предполагаемой причине изменчивости средних значений Эти компоненты располагаются так, чтобы доставить критерии для различных гипотез о поведении средних значений или оценки для различных интересующих нас функций от средних значений. В следующем параграфе мы подробно изучим этот метод на про- простом частном случае, а затем перейдем к более общим случаям. 36.2. Простая группировка величин. Рассмотрим простейший случай, в котором наблюденные величины разбиваются на г групп, причем /-я группа содержит nt величин, предполагаемых нормальными (/я,-, и), где а не зависит от /. Требуется исследовать свойства вели- величин я», и в первую очередь проверить нулевую гипотезу о том, что ;се mt равны друг другу, т. о. что распределения нсех групп одина- одинаковы. В частном случае г^=.1 эта задача сводится к задаче о раз- разности между двумя средними значениями, уже рассматривавшейся о параграфах 31.2 и 34.4. Пусть х,j обозначает у'-ю величину в /-й группе.!'.-. = — /.-*'.•,¦•= г и; среднее арифметическое величин i-i\ группы и х — — /_ / _ х,- = г г — —\\tyXj. —среднее арифметическое всех п= V'",- величин. Тогда »—1 1 имеем тождество где каждая сумма распространяется на все //.~2«, величин. Таким 1
образом, полная сумма квадратов отклонений от общего среднего значения х разбивается на две компоненты, именно: 1) сумму ква- квадратов отклонений каждой величины от соответствующего группового среднего значения („сумма квадратов внутри групп") и 2) сумму квадратов отклонений групповых средних значений от общего сред- него значения („сумма квадратов между группами"). Это тождество имеет очевидное сходство с тождеством B1.9.1). употреблявшимся для определения корреляционного отношения. Переписывая это тождество более подробно и одновременно меняй порядок слагаемых в правой части, получаем C6.2.1) 22 (*,,—*)" = 2 и, (*,. — х)' + 22 (**> — */•)*• или, короче, €? = </,+ Q8: тогда Q, Q, и Q2 будут квадратичными формами от xti. Как известно (см. параграфы 11.11 и 29.3), с помощью ортогонального преобразования п-\ Q можно привести к виду 2 & следовательно, эта форма имеет ранг 1 и — I. Далее, Q, есть сумма квадратов г линейных форм L{ = г — У~п^-(Х1 — х). удовлетворяющих тождеству 2 V*""/?/== О, так что, согласно параграфу 11.6, Qt имеет ранг <: г—1. Аналогично, Q2 есть сумма квадратов я линейных форм L^ — x^—-3с,-. . удовлетворя- ющих г независимым соотношениям 2^//==^ (/=1,2,..., г), сле- довательио, Q2 имеет ранг =^я — г. Но, по параграфу 11.6, ранг Q не превосходит суммы рангов Qj и Q2, и отсюда следует, что ранги двух последних форм в точности равны, соответственно, г—1 и л — г, так что мы имеем следующее соотношение между рангами форм C6.2.1): и— 1 =(г- 1)-4-{я— г). Отсюда мы заключаем, согласно параграфу 11.11, что существует ортогональное преобразование л величин xtj в новые величины yt, . •. t yn, такое, что три члена в C6.2.1) преобразуются в соответствующие
члены соотношения я—t г—л я—1 2^2^+2У По нашей гипотезе, величины x(j независимы и распределены нормаль- нормально с общим стандартным отклонением а, и, следовательно, по параграфу 24.4 (см. также упражнение 16, стр. 351), то же справедливо для вели- величин уг Таким образом, Qx и Q2 независимы. Предположим сначала, что верна нулевая гипотеза, т. е, что т{ = m для всех I. Полагая Хц-=т-\-Ьц, мы получим независимые и нор- нормальные @, а) величины $/у-. Вводя это преобразование в Q, Q, и Q2 и обозначая через ?;. и ? средние арифметические, соответ- соответствующие X/. и х, преобразуем три формы в идентичные выражения, в которых вместо буквы х повсюду будет стоять ?. При указанном выше ортогональном преобразовании величины ltj заменятся новыми величинами гй, ... ,7jn, независимыми и нормальными @,о). При этом л-1 г~1 п-\ Q. Qt и Q2 примут соответственно вид 2 ч'' Sri' " Srj'- ^ СИЛУ 11 г параграфа 18.1, мы видим, что ^-, ^ и ^ имеют распределение $*, соответственно, с я—1, г-\ и п — г степенями свободы. Полагая i=A иы. таким образом, имеем 4 Дисперсионное отношение е%г == -ь можно записать в виде So n — r
Так как т\, независимы и нормальны @, а), величина z имеет рас- распределение, полученное Р. Фишером; оно определяется плотностью ве- вероятности A8.3.5), где вместо т и п следует взять соответственно т—1 и я — г. В частности, среднее значение и стандартное откло- отклонение величины егг даются формулой A8.3.4). Имеются таблицы пре- пределов значимости для е"г и г при различных значениях уровня зна- значимости е—j^q (Фишер [13], Фишер — Иэйтс [262], Снедекор [35], Боннье-Теден [8]). „Критерий г", введенный Фишером, заключается в том, что нулевая гипотеза отвергается с точки зрения /7-процент- /7-процентного уровня значимости, когда \z\~^>zp, где zp определяется так, что Нулевая гипотеза, очевидно, является сложной гипотезой (см. пара- параграф 35.2), связанной с параметрами mv ... , mr и о, именно гипотезой, что все тл,- равны одному и тому же значению /я, о котором никаких предположений не делается. Каковы бы ни были значения т и з, ве- вероятность отвергнуть нулевую гипотезу в случае, когда эта гипотеза в действительности верна, равняется P(\z\~^>z„) = ?. Таким образом критическое множество, соответствующее критерию г, подобно про- пространству выборок, и критерий z есть критерий уровня е в соответ- соответствии с определением, приведенным в параграфе 35.5. Вычисления обычно располагают в такую таблицу: Изменчивость Между группами Ннугри групп Суммя Число степеней свободы /¦ - 1 л — г п — \ Сумма кяйдрятоп г q --= 2 2 <•*// - *)! Среднее квадратов 1 г — 1 / п— г 5 "л-1 Каждое из трех чисел в столбце „средних квадратов" при нуле ной гипотезе лает несмещенную оценку для дисперсии совокупности а2,
и критерий z можно считать критерием совместности независимых оценок s\ и s\. Теперь перейдем к рассмотрению случая, когда нулевая гипотеза неверна, т. е. когда групповые средние значения не равны друг другу. Полагая xij=ml-\-^lJ, где ?,у—независимые и нормальные (О, 9) величины, получим B,. - х*)=(С. — ?)а + 2 {т,—т) (%. - Г) + (/«,- - mf где 5/. и S определяются так же, как и выше, а от — IV »/W( " 1 Подставляя эти выражения в Q, и Q2, обнаружим, во-первых, что Qt имеет то же самое распределение, как и в случае, когда нулевая гипотеза верна. Далее, получаем (см. Эрвин [133]) = E или Правую часть последнего равенства можно считан» мерой изменчи- изменчивости неизвестных групповых средних значений /я,.. Таким образом, (r-l)(^_s|) несмещенную оценку для этой меры дает число —, ко- которое можно вычислить по исходным данным. Наконец, для любого заданного l-ф} величина ?,. — Xj нор- мяльна 1/я, — т.-, а V '-} . Записывай V ' r tlitlj I Xj. Xt. \Х$• ~~~ X) \Xj. *™-* X) и замечая, что указанное выше ортогональное преобразование, заме- заменяющее хн на у/, превращает каждую разность х{.—х в линейную комбинацию величии у\, ... , уг, убеждаемся, что xt. — Xj. незави- независимы от Qj. Отсюда следует, что величина Я/ -f »f ' S,
имеет распределение Стьюдента ей — г степенями свободы. Работая с р-процентным уровнем значимости, мы получаем, таким образом (см. параграф 34.4), доверительные пределы для разности между двумя неизвестными групповыми средними значениями: C6.2.2) ^.-- / В частном случае, когда имеется лишь две группы (г=2), эти пре делы совпадают с доверительными пределами, указанными в формуле C4.4.5) (следует учесть различие в обозначениях!). Если г>2, то мы, конечно, можем применять формулу C4.4.5) для получения дове рительных пределов разности от,— /я,, основываясь исключительно на наблюденных значениях i-й и у-й групп. Однако tp будет тогда иметь лишь и,-(-яу — 2 степеней свободы, так что C6.2.2) со своими я — г степенями свободы будет при том же самом значении р давать, вообще говоря, меньшее значение t , т. е. более короткий доверитель- доверительный интервал. Если нулевая гипотеза верна, то функция мощности (см. параграфы 35.3 и 35.5) критерия z будет иметь значение е. Поведение функции мош- ности, когда нулевая гипотеза неверна, исследовал Тэнг [224], кото- который опубликовал таблицы численных значений этой функции. Эти таблицы можно применять также и в более общих случаях, которые будут рассмотрены в следующем параграфе. Наши Xjj суть я случайных величин, совместное распределение которых содержит г-j-l неизвестных параметров щ, ... , тг и з8. Совместной плот- плотностью вероятности является . -й. s i>j-««> Проблема оценки параметров по выборке, состоящей из одного наблюден- наблюденного значения каждого хц, является примером обобщенной проблемы нахождения оценок, рассмотренной в параграфе 32.8. Соотношения E(xt.) = т( и ?(*2)~5г показывают, что числа Те^. ~хг.п ^являютсянесмещенными оценками для параметров. С помощью соотношения C2.4.1), должным обра- образом обобщенного, как это указано в 32.6 — 32.8, мы обнаруживаем, что эти числа являются также совместно-достаточными оценками. Далее, с по- помощью некоторых вычислений можно убсяиться. что совместная эффектив- эффективна cm i> зт.ч иконок раина -—- ,
36.3. Обобщение *>. Предыдущие рассмотрения можно обобщить на случаи, когда наблюденные величины расположены в более слож- сложную систему групп и подгрупп различных порядков. Вообще говоря, величины при этом снабжаются двумя или большим числом индексов, ио для целей настоящего параграфа достаточно сохранить для вели- величин х1,...,хя обозначение параграфа 36.1. Как и прежде, мы предполагаем, что величины дг, независимы и нормальны (/и,, а), при- причем а не зависит от /. При каждой системе группировки, используемой в данной частной задаче, можно рассмотреть суммы квадратов отклонений, более или менее подобные суммам Q, и Q2 предыдущего параграфа, и таким способом часто удается получить соотношение такого же вида, как и C6.2.1): {36.3.1) 2 (*< - *)' = <?, + Q, г ••¦+<?*• где Qk — суммы квадратов некоторых линейных форм от хс, причем выполняется соответствующее соотношение между рангами г, квадра- квадратичных форм Q/. n—\=rt-\-r,4~... + гА. Как и в предыдущем параграфе, мы видим (см. параграф 11.11), что существует ортогональкое преобразование, превращающее Qv ... , QA. н суммы соответственно г,, ... , rk квадратов у2., причем никакие две (?, не содержат общей переменной у{. Из независимости величин у{ вытекает, что и Q,, ...., Qk независимы. Предположим теперь, что требуется проверить гипотезу И, со- согласно которой неизвестные средние значения т, удовлетворяют неко- некоторым линейным уравнениям. Разложение полной суммы квадратов C6.3.1) часто можно устроить таким образЪм, что если гипотеза Н верна, то две из форм Qv, скажем, Q, и Q,, обращаются в нуль при замене всех х{ соответствующими w,-. Так, например, в случае, рассмотренном в предыдущем параграфе, проверяется гипотеза ш,= ¦= тг = ... -= тг, где тг — групповые средние, и если гипотеза Н *) Я воспользовался здесь неопубликованной рукописью Г. Андерсона, любезно предоставленной в мое распоряжение автором. Изложение этой тео- теории с аналогичных, но более общих точек зрения, читатель найдет в работах Колоджейчнка [140а] и Тэнгп [224]..
верна, то, как легко видеть, формы Qt и Q2, определяемые формулой C6.2.1), обе обращаются в нуль, если все переменные заменить их средними значениями. Предполагая, что гипотеза Я верна и что разложение C6.3.1) устрое- устроено описанным выше образом, заменим в Q, и Q2 x{ на/^-]-?,•. Если неотрицательная квадратичная форма (j(xv ... , хп) обращается в нуль в точке (от,, ... , /я„), то легко видеть, что в этой точке равны нулю также все производные ^-. Таким образом, мы полу- получаем тождество <?v(л,. .•..,*„) = <?,(;,,..., ;я) при v=l,2. Указанное выше ортогональное преобразование превращает Q, н сумму г, квадратов 2 т?г Где ти — независимые и нормальные @, а) величины; аналогично преобразуется форма Q2. Таким образом, при гипотезе Н величины Q, и Q, независимы и имеют распределения Is соответственно с г, и г2 степенями свободы. Нсли ввести средние квадратов ,.2 2l с2 ^ и дисперсионное отношение то получим ?E^)~- Е(^) = а'г, и z будет иметь распределение Фишера, приведенное в параграфе 18.3. Таким образом, для проверки гипотезы Н можно использовать критерий z. Если гипотеза Н неверна, то можно вынести такие же резуль- результаты, как и в предыдущем параграфе. 36.4. Случайные блоки. Теперь покажем применение изложен- изложенной теории к некоторым случаям, имеющим большое практическое значение. Будем пользоваться терминологией, заимствованной из сель- сельскохозяйственных приложений, но такие же экспериментальные приемы могут быть использованы во многих областях исследовательской работы, например, в биологин и др. Рассмотрим-эксперимент, состоящий в том, что сравнивается эффек- эффективность г различных способов обработки земли, засеиваемой неко- некоторой сельскохозяйственной культурой. На имеющейся площади мы
выделяем s участков („блоков") одинаковой площади; каждый блок разби- разбиваем на г равных делянок, каждую из которых обрабатываем одним из г различных способов, распределив их случайным образом. Тогда каждый блок будет содержать по одной делянке, обработанной каждым способом, и каждым способом будет обработано 5 различных делянок. Пусть x(j обозначает вес урожая, собраннбго с делянки, обрабо- обработанной /-м способом и принадлежащей к /-му блоку. Предположим, что X/j независимы и нормальны (m(j, а) и положим X Г Г S — j_ у* -_J_V — — J- V V **'— я ~* "*'/' X'i—" г ~> ХЧ' Х— rs ' '^ X'J' у—1 /=rl i—\ /=1 Таким образом, х;. и x.j яв;>яются выборочными средними значениями соответственно для 1-го способа обработки и для J-io блока, а х есть общее среднее значение. Тогда легко проверить тождество C6.4.1) ? 2 (*,/ — *)' = * S (*,-¦ — *)' + »• S r s Л- S 2 (xtJ - xt. — x.j + xy- ^ Q, -\-Q,-\ S J- н соответствующее соотношение между рангами «—l=(r—l) + (s—1)-f(r—1)(s—1). Отсюда, так же как и н предыдущем параграфе, заключаем, что Qv Q2 и Q., независимы. Q, и Q, называются суммами квадратов отклонений соответственно „между способами обработки" и „между блоками", a Q3 обычно называется, по причинам, которые будут изложены ниже, „суммой квадра- квадратов, созданной ошибкой". Численные значения можно расположить в таблицу так же, как это было показано н параграфе 36.2. Различие средних значений mtJ может быть вызвано неоднород- неоднородностью почвы и различием в способах обработки. Благодаря случай- случайному распределению способов обработки в каждом блоке можно предполагать, что влияш.е неоднородности почвы внутри каждого блока сказывается лишь в случайных частях величин Хц. Таким обра- образом, любая разность между двумя /н(/, относящимися к одному и тому же блоку, вызывается различием в способах обработки, и мы
предполагаем, что m,y=/,-f-fy, где ft зависит только от способа обработки, a bj—только от участка. Будем коротко называть f{ .эффектом обработки" и Ь}—.эффектом блока". При этих пред- предположениях мы увидим, что Qt обратится в нуль, если все xt, заме- заменить их средними -значениями, так что 9* имеет распределение %2 с (г—l)(s—1) степенями свободы. Следовательно, среднее квадратов дз = (г_ь?>_1) является несмещенной оценкой для о8, что и оправ- оправдывает введенную выше терминологию. Проверим гипотезу Н о том, что между способами обработки де- делянок нет различия. Если гипотеза И верна, то можно при всех / положить ft = О, так что m{j = bj будет зависеть лишь от номера участка /. В этом случае обе формы Qt и Q8 обращаются в нуль, если все xi} заменить их средними значениями. Вводя среднее квад- квадратов s\=~-r, можно, согласно предыдущему параграфу, проверить гипотезу Н применением критерия z к дисперсионному отношению Если гипотеза Н неверна, то можно показать, как и в параграфе 36.2, что число r~ {s\— s^j является несмещенной оценкой для дис- персии —\\ (ft—/J среди неизвестных эффектов обработки. Далее, для каждого / ф] мы получаем доверительные пределы для неизвестной разности /,—/у между эффектами /-го и /-го способов обработки: Здесь следует взять t с (г—1)(*—1) степенями свободы. Если нам пришлось отвергнуть гипотезу Н, может потребоваться проверить другую гипотезу Hv согласно которой различие между способами обработки создается исключительно за счет одного спо- способа, скажем, способа с номером / = 1, в то время как между осталь- остальными способами различий нет. Если гипотеза Ht верна, то можно положить /,= ... =/г = 0, в то время как /, может отличаться от нуля.
Пусть Jf.B...r) обозначает общее выборочное среднее значение для способов обработки 2, ... , г: Сумма квадратов „между способами обработки• Qv появившаяся в формуле C6.4.1), может быть разбита на части в соответствии с тождеством которое дает соотношение между рангами QJ и Q[ можно считать суммами квадратов соответственно „между группой 1 и объединением групп 2, ... , г* и «между группами 2, ... , г". Введя это выражение в C6.4.1), мы обнаружим, что если гипотеза //, верна, то обе формы Q^ и Qt обращаются в нуль, когда все величины xtJ заменяются их средними значениями. Вводя средний квадрат *J2= _]2, мы, таким образом, сможем проверить гипо- тезу //,, применяя критерий г к дисперсионному отношению ем = —g. Для неизвестного эффекта обработки /j получаем доверительные пределы ¦Х.( где, как и прежде, t имеет (г—1)($—1) степеней свободы. Другие гипотезы подобного рода, срязанные со свойствами раз- различных эффектов обработки, могут быть проверены аналогичными методами. Требуемые неравенства находятся, как правило, без труда. 36.5. Латинские квадраты. С помощью метода случайных бло- блоков мы пытаемся исключить влияние неоднородности почвы, чтобы осуществить несмещенное сравнение эффективности способов обработки
(или влияния вида животных и т. п., в зависимости от случая), ко- которые применялись в пишем эксперименте. Более полное исключение плииния неоднородности обычно достигается с помощью метода ла- латинских квадратов. Рассмотрим г2 делянок, занумерованных посредством двух индексов к квадратную схему. Допустим, что к этим делянкам были применены г различных способов обработки так, что каждый способ был применен к одной делянке каждого столбца и каждой строки. Предположим, что для нашего эксперимента случайно выбрано одно такое расположение способов обработки из многочисленных возможных расположений, удовлетворяющих поставленному условию и известных под названием латинских квадратов*). Обозначим через л:,...вес урожая, собранного с делянки в /-й строке и у-м столбце, и пусть ~xt. и 7с.j— средние значения строк и столбцов, ~xk — среднее значение для делянок, обработанных А-м способом, и х— общее среднее значение. В этом случае имеем тождество 2 2 (*</ -- * J=г 2 < х>, — *)- +г 2 Ъ ¦ ~ * J+ I j A / где вес суммирования производились по значениям индексов от 1 до г, а в каждом слагаемом из Q4 индекс h должен соответствовать спо- способу обработки, применявшемуся на делянке (/, /'). Соотношение между рангами имеет здесь следующий вид: Предположим теперь, что среднее значение E(xij)^=m!j состоит n:t „эффекта обработки" /л и из другой части, вызванной неоднород- неоднородностью почвы и состоящей из „эффекта строки" /\ и „эффекта столбца" Cj. Тогда 'я(, = /Л-4-Л"-Ь<7> "> как н прежде, мы обнару- обнаруживаем, что Q4 имеет распределение у3 с (г—\)(г — 2)" степенями скободы, так что средний квадрат sj = __ * __ является несме- несмещенной оценкой для общей дисперсии о2 величин xtj. Табличное рас- расположение данных имеет здесь следующий вид: *' Таблицы таких распи.южешш приведены в книге Фишера и Иэйтса {262].
Изменчивость Между способами обработки Между строками Между столицами Ошибка Сумма Число степеней свободы Г—1 Г— 1 Г— 1 (г~\)(г-2) г2 —1 Сумма квадратов С» Q Среднее хпэлратав *!'— Г— 1 — Гипотезу о том, что не существует различий между способами обработ- обработки, можно проверить, применяя критерий г к дисперсионному отношению *м = —j. В случае, когда эта -гипотеза отвергнута, можно оценить дисперсию среди эффектов обработки и разность между двумя эффектами обработки такими же методами, как и в предыдущем параграфе. Таким же образом можно проверять и другие гипотезы, связанные со свой- свойствами величин /Л. Мы рассмотрели здесь лишь простейшие случаи дисперсионного анализа. За другими сведениями по теории схем экспериментов hi но вопросу об обобщении на случай одновременного анализа нескольких величин (.«анализ смешанных вторых моментов") мы отсылаем чита- читателя к книгам Фишера [13], [14], Снедекора [35], Бониье и Теденл [8J. ГЛАВ А 37 НЕКОТОРЫЕ ПРОБЛЕМЫ РЕГРЕССИИ 37.1. Проблемы, содержащие неслучайные величины. В прак- практических приложениях очень часто встречаются проблемы, п которых изучается случайная величина у, зависящая от некоторого количества неслучайных переменных xv ... ,хп. В экономической и социальной статистике значения лг, появляются, как правило, просто как заданные в наших статистических данных неслучайные числа. С другой стороны, в экспериментальных работах значения х{ часто могут быть произвольно выбраны экспериментатором. В обоих случаях х{ играют роль неременных
параметров, входящих в распределение величины у, и наши ста- статистические данные состоят из множества наблюденных значений у, каж- каждое из которых соответствует известным значениям переменных х,. Кроме известных параметров хA распределение величины у может, конечно, содержать также некоторые неизвестные параметры. Предположим, например, что мы исследуем количество у товара А, потребляемого иа данном рынке, и цены xv ... ,хп самого товара А и некоторого количества других товаров. Может казаться законным считать у случайной величиной с распределением, определяемым ценами х1 хп, причем явления, обусловливающие значения цен, могут и не походить на случайный эксперимент. Тогда х{ следует считать просто заданными числами в наших данных. С другой стороны, предположим, что исследуется влияние качества сырья и применяемого технологиче- технологического процесса, характеризующихся величинами *,,..., хп, на про- производительность v некоторой фабрики. Тогда можно выбирать под- подходящим образом системы значений величин х{ и наблюдать соот- соответствующие значения у. Как и прежде, у будет здесь считаться случайной величиной, распределение которой содержит параметры х{. Теория средней квадратической регрессии, развитая в главах 21 и 23, применима, с некоторыми видоизменениями, и к настоящему слу- случаю. Для случая же, когда зависимая величина у распределена нор- нормально и ее среднее значение является линейной функцией от вели- величин xt, Фишером [92], [97] и Бартлетом [54] было показано, что некоторые коэффициенты регрессии имеют выборочные распределения, сходные с распределениями, выведенными в параграфах 29.8 и 29.12; на этих распределениях можно основывать критерии значимости таким же образом, как это было показано в параграфе 31.3 (примеры 6—7). Некоторые результаты Фишера и Бартлета мы изложим в ближайших двух параграфах. 37.2. Простая регрессия. Задана выборка, состоящая из я наблю- наблюденных пар значений (*,, уг), ... ,{хп<Уп>- Для выборочных моментов будем употреблять обычные обозначения х, у, т2а и т. д., введенные равенствами B7.1.6) и B7.1.7). Однако теперь мы предположим, что х — неслучайная величина и что при каждом фиксированном * случай- случайная величина у имеет нормальное распределение со средним значением a -j— ^ (jc — х) и стандартным отклонением а, где а, fi и а — неизвест- неизвестные параметры, не содержащие х. Таким образом, выборочные моменты,
содержащие только xt, как, например, х, ща =s? и т. д., следует счи- считать не случайными величинами, а просто заданными постоянными. С другой стороны, все величины, зависящие от yt, как, например, у, тт=$1, mlt = rs1si и т. д., суть случайные величины. Величины у{ мы будем предполагать независимыми. Оценки максимального правдоподобия (см. параграф 33.2) для а, р и а находятся с помощью минимизирования совместной плотности веро- вероятности величин у;, которая равняется Можно показать, что оценками для а и {J являются значения этих пара- параметров, при которых сумма квадратов в показателе достигает своего наименьшего возможного значения. Отсюда получаем оценки а*=у, й*= 1{jc»-^^L~y) = Щх а оценка максимального правдоподобия для а определяется равенством 1 Как линейные функции от у{ величины а* и р* обе распределены нор- нормально, и мы получаем \ Далее, имеем тождество C7.2.1) =S [Л—а — Р (Л/—*)}*—я (а* — аJ — *?я (Р*— Р>*- Полагая убеждаемся, что величины ij, независимы и нормальны @, а) и что ли- линейные формы -*> Ч,
удовлетворяют условиям ортогональности A1.9.1). Записывая тожде- тождество C7.2.1) в виде л 1 мы сможем примени м. лемму Фишера (см. параграф 29.2) и убедимся, что а*, [}* и о* независимы и что -^- распределена подобно xJ с я — 2 степенями свободы. Следовательно, согласно параграфу 18.2, величины и имеют распределение Стыодента с я — 2 степенями свободы. Относи- Относительно коэффициента регрессии |$* этот результат формально совпа- совпадает с уже полученным (см. B9.8.4)) результатом для случая, когда обе величины х и у суть случайные величины с нормальным совмест- совместным распределением. Поскольку sv a*, '}* и а* известны, можно использовать по- полученный результат для проверки любых гипотетических значений аир и для вывода доверительных пределов для этих параметров таким же образом, как это было показано в случае среднего значения обычного нормального распределения в параграфах 31.2 и 34.4. В частности, мы обнаруживаем, что коэффициент регрессии jj значимо отличается от нуля с точки зрения /^-процентного уровня значимости, если | 0* | ^>—f * 1 п i 1 п — 2 где tp следует взять ел — 2 степенями свободы. Наконец, нам может понадобиться оценка для неизвестной ординаты линии регрессии в какой-нибудь ладанной точке X. Можно показать, что величина t— имеет распределение Стыодента с и— 2 степенями свободы, так что ^-процентными доверительными пределами для К служат C7.2.2)
37.3. Множественная регрессия. Теперь перейдем к случайной величине у, среднее значение которой есть линейная функция от k неслучайных величии Хи ... , хк. Предположим, что задана выборка в я независимо наблюденных точек (у,г хи, ... , х^), где v = 1, 2,.... и. Для выборочных моментов будем употреблять, обозначения, введенные в параграфах 27.1 и 29.9, полагая, например, и соответствии с B9.9.2)i , — *,), (/,/==1,2,...,, и, далее, рассматривая у как иеличину х„, п 4=1 Через L и Ltj- обозначим соответственно детерминант mi • • • м п его алгебраические дополнения. Будем предполагать, что Предположим теперь, что при любых фиксированных значениях дг,, ... ,xk случайная величина у имеет нормальное распределение со> средним значением C7.3.1) E{y)=ra-\-'i.(x,—: и со стандартным отклонением з. Можно показать, что оценками мак- максимального правдоподобия а* и <? (/'=!, 2, ... , k) являются значения а и jj,-, при которых сумма п 2 [Л —а — ?. (¦*-,., — *i)— ¦ • ¦ — h (**, — -7*>J'J достирает своего наименьшего нозможного значения. Отсюда получаем оценки C7.3.2) а*=й Р7=4- Х'оу^/у. (/=1,.-.*), '/=-1
а оценкой максимального правдоподобия для 9* является C7.3.3) ••• = — &*(**,— **)?= «0.12...*. где 4-12... а — выборочное значение остаточной дисперсии (см. параграфы 23.3 и 29.12) величины у относительно xv ... , xk. Будем предполагать, что эта величина положительна, т. е. что наблюденные значения у не могут быть точно представлены линейной функцией от х,. Как линейные функции от уч величины а* и ?* имеют нормаль- нормальные распределения. С помощью некоторых вычислений мы получим следующие средние значения и центральные моменты второго порядка: ?(а*) = а, * C7.3.4) ?(а*-а)« = ?, где /, /'= 1 к. Отсюда получим, в частности, в силу формулы B3.3.4), и аналогичные выражения для D2 ((!/), / = 2,. . . ,к. Далее, можно показать, что величина а* независима от величин о* * яо*2 и Р/ и что —?- имеет распределение %3 с п — * —' степенями сво- боды. В частном случае, когда матрица L — \?• • • > — диаго- нальная, это можно доказать, непосредственно обобщая метод, исполь- использованный в предыдущем параграфе. Действительно, выражения К"(а* — а) и s,VH (P*—{$,) суть линейные формы от переменных »), = Л — a — Pi(*b —*i)— •••—?*(**»—**)> и если i есть диа- диагональная матрица, то эти формы при / = I, ... , к удовлетворяют условиям ортогональности, так что лемму Фишера можно применять так же, как и выше. В общем случае сначала следует заменить величины
х( новыми величинами xt с помощью ортогонального преобразования, при котором матрица вторых моментов для новых величин будет диа- диагональной (см. параграф 22.6). Применяя к величинам В, контрагредиент- ное преобразование (см. параграф 11.7), мы сможем закончить дока- доказательство так же, как и в рассмотренном частном случае. Отсюда следует, что величины a* — a <. / ; ; a* — a «• -' " " * *„.„..., ' и аналогичные величины с Вг,- ... , В* все имеют распределение Стью- дента с л — Л—1 степенями свободы. Относительно В< этот резуль- результат непосредственно соответствует результату B9.12.1). Как и прежде, мы можем теперь вывести критерии значимости и- доверительные пре- пределы для неизвестных параметров а и В,. Мы можем получить также совместный критерий для множества гипотетических значений коэффициентов регрессии Вр ... , 0А. Из вы- выражений C7.3.4) для моментов нормально распределенных величин В< следует (см. упражнение 15, стр. 351), что величина нмеет распределение у* z k степенями свободы. Следовательно, вели- величина распределена так же, как дисперсионное отношение (см. параграфы 18.3 и 36.2) с к степенями свободы в числителе и я — k — 1 степенями свобо- свободы в знаменателе. Если задано множество гипотетических значений Вр • • • . ВА, то число егг можно вычислить по нашим данным, так что для проверки предложенных значений В,- можно использовать таб- таблицы распределения г. Предположим, в частности, что требуется проверить гипотезу о равенстве нулю всех коэффициентов регрессии: Bt = В, = ... = ВЛ=0.
Из C7.3.2) и C7.3.3), после некоторых вычислений и нспользу» B3.5.2) и B3.5.3), получим 2 где ГоA2. ..д) — сводный коэффициент корреляции между выборочным* значениями величин j; и (х,, ... , хй).Тогда из параграфов 18.3 и 18.4 сле- следует, что ГоA2...*) имеет бэта-распределение с плотностью вероятности {$ (х; -„-, п ~ ~ ] . Таким образом, указанный выше критерий в этом частном случае совпадает с основанным на распределении B9.13.8) критерием для гипотезы о том, что сводный коэффициент корреляции значимо отличается от нуля. Для ординаты 2 + 2М^ — *») линии регрессии в какой-нибудь данной точке (Хг, ... ,ХЛ) мы получаем в качестве непосредственного обобщения формулы (Я7.2.2) р-процентные доверительные пределы k C7.3.5) я*+ 2 #(*#-*/):+: 1 /,/—1 где tp следует брать с я — k—1 степенями свободы. В заключение сделаем три замечания, имеющие большое значение но многих прило- приложениях: 1. Не будем предполагать, что у имеет нормальное распределение, а пред- предположим лишь, что при любых фиксированных значениях дг/ среднее значе- значение у определяется линейным выражением C7.3.1), а стандартное отклонение исегда равняете» е. При этих более общих предположениях можно показать, что оценки C7.3.2) для параметров аир/ являются наилучшими (т. е. имеют наименьшие дисперсии) среди всех несмещенных оценок, являющихся линей- линейными функциями от нлблюденпых значений V.,. Дисперсии н смешанные вто- рые моменты этих оценок уже даны формулами C7.3.4), а является несмещенной оценкой для с Далее, наилучшей линейной несмещенной оцен- оценкой для ординаты линии регрессии в какой-нибудь данной точке (А\, ... , А*)
является а*4-2 $i W' — ~*й' " ст'шДаРтная ошибка этой оценки равна коэф- 1 фициенту при tp в формуле C7.3.5). Это утверждение эквивалентно классической теореме о наименьших квадратах, полученной Марковым и другими авторами. Доказательство читатель сможет найти, например, у Неймана и Дэвида [169]. 2. Рассмотренные в настоящем параграфе величины .г,-могут быть любыми величинами, зависящими друг от друга или независимыми, но удовлетворяю- удовлетворяющими единственному условию L Ф- О, которое означает, что я точек (ху,,.. .дсА„) не могут лежать на одной гиперплоскости в ^-мерном пространстве перемен* пых Х(. В частности, все х,- могут быть функциями от одной независимой переменной х. Предположим, например, что дс,- есть полином />,-(¦*) степени /. Тогда поставленная выше проблема является проблемой параболической ре- регрессии (см. параграф 21.6). Если полиномы р{(х) удовлетворяют условиям ортогональности, которые в этом случае имеют вид, указанный в примере 3 параграфа 12.6, то рассмотренная выше матрица L является диагональной и все вычисления значительно упрощаются, как мы видели это в аналогичном случае, рассмотренном в параграфе 2Г.6. 3. Если условие L Ф О не выполняется, то дисперсии и смешанные вто- вторые моменты величин \i становится бесконечными или неопределенными, как это видно из C7.3.4). Если /, очень мало, но не равно точно нулю, то точки {хи, ... , хкУ1) лежат .почти" на одной гиперплоскости. В этом случае в наших формулах для доверительных интервалов и т. и. могут появиться очень большие коэффициенты или коэффициенты, являющиеся отношениями очень малых чисел. Небольшие ошибки в данных или в вычислениях, неболь- небольшие отклонения от нормальности и т. д. будут при атом оказывать большое влияние на результат, так что здесь рекомендуется особенная осторожность. Такое явление часто имеет место, когда х( связаны очень сильно, что часто ] аЗлюдается в экономических данных. Методы, которые следует применять дли анализа регрессии с данными такого рода, неоднократно дискутировались мно- многими авторами, особенно в связи с проблемами, которые будут рассмотрены в следующем параграфе. Мы рекомендуем читателю в этом отношении, напри- например, обширную работу Шульца [34J и статьи Фриша [IK5J, [114] и Водьда 1Щ, [248]. 37.4. Дальнейшие проблемы регрессии. В некоторых приложе- приложениях теории регрессии, например, г. психологии и п экономике, мм имеем дело со множеством случайных величин дг,, ... ,.vm, которые можно представить и виде xl=auut-\-...-\-alnua-\~vl, C7.4.1) ! +
где ш>я н и ил, vi> • •• >vm СУТЬ mJrn некоррелированных случайных величин, причем А = Атп = \а^} — матрица ранга л. В психологии, в факторном анализе человеческих способностей, величины xv ... ,хт представляют собой измерения т различных дан- данных способностей некоторого лица, uv...,un — более или менее .общие" факторы интеллигентности и v1,...,vm—„специальные" факторы, связанные с отдельными способностями. Основные проблемы в этих случаях обычно связаны с возможностью представления данного множества величин xt в виде C7.4.1) и с существованием и количеством ,общих" факторов Uj. С другой стороны, в некоторых экономических проблемах имеются теоретические основания предполагать, что рассматриваемые величины удовлетворяют некоторым линейным (или приближенно линейным) соот- соотношениям. Однако часто эти величины нельзя наблюдать непосредственно, так как появляются „ошибки" или „возмущения". Вместо „систе- „систематических составляющих" вышеуказанных величин х{. между которыми имеется т — п линейных соотношений, мы можем наблюдать лишь сами величины x[t определяемые формулами C7.4.1), где vi представляют собой „возмущения". Основные проблемы здесь связаны с нахождением оценок для коэффициентов линейных соотно- соотношений между систематическими составляющими х). Проблемы такого рода настолько тесно связаны с частными при- прикладными областями, что мы не можем заниматься их полным исследо- исследованием в нашей книге. Приложения к психологин, относящиеся к этому кругу идей, были впервые исследованы Спирменом. В этом отношении мы отсылаем читателя, например, к обзорам Спирмена [35а] и Том- сона [37а]. Описанные выше экономические проблемы вызвали построение Фришем [114] конфлюэнтного анализа, который получил дальнейшее развитие и был приведен в связь с теорией выборок и оценок в работах Купиена [142], Рейерсоля [207] и других авторов. Выведем здесь лишь одно простое свойство матрицы вторых мо- моментов А для множества величин xlt...,xm, которые можно пред- представить в виде C7.4.1). Без ограничения общности можно предположить, что единицами измерения величин xit Uj и vt служат их средние зна- значения и что при всех/ Е(и/) = 1. Положим ?(г>/) = о? и обозначим
через 2 диагональную матрицу с диагональными элементами ап ... , от. Тогда, согласно параграфу 22.6) имеем Если все <Jt положительны, то матрица вторых моментов А имеет ранг т, так что распределение величин xv ... гхт собственное (см. параграф 22.5). С другой стороны •>, матрица АА' имеет ранг п<^т. Отсюда сле- следует, что в матрице вторых моментов Л любой минор порядка ^п-\~\,. не содержащий ни одного элемента главной диагонали **>, равен нулю. Непосредственно видно, что этчм же свойством обладает корреляционная матрица Р={р/у} величин xv ... ,хт. Эта теорема была получена Терстоном. Рассмотрим частный случай л = 1 (в приложениях к психологии этот случай соответствует наличию лишь одного .общего" фактора). Тогда коэффициенты корреляции р, соответствующие любым четырем различным индексам л, /, j, k, удовлетворяют тетраэдному соотно- соотношению: I ?hj Рл* hi bt, *> По 11.6, ранг АА' не превосходит л, и легко видеть, что в этой мат- матрице имеется хотя бы один минор порядка л, не равный нулю. ¦*) Следуег указать, чго миноры, удовлетворяющие этим условиям,, су- существуют лишь тогда, когда Ъ\2^
Таблица 1 НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ (см. гл. 17) -,/t, ,W = <l.'(.r) = -le - ,. —ОС if(^(x) = { — l)*H.l(x)tf(x), где //„(.г) — полином Эрмита степени >. При отрицательных значениях .г функции вычисляются с помощью соотношений .V 0,0 0,1 0,2 0,3 0,4 0,5 0,В 0,7 A,8 0,9 1." 1,1 1.2 1,3 1,4 1.Г. 1.К 1.7 1.Х 1.Н 2,0 2.1 '¦!,- i\:s -',4 2.5 L'.li 2,7 2,S з.о ».i »,2 З..Ч .4,1 »,.-• Я,Г| 3,/ .4,S .1,0 4.0 ФМ 0,50000 0,53883 0,57926 0,61791 0,65542 О.бЭНЧ 0.72575 0,75804 0,78814 0,81594 0,84134 0,86443 0,88493 0,90320 0.91924 0,33319 0,94520 0,95R« 0,96407 0,97128 0,97725 0,98214 0,98610 0,98928 O.S'ilSO 0,99.''79 0.9UR34 (),99!i"K 0.9H744 0,'JWia D,tfH8(i."i 0,59903 0,99931 0,99952 0,99960 0,99977 0,99984 0.1Ж.89 0.99993 0,9999'j '1.9Я9П7 ?w 0,39894 0,39695 0,39104 0,38139 0,36827 0,35207 0,33322 0,31225 0,'ДШУ 0,26609 0.24197 0,21785 0,19419 0,17137 0,1497». 0,12952 0.110У2 0.0340S 0,0789Г) O.OIiWi! 0,0ЛЗ<19 0,04398 П,0.ЧГ,47 0,02833 0,02239 0.01753 0,01358 0,0104V 0,C0792 0,0059.'i о.оаиз 0,'.CO27 0.0П238 0,00172 0,rt0123 0,00087 0,'HWil 0,00042 0,00029 0,00020 O.'JOnn v (*•) -0,00003 0,03970 0,07821 0,11442 0,14731 0,17603 0,19993 0,21838 0,2317.1 0,i3948 0,24197 0.239K4 0,23302 0,22278 0,20%2 0,19458 OJ17747 0.159H8 0,14211 0.124B7 0,10798 0,09237 0,07R'L o,(wr>ir> 0,ОГ.37Г. 0,04382 0,03532 C1.02M4 и ,0221В 0,01 TM 0,01330 0,01013 0,00763 0,ООП«8 0,00419 0,00.405 Р,(ХЕ20 0,00157 0,00111 0,00077 --0.Р0054 У(х-) | —0,39894 0,39298 0,37540 0,34706 0,30935 0,26405 0,21326 0,15925 0,10429 -0,05056 0.G0000 +0,04575 0,08544 0,11824 0,14374 0,16190 0,17304 0,17775 0,17685 0.171S6 0,16197 0,14998 0,13622 0,121Я2 0,10060 0,09202 0,07824 0,06555 0,A5414 0,04411 0.ОМ45 0,02813 0,02203 0,01704 0,013'Л 0,00'.!82 0,00732 0.С0539 0,00392 0.0U282 +0.0П2Щ ?C)(л.) | +0,00000 0,11869 0,23150 0,33295 0,41835 0,48409 0,52783 0,51863 0,54694 0,52445 0,48391 0,4i89ri 0,36352 0,29184 0,21800 0,14571 0,07809 +0,01759 _0,03411 0,07605 0,107 i.8 0,13024 0.14Й6') 0,14920 0,14834 0,14242 0,13279 0,12071 0,10727 0,09339 0,07977 0.0CU94 0,0552» 0,04485 0,03586 0,02825 0,О21Я4 0,П1«8П ,U «9 0,00946 —O.O0G9fi +1,19683 1,16708 1,07990 0,94130 0,76070 0,55010 0,32309 +0,09371 -0,12468 0,32034 0,48394 0,60909 0,69255 0,73413 0,73642 0,70425 0,E4405 0,56316 0,46915 0,31>928 0,2Ь996 0,17616 0,09274 _0,02141 + 0,03623 0,07997 0,11053 0,12926 0,13793 0,13850 0.1К296 0,1231» 0,11066 0,09690 0,08290 0,06943 0,0570» 0,04599 0,03646 0,02842 +0.02181 ,<6>СО | -0,00000 ' 0,59146 1,14197 1,61420 1,97770 2,21141 2,30517 2,2Ь012 2,08800 1,80951 1,45182 1,04580 0,62301 —0,21300 +0,15897 0,47355 0,71813 0,88702 0,98090 1,00583 0,97184 0,89150 0.77844 0,64604 0,50642 0,36974 0,24376 0,13381 +0,04287 _0,02810 0,07977 0,11395 0,13319 0,14036 0,13840 0,13000 0,11755 0,10297 0,08777 0,07302 - 0.0ЯЯ»2 ?(C)(.V) - 5,98413 5,77625 5,17112 4,22226 3,01241 1,64481 -0,23237 + 1,11354 2,29382 3,23026 3,87153 4,19585 4,21034 3,94753 3,45953 2,81094 2,07125 1,30785 +0,58014 - 0,06467 0,59390 0,68987 1,24885 1,37883 1,39054 1,32421 1,18645 1,00761 0,80970 0,61102 0,42546 0,26242 0,12712 —0,02130 +0,05607 0,10784 0,13802 0,15102 0,15124 0,14264 +0,12861
Таблица II НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ (см. параграф 17.2) Вероятность того, что наблюденное значение нормально распределенной величины € отличается от среднего значения л в ту или иную сторону более чей на взятое X раз стандартное отклонение в, равняется оо dt. Значение \ = \р, соответствующее Р—~ , называетсяр-процентным значе- значен нием нормального отклоиення. X как функция от р jj = 10W> 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1 0,1 0,01 0,0000 0,0627 0.12S7 0,1891 0,2533 0,3186 0,3853 0,4538 0,5244 0.5Э78 0.М45 0,7554 0,8416 0,9346 1,0364 1,1503 1,2016 1,4395 1,6449 1,9600 2,5758 3.2Й05 3,8906 р как функция от X ХР 0,0 0.2 0,4 0,6 0,8 1,0 1,2 1.4 1.6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 р = 100Р 100,000 84,148 68,916 54,851 42,371 31,731 23,014 16,151 10,960 7,186 4,550 2,7«1 1,640 0,932 0,511 0,270 0,137 0,067 0,032 0.014 0,006
Таблица III РАСПРЕДЕЛЕНИЕ I* (см. параграф 18.1) Плотность вероятности *¦„ (л) распределения Xs с я степенями свободы определяется формулой A8.1.3), /(-процентное значение ¦? величины i2 с я степенями свободы опреде- определяется так, чтобы вероятность для наблюденного значения j2 превысить. ¦А равнялась = J ё S! П Xf ка к функция от я и ^ = 100 Р '=99 Я8 95 90 70 50 30 20 10 0,000 0,020 0.115 0,297 0.554 0,872 1,239 1,646 2,088 2,558 3,053 3,571 4,107 4.660 5,229 5,812 6,408 7,015 7,033 8,260 8,897 кипе 0,001 0,040 0,185 0.429 0,752 1,134 1,564 2,032 2,332 3,059 3,609 4,178 4,765 5,368 5,985 6,614 7,255 7,906 8,567 9,237 0.004 0,103 0,352 0,016 0,211 0,584 0.711J 1.С64 1,145 1.610 1,635 2,167 2.733 3,325 3,940 4,575 5,226 5,892 6,571 7,2fil 7,962 2,204 2,833 3,490 4,168 4,8»>5 5,578 6,304 7,04! 7,790 8.547 9,312 0,064 0,446 1,005 1,649 2,343 3,070 3,822 4,594 5,380 6,179 6,959 7,807 8,634 9,467 10,307 8,672 10,083 9,390 10,865 10,117 11,651 10,85ljl2,443 13,240 0,148 0,713 1,424 3,195 3,000 3,828 4,671 5,527 6,393 7,767 8,148 9,034 9.956 10,821 11,721 11,15212,624 13,002 13,531 12,85714,440 13,71615,352 14.578:16,266 11,29313,091 10,856 11,992 13,848 15,659 18,062,19,9-13 11,52412,697 14,611 12.198 12.879 13.5G5 13,409 14,125 15,445 9,915|11,591 10,600 12,338 14.C41 16,314 17,182 18,101 14,84817,187 19,021 16,473 18,B40J20,86' 15,379 17,292 19,820:21,792 25,336 29,246 31,795 35,563, 14,B47|16,SC8 18.9Г.9 21,5S8jS!3,G47 U. 256 15,574-17,70S 19,768 I1 16,151J18.114 20.703J22,719 22,475 24,577 0,455 1.3S6 2,366 3,357 4,351 5,348 6.Г.46 7,344 8.343 9,342 10,311 11,340 12,340 13,339 14,339 15,338 16,338 1,074 2,408 3,665 4.878 6,064 7,231 8,38 9,524 10,656 11,781 1,642 3,219 4,642 5,989 7,289 8.5C8 10,645 12,592 15,033 11,030 13,442 12,899 14.631 14,011 15,119 16,222 17,322 18.418 19,511 23.8Г.8 15.812 16,985 18,151 19,311 20,165 2.706 4,605 6,251 7,779 3,841 5,991 7,815 5,412 7,824 9.837 9,48811,668 ft.236 11,070 13,388 15,086 20,517 12,01714,067 13,362 15,5C 12,242 14,684 16,919 15,587 18,307 17,275 19,675 18,549 21,026 24,054 26,217 19.812 22,332 26,472 ?7,688 34,528 21,064 21,615124,769 27,587 26,171 25,038 28,412 31,410 35,020 9,615 32,671 17,328 20,601 18,338 21,689 23,900 27,204 30,144 19,337|22.775 20,337 21,337 22,337 23,337 24,337 16,622 18,475 18,168 20,090 28,125 19,679 21,666 27,877 21,161 22,618 24,725 31,264 ?3,685 26,873 24,996 28.259 30,578 37,697 23,542 ^6,296 29,633 32,000 30,995 33,409 40,790 22,760j25.SS9 28,869 32,346 34,805 42,312 no nnnm пл1 ¦ЭЛ ЛЛЛ O4 со? О с ллл лч artn зз,68; 24,939 27,301 30,813 33,924 26.018 27,096 S.172 28,429 32,007 35,172 38,968 41,6?8 49,728 26.336 30,319 32,911' ?7,336 31,391 ?8,336 32,461 14,953 16,30GJ;8,49?. '20,589 23,ЗП4|У5,Г<!8 29,436|3'j,530 29,553 33,195 36,415 30,675 34,382 37,652 41,566 28,885 42,856 45,642 34,027 37,916 41 r3?7 45,419 48,278 56,89: 35,139 39,087 42,557 46,693 36,260 40,256 43,773 47,962 50,892 40,270 6,635 10,827 9,210 13,815 1,341 13,277 6,268 18,4fi& 16,812 22,457 24,322 23.209 29,588 29,141 36,123 36,191 37,566 45,315 36,243 38,932 46,797 37,659 40,289 48,268 44,314 36,741 40,113 44,140 46,963 55,476 Г 32,909 39,252 42 ,?80 51.178 52,620 54,0Г>2 49,588 58,30! 59,70:
Таблица IV ^-РАСПРЕДЕЛЕНИЕ (см. параграф 18.2) Плотность вероятности sn (х) ^-распределения с я степенями свободы определяется формулой A8.2.4). /^-процентное значение tp величины ten степенями свободы определяется так, чтобы вероятность Р для наблюденного значения t превзойти по аб- абсолютной величине tp равнялась со р= т = р (''' (x)dx- 4.2 как функция от в и р = 100 Р 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 28 27 58 29 30 40 60 120 оо 0,158 0,142 0,137 о,1:и 0,132 0,131 0.13С 0,131' 0,129 0.12Я 0,12!' 0,11* 0,128 0,123 0,1-7 0,127 0,127 0,12/ 0.Г-7 0,127 0,127 0,117 0,127 0,127 0,127 0,12; 0,127 0,11Ъ 0,116 0,Ub 0,13) 0,32.i 0,2Sft 0,27/ 0,271 0,267 0,26;> 0,164 0,262 0,261 0,'-6t; 0,JK- 0,209 О,'-1-1» 0,25* 0,237 0,S?57 0,257 0,257 0,25? 0,15В О.йб 0.25B 0,1 Gli 0.2LS O.Saf 0,25« 0,25B 0,21,5 0,Г5и 0,1'M 0,55* 0,253 0,510 0,443 0,424 0,414 0,408 0,404 0,402 0,3t9 0,398 0,397 0,:s96 0.?95 0..Ч91 0,393 0,391 (>,3!J 0,392 0,392 0,391 0,391 0,3-il 0,390 0,390 0,390 0,390 0,390 0,389 0,389 0,389 0,389 0.3B8 0,387 0,386 0.?S5 0,727 0,617 0,Ki4 0,569 0,5Г,9 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,5Г?8 0,5:-,7 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0.П31 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,527 0,5^6 0,524 50 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0.706 0,70.1 0,700 0,697 0,695 0,fi91 oi 692 0.Г91 0.6SO 0.CS9 0,6Ь8 о, да 0.687 0,6?6 o.b-sb 0.6S5 0.6S.J 0,Ю4 0,684 0.6S» 0,683 0,683 0,683 0,681 0,1OУ 0.G77 0,674 40 1,376 1,061 0,978 0,941 0,920 0,906 0,806 0,889 0,8X3 0,879 0,87» 0.4.73 0.S70 0,868 0, Soli 0,865 0,863 0,862 0,861 0,800 0.S59 0.S58 0,858 0, У57 O.S-On 0..S56 0,855 0,856 0,854 0,Ь54 0,8о1 0.S48 0,845 0,842 30 20 1,963 1,386 1,250 1,190 1,155 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,0Й) 1,067 1,086 1,064 1,063 1,061 1,060 1,149 1.П5Я 1.Г55 1,0Г,7 1 ,(ГN 1,05Г> 1,055 1,050 1,046 1,041 1,036 3,078 1,! 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,355 1,350 1,345 1,341 1,337 1,333 1,3-п l,.'iL!3 1.3'Л 1,319 1..Ч1К 1,416 1.315 1,314 1,31:» 1..I11 1,310 1,30:! 1,296 1,589 1,282 10 6,314 2.920 2,353 2,132 2,015 1,913 1,895 1,8о0 1,833 1.812 1,793 1.7К2 1,771 1,761 1,753 1,7-15 1,740 1,734 1,729 l,7L'o 1,721 1,717 1.714 3,711 1,708 1,706 1,703 1,701 1.6Г9 1.G97 1,684 1,671 1,658 1,645 12,706 4,303 3,182 2.77U 2,571 2,447 2,Я(и 2,306 2,262 2,S2S 2.201 2,179 2,1<j'> 2,145 2,131 2,1::о 2,110 2,101 2,093 2,(.Sii 2,CS(i 2,074 2,069 2,C84 2,060 2.C56 2,052 2.048 ?,045 2,042 2,021 2,000 1,980 1,960 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2.E9H 2,821 2,764 2,718 2,681 2,650 2,6L'4 2.602 2,583 2,567 2.55'-> 2,549 2,5'J8 2,518 2,508 2,500 2,492 2,485 2,47'J 2,473 2,-!87 2,41B 2,457 2,41V 2.3S0 2,:'3S 2,326 63,65' 9,925 5,841 4,604 4,032 3,707 3,49» 3,355 3,250 3,11.9 3:106 3,055 3,012 2,377 2,947 2,921 2,898 2,Ь78 2,861 2,8*5 2,831 2.S19 2,807 2,797 2.7S7 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,576 0,1 17 636,619 31,598 12,941 8,610 6,859 5,559 5,405 5,041 4.781 4.587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,767 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,551 3,460 3,37.4 3,291
ЦИТИРОВАННАЯ ЛИТЕРАТУРА КНИГИ 1. Alt ken А. С. Determinants and Matrices. University Mathematical Texts, 1. Edinburgh and London, 1944 C-е изд.). 2. — Statistical Mathematics. University Mathematical Texts, 2. Edinburgh and London, 1944 C-е изд.). 3. B6cher М. Introduction to higher Algebra. New York, 1908. На рус- русском языке: Б о хер М. Введение в высшую алгебру. Москва, 1935. 4. Bochner S. Vorlesungen fiber Fouriersche Integrale. Leipzig, 1932. 5. В о h r H. and M о 11 e r u p J. Larebog i matematisk Analyse, I—IV. Kobenhavn, 1938—1942 B-е изд.). 6. Bore 1 E. Lecons sur la theorie des fonctlons. Paris, 1914 B-е изд.). 7. В о г е 1 Е. и др. Traite du calcul des probabilites et de ses applications. Paris, 1924 и далее. 8. Bonnier G. and Те din O. Biologisk variationsanalys. Stockholm, 1940. 9. С h a r 1 i e г С V. L. Vorlesungen Uber die Grundziige der mathematischen Statlstik. Lund, 1931. 9a. — Application de la theorie des probabilites a l'astronomie. Paris, 1931. ([71, т. И, ч. IV.) 10. С г a in ё г Н. Sannolikhetskalkylen och nagra av dess anvandnlngar. Stock- Stockholm, 1927. 11. — Random Variables and Probability Distributions. Cambridge Tracts in Mathematics, No. 36. Cambridge, 1937. На русском языке: Крамер Г. Случайные величины и распределения вероятностей. Москва, 1947. 12. Е 1 d e r t о n W. P. Frequency Curves and Correlation. Cabmridge, 1938 C-е изд.). 13. Fisher R. A. Statistical Methods for Research Workers. Edinburgh — London, 1911 (8-е изд.). 14. — The Design of Experiments. Edinburgh —London, 1937 B-е изд.). 15. Free het M. Recherches theoriques mudernes sur la theorie des probabi- probabilites. Paris, 193/—1938. ([/], т. I, ч. HI.) 16. Gauss С F. Werke, Bd. 4, G6tilngen, 1880. 17. H о d s о n E. W. Tiie Theory of Functions of a Real Variable, I—II. Cam- Cambridge, 1925—1927. 18. Jeffreys H. Theory of Probability. Oxford, 1939. 19. Kendall M. G. Ths Advanced Theory of Staistics, I. London, 1943. См. также Y u 1 e G. U. 20. Keynes J. M. A Treatise on Probability. London, 1921. 21. Колмогоров А. Н. Основные понятия теории вероятностей. Москва, 1931. На немецком языке: Kolmogoroff A. Grundbegrlffe der Wahrscheinlichkeitsrechnung. Berlin, 1933. 22. Laplace P. S. Theorie anulytique des probabilites. Paris, 1812 A-е изд.), 1814 B-е изд.), 1820 C-е изд.). 23. Lebesgue H. Lecons sur Integration et la recherche des functions primi- primitives. Paris, 1928 B-й ига..). На русском языке: Лебег А. Интегрирова- Интегрирование и отыскание примитивных функций. Москва, 1934. 24. Levy P. Calcul des probabilites. Paris, 1925. 25. — Theorie de l'additlon des variables aleatoires. Paris, 1937.
26. L u n d b о r g H. and L i n d e г s F. J. The Racial Characters of the Swedish Nation. Uppsala, 1926. 27. M1 s e s R. v. Wahrscheinlichkeitsrechnung und ihre Anwendung In der Sta- tistik und theoretischen Physik. Leipzig — Wien, 1931. 28. — Wahrscheinlichkeit, Statistik und Wahrheit. Wien, 1936. B-е изд.). На рус- русском языке: M и з е с F. Вероятность, статистика н истина. Москва. 29. Moivre A. de. Miscellanea Analytica. 1733. II дополнение. М о 11 е г u p J., см. В о h г Н. 30. N е у m a n J. Lectures and Conferences on Mathematical Statistics. Washlng- tpn, 1938. 31. Po in с а гё Н. Calcul des probabilites. Paris, 1912 B-е изд.). 32. Polsson S. D. Recherches sur la probabilite des jugements etc. Paris, 1837. S3. Saks S. Theory of the Integral. Warszawa, 1937 B-е изд.). Готовится к печати русский перевод. 34. S С h u 11 z ri. The Theory and Measurement of Demand. Chicago, 1938. 35. Snedecor G. W. Statistical Methods. Ames, Io*ra, 1940. 35a. Spearman C. The Abilities of Man. London, 1927. 36. S z e g б G. Orthogonal Polynomials. New York, 1939. Ted in О. см. Bonnier G. 37. Thlel e.T. N. Theory of Observations. London, 1903. 37a. Thomson G. H. The Factorial Analysis of Human Ability. London, 1939. 38. T11 с h m а г s h E. С Introduction to the Theory of Fourier Integrals. Oxford, 1937. На русском языке: Тичмарш Е. Введение в теорию интегралов Фурье. Москва, 1947. 39. Us pen sky J. V. Introduction to Mathematical Probability. New York, 40. V a 11 ё е-Р о u s s i n Ch. J. de la. Integrates de Lebesgue, functions d'en- sembles, classes de Baire. Paris, 1934B-e изд.). 41. Wiener N. The Fourier Integral and certain of its Applications. Camb- Cambridge, 1933. 42. Wilks S. S. The Theory of Statistical Infersnce. Ann Arbor, 1937. 43. Y u 1 e G. U. and Kendall M. G. An Introduction to the Thsory of Sta- Statistics. London, 1940 A2-е изд.). СТАТЬИ*) 50. A i t k e n A. C. On the graduation of data by the orthogonal polynomials of least squares. Proc. R. Soc. Edinburgh, 53 A933), 54. 53. Arley N. On the distribution of relative errors from a normal population of errors. K. Danske Vid. Selsk., Mat.-fys. Medd. 18, № 3, A940). В a b 1 n g t о n S m i t h В. см. К e n d a 11 M. G. 54. Bartlett M.S. On the theory of statistical regression. Proc. R. Soc. Edinburgh, 53 A933), 260. 55. — The information available in small samples. PCPS, 32 A936), 560. 56. — Complete simultaneous fiducial distributions. AMS, 10 A939), 129. — Cm. Wishart J. *' Сокращение названий журналов: АЕ— Annals of Eugenics; AMS—Annals of Mathematical Statistics; B — Biometrica; CR — Comptes Rendus de l'Acade- mie dts Sciences, Paris; JRS — Journal of the Royal Statistical Society; MA—Mathematischs Anna1en;Af—Metron; PCPS — Proceedings of tne Cambridge Philosophical Society; PRS — Proceedings of the Royal Socieiy, London, ser. A; PTRS — Philosophical Transactions of the Royal Society, London, ser. A; SA—Skandinavisk Aktuarietidskrift; TAMS—Transactions of the American Mathe- Mathematical Society.
60. Behrens W. U. Ein Beitrag zur Fehlerberechnung bei wcnigen Beobach- tungen. Landwirtsch. Jahtbacher, 68 A92Э), 807. 61. Berg G. The prognosis of open pulmonary tuberculosis. Ada Tubercu- losea Scatul., Suppl. IV A939). 62. BergstrOm H. On the central limit theorem. SA A944), 139; A945), 106. 63. Б е р и ш т е й н С. Н. Распространение предельной теэремы теории вероят- вероятностей на с/миы зависимых случайных величин. Усп. матем. наук, 10 A944). На французском языке: Sur 1'extetisiou du theorems limite du calcul des probabilites aux sornmcs de quanlites dspendantcs. MA, 97 A927), 1. 63a. Bortkiewicz L. v. Das Gesetz der klelnen Zahlen. Leipzig A898). 64. Cant ell i P. F. La tendenza ad un limite nel senzo del calcolo delle pro- babilita. Reni. Circ. Mat. Palermo, 16 A916), 191. 65. С h a r И е г С. V. L. Researches into the theory of probability. K- Fyslogr. Sailsk. Hand!., В 16 A906). С1 о p p e r G. J. см. P e a r s о n E. S. 66. С о с h r a n W. G. The distribution of quadratic forms in a normal system, with applications to the analysis of «variance. PCPS, 30 A933—1934), 178" Corbet A. S. см. F i s h e r R. A. 67. С r a i g С. С An application of Thiele's semi-invariants to the sampling problem. M, 7, № 4 A928), 3. 68. Cramer H. Sur qae'ques points du calcul des probabilites. Proc. London Math. Soc, 23 A925), LV11I. 69. — On some classes of series used in mathematical statistics. Sixth Scandi- Scandinavian Congr. of Math., Kobcnhayn, 1925. 70. — On the composition of elementary errors. SA A928), 12, 141. 71. — On the representation of a function by certain Fourier integrals. TAMS, 46 A939), 191. 72. — Contributions to the theory of statistical estimation. SA A946). 73. D a r in о i s G. Sur les lois de probabilites a estimation exhaustive. CR, 200 A935), 1265. 74. David F. N. см. N e у in a n J. Da vies O. L. см. Pearson E, S. 75. Do о b J. L. Probability as measure. AMS, 12 A941), 206. 75a. — Probability and Statistics. TAMS, 36 A934), 759. 75b. - Statistical estimation. TAMS, 39 A933), 410. 76. D u g u ё D. Application des proprietes de la limite au sens du calcul des probabilites a I'etude de diverses questions d'estimation. Journ. de I'Ec. Polytechn. A937), 305. 80. Edgeworth F. Y. Tne law of error. PCPS, 20 A905), 36. 81. Eg genberger F. Die Wahrscheinlichkeitsansteckung. Mitt. d. Ver. schweizerischer Vers.-Math. A924), 31. 81a, Eneroth O. Om frdmangden vid flacskadd samt om .sambandet mellao plantantal och slutenhets j-ad vid sjalvsadd. Norri. Skogso.-furb. Tla&kr. A945), 161. 82. Es scher F. On graduation according to the method of least squares by msans of certain polynomials. Forsakr.-A.-B. Skandlas Fests&r. A930), II, 107. 83. E s s e e n С G. Fourier annlysis of dis ribution functions. A mathematical study of the Laplace-Gauss an law. Acta Math., 77 A945), 1. E s s e n - M б 11 e г Е. см. Q u e n s e I С. Е. S4. Feller W. Sur les axionatiques du calcul des probabilites et leurs rela- relations avec les experiences. Actualites scientifiqaes et inclmtrielles, № 735 A938), 7. 85. — Ober den zentralen Grenzwerisatz der Wahrscheiniichkeitsrechnung. Math. Zeitschr., 40 A935J, 521.
86. Feller W. Ober den zentraien Qrenzwertsatz der Wahrschelnlichkeitsreeh- nung, II. Math. Zeitschr., 42 A93/), 301. 87. Fisher R. A. On an absolute criterion for fitting frequency curves. Mess. of Math., 41 A912j, 155. 88. — Frequency distribution of the vaiuss of ths correlation coefficient In sam- samples from an indefinitely large population. B, 10 A915), 507. 89. — On the mathematical foundations of theoretical statistics. PTRS, 222 A921), 309. 90. — On the 'probable error" of a coefficient of correlation deduced from a snail sample. M, 1, № 4 A921), 1. 91. — On the interpretation of y2 fro.n contingency tables, and the Calculation of P. JRS, 85 A922), 87. 92. — The goodness of fit of regression formulae and the distribution of regres- regression coefficients. J#S, 85 0922), 597. 93. — The distribution of the partial correlation coefficient. M, 3 A924), 329. 94. — On a distribution yieldi lg the error functions of several well-known sta- statistics. Proe. Intern. Math. Cnn%r. Toronto A924), 805. 95. — The conditions under which y2 measures the discrepancy between obser- observation and hypothesis. JRS, 87 A924), 442. 96. — Theory of statistical esti nation. PCPS, 22 A925), 700. 97. — Applications of Student's distribution. M, 5, № 3 A925), 90. 98. — Tne general sampling distribution of the multiple correlation coefficient. PRS, 121 A928), 654. 99. — Moments and produ;t moments of sampling distributions. Proe. London Math. Soc, 3» A929), 199. 100. — Inverse probaoility. PCPS, 26 A930), 528. 101. — Tne moments of the distrioullon for normal samples of measures of de- departure from normality. PRS, 130 A930), 16. 102. — Tne concepts of inverse probability and fiducial probability referring to unknown paraneters. PRS, 139 A933), 343. 103. — Two new properties of mathe natical likelihood. PRS, 144 A934), 285. 104. — The logic of inductive inference. JRS, 98 A935), 39. 105. — The fiducial argument in statistical inference. AH, 6 A935), 391. 106. — On a point raised by M. S. Bartlett on fiducial probability. AE, 7 A937), 370. 107. — The comparison of samples with possibly unequal variances. AE, 9 A939), 174. 108. — A note on fiducial inference. AMS, 10 A940), 383. 109. — The asymptotic approach to Behrens' integral with further tables for the d test of significance. AH, 11 A941). 110. Fisher R. A. and Tippett L. H. C. Limiting forms of the frequency distribution of the largest of smallest me noer of a sample. PCPS, 24 A928), 180. 111. Fisher R. A., Corbet A. S. and Williams С. В. The relation bet- between the number of species and tte number of individuals in a random sample of an animal population. J. of Animal EcolOiy, 12 A943), 42. 112. Frechet M. Sjr la convergence „en probajilite". M, 8, № 4 A930), 3. 112a. — Sur 1'extenslon de certaines evaluations statistiques au cas de petits echanllllons. Reo. Inst. Intern, de Statistique A943), 182. 113. Frisen R. Correlation and scatter'in statistical variables. Nord. Statist. Tlaskr., 8 A929), 36. 114. — Statistical confluence analysis by means of complete regression systems. Oslo A934). 115. Geary R. C. Distribution of btudent's ratio for non-normal samples. JRS, Suppl. 3 A936). J16. — A general expression for the moments of certain symmetrical functions of normal sarnp.es. B, 25 A933), 184.
116a. Geary R. C. Comparison of the concepls of efficiency and closeness for consistent estimates of a parameter. P. 33 A944), 123. 117. Г н е д е н к о Б. В. (Gnedenko В.) О характеристических функциях. Бюл. Мое. Гос. Университета, 1, № 5 A937). 118. Gram J. Р. От Rsekkeudvikinger bestemte ved Hjaelp av de mlndste Kvadraters Methode. Kobenhavn, 1879. 119. Green wood M. and Yule G. U. An inquiry into the nature of fre- frequency distributions representative of muliip e happenings with particular reference to the occurrence of multiple attacks of disease, or of repeated accidents. JRS, 83 A920), 255. 120. Gumbel E. J. Les valeurs extremes des distributions statistiqucs. Ann. Inst. Henri Poincare, 5 A936), 115. 121. Hagstroem K. G. La loi de Pareto et la reassurance. SA (Г925),65. 121a. — Alcune formule appartenenti alia statlstica rappresentaliva. Giorn. 1st. Itoliano d. Attuarl, 3 A932), 147. 122. — InkomstutjSmningen i Sverige. Skand. Bankers Kvart.-skr., April A944). H a 1 d А. см R a s с h G. 123. Haldane J. B. S. The mean and variance of x2. when used as a test of homogeneity, when expectations are small. P, 31 A940), 346. 124. Hart fey H. O. The range in normal samples. E, 32 A942), 334. — см. P e a r s о n E. S. 125. H el inert F. R. Uber die Wahrschelnlichkeit von Potenzsummen der Beobachtungsfehler etc. Z. f. Math. u. Phys., 21 A876). 126. Ho telling H. The generalization of Student's ratio. AMS, 2A931), 360. 127. Hsu P. L. Contribution to the theory of Student's f-test as applied to the problem of two samples. Statist. Reserach Nem., 2 A938), 1. 128. Hultkrantz J. V. Uber die Zunahme der Korpergrosse in Schweden in den Jahren 1840—1926. Uppsala, 1927. 130. Ingham A. E. An integral which occurs in statistics. PCPS, 29 A932), 271. 131. Irwin J. O. The further theory of Francis Galton's individual difference problem. B, 17 A925), 100. 132. — On the frequency distribution of the means of samples from popula- populations of certain of Pearson's types. M, 8, № 4 A930), 51. 133. — Mathematical theorems involved in the analysis of variance. JRS, 94 A931), 284. 134. Jordan С Approximation and graduation according to the principle of least squares by orthogonal polynomials. AMS, 3 A932), 257. 135. Kaptey n J. С Skew frequency curves in biology and statistics. Gronin- gen, 1903, 1916. 136. Kendall M. G. The conditions under which Sheppard's corrections are valid, JRS, 101 A938), 592. 137. — and Babington Smith B. Randomness and random sampling num- numbers, JRS, 101 A938), 147, JRS, Suppl. 6 A939), 51. 139. X и н ч и н А. Я. (Khintchine A.) Sur la lol des grands nombres. CR, 188 A929), 477. 140. — Sul doralnio di atfrazione della legge di Gauss. Giorn. 1st. Italiano d Attaari, 6 A935), 378. 140a. Kol odzie jczyk S. On an important class of statistical hypotheses. 6' 27 A935), 161. 141. К о op man B. O. On distributions admitting a sufficient statistic. TAMS 39 A936), 369. 142. Koopmans T. Linear regression analysis of economic time series. Nether, lanas JEcon. Inst., Haarlem, 1937. 143. К u 11 b а с k S. An application of characteristic functions to the distribution problem of statistics. AMS, 5 A934), 263.
144. Langdon W. H. and Ore O. Serai-invariants and Sheppard's correction. Annals of Math., 31 A920), 230. 145. Levy P. Proprtetes asymptotiques des sommes de variables aleatoires inde- pendantes on enchaiiees. Journ. Math, pares appl., 14 A935), 347. 146. Ляпунов A. M. (I iapounoff A.) Sur unc proposition dc la thsoric des probabilites. Full. Accd. Sc. St.-Petersbourg, 13 A900), 359. 147. — Nouveile forme du the reme sur la limite de probability. Mem. Acad. Sc. St.-Petersbourg, 14, № 5 A901). 148. Lindeberg J. W. Eine neue Herlcitung des Ex^onentialgesetzes in der Wahrscheinlichkeitsreclmung. Math. Zeitschr., 15A922), 211. 149. Litidq u i s t R. A treatise on reliable predictions of water conditions. Stockholm, 1932. 150. Lukacs E. A characterization of the normal distribution. AMS, 13 A942), 91. 151. Luko mski J. On some properties of multidimensional distributions. AMS, 10 A939), 236. 152. Lundberg O. On random processes and their application to sickness and accident statistics. IDissert.) Stockholm, Uppsala, 1940. 154. Madow W. O. limiting distributions of quadratic and bilinear forms. AMS, 11 A940), 125. 155. Mendel O. Versuche mit Pflanzenhybriden. Verhandt. naturforsch. Ver. Prilnn, 4 A865). 156. M i s e s R. v. Grundlagen der Wahrscheinlichkcitsrechnung. Math. Zeitschr. 4 A919), 1. 157. — Deux nouveaux theoremes. de limite dans le calcul des probabilites. Revue Нас. Sc. Istanbul, 1 A935), 61. 158. — Les lois de probability pour les fonctions statisfiqucs. Ann. Inst. Henri Poincare, 6 A936), 185. 159. — On the f midations of probability and statistics. AMS, 12 A941), 191. 159a. Newbold E. Practical applications of ihe statistics of repeated events, particularly to industrial accidents. JRS, 90 A927), 487. 160. N e у m a n J. Contributions to the. theory of small samples drawn from a finite population. P, 17 A925), 472. 161. — On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection. JRS, 97 A934), 558. 162. — Su un teorema conc.ernente le cosiddcttc statistichj sufficient/. Giorn. 1st. ltaliano. d. Attuari, 6 A935), 320. 163. — On the problem of confidence intervals. AMS, 6 A935) p. 111. 164. — "Smooth test" f. г goodness of fit. SA A937), 149. 165. — Outline of a theory of statistical estimation based on the classical theory of probability. PJRS, 236 A937), 333. 166. — L'estimation statistique traitee comme un probleme classique dc proba- bi'ite. Actuatites scientifiqaes et industrielles, № 739 A938), 25. 167. — Fiducial argument and the theory of confidence intervals. B, 32 A941), 128. 168. — Basic ideas and some recent results of the theory of testing statistical hypotheses. JRS, 105 A942), 292. Русский перевод в Усп. матем. наук, 10 A944). 169. N е у m a n J. and David F. N. Extension of the Markoff theorem on least squares. Statist. Research. Mem., 2 A938), 105. 170. Neyman J. and Pears .n E. S. On the use and interpretation of cer- certain test criteri for purposes of statisticaI inference. B, 20 A A928), 175,263. ! 71. Neyman J. and Pearson E. S. On the problem of the most efficient tests of statistical hypotheses. PTRS, 231 A933), 289. 172 — Contributions to the theory of testing statistical hypotheses. Statist. Research. Mem., 1 A935), 1, 2 A938), 25.
173. N е у m a n J. and Pearson E. S. Sufficient statistics and uniformly most powerful tests of statislical hypotheses. Statist. Research Mem., 1 A935), 113. Ore О. см. Langdon W. H. 180. Pearson K- Contributions to the mathematical theory of evolution. PTRS, 185 A894), 71. 181. — Contributions etc., II: Skew variation in homogeneous material. PTRS, 186 A895), 343. 182. — Contributions etc., IV: On the probable errors of frequency constants and on the influence of random selection on variation and correlation. PTRS, 191 A898), 229. 183. — On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from randon sampling. Phil. Mag., V, 50 A900), 157. 183a. — On lines and planes of closest fit to systems of points in space. Phil. Ma?., VI, 2 A901), 559. 184. — On the systematic fitting of curves to observations and measurernents.fi, 1 A902), 265, 2 A902), 1. 185. — Researches on the mode of distribution of the constants of samples taken at randon from a bivariate normal population. PRS, 112 A926), 1. 186. — On the probability that two independent distributions of frequency are really samples from the same population. B, 8 A911),. 250. 187. Pearson K- and Tocher J. F. On criteria for the existence of diffe- differential death-rates. B, 11 A916), 159. 190. Pearson E. S. The distribution of frequency constants in small samples from non-normal symmetrical and skew populations. 8,20 A A928), 356. 191. — The probability integral transformation for testing goodness of fit and combining independent tests of significance. B, 30 A933), 134. — См. также N e у m a n J. 195. Pearson E. S. and Clopper С J. The use of confidence or fiducial limits illustrated in the case of the binomial. B, 26 A934), 404. 196. Pearson E. S. and Da vies O. L. Method; of estimating from samples the population standard deviation. JRS Suppl., 1 A934), 76. 197. Pearson E. S. and Hartley H. O. Tha probability integral of the range ia samples of n observations from a normal population. B, 32 A942), 301. 198. Pitman E. J. O. Tha «closesb estimates of statistical parameters. PCPS, 3J A937), 212. 199. — The estimation of the location and scale parameters of a continuous po- population of any given form. B, 30 A939), 391. 200. Quensel C.E. The distributions of the second moment and of the cor- correlation coefficient in samples from populations of type A. Kungl- Fysiogr. Sailsk. Hand/., 49, no. 4 A938). 201. — Inkomstfordelning och skattetryck. Publ. by Sveriges Industrif6rbund, Stock- Stockholm, 1944. 202. — On the logarithmico-normal distribution. SA A945), 141. 203. Q u e n s e 1 С E. and E s s e n - M о 11 e r E. Zur Theorie des Vaterschafts- nachwcises auf Orund von Ahulichkeiisbefunden. Zeitschr. f. gerlchtl. Medtzin, 31 A939), 70. 205. Radon J. Theorie und Auwendung der absolut additiven Mengenfunk- tionen. Sitzungsber. Akad. Wien, 122 A913), 1295. Русский перевод в Ус п. машем, наук, 1 A936). 206. Rasch О. and На Id A. Nogle Anveudelser af TransFormationsmetoden i den normale Fordclings Teori, Festskrift til Prof. J. F. Steffensen, Kobenhavn A943), 52. 207. R e i e г s б 1 О. Confluence analysis by means of instrumental sets of vari- variables. Arkiv for matematik etc., 32 A, no. 4 A945).
208. Романовский В. И. (Romanovsky V). Sur certaines espsrances mathema- tiques et sur I'erreur moyenne du coefficient de correlation. CR, 180 A925), 1897. 209. — On ths moments of standard deviations and of correlation coefficient in samples from normal population. M, 5, no. 4. A925), 3. '210. — On the distribution of the regression co2fficient in samples, from normal population. Известия АН СССР, 20 A926), 613. 211. Sheppard W. F. On the application of the theory of error to cases of normal distribution and normal correlation. PTRS, 192 A898), 101.. 212. — On the calculation of the most probable values of frequency constants for data arranged according to equidistant divisions of a scale. Proc. London Math. Soc, 29 A898), 353. 213. — The fit of a for nula for discrepant observations. PTRS, 228 A929). 213a. S i m о n s e n W. On distri jutions of functions of samples from a normally distributed infinite population. ?A, A944), 235; A945), 20. 214. Слуцкий E. E. (Slutsky E.) Uber stochas.ische Asymptoten und Grenz- werte. M, 5, n >. 3. A925), 3. 215. С и и р ц о в Н. В. (Smirnoff N.) Sur la distribution de <Л CR, 202 A936), 449. 216. So per H. E. and others. On the distribution of the correlation coefficient In small samples. B, 11 A917), 328. 217. Steffensen J. F. Factorial moments and discontinuous frequency-functions. SA A923), 73. 218. — Free functions and the Sludent-Fisher theorem. SA A936), 108. 220. Stieltjes T. J. Extrait d'une lettre adressee a M. Hermite. Bali. Sc. Math., 2-е serie, 13 A889), 170. 221. Student*. The probable error of a mean. B, 6 A908), 1. 222. — Probable error of a correlation coefficient.,B, 6 A908), 302. 223. Sukhatme P. V. On Fisher and Behrens' test of significance for the difference in means of two normal samples. San/thya, 4 A938), 39. 224 Tang P. С The power function of the analysis of variance tests with taoles and illustrations of their use. Statist. Research Mem., 2 A938), 126. 225 Thompson W. R. On a criterion for the rejection of observations and the distribution of the ratio of deviation to sample standard deviation. AMS, 6 A935), 214. 226. Tip pelt L. H. C. On the extreme individuals and the range of samples taken from a normal population. B, 17 A925), 364. — см. Fisher R. A., T о с h e r J. F. см. Pearson K. 227. Tschu.pr.ow A. A. On Шг mathematical expectation of the moments of frequency distributions. B, 12 A919), 140, 185; B, 13 A921), 233. 227a. — Zur Theorie der Stabilitat statistischer Reihen. SA A918, 1919). 228. Wahlund S. Demographic studies in the nomadic and the settled popu- population of northern Lapland. Uppsala, 1932. 229. Welch B. L. The significance of the difference between two means when the population variances are unequal. B, 29 A938), 350. 230. W i с k s e 11 S. D. On the genetic theory of frequency. Arklo {Or matenta- tik etc., 12 A917), 20. 231. — Sex proportion and parental age. Kungl. Fysiogr. SUllstt. Handl., 37, no 6 A926). 232. Wit ks S. S. Certain generalizations in ths analysis of variance. 8, 24 A932), 471. 233. — Shortest average, confidence intervals from large simples. AMS, 9 A933), 166. 234. — Fiducial distributions in fiducial inference. AMS, 9 A938), 272. Williams С. В. см. F i s h e r R. A. 240. Wishart J. The generalized product moment distribution in samples from a normal multivariate population. B, 20 A A928), 32.
241. W1 s h a r t J. and В a f 11 e 11 M. S. The generalized product moment dlstrt bution in a nornal systen. PCPS, 29 (Г932), 260. 245. Wold H. Sulla correzione di Sheppard. Giorn. 1st. ltalia.no d. Attuarl, 5 A934), 304. 246. — Sheppard's corrections formulae in several variables. SA A934), 248. 246a. — A study in the analysis of stationary time series. (Diss.) Stockholm, Uppsala, 1938. 247. — Efterfrigan pi jordbruksprodukter och dess k3nslighet for pris-och Inkomstforandringar. Statens Off. Utr., no. 16, A940). 248. — A theorem on regression coefficients obtained from successively exten- extended sets of variables. SA A945), 181. 250. Y a t e s P. Contingency tables involving small numbers and the »2 test. JRS, Suppl. 1 A934), 217. 251. Yule G. U On the theory of correlation for any number of variables treated by a new system of notation. PRS, 79 A907), 182. — см. также Greenwood M. ТАБЛИЦЫ 260. British Association, Mathematical Tables, Vol. 7: Tables of the Probability integral by W. F. Sheppard A939,. 261. David F. N. Tables of the Correlation Coefficient. London, 1938. 262. Fisher R. A and Yates F. Statistical Tables. Edinburgh and London, 1943 B-е изд.). 263. Kendall M. O. and Ba bington S m i t h В., Tables of Random Samp- Sampling Numbers. Tracts for computers, no. 24, 1940. 264. Pearson K- Tables for Statisticians and Biometricians. I, 1924 B-е изд.), II, 1-931. 265. — Tables of the Incomplete Г function. 1922. 266. — Tables of the Incomplete B-function. 267. Tippet L. H. С Random Sampling Numbers. Tracts for computers, no. 15, 1927.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ (Цифры обозначают страницы) 1 Анализ смешанных вторых моментов (analysis of covariance) 597 Вероятность (probability) 169 — апостериорная (probability a poste- posteriori) 552 — априорная (probability a priori) 552 — доверительная (fiducial probability) 651 —условная (conditional probability) 181 Вероятностная функция (probability function) 71 Временные ряды (time series) 512 Выбор (sampling) 355 — без возвращения (sampling without replacement) 364, 561, 569: — с возвращением (sampling with re- replacement) 354 — - простой случайный (simple random sampling) 356 — пристрастный (biased sampling) 363 Выборка ( ample) 165, 356 — группированная (grouped sample) oOl, оУо Выборки среднее значение (sample mean) 379 — пространство (sample space) 419, 519, 539, 561 — характеристики (sample characteris- characteristics) 375 Выборочные значения (cample values) 357 Выборочная точка (sample point) 419 Генеральная совокупность (population) 165. 356 Гистограмма (histogram) 361 Грама-Шарлье ряд (Gram-Charlier' se- rie ) 247, 286 Децнль (decile) 204 Дисперсия (variance) 203, 381 — Обобщенная (generalized variance) 332, 443 — остаточная (residual variance) 307, 336 — условная (conditional variance) 296, 298 Дисперсионный анализ (analysis of va- variance) 268, 584 Дисперсионное отношение (variance ratio) 58/ Доверительная область (confidence re- region) 550, 563 Доверительный интервал (confidence interval) 501, 553, 555, 565 — предел (confidence limit) 501, 507, 557 —уровень (confidence level) 557 Значимое отклонение (significant de- deviation) 45 Г Значимости пределы (significance li- limits) 368 — уровень (significance level) 368, 457 Квантичь (quantile) 204 Квартиль (quartile; 201 Композиция (composilion) 214 Конфлюэнтиый анализ (confluence ana- analysis) 606 Корреляция (correlation) 293, 306, 332 Коррелированные величины (correla- (correlated valuaj es) 307 Корреляционное отношение (correla- (correlation ratio) 310 Коэффициент асимметрии (coefficient of skewness) 207, 211, 391 — доверия (confidence coelficient) 557 —изменчивости (coefficient of varia- variation) 391 —корреляции (coefficient cf correla- correlation) 306, 325, 393, 435, 448 полный (total coefficient of cor- correlation) 336 — — сводный (multiple coefficient of correlation) 339, 450 частный (partial coefficient of cor- correlation) 337, 347 — разброса (scatter coefficient) 332, 449 — расхождения (coefficient of diver- divergence) 485 — регрессии (coefficient of regression) 302, 333, 346, 439, 447 — эксцесса (coefficient of. excess) 208, 211, 391 Кривая равных вероятностей (equipro- bability curve), 318
Кривая регргссии (regression curve) 29Э, 300 — плотности (frequency curve) 192 Критерий значимости (test of signifi- significance) 363, 370, 453, 489, 571 — наиб01ее мощный (most powerful test) 577, 580 — несмещенный (unbiased test) 578,583 — равномерно наиболее мощный (uni- (uniformly most powerful test) 6/7, 580 Критерий однородности (test of homo- homogeneity) 482 — согласия (test of goodness of fit) 368, 453, 488 Критерий х* (X~{est) 453, 460 Критическое множество (critical setM75 Латинские квадраты (latin squares) 595 Матрица вторых моментов (moment matrix) 292, 326 Матрица коэффициентов корреляции (correlation matrix) 326 Медиана (median) 201, 404 Метод максимума правдоподобия (ma- xlmu n likelihood method) 462, 541 — минимума у8 (у* minimum method) 463, 549 — моментов (method of moments) 540 — репрезентативной выборки (repre- (representative method) 364, 561, 569 Мода (mode) 202 Момент (moment) 86, 101, 196, 325, 380, 398 — абсолютный (absolute moment) 197 — груяпоьой (raw or grouped moment) 394 — смешанный (product or mixed mo- moment) 291 — факторнальпый (factorial moment) 234 — центральный (central moment) 197, 291, 325, 383, 399 Независимые величины (independent variables) 182, 187, 211, 212, 314, 348 — испытании (independent trials) 231 — повторения (эксперимента) (inde- (independent repetitions) 184 — события (independent evenis) 182 Некоррелированные величины (uncor- relatcd variables) 307, 326 Нормированная величина (standardized variable) 203, 209 Нулевая гипотеза (null hypothesis) 371 Остаток (residual) 336 Опенка (estimation, estimate) 362, 37'2, 51» Оценка асимптотически-эффективная (asymptotically efficient estimate) 531, — достаточная (sufficient estimate) 530, 532, 540 — максимального правдоподобия (ma- (maximum likelihood estimate) 542, 543 — несмещенная (unbiased estimate) 385 — состоятельная (consistent estimate) 385, 531 — эффективная (efficient estimate) 517, 522, 529, 536, 538, 540 Плоскость регрессии (regression plane) Плотность вероятности (probability density) 72, 97, 188, 322 Поверхность регрессии (regression surface) 332 Поправка Иэйтса (Yates' correction) 484 Поправка Шеппарда (Siieppard's cor- correction) за б Распределение (distribution) 71, 95, 175 — бимодальное (bimodal distribution) 202 — вероятностей (probability distribu- distribution) 175, 176, 187, 138 — выборки (distribution of a sample) 357 — выборочное (sampling distribution) 360 — мультимодалыюг (nmltimodal dls- trioution) 202 — несобственное (singular distribution) 327 —совместное (joint or simultaneous distribution) 177 — собственное (non-singular distribu- distribution) 327 — унимодальное (unimodal distribu tion) 202 — условное (conditional distribution) 179, 187, 295 — усеченное (truncated distribution) 273 — частное (marginal distribution) 97, 178, 288, 321 Распределение биномиальное (bino- (binomial dlstrloution) 218,E29 b) — отрицательно-биномиальное (nega- (negative binomial distribution) 287, 473 — бэта (Beta distribution) 269, 279 — Коши (Cauchyis distribution) 27H, 4W, 533 — Лапласа (Laplaceis distribution) 273, 409 — мультикомиальное (multi modal dis- trioution) 350, 455
Распределение нормальное (normal distribution) 116, 233, 31?, 341, 409, 473, 525, 532, 547, 558, 563, 566, 580, 583 — асимптотически-нормальное (asym- (asymptotically normal distribution) 239 —логарифмически-нормальное (loga- rlthmico-normal distribution) 246, 286 — Парето (Pareto's distribution) 275" — Пуассона (Poisson's distributi. n) 239, 277, 351, 470, 529 — Стьюдепта (Student's distribution t) 264, 278 — Фишера (Fisher's distribution z) 268 — t? (x2-distrioution) 259, 277 — прямоугольное (rectangular distri- distribution) 270, 407 — треугольное (triangular distribution) 272, 408 Рассеяние (dispersion) 203 Регргссия (regression) 299, 332, 597, 605 Регрессия линейная (linear regression) 300, 301, 333, 346 -- ортогональная (orthogonal regres- regression) 304, 340 — параболическая (parabolic regres- regression) 305, 607 Семи-инвариант (semi-invariant) 210, 216, 327, 383 Семи-интерквартильная широта (semi- interquartile range) 204 Случайные блоки (randomized blocks) 592 Случайная, величина (random variable) 173, 187 Случайный процесс (random process) 473,512 Случайный эксперимент (random expe- experiment) 157 Случайные числа (random sampling numbers) 363 Смешанный момент второго порядка (covariance) 291, 326 Смещение (bias) 3S5, 423 Составная величина (combined vari- variable) 177 Составной эксперимент (combined experiment) 176 Сокращение данных (reduction of data) 369 Среднее (mean) 194, 197, 200 Среднее знач ние (mean value) 194, 290, 325 условнее (conditional mean va- value) 295, 297, 298, 332 Срелнее отклонение (mean deviation) 204 Средняя квадратическая регрессия (mean square regression) 301, 333 Средняя квадратическая связанность (mean square contingency) 311, 312, 48J Стандартное отклонение (standard de- deviation) 203 Стандартная ошибка (standard error) 491 Статистическая устойчивость (stati- (statistical regularity) 164, 177 Степени свободы (degrees of freedom) 259, 264, 417 Степень связанности (degree of depen- dependence or assotiation) 480 Стьюдентово отношение (Student's ra- ratio) 424 — обобщенное (generalized Student's ratio) 447 Сходимость по вероятности (conver- (convergence in probability) 279, 330 Таблица сопряженности признаков (contingency table) 478 Точка сосредоточения массы (discrete mass point) 71, 96 Уравнение правдоподобия (likelihood equation) 542 Факторный анализ (factor analysis 606 Функция плотности (frequency func- function) 72, 97, 188, 322 — правдоподобия (likelihood function) 519, 542 — распределения (distribution function) 71, 95, 175, 188, 288, 321 Частота (frequency, frequency ratio) 163 Широта (range) 204, 405 Эджворта ряд (Edgeworth's series) 254 Экстремальные значения (extreme va- value*) 405 Эксцесс (excess) 208 Элемент вероятности (probability element) 189, 322 Эллипс рассеяния (ellipse of concentra- concentration) 312, 535 Эллипсоид рассеяния (ellipsoid of con- centra ion) 331 Эмпирическая функция распределе ния (sum polygon) 360 Эффективность (efficiency) 522, 529 — асимптотическая (asymptotic effi- efficiency)- 532, 537
Аддитивный класс множеств 20, 42 Алгебраическое дополнение 126 Борелевскне множества 24, 25, 27. 42" 44, 45, 174 Бэта-функция 145 Вековое уравнение 131 Вектор 123 Внутренняя точка 23, 26 Гамма-функция 143 Гиперплоскость 27 Гиперповерхность 27 Главная диагональ 122 Детерминант 125 Измеримые множества 40, 42, 44 Интеграл Лебега 47, 48, 49, 56, 59, 61 — Лебега—Стильтьеса 63, 78, 80,81, 8'J, 85, 10Э — Римана 48, 88, 104 — Рииана — Стильтьеса 88, 104, — Хеллингера 529 Интегралы Дирихле 139 — Фурье 105 Интервал 21, 22, 26 — непрерывности 72, 95 Лемма Бореля 30 — Фишера 413 Матрица 12Э — вырожденная 127 — диагональная 122 — единичная 123 — квадратная 122 — невырожденная 127 — нулевая 123 — обратная 128 — ортогональная 130 — преобразования 124 — присоединенная 128 — симметричная 122 — транспонированная 122 Мера внешняя 37 — инутренняя 37 — Лебега 40, 45, 62, 91 Множество 13 — дополнительное 17 — линейное 21, 27 — ограниченное 22» 26 — прямоугольное 29 — пустое 14 — счетное 13, 19, 36 — цилиндрическое 28 Минор 126 — главный 126 II Неравенство Бьенэме—Чебышева 206 — Ляпунова 283 — треугольника 26 — Шварца 104 Окрестное! ь 22, 26 Ортогональное преобразование 130 Подматрица 122 Подмножество 14 Подпространство 23 Полиномы Лагерра 152 — ортогональные 149, 303 — Эрмита 151, 248 Постоянная Эйлера 143 Почти всюду 53 Преобразование линейное 124, 309, 329, 344 — ортогональное 130 Произведение пространств 29, 93 Пространство 14 Суммы Дарбу 46, 77, 88, 100, 102 Теорема Ба1еса 551, 552 — Цернулли 221 — Больцано — Вейерштрасса 23 — единственности 109, 118 — Лнндеоерга— Лсви 240, 316, 348 — Ляпунова 241 — Муавра 225 — непрерывности 112, 119 — сложения 220, 230, 238, 261, 414 — Хицчина 281 — Чеоышсва 206, 280 Форма билинейная 124 — квадратичная 125 — неотрицательная 132 — положительно определенная 132 — полуопределецная 132 — обратная 128 Формула Стерлинга 148 — Эйлера — Маклорзна 142 Функция ^-измеримая 49, 101 — интегрируемая 47, 49, 56, 59, 80 — множества 33, 61, 62, 63, 70, 91, 92, 93, 174 — ступенчатая 66, 69 — характеристическая 105—115, 117, 119,209,293,327 Характеристические числа 131 Центральная предельная теорема 233, 348 Числа Бернулли 141
ДОПОЛНЕНИЕ КО ВТОРОМУ ИЗДАНИЮ А. В. Прохоров Место книги Г. Крамера в системе подготовки специалистов по математической статистике в значительной мере определяется тем, что в ней систематически и на высоком уровне строгости проведено математическое обоснование таких классических разделов, как тео- теория оценок и теория проверки статистических гипотез. Выбор про- проблем (который сегодня кажется умеренным) и методов их решения делают книгу прекрасным введением в математическую статистику, предназначенным для тех читателей, которые хотят научиться ис- использовать доступный математический аппарат для доказатель- доказательства классических результатов, а затем углублять свои знания, изу- изучая монографии и статьи, посвященные избранным проблемам и основанные на более специализированном теоретическом фунда- фундаменте. Характер настоящего дополнения к книге Крамера в основном определяется следующими соображениями. Прежде всего мы от- отдаем себе отчет в том, что задача объединения всех разделов, мето- методов и результатов, развитых в математической статистике за пос- последние тридцать лет, и-изложения их с полной логической ясностью на общей теоретической основе вряд ли может быть решена в до- дополнении к этой книге (даже в виде сводки или обзора всех накоп- накопленных результатов). Однако как учебное руководство книга Кра- Крамера нуждается в дополнении справочно-библиографического ха- характера для тех хорошо подготовленных читателей, которые ин- интересуются литературой по специальным вопросам математической статистики, затронутым в кнш*е недостаточно глубоко или получив- получившим решение лишь в недавнее время. Поэтому мы решили огра- ограничиться материалом справочного характера. При этом мы не пре- претендовали на полноту даже списка литературы, но старались ука- указывать те источники, к достоинствам которых относится и доста- достаточно обширная библиография по соответствующим вопросам. Весь справочный материал естественным образом разделяется на три ос- основные части соответственно построению книги. Мы надеемся, что обновление библиографического списка позволит читателям ори- ориентироваться в широком круге вопросов математической статистики.
Часть I. Математическое введение Главы 1—12. Все приведенные в этих главах сведения из теории множеств, теории меры и интеграла Лебега, линейной алгебры, теории интеграла Фурье полностью удовлетворяют тем задачам математической статистики, которыми ограничил себя Крамер. Основным в этой части разделом является введение в теорию меры и интегрирования н связанные с этим вопросы, имеющие отношение к теории вероятностей. Общеизвестно, что серьезное изучение теории вероятностей и математической статистики невозможно без обращения к теории меры, однако следует понимать, что роль теории меры непосредст- непосредственно определяется характером рассматриваемых задач. Лаконизм Крамера при изложении теории меры объясняется, в частности, тем, что автор ограничивается кругом вероятностных моделей, приводящих к распределениям в я-мерном евклидовом пространст- пространстве (эти распределения в конкретных задачах оказываются, как пра- правило, дискретными или непрерывными). Эти модели соответствуют занимающему и до сих пор центральное место в математической ста- статистике случаю повторной выборки фиксированного объема. В то же время строгий вывод фундаментальных результатов в таких областях математической статистики, как последовательный ана- анализ (или, более общим образом, теория статистических решений и теория оптимальной остановки наблюдений, см. ниже) и статистика случайных процессов, требует неизбежного обращения к глубоким фактам как общей теории меры, так и теории меры в топологичес- топологических пространствах. Можно добавить, что при асимптотическом изу- изучении использующих выборки фиксированного объема непарамет- непараметрических критериев (типа критериев Колмогорова—Смирнова) по- порою целесообразно, а порою неизбежно обращение к таким поня- понятиям, как сходимость мер в функциональных пространствах и т. д. Читатели, которые хотели бы получить более обширные сведе- сведения из теории меры и интегрирования, могут обратиться к книгам Халмоша A953), Сакса A949), Колмогорова и Фомина A968), Дан- форда и Шварца A962). Читателям, интересующимся теорией меры лишь в связи с теорией вероятностей, необходимо читать соответ- соответствующие разделы в книгах Дуба A956), Лоэва A962), Неве A969) (некоторые дополнительные ссылки см. ниже в тексте, относящемся ко второй части). Информация об интеграле Фурье, полезная для изучающих теорию вероятностей, имеет отношение к свойствам характеристи- характеристических функций и формулам обращения; поэтому необходимые ссыл- ссылки будут сделаны во второй части добавления. Глава, посвященная матрицам, детерминантам и квадратичным формам, может быть дополнена материалом книги Рао A968), гл. 1.
Часть II. Случайные величины и распределения вероятностей Глава 13. Обсуждение вопроса о соотношении между частотой и вероятностью и о роли вероятностных моделей может быть допол- дополнено положениями и иллюстрациями из статьи Колмогорова A956) (см. также Колмогоров A971) и Нейман A95$)). Глава 14. Построения этой главы уместно дополнить одним за- замечанием из монографии Гнедепко и Колмогорова A949). Поскольку эта монография стала библиографической редкостью, приведем это важное замечание полностью. Определяя понятие вероятност- вероятностной меры в /?„, авторы пишут: «Такое понятие /(-мерного распреде- распределения вероятностей выбрано в качестве аксиоматической основы всех дальнейших рассмотрений в книге Крамера. Однако даже в уз- узких рамках исключительного интереса к конечномерным распреде- распределениям этот подход не лишен недостатков. В этом можно убедить- убедиться, например, прочитав параграфы 14.2 и 14.5 книги Крамера. Его аксиома 3 заставяет предполагать, что основным объектом, свойст- свойства которого должны быть фиксированы при помощи аксиом, явля- является какая-то не названная непосредственно совокупность всех случайных величин. В параграфе 14.5 даже «доказывается», что любая измеримая но Борелю функция случайной величины сама является случайной величиной. Но остается неясным, имеются ли при этом в виду те случайные величины, к которым относятся аксио- аксиомы 1, 2 и 3, или случайные величины в каком-то новом смысле. Можно было бы, конечно, избежать этих неясностей за счет еще более силь- сильного ограничения: всегда отправляться от некоторого исходного распределения вероятностей Р$(А) для некоторого запаса «основ- «основных» случайных величин с,, ?..., ..., ?„ и строго отличать от них «производные» случайные величины п. /(?,, ..., %„), для которых законы распределения вычисляются исходя из основного распреде- распределения Pi(A). Более широкая и естественная перспектива и возмож- возможность все рассматриваемые случайные величины считать равноправ- равноправными открываются лишь при более общем подходе к делу, разви- развитом в книге Колмогорова A933, 1974)». Как показывает опыт раз- развития теории вероятностей и математической статистики, аксиома- аксиоматика, предложенная А. Н. Колмогоровым, охватывает почти все задачи (исключение составляет лишь случай, когда ситуация опи- описывается в терминах одних лишь условных вероятностей). С дру- другой стороны,выяснилось, что для исключения некоторых патологи- патологических случаев целесообразно ограничить общее определение поня- понятия распределения вероятностей. Первый шаг в этом направлении был сделан в упомянутой монографии Гнеденко и Колмогорова, где введено понятие совершенной меры и дано определение: «Веро- «Вероятность Р(А) ость совершенная мера, удовлетворяющая условию нормированное™». Однако, ограничение совершенными мерами еще
не снимало всех трудностей, и при дальнейшем изучении был вы- выделен класс так называемых «плотных» (tight) мер; см. обзор Прохорова A961) и книги Партасарати A967), Биллингслея A968) и Топсё A970). Главы 15—20. Эти главы посвящены числовым характеристикам случайных величин, важнейшим классам одномерных дискретных и непрерывных распределений, а также предельным теоремам (за- (закону больших чисел и центральной предельной теореме), примене- применения которых в математической статистике весьма многочисленны. Общая теория характеристических функций основана на свой- свойствах интеграла Фурье. Литература, посвященная интегралу Фу- Фурье, насчитывает множество обстоятельных пособий, однако чита- читателям, имеющим чисто вероятностные интересы, достаточно обратить- обратиться к книгам, содержащим все необходимые сведения об интеграле Фурье в связи с распределениями вероятностей; см., например, Гнеденко и Колмогоров A949), Рамачандран A967), Лукач A970). Некоторые предельные теоремы для случайных величин с неотри- неотрицательными целочисленными значениями доказываются методом производящих функций; см., например, Феллер A967). Известна принципиальная роль неравенства Чебышева или его обобщения (см. формулу A5.7.1)) в теории вероятностей. Попытки уточнить это неравенство для некоторых специальных классов рас- распределений объяснялись практическими соображениями. Были от- открыты также экспоненциальные варианты неравенства Чебышева для сумм взаимно независимых случайных величин; см. Бернштейн A946, 1964), Карлин и Стадцен A966). Известны и асимптотические формулы для вероятностей так называемых «больших уклонений» (кстати, первые такие формулы были получены самим Крамером A938)). Обзор важнейших результатов в этой области сосредото- сосредоточен в монографиях Ибрагимова, Линника A965) и Петрова A972). Теорема Муавра—Лапласа об аппроксимации биномиального распределения является самой первой предельной теоремой теории вероятностей. Важность этой теоремы подчеркивают также иссле- исследования, посвященные проблеме улучшения сходимости; см. Берн- Бернштейн A943) и Феллер A945). Следует отметить, что все варианты центральной предельной теоремы доказываются Крамером по стандартному принципу: уста- устанавливается сходимость характеристических функций нормирован- нормированных сумм к характеристической функции нормального распределе- распределения, а затем используется известная теорема непрерывности Кра- Крамера — Леви (стр. 112) [вопрос о скорости сходимости обсуждается на стр. 2541. Проблема оценки скорости сходимости в центральной предель- предельной теореме решается посредством построения разложений вероят- вероятностных распределений, основанных на нормальном распределе- распределении. Известны два типа таких разложений: разложения по ортого-
нальным полиномам Грама—Шарлье и асимптотические разложе- разложения Эджворта. О принадлежащих Крамеру, Берри, Эссеену и их последователям результатах в области асимптотических разложе- разложений можно прочитать в монографиях Крамера A947), Гнеденко и Колмогорова A949), Петрова A972). Биолиография по вопросу асимптотической аппроксимации распределений имеется в книге Уоллеса A958). Большую роль в теории оценок и в теории проверяй гипотез играют точные и асимптотические распределения функций («статис- («статистик» или «критериев») от случайных величин с известным совмест- совместным распределением вероятностей. Относительно точных распреде- распределений возникает вопрос, в какой мере они характеризуют распре- распределение исходных случайных величин. Так, известно, что совмест- совместное распределение величин *'~~* , /=1, 2 и (см. обозначения на стр. 376) в выборке из нормальной совокупности равномерно на (« — 2)-мерной единичной сфере. При п ^ 6 верно и обрат- обратное, т. е. это свойство характеризует исходное нормальное рас- распределение. Подобно этому и независимость х и s! (см. стр. 417) характеризует нормальность исходного распределения. Известны глубокие результаты, показывающие, насколько сильным является налагаемое a priori ограничение независимости тех или иных ста- статистик; известен и ряд других так называемых ларактеризацион- ных теорем (это направление было начато и существенно развито Ю. В. Лннником; с его современным состоянием можно познакомить- познакомиться по монографии Кагана, Линника, Рао A972)). В асимптотической теории распределений «статистик» большое значение имеют различные «улучшающие сходимость» преобразова- преобразования случайных величин (см., например, замечания на стр. 278 о X2 и на стр. 436 о г-прёобразовании Фишера). Некоторые употре- употребительные преобразования перечислены в обзоре Хойла A973). Ряд важных преобразований указан в работах Большева A959, 1963), где, в частности, получена аппроксимация биномиального распределения, более точная, чем известные пуассоновское и нор- нормальное приближения, и, кроме того, уточнены аппроксимации распределений некоторых статистик. О практическом применении этих преобразований см. также вводную статью к таблицам Боль- Большева и Смирнова A965). Для рассматриваемых Крамером задач математической статис- статистики достаточно знакомства лишь с двумя типами сходимости по- последовательностей случайных величин: по распределению и по ве- вероятности. О соотношении различных типов сходимости случайных величин и о весьма важном понятии сходимости с вероятностью еди- единица см. книги Лоэва A962), Неве A969) и Дюге A972). Главы 21—24. В разделе, посвященном распределениям в двумер- двумерном и многомерном евклидовых пространствах, Крамер делает ос-
новной упор на характеристику зависимости между случайными величинами; см. также аналитическую теорию корреляции и регрес- регрессии в обстоятельно написанной книге Кендалла и Стьюарта A973). Варианты многомерной центральной предельной теоремы и об- обсуждение предельных проблем, возникающих при суммировании случайных векторов, приведены в обзоре Прохорова A972). Полезный справочный материал, необходимый при изучении частей I и II, содержит книга Прохорова и Розанова A973). Часть III. Статистические выводы Глава 26. Об общих вопросах теории статистических выводов см. также статью Неймана 0955). Главы 27—29. Основой практического использования статисти- статистических выводов служит теория распределений выборочных характе- характеристик, т. е. распределений различных функций от случайных ве- величин, входящих в выборку. Формально простая задача нахожде- нахождения точных формул для функций распределения статистик оказы- оказывается в большинстве случаев технически трудно разрешимой. Подробные отчеты о методах получения точных выборочных распре- распределений, наиболее часто используемых в приложениях теории оце- оценок и теории проверки гипотез, полученных в явном виде пли табу- табулированном, содержатся в соответствующих разделах книг Больше- ва и Смирнова A965), Кендалла и Стьюарта A966), Уилкса A967). Решение многих задач математической статистики основывается на использовании предельных теорем для некоторых универсальных распределений. Однако точность соответствующих приближенных формул зачастую оказывается недостаточной для практических нужд. В асимптотической теории выборочных распределений в пос- последние годы были предприняты попытки найти более точные ап- проксимационные формулы для некоторых статистических распре- распределений. Для повышения точности аппроксимации были исполь- использованы сходящиеся и асимптотические разложения распределений; основные результаты в этом направлении (касающиеся полиномиаль- полиномиального, пуассоновского, гипергеометрического распределений, рас- распределений Стьюдента, /-", -/Д распределений непараметрической статистики) суммированы в работе Калинина A968). В работе Мо- ленара A970) указаны весьма точные приближения для некоторых дискретных распределений и даны рекомендации, позволяющие ис- использовать полученные результаты для таких непрерывных распре- распределений, как Г и ха. Тем же целям служат улучшающие сходимость преобразования случайных величин. Некоторые статистические приложения так называемых асимптотически пирсоновских преобра- преобразований указаны в работах Большева A961, 1963). Следует выделить лишь частично затронутую в главе 28 задачу точного и асимптотического распределений членов вариационного
ряда или так называемых порядковых статистик, которая возни- возникает в непараметрической статистике; подробное изложение вопро- вопроса см. в книгах Фрэзера A957). Гумбеля A965); см. также библио- библиографии Сэвиджа A962), Уолша A962), остальные ссылки будут сделаны ниже. О наиболее важных распределениях выборочных характеристик в случае многомерного статистического анализа можно узнать из книг Андерсона A963), Кендалла и Стьюарта A966а), Кульбака A967). В связи с общими задачами теории проверки гипотез возникает проблема классификации и выделения семейств распределений, обладающих достаточными статистиками. О классах распределе- распределений, допускающих так называемые подобные зоны (зоны, подобные пространству выборок), в частности об экспоненциальном классе распределений, см. Леман A964), Линник A966). Глава 30. Эта глава о критериях согласия посвящена в основном классическому критерию %- К. Пирсона: имеется вывод предель- предельного распределения для статистики хг » лапы многочисленные при- примеры использования критерия в различных ситуациях (см. также Ван дер Варден (I960)). Обзор результатов по ха-критериюможно найти в работах Кокрена A952, 1954), Ватсона A959), Ланкастера A969) и Никулина П973). Обоптимальных свойствах критериев ти- типа хг Для непрерывных распределений см. статью Чибисова( 1971). Из других критериев согласия упомянут лишь непараметриче- непараметрический ш2-критерий Крамера — Мизеса — Смирнова. .Мощность и эф- эффективность этого критерия была исследована Чибисовым A961). Необходимые сведения о других непараметрических критериях, основанных на функционалах от разности функций эмпирического и теоретического распределений, таких, как критерий Колмогорова и Смирнова, содержатся в работах Гпеденко A969), Смирнова A970), Боровкова A962), Гихмана, Гнеденко, Смирнова A956), вводной части таблиц Большева и Смирнова A965). Оптимальность некоторых непараметрических критериев обсуждается в работе Боровкова, Сычевой A968). Общей теории так называемых ранго- ранговых критериев посвящена книга Гаека и Шидака A971). Современ- Современное состояние теории непараметрических критериев отражено в об- обзорах Пури. A970, 1972), Хёфдинга A968). Главы 32—34. Значительные достижения теории оценок связаны с понятиями состоятельности, эффективности, достаточности. Воз- Возможности использования теории достаточных статистик для отыс- отыскания несмещенных оценок с минимальной дисперсией изучались в работах Гиршика, Мостеллера, Сэвиджа A946), Блекуэлла A947), Рао A949), Лема^а и Шеффе A950), Колмогорова A950). Фунда- Фундаментальная теорема, принадлежащая Рао, Блекуэллу, Колмогоро- Колмогорову, в частности, утверждает: если семейство зависящих от парамет- параметра в g в распределений имеет достаточную статистику Т~Т(Х),
X—(Xj, ..., Xn), то для каждой оценки 6(?e|8|<oo) можно найти оценку 8*=--8* (Т(Х)), зависящую от X только через Г(Х), такую, что ?,6*-?,6, б^в, при этом D8e*<D,,0, если ?6|в|*<оо. Подобного рода теоремы во многих конкретных случаях позволяют строить наилучшие несмещенные оценки. Вопросам теоретического исследования характеристических свойств, и критериев существо- существования достаточных статистик посвящены, работы Халмоша и Сэ- виджа A949), Дынкина A951). В книге Кул ьба ка-. A967) обсужда- обсуждаются информационные свойства достаточных статистик. Вывод важнейшего в теории оценок неравенства Крамера — Рао (полученного также Дармуа и Фреше и называемого иначе не- неравенством информации) может быть дополнен ссылкой на работу РаоМ. A961), в которой развит общий подход к проблеме получения нижних границ для дисперсий оценок (см. также простое доказа- доказательство неравенства у Большева A961)). Непосредственное обобщение теоремы Крамера о достаточных условиях состоятельности и асимптотической эффективности оценок максимального правдоподобия дано Кулдорфом A966), который исследовал проблему оценки параметров распределения по группи- группированным, выборкам (уточнение и многомерное обобщение этих ре- результатов см. в работе Бодина A970)). Исследованию асимптоти- асимптотических свойств оценок максимального правдоподобия посвящены работы Ле Кама A956), Бахадура A960), Рао A962), Вольфовица A965), Вейса и Вольфовица A966, 1967). Обсуждение общих вопро- вопросов оценивания по методу максимального правдоподобия см. в об- обширном обзоре Нордена A972, 1973). Дополнительные сведения о других способах получения оценок можно получить из книг Рао A968), Кендалла и Стьюарта A973), Линийка A962) (последняя полностью посвящена методу наименьших квадратов). Асимптоти- Асимптотические методы теории оценивания в рамках общей теории статисти- статистических решений подверглись анализу в работе Ле Кама A974), которая содержит также исторический обзор основных результатов и солидную библиографию. В работах Ибрагимова и Хасьминского A972, 1973а, 19736) получены новые результаты об асимптотиче- асимптотических свойствах широкого класса оценок. Заметную роль в задачах математической статистики стал иг- играть так называемый эмпирический байесовский подход, предназ- предназначенный для построения оценок в тех случаях, когда оцениваемый параметр является случайной величиной с неизвестным (априор- (априорным) распределением; см. Роббинс A956), Нейман A962), Большее A970). Обзор основных фактов теории интервального оценивания имеется в книгах Уилкса A967) и Кендалла и Стьюарта A973). Вопрос о сопоставлении доверительного (Ю. Нейман) и фидуци- ального (Р. Фишер) методов рассматривается в работах Берн-
штейна A964) и Неймана A961). Связь между свойствами (такими, как несмещенность, инвариантность и пр.) доверительных множеств и параметрических критериев проверки гипотез обсуждается в книге Лемана A964). О задаче одновременного оценивания по- посредством доверительных интервалов, возникающей в регресси- регрессионном анализе, см., например, Уилкс A967), гл. 10, и Шеффе A963). Об использовании техники доверительных интервалов для пост- построения так называемых толерантных интервалов можно прочитать в книге Кендалла и Стьюарта A973). Вывод толерантных границ для нормального распределения имеется в работе Вальда и Воль- фовица A946), см. также таблицы Оуэна A966). Важным для приложений методом получения оценок является метод статистических испытаний (метод Монте-Карло), численный метод решения математических задач (например, вычисление ин- интегралов, решение уравнений) посредством моделирования случай- случайных величин. С обоснованием и вычислительными процедурами метода статистических испытаний можно познакомиться по моно- монографии Ермакова A971). Глава 35. Теория статистической проверки гипотез, основные принципы которой были сформулированы Нейманом и Пирсоном, за последние двадцать лет была развита настолько, что стала неотъ- неотъемлемой частью учебных руководств по математической статистике. По существу в дополнение к программе, намеченной Крамером, можно рекомендовать более широкое ознакомление с ролью фунда- фундаментальной леммы Неймана — Пирсона и со свойствами критерия отношения правдоподобия в случае выборок фиксированного объе- объема (см., например, соответствующие разделы в книгах УилксаA967) и Рао A968)). По поводу проверки сложных гипотез, в частности условий существования и построения оптимальных в том или ином смысле критериев, см. книгу Кендалла и Стьюарта A973), а также статью Неймана A959). Синтез многих важнейших результатов в об- области проверки гипотез принадлежит Леману A964). Совершенно иначе построена книга Неймана A968), вводящая в круг идей со- современной теории проверки гипотез при минимальном использова- использовании математического аппарата. Известная проблема Беренса — Фишера имеет солидную лите- литературу, см., например, Брсни A955) и Тьюки A957). Предлагае- Предлагаемое здесь (стр. 566—569, пример 2) решение соответствует «фи- дуциальной» концепции Р. Фишера, а не принятой в книге концепции Ю. Неймана. Проблема существования отвечающих принципам Неймана «подобных» критериев изучается в книге Линннка A966). Построению критерия, приближенно подобного пространству выборок, посвящены работы Пагуровой A968 а, б); см. также Большее и Смирнов A965) и Рао A968), гл. 7. Главы 36—37. Отметим, что разделы книги Крамера, посвящен- посвященные дисперсионному и регрессионному анализу, изложены не-
сколько схематично. В настоящее время под влиянием практических потребностей эти направления математической статистики в дос- достаточной мере обеспечены литературой, отражающей как теорети- теоретические, так и прикладные аспекты их развития. Постановка задач в этой области и полезные литературные ссылки имеются в книгах Уилкса A967), гл. 10, и Рао A968), гл. 4. Наиболее полно диспер- дисперсионный и регрессионный анализ изложен в монографиях Шеффе A963), Плэкета A960) и Уильямса A959); широко обсуждаются вопросы оптимального планирования экспериментов, которое имеет целью увеличение точности статистических оценок; при регрессион- регрессионном анализе, например, задача планирования состоит в указании таких значений контролируемых переменных, при которых некая заданная функция от неизвестных параметров обладает теми или иными экстремальными свойствами. Обширная библиография по планированию экспериментов имеется в книге Гринвуда и Хартли A961). Подробный анализ темы планирования, посвященный прак- практическим задачам регрессионного и конфлюэнтного анализа, име- имеется в работе Клепикова и Соколова A964) |ср. Фёдоров A969)]. С набором стандартных приемов регрессионного и дисперсионного анализа можно познакомиться по книге Хальда A956). В последние годы были развиты статистические методы анализа выборок из многомерных совокупностей. Многомерный статисти- статистический анализ, в значительной мере применимый к выборкам из нормальных совокупностей, кроме многомерных обобщений клас- классических разделов теории оценок и теории проверки гипотез, вклю- включает в себя специфические проблемы классификации наблюдений (дискриминантный анализ) и оценки размерности множества наб- наблюдаемых переменных (метод главных компонент, факторный ана- анализ). Проблематика этого направления и основные результаты в наи- наибольшей мере освещены в монографиях Андерсона A963), Кен- далла и Стьюарта A966 6), Демпстера A969), Кришнайя A969); см. также библиографию Андерсон, Дас Гупта, Штьян A969). Введени- Введением в задачи многомерного анализа могут служить соответствующие разделы книг Уилкса A967) и Рао A968). /Математической теории факторного анализа посвящена книга Лоули и -Максвелла A967),. включающая как характеристику моделей, так и примеры их ис- использования. При работе над книгой Крамер ограничил свою программу изложением и математическим обоснованием сложившихся разде- разделов математической статистики; в частности, рассматриваемые Кра- Крамером методы оценки параметров и проверки гипотез основаны на предположении, что объем выборки фиксирован заранее. Идея оп- определения числа испытаний в ходе эксперимента п зависимости от результатов уже проведенных наблюдений на простом примере различения двух гипотез привела к возникновению последователь- последовательного статистического анализа. Вальдом A960) была создана теория
последовательного анализа и даны применения последовательного критерия отношения вероятностей (см. также Вальд и Вольфовиц A948)). Простейшее представление о последовательном оценивании и последовательных критериях можно получить в книгах Уилкса A967) и Рао A968); см. также Джексон A960), Джонсон A961). Развитие методов последовательного анализа способствовало созда- созданию общей теории статистических решающих функций; см. моногра- монографии Вальда A950), Блекуэлла и Гиршика A958), Чернова и Мозеса A962), Де Гроота A974). В то же время изучение последовательных статистических процедур в связи со случайными процессами при- привело к появлению теории оптимальной остановки наблюдений (раз- (раздел теории управляемых случайных процессов); см. Ширяев A961), Чжоу, Роббинс, Зигмунд A971). Из непараметрических последовательных методов получения оценок следует также отметить метод стохастической аппроксима- аппроксимации, который является в определенном смысле вероятностным ана- аналогом итерационных методов решения задач численного анализа. Наиболее полно задачи и результаты этого метода изложены в мо- монографиях Вазана A972), Невельсона и Хасьминского A972). Круг вопросов, которыми занимается современная математи- математическая статистика, весьма широк. Некоторое представление об этом дает «Библиография статистических библиографий», выпуска- выпускаемая Ланкастером A968, 1969—1974). СПИСОК ЛИТЕРАТУРЫ Андерсон (Anderson T. W.) A963) Введение в многомерный статистический анализ (перев. с англ.), М., Физматгиз. A971) The statistical analysis of time series. New York. (Готовится русский пе- перевод: Андерсон Т..Статистический анализ временных рядов, М., «Мир».) Андерсон, Дас Гупта, Штьян (Anderson Т. W., Das Gupta S., Styan G. P. R.) A969) A bibliography of multivariate statistical analysis, London, Oliver and Boyd. Арлей, Бух (Arley N.. Buch K.) A951) Введение в теорию вероятностей и математическую статистику (перев. с англ.), М., ИЛ. Бахадур (Bahadur R.) A960) On the asymptotic efficiency of tests and estimates, Sankhya, Indian J. Statist., 22, № 3—4, 229—252. Бернштейи С. Н. A943) Возврат к вопросу о точности предельной формулы Лапласа, Известия АН СССР, сер. матем., 7, 3—16. A946) Теория вероятностей, изд. 4, М.—Л., Гостехиздат. A964) Собрание сочинений, том IV, М., «Наука», 386—393, 566—569. Биллингслей (Billingsley P.) A968) Convergence of probability measures, New York, John Wiley. Блекуэлл (Blackwell D.) A947) Conditional expectation and unbiased sequential estimation, Ann. Math. Stat., 18, 105—110.
Блекуэлл, Гиршик (Blackwell D., Girshik M. A.) .A958) Теория игр и статистических решений (перев. с англ.), М., ИЛ. Бодин Н. А. A970) Оценка параметров распределения по группированным выборкам, Тр. МИАН СССР, CXI, 110-I54, Л., «Наука». Большее Л. Н. A959) О преобразованиях случайных величин, Теория вероятн. и ее примеч., 4, №2, 136—149. ' A961) Уточнение неравенства Рао — Крамера, Теория вероятн. и ее примеч., в, №3, 319-326. A963) Асимптотически пирсоновские преобразования, Теория вероятн. и ее примем., 8, № 2, 129—155. A970) Applications of the empirical Baves approach, Actes, Congres intern. Math., v. 3, 241—247. Большее Л. Н., Смирнов Н. В. A965) Таблицы математической статистики, М., «Наука». Боровков А. А. A962) К задаче о двух выборках. Известия АН СССР, сер. математ., 26, 605-624. ' Боровков А. А., Сычева Н. М. A968) О некоторых асимптотически оптимальных непараметрических крите- критериях, Теор. вероятн. и ее. примен., 13, № 3, 385—418. Брени (Вгёпу Н.) A955) L'etat actuel du probleme de Behrens—Fisher, Trab. estatist., в, № 2, 111—131. Вазан (Wasan M. T.) A972) Стохастическая аппроксимация (перев. с англ.), М., «Наука». Вальд (Wald A.) A950) Statistical decision functions, New York. John Wiley. A960) Последовательный анализ (перев. с англ.), М., Физматгиз. Вальд, Вольфовиц (Wald A., Wolfowitz J.) A946) Tolerance limits of a normal distribution, Ann. Math. Slat., 17, 208—215. A948) Optimum character of the sequential probability ratio test, Ann. Math. Stat., 19, 326—339. Ван дер Варден (van der Waerden B.) A960) Математическая статистика (перев. с нем.), М., ИЛ. Ватсон (Watson G. S.) A959) Some recent results in chi-square goodness-of-fit test, Biometrics, IS, № 3, 440—468. Вейс, Вольфовиц (Weiss L., Wolfowitz J.) A966) Generalized maximum likelihood estimators. Теория вероятн. иее примен., II, № 1, 68—93. A967) Maximum probability estimators, Ann. Inst. Statist. Math., 19, 193—206. Вольфовиц (Wolfowitz J.) A965) Asymptotic, efficiency of the maximum likelihood estimator, Теория ве- вероятн. и ее примен., 10, № 2, 267—281. Гаек, Шидак (Hajek J., Sidak Z.) A971) Теория ранговых критериев (перев. с англ.), М., «Наука*. Гиршик, Мостеллер, Сэвидж (Girshik M. A., Mosteller F., Savage L. J.) A946) Unbiased estimates for'certain binomial sampling problems with applica- applications, Ann. Math. Stat., 17, 13—23. Гихман И. И., Гнеденко Б. В., Смирнов Н. В. A956) Непараметрические методы статистики, Труды III Всесоюз. матем. съезда, том III, M., Изд-во АН СССР, 320—334. Гнеденко Б. В., Колмогоров А. Н. A949) Предельные распределения для сумм независимых случайных величии, М.. Гостехизлат.
Гнеденко Б. В. A969) Курс теории вероятностей, изд. 5. М., «Наука». Гринвуд, Хартли (Greenwood J. A., Hartley H. О.) A961) Guide to tables in mathematical statistics, Princeton University Press. Гумбель (Gumbel E. J.) A965) Статистика экстремальных значений (перев. с англ.). М., «Мир». Даифорд, Шварц (Dunford N.. Schwartz J.) A962) Лииейиые операторы. Общая теория (перев. с англ.), М., ИЛ. Де Гроот (De Groot M.) A974) Оптимальные статистические решения (перев. с англ.), М., «Мир». Ц,емпстер (Dempster A. P.) A969) Elements of continuous multivariate analysis, Addison—Wesley Publi- Publishing Company. Джексон (Jackson J. E.) A960) Bibliography on sequential analysis, J. Amer. Statist. Ass., 55, 516. Джонсон (Johnson N. L.) A961) Sequential analysis: a survey, J. Roy. Statist. Soc., A, 124, 372. Дуб (Doob J. L.) A956) Вероятностные процессы (перев. с англ.), М., ИЛ. Дыикии Е. Б. A951) Необходимые н достаточные статистики для семейства распределений вероятностей, УМН, в, 68—90. Дюге (Dugue D.) A972) Теоретическая и прикладная статистика (перев. с фр.), М., «Наука». Ермаков С. М. A971) Метод Монте-Карло и смежные вопросы, М., «Наука». Ибрагимов И. А., Лииник Ю. В. A965) Независимые и стационарно связанные величины, М., «Наука». Ибрагимов И. А., Хасьминский Р. 3. A972) Асимптотическое поведение некоторых статистических оценок в глад- гладком случае. Теория вероятн. и ее примен., 17, №3, 469—486, A973 а) Асимптотическое поведение некоторых статистических оценок в глад- гладком случае. Теория вероятн. и ее примен. 18, № 1, 78—93. A973 6) О моментах обобщенных байесовских оценок и оценок максимального правдоподобия, Теория вероятн. и ее примен., 18, №3, 535—546. Каган А. М., Линник Ю. В., Рао С. Р. A972) Характеризанионные задачи математической статистики, М., «Наука». Калинин В. М. A968) Предельные свойства вероятностных распределений, Тр. МИАН СССР, C1V, 88—134, Л., «Наука». Карлин, Стадден (Karlin S., Studden W. J.) A966) Tschebysheff systems: with applications in analysis and statistics. New York, Intersci. Publs. Кендалл (Kendall M. G.) A962) Rank correlation methods Ced), London. Griffin. Кендалл, Стьюарт (Kendall M. G., Stuart A.) A966 a) Tom I. Теория распределений (перев. с англ.), М., «Наука». A973) Том 2. Статистические выводы и связи (перев. с англ.). М., «Наука». A966 б) Том 3. Design and analysis, and time-series, London, Griffin. (Гото- (Готовится русский перевод: Кендалл М., Стьюарт А. Многомерный ста- статистический анализ и временные ряды, М., «Наука».) Клепиков Н. П., Соколов С. Н. A964) Анализ и- планирование экспериментов методом максимум» правдоподо- правдоподобия, М., «Наука». Колмогоров А. Н. A933) Grundbegriffe der Wahrscheinlichkeitsrechnung, Berlin. (Русский пе- перевод: Колмогоров А. Н. Основные понятия теории вероятностей, М.— Л., ОНТИ, 1936.)
A950) Несмещенные оценки. Изв. АН СССР, сер. матем., 14, № 4, 303—326. A956) Теория вероятностей, сб. «Математика, ее содержание, методы н значе- значение», том 2, гл. XI, М.. Изд-во АН СССР. A971) Вероятность, Большая Советская Энциклопедия, том 4. стр. 544. A974) Основные понятия теории вероятностей, 2-ое изд., М., «Наука». Колмогоров А. Н.. Фомин СВ. A968) Элементы теории функций и функционального анализа, М., «Наука». Кокрен (Cochran W. G.) A952) The x3 test of goodness-of-fit, Ann. Math. Stat., 23, 315—345. A954) Some methods for strengthening the common tests, Biometrics, 10, 417. Крамер (Cramer H.) A938) Sur un nouveau theoreme-limite de la theorie des probability, Paris. Actual, sci. et ind., n 736. (Русский перевод: Крамер Г., Об одной новой предельной теореме теории вероятностей, УМН, 10 A944), 166—178.) A947) Случайные величины и распределения вероятностей (перев. с англ.), М., ИЛ. Кришнайя (Krishnaiah PR.) A969) Multivariate Analysis — II. Proceed, of the Second International Sym- Symposium on Multivariate Analysis. Academic Press. Кулдорф (Kulldorf G.) A966) Введение в теорию оценивания (нерев. с англ.), М., «Наука». Кульбак (Kullback S.) A967) Теория информации и статистика (перев. с англ.), М.. «Наука». Ланкастер (Lancaster H. О.) A968) Bibliography of statistical bibliographies, London, Oliver and Boyd. A969) The chi-squared distribution, New York, John Wiley. A969—1974) Bibliography of statistical bibliographies. Int. Slat. Rev.: a second list, 37, 57—67; a third Jist. 38, 258—267; a fourth list. 39, 64—73; a fifth list, 40, 73-81; a sixth list, 41, 375-379; a seventh list. 42, 67—70. Ле Кам (Le Cam L.) A956) On the asymptotic theory of estimation and testing hypotheses, Proc. Third Berkeley Symposium on Math. Stat. and Prob.. Vol. ), 129—156, University of California Press. A974) Notes on asymptotic methods in statistical decision theory, Publ..Centre de Recherches Mathematiques, L'niversiti' de Montreal.' Леман (Lehmann E. L.) A964) Проверка статистических гипотез (перев. с англ.). М.. «Наука». Леман, Шеффе (Lehmann E. L., Scheffe H.) A950) Completeness, similar regions and estimates, Sankliyd, 10. 305—340. Линник Ю. В. A962) Метод наименьших квадратов и основы теории обработки наблюдений, изд. 2, М., Физматгиз. A963) On the Berens — Fisher problem, Ottawa. Pr«>c. Int. Stat. Conference. A966)'Статистические задачи с мешающими параметрами, М., «Наука». Лоули, Максвелл (Lawley D. N.. Maxwell A. E.) A967) Факторный анализ как статистический метод (перев. с англ.), М., «Мир». Лоэв (Loeve M.) A962) Теория вероятностей (nt-.реи. с англ.), М., ИЛ. Лукач (Lukacs E.) A970) Characteristic functions B ed), London. Griffin. Моленар (Molenaar W.) A970) Approximations to the Poisson, binomial and hypergeometric dis tribution functions (Math. Centre Tracts, 31), Amsterdam Math. Centrum. Невельсон М. Б., Хасьмниский Р. 3. A972) Стохастическая аппроксимация и рекуррентное оценивание. М., «Наука».
Неве (Neveu J.) A969) Математические основы теории вероятностей (перев. с фр.), М., «Мир». Нейман (Neyman J.) A955) The problem of inductive inference, Communications on pure and applied mathematics, 8, 13—46. A959) Optimal asymptotic tests of composite hypotheses, Probability and Stat: The H. Cramer volume, Upsala, 213—234. A961) Silver jubilee of my dispute with Fisher, J. Oper. Res. Soc. of Japan, 3, 145—154. A962) Two breakthroughs in the theory of statistical decision making, Int. Stat. Rev., 30, № I, 11-27. A968) Вводный курс теории вероятностей и математической статистики (перев. с англ.). М., «Наука». Никулин М. С. A973) Критерий хи -квадрат для непрерывных распределений с парамет- параметрами сдвига и масштаба. Теория вероятн. и ее примеч., 18, № 3, 583-591. Норден (Norden R. Н.) A972) A survey of maximum likelihood estimation, Int. Stat. Rev., 40, № 3, Part I, 329—354. A973) A survey of maximum likelihood estimation. Int. Stat. Rev., 41, ,N» I, Part 2, 39—58. Оуэи (Owen D. B.) A966) Сборник статистических таблиц. М.. ВЦ АН СССР. Пагурова В. И. A968 а) О сравнении средних значений н двух нормальных выборках. Теория вероятн. и ее примеч., 13, №3, 5С1—508. A963 6) Критерии сравнения средних значений по двум нормальным вы- выборкам, вып. 5, М., Изд. ВЦ ЛН СССР. Партасарати (Parathasarathy К. R) A967) Probability measures on metric spaces. New York. Academic Press. Петров В. В. A972) Суммы независимых случайных величин. М., «Наука». Плэкет (Plackett R. L.) A960) Principles of regression analysis, Oxford, Clarendon Press. Прохоров Ю. В. A961) Method of characteristic functional. Proc. 4th Berkeley Sympos. Math. Statist, and Probability, 1960, Vol. 2, Berkeley — Las Angeles, Univ. California Press, 403—419. A972) Многомерные распределения: неравенства и предельные теоремы, «Итоги науки», М., Изд-во ВИНИТИ. Прохоров Ю. В., Розанов Ю. А. A973) Теория вероятностей (изд. 2), М., «Наука». Пури (Puri M. L.) A970) Nonparametric techniques in statistical inference, London, Cambridge Univ. Press. A972) Some aspects of nonparametric inference, Int. Stui. Rev., 40, № 3, 299— 327. Рамачаидран (Ramachandran B.) A967) Advanced theory of characteristic function. Statistic Publ. Soc., Calcutta. (Готовится русский перевод: Рамачандран 15. Теория характеристи- характеристических функций. М., «Наука».) Pao (Rao С. R.) A949) Sufficient statistics and minimum variance estimates. Proc. Carnbr. Phil. Soc., 45, 213—21». A961) Apparent anomalies and irregularities in maximum likelihood estimation. Bull. lust. Internal. Statist., XXXVIII, 4-e livre.Tokyo.
A962) Efficient estimates and optimum inference procedures in large samples, J. Roy. Statist. Soc., B24, Nsl. 46—63. A968) Линейные статистические методы и их применения (перев. с англ.), М., «Наука». Pao (Rao М. М.) " A961) Theory of lower bounds for risk functions in estimation, Math. Ann., 143, №5, 379—398. Робби не (Robbins H.) A951) Asymptotically subminimax solutions of compound statistical decision problems, Proceedings of the Second Berkeley Symposium on Statistics and Probability. 1950, 131—148, Berkeley and Los Angeles, University of California Press. A956) An empirical Bayes' approach to statistics, Proceedings of the Third Ber- Berkeley Symposium on Statistics and Probability, I, 1955, 157—164, Ber- Berkeley and Los'Angeles, University of California Press. Сакс (Saks S.) A949) Теория интеграла (перев. с англ.), М., ИЛ. Сархаи, Гринберг (Sarhan A. E., Greenberg В. G.) A970) Введение в теорию порядковых статистик (перев. с англ.), М., «Ста- «Статистика». Смирнов Н. В. A970) Теория вероятностей и математическая статистика. Избранные труды, М., «Наука». Соле (Soler J. L.)" A972) Основные структуры математической статистики (перев. с франц.), М., «Мир». Спрент (Sprent P.) A969) Models in regression and related topics, London, Methuen. Сэвидж (Savage 1. R) A962) Bibliography of nonparametric statistics, Harvard Univ. Press. Таблицы A952) Tables of the binomial probability distribution, National Bureau of Standards, Washington. A955) A million random digits with 100.000 normal deviates, Rand Corporation, Glencoe, Illinois. A959) Tables of the bivariate normal distribution function, National Bureau of Standards, Washington. Tonce (Topsoe F.) A970) Topology and measure, Berlin, Springer Verlag. Тьюки (Tukey J. W.) A957) Some examples with fiducial relevanes, Ann. Math. Slat., 28, 687—695. Уилкс (Wilks S. S.) A967) Математическая статистика (перев. с англ.). М., «Наука». Уильяме (Williams E. J.) A959) Regression analysis. New York, John Wiley. Уоллес (Wallace D. L.) A958) Asymptotic approximations to distributions, Ann. Math. Stat., 29, 635— 654. Уолш (Walsh J. E.) A962) Handbook of nonparametric statistics, investigations of randomness, moments, percentiles and distributions, Nostrand, London. Феллер (Feller W.) A945) On the normal aproximation to the binomial distribution, Ann. Math. Stat., 16, 319—329. A967) Введение в теорию вероятностей и ее приложения (перев. с англ.), Тома 1 и 2, М., «Мир». Фёдоров В. В. A969) Теория оптимальных экспериментов, вып. 7, Изд. МГУ.
Фишер (Fisher R. A.) A935) The design of experiments, Edinburg, Oliver and Boyd. A958) Статистические методы для исследователей (перев. с англ.), М., Гос- статиздат. Фрэзер (Fraser D. A. S.) A957) Nonparametric methods in statistics, New York, John Wiley. Халмош (Halmos P. R.) A953) Теория меры (перев. с англ.). М., ИЛ. Халмош, Сэвидж (Halmos P. R., Savage L. J.) A949) Application of the Radon — Nikodym theory of sufficient statistics, Ann. Math. Slat., 20, 225—241. Хальд (Hald A.) A956) Математическая статистики с техническими приложениями (перев. с англ.), М., ИЛ. Хёфдинг (Hoeffding W.) A968) Some recent developments in nonparametric statistics, Rrc. of the Inter. Stat. Institute, 36, № 2, 17G—183. Хойл (Hoyle M. N.) A973) Transformations — An Introduction and a Bibliography, Int. Slat. Rec, 41, № 2, 203—223. Чжоу, Роббннс, Зигмунд (Chow Y. S.. Robbins H., Siegmund D.) A971) Great expectations: The theory of optimal stopping. Boston. Houghton Mifflin Co. Чернов, Леман (Chernoff H., Lehrnann E. L.) A954) The use of maximum likelihood estimates in %- tests for goodness-of-fit. Ann. Maht. Stat., 25, 579. Чернов, Мозес (Chernoff H., Moses L. E.) A962) Элементарная теория статистических решений (переп. с англ.), М., «Сов. радио». Чибисов Д. М. A961) Об асимптотической мощности и эффективности критерия (»s, ДАН СССР, 138, № 2, 322—325. A971) Некоторые критерии типа хи-квадрат для непрерывных распределений. Теория вероятн. и ее примен., 16, № I. 3—20. Шеффе (Scheffe Н.) A963) Дисперсионный анализ (перев. с англ.). М.. Фнзматгиз. Ширяев А. Н. A961) Статистический последовательный анализ, гл. 4. М., «Наука». Юл и Кендал (Yule S. U., Kendall M. G.) A960) Теория статистики (перев. с англ.), М., Госстатиздат.
ОГЛАВЛЕНИЕ Предисловие ко второму русскому изданию S Предисловие к первому русскому изданию б Из предисловия автора 9 ЧАСТЬ ПЕРВАЯ МАТЕМАТИЧЕСКОЕ ВВЕДЕНИЕ Главы 1—3 Точечные множества Глава 1. Общие свойства множеств ¦ 13 1. Множества.— 2. Подмножества. Пространство. — 3. Операции над множествами. — 4. Последовательности множеств.— 5. Монотонные последовательности. — 6. Аддитивные классы множеств. Глава 2. Линейные точечные множества . • 21 1. Интервалы. — 2. Некоторые свойства множеств в Rv — 3. Боре- левские множества. Глава 3. Точечные множества в пространстве Rn 25 1. Интервалы. — 2. Некоторые свойства множеств из /?„. — 3. Боре- левские множества. — 4. Линейные множества. — 5. Подпростран- Подпространства. Произведение пространств. Литература к главам 1—3 29 Гяалы 4—7 Теория меры и интегрирования в Rx Глава 4. Мера Лебега линейных точечных множеств 30 1. Длина интервала. — 2. Обобщение. — 3. Мера суммы интерва- интервалов. — 4. Внешняя н внутренняя меры ограниченного множества. — 5. Измеримые множества и лебегова мера. — 6. Класс измеримых множеств. — 7. Измеримые множества и борелевскне множества. Глава 5. Интеграл Лебега от функций одной переменной 46 1. Интеграл от ограниченной функции по множеству конечной меры.— 2. ^-измеримые функции. —3. Свойава интеграла.— 4. Интеграл от неограниченной функции на множестве конечной меры. —5. Интеграл на множестве бесконечной меры. — 6. Интеграл Лебега как аддитивная функция множества.
Глава 6. Неотрицательные аддитивные функции множества ъ Rx . . . . 62 1. Обобщение меры Лебега и интеграла Лебега.—'2. Функции мно- множества н функции точки. — 3. Построение функции множества. — 4. Я-мера. — 5. Ограниченные функции множества. — 6. Распреде- Распределения. — 7. Последовательности распределений. — 8. Теорема сходи- сходимости. Глава 7. Интеграл Лебега — Стнлыьееа от функции -одного переменного 77 1. Интеграл от ограниченной функции но множеству конечной Л-мсры. — 2. Неограниченные функции и множества бесконечной Я-меры. — 3. Интегралы Лебега — Стильтьеса с параметром. — 4. Интегралы Лебега —Стильтьеса относительно распределения.- 5. Интеграл Римана — Стнлыьееа. Литература к главам 4—7 90 Гл/таы 8—9 Теория меры и интегрировании в R,, Гллю 8. Мера Лебега и другие аддитивные функции множества и /?„... 91 1. Мера Лебега и Я,,.— 2. Неотрицательные аддитивные функцли множества в Rn — 3. Ограниченные функции множества. — 4. Рас- Распределения. — 5. Последовательности распределений. — 6. Распреде- Распределения в произведении пространств. Глава 9. Интеграл Лебега — Стильтьеса от функций п переменных . . . 1Q0 I. Интеграл Лебега — Стильтьеса. — 2. Интегралы Лебега — Стиль- Стильтьеса относительно распределения. — 3. Теорема о повторном интегрировании. — 4. Интеграл Римаиа — Стильтьеса. — S. Нера- Неравенство Шварца., Главы 10—12 Различные вопросы Глава 10. Интегралы Фурье 105 1. Характеристическая функции распределения в R^. — 'Л. Некото- Некоторые вспомогательные функции. — 3. Теоремы единственности дли характеристических функций и gv— 4. Теорема непрерывности для характеристических функций в J?t. —5. Некоторые интегра- интегралы. — (к Характеристическая функция распределения в Rn. — 7. Тео- Теорема непрерывности для характеристических функций в /?„. Глава Н. Матрицы, детерминанты и квадратичные формы , 120 1. Матрицы. — 2. Векторы. — 3. Матричное обозначение линейных преобразований. — 4. Матричное обозначение для билинейных и
квадратичных форм. — 5. Детерминанты. — 6. Ранг. — 7. Присоеди- Присоединенная и обратная матрицы. — 8. Линейные уравнения. — 9. Орто- Ортогональные матрицы. Характеристические числа. —10. Неотрнца- « тельные квадратичные формы.— П. Разложение формы 2*/' — 12. Некоторые интегральные формулы. Глава 12. Различные дополнения 140 1. Символы О, о и с/э.— 2. Формула Эйлера—Маклореиа.— 3. Гамма-функция. — 4. Бета-функция. — 5. Формула Стерлинга. — 6. Ортогональные полиномы. ЧАСТЬ ВТОРАЯ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Главы 13—14 Основания Глава 13. Статистика и вероятность 157 1. Случайные эксперименты. — 2. Примеры. — 3. Статистическая устойчивость. — 4. Объект математической теории. — 5. Матема- Математическое понятие вероятности. Глава 14. Основные определения и аксиомы 173 1. Случайные величины (аксиомы 1—2).— 2. Составные величины (аксиома 3). — 3. Условные распределения. — 4. Независимые вели- величины.— 5. Функции случайных величин. — 6. Заключение. Главы 15—20 Случайные величины и распределения в Я, Глава 15. Общие свойства 188 1. Функция распределения и плотность вероятности. — 2. Два прос- простых типа распределений. — 3. Средние значения. — 4. Моменты. — 5. Характеристики расположения.—6. Характеристики рассея- рассеяния. — 7. Теорема Чебышева. — 8. Характеристики асимметрии к эксцесса.— 9. Характеристические функции.— 10. Семи-ииварн- анты. — 11. Независимые величины.— 12. Сложение независимых случайных величин. Глава 16. Различные дискретные распределения 217 1. Функция i{x).—2. Биномиальное распределение. — 3. Теорема Бернулли. — 4. Теорема Муавра. — 5. Распределение Пуассона. — 6. Обобщенное биномиальное распределение Пуассона.
Глава 17. Нормальное распределение 233 1. Нормальные функции. — 2. Нормальное распределение. — 3. Сло- Сложение независимых нормальных величин. — 4. Центральная пре- предельная теорема. — 5. Дополнительные замечания к центральной предельной теореме. — 6. Ортогональное разложение, основанное на нормальном распределении. — 7. Асимптотическое разло- разложение, основанное на нормальном распределении. — 8. Роль нор- нормального распределения в статистике. Глава 18. Различные распределения, связанные с нормальным распре- распределением 258 1. х2-распределение. — 2. Распределение Стьюдента. — 3. г-распре- деление Фишера. — 4. Бэта-распределение. Глава Id. Другие непрерывные распределения 270 1. Прямоугольное распределение. — 2. Распределения Коши и Лап- Лапласа. — 3. Усеченные распределения. — 4. Система Пирсона. Глава 20. Некоторые теоремы о сходимости 276 1. Сходимость распределений и случайных величин.— 2. Сходи- Сходимость некоторых распределений к нормальному. — 3. Сходимость по вероятности. — 4. Теорема Чебышева. — 5. Теорема Хннчина.— 6. Теорема о сходимости. Упражнения к главам 15—20 283 Главы 21—24 Случайные величины и распределения в Rn Глава 21. Случай двух измерений 288 J. Два простых типа распределений. — 2. Средние значения, момен- моменты. — 3. Характеристические функции. — 4. Условные распределе- распределения.—5. Регрессия, I. — 6. Регрессия, II. —7. Коэффициент кор- корреляции;—8. Линейное преобразование случайных величин.— 9. Корреляционное отношение и средняя квадратическая связан- связанность.—10. Эллипс рассеяния.—11. Сложение независимых слу- случайных величин. —12. Нормальное распределение. Г пава 22. Общие свойства распределений в /?„ 321 1. Два простых типа распределений. Условные распределения. — 2. Замена переменных в непрерывном распределении. — 3. Средние значения, моменты.— 4. Характеристические функции.— 5. Ранг распределения. — 6. Линейное преобразование величин. — 7. Эллип- Эллипсоид рассеяния.
Глава 23. Регрессия н корреляция в Ra . 332 1. Поверхности регрессии. — 2. Линейная средняя квадратнческая регрессия. — 3. Остатки, остаточная дисперсия. — 4. Частная кор- корреляция.— 5. Сводный коэффициент корреляции. — 6. Ортогональ- Ортогональная средняя квадратическая регрессия Глава 24. Нормальное распределение 341 1. Характеристическая функция. — 2. Собственное нормальное рас- распределение. — 3. Несобственное нормальное распределение. — 4. Ли- Линейное преобразование нормально распределенных величин. — 5. Распределение суммы квадратов. — 6. Условные распределе- распределения. — 7. Сложение независимых величин. Центральная предельная теорема. Упражнения к главам 21—24 348 ЧАСТЬ ТРЕТЬЯ СТАТИСТИЧЕСКИЕ ВЫВОДЫ Главы 23—26 Общие понятия Глава 25. Предварительные понятия, относящиеся к выбору 359 1. Вводные замечания. — 2. Простой случайный выбор.— 3. Рас- Распределение выборки. — 4. Выборочные значения как случайные ве- величины. Выборочные распределения. — 5. Статистический аналог для распределения. — 6. Пристрастный выбор. Таблицы случайных чисел. — 7. Выбор без возвращения. Метол репрезентативной вы- выборки. Глава 26. Статистические выводы .165 1. Вводные замечания. — 2. Согласованность теории с данными опыта. Критерии значимости. — 3. Описание. — 4. Анализ. — 5. Пред- Предсказание. Главы 27—29 Выборочные распределения Глава 27. Характеристики выборочных распределений 375 1. Обозначения. — 2. Выборочное среднее значение ~х. — 3. Момен- Моменты д.,.— 4. Дисперсия тг- — 5. Старшие центральные моменты и семи-инварианты. — 6. Несмещенные оценки. — 7. Функции от момен- моментов.— 8. Характеристики многомерных распределений. — 9. По- Поправки к группировке.
Глава 28. Асимптотические свойства выборочных распределений .... 393 1. Вводные замечания. — 2. Моменты. — 3. Центральные моменты. — 4. Функции от моментов. — 5-. Квантили. — 6. Экстремальные зна- значения и широта выборки. Глава 29. Точные выборочные распределения 413 1. Постановка проблемы. — 2. Лемма Фншера. Степени свободы. — 3. Совместное распределение величин х и з* в выборках из нор- нормального распределения. — 4. Стьюдентово отношение. — 5. Лем- Лемма.—6. Выбор из двумерного нормального распределения,— 7. Коэффициент корреляции. — 8. Коэффициенты регрессии. — 9. Вы- Выбор из А-мерного нормального распределения.—10. Обобщенная дисперсия.—П. Обобщенное стьюдеитово отношение. —12. Коэф- Коэффициенты регрессии. — 13. Частные и сводные коэффициенты корре- корреляции. Главы 30—31 Критерии значимости, I Глава 30. Критерии согласия и аналогичные критерии 453 1. Критерий х2 в случае полностью определенного гипотетиче- гипотетического распределения. — 2. Примеры. — 3. Критерий х2 в слу- случае, когда по выборке оцениваются некоторые параметры. — 4. При- Примеры. — 5. Таблицы сопряженности признаков. — 6. f как критерий однородности. — 7. Критерий для процента смертности. — 8. Даль- Дальнейшее критерии согласия. Глава 31. Критерии значимости для параметров 489 1. Критерии, основанные на стандартных ошибках. — 2. Критерии, основанные на точных распределениях. — 3. Примеры. Главы 32—34 Теория оценок Глава 32. Классификация оценок 513 1. Постановка проблемы. — 2. Две леммы. — 3. Минимум дисперсии оценки. Эффективные оценки. — 4. Достаточные оценки. — 5. Асимп- Асимптотически-эффективные.оценки. — 6. Случай двух неизвестных пара- параметров. — 7. Случай нескольких неизвестных параметров — 8. Обоб- Обобщение. Глава 33. Методы нахождения оценок 540 1. Метод моментов, — 2. Метод максимума правдоподобия.—
3. Асимптотические свойства оценок максимального правдоподобии. — 4. Метод минимума х2- Глава 34. Доверительные области 550 I. Вводные замечании. — 2. Единственный ненавистный параметр.— 3. Общий случай. — 4. Примеры. Главы 35—37 Критерии значимости, II Глава 35. Общая теории проверки статистических гипотез 5TI 1. Выбор критерия значимости. — 2. Простые и сложные гипо- гипотезы.—3. Критерий дли простых гипотез. Наиболее мощные критерии. —I. Несмещенный критерии. - 5. Критерии дли сложных гипотез. Глава 36. Дисперсионный анализ . 584 1. Изменчивость средних значений. — 2. Простая группировка ве- величин.— 3. Обобщение. — 4. Случайные блоки. — 5. Латинские квадраты. Глава 37. Некоторые проблемы регрессии 597 1. Проблемы, содержащие неслучайные величины. — 2. Простая регрессия. — 3. Множественная регрессия. — 4. Дальнейшие про- проблемы регрессии. Таблицы I — II. Нормальное распределение . . 608—609 Таблица III. Распределение х* 610 Таблица IV. {-распределение 611 Цитированная литература 612 Предметный указатель 621 Дополнение ко второму изданию 625