Текст
                    г. дэйвид
ПОРЯДКОВЫЕ
СТАТИСТИКИ
Перевод с английского
в. А. ЕГОРОВА и В. Б. НЕВЗОРОВА
под редакцией
В. В, ПЕТРОВА
•ш- ж -A*
Ш
МОСКВА «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
1979


22.172 Д 94 УДК 519.2 Порядковые статистики. Г. Д э й в и д. — М.: Наука. Главная редакция физико-математической литературы, 1979, 336 стр. Книга содержит современное изложение теории порядковых статистик и ее приложений. Большое внимание уделено распределениям порядковых статистик, моментам порядковых статистик, оценкам и приближениям для этих моментов. Рассмотрены приложения порядковых статистик к теории оценивания, проверке статистических гипотез, задаче исключения резко выделяющихся наблюдений. Главы книги сопровождаются дополнениями, отражающими многочисленные журнальные публикации. Книга является ценным руководством в важной области математической статистики — теории порядковых статистик и ее приложений, позволяющим специалистам быстро ориентироваться в существующей литературе. Вместе с тем эта книга может быть рекомендована студентам и аспирантам, изучающим математическую статистику. ononQ fiQo © Главная редакция zuzUo-Ut>z *'7Г\скг\сг\г\г\г\ физико-математической Д f,co/no\ vn ^'^''^' 1702060000 литературы издательства «Наука 053@2)-79 1979, перевод на русский язык
ОГЛАВЛЕНИЕ Предисловие 6 Глава 1. Введение 9 § 1.1. Предмет порядковых статистик 9 § 1.2. Широта охвата материала в этой книге И § 1.3. Обозначения 13 Глава 2. Основы теории распределений 16 § 2.1. Распределение порядковых статистик 16 § 2.2. Совместное распределение двух или большего числа порядковых статистик 18 § 2.3. Распределение размаха и других систематических статистик 20 §2.4. Порядковые статистики для дискретного распределения 22 § 2.5. Непараметрические доверительные интервалы для квантилей 23 § 2.6. Непараметрические толерантные интервалы 27 § 2.7. Результаты, связанные с независимостью —порядковые статистики как цепь Маркова 29 Упражнения 32 Глава 3. Математические ожидания и моменты 39 § 3.1. Основные формулы 39 § 3.2. Нормальное распределение 45 § 3.3. Дискретный случай 50 § 3.4, Рекуррентные соотношения 53 Упражнения 56 лава 4. Границы и приближения для моментов порядковых статистик 63 § 4.1. Введение 63 § 4.2. Непараметрические границы для моментов порядковых статистик и размаха 64 1*
4 ОГЛАВЛЕНИЕ § 4.3. Границы и приближения, задаваемые обратным ортогональным разложением 74 § 4.4. Границы для математического ожидания порядковых статистик, выраженные через квантили распределения 79 § 4,5. Приближения моментов с помощью функций, обратных к ф. р., и их производных 88 Упражнения 90 Глава 5. Дальнейшие результаты теории распределений ... 94 § 5.1. Введение 94 § 5.2. Стьюдентизация 95 § 5.3. Статистики, выражаемые в виде максимумов 97 § 5.4. Случайное разбиение интервала 106 § 5.5, Порядковые статистики для зависимых величин , , . ПО Упражнения 115 .Глава 6. Порядковые статистики в оценивании и проверке гипотез 123 § 6.1. Введение и основные результаты 123 § 6.2. Оценивание методом наименьших квадратов параметров сдвига и масштаба при помощи порядковых статистик 133 § 6.3. Оценивание параметров сдвига и масштаба для цензу- рнрованных наблюдений 141 § 6.4. Испытания на продолжительность жизни с акцентом на экспоненциальное распределение 156 § 6.5. Робастное оценивание 161 Упражнения 168 Глава 7. «Быстрые» процедуры 176 § 7.1. Введение 176 § 7.2. «Быстрые» оценки параметра сдвига 178 § 7.3. Размах и средний размах как оценки разброса . . . 180 § 7.4, Другие «быстрые» оценки разброса 187 § 7.5. «Быстрые» оценки для двумерных выборок 189 § 7.6. Оптимальный выбор порядковых статистик в больших выборках 192 § 7,7, «Быстрые» критерии 198 § 7.8. Вероятностная бумага 205 § 7.9, Контроль качества 209 Упражнения 212
ОГЛАВЛЕНИЕ 5 Глава 8. Обращение с аномальными наблюдениями 217 § 8.1. Проблемы, связанные с аномальными и сдвинутыми наблюдениями 217 § 8.2. Критерии для аномальных наблюдений 220 § 8.3. Критерии для сдвигов 227 § 8.4. Характеристики критериев для аномальных наблюдений 235 § 8.5. Эффект отбрасывания аномальных наблюдений при оценивании параметров 244 Упражнения 249 Глава 9. Асимптотическая теория 263 §9.1. Введение 253 § 9.2. Асимптотическое совместное распределение квантилей 256 § 9.3. Асимптотическое распределение экстремального значения 260 § 9.4. Теория экстремальных значений. Обобщения для независимых одинаково распределенных величин 267 § 9.5. Теория экстремальных значений для зависимых величии 272 § 9,6. Асимптотическое распределение линейных функций порядковых статистик 274 § 9.7. Оптимальное асимптотическое оценивание с помощью порядковых статистик 277 Упражнения 283 Приложение. Указатель таблиц 286 Литература 297 Предметный указатель 332
ПРЕДИСЛОВИЕ Порядковые статистики встречаются во многих областях статистической теории и практики. В последние годы особенно заметен быстрый рост интереса к этому предмету, о чем свидетельствуют ссылки в конце этой книги. Становится все очевиднее, что значительная часть теории, технического аппарата и приложений порядковых статистик достойна изучения сама по себе, а не как простой придаток других областей таких, как непараметрические методы. Можно осуждать эту возросшую специализацию, и вполне уместно, чтобы наиболее фундаментальные понятия предмета были включены в общие учебники и курсы, как теоретические, так и прикладные. Вместе с тем во многих университетах имеется тенденция вводить курсы лекций, в которых шире представлены порядковые статистики. Впервые я прочитал короткий курс в 1955 г. в Мельбурнском университете и с тех пор периодически читал более обширные курсы в Вирджинском политехническом институте и особенно в университете Северной Каролины, где была апробирована значительная часть материала этой книги. В этой книге сделана попытка изложить предмет порядковых статистик в комбинированном виде, сочетающем черты как учебника, так и указателя научной литературы. Изложение ведется на среднем уровне трудности, предполагающем у читателя знание обычных основ статистической теории и приложений. Однако некоторые части
ПРЕДИСЛОВИЕ 7 КНИГИ совершенно элементарны, в то время как другие, особенно главы 4 и 9, значительно труднее. Упражнения дополняют основной текст и так же, как в книгах Кендалла, обычно снабжены ссылками на оригинальные источники. Необходимо сказать несколько слов об отношении этой книги к единственному существующему в литературе обзору общего характера, подготовленному в департаменте биостатистики университета Северной Каролины, а именно, к написанному рядом авторов «Введению в теорию порядковых статистику), изданному Сарханом и Гринбергом и появившемуся в этой же серии (Wiley Series) в 1962 г. ^). Настоящая книга не предназначена заменить эту более раннюю монографию, которая к тому же почти в два раза больше ее. В частности, большой набор таблиц «Введения» позволит этой книге быть полезной еще долгое время. В настоящей работе имеется только небольшое число таблиц, необходимых для объяснения текста, но она содержит в виде приложения аннотированный указатель множества таблиц, разбросанных по ряду журналов и книг; такие таблицы необходимы для использования многих из описанных методов. «Введение» не было спланировано как учебник и, конечно, теперь несколько устарело. Однако ряд вопросов, хорошо разработанных к 1962 г., изложен там подробнее, чем здесь. Дублирование материала, кроме наиболее фундаментального, сведено к минимуму. С другой стороны, размер этой книги был уменьшен также благодаря возможности сослаться на доступные специализированные монографии. Так, мы отказались от намерения рассмотреть роль порядковых статистик в совместных статистических выводах главным образом из-за наличия хорошо написанного обзора Миллера A966). Некоторых читателей может отпугнуть обилие ссылок. 1) Имеется русский перевод, сы. Сархан и Гринберг A970).
8 ПРЕДИСЛОВИЕ как избыток добра. Тем не менее список литературы далеко не полон и ограничивается прямыми, часто краткими указаниями на литературу. Что касается статей, имеющих дело с такими центральными вопросами, как теория распределений и оценивание, то я стремился к разумной полноте, исключив устаревшие работы. В некоторых местах охват материала менее полный, особенно там, где можно сослаться на специальную библиографию. Принять это решение мне помогла информация о планах Хартера опубликовать обширную аннотированную библиографию статей по порядковым статистикам. Считаю своим приятным долгом поблагодарить Хартли, который с присущими ему энтузиазмом и проникновением познакомил меня с предметом порядковых статистик. Я также благодарен Э. Пирсону за его поддержку в течение многих лет. При написании этой книги я ощущал теплую поддержку Б. Гринберга. Я особенно признателен П. Джоши, который внимательно прочитал всю рукопись и сделал много замечаний. Полезные замечания также сделали Р. Бредли, Дж. Гаствирт и П. Сен. Большую помощь в качестве секретарей оказали мне Делорес Гольд и Джейн Скоуевил. Эта работа была поддержана Армейским исследовательским институтом (Дарэм, Северная Каролина). Чепел Хилл, Северная Каролина, f, Дэйвид Декабрь 1969
ГЛАВА I ВВЕДЕНИЕ § 1.1. Предмет порядковых статистик Если случайные величины Х^, Х^, ..., Х^ расположены в порядке возрастания их значений ТО мы называем X^i) t-й порядковой статистикой (t = l, 2, ..., п). Обычно, хотя и не всегда, (неупорядоченные) Xi статистически независимы и одинаково распределены; величины же X^i^ зависимы из-за неравенств между ними. Предмет порядковых статистик имеет дело со свойствами и применениями этих упорядоченных случайных величин и функций от них. Примерами являются экстремальные значения Х^п) и Х^^, размах W = Х(п) — Х(^), максимальное отклонение (от выборочного среднего) Х^п^ — X и для случайной выборки из нормального Л^ (^i, ст^) распределения стьюдентизированный размах WjS^, где S^ — средне- квадратнческая оценка для а^ с v степенями свободы. Все эти статистики имеют важные применения. Экстремальные значения возникают при статистическом изучении наводнений и засух, а также в задачах изучения прочности на разрыв и проблемах, связанных с усталостью материалов. Как хорошо известно, размах является быстро вычисляемой оценкой для а и находит особо широкое применение в задачах контроля качества. Экстремальные отклонения являются основным инструментом^при обнаружении выбросов, большие величины (^(л) — А')/ст указывают на присутствие одного или нескольких аномальных наблюдений. Стьюдентизированный размах полезен в той же ситуации, когда выбросы возникают не только в одном
10 ВВЕДЕНИЕ [ГЛ. I направлении. Кроме того, он составляет основу многих быстрых критериев для малых выборок и особенно важен для ранжированных средних в задачах дисперсионного анализа. С помощью теоремы Гаусса — Маркова о наименьших квадратах можно систематически использовать линейные функции порядковых статистик при оценивании параметров сдвига и масштаба. Такие применения особенно полезны, когда некоторые из наблюдений в выборке «цензурированы», так как в этом случае стандартные методы оценивания становятся трудоемкими или неудовлетворительными. Испытания на продолжительность жизни дают идеальную иллюстрацию преимуществ порядковых статистик для цензу- рированных данных. Так как такие эксперименты могут продолжаться очень долго до их полного окончания, то часто желательно остановиться после выхода из строя первых г из п (однородных) предметов, подвергаемых испытанию. Наблюдениями являются г моментов выхода из строя, которые, в отличие от большинства ситуаций, уже упорядочены для нас самим методом эксперимента; по ним мы можем оценить необходимые параметры такие, как средняя продолжительность жизни. В последние годы изучение порядковых статистик получило новый толчок в ряде направлений. Вычислительные машины дали возможность взглянуть на одни и те же данные со многих различных точек зрения, позволяя применять многосторонние, часто довольно неформальные приемы, получившие общее название «анализ данных» (см. Тьюки A962)), Находятся ли данные в соответствии с (а) предполагаемым распределением и (б) предполагаемой моделью? Ключ к решению задачи (а) можно получить, сравнивая упорядоченные наблюдения с некоторыми простыми функциями их рангов, желательно на вероятностной бумаге, соответствующей предполагаемому распределению. Прямая, соответствующая такому «вероятностному чертежу», указывает на то, что все более или менее благополучно, в то время как серьезные отклонения от прямой позволяют обнаружить присутствие аномальных наблюдений или других нарушений предполагаемого распределения. Подобным же образом, отвечая на вопрос (б), можно нанести на чертеже упорядоченные «остатки» от предполагаемой модели. Отчасти в этом духе проводится поиск
§ !.21 ШИРОТА ОХВАТА МАТЕРИАЛА В ЭТОЙ КНИГЕ 11 статистик и критериев, которые хотя и не оптимальны в идеальных условиях (например, в нормальной теории), но хорошо работают при различных обстоятельствах, которые встречаются на практике. Примером таких «робастных методов» является использование для выборок из симметричных распределений «урезанного среднего», являющегося средним тех наблюдений, которые остаются после отбрасывания k {k<Cnl2) максимальных и k минимальных. Потеря эффективности в нормальном случае при соответствующем выборе k будет компенсироваться отсутствием чувствительности к выбросам или другим отклонениям от предполагаемого распределения. Наконец, мы можем обратить внимание на довольно специальное, но зато соответствующее космическому веку приложение. В больших выборках (например, при подсчете числа частиц на космическом корабле) имеются интересные возможности для сокращения данных (Эйзенбергер и Познер A965)), так как выборку можно заменить (на компьютере космического корабля) достаточным числом порядковых статистик, чтобы произвести уже на Земле как удовлетворительное оценивание параметров, так и проверку предполагаемого вида распределения. § 1.2. Широта охвата материала в этой книге Хотя мы и коснемся всех тех вопросов, о которых говорилось выше, а также многих других, порядковые статистики встречаются в столь различных областях статистики, что мы вынуждены ограничиться в охвате материала. Начнем с того, что, в отличие от Уилкса A948), мы используем термин «порядковые статистики» в более узком смысле, который сейчас повсеместно принят: мы не будем иметь дела с «ранговыми порядковыми статистиками», примером которых служит двухвыборочная статистика Вилкоксона, хотя они также требуют упорядочения наблюдений. Различие состоит в том, что ранговые порядковые статистики зависят только от рангов упорядоченных наблюдений, а не от их действительных значений, и, следовательно, приводят к непараметрическим или свободным от распределения методам — по крайней мере для непрерывных случайных величин. С другой стороны,
•■■ ВВЕДЕНИЕ [ГЛ. I большинство процедур, основанных на порядковых статистиках, зависит от вида рассматриваемого распределения. Однако теория порядковых статистик полезна во многих непараметрических задачах, а также при исследовании свойств ранговых критериев при альтернативах, например при помощи функции мощности. Остальные ограничения в книге носят более частный характер. Порядковые статистики играют важную вспомогательную роль при множественных сравнениях и в сложных процедурах принятия решений таких, как ранжирование средних. Заметим, что, по нашему мнению, не следует рззвив1ть здесь элеменгы теории статистического вывода для рассматриваемого предмета (хотя необходимая для этого теория порядковых статистик или приведена здесь яв10, или может быть выведена с помощью совсем простых рассуждений) ввиду наличия полезной книги Миллера A966) и, в меньшей степени, монографии Бекхо- фера и др. A968). Однако некоторые сложные процедуры решения для обработки аномальных наблюдений рассмотрены в главе 8. Больше, чем это сделано в главе 9, можно было бы сказать об асимптотических методах. Однако практическая сторона этого вопроса отражена в значительной степени в книге Гумбеля A965). С другой стороны, теория, которую значительно продвинули в последние годы, становится все более математической, что оправдывает создание более сложной монографии по этой теории. Мы считаем, что лучше всего ограничиться детальным рассмотрением некоторых наиболее важных результатов и приведением резюме других исследований. Эффективное применение техники порядковых статистик требует большого числа таблиц. Даже включение только наиболее полезных из них намного увеличило бы объем книги. Поэтому мы ограничились несколькими таблицами, необходимыми для иллюстрации; что касается остальных, то мы отсылаем читателя к общим сборникам таблиц таким, как таблицы Пирсона и Хартли A966), Бейера A968) и особенно к обширному набору таблиц в книге Сархана и Гринберга A970). Много ссылок на таблицы, помещенные в оригинальных статьях, дано на протяжении всей книги, я комментарии к ним приводятся в Приложении.
J 1,3] ОБОЗНАЧЕНИЯ 18 § 1.3. Обозначения Хотя этот параграф служит для ссылок, читатель должен просмотреть его прежде, чем переходить к дальнейшему. Насколько это возможно, случайные величины (или просто величины) будут обозначаться прописными буквами, а их реализации (наблюдения) соответствующими строчными буквами. Под порядковыми статистиками будем понимать либо упорядоченные величины, либо упорядоченные наблюдения. Таким образом, Xi, Xj, ..., Х„ —неупорядоченные величины; Xi, Хг, .... Хд —неупорядоченные наблюдения; ХA) 5^ Х(з) <... s^ Х(„) — упорядоченные i величины, [порядковые ХA) «s ХB) =^... =^ Х(„) — упорядоченные | статистики; наблюдения J Xi:n=^X2:n^---^ X„:n — упорядоченыыб величины — более подробная форма записи. Когда надо подчеркнуть объем выборки, мы используем более подробную форму обозначений, переходя довольно свободно от подробной к краткой форме. Р (х) = Р (X s^ х) — функция распределения случайной величины X; f плотность распределения для непрерывной случай- / . _ 1 ной величины, ^ ^ ' I вероятностная функция для дискретной случайной [ величины; F^ (х), Fr:n (х) — функция распределбния случайной величины Х„ Хг:п, г==\, 2, ..., п; !г{х), /^:„(х) —плотность распрвделения или вероятностная функция случайной величины Хг, Хг-.п', Frs{x, у) = Р (Х(^) ^ X, X(,s) s^ у) —совместная функция распределения случайных величин Х(^) и X^s)^, frs{x, у) —совместная плотность распределения или вероятностная функция случайных величин Х(^) и Xj^,; ip —квантиль порядка р для распределения, т. е. корень уравнения P(gp) = p или, что то же самое, |„= =P-i(p) = Q(p), 0<р<1; ii/2 — медиана распределения; ^([npi+i) — выборочная квантиль порядка р, где [пр] обозначает наибольшее целое число, не превосходящее пр;
14 ВВЕДЕНИЕ ГГЛ. 1 Х/г„>, 1^1) —выборочная квантиль порядка hi, 0<?11Д <.X^<...<%k<i- Но выборочная медиана — это Х/„^1\, если п нечетное; -2-(X(„/2) + X(„/2 + i)), если п четное. Далее, W, \F„ = Х(„) — ХA) — (выборочный) размах; \?(,-)_==Х(„-(;1) — Х(;) — t-й квазиразмах {W(i) = W); \^. \^п, А— среднее из k размахов; /W — размах для /-й выборки; Wrs^ X(s) — Х(^); \1 — ЕХ, а^ = DX —математическое ожидание и дисперсия случайной величины X; ^1х = ЕХ, ^ij'= ЕУ — математические ожидания случайных величин X и У (двумерный случай); o\ = DX, сту = ОУ —дисперсии случайных величин X и У; Оуу axY = cov {X, У), р = г—:—ковариация и коэффициент "x"y корреляции между случайными величинами X и У; yi^ .„=E,Xr:rt — математическое ожидание случайной величины Хг:п', ^1г 1 п — момент ft-ro порядка случайной величины Хг;„; cr^;n = DXr:„; a„:n = cov(X,.„, Xs-n); Q (x) = P"i (x)— функция, обратная к функции распределения Р; р, = г/{п+1), q,==\-pr\ Qr = Q{Pr), fr = p(Qry, Г), dQ (Pr) _ J_. ^' dPr ~ fr ' Sy-оценка для a с v степенями свободы; для нормального Л^ {\1, а^) распределения vS^./o^ ^- Х^; Qn,v = ^^п/5у — стьюдентизированный размах (W„ и S^ независимы). _ S = [S (X; — Х)^/{п — 1 )]'/2 — (внутренняя) оценка для о; S(P)={[{n - I) S^+vS'^]/{n - 1+v)}-суммарная оценка ;,ля а;
5 1.3] ОБОЗНАЧЕНИЯ 15 ,S —значение S для /-Й выборки; В (а, Ь) = \ ^«-1 A - О* ^ dt,a>0,b>0- бета-функция, о р 1р {а, 6) = ^ <*-^ A — tf-'^ dt/B (а, Ь) — неполная бета-функ- 0 ция; A.3.1) В (а, 6) —случайная величина X, имеющая бета-распределение с функцией распределения Р(Х<х) = /Ла, Ь); A.3.2) Xv —случайная величина X, имеющая хи-квадрат распределение с V степенями свободы; Ф {х) = Bя)-'/2g-K^/'i^ — плотность распределения стан- дарэтюго нормального закона, — oo<;x<;oo; N {\i, G^) — нормальная случайная величина с математическим ожиданием \х. и дисперсией а\ N (^1, S) —многомерная нормальная случайная величина с вектором математических ожиданий \1 и ковариационной матрицей S; n(*)=/i(/i-l)...(/i-fe+l), k=\, 2 п; [к] — целая часть х (но \1[щ = ЕХ*); X^^N{\ii, ст^)—случайная величина X имеет нормальное распределение с математическим ожиданием \i и дисперсией ст^ (аналогичное обозначение применяется для случайных величин, имеющих другие вероятностные распределения); п. р.—плотность распределения; ф. р. —функция распределения; н. к. оценки — оценки наименьших квадратов; РНМ —равномерно наиболее мощный; ПХ —Пирсон и Хартли A966)— Биометрические таблицы 1; СГ—Сархан и Гринберг A970)— Введение в теорию порядковых статистик; П.5.3—Приложение, содержащее список таблиц, отно- сяи;ихся к § 5.3. с, в.—случайная ееличина.
ГЛАВА 2 ОСНОВЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ § 2.1. Распределение порядковых статистик Предположим, что Xi, Xg Х„ —/i независимых случайных величин с общей функцией распределения (ф. р.). Пусть Fr{x) (r=l, 2, ..., п) обозначает ф. р. г-й порядковой статистики Х(г). Тогда ф. р. наибольшей порядковой статистики Х(„) дается формулой F„ (х) = Р {Х(„) ^х} = Р {все Xi не превосходят х] = Р"- {х). B.1,1) Аналогично получаем Fi(x) = P{X(i)^x} = l-P{X,i)>x} = = 1-Р{все Xi>x} = l-[1 -P{x)Y. B.1.2) Эти формулы — важные частные случаи следующей общей формулы для Fr {х): Fr{x) = P{X(r)^x] = =Р {по крайней мере г из Х^ меньше или равно х} = = 2 C'nP'{x){\-P{x)f-\ B.1.3) так как t-e слагаемое в правой части этой суммы является биномиальной вероятностью того, что ровно i величин из Xi, Xg, ..., Х„ меньше или равно х. Перепишем B.1.3) в виде Fr{x)=Ep(,){n, г) B.1.4) и заметим, что функция Е затабулирована во многих источниках (например, Гарвардская вычислительная лабо-
5 2.11 РАСПРЕДЕЛЕНИЕ ПОРЯДКОВЫХ СТАТИСТИК 17 ратория A955), где используется обозначение Е (п, г, Р (х))). Кроме того, из хорошо известного соотношения между биномиальными суммами и неполной бета-функцией следует, что Рг{х)=1рщ(г, п-г+1), B.1.5) где 1р{а, Ь) определено в A.3.1). Таким образом, Fr{x) может быть также вычислена по таблицам /р (а, Ь) (К. Пирсон A934)). Процентные точки Х(г) можно получить из этих таблиц обратным интерполированием или сразу из таблицы 16 Биометрических таблиц (Пирсон и Хартли A966)), которая дает процентные точки неполной бета-функции, Пример 2.1. Найдем верхнюю 5-процентную точку ХD) в выборке объема 5 из стандартного нормального распределения. Мы ищем X, удовлетворяющее соотношению /Р(;,, D,2) = 0,95 или /i_p(;,) B,4) = 0,05. Из последнего равенства следует, что 1—Р (х) = 0,7644. Поэтому X = 1,429. Необходимо заметить, что формулы B.1.1) —B.1.6) справедливы как для непрерывных, так и для дискретных величин. Теперь мы будем предполагать, что X; —непрерывные величины с плотностью распределения (п, р.) р{х) = =Р' (х), но мы вернемся к дискретному случаю в § 2.4. Если fr(x)~u. р. случайной величины X^r\y то из B.1.5) следует равенство о = в(г,п-г-Ц) Р'~' i^)[^-P W]""^ Р W- B.1.6) В силу важности этой формулы мы выведем ее еще раз другим способом. Событие х <С X^г) <С х-i-6х может быть реализовано следующим образом: 1 11 п — г х\ \x-i-bx Xi^x для г—1 из величин Х^, x<;X;<;x + 6x для Одной из Xi и Хг>"Х+бх для остальных п -г величин Xj.
18 ОСНОВЫ ТЕОРИИ РАСПРЕДЕЛЕНИИ ГГЛ 2 Число способов, которыми п наблюдений можно разбить на три такие группы, равно п\ 1 (г—1)! V.{n — r)] ~ В(г,л —г + 1)' и каждый из них имеет вероятность P'-i (х) [Р{х + 6х)~Р(х)][1-Р(х + бх)]"-'-. Поэтому, считая бл; малым, получим Р{л;<Х(,)^л;+бл;} = = B(r,n-r + l)^"' (^)Р{х)8х[1-Р(X + бл;)]"- + О (8х^), где О (бх^) означает член порядка (бл;)^ и включает в себя вероятность тех реализаций события x<zX^r)<Zx-i-6x, при которых более чем одно из Х( попадает в интервал (х, х + бл;). Деля обе части этого равенства на бл; и устремляя бл; к нулю, получим опять B.1.6), § 2.2. Совместное распределение двух или большего числа порядковых статистик Совместную плотность Х^г) и Х(^) A ^ г <; s ^ /г) удобно обозначать /„(л;, у). Выражение, соответствующее B.1.5), можно вывести, если заметить, ^.что составное событие л;<; Х(г)^л; + бл;, y<X^s)^y-i-^y реализуется (с точностью до членов, имеющих более высокий порядок малости) в виде конфигурации г-1 |lj s-r-l |1| n-s х\ |л;4-бл; у\ \у + 6у Это означает, что (г—1) из всех наблюдений меньше х, одно попадает в интервал (х, л;-f бл;) и т. д. Отсюда для х^у следует, что '" ^■^' У> ^ (г —l)!(s —г—1)!(л —S)! ^ X Р'-' (X) р {X) [Р {у) - Р {x)Y'r-^ р (у) [х-Р {y)f-'. B.2.1) Теперь ясно, как выглядят обобщения B,2.1). Совместная п. р. величин Х(л,), X(^gj, .... X^^^j (l^ri<ra<.,.
§ 2.2] СОВЛ^ЕСТНОЕ РАСПРЕДЕЛЕНИЕ ПОРЯДКОВЫХ СТАТИСТИК 19 ...<Crk^n; l^k^n) для Xi ^ Ха s^... s^ Xi имеет вид ^Л - 'к (^1' ^2 Хк) = (г1-1)!(гг-Г1-1I...(п-ГА)! ^ X Р^. - ■ (Xi) р (Xi) [Р (X,) - Р (Xi)]^^-^.- • р (X.,)... ...[l-P{Xk)r-^k-p(Xk). B.2.2) Е;л!1 определить Хо = — схз, Xa+i = + oo, Го = 0, га+1 = /1 + 1, то правую часть B.2.2) можно переписать в виде п\ n^w пГ'п-^::^'Г-}■ <^-^-^> .(= 1 J г = о В частности, совместная п. р. всех п порядковых статистик принимает простой вид п\ p{Xi)p{x^)...p{x„). Последний результат, конечно, непосредственно очевиден, так как имеется п\ равновероятных способов упорядочения значений Х(. Он может быть использован в качестве отправной точки для вывода совместного распределения fe порядковых статистик {k<Cn) в непрерывном случае. Совместную ф. р. F„(x, у) величин Х,^) и Х(^) можно получить как интегрированием B.2.1), так и с помощью прямого доказательства,"' пригодного также и для дискретного случая. Для х<ау имеем Prs{x, г/)=Р{по крайней мере г из величин Х; не превосходят X, по крайней мере s из величин Х( п п — i не превосходят у] = ^ ^ Р {ровно i из величин X; не превосходят х; ровно / из величин Х,- удовлетворяет неравенству х <; Х,- г=; у}. В этих равенствах предполагается, что если t>s, то / начинается с 0. Таким образом, для х<г/ имеем п п — i Prs{x,y)=2i 2i i!y!(n-i-y)!^ i = r max@, s — i) XP' (X) [P (y) - P (x)]J [1-я (y)]-W. B.2.4)
20 основы ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 2 Для х^у ИЗ неравенства X^s)^y следует X(r)=s;x, так что Frs(x, y) = Fs(y). B.2.6) § 2.3. Распределение размаха и других систематических статистик Зная совместную п. р. k порядковых статистик, мы можем стандартными методами вывести п. р. любой «хорошей» функции порядковых статистик. Например, чтобы найти п. р. Wrs = ^(s) — ^(г), положим в B.2.1) гзу„ = — у — х и заметим, что преобразование, переводяш,ее X, у в X, Wrs, имеет якобиан, равный по модулю единице. Таким образом, обозначая постоянные в B.2.1) через С„ и интегрируя по х, получим аз f{Wrs) = Crs \ P'-Hx)p{x)[P{X+Wrs)~P{x)Y-'^~X —СО хр {x+Wrs)[\ -Р {x + Wrs)Y-'dx. B.3.1) Особого интереса заслуживает случай г=\, s = n, когда Wrs становится размахом W и B.3.1) принимает вид со f{w) = n{n-l) \ p(x)[P(x + w)-P(x)Y~^p(x + w)dx. —со B.3.2) Ф. р. величины W имеет еще более простой вид. Меняя порядок интегрирования, получаем F(ay) = СО W = п \ p{x)\{n-\)p[x + w')[P{x + w')-P{x)]'"''dw'dx^ — СО и со = п \ p(x)[P{x+w')-p(x)]''~^\i:z':dx^ —со со = /1 \ р(х)[Р(х + ы1) — Р(х)]'''Ых. B.3.8) — со Этот важный результат можно также получить, заметив, что np{x)dx[P (x-\-w} - Р (х)]" ^ равно вероятности того.
5 2.31 РАСПРЕДЕЛЕНИЕ РАЗМАХА И ДРУГИХ СТАТИСТИК 21 ЧТО при известном х ровно одна из величин Xi лежит в интервале {х, x-\-dx), а остальные (n—l) попадают в интервал (х, x + w). При применении формул B.3.1) — B.3.3) следует учесть, что область изменения х может быть конечной. Пример 2.3. Найдем распределение порядковых статистик и Wrs в случае, когда р (х) — плотность равномерного распределения: р(х)=1 @<x^l), р(х) = 0 в противном случае. Из B.1.6) немедленно получаем I о в противном случае. Таким образом, в соответствии с определением A.3.2) Х^г) является бета Р (г, n — r-j-l) величиной. В силу B.2.1) I С„Г-1 (у - ху-^-^ A - y)'-^ О < X < у < 1, " \ О в противном случае. Так как р(л; + гзу„) = 0 Д'^я х^1 —Wrs, то из B.3.1) следует, что f (Wrs) ■= Crs \ X'-'^W'- ^ - > A - Х - Wrs)"-' dX. О Положив х = у{\ —Wrs), получим f К.) = ЩГ=7ГхЬ+7+Ту^^.Г^-'A -ш„)-- B.3.4) @<ш„^1). Этот простой результат показывает, что Wrs имеет бета- распределение, которое зависит только от s —г, а не от S и г по отдельности. (См. также § 6.4.) Кроме размаха представляют интерес простые систематические статистики — квазиразмахи Wr,n-r+i (''== -2, 3, .... [\п , выборочная медиана для четного п, равная тг1Х/п\ + ^1п \], и экстремальное отношение ^(пI^(\)- Последнее определяется для распределений, заданных на положительной полуоси.
22 ОСНОВЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 2 § 2.4. Порядковые статистики для дискретного распределения Если р (х) сосредоточена в точках х = 0, 1, 2 то положим fr{x) = P {X^r)=x}. Последняя функция называется вероятностной функцией (в. ф.) величины Х(^). Из B.1.4) и B.1.5) получаем для нее выражения f,(x) = Fr{x)-Fr{x-l) = Ep^x){n, г)- fp,^.!, (п, г) = = 1р(^)(г, n-r+\)-Ip(s~i){r, /i-r+1). B.4.1) Выражение для двумерной в. ф. f„ (^. У) = ^ {^(г) = х, X(s) = y) выводится из B.2.4) и B.2.5), так как frs{x, y)=Frs(x, y)-Frs(x-l, y)-Frs{x, y-l) + + Frs{x-\, y- 1), x^y. Хотя с точки зрения вычислений это выражение кажется наиболее удобным, имеется другое представление, принадлежащее Кхатри A962), более полезное для теоретической работы. С помощью рассуждений, подобных тем, которые привели нас к B.2.1), в соответствии с приведенной типичной конфигурацией получим, что для x<iy r-\-i 1 +1 + ^ ■r—\—u — t X I frsix, г/)='2]'5'2]х 1+/ + И n—s — j ir=0 / = 0 H, t X X (r-l-i)\ A +1+0! (s-r-l-u-ty. (l+y-f «I (n~s~j)\ x[P(x-i )Y'^'' [p (x)]i+'V [p(y-i)-p (х)у-г~^-"'' X x[p{y)Y^f^"U-Piy)r-'~', где 2j обозначает суммирование по всем неотрицательным и, t целым и, t таким, что u-\-t-^.s — r —\. Обозначив Crs = n\l[{r - 1)! (s - /■ - 1)! (/I -s)!],
s 25] НЕПАРАМЕТРИЧЕСКИЕ ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 23 приходим К равенству г—Iп—S X [P (^ - 1 )]^-^-' ['l - ^^ (У)Г^-/ [Z' (у - 1) - P (x)]--!^"-' X I 1 X [p (x)f^'+' [p (r/)]i+'+" 5 5 г' A - г)' г" A - z'f dz dz'. 0 0 Меняя местами знаки суммирования и интегрирования и положив v = P (у) — z'p (у), w = P{x—l) + zp(x), получаем Р(х) Pit/) frs {X, у) = Crs \ \ W-^ (v - wY-'''^ A - v)""-' dv dw. P(x-\)P(y-l) B.4.2) Если x = y, TO аналогично имеем frs(x, x) = Crs^lW''4v-wY''-^{l-v)''-^vdw, B.4.3) где интегрирование ведется теперь по области Р{х—1)^ ^w <iv^P (х). Так как в B.4.2) неравенство w <iv выполнено автоматически, то отсюда следует общий результат frsix, y) = Crs\\w'^-Цv-wy~'^^^(l-v)''-'dvdw, B.4.4) где интегрирование ведется по области w^v, P{x-l):<^w^P{x), P(y-l)^v^Piy). § 2.5. Непараметрические доверительные интервалы для квантилей Предположим сначала, что X — непрерывная величина со строго возрастающей ф. р. Р (х). Тогда уравнение Р(х) = р @<р<1) B.5.1) имеет единственное решение, скажем х = '^р, которое мы называем (генеральной) квантилью порядка р. Таким образом, 1,112 —медиана распределения. Если Р (х) не является строго возрастающей, то соотношение Р(х) = р Может быть справедливым в некотором интервале. В этом
24 основы ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 2 случае любая точка этого интервала может служить кван- тилью порядка р. Для дискретной с, в. X квантиль £р можно определить с помощью следующего обобщения B,5.1): Р{Х<Ы=е;р<Р{Х^у. B.5.2) Это соотношение определяет |р единственным образом, если только Р (|р) не равно р, в противном случае |р опять лежит в некотором интервале. Теперь мы покажем, что если X непрерывна, то случайный интервал (Х,^), Х(^)) накрывает |р с вероятностью, которая зависит от г, s, /г и р, но не от Р (х), образуя, таким образом, для \р непараметрический доверительный интервал. С этой целью заметим, что событие X^r)^%,p равно объединению несовместных составных событий ^(г)^1р< ^(s)^lp и Х(;.)<|р, Х(^)<^р. Таким образом, так как из Л(^)<|р следует Х(^)^|р, то P{X„)<ip} = P{X,,)^ip^X,,)} + P{X,,)<ip}, или P{X„)^ip^X„)} = P{X„)<y-P{X„)<ip}. B.5.3) Из B.5.1), B.1.5) и B.1.3) следует, что в непрерывном случае {X^r), Х(^)) накрывает |р с вероятностью я (г, s, п, р), равной я(г, S, п, р) = 1р(г, n — r + l) — Ip{s, /I —s + l) = = ^]Спр'A-рГ''. B.5.4) Это и есть требуемый результат, по существу полученный Томпсоном A936); еще одно доказательство имеется в упр. 2.5.1. В дискретном случае из неравенств PjXs^ipl^p и Р {X < |р} ^ р следует, что P{X„,^ip}^/p(r, n-r+l), Р{Х„,<|р}^ ^Ip(s, n-s + l), B.5.5) так что из B,5.3) вытекает неравенство Р {^{r)^lp^X^s)}^^ir, S, п, р). B.5.6)
g 2.51 НЕПАРЛМЕТРИЧЕСКИЕ ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 25 С помощью аналогичных рассуждений получаем, что Р {Х(,) < ?р < X,,)} ^ п (г, S, п, р). B.5.7) Левые части неравенств B.5.6) и B.5.7) уже не являются независимыми от Р {х), но, как мы видим, они обладают нижней и верхней границами, не зависящими от распределения. Эти результаты были впервые получены (другим методом) Шеффе и Тьюки A945). Если пир фиксированы, то доверительные интервалы с коэффициентом доверия ^1 —а получаются при любом выборе г и S таком, что я ^ 1 — а. Конкретный выбор до некоторой степени произволен, но естественно попытаться сделать разность s — r как можно меньше при условии, что я^1—а. При р=1/2 эта процедура, очевидно, приводит к значению s = /i —г+1, и в этом случае я принимает вид п—г я(г, п-г+1, п, у) = 2/,/2(г, /1-г+1)-1 = 2-" 2 с Доверительные интервалы для медианы тесно связаны с критерием знаков, причем одна и та же таблица служит для обоих целей. Подробные таблицы вместе с обзором таблиц, имеющих отношение к этому вопросу, имеются у Маккиннона A964). Из нормальной аппроксимации биномиального распределения мы получаем очень простое практическое правило: Для /1>10 можно получить приближенный A—а)- доверительный интервал для медианы, если отсчитать от выборочной медианы влево и вправо по ^'^'^^"а наблюдений (округляя до следующего целого числа), где и^ — 1 верхняя а-узначимая точка стандартного нормального распределения. Пример 2.5. Для /г =100, а = 0,05 это правило дает 2^/i'/2«a = 5-(l,96) = 9,8. Округляя 50,5±9,8, мы получаем интервал (XDo), x^^l•^), который согласуется с рекомендациями Маккиннона. Если известно, что р (х) симметрична и непрерывна, то для ei/2 можно построить доверительные интервалы.
26 ОСНОВЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 2 которые, вообще говоря, короче и имеют более широкий набор коэффициентов доверия. Вместо того, чтобы базироваться на отдельных порядковых статистиках, эти интервалы имеют своими концами два из у/1(/1+1) средних вида у (X((-) + л;(/)) (t^/)- Интересно отметить, что эти интервалы тесно связаны с ранговым критерием знаков. (См. работы Уолша A949 а, Ь) и Тьюки A949).) Разности между порядковыми статистиками Х(^) —Х,;.) можно использовать таким же образом для построения доверительных интервалов для разностей квантилей ?? —ёр (?>Р)- Такие разности квантилей могут представлять интерес сами по себе, особенно межквартильное расстояние ^з/4 —?i/4; возможно, более важным является то, что если Р(х) — ф. р., зависящая только от параметров сдвига и масштаба, то доверительные интервалы для tg — ^p МОЖНО легко превратить в доверительные интервалы для стандартного отклонения. В последнем случае доверительные интервалы уже зависят от распределе1шя (см. гл. 6). Покажем теперь, что P{X„)-X„)^g,-y^£p(/i, г)-Ед(п, s)^L, B.5.8) Р {X,,) - Х,„)^ i, - у ^ Eg {п, V) - Ер (п, и) = L' B.5.9) (Чу A957)); сравните с упр. 2.5.5). Доказательство. Имеем в силу B.5.5) Р{Х„)-Х„)^?,-У^Р{Х„)^^„ Х,,)^?,}^ = P{X„)^ip}-P{X„)<y^£p(/i, r)-Eg(n, s). Так же доказывается неравенство B.5.9). Для достаточно больших п легко показать, что для любого а @<;а<;1) найдется по крайней мере один набор целых г, s, и, v, для которого L^l-a и L'^l-a. B.5.10) Соответствующие разности Х(^) —Х,^) и Х,^) —Х(д) являются тогда верхней и нижней доверительными границами для ?j —ьр с коэффициентом доверия не меньшим, чем 1—а. В симметричном случае q = l — p кажется
, 2.6] НЕПАРАМЕТРИЧЕСКИЕ ТОЛЕРАНТНЫЕ ИНТЕРВАЛЫ 27 естественным использовать квазиразмахи ^). Если положить s = /i —г+1 и v = n — и+1, то условие B.5.10) примет вид Ер(п, г)^1—-^а, Ер(п, и)^-^а. Последовательные процедуры построения доверительных интервалов для |р изучались Фаррелом A966). Некоторые доверительные множества для многомерных медиан предложены Хоэлом и Шейером A961). Процедуры для расслоенных выборок рассмотрены Маккарти A965) и Лой- несем A966). § 2.6. Непараметрические толерантные интервалы Как и доверительный интервал, толерантный интервал имеет случайные концы, скажем L и V. Однако, если доверительный интервал должен накрыть с заданной вероятностью параметр распределения такой, как математическое ожидание, дисперсия или квантиль, то требование к толерантному интервалу (L, V) состоит в том, чтобы вероятностная мера, сосредоточенная на нем, была не меньше, чем у, с вероятностью р, где Р и у —заранее выбранные постоянные (О^р, Y^l)- Таким образом, если р (х) непрерывна, то мы ищем L, V так, чтобы РПр(хLх^у\ = ^. B.6.1) Оказывается, что левая часть B.6.1) имеет значение, не зависящее от р(х), тогда (Уилкс A942)) и только тогда (Роббинс, 1944), когда L и V являются порядковыми статистиками [включающими, возможно, Х(о) = — оо и Х(„4-1) = + оо]. Чтобы убедиться в первой части этого утверждения, заметим, что при L = X(^), V = X^s) (8>г)ле- вую часть B.6.1) можно переписать в виде P{P(A,„)-P(X,„)^Yb B.6.2) 1) Заметим, что Чу использовал термин «квазиразмах» для разности Х,^,—Х,^, для любого s>r, в то время как мы распространяем этот термин только на случай s = n — а+1.
28 основы ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ.2 Но вероятностное интегральное преобразование и = Р{х) сохраняет порядок и преобразует X(i), X^2), ..., Х(„) в f^(i), Urn, ■•■,U(r,), где U(i) = P{X(i{) (t=l, 2, ..., /i) теперь —порядковые статистики из равномерного на интервале @,1) распределения. Вероятность B.6.2) с помощью B.3.4) преобразуется к виду P{Wrs^y] = \~Iy{s-r, n-s + r+1). Очевидно, что в общем случае равенство B.6.1) не может выполняться точно, но г и S можно выбрать так, чтобы выполнялось неравенство РA^м^7)^Р- Для одностороннего толерантного интервала мы выбираем либо г = 0, либо s = /i + l, для двухстороннего интервала полезно иметь равенство s = /i —г+1. Тогда с помощью одной из величин г или s можно сделать так, чтобы PAF„^Y) превосходила Р на сколь угодно малую величину. Задачу можно также обратить следующим образом: как велико должно быть п при заданных г, s (а также р, уO Пример 2.6. Для г=1, s = n B.6.1) примет вид 1-/y(/i-1, 2) = Р или ^Ь"-М1-2)йг=1-Р. ( т. е. /iY"-'-(/i- 1)y" = 1 -Р. Это уравнение можно решить численно относительно п и результат округлить до следующего целого. Для 7 = 0,95, Р = 0,90 найдем, что п = 77. Таблицы, полезные в общем случае, приведены Мерфи A948) и Сомервиллом A958). Так же, как и в § 2.5, можно показать (Шеффе и Тьюки A945)), что для дискретного распределения справедливо неравенство Р\ i] p(x)S^y\^\-ly(s-r, n-s + r + l)^ с = Х X Р ^ р{х)
§ 2.7) РЕЗУЛЬТАТЫ. СВЯЗАННЫЕ С НЕЗАВИСИЛ^ОСТЬЮ 29 Интересные обобщения непараметрических толерантных областей для многомерных распределений приведены, например, Фрейзером A957) и Уилксом A967). Сондерс A963) рассмотрел последовательные процедуры. (См. также упр. 2.6.2.) § 2.7. Результаты, связанные с независимостью — порядковые статистики как цепь Маркова Пусть Z(i^ sSZB) ^... ^Z(„)— порядковые статистики для выборки объема п из экспоненциального распределения с п. р. p{z)=e-' @<г<сю). B.7.1) В этом случае совместная п. р. величин Z^r) равна /i!exp I— 2 2г) (O^Zi^...^z„<cxd). Последнее выражение можно переписать в виде п! ехр 2 (п-г+1)(г.-г,_1)], /•= 1 где Zo = 0 (Сукхатме A937)). Положив r/, = (/i-r+l)(V)-Z(,_i)) (г=1, 2, ...,/i) B.7.2) п заметив, что каждая из величин Y^ распределена в интервале (О, сю), видим, что У^-статистически независимые величины с общей п. р. B.7.1). Этот простой результат имеет важные применения в задаче испытания на продолжительность жизни, так как с точностью до масштабного множителя Z,;., можно интерпретировать как последовательные продолжительности жизни п одновременно подвергаемых испытанию предметов при условии, что время жизни каждого из этих предметов X = ^,Z (Я,>0) имеет экспоненциальное распределение с математическим ожиданием Я,. Тогда интервалы длины X^r) — ^(г-1) между последовательными моментами гибели независимы и распределены как XZ/(/i—г+1)- Мы вернемся к этому приложению в главе 6, § 6.4.
30 основы ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 2 Соотношение B.7.2) позволяет выразить Z(r) в виде г г hr) = 2 (^@ - 2а-1)) = 2 У;/(" -' +1). B-7.3) 1-=1 1 = 1 т. е. как линейную функцию независимых экспоненциальных величин. Отсюда сразу следует, что распределение Z^,.^ при условии Z(j) = Z(i) для всех l<ir точно такое, как и распределение t ^г) при единственном условии Z(^__i) = 2(^-1)', другими словами, Z(i), Z^^y ..., Z(„) образуют (аддитивную) марковскую цепь (Реньи A953)). Рассмотрим теперь порядковые статистики х^^^^х^^)'^ ^...s^X(„) для выборки из непрерывного распределения со строго возрастающей ф. р. Р {х). Тогда, как отмечено в § 2.6, преобразование и = Р{х) переводит Х^^) в U^г) (г=1, 2, ..., /г) — порядковые статистики из равномерного /? (О, 1) распределения. Так как г = — log и является убывающей функцией и и величина —\ogU имеет экспоненциальное распределение B.7.1), то Z,;.,, определяемые равенствами Z(^) = —logty(„,.^i) {r = \, 2 п), являются порядковыми статистиками, введенными вначале параграфа. Поэтому с учетом B.7.3) X^n-r+l) можно выразить в виде = p-i(exp-(XL+_Zi_ + ...+_^)). B.7.4) Теперь можно записать Х,„-,, = Я-1 {ехр [log Р (X,„.^iO - ^]}, откуда в силу независимости Х^п^^щ и У(r^i) и равенства B.7.4) следует, что величины Х(„), X(„-i), ..., X(i) образуют цепь Маркова. Этим же свойством обладают и величины ХA), ХB), ..., ^(п), что становится очевидным, если заменить X на — X. Этот результат имеет следующее важное следствие: Теорема 2.7. Для случайной выборки объема п из непрерывного распределения условное распределение величины X(s) при условии X^r) = x^r) {s > г) совпадает
§ 2,71 РЕЗУЛЬТАТЫ, СВЯЗАННЫЕ С НЕЗАВИСИМОСТЬЮ 31 С распределением (s — г)-й порядковой статистики в выборке объема п — г из этого же распределения, усеченного слева точкой х^Х(г) ^' ■*)• Из B.7.4) следует, что отношения взаимно независимы (''=1, 2, ..., п\ ^У(„+1) = 1). Отсюда вытекает, что 7r^y = exp(-F„.^i) — взаимно независимые равномерные /? (О, 1) величины. Этот результат принадлежит Мальмквисту A950). Другую группу результатов, связанных с независимостью, можно получить для нормального распределения. Из хорошо известного свойства независимости совокупности величин Xi — X (t = l, 2, ..., п—\) и среднего X следует, что X не зависит от любой статистики, которая может быть выражена в виде функции от разностей X; —X, т. е. от статистики, свободной от параметра сдвига, такой, например, как_размах, которьш можно записать в виде lF = max(X/-X)-min(X/-X) (/=1, 2 п) (см. работу Дэйли A946)). Характеризации. Независимость величин F^ (''=1. 2, ..., п) в B.7.2) можно использовать для характеризации экспоненциального распределения. Наиболее простым из результатов такого рода является следующий: если Xi и Ха — независимые одинаково распределенные величины с абсолютно непрерывным распределением и если ХA) и ХB) —ХA) независимы, то Xj и Х^ имеют экспоненциальное распределение (общего вида). Обсуждение характеризации различных распределений свойствами порядковых статистик приведено у Фергюсона A967), где можно найти дальнейшие ссылки. Работами в том же духе являются работы Россберга A965а) к Говиндараюлу A967). Интересная, хотя и другого рода, характеризация получена Ченом A967с): пусть X и F ^) Эта теорема следует из того, что Тьюки A947) называет «принципом Вальда». 3) Точнее было бы сказать: из условного распределения X при условии, 410 Х'^х^^у {Прим. перев.)
32 основы ТЕОРИИ РАСПРЕДЕЛЕНИЙ 1ГЛ. 2 имеют такие распределения, что Е.Х и ЕУ существуют; тогда необходимое и достаточное условие для того, чтобы эти два распределения совпадали, состоит в том, что EX(„) = EF(„) для всех выборок объема /i^l. Упражнения 2.1.1. Пусть Xi, Х2 Х„ —независимые величины, такие, что Х; имеет геометрическое распределение с параметром р;, т. е. P{^d = 4'i'~ 'Рр Я1=^ — Рр л:.= 1, 2, ... Показать, что X ц, имеет геометрическое распределение с параметром l — qiQi ■■■ Яп (Марголин и Винокур A967)). 2.1.2. Показать, что для случайной выборки объема п из непрерывного распределения с симметричной относительно ц п. р. величины f^ (х) и f„_^ , , (х) являются зеркальными образами друг друга при отражении относительно л: = ц, т. е. f^(H + A:) = f„„^+j(H —дс). Обобщить этот результат на совместные распределения порядковых статистик. 2.1.3. Показать, что для экспоненциального распределения с п. р. г е~х, если х>:0, р(х)={ У О, если л: < О, ф, р, величины Х,„, в случайной выборке объема п равна Fn(x) = (\-e-^)n. С помощью этого результата доказать, что при п ->- оо ф. р. разности Х,„| — log п сходится к предельной функции ехр { — е"*} (— оо sc л: ^ оо). 2.1.4. Пусть a:J < л:^ <...< а:'у — элементы конечной генеральной совокупности, из которой извлекается выборка л:ц, < а:,2| < ... < а:,„| (п^Л') без возвращения. Показать, что Уилкс A967), стр. 255). 2.1,6. Показать, что для выборки нечетного объема из непрерывного распределения медиана распределения выборочной медианы равна медиане исходного распределения (ван дер Ваарт A961b)). 2.1.6. Предположим, что частицы распределены на некотором интервале таким образом, что (а) число частиц на единичном интервале подчиняется закону Пуассона со средним \, (б) частицы изменяются по величине так, что ф. р. их размера равна Р {х) (а^х ^ Ь). Показать, что п-я наименьшая частица в единичном интервале имеет
УПРАЖНЕНИЯ 83 размер, меиьшии -v, с вериятиостью Fn (^) = 1 = 0 1, (Эпстейн A949а)). 2.2.1. Пусть х^,^ обозначает а-ю порядковую статистику в случайной выборке объема п, а а:^4-1я+1 обозначает (а+1)-ю порядковую статистику в выборке обьема n+U полученную добавлением еще одного наблюдения. Показать, что если Р (х) — ф. р. элемента выборки, то для х^у имеем Р{Х,.,,^х, X^,,_„^^>j/}=C;P4^)[l-P(y)]"-^ + l. 2.3.1. (а) Найти п. р. Х,^, для случайной выборки объема п из экспоненциального распределения с П. р. Р{ "-{: 1^~х/в е>о, х^о, а:<0. FI) Показать, что Х,^, и Х,^, — Х,^, {s>r) независимы. (в) Каково распределение X,^+i, — Х,^,? (г) Интерпретировать (б) и (в) в терминах задачи на испытание продолжительности жизни п объектов с экспоненциальным распределением времени жизни. 2.3.2. Пусть Хх, Ха Х„ —независимые величины, и пусть X,- имеют п. р. Pi (х) и ф. р. Р; (л:). Доказать, что (а) п. р. Х,„, равна (б) ф. р. 1Г=Х,„,—Х,!, равна п^'« т Pi(x) i= ! ■{х)Г ^И= 2 j Pi(x) П [Pf{x + «')~P,{x)]dx. i = I —со / = I / Ф1 2.3.3. Пусть Xij (i = l, 2 k; / = 1, 2, ... , n) — k независимых случайных выборок объема n, причем Хи имеет ф. р. Р{(х) (/ = = 1, 2, ..,, п). Показать, что максимум я-й выборки является k-м ') Во всем упр. 2.3.1 имеется в вид> иоказателыюе распределение пункта (а). (Прим. перев.) 2 Г. Дэйвид
34 ОСНОВЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ.2 максимальным членом среди kn величин с вероятно стью п^ I |Л~1 (X) i= I П A-^/W) dP,{x) (Кон и др. (I960)). 2.3.4. Показать, что ф. р. средней точки (или середины размаха) Л1 = -х-(Х,1)+Х,„)) случайной выборки объема п из непрерывного распределения с ф. р. Р {х) равна т F (т) = п ^ [PBm—x)—P{x)Y^■-'^p(x)dx (Гумбель A965), стр. 137). 2.3.5. (а) Показать, что совместная п. р. размаха W и средней точки М случайной выборки объема п из равномерного на (— 1/2, 1/2) распределения равна f(aj, m) = n (п—1)а)''-2 (О =S о) «£ 1 —2 [ m | s£ 1). (б) Используя этот факт, показать, что п. р, М равна j (т) == = п A—2 1 m [)'>-i (ms£ —I и что D(M). 1 2(n+l)(n + 2) (Нейман и Пирсон A928); Карлт«н A946)). 2.3.6. Показать, что п. р. размаха W для выборки объема 3 из нормального распределения с единичной дисперсией равна л J/2 J (Маккей и Пирсон A933)). 2.3.7. Показать, что для непрерывных распределений, симметричных относительно нуля, ф. р. размаха выборки объема п можно записать в виде со f (а)) = [Р A/20)) —Р(—1/20))]"+2п ^ р {х)[Р (х) — Р (x — w)]'^-^ dx ш/2 (Хартли A942)). 2.3.8. Показать, что для неограниченного, дифференцируемого, симметричного и унимодального распределения распределение средней точки также неограниченно, дифференцируемо, симметрично и унимодально (Гумбель и др. A965)). 2.3.9. Пусть V = X'j^') ■ Х'|' ... X!^j —произведение ^-максимумов в независимых случайных выборках объема п из равномерного R (О, 1)
УПРАЖНЕНИЯ 35 распределения. Показать, что п. р. V равна (Райдер A955); Рахман A964)). 2.3.10. Пусть W,, Wa —размахи независимых случайных выборок объемов П1, Па (rai + n2 = iV) из равномерного R{0, С) распределения. Доказать, что п. р. величины U = Wi/Wi равна "JvVinfc)'^ [iV.--^-(iV-i).".-'] @^. ^ 1), ''"'"I Ч^мХ^-^ [iV.-"--(iV-2) .--^- Ч A^„<оо) (Райдер A951)). 2.3.11. Пусть Wi, 1^2 — размахи независимых случайных выборок объемов 3 и 2 из нормального распределения. Доказать, что R = = Wi/Wa имеет ф. р. f(r)=A[arctgC+4r^)''2-f] (Линк A950)). 2.3.12. Пусть ^,„j), К,„,—максимумы независимых случайных выборок объемов пи /ц (ni^n^ = N) из равномерного R(Q, С) распределения. Доказать, что п. р. V = X.„^)/K,„, равна /(^) = -"%"'~' (l^^^oo) (Мерти П955)). 2.3.13. Доказать, что для выборки объема 2т-\-\ {т—целое) с непрерывной ф. р. Р (л:) (О s£ а s£ л: sg 6) п. р. отношения максимального наблюдения к медиане Z = Xi2m+i>/^im+i> равна , B/П+1)! ^ ' /и!(т—1)! J (Моррисон и Тобиас A965)). 2.3.14. Предположим, что точки Xi, Х^, ... , Хд случайно и независимо выбираются из интервала О ^ л: sc L, Пусть D=min \Xi—Xj\ i ДЛЯ некоторого фиксированного i, 2*
f (d) = l-B/n)[l-(d/L)]" [~L^d:^L 36 ОСНОВЫ ТЕОРИИ РАСПРЕДЕЛЕНИИ [ГЛ. 2 Показать, что ф. р. D равна F(d)-\ [l (^^)Г 1 2 {[1-^/^1"-П-B^/^)П 1 .^ А ^ 1 \ (Гальперин (I960)). 2.3.15. Пусть в случайной выборке объема 3 из непрерывного распределения с п. р. р (л;) л:', л:" (л:' ^ л:") — два самых близких наблюдения. Показать, что совместная п. р. л' и Х" равна \{х\ Г) = 6р(дс') р(Г)[1—PBjc" —а:') + РBа:' —л:")]. Вывести из этого, что если р{Х) — п. р. стандартного нормального Закона, то U = X"—Х\ V = U/{X,з> — ^'^di) имеют п. р. соответственно и (Сет A950); Либлейн A952)). 2.4.1. Доказать равенство B.4.3). 2.4.2. Пусть X —дискретная величина, принимающая значения х=0, 1, 2 С, где С —положительное целое или оо, Показать, что п. р. размаха выборки объема п равна C — W im= S {[Р (x + w)- Р {х-\)]''-[Р (x + w)-P {х)]п- -[Р(ДС + ш-1)-Р(а:-1)]" + [Р(а: + ш-1)-Р(а:)]"} (о) > 0), С fH= S [PWf (к'=о) (Абдель-Ати A954); Барр A955); Сиотани A957)). 2.5.1. Получить B.5.4), используя то, что из неравенства Х,;.,>|« следует, что не более чем г—1 из величин X; меньше ^.. 2.5.2. Найти наименьшее п, для которого (а) (X,i,, Х(„)), (б) (Х,2), Х,п_1)) содержат g,^2 с вероятностью не меньшей, чем 0,99. 2.5.3. Доказать неравенство B.5.7). 2.5.4. Пусть {Xi, уЛ (i = l, 2, ..., п)—случайная выборка, образованная п парами наблюдений из непрерьтного двумерного распределения с двумерной медианой Ei/2' ■41/2)' '"Д^ ^мч^^- Пусть г;F)= — iji — bxi и г,;, (8) обозначают упорядоченные величины 2; F). Показать, что можно построить доверительные интервалы Гб, в) для
УПРАЖНЕНИЯ 37 n — r Я1/2Д1/2 '^ коэффициентом доверия 2"" ^ С),, находя 6 и ё из соот- ( = 1 " ношений 2,^, (e) = inf {г,^, FI=0 г,„-г+и(ё) = «'^Р{г,„.,+х, FI-0 (Беннет A966)). 2.5.5. Показать, что для случайной выборки объема п из непрерывного распределения Р I Р {X,;., < 5р < 5? < -^(j)} = J \ frs (х, У) dx dy, 04 тле. р <. q и frs (х, У) определена в примере 2.3. Используя это равенство, доказать, что интервал (gp, Ig) содержится в (Х,^), Х,^)) с вероятностью г-1 (Т=7)Г 1 uin-s+r-i)i /р("-^ + Ь ^-') (Уилкс A967), стр. 341; сравните с работой Чу A968)). 2.6.1. Для непрерывного распределения найти такое л, чтобы доля этого распределения, заключенная между Х,;., иХ|„„^_^1,, имела (а) среднее значение 0,99 и (б) вероятность того, что она находится между 0,985 и 0,995, равную приблизительно 0,9 (ответ: л = 999) (Уилкс A941)). 2.6.2. Пусть Р (х)—ф. р. непрерывной величины X, симметричной относительно gj/j. Для случайной выборки объема п положим V=max(X,„„ 2|,^2—^а)). Показать, что для у^\/2 имеет место равенство P{P(V)>y} = 1-By-1)". (А) Уолш A962) использует этот и другие результаты для получения непараметрических толерантных интервалов для непрерывных симметричных распределений. У Уолша имеются неточности в доказательстве соотношения (А). 2.7.1. Возьмем две независимые случайные выборки х^, х^, ... ..., х^ и Ух, У2, ..., У„ нз равномерного на (О, С) распределения. Выборки таковы, что Хц^^уц,. Рассматривая совместную п. р. величин Х(^,^) и Fjjj при условии, что X,,,=.v,j , показать, что
38 основы ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 2 П. р. величины T = (Yai—X4i)l{^i^ni) — ^{i)) Р^^"^ п f(t) = i = О —;r-, П—■ 1^'<оо (Хирениус A953)). 2.7.2. k взаимно независимых случайных выборок объема п из непрерывного распределения с ф. р. Р (х) упорядочены по значениям наибольших членов в каждой выборке. Пусть К;/(/т=1, 2, ... , п; j = = 1. 2, .... k) есть /-Й по величине элемент выборки, наибольший член которой Yij имеет ранг / среди k максимумов Уц, Y^, ... , Fij. Показать, что /-I р (Fy < дс) = 2 С« [1 - Р" (х)]^ [Р" (А:)]*-а + а = 0 /- I г-I m-i a=Om = I |5 = 0 [Р(л:)]"-1-Р —[Р(л:)]"^-"« ^ nk—na + 1—n + P ' где тройная сумма равна нулю при /=1 (Коновер A965); Дэйвид A966)). "Х
г л ABA S МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ § 3.1. Основные формулы В этой главе мы рассмотрим моменты порядковых статистик, в основном математические ожидания, дисперсии и ковариации. Мы не раз убедимся в том, что линейные функции порядковых статистик, простым примером которых является размах, чрезвычайно полезны при оценивании параметров. Знание математических ожиданий, дисперсий и ковариации рассматриваемых порядковых статистик дает возможность найти математические ожидания и дисперсии их линейных функций и, следовательно, позволяет найти оценки и их эффективности. Математические ожидания представляют интерес также в задачах о выборе (см., например, у пр. 3.2.2) и в так называемых процедурах «мечекия» ^). В этих процедурах истинное распределение неизвестно. Поэтому упорядоченные наблюдения Х((^ заменяются их «метками» EZ(;,, где Z(;) — упорядоченные величины из некоторого стандартизованного распределения такого, как стандартное нормальное. Тогда при условии, что угадано правильное распределение, метки (с точностью до линейного преобразования) имеют самый большой квадрат коэффициента корреляции с X^d из всех функций рангов i^) (Бриллинджер A966)). Иногда нам будет удобно подчеркивать в обозначениях объем выборки. Поэтому в оставшейся части этой главы мы пишем Хг:п вместо Х^г)- Математическое ожидание величины Хпп мы обозначаем \ir\n- Для распределения 1) в оригинале scoring procedures. ^) Имеется в виду выборочный коэффициент корреляции, (Прим. перев.)
40 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 3 С непрерывной плотностью р (х) (дискретный случай отличается от этого вплоть до § 3.3) имеем со [^пп= 5 xfrix)dx==' — 00 ОС = /iC;zl 5 xlP(x)r^n~P{x)]"-'dP{x). C.1.1) — 00 Поскольку О^Р (х)^ 1, справедливо неравенство l^irml^ со ^nCn'Zi 5 \x\dP{x), из которого следует, что [irincyim- — оо ствует, если существует ЕХ^). Обратное не всегда верно. Чтобы убедиться в этом, заметим, что с помощью вероятностного интегрального преобразования и = Р{х) можно записать [irm ^ виде I ji„„ = nCnZ\ 5 Р-' (и) и'-' A - и)"-^du, о где Р~^(«)—функция, обратная к Р (х). Таким образом, если даже среднее ЕХ = IР-1 (и) du о не существует из-за особенностей в точках и = 0 или 1, \irin тем не менее существует для некоторых (хотя и не всех) значений г. Например, в случае распределения Коши [1г:п существует для всех г, кроме г= 1 и г = п. (См. также по этому поводу упр. 3.1.7 и 3.1.11.) Подобным же образом из существования E[g(X)], где g(x)—некоторая функция х, вытекает существование E(g(X;.:„)]. Частные случаи g(x) — x'', (x — [ir:n)'' и ?" дают соответственно начальные моменты, центральные моменты и производящую функцию моментов (п. ф. м.) 3) Существование ЕХ влечет сходимость по отдельности интегра- оо о оо ЛОВ \xdP(x)M Jj v dP (Jc) и, следовательно, также ^ \x\dP{x). О — 00 — 00
§ 3 1] ОСНОВНЫЕ ФОРМУЛЫ 41 для Хл;л. Момент к-го порядка записывается в виде ti[*'„ = E(X* :„)*). C.1.2) Подобным же образом можно определить и моменты произведения yirs:n = E(Xr:n-Xs:n). C.1.3) Ковариацию Хгш и Х,:„ обозначаем соответственно arsin=E{Xrin-[lr:n){Xs:n-lls:n). C.1.4) Как обычно, (Trs : л = CTsr : л И (Т^г : л ИЛИ О^г-.п ЯВЛЯеТСЯ ДИС- персией Хл:л. Более подробно это записывается так: оо (У':п= I {X — \lr'.nffr{x)dX — оо и ДЛЯ r<:s оо у (Тлз;л=» $ \ {x — [lr:n){y — [ls:n)frs{x,y)dxdy, C.1.5) — оо — оо Где совместная п. р. frsix, у) определена в B.2.1). Пример 3.1.1. Для равномерной на (О, 1) п. р. р (х) равенство C.1.1) примет вид ,.л = .С; = ф.-A-.)'-^^. = ^^^ = -^. В силу вероятностного интегрального преобразования отсюда следует, что порядковые статистики делят область под кривой у = р(х) на п-\-1 частей, математическое ожидание площади каждой из которых равно l/(/i+l). Общий подход для вычисления моментов произведения можно проиллюстрировать на случае 4 переменных. В выражении frstaiXi, Ха, Хз, ^4) = (^_1)|E_;._1)ц;_5_1)|(„_;_1)ц„_^^|Х X хр' (Х2 - х,Г-''^ (Хз - XiУ-'-■^ {X, - Хз) «-'-»A - х^)"-" *) Сен A959) показал, что из существования Е|Х|* для некоторого S > О вытекает существование ц'Д'„ для всех г, удовлетворяющих неравенству Го<:Г ^n — rQ-^l, где гцб — Н.
42 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 3 При r<;s<<^'<« положим X4 = yi, Хя = УзУ*, Ч^УчУъУ^у х^^у^у^у^у^. Обозначая постоянную буквой С и замечая, что якобиан равен yal/iyl. получим /(Уь У2. Уз. У4)-Су[-^A-угГ^-%-Ч^-У2У~'^'-у1-'Х хA-уз)«-^-1у«-'A-2/4)"-" @<у;<1; г = 1, 2, 3, 4). Это равенство, кроме всего прочего, показывает, что величины, Yi, а следовательно, и величины Xr:n/Xs:n, Xs:n/Xt-nyXt:n/Xu-.n^Xu'.nстатистнчески независимы. (Этот результат можно сравнить с B.7.5).) Поэтому имеем Е( va \rb -ус -wd \ В(/, S О 1 — Jyp' + «(l-!/i)'—Мг/1 ...X у L \ iju-l+a + b + c+d П _^ и )п-а^и (/•-1+аI {s-\+a + b)\ (t — \+a + b + c)\ {u-l+a + b + c + d)\ п\ (/• — 1I (s —1+аI {t — l+a + Ьу. (u-1+а + Ь + с)! (л+а + Ь + c + d) В общем случае, для порядковых статистик Хг^-.п (г == 1, 2 ... .,., k) результат принимает вид / k \ k f^i-l + i] аЛ\ \ i = I / \ / = I / (Дэйвид и Джонсон A954)). Следовательно, полагая Pr = rj{n\\), qr — l—pr, мы можем, в частности, вывести, что для rs^Ss^^ справедливы равенства l^T-.n — Иг< Urs; л— 12 > Е К-^г I п — t^r ; л) (Ха i л — f^s : л) (Х^ : п — [i-i: п)] = ^ '^Prils—Ps)qt /о 1 7\ {rt + 2)(n+3) ^•^■'•''
§ З.П ОСНОВНЫЕ ФОРМУЛЫ 43 Е (Хл |л — [Ал »л)* == („ + 2L + (л+ 2) (,4 + 3) (?г + 4) ^ , I / ,2 П+3 1 X \{qr-Prf~^^Prqr\. Для экспоненциальной п. р. легко получить соответствующие явные формулы (упр. 3.1.1). Однако, для вычисления средних, дисперсий и ковариаций, вообще говоря, необходимо численное интегрирование. Как машинные вычисления, так и табулирование облегчаются, если р{х) симметрична, например, относительно x = 0, так как справедливы равенства [А/-|л = — ^п — г+\'.п, C.1.8) Ors:n='On — s+\, п — г+Мп C.1.9) (сравните с упр. 2.1.2). Для нормального Л^ (О, 1) распределения средние достаточно полно затабулированы (Хартер A961а)), так же, как и дисперсии и ковариаций для /isS20 (Тейкроу A956); Сархан и Гринберг A956)). Имеются также таблицы для гамма-распределения, логистического распределения, распределения экстремальных значений и хи-распределения с одной степенью свободы (см. также П.3.1). Среди линейных функций порядковых статистик особый интерес вызывает размах. Справедливы равенства D1F„ = (t^„-2(t„,,« + ct!,„, которые в случае симметрии относительно x = 0 приводят к соотношениям ЕГ„=2[1„;„, Пример 3.1.2. Для равномерного на (О, 1) распределения из C.1.7) следует, что ПП/ 2 (n-l-l.l) 2(п-1) ^^ "■ л+2 (л + 1J (л+2)(л + 1J-
44 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ |ГЛ. 3 Для проверки заметим, что из B.3.4) с г=1, s^n вытекает равенство И^.) = В(п-1,2)^"''('~^") @<Ш„<1), что дает L'"'«-(„ + l)(„ + 2) U + W (n + 2)(n+TJ- Другое выражение для \ir;n можно получить, интегрируя по частям выражение оо [1>-:п= \ XdFr(x). — оо Заметим сначала, что для любой ф. р. Р (х) из существования ЕХ следуют равенства lim хР(х) = 0, lim л;[1-Р(л;)] = 0, X -* — 00 X —* со так что о 00 ЕХ=- \ xdP(x)-\ xd[\~P(x)]^ — 00 о 00 О '^\[\-P(x)]dx- \ P(x)dx. C.1.10) 6 —00 Если в этой формуле заменить Р (х) на Р,{х), то получим выражение для \ir:n- Полагая r = /i и г=1, мы получим после подстановки хорошо известную формулу оо EWn^ \ [\-P'4x)-[\-P{x)Y]dx C.1.11) — 00 (ТиппетA925); Кокс A954)). Имеем также оо V-r-,n^\ [\-F,{x)-F,{—x)]dx, о и если р {х) симметрична относительно х — О, то оо Цг 1 а = 5 [Fn-r^l (X) - Fr (X)] dX.
J 3.2] НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 45 Полезные общие способы проверки вычислений можно получить с помощью равенства I п \т j п \т УХ*.J = S^n , C.1.12) в котором слагаемые левой части только перестановкой отличаются от слагаемых правой части. Пусть ^i и сг* — генеральные математическое ожидание и дисперсия. Взяв в C.1.12) математические ожидания при {k, т), равных последовательно A.1), B.1), A.2), получим п ^ V'f.n — п\1, C.1.13) 2 Ex^„=/lEx^ (з.ки) 2 i; Е{Х...пХ,..п) = пЕХ^-п{п~\)у? C.1.16) и, подставляя C.1.14) в C.1.15), придем к равенству /7—1 П 2 2 ^i^r:nXs:n)^]^n{n-\)v.K C.1.16) Возводя в квадрат обе части равенства Jl{Xr:n-V^r:n)-j:,{Xr-\^), получим п п Ц Ц ars:n = na\ C.1.17) r = l s = 1 Из доказательства соотношений C.1.12) — C.1.17; следует, что они Справедливы как для непрерывного, так и для дискретного распределений. § 3.2. Нормальное распределение Таблицы Тейкроу A956), о которых упоминалось в § 3.1, полезны для приложений, так как в них можно найти все необходимое для случая п<^20. Тем не менее более детальное рассмотрение нормального случая имеет
46 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 3 значительный теоретический интерес. В этом параграфе мы полагаем p(x) = 9(x)=Bn)-i/2e-^Va (—oo<x<oo), X Р{х) = Ф{х)= \ (f>{t)dt. — с» в дополнение к общим соотношениям C.1.13) — C.1.17), справедливым при |i = 0 и сг=1, соотношениям C.1.8) и C.1.9) для симметричных распределений имеем 2 Е(Х.;Л.„)=1 (г=1,2 п), C.2.1) S = 1 что равносильно соотношению •г 2 C^s: ге == 1. s = i Доказательство. Из независимости Х^;„ —X и К следует соотношение Е(Х,;„-Х)Х=0 или Е(Х.:„Х) = ЕХ2 = 1. п Подставляя пХ—'^ Xs-.n, получим C,2.1). ^ Для /I s^ 5 обычные моменты и моменты произведений порядковых статистик можно выразить через элементарные функции (Джоунз A948); Годвин A949); Бозе и Гупта A959). Как и у последних авторов, положим оо 1п(а)= ^U^iax^Je^"'dx, C.2.2) — с» так что /о (а) = п'/^ Тогда оо [ [O(ax)-y?'" + 'e-^'dx = 0 (/п = 0, 1, 2, ..,),
^ 32] НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 47 так как под знаком интеграла стоит нечетная функция от X. Поэтому im + 1 Д| (~ 1) '^2т + ) ^2ffl-i+l (°) /am+i (я) = 21 • В частности, h{a) = \h{a) = \^'i' и /з (а) = I /а (а) - 4 ^1 («) + Т ^0 (а) = у /г (а) -1 /о (а)- Дифференцируя C.2.2) по а, получим для /г = 2 равенство B^I/42@)= \ Ф(ал;Jл;е ^ dx. С помощью интегрирования по частям приходим к равенству ^^ (") = ;^ („2^2) (аЧ1)'^'' Поэтому /2(a) = 4?2'"ctg[(a^ + l)n С помощью этих равенств можно вычислять моменты порядковых статистик. Так, для п = Ъ, интегрируя по частям и используя равенство ф'(х) = — x^i{x), имеем оо оо ЕХ8;8 = 5 \ Ф* (х) Хф(х) dx = 5 5 4Ф^ (х) ф (л;) ф (х) dx. — ОО —оо Следовательно, f^»:» = ^/3(l) = |,arctgl/2-^ = = 4^7^ + 2;?^ arcsinl = l,16296.
48 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 3 Подобным же образом получаем t^4^8 = ^ - ;^arcsin| = 0,49502 и 1^8 : в = О 1^2 ; В = — 1^4 : в l^i: в = — ^1в : В- Более общий, хотя и несколько громоздкий подход, применимый также и к моментам произведений, сводится к выражению всех интегралов с помощью функций /„=5...5 e-QdXi...dXn, где Q — квадратичная форма относительно х. Для п^З Jn можно выразить с помощью элементарных функций, и мы имеем /1=1: Q = axl, а ' п = 2: Q = ax\ + 2hxiX2 + bxl /1 = 3: Q = axl + bxl + сх\ + 2/^2X3 + 2^X3X1 + 2/ix,X2, где A-=abc+Ygh-af^-bg^~ch^ (Годвин A949)). Пример 3.2.1. Мы укажем шаги, использующие описанную выше процедуру, на примере вычисления Е(Хз:в^в:в). которое равно со у = 2llb. I I ""У ®' (""^ '^' (^) ^^ (^) - ® (^)] Ч> (у) ^^ dy. (А) —оо -оо
§ 3.2] НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 49 Имеем у \ ф2 {х) [Ф (г/) - Ф {х)] Хф {х) dx = — с» V = \ [2Ф (х) Ф (у) - ЗФ2 (х)] ф2 (х) dx. — с» Подставляя это равенство в (А) и изменяя порядок интегрирования, получим Е (лз:вЛв;в) = = 60 f ф2 (X) 5 [2Ф (X) Ф {у) - ЗФ^ (X)] УФ {у) dy dx. Внутренний интеграл равен с» -ф2(д;)ф(д;)+5 2Ф(д;)ф2(г/)^г/. Нам остается вычислить -бо[фм.)фЗм^л.=_м?/4(|П — с» и с» с» 120 f {~'^\\-[^~^dz\dydx = - - -. л;; 00 00 00 15 15У2 p p p / IN --^--^ J J J exp-fA;2 + r/2 + _z2jdzdr/dA;. — 00 X X Положив у' =y — x, г' = z — x, приведем тройной интеграл к виду ОО 00 00 J J J ехр - [lx^ + y^ + \z^ + 2xy + xz) + 0 0 0 + exp — (-^л;2 + г/2+2"Z^ —2л;г/ — xz\dz dy dx.
50 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 3 Окончательно имеем E(X,:A..B) = -iiparctg(|-y'4 При помощи описанных методов можно выразить в терминах элементарных функций все моменты и моменты произведений для п-^5. Повторное интегрирование по частям позволяет таким же способом получить многие моменты более высокого порядка. Так, например, можно вычислить EXgie, хотя метод не позволяет вычислить Рубен A954) указал остроумный, хотя и сложный подход, с помощью которого обычные моменты порядковых статистик можно выразить в виде линейных комбинаций объемов определенных гиперсферических симплексов (обобщенных сферических треугольников). Для размерностей больших, чем три, эти объемы нельзя выразить через элементарные функции, откуда, между прочим, следует то же утверждение для /4(a) и ЕХ^-,^. Аналогичные результаты для математического ожидания и дисперсии размаха получены Рубеном A956b). (См. также работу Дэйвида A963).) Конечно, отнесение функции к элементарным довольно произвольно. Ватанабе и др. A957) с помощью длинных прямых вычислений выразили первые два момента и моменты произведений для п<7 через обратные тригонометрические функции и некоторые интегралы вида ^arcsin [3/(8 — tg^ W)y/^ dW. Моменты отдельных порядковых статистик и моменты произведения до четвертого порядка таким же образом выражены в работе Ватанабе и др. A958). § 3.3. Дискретный случай Для дискретных распределений р (х) (х = 0, 1, 2, ...) /г-й момент Х^-.п, в соответствии с определением, равен со
§ 3.31 ДИСКРЕТНЫЙ СЛУЧАЙ 51 где fr{x) определено в B.4.1). Несколько более удобная формула, зависящая от «хвостов» 1 — Fr (х), а не от f^ (х), легко выводится из общих результатов для дискретных распределений. Так же, как у Феллера (A967), стр. 271), положим q(x) = p(x+\) + p(x + 2) + ... и определим производящие функции моментов оо оо ^(s) = I;pWs^ ^{s)=j;^q{x)s\ C.3.1) х—й х=0 Очевидно, что для |s|<;l производная fe-ro порядка от §^(8) равна оо |/s(fc)(s) = J^x(x-l)...(x~k-l)p(x) s*-*. Если у X существует k-Pi фактор иальный момент [i[k]> то можно положить S = 1. Тогда №]=^''^A). C.3.2) У Феллера доказано, что для |s|<;l oS{s){l-s) = 1-3^E), C.3.3) откуда с помощью fe-кратного дифференцирования и теоремы Лейбница получим Если |i[fc] существует, то из C.3.2) следует |Xtfc5=/ja^(fc-l)(l). C.3.4) В частности, оо оо оо оо ^,, = E[X{X-\)] = 2^xq{x)=^2^x[\-P{x)], откуда получается выражение для дисперсии X: DX = [^[а] + [I — [1^.
52 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. S Чтобы применить эти результаты для моментов Хг-.п, нужно только заменить Р{х) на Fr(x). Используя B.1.6), получим оо х=о C.3.5) DX.:„ = 22; X\\~lp(^^{r, п-Г-\-\)] + \1г:п-\и1:п. В частности, из C.3.5) получаем моменты экстремумов оо оо и, следовательно, оо EW, = ^ {\-Pn^x)-[\-P{x)f], ЧТО является прямым аналогом результатов для распределений, непрерывных на (О, оо). Эти формулы могут быть получены также как предельные случаи соответствующих результатов для неотрицательных непрерывных величин. Действительно, положим ^л(л;) =/р(О (л п-г+\) A<л;<1 + 1). Тогда оо оо 1-1-1 \lr:n^\[\-Fr{x)\dx = Yl\.^-Pr{l)] \ dx = О ' ==« о i со = ^[\-РЛх)]. Аналогично оо ЕХ'г:п = \ 2x[\-Fr{x)]dx=' = ^[^-Ргт \ 2xdx=Yi{2l+\)[\-F,{i)]^ ( = 0 i (=0 ^2-^x[\-Fr{x)] + v.,., х-'О И Т. д.
§3.4] РЕКУРРЕНТНЫЕ СООТНОШЕНИЯ бЗ Из B.4.5) также получим оо оо =:,С„ 2 2 xyl\w'-^v-wY''-^-(l-v)'''^vdw, C.3.6) где интегрирование распространяется на те у, w, для которых ш<и, Р(х—1)<ш<Р(х), Р(г/—1)<и<Р(г/). Математическое ожидание и дисперсия наименьшей из двух биномиальных величин подробно рассмотрены Крейгом A962) и Шахом A966а). § 3.4. Рекуррентные соотношения Многие авторы (см., например, Говиндараюлу A963а)) изучали рекуррентные соотношения между моментами порядковых статистик, главным образом для сокраш,ения ряда независимых выкладок, требуемых для вычисления моментов. Между прочим, можно заметить, что равенства C.1.12)—C.1.17) также можно использовать для этих целей, хотя они, несомненно, лучше подходят для проверки вычислений. При выводе рекуррентных соотношений распределение почти всегда будет предполагаться непрерывным. Как станет ясно ниже, большая часть результатов распространяется и на дискретные распределения^). Соотношение 1. Для произвольного распределения имеем {П — г) \1^г^„ + ф?| I: л = ГЦХп^п- I, где г=1, 2, ..., /1—1, а k=l, 2, 3, ... Этот результат получен Коулем A961) для непрерывного и Мельником A964) для дискретного случая. Возможно общее доказательство, так как можно записать, соответственно, равенства l^'r; л — 1 }c>'~Jp(^){r, n-r+\)dx, C.4.1) —ОО ОО V^Vn= i; xf'Mp(,^{r,n-r+\)dx, C.4.2) л:=0 где A/p(^) (a, b) = /p(.^) (a, b) - Ip^^^^^ (a, b). ^) Фактически, все рекуррентные соотношения, ие зависящие от особенностей распределений таких, как нормальность, остаются справедливыми и для симметрично зависимых величин (см. § 5.6).
54 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 3 Из хорошо известной рекуррентной формулы для неполной В-функции aly{a+l, b) + bly{a, b+l) = {a + b) Iy{a, b), положив a = r, b = n — r, y = P(x), получим {n-r)Ip(^-^{r, n-r-\-\)-\-rIp(x){r-\-\, n-r) = = nlp(x) (r, n — r). Отсюда сразу следует соотношение 1. ^ Следствие 1А. Для четных п имеем Доказательство. Положим в соотношении 1 г = = п/2. ^ Положив k = \, заметим, что математическое ожидание медианы в выборках объемов п {п~ четное) и /г — 1 совпадают. Следствие IB. Для распределения, симметричного относительно нуля, и четного п имеем ,.(fc) _ ( \iV если k четное, [ О , если k нечетное. Доказательство. Подставим в следствие 1А равенство Замечание. Поскольку доказательство соотношения 1 зависит только от свойства неполной В-функции, ясно, что точно такое же рекуррентное соотношение связывает плотности распределения, функции распределения, математические ожидания (если они существуют) любой функции g(Xr:n)- Таким образом, справедливо равенство (Шрикаытан A962)). Таким же образом можно обобщить следующие два соотношения, которые снова формулируются для наиболее важного случая моментов.
, 3.4] РЕКУРРЕНТНЫЕ СООТНОШЕНИЯ 55 Соотношение 2. Для произвольного распределения i,i% = j^ C'-ICU- 1)'" Vl'l- C.4.3) Таким образом, моменты Хг. п выражаются через моменты наибольших значений в выборках объемов г, г-{-1, ..., п. Доказательство. Разложим (l—t)"-'^ в равенстве О Тогда подынтегральное выражение правой части примет вид п—г "I V г' ( и''/''-'+' (r-l)!(rt-r)l Li "-''^ > ^ Положив t = / + r, получаем, что последнее выражение равно Подставляя это выражение в C.4.1) или C.4.2), получим соотношение 2. ^ Соответствующий результат для \х.\-^ принимает вид п (k) V" /-'"■ —г /->i I 1.1 —« + л—I (fc) Замечание. С ростом n — r формула C.4.3) становится все более чувствительной к ошибкам округления. (См. также работу Шрикантана A962).) Соотношение 3. Для произвольного распределения при l=Cr<;ss^/i имеет место равенство ('■- l)tl«:« + (S-'')^^r-I, s:« + ("-S + l)!^^-I,s-I;« = Доказательство (Говиндараюлу A963a)). В формуле с» у —оо —оо X \Р (у) - Р {X)]' ^ 1 [1 - Р (у)]"-' dP (X) dP (у)
56 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 3 разобьем интеграл на сумму трех однотипных интегралов, соответствующих разложению 1=Р{х)+[Р{у)-РШ+и-Р(уI Отсюда следует непосредственно соотношение 3. С помощью C.3.6) еже рассуждения проходят и для дискретного случая. Заметим, что соотношение 1 является частным случаем этого соотношения приг=1,5 = г4-1- ^ Другие соотношения приведены в упражнениях. (См. также Кришнайя и Ризви A966).) Упражнения 3.1.1. Показать, что для случайной выборки объема п из экспоненциального распределения с п. р. С е~-^, если х > О, ' \ О, если л; < О, справедливо равенство ^^r■.n= 2 '-> и что для г <; S справедливы равенства 3.1.2. Показать, что для случайной выборки объема п со степенной ф. р. р (х) = va-'^x"-! (О г£ X г£ а, а > О, и > 0) справедливо равенство г|.+.)г(|+.)-. '^'■■"- T{r)T{n + klv + l) и что для г -^s справедливо равенство T(n + l)T(llv+r)TB/v + s)a^ Иг»! л г(г)ГE + 1/и)Г(л + 2/и + 1) (Малик A967)). 3.1.3. Показать, что для случайной выборки из стандартного нормального распределения справедливы равенства
УПРАЖНЕНИЯ 57 3.1.4. Показать, что для случайной выборки объема п из непрерывного распределения с ф. р. Р (х) имеет место равенство оо Е(^г+1;«-^г;д)=с;; \ [P(x)r[i-P(x)]«-dx —оо (г=1, 2, ..,, л-1) (Гальтон A902); Пирсон A902)). 3.1.5. Показать, что для случайной выборки из непрерывного распределения с ф. р. Р (х) справедливы равенства а)Е[Х,.„Р(Х^.^)] = ~ И5+1:д + 1 (г^^)> ^)Ч^г.пР{^.:п)\-\^г.п-~^\'пп + \ (^<^) (Говиндараюлу A968а)). 3.1.6. Показать, что для случайной выборки объема п из непрерывного распределения справедливо равенство S' S E(X^.,x',^„)=C^E(xiз4,.2) (Говиндараюлу A963a)). 3.1.7. Показать, что п. р. медианы в выборке объема л = 2й + 1 из распределения Коши с п. р. равна {k\f п 1 1 1* ^-^.arctg2(x-e)J 1 1 + (х-еJ и что дисперсия медианы равна я/2 2( ■ - ^ ] {n-y)i'ykctg^ydy. ik\) и (Заметим, что она конечна для k^2.) (Райдер (I960).) 3.1.8. Показать, что для распределения Коши с п. р. Р(^)-^^ТГ+Щ (-оо<х<оо) для г = 3, 4, ..., п—2 имеет место равенство <'n!.= ~{^^r■.n-l~\^r-l■.n-l)-^-i^r.n (Барнет A966)). 3.1.9. Пусть распределение случайной величины X симметрично относительно нуля. Тогда случанная величина Y, полученная уреза-
58 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ ГГЛ. 3 нием (folding) величины Хв нуле, имеет ф. р. Р* (х) = 2Р (х)—1 (х>0). Если ц*.„ обозначает к-Ъ момент Y, то справедливо равенство Гг;п 1]'с>*Д^„_,+(-1)'^2с;ц*^^,+,,; 1 = 0 (Говиндараюлу A963b)). 3.1.10. Статистика Т (Xi, Х^, ..., Х„) называется нечетной статистикой параметра сдвига, если для всех Xi, х^, ..., х„ и для любого h справедливы равенства T{Xi-\-h, Х2 + /г, ..., х„ + /г) = Г(х1, Ха, ... , х„)+/г и Г( — Xi, —Х2, ...| —Х„)^ —Т (Xi, Х2, ..., Хл). Аналогично S {Х^, Х^, ..., Х„) называется четной свободной от параметра сдвига статистикой, если для всех Xi, х^, ..., х„ и для любого h справедливы равенства S(Xi + /i, X2+h, ..., x„ + /i) = S(Xi, Ха, ... , х„) и о( — Xi, Х2, ..., —X^)^o(Xi, Х2, ...f X;j). Доказать, что для случайной выборки объема п из симметричного распределения Т я S некоррелированы (Хогг (I960)). 3.1.11. Пусть Xi, Xj, ...Х„ — случайная выборка из распределения с ф. р. Р (х) и п. р. р (х), причем последняя непрерывна и строго положительна на {х | 0<Р(х)<1}. Предположим, что ЕХ?.^ + + ЕХ^-. „<оо. Показать, что <=°v(X,.„, Х/^„)»0. (А) (Достаточно показать, что EOCi.jX^.A — непрерывная монотонно возрастаюш,ая функция, так как справедлива следующая лемма: если X и Y — случайные величины такие, что EX^-\-EY^<<co и E{Y/X)— монотонно возрастающая функция X, то cov(X, К)>0.) (Бикел A967); Тыоки A958).) 3.2.1. Пусть (л. К) —наб.чюдение из двумерного нормального N (О, О, 1, 1, р) закона. Показать, что математическое ожидание тах(Х, Y) равно [A —p)/я]^/^. 3.2.2. Молено считать, что для одного стада вес ежегодного иачеса шерсти барана и ягненка подчиняется двумерному нормальному закону с коэффициентом корреляции р. В один сезон только 3 наилучших из 10 баранов были использованы для разведения потомства. Если от них родилось соответственно rii, п^, «з овцы, то найти ожидаемое возрастание среднего начеса шерсти овцы. Проверить, что для «1=^2 = Из и p=i0,6 ответ равен 0,64. 3.2.3. Пусть вектор (X, Y) имеет двумерное нормальное N (цд:, \iy, Ох, о\, р) распределение. Предположим, что в двумерной выборке объема п значения х расположены в порядасе возрастания, а именно>
УПРАЖНЕНИЯ 59 обозначим соответствующие значения у, которые не обязаны располагаться в порядке возрастания, через ^[1], ^[2], ■■■> ^[л]- Показать, что для г, s = l, 2, ..., п справедливы равенства где ц^.д, а^^.д вычисляются для стандартного нормального распределения (Уоттерсон A959)). 3.2.4. Пусть независимые нормальные величины X а Y имеют соответственно средние Цд^ и Цу и общую дисперсию а^. Показать, что где D{X/X<Y)^a^(^l+~iA^-~Alj, Ai = тг- /2а ' (Дэйвид A957)). 3.2.5. Пусть из нормального распределения с единичной дисперсией выбирается п наблюдений. Нам указывают наблюдение, ближайшее к математическому ожиданию, остальные наблюдения отбрасываются. Показать, что дисперсия v„ оставшегося наблюдения имеет вид ""=«AГ>"^(|'"'^') -■ Проверить, что , 2 , 2 .- ^г^. , 12 , 16 ''2='1—V. «3=1—-"C —уз), ^4=1 , 20 240 , /5\1/2 пТ (Кендалл A954)).
60 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 8 3.2.6. Показать, что для любого распределения с ф. р. Р (х); обладающего математическим ожиданием, ц^.„ можно выразить в виде. п-1 ^г;п=' S с/Ф/('-:п) {г=1, 2, ..., п), /=о где / 1=0 оо ''-Ji^ Ц^ f ^/ f2^ W- ^] ^ ''^ W. (А) —оо а I.j (г) — полином Лежандра /-й степени. Как следствие этого факта, установить, что ly.. ="у п\{п-1)\ ,2/ + ПЯ г-=1 /=0 где // — интеграл из (А) (Со и Чоу A966); сравните с работой Рубена A956а)). 3.3.1. Показать, что если у дискретной величины существует k-fi момент, то также существует и и'/.'„. 3.3.2. Показать, что размах W^ для выборки объема п из непрерывного распределения с ф. р. Р (х) имеет дисперсию 0(Й7„) = ОО и = 2 j ] {l-P'^(y)-ll-P{x)]'^ + lP{y)-P{x)]'г]dxdy-^EW„)^ — оо — оо И ЧТО соответствующая формула в дискретном случае (х = 0, 1, 2, ... ... , оо) имеет вид оо J, 0(П7„)=2 S S i^-^"(г/)-[l-PW]"+[^'(^/)-PWn- !/ о л: = 0 -ЕЙ7„A+ЕЙ7„) (Типпет A925); Сиотани A957)). 3.3.3. Показать, что для случайной выборки объема п из любого распределения имеет место равенство S S E(x;!^„x',,„)=n(n-1)E(X'')E(X0 л=1 s=I и что, следовательно, S' S E(X^,,„xt,„)=CUE(X'')?. ro.1 s=-r+l
УПРАЖНЕНИЯ 61 3.4.1. с помощью повторного при1менения соотношения 1 пока, зать, что для любого распределения имеет место равенство т где {п — г)т обозначает (л — г)(п — г—1) ... (п—г—т-\-\). Получить соотношение 2 как частный случай этого результата при т=п — г. 3.4.2. Показать, что для произвольного распределения при п'^т справедливо равенство п — т ^'/г Ил-.т^ Zj '-n—r — i'^r + i — lt^r +i\n 1=0 (Силлито A964)). 3.4.3. С помощью прямого использования интегральных представлений для ц^.„ и И^8-п Д-"" непрерывного распределения показать, что для произвольного распределения выполнены равенства 2(f-i)('')(„-0(\,,„ = ftmc^„+'+Vfc+nfc+/+i. 1=1 1 = 1 i<l (Заметим, что первое из этих равенств равносильно результату из упр. 3.4.2.) (Даунтон A966b)). 3.4.4. Пусть Х„,.=Е(Х,+ ,^„-Х^.„), со„ = Ей7„. Показать, что для произвольного распределения справедливо равенство Вывести, что (Силлито A951); Кэдуэлл A953а)). 3.4.5. Доказать, что для произвольного распределения справедливо равенство п%п-1. r-i — (n—r + l)%„,r-i = n(.n,r- С помощью повторного применения этого результата показать, что Для V ^ г— 1 выполнено равенство V _ (n)v VI ,.i^,in-r + i)i *"• ^~ (r)v jL ^ ' " (n-y + i)i ^'^-''^^''-" (Саллнто A9ui)j.
62 МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ И МОМЕНТЫ [ГЛ. 3 3.4.6. Показать, что для произвольного распределения справед. ливо равенство С'п S (- ^t'C\^n-rM = tn, n-r + tn, г. 1=0 Используя это равенство, показать, что при нечетных п математическое ожидание размаха удовлетворяет следующему рекуррентному соотношению: 1 = 1 в частности, 3 Получить также из C.1.11) непосредственно следующие две формулы, равносильные (А): п-2 2ш„= 2 (—l)'"''CJj(o^_j, если п нечетное, ( = 1 и т — \ \т= S (-1Г'"^С'Х+( (т=1, 2, 3,...) ( = 0 где \г = ш,.+х/Bг + 2) (Силлито A951); сравните с работой Романовского A933)).
ГЛАВА 4 ГРАНИЦЫ И ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ ПОРЯДКОВЫХ СТАТИСТИК § 4.1, Введение В этой главе мы рассмотрим несколько общих подходов к нахождению границ и приближений для моментов порядковых статистик; некоторые из этих подходов представляют несомненный математический интерес. В §§ 4.2 и 4.3 используется неравенство Шварца и некоторые его обобщения. При наличии у величины X конечной дисперсии математические ожидания экстремальных значений Х(п) и ХA^ (и тем более других порядковых статистик) не могут быть произвольно большими, даже если величина X не ограничена. В случае экстремальных значений можно найти границы, достижимые для определенных классов ф. р. Несколько лучшие границы можно получить для симметричных ф. р. Для порядковых статистик, отличных от экстремальных, границы, получаемые таким способом, не являются точными, но их можно улучшить, используя обсбщеннсе неравенство Шварца. В случае распределения, для которого известно математическое ожидание наибольшего значения для малых выборок, различные уточнения приводят нас к аппроксимациям с известными границами ошибок математических ожиданий всех порядковых статистик. Хорошо известно, что математическое ожидание порядковой статистики можно приблизить соответствующей квантилью, особенно в случае больших выборок. В § 4.4 мы рассмотрим условия, при которых можно утверждать, является ли такая аппроксимация оценкой сверху или оценкой снизу. Это позволит заменить асимптотические
64 ГРАНИЦЫ И ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 приближения неравенствами, справедливыми для всех объемов выборок. Кроме того, будут получены некоторые другие неравенства, имеющие отношение к этим вопросам. §§ 4.2 — 4.4 представляют в основном теоретический интерес. Однако в § 4.5 мы имеем дело с простым техническим аппаратом, основанным на разложении Тейлора по степеням l//i, который часто приводит к приемлемым приближениям для математических ожиданий, дисперсий п ковариаций порядковых статистик. Первый член таких рядов дает тогда асимптотику соответствующих моментов. В случае ЕХ^;-, он совпадает с упомянутым выше приближением квантилями, последующие члены дают (при соответствующих условиях) последовательные уточнения. С ними обращаться труднее. Поэтому мы рассмотрим для малых выборок также некоторые модификации аппроксимации квантилями. § 4,2. Непараметрические границы для моментов порядковых статистик и размаха Мы начнем с рассмотрения математического ожидания наибольшей порядковой статистики в случайной выборке объема п с непрерывной строго возрастающей ф. р. Р (х). Вместо оо ЕХ(„)= \ пх[Р{х)]''-ЫР(х) — оо удобно использовать другую форму, получаемую с помощью вероятностного интегрального преобразования и = Р (х), а именно, I ЕХ(п)=\пх{и)и''-Ыи, D.2.1) о где X (и) указывает на то, что х теперь рассматривается как функция от и. Предположим, что величина X имеет математическое ожидание, равное нулю, и единичную дисперсию, т. е. 1 1 \x(u)du = 0, \[x(u)Ydu = l, D.2.2)
5 4.21 НЕПАРАМЕТРИЧЕСКИЕ ГРАНИЦЫ ДЛЯ МОМЕНТОВ 65 Это предположение не умаляет общности при условии, что распределение обладает вторым моментом. Тогда оказывается, что ЕХ(„) ограничено, независимо от вида Р {х) (Гумбель A954); Хартли и Дэйвид A954)). Согласно вариационному исчислению экстремальное значение х{и) можно получить, найдя стационарные значения D.2.1) при условии D.2.2). Этого можно достичь, получив сначала безусловный экстремум для I \ (пхи"-^ — ах — -g- bxA du о и затем определяя постоянные а и b так, чтобы они удовлетворяли D.2.2). Стационарное решение получается из уравнения ^ (пхи"-^ -ах-\ bx^j = О, откуда Ьх = пи"-'^ — а, где I I \ {пи"-^^ -a)du = 0, \ (пи"-^ - af du = b^. о о Таким образом, а=1, Ь = {п — 1)/{2п— ly^, .(»)=(^"-')';if"-^ D.2.3) для экстремального значения справедливо равенство ЕХ,„, = "^'izf' 1 ""-Н'г»"-- l)d« = ^^f^. Вариационное исчисление полезно для угадывания вида решения; этого недостаточно, чтобы показать, что D.2.3) приводит к максимуму ЕХ(„), а не просто к стационарному значению, мы используем неравенство Шварца: \fgdu^(jpdu-\g^uy^ ари f = x, g = nu'^~'^ — l. Оно примет вид I -iI/2 ЕХ(„,= г, ДаНВИД 1 ■l{n^U^'^-^-2nU'^ ^ + I) dU О
66 ГРАНИЦЫ И ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ (ГЛ. 4 И, следовательно, Равенство в D.2.4) достигается для х(и), определяемого из D.2.3). После обращения получаем u = P(x)^{-^^j для -^ ^_| ^х^Bп- 1)'/2.; D.2.5) Хотя в этих рассуждениях, начиная с D.2.2), мы не требовали, чтобы Р (х) была ф. р., из D.2.5) видно, что она тем не менее обладает всеми свойствами ф. р. Соот-^ ветствующая п. р. равна ,, 6 /1+Ьх\^:гт~' Bл —1)'/2 ^ ^,„ ,,,_ '^W^Tri^-j А™ - п-1 <У<B/г-l)'/^ и ее график приведен на рис. 4.2.1 для различных п. Пусть математическое ожидание и дисперсия генерального распределения равны ^i и сг^, Тогда D.2.4) примет вид (л—1)а EX(„,^fi + B„_ 1I/2 D.2.6) и аналогично '1' ^ Bл-1)'/2 Для класса симметричных распределений неравенство D.2.4) можно уточнить. Поскольку (после того, как положим |х = 0) Р (х) = 1 — Р {— х), мы имеем оо ЕХ(„, = \ пх {[Р (х)]"-^ - [1 - Р (х)]"-^} dP (X) = о I = \ пх [и"-^ - A - u)"-^^] du. D.2.7) 1/2 Тот же подход, что и выше, примененный к D.2.7), приведет нас к экстремуму сл;(и) = и"-1-A-и)"-!, D.2.8) где ,2]i-vq^]j/^
i4.21 НЕПАРАМЕТРИЧЕСКИЕ ГРАНИЦЫ ДЛЯ МОМЕНТОВ 67 И неравенство примет вид ЕХ,„.^^-угПС. D.2.9) Из D.2.8) непосредственно видно, что значения х содержатся в интервале f —^, у J, т. е. Р (х) опять сосредоточено на конечном интервале. Интересно отметить, что из D.2.5) и D.2.8) следует, что равномерное на интервале ( —]/^3, |/3) распределение является экстремальным для /1 = 2, а в классе симметричных ф. р. также для п = 3. f,0\ р(х) 0,5 - п=5— 1 \ — п=3 — п = 4 — /7=5 i N^ /7=^ 1 1 1 О I Рис. 4.2.1. На рис. 4.2.2 приведены симметричные экстремальные п. р. при различных п. Таблица 4.2 содержит для /г «S, 20 две верхние границы для EX(„j, которые сравниваются с математическим ожиданием этой величины для стандартного нормального распределения. Следует заметить, что для симметричного случая верхняя граница не намного превосходит соответствующую границу для нормального распределения. 3*
68 ГРАНИЦЫ И ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 Поскольку для любого непрерывного распределения I EWn = \nx [«"-1 - A - и)"-!] йи, о из сравнения с D.2.7) следует, что экстремальным распределением, приводящим к максимуму EW„, является D.2.8), независимо от того, является распределение симметричным или нет, и что EW„<:nc. Эта, хронологически первая, граница для описанной выше последовательности получена еще в 1947 г. Плэкеттом. Мы начали с предположения о строгом возрастании и непрерывности ф. р. Однако ясно, что экстремумы и границы сохраняются для всех ф. р., обладающих дисперсией.
4.2] НЕПАРАМЕТРИЧЕСКИЕ ГРАНИЦЫ ДЛЯ МОМЕНТОВ 69 Таблица 4.2 Сравнение двух верхних границ для Е (Х,„, — ц)/а с точными значениями для нормального и равномерного распределений (Из работы Моригути A951); работы Хартли и Дэйвида A964) и работы Типпета A925).) п 2 3 4 5 6 7 8 9 10 12 15 20 50 100 1000 Верхняя граница для произвольного распределения 0,5774 0,8944 1,1339 1,3333 1,5076 1,6641 1,8074 1,9403 2,0647 2,2937 2,5997 3,0424 4,9247 7,0179 22,3439 Верхняя граница для симметричного распределения 0,5774 0,8660 1,0420 1,1701 1,2767 1,3721 1,4604 1,5434 1,6222 1,7693 1,9696 2,2645 3,5533 5,0125 15,8153 Нормальное распределение 0,5642 0,8463 1,0294 1,1630 1,2672 1,3522 1,4236 1,4850 1,5388 1,6292 1,7359 1,8673 2,2491 2,5076 3,2414 Равномерное распределение 0,5774 0,8660 1,0392 1,1547 1,2372 1,2990 1,3472 1,3856 1,4171 1,4656 1,5155 1,5671 1,6641 1,6978 1,7286 даже для дискретных распределений, так как все ф. р. можно аппроксимировать с произвольной точностью строго возрастающими непрерывными ф. р. Перейдем теперь к некоторым обобщениям. Моригути A951, 1954) рассмотрел экстремальное значение и размах для симметричных распределений. В обоих случаях он нашел верхнюю границу для математического ожидания и нижние границы для дисперсии и коэффициентов вариации. Все полученные выше результаты относятся только к экстремальным порядковым статистикам. Мы имеем для общего случая 1 EX^r) = \x{u)iudu, D.2.10) б где ^■^-iiuir, n-r+i)-(,_i;;,_,),»-4i-"r-- D.2.11)
70 ГРАНИЦЫ И ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 Применяя D.2.2), найдем отсюда, как и раньше. |E(X(.Oi с 2п.~'2г ^iT—l /-я— 1 ■A—1 1 1/2 D,2.12) Кроме того, для s>r ^-'f '^ f/^S—1 у-^П — S I /^Т —1 ^П — г О/^'' — ^ Л''^—S 1") ^iT^"- ^^~^ "~^^ "Г^г —2'С>2и—2/- — ^^г-^%—1 • <^2п —г — sj> 1/2 D.2.13) (Людвиг (I960)). Последний результат прямо следует из неравенства Шварца при / = x, g = iuis, n-—s+l) — ia(r, /г —r+1). Численные значения границ в D.2.12) и D.2.13) для rt^lO приведены у Людвига A959). Однако, как это было впервые замечено Моригути A953а), эти границы являются точными (т. е. достижимыми) только для экстремумов (т. е. при r = rt или г = 1 в D.2.12) и г=1, s=rt в D.2.13)). Причина этого очевидна. Например, выражение D.2.10) достигает своей верхней границы, только когда х{и) пропорционально i„—1, но если и = = Р (х) является ф. р., то х{и), а следовательно, и i^ должны быть монотонны по и, что справедливо лишь при г=1 или п. Изучая этот вопрос более детально, Моригути показал, что точные границы для Е-Х^^) можно получить, если перед применением неравенства Шварца заменить i„—1 на «ближайшую» неубывающую функцию. Точнее, запишем D.2.10) в виде 1 EXir) = \x{u)d/uir, n-r+l). о Заменим теперь /„ на /„ его «наибольшую выпуклую миноранту» в интервале (О, 1); это означает, что /'„ является супремумом всех выпуклых функций, мажорируемых функцией /„ на интервале 0<и^1. (Выпуклая функция характеризуется тем, что любая хорда ее графика лежит на графике или выше него.) Можно показать, что /« непрерывна и имеет правостороннюю производную la, которая к тому же в силу выпуклости /„ не убывает и
§4 2] НЕПАРЛМЕТРИЧЕСКИЕ ГРАНИЦЫ ДЛЯ МОМЕНТОВ 71 непрерывна, исключая, возможно, счетное множество значений и. Так как /„ не убывает и /о = 0, /i = l, то /„ является функцией распределения, именно, функцией распределения величины, которая стохастически больше, чем Х^г)- Отсюда следует, что 1 1 о о EX^r)^\x(u)dIu ^\x{u)ladu. D.2.14) Интегрируя по частям, получим ЕХ(^, -^x{u)dla = ^x(и) d (/„-/„) = — 5 (/„- /„) dx (и). 0 0 о Отсюда вытекает, что равенство в D.2.14) имеет место только тогда, когда х{и) постоянна для всех и, для которых 1и>К, И ЧТО Е(Х(,1-иХ ^\x{u){la—\)du — '^[x (и) — \i\(la—\)du^ о о <\\[x{u)-^fdu\{l^-\fdu\ . D.2.15) Таким образом, ^^^'^'~^^n{lu-l)'du\ . D.2.16) Для определения /„ (а следовательно, и /■„) рассмотрим рис. 4.2.3, на котором сплошной линией изображена /„ как функция и. Наибольшая выпуклая миноранта /„ вначале совпадает с /„ и затем продолжается как пунктирная линия XZ, которая является касательной к /„, проведенной из точки Z. Значение «j абсциссы и в точке касания х, очевидно, удовлетворяет уравнению 1 —/и. = 1иЛ1 — «i)
72 ГРАНИЦЫ И ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 ИЛИ !-/„,=- п\ Щ A -«,) которое можно решить численно. Таким образом, ^„ задается равенством Ia = iu, если 0^«<:wi, ia = iut, если «i^u^l. D.2.18) Отсюда можно вычислить верхнюю границу в D.2.14). На этот раз равенство в D.2.15) имеет место, если разности x{u) — \i и г„—1 пропорциональны, так что х{и) в этом случае —постоянная для Ui^u^l. Из этого, в свою очередь, следует равенство в D.2.14). Таким образом, граница D.2.16) достигается при х (и) — и= = с (г„ — 1), где с — постоянная и, следовательно, максимизирующей ф. р. является ф. р. случайной величины, непрерывной в интервале (fx —с, fx —с + + a„,), причем остаточная вероятность концентрируется в точке x = fx —с + Пример 4.2. Рассмотрим простой случай медианы в выборке объема 3. В этом случае «i удовлетворяет уравнению 1-/„.B. 2) = 6«l(l-«l)^ которое приводится к виду 4«f-9«f + 6«i-l=0, 1 так что «1 = -^. Таким образом, г„ = 6иA—и), если 0^и<: если
§ 4.2] НЕПАРАМЕТРИЧЕСКИЕ ГРАНИЦЫ ДЛЯ МОМЕНТОВ 73 И ИЗ D.2.14) мы получаем а ;0,271. Эта верхняя граница значительно ниже верхней границы 0,447, получаемой из D.2.12). Моригути A953а) сравнивает эти две границы для математических ожиданий выборочной медианы для нечетных п до /г =19 и находит, что расхождение возрастает с ростом п, при этом соответствующими значениями для д=19 являются 0,598 и 1,242. Можно предположить, что простое неравенство Шварца становится все более грубым по мере удаления статистики Х^^) от экстремальных значений. Для нижних границ величин Е (Xj^.) — fx)/0 (г>[/г/2]) или Е (Х(^) —Х(;.))/а {s> г) такие общие результаты невозможны. Действительно, для существования числителя достаточно существования fx, и очевидно, что нижняя граница может быть сколь угодно приближена к нулю за счет выбора ф. р. Р (х) с достаточно большой дисперсией. Более содержательные нижние границы можно получить, только налагая определенные условия на Р (х). Одно из возможных условий, которое отражает часто встречающуюся практическую ситуацию, состоит в ограниченности величины X, так что а^х^Ь, где а и b конечны. При этом ограничении Хартли и Дэйвид A954) детально исследовали размах. Они обнаружили, что минимизирующим распределением является двухточечное распределение. При а — — с, Ь = с они получают и приводят небольшую таблицу для значений нижней границы, а именно, О 1 I /1 _„ ^„^,, A-р"-<?")/(р<?)'^^, Где p = cV(l+c^). ?=1—Р- Можно заметить, что при C-VOO распределение становится все более асимметричным и нижняя граница стремится к 0. Более подробное обсуждение границ (нижних и верхних) для случая —с^Х^с приведено у Рустаги A957). По этому поводу см. также книгу Карлина и Стаддена A976), гл. 14.
74 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 § 4.3. Границы и приближения, задаваемые обратным ортогональным разложением Интересный подход, дающий как границы, так и приближения для математических ожиданий, дисперсий и ковариаций порядковых статистик, был развит Сугиюрой A962, 1964). Пусть {%(«)} {k = 0, 1, ...) —ортонормиро- ванная система на интервале (О, 1), т. е. iMo(w) = l и для всех натуральных k, k' (k'фк) 1 1 1 ^'ф^(и)^и = 0, 51))! (и) d« = 1, ^ % (и) %'(и) d« = 0. 0 0 0 Обозначим а* = 5f (")^*(«)du, bk = \g(и)^k(«) du, о о где f, g —интегрируемые с квадратом функции на (О, 1). Тогда в немного упрощенных обозначениях получим из неравенства Шварца 5 ff - Е Pk^k]lg - 2 gk^k] du ^ т \2 / т ч2 il/2 С / \ / \ V откуда непосредственно следует основное неравенство т \fgdu- 2 «А * = о m X 1/2 , "> \ 1/2 If^u- 2«1 {\g'du- 2 Ь|) . D.3.1) т Равенство имеет место, если разности f— 2 ^*^* и g — * = о т т — 2 ^k^k пропорциональны. Таким образом, 2 ^А ft = о ft = о дает приближение к \^fgdu, причем максимальная погреш' ность является функцией только тех коэффициентов а^, bj,
§ 4.3] ОБРАТНОЕ ОРТОГОНАЛЬНОЕ РАЗЛОЖЕНИЕ 75 (й = 0, 1, 2, ..., т), которые используются в приближении. Если, кроме того, {%} —полная ортонормированная со со система, то '^ ak^^f^ du и 2 bk = \g^du. Поэтому пра- ft=0 . ft=0 вая часть D.3.1) стремится к О при т->оо и приближение можно сделать сколь угодно точным. Теорема 4.3.1. Пусть и = Р (х) — {строго возрастающая) непрерывная ф. р. нормализованной случайной величины, и пусть %=1, ^\, ..., ^т —ортонормированная система на интервале (О, 1). Положим 1 ak = '\x{u) ^k {u)du, о 1 о Тогда т ЕХг:п— 2 ^kbk ft= 1 / m ,1/2/- т '.r/2 *('-2«-) |°'|в;^';1Г4.у-'-2/') • <^-^-2) Доказательство. Положим в D.3.1) / = ^("). g=B(r, Лг+1) "^-М1-^^)"-^ D.3.3) Тогда теорема является непосредственным следствием соотношений ао = 0, Ьо=1 и Примером полной ортонормированной системы на (О, 1) является последовательность полиномов Лежандра [на интервале (О, 1)] ift(«)=-^^^±j^^«M"-l)* (fe = 0, 1,2,...).
76 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 Если ортонормированная система состоит только из \рд, то это приближение, очевидно, сводится просто к применению неравенства Шварца, и D.3.2) превращается в D.2.12). С помощью выбора дополнительных членов ортонормированной системы можно уточнять границы, т причем член 2 ^kt>k будет давать нам желаемое прибли- жение к ЕХг:п. Подробнее этот процесс будет проиллюстрирован для случая, когда Р (х) является ф. р. симметричной нормализованной случайной величины. Нам потребуется известный результат о том, что в классе (а) четных и (б) нечетных функций, интегрируемых с квадратом на интервале (О, 1), полные ортонормированные системы задаются соответственно функциями Лежандра Теперь мы получим соотношение, соответствующее D.3.2): т / m \1/2 ЕХг : п — 2 «2ft+1^2ft+l *S 1 — 2 ^2ft + I ] X i=0 \ ft=0 X |l/2 В Br —1, 2n — 2r + l)~B {n, n) VI ,2 2[B(r, « —r+l)p - 2 b\u + A . D.3.6) Доказательство. В силу наших предположений относительно и = Р{х) обратная функция х{и) является нечетной и интегрируемой с квадратом на интервале (О, 1). Тогда, поскольку Lj,(l—ы) = (—l)*Lfe(«), то 1 1 «aft =^\х(и) La* (и) du = '^ — х{1 —и) Ljft A — «) du = о о 1 ^ — \ X (v) Lik (v) dv =: — a^k, 0=1—и. Таким образом, а2» = 0. Взяв f я g в соответствии с D.3.3) и применяя D.8.1) при fe = 1, 3, ..., 2m + 1, О, 2, 4, 6, ...,
§4 31 ОБРАТНОЕ ОРТОГОНАЛЬНОЕ РАЗЛОЖЕНИЕ 71 получим т fgdu- 2 aafc+ib k=0 I m \ '^2 / "" oo \ 1/2 \ ft = 0 / \ fc = 0 ft = 0 / D.3.7) Для того чтобы вычислить член 2^2ь, дающий понижение верхней границы, вызванное симметрией, положим g* («) = -о1 ^—гп """^ A - ")''"^- & ^ ' в (г, «—г+1) ^ ' Тогда b2ft= j gUkdU=^ j (g'+g'*)i2ft d«. Так как §■(")+§■*(") является четной, интегрируемой с квадратом на интервале (О, 1) функцией, то из D.3.5) (а) следует, что со 2 bl=~^[g{u)+g*{u)Ydu=^ ft=vO =^2[B(r,»-r + l)F^^^^^~^' 2n-2r + l) + B(rt, «)]. Подставляя это выражение и D,3.4) в D.3.7), придем к D.3.6). И >. т Для облегчения вычисления приближения ^ ^2*+i • ^2*+i и соответствующей ошибки заметим, что функции Лежандра равны Lo(«) = l, Li(«)=l/3 Bи-1), L2(«) = l/5 Fи2-6ы+1). 1з(и) = 1/7B0и''-30и2 + 12и-1) и т. д. В общем случае положим k и («) = 2 "*. '"*• 4 =0
78 ГРАНИЦЫ И ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 Тогда коэффициенты а^ и bk равны «*=2i "*-' J "'^ (") '^w = 21 "*• i = 0 0 k i = 0 ' ( + 1 b^-l Clki (■= 0 r(r + l)...(r + i-l) (n + l)(« + 2)...(« + (•) Поэтому для вычисления приближения требуется определить математические ожидания значений максимального члена в малых выборках. Как видно из столбца, озаглавленного «3-я граница» таблицы 4.3, в нормальном случае Таблица 4.3 Верхние и нижние границы для ЕХ^. „ (стандартное нормальное распределение) (результаты для «=10 взяты из работы Сугиюры A962)) 1-я граница 2-я граница 3-я граница Точное значение «=10 6 7 8 9 10 0,15 + 0,06 0,46 + 0,13 0,77 + 0,14 1,08 ± 0,09 1,38 + 0,17 0,113+0,016 0,357 + 0,028 0,651 + 0,008 1,030 + 0,035 1,527 + 0,015 0,1246 + 0,0032 0,3775 + 0,0024 0,6527 i- 0,0048 1,0032 + 0,0026 1,5384 + 0,0005 0,12267 0,37576 0,65606 1,00136 1,53875 «=50 26 30 35 40 45 50 0,03 + 0,04 0,30 + 0,27 0,63 + 0,28 0,96 + 0,26 1,29 + 0,26 1,63 + 0,67 0,020 + 0,020 0,189+ 0,118 0,444 + 0,092 0,798 .t 0,091 1,302 + 0,133 2,007 + 0,253 0,0278 + 0,0112 0,2468 + 0,0586 0,5036 + 0,0321 0,7770 i- 0,0564 1,2180 + 0,0479 2,1556 + 0,1044 0,02496 0,22653 0,49354 0,80225 1,21846 2,24907 при n = lO и rt = 50 приближение aibi + аф^ + аф^ дает приемлемые результаты. Как и следовало ожидать, границы одной и той же степени более точны для меньших п.
^ 4.4] ГРАНИЦЫ для МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 79 Поведение соответствующих ошибок при данном п и различных г описывается довольно сложно. По этому поводу см. работу Джоши A969). § 4.4. Границы для математического ожидания порядковых статистик, выраженные через квантили распределения Хорошо известно и интуитивно ясно, что при достаточно большом п приближением к ЕХг-.,, является значение X, удовлетворяюп1ее уравнению ^(^^ = ^- Если для большей ясности теперь обозначить обратную функцию х{Р) через Q(P), т. е. Q[P {х)] = х, то получим асимптотическую формулу EiXr:n)^Q(-^). D.4.1) Этот вид приближения с помощью квантили мы обсудим в следующем параграфе. Здесь мы, следуя ван Цвету A964), установим несколько неравенств, близко примыкающих к D.4.1), но применимых даже для малых выборок. Нам будут нужны следующие определения. Развивая определение из § 4.2, мы назовем действительную функцию g (х), определенную на некотором 11евырожденном интервале /, выпуклой на /, если для любых Xi, Х2 из / и O^X^l g[Kx, + il-'k)x,]^'kgix,) + {l-'k)g{x,). D.4.2) Ясно, что если g (х) — выпукла, то g'(х) не убывает и g"(x)>0 при условии, конечно, что эти производные существуют. Далее, для каждой внутренней точки Xq интервала / существует прямая L, лежащая целиком под графиком или на графике функции g и удовлетворяющая условию L{Xo)=g{Xg). Мы говорим, что L является опорной линией для g в точке х^. Если D.4.2) имеет место с противоположным знаком неравенства, то g называется вогнутой на /. Заметим, что линейная функция является как выпуклой, так и вогнутой. Функция g называется
80 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. А антисимметрической на / относительно х,„ если g{Xo + x)+giXo-x)=-2g{Xo) для некоторого Xq из /, и для всех х, для которых как Хд — х, так и Хо+х принадлежат /; в этом случае х^ называется центральной точкой для g. Антисимметрическая функция g, заданная на /, называется вогнуто-выпуклой, если она вогнута для х^х^, и выпукла для х^х^ при условии, что X принадлежит /. Из этих определений следует, что g является непрерывной функцией, исключая, возможно, концы интервала /, а в случае вогнуто-выпуклой функции — точку х^. Если предположить, что g не убывает, то g будет непрерывной в Xq. Теперь возьмем в качестве / наибольший интервал, для которого О < Р (л;) < 1. (Случай X, равной постоянной, исключается в силу невырожденности /.) Теперь мы докажем важное Неравенство Йенсена. Если функция g выпукла на I, то giEX)^E{giX)) при условии, что оба эти математических ожидания существуют. Равенство имеет место тогда и только тогда, когда g линейна на I. Доказательство. Пусть L — опорная линия для g в точке х = ЕХ. В силу того, что L{x)^g{x) на / и L линейна, имеем Е [g (X)] ^ Е [L (X)] = L (ЕХ) = g (EX). Если g линейна на /, то, очевидно, имеет место равенство. Обратно, для равенства необходимо, чтобы g{x)=L (х) почти всюду. В силу выпуклости g непрерывна на / и поэтому должна быть линейной на всем /. Теперь рассмотрим класс аР ф. р. Р (х), которые обладают положительной непрерывной производной р (х) на некотором интервале J ^). Теперь Q{P) однозначно определена для О < Р <: 1 и имеет положительную непрерывную производную в этом интервале. 1) Ван Цвет приводит и другие ограничения, которые излишни для наших целей.
§ 4.41 ГРАНИЦЫ ДЛЯ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 81 Лемма А. Для любой пары ф. р. Р, Р* из 3" существует строго возрастающая функция g на I такая, что если X имеет ф. р. Р, то g{X) имеет ф. р. Р*. Функция g однозначно определена на I равенством g(x) = Q* [Р (л;)] и имеет на I непрерывную производную. Доказательство. Для справедливости утверждения леммы необходимо и достаточно, чтобы для всех X из I и чтобы эта функция строго возрастала на /. Очевидно, что g (х) = Q* [Р (х)] является единственной функцией, удовлетворяющей первому требованию. Так как Q* строго возрастает в области изменения своего аргумента Р{х), то она возрастает и как функция от х и, следовательно, g(x) строго возрастает на /. В силу замечания, предшествующего лемме А, g(x) также имеет непрерывную производную на /. ► Теперь мы определим отношение упорядоченности для ф. р. из аР. Если Р, Р*^аР, ТО Р <с Р* тогда и только с тогда, когда Q* (Р) выпукла на /. Буква с стоит здесь для обозначения выпуклости, и мы говорим, что Р с-пред- шествует Р*. Из леммы, очевидно, следует, что Р <iP* с тогда и только тогда, когда случайную величину с ф. р. Р {х) можно получить из случайной величины с ф. р. Р* {х) с помощью возрастающего выпуклого преобразования. Очевидно, что Р<сР. Поскольку возрастающая с выпуклая функция от выпуклой функции снова является выпуклой, то из р <:^р* <;^р** следует Р<сР**. Таким ее е образом, отношение <; является отношением слабой упо- с рядоченности на а^, и мы говорим в этом случае о с-упо- рядоченности или о с-сравнении. Теперь можно определить отношение эквивалентности ^~': если Р, Р* принадлежат ^, то Р^^ Р* тогда и только тогда, когда Р <.Р* и Р* <СР. Лемма В. Если Р ^SP- и Р* е S^, то Р ^ Р* тогда и только тогда, когда Р {х) = Р* {ах-\-Ь) для некоторых постоянных а > О и Ь. Доказательство. Р ^^ Р* тогда и только тогда, когда как Q* (Р), так и Q(P*) выпуклы на /. Но выпук-
82 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 лость Q{P*) эквивалентна вогнутости Q* (Р), следовательно, Q* (Р), будучи одновременно выпуклой и вогнутой, должна быть линейной. Таким образом, Q* [Р (х)] = ах-\-b или Р {х) = Р* {ах-\-Ь), причем а>-0, так как Р* возрастает по X. ► Эта лемма утверждает, что с-упорядоченность не зависит от параметров сдвига и масштаба. Поэтому можно сосредоточить внимание на ф. р. нормализованных величин. Чтобы проверять соотношение Р <.Р*, полезно иметь с удобный критерий выпуклости Q* (Р). Лемма С. Если Р^З" и Р* ^3", то Р<:Р* тогда с и только тогда, когда Q* iy)/Q' (у) не убывает в области 0<1/<1. Доказательство. Из равенства g (х) = Q* [Р (х)], положив x = Q{y), получим, что Q* (t/)=g-[Q(t/)] для 0< <.у-<.\- Следовательно, P<iP* тогда и только тогда, с когда Q* {у) является выпуклой функцией от Q (у). Дифференцируя Q* (у) по отношению к Q{y), получим утверждение леммы. ► Теперь мы в состоянии использовать эти результаты для получения неравенств для математических ожиданий порядковых статистик. Теорема 4.4.1. Если Р е а^ и Р* ^аР, то из соотношения P<zP* следует, что Р{ЕХг:п)^Р*{'ЕХ*:„) D.4.3) для всех г (г = 1, 2, ..., п) и всех п, для которых ЕХ^:« и ЕХ*:„ существуют. Доказательство. Выпуклое преобразованиеg(х) = = Q*[P(x)] переводит X с ф. р. Р в X*=g(X) с ф. р. Р*. Так как g строго возрастает, то это преобразование переводит также Хг-.п с ф. р. F^ в Х?:л с ф. р. F^, Теперь получим из неравенства Йенсена неравенство giEXr:nXEgiXr:n) = EXf,n. Таким образом, 0*{Р{ЕХ.:п)]^ЕХ^..„ или Р(ЕХ,;„)^Р*(ЕХ;;„). ►
§ 4.4] ГРАНИЦЫ ДЛЯ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 83 с-сравненне с равномерным распределением. Пусть Р*{х) = х @<л;<1). ToгдaQ*(l/) = // @<i/<l). В силу того, что Q*{P) = P, любая выпуклая функция Р с-пред- шествует Р*. Далее, Р*(ЕХ*:„) = ^, D.4.4) так что для любой выпуклой функции Р Р(ЕХ.:„)^^. D.4.5) Для любой вогнутой Р это неравенство справедливо с противоположным знаком. с-сравнение с P*(jc) = — -^ и Р* (jc) = ^ ~ V Для Р*{х) = —1/х (—c>3<;x<; — 1) или Q* (t/) = — 1/t/находим ЕХ?;„ = — у—у для г>1. Таким образом, в случае, когда 1/Р{х) вогнута на / и, следовательно, Q* (Р) = = —\/Р(х) выпукла, мы имеем Р(ЕХ.:„)<^ (г>1). D.4.6) В том случае, когда 1/Р{х) выпукла, неравенство меняет знак на противоположный. Таким же образом, с-сравнение с Р* (х) = {х—1)/х даэт нам неравенство Р(ЕХ.:„)^^ (г<п), D.4.7) если ._р .^.. выпукла. Если и — р rx^i вогнута, то знак s^ следует заменить знаком ^. Легко показать, что для нормального распределения с п. р. p(x) = Bn)-'/2g-xV2 (_oo<x<oo) как 1/Р{х), так и 1/[1 — Р{х)] выпуклы. Например, используя обозначения Р вместо Р (х) и т. д., получим i^ ^ ^=й (- рР^'^ = Р'' ^'^р'+Р^р^ = рР'' ^'^р+^^) > 0. так как 2р + Рх возрастает в области л; < О от О в точке х = — со и имеет, очевидно, положительные значения при х>0.
84 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 Поэтому ^<Р(ЕХ.:„)<-^. D.4.8) с-сравнение с экспоненциальным распределением. Теперь Р* (х) = 1 —е~^ (О <; х < оо) и, следовательно, gix) = Q*[Pix)] = -\og[l-Pix)]. Таким образом, для выпуклости g{x) достаточно, чтобы функция была неубывающей. Интересно отметить, что g' (х) является функцией интенсивности отказов (hazard rate) h{x), часто встречающейся в задачах испытания на продолжительность жизни, или, другими словами, условной п. р. продолжительности жизни X объекта с ф. р. Р (х) при условии, что объект еще функционирует к моменту времени х. Поскольку h (х) dx является соответствующей условной вероятностью гибели в промежутке (х, x-\-dx), то часто разумно предполагать, что интенсивность отказов монотонно возрастает (см. также работу Барлоу н др. A963)) или, что равносильно, что Р<сР*- Далее, с Е^*-=27?^< $ i^^ = l°g — - . ^ •• , I ' 1=0 n — r+U2 '» —'■+Y так что если Р{х)—ф. р. с возрастающей интенсивностью отказов, то Р (EX., „X 1 - ехр - У 7^) < -Ь". D.4.9) \ i = o J «+2" (См. также работу Барлоу A965).) Если ограничиться подклассом <^ симметричных распределений из SP, то можно получить более сильные неравенства. Это требование, которое мы будем предполагать во всей оставшейся части главы, состоит в том, что Р {Xf^ — x)-\-Р (х^-\-х) = 1 для некоторого Xq и всех х или, что равносильно, Q(t/) + Q(l-t/)=2xo D.4.10)
§ 4.4] ГРАНИЦЫ ДЛЯ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 85 ДЛЯ всех у из интервала (О, 1). Применяя D.4.10) к ф. р. Р* из S^ с y = P{Xf, — x), получим Q*[Pix,-x)]+Q*[Pix, + x)] = 2xt, где Хо —точка симметрии Р*. Это означает, что Q* (Р) антисимметрична на / относительно Xq. Следовательно, из выпуклости (вогнутости) Q* (Р) для .v>Xo следует вогнутость (выпуклость) Q* (Р) для x<.Vq. Из этого следует, что если Р, Р* принадлежат в?', то из Р<.Р* следует, с что Р ^^ Р*, так что симметричные распределения не являются с-сравнимыми, если только опи не эквивалентны. Теперь мы определим s-упорядоченность или s-сравнение: если Р, Р* е <^, то Р <.Р* тогда и только тогда, когда S Q* (Р) выпукла для х>х,,. Буква s ставится для обозначения симметрии и говорят, что Р s-предшествует Р*. Теперь легко провести для s-упорядоченности рассуждения, проведенные ранее для с-упорядоченности, и, в частности, показать, что отношение < является слабой S упорядоченностью на S^. Если в лемме А &^ заменить на S^, то она останется справедливой; преобразование g{x) — Q*[P(x)] теперь, кроме того, является антисимметрическим вогнуто-выпуклым на /. В лемме В следует просто подставить S^ вместо а^. Вместо леммы С будем пользоваться следующей леммой: Лемма С. Если Р, Р* ^S^, то Р <: Р* тогда и S только тогда, когда Q* {y)/Q' (у) не убывает в области 1/2<1/<1. Наконец, теореме 4.4.1 соответствует Теорема 4.4.2. Для Р, P*^.S^ из соотношения Р<СР* следует, что Р(ЕХ.:„)<Р*(ЕХ?:„) D.4.11) S для всех г из -^ {п-^\)<г^п и всех п, для которых ЕХ?;„ существует. Мы отсылаем читателя к доказательству ван Цвета (A964), стр. 67). s-сравнение с равномерным распределением. Пусть Р* — равномерная ф. р. Тогда Q*(P) = P и любая вогнуто-вы-
D.4.12) 86 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 пуклая Р из S^ s-предшествует Р*. Рассмотрим распределения из ^, либо имеющие С/-образную форму, либо являющиеся унимодальными (п. р. имеет единственный максимум). Тогда Р является соответственно вогнуто-выпуклой и выпукло-вогнутой. Отсюда вытекает, что при Р, принадлежащем ^, и г^у(п + 1) справедливы следующие утверждения: Для симметричного {/-образного распределения Р(ЕХ,.„)<^. для симметричного унимодального распределения Р(ЕХ...„)^^. Эти результаты можно сравнить с D.4.5). Прямое доказательство D.4.12) приведено у Али и Чена A965). (См. также упр. 4.4.3.) s-сравнения нормального и логистического распределений. Пусть Р(х) — ф. р. стандартного нормального распределения, и пусть Р* (х) = ^ _^ (—oo<;x<;oo). Очевидно, Р, Р* принадлежат <^. Также легко показать, что функция Q*[Pix)] = \ogP{x)-\og[l-P{x)] выпукла при х^О, так что Р<сР*. Далее, для г^~- S ' Е(Х*:„)= 2 T<log V' l = n + l~r n — r + Y И В силу теоремы 4.4.2 получим 1 Р{ЕХг..п)< , ' ._, ^•<^^• D.4.13) 1 \ 1+ехр( Для нормального случая эти два неравенства сильнее соответствующих неравенств из D.4.9).
§4.41 ГРАНИЦЫ ДЛЯ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 87 В таблице 4.4 проводится численное сравнение для п = 10 и г = 6AI0 четырех верхних границ: A) B) C) D) ф ф-1 ф-1 1_ехр - 2 Т i=rt+l —г «+- ф- 1 +ехр 1 I 4 i —rt-f 1 —г а также нижней границы, полученной из формулы D.4.8), E) Ф- г-1 приближения, предложенного Бломом A958), которое мы обсудим в § 4.5, F) ф —" \п + - !1 точного значения G) ЕХг:п. Из этих верхних границ граница C) лучше, чем D), и является довольно точной. Нижняя граница E) довольно Таблица 4.4 Границы и приближения для ЕЛ^.„ при л =10 г 6 7 8 9 10 A) 0,178 0,428 0,708 1,057 1,612 B) 0,180 0,431 0,712 1,067 1,669 C) 0,125 0,384 0,671 1,027 1,591 D) 0,126 0,385 0,674 1,036 1,645 E) 0 0,253 0,524 0,842 1,282 F) 0,123 0,375 0,655 1,000 1,547 G) 0,123 0,376 0,656 1,001 1,539
88 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ для МОМЕНТОВ [ГЛ. 4 грубая. Эти результаты, особенно нижние границы, вообще говоря, не выдерживают сравнения с более сложными границами 3-го столбца таблицы 4.3. (См. также работу ван Цвета A967).) § 4.5. Приближения моментов с помощью функций, обратных к ф. р., и их производных Как мы уже видели, для непрерывного распределения вероятностное интегральное преобразование и = Р (х) переводит порядковую статистику Х^^) в г-ю порядковую статистику U^^) выборки объема п из равномерного R{0, 1) распределения. Теперь мы обратим соотношение 1/^^) = = Р {X^r)), записав Х(^) = Q(t/(r)), и разложим Q{Ui^r)) в ряд Тейлора в точке Это приведет нас к равенству + ^{U(n-PrrQ"iPr) + ^iU^r)-PrrQ"'{Pr)+..- D.5.2) Заменяя Q{pr) на Qr и т. д. и полагая qr = i —Рг> получим с помощью C.1.7) с точностью до (п-1-2)"^ + -(ЙЙр [_¥ ('^^ - Рг) Qr" +Т PrlrQT], D.5.3) DX,, = i^QU + -(i0^[^Dr-pr)QrQ'r+Prqr (q;Q;" + |q;')], D.5.4) cov(X(„, X,„)=^Q;Qs + + (£0f [Dr-Pr)^rQ's + (qs-Ps)QrQl+\ PrgfiTQl + + I PsqsQ'rQs + 4 PrqsQ'rQ's ]. D.5.5)
§ 4.5] ПРИБЛИЖЕНИЯ МОМЕНТОВ 89 Заметим, что так как Pr = P(Qr), то 1 1 Q'r- dprldQ, р (Qr) ' где р (Q;.) — значение п. р. величины X в точке Q,. Этот подход, по существу принадлежащий Пирсонам A931), был систематически продолжен Дэйвидом и Джонсоном A954), которые получили результаты с точностью до (п + 2)~^ для любых первых четырех кумулянтов, а также для совместных кумулянтов. Обратную функцию не обязательно разлагать по степеням (п + 2). (См. работу Кларка и Уильямса A958)), хотя Дэйвид и Джонсон находят это выгодным. Условия, при которых оправдан этот подход, получены Бломом A958, гл. 5) и ван Цветом A964, гл. 3.) Со A960) получил границы для остаточного члена в том случае, когда разложение ЕХ(;.) содержит четное число членов. С практической точки зрения наиболее важная особенность этого разложения состоит в том, что сходимость может быть медленной или вообще отсутствовать, если г/п слишком близки к О или 1. Пример 4.5. Для стандартного нормального распределения с ф. р. Ф{х) и п. р. ц>{х) имеем Q (р^.) = Ф"^ (р^.) и Q'{pr)=lm>{Q). Тогда Q"(p,)=- d ( i \_ d f i \ dQ _ Q йФ(С)\ф(С); dQ\:p{Q)j d©(Q) ф^ (Q) ' так как d^)(Q)/dQ = — ^ф (Q). Далее мы также найдем 1+20^ QG + 6Q2) ^ ^Р'' фЗ(С) ' '^ ^P'-l ф4(С) • Другой подход, основанный на логистическом, а не на равномерном распределении, был развит Плэкеттом A958) (кроме того, см. работу Чена A967b)). Хотя он и менее удобен, но имеются указания на то, что в нормальном случае при том же числе членов ряды Плэкетта для ЕХ(;.) немного более точны, чем ряды Дэйвида и Джонсона (Со (I960)). Применять формулы D.5.3) — D.5.5) довольно утомительно, особенно для распределений, которые не похожи на нормальное и для которых dp {Q)/dQ не выражаются просто. Рассуждая, как в теореме о среднем, Блом A958, гл. 6) предложил использовать полуэмпирические
90 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 «а, Р-поправки» и писать EX(„ = Q(n,) + ;?, где Пг = (г — аг)/(п-\-1 —a^ — ft^), а R имеет порядок 1/п. При подходящем выборе а^ и fir (которые, вообщ,е говоря, также зависят от п) остаток R можно сделать достаточно малым, так что Q (Пг) можно использовать в качестве приближения к ЕХ;.. Этот подход упрощается в случае симметричного распределения, так как, если положить математическое ожидание равным нулю, то разумно потребовать, чтобы Q(n^) = —Q(n„..^+i) или я^ + я„„;.+1 = 1. В свою очередь, это наводит на мысль положить а^ = р^. и, следовательно, _ т—а-г Решая относительно а^. уравнение ЕХ(;., = Q (я^), получим _ г-(/г+1)Р(ЕХ,„) (X, 1-2Р(ЕХ„,) Блом обнаружил, что в нормальном случае для п ^ 20 поправка а^. проявляет удивительную устойчивость при всех г, ее наименьшее и наибольшее значения равны, соответственно, 0,33 и 0,39. Поэтому он предложил взять а =3/8 в качестве удобного общего значения. Это приближение приведено в столбце F) таблицы 4.4. Приближение довольно хорошее. Однако вычисления для больших п (гё400), проведенные Хартером A961а), указывают на то, что а = 0,4 лучше для 50^пгё400. За более детальными рекомендациями следует обращаться к статье Хартера. Упражнения 4.2.1. Показать, что для любого распределения с ф. р. и = Р{х), симметричного относительно нуля, справедливо неравенство и что эта нижняя граница достигается, если х пропорционален выражению fi[»"-i—A —ц)"-1] «[а"-1 + A-а)« 1]-2Х„ •
УПРАЖНЕНИЯ 9! где }^п — единственный корень следующего уравнения (относительно X): J «[«n-i + d—а)п-1] —2Л ' 1/2 расположенный в интервале 0t^Xt^«/2n-i (Моригути A951)). 4.2.2. Положив в неравенстве Шварца _ га'^^[ц"-1 —A —ц)""!] показать, что для любого, симметричного относительно нуля распределения, имеющего дисперсию, имеет место неравенство (ЕХ,„,)^^ЖГ"^' ^^ где 1 1/2 И что равенство в (А) достигается тогда и только тогда, когда х пропорционален выражению цП-1_A_ц)Я-1 Urt"l-|_(l_U)rt-l (Моригути A951)). 4.2.3. Показать, что для любого распределения с конечной дисперсией имеет место неравенство л _ 11/2 Е (Л„, - X,„„,+i) ^ а mv («)]2 du\ (г > [«/2]), где _ [—4'(ai), если 0^а<1—«i, V (и)=} Ч'(а), если 1—Ui ==£«==£ «i, I Ч'(ui), если «1 ss < 1, ^ (")-(,-l)"(L-,)! l"'~- (I -«)''^^-«"- A-«ГЧ. a «i определяется из уравнения 1 (l-«iL'(«i)=j4'(«)d« fy<«i<lj (Моригути A953a)).
92 ГРАНИЦЫ и ПРИБЛИЖЕНИЯ ДЛЯ МОМЕНТОВ [ГЛ. 4 4.3.1. Показать, что для любой нормированной симметричной случайной величины X с ф. р. и — Р{х) справедливо неравенство у 2 в (г, « —г + 1) причем равенство имеет место тогда и только тогда, когда х(а) = ±-^[ВBг—1, 2« —2г-Ь1) —В(«, п)]~ "^ X У ^ X [«'• A —«)«-'• —«"-'• A —иу-Ц (Сугиюра A962)). 4.4.1. С помощью D.4.4) — D.4.7) показать, что для гамма-распределения с п. р. Р' (X) = -^ггт e-^x^-i (а > О, О < х < оо) I (а) справедливы неравенства P{EX^.^)^L~, если а>1, ^^Р{^^г.п), если а<1 (Ван Цвет A964), стр. 56). 4.4.2. Показать, что для бета-распределения с п. р. ^'^^^"'В(а, р)^°"М1-^)^-^ (а, Р>0, 0<х<1) справедливы неравенства '-^^Pi^^r.n)^-, если а>1, р>1, -L-^PiEX,.^)^L, если а = 1, р>1, Р{^^г:п)^-;^у если а^\, р<1, ;^=^^(Е^.:.), если а<1, ^3=1. (ван Цвет A964), стр. 57). 4.4.3. Пусть Р (х) —непрерывная строго возрастающая ф. р. симметричной относительно нуля случайной величины X. Определив (д
УПРАЖНЕНИЯ 93 как в D,2,11), положим 1 С= К {iu — h-u)du. Г/г Показать, что для г>(«-|-1)/2 и Q = P~'- а) 0<С<1, 1 ; ~ h-ii) 1С ГЦ('н-'1-и .1/2 В) EX,^„;^CQ[l + i(;^-l)]3=Q(;^ + (Али и Чен A965)). 4.5.1. Показать, что для симметричной п. р. р (х) с математическим ожиданием ц и дисперсией а^ эффективность выборочной медианы М по отношению к выборочному среднему с точностью до 1 членов порядка ~ равна 4/2а2М-|-2Л1_ J для нечетных п, 4/2а2 A +sJZ— J для четных п, где Показать также, что с точностью до порядка -5" справедливо равенство DM=-L-f!_£±!l\ как для п = 2/п, так и для п=2т-\-\ {т целое). Таким образом, с точностью до этой аппроксимации без потери эффективности можно основываться на медиане нечетного числа наблюдений; добавление еще одного наблюдения не изменяет дисперсии медианы (Ходжес и Леман A967)).
ГЛАВА 5 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ § 5.1. Введение В главе 2 мы рассмотрели основные понятия теории распределений порядковых и простых систематических статистик. Цель этой главы — изучить более сложные величины, связанные с порядковыми статистиками. Сначала предположим, что Х^, Хг, ..., Х„ — случайная выборка из нормального Л^ (ц, о) распределения. Важный класс стьюдентизированных статистик состоит из функ- п ций вида 2 ^i^n)/^v, где Sy — независимая от числителя 1 = 1 среднеквадратичная оценка для а^, имеющая v степеней свободы (т. е. vSy/a^ распределено как yj^ с v степенями свободы). Наиболее важной статистикой этого класса является стьюдентизированный размах W/S.^, используемый в задаче ранжировки «способов обработки» в дисперсионном анализе. Для проверки нормальности и присутствия аномальных наблюдений (гл. 8) представляют п интерес статистики вида 2 (^i^(i)/^> где S^ (без индекса) 1 = 1 обозначает среднеквадратичную оценку для ст^, полученную по исходной выборке, т. е. (п — 1) S^ = 2 (Х( —Х)^ В этом случае мы будем говорить о внутренней стьюден- тизации, в отличие от первого более знакомого процесса, который назовем внешней стьюдентизацией. Если у нас имеется в распоряжении внешняя информация о о, то мы можем дополнить ее внутренней информацией, взяв в
« 5.2] СТЬЮДЕНТИЗАЦИЯ 95 качестве знаменателя объединенную оценку S(^>, где (n-l+v) {S^p)f^{n - l)S^ + vSl Использование S'^' приводит к еще одному виду стьюден- тизации. Многие статистики можно выразить в виде максимумов. Очевидно, что стьюдентизированный размах равен наи- больщей среди п{п—1) разностей (Xi— Xj)/Sy. Это свойство частично объясняет его большую роль в задачах ранжирования и сложных сравнений. В § 5.3 мы предлагаем подход, часто являющийся полезным для получения точных или приближенных верхних процентных точек таких статистик. Метод не слишком хорошо работает для стьюдентизированного размаха, но является эффективнымдля таких статистик, выявляющих аномальные наблюдения, как Х(„) —Х, max \Х{ — Х\, и их стьюдентизированных 1=1, 2 п вариантов, а также для многих других статистик, вообще говоря, без предположения о нормальности выборки. Другое применение этого подхода состоит в нахождении распределения наибольшего частичного интервала, получаемого в результате случайного разбиения единичного интервала. Хотя в описанных примерах величины Х; независимы, все рассматриваемые статистики являются максимумами коррелированных величин; например, Х(„) —X является максимумом п коррелированных отклонений У'г = Х( —X. В § 5.5 рассматриваются более общие задачи, связанные с порядковыми статистиками для зависимых величин. § 5.2. Стьюдентизация Мы будем иллюстрировать различные общие методы обращения со стьюдентизированными статистиками, рассматривая подробно стьюдентизированный размах. Из независимости Wn п S^ следует, что у (внешнего) стьюдентизированного размаха k-и момент равен E(Q^.v) = E(S7*)-EM = ^ : ^: " ' E.2.1) 2ft/2р V @=s;/fe<v).
96 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 Таким образом, зная fe-й момент U^'n/a, можно найти k-u момент Q и использовать кривые Пирсона или кривые других типов для приближения распределения Q. Другой подход возникает из процесса стьюдентизации Хартли A944), который позволяет ф. р. величины Q„,, выразить через ф. р. величины Wn и ряды по степеням 1/v, а именно, Р {Qn.v<q} = Р {Wn<q} +aiv-^ + a,v-^ + ..., E.2.2) где Cj, Cj зависят от n и g и табулированы Пирсоном и Хартли A943) для п^20 и v^lO. Приближение левой части только тремя членами не совсем удовлетворительно, особенно для v^20. (См. также работы Моригути A953b); Кудо A956с) и Чемберса A967).) Хартер и др. A959) в своих известных таблицах вернулись (по существу) к простому соотношению Р {Qn,v< g} = SP{Wn< М} / (Sv) rfSv = 2,|Г оо f sv- ie-vsv2p I ^^ <• sq} ds. E.2.3) Изучение внутренне стьюдентизированного размаха WjS облегчается для нормальных выборок независимостью величин WjS и S. Этот результат немедленно вытекает из того, что Wn/S, имеющее распределение, не зависящее от ц и а, не зависит от полной достаточной статистики (К, S) (Басу A955)). Более элементарное доказательство приведено в упр. 5.2.1. Далее eW = e WnY ■ S" = Е «7„\* ES*, E.2.4) так что fe-й момент отношения Wn/S имеет вид ESk "[-2 ("-!)] ft/2 1 Г г 1 .2 т («-')" («—1 + А ) E.2.5)
§ .■> 3] СТАТИСТИКИ. ВЫРАЖАЕМЫЕ В ВИДЕ МАКСИМУМОВ 97 Поэтому приближенное распределение можно снова получить, подбирая подходящую кривую. С помощью метода следующего параграфа также можно получить некоторые точные верхние процентные точки (Дэйвид и др. A954)). Точно таким же образом можно поступать с отношением размаха к S(^'-объединенной оценке для а^. Действительно, равенство E.2.4) останется справедливым, если S заменить на S'^\ Чтобы убедиться в этом, предположим, без существенной потери общности, что SI- вычисляется по выборку объема V + 1 с N (ц^, о^) распределением. Тогда среднее Л' исходной выборки, среднее Xj выборки объема v + 1 и S(^' представляют собой полную достаточную статистику для j.1, {.ij и о^. Так как распределение отношения WjS^-'^'i не зависит от этих параметров, то оно не зависит от S(^J и т. д. § 5.3. Статистики, выражаемые в виде максимумов Наиболее важной из статистик, которые нам предстоит рассмотреть, является максимальное отклонение (от выборочного среднего) Х(„) —X. Для нормальных N (ц, 1) случайных величин мы найдем его распределение (Нэир A948); Граббс A950)). Для этого перейдем от x^f, к xt и затем к у; с помощью соотношений п у^ = П^Рх[ = 2 (X(i) -ll) = n{X- Ц), ,/,, = B.1 )'%2'= - %,+ ХB) = 2 (%, - ^^ii4^ 1/з = C- 2) / Хз = —X(i)—XB) + 2XC) = 3 (XC) ' n ' yn = [n{n-l)Y'^Xn = — X^i)-XB)... -X(„_i) + (n- l)Xj„) = = n(X(„)-^). Так как преобразование x^l) в x'l ортогонально, то га! Bл)п/2 f {x'l, х\, .... х',;) — ^ ехрI 2 Z "^ ' 4 г. Дэйвид ■
98 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. И, следовательно, / (Уъ Уъ, •■•■. Уп) = Bл)"/2 ехр 1 у\ jfl f{y2, ■•■ Уп)= Bя)("-')/2 ^^Р 1 у у) 2 ^ id — 1=2 E.3.1) A-1) Из соотношений у,- — i/;_i = (i — 1) (X(,-, — X((_j)) 2s о (i = = 3, 4, ..., n) видно, что E.3.1) справедливо в области Вводя функции Я„, получим для п = 2, 3 равенства P{X^,,-X<c} = V2^^^exp[-^-^)dy, = HA2c), Р{Х,з,-Х<с} = 3_\1/2 2, 1 ^^ ^^^^^ Тад^ ^''Р (- Т А) '^^з = Яз (Зс) и точно таким же образом, последовательно интегрируя E.3.1), получим равенство Р{Х,„,-Х<с} = п VP F н / X ' [ ^ Уп «-1 ■(«-!) til/n = = Я„ (пс). Граббс использовал это соотношение для табулирования ф. р. величин Х(„) —X для п^25. Общий метод аппроксимации верхних процентных точек статистик, выражаемых в виде максимумов. Хотя мы только что показали, как для нормального распределения была успешно табулирована ф. р. Х(„) —X, сущ,ествует очень мало систематических статистик, для которых имеются такие таблицы. Нет большой нужды в подробных таблицах такого сорта, так как обычно достаточно знать верхние
§ 5.31 СТАТИСТИКИ, ВЫРАЖАЕМЫЕ В ВИДЕ МАКСИМУМОВ 99 процентные точки только для нескольких уровней а. Теперь мы опишем метод, который часто дает возможность получить эти точки приближенно, а иногда и точно. Нижние процентные точки статистик, выражаемых в виде минимума, можно, конечно, получить таким же образом. Пусть имеется п событий А^, А^, ..., Л„. Тогда принцип включения и исключения приводит к хорошо известной булевской формуле для вероятности появления по крайней мере одного из Л,-: ,У/'}= E.3.2) Более того, сумма нечетного числа членов правой части является верхней границей, а сумма четного числа членов—нижней границей левой части, причем точность границ возрастает с возрастанием числа учитываемых членов. Таким образом, у нас имеется последовательность неравенств (иногда приписываемых Бонферрони), первое из которых имеет вид 1]Р{Л}-ЕЕР{^ИЛ<Р{и^а<ЕР{^4^)- E.3.3) (■ i < / i Отождествим теперь Л; с событием Yi>y, где Yi — случайные величины. Тогда Ai = {Yi>y\, Л(Лу= {У; >i/. Yj>y\ и т. д., и^( = {^(«)>1/}. Если к тому же совместное распределение Yi симметрично относительно Yi, то E.3.2) примет вид ^{Y(n,>y\ = nP{Y^>y]-ClP{Y^>y, r,>t/}+... ...+(_l).-ip{ri>t/, r,>t/, ..., Yn>y]. E.3.4) Возможность использования этого результата основана на том, что часто при достаточно большом у (например, при у>Уп; о, 1, где Уп; о, 1 — верхняя 10-процентная точка для Y(n)) слагаемые правой части быстро убывают. В этом случае верхняя граница t/f^' для уп,а, получаемая из 1) Так как 2Р(/4;) может быть больше 1, то верхней границей является т1пBР{Л(}, 1). 4»
100 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 соотношения nP{Y^>y} = a, E.3.5) может служить хорошим первым приближением. Таким образом, t/'i' просто является верхней а/п-значимой точкой для Ff _Положив, как в начале этого параграфа, ¥{ = = Х( — X, получим ,.., = (£=1)-ф-.(,_^). Чтобы судить о точности 1/*^' как общего приближения для уп,а' заметим, что в данном случае E.3.3) принимает вид a-ClP{Y,>yW, Y^>yW}^P{Yn>yW}^a. E.3.6) Далее, если для у^у'-^^ выполнено условие Р{Уг>у, Y,>y\^[P{Y,>y}f E.3.7) или эквивалентное условие Р{У1<у, Y,<y\^[P\Y,<y}f, справедливое для отрицательно коррелированных нормальных случайных величин Fi = X, — X, V'2 = X2 —X и для многих других представляющих интерес случаев (Дорнбос и Принс A956); Дорнбос A966); Хьюм A965) и особенно Леман A966)) ^), то E.3.6) примет вид а-^<а ^P\Yf„^>yW}^a. E.3.8) Вторым приближением t/'^', которое является нижней границей для уп.а> является решение относительно у уравнения nP{Yi>y}-QP{Y,>y, Y,>y\ = a. Это уравнение не очень удобно, но если справедливо E.3.7), то второе слагаемое можно заменить на 2"("—1)сс^"и получить простую и обычно только немного менее точную нижнюю границу. °) Неравенство более общего вида Р {V'l > j/i, У2 > Wjj === Р {У1 > > Ui] Р {^. >[/■'] гакже справедливо во многих случаях (см, Дорнбос A966); Меллоус A968)).
§5.31 СТАТИСТИКИ. ВЫРАЖАЕМЫЕ В ВИДЕ МАКСИМУМОВ Ю! Интересное уточнение верхней границы в E.3.3), несмотря на его простоту, по-видимому, было открыто только недавно (Куниас A968)). Очевидно, что где Л; — событие, дополнительное к Л;, а 2 обозначает суммирование по всем / = 1, 2, ..., п, j^i. Поэтому Р {1}А,\^Р(А,) + ^' P{Aj}-P {AiAj}=^ ! 1 = 1 i так что Р{иЛ}< min i^P{At]-^P{AiAj] В частности, если Р{Л,} = Р{Л1}, а Р {Л,Л/} = Р {^Иг} для всех i, I (i Ф j), то P{[jA,}^nP{A,\~in-l)P{A,A,\. Можно получить обобщения E.3.4) для порядковых статистик, отличных от экстремальных значений, хотя эти обобщения и менее полезны. Пусть Pt i i обозначает -' 1 2 " ■ m вероятность одновременного осуществления т(т^ п) событий Ai , Ai, ..., Ai ; пусть S^ —сумма С^ таких вероятностей с m различными индексами. Тогда вероятность р^.п осуществления по крайней мере г (^п) из п событий равна Pr,n=i] {-ir-'C^--\S„,. E.3.9) Возьмем, как и выше, в качестве события Aj событие Yj > у. Тогда рг,„ будет равно вероятности события F(„_-r + i)> > у. Полагая Pi2... „, (у) = Р {Yi >у, Y^>y,..., Y„->y\,
102 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 получим следующее обобщение E.3.4): Р {Y^n-r + ^)>y}= 2(- 1Г"'С-',СР12 ...т{у). E.3.10) Другая интересная формулировка этих результатов, по существу принадлежащая Фреше, широко используется Бартоном и Дэйвидом A959) при изучении распределения экстремальных значений с помощью комбинаторики. Пусть /?= 2 "^ь ''Де а, = 1 или О в соответствии с тем, появи- лось событие Ai или нет. Тогда Р {R = r] совпадает с вероятностью того, что произойдет ровно г событий. Легко проверить, что для дискретных случайных величин таких, как R, принимающих значения О, 1, 2,..., п, справедливо равенство п — г i = 0 где fX[m] — 'и-й факториальный момент R, т. е. fX[m] = Ei^C"'. С помощью мультиномиального обобщения теоремы Ван- дермонда получим mm) _ У "^! a('"^)a('"^) а^"") ^ - Zim^\ пн\ ... т„! "^1 "^s! ... а„ , где суммирование распространяется на все разложения (mj, m.2, ..., m„) числа т на целые неотрицательные слагаемые. В силу того, что а('"') = О для tui ^ 2, имеем 'i<'2< ■■■<'m где суммирование распространяется на все С^ наборов ij, ц, .... I'm из 1, 2, ..., п. Таким образом, 'l<'2< ■■■<'т ^Пг1 2 Р{Л,/,^...Л- } = m!S, Ч<'2<
§ 5.31 СТАТИСТИКИ. ВЫРАЖАЕМЫЕ В ВИДЕ МАКСИМУМОВ ЮЗ Следовательно, Pr,„ = P{R^r} } = Г п п = Ч}- (- (т- п n—j ■1 ( = 0 m! = (- i! п V — ^jH m (/ + 0! = 1 чт —r pr — l — 1; '-^m —1> что совпадает с E.3.9). (См. также работу Такача A967), которая содержит исторический обзор по методу включения — исключения.) Обобщение в многомерном направлении было рассмотрено Сиотани A959). Пусть к; = (Ку, Кз/. •••. Ур]) И = = 1, 2, ..., п) — п р-мерных случайных векторов с нулевым вектором математических ожиданий и ковариационной матрицей уЛ (у > 0), и пусть бЛ — ковариационная матрица векторов Ya II Кр (а=5^Р), где Л — положительно определенная симметричная матрица, у>|б1. Тогда ,-t' = jY',AWj E.3.11) можно назвать обобщенным расстоянием Yj от начала координат. Заменяя Л на L, где элементы L являются обычными несмещенными оценками ковариации с v степенями свободы, независимыми от Yj, получим стьюден- тизированную форму этого расстояния. Сиотани применил формулы E.3.2) — E.3.4) для изучения распределений величин Нтах = тах(К;л-1К,) и yTU = тах (К-^-^К,-) / / в случае, когда Yj имеют многомерное нормальное распределение и L имеет распределение Уишарта с v степенями свободы. В этом случае д^ имеет хи-квадрат распределение с V степенями свободы, а / ! \ ^T' = [-:^jY'jL-^Yj
104 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИИ [ГЛ. 5 имеет распределение Хотеллинга с v степенями свободы, так что п. р. отношения ,TVv принимает вид Таким образом, первый член приближения равен со -^— I Р{тГ^ах>Ь^1фпР (—>-} = оо р ^ = —-^ ^ ^^ с Х^~ (l+X)-i(V + nrf;C = B[y(v+l-p, p/2)Jb4v = «/vv/(vv+b')/B[-2-(v+l-р, p/2)j. Сиотани получил также двучленные приближения и использовал их при небольших р для табулирования верхних процентных точек многомерного максимального отклонения от выборочного среднего max [(X, - X)' Л -1 {Xi - X)] = trn..D i и многомерного стьюдентизированного максимального отклонения max [{X, ~ ХУ L-^ [Xj - Х)\ = Гг...о. I Здесь X'f — независимые р-мерные случайные векторы с математическим ожиданием ц' и ковариационной матрицей Л, соответствующими у = (п~1)/п и б = —1/п в E.3.11). Другой подход, предполагающий независимость. Для иллюстрации этого метода рассмотрим его применение к совместному распределению п дисперсионных отношений SyS'o, где V;rS//cr^ ^ tv^ (/ = О, I, ..., п) и все S} независимы. Частным случаем будет являться распределение наибольшего дисперсионного отношения f(%= max {S!/Sb) t = l, 2, ... , rt
§ 5.31 СТАТИСТИКИ, ВЫРАЖАЕМЫЕ В ВИДЕ МАКСИМУМОВ 105 при Vi = v ДЛЯ i = l, 2, ..., п. Зависимость этих отношений вызывается здесь только наличием у них общего знаменателя и, можно ожидать, будет слабой, если Vq велико. Поэтому для аппроксимации можно попросту игнорировать зависимость и получить таким образом формулы (Хартли A938); Финни A941)): PiSf/Sb^yr, 1 = 1, 2, ..., п}фПР{5!/5Е^г/а, E.3.12) 1 = 1 P{FU)^y}^[P{P^.y.^y}]"- E.3.13) Точность E.3.13) и соответствующие приближения были также исследованы Хартли A955). Теперь мы покажем, что в формулах E.3.12) и E.3.13) знак = можно заменить знаком ^. Чтобы сделать это, нам потребуется легко доказуемый результат (см., например, Кимболл A951); Изари и др. A967)) о том, что для любых п неотрицательных возрастающих функций g-; (х) справедливо неравенство Ue'i^) i = I U^igii^)i Положив gt (х) = Р {Si < х}, получим P{SVSb<:yi; 1=1, 2, ..., п} = СО = lP{Sl<slyo i = l, 2, ...,n}f{sb)dsb = = Е UgiiSoUi) ( = 1 Пе^(%;)]=ПР{5?/5^<у4- 1 = 1 Обозначим Р {Sf/So ></(} = Р(. Тогда, как было показано выше, п P{SbSb^y,; i=l, 2, ...,п}^ П A-Pi)- E.3.14) Можно отметить, что это более сильный результат, чем первое неравенство Бонферрони P{SVSb^yt; i = l, 2, ...,n}Ssl-2 Pi
106 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 (Даннет и Собел A955)), так как Д (^ ~ Р') > ^ ~ 2 Р' Д™ 0<Р;<1 (i=I, 2,..., л). Пусть при всех i Vi = v, f>t = f>- Тогда E.3.14) примет вид P{^%<ylss(i-p)". Положив I—а = A —Р)", мы видим, что в качестве верхней границы для F*,«, верхней а-значимой точки величины F*„) можно взять верхнюю р-значимую точку для fv. Vol где р = I — (I — а)"/". Если а мало, то можно аппроксимировать f> величиной а/л, и это снова прямо возвращает нас к использованию всегда справедливой, но здесь несколько менее точной первой границы Бонфер- рони из E.3.5). Интересные многомерные версии рассмотренных выше неравенств разрабатывались рядом авторов, начиная с Данна A958). Эти исследования достигли своей кульминации в работе Шидака A968). Последние результаты включают в качестве частного случая следующее предложение: если (Xj, Xj, ..., Хд.)— многомерный нормальный вектор с математическим ожиданием, равным нулю, и произвольной корреляционной матрицей и если Z — положительная случайная величина, независимая от (Xj, Xj, ..., Х^,), то P{|Xil/Z<Ci 1Х,1/2<с45гПР{1^Л/2<с4. В одностороннем случае Слепян A962) установил, что Р {Xi/Z <;ci, ..., Xft/Z <;Cft} — неубывающая функция корреляций. § 5.4. Случайное разбиение интервала Предположим, что на интервал (О, I) случайным образом брошены (л— I) точек. Обозначим, как показано на рис. 5.4, расстояния от этих точек до начала координат, взятые в порядке возрастания, через И(,-) (i=I, 2, ..., л—I), и пусть yi = U(i) — U(i-i) (Иц = 0). Тогда случайные величины ^A)> ^B). •••> ^(п-1) распределены как л—I порядковых статистик из равномерного /? (О, I) распределения, т. е. с совместной плотностью, равной (л—I)! па симплексе 0^Иц)=^ИB)<...=^Ы(„-1)=^ I.
§ 5.4] СЛУЧАЙНОЕ РАЗБИЕНИЕ ИНТЕРВАЛА 107 Соответственно п. р. величины Yt равна 1 — 1 fiUi, У2, ■•■, yr,^i) = {n-l)\, Уг^О, 2//,^1. E.4.1) 1 = 1 Распределение симметрично относительно г/;. Очевидно, Что, полагая Уп='^- 2 №> 1 = 1 получим вырожденную совместную п.р. п f{yi, У2 г/«-1> г/«) = («-!)!. У/^0, 2^/=^ E.4.2) по-прежнему симметричную относительно всех г/у. Поэтому I 1 • 1 i 1 1 Рис. 5.4. совместное распределение любых г из величин Fy (г = 1, 2,... ..., л — I) совпадает с совместным распределением первых т из них и, в частности, распределение суммы любых г из величин Yj совпадает с распределением т. е. ^-<") = В (г, Lr)""'(^-")""""' @^и<1). Пусть Р(л:) —ф. р. непрерывной величины X. Тогда в силу вероятностного интегрального преобразования Р (Х(у)) распределена так же, как и t/^), а Р (Х(у)) —Р (X(y_i)) — как Уf. В этом контексте Уу названы Уилксом A948, 1967) «элементарными покрытиями». Уилкс показал, что они играют важную роль в теории непараметрических статистик. Пусть теперь X/ имеют экспоненциальное распределе- п ние общего вида и 7= 2 ^t- Тогда легко показать, что отношения Х//Г имеют ту же совместную п. р. E.4.2),
108 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 ЧТО и Yj. Случайное разбиение единичного интервала фактически может порождаться пуассоновским процессом при условии, что произошло п—\ событий в некотором временном интервале, который удобно считать единичным. Благодаря этим двум указанным выше областям применения изучение случайного разбиения интервала представляет значительный интерес (см., например, Дарлинг A953)). Мы сосредоточим внимание на нахождении распределения F,„) —длины наибольшего интервала. Из E.4.1) следует, что совместная п. р. величин Yi, Y<^, ...,Yr для г ^Hi^l равна fiUi, У2, ..., Уг) = {п-1)\ ^ ^ dy„-j_... о о Следовательно, для постоянных qSsO (i=I, 2 г), 2 Q «S I, имеем (=1 Р{У1>С1, Y^>c„ ..., r,>c,} = (I-Ci-C2-...-c,)"-i. E.4.3) Взяв Ci = C2 = ... = Cr = y, получим из E.3.4) Р{Г(„)>г/} = «A~г/)''-1-СИ1-2г/)"-1 + ... ... + {-ir'cUl-iy)":l + ..., E.4.4) где суммирование продолжается до тех пор, пока \ — iy> 0. Этот результат был впервые получен Фишером A929) с помощью тонких геометрических рассуждений и применен им к гармоническому анализу, в котором заданную гармонику можно проверить с помощью статистики вида XjiT, определенной выше. На практике обычно желательно сначала проверить наибольшее из п таких отношений, что можно сделать с помощью E.4.4). Фишер A950, стр. 16) получил соответствующие верхние про-
§ 5.41 СЛУЧАЙНОЕ РАЗБИЕНИЕ ИНТЕРВАЛА 109 центные точки, причем ему часто было достаточно использовать только первый член правой части E.4.4) ^). Распределение V(„_i) легко сводится к частному случаю E.3.9) (Фишер A940)). В этой последней работе Фишер также отмечает интересную связь с одним предложением о геометрических вероятностях, полученным Стивенсом A939). Предположим, что на окружности единичной длины случайным образом отмечено п дуг равной длины у. Чему равна вероятность того, что дуги покроют всю окружность и (более общий вопрос) что останется не больше чем г пробелов? Ответом на первый вопрос является как раз Р {F(„) <:«/} —вероятность, дополнительная к E.4.4), а ответом на более общий вопрос является Р {V(„_r) <!/). Чтобы убедиться в этом, заметим, что середины этих п дуг делят единичную окружность на п интервалов длины У,- с совместной п. р. E.4.2). Если Y^„^<cy, то пробелов не будет, а если Y^„_r)<.y, то будет не более чем г пробелов. Кокрен (I94I) обобщил некоторые результаты Фишера для того, чтобы исследовать отношение max/S^/ 2 f^^' где yS^v/a^-^Xv и v четно (сравните с упр. 5.4.4). Верхние процентные точки этой статистики, дающей возможность проверять равенство дисперсий п нормальных совокупностей, были затабулированы Эйзенхартом и Соломоном A947). Блисс и др. A956) получили верхние 5-процентные точки соответствующего «быстрого» критерия max/W/HfW, где /W —размах /-й выборки. Пайк A965) дал обзор многих из обсуждаемых выше вопросов, а также более общую теорию распределений разностей (или спейсингов) между последовательными порядковыми статистиками в случае, когда теоретическое распределение непрерывно. (См. также Наус A966).) Хотя главным направлением исследований Пайка являются непараметрические критерии согласия, основанные на удобным образом выбранных функциях спейсингов, они имеют при- ') В качестве другого критерия значимости в гармоническом анализе Хартли A949) использует отношение Х,„, к независимой среднеквадратичной ошибке. Он также обсуждает приближенную мощность своего теста.
по ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ.5 менения и к распределению круговых сериальных коэффициентов корреляции, так как выражаются в виде линейных функций спейсингов (сравните с работой Демпстера и Клеила A968)). Мы отсылаем читателя также к элегантному изложению, данному Феллером A967, гл. I и гл. III, §3). Можно также упомянуть о дискретном аналоге случайного разбиения интервала. Рассмотрим «прямую», состоящую из Л^ элементов, разломанную в л — I случайно выбранных точках. Каково распределение наибольшего интервала (упр. 5.4.7)? Или —близкий к этому вопрос — если белые и черные шары расположены на прямой, то каково распределение самой длинной серии белых шаров? Исследования этих задач комбинаторными методами можно проследить в литературе до работ Уитворта (см. Бартон и Дэйвид A959)). § б.б. Порядковые статистики для зависимых величин Заметим сначала, что распределение упорядоченных зависимых величин Yi {i=l, 2 п) уже рассматривалось нами в § 5.3. Изложенные там результаты наиболее полезны для получения границ, приближений или вычисления Р {Yr:n>-y} для больших у, особбнно когда г = п. Чтобы дополнить эти результаты, обозначим совместную ф. р. величин Fi, Y2,...,Yn через P„{yi, у^ у„). Очевидно, P{Yn:n^y} = Pn{y, у,...,у}. E.5.1) Рассмотрим теперь E.3.9), где Л; —это событие Yi^y. Тогда » п Pr.n = P{Yr:n<y]=- Е (-I)'"~'C;„-\S„„ E.5.2) mr=r где Sm — это сумма Сп вероятностей Р {Yi^ =£ у, Yi^ =sS г/,... ..., Yi^ ^ у} (/i < ij < ■. ■ < im)- В важном частном случае, когда У;— симметрично зависимые величины (т. е. Р„ — симметрическая функция относительно у^, у^ г/„), равенство E.5.2) примет вид P{Yr:n^y]= 2 (-1)"'~'С-\СР{Г„:„^Г/}. E.5.3)
§5.5] СЛУЧАЙ ЗАВИСИМЫХ ВЕЛИЧИН 111 Это соотношение связывает ф. р. Frm величины Yrm с более простыми ф. р. максимума в выборках объема г, r-j-I, ... ..., п. Дифференцируя (или вычитая), домножая на е"^ и затем интегрируя (или суммируя), получим подобные соотношения между п. р., характеристическими функциями и, следовательно, между моментами. Таким образом, E.5.3) является обобщением C.4.3) с независимых на симметрично зависимые величины. С помощью E.5.3) можно вывести основное рекуррентное соотношение {n-r)Fr:„{y) + rFr+i:„{y)=nFr:r,-i{y). E.5.4) Это соотношение, обычно формулируемое в терминах моментов (соотношение I из § 3.4.), проверяется путем применения E.5.3) к каждому члену E.5.4). Теперь мы приведем более прямое доказательство этого результата, которое допускает дальнейшие обобщения. Из п порядковых статистик Ус.„, полученных перестановкой п симметрично зависимых величин, случайным образом отбрасывается одна. Оставшиеся п — I величин являются порядковыми статистиками в выборке объема л—I из симметрично зависимых величин. Если отброшена У;-.'! (i=I, 2, ..., г), то г-я величина в выборке объема л —I была (г-|-1)-й величиной в выборке объема п, т. е. Yr:n~i = Уг+ип- (А) Подобным же образом, если отброшена Yi;„ {i = r-\-l, r + 2 п), то Yr:r,-l=Yr..„. (В) Поскольку (А) и (В) имеют, соответственно, вероятности г/п и (л — г)/п, для любого у справедливо равенство P{Yr:„-,^y}=^P{Yr+,..„^y}+'^P{Yr..n^y}, которое совпадает с E.5.4). Рассмотрим теперь V'r:„_, и Vs-.n-i (l^r<s^n —1) с совместной ф. р. Frs-.n-iiy, г). Соответственно случайному отбрасыванию одной из (С) первых г, (D) следующих s — r, (Е) последних n — s порядковых статистик Уц„
112 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 получим У Г! n—l^ У г-{-1 ; п, У S : п — 1 ^ У S + 1 : nt (t-) tr.n — l^'r-.n, ^s; л —1 ^ ^ s + i : л, (u) У г : n — i^ У ri tij ' s : и — l^ ' s ■■ ti' (с.) Поскольку события (С), (D), (Е) имеют вероятности, соответственно, равные г/п, {s — r)/n и {n — s)/n, для любых г/, г (у^г) мы имеем nFrs:n-l{y, z) = rFr + i,s + l:Ay> г) + {S - г) Fr, s + i:„ {у, Z) + + {n-s)Fr,:„{y, г). E.5.5) Как и прежде, этот результат можно превратить в соотношение, связывающее соответствующие моменты произведения любого порядка и, в частности, получить соотношение 3 из § 3.4. При соблюдении осторожности относительно ошибок округления, связанных с C.4.3), с помощью равенства E.5.3) можно вычислить ф. р. Yr:„ в тех случаях, когда в нашем распоряжении имеется ф. р. максимальных членов для выборок объемов, не превосходящих п. К таким случаям относятся следующие (здесь У; — стандартные совместно нормальные величины с равными коэффициентами корреляции р): A) Гупта A963а) привел вероятности Р {Ул;л <г/} для п = 1AI2 и большого числа положительных значений р. B) Кришнайя и Эрмитэдж A965а) подробно затабули- ровали P{Y%..„^y} для «=1AI0. Для важного случая г = п—1 E.5.3) принимает вид P{Yn~i:n^y} = = nP{Yn~l:n-l^y}-in-l)P{Yn;r,<y}. E.5.6) Как отмечалось в § 5.4, Фишер A940) привел верхние / " 5- и I-процентные точки величины X„^i:„ jS^ Xi, где Xi — независимые одинаково распределенные экспоненциальные величины. Такие таблицы требуются в том случае, когда критерий, основанный на Х„:„ / 2 ^t< не позво-
§5.51 СЛУЧАЙ ЗАВИСИМЫХ ВЕЛИЧИН ИЗ ляет прийти к заключению или ненадежен. Руководствуясь подобными мотивами, Янг A967) и Дэйвид и Джоши A968) использовали E.5.6) для получения верхних процентных точек У„_,:„ из таблиц Гупты. Следует отметить, что из таблиц ф. р. экстремального отклонения (от выборочного среднего) Y^-.n с помощью E.5.3) нельзя получить ф. р. величины ^г:п=-\Хг:„--'^ Xi где Х; — независимые N {\у,, а^) величины. Для Уг:га. определенных таким образом, ¥„■,„ в E.5.3) является максимумом т равнокоррелированных нормальных величин с р = —1/(л— I) и, следовательно, не является экстремальным отклонением для выборки объема m (m < п) (сравните с работой Блэнда и Оуэна A966)). Поэтому потребовалось бы расширение таблиц Гупты, учитывающее р <; 0. Однако распределение Yr:n можно получить приближенно, так как кумулянты Уг;^ можно выразить через кумулянты Хг;п/<У (упр. 5.3.1). В свою очередь, с помощью соотношения C.4.3) между соответствующими моментами эти кумулянты можно выразить через кумулянты Х„;„/а. Кендалл A954) использовал эти методы для решения следующей задачи Юдена: пусть дана выборка Х,, Xj,..., Х„ из нормального распределения. Чему равна вероятность того, что X лежит между X„-i„ и Х„-„? (см. также работы Дэнвида A962, 1963); Шаркади и др. A962)). Полезно иметь верхние процентные точки не только для случаев (I) и B), описанных выше, но также и для следующих статистик, связанных с рассматриваемыми вопросами'. y„;„/S.,, (стьюдентизированный максимум) и стью- дентизированные наибольшая и наименьшая величины хи- квадрат. Теперь мы подробнее рассмотрим случай, когда У;—одинаково распределенные равнокоррелированные совместно нормальные случайные величины. Не умаляя общности, можно считать, что У; имеют стандартное нормальное распределение. Так как О ^ D ^2 y,j = nDYi + л („ - I) cov {Y„ Yj) {i ф j),
114 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 ГО общий коэффициент корреляции должен удовлетворять условию р^—1/(л —I). Легко проверить, что У,- можно образовать из случайных величин Xi, Zt следующим образом: Yi = p'ftX, + {l-py/^Xt (pSsO;i=I,2,...,fi), E.5.7) где Xq, Xi, ..., Х„—независимые Л^@, I) величины, и Yi = (-pyftZ, + (l-pyPZi (р<0; i=l, 2, ..., п), где Zi, Z2, ..., Z„ — независимые Л^@, I) величины, Zq — также Л^ (О, I) и E/ZZ-1=^bPl!^ t(ZoZ,)- ^^_^^,^ п (Гупта и др. A964)). Таким образом, при У = 2 ^i^i:n ( = 1 для р Si О имеем а для р < О имеем В первом случае Р{К«!/}-Я(!/-, р)- 00 Пусть У^а1 = 0. Тогда, очевидно, для всех р имеем Этот хорошо известный результат показывает, в частности, что размах величин У^ распределен так же, как размах независимых одинаково распределенных нормальных
УПРАЖНЕНИЯ 115 величин с дисперсией I—р (Хартли A950а)). Распределе- п ние отношения Y'-^^jY^^^ где ГA' = 2 а;-"Г,-:„ и т. д., 1=1 очевидно, не зависит от р. Приближения к распределению экстремального значения в общем случае многомерной нормальной выборки изучались Грейгом A967). (По этому поводу см. также упр. 5.5.2—5.5.5.) Распределение максимума и размаха частичных сумм S,= 2 >^i {r=\, 2, ..., п) п независимых одинаково распределенных величин Х; представляет интерес в задачах управления запасами, где X; является поступлением в i-й год. Первые несколько моментов этих распределений для случая, когда X; имеют стандартное нормальное распределение, можно найти специальными методами (см., например, работы Феллера (I95I); Аниса и Ллойда A953); Аниса A955, 1956); Со- лари и Аниса A957) и работу Морана A964)). Упражнения 5.2.1. Пусть Xi, Х2, ..., Х„ —случайная выборка из N (ц, а') распределения. Хорошо известно, что существуют ортогональные преобразования, переводящие xi, х^ а;„ в i/i, i/2> •■•' Уп так, что у„ = }' п X. Применяя к у^, у^, ... , (/„_,' обобщенное сферическое полярное преобразование yi = R cos 61 cos 62 ... cos е„_з cos e„_a, У2 = Я cos 61 cos 62... COS e„_3 sin e„_2, Уз = Я COS 61 COS 62... sin e„_3. !/„_i = i?sine,, rt показать, что отношение любой линейной функции V CiX,ij, где / = 1 У]с; = 0, к величине S не зависит от S. 5.3,1, Пусть X; A = 1, 2 п) —случайная выборка нз нормального Л' (ц, а^) распределения. Показать, что кумулянты /С^ вели-
116 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 ЧИН Х,г, — X связаны с кумулянтами K.k величин Х,^, соотношениями K'k'^Kk (k>2). В качестве следствия показать, как найти первые четыре момента статистик; а) (X,„,-X)/Sv, б) (X,„.-X)/S(^) (Маккей A935); Рубен A954)). (См. также работу Борениуса A959, 1966), где детально исследовано отношение (Х,„,—Х)/[5] (X/—ХJ/«]'''^.) 5.3.2. Пусть Xi, Хз Х„ —случайная выборка из N (ц, а^) распределения, и пусть Sr, — независимая оценка для а^ такая, что vS^/a2-~y2. Показать, что первое приближение к верхней «-значимой точке величины (Х,„, — X)/S^ задается формулой «-1\./2 /«_ где ty I — 1 обозначает верхриою —-значимую топку статистики ^ с v степенями свободы (Дэйвпд A956)). 5.3.3. Пусть Xi, Xi Х„ —случайная выборка из нормального Л/(ц, а^) распределения, и пусть 52 = 1] (Х;—ХJ/(«—1). (а) Показать, что К;=(Х; —X)/S (i=l, 2 п) распределена как [«('й-2 + «-2)] 1/2 ' где /„_2 обозначает статистику / с («—2) степенями свободы. (б) Замечая, что Yi ограничены, показать, что У(„_1, — вторая наибольшая из величин Yj, не может превосходить 1 1/2 2 ("-1)(«-2) Уп-1 = (в) Используя этот факт, доказать, что для у^у' справедливо равенство P{y<n,>y\=nP{Yi>y\ и что верхнюю а-значимую точку для К,„, можно получить, положив в (А) /„_2 = <„-2(~ (Замечание. Этот метод приводит к точным 5-процентным точкам для «si 14 и 1-процентным точкам для «ss; 19.) (Пирсон и Чан- драсекар A936).) 5.3.4. Если О (х) 2= О, Я (х) i? О—строго возрастающие функции случайной величины X с ф. р. F (х) (О ss; д; ss; оо) и если G (X) и
УПРАЖНЕНИЯ 117 Н (X) имеют конечные математические ожидания, то Е [G (X) // (X)] > Е [G (X)] Е [Н (X)]. В качестве следствия вывести, что E.3.7) не имеет места, если где )[f, 5A, у^ — независимые )'2.ра(,пределенные случайные величины (Кимболл A951)). Другие контрпримеры к E.3.7) принедены в работ, х Гальперина A967) и Изарн и др. A967). 5.3.5. Показать, что при любом выборе I'l, 12 /^ таком, что 1 ^ I'l •< 12 <•••<'* =^ 1 и x/j < x/j < ... < x/j^, справедливы неравенства ft P{X,ii)<x,i, ....X,i^, <Xi4^ XI P{^//^^v}' ft PF('i)>^ii ^(/ft)>^/ft}^IlP{^//>>^V}- (Изари и др. A967).) 5.3.6. Пусть Yi, Kj, .... К„ — равновероятное полиномиальное распределение с в. ф. ^ yiW- ---Уп N\ /■ 1 \Л' -Д Показать, что Si-S2<P{K,„, >!/}<Si, где 1( ^ 1_ s,=« 2 С + 1 w „w 5=С^'У- ^' («-2)Л'-'-' а ^'^j г!/!(Л/-г-Л! а суммирование распространяется на те i, /, для которых y-<i, /, Полагая Л, = - [Л/(П-1)/«2] 1/2 показать, что приближением к верхней а-значимой точке для Z(„, является значение ф-1[1 —а/«] (Дэйвид и Бартон A962); Козелка A956)). 5.3.7. Положим Pi=P{Ai}, Ру=Р {Л,Л/} (i, /=1,2, ...,«) (так что Pu = Pi)' Пусть /;—индикатор события Ai. Тогда п max /; является индикатором М Af. ' = 1.2 " t = i
I!8 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ.5 Пусть Р' = (Я1, Яз, .... Я„), Я = (Рц), l'^(li,h 1п)> и пусть Q~ обозначает обобщенную обратную для «х«-матрицы Q, т. е. QQQ=Q- Замечая, что для любого вектора a' = (ai, а^ Ол) (а7J-|-2(а7)+ max /; Ss О, 1 = 1, 2, .... п И ВЗЯВ математическое ожидание, показать, что и, следовательно, что р| У AA^ia'P — a'Qa {и a\^p'q-p и, в частности. (Куниас (!968)). 5,3.8. Пусть в упр. 5.3.7 Л; —это событие Yi>y. Положим V = = а'1. Замечая, что Р {V^^O} =gP {Y,„, >(/}, получить неравенство л \2 P{K,„.>j/}> \'-'„ ^ (А) (Чжун и Эрдеш, Уиттл). Покажите также, что (А) сильнее неравенства Бонферрони тогда и только тогда, когда 2я^<225:Яг;, в частное и, для одинаково распределенных К,- тогда н только тогда, когда Pi-<Jn—l)Pi2 (сравните с работой Галло (!966)). 5.4.!. Пусть К,1, sS К|2, ^... :< К,„, —упорядоченные значения спейсингов Yj (/=1, 2 п) из E.4.2), и пусть Л, = («+!-/)(Кф-К,у_1,), К,о, = 0. Показать, что совместное распределение величин Zj совпадает с совместным распределением величин Yf (Дурбин A961)). 5.4.2. Показать, что если п—1 точек случайным образом делят единичный интервал, то вероятнос1ь того, что ровно г интервалов
УПРАЖНЕНИЯ 119 превосходят х, равна q{„-,„---..-.)ii-..+.,.f-4-..^:t'»^i^;;;^y}. где /г — наибольц]ее целое, меньшее !/х (Стивене (!939); Фишер (!940)). 5.4.3. С помош,ью E.4.3) показать, что (а) Р {К,1, >с}=(!—rtc)"-i (Ой£Сй=!/«), (б) Р {K,i,>ci, K,2,>C2}=«[l-Ci-(«-!)c2]"-i- — («—!)(!—«Ci)n-i (OsSCisSCa; Ci + («—!) Ca =S !). _(,i_r+!)c,]"-i минус члены, зависяш,ие от меньшего, чем г, числа значений с^. (г) Совместная п. р. величин К,и, К.а, К,^, равна @=^1/1=^...=^!//, 1/1+...+!/л-1+(«—'■+') г/г *£i) (сравните с работой Бартона и Дэйвида (!956)). 5.4.4. Предположим, что п случайных выборок объема т извлекаются независимо из нормальных N (ц(, oi) распределений. Пусть ,S2—несмеш,енная среднеквадратичная оценка для oi. Положим Y maX(S2 Покажите, что при нулевой гипотезе Яо: a\ = al = ... = a% верхние «-значимые точки у^ величины К,^, можно приближенно вычислять из уравнения 'Уа (п-\)(т-\) 2 т. <») где Ixifl, &) —неполная бета-функция. Также показать, что по (А) Уа МОЖНО вычислить точно, если Уа > "s" (Кокрен (!94!)). 5.4.5. Пусть Xi, Хз Х„ —случайная выборка из непрерывного распределения с ф. р. Р (х), и пусть У=У'Ч) — '^а-1^> 2 = Х,у,—Xiy_i, (г, / = 2, 3 п). Используя свойство марковости порядковых статистик (§ 2.7) или
120 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 каким-либо другим способом, показать, что со со и, ,,_„, f { [Я@]--^ {P(u)-P(t + y)V-i-^ f(y, г)-п\ ^ \^ ^._2), (/-г-2)! ^ — со t4-y X ^' "f^^ltf^^""^ Р (О Р (^ +;/) Р И Р (» + г) d« d/, если />( + 1, /(У. г) = СО — со если / = i -|- ! (Пайк (!965)). 5.4.6. Пусть Xi, Х2 Х„ —случайная выборка из распределения с п. р. р (х) (хЗ: 0). (а) Показать, что совместная п. р. Xj, Х3 Х„ при условии, что Xi=X,„,, равна f(xu Х2 Xn)=i np(,Xi)-p(x2)...p(x„), если х,=х,„,, \ О в противном случае. (б) Пусть K,i, = i;X//X|„,. Записывая характеристическую функцию Ее''^'" в виде п-кратного интеграла, показать, что со /р \п—1 Ее"^<" = пе" j i|' е"«/Рр (а) da р (Р) dp. (в) В качестве следствия вывести, что если Х; равномерно распределены на интервале (О, а), то распределение К,), совпадает с распределением ! -{-Ul-\-U2-{-^■^-\-^^n-l> где f/i —независимы и распределены равномерно на интервале (О, !). (г) Доказать результат (в), используя свойство марковости порядковых статистик (Дарлинг (!952 а, Ь)). 5.4.7. «Прямая» из N элементов разламывается в п—! случайно выбранных точках и получается п интервалов. Рассматривая коэффициенты при х'^ в выражении (л:-|-.'1^-|-...-|-л;"')", показать, что ф. р. длины М наибольшего интервала равна Р где {М^т)=-^ 2 (~\)'clC%-_li-u Г' a = mm п, И-п ]). «-»H-.*».[^±Fi] (Бартон и Дэйвид A959)). 5.5.!. Пусть Хо, Xi, Хз Х„ —независимые случайные величины с одинаковой дисперсией а^.
УПРАЖНЕНИЯ 12! (а) Доказать, что величины Yi, определяемые равенством Yi = Xi-aXo (i=\, 2 n), являются равнокоррелированными и что с помощью соответствующего выбора постоянной а можно сделать так, чтобы К; имели любые положительные равные корреляции. (б) В качестве следствия доказать, что для любого множества из п нормированных совместно нормальных величин Yi с равными положительными коэффициентами корреляции р ф. р. их максимума К^.„ равна со Рп:п (У) = S Ф" [(^ + «^) A +аУ"] ЛФ [х (! +аУ% — со где Ф—ф. р. стандартного нормального закона и а=[р/(! — р)]'''^. В частности, показать, что если р=!/2, то К; все положительны с вероятностью !/(;г-|-!). (в) Показать, что для Y; из (б) /г-е кумулянты Kk, г величины К^.„ связаны с ^-ми кумулянтами г-й нормальной порядковой статистики соотношениями к;, , = (!-р)'/Ч,.л. К2*,=р + A-р)К,,„ к; , = A-р)*/2;С;,,„ если k>2 (Стьюарт A958); Оуэн и Стек (!962)). 5.5.2. Пусть К( (г = !, 2 п) —стандартизованные совместно нормально распределенные величины с матрицей корреляций (р;-) вида (р(/) = («(«,), где — ! <«,-< !. (а) Показать, что К; можно образовать из п-\-\ независимых стандартных нормальных величин Хо, Xj, .... Х„, положив K, = (!-a2)'''2X,+a,Xj, ((=!, 2 п). (б) В качестве следствия показать, что In \ со р л П"''<+1[П'(("^Р)]-"- (Даннет и Собел (!955); см. также Курноу и Даннет (!9б2)). 5.5.3. Если К) и Уз—нормированные двумерные нормальные величины с коэффициентом корреляции р, то п. р. величины Y = а^..^-\- -Ь «2^2.2 равна ^((/) = 2Г"'ф(Г"'!/)Ф(Г|(/). где £ = а!+а1 + 2ра,аз, ^._[2(!-p)]'/2(a3-ai) (l+p)(a2-f"i)^ (Гупта и Пиллаи A965)).
122 ДАЛЬНЕЙШИЕ РЕЗУЛЬТАТЫ ТЕОРИИ РАСПРЕДЕЛЕНИЙ [ГЛ. 5 5.5.4. Пусть Z; A=!, 2 й) —минимум величин Ку (/=!, 2, ..., п) в случайной выборке объема п из й-мерного распределения с совместной п. р. или в. ф. р {Уи Уг. •••. Ук)- (а) Показать, что Р (Zi > гь Za > гз Zj,>?4}== (б) Совместная п. р. й-мерного распределения Парето первого типа имеет вид р(Уь У2 Ук\ Щ = \/=1 /' к ^ару.]-к+\ {У1 > О/ > 0; 9 > 0). Доказать, что совместным распределением величин Zi является опять распределение Парето .первого типа с п. р. р {Уъ Уг. • • • . Ук\ пП) (Мардья (!964Ь)). 5.5.5. Пусть величины Xj, Ха Х„ образуют стационарную марковскую цепь. Положив Pi(x) = P{X(-£x}, Р^Х' У) = Р {^i^x, Xi+isS!/} для всех i и используя условие марковости Р {Х„й£Х| Xiscx, Xa^sSx Х„_1йСХ}=Р {Х„й£х| X„_i<x} (для всех X и всех положительных п), показать, что ф. р. наибольшей величины в выборке объема п равна F„(X) = [P,(X, X)]'^-i/lP,{x)]'^~K Эпстейн (!949Ь)).
ГЛАВА 6 ПОРЯДКОВЫЕ СТАТИСТИКИ В ОЦЕНИВАНИИ И ПРОВЕРКЕ ГИПОТЕЗ § 6.1. Введение и основные результаты Порядковые статистики появляются в задачах проверки гипотез и оценивания различными путями. Наиболее частыми являются те ситуации, в которых границы величины X зависят на одном или обоих концах от оцениваемых параметров. Стандартные методы, какими бы они ни были, в этом случае неизбежно приводят к оценкам, включающим порядковые статистики. Лучшими примерами этого служат различные типы равномерного распределения. После обсуждения этих ситуаций, в которых использование порядковых статистик неизбежно, мы перейдем в § 6.2 к рассмотренному Ллойдом A952) (см. также Сархан и Гринберг A970)) важному применению обобщенного метода наименьших квадратов, используя который можно найти линейные функции порядковых статистик («Линейные оценки»), являющиеся оценками параметров распределений, зависящих только от сдвига и масштаба. Центральное положение здесь занимает нормальное распределение. Оценкой для \1 в_этом случае является, как обычно, выборочное среднее X, являющееся также средним для величин X(i) (i= 1, 2 п), но оценка для a^ п имеющая вид ^ ^i-^@> Р^зко отличается от обычной опти- мальной среднеквадратичной оценки. Что можно сказать в пользу такой оценки? Фактически, очень немногое в случае нормального распределения, когда налицо все наблюдения, хотя всегда эффективность линейных оценок и близка к единице. Но для некоторых выборок, отлич-
124 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 ных ОТ нормальной, более традиционные способы оценивания могут быть весьма трудоемкими. Что более важно в наш век компьютеров, такие способы могут дать оценки, свойства которых в случае малых выборок не совсем ясны и, возможно, далеки от удовлетворительных; вряд ли достаточно то, что (как в методе максимального правдоподобия) хорошими являются асимптотические свойства оценок. С другой стороны, подход Ллойда всегда дает Оценки несмеш,енные и с минимальной дисперсией (для всех п) в классе несмеш,енных линейных оценок. Если эксперимент такой, например, как испытание на продолжительность жизни изделий, заканчивается, как только разрушено предписанное число N{<in) деталей, то полученные данные цензурированы и упорядочены, и оценки (максимального правдоподобия или Ллойда) будут зависеть от порядковых статистик. Последние оценки являются намного более удобными при условии, что имеются необходимые таблицы коэффициентов. Эти вопросы обсуждаются в § 6.3 и преимуш,ественно на примере экспоненциального распределения в § 6.4. Мы закончим эту главу некоторыми замечаниями по поводу интересного и в основном нового предмета — роба- стного Оценивания. Наша цель адесь —найти оценки, удовлетворительные не только при идеальных условиях, но и в том случае когда предположения об исходном распределении нарушаются (в некоторых пределах). Порядковые статистики давно играют важную роль в «быстрых» способах оценивания. Этот вопрос изучается в главе 7. Сейчас мы вернемся к некоторым основным результатам. Как уже было показано в связи с непараметрическими доверительными интервалами и толерантными интервалами (§§ 2.5 и 2.6), порядковые статистики являются фундаментально важными в теории непараметрических выводов. С более теоретических позиций представляет интерес тот факт, что если Xi, Xj, ..., Х„ — независимые *) непрерывные величины с общим распределением Р{х, 6), где параметр 6 может быть векторнозначным, то вектор порядковых статистик 7'=(X(i), ХB) Х(„,) является 1) Вместо независимых с- в. можно рассматривать симметрично зависимые.
§ 6.1) ВВЕДЕНИЕ И ОСНОВНЫЕ РЕЗУЛЬТАТЫ 125 достаточным для в. Чтобы убедиться в этом, заметим, что при фиксированном T = i^ (л:^), х^2), ■••, х^„)) величины Х; (i = l, 2 п) могут принимать значения л:у^, (г = 1, 2 ... ..., п), причем, из соображений симметрии, все п! перестановок (/i, /г, ..., /„) для A, 2, ..., п) должны быть равновероятными. Другими словами, для каждой перестановки (Д, /а, ..., /„) P{Xi = a:(/,), Х2 = ха,), ..., Xn = x^f^^\T = t] = l/n\ Так как эта вероятность не зависит от 6, достаточность Т для 6 установлена. Неформально этот результат просто утверждает, что порядок расположения Х( не влияет на выводы о параметре 6 при нулевой гипотезе о независимости и одинаковой распределенности с. в. Xi, поскольку любой такой порядок приводит к одинаковым порядковым статистикам. Хотя свойства минимальной достаточности и полноты являются основными в теории непараметрических выводов, мы касаемся их только поверхностно, так как в дальнейшем они нам не потребуются. Заинтересованного читателя для более серьезного рассмотрения отсылаем к работе Белла и других авторов (I960) и ссылкам, приведенным там Оценивание. Предположим, что функциональная форма Р известна. Если при этом одна или обе границы для х зависят от 6, то в процессе оценивания участвуют порядковые статистики. Возникающие проблемы рассматриваются в ряде книг о параметрических выводах. Так как основные трудности здесь относятся главным образом к статистическим выводам, а не к порядковым статистикам, отсылаем читателя, например, к работам Хогга и Крейга A959), Кендалла и Стьюарта A973) или Лемана A964). Однако мы приведем здесь некоторые из главных результатов, специально выделяя случай равномерного распределения. Рассмотрение экспоненциального распределения с неизвестной начальной точкой откладывается до § 6.4. Предположим сначала, что только нижняя граница х зависит от скалярного параметра 6, т. е. a{Q)^x^b, Тогда, если существует достаточная статистика для 6, то A) она должна быть монотонной функцией Хщ и B) плотность распределения должна иметь вид р (л:; 6) = = C{B)g{x), где СF), ^(л:) неотрицательны (Питмен A936);
126 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 Дэйвис A951)). Чтобы доказать A), нужно только заметить, что условная плотность распределения fi{x\T = t) с. в. ХA) при любой статистике Т не может быть независимой от 6, если только Т не определяет Х^, в (а, Ь) единственным образом. Что касается B), то пусть Xt{i= 1, 2) —любые два члена выборки, отличные от X(i). b Тогда fixt\x^l)) = p{xt■, 6)/ ^ р{хг, B)dxt не зависит от 6; поэтому р (Xi, Q)/p {х^; 6) также не зависит от 6, откуда следует B). Результат остается справедливым и для случая a^x^b{Q), когда X достаточна для 6. Пример 6.1.1. Пусть с. в. X равномерно распределена на (О, 6), т. е. f 1/6, если 0<л:<6, { О, если л:<0 или х>Ь Эта плотность удовлетворяет соотношению B) с g(x)= I. Для того чтобы показать, что Х(„)—достаточная для 6 статистика, поступим следующим образом. Определим ^ {^> у) = 1 для х^у и v{x, г/) = О для х>у. Тогда р(х; b) = ~jv(x, 6) для всех a:SsO и 6 >0. Функция прав- п доподобия имеет вид LF) = 6-" J~[ v {xi, 6) = 6~"и (л:(„), 6), и критерий факторизации обеспечивает достаточность Х(„). Другие свойства Х(„) легко выводятся из первых принципов. Ясно, что Х(„) «недооценивает» 6. Действительно, EX(„)=-qjj-< 6, но уже—■—Х(„) —несмещенная оценка для 6. Распределение Х(„) дается формулой Р {Х(„) ^ л:} = = (л:/9)" для 0^л:^6, из которой следует, что асимптотическое распределение надлежащим образом нормированной с. в. Х(„) (которая является оценкой максимального правдоподобия) не нормальное, а экспоненциальное, так как lim Р {п F - Х,„)) < «} = lim Tl - A - -^Y = [-►00 n->ooL \ "С /J = l_e-«/e (и^О), Л->00 представляет пример второго вида асимптотических распределений экстремумов (см. § 9.3). Наконец, Х(„) полна
§ 6.1) ВВЕДЕНИЕ Й ОСНОВНЫЕ РЕЗУЛЬТАТЫ 127 ДЛЯ 6, так как если и (Х(„,) —некоторая функция Х(„,, то тождество Е[и(Х(„))] = 0 для всех 6 приводит к соотношению е \и(х)х"-Ых = 0, F.1.1) о также справедливому при всех 6, что в свою очередь дает равенство и{х) = 0, почти наверное для л:^ О (упр. 6.1.1). Это доказывает полноту Х(„). Из результатов для конечных выборок, приведенных выше следует, что —— Л(„) — единственная равномерно ми- нимизируюш,ая дисперсию несмещенная (РМДН) оценка 6. По теореме Басу A955) статистика, достаточная и полная для некоторого параметра 6 (который может быть и век- торнозначным), не зависит от любой другой статистики, распределение которой не включает 6. Поэтому, в част- п ности, Х(„, статистически независима от 7= ^Xl/X^„). i = I Следовательно, f{y\x^„'f) не зависит от значения x^„'f, которое можно положить равным 1. При условии, что Л(„) — 1, по марковскому свойству порядковых статистик п—1 других величин Х-,, а отсюда и отношения Ui = Xi/X,„^ независимы и равномерно распределены на отрезке @,1). л — 1 Таким образом, с. в. У распределена как 1-{- ^ Ui. i = i Этот способ доказательства результата Дарлинга (упр. 5.4.6) принадлежит Хоггу и Крейгу A956). Пример 6.1.2. Пусть с. в. X равномерно распределена на (бь 62), т. е. р{х;%, 62) = 1/F2-61) (В^^х^В^, 62>6i)- Оставляем читателю показать, что Xji, и Х(„., совместно достаточны и полны для Sj и В^. Запишем плотность следующим образом: !1/С0, если fX —уСОггСл:^^-!-^ со, (В>0, О, если I л: —ц ] >-g-со. Тогда М = I (Хц, + Х,„,) и Г' = J±j (Х,„) - X,i)) - несмещенные оценки ц и со. Являясь функциями от Xi и Х^„^,
128 Оценивание и проверка гипотез [гл. 6 которые, конечно, тоже достаточны и полны для ц и со, Оценки М и U^" — единственные РМДН (равномерно минимизирующие дисперсию несмещенные) оценки. Так как DM = со^/2(п4-1) (п + 2) (упр. 2.3.5), то эффективность К относительно М, определенная как отношение дисперсий этих Оценок, равна 6п/{п-^ I) (п-^ 2) и стремится к О при п-^со^) (см. также упр. 6.1.2). Пример 6.1.3. Пусть X равномерно распределена !!а (е-1/2, е + 1/2), т. е. р(л:;е) = 1, если 9 - 1/2-сл:==£ 9 +1/2. Функция правдоподобия максимальна (и равна 1), если оба значения x^l'f и Х(„) лежат в (9—1/2, 9 + 1/2). Таким образом, пара статистик Хщ и Х(„, совместно достаточна для параметра 9. Никаких одномерных достаточных статистик не существует, но Xjj, и Х(„, не являются полными, так как Е (Х(„) —X(i) т"г)==0 ^■'^^ в'^бх 6. Однако М, будучи несмещенной оценкой и функцией минимальных достаточных статистик, по прежнему является МДН Оценкой для 9. Когда обе границы для х зависят от 9, т. е. а (9) sg ^x^b ф), необходимо, но уже не достаточно, чтобы выполнялось соот'ношение р (х; 9) = С (9) g (х). Теперь дополнительным требованием является монотонное возрастание а F) и монотонное убывание b (9) или наоборот; в первом случае достаточной статистикой является 9 = min {а '^ (X(i)), fe-i(X(„,)}, во втором 9' = max|a-i(X(i)), b'^{X^„^)\, где а ^ (л:), fe~^ (л:)— функции, обратные к а{х), Ь(х). Вслед за Хузурбазаром A955) мы сейчас выведем плотность распределения 6. Из рис. 6.1 видно, что Р {z^d^2 + dz} = = Р{а (z) ^ ХA, ^а (z + dz), а (z) sS Х(„, ^ b (z)} + + P{aiz)^X^l)^b{z), b(z + dz)^X^„^^biz)]. F.1.2) 2) Заметим, однако, что М не является асимптотически нормальной, так что понятие «эффективность» используется здесь в более широком смысле, чем обычно.
§ 6.j ВВЕДКМИЕ 11 ОСИОППЫЕ РЕЧУЛЬТЛТЫ 129 Так как в наших обычных обозначениях совместная плотность распределения Х^, и Х(„) имеет вид кп{х, У) = п{п--1)р{хIР{у)--Р(х)Г''р(у), если х^у, то правую часть соотношения F.1.2) можно переписать Рис. 6.1. следуюш,им образом: riz) = n{n-l)p[a (z)] a'iz) f {Р (у) - Р[а(г)]}"^р (у) dy- а B) Ь{г) -n(n--l)p[b{z)]b'{z) I {P[b{z)]-P(x)]"-^p{x)dx, а B) F.1.3) где штрих обозначает дифференцирование. Далее, И9) Ь{в) 1= I p{y)dy = C{B) 5 g{y)dy, b{z) а (в) а (в) так что { р (у) dy = C(b) \ g (у) dy = C (е)/С (z). F.1.4) а B) аB) Отсюда (п-1) f {P(y)-P[a{z)]]"-'p{y)dy = =•■ (г) = \P[b (г)] - Р iu ^г)]}"-! = [С (9)/С (г)]" '. б г, Дэйвид
|30 0ЦЕНН15ЛНИЕ H ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 п F.1.3), учитывая F.1.4), сводится к f (z) = п{р[а B)] а' (г) -р[Ь (г)] Ь'{г)] С«-i F)/C"-i B) = = п{- (d/dz) [С F)/С BI} С"-1 F)/С« 1 B) = = пС"F)С'B)/С"+1B). F.1.5) Здесь 2 изменяется от 6 до X, где Х определяется условием а(к) = Ь (К). Пример 6.1.4. Предположим, что X равномерно распределена на (— 6, 9), т. е. р{х\ 6) = 1/B6) (—е~сл:<9). В этом случае а F) = — 6 убывает и Ь F) = 6 возрастает с ростом 6. Таким образом, 6'=Z = max{—ХA,, Х(„I = гаах{1Х,1,|, !Х(„, j}, н F.1.5) выполняется со знаком минус в правой части> сводясь к соотношению fB) = -n(i.)"(-^)B2)"+l=n2'-l6-" @<2<6), 26/ \ 2г^ что легко вывесги также из первых принципов. Доверительные интервалы для 6 в ситуации F.1.5) сразу можно найти, заметив, что y = CF)/C(Z) имеет плотность распределения f (и) = пи" на @,1) (упр. 6.1.4). Проверка гипотез. Можно построить критерии значимости, соответствующие различным рассмотренным выше равномерным распределениям, но некоторые результаты могут с первого взгляда показаться несколько странными. Так, в простейшем случае ^@, 9) очевидным критерием для гипотезы Я: 6 ^ 6о против гипотезы K:Q>Q(, является следующий: отвергнуть Я, когда х^п) достаточно велико, выбирая точку х„, „, соответствующую уровню значимости а, так, чтобы Р{Х(„)>х„,а16 = 6о} = а, т.е. x„,„ = 6o(l-a)V«. Этот критерий равномерно наиболее мощный (РИМ), но, как указал Леман A964, стр. 98), ни в коем случае не единственный. Действительно, любой критерий, который A) отвергает Я, когда х^п)>%; B) имеет уровень а, когда 6=6^, C) имеет уровень sga для 6<0q,
§ 6.1] ВВЕДЕНИЕ И ОСНОВНЫЕ РЕЗУЛЬТАТЫ 131 является также РНМ (таков, например, критерий, удовлетворяющий A) и отвергающий гипотезу с вероятностью а, когда л:(„,йсе„). Однако существует единственный РНМ критерий для гипотезы Н^- 6 = 6„ против К- ^¥=%> а именно критерий, отвергающий Н^, если л:(„)>6о или л;(„)<6о^'"', и принимающий Н^ в противном случае. Далее, предположим, что взяты две независимые выборки Xi, Xj Х„, и Yi, Y^ Yn, из генеральных совокупностей с распределением R (О, 6i) и R (О, 62), соответственно. Для проверки гипотезы На- 9i = 63 (или Я: Si^SSj) против гипотезы К- 6i>92 нужно отвергнуть Я,, при больших значениях V = X(„,)/F(„j). Верхняя точка Va, соответствующая уровню значимости а, для V дается выражением Ua («1, «2) = а(п\п ) ''"''(™- нуль-распределение V, т. е. распределение при верной гипотезе Яо, в упр. 2.3.12). Для «1, П2^10 Мёрти A955) привел таблицы Uo,o6 (но подстрочным замечанием к этим таблицам следует пренебречь). Двухсторонняя форма этого критерия состоит в отвержении Яо (против К- ВфВо), если V>Vi/ia{ni, П^) или V<l/Vi/.2c,{nr, П2) F.1.6) Здесь просто используется факт, что нуль-распределение 1/V такое же, как и для V, но только с обратным порядком степеней свободы. Однако, как и в других подобных ситуациях, этот удобный критерий является смещенным (т. е. вероятность отвергнуть Яо меньше а для некоторого Si =52^62), если только п^ не равно «2- Критерий отношения правдоподобия отвергает Яо, когда и>а-1/"» или t)<ai/"', F.1.7) и он РНМ и несмещенный. Для «1 = ^2 критерии F.1.6) и F.1.7) совпадают и также являются РНМ (см. работу Берра A966) по поводу этих и дальнейших результатов). Для того чтобы проверить, будут ли две выборки нз равномерного распределения иметь одинаковый размах (без предположения о равенстве математических ожиданий), необходимо использовать отношение размахов W1/W2 (см. упр. 2.3.10). Таблицы процентных точек для этой ситуации даны Райдером A951) и Хирениусом A953). Последний автор также рассматривал критерии для (а) разностей параметров сдвига, используя статистику б*
132 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ (ГЛ 6 Т = (КA,-Хц,)/(^(п.)-^A)) (упр. 2.7.1), и (б) разностей параметров сдвига и масштаба, используя отношение У = {Уы-^A))/(^{п1)-^{1)) (отметим, что при этом выборки брались такими, что Хщ^У^^; поэтому отношение размахов U = -^ ^ не совпадает с таким же Х(п,) —ХA) отношением Райдера, и его не стоит рекомендовать, за исключением, возможно, случаев совпадения U с Т и V). Обобш,ение для соответствуюш,их проблем в случае k выборок рассматривалось Кхатри A960, 1965). Для проверки равенства величин 9,-, когда плотности распределения имеют вид С (9) g{x) с границами для х, зависяш,ими с обеих сторон от 9, можно применить также подход, связанный с отношением правдоподобия (см. упр 6.1.6 и работу Хогга A956)). Оценивание параметров для логнормальной случайной величины X, т. е. такой, что log {X — у)'-^ N (ц, а^), обсуждалось многими авторами (Хилл A963); Леыберт A964) и др.). Бейн и Томэн A968) построили критерии для трехпараметрического распределения Вейбулла. Когда распределение усечено, скажем, справа, так что ф. р. усеченной с. в. X имеет вид ( Р(х)/Р(В), если х^В, га (Х) ^\ , ^ ' \ 1 , если x>Q, то простой оценкой для 9 является Х(„). Эта величина, конечно, «недооценивает» 6 и возникает вопрос: можно ли уменьшить смещение Х(„) для каких-либо общих классов распределений? Робсон и Уитлок A964) показали, что это можно сделать, применяя интересный метод Кэнуя A956) для последовательного устранения смещения порядка 1/п, 1/п^ и т. д. Кэнуй заметил, что если математическое ожидание оценки Т„ имеет вид ET„(Xi Xn) = Q+ai/n + a^/n^+..., F.1.8) то член смещения а^/п уже отсутствует в оценке Tn,i{Xi Xn) = nTn{Xi Хп) — — (п—1) Г„-1, (i, (Xi, ..., Xi-i, Xi+i X„).
§ 6.2] ОЦЕНИВАНИЕ МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ 133 Усреднение по i = 1, 2 п дает симметричную оценку п •1 П" = пТ„-^2^'-м«- Затем процесс можно повторить для а^/п^, что даст оценку Тп' и т. д. В нашем случае Т„=Х(„), и мы имеем Тп-1. (О = тах (Xi ^1-1, Л(+1 Х„) = Х(„,, если Xi=5^X(„), Х(„_1), если Х,- = Х(„). Так, Т„" = пХ,„,-^[(п-1)Х,„, + Х,„_1)] = 2«—1 у «—1 у 3v Оценка Т'" включала бы уже Х^п-2) и, хотя и являлась бы несмещенной с точностью до членов порядка п'^, по всей вероятности, была бы менее эффективной, чем Т'", § 6.2. Оценивание методом наименьших квадратов параметров сдвига и масштаба при помощи порядковых статистик Предположим, что i^ —семейство непрерывных распределений с ф. р. вида Piax + b), где а>0, Ь —произвольные константы. Другими словами, (^ — семейство распределений, зависящих только от параметров сдвига и масштаба. Обозначим эти параметры ц и о, хотя они и не обязаны быть математическим ожиданием и стандартным отклонением. Отсюда следует, что р (х) = Р' {х) можно записать в виде а ° \ а И что стандартизированная с. в. Y = {X — \i)ja имеет плотность распределения g (у), не зависящую от ц и а. Два важных примера представляют семейства нормальных 3) На самом деле Робсон и Уитлок получили более простой результат Тп' = 2Х|„, —X,„_i,, заменяя F.1.8) рядами по 1/п'''* вместо {/п'' (/•=!, 2, ...).
134 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 И равномерных распределений. В последнем случае имеем р (х) = 1/со для ц — 2 W sg х sg 1.1 -f 2" CO. Тогда плотность распределения с. в. F==(X —|д)/о имеет вид g-(y)==l, если —1/2 ^(/^1/2. Так как упорядоченные с. в. X и F (для выборок объема п) связаны соотношением К„) = (Х(„-ц)/а (г=1, 2 п), то моменты с. в. Fj^.) зависят только от вида g, по не от fx и а. Обозначим ЕГ,^)=:а(,„ cov(F(,), y,j)) = p„ (s=l, 2 п). Тогда ЕХ(;.) = цЧ-оа^, cov(X(;.), X(s,) = a2p^s, F.2.1) где а^., p^-s можно вычислить раз и навсегда (сравните с главой 3). Таким образом, ЕХ(;.) является линейной комбинацией параметров [.i и а с известными коэффициентами и cov(X(;.), X(s,) известна с точностью до d^. Поэтому можно применить теорему Гаусса —Маркова из теории метода наименьших квадратов (в слегка обобш,ен- ном виде, так как ковариационная матрица не является диагональной) для получения несмеш,енных оценок параметров fx и а, имеюш,их минимальную дисперсию в классе линейных несмеш,енных оценок. Чтобы убедиться в этом, запишем первое уравнение F.2.1) как ЕХ = Lil -f аа ,„ г. г. ЕХ = Д6, F-2-2) где X и а, соответственно, — векторы-столбцы Х(;.) и а;^,; 1 —столбец из п единиц и Л=A, а), 6' = (и, а). Ковариационную матрицу для Х(г, обозначим через и (X) = а^В. Мы должны минимизировать по отношению к О выражение (л:-Д6)'П(л: —Л6), где Q = B-i, получая оценку 6* = (Д'йЛ)-1Л'дХ. F.2.3) Ковариационная матрица для в* имеет вид (ЛЧМ) M'Q-a^Q 1.ЙД(Л'ЙЛ) ' = а2(Л'ЙЛ)-\ F.2.4)
^62) 0ЦЕНИВЛ1НШ МЕ10ДО.М HAIl/WEHblUIIX КВАДРАТОВ 135 М'ал,=(:;)а(,.„,-(™, :-), причем все элементы матрицы являются скалярными. Из F.2.3) следует, что J_/ a'Qa -a'ni\/rQ\„_ __l_/ а'ЙаГО—a'Qla'n\ „ ~" Д \— I'Qarn + l'nia'nj ' где Д = 1Д| и A = A'QA, или ц*= — а'ТХ, a*=^VrX, F.2.5) где Г —кососимметричная матрица, определяемая равенством; Г=-д-Q Aа'—осГ) Q. Из F.2.4) следует, что 0^1*=^ a'Qa, F.2.6) Da*==-^1'Q1, F.2.7) а cov(fx*, а*)= —^ I'Qa. F.2.8) Таким образом, i-i* и о* выражаются как линейные функции порядковых статистик, именно, i^* = t Р'^@. ст*=|]тЛ, F.2.5') 1=1 1=1 с коэффициентами, которые можно табулировать раз и навсегда (см. П. 6.3). Упрощение для симметричных распределений. Теперь мы рассмотрим важный случай симметричных распределений и в качестве параметра ц возьмем математическое ожидание. Тогда распределение случайного вектора (Кц,, V^B) К(„)) совпадает с распределением вектора {~У{п), —У^п-1) —У 11))- Пусть
136 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ |ГЛ. 6 где 1\ 1 Заметим, что J=J' = J~^, /1 = 1. Так как Y и —JY имеют одинаковое распределение, то ЕК=Е(—УК), т. е. а= — Ja и ''У(К)=П~1 = '1'''(—УК), т. е. Q-i = —yQ-*(—y) = y-*Q ly 1, или Й = УЙУ. Отсюда следует, что Гйа= Г (УПУ) (—Уа) = —(ГУ)Х ХЙ(У^)а= —1'йа. Таким образом, Гйа=-- 1'йа=-0, так что из F.2.8) следует, что \i* и о* пекоррелированы. В этом случае вместо соотношений F.2.5)— F.2.7) получаем следу юш,ие: g'QA" a'Qa F.2.10) Djt*=-^, Da*=^^. F.2.11) Заметим, что \i* сводится к выборочному среднему, если Гй= Г (что эквивалентно условию В1=1), F.2.12) т. е. если элементы каждого столбца (или строки^ ковариационной матрицы в сумме дают единицу. Такой, в частности, является единичная нормальная генеральная совокупность. Можно также показать, что \i* имеет дисперсию меньшую, чем a^jti, за исключением случая, когда выполняется F.2.12). Эти и подобные им результаты для несимметричных распределений можно найти в работах Ллойда A952), Даунтона A953) и Говиндараюлу A968а). Упрощенные линейные оценки. Процедура Ллойда требует знание вектора математического ожидания и ковариационной матрицы порядковых статистик. Особенно трудно находить ковариации. Гупта A952) предложил следующий очень простой метод, применимый в случае, когда известны только математические ожидания: взять В = /, где /—единичная матрица. Тогда Q = /h результаты сильно
§ 6.2] ОЦЕНИВАНИЕ МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ 137 упрощаются. Так, А = I'Ql a'Qa — (ГПа)^ = пУ; af— — A1^-;)^ = «S («< — «)*, и оценка для jx из F.2,5) принимает вид или 1=1 где ^'=1B°''-«'•2°'') = F.2.13) Для симметричных распределений получаем ц*'* =Х. Также где S (а; —а) Ci-^r^z^. F.2.14) Это, как может показаться, грубое приближение дает удивительно хорошие результаты по крайней мере для нормального случая. Этот вопрос обсуждается в следующей главе. Так как в этом методе нет необходимости обращать ковариационную матрицу пхп, его можно применять и в случае известной матрицы. Али и Чен A964) показали, что в нормальном случае о** асимптотически нормальна и вполне эффективна и, более того, уменьшение эффективности о'*'* по сравнению с о* пренебрел^имо даже для малых выборок. Это ясно из таблицы 6.2 (Чернов н Либерман A954); Сархан и Гринберг A956); Али и Чен A964)), которая дает дисперсию для п = 2AI0 оценок о*, о** и несмещенной оценки максимального Г^(п-1) 2 Правдоподобия о = —^-—^.—(-\ > {Xi — Xf\ . Для п^ /2 Г (In) L^ J =^10 эффективность оценки о** (относительно а) самая маленькая при /2 = 6, когда она равна 98,7%.
138 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ 6 Оценки Блома. Интересный и довольно общий подход к оценкам параметров масштаба и сдвига был предложен Бломом A958) и в дальнейшем развит им же A962). Его «несмещенные почти наилучшие линейные» оценки требуют, как и у Гупты, знание точных математических ожиданий порядковых статистик Ff^) Для приведенной с. в. К = (Х —|л)/а с ф. р. Р{у), но используют асимптотические приближения ковариационной матрицы. Если отказаться от точной несмещенности, то можно использовать асимптотику для математических ожиданий и получать «почти несмещенные, почти наилучшие» оценки. Таблица 6.2 Сравнение трех несмещенных оценок параметра о для нормальной созокупности п 2 3 4 5 6 7 8 9 10 D (о/о) 0,57080 0,27324 0,17810 0,13177 0,10447 0,08650 0,07379 0,06432 0,05701 D (о*/о) 0,57080 0,27548 0,18005 0,13332 0,10571 0,08750 0,07461 0,06502 0,05760 D (о"/о) 0,57080 0,27548 0,18013 0,13342 0,10580 0,08759 0,07469 0,06509 0,05766 Процедура Блома начинается с приближения коварна- ции с. в. Y^r) и Y^s) (r^s) первым членом в D.5.5), именно, СОУ(Г„„ F,s))-(;^2)p7q;)p(Q,)' где pr=r/{n+l), qs=i-Ps, Qr^P'^ipr) И p(Q^)-ПЛОТНОСТЬ с. в. Y, вычисленная в точке Q^. Теперь обозначим fi = p{Qi) (i=h 2, ..., п). Тогда
5 6.21 ОЦЕНИВАНИЕ МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ 139 Полагая 2(;) =/;+1^(;+1) —/i^(i)> ^и = /я+1 = 0, F.2.15) имеем (независимо от Р) для О < i < / < ге 02,0 ~ („+1J"(„+2) ' cov(Z(o,Z(;,)~- („+1J („4-2) • F.2.16) Для того чтобы оценить линейную комбинацию il = ^i!x + 4- k^o, зап1}шем линейную оценку т] для т] в виде п п (=1 1=1 Замечая с помощью F.2.15), что г—I /=о и заменяя gi новыми коэффициентами h^, h^ ft„, определенными (с точностью до аддитивной постоянной) соотношением можем переписать т] как i-I ^=^i2]/'('''-'^'-i)+^2]('^'-'^'-iJ] 2 (=1 /=0 U)'- ^hdli{fi-fin)-oZi]. F.2.17) i = 0 Тогда Erj =и 2 Qi/^i + f^ S ^ai^^i. где :=0 ' = 0 Сц =fi — fi+l> C^i = /; a; — fi+i ai+i, кроме того, Dx] =o^ 2/Jf D Z,o + SS ft, ft, cov (Z,o, Zy,) 1ф1 (fl („+l)(„-b2)gfa-^)^ F-2.18)
140 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 ввиду F, 2. 16), где 1г= i i У ^'• Таким образом, использованные приближения сводят проблему оценивания т] к минимизации F.2.18) при условии, что п п 1=0 1=0 Стандартными методами приходим к решению hi ^Е + а^Сц+ 02021, где Qi, а^ —множители Лагранжа, имеющие вид при этом d"P (а, Р = 1, 2) —элементы матрицы, обратной к матрице 2 х 2г^ D = {da^), где п 4р=2]^«А( (а, Р = 1,2). F.2.19) 1 = 0 Величина г] из F.2.17) с hi, определенными таким образом, является несмещенной почти наилучшей линейной оценкой для 1]. Возвращаясь к первоначальным порядковым статистикам Х(;,, имеем, в частности, беря по очереди ^i = l, ^2 = 0 и ^1 =0, ^2= 1, п п 1^=2^1(^@. ^=Zs2iXu). F.2.20) 1=1 1=1 где gai = fi [d°' (Си - Сг.1-г) + d-' (Q,, - C2,;_i)] (a = 1, 2). F.2.21) Из F.2.18) получаем ^Dji, cov(^i, 0)\ a^ /d'l di2\^ Do ,; (я+1)(я + 2) F.2.22) Таким образом, каким бы ни было п, задача сводится к обращению матрицы порядка 2x2. Хотя сделанные асимптотические приближения могут не быть особенно хорошими для малых выборок, по-видимому, оценки достаточно эффективны в большинстве случаев, так как значительное число накопленных примеров указывает, что
§ 6.31 ОЦЕНИВАИНЕ ПАРАМЕТРОВ СДВИГА 141 эффективности линейных систематических статистик не очень чувствительны к изменению коэффициентов. Применения различных методов оценивания, описанных в этой главе, иллюстрируются в § 6.3 на примерах малых цензу- рированных выбррок из нормальной совокупности. Другие методы оценивания. Были и другие попытки получить линейные оценки для |л и а, не зная матрицы В п, в некоторых случаях, вектора а. Так как эти величины сейчас становятся доступными для все большего числа распределений и для достаточно больших объемов выборок, то необходимость в методах, дополняющих метод Ллойда, становится меньшей, чем раньше. Однако эти методы остаются ценными для новых распределений, больших выборок и для теоретических целей. «Асимптотически наилучшие линейные» оценки, являющиеся систематическими статистиками, определяемыми непрерывными весовыми функциями, изучались Беннетом A952), Юнгом A955, 1962), Черновым и др. A967) и Ченом A967а). Даунтон A966а) предложил «линейные оценки с полиноминальными коэффициентами», в которых «общая структура коэффициентов выбирается удобной для математической обработки как с точки зрения определения этих коэффициентов, так и для вычисления стандартных уклонений получаемых оценок». Несколько иная идея (Маккул A965); Чу и Якоуб A968)) заключается в том, чтобы оценивать параметры для больших выборок по средним значениям оценок |л* и о*, получаемым для подвыборок объема достаточно малого, чтобы использовать таблицы. Недостаток этих приближений состоит в произвольности выбора подвыборок. § 6.3. Оценивание параметров сдвига и масштаба для цензурированных наблюдений Говоря «цензурированные наблюдения», мы имеем в виду, что в потенциальной выборке объема п известное число наблюдений пропущено с одной стороны (простое цензурирование) или с обеих сторон (двойное цензурирование). Важный пример цензурирования встречается в оценивании продолжительности жизни, когда решают остановить эксперимент, как только yV(-<n) изделий, подвергнутых испытанию, выходят из строя. Здесь, цензурируя
142 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 справа, мы в состоянии получить достаточно хорошие оценки параметров много быстрее, чем если бы дожидались, пока все изделия не выйдут из строя. Особенно простой способ действия состоит в том, чтобы остановиться, как только будет получена выборочная медиана т (т. е. после -S-" +1 наблюдения), и использовать т в качестве оценки средней продолжительности жизни ц. Если продолжительность жизни распределена нормально (возможно, после некоторого преобразования наблюдений), то ц в больших выборках можно оценить с одинаковой точностью как при помощи т в выборке объема п-^^^^ 1,57п, так и при помощи выборочного среднего в выборке объема п. С другой стороны, ожидаемое время проведения эксперимента равно, соответственно, [i и |1 + аФ i [п/(п-1-1)]. Только что описанный тип цензурирования часто называется // типом цензурирования (Гупта A952)), чтобы отличать его от ситуации, когда выборка урезается ниже или/и выше фиксированной точки. При таком / типе цензурирования число отброшенных наблюдений — случайная величина. Оба вида цензурирования отличаются от «усечения-», когда урезается не выборка, а генеральная совокупность, и число потерянных наблюдений неизвестно. Методы § 6.2, развитые для полных выборок, применимы ко II типу иензурированных наблюдений. Все, что необходимо сделать,—это интерпретировать вектор а и матрицу В как вектор средних и ковариационную матрицу нецензурированных упорядоченных величин Vf^). (Действительно, наблюдения, опущенные в выборке, не приведут к другим трудностям.) Конечно, каждый пример цензурирования требует отдельных вычислений. Для нормальной совокупности обширные таблицы коэффициентов для порядковых статистик, дающих оценки |л* и а*, былп получены Сарханом и Гринбергом A970, стр. 194 — 227). Эти таблицы включают все случаи простого и двойного цензурирования в выборках объема /г-<;20. Даны также дисперсии и ковариации этих оценок н их эффективности относительно наилучших линейных оценок для нецензурированных выборок. Неудивительно, что потеря эффективности, связанная с цензурированием, более резко выражена для о*, чем для |j,*. Например, для п=10 и по
§ 6,3] ОЦЕНИВАНИЕ ПАРАМЕТРОВ СДВИГА 143 одному цензурированному с каждой стороны наблюдению относительные эффективности равны 95,85% для \х* II 69,88% для о*. Следует отметить, что мы можем получить преимущества, связанные с упрощениями в случае симметричных распределений, только если цензурирование также симметричное. Альтернативные оценки Гупты особенно просты для II типа цензурирования: суммирование в F.2.13) и F.2.14) берется по п — г^ — г^ наблюдениям, где г^ и г.^, соответственно, — числа отброшенных слева и справа наблюдений. Эффективности этих оценок относительно соответствующих наилучших линейных оценок даны в таблицах Сархапа и Гринберга A970, стр. 242 — 244) для всех случаев одностороннего или двустороннего цензурирования при л = ==10, 12, 15. В большинстве случаев эти величины 52 90%, наименьшее равно 84,66% для ji** (п=15; ri пли Г2 = 10) и 86,75% для о** (п = 15; rj или /'2 = 9). Меледу прочим, для полных выборок [,1* * = )!*, и относительная эффективность о** равна 99,9% для ns^l5. Для некоторых простых генеральных распределений можно обращать матрицу В и получать таким образом общие выралжния для \х* и о*. Сархан A955) рассмотрел равномерное и экспоненциальное распределения, а для ПйС5 и некоторые другие распределения (см. упр. 6.3.1). Очевидно, что I тип цензурирования не всегда хорошо исследуется с помощью порядковых статистик. Действительно, ван Цвет A966) показал, что во многих практических случаях певозмол<ны какие-либо несмещенные оценки. Здесь хорошее приближение (даже в случаях усечения) дает метод максимального правдоподобия, несмотря на то, что он сложен и приводит порой к оценкам с неизвестными свойствами в случае малых выборок. Метод максимального правдоподобия. Следуя Коэну A959, 1961), дадим единообразную трактовку для нормальной совокупности одностороннего цензурирования обоих типов и усечения. Начнем с усечения (слева) и предположим, что N наблюдений взяты из генеральной совокупности с распределением B.и)^ ''-'о ' ехр [~{х -nflBo^)] dx (Х^Хо).
144 ОЦЕНИВАНИЕ Н ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 Взяв l = {xQ — ii)/a, получаем, что знаменатель равен 1—ФA) и функция правдоподобия может быть записана как 2 (A-,-H)VBa^) 1 = 1 Отсюда N d\ogL N<fil) . \ X , . .J, о п 1=1 N d\ogL Nbfd) N 1 -rri^L- +-'-зУ(х,-И)-- F.3.2) да Полагая и At = 2 '^//Л^. s'' = 2 (^' ~ '^^'/^ " -4 (у) = ГГ^ Ф(г/)' 1=1 1=1 получаем соответствующие уравнения правдоподобия Х-|1 = аЛ(|), F.3.3) s'4(^-i^> = ^'[l+l'4(i)]. F.3.4) Исключая X —jj, и записывая Л вместо А{\), имеем a'' = s''-\-a^A{A-l). F.3.5) Но а1,=Х(,~\и = х^ — х-\-аА, так что а=р|. F.3.6) Совместно с F.3.5) это дает ^,_^,З^Л|-|5Р_^,3^^д^^_^^^^,^ F.3.7) "^— S где ё = Л/(Л-|). F.3.8) Тогда из F.3.3), F.3.6) и F.3.8) имеем [1 = .? —аЛ = х~ 6 (х —Xj), F.3.9)
§ 6.3] I ОЦЕНИВАНИЕ ПАРАМЕТРОВ СДВИГА 145 а из F.3.7) и F.3.6) получаем ''' ^ ^' А _l-A{A-i) (х-х,)^ (!с-х,)^ Л-? (Л-|J [0.0.ш) Теперь нз F.3.7) и F.3.9) можно было бы определить jj, и а, если бы мы знали вспомогательную функцию 6. Но 6—функция I и, следовательно, функция правой части F.3.10). Таким образом, из s'^/ix — x^)^ {= У в обозначениях Коэна) мы можем найти 6 (таблица 1 Коэна A961)) и отсюда \х и о (упр. 6.3.1). (Относительно двух других методов см. работы Плэкетта A958) и Тайкью A967а)). I тип цензурирования. Пусть N теперь обозначает случайное число наблюдений ^х^, г —число отброшенных наблюдений i<.Xu) нз общего числа п. Таким образом, N-{-r = n. Соответствующая функция правдоподобия имеет вид Ь = ^,[Ф(ё)ГBла^^'/2ехр 2iXi-li)V{2a^) (=1 F.3.11) Тогда dlogL __ гц,A) дц" ~ 0Ф (I) + 02 2j ^^' '^^' 1= 1 Отсюда, обозначая h = г/п, имеем аналогично с F.3.3), где B{h, |) = у:гл'4(-|). Подобно этому s'^ + (j — ji)^ = а^ A + 1В)> так что аналогично F.3.7), F.3.9) и F.3.10) имеем теперь а^ = S''+ X (х - Хо)\ |1 = Х— Я(Х —Хо), s'^ \-B{B-i) F.3.12) F.3.13) ^fi .Я.КП (jj-^oP (в-if где к = В/(В — l). Вспомогательная функция к зависит
146 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 от двух величин h и |, или, что эквивалентно, от ft и у. С помощью интерполяции X может быть сразу получена из таблицы 2 Коэна A961), воспроизведенной в нашей таблице 6.3. В других отношениях процедура оценивания такая же, как и в случае усечения. II тип цензурирования. Обозначим r = n — N наблюдений, цензурированных слева, через Xi < Х2 =С . гё х^, и пусть X—наименьшее наблюдаемое значение. Тогда функция правдоподобия имеет вид г- N Ч 1. "г *2 ^= Пр(^0 ] \ ■■■] п\р{х\)... _^ = 1 J —оо — оо —оо N ...р{х'г-\)р {х'г) dx'i ...dx'r-.idx'r=~P'- (х) 1[J р (хг) = 1 = 1 = я- [Ф С^)]^ BлаГ'^/^ ехр [- ^ f (х, - ^)^ Сравнивая с F.3.11), видим, что | просто заменяется на г/= (х — |1)/а. В этом случае смещение оценки исследовалось Со A961), который нашел, что для сильного цензурирования смещение может быть значительным, доходя, например, даже до 13% при п = 19, N = 7. Ясно, что в случае усечения справа величина 1 — Ф(|) должна быть заменена на Ф (|), т. е. | на — |. Это не приводит к отличиям в процедуре оценивания. Подобное замечание применимо и к цензурированию с тем отличием, что для II типа цензурирования х следует заменить наибольшим наблюдаемым значением. Асимптотические дисперсии и ковариации для оценок максимального правдоподобия. Рассмотрим II тип цензурирования. Первая производная logL может быть записана следующим образом: N 5|х И+2 N 5 log Л ^ _гуА ( — у) _ N _ \ <*''_Z:Mi)! да а 0 лш. 03
5 6.5 ОЦЕНИВАНИЕ ПАРАМЕТРОВ СДВИГА 147 К >, X )^ о а. о 3 а ^' о о —, о с- ь о о ^-i о о о <с о с: If^ 4 о о с ПЗ о о t>l 4 о S. О -«; /^ /Л f- (Nir:)ajL'-;;oocor--ajr^cN]ir:)coo-^ococo(NOcNi 3:С0Г^О0Ср--«^-ч^СС-^СС(ГОГ-'-^С0ЮЮЮ1О-^С^ C005-^C5-^0>CCr-.^^inC0(Nin05(NinC0^^'^r^O t^r-COCOO>0500^^^^^^(M(NfMCOCOCO-^-^-^in -^-^-^—^-^^-^С^СМ CO^<M^CN^(N_(N fM C^CN^CS (N,(N,<>iC^ О О о о* о" о" о" о" о'о'о" сГ о" с? о" о" о" о'о'о о" 0-^-^C001(N01COiOr—ОЮС^СОГ—СОО ОООСОО csMO-^cor^inwos-^ajCNior^coOiOcocDcor-- О-^СО— ■^tr-OCOb-jCOOCOinr^O^^-^LOr-Ci^^ о'о'о'о'о 0*0 о о о о о о'о'о о сГо о о'о ■^r-'^iOincOr-'^t'Or-inCO^^OiCMOCOCMCjOr-lO CMOiCO-^CCOCO—'ЮГ—ОЗО-—'ОООГ—ЮС^ОСО gOOO-^-^-^-^(N(N(N<NC000C0C0C0C0-^-^-^ о" о" о* с? о*" о* о о о'о* сГ о* сГ сГ о*" о'о сГ о" о с? со -^ (N 05 со ОС го lo оа —1 ю lO in Lo '-0 —" со о со г— -^ г— lO о <N о ■^C0C0C0(NC005^^CN]r](NOaJC0C0OC0(NC0C0C0 ccoxNiocoooit-or- оэ^^со-^сосоо^^со-^сог- COCOClOlOiOOOOO^^^^^^^^^^CMtNCMCNKNtM сГ о" о" о* сГ о" о о сГ о" о о о* о* о* о о о о" о* о" со-:7)сосг1отеооютесог-сог- u^jOCOQCO^^COinaJiniCOSCOOQCNOOOOJ-^r^CO aJO5iOOCN]-4t'-^C0^^O::CoCNlC0'^Oi0QC0^^iOC0^^ ■^r-oootor^05^^w-^cocoo^^(N'^inr-coaj^^ r-r-COCOCOCOCOOJOClOOt'OiOOOOOOO^^ cf о* с? сГо* о o^o" о" о" о'о' о^о^о* о" о" о'о" о" о r-ajcocoajtNcococsin^^cococoor-coajr^^^o (Ncocococor—оюсо-rtoocooor—-^со-^г—-^(N со—«■^lOioco^^r-cococor-ococooj^^co-^cor- C0C0C0O(N-^C0r-'0>O(NC0inC0r-'C0O—"(NCO-^ СОСОСОГ^Г-Г-Г-Г-Г-.СОСОСОСОСОСОСОФ050СЙО> оооооооооооооосЗоооооо ооооооооооооооооооооо r-.OCOCOOCSCOinO'—'ЮСООСОЮОрЮС^СООЭ^^ or—OiiooKN'S-^cocsccQcocoQ'^m-^O'^r— incoincciOJinococoaj^^M-^incococococpir:)-^ cN-^t'^ccoi^^cs-^incococfto^^cMco-^iO'cir—со ЮЮЮ10ЮС0С0С0С0С0С0С0Г~-Г~-Г~-Г~-Г~-Г~-Г^1>-г~- ооооооооооооооооооооо ооооооооооооооооооооо coocMoooicocoocCKNcooim-^coco-^teocococo 06inQ^^(Nn':>^^(Nr-C0ir:)C0Oir-Cv|iOCOin(Nr-^^ юсоотсс1сосоо^^^^^^^^оа1со1>"юсо^^а)со-^ — cc-^cpr—соо-^с^со-^ююсог—cooioo-^(N ■^'^■^■^"^■ч^ЮЮЮЮЮЮЮЮЮЮЮСОСОСОСО 0 0,0_С5,0 ОО OO^OO^O^OO^O^O^C^O^CS^O^Q; ^о'о о'о'о'сГо'сГсГо'о'о'о'о'о'о о'о'о'о' с^юсососог—01Г—co-^cs-^co-^ocsoooomoio Q(N01CO^r—-^Г—CO(NininC0aJC0inib'^(NC0-^ О1С^100-чГ-ч^С0С^ОС0С0С0О1>"С0ОЮС^0р-ч^О1Ю 0(NCv5-4t'ir:icoi>"COcoo50-^-^(NccopT|-^ir:iir:)co о С5,о о о o^cS^o о^о^о о^о^о о^о^о^о^о о^о^ о" о" о" cf о о" о*" о" о" о" о сГ о" о" о'сГ о" о* сГ о" о* o-^(Ncoajcoog^^ooopcocoajr-cor-ocor—соо О^СОСЛЮГ—i0^^^'^<NaJ'<tC0^^(NC0(NOC0ir:) ■^c^or^-^t-ococsr—с^г-.^^сооюо>сог—^^-^со o^^tNOJeo-^-^iOiococor-r-cococooojoocS o^o^o^o о о^о о о о^о^о^о^о о^о^о о о^о о о'сГ о" о" о* о" о" (^ о о*" сГ о" о" сГ о о сГ о" о" о* о O^^OO(N(N00O'^C0OC00>C0^^C0aJinr—-^СО —.inOCOCOOJCSinr—OC^liOr—aJ^^OQiOr—OJ^^CO OOO^^^^^^CSCMCMCOCCCCiCOCO-^'^-^-^-^iniO ооооооооооооооооооооо ооооооооооооооооооооо оюоюоюоюоюоюоюоюоьооюо о о ^-— смсмсосо-^-^юю со^со^г-^г-^со со oj oj о сГ сГ сГ о" о" сГ о" о" о* о" о" о" о" о^ о о" о" о" сГ сГ —^^
Я! О X о /л ;,'1 а о ш -^ >" о -<:> II р ^^ < ■: О О ^ .1^ ^J ^^ о J^ *■ oi t4j о с со 01 о ■J: о CIS ^^ о *■ Д:» о UI J^ f' <р 00 о СП ^J К) *■ о ис <:■> о о ш 4^ С1 о; с; ю гл м СП ^J 4^ СП СП С» to со J^ о ,t^ СП ю о^ со К) ^J о СП СП СИ о^ о ^J со К) U1 о ш Си *■ о <х ел К) 41 ел 4^ J^ <х СП СП <х со К) J^ to СП о ^J со 00 о со ^ со о о ^1 С1 со о со СП NV К) о ел J^ со о о О) ел с^ о> о ^J 1Л ^ о ш to К) 1^ о ^1 J^ К) S 01 СП ел со со о OS to ел <х <х со со о ж UI о -U ^J о J^ со to to о ел 1-0 ^J о о СП 1» 01 о ^J ^1 01 ^^ о CCJ К) ^J С1 £ К) со to 4^ К) to СП 1-0 со do со to ,to 1» СП <х со ^1 ел J^ г-> or- о о со к; ш С1 со о J^ К) СП to о ел со С1 <х о оз J^ *■ о ^J CTi ^I Oi о ■-с; с ■> IJ ^^ о ел со К) К) о 4^ о <х СП К) *■ со ^1 Oi ,to ел 4^ <х со со о о ^1 ел о со К) 4^ <х со о 4^ tsJ С1 ш о о ел Nj 4^ ел о СП со U'> ^J о ^1 ся со <_) о ;л <.^ UU ю о 4^ N) С") ^J со со 4^ СП С1 U0 со ел оо to ; л tsJ <х со о ел о ^1 о о со К) J^ ел о 4^ UI ГЦ ел о ел <х о о СП К) со ^ о ^J ел С1 to о .^■. ■jr, ■м to С1 1-0 со ел со <х о со со S ^^ ,to 1» о ^J со ^1 со о й о со с г. 1-0 о о 4^ С1 С1 <х о ел 4^ о СТ1 К) UU о ^1 4^ to о !/.: ^1 tsV CU С1 со ио to со СП о> ^1 ^J do to 4^ to 4^ <x СП со и^ 4^ о СП о о со ОС 4^ о 4^ С1 4^ 4^ ^J о ел С") 4^ 01 о ел r.i со С-: ^1 со 1^ о о ;х; СП К) 'У1 о о ^1 СП со со 1 л ^^ ел СП ^^ г/г. с; ел to 4^ ей U1 со СП to U0 С-: см U1 о со е.; ^1 Is J UI о со Г>0 ^1 о о 4^ ш ^1 о^ о О) о 1 л о ^1 к J К) 01 о <х СТ1 ^J о со ел о ел ел со ш ^J ел 4^ 01 ^1 <х <х to 4^ 4^ со со СП о о о о Се с ■> со о to о> о 4^ ш с-> 4^ о \ л СП ^J о ^1 К) со о 4^ <_) <х о со <х Ь.) и> 4^ со К) ^^ ел К) <х ^1 ^1 ej .to 4^ Is J ^^ CO rn ^I UI о ■li- oi о Is; cc In о M о СП ел о со о 01 г/: ej о ^1 с; К) с;; г-> <х Ь.) со ел о со о о К) ^J со о и> ел ■-^ ^1 ; л ^^ ,to со со с_; со ел 4^ ^J о ej о ю CD ю СП о о Се ':с е.; со о 4^ ел О' о ^1 о а: со К) ^J о <х ^1 со о со 1 л ^1 о со м со о 4^- со 4^ ^1 со to н Сл5 ^1 о> со ел to о о -е 01 о Is-; Г>0 ^1 ^ ^J о CJ ^1 со -^1 со о 4^ ег, ^1 о^ о ел СП со со о СТ) <х Ь.) о Г>0 S о о со 4^ со ^J о со <х to ^J 4^ 4^ ^J о^ ^I со to со I л со JW 4^ со to о о о К) Г>0 со eJ о еО ел ^J С1 о о с» , л со U1 о ел СП е.; 4^ со О) ^1 со о ^1 со со ^J о so со С1 о о <х со to ел 4^ ел ^J СП со со to со to со со 4^ ^ о К) U1 о to ^1 ел tu о> о со ел е.; со со о 4^ ел о о ел см С1 о^ о СП СП С1 о о ^1 <х ej о со 1 л <х о UJ ^J ls3 о 4^ со tu СП ^J to to со ej со со Ol о to о о tsV ^I е.; со '-^ о со Is; ел UI о 4^ 4^ К) Ь-/ о ч л 4^ С1 со о СП 4^ <х со о ^1 СП ^J <х о со <_) to й ^^ to to to 4^ со о ел о to СП 1л С1 ел о 1- 4^ <х о о 4^ со со о о ел to со о^ о с:^ со О) ^^ о ел 4^ to о <х <х crj ej о S to о 4^ 4^ е.; о СП ?Л 01 "^ to to <х о со v о UI о to to й со со ^J о> о о о to 41 ^1 4^ о со CJ О) СП to о 4^ К) со со о ел <х 4^ о СП to со 4^ о ^1 4^ С1 о о <х ^1 С1 со о ^J ио ел со ^1 со СП о <х to ю ю со со со 4^ UI о е.; 01 о to 4jl е.; to со о со К) ^J со со о 4^ со ^—' о г л С1 СП о^ о СП е.; ^^ о ^1 К) 41 to о <х 41 4^ ej о со со со 4^ о^ о^ со ел <х ел <х 01 to to о со со со 4^ о "-■ о Is) 4^ К) СП <х о со <х СП to о 4^ С1 К) "" о 4^ со 4^ "" о 1 л со СП о ^J о со о^ о с» со о> <х ,р !JJ <х о 4^ U1 со со О) ел СП г^ ^J о^ со К) <х со ^ / / "*■ о в )i g & ъ ф "S tyi о 'S о о о о о 9 ■IfJl енюши vMdHeodu п нипуаиннПо 8t!
6.3! ОЦЕНИВАНИЕ ПАРАМЕТРОВ СДВИГА 149 Так как Л{—у)^^у то Далее, Ф(У)[-УЧ'{У)]-Ч'ЧУ) д-1д-м,л [ФA/)Р - — л (Л -f-y), где Л- = А{—у). Отсюда d^logL г . ,. . . . N N[ h . ,. . , , , --^[I^ = тИ-('4- + ^/) + ^, =-^4т^г'^" ^'^'+^) + ^ или 02 52 log L г. , , мп = —-j^ ф2 =Д(Л- + г/)+1. 02 52 log L D П I /Л I \1 02 52 log L „ , "Ваг = jv Q^r- = ^ + «/Wia- При A/-voo имеем г/->г/|, = ф-'(ft). С этой заменой асимптотическая ковариационная матрица может быть получена обращением матрицы ("" ^Л, например, \@l2 W22/ r-j* 02 (О22 _ 02 ^ Л^ WuW2ii —wfs ~ Я ^^^ И Т. Д. Тем самым определяются jx^i и, аналогично, jXij и (Х22- Коэн A961) табулировал эти значения и p(fi, а) как функции г/о- Чтобы получить оценки этих величин, нужно взять в таблицах ^ = (Xmin—А)/&- Те же таблицы применяются также при I типе цензурирования, если брать I =(Xj— jl)/a. Подобные таблицы даны также для случая усечения. Свойства оценок максимального правдоподобия (МП) в случае больших односторонне цензурированных выборок изучались Гальпериным A952). Пример 6.3.1, Гупта A952) привел следующие данные, где х' —дни смерти первых 7 из 10 мышей после вакцинации культуры туберкулеза: л' ■« = logioJr 41 1,613 44 1,644 46 1,663 54 1,732 55 1,740 58 1,763 60 1.778
150 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ 1ГЛ. 6 Гупта предположил, что logx' — нормально распределенная с. в. Оценим математическое ожидание н стандартное отклонение различными методами этой главы. 1. Максимум правдоподобия. У нас случай II типа цензурирования справа. Имеем г = 3, п=10, ft = 0,3, х = = 1,70471, s'' = | i;(x,-x)« = 0,003514. Тогда из F.3.14) у = .-_. jjo^ = 0,654. Из таблицы 6.3 находим Я. = 0,512 и из (б.ЗЛЗ) и F.3.12) получаем 11 = 1,742 н а = 0,079. Таблица 3 Коэна A961) дает приближенно !Xii = l,14, !Л22 = 0,82, р = 0,21, приводя к следующим оценкам ошибки: ст. откл. fi = 0,079 X A,14/10I/2 = 0,027, ст. откл. а = 0,079 х@,82/10)'/2 = 0,023. 2. Наилучшие линейные оценки. Из работы Сархана и Гринберга A970, стр. 198) мы имеем, применяя F.2.5') к цензурированным наблюдениям, я* = 0,0244 .1,613 + 0,0636 • 1,644 + ... + 0,5045 • 1,778 = = 1.746. а-^:=._0,3252-1,613-0,1758-1,644+ ...+0,6107 .1,778 = = 0,091. Из той же работы (см. стр. 229) имеем DiJ,*=0,1167a2, Da* = 0,0989а2, cov(!.i*, а*) = 0,0260а2, что дает следующие оценки ошибок: ст. откл. ii* = 0,091 X @,1167)'/2 = 0,031, ст. откл. а* = 0,091 X @,0989I/2 = 0,029. 3. Упрощенные линейные оценки. Здесь применимы коэффициенты F.2.13) и F.2.14), видоизмененные для случая цензурирования. Гупта A952) получил |j,* ■■<' _ —0,0433 ■ 1,613+0,0491 . 1,644 + ... ... +0,2861 ■1,778 = 1,748. а** = _0,4077.1,613-0,2053- 1,644+ ... ... -' A,3136-1,778 = 0.094, ст. откл. jj,** = 0,033, ст. откл. а** =0,031.
§6.3] ОЦЕНИВАНИЕ ПАРАМЕТРОВ СДВИГА 151 Коэффициенты в этом случае не табулированы, поэтому он более трудоемок, чем предыдущий. Удобство же его в том, что коэффициенты могут быть вычислены вне зависимости от того, даны или нет математические ожидания порядковых статистик. Следует отметить, что МП оценки имеют наименьшее стандартное отклонение. Это происходит главным образом потому, что о получается меньшей, чем (несмещенные) оценки о* и а**. Эффективности ц** относительно |л* и а** относительно о* равны, соответственно, 0,960 и 0,920 (см. Сархан и Гринберг A970), стр. 242). Большинство результатов этого численного примера были получены Гуптой, который первым рассмотрел оценки параметров нормальной совокупности для II типа цензу- рированной выборки. Из-за ошибок Гупты в вычислениях, а также благодаря использованию нами более точных таблиц наши численные результаты в первом и втором случаях и результаты Гупты несколько отличаются друг от друга. Наконец, те же самые наблюдения иллюстрируют метод Блома. 4. Несмещенные почти наилучшие оценки Блома. Оценки F.2.20) продолжают работать в случае цензурирования при условии, что Сц, C^i в F.2.21) заменяются на 0*1, Cfj, определенные следующим образом в случае rj цензуриро- ванных слева наблюдений и г^ —справа: Сн=\ ^ IJ . если O^i^r^, Сц, если ri-\-ls^is^n —г,^ — 1, fn-, у /-2+1' если п — г„ :П, Ctj = -/г, + !ал, + 1. если 0=sSi=^ri, C^i, если ri + 1 ^ i =sS re — Га — 1, fn- Г2+1 если n — r^^i ■ ■ П. Из-за трудоемкости вычислительной работы приведем следующие вспомогательные таблицы для нашего примера:
152 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 7, 8, / 0 I 2 3 4 5 6 9, 10 '/ 0 0,1636 0,2640 0,3323 0,3754 0,3963 0,3963 ^1/ —0,1636 —0,1004 —0,0683 —0,0431 —0,0209 0 0,0209 0,0938 'г«г 0 —0,2517 —0,2644 -0,2180 -0,1411 —0,0486 0,0486 0,I4II ^2/ 0,2517 0,0127 —0,0464 —0,0769 —0,0925 —0,0972 —0,0925 0,0353 Величины // удобнее получить из таблицы 5 Пирсона и Хартли A966). Теперь имеем dii = 0,0794, di2 = —0,0227, 1^22 = 0,1031 и d" = 13,44, di^=2,96, ^^2 = 10,35, что дает 11=1,746 и 5 = 0,090. Из F.2.22) находим также оценки стандартных отклонений: ст. откл. fi = 0,029, ст. откл. а =0,025. Группированные наблюдения. Так как группировка представляет собой частичное упорядочение, кажется вполне естественным выяснить, как широко различные предшествующие методы, соответствующим образом модифицированные, могут применяться к группированным наблюдениям. Уже в 1942 г. Хартли исследовал распределение размаха в группированных выборках из нормальной совокупности и нашел, что средний размах изменяется мало даже при довольно грубой группировке для п^20. Подобные результаты были получены Дэйвидом и Мишрики A968) для математических ожиданий всех порядковых статистик для п^ЮО, хотя эффект группировки (а) более важен для центральных порядковых статистик, чем для крайних (которые более разбросаны), и (б) возрастает с ростом п. Это приводит к тому, что дисперсии порядковых статистик в группированных выборках хорошо приближаются дисперсиями иегруппированных выборок после применения поправки Шеппарда /г^12, где /г —интервал
§ 6.3] ОЦЕНИВАНИЕ ПАРАМЕТРОВ СДВИГЛ 153 Группировки первоначальных, а следовательно, и упорядоченных наблюдений. Из общей теории поправок Шеп- парда следует, что ковариации не требуют никаких уточнений. Эти результаты, взятые вместе, дают основание предположить, что любой из методов, подходящий для негруппированной нормальной выборки, может быть применен и в случае группировки, т. е. веса для соответствующих порядковых статистик являются теперь весами для средних точек соответствующих интервалов группировки. Пример 6.3.2. Первые 20 случайных чисел, имеющих стандартное N@,1) нормальное распределение, данные Бейером A968), равны 0,464; 0,060; 1,486; 1,022; 1,394 0,906; 1,179; —1,501; —0,690; 1,372; —0,482; —1,376 -1,010; —0,005; 1,393; —1,787; —0,104; —1,339 1,041; 0,279. После группировки по интервалам шириной ft = 0,5, начинающимся в нуле, получаем следующие средние точки и соответственные частоты: —1,75B); —1,25C); — 0,75A); —0,25C); 0,25C); 0,75A); 1,25G). Выделяя случай группировки индексом g, имеем для средних значений и стандартных отклонений выборки х = 0,115; s= 1,105; Jf^ = 0,075; 5^=1,066 (с учетом поправки Шеппарда). Конечно, X и Xg также являются оценками для jx (в данном случае !х = 0), использующими порядковые статистики. Наилучшая линейная оценка для о {= 1), использующая коэффициенты Сархана и Гринберга (стр. 224), равна а*=(— 1,787)-(—0,1128)-f(— 1,501)-(—0,0765)-f ... ... -f 1.486-0.1128 = 1.096. Соответствующая оценка для группировки равна а| = (— 1,75) (— 0,1128 - 0,0765) -f ... ... -f 1,25@,0241 -f 0,0318-f 0,0402-f 0.0497-f 0.0611 -f -f 0,0765-f 0,1128) =1,067. Конечно, нельзя говорить об оптимальных свойствах этой процедуры. В любом случае увеличение дисперсии оценки является платой за группировку. Тем не менее
!54 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 утот метод нередко оказывается полезным для генеральных совокупностей, отличных от нормальной, не только для случая полностью известных выборок, но и для цензури- рованных. Другой подход, также основанный на работе Ллойда, был дан Хаммерсли и Мортоном A954). (См. также Гранди A952) и Свами A962).) Цензурирование в случае многомерного нормального распределения. Возникают новые ситуации, если усечению или цензурированию подвергаются многомерные наблюдения. Для определенности рассмотрим II тип цензурирования и возьмем для иллюстрации двумерный случай. Прежде чем какое-то цензурирование проделано, мы, следуя обычному упорядочению первой координаты, скажем х, обозначим соответствующие у через г/[/] (i=\, 2, ..., п), где |[1] — значение у, соотпетствующее х^с). Величины y^i-^ не обязаны идти в возрастаюц^ем порядке. Некоторые свойства двумерной нормальной N (iix, V^y, (^L of., p) с. в. можно найти в упр. 3.2.3. Здесь полезно различать три типа цензурирования (Уотерсон A959)): (A) — цензурирование некоторых X(i) и соответствующих у[1у, (B) — цензурирование только y^^q; (С)— цензурирование только X(,-). Например, случай В (или, точнее, тип II В) возникает, если Х{ {i= I, 2, ..., п) — вступительные баллы, а у[п {i = r-\-l, г-\-2, ..., /г) — последующие баллы кандидатов, успешно прошедших вступительный экзамен. С другой стороны, тип IIС встречается в испытаниях, связанных с продолжительностью жизни после п — г отказов в случае, когда измерения некоторой сопутствующей величины возможны для всех п изделий. Уотерсон получил оценки, основанные на коэффициентах для наилучших линейных Оценок и упрощенных оценок в одномерном случае. Оценки несмещенные, но их дисперсии зависят от р. Оказывается, что использование упрощенных коэффициентов дает оценки более простые с точки зрения вычислений и, вообще говоря, с меньшей дисперсией (см. также Коэн A955а, 1957) к Сингх (I960)). Цензурирование в случаях распределений, отличных от нормального. Мы перечислим ряд работ, в которых рассматриваются оценки параметров сдвига и масштаба для цензурированных наблюдений в случае различных одно-
§ 6.3] ОЦЕНИВАНИЕ ПАРАМЕТРОВ СДВИГА 155 мерных распределений. Литература слишком многочисленна, чтобы позволить здесь ее более детальный разбор, да и используемые методы представляют собой главным образом простые модификации методов для нормальных совокупностей. Как ясно из подхода Коэна, оценивание параметров из усеченных генеральных совокупностей производится подобным же образом, но никаких попыток не сделано, чтобы исследовать этот вопрос систематически. Случай экспоненциального распределения рассматривается отдельно в § 6.4 в связи с оцениванием продолжительности жизни. Для п^Ь наилучшие линейные оценки даны для некоторых генеральных совокупностей Сарханом и Гринбергом A970, стр. 354—358). Библиография Федерера об отборе при селекции содержит список многих относящихся к нашему вопросу работ. Усеченное нормальное: Коэн A955с). Логнормальное: Хартер и Мур A966), Тайкью A968а). Гамма: Коэн A955b), Хартер AS67), Хартер и Мур A967b), Уилк и др. A962b, 1963b, 1966). Х-распределение {с одной степенью свободы): Говинда- раюлу, Эйзенштат A965). Бета: Гнанадесикан и др. A967). Двойное экспоненциальное: Говиндараюлу A966). Распределение экстремального значения: Либлейн A954а), Либлейн и Зилен A956), Манн A967b), Уайт A964), Винер A963). Распределение Вейбулла: Бейн и Энтл A967), Коэн A965), Гумбель A958), Хартер и Мур A965, 1967b), Манн A967а), Менон A963). Логистическое: Гупта и др. A967), Хартер и Мур A967с), Тайкью A968b). Пуассоновское: Коэн A954), Досс A963). Степенное: Ликеш A967). Заметим, что если с. в. X имеет распределение Вейбулла с ф. р. Р(х) = 1-ехр [-(!)*] (х^О), то logX имеет распределение наименьшего значения с ф. р 1—ехр{—ехр[(л- —!л)/а]}, где jj, = log9 и o = \/k. Таким образом, МП оценки (не обязательно линейные) для Этих двух распределений по существу одинаковые, Аиало-
156 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ 1ГЛ. 6 ГИЧНО, если с. в. X имеет степенную ф. р. с плотностью то с. в. —log X имеет экспоненциальное распределение с началом в точке —log 9 и параметром масштаба \/k., § 6.4. Испытания на продолжительность жизни с акцентом на экспоненциальное распределение Если п изделий таких, как радиолампы, предохранители, колбы электроламп, подвергаются испытанию на продолжительность жизни (долговечность), то первым выйдет из строя наименее прочное изделие, затем следующее по прочности и т. д., пока не выйдут из строя все. Таким образом, если время жизни X случайно выбранного изделия имеет плотность распределения р (х), то наше испытание образует ряд упорядоченных наблюдений X(i), Xf^), ..., X(„) из этого распределения. Переходя от физики к биологии, мы можем также интерпретировать X как, например, время, прошедшее до момента смерти после того, как п животных получат одинаковую дозу радиации. Практическая важность подобных экспериментов очевидна. Они дают идеальный пример применения порядковых статистик, так как по природе эксперимента наблюдения поступают в порядке возрастания значений, и нет необходимости упорядочивать их после получения всех данных. Более того, как уже упоминалось в § 6.3, появляется возможность прекращать эксперимент до его полного завершения, останавливаясь в фиксированный момент времени (I тип цензурирования) или после фиксированного числа отказов (II тип цензурирования). При условии, что вид р (х) известен из подобных экспериментов, оценивание параметров часто может происходить с потерей эффективности менее существенной, чем выигрыш во времени. Имеется ряд удобных кандидатур для распределения X, включающий распределения Веибулла, гамма, логнормальное и даже нормальное*). Уже давно наибольшее внимание в литературе на эту тему уделялось экспоненциальному распределению (кото- *) Так как X—неотрицательная св., то коэффициент вариации нормального распределения должен быть настолько мал, чтобы можно было пренебречь вероятностью Р (X < 0).
§641 ИСПЫТАНИЯ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ 157 рое, конечно, является частным случаем как гамма, так и распределения Вейбулла). Экспоненциальное распределение играет такую же важную роль в оценивании продолжительности жизни, как и нормальное в параметрической теории. Следует признать, что в обоих случаях немалую роль играет вопрос удобства, так как здесь возможны простые и элегантные результаты. Как показали Зилен и Даннемиллер A960), отход от экспоненциальности может серьезно изменить процедуры, пригодные для экспоненциального распределения. Однако экспоненцнальность имеет место, когда моменты отказов представляют собой пуассоновский процесс, или, другими словами, когда интенсивность отказа^) (равная условной плотности распределения св. X при условии Х>х) р{х)/{1 —Р{х)) для данного изделия остается постоянной, как будто изделие остается новым в течение всей жизни. Практически это означает, между прочим, что износ изделия фактически не влияет на вероятность появления отказов. Дальнейшее обсуждение этого вопроса читатель может найти у Барлоу и Прошана A969), хотя главная цель их работы —заменить специфические предположения на распределения требованием, чтобы интенсивность отказа менялась монотонно со временем. Этого вопроса касается также монография Кокса и Льюиса A969). Вернемся теперь к более детальному обсуждению экспоненциального случая, но для большей общности возьмем плотность в двухпараметрической форме р(х)= ~ехр[—(х-0)/а] для х^О. F.4.1) Здесь с. в. X имеет среднее В-\-а и стандартное отклонение а. С точки зрения испытания на продолжительность жизни 9 можно интерпретировать как неизвестную точку, в которой начинается «жизнь», или как «гарантийный срок», во время которого не может случиться отказа (Эпстейн и Собел A954)). Другая интерпретация возникает в так называемом «интервальном анализе»: S можно представить как время «поломки» счетчика Гейгера, а с. в. X обозначает интервал между успешными регистрациями ?) в оригинале: failure rate. Синонимы; hazard rate, intensity function, force of mortality. (Прим. перев.)
158 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ.6 частиц. Оставим читателю обоснование результатов, полученных Сукхатме еще в 1937 г., а именно, что для (полной) выборки объема п из генеральной совокупности с плотностью распределения F.4.1) МП оценки для 6 и о имеют вид е = Х(,„ а=2^^^^^. F.4.2) (=2 ЧТО это совместно достаточные статистики и что наилучшими несмещенными оценками являются, соответственно, 9* = ХA, — — и о* =-31- Более того (сравните с § 2.7), величины F; = |(n-i+l)(X(o-X,;_i)), i=l, 2, ...,п (Хо = 9) F.4.3) независимы и имеют плотность распределения р(г/)=ехр(—г/) (г/=2=0). т Т \/ Т ^(/) —^A1 2{п—1H* Так как 7^ '^ 2j ' величина —'^ '-— рас- (■ = 2 1 = 2 Пределена как х^ с 2(п—1) степенями свободы в). Этот результат можно сразу использовать для построения доверительных интервалов и критериев значимости для 0, подчеркивая аналогию с нормальным случаем. Продолжая в том же духе, можно доверительные интервалы и критерии для 9 основывать на отношении Г = « (X(i, — 9)/а*, которое в силу F.4.3) имеет /^-распределение с 2 и 2(re — 1) степенями свободы. Прямым продолжением аналогии с нормальной теорией являются обобщения, также полученные Сукхатме, для критериев, основанных на двух или нескольких выборках (см., например, упр. 6.4.1). Почти нет изменений, учитывая F.4.3), в случае II типа цензурирования справа. Мы просто работаем с имеющимися разностями первых N моментов неудач и оцениваем <s ') Можно также получить общее распределение линейной функции 2 С;Л,;, (см. Ликеш A967);. (=.1
§ 6.4] ИСПЫТАНИЯ ИЛ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ 159 С помощью 1=2 °" Li N~\ 1=2 где теперь 2 (Л/ — 1) а*/а имеет ^^-распределение с 2 (Л/ — 1) степенями свободы. Соответственно, 9* = X(i) . Чита- тель, если желает, может проверить, что а = —т^—а* и /ХA) —МП оценки н что они совместно достаточны. Они являются полными (Эпстейн, Собел A954)). Это формально устанавливает, что а* и 9*, соответственно, единственные РМДН оценки для а и 9. Различные критерии значимости исследовались Эпстейном и Цао A953). Важный случай 9 = 0 отдельно обсуждался в ряде работ и особенно у Эпстейна и Собела A953). Цензурирование I типа и обобщение, связанное с окончанием испытания после Л/-ГО отказа или в некоторый момент Хц, в зависимости от того, что наступит раньше'), рассматривались Эпстейном A954) (см. упр. 6.4.3). Идея здесь заключается в том, что во время проверки гипотезы Н:о^а^ против альтернативы К-<у><у^ мы можем высказаться за Н, не дожидаясь времени х^, если Л/-й момент отказа появляется слишком рано (см. также Бартоломью A963) для оценивания о при I типе цензурирования). Обзор этих и связанных с испытаниями на продолжительность жизни процедур дан Эпстейном A960а, Ь). Тесно связаны с этими задачами проблемы надежности. Надежность прибора при условии его работы по крайней мере в течение времени х (фиксированного) определяется как R{x)=l-P{x) = P{X>x}, что для однопараметрического экспоненциального распределения равно ехр (—х/о) (х^О). Поэтому гипотезы о R ') Эпстейн называет такую процедуру усеченным испытанием иа продолжительность жизни.
!G0 ОЦЕНИВАНИЕ И ПРОВЁРК\ ГИПОТЕЗ [ГЛ. 6 немедленно сводятся к гипотезам о о. РМДН оценки i? для усеченного экспоненциального распределения рассматривались Сатхе и Варде A969). Отметим также, что «последовательная система» из п изделий (или «компонент») с индивидуальной надежностью /?,• {х) имеет надежность, п равную Y\ ^i' в то время как надежность «параллельной п системы» равна 1 — f [ A —Ri)- Эти общие формулы пред- полагают, что отказы появляются независимо друг от друга. Мы увидели, что для экспоненциального распределения время жизни Х^ последовательной системы имеет плотность распределения d Г V -« rf.V 'I ^ О; \^ ! \1 7 - ех р — X 7 Ал О; Г. е. Xs имеет однопараметрическое экспоненциальное распределение с математическим ожиданием (i](l/ci/)) \ которое в случае одинаковых «компонент» сводится к а/п. Цензурирование слева и двухстороннее цензурирование в экспоненциальном случае. Можно заметить, что в предыдущем обсуждении все цензурирования были справа Цензурирование слева (к счастью, менее важное) не дает столь элегантных результатов. Однако здесь можно прибегнуть к общему подходу Ллойда (Сархан A955)) или использовать упрощенные оценки (Эпстейн A956)), краткий перечень которых имеется в книге Сархана и Гринберга A970) (см. также Тайкью A957b)). Общие оценки для двухстороннего цензурирования даны в упр. 6.4.5. Следует отметить, что эти результаты включают и результаты, связанные с цензурированием справа, но предыдущий подход необходим, чтобы установить РМДН оценки в классе всех, а не только линейных, оценок. Обширные таблицы для «i^lO даны Сарханом и Гринбергом A957). Некоторые ссылки. Литература по испытаниям на продолжительность жизни и по теории надежности огромна. Работы, представляющие статистический интерес, можно найти в библиографическом справочнике Бакленда A962) и в библиографии Менденхолла A958) с добавлениями
^ 5.5] РОБАСТНОЕ ОЦЕНИВАНИЕ 161 Говиндараюлу A964). Ниже следует краткий список ссылок (в добавление к уже имеющимся в этом параграфе), в которых важную роль играют порядковые статистики. 1. Испытания на продолжительность жизни (параметрический случай): Бейн и У икс A965), Барлоу и Прошан A967), Барлоу и др. A968), Бартоломью A957), Басу A965, 1968), Черчмэн и Эпстейн A946), Коэн A963, 1966), Кокс A959, 1964), Дэйвид A957), Доксам A967), Гани и Йео A962), Гарнер A958), Гудмэн и Мадански A962), Гупта A962), Гупта и Гролл A961), Гупта и Собел A958), Хогг и Тэнис A963), Джекобсон A947), Ликеш A962, 1967), Мадански A962), Ментел и Пастернак A966), Миллер A960), Прошан и Пайк A967), Рао A962), Тэнис A964), Тайкью A968с), Зилен A959). 2. Испытания на продолжительность жизни {непараметрический случай): Барлоу и Гупта A966), Басу A967), Эйльбот и Нэдлер A965), Шорак A967), Уолш A956). 3. Надежность: Бэйбик A968), Бирнбаум и Сондерс A958), Бирнбаум и др. A961), Изари и Прошан A963), Джонс и Либерман A966), Лентнер и Бюхлер A963), Моррисон и Дэйвид A960), Рутемиллер A966), Сондерс A968), Закс и Ивен A966). 4. Интервальный анализ: Барнард A953), Магуайр и др. A952, 1953). § 6.Б. Робастное оценивание До сих пор в этой главе, кроме редких ссылок на непараметрические методы, мы рассматривали использование порядковых статистик в ситуациях, когда вид распределения генеральной совокупности был известен. На практике подобные допущения о распределениях встречаются редко, и возникают два типа вопросов: 1. Как построенные (и, возможно, оптимальные в некотором смысле) оценки для одного типа распределений будут себя вести, если на самом деле мы имеем дело с другими распределениями? 2. Можем ли мы построить оценки, которые ведут себя хорошо (т. е. являются робастными) для различных распределений и/или в случае загрязнения выборки посторонними наблюдениями? " г. Дэйвид
162 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 Эти вопросы представляют значительный общий интерес и ни в коей мере не ограничиваются оценками, являющимися линейными функциями порядковых статистик. Тем не менее ясно, что загрязнение выборки или некоторое изменение исходного распределения скорее всего влияют на несколько наибольших и наименьших наблЮ/дений. Наш подход (который будет продолжен в § 8.5) заключается в устранении таких экстремальных наблюдений при помощи некоторого критерия значимости и в построении оценок только на основе остающихся наблюдений. Здесь, однако, нас интересует робастность без такого предварительного отсева данных. Рассмотрим вопросы 1 и 2 подробнее. Тьюки, которого, без сомнения, можно назвать основоположником робастного оценивания, убедительно показал A960), что в то время как для выборки из нормальной совокупности N (|л, а*) среднее отклонение имеет асимптотическую эффективность 0,88 относительно стандартного отклонения в оценивании о, ситуация меняется, если в нашей выборке присутствуют наблюдения из другой нормальной, скажем N (jx, 9а*), совокупности: уже 0,8-процентная примесь второй совокупности резко меняет картину. Результаты для оценивания |л не так наглядны, но тем не менее даже более важны. Для полной выборки из неизвестной генеральной совокупности никакая оценка для |л не применяется так широко, как X, и не имеет таких впечатляющих достоинств: несмещенность для всех генеральных совокупностей, имеющих математическое ожидание, достаточность, полнота и отсюда полная эффективность для, скажем, нормального, пуассоновского, гамма-распределений и при достаточно широких условиях удобное асимптотически нормальное распределение, которое во многих случаях приближенно достигается даже при средних размерах выборок. Тем не менее имеются и недостатки: эффективность среднего равна нулю для равномерного распределения, а для некоторых выборок уже одно постороннее наблюдение может сделать X бесполезным. Давно известно, что середина размаха оптимальна в первом случае, но много хуже, чем X, во втором и что медиана, наоборот, предпочтительнее во втором случае, но хуже — в первом. Вывод очевиден: нельзя ожидать, что оценка будет хорошей при достаточно широких предположениях.
§ 6-5] РОБАСТНОЕ ОЦЕНИВАНИЕ 163 Кроу И Сиддики A967) рассмотрели робастное оценивание параметра сдвига для класса J^, состоящего пс крайней мере из двух представителей следующих симметричных распределений: равномерного {R), параболического (Р), треугольного (Г), нормального (Л/), двойного экспоненциального (DE) и Коши (С). Проблема состоит в исследовании различных классов оценок с целью нахождения тех из них, которые, возможно, не являясь оптимальными для любого из упомянутых выше распределений, ведут себя хорошо для всей или какой-то конкретной совокупности. Заметим, что Кроу и Сиддики не рассматривали специально случай загрязненной выборки, но оценки, которые ведут себя хорошо для распределений с «тяжелыми хвостами» (таких, как DE и С), по-видимому, являются робастными в случае присутствия аномальных наблюдений. Так как их исследования посвящены симметричным распределениям, то авторы рассматривают только оценки вида 2и(«) = 1] «i^(«). где an-t+i = ai, 2«i = l. F.5.1) 1 г и, в частности, для Р = ~2~^ следующие оценки: а) уинсоризованные средние «^«(P) = i n-r-l ^С) i=:r+2 (r+i)(X(.+i)+X(„_„)+ 2 ^( ■■r + 2 @<г<1(«-1)), ^nU^j^X^n+m), если п нечетное; (г = ^{п~1)]; б) усеченные средние п—г »=г4-1
164 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 в) линейно взвешенные средние U{P) = 2B/ — 1) (X (г^у, + X fn-r+i-f> 2(п/2-/-J п-1 B/-Г)(Х, +^,„_ ) + (п-2.)Х(( — {п нечетное); Г) медиана и две другие симметричные порядковые статистики: Yn{p, а) = ^( а (Xf^r+i) + ^(п-г)) + (т - «) (^("/2) + ^(п/г+1)) (га четное), 1 а (Xf^r+i) + X^n-r) + A - 2а) X^^„щ/2) {п нечетное). Для n — i возможно только г = 1, так что (а) —(в) совпадают и представляют частный случай (г) при а =1/2, являющийся наиболее общей линейной систематической статистикой Z, (а) = а (Х(,) + Х(з)) + (у - а) (^(i) + Х^,^). Легко показать, что D{Z^{a)) минимальна для а = 0A = = -J (c^ii + с^14 — c^i2 — с^1з)/(с^гг + с^гз + c^ii + c^u — 2ai2 — 2с^1з). где дисперсии и ковариации для R, Р, Т и N предполагаются известными (глава 3)*). График 6.5 дает эффективность 1^{а) относительно Zj (йд) как функцию а. Рисунок показывает, что выборочное среднее (а = 1/4) на самом деле является оценкой, *) Для распреД1;ления Коши все вторые моменты бесконечны для п = 4.
§6.Б] РОВАСТНОЕ ОЦЕНИВАНИЕ 165 наиболее робастной для этих четырех распределений, и что оно гарантирует по крайней мере эффективность 0,8. С другой стороны, если мы допустим возможность аномальных наблюдений и ограничимся рассмотрением N и DE, то а = 0,36 соответствует лучшая оценка и Z4i@,36) гарантирует эффективность 0,95 для этого узкого класса распределений. (Дальнейшие детали и результаты для случая ге = 8,16, со см. Б работе Кроу и Сиддики A967).) Дополнительные асимптотические результаты получены Сиддики и Раджанандананом A967). Как асимптотические результаты, так и результаты для малых выборок в том же духе получены Гаствиртом и Коэном A968), которые особенно обратили внимание на масштабно-загрязненные нормальные распределения (см. конец П.3.1). Филли- бэн A969) изучал роба- стность с помощью ?1,-распределения Тьюки. Несколько отличный подход к той же проблеме робастных оценок параметра сдвига для симметричных распределений был развит Бирнбаумом и Лаской A967) (упр. 6.5.1). Ходжес и Леман A963) указали, что для симметричных распределений любой ранговый критерий для параметра сдвига может быть преобразован в оценку для |л. Если, например, ранговым критерием является критерий Вилкоксона (для одной выборки), то оценкой будет 7" = = medM,-,/, где Mt,f = Yi^W + ^u))y т.е. Г —медиана -2-re(re+l) попарных средних, включающих сами наблюдения. Эта оценка имеет желаемые свойства (в случае больших выборок), и можно интуитивно ожидать, что она обладает значительной робастностью относительно аномальных Наблюдений. Подобные статистики, изучаемые в интересной Q4 0J а
166 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 работе Ходжеса A967), имеют вид U = medMif и D= med Mt,n-tn- i<t Статистика D значительно проще с точки зрения вычислений, чем две другие. Ясно, что средние значения симметрично расположенных порядковых статистик являются наиболее подходящими среди всех попарных средних для оценивания параметра jx в симметричном случае. Поэтому можно надеяться, что Т ненамного эффективнее D. Ход- жес показывает, что это так для п=\8, с помощью тонкого выборочного эксперимента, находя эффективности и соответствующие стандартные отклонения 0,949 ± 0,007 для Т, 0,956 ±0,006 для U и 0,954 ±0,007 для D. Как Таблица 6.5 Эффективности усеченных и уинсоризованных средних для нормальных выборок объема 18 (из работы Ходжеса A967)) г 0 1 2 3 4 Усеченные средние 1,00000 0,97462 0,94084 0,90367 0,86429 Уинсорн- зованные средние 1,00000 0,98116 0,95581 0,92501 0,88896 г 5 6 7 8 Усеченные средние 0,82314 0,78030 0,73535 0,68563 Унисоризо- ваиные средние 0,84749 0,80021 0,74649 0,68563 ведет себя D по сравнению с усеченными и уинсоризо- ванными средними? Таблица 6.5 воспроизводит результаты Ходжеса для нормальных выборок объема 18, где эффективности получены из таблиц ковариаций нормальных порядковых статистик, г = 0 соответствует выборочному среднему и г = 8 — выборочной медиане. Мы видим, что D имеет почти такую же эффективность, как и уинсоризо- ванное среднее W для г = 2. Заметим, что W становится бесполезной, когда имеется г>2 отсутствующих или аномальных наблюдений с одной стороны, в то время как D может допускать 4 таких наблюдения. Ходжес формально определяет толерантность в этом смысле, пока'
§ 6.Б] РОБАСТНОЕ ОЦЕНИВАНИВ 167 зывая, что она равна -^(п — 2) для D„, Так, комбинируя эффективность для нормальных выборок и толерантность, находим, что D оказывается лучшей по крайней мере для д=18. Ни одна другая линейная оценка той же толерантности, что и W, не дает эффективности с точностью до трех десятичных знаков лучшей, чем W (Диксон A960); сравните с § 7.2). Асимптотические результаты для D имеются у Бикела и Ходжеса A967). Другой интересный подход к робастному оцениванию недавно был предложен Хоггом A967). Примером его класса статистик является следующая оценка Н центра симметричного распределения *): 'Xc(l), если й,<2, X, если 2!=5Й2<4, Н: 4i)- если 4 < ^2 ^ 5,5, М, если Ь^ > 5,5, где ■^^(х) является средним [re/4] наименьших и [re/4J наибольших наблюдений, ^(х) —среднее") оставшихся внутренних наблюдений, X и М — выборочное среднее и медиана и й^ — выборочный эксцесс: Таким образом, выбор оценки зависит от предварительных вычислений (которые не обязаны ограничиваться Ь^). Поскольку ■^''(х) имеет хорошие свойства в области Р2<2, где Pg —эксцесс генеральной совокупности, и т, д., можно ожидать, что Н ведет себя хорошо и даже несколько лучше, чем статистика Т Ходжеса и Лемана, что и показал Хогг с помощью выборочного эксперимента для 200 *) Я —наш символ; у Хогга —Г. ^'') X (J 1 = Tnf J 1, когда п/4 целое. Это статистика пользуется Признанием как общая робастная оценка в случае, когда имеется мало информации о генеральном распределении (Тьюки, Кроу, Сид- Дики, Гаствирт и Коэн),
168 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 выборок объема re = 7 и 25 из каждого из четырех симметричных распределений с приближенными значениями ^2 = 1,9; 2,7; 3,9; 9,9. Другие работы по робастному оцениванию основаны на асимптотической теории. Следует отметить работы Бикела A965), Гаствирта A966), Гаст- вирта и Рубина A969) и Хубера A964). Для выборок объема 20 из нормального распределения, загрязненного другим нормальным распределением, Леони и др. A969) сравнили при помощи метода Монте-Карло оценки Хубера с выборочным средним и оценками Ходжеса — Лемана. Уделялось внимание и распределению оценок. Упомянем здесь предложение Тьюки и Маклафлина A963) оценивать математические ожидания симметричных распределений при помощи подходящим образом усеченного варианта (усечение и числителя, и знаменателя) статистики Стью- дента t. Они рекомендуют такую статистику для общего использования (в случае симметричных распределений), так как она защищает от влияния аномальных наблюдений и является обоснованно робастной для распределений с «тяжелыми хвостами», т. е. таких, которые часто встречаются на практике. Соответствующее уинсоризованное / исследовалось Диксоном и Тьюки A968). (См. также обзорную статью Хубера A968).) Упражнения 6.1.1. Пусть и(х) непрерывна. Дифференцированием по в показать, что нз F.1.1) следует и{х) = 0 для всех х^О. Если и(х), вообще говоря, не является непрерывной, то запишем и(х) = и'^(х) — — и~ (х), где U+ и и~, соответственно, положительная и отрицательная часть и(х). Показать, что в этом случае из F.1.1) следует, что и(х)=0 почти наверное для хз^ О (Леман A964)). 6.1.2. Для равномерного распределения из примера 6.1.2 найтя выражения для эффективности медианы как оценки |х в случаях четного и нечетного п. Показать, что в обоих случаях асимптотическая эффективность равна нулю. 6.1.3. Обсудить Оценивание б в следующем случае: р(х,в) = \/в, если кв£^х^(к-{-\)в; 6 > О, k>0 (Кендалл и Стьюарт A973), стр. 52). 6.1.4. Показать, что наименьший доверительный интервал для 9 в F.1.6) для коэффициента доверия 1—а имеет вид С-1 [«-'''"С B)] === 6 s£ г (Хузурбазар A955)),
УПРАЖНЕНИЯ 169 6.1.5. Пусть Yi, Уг» ■■■, Кь —максимумы, соответственно, п,, П2> ■■■• "* S П1 = п\ С. В., независимых и имеющих общее i? (О, 1) распределение. Тогда плотность распределения с. в. Y{ имеет вид / (Уд = "■1у~', если О е= 1/, ^ 1. Пусть также k г = таху1, "=XIj'f'' ^' = u|z'^. ' f = i Доказать, что (а) -21og(/~xifc; (б) -21ogy~Xi„i_„ (во втором случае показать вначале, что V и Z статистически независимы) (Хогг A956)). 6.1.6. Пусть X имеет плотность распределения р {х; Ь) = С (б) g (х), если а^х^Ь(Ь), и р (х, е) = 0 для других х, где g (х)—однозначная положительная непрерывная функция л; и b (б) строго возрастает по б. Пусть Yi (i = l, 2, ..., k) -я Z определены, как в упр. 6.1.5, за Исключением того, что Yt—теперь максимум п; с. в. с плотностью р{У1, bi). Показать, что отношение правдоподобия А, для проверки гипотезы Н^: 61 = 62=-.. = б^ {k>\) против общей альтернативы k равно [С @]"/П [^ ('')]"'• '"Де h = b--^{yi) и ^ = b-i(z), и что при 1 = 1 условии Яо величина —2 1ogX имеет распределение x|(/i—i) (Хогг A956)). 6.2.1. Проверить, что для с. в. X, равномерной на отрезке (|х—-S-W, ix-f-^w), метод Ллойда дает оптимальные оценки М и W из примера 6.1.2 (Ллойд A952)). 6.2.2. Показать, что для правотреугольного распределения с плотностью р(л:) = ^?~^^'^д + ^^ ^ для ц-2 }А2" Ой:л; ===nH-V^2"а справедливы соотношения _6«г—4 п(п—1)...(/-Н-1)/-.2"-^1 "'^Т^' '^^ °''-BпН-1)Bп-1)...BлН-3)B.Н-1)' Р..= 18(^-<), R (s-l)(s-2)...(r+\)r.2s-r.p^^ P^*-Bs- 1) Bs —3)... B/-Н-3) B/-Н- 1) ^ ■•'
170 Оценивание и проверка гипотез и что оценками для ji и а являются [ГЛ. 6 |л- = 3 2п-1 V^ 2±х,„+..,„+а^х,.,.2}1(»21-'). 1 = 2 [B1+.)л,.,-.х„,-21Ч/(^-') (Даунтон A954)). 6.2.3. Показать, что в случайной выборке из любой генеральной совокупности, зависящей только от параметров сдвига и масштаба, среднее н размах некоррелированы, если 2 Ри=1] Р'« 1=1 1=1 (Айяр A963)). 6.2.4. Показать, что если а в F.2.1) известно, то наилучшая линейная несмещенная (НЛН) оценка *|х для |х и ее дисперсия даются соотношениями *ji=ji*—(а*—а) COV (ji*, a*)/Da* D*ji=Dn* —[cov(n*, a*)]2/Da*, и что соответствующие результаты для а в случае, когда ji—известный параметр, получаются после перестановки ix и а (Хадсон A968)). 6.2.5. Показать, что когда одна из величин а н |х известна, несмещенная почти наилучшая оценка Блома другой величины имеет вид, соответственно, ц=- а = - 1 Li= I ^ ft (Си — Ci, t-i) Хф — adi2 = I п ^ fi{Cn — Cj, ^-l)X^i^— jidi2 (Блом A958), стр. 121). 6.3.1. Для двухсторонне цензурированной (ri наблюдений слева и /-2 — справа) выборки из равномерного распределения с плотностью р(л;)=»1/@, если ji —(в/2 ^л; ^^-|-(в/2,
УПРАЖНЕНИЯ 171 получить следующие результаты в обозначениях § 6.2: -/4 + 2 /■, + 1 2 -1 ... О 2 ... О 0 = (п+1)(п + 2) -1 О О п+1 п—гз—1 (Я-/-2)('-2+1) П~Г , ^,*=.^[(п-2л,-1)Х,,, + „ + (п-2л^-1)Х,„_,.,]/(п-л,-л,-1), «'*=„_^^_^,_1 ('^(п-г.)-'^(г. + 1)), ^'^^ 4(п+1)(п + 2)(п-л1-Лг-1) Dca* /V+M-2 •(п + 2)(п-/-1-/-»-1) (В2 (Сархан A955), Сархан и Гринберг A959)). 6.3.2. Для II типа цензурированной выборки *п\ ^a^j», ^... ...^x,f^. из распределения с математическим ожиданием ji и дисперсией 0^ положим W —1 %-i=lvirr 2 """" ^io = ^((^(JV-i)-t^)/''), 1 = 1 S„i=E((X,jv^-^i)/a), Cfw_-i (W —1 -|гГЛ' —1 "рл (f, /=0, 1, 2). Показать, что следующие оценки, симметричные относительно -Хц). •^(jj, ..., X jy_j,, являются несмещенными, соответственно, для ji и ог«: eXjv_i+(l-e)Xjv. где 8=(;„j/(Coj-eio); где (=1 7V—1 1 = 1 а = (ilionoa — 1oiTlii)/('n!oT)o2 + T)§jTi2o — З^ПыТк^т)»),
172 ОЦЕНИВАНИЕ и ПРОВЕРКА ГИПОТЕЗ [ГЛ » И ЧТО вторая оценка имеет минимальную дисперсию по (а, р) (Со A959)). 6.4.1. Пусть хц \i=\, 2 k; /=1, 2 я,; ^ П1 = ы\ — \ t=\ I k независимых выборок с Xtf, имеющими плотность распределеш.я 1 — ехр (—(х—бг)/а) (х^в{). Пусть X{a, = minxt, и Хц, ,i)=minx,w. / i, i Показать, что равенство всех в{ можно проверить с помощью выражения _t ^J^(xij-xia,)l(N-k) I i и таблиц f-отношения с 2(fe—1) и 2{N — k) степенями свободы (Сукхатме A937)). 6.4.2. Пусть xt (i==l, 2, ..., т), yj (/=1, 2, ..., я) —независимые выборки с плотностями распределения р (X) = а^' ехр (— (л; — 6I ах) (ж 5г 6) и р(у) = о~у'йх^(—(у-6IEу) (г/2=6), соответственно. Пусть также u=im{Xa) — ya-i)l<^x для Ха:>Уаи v=2n(ya,—Xa,)/0y для г/,ц >•«(!) и w = v для 1/а)>л;,1, и а) = и для Ха> > f/(i)- Показать, что (б) (/, У, Ц7 имеют распределение х* ^ 2 степенями свободы (Эпстейн и Цао A953)). 6.4.3. Испытание на продолжительность жизни для я изделий с независимыми временами жизни Х{, имеющими плотность распределения — ехр (— х/а) (X Э= 0), кончается, как только N изделий выйдут из строя, или в момент Хд (в зависимости от того, что наступит раньше). Показать, что при этой процедуре: а) ожидаемое число отказов равно где р=1—ехр(—хо/а);
УПРАЖНЕНИЯ 173 б) ожидаемая продолжительность испытания равна "^сУО-рГ-'-^ЕХ^^^Н- 2 С^р^A-р)"~'ЕХ 1 = 1 i= N где ЕХ,,,=а( \ Г+---Н гт) ('■ = 1' 2, ..., я). " \ я ' я—1 ' ' я_/-^1у ^ > • / Вывести также соответствующие результаты, если изделие заменяется мгновенно после выхода из строя так, что в испытании всегда участвуют я изделий. (Эпстейн A954)). 6.4.4. Показать, что для II типа цензурированной выборки из равномерного R (О, 1) распределения статистика N i = 1 имеет плотность распределения (О ^ г/ ^ m), где m не обязательно целое число и суммирование продолжается до тех пор, пока т — у, т—1 — у, ... остаются положительными. Указание. Показать вначале, что совместная плотность с. в. N—1 К = Х,д,, и W= 2 ^^t)I^^N) имеет вид f{v, w) = f(v)f{w\v) = (Л/_1)!(„_Л')!^' ^ "^f {N-2)\\ f^~^ -Clj_i{w-lf-'^ + ...} (O^DsCl; Os^w^N-l) (Гупта и Собел A958)). 6.4.5. Показать, что для выборки объема я из генеральной совокупности с плотностью р (л;)= —ехр ( —(х —б)/а) (х^О) с Гх наблюдением, опущенным слева и /-g —справа, НЛН оценка имеет вид л, + 1 I' = 1 / '•i.+ l \ r. + l n-rj '=С ( = 1 / i=l i = ri + l
174 ОЦЕНИВАНИЕ И ПРОВЕРКА ГИПОТЕЗ [ГЛ. 6 а* = С п—п (п-г.) > где \/С = п — г1—/-J—1. Получить также, что De* = Г1 + 1 i = l 2 rt + l Zi n—i+l "*" Zi (n—i i = I (rt-i+lJ 02 и Da* = Ca2 (Сархан A955)). 6.4.6. Пусть р(д:)=—exp(—ж/а) (x'^0) н C^_ —с. в., равная 00 !p(x)dx, где L(JO—Функция выборки Xj, Xj, ..., Х„. Нужно найти толерантный интервал {L(X), оо) такой, что P|C^_^7} = P и '^I^L^V'}^^ для v'>V- Показать, что L(X) = 2(-logy) Xi-pBa) удовлетворяет обоим требованиям, если г выбрано настолько боль- lofi v' ■> о шим, что ■j-^-!-Xi_a[B/-)^3(l—в B'') (тогда можно выбрать п'^г) (Фолкенберри и Уикс A968)). 6.5.1. Пусть X имеет плотность (l/a)g((x — \i)/a, X), где А, —неизвестный параметр формы. Предположим, что g{y, %) симметрична по у = (х—ц)/а для данного Л е Л. Обозначим Е (У,„ I Л) = а^, GOV (У„„ У,„ I Л) = ^\. Далее, предположим, что А, имеет ф. р. Н (Л), н определим а« = Е(/(„|Я)=.^а^йЯ(>.), А И пусть pj^ —ковариация У, ,, Y,^^ в этом виде смеси. Показать, что (а) В"^^\ ^\dH(k) + \a)a)dH{-k)-]a)dH(k)]a)dH(X); (б) если а'^, pj^ даны, то ji можно оценить в этой модели при помощи теоремы Гаусса —Маркова с помощью
УПРАЖНЕНИЯ 175 Dji^ = I'ii"!' (в) Е(ц^!>.) = ц, Взяв в качестве Н {X) двухточечное распределение с h = P {Х=1} и 1—Л=Р {Х = 0}, указать, как, используя предыдущий подход, можно определить «наиболее робастную смесь» двух распределений, т. е. смесь, максимизирующую минимальную эффективность относительно НЛН оценки при каждом из распределений (Бирнбаум и Ласка A967)). 6.5.2. Показать, что для выборок объема я=2т+1 (т=0, 1, 2, .,.) из распределения Коши с плотностью р (л:) — п i i \2\ я A -]-(д; ji) ) усеченное среднее l = m — [nk] является несмещенной оценкой для \и с асимптотической дисперсией (минимум достигается при й==0,24) (Ротенберг и др. A964)),
ГЛАВА 7 «БЫСТРЫЕ» ПРОЦЕДУРЫ § 7.1. Введение В то время как в главе 6 мы рассматривали главным образом процедуры оценивания и проверки гипотез, оптимальные в некотором смысле, мы теперь обратимся к методам, предназначенным главным образом для нормальных выборок; основным достоинством этих методов является их простота. В некоторых случаях учитываются и другие достоинства, такие, например, как робастность (см. ранние работы Бенсона A949)). Цензурированные наблюдения, для которых оптимальные методы могут быть весьма трудоемкими, дают широкие возможности для существенного облегчения работы. В этом введении мы проиллюстрируем кратко ряд общих свойств «быстрых» *) методов на примере выборочного размаха w, пожалуй, наиболее широко используемой из всех «быстрых» статистик. Правда, вычислительные преимущества w, по сравнению с выборочным стандартным отклонением s = [2 (Xj —x)V(ra—1)]"^, становятся все менее важными ввиду появления быстродействующих вычислительных машин, но остаются преимущества, связанные с простотой w и возможностью для неспециалистов применять эту статистику. Так, w почти совсем вытеснила s из контроля качества, где выборки небольших объемов берутся через короткие интервалы времени и их средние значения и размахи отмечаются на графике (§ 7.9). Хотя мы здесь и рассматриваем размах с точки зрения быстроты получения оценок, следует отметить, что имеются В оригинале; short-cut. (Прим. перев.)
§ 7.1] ВВЕДЕНИЕ 177 ситуации, в которых размах является единственно возможной или наиболее подходящей оценкой. Так, размах моментов появления п событий является наиболее подходящей оценкой одновременности событий (см. также работу Эйзенхарта и др. A947), гл. 5), где описываются другие случаи применения размаха). Таблицы процентных точек размаха и стьюдентизиро- ванного размаха приводятся в П.2.3 и П.5.2, соответст^ венно. Независимость W (подобно независимости S) от X в случае нормальных выборок была отмечена в § 2.7. Можем ли мы, учитывая эти основные положения, использовать W широко в оценивании и проверке гипотез? Можем (хотя и не так широко, как S), правда, применяя при этом дополнительные таблицы, а иногда и приближения. Подходящие таблицы имеются для многих целей, делая очень простым математический аппарат, использующий размах (см. § 7.3 с точки зрения оценивания и § 7.7 с точки зрения проверки гипотез). В этих параграфах рассматриваются также вопросы эффективности, мощности и робастности. Спрашивается: в какой степени «быстрые» методы дают те же самые выводы, что и стандартные, когда и те и другие применяются к одним и тем же наблюдениям? Этот вопрос был экспериментально исследован еще в 1935 г. Пирсоном и Хэйнесом, которые построили графики для ряда небольших выборок реальных наблюдений. С помощью известного стандартного отклонения о они нанесли на свои диаграммы значения нескольких верхних и нижних процентных точек как для W, так и для S, так что можно было получить для любой выборки соответствующие уровни значимости и непосредственно сделать выводы. Более теоретические подходы были развиты Коксом A956) и Дэйвидом и Перезом A960). Хотя W и S не являются нормально распределенными, ответ на поставленный вопрос, по крайней мере для нормальных выборок, можно получить, рассматривая коэффициент корреляции p(W, S). Его легко найти из соотношения p{W, S) = (eff ога,)'''^, где eff а^ — эффективность оценки оГщ,, приведенная в таблице 7.3.1 (см. также упр. 7.1.1). «Быстрые» Оценки разброса, отличные от размаха и его среднего значения, обсуждаются в § 7.4, «быстрые» же оценки параметра сдвига—-в § 7.2 и, наконец, «быстрые» оценки для двумерных выборок — в § 7.5.
178 сБЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 Наибольшее сомнение с точки зрения помещения в этой главе вызывают методы, использующие оптимальные наборы порядковых статистик (§ 7.6). Это «быстрые» процедуры для оценивания параметров в средних и больших выборках, основанные на k (k-^n) порядковых статистиках, выбранных так, чтобы обеспечить асимптотическую оптимальность оценок в классе линейных функций k порядковых статистик. Вероятностные графические методы (§ 7.8), несмотря на то, что они не новы, вновь обрели признание в последние годы и играют возрастающе важную роль в неформальных методах анализа наблюдений. Статистический контроль качества, во многом зависящий от использования размаха, вкратце рассмотрен в § 7.9. § 7.2. «Быстрые» оценки параметра сдвига Если учитывать вычислительную простоту выборочного среднего, другие оценки параметра сдвига могут показаться несоответствующими содержанию этой главы, имеющей дело с «быстрыми» процедурами. Для полных выборок это, конечно, так, но положение меняется, если мы рассматриваем цензурированные наблюдения. Но даже и в полных выборках другие методы оценивания могут иметь преимущества с точки зрения робастности, как уже обсуждалось в § 6.5. Здесь мы ограничимся простыми оценками (старейшей, наиболее робастной и простейшей из них является выборочная медиана М). Для нормальных выборок исследования распределения и моментов М восходят к работам Хойо A931, 1933), К. и М. Пирсонов A931). Несколько позже Кэдуэлл A952) исследовал приближения плотности распределения М, которые дают результаты, очень близкие к реальным значениям а*(М) и ^^{М), даже для малых выборок (см. упр. 7.2.1 для нечетных п). Так как р^ (Л^) = 3,0347 для re = 3 и еще ближе к 3 для больших п, тенденция к нормальности проявляется довольно быстро. Чу A955) подтвердил этот результат теоретически. Однако простая асимптотическая формула а* (М) — [4re (р (И'))*]"-' не дает такого же хорошего приближения к точной дисперсии. Чу и Хотеллинг A955) исследовали поэтому множество приближенных методов, применимых также к другим генеральным совокупностям. Один
J 72) «БЫСТРЫЕ» ОЦЕНКИ ПАРАМЕТРА СДВИГА 179 ИЗ ЭТИХ методов в дальнейшем изучался Сиддики A962), который сравнивал приближенные и точные значения а*(М) в нечетных выборках для распределений: равномерного, нормального, экспоненциального, Коши и с плотностями Px{x)=i(^-^'r"' (^"^1). РеW=1A-^'') (^"^i) и jDsW^y^^P (""" 1^1)- Ходжес и Леман A967) табулировали эффективность М для нормальных выборок в случае п^20 как точно, так и с помощью обычных асимптотических формул, взятых с точностью до порядка 1/п (см. также упр. 4.5.1). Хотя эта эффективность больше, чем асимптотическое значение 2/пя5^ 0,637, она не является высокой, будучи равной 0,743 для п = 3, 0,838 для ге == 4 и принимая еще меньшие значения для больших значений п. Это, конечно, основная причина для отыскания других оценок параметра сдвига, желательно еще и робастных. Диксон A957) дал для нормальных выборок объема л— 1 re<20 эффективности усеченного среднего '^ — "ZZo^ ^С И двухточечного среднего -^{X(f^-{-X^), где in/ выбраны из условий максимальной эффективности. Интересно отметить, что эффективность Т относительно НЛНО (наилучшей линейной несмещенной оценки) всегда не меньше 0,99, в то время как для двухточечного среднего лишь немного выше своего асимптотического значения 0,81. Для re> 5 оптимальные i и / близки 27- и 73-процентным точкам, которые находятся из асимптотической теории (§ 7.6). Для цензу рированных наблюдений Диксон (I960) предложил рассматривать уинсоризованные средние ^ = i[(^ + l)^(Hi, + X(,+,)-f...-fX(„_i_,)-f(/-M)X(„_,)] в случае, когда t наблюдений цензурировано с одной стороны и /<i—-с другой. Хотя эта оценка и не использует i — j наблюдений, эффективность W относительно НЛНО, основанной на всех имеющихся n — i — j наблюдениях, не меньше 0,956 для п^20 и i^6 {n^2i + l). Другой оценкой параметра сдвига является середина размаха ^(Xd,-f Л(„,). Эта оценка, конечно, не является
180 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. Г робастиой к аномальным наблюдениям. Однако она оптимальна для равномерной генеральной совокупности (§ 6.1) и сохраняет хорошие свойства для других симметричных распределений с конечным диапазоном значений и малыми значениями эксцесса Ра (Райдер A957)). Хартер A961 Ь, 1964 а) обсудил оценивание параметров отрицательного экспоненциального распределения с помощью одной или двух порядковых статистик. Для однопараметрического экспоненциального распределения он дал как точные оценки, так и доверительные интервалы, основанные на наилучших одиночных порядковых статистиках. Так как выборочное среднее —оптимальная оценка, то наша основная цель, как и раньше, состоит б получении оценок, которые можно было бы использовать даже в том случае, когда некоторые из максимальных по величине наблюдений цензурированы или ненадежны. § 7.3. Размах и средний размах как оценки разброса Точное распределение размаха W в непрерывных выборках получено в § 2.3. Результаты для дискретных генеральных совокупностей даны в упр. 2.4.2. Для нормального Л/(|л, о^) случая, с которым мы главным образом будем здесь иметь дело, имеются обширные таблицы процентных точек, ф. р. и моментов с. в. W (см. П.2.3 и П.3.2). Весьма простая несмещенная оценка о^ для о получается умножением W на l/d„, где d„ = E(W/a) для нормальной выборки объема п. В таблице 7.3.1 приведены значения l/d„ вместе с eff а^ = DS'/Da^, где S' — несмещенная среднеквадратичная оценка для а, которая, как известно, является РМДН (равномерно минимизирующей дисперсию несмещенной) оценкой, а именно, г(|(п-1)) ^ j-^[i:(X;-X)*]'/2. G.3.1) Из таблицы видно, что эффективность о^ приемлема для «5^12 и очень хорошая для выборок малого объема
,r.3] РАЗМАХ КАК ОЦЕНКА РАЗБРОСА 181 (обычно п = 5), употребляемых, как правило, при контроле качества. Для п>12 эффективность можно увеличить случайным делением выборки объема п на малые под- выборки, оптимальным для которых является объем 8 (Граббс и Уивер A947)). Однако, учитывая произвольность разбиения выборки, предпочтительным является одни из методов следующей части. Средний размах ш„,/„ являющийся средним из k размахов для выборок объема п, играет важную роль в оценивании о в однофакторной классификации k групп по п наблюдений {^щ—^^ hl'^t) " соответствующем дисперсионном анализе (см. § 7.7). Таблица 7.3.1 Множители и эффективности для оценок aji,^W/d„ параметра а п 2 3 4 5 6 7 8 9 10 И l/d„ 0,886 0,591 0,486 0,430 0,395 0,370 0,351 0,337 0,325 0,315 eiia W 1 0,992 0,975 0,955 0,933 0,911 0,890 0,869 0,850 0,831 "п/^п 1,75 3,63 5,48 7,25 8,93 10,53 12.06 13,52 14,91 16,2 п 12 13 14 15 16 17 18 19 20 ■/"п 0,307 0,300 0,294 0,288 0,283 0,279 0,275 0,271 0,268 eff Offi, 0,814 0,797 0,781 0,766 0,751 0,738 0,725 0,712 0,700 4/v„ 17,5 18,8 19,9 21,1 22,2 23,3 24,3 25,3 26,3 Приближения к среднему размаху. В то время как эффективность б^ для нормальных выборок можно легко найти из _таблиц, точное распределение Wn,k (или для простоты W) малопригодно для использования при k>l (см., например, Блэнд и др. A966)). Имеется, однако, ряд полезных приближений, а именно, A) vp^/(j=:cXv/v'/2 (Патнайк A950)); B) W/o = cxi/v (Кокс A949)); C) wia=:{xl/c)'' (Кэдуэлл A953b)).
182 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ, 7. Постоянные v и с в A) и B) определяются из равенства первых двух моментов левой и правой частей. Для трехпараметрического приближения C) используется также равенство третьих моментов. В общем, приближения ста-^ новятся более точными с увеличением k (для данного п), так как все они, а также W асимптотически нормальны; Полагая W нормально распределенной, можно, конечно^ получить точность, достаточную для некоторых целей,' Для размаха (т. е. в случае ^=1), когда приближения наиболее исследованы, Пирсон A952) детально сравнил, A) и B) для re = 4, 6, 10, 15, Он вывел, что для гкСЩ более точно ^-приближение, при re = 10 разница почти, незаметна, а для re> 10 уже лучше ^^-приближение.! Приближение C) заметно точнее и используется всякий раз, когда требуется особенно хорошее представление размаха (см. также Пиллаи A950)). При таком разнообразии достаточно точных приближений возможна существенная гибкость. Наиболее популярно ^-приближение, так как в дополнение к его высокой точности при малых п оно делает W пропорциональным Sv = oXv/v'/2. Оно сразу допускает упрощение таких критериев, как критерий Стьюдента /, путем замены обычных среднеквадратичных оценок для а на Wjc, при этом единственным изменением является небольшое уменьшен ние числа степеней свободы (см. § 7.6). Все приближение позволяют заменить отношения дисперсий на отношения размахов или их степеней. Полезность этих трех прибли-| жений опирается, конечно, на доступность соответствую-* щих таблиц. Их просто получить в случае B), для которого ясно, что c = dn, v = 2kd'jVn, G.3.2) где F„ = D (W/a) для нормальных выборок объема п. Отношение d%/Vn табулировано в таблице 7.3.1. Соответственно, A) дает d _ "'^^ Г((у+1)/2) _^ " v'/2 r(v/2) " '^\ 4v "*" 32v2 "*" 128vs 2048v« *' 7' ^ = E (cXv/v'/2 f - (E (cXv/v'/2 ))^ = c'-dl G.3,3|
7.3] РАЗМАХ КАК ОЦЕНКА РАЗБРОСА 183 Таким образом, с легко находится из G.3.3), в то время как v удобнее получать обращением разложения (по степеням 1/v) выражения А = 2Уnlkd\. Это дает Таблица 7.3.2 дает значения v и с для п =^ 10 и всех k ^). Заметим, что эта таблица сразу дает приближенную меру эффективности оценки Ь^ через соответствующие эквивалентные степени свободы. Так, для п = 6, ^ = 5 мы имеем v = 22,6 против 25 степеней свободы для среднеквадратичной оценки. Для размаха Граббс и др. A966) оценили величины с и V для приближения Патнаика другими методами такими, как приравнивание математических ожиданий и дисперсий для W'jd^ в A). Оказывается, что так можно получить гораздо лучшее, чем у Патнаика, приближение верхних процентных точек для W. По поводу приближений, а по существу интерполяционных формул, применимых также для больших п ко многим различным величинам, относящимся к размаху, например, d„, F„, аУо,о5, см. работу Тьюки A955). Эффект отсутствия нормальности. В ряде элементарных учебников утверждается, что размах, поскольку он включает только экстремальные наблюдения, неизбежно связан с неэффективностью и большой чувствительностью к виду исходного распределения. Мы убедились, что первое утверждение вводит в заблуждение: потеря в эффективности не имеет практической важности в обычных применениях, в которых обычно рекомендуются оценки для а, связанные с размахом. Второе утверждение даже еще менее обосновано: имеются основания полагать, что а^, и ^w остаются в случае отсутствия нормальности такими же хорошими, как и среднеквадратичная оценка s, и, возможно, даже лучшими, по крайней мере для п sg 6 (несмотря на то, что ES^ = a^ для всех распределений, имеющих дисперсии). Заметим, что мы не утверждаем, что размах *) Коэффициент при Л* в G.3.4) указан неправильно в работе Дэйвида A962, стр. 98) и правильно —в работе Гхоша A963). Заметим, что часто продолжают ссылаться на менее удобный подход и менее точные таблицы Патнаика A950).
Таблица 7.3.2 Л\асштабный множитель с и эквивалентные степени свободы v, соответствующие однофакторной классификации k групп по п наблюдений (репродуцировано с расширением из работы Дэйвида A951)) \ h а\. 1 2 3 4 5 6 7 8 9 10 d„ п. р.* * \ 2 V 1,00 1,92 2,82 3,71 4,59 5,47 6,35 7,23 8,11 8,99 0,88 1. р. —I с 1,41 1.28 1,23 1,21 1,19 1,18 1,17 1,17 1,16 1,16 1,13 ЮСТОЯР 3 V 1 с 1,98 3,83 5,66 7,49 9,30 11,1 12,9 14,8 16,6 18,4 1,82 ные р 1,91 1,81 1,77 1,75 1,74 1,73 1,73 1,72 1,72 1,72 1,69 аЗНОСТ! 4 V с 1 2,93 5,69 8,44 11,2 13,9 10,7 19,4 22,1 24,9 27,6 2,74 г. напр 2,24 2,15 2,12 2,1 1 2,10 2,09 2,09 2,08 2,08 2,08 2,06 имер. 5 V 3,83 7,47 11,1 14,7 18,4 22,0 25,6 29,2 32,9 36,5 3,62 ге = 5. С 2,48 2,40 2,38 2,37 2,36 2,35 2,35 2,35 2,34 2,34 2,33 й = 12 6 V 4,68 9,16 13,6 18,1 22,6 27,0 31,5 36,0 40,4 44,9 4,47 дает с 2,67 2,60 2,58 2,57 2,56 2,56 2,55 2,55 2,55 2.55 2,53 7 V 1 с 5,48 10,8 16,0 21,3 26,6 31,8 37,1 42,4 47,6 52,9 5,27 2,83 2,77 2,75 2,74 2,73 2,73 2,72 2,72 2.72 2,72 2,70 8 1 V i с 6,25 12,3 18,3 24,4 30,4 36,4 42,5 48,5 54,5 60,6 С, 03 2,96 2,91 2,89 2,88 2,87 2,87 2,86 2,86 2,86 2,86 2,85 v = 36,5 + 2-3,62 = 43,7. 9 V 6,98 13,8 20,5 273 34,0 40,8 476 54,3 61,1 67,8 6,76 с 3,08 3,02 3,01 3,00 2,99 2.99 2,99 2,98 2,98 2,98 2,97 Ш V ! с 768 1.5,1 22.6 30,1 375 45,0 52,4 59.9 673 74,8 7,45 3,18 3,13 3,11 3,10 3,10 3,09 3,09 3,09 3,09 3,09 3,08 л 2 о ■о га 3 ■о о с га ■о
^ 7 ,1 РЛЗЛ1ЛХ КАК ОЦЕНКА РАЗБРОСА 185 очень робастен, а утверждаем лишь, что он вполне сравним с S даже в случае малых выборок. Возможно, более интересным результатом является удивительная устойчивость отношения EWn/o, значениями которого dn (в случае нормальных выборок) определяется ширина контрольных полос в картах контроля качества для среднего (см. § 7.9). Работа Пирсона и Адьянтхайя A928), в основном эмпирическая (см. также работу Пирсона A950)), предсказывает этот факт. Как было показано в § 4.2, Е (Wja) действительно ограничено сверху, причем эта верхняя граница равна удвоенной верхней границе (для симметричной генеральной совокупности), данной в таблице 4.2. Эта таблица также показывает, что верхняя граница совсем немного превышает d„ {п^ 12); даже для равномерной выборки Е (W„/a) не очень отличается от dn. То же самое имеет место для многих других распределений (Дэйвид A962)), хотя, как указывалось в конце § 4.2, Е (W„/a) может быть сделано произвольно малым для патологических распределений. Для большого числа распределений Кокс A954) показал как теоретически, так и эмпирически, что отношение EW„/od„ чуть меньше единицы для п sg 5. В предположении, что EWn/odn не зависит от Pi, Кокс табулировал средние значения этой величины как функцию Ра *)• Таким образом, W„/(i„ будет стремиться немного «переоценить» о для большинства генеральных совокупностей, отличных от нормальной, но если пользоваться приближенным значением Ра, то использование таблиц Кокса во многом исправит это небольшое смещение 2). (См. также Цукибаяши A958), который рассмотрел поведение (для различных распределений, отличных от нормального) оценок для а, связанных с размахом, а также оценок для а^, которые являются несмещенными в случае нормального распределения.) Зависимость коэффициента вариации размаха от Ра подобным же образом изучалась Коксом. Здесь зависимость от распределения гораздо более заметна, и это также *) Pi —коэффициент асимметрии, Рг — эксцесс. (Прим. перев.) ^) Эмпирически d„ приближенно равно п''^ (п ^ 10). Поэтому отношение W„In дает сразу общую, иногда грубую, оценку для стандартного отклонения среднего, т. е. оценку для а/У п (Ментел (I95I)).
186 сБЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 имеет место для верхних процентных точек (см. также Белз и Хуке A954)). Некоторые из упомянутых выше результатов были подвергнуты сомнению Бхаттачарджи A965). Он, например, утверждал на основе изучения вероятностей превышения верхних значений в нормальной теории, что на W, более чем на S, влияет отклонение от нормальности, особенно, когда п велико (действительно, в его таблицах для ^2 = 4 и 5 эффект наблюдается уже при п = 4). Сомнительно, однако, что использование Бхаттачарджи первых четырех членов ряда Эджворта для того, чтобы представить отличное от нормального распределение, достаточно для его целей; во всяком случае, его результаты расходятся в ряде мест с более точными вычислениями. Подобный подход использовался Сингхом A967) для того, чтобы изучить влияние ненормальности распределения на экстремальные значения, а также на размах. Мы заканчиваем этот параграф указанием на то, что размах можно использовать для распознавания больших ошибок в вычислениях s для выборок из любой генеральной совокупности (Томсон A955)). Это следует сразу из ограниченности отношения w/s. Верхняя граница достигается в случае выборки, имеющей п — 2 наблюдения, совпадающих с выборочным средним, и два других наблюдения на равном расстоянии от среднего. Нижняя граница соответствует случаю, когда половина наблюдений совпадает с одним, а другая половина (плюс одно, если число наблюдений нечетно) —с другим экстремумом. Соответствующие границы имеют вид Г 2[(п \2[гг/ ш/5<[2(п-1)]>/2, A) — 1)/п]'/2, если п четное, B) /(п+1)]"^. если п нечетное. C) Эти значения совпадают также с верхней и нижней нуль- процентными точками W/S и в этом качестве приведены в таблице 29с Пирсона и Хартли A966). Требует доказательства только соотношение C). Пусть х (Г) (i = 1, 2,..., ге) обозначает среднее значение первых i наблюдаемых хк.
, 74] ДРУГИЕ «БЫСТРЫЕ» ОЦЕНКИ РАЗБРОСА 187 Тогда п-,1 ^[х,-Х{n)Y = 2 [xt-X(n- 1)]* + 1 = 1 + {n-l)[x{n-l)-X {n)f + [x„ - {xn)f. Ясно, что каждый член справа максимален, если первые fi—l из ХI выбраны, как и в случае B), а д;„ взято равным Х(п—1)±: w/2. § 7.4. Другие «быстрые» оценки разброса Так как эффективность W как оценки для о в нормальной выборке быстро падает с увеличением п, то возникает вопрос, когда квазиразмах W({) = X(nn-t) — ^(t) Bi^i^[n/2]) ведет себя лучшез.^)? Кэдуэлл A953а) показал, что W^i) = W более эффективен, чем любой другой квазиразмах для n=ssl7; после этого значения п более эффективным становится WB); этот квазиразмах при п^32 заменяет W(8) и т. д. (см. § 7.6). Он табулировал моменты и процентные точки W^i) и дал разложения в ряд для / (w^^))- Квазиразмахи полезны в случае цензурированных выборок и, очевидно, имеют некоторую робастность к аномальным наблюдениям. Для полных выборок их эффективность не очень высока, но подходящие линейные комбинации W и Wj^, могут дать весьма эффективные оценки. Простой способ получить их — использовать «нарастающий размах» Ii = W■i-W^2)-{-■^^ ■..-\- W^l^, который был введен Джоунзом A946). Однако Диксон A957) показал, что еще лучшие результаты можно получить суммированием подходящим образом выбранных (не обязательно последовательных) квазиразмахов, включая сам размах. Например, для п = 16 статистика W-{- + ^B)+ ^D) имеет эффективность 97,5%. Более общие результаты получены Хартером A959). Для цензурированных выборок различные упрощенные оценки для о (как и для [i) были предложены Диксоном ') Здесь [п/2]—целая часть числа п/2. *) Множители, обеспечивающие несмещенность W,;, и других оценок, можно получить из таблиц математических ожиданий порядковых статистик. Хартер A959) приводит значения E(W,;,,'a) для п^ЮО и is£;9.
188 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 A960). Как указывалось в конце § 6.3, цензурирование дает заметную потерю в эффективности; дополнительная потеря для подходящим образом выбранных статистик Диксона становится малозаметной при сравнении с потерей за счет цензурирования. Когда цензурированы меньше, чем четверть наблюдений с каждой стороны, интерквар- тильный размах (уже давно принятая оценка) или даже его вариант для малых выборок W^l^ при i = [n/4]-(-l дает общую весьма простую, но обычно довольно неэффективную оценку. Из приведенных соображений следует, что робастность к присутствию аномальных наблюдений, получаемая при отбрасывании экстремальных наблюдений, может быть обеспечена только за счет значительной потери в эффективности. Барнетт н др. A967), изучавшие несмещенную оценку Даунтона A966 Ь) указывают, что она имеет высокую эффективность (> 97,79%) и «не так подвержена влиянию аномальных наблюдений, как размах или среднеквадратичное отклонение». Следует добавить, что в «а» экстремальные значения входят с меньшими весами, чем в наилучшую линейную оценку а*, и поэтому эта оценка, подобно /( или оценкам Диксона A957), умеренно защищена от влияния аномальных наблюдений с небольшой при этом потерей в эффективности. Фактически, «а» —другая форма (с точностью до постоянного множителя) статистики Джини A912) П G= ■ ',, У \Xi-Xj\, п(п—1) ^ ' -'' i. 1 = 1 изучавшейся еще Хелмертом A876) и не производившей впечатления новизны даже тогда (см. упр. 7.4.1). Возможно, G более удобна для вычислений в форме [п/2] ^mi Г!(П—\) *''
, 7.5] «БЫСТРЫЕ» ОЦЕНКИ ДЛЯ ДВУМЕРНЫХ ВЫБОРОК 189 (фон Андрэ A872)). Для п^Ю Нэир A950) сравнил эффектпвностн /,, G среднего отклонения и наилучшей линейной оценки о*. Статистика G имеет почти такую же ^фектпвность, что и о*, оставляя далеко позади среднее отклонение. Начиная с п = 6, /о--наилучшая среди всех /-статистик. Например, для п=10 эффективности следующие: /i /2 /3 /4 ^6 среднее откл. G а* 85,0 96,4 95,9 92,2 89,4 91,0 98,1 99,0 Барнетт п др. A967) нашли, что III тип Пирсона является удовлетворительным прнблил<ением для распределения оценки «а». Кажется вполне правдоподобным, что распределения различных оценок, рассмотренных в этом параграфе, могут быть надлежащим образом приближены при помощи методов, используемых для размаха (см. работы Кэдуэлла A953b), Дэйвида и Джонсона A956)). Оценивание о при помощи измерения (взвешивания) групп ранжированных наблюдений рассматривалось Мидом A966) в случае, когда индивидуальные измерения намного сложнее, чем упорядочение наблюдений. Упрощенные оценки параметров распределения Вейбулла, основанные на двух порядковых статистиках, получены Дьюби A967). Стандартные отклонения статистики Х(г). На основе подхода Дэйвида и Джонсона A954) Уолш A958) предложил оценки для [D {X^r))f'^ вида где; = („+1)^.'з „ «==l(„ + i)-3/.o|-_^(l__I_^]'^ § 7.5. «Быстрые» оценки для двумерных выборок Разброс для кругового нормального распределения. Распределение точки (X, Y) порал<ения вертикальной мишени при стрельбе из ружья или горизонтальной мишени при стрельбе из орудия или ракетой описывается часто круговым нормальным распределением с плотностью Р (^' У^ = 2^ ^^Р {~ 2^" Г^^ ~ ^^*)' + (У~ ^^^)'J}' Где |.1^. — ЕЛ, yLy=EY и а^ —общая дисперсия. Хорошо
190 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 известно, что РМДН оценка для ст* для выборки (Xt, Y,) объема п имеет вид 52 1 2(п-1) It г* 1=1 1=1 и что 2 (п — 1) S'/o^ имеет х*-распределение с 2 (п— 1) степенями свободы. Тогда РМДН оценка для а имеет вид /2r(„-l)L^ ^ «Быстрые» оценки для а включают: A) радиус покрывающего круга, т. е. наименьший круг, содержащий все точки выборки (впервые эта оценка изучалась Дэниэльсом A952)), B) максимальный разброс или двумерный размах R = max [{Xt - Х^)^ + {Y, - Y^ff/^ (i, / = 1, 2 n); h f C) диагональ D = {Wl + Wiy'^, где W;, = X(„,-Хц,, Wy = Y^„) — Y^^y Эти и другие оценки рассмотрены Граб- сом A964) (см. также Моранда A959), Какуллос и Де Чикко A967)). Оценки A) и B) заманчиво просты с точки зрения вычислений, но менее эффективны, чем диагональ D, Информация о двумерном размахе получена, в основном, моделированием с помощью метода Монте-Карло. Распределение D можно получить с помощью приближения Пат- найка (§ 7.3), в соответствии с которым D оказывается распределенным приближенно как cax^v/v'/^, где с и v, соответственно, — масштабный множитель и эквивалентные степени свободы как W^, так и Wy. Для п^20 Граббс табулировал Е (D/o), 1/Е (D/o), стандартное отклонение отношения D/a и соответствующие величины для других оценок. Коэффициент регрессии. Если регрессия Y на неслучайную величину X линейна, т. е. E(F|x) = a+px, G.5.1) то р можно оценить следующим отношением: Ь' ^(У'ш - YikMXm- %)). G.5.2)
7.5J ,«БЫСТРЫЕ> ОЦЕНКИ ДЛЯ ДВУМЕРНЫХ ВЫБОРОК 191 где k к k ;=1 1=1 1=1 к f^f^^ = — У Y[i], а Ffi] — значение Y (не обязательно 1-е по 1 = 1 величине), соответствующее x^i^ (см. упр. 3.2.3). Если Х — с. в., то мы можем интерпретировать G.5.1) как условное ожидание при условии Х = х та получить из G.5.2), что Е ф' I xi, х^, .... Хп) = р. G.5.3) Так как G.5.3) имеет место при любых Xi, то оно также справедливо при отсутствии условий, т. е. S' = (Fr',]-F[„)/(X('ft,-^(ft,) G.5.4) также является несмещенной оценкой для р. Заметим, что этот результат не требует одинаковой распределенности с. в. X н Y. Бартон и Кэсли A958) показали, что В' имеет эффективность 75—80%, если вектор {X, У) имеет двумерное нормальное распределение, при условии, что k выбрано около 0,27п. Коэффициент корреляции. Так как p = fiOxlOy, то из G,5.4) получаем следующую оценку для р: f)'^B' ^-^('"~-^"")^^"--* ^{ylk]—Y[k])lc„,x {У\к) — Уф)Iс„,у iY'(k) — Y(k))/c„,y ' где c„,je = E(^('ft) — A'(ft))/CT.« и т. д. Если X и Y имеют одинаковые маргинальные типы распределений (например, обе с. в. имеют нормальное распределение), то р' упрощается: _ Р' = (Fffti - VwViy'w - Уф)). G.5.5) Эту оценку предложил Цукибаяши A962) для k = l, т.е. когда знаменатель равен Wy-рязмяху F,- (l^i^n), Он Также предложил оценку со знаменателем, равным среднему размаху. Цукибаяши указал, что G.5.5) можно вычислить, если только известны ранги Х^ (l=sSi<n). Если Известны и X, и F, то можно избавиться от несимметрич-
i 192 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. ?; ности G.5.5), заменив f>' на 2 \7('fe)-K(ft) X(ft)-X(ft, Однако о свойствах этой оценки или даже оценки р' из--, вестно совсем немного. (Об оценке для cov(X, Y) см. упр. 7.5.1.) § 7.6. Оптимальный выбор порядковых статистик в больших выборках Хотя более детальное рассмотрение теории порядковых статистик для больших выборок откладывается до главы 9, мы рассмотрим здесь следующую задачу: имеется выборка большого объема из генеральной совокупности с плотно- 1 (х—|х\ стыо распределения — р1 — -]; мы хотим оценить параметры \i или а (или оба сразу) при помощи фиксированного малого числа k порядковых статистик. Как следует нам выбрать порядковые статистики для того, чтобы по' лучить хорошие оценки? Ясно, что в случае малых выбо* рок эту проблему всегда можно решить численно при условии, что известны математические ожидания, дисперсии и ковариации с. в. F,;, = (Х((, — \i)/o (i = 1, 2, ..., n) — нам нужно только найти дисперсии С^ наилучших линейт ных несмещенных оценок (НЛНО) для \i, основанных на всевозможных наборах k порядковых статистик, и затем выбрать тот набор, которому соответствует оценка с минимальной дисперсией; аналогично для параметра а. Если мы при помощи одного набора из k статистик хотим no-s лучить хорошие оценки сразу обоих параметров, то можем подобным же образом минимизировать сумму D[i* -\-cDa*i выбрав подходящую константу с, где \i* и о* — НЛНО для параметров |л и а, построенные по одному множеству из k порядковых статистик. Конечно, и в этом процессе возможны «быстрые» процедуры. Однако проблема более важна для средних и больших объемов выборок, когда экономия в вычислительной работе, особенно, если эле» менты выборки уже упорядочены, более существенна, чем плата за потерю эффективности. Имеются также интерес* ные возможности для сокращения числа данных (ЭйзеШ
s 76J ОПТИМАЛЬНЫЙ ВЫБОР ПОРЯДКОВЫХ СТАТИСТИК 19^ uepiep и Познер A965)), так как большую выборку (например, при подсчете частиц па космическом корабле) можно заменить достаточным числом порядковых статистик, позволяющих (уже на земле) получить удовлетворительные оценкп параметров, а также пронерить предполагае мыи Р1'д исходного распределения. Начнем мы с совместного распределения (прп п~^оо) порядковых статистик Х^„л (/=1, 2, ..., k), где Hj = = U'^^'A + ^ п О < Я-! < Яо < ... < Яа < 1. При слабых ограничениях этим предельным распределением является /е-мер- ное нормальное {см. § 9.2), которое можно записать слс- дуюнип-л образом: /1= Bяа2) "/2 fj^ __f^ [i^ (;,^ _ Xj)... A - Я,)] ~^ ^п}<14 «^/га^^ G.6.1) где // — плотность распределения с. в. F, вычисленная в тич];е Сд,—квантили порядка Я/ для с. в. Y, \\ (полагая >.„-0, Я,.,= 1) Следуя рабше Огавы A951 или 1970), в которой можнс найти дальнейшие детали, рассмотрим вначале случай, когда а известно. НЛНО ц* параметра |,i, соотсетствую- щая порядковым статистикам А^(п-), дается cooTHonjeHHeM (aS/du),,^ . = 0. т. е. к ii \ ?7+Д~Уд г, _ 2 "V _-^l!- ^5 = ft -/; '/-//- = _ У (_Zii_iL .^_ .::_„^)^/;, at,.), G.6.3) /■=1 где /o = /fe+i==0 Имеем |л|-B,~-о/^з)//<1. G.6.3') 7 г. Дэйвпд
194 «БЫСТРЫЕ» ПР''1ЦЕЛУРЫ [ГЛ. 7 где l^i-I^if—fHifKK-hi), G.6.4) /= I Z =. > j—-J . /.6.6 г- I Из D.5.5) имеем асимптотическое соотношение cov(X...), Х(„,,)) ЩГ-- Отсюда п к D!4-v4-' G.6.7) т. е. видим, что |io_имеет асимптотическую эффективность Ki относительно X —среднего для исходной выборки. Подобные результаты имеются для оценки а при известном \i и для совместного оценивания [( и о. Так, в первом случае получаем < = ^^^, G.6.8) где ^<2 = S (Мх, - f,-,е^.. ;f/04 ~ h-1). G.6.9) G.6.10) и Daj-^-^l;. G.6.11) a BO втором случае Hi = -к (^2^1 - /<3^2). (^Г = i (/<i22 - KgZi), G.6.12)
^ 73] ОПТИМАЛЬИЬ'П ВЫ1ЮР ПОРЯДКОВЫХ СТАТИСТИК 195 где ^ = KiK2-~ К1, и D^f-?'^. Dal r~-^ - '^1 я Д ' ^^ ' я Д ' vri> 1/ я Д G.6.13) Если р(^)— симметричная плотность и расположение порядковых статистик симметрично, то для всех / /-■ + /-/..■1 /= 1, «i-r'2ft I /-- "•, 1 так что G.6.14) Ц-1 !>.,,. ^ = 0, // = /.,,/, J откуда следует, что К;) =0. Таким образом, в этом важном случае 7. 7, Ио ^ t4 ^= /^ ) •'ii = '^i ~~ и • Кроме того, i-it и а\ некоррелировсипл и асимптотически независимы. Поскольку из G.6.1) следует, что log/i = — felogo — —5^ + /г', где h' не зависит от \\. и о, то Таким образом, асимптотические дисперсии (при п->-.'о, k/n-^0) наиболее эффективных оценок, построенных по одним и тем же значениям X^tn.y для параметров Цо н oj равны, соответственно, a'^/nKi и о^/пК^, что показывает полную эффективность ц;;' и а* в смысле извлечения всей возможной информации из выбранных порядковых статистик. Ясно, что эти результаты сохраняются, если оба параметра [i и о неизвестны, для ситуации G.6.14). До сих пор мы брали фиксированное Пу. Очевидно, что для оптимального оценивания ц (пли а) при известном другом параметре величины П/ нужно выбрать так, чтобы максимизировать Ki (или К^). Более того, если для симметричной генеральной совокупности этот выбор приводит к ситуации G.6.14), то оптимальности можно добиться II R случае неизвестных ц и а. Следует подчеркнуть, что при оптимизации проводят отдельно оценивание и и (т, требующее двух различных наборов порядковых статистик.
196 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 Если рассматривать одинаковый набор, то мы вновь можем минимизировать Djio + (^Doii' для подходящего значения с. Хотя процесс максимизации в принципе прост, вычислительные проблемы на практике .могут оказаться существенными. Обратимся к нормальному случаю и рассмотрим значение k = 1. Ясно, что для любой симметричной генеральной совокупности оптимальный набор порядковых статистик симметричен. Поатому из G.6.4) следует, что Таким образом, мы должны найти х, минимизирующий Р (х)/р^ (х), т. е. удовлетворяющий (для любого симметричного распределения) соотноиюнию 2Р{х)р'(х)~^1}Цх). Для p(,v) —ф(л') дело сводится к уравнению хР (х) = — — о Р('^)' которое даст ,v'== — 0,6121. Таким образо.м, х>., = —0,6121, Ax,-0,6121 1 ^ ?vi = 0.2702, ?v.,=0,7298 / G.6.15) (на этот результат ссылались в § 7.2). Так как X эффективна, то асимптотическая эффективность f.'.,' равна A'j пз G.6.7), что дает для оценки ^ (А'(„д,,, + Х(пл,,) 81-процентную эффективность. Как и обычно, nXj ннтерпретир\ется как целая часть «Я,-]-1 и т. д., так что ,аля п = 100 мы используем juf = ,^ (X^.,^^-{■X^^■J^). Аналогично, так как DS--^ г^а-/2п, эффективность о* в силу G.6.11) равна „ /Cj. Для k = 2 максимум достигг^ется ири /4= 0,0694 и ^vg = = 1—Xj"). Оценка ао, равная Zo/K-z, сводится к 0,337 (Х(/Л2) —A^(«Ai)) и имеет эффективность 65 "о. Для /е >> 2 можно показать, что существует единственный оптимальный набор порядковых статистик для оценивания ц, и он симметричен. Кажется правдоподобным, что этот факт имеет место и при оцеипванип о, хотя доказатель- ") Этот результат, как и G,0,15), по.1}чен Карло.м Ппрсоно-м и 1У20 г.
8 7.6] ОПТ11Л1АЛЬНЫй ВЫБОР ПОРЯДКОВЫХ СТАТИСТИК 197 ство в обшел! случае неизвестно. С практической точки зрения проблема решена, так как точные выражения, даю- иц1е оценки и,;' и а'^ для соответствуюших оптимальных наборов порядковых статистик, имеются для большинства значений /г =s 20 {Огав? A962), Эпзенбергер н Познер A965)). В последней работе получены также оценки, минимизирующие сумму Dfift+'^Da;? при с=1, 2, 3. Пример 7.6. Если Л —4, то оценки, минимизирующие D|-iiT, DcTii, D,Uo-l-rDa, (с;=^ 1, 2, 3), вместе с их эффек- тивиосгямп, соответстЕСиио, равны: оценки эффеативност и 0,1918 (Х(о.1цй8„) -]-^@,8В32Л)) ~\- + 0,3082 (X|o,3.ii2n) + ■'^lo.oaKs")) 0,920 0,1 It) (Л|о,577о«) ^io.uyjuni) + + 0,236 (Xio.«.,.,„, - Х,,л2п«.) 0.824 0Л41 ! (-Yuv.«6s,-.-^A'„,,,3„„)+ ^ ^^^g -f 0,3 -86 (X|„.2,,,.,„, -f X|u.7„Bi.«l) ' 0,2o81 (A|„,|,;j:jo„, — A(^,y^u8„j) -r 4-0,2051 (Х((,_-1,ад„) — X|0,291;h)) 0,0971 (X|„,„3g,,„) + X(u,;,(in„i)-r -4-0,402J (Л|||..21Соя) ~1~ A((),784y)) U,l/o/ (A(d^ciuiini — Ащцзудш)-j- -[- 0,_3й3 (A((),7g4o„j -^I.,J.2160Л)) A,735 0,857 0,792 Здесь оценки, объединенные фигурными скобками, построены по общим наборам порядковых статистик. Так, 3 и 4 строки дают riaiKiyuiuiie линейные четырехточечные оцск'ки для ]'. и а, когда лшиимальна сумма D,Lifi'+ DfJo• Подобные результаты для /г—2 даны в упр. 7.6.2. Огава A962) рассматривал также однопараметрическое а Салех и Али A966) —двухпараметрическое экспоненциальные распределения (см. также: Гупта п Гнанадеси- кан A966) — логистпчссксе; Блох A966) —распределение Кошн; Хассанейн A968) —распределение экстремальных значений) Имеется ряд работ с результатами для экспоненциального распределения в случае малых выборок; они "рпЕСдсны Б рабою Салеха A967). Упрощенный нрибл'нженнын подход, приводящий :•: «почт оптимальным» наборам порядковых статистик —
19S «БЫСТРЫЕ» ПРОЦЕДУРЫ |ГЛ. 7 аналогу «почти наилучших» оценок Блома, был развит Сернд;1Лом A962, 1л. 4) и применялся им к различным генеральным совокупностям. Применив свои методы, Серн- дал A964) рассмотрел в деталях оценивание (раздельное) параметров ц и <т для гамма-распределения с известным р=1, 2. 3. 4, 5, т. е. для плотностей распределения вида аГ(р) \ гг ^ (f-i==A-c.v. ;. Серндал A902, гл. 7) указывает, как и другие, что проблема оптг.мулыюго выбора порядковы.^ статистик тесно связана со следиошпми дву.мя проблема.чп: а) оптимальная группировка наблюдепий; б) оптимальные гргнищы слоев в пропорциональной выборке. Критерии значимости, использующие оптимальные наборы порядковых статнстпк, изучались Огаьой A962) и Эйзенбергером A968). § 7.7. «Быстрые» критерии Как станет ясно читателю, многие процедуры оценивания, обсуждаемые выше, легко можно преобразовать в «быстрые» критерии значимости, или такие критерии могут быть сконструированы на их основе. С точки зрения использования решающим является наличие подходящих таблиц: без них критерии не станут «быстрыми». Поэтому мы подчеркиваем практическую сторону. Однако для некоторых «быстрых» кр:!тср1;ев возможны также дополнительные преимущества тшпс, как хорошая робастность, и поэтому ими не следует пренебрегать, как второсортными, даже если и имеются Kpiirepini, полученные теоретически оптимальными методами. В нормальном случае мы рас- слютрим по очереди кр:!терии изменчивости, заменители ^кpитepнeв и использование размаха в дисперспонном анализе (см. также работу Дэйвида и Джонсона A956)). Критерии изменчивости. 1. Одновыборочный критерий для гипотезы Н^: а = Од Таблицы Хартера A946b), в которых приведены доверительные интервалы л in о, основанные на подходящим образом выбранных квазиразмахах, дают удобный способ проверки для нормальной выборки объема п нулевой гипо-
<; 7.7] «БЫСТРЫЕ» КРПТЕРИП 199 [езы If^'. и "о против как одно-, так п двухсторонпеп альтернативы"). Например, для п=40 таблицы дают двух- сторонпмс 95-процентные доверительные интервалы для о в1гда @,267153к'(з), 0,419858й:'|з,). Кслн интервал содержит сг, мы принимаем Н^ на 5-процентном уровне против альтернативы афа^ и т. д. 2. Двухвыборочные критерии для гипотезы Н^: о, = а.,. Продолжая работу Липка A950;, Хартер A963) подготовил, используя численное интегрирование, таблицы верхних процентных точек для iW Л^^ — отьюшения размахов нормальных выборок объема п, и п,, где п^, п., - 15. 3. /г-вь;борочпые критерии для гипотезы Я„: 0-^ = 02 = = ... = Oft. Пусть ,S^ (^=1, 2, .... /г) —обычная несмещенная среднеквадратичная оценка о? с v степенями свободы. Тогда гипотезу Н^ очень легко проверить (Хартли A950b)) сравнеиием выражения Smax/Smin с таблицей 31 Пирсона и Хартли A966). Отметим, что это отношенг^е и другие «экстремальные величины» (Гумбсль и Гербах A951)) тесно связаны с размахом, так как log (s'tnax 'Smn.) равен размаху для величин log^s^''). Для малых выборок (скажем, в случае v-; 10) хотелось бы получить дальнейшие упрошекия и использовать отношение WrmxiWmm (Кэдуэлл A953Ь)), верхние процентные точки которого были детально вычислены Лесли и Брауном A966). В § 5.4 упоминались две другие статистики, которые можно использовать для проверки однородности дисперсий в выборках одинакового объема, именно, S?nax/;S tS^ И Й^л.х/Ц ,W. Мощность и другие меры качества различных критериев, упомянутых здесь, рассматриваются в приведенных ") Точнее, мы имеем три типа гипоте.з: о ^ Oq против о > Cq, о >: ==а|) против о < Оц и 0 = 00 против о =^ Оо- Утверждение в основном тексте следует интерпретировать как эквивалентную краткую форму записи. Подобные замечания относятся и к другим критериям. '•) Об использовании s^g^/s^jj^, когда наблюдения вн\три выборки Равнокоррелированы, и о проверке однородности дисперсий при двух- факторной классификации см. работы Хана A968, 1969).
200 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 работах. 1!местся с^щесгвепиця п'леря мощности в с.иязи с заменой велпчми ^S'^ размахамп, но для vsc 10 она мала. С другой стороны, г?1< как хорошо известный критерий Бартлета М не обладает оптимальными свойствами, критерии Хартли (и ту., положнтельно, даже Кэдуэлла) не обязан быть хуже, хотя н может быть хуже и зависимости от конкретного вида о/. Иптуптпсио, эг» дна ^быстрых» критерия, как можно ожидать, будут особенно хорошо работать при альтернативе af •< оо==.. . = ой_1 •< о|, если ffiOj. = о5. Этот результат был получен с помощью статистического моделирования Пиргоно?»; A966), который довольно неожиданно нашел, что критерн11 Л'/ никогда ис является худшим. Можно ожидать, что п статистика -г^-ф-, подобно S'max/^tS^, является хорошсй протип альтернативы сдвига 0J =0'} = .. . = о|-1 <;о,; (см. § S.3. замечание 7). В отличие от всех «быстрых» критериев, критерий М, конечно, пр|.'менпм п для выборок неодинаковых объемов. Как подче|)кивалось Боксом A953), все рассматрива- ешле выше критерии очень чувствительны к прсдиоложе- нню нормальности. Это не лишает их ценности, ио вряд ли их можно рекомендовать даже как простые предварительные критерии, предшествующие критериям для проверки однородности средних. (О более робастных процедурах см. Миллер A968).) Последовательные критерии, И'спользующие размах, для проверки гипотезы Я^: а =0^ против альтернативы Н^: а = = бОц (б фиксировано) и Й,^: а^^^а., против Н^.а-^ — Ьа^ впервые рассматривались Коксо.м A949). Двухвыборочная ситуация изучалась далее с [)азличными подходами Раш- тоном A952) и Гхошем A963). Хотя размах удобен из-за его простоты, оценивание о н о^, а.2 должно в каждом случае выполняться поэтапно (для подгрупп, скажем, из 4 или 8 наблюдений), а не после каяадого индииидуального наблюдения. Это легко сделать, имея сумму раз.махов по соответствую:цим последовательным подгруппам наблюдений. Заменители ^-критериев. Идея использования размаха вместо выборочного стандартного отклонения в одновыбо- рочном /-критерии (//„: j-i = р-д) была впервые ьылвинута Дэнли A946) и развита Лордом A947), который также рассмотрел двух выборочную ситуацию (Яц: f!i = |.u). Лорд
§7.7] «БЫСТРЫЕ» КРИТЕРИИ 201 ВЫЧИСЛИЛ верхние процентные точки для статистик при п -=ё 20, где JF II 2^'' — размахи для двух выборок но п наблюденпй. Обобщения на случай выборок различ- iiu.x объемов П[ и п.^ =? 20 даны Муром A957). Для выборок болыи]!л объемов молаю с некоторой долей произвольности 11СПо,и>зовать средние размахи вместо одиночных разма- хо;'.. Этот способ так>ле был рассмотрен Лордом, который использовал сложные квадратурные методы. Более удобные (хотя ие.\1НО]-о менее мои1,пые) таблицы даны Джексоном II Россом A955), которые получили верхние процентные точки для Ul ——j5^ И Og где /г' —размер гюдгрхппы (желательно 6tg./j'^10) и k. ку, к. — ч\\с:ю подг1'(упп. Несколько наблюдешп'], воз- мо;кио, следует отбросить, чтобы п' можно было бы выбра-П) соотпегствуютим образом. !:Огеря мощности от использования приведенных вьиие ыето.'юв вместо оптимального /-критерия мала (см., например, Лорд A950); Заметим, что при помощи приближения Патиг:йка /\i, R^, G^, G, становятся приближенно /-стати- сти!;л.-П1 с несколько меньшими степенями свободы, которые 11рп;.одеиы в таблице 7.3.2 (с в.ходами п — я' и /г (для Gj) пли /ij -j-A'a (для G,)). i 1 р II ме р 7.7. Проверить, будут ли значимо отличаться средние следуюидих двух выборок. Первая выборка: 35,5: 23.4; 45,0; 20,4; 74,4; 46,7; о ,Г); 17,6; 35,4; .38,9 («,=10, .y, =39,49; сроднее 9 iiej)- EUN наблн;>'1ен1И1: o9,56j. Вторая выбойка: 46,5; 63.9; 48,6; 43,6; 33,3; 38,7; *»9,t'); 56,1. 43,7;' 51,3; 09,1; 51,8; 78,1; 57,2; 72,5; 74,2; 53,4; 66,9 (я., = 18, л-, = 55,47). Чтобы получить одинаковый размер подгрупп, мы от- бр;1Г!,!вяем последнее иаблюдсгте первой выборки и иахо- Д"м Tiui размаха для девяти иаб.тюдеиий, равные, соот- ветствеиио, 54,0; 30,6 и 26,8, получая ®;='37,13 и О.^ -=
202 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ, 7 = ~г-г=0,43, что превышает 1-процентный уровень, равный 0,38. Для приближения Патнайка мы можем оставить все наблюдения в числителе н иаГггн из таблицы 7.3.2 с = 3,01, v = 20,5, получая значение 15,98 X 3,01 /1 1 \1/2 " 3,29, которое значимо при 1-яроцент1юм уровне A-процентиая ТОЧИ" равна 2,84). Как одновыборочные, так н двухвыбо- рочные критерии, конечно, сразу преобразуются в дове- рггтель;!ые утверждения (см. Нетер A955)). Например, если /?а (а) —верхняя «-значимая точка для Ro, то интервал (Xj — Л'а) t у Ro (а) d W -f 2^'') содержит i^i ~ (.ij с вероятностью 1 —а. Соответствующие последовательные критерии, оспованные на средних размахах, рассматривались Гил- кристом A961). (О варианте критерия Стейна с нсполь- зсв.ошем размахов см. работу Найта A963).) Другой возможный заменитель для одновыборэчного /-критерия—следующая статистика, использующая размах и середину разма.ха: Этот критерий, впервые предложенный Э. Пирсоном A929), оказался достаточно эффектпвным и довольно робастиым для очень ^^aлыx выборок, что было найдено Уолшем A949с), который нашел верхние процентные точки цля п . 10. «Быстрый» днсперснонпый анализ. Для однофмкторпой классификации nk наблюдений Xjj (г'-—1, 2, ..., к; j = = I, 2, ..., п) по к группам, каждая из которых содержит п и.чблюдеимй, обычную статистику /""-критерия можно заменить статистикой Q„.v==«'-'2W(X)/S,„ G.7.1) где W (Л) —размах для велггчпн Л',-, а S,. — обьщпая среднеквадратичная оценка д '!Я о с v = к (н — 1) степенями свободы. Принимая во внииагьче независимость i'.. ri всех Х,-, получае.м, что Q;,. v- стьюдеггтпзированиый разма-; а том смысле, в котором он определен в § 5,2. Применение
J 7..] «БЫСТРЫЕ^ КРИТЕРИИ 203 приведенного здесь критерия с использованием таблиц процентных точек для Q дзет явную экономию в вычис- ;е';мях по сравнению с /'"-критерием. Однако использование ^7.7.1) имеет значительную ценность как первый шаг в множественных процедурах Тьюки и Дункана. Такие процедуры обычно не попадают в раздел «быстрых» критериев, и читателю следует обратиться к работе Миллера A966, гл. 2). Заметим, что G.7.1) применяется и в других ортогональных к.лассификациях (например, рандомизированных блоки и латинские квадраты), если v выбрано в соответствии со степенями свободы ошибки. Для однофакторнон классификации статистика критерия оказывается проще с вычислительной стороны, если S^ в G.7.1) заменить на W'c, где \F —среднее k внутригруп- повых размахов и с—постоянная из таб.лицы 7.3.2. Если воспользоваться г]риб.лпженгге.\! Патнайка A950), то отношение cn'''-W (X)/\V' распределено приближенно как Qk,v, где V обозначает эквивалентные степени свободы, приведенные в таблице 7.3.2. Более удобной с точки зрения испо.льзования является эквивалентная статистика (межгрупповой размах делится на сумму внутрпгрунповых размахов), пяти- н одн.опроцентные точки которой табулированы Бейером A968, стр. 368)'). Обобщение на случай двухфакторных н некоторых других классификаций имеется у Хартли A950а), Ста^де A959), Мардьи A967)'-') и Дэйвида A951). Соответствующпе множественные процедуры сравнения (в духе Тьюки) для сбалансироваины.к 0Д1Ю- II двухфакторных классификаций детальую изучались Курцем и др. A9ГMа, Ь). Последовательные критерии, 1ICU0./ьзующне размах, для компонент дисперсий были предложены Гхошем A965). Возвращаясь к мощности приведенных критериев, мы должны различать различные вероятностные модели. Для ") Этот вариант критерия Патнайка был описан автором в книге Сарханз и Гринберга A970). '■•) ?)ту работу следует читать в связи с работой Смита и Хартли A*8).
204 сБЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. ? модели компонент дисперсии (или случайных факторов) Х„-ц + Л^ + 2г, (i = l, 2 k; /-1, 2. .... п), где \а постоянная и Л,-, Z,-, — независимые нормально распределенные ошибки с дисперсиями а'" и а^, известно, что стандартный ^"-критерий является РНМ критерием для гипотезы Н^. а'"=0 против Н^: о' >0. Критерии, использующие размах, несколько хуже (Дэйвпд A953), упр. 7.7.1). В модели с фиксированными факторами >^i,- = l^ + cci + Z,j, где аг —постоянные, удовлетворяюш,ие условию Va^^O, ситуация не так проста. Мощность критерия, использующего размах, в отличие от F-критерия, не выражается как функция одного параметра Va?, а зависит от А—I параметров (уир. 7.7.2). Пусть Сщ <;с.,2) sc .. .г£и,(й) — упорядоченные значения а,-. Тогда при фиксированном значении Va'i (т. е. мощности F-критерия) максимум мощности стьюдентизированного критерия G.7.1) достигается прн a^^f — — а,;;,, «(», =.. .=а,,, i, =0, а мгпшмум мощности (если к четное) —при —a^^)=... = — «(д./^) == ^=:а(/,/2-|-,) = .. . = cX(fc). В первом случае критерий, использующий размах, лучше F-критерия, а во втором —хуже (Дэйвнд A953); Лахенбрук и Дэйвид A968)). Использование G.7.2) приводит, конечно, к несколько меньшей мощности критерия, чем при использовании G.7.1), но никаких численных результатов нет. Некоторые «быстрые» критерии для дискретных величин. Размах k независимых биноыпашных Ь(р, п) величин ri A = 1, 2, ..., k) был предложен Сиотани A957) для проверки пшочезы о том, что в k биномиальных b{pj, п) испытаниях вероятности равны, т. е. Pi = p2=--- ... — pk = p- Таблицы получены Сиотанп и Озавой A958), которые предложили при неизвестных р брать в таблица^ (которые ограничивались значениями п^Ю) р-=р^ = И ri/kn. Точное распределение размаха для иеизвест^ иого р, основанное на гипергеометрическо.м распредатении!
J 7.fcJ ВЕРОЯТНОСТНАЯ БУМАГА 'Ш соответствующем фиксированным числам ft и У] г,-, было 1 = 1 табулировано Ишии и Ямасаки A961) для AisgilO. Для полиномиального распределения с наблюдаемой частотой i/i и вероятностным параметром р,- для i-ro класса (i -1, 2, ..., k; T^yi = N; Sp.- = 1) критерий однородности (pi == 1 'k при всех i) может быть основан на max Yi min Yi лл ,»r статистиках —др-^, ~~ или размахе величин Yi/N. Джонсон и Янг A960) рассмотрели различные приближенные методы для получения верхних процентных точек этих статистик (см. также упр. 5.3.6). Одно из этих приближений основано на том, что стандартизированные величины Z,-.,V,-^)/[«.l-.ti]". (,.,,2 Ч имеют (асимптотически при N-^co) то же вырожденное /^-мерное нормальное распределение с коэффициентом корреляции —1/(^—1), что и величины (^jri) "B; —Z), где Z; —независимые стандартные нормальные ве.личины. Таким образом, приближенно размах величин Y;/N равен размаху величин Z;, умноженному на {Nk)''^'^. Некоторые точные таблицы процентных точек были построены Бен- нетом и Накамурой A968). Так как условное распределение k независимых одинаково распределенных пуассонов- ских величин Х,- при условии, что '2^X1 = N, совпадает с совместным распределением вышеупомянутых F,-, то отсюда следует, что условное распределение размаха для Х; при условии, что X=~jr, приближенно такое же, что ч распределение W -{Njky'-. (Об использовании этого результата см. работу Петтигру и Молера A967).) § 7.8. Вероятностная бумага Графический метод оценивания параметров непрерывных распределений, известных с точностью до сдвига и масштаба, состоит в следующем: зафиксируем упорядоченные Наблюдения х^^ {i-~={,2,... , и) против точек и,- = Р*"' (р,),
^06 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 где Р* — ф, р. стандартизированной величины Y = {Х — fx)/o и р/ — интуитивно правдоподобные и простые вероятностные i 1 — 1/2 уровни, например, такие, как р; = —~- или р,--^ ~. Работа облегчается, если имеется вероятностная бумага, соответствующая Р*, но можно обойтись и без нее. Теперь на глаз соединим точки (Vi, x^i^). (Если полученный график далек от прямолинейности, то следует проверить допущения об исходном распределении. Это является одним из достоинств вероятностной бумаги, и к нему мы еще вернемся.) Эту линию можно рассматривать как приближение к (невзвешенной) линии регрессии л';^ на Vi, т. е. x^ix + ov, G.8.1) где оценки для ji и а имеют вид li=:^X-6v и o=={};,x^i^{Vi-v))/^£{Vl — vf. G.8.2) Графически а —наклон линии регрессии; тогда (i можно найти из G.8.2). Если Y имеет симметричное распределение, то 6 = 0 н fi = А" — ординате в G.8.1), соответствующей и = 0 или р=1/2. В этом случае о удобно получить как разность ординат в G.8.1) для !:; = 0 и у=1, где последнее значение в нормальном случае соответствует значению р = 0,8413. Чернов и Либерман изучили теоретически этот метод как для нормальной A954), так и обобщенной A956) вероятностной бумаги 1"). В нормальном случае они показали, что выбор часто рекомендуемых для построения графика точек pi = —гт приводит к намного худшим оценкам для а с точки зрения среднеквадратичного отклонения, чем те, которые получаются при использовании гелнчин pi = = I i — 2")''"- Конечно, оба метода (как и все другие разумные методы) дают А = X. Авторы поднимают интересный вопрос: при каком выборе р/ получаются наилучшие (т. е. с минн.мальным среднеквадратичным отклонением) оценки для о (а) среди несмещенных оценок и (б) среди оценок, имеющих смещение? Для ««с 10 они табулировали Ph 1") Заметим, что Чернов и Либерман взяли .v,,-, в качестве абсциссы, а Vi — в К1честве ординаты, в отличие от приведенного здесь.
§7-« ВЕРОЯТНОСТИЛЯ БУЛ\ЛГЛ 207 соответствующие (а) и (б), и сравнили среднеквадратичные отклонения шести оценок (таблица 7.8). В частности, следует отметить, что выбор Pi = (i—-^]/п, приводящий к некоторому смещению, оказался очень удачным (см. также работу Блома A958, стр. 143), который указывает, что этот выбор восходит к Блпссу и Стнвепсу A937) и что величины p,- = (t—„-)/(«-|--г) приводят к практически несмещенной оценке для а со среднеквадратичным отклонением почти таким, как у HJ1HO), Дальнейшее обсуждение этого вопроса со специальным обращением к распределению экстремальных значений дается Кимболлом A960). Использование вероятностной бумаги в качестве быстрого способа проверки предполагаемого вида распределения дает ценную и многостороннюю помощь всем тем, кто занимается прикладной статистикой. Кроме нормального распределения и распределения экстремальных значений с этой точки зрения изучалось также гамма-распределение с тремя параметрами (Уилк и др. A962а)). Для предположительно нормальных наблюдений за визуальным исследованием вероятностных графиков может (но часто не обязан) следовать критерий нормальности (см. упр. 7.8.1) или критерий для выявления аномальных наблюдений (§ 8.2). Для выявления отклонения от экспо- X ненциального распределения с плотностью р\х)=— е при .v^O Джексон A967) предложил статистику StW :n-V|,-)/^A'(i), т. е. подходящим образом нормированную сумму произведений упорядоченных наблюдепии и математических ожиданий ^li :„ = Е (Х(;)/а). Аккуратное развитие графического подхода дано Дэни- элем A959), который предложил нанесение на вероятностную бумагу 2"—1 упорядоченных абсолютных контрастов в 2^-факторном эксперименте. При стандартных предположениях для таких экспериментов контрасты при нулевой гипотезе об отсутствии эг}х})ектов обработки являются независимыми правосторокне нормальными величинами с одинаковыми дисперсиями. Отмеченные отклонения наибольших контрастов от прямой линии, проходящей через начало координат на правосторонне нормальной вероятностной бумаге указывают на наличие соответ-
208 «БЫСТРЫЕ» ПРОЦЕДУРЫ 1ГЛ, 7 Таблица 7.8 Сравнение среднеквадратичных отклонений от с различных оценок дли а (репродуцировано нз работы Чернова и Либсрмана A954)) п 2 3 4 5 6 7 8 9 10 I 0,57080 0,27324 0,17810 0,13177 0,10447 0,08650 0,'O379 0,06432 0,05701 2 0,57081 0,27549 0,18006 0,13332 0,10571 0,08714 0,07469 0,00501 0,05759 3 0,3C33S 0,21460 0,15117 0,11643 0,09459 0,07961 0,06872 0,06044 0,05393 4 0,:>(i3 Ю 0,21599 0,15259 0,11764 0,09560 0,08015 0,06950 0,00105 0,05445 5 1,07533 0,40850 0,31559 0,22751 0,17630 0,14306 0,11987 0,10283 0,08981 6 0,12611 0,22649 0,15558 0,11872 0,09605 0,08067 0,06954 0,06111 0,05449 В столбцах тяблицы: 1. Дксперсия нелинейной несмещенной оценки S' из G.3.1) с минимальной дисперсией. 2. Дисперсия нескешенной оценки с минимумом дисперснн (оценки, линейной по отношению к упорядоченным наблюдс1н;я.\;). 3. Среднеквадратичное отклонение от а нелинепных смещенных оценок с минимальным среднеквадратичным отклонением, 4. Среднеквадратичное отклонение от а смещенной оценки, линейной по отношению к упорядоченным наблюдениям н имеющей минимальное среднеквадратичное отклонение. 5. Среднеквадратичное отклонение от о otcuieHilofi оценки, основанной на ординатах i/{n-\-\). С, Среднеквадратичное отклонение от а cMenieiiHufl оценки, осно- вап1Ю11 на ординатах hi 1/п. слвующих главпы.х эффектов пли вза!11МодР1"[ствпп. Попытка частично ф-.)р.\1али.зовать этот подход как мпожествепную решаюп!,ую процедуру была предпринята БирпбаумоМ A959, 1961). Оценки дисперсии оилибки по т наименьшим абсолютным контрастам рассматривались Уилком и др. A963а), Кокс п Ло A967) пидои.амеппли метод Дзнпэла- (С.М. также р;1(ют:.1 >.';1лка и Гипцч.'^е^'пкатп! A968), где дано общее обсуждоте верояпюстпых графиков и связан-
§7.9] КОНТРОЛЬ КАЧЕСТВА 209 лих С НИМИ методов, Кокса A968, стр. 276) и Хнлла A968), где рассматриваются методы обнаружения аномальных паблюденпн в многомерном случае.) § 7.9. Контроль качества В статистическом контроле качества из процесса производства через некоторые промежутки времени берутся малые выборки (обычно объема п -=5). Для каждой выборки среднее, а часто и размах отмечаются на контрольных картя.х, давая картину из?ле1!"ения этих величин во времени. Для среднего .v контрольная карта состоит из трех гори- зонталь^^ых линий: центральная линия проходит через точку .V —среднее большого числа Л^ предшествуюш.их выборок объема п, а верхний и нижний пределы контроля имеют вид x±?>Gjn^i'^'-=х'^^ А^^Ф. Здесь а^ —оценка для а, использующая средний размах и обсуждавшаяся в § 7.3, именно, к'/а',,, где к» —средний размах, соответ- ствуюнцн"! X. Заметим, что вместо rf„ в литературе ио контролю качестЕЗ часто фиг\рир\ет обозначение d.^,. Наконец, ,'1,^^3,(/„/г''^ —удобная широко табулированная величина (см.. например, Дункан A965)). Со статистической точки зрения идея контрольных карт проста: для достаточно больших Л^, когда х и а^ можно взять равными их математическим ожиданиям ji и а, вероятность того, что частное среднее выйдет за контрольные линии, равна 0,0027 в обычной нормальной теории. Появление события с тако1"[ малой вероятностью люжет естествен[ю интерпретироваться как выход процесса из-под контроля и является указанием о необходимости корректировки. Подобные замечания применимы и к картам для размаха, для которых иерхиие и нижние контрольные, линии имеют вид 6.^-b3(l/„)'/2wrf«= ' ''да (V„)bi^fci/d„ —оценка стандартного отклонения размаха ^п- Величины Л, и D^. широко табулированы. Таь как раз.мах ие распределен иир.х-а.няю, то выбор •контрольных линий по пр1шиипу За еще более ироизво-
210 «БРЯСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 лен, чем в случае карт для средних значений, но по- прежнему очень мала найденная в соответствии с нор. мальной теорией вероятность того, что частное значение размаха выйдет за эти линии, если с процессом все в порядке. Ясно, что верхняя граница более важна, чем нижняя, которой можно пренебречь. Возникает вопрос о поведении контрольных карт в случае наблюдений, отличных от нормальных. Здесь для контрольных карт для средних, чья ширина определяется величиной d„, существенна относительная устойчивость выражения E-Wjo во многих случаях отклонений от нормальности. Так как коэффициент вариации размаха менее устойчив, карты размаха более чувствительны к отсутствию нормальности. Конечно, как предложил Кокс, с помощью оценок эксцесса р^ исходной генеральной совокупности могут быть сделаны поправки к контрольным линиям. Однако даже без таких уточнений контрольные карты оказались очень полезными, давая легко понятный визуальный учет выходу продукции. При использовании карт размаха и средних традиционно предполагается наличие точных оценок для fx и о. Однако такой ситуации нет в случае, когда рассматриваются ранние стадии контроля качества для нового процесса. Хпллиер A964, 1967) рассмотрел ошибки в случае, когда игнорируются флуктуации X и а~, и показал, как начать работу с соответствующим образом модифицированными контрольными картами даже в случае ограниченного числа данных. Так, в случае карт для средних точная вероятность (по , нормальной теории) того, что частное выбо^ючное среднее Л' выйдет за контрольные линии, построенные, как указано выше, равна Р = 1 - Р {X - A^W < X < I -f A^W], где Х, W построены теперь по, k предыдущим выборкам объема /(. Мы имеем р=1-р{-л,<^^<а|. Из приближения Патнайка (§ 7.3) следует, что с. р-
7.9] КОНТРОЛЬ КАЧЕСТВА 211 /X —X)/W распределена приближенно как — + -£ а , " "fe/ - ' rfe I 1И где с. в. Z распределена нормально Л^ (О, 1), t^ является ^статистикой Стьюдента с v степенями свободы, v и с даны в таблице 7.3.2. Хиллиер A964) показал, что для ft = 5 значение Р возрастает от уже упомянутого значения 0,0027 (соответствующего fe = oo) до 0,0044; 0,0067; 0,012 для fe = 20, 10, 5, соответственно. Хпллиер дает для п — 5 и различных k те значения Л|, для которых Р* = 1 - Р {X - AtW <:Х<Х+ AtW} приближенно равна а = 0,001; 0,0027; 0,01; 0,025; 0,05. Подобные результаты можно получить для карт размаха (Хиллиер A967)). Контрольные карты для наибольших и наименьших значений рассматривались Хоуэллом A949), а для некоторых других величин Вейлером A954). Оперативные характеристики контрольных карт для выборочных средних изучались Кингом A952). Для производственного процесса, требующего некоторого времени для изготовления изделия, подвергаемого измерению, простые текущие оценки расположения и разброса дают скользящие средние и соответствующие скользящие размахи (для выборок объема п). Среднее значение таких скользящих размахов можно рассматривать как обобщение средних последовательных разностей (случай « = 2). Эффективность среднего скользящего размаха как оценки для а изучалась Дэйвидом A955), а его смещение при сдвиге или других систематических отклонениях выборочных средних — Шимадой A957). Толерантные интервалы для нормальных распределений, использующие размах. К статистическому контролю качества относится и следующий вопрос: можно ли для k выборок объема п из нормальной N (ji, а^) генеральной совокупности, представляющих продукцию некоторого производственного процесса, найти случайный интервал (L, V) такой, что большая доля у (скажем, 99"^) продукции лежит в этом интервале с определенной вероятностью р?
'1'-^ .г,ыг.трыг» т'пцЕДП'Ь [гл.) Непараметрическое решение, не испофзуюш.ее предположение о нормальности, дано в § 2.6. Митра A957; показал, что приближень'ые толерантные интервалы могут иметь вид (X —t'VV, J(-\-cW) и, используя приближение Патпайка для W, табулировал с для различных k, п, у и р. Математически с удовлетворяет приближенно уравнению 1 2ла^ J *■ Л'-с IV ' Конечно, за счет простоты можно получить некоторое увеличение эффективности (выражающееся в более короткой средней длине толерантного интервала), если вместо размаха использовать выборочное стандартное отклонение. Упражнения 7.1.1. Пусть \Y' и S, соответственно, размах и выборочное стандартное отклонение для некоторой нормальной выборки объема п. Доказать, что (б) регрессия U" из S линейна; (в) дисперсии IV' при условии, что S==s, пропорциональна s^. Для каких статистик, кроме размаха, и.меют ыесто подобные результаты:' (Указание. Для случая (а) воспользоваться равен- ' /W \ ством EW S == Е ( -А- • S^ н независимостью величин W/S и S- (§ 5.2).) \ '^ У Хартли A955); Дэйвид и Перез (I960).) 7.2,1. Разложив в ряд в окрестности нуля функцию распределения нормального закона Ф(.^), показать, что 4Ф (А-) [1-Ф {х)] = е-^''''' 'х +?i|-=^x4- Зяте.м показать для нормальных Л'(О, 1) иыборок объема «==2s + I (i—О, 1, 2, ...), что плотность распределения выборочной медианы УИ пропорциональна (прибл}1женно) выра?;<енню Зл" / и что дисперсия и эксцесс E2 величины М приближенно равны 8(п —3). Г,Ш=й. 1 3T-f4s| ' (n + As)- (Кэдуэлл A952)). 16 (л —3)s
УПРАЖНЕНИЯ 213 7.3.1. Показать, что для плотности распределени.р экстремалс ^[.ix эначений /5(х) = ехр(—х — е"*) функция распреде1ения и сред- U, ^вначенке размаха W в выборках объема п равны соответственно; ЕГ= 'V (_1,'с' log '- (Дэнвид A954)). 7.3.2. Пусть (Xj, Yi) {/ = 1, 2, ..., /г) —случайная выборка из двумерного нормального распределения с единичными дисперсиями н коэффициентом корреляции р. Показать, что коэффициент корреляции р„, (п, р) между раз.махами для Х^ и для Yi при п = 2, 3 равен, соответственно, Pffl,{2, Р) = Ф(Р),Ч{1). р^, C. р) = (г1)(р)+2ф ( Г2~р))/(^ {1)+24' A)) , где i;- (р)= I (р arcsin р- 1 +A -р^)'/^). (Указание. Для лг = 3 выразить размах для Х; как ]у{\Х,-Х, + А'.,-Хз|+ Х.-Х,|) и т. д.) (Курц н др. A966)). 7.3.3. Пусть (X,-, Kj) A = 1, 2 п) — случайная выборка на 1!епрерьшного двуне!)ного распределения с совместной функцией распределения Н {X, у) и маргинальными ф. р. F (х), G (у) (a^Xt^b; а) 11нтегрирокание.м по частям показать, что Ь d cov(X,-, Yi)=\\{H—FG)dxdy, а с ' поэтому bd COV (Х,„„ К,„,) = ^' I {tIn-F"G") dx dy. а с б) Пусть V = X,„,—X ],, и7 = У,.., — К,1). Используй равенство Wv(V, lr)=.cov(X,„„ y,„,)-fcov (X ,.. К.„)- — cov(X,„„ F,i))~cov(X,i„ F(„))
214 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. показать, что bd cov(V, ll'')=\''\[W« + (/^ —Я)п + {С —W)« + (l—f —G + Я)« — a с ^pnGn—Frn\_G)" — Gn(\—F)n — (\—F)"(\—G)n\dxdii (Мардья A967)). 7.4.1. ВыЕСстн соотношение п. п у '-у (« + !)]-Ч. = ^ ^ Xt-Xf' для того, чтобы показать, что оценки «а» из G.4.1) и G из G.4.2) CL-.язаны равенством «а>, = 1 n"^G. Заметив, что Eu = E|Xi — Xji, показать, что «о» — несмещенная оценка для а в случае нормальных выборок и что дли распределений с ф. р. Р (X) со Е «а» = 2к^''- \ XI Р (х) — у] dP (.V) — со (Нэир A935); Дэчвпд A968)). 7.5.1. Пусть линия регрессии К на X д; ется соотношением Е(К .v) = a + px. Показать, что несмещенной оценкой дли a.v„ = cov(X, Y) будет где С%=Е («71/0?) {ХР,,==Х„„-Ха,\. Если, кроме того, D (К .v:) = a^ не зависит от .v, то Da; =[е ((г^./а.к^)-1)р'-+-Д A -р^ (Цукибаяши A962)). 7.6.1. Вывести утверждения, сформулированные в G.6.8)- G.6.13) (Огава A962))." 7.6.2. Проверить, что для нормальной генеральной совокупноспГ наилучшие линейные оценки jig, ajf для парамегров р, и а, основан
УПРАЖНЕНИЯ 215 ные HS Д^У^ общих '-орядковых статнсгиках и минимизирующие сумму [-i„»-j-cDaj' для с=1, 2, 3, и их эффективности имеют вид 1 2 3 и* V (-^10,1Б2Б n) + '^@.el75 п)) "о' (••^ 10.1274 я) Г '^ 'O.tKe «)) 9 (''^@ П.17 п) +•'^l0.sё5a «)) "? 0,4875 (Х,о,,475П) ''^@.1626 л)) 0, 13J1 (Л|0,е72в П1 — -^10,1274 П>) 0,4160 {Х|0,6В53 П) — ''^10.I]^7 ш) Эффективности t'? 0,729 0,683 0,654 о* 0 0,552 0,594 0,614 (Эйлснбергер и Познер A965)). 7.7.1, Показать, что для модели G.7.3) стандартный f-критерий имеет мощность P{F>Fa/{\+nt,^)]. где F„ — верхняя а-значимаи точка F с k — 1, k (п — 1) степенями свободы н t^^a'/a. Соответствующим выбором t, мощность может быть сделана равной выбранному значению 1—E. Показать, что мощность Q'-критерия. соответствующая этому значению ^, равна Р {A +nt:'f' Qk.v ><?«} = Р {Qk. V > fc {Fi-fi/Fa)'"}. где V дается таблицей 7.3,2. Вычислить мощность дли а = 0,05; р = = 0,1; /? = 8; « = 6 (ответ: 0.87) (Дэйпид A953)). 7.7.2, IZc.iii ^i = ii-\-a.j-{-Zi (г--=1, 2. , ;/), то W — размах для .V; —можно назвать нецентральным размахум. Используя упр. 2,3.2, показать, что ф. р. 117' дтя нормальных выборок с а=1 даегся соотношением п со f п Л Р {W ^ v.-] ^У, \ч> {Xi~a,) J 11 [Ф (.V,—а, +и))-Ф {Xi-aM dXi 1 = 1 Ю /=I к что ф. р. стьюдентизированного нецентрального ра.эмаха Q' ^W/S^ равна Р {Q'=S(?) = }j P{r's£s} !{s)ds, где / (s) — плотность распределения с. в. Sy.
216 «БЫСТРЫЕ» ПРОЦЕДУРЫ [ГЛ. 7 7.8.1. Пусть X], А'а, •-. , Х„—случайная нормальная jV (ц, q^ выборка. Рассмотрим статистику /и \2| „ W*= 2 aiX,i>] S (A',--.VA ,1 = 1 / / 1 = 1 где a,- —стандартизованные коэфA:1Нцненгы ^'у'да^!') НЛНО для о Положим 6=yjfl,.A',ii и T'=y]{Xi—ХJ. Показать, что а) EW'*'' = E6--!'" ^Т2г. б) максимальное значение W* равно 1; в) минимальное значение W* равно nafi{n—1); г) для п^З плотность распределения с. в. 117* имеет вид 3 , .„._1/2 .^—1/9 /3 *">/^ (v=^-*^i) (сравните с § 5.2, где W* было найдено эмпирически для того, чтобы ПОЛУЧИТЬ универсальный критерии нормальности) (Шапиро и Уилк A965, 1968); Шапиро и др. A968); Уилк и mainipo A968)).
ГЛАВА 8 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ § 8.1. Проблемы, связанные с аномальными и сдвинутыми наблюдениями Надлежащее обращение с аномальными наблюдениями долго было предметом изучения. Однако мы не будем здесь дарзать исторического обзора, та.ч как имеется несколько совсем недавних публикаций с введениями, посвященными истории этого вопроса (Энскомб A960); Ферпосон A961 а); Дорнбос A966)). Традиционный подход к выявлению резко выделяющихся наблюдений при помощи критериев значимости вытекает из интуитивных представлений. Такие критерии преследуют обычно одну из следующих целей: а) провести сортировку данных перед их анализом; б) выявить присутствие аномальных наблюдений и тем самым указать на необходимость более тщательного изучения процесса получения наблюдений; в) обнаружить наблюдения, представляющие особый интерес именно из-за их аномальности. В § 8.2 мы приводим различные статистики критериев, включающие обычно экстремальные порядковые статистики, н, по мере возможности, указываем источники таблиц процентных точек; почти всегда предполагается нормальность исходной генеральной совокупности. Необходимая теория распределений для многих случаев уже была дана в главе 5. Критерии для сдвинутых наблюдений обсуждаются в § 8.3. Поясним и.\ связь с критериями для аномальных наблюдений. Критерии для сдвинутых наблюдений предназначены для проверки равенства нескольких генератьиых совокупностей при альтернативе, что ^^Дна из совокупностей «сдвинута», т. е. отличается от
-1Я OnP.MUF.IIilF г Л1ЮМЛЛЫП>1МИ НАБЛЮЛКИИЧМП [Гл исгальпых, распределения которых совпадаю!'. Если каж- дая генеральная совокупность представлена единственным паблюде.нпе.м, то задача сводится к определению резко выделяющихся наблюдений, как в сл\"чае (в) выше; ec.ni же каждую генеральную совокупность представляют т наб- людеинй (/«>• 1), то проблема состоит в нахождении группы аномальных наблюдений. Важным нрим'ером последнего типа является предварительная проверка п новых лекарств (каждое из которых проверяется на группе из т больных), когда нет уверенности, что все лекарства эффективны, но есть надежда, что одно из них может быть таким. Характеристики ряда общих, используемых для выявления аномальных наблюдений, критериев (с точки зрения их использования для целей (в) и (б)) г^зучаются в § 8.4. Обычным предположением здесь яв/тется существование только одного аномального наблюдения, отличающегося от остальной выборки параметром сдвига, а иногда и параметром масштаба. Такое предгюложеиие — правдоподобное приближение к ситуации, когда вероятность «загрязнения» выборки аномальным!! наблюдениями мала. Однако мы изучаем также и более общие ситуации (см. работу Диксона A962)). До сих пор мы i:e рассматривали спец1!ально случай (а). При обычной сортировке данных аномальные наблюдения — помеха для удовлетворительного анализа. Традиционное средство от этой по.мехи было простым: отбросить наблюдения, являющиеся резко выделяющим1!ся с точгл зрения некоторого критерия, а затем оценивать 1!нтересующие нас параметры или применять соответствующий критерий значимости. Это так называемая область «отвержения аномальных наблюдений». Мы попытаемся показать, что обращение с аномальными наблюден1!ями носит более широкий характер (даже с точки зрения задачи (а)). Если главная цель анализа данных—оценивание параметров, то центральную роль в этом играют свойства используемых оценок. Отбрасывание аномальных наблюдений до формирования оценок по-прежнему может быть разумным, но критерии следует применять не на тради!1Ионных уровнях значимости, а на уровнях, которые дают оценки, оптимальные в некотором смысле. Обычно аномальные наблюдеи.ня не следует отвергать 1!ел1!ксы; часто лучшие оценки получаются, если просто взять эти наблюдения
gl] АИОМАЛЬНЫК И СДВИНУТЫЕ НАБЛЮДЕНИЯ -'- г меньшим весом. Эти вопросы обсуждаются в § 8.5, 1\\ожно uoiiTH еще дальше и, игнорируя любые типы критериев значимости, немедленно использовать оценки, ро- бастиые к присутствию аномальных наблюдений. Простейшим примером таких оценок является выбороч- [^ая медиана как мера сдвига. Это возвращает нас к главе 6. Становится ясным, что существует много аспектов обращения с резко выделяющимися наблюдениями и что много больше работы еще предстоит сделать. Когда общая причина может объяснить присутствие нескольких аномальных наблюдений, становится возможным обращаться с такими загрязненными данными, как с выборкой из генеральной совокупности, представляющей смесь двух различных распределений (см., например, работу Блишке A968)), Большие затруднения возникают, когда данные \же не представ.ляют в идеале выборки, а скорее соответствуют спланированному эксперименту. Описываемые ниже методы могут быть распространены или легко приспособлены к одиофакторным классификациям, однако дальнейшие усложнения приводят к множеству новых проблел!. Мы не рассматриваем эту тему, а отсылаем читателя к работам Энскомба A960, 1961), Энскоыба и Тьюкп A963), Бросса A961), Дэннэля A960), Шрикан- тана A961). В массе проблем не должны быть пропущены некоторые ирогтые вопросы, связанные с аномальными наблюдениями Статистика может иметь дело только с частью проб,!ем для аномальных наблюдений. Само собой разумеется, что луш1е было бы отыскать физическую причину их П|)-исутствия и способ предотвратить их появление, будь это до или после применения некоторого критерия, Есля подозреваются какке-то наблюдения, то следует, обратись к эксперименту, прояснить ситуацию. И только если такой сгюсоб не применим, нужно обращаться к чисто статистическим процедурам. В любом случае анализ не завершен и не совсем правдив, если он не упоминает о способе обращения с резко выделяющимися наблюдениями (см. также работу Краснела (I960)). «Байесовский подход к отвержешио аномальных наблюдений» намечен де Финеттп П961), Название кажется несколько не соответствующим подходу, так как здесь наблюдения не отсер-
220 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯ.МИ [ГЛ. гаются, однако, в действительности, аномальные наблю- дения могут иметь очень малый вес. Общий обзор вопросов, связанных с аномальными наблюдениями, дан Фергюсоном A961 а), Диксоном A962) Чу A964) и Граббсом A969). § 8.2. Критерии для аномальных наблюдений Пусть X,, X.,, ..., А„ —независимые с в., имеющие одинаковое тюрмальное N {[i, а^) распределение. Это — нулевая гипотеза. Мы рассмотрим статистики критериев, чувствительных к различным ненулевым гнпогезам, в первую очередь к сдвигу математического ожидания (возможно, сопровождае.уюму изменениями дисперсии) одной или нескольких величин. Даже в этом просто.м случае можно различать ряд вариантов, обозначаемых ниже (а) —(г), зависящих от степспп информации о ii и о. Более того, люжно интересоваться сдвигами в ра;ии.1Х направлениях. Для каждого из возиикакж'и.х 8 случаен м[л ирпводиы но крайней мере одну статистику и, где возможно, ссылки на таблицы ее процентных точек. Односторонняя статистика приводится слева; для краткости она записана только в форме, подходящей для выявления аномальных наблюдений на ппавом конце выборки; ПХ обозначает таблицы Пирсона и Хартли A966), ;х'„ обозначает размах, ^2 _, yi ^у.. _ д-^2 ^„ __ 1 j^ [1 s^; — иезависнмая спед1!еквадратич- ная оценка для а- с v степенями свободы. Кроме того, л — ! П—-2 МЫ полагаем ,v„ — ^ л-,г)/(/г — 1), .v",,.,,! - ^ -^"(i,. ('^ —2), i \ ; = I (а) Известны \i и о. (ПХ, табл. 24); A.^ = tn = y.{>^i-v-fi^''. (б) Известно только а. Bi = (х,„) — х)/а В.2 = max ; х,- — х \/а; (Граббс A950)); В-, =- (х,„, - .V, „ , ,);а В, =- wja A1X, табл. 22). A1рвин A925)); B,==/,,_i --= v (д-. _ xyija'.
g,2l КРИТЕРИИ ДЛЯ АНОМАЛЬНЫХ НАБЛЮДЕНИЙ 221 (в) Знг^чения ц и а неизвестны, но имеютс.ч незавкси- тые г.ден..и д.('л о^. С] =^ (.v,„, — А) Sv С, == max , х; — -v 'Js^. (LiX, табл. 26); (Гальперин и др. A955)); Cs^cc'^.Sv (ПХ, табл. 29); Г ■= Xin,—x ., max xi — x (Г1Х, табл. 26 a); (ПХ, табл. 26 b). ) j?Ha'!eHK.i .u и a неизвестны. D, = (.Vj „, — X')/s D.^ = max i X; — X ys (Граббс A950)) 1); (Г1Х, табл. 26 b); D-^^wJs (ПХ, табл. 29 c); „ ,,1-Г(д.,_^.,.1 (UX, табл. 34 b); Я —2 / i (^ii> ^n. п-л)' (!1X, табл. 34 c) (Граббс A95(J)); статистики r Диксона (Диксон A951)). Бо.Uj'hhhctbg приведенных статистик пмеег пнтуитпв- HVKi привлекательность; нрн этом использую1ся экстремальные порядковые статистики и неизвестные параметры заменпются достаточным]! статистиками для них. Во многих сл\чаях были обнаружены различные свойства оптимальности стйтистик, обычно много позже того, когда эти cxaTHCTiiKH были впервые применены. Отметим, что Q, £*! и С^ представляют стьюдентнзированные формы В^. lipu этомстыодентизация является,соответственно, внешней. ^) 3uMtTuM, что у I раОСса ь = (\' (х^—л:)"/п) 1,-'
222 ОЬРЛЩЕНИЕ С АНОМАЛЬНЫМИ НЛБЛЮЛЕНИЯМИ (ГЛ. внутренней и смешанной согласно терминологии главы 5. Соответствующие двухсторонние статистики Cj, D» н с имеют такое же отнонление к В^- С точностью до постоянных множителей Dj и Do являются частными случаями Q и С. соответствующими значению л'=0. В список также включены несколько статистик (Лд, В^, D^, Dp), первоначально не предназначавшихся для обнаружения аномальных наблюдений, но тем не менее достаточно эффективных при соотБетствуюии1Х }слов^1ях. Хотя эти статистики не выделяют экстремумов, они включены сюда для сравнения. Что касается Z3^> то ясно, что сгатистнки, фокусируюш.ая внимание на частных свойствах наблюдений, будет предпочтительней при условиях, для которых она выбрана, чем эта, охватывающая все наблюдения, статистика. Мы можем отметить, ч'го это замечание прныенн?ло не только к сравнению Bg с другими Я-статистикамп, но и в некоторых других случаях (Бодмер A959); Дэйвид и Ньюэлл A965)), Преимущества, которые специализированные статистики имеют относительно Б^, Гуюгут быть небольшими и должны исследоваться в каждом случае. Наибольший выбор статистик имеется в случае (г) наиболее важном из всех. Статистика D„ предназначена быть эффективной в случае наличия справа двух аномальных наблюдений. Метод построения Dg предлагает дальнейшие обобщения, но в этой ситуации нет таблиц процент- я— I ных точек. Более простая статистика D^— У^ (^(П"" — Х„J/ V (^Xi~xf не дает ничего нового, так как Статистики г Диксона представляют собой отношения разностей порядковых статистик, выбранных так, чтобы быть эффективными при следующих условиях: A) для единственного аномального наблюдения Х(„) B) для аномального наблюдения Х(„, (без наблюдения A-,ij Гц = (Х^п) X(n-l))lV'{n) Х{2)У>
:; S,2J КРИТЕРИИ ДЛЯ -MIO.W \ЛЬИЫХ ИЛБЛЮДЕИШТ 223 C) для аномального набл^аеиии Л',,,, (без наблюдений ХA, и (Х,.,,) ''1-2 "^ ''^'(и) •''•(п-1))/(А"(П1 •"•(Si)'» D) для аиомалыюго наблюдения Х(„) (без наблюдения Л',,,- I)) ''20 = (-^'(П) ^(п 2))/(-^(л) -^(l))» E) для аномального наблюдения Х(„, (без наблюдений .\\„ п. \'|м) '■■л == (•"'■(п) — Л'(н 2))/(A'in) —-''■B))'. F) ДЛИ аномального наблюдения ,v'(„, (без найтюде- НПЙ Х(п-1), Хщ, ХB)) Приведенные статистики являются односторонними. Ферпосон A961b) рассматривал также двухсторонние аналоги Гщ, а именно, гС^ = тах{гу„ г',„), где r',„ = (.v,o) - a;,iJ/(.v-,„, — X(i,). (8.2.1) Поскольку для любой постоянной о о Р {^Й' >с} = Р \Ri,>c} + Р {R[,>c\ - Р {R,,>c, R[,>c\, то ввиду симметрии имеем при нулевой гипотезе P{R\%>c\=^2P{R,,>c\~P\Rio>c; R[,>c\. (8.2.2) Таким образом, P{R-il>c]^2P{Ri,>c], (8.2.3) и для достаточно больших с правая часть неравенства (8.2.3) представляет хорошее приближение к левой части, так как последний член (8.2.2) в этом случае мал. Верхняя а-значимая точка для R^ является тогда приближенной верхней 2а-значимой точкой для Rfo- Результаты такого типа (Кинг A953)), конечно, применимы и к другим статистикам в (а) — (г). Возникает вопрос, не должны ли мы всегда использовать двухсторонние критерии, так как ясно, что приме-
224 ОБРАЩЕНИЕ г. АПОМЛЛЬНЫЛ\И 11 \БЛЮДЕТ1ИЯ.МН [ГЛ. g пенис однос10[1оиниА кригериев в направлении, являющемся более перспективным д.мя имеющейся выборки, не всегда корректно. Это, пожалуй, справедливо, и следует отметить, что в исследовательской работе, которая является целью для применения ианшх критериев, не всегда г.-гедует стремиться к точным уровням значимости. Строго говоря, односторонними критериями следует ограничиваться дли выявлении резко выделяющихся наблюдений в случаях, когда такие наб.1юдеиии представляют интерес только в определенном направлении, или в ситуациях, когда, например, повторно оиределиются точки плавления вещества, где аномальные наблюдения, обязанные своим присутствием примесям, должны заведомо находиться на нижней стороне, так как примеси понижают температуру плавлении Подобные аргументы показывают, что так же некорректно выбирать критерии дли аномальных наблюдений после проверки данных. Результаты следующих двух параграфов, несмотря на вынужденную неполноту, дают некоторые указания для выбора среди конкурирующих статистик. Пример 8.2. (Квизенберрн и Дэйвид A961)). Запалы представляют собой небольшие устройства для запуска двигателей ракег. Их важными характеристиками являются водонепроницаемость и сопротивление удару. Дли изучения этих характеристик была взята случайная выборка объема 48 из большой партии. Выборку случайно разбили на три равные группы. Первая группа была взита как контрольная н не подвергалась испытаниям, вторую группу погрузили в воду, а третью — сбросили с определенной высоты. Через каждый запал пропустили ток величиной 5 ампер и зафиксировали времена задержек. Они оказались следующими: (а) контрольная группа (.Vj/): 0,38; 0,26; 0,41; 0,33; 0,33; 0,37; 0,54; 0,76; 0,51; 0,55; 0,53; 0,41; 0,47; 0,49; 0,42; 0,34; (б) группа, испытанная на водонепроницаемость (хгО- 0,53; 0,35; 0,33; 0,45; 1,09; 0,46; 0,i57; 0,47; 0,39; 0,74; 0,32; 0,74; 0,48; 0,37; 0,52; 0,44; (в) группа, испытанная на i/dap (.Vg,): 0,51, 0,63; 0,46; 0,47; 0,42; 0,45; 0,41; 0,39; 0,35; 0,41; 0,49; 0,40; 0,58; 0,46; 0,38; 0,48,
$ 8.2J КРИТЕРИИ ДЛЯ АНОМАЛЬНЫХ НАБЛЮДЕНИЙ 225 Получаем следующие величины: Vx,i = 7,10; v.v,,. = 8,30; Xi = 0,4438; ^2 = 0,5188 Vxi,. = 3,3686; vx|,.== 4,8768 ,c, i^xii? = 3,1506; -jg {У,х^,Г- = 4,3056 Z V4i ~ 'Vif = 0,2180; V (X,. - X^Y' = 0,5712 Vx3, = 7,29; Хз = 0,4556; Vxs,- = 3,4021; 1е(^Гз/Г- = 3,3215; 2 (Хзг-ХзГ- = 0,0806. Исследования больнлого количества таких данных показали, что эти времена задержки для запалов распределены приближенно по нормальному закону, но по причинам, не выясненным до конца, иногда случайно встречаются саишком большие значения этих величин. Поэтому был применен критерий для аномальных наблюдений для каждой подгруппы, чтобы выделить такие Еыпадающие наблюдения. Дисперсия массы нормальных наблюдений предполагалась постоянной во время всего эксперимента. Легко видеть, что в группах (а) и (б) наибаяьшне най1юдения 0,76 и 1,09, соответственно, являются аномальными. Для группы (а) (П- 1)Ь2В, = ^1^И^^-^= 0,76-0.4438 _ ' B(.v;-xJ)'/2 @,2180)'/^ Интерполяция для п=16, v = 0 в тайчице 26а ПХ приближенно дает верхнюю 5-процентную точку 0,630, Исполь зование статистики /,„ приводит к такому же результату. = @,76 - 0,55)/@,76 - 0,26) = 0,420, что почти совпадает с верх1;ей 1-процентной точкой 0,426 (Сархан и Гринберг A970), стр. 298). Хотя этот пример Дает явный повод для использования одностороннего критерия, следует oт^leтить, что 5-процеит'лый уровень зна- 8 г. Дэйвид
226 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ. 8 чимостн сохраняется даже для двухстороннего критерия D^; (ft - 1)''2D2 = max I X(i, - x /f V (xj - xf)'/^ = 0,677 (верхняя 5-процентная точка равна 0,666), и почти достигается для Dg". j^ _ 0,76-0.26 .1ци/2_^ in ^•3- 0,4669 ^''^^ -^'^^ (верхняя 5-процентная точка равна 4,24). В оригинальной работе использовалась статистика Q. Вновь для первой группы наблюдений имеем Q = (Х(„, - х)Д2 Е (^/^ - ~^if]' = 0,339. Эта точка не является значимой (при /г = 16, v = 30 верхняя 5-процентная точка равна 0,384). Во второй же группе этот критерий отвергает значение 1,09. Пересчитаем теперь С^ для первой группы, убрав это значение и положив v = 29. Получаем значение 0,438, безусловно являющееся значимым. Никаких других выпадающих наблюдений, продолжая этот процесс, найти не удается (см. работу Квизенберри и Дэйвида A961), где приведен дальнейший анализ). Некоторые критерии для аномальных наблюдений для распределений, отличных от нормального, рассматривались п Дарлингом A952b), который нашел распределение ^-^«/-^(п) 1=1 в случае, когда X; имеют равномерное (упр. 5.4.6) или ^^-распределение с чегным числом степеней свободы г. Последний случай, тесно связанный с критериями для сдвига дисперсий в нормальных выборках (замечание 7 из § 8.3), является обобщением критерия Фишера A929) для наибольилих гармоник (случай г = 2; см. § 5.4). Лоу- рент A963) и Басу A965) предложили критерии для аномальных наблюдений в случае двухпараметрических экспоненциальных с. в., если один или оба параметра неизвестны (упр. 8.2.2 и 8.2.3). Уилкс A963) исследовал проблему аномальных наблюдений в многомерном нормальном случае, используя в качестве основной статистики отношение определителей О = I й/у« / o;y I (t, / = 1, 2 ^; /=1, 2, ..., ft).
5 S.31 КРИТЕРИИ ДЛЯ СДВИГОВ 227 где п И Oiji — соответствующая сумма с пропущенным 1-й наблюдением. Известно, что соответствующая статистика R/ имеет бета-распределение Bi-j{n — k— 1), у^). Наблюдение, отвечающее наименьшему значению г,-, т. е. ГA), является первым кандидатом в аномальные. Уилкс использовал первое неравенство Бонферрони P{^?(ii</'}^ =s- /гР [Ri < г} для нахождения уровня Га, беря его равным значению г, при котором правая часть неравенства равняется а. Для k = 1 OTHOujenne R^l) эквивалентно статистике D2 = ma.x Xi — x\/s. Случай с г(г^1) аномальными наблюдениями может быть рассмотрен таким же образом. § 8.3. Критерии для сдвигов Первый пример критерия для сдвинутых наблюдений принадлежит Мостеллеру A948), рассмотревшему следующую проблему. Даны выборки объема т из п непрерывных генеральных совокупностей. Необходимо проверить нулевую гипотезу, состоящую в том, что распределения всех генеральных совокупностей одинаковы, против альтернативы, что одно из них (неизвестно какое) сдвинуто вправо. В э'гом случае непараметрическая процедура Мос- теллера состоит в том, ч'гобы взять выборку с наибольнлим наблюдением и посчитать число ее элементов, которые превосходят все наблюдения остальных выборок. Если это число достаточно велико, то нулевая гипотеза отвергаегся. Эта процедура, по мнению Мостеллера, проста и естественна, хотя и не утверждалось, что она лучшая в каком- либо смысле. Нетрудно получить обобщения для случая выборок неодинакового объема (Мостеллер, Тьюки A950); см. также работу Бодингера A965)). Если Xi обозначает наблюдение в i-и выборке (г = 1, 2, .... п), то сдвиг вправо может быть заменен следующим более общим условием: P{Xj>X/}>2 Д-™ некоторого i и ; = 1, 2, ..., t— 1, i + 1 ft, где Xj — одинаково распределенные с. в.
228 ОБРАЩЕНИЕ с АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ I Приведем другой простой непараыетрический критерий для Сдвинутых наблюдений, который, как можно ожидать, будет лучшим в общем случае. Упорядочим по возрастанию все пт наблюдений, как в критерии Краскела-,- Уоллиса, и найдем суммы рангов Ti для каждой выборки. Если max Ti превышает критическое значение, то объявим соответствующую выборку сдвинутой вправо. Такая процедура предложена впервые Дорпбосом и Принсом A958), которые дали приближения типа Бонферрони для критических значений. Точные таблицы приведены Оде A967). Полсон A961) заменил ранги нормальными меткам». Подобные результаты применяются для соответствующего двух- факторного рангового анализа Фрядмена (или «метода т ранжирований»). Этот случай также рассматривался Дорн- босом и Принсом A958) и, более детально, Юденом A963) и Томпсоном и Уилки A963), ко'торые составили таблицы. Имея в виду более формальный подход, мы будем следовать работе Полсона A952), предложивилего метод, применимый в случае нормальных совокупностей. Пусть Ху (t = l, 2, ...,п; /=1, 2 /п) —взаимно независимые нормально N {\ii, а^) распределенные св., как и в одно- факторном дисперсионном анализе. Говорят, что генеральная совокупность щ сдвинута вправо на расстояние Д (Д>0). если i^i = f^ = • • • = !^г-1 = E^i+i = ■ • • = E^n и fij = jxi + Д. (8.3.1) Пусть Df, — решение, состоящее в равенстве п математических ожиданий, и Di — решение, состоящее в том, что Do неверно, и, кроме того, л^—сдвинутая генеральная совокупность. Задача состоит в нахождении процедуры для выбора одного из (ft4-1) решений D,„D,, ...,D„, которая была бы в некотором смысле оптимальной в нахождении сдвига вправо. Для этой цели мы введем сейчас следующие ограничения: (а) если все [Xj равны, то D,, должно быть выбрано с вероятностью 1 — а; (б) процедура должна быть инвариантной относительно преобразования у~ах + Ь, где й^О и fc — постоянные; (в) процедура должна быть симметричной в том смысле, что вероятность принятия правильного решения, когдэ имеет место (8.3.1), одинакова для всех i.
J g.5J КРИТЕРИИ ДЛЯ СДВИГОВ 226 если т{Хм — хI (8.3.2) Поскольку (а) фиксирует вероятность правильного выбора Dq, то очевидное желаемое свойство оптимальности состоит в максимизации вероятности принять правильное решение, когда одна из генеральных совокупностей сдвинута вправо. Можно показать, что это достигается следующей процедурой: ' п т 1/2 -1=1 /=1 выбираем Dq, в противном случае выбираем Dai. Здесь Хд1 обозначает максимальное из п выборочных средних Xi, fca —верхняя а-значпмая точка статистики в левой части (8.3.2), являющейся частным случаем статистики С, пз § 8.2 при v = n(m— 1). Заметим, что выражение в скобках является полной суммой квадратов, а не суммой квадратов ошибок. Как и раньше, среднеквадратичное отклонение обозначим п т 4=vl ^{Xij-xif. i=l / = I Вывод оптимальной процедуры. Не умаляя общности, мы можем ограничиться рассмотрением процедур, зависящих только от A'l, Х2 Хп и Sv, представляющих множество достаточных статистик для неизвестных параметров j-ii, [Хг. -••> !-1« и сг"' Действительно, принимая во внимание (б), видим, что любая приемлемая процедура будет зависеть только от п—1 отноилений (Xj —X„)/Sv, (Xj —X„)/Sv (,Y„.i — X„)/Sv (которые являются максимальным инвариантом). Пусть W, = (А'< — X„)/Sv и д( = = {\it — i-^n}/ci для / = 1, 2 п—1. Тогда совместное распределение Wt зависят только от б<. Кроме того, D^, сводится к решению 61=^62= ... = 6„ 1 = О, D( — к решению 61 = 62= ... =6,-1 = 6/^1= ... =6„_1 = 0, 6< = Д/а. aD„-K 61 = 62=... =6„ 1 = —Д/а. Для того чтобы найти совместную плотность распределения с. в. Wf, обозначим Vt = (Xf — Х„)/а. Тогда Wt = = aVi/S^.. Легко видеть, что Vt имеет (п—1)-мерное 2 ВДрмальное распределение с EF, = 6^ DF, =-- и коэф- фициентами корреляции между с. в. Vt и Vt', равньши
230 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ. 8 '!• 1/2 (^' = 1, 2 ft—1; t'Ф1). Таким образом, совместная плотность распределения величин Vt имеет вид Сехр|-у[л 2 (Vt-&tf + B 2 {Vt-bt){Vf-bt')\ \ L '=1 t^f где A — {n—\)mln, В = — т/п и С (так же, как и вводимая ниже С") —некоторая константа. После" стьюден- тизации получаем совместную плотность распределения с. в. Wt-. СО f {Wi, w^ Wn-i) = C' ^ y""'»-" exp |- 2- [vy^ + + aJ^ {wty-btf +B 2 (Pty-bt){wt'y-bf) \dy. (8.3.3) Пусть fh (/J = 0, 1, 2, ..., ft) обозначает эту плотность распределения, когда правильным решением является Dh- Тогда, применяя обобщение фундаментальной леммы Неймана —Пирсона ^), мы выбираем Dg для всех точек пространства {ti'i, w^ ^n-i} таких, что fi<i^ff„ f2< <; Xf„ fn < ^"fo. где постоянная Я определяется ограничением (а). Для точек, приводящих к неравенству /,> >Чо для одного или большего числа i, мы выбираем Di, если fi = max{fi, f^ f„). С помощью (8.3.3) теперь легко найти для каждого h область, где следует выбрать D/,. Например, нужно выбрать Dj, если fi>X/o, fi^f^, ••• ..•, h>fn- Имеем fi>Xfo, если ■! i i/^+«-2exp v + Л 2\^^ + ^7 WfWt, t==) >jbt' X X (exp(--2^jexp ■ I я dy>0. 2) Здесь мы несколько отклоняемся от доказательства, данного Полсоном, который показывает, что (8,3,2) представляет собой байесовское решение, когда приписываются решениям Di, D.^, ..., Dn равные априорные вероятности.
§ 8-3] КРИТЕРИИ ДЛЯ СДВИГОВ 231 Пос.че замены переменных это неравенство переписывается следующим образом: pv.n.2e^p^_^^2Jbp(-4^)exp[Ag(^^, щ^ ... ,.., w„^:^}i где g{Wi, Щ f^Vi) = l}dt>0, (8.3.4) v+A X ^f + B 2 ^'^''] Подынтегральное выражение в (8.3.4) для всех t является монотонно возрастающей функцией от g{Wi, w^ ^n-i), и поэтому область, в которой /i>^fo, должна иметь вид g{Wi, W2 K^„_i)>C", где С"—постоянная, зависящая от — и Я, Таким же образом можно показать, что f^ > >/(•' (i' = 2, 3 ft—1) тогда и только тогда, когда Wi>Wi', и что fi>fn в том и только то.м случае, когда tt'i>0 (интуитивно очевидные результаты). Итак, мы выбираем Di, если w^ > О, 0^1 > max (w^, w-j Wn-i) и (A-B)Wi + Bj^Wt> Civ + Aj^wi + Bj^ w,wt t=i n — \ \ 4^ t=l t^V •■] Вспоминая определения Л, В, С" и Wt, мы видим, что необходимо выбирать D^, если х^ > гпах (х^, Xg х„) и m (Xi — х) > С" 2 Ц (ху-х)^ Так как соответствующие результаты получаются для Dg, Dg, ..., D„, то решающая процедура совпадает с (8.3.2). Заметим, что константа С" становится равной Ь^ и не зависит от Д или с. Таким образом, для данных п, т н а оптимальность процедуры (8.3.2) имеет место равномерно по Д (Д>-0) и а. Замечания и обобщения. 1. Как указал Кудо A956b), свойство оптимальности процедуры (8.3.2) сохраняется, если сдвиг математического ожидания для одной из гене-
232 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ. ральных совокупностей сопровождается увеличением дисперсии (при этом не меняются математические ожидания и дисперсии других генеральных совокупностей). 2. Даже с приведенным выше небольилим обийцением свойство оптимальности относится только к несколько искусственным альтернативам. Однако тггуитивно использование (8.3.2) разумно и для других альтернатив, не очень сильно отличающихся от модели сдвинутых наблюдений. Функции мощности и связанные с ними характеристики получены для некоторых случаев в § 8.4. Конечно, D^ будет всегда выбрано с вероятностью 1 — а в случае, еспи оно имеет место в действительности. Более того, Капур A957) вывел следующее свойство несмещенности процедуры Полсона для общего вида [х^. Определим D^, как и раньше, и пусть D,- (i = 1, 2, ..., ft) — решение, заключающееся в том, что j.ii = max (jij, [i^, ..., j.i„). Тогда вероятность для каждого из решений D,,, D^, ..., D„ быть правильно выбранным всегда не меньше вероятности неправилыюго выбора. 3. Если т=1, то процедура является вариантом задачи об аномальных наблюдениях (для одного такого наблюдения справа) В этом специальном случае (8.3.2) сразу сводится (с небольшим изменением в доказательстве — см. работу Кудо A956а)) к ачедующей процедуре: 1/2 < fcu, ТО утверждается. если (x,„)-x)/ 2 {xt — x) что аномальных наблюдений нет; в протпвно?у! случае аномальным объявляют наблюдение X(„). Это по существу критерий Пирсона и Чандра Секара A935). В связи с замечанием 2 мы можем желать проверить, будет ли аномальным наблюдение x,„ ц. Этот вопрос отложим до § 8.4. 4. В предыдущих задачах, связанных с аномальными наблюдениями, можно было использовать (в дополнение к внутренним суммам квадратов V (л:^ — х)'^) внешние оценки Sv для о такие, что vS't,/a^ ^--^Xv- Стьюдентизированные экстремальные от1^лонения Неира A948) используют Sv Ka:i делитель Х(а) — Х. Оптимальной процедурой для правильного обнаружения едмиствекиого аномального наблю- дешш справа язлясшл (8.3.5; с за.,1еной зиамепат&1Я
КРИТЕРИИ ДЛЯ СДВИГОВ 233 на [Ц (-^'г —-^)^ + 'VSv]""- Лействительно, первоначальная затача для сдвинутых наблюдений может рассматриваться как частный случай этой процедуры, для которой v = = п (т— 1). 5. Когда для нас представляет интерес сдвиг в любом паправленнн, т. е. когда знак Д в (8.3.1) не оговарпрается, формулировка Полсона может быть сохранена с единственным небольшим изменением, заключающимся в том, что в ограничении (б) знак не фиксируется и в (в) вероятность правильного выбора решения одна и та же для — Ли для \ в (8.3.1). Оптимальной процедурой становится следующая (Кудо A956а)): если т ■ max .а ^-л v-^'/ ■ / i = l / = 1/2 < fcS, выбираем Dp-, в противтюм случае выбираем Df,^, где М теперь означает тот номер, при котором достигается максимум '-V,- —.v|. Таблицы Щ, для а-=0,05; 0,01 даны Квизгнберри и Дэнвндом A961). 6. Для выборок нео.дипаковых объемов /?г,- (t »= 1, 2, ... ..., п) процедура Полсона может быть адаптирована, если т {Xi — Л') 1/2 заменить на /Г " 1/2 Пфанцагль A959) показал, что локально оптимальной (для малых Д>0) является следующая процедура. Обозначив через Ь'а верхнюю а-значимую точку для max Yi, выберем Do, если max yi<b'a, и Dj^, если ум = = max yi>b'a. В общем случае fca не табулирована, но ее Приближенные значения можно найти с помощью первого Неравенства Бонферрони (сравните с работой Дорнбоса и Принса A958), по заметьте, что эти авторы псхюльзуют "li yi вместо yi).
23-1 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ. 8 7. Соответствующие процедуры были получены для обнаружения сдвига дисперсии в одной из п нормальных N (щ, с}) выборок. Здесь Dq—решение, состоящее в том, что a\ = al= ■■■ —fJ'n, и D/ — в том, что af = а?. = ... ... = а\-1 = о]+1 = • • ■ —aJi—a^ (значение а* ие фиксировано), гг? = Х'"а^. При тех же ограничениях, что и в замечании 2, Труакс A953) показал, по аналогии с доказательством Полсона, что для Х'^>1 (и выборок одинакового объема т) оптимальная процедура основана на статистике Кокрена A941) /п т 2] ,■s^ где ,s^^y](x!i--xir/{m-l). Пфанцагль A959) обобщил этот результат также на случай неодинаковых пц и получил локально (для %' , близких к 1) оптимальный критерий, основанный на статистике max (т,-—1) (;S^''Sv—1), где Sv —обычное среднеквадратичное отклонение. Для %'' < 1 (и одинаковых т,) соответствующей статистикой является Smin/S/S*. Дорнбос A956) получил некоторые приближенные нижние 5-процентные точки с помощью неравенств Бонферрони. Подобный подход для изучения сдвинутого параметра масштаба для гамма- распределений использовался Дорнбосом и Принсом A956). Близкой является задача проверки значимости п главных эффектов в 2"-факторном эксперименте в случае, когда априори известно, что не более чем несколько эффектов являются значимыми (см. работу Бирнбаума A959)), 8. Общую байесовскую формулировку проблемы сдвинутых наблюдений дали Карлин и Труакс A960), получившие результат Полсона как частный случай своего подхода. Они также рассмотрели соответствующую проблему сдвинутых наблюдений в случае, когда в дополнение к п испытываемым группам наблюдений объема т каждая существует еще контрольная группа из т независимых нормальных Л^ {\\„ а-) величин. Альтернативной к нулевой гипотезе о равенстве всех п +1 математических ожиданий является теперь гипотеза, состоящая в том, что одно из математических ожиданий для п исследуемых групп
5 8.41 ХАРАКТЕРИСТИКИ КРИТЕРИЕВ 235 имеет сдвиг относительно \i„. В качестве статистики критерия берут I п т _ _ max {Xi—x)r^ ^{xif — ^y, где 'х = п т = 2 Ц %/(ft+l)m. 1=0 ;=I 9. Карлин и Труакс также кратко обсудили многомерный вариант проблемы сдвигов. ^Многомерная проблема для аномальных наблюдений рассматривалась Кудо и Сиагани A959) (см. E.3.11)). § 8.4. Характеристики критериев для аномальных наблюдений Для того чтобы дать «альтернативу с учетом аномальных наблюдений» для нулевой гипотезы Hq, состоящей в том, что рассматриваемая выборка случайно извлечена из некоторой нормальной генеральной совокупности, были развиты две главные модели (Граббс A950); Диксон A950)). В обеих моделях предполагается, что Ху, Х^, ..., Х„ — независимые св. и что n — k из этих величин (неизвестно какие) имеют одинаковое Л^ {}и, о^) распределение. В модели А оставшиеся k величин имеют математические ожидания [i + Xja (i = l, 2, ..., /е) и обш,ую дисперсию а*; в модели В эти k величин имекуг одинаковые математические ожидания [1 и дисперсии 7.1 о'^ (t=l, 2, ..., k). Таким образом, модель А учитывает только сдвиги математических ожиданий некоторых св., а модель В имеет дело только с изменениями дисперсий. Очевидно, что реальная ситуация не может быть столь чистой, но мы должны с чего-то начать. Обычно, в действительности, необходимо дальнейшее уточнение моделей. Для [х и о различают еш,е ситуации (а)—(г) из § 8.2. Параметры X,- и Я,- неизвестны, за исключением того, что для односторонних критериев (скажем, с правосторонней альтернативой) мы берем Xj>0 и ?^i'>l, соответственно. Ясно, что критерии для сдвигов соответствуют частному случаю k=l, для которого мы полагаем 'ki = K я Ц = К'. Тогда Ко есть просто Д из § 8.3. В дополнение к различным оптимальным свойствам, выведенным для
2Se Обращение с ляом Aлт.пыми н\БлюлР.ниямн ггл. g статистик Di и Dj, интересно отметить результат Фергю- сона A961b), показавилего, что D^ остается оптимальной в модели В для ?i'>-l. Таким образом, из всех несмещенных критериев, инвариантных относительно изменения параметров сдвига и масилтаба, критерий, основанный на Dj максимизирует вероятность отвергнуть резко выделяющееся наблюдение в следующих ситуациях: (а) когда аномальное наблюдение отличается только значением математического ожидания; (б) когда оно имеет большую дисперсию и (см. замечание 1 в § 8.3, которое применимо также к D.,) (в) когда сдвиг математического ожидания сопровождается уменьшением дисперсии. Эти замечания содержат рекомендации для использования статистики D^, не давая, правда, рецептов для ^>1. Действительно, в случае D^ мы видели (упр. 5.3.3), что только одно из отношений {xi — x)/s может превосходить D^^a для ftsgl4, а = 0,05 или п si 19, а = 0,01. Это значит, что если при таких значениях п и а будут присутствовать два одинаково аномальных наблюдения, то ни одно из них нельзя будет обнаружить прн использовании статистики Di. Если два аномальных наблюдения попадают из одной N {[i-^ka, а^) генеральной совокупности, то ясно, что вероятность Р обнаружения любого из них стремится к нулю при Х-^оо, и можно ожидать, что эта вероятность будет чересчур малой для конечных К. Это явление бьию впервые отмечено Пирсоном и Чандра Секаром A936) и впоследствии названо Мерфи A951) «маскирующим эффектом». Этот «маскирующий эффект» возникает не только при использовании статистики Dj. Он неминуем, если а оценивается при помощи той же выборки. В меньшей степени этот эффект проявляется для статистики C.j, особенно при малых значениях v (см. упр. 8.4.1). Фергюсон A961b) показал также, что статистики Di и Dg (чаще обозначаемые gj и bo) локально наиболее мощные среди инвариантных критериев не только для k=l, но и для k<.nl2 в случае D^ и для ^<0,31й в случае Dg. Более точно, альтернативная гипотеза для D^ состоит в том, что k из величин Х^, Хо, ..., Х„ имеют математические ожидания ^-j-kida с б, ?1(>0. .Тогда функция мощности выражается как функция от d%i, бЯ.а. •••• ^к для любого инвариантного критерия ш. Среди всех эти?с критериев критерий, основанный на D^, макси-
$ a4} ХАРАКТЕРИСТИКИ КРИТЕРИЕВ 237 мпзирует скорость увеличения функции мощности в точке 6 = 0. Очевидно, что такая локальная оптимальность имеет небольшое практическое значение; кроме того, нет таблиц процентных точек статистики для малых п. Заметим также, что показателем оптимальности является мощность критерия, ко'горая lie совпадает с вероятностью обнаружения аномальных наблюдений. •Мы подошли к довольно естественному вопросу: что взять в качестве подходящей меры качества критериев для аномальных наблюдений, принимая во внимание три задачи (а) —(в) таких критериев, упомянутые в § 8.1? С этой целью рассмотрим в деталях модель А для одного резко выделяющегося наблюдения справа. Ясно, что разумная мера может зависеть в этом случае только от п и к и не должна зависеть от того, какое наблюдение является аномальным. Для удобства будем считать аномальным наблюдение Xi. Пусть Ну обозначает соответствующую альтернативную гипотезу. Хотя рассматриваемые ниже меры могут быть обобщены для того, чтобы применять их для более широкого класса статистик, мы будем предполагать, что статистика критерия имеет вид и= max v;. Такими, в частности, являются статистики Ai, В^, Q, С^ и Dy. Например, для С^ имеем V; = {х, - х)/\ У^ (xi - xf + vslj ^'-. Обозначая через v^ верхнюю а-значимую точку статистики V, укажем следующие естественные меры: A) функция мощности Pi = P {V >Va Н^}] B) вероятность того, что наблюдение Х^ значимо: C) вероятность гого, что Xj значимо и при этом является наибольилим в выборке: Рз=Р{1/,>у„; ■^:i>^2, Хз, ..., x„\Hi}; D) вероятность того, что только Xj значимо: E) условная вероятность того, что Х^ значимо, при условии, что Xj — наибольший член выборки: P,==P{Vy>Va,X-,>X„ X, Х„; Н,}.
288 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ 8 Мера Pi дает вероятность значимости в любой Ситуации и, таким образом, особенно подходит для задачи (б) из § 8.1 — обратить наше внимание на наличие резко выделяющихся наблюдений. Меры Р<^, Рд и Р^ более при- спосо&тены для точного обнаружения этих наблюдений, т. е. для задачи (в), но только Р^ исключает возможность того, что кроме аномального наблюдения Х^ значимым может быть и хорошее наблюдение. Мы видим, что P^^P^^Ps^P^. (8.4.1) Мера Pj Диксона A950) связана с Рд соотношением P5=Pg/P{Xi>X„ Xg Х„\Н,}, где вероятность Р {Xi> Х^, Хд, ..., X„\Hi} табулирована Тейкроу A955) для nsglO. Из этих пяти мер самая простая с вычислительной точки зрения — Р^, Рд и Р^, наоборот, очень трудны. Однако при определенных условиях только одна из величин Vi, Vi, ..., Vп может превышать о^ (как было отмечено, в случае D^ этот факт имеет место для ft«sl4, а = 0,05 и ft ^19, а = 0,01). В такой ситуации из неравенства Vi > Va вытекает, что Х^ > Х^, Х^, ..., Х„ и V^, 1/g, ..., Vn<.Va, Т. е. что Р^ = Р^ = Р^. функцию мощности Pi можно оценить с помощью первых двух неравенств Бонферрони E.3.3). Обозначая через Ai событие {Vi^v^, i=\, 2, ..., п] имеем Р^ = = PjU'^'l " отсюда получаем, что P^<P{V,>v,.\H^\-\-{n-\)P{Vj>v^\H^\^ = P2+(ft-l)P (8.4.2) (/ = 2, 3, ..., ft), где Р = Р{1//>Уа|Я1}, и -a_,P{l/,>D„, 1/д>1.„|Я1}. (8.4.3) Поскольку вероятности в (8.4.3) обычно трудно получить, полезно отметить следующее неравенство, вытекающее из (8.4.1) и (8.4.2): P„<Pi<P2 + (ft-l)p. (8.4.4
$ 8.4] ХАРАКТЕРИСТИКИ КРИТЕРИЕВ 239 Очевидно, что для фиксированного п вероятность р является убывающей функцией h. (?i>0). Ее верхняя граница %, соответствующая ?i = 0, удовлетворяет (8.4.3) с заменой Н^ на Hq, Поэтому Для каждой из статистик А^, В^, С^, С, и D^ известно ^), что P{Fi>y„, Fs > Ua I ^о} < Ро- Можно легко показать, что Ро<Р'. где P' = ;ir(>-(>-2«^n. (в.4.5) И что Р' < _j (при условии, что а<2/п). (8.4.6) Последнее условие часто имеет место, и тогда (8.4.4) можно заменить весьма простым, но более слабым неравенством P.^Pi^P^+cc. (8.4.7) Функция мощности Pi для Bj была табулирована Дэйвидом и Полсоном A965), которые дали также для сравнения графики мощности х^-критерия Bj- Как ожидалось, Bi всегда является лучшей. При фиксированном X преимущество В^ возрастает с ростом п. В той же работе даны графики (см. рис. 8.4 *)), сравнивающие качество критериев, основанных на статистиках В^, С^, С^ и D^, относительно меры Pj. Для Ci и С^ вычисления Ра были сделаны для v = 5, 10, 20, но некоторые кривые были опущены, чтобы не перегружать график. Графики показывают, кроме того, как для данных п и а растет Р^ с увеличением информации относительно а и насколько увеличивается Рг при использовании С^ вместо С, в случае одного аномального наблюдения. Последний выигрыш максимален, если внутренняя информация о о^ велика по сравнению с внешней. Однако есть указания, что S) Для С] при малых значениях v неравенство может нарушаться (Хьюм A965)). *) Вероятность Р^ обнаружения аномального наблюдения при помощи статистик Bi: v = оо; Dj: v = 0; Ci- v = 5, 10, 20; C«: — v = 5, 10, 20.
. - 1 1 г -1--^,^ "''' /i^ a=D.Dt ^^',y / / ''/'''/' / ^ ^ y^ cl' i 1 n^e - a=0,Cf / // 1 'j'-"^ M- //'' / 11/ / / ' 1/ ^ / '/ ' / ' '' /''' ^i-"""'''^"^ r- - 1 •" ' V=5 V^-C. V=5 Phc. B.4.
§8,4) ХАРАКТЕРИСТИКИ КРИТЕРИЕВ 241 внутренние CTcneiiH свободы значат меньше, чем внешние. Так, при ft = 6 силоил^ая кривая, соответствующая v = 5, лежит выше пунктирной кривой для v = 0, хотя и в том, II в другом случае сумма степеней свободы равна 5. Выборочные эксперименты больнлого масштаба были ировелены Фергюсоном A961b) для сравнения функции ,\!Ош,ности Pj для различных конкурирующих статистик в случае (г) из § 8.2, а именно, для односторонних статистик D,, Dj, г,о и двухсторонних D^, Dj, г^о'. Фергюсон разбмл одну и ту же группу из 25 000 случайных нормальных наблюден11й на выборки объемов п = 5, 10, 15, 20 и 25 (т. е. взял 5 000 выборок объема 5, 2 500 выборок объема 10 и т. д.), последовательно прибавляя постоянную Я = 0, 1, 2, ..,, 15 к фиксированному члену каждой выборки. Он отметил при каждом п и X процент случаев, для которых статистика, вычисленная по выборке, превышает свою верхнюю а-значимую точку (а = 0,1; 0,05; 0,01). Осложняло дело то, что ввиду отсутствия процентных точек статистик Dj и D^ для данных значений п (за исключением случая п = 25 для D4), Фергюсон был вынужден сценинать сами процентные точки с помощью выборочного эксперимента. Это же было сделано и для всех двухсторонних статистик. Принимая во внимание все эти оговорки, результаты Фергюсона можно свести к следующим: (а) Для малых п нет разницы (с точностью до двух десятичных знаков) между функциями мощности трех односторонних критериев и между функциями мощности Tj^ex двухсторонних критериев. (б) Функции мощности возрастают (каждая по своему) с ростом п. Для п = 25 D, — наилучшая среди односторон- шх статистик, в то время как Dg и Д, —почти одинаково хорошие двухсторонние статистики. Численные результаты для а = 0,05 приведены в таблице 8.4. (в) Цифры, заключенные в круглые скобки в таблице 8.4, позволяют сравнивать критерии, основанные на статистиках Dg и Dj, в случае двух аномальных Ы{\а-\-'ка, а^) набчюдений. Как предполагалось выше, Dg — неудовлетворительная, а Dg —заметно лучшая статистика. Заметим, что для D^ функция мощности вьшле, чем в случае Одного аномального най1юдения, а для Dj, наоборот, Нпже. Однако это не означает, что Dg свободна от «маски-
242 ОРБ МНЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ. 8 Таблица 8.4 Мощности шести критериев (а=0,05) для аномальных наблюдений, основанные на 1000 нормальных выборок обьема п = 25 в случае, когда одно или два наблюдения (для случая двух наблюдений данные указаны в круглых скобках) взяты из генеральной совокупности Л' (и, + Яа, а^), а другие —из ;V (j.i, о^) (Фергюсон A961 Ь)) к D, D, Гю D, D2 г\1' 1 0,06 0,06 0.06 @,0E) 0,05 @,06) 0,05 0,05 2 0,17 0,16 0,13 @,14) 0,12 @,13) 0,13 0,11 3 0,38 0,42 0,36 @,37) 0,36 @,34) 0,35 0,29 4 0,69 0,75 0,67 @,71) 0,68 @,58) 0,69 0,60 5 0,89 0,94 0,90 @,95) 0,89 @,81) 0,91 0,84 е 0,98 0,99 0,98 A,00) 0,98 @,96) 0,99 0,96 7 1,00 1,00 0,99 1,00 @,99) 1,00 0,99 8 1,00 A,00) 1,00 рующего эффекта», который более очевиден при меньших п. Действительно, для п = 5 и 10 Р^-^О при Х-^оо для Dj и Dj даже при таких достаточно больших а, как а = 0,10. Наиболее обширным исследованием качества критериев для аномальных наблюдений до снх пор является работа Диксона A950). Диксон применил по существу тот же метод, которым позже воспользовался Фергюсон, но измерял качество критериев долей тех выборок, в которых аномальное наблюдение совпадало с наибольшим наблюдением Х(„1 и используемая статистика приводила к значимому отклонению. Выборки, в которых Х(„) являлось наблюдением из нормальной Л^ (ц, о^) совокупности, при вычислении не учитывались. Таким образом, мера качества критериев, использованная Диксоном, является оценкой для Pg. Диксон рассматривал следуюш,ие статистики (для которых ему были известны верхние процентные точки): Bi, Вг, Bi," В^, Ci, Сз (для v = 9), Di, De и свои г-ста- тистики. Объемы выборок ограничивались значениям^
§ 8.^1 ХАРАКТЕРИСТИКИ КРИТЕРИЕВ 243 /7 = 5 ИЛИ 15; уровень а обычно брался равным 5% Наряду со случаями, когда присутстБовало одно аномальное наблюдение, рассматривались и ситуации с двумя такими наблюдениями. Результаты были получены как для модели В, так и для модели Л. Каждая точка на графике меры качества критерия как функции К основывалась по 66—200 определениям. Мы не пытаемся здесь суммировать результаты Диксона (см. работу Диксона A962)). Они дают пачезные указания, но следует помнить, что для типичной точки ордината, соответствующая, например, биномиальному распредачению для 100 испытаний, имеет стандартное отклонение 0,05, если Р5 = 0,5, и 0,03, если Р5 = 0,1. Однако взаимные сравнения мер качеств различных критериев будут более надежными из-за многократного использования каждой выборки объема п. Дальнейшие замечания о работе с несколькими аномальными наблюдениями. Имеется интересный теоретический результат (Мерфи A951)), обобщающий свойства оптимальности статистики Di в случае присутствия одного аномального наблюдения. Если предполагается, что k наблюдений попали из нормальной N {ц.-\-'ка, о^) генеральной совокупности (Х>>0), то оптимальный инвариантный критерий состоит в том, чтобы отвергнуть нулевую гипотезу при больших значениях D<''' = (X(„) + X(„ ц+... ...+X(„_fc+i) — fe,v)/s. Хотя предположение о наличии не более одного аномального наблюдения (требующееся для оптимальности D^) может быть близким к действительности, обычно редко бывает удобным предполагать, что имеются либо два, либо нн одного ано.мального наблюдения. Это последнее предположение требуется для оптимальности D<^'. Отметим также, что в случае fe> 1 никаких таблиц для D"'' нет. В предположении, что k может быть значительно больше 1, мы в идеале хотели бы действовать следующим образом: Применим некоторую статистику критерия к выборке объема ft. Если полученное значение превышает уровень значимости, то отбросим наибольшее наблюдение и применим ту же статистику к оставшейся выборке объема «~1, уточняя уровень значимости для нового выборочного объема. Повторяем эту процедуру до тех пор, пока статистика критерия принимает значения, большие соответствующих уровней значимости.
244 ОЬрАЩЕНПЕ с аномальными наблюдениями [ГЛ. ( Такая процедура была бы желательной из-за возмо}к. ности пользоваться одними и теми же таблицами. Однако эта процедура не подходит для статистик, сильно подвер. женных «маскирующему эффекту». Некоторую теорию этого вопроса можно найти у Макмиллана A968). § 8.5. Эффект отбрасывания аномальных наблюдений при оценивании параметров Обсуждая критерии для аномальных наблюдений, мы до сих пор подчеркивали их роль в обнаружении присутствия и точном определении аномальных наблюдений (задачи (б) и (в) из § 8.1). Теперь мы обратимся к труд. ной проблеме определения того, как влияют результаты примепеь'ия таких критериев на последующее оценивание параметров. Ясно, что должна быть некоторая зависимость от того, будут ли некоторые наб^чюдения отвергнуты или нет, хотя, например, двухсторонний критерий с двумя одинаковыми критическими областями не даст смещения при оценивании среднего, если исходная генеральная совокупность симметрична. По-видимому, систематическое исследование этого вопроса началось с работы Диксона A953), который в основу своей работы положил как раз описанные выше эксперименты. Мы рассмотрим подход, развитый Энскомбом A960) и обобщенный Гутменом и Смитом A966, 1969). Для п независимых нормальных величин с известной одинаковой дисперсией о^ и неизвестным (предполагаемым нами одинаковым) математическим ожиданием ji обозначим через М порядковый номер наблюдения, имеющего наибольшее отклонение от среднего значения. Одно простое правило состоит в следующем: Отвергаем наблюдение х^ь если |x^i —х|>са, где с — некоторая выбираемая нами постоянная; в противном случае ни одно наблюдение не отвергается. Оцениваем теперь ii при помощи среднего значения оставшихся наблюдений A. Таким образом, ( X, если I Хл| — ^ I < са, [ X ^—^-, если I Хм — X I > са.
§ e.bj ЭФФЕКТ ОТБРАСЫВАНИЯ 2^^ Это правило использует статистику Bg из § 8.2, но с не обязана быть одной из обычных верхних процентных точек. Действительно, один из главных выводов Энскомба состоял в том, что вся концепция уровня значимости соответствующего критерия не является подходящей с точки зрения рассматриваемой задачи оценивания. Будет правильнее, если с выбирают таким образом, чтобы сделать а хорошей в некотором смысле оценкой. Используя аналогию со страхованием, Энскомб предложил, чтобы мы были готовы внести «взнос» в виде некоторого повышения среднеквадратичной ошибки, когда нет аномальных наблюдений, для того чтобы получить «компенсацию» в случае, когда они есть. Точнее (и эти определения имеют более широкую область применения), мы имеем «взнос» = (Dji - DX)/D.^, «компенсация» = (Е (.^ — ц)^ — Е (ji — ц)^)/Е {X — ц)^. Для однородной выборки, таким образом, получаем, что «компенсация» = — «взнос» ss; О, но с увеличением неоднородности «компенсация» становится положительной. Предположим теперь, что присутствует одно N {ц-\- + Ха, а^) аномальное наблюдение. Обозначим Zi = Xi — X (i=l, 2, ..., ft) и, в соответствии с (8.5.1), введем величину Т, определенную следующим образом: О, если |Zjn|^ca, -^^, если \гм\>са. Т=\ ^и Тогда ^^Х-\-Т, где Х'~^Ы\\х.-\-^^, ~—). Из независимости X и Т. являющейся функцией Z/, следует, что
246 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ 8 Таким образом, в этом случае находим, что «взнос» = ftE {Tiaf, (8.5.2) «компенсация» = аНпА-Ш— ' ^ ^^ К сожалению, эти величины трудно вычислить, и поэтому для ft > 3 после аналитического упрощения входящих в эти выражения интегралов использовался метод Монте- Карло (Гутмен и Смит A966)). Полагая для простоты а = 1, для ft = 3 имеем где R, (8.5.4) «взнос» = ЗЕТ^ = 3 i ^ 2ifi,gBi, z^dz^dz^-^- + 3^1 Z!f,,3(Zi, Zg)dzgdzi, R, ^l = |zi. 2з|с<2з<СО, —Z3<2i< —у2з|, ^2 = |zi> Zg I — CO < 2, < - C, — у Z, < Zg < - Zij- " fi. 3 (Zi. Zg) есть совместная плотность распределения с. в. Z(i) и Z(g), определяемая равенством 31^3 fi.3 IZi, Zg) = -^^ exp [— (zf + Z1Z3 + zl)] в области {zi. Zg| —yZi<Zg<-2zi}. (8.5.5) Из соображений симметрии оба интеграла (по областям Ri и R2) равны. Полагая Zj = — oy'/^yi/s^ Zs = w^'^v~^'^, имеем «взнос» = —7— I \ tiyexp —wlv — l-\—]\dwdv = = -4jr3 (t;^-H-l> exp|--^(D^-D + l)JdD = 1 I/pc^ ^-(^^+1I + 1 где ; = - 0 2/1 1 КЗ \2 t;
§ 8.5] ЭФФЕКТ ОТБРАСЫВАНИЯ 247 С ПОМОЩЬЮ численного интегрирования с можно определить таким образом, чтобы «взнос» принимал желаемое (например, 5-или 1-процентное) значение. Соответствующую «компенсацию» тогда можно найти как функцию X. Графики 8.5 (из работы Гутмена и Смита A969)) дают «компенсацию», соответствующую 5-процентному «взносу» не только для правила (8.5.1), но и для следуюидах двух правил, которые скорее смягчают влияние аномальных наблюдений, а не отбрасывают их. Мы сформулируем эти правила для общего п. (а) Уинсоризация: если \Zm\>са, мы не будем отбрасывать наблюдение Xj^^, а положим его равным ближайшему к А'д1 наблюдению (для п = 3 просто берем Хм~ХB))- Таким образом, в этом случае оценкой для [i служит !Х, если I z^M I sg са, ^ — {>^{п) — ^(п 1\)!п, если |z^i|>caH М = п, ■^ + (^B) — ^A))/". если |Zjn| >са и М = 1. (8.5.6) (б) Модифицированная уинсоризация: если | 2,м | > от, то мы берем x^i равным ближайшему из двух значений к±са. Таким образом, здесь оценкой для \у является !х, если 12^11 ^ са, X — {zin) — ca)/n, если \гм\>са и М = п, ■^ — (■^(i) + са)/п, если \Zm\> са и М = 1. (8.5.7) Заметим, что для фиксированного «взноса» величина с зависит от того, какое правило используется. Графики рис. 8.5 показывают, что правило (8.5.7) лучше использовать при малых к, но уже при Я порядка 4 лучшим является правило (8.5.1). Конечно, для очень малых К простое усреднение (с нулевой «компенсацией») лучше всего. Уинсоризация является промежуточным правилом, более близким к правилу Энскомба, чем к модифицированному. Подобные результаты имеют место для 1-процентного взноса и, конечно, справедливы и для больших значений п, хотя разница «компенсаций» становится менее заметной с увеличением п. Гутмен и Смит A966, 1969) рассмотрели также для модели В ситуацию
?48 ОБРАЩЕНИЕ С МЮМЛЛЬНЫМИ ИЛВЛЮЧЕНЛЯМН ГГЛ R С одним аномальным А^ (\х, к'^а^) наблюдением. Результаты качественно не очень меняются, хотя правило (8.5.6) теперь чуть лучше, чем (8.5.1), для больших к. 1,0 0,8 Л Е. 0,Ь Ц Ч 0,4 «и 1 0,2 ^ 0 -0.2 1 1 г 1_^ ^^■^-^■^ -^ —" """ " /% « Взнос:^ У'"^^ У^ —■*-"• // """" // ^■''''' //-^ У^/ "V \,</ 1111 Рис. 8.5. IB Случае нескольких аномальных наблюдений, отличающихся сдвигом от оставшейся части наблюдений, также исследовался Энскомбом и Барроном A966), предложившими правило, подобное (8.5.7). Однако они положили Xi равным ближайшему из двух значений jldbca, если I Xj — [Д. I (а не \xi — x\) превышает са. Осуществление этого правила требует нескольких этапов. Хотя авторы и ограничились детальным анализом случая ^г = 3 с одним аномальным наблюдением, они пришли к следующей общей
УПРАЖНЕНИЯ 249 привлекательной рекомендации для двухступенчатой про- цедз'ры, которая согласуется с другими описа.нными нами приемами: 1. Применяйте соответствующий критерий для аномальных наблюдений с высоким уровнем значимости — настолько высоким, чтобы хорошие наблюдения отвергались очень редко. Тем самым удастся избавиться только от посторонних наблюдений, оказавшихся очень далеко от основной массы. 2. Применяйте вновь тот же самый критерий для оставшихся наблюдений, но теперь уже па довольно умеренном уровне значимости. На этот раз, в отличие от пре- дыдуш,его этапа, не отвергайте аномальные наблюдения, а придавайте им уменьшенный вес в последующей процедуре оценивания параметров. За исключением этой рекомендации, которая оставляет ряд вопросов повисшими в воздухе, все обсуждавшиеся до сих пор правила предполагают а известным. Для п = = 3 Гутыен и Смит A956) получили некоторые результаты и для случая неизвестного а и нашли, что модифицированная уинсоризация много лучше двух других правил (в рассмотренных выше правилах нужно теперь за.\шиить а на s). Хотя мы часто имели по необходимости даао со случаем п = 3, мы не упоминали о практике оценивания ц с помощью среднего двух ближайших наблюдений. Ничто не говорит в пользу таких оценок (Сет A950); Либлейн A952, 1962); Уилкс A966)). Некоторые аспекты байесовских оценок и соответствующих рисков, особенно для модели В, рассматривались Гебхардтом A964, 1966). Упражнения 8.2.1. Предложить критерий для аномальных наблюдений в нормальном случае, когда параметр а неизвестен, а |i известен. Указать, какие таблицы применимы для односторонней и двухсторонней альтернатив (см. работу Чу A964)). 8.2.2. Пусть Х], Л2, .... Х„ — независимые св. с плотностью распределения р (х) = — ехр {—(x—iii)/(J)(x^Ьц е2>0), и пусть 02 иф=^—^ = ^уг (,1—-> а, .... п), 1 = 1
250 ОБРАЩЕНИЕ С АНОМАЛЬНЫМИ ПЛСЛЮДЕИИЯ.МП [ГЛ. 8 Заметим, что X,i,, У—полные достаточные статистики для Si, Sj и что распределение с. в. Уц, не зависит от параметров. Отсюда следует (Басу A955)), что (У„-, статистически не зависит от Хщ и Y. Показать, что для i/^0 и k = ll/u] справедливо соотношение P{Ua,^u} = l- 2 (-ir"'""'"''c;:C?ri(l-^)(l-ru)«-. (Лоурент A963); Кэйб A968)). 8.2.3. Обсудить критерии для аномальных наблюдений справа в экспоненциальном случае (как в упр. 8.2.2), различая случаи; (а) известны Si и Q^f (б) известен только параметр б^ (в) известен только параметр б^; (г) неизвестны оба параметра. Показать, что в последнем случае соответствующей статистикой является U,„, из упр. 8.2.2 и что к P{t/,„,^"} = 1- Ц (-lГ■'^C;,„[(l-гu)"-2 (й = [1/и]) (Лоурент A963); Басу A965)). 8.3.1. Мостеллер рассматривал п выборок объема mj (i^l, 2, ... ..., п), в одной из которых имеются ровно у наблюдений больших, чем все наблюдения в остальных выборках. Показать, что если выборки взяты из одной непрерывной генеральной совокупности, то Р {К > {/} = 2/п[.^>/B'"/)""' где п'У> = п{п — 1)... (п—{/+1) (Мостеллер и Тьюки A950)). 8.3.2. Пусть Ti обозначает сумму рангов Краскела — Уоллиса для 1-й из п выборок объема т, взятых из непрерывной генеральной совокупности, и пусть ,, /„ 1 , , ,Л /Г/г/п2(/г/п +1I1/2 Vi:={Ti-^m{nm+l)j^ ^ 12 J • Показать, что асимптотически (при /п ->- со) с. в. max Vi распре- 1 < i < л делена как с. в. max (X,-—X), где Xj — независимые jV (О, 1) I <£< л величины (см. работу Оде A967)). 8.3.3. Следуя Полсону, рассмотрим п групп по т нормальньк jV (|Xj, а^) с. в. Xij {i—l, 2, ... , п; / = 1, 2, ..., т). Пусть Doo — решение, состоящее в равенстве всех п математических ожиданий |х/, а Dj,-, —в том, что D^ неверно и ц,-=ц^(„, а ц,- =ti„ax (минимум и максимум берутся по 1=1, 2 п). Говорим, что пара (|х^, |.i,v) сдвинута на А (А > 0), если |Xi=H2=--. = H<_i = !Ar+i=-- = !J^('_l =^ = jXj.,. (=... = Ць = ц (значение |х неизвестно) и |х^^ц—^> l^l' =Ц+А. Введем следующие ограничения: (а) если все ц/ равны, Doo должно быть выбрано с вероятностью 1 —а; (б) решающая процедура должна быть инвapиaF^тнoй при линейных преобразованиях с. в, и (в) процедура Должна быть симметричной в то^м смысле, что вероятность
УПРАЖНЕНИЯ 251 принять правильное решение, когда (ц,, ц,',) сдвинута на А, должна быть одинаковой при всех I и t'. Показать, что оптимальная процедура, когда одна из пар сдвинута, состоит в следующем: л т 1/2 если g='f'(*шах —*min)/ Е Е (^'/—^)'' <ga. ТО выбч- рается Dooi если g>ga, и х„;„=х^, а ^„ах—%• то выбирается D,.,., (Рама- чандран и Кхатри A957)). (Заметим, что Рамачандран и Кхатри ошибочно рассматривали g как стыодентизированныи размах. Значение g„ не табулировано, но может быть получено приближенно с помощью моментов G. Как и в § 5.2, к-й момент G является отношением к-то момента числителя к й-му моменту знаменателя G.) 8.4.1. В ситуащ1и случая (в) из § 8.2 положим й=^-£-х)/B(х,—xJ + vs2]l/2 (/=1, 2, .... п). Доказать, что совместная плотность распределения с, в. Yi и Y^ имеет вид / п \1/2 n+v—3 /, /г —1 , 2 /г—1 ,\ 2 внутри эллипса п —1 „ 2 , /г—1 , -7^312 ^f-„-32-^i"+ir=2^'^'- Показать, что только одно из значений i/i может превышать с, если с>[(/г —2)/2/г]1/? (Квизенберри и Дэйвид A961)). 8.4.2. Доказать соотношения (8.4.5) и (8.4.6). 8.5.1. Показать, что «взносу» (8.5.4) соответствует 9 С 1 /■2J\. г \ «компенсация» = g^^ \ Т ^^ (т ~ Тj ^^-^ ^^^' ^^' ^^ '^^* '^^^"'' + 3 +Х^ J Т ^М Т ~ т) '^*' ^ ^^' *^' ^"^ ^^^ ^^*' К, где '"-'1»р{-[(^.+1-)"+(-+1)('.+1)+КШ}+ +^«p{-[(-fr+b-f)(^.+4)+('.+irF +'?-И:м-|;-К'.+|-)(.-|)+(.-1Г|1 в области (8.5.5) (Гутмен и Смит A969)).
262 ОСРАЩЕИИЕ С АНОМАЛЬНЫМИ НАБЛЮДЕНИЯМИ [ГЛ. g 8,6.2. Доказать, что для правила (8.5.6) «взнос»=пЕ (W/a)^, где W^ ]х^ — X. Показать с помощью этого результата, что для п^З выражение для «взноса», аналогичного (8.5.4), имеет вид 2 (• «взнос» ==-j I B23 + 2i)'fi,3Bi, гз)с/г1^гз (Гутмен и Смит A9G6J).
ГЛАВА 9 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ § 9.1, Вкедение Асимптотическая теория порядковых статистик имеет дело с распределением соответствующим образом нормированных (н центрированных) вачичин Хг.п при п-^оо. На первом этапе обычно предполагают, что Х^: л является г-й порядковой статистикой в случайной выборке объема п из некоторого распределения с ф. р. Р (х). Однако, как мы увидим позже, многие виды зависимости между Xj, Ко, .... Хп не нарушают вида предельных распределений. Эта черта делает рассматриваемую теорию значительно более полезной. Если г/п-^к при п-^оо, то существенно различные результаты получаются для случаев О <;?t < 1; ?v=0, K=l. В первом случае Хп,, является выборочной квантилью и (при выполнении определенных условий регулярности) имеет асимптотически нормальное распределение. Ко второму случаю относятся экстремальные значения Xi:n, Хп:п И, вообще говоря, т-е экстремумы Х,,,;,., Хп-т-г\:п при фиксированном «I. Этп величины имеют ненормальное предельное распределение. Л1ы часто ссылались на асимптотические результаты в предыдущих главах. В частности, асимптотическая оценка предельного числа квантилей возникает в задачах «оптимального выбора порядковых статистик» (§ 7.6). В следующем параграфе мы излагаем теорию распределений, оправдывающую это применение, и, следуя Мостеллеру A946), устанавливаем совместную асимптотическую нормальность Квантилей, В оставшейся части главы мы имеем дело с теорией экстремальных значений (§§ 9.3 — 9.5) и асилштотическим Распределением линейных функций порядковых статистик,
254 Асимптотическая теория [Гл. s а также с их использованием в асимптотическом оценивании (§§ 9.6 и 9.7). Здесь в большей степени, чем где бц то ни было в этой книге, мы ограничиваемся кратким изложением очень обширной доступной литературы, приводя доказательства только некоторых основных результатов. Самый замечательный результат теории экстремальных значений является теперь классическим: если величина Хп:п, нормированная надлежаш,им образом, имеет предельное распределение, то оно должно быть распределением одного из трех типов, задаваемых соотношением (9.3.1). Имеется множество применений распределений экстремальных значений. Например, простое предположение о том, что цепь не прочнее, чем ее самое слабое звено, приводит нас к интерпретации величины Х^п, как прочности цепи (состояш,ей из п звеньев), и отсюда к впечатляющей теории прочности на разрыв. Либлейн A954b) прослеживает эту идею вплоть до работы Чаплина 1860 г. Наиболее полезным распределением, описывающим прочность на разрыв, является так называемое распределение Вейбулла, имеющее ф. р^ F{y)==l -ехр [- (^)"J (Y <i/ <оо; 6 >П; а>0). (9.1.1) Здесь у можно интерпретировать как гарантированный минимум прочности, а б—масштабный множитель. Очевидно, что Х=—{Y— у)/д имеет ф. р. А_,(х), т. е. распределение Вейбулла является просто вторым из трех типов, но только для наименьшего, а не для наибольшего значе ПИЯ ^). В испытаниях на продолжительность жизни у может обозначать время до момента гибели. Далее, распределе ние наводнений илп других экстремальных метеорологических явлений часто имеют вид Лд. Мы отсылаем читателя к книге Г}'мбеля A965), где указаны другие приложения и приведены различные ссылки. Гумбель также подробно обсуждает различные методы оценивания параметров таких, как у и б в(9.1.1), причем 1) Заметим, однако, что эти три типа часто обозначаются по разному: на Aj (х), Aofx), Ад (х) ссылаются как на вторую, третью, первую асимптоту (или даже тип), соответственно.
§ 9.1] 13ВЕДЕИ11Е 255 предполагается, чю данные представляют собой множеств» из п (не обязательно большого) наблюдаемых максимумов или минимумов. Широко применяются графические методы, особенно вероятностные диаграммы (сравните с § 7.8). Поскольку (9.1.1) является распределением, зависящим (при фиксированном а) от параметров сдвига и масштаба, то их оценивание с помощью порядковых статистик (§ 6.2) также возможно. В этой связи можно упомянуть работу Марица и Манро A967), в которой с помощью порядковых статистик оцениваются все три параметра «обобщенного распределения экстремального значения»: где — oo<i/<Y + 6p, если р>0, V + 6p<i/<oo, если Р<0. Положив v + 6p = 0, получпм Ai для бр = 1,р-= — а и Ла для бр = 1, Р=а. При х = {у — у)-д и р-^оо получим Лз(х). Другими работами, дополняющими книгу Гумбеля, являются его статья по оцениванию предела прочности Б книге Сархана и Гринберга A970), а также работа Гумбеля A961) о прочности на разрыв и усталости, работа Гумбеля A963) о прогнозе засух, работы Пайка A966) о раке, рассматриваемом как прорыв самого слабого звена, Барнетта и Льюиса A967) о вероятностях низких температур, Эпстейна A967) о моментах вымирания бактерий и Манна A968) о процедурах оценивания. В заключительном параграфе (§ 9.7) этой главы выводятся оценки, которые являются асимптотически оптимальными для распределения, зависящего только от параметров масштаба и сдвига. Близкое отношение к этому вопросу имеют методы получения оценок, которые хотя и не обязательно оптимальны для наиболее интересных распределений, но имеют хорошие свойства во всем выбранном множестве распределений. Такие робастные оценки обсуждались в § 6.5, хотя главным образом для малых выборок.
256 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [ГЛ. 9 § 9.2. Асимптотическое совместное распределение квантилей Пусть Xi A = 1 «) —случайная выборка из непрерывного распределения с п. р. р (х). Мы рассматриваем асимптотическое совместное распределение k выборочных квантилей А',„ ) (/ = 1 k), где П/ = [пк/\ + 1 и О <?.j <;... Теорема 9.2 (Мостеллер A946)). Если р (х) дифференцируема в окрестностях квантилей |, и р(с?,)^0 (/ = 1, ..., k), то совместное распределение Х,,,^, ''^("ь) сходится к k-мерному нормальному распределению с математическими ожиданиями |?_^ 1?.^^ и ковариациями cov(X(„,b Х(„.,Л = —~—7tv (/=^/')- Доказательство. Мы предполо^ким сначала, что р (х) — равномерная 7? @,1) п. р., так как с помощью обратного вероятностного интегрального преобразования ?у10жно получить любую р (х), удовлетворяющую условиям теоремы. Совместная п. р. Х|„ ) равна (сравните с 2.2.3) /1 = ,■=0 где fto = 0, ftfci=ft+l, Х(„р)=0, Х(„/^^^, = 1, а С-общее обозначение для постоянной. Поскольку ЕХ(„.) "=rt,/(ft + l), положим У1 = {X(r.j) - п,/(п -Ь 1)) ft'/2 (/ = 0. 1, ..., /г + 1). Тогда Уо = 0, ук^1 = 0 п -1
$ 9.2] СОВМЕСТНОЕ РАСПРЕДЕЛЕНИЕ КВАНТИЛЕЙ 257 В силу ТОГО, ЧТО Y] имеет порядок 1 по вероятности (коротко У/ = Ор A)), имеем > ("+!)-"у'("/-"/-i-l)(y/-y/-if / 1 \ 2 " i^i i^i-Ч-^ ^ "^n'l'' Далее, "у {nj—ny_i — 1) (уу - y/_i) ^ — {"/—n/-i) ft+l A+I H, учитывая равенство Яу = п/«, + 0A), получим Отсюда следует, что fe+i Так как \У {yj-yj-i)~ _ у /У; I . ^^ ' о \ JB±-^ /■=1 /=-2 TO из (9,2,1) вытекает, что Yj имеют асимптотически fe-мер- Ное нормальное распределение с математическими ожиданиями, равными нулю. Матрица коэффициентов квадратичной формы (9.2,2), которую мы обозначим (Луу), 9 Г. Дэйвид
258 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [ГЛ. В имеет вид и Л,/. = 0 для |/-/'|> 1. Можно проверить, что матрица, обратная к (Луу-), или, что то же самое, ковариационная матрица величин Уу, имеет элементы cov(F,, y»=A,(l-V) (/^/'). Поскольку асимптотически ^1п.\ также имеют fe-мерпое нормальное распределение с EX(„^) = t;^.(=X/) и cov(X(„^), X(„.,)) = >i/(l-V)/tt, что доказывает теорему для равномерного случая, ► Для получения результата в общем случае мы воспользуемся следующей леммой: Если случайные величины t/(Xi, Xj Х„) (/ = 1, 2 k) имеют асимптотически k-мерное нормальное распределение с математическими ожиданиями Ь/, дисперсиями а}, которые стремятся к О при п-^оэ, и коьариа- циями Pfi-a/af и если gfit/) —однозначные функции с не равными нулю в некоторых окрестностях точек t, = bf и непрерывными производными g] {tj), то сами g, (t/) имеют к-мерные нормальные распределения с математическими ожиданиями g/ F/) и ковариациями pj/'OfOfg'] F/) g'^ (Bjr), Очевидно, что при 1/=Х^пл, 6у = Я,/ преобразование gf(if) = P~^(^(n.\) удовлетворяет условиям леммы. Поэтом' теорема является следствием равенств gU^i) где ly^^ теперь относится к генеральному распределению с п. р, р (X).
$ e.SJ СОВМЕСТНОЕ РАСПРЕДЕЛЕНИЕ КВАНТИЛЕЙ 259 Замечание 1. Математические ожидания, дисперсии и ковариации, фигурирующие в теореме, соответствуют первым членам соотношений D.5.3)—D.5.5). Замечание 2. Результаты теоремы уже использовались в задаче «оптимального выбора порядковых статистик» (§ 7.6). Другой подход к теореме 9.2 указан в упр. 9.2.2, а также в работе Кнфера A967). Еще одно простое, но довольно строгое доказательство с помощью характеристических функций было недавно приведено Уолкером A968). Используя представление Бахадура нз упр. 9.2.2, Сен A968) установил асимптотическую нормальность (при соответствующих условиях) выборочных квантилей для га-зависимых не обязательно стационарных процессов, т. е. для случайных векторов (Х^, ..., X;) и (Xj, Xj^i, ...), которые стохастически независимы, если j — i>m, m = 0, 1, 2, ..■ Смирнов A966, 1967) рассмотрел поведение Х,„ где k является функцией от п, и сформулировал условия, при которых распределение X^,l^n)) сходится к нормальному распределению при п-^оо при условии, что k{n)-^oo и k {п)/п -^ 0. По этому поводу см. также работы Ченга A964) н ван дер Ваарта A961а). Оценивание в больших выборках неоднозначно определенных квантилей рассмотрено Фельдманом и Такером A966); один из этих результатов содержится в упр. 9.2.1. Асимптотическая совместная нормальность выборочных квантилей для многомерного распределения установлена Вейсом A964) при довольно слабых условиях. В теореме Мостеллера предполагается, что 0<;?ч<; <Л2<;... <^-/,< 1. т. е. последовательность Я строго возрастает. В отличие от этого, рассматривая сначала совместную п. р. величин X(i^k), Х(£) и Х(/+/) при i/n-^X и к, I, равных о (ft), и преобразуя эти величины в величины ^2 = 7" {^{1+1) — ^(.1))' Спддики A960) показал, что асимптотически U, U^ и U.2 независимо распределены, причем U имеет нормальное распределение. Более того, 2kj\Ui и ^Ip^JJ^ распределены
260 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [ГЛ. в как 5С* величины с 2fe и 2/ степенями свободы, соответственно. Таким образом, асимптотически 2прк (Х(Ж) - ^(£-л,) -- Xi (fcw) (9.2.3) имеет распределение, не зависящее от распределения Х^. Эти результаты справедливы без предположения о постоянстве k и I. Если k и I имеют порядок п" @<;а<; 1), то (9.2.3) равносильно (сравните с работой Блоха и Гаст- вирта A968)), соответственно, (fc + Z)'/^ ^ ' '' в своей работе Блох и Гаствирт оценили совместную п. р. Похожие задачи возникают при оценивании моды с помощью некоторой функции от первой и последней из тех, скажем s, выбранных последовательных порядковых статистик, которые группируются наиболее тесно (см., например, работу Вентера A967)). § 9.3. Асимптотическое распределение экстремального значения Асимптотическое поведение X^n) (наибольшего наблюдения в выборке объема п из распределения с ф. р. Р (х)) явилось задачей, бросившей вызов многим крупным специалистам по математической статистике. Наиболее заметный вклад в эту область внесли Додд A923), фон Мизес A923, 1936), Фреше A927), Фишер и Типпет A928), де Фипетти A932), Гумбель (начиная с 193.1 г. и кончая итоговой работой 1958 г.) и, наконец, Гнеденко A943), который проводит наиболее полное и строгое исследование этого вопроса. Можно упомянуть также работу Барндорф- Нильсена A963), в которой кратко излагаются эти и близкие вопросы, и работы Двасса A964) и Ламперти A964), в которых рассматривается подход, связанный со стохастическими процессами. Приведем некоторые из основных достижений в этой области. Для произвольного распределения случайная величина Х(„), даже после соответствующей нормировки, вообще говоря, не будет обладать предельным распределением (пр. р.). Однако, если Р (х) таково, что такое
§ 6.3] РЛСПРЕДЕЛЕППЕ ЭКСТРЕМАЛЬНОГО ЗНАЧЕНИЯ ^"^l предельное распределение существует, то это пр. р. должно относиться к одному из трех типов ^) О, если X ==; О, а > О, Ai(x) = | ^3(-v) = { exp (— X "), если х > 0; ехр[—(—х)"], если x^sO, а>0, (9.3.1) 1, если X > 0; Лз (х) = ехр (— ехр (— х)) (— со < х < оо). Сказанное можно сформулировать в виде следующей теоремы (Гнеденко): Класс пр. р. для Г" (c„x-(-fc„), где й„>0 н Ьп—-соответствующим образом выбранные постоянные, содержит только законы типов Л^(х) (k=\, 2, 3). Мы не будем доказывать эту теорему, а вместо этого изложим остроумную ключевую идею, уже использованную ранее Фишером и Типпетом. Так как наибольшее наблюдение в выборке объема m ■ п люжно рассматривать как наибольший член в выборке объема п, состоящей из максимальных членов выборок объемов т, и так как в случае существования предельного распределения Л(х) оба эти распределения будут стремиться к Л(х) при т-^оо, то Л (х) должно удовлетворять соотношению Л«(с„х + й„) = Л(х), (9.3.2) т. е. наибольшее наблюдение в выборке объема п из распределения с ф. р. Л (х) должно, после соответствующей нормировки, само иметь предельную ф. р. Л. Решение этого функционального уравнения относительно Л (х) дает нам все возможные предельные типы. Далее, если в (9.3.2) с„9^1, то, обозначая х^ = ~i>nl(\ —а„), получим Xo = Cra->^o + ^«. и поэтому Л"(хо) = = Л(хо), т. е. Л(Хо) = 0 или 1. При условии, что п. р. Л(х) существует, х„ должно быть постоянной, которую можно, не умаляя общности, положить равной нулю. Тогда в силу того, что из Хо = 0 следует ^„ = 0, решения распадаются на следующие три класса: A) Л(х)=0, если xsSO, Л" (а„х) = Л (х), если х>0; B) Л"(с„х) = Л (х), если x^sO, Л(х) = 1, если х>0; C) Л«(х + й„) = Л(х). ^) См. сноску из § 9.1.
■262 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ (ГЛ.9 Эти классы, очевидно, соответствуют случаям Сп,>-1, а„<с1 н с„=1. Из стандартных математических рассуждений следует, что едпнственнымп решениями функциональных уравнений A)—C) являюгся соответственно вы- ражепия Aj (л-), Л2(д:) и Лз(а'). i/,4/J У v^o 0,ZD (JJU г I / / ^ eg 1 ' Ui 1 / ^ / % I у, ^1 i t 0 . -2,0 -1,0 0 1,0 2fi' 9,0 4,0 6,0 6,0 7,Q X Phc, 9,3. Посмотрим теперь внимательнее на Аз(х). Так как оно выделяется среди других типов, то его часто называют распределением экстремального значения, хотя, конечно, этот термин подходит ко всем трем типам. Легко видеть, что максимальное наблюдение в выборке объема п из распределения Лз(х) имеет ф. р., отличающуюся от -А^з^ только на смещение /?„ вправо, где /?„ определяется уравнением ехр(—«е ^') = ехр(—е (*' *")), т. е. /?„^logn. П. р. А;'(>;) = ехр{—д- -e-v} изображена на рпс. 9.3. С номошью произЕодяп1,ей функции кумулянтов легко показать, что [i = y (иосюяпная Эйлера) == = 0,5772..., ^2 = V.1 1,6449..., р1= 1,2986.. fi=i Рг = 5,4. Гнеденко A943) получил необходимые и достаточные условия принадлелаюсти распределения Р (х) «области притяжения» каждого из следующих трех предельных законов:
5 0.3] РАСПРЕДЕЛЕНПЕ ЭКСТРЕМАЛЬНОГО SHiVIEFIIFH 263 A) Р (х) принадлежит области притяжения Aj (х) тогда II только тогда, когда для каждого fe > 0. B) Р (х) прпнадлелагг области притяжения Л^ (х) тогда и то.'гько тогда, когда (а) существует х^ такое, что Р (Хо) = 1, Р (Хо — е) < 1 для любого е > 0; для каждого fe>0. Легко видеть, что Р (х) не ограничено справа в первом случае и ограничено во втором^). Гнеденко указывает, что Лз (х) может быть предельны.м распределением в обоих случаях (упр. 9.3.1). Вместо того, чтобы приводить его довольно сложные необходимые и достаточные условия, мы, следуя фон Мизесу A936), докажем достаточное условие, удобное в том случае, когда Р (х) неограничено справа: Пусть Р (х) дважды дифференцируема по крайней мере для всех Л", больших некоторого Хо, Р (х) < 1 и Тогда соотношение Ига Р {(Х,„, - 1п)пр (/„) ^ и] = Лз (и) выполняется равномерно по и ^ (— со, со), где 1„ таково, что Р(/„)==^. Доказательство. Сначала заметим, что ^) Имеется в виду ограниченность случайной величины, имеющей ф. р. Р (X). (Прим. персе.)
204 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [Г'Л. 9 так что lim PЛU = e"^• Положим теперь и х = 1п+Г' (9-3-4) где с„ постоянная, которую мы выберем позже. Тогда P"Jn-{—) имеет предел при и = О, и мы рассмотрим этот предел для произвольного фиксированного и. Из определения /„ следует, что Если теперь х таково, что отношение [1 — Р (х)],/[1 — Р(/„)] стремится к конечному пределу при п-^оо, то - log Р„ (X) = - п log Р (X) ='.j£^+О A). Поэтому log [- log Fn (X)] = log{n [ 1 - P (A-)]} + 0 A) или, положив G„ (x) = log{ft[l — P(x)]}, получим lim log[—logP„(x)]= lim G„(x) = — lim \ g{t)dt, n—»-oo rt—>oo n—»-oo In (9.3.5) так как G„(/„) = 0, где g(x) = -G'n{x)=yJ^^ l-P(x)- Теперь выберем c„ в (9.3.4), положив Cn = g(ln)=np{ln), и выразим Gn (х) в виде Gn (X) = \ g (/) dt = {I, -x)g (I) {X < I < /„). X Тогда
§«3l РАСПРЕДЕЛЕНИЕ ЭКСТРЕМАЛЬНОГО ЗНАЧЕНИЯ !^(j5 Покажем, что g(?)/g('n)-*-1 при п->оо, если и лежит в конечном интервале (— и^, щ). Заметим сначала, что p-voo при п-*-сс; нз (9.3.4) следует, что l,>ln'-4Qig{ln) и правая часть этого неравенства является значением при х = 1п функции x — UQlg{x), производная которой в силу (9.3.3) стремится к 1 при х-*-со. Поэтому эта функция неограниченно растет, когда х пробегает значения \, 1^, .-■ Разлагая l,'g(t} в ряд Тейлора в точке | = /„ п домрюйшя на g{ln), полхчим |f=l+g(/.)(?-yj^f^l^, (l<gx<Q. (9.3.7) Далее, в силу (9.3.4) имеем |g(/„)(| —/«) | <«o- Кроме того, при возрастании п Ei->oo, так как |-*-оо. Поэтому в силу наших предположений последний член (9.3.7) стремится к нулю. Следовательно, ^-^-^ 1 при п-*-оо. Поэтому из (9.3.6) и (9.3.5) следует, что lim log I — log F„ (l„ + —^\ I = -- и равномерно no и пз (— «о, Wo)i и*"и Отсюда следует теорема, так как равномерную сходимость можно распространить на (— со, со) в силу того, что каждая ф. р. Рп{-)> а также ехр {—е~"} равномерно стремятся к О и 1, соответственно, при w->-—со и г/->-оо. Пример 9.3.1. Для экспоненциального распределения с п. р. р(х) = е~* (.fS^O) справедливы точные равенства 'ra = logn, /гр(/п)= 1- Условие (9.3.3), очевидно, выполнено, так что Х|„, —log/; имеет предельную ф. р. Лз(х). В этом контексте все распределения из области притяжения Лд называют распределениями экспоненциального типа. Пример 9.3.2. Хорошо известно, что для нормальной п. р. р(х) = Bл)-'/'е--^'/а асимптотически при больших х
266 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [ГЛ. 9 так что выполняется соотношение (9.3.3) н теорема применима^). Для заданного п /„ можно вычислить с помощью таблиц нормальной ф. р. Однако заметим, что в силу (9.3.8) соотноП1ение дает нам первое приближение (сравните с упр. 9.3.2) /„--B log ft)'•■■■'. (9.3.9) Кроме того, яр (/„) - B 1о<^/0'^ так что асимптотически B logft)'''^ [Х(„) ~ B1og«)''*] имеет ф. р. Лз(х-). Как впервые отмечалось еше Фишером н Типпетом A928), в случае нормального закона сходимость к предельному распределению чрезвычайно медленная. Это отличается, например, от случаев экспоненциального и логистического законов. Но даже для нормального закона для /7=100, за исключением хвостов предельного распре- детения, согласие уже хорошее (Гумбель A965), стр. 267). Поведение распределения экстремума для генеральных распределении экспоненциального типа изучалось Узгере- ноы A954). Более общие результаты пр1;ведеиы у Дрон- керса A958). По этому поводу см. также работы Холдена и Джайякара A953), которые показали, что для нормального распределения ф. р. величины Х1п) (соответствующим образом нормализованной) стремится к Л., (л) налшого быстрее, чем ф. р. X„. Подобные же результаты, очевидно, справедливы и для предельного распределения нормализованного минимума. Три возможных прслельпых типа, сопшстгтвл-юшмх (9.3.1), принимают Ш1Д \' I \ _) 1-ехр[—(-.V) '^•], если а-<;0, и>0, '^^^^^\1, если .^>0; д,, , /О, если х--5^0, с. >0, ^H-)={i'_, ■ ex р (— х'^), если х > О; К (-V) = 1 — ехр [— е^]- (— со < х < со). *) Здесь а„ ~'Ь„ равносильно соотношениюfl„/b„ -> 1, (Прим. перев.)
^9.!) ТЕОРИЯ ЭКСТРЕМАЛЬНЫХ ЗНЛЧКПИП 267 Мы не будем вдаваться в рассмотрение таких вопросов, как: является ли последовательное!ь экстремумов устойчивой в некотором (техническом) смысле, илп сходятся ли моменты экстремумов к моментам соответствующего асимп- тотнчес1шго распределения, а отошлем к работам Жеффр}'а A9Л8), Барпдорф - Нильсена A963), Сепа A959, 19G1, 19G4), Маккорда A9G4) и Пикендса A967Ь, 1968). § 9.4. Теория экстремальных значений. Обобщения для независимых одинаково распределенных величин Перейдем теперь к некоторым обобщениям для однна- К01Ю распределенных независимых случайных величин результатов § 9.3, ограничиваясь главным образом формулировкой ос[Ювных результатов. Распределение т-го экстремума. Как прямое обобщение (Гумбель A935); Смирнов A952)) результатов (9.3.1), опять получае.м три возможных предельные распределения для соответствующим образом нормализованного т-го экстремума X„^r>in-~n (при п-^ :о и фиксированном натуральном т): / О, если .v<,0, а>0, со Mm) /v\ -I 1 f ш^Ги\ \ c4'"'(it если x>0; CO л, w [7—-~iYi [ e4"'^dt, если л:=?гО, к>0, 1, если .v>-0; л (»') (.V) - ;-4ти \ ^"''"' ' ^^ (~ "' < -^' < ^" ^ ■ Смирнов показал, что необходимые и достаточные условия Гнеденко (§ 9.3) для принадлежности распределения области притяжения одного из приведенных выше предельных законов сохраняются для т>1^), ?) Обобщения для независимых, но не обязательно одинаково распределенных величии приведены в работе Мейзлспа и Вейсмана A969),
2b8 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [ГЛ. S Совместное распределение крайних значений. Сначала мы рассмотрим совместную п. р. величин U = пР {Хг:п\ и V = п[1 — Р (Xs:,,)], которая в силу B.2.1) равна ПЧ' Ч— (r_yy^s—r~\)\(n—s)\\nl [ п п) ^ V \n-s {и>0; v^O; u + v^_n). При п-^со и фиксированных г и ii — s-{-l=t правая часть принимает вид P^и"-^e-«|~г^'-^e-^ («^0; v^O), откуда следует, что (J п V асимптотически независимы и имеют у (г) и y(t) распределения. Таким образом, любое «нижнее» крайнее значение Хг-.г, асимптотически независимо от любого «верхнего» крайнего значения X„+i_/;„. Этот резу.пьтат, конечно, очень полезен при выводе предельных распределений таких статистик, как размах и середина размаха. Асимптотическое распределение размаха. Рассмотрим симметричные генеральные распределения, удовлетворяющие соотношению (9.3.3). Тогда У = (Х(„, —/„)■ пр (/„) имеет предельную ф. р. А^(у), в силу симметрии такую же ф. р. имеет и —Z, где Z —нормализованный минимум, т. е. 2 = (X(i,-/i)ftp(/j), /i = —/„. В силу асимптотической независимости У и Z их совместная асимптотическая п. р. равна ехр {— 1) — e-'J -\-Z — в' i' так что нормализованный размах U^" = (Х(„, — X(i) — 2/„)х хпр{1п) имеет предельную п. р. оо 5 exp{—w'—e-'"'-'-e'}dz = 2e-<^'Ko{2e-'^'-'), (9.4.1) — оо где Ко — модифицированная функция Бесселя второго рода. Этот результат принадлежит Гумбелю A947) и Коксу
$ 9.4] ТЕОРИЯ ЭКСТРЕМАЛЬНЫХ ЗНАЧЕНИЙ 269 A948) и использован Гумбелем A949) при построении таблиц как п. р., так и ф. р. величины U^". Различные авторы (Элфвинг A947); Кокс A948); Кэ- дуэлл A953а)) уточняли этот результат, рассматривая его как приближение к распределению размаха W в конечных выборках. Если записать п. р. W в виде = «(«-!) ^ p(x-,^~wjp{x + '^wj P^x + ~wj- ■-т^^)Г dx и предположить, что р{х) симметрична относительно х = 0 и унимодальна, то подынтегральное выражение будет иметь максимум в точке х = 0 и будет быстро убывать от нуля по обе стороны от х = 0. Это наводит на мысль рассматривать в качестве метода наискорейшего спуска разложение по степеням х. Легко проверить (Кэдуэлл A953а)), что р{х-1 w)p Ы-\- \ w) = р^ехр{- [(^)' - ^Jx^+.. ], p(x + ytw)-p(x-ytw) = BP-l)expB^x2 + ...), где Р, р и их производные вычисляются в точке x = -^w II точки обозначают ряды по более высоким четным степеням X. Таким образом, подынтегральное выражение MOJKH0 переписать в виде р^BР-1)«-2A+^х* + Бх« + ...) X X -р-[(Й'->-^^Й^]'' и с помощью леммы Уотсоиа (см., например, Джеффрис и Джеффрис A969), § 17, 03) его можно проинтегрировать почленно и получить асимптотическое разложение для f {w). Первый и главный член этого разложения, очевидно, равен п(п—1)л'''У^ BР —1)"'^ ■|-/рМ2 р" (П-2)р-\1. LU7 р 2Р-1 J n^^i — viv'M р" (п—2)р'-\11Г 1У.1.^;
270 АГПМПТОТИЧР.СКЛЯ ТЕОРИЯ [ГЛ. S Ьс1И р (л) = <f(x) —п. р. стандартного нормального закона, то (9.4.2) упрощается и мы имеем /и- п (п - 1) я' ^-^ ф^ BФ — 1)" " Д/^ [2Ф—1—(л —2)(г'] (9.4.3) Кадуэлл показал, что аппроксимация этим главным членом дает хорошее согласие для первых четырех моментов уже при п ~- 20: Сред- лее Стандарт- iiofc отклонение Р. Точное значение Ошибка от использования (9.4.3) 3,7350 0,0086 0,7287 0,0025 0,Ш27 0,0043 .3.259 -0,019 Для дальнейшего уточнения можно эффективно использовать дополнительные члены. Кэдуэлл рассмотрел также квазпразмахи, для которых первые приближения даже лучше, чем для размаха (сравните с упр. 9.4.1). Ф. р. размаха W он рассмотрел отдельно (Кэдуэлл A954)). С помощью совместной асимптотической п. р. экстремумов Гумбель и Кинн A95()а, Ь) вывели, соответственно, асимптотическое распределение «геометрического размаха» [А'(„((—X(],)]'/•-и «экстремальногоотношения» Х(„,/(—ХA)). Таблицы ф- Р- последнего отношения приведены в работе Гумбеля и Пикендса A967). Асимптотическое распределение выборочных спейсингов. Метод наискорейшего спуска, подобный только что описанному, использован Дарвином A957) при изучении распределения выборочных спейсингов Xi+i;fi —Xj;,, (i = = 1, 2, ..., /г—1). Эти вопросы были рассмотрены Пайком A955) как для малых (сравните с § 5.4), так н для больших выборок. У него приведено много ссылок. По этому поводу см. также работу Вейса A965), внесшего большой вклад в этот предмет, и работу Блюменталя A955). Другие результаты, связанные с независимостью. Верхние и нижние экстремумы не только acnimTOTiinecKH независимы между собой, но и оба асимптотически независимы от (а) центральных порядковых статистик (Россберг A953);
J 9.4] ТЕОРИЯ ЭКСТРЕМАЛЬНЫХ ЗНАЧЕНИЙ 271 Крем A953); Розенгард A964b)) и (б) от выборочного среднего (Россберг 1955b); Розенгард A954а)). Эти результаты суммируются в следующей теореме Россберга A965b): Пусть gh \х\;п, .... Xh..n) и gh' {Xn+i-h' -м Хп:п) ~ Произвольные измеримые по Борелю функции указанных аргументов. Если независимые одинаково распределенные случайные величины A'l, ..., Х„ имеют конечную дисперс ''.• 'У- к lim /^= lim !}L = Q "-••со fi n-»co fi ' то случайные величины gh(Xi:n Xh:n), п''ЦХ-ЕХ)/а, gh' {X„^\ — h':n> ■■■' X.n-„) асимптотически независимы. Предельное распределение стьюдентизированного экстремального отклонения. Пусть X,, Xg, ..., Х„ —независимые одинаково распределенные величины с ЕХ]=0, ЕХ!' = 1. Бермап A963) доказал, что если для некоторых последовательностей {а„\ и {fc„} (с„>0) нормированное экстремальное значение (Х(„)—fc„)/G„ имеет пр. р. А(х), то нормированное (внутренним образом) стьюдентизиро- ванное экстремальное отклонение М- S также имеет пр. р. А(х) при условии, что Эго условие, очевидно, выполнено в нормальном случае, где (пример 9.3.2) с„ = B logn)""-, /?„ = Г2 log «)'/«, и, как показал Берман. включает в себя критерий фон Мизеса (9.3.3). Берман доказал также, что если р{х) симметрична, то при сформулированных выше условиях 1 / I Xi-X I , \ — ^тах|-^—|-6„j имеет пр. р. Л^ (х). Разные вопросы. Предельное распределение макси.мума случаГпюго числа случайных величии изучалось Бермаио.м A952а), Барндорф-Нильсеном A964) и Рихтером A964).
272 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [ГЛ. 8 Чернов и Тайшер A955) рассмотрели предельные распределения минимакса (или максимина) последовательности одинаково распределенных независимых величин с двойными индексами, т. е. min max Xtj. I i Двумерное обобщение. Некоторые авторы изучали двумерные и многомерные распределения экстремальных значений. Ранние результаты приведены в работе Тьяго де Оливенры A953). "Гумбель и Мустафп A957) подробно рассмотрели две возможные предельные ф. р. Ai'kx, у, «) =Л, (X) Л, (у) ехр{«[—1Ъ^^ + _ 1,^д^ (у)]"'( и 4^\(х, у, Ап) = ехр{—([-logA;,(x)]'« + [—logA,(^/)nVm|^ где Ak(x), Л/((/) {k, / = 1, 2, 3) —три возможных одномерных к пр. р. (9.3.1), а с и /п —такие параметры, что с 5s О, ms=l. Случаи а = 0 и т = 1 соответствуют независимости X п Y. По этому поводу см. работы Бермана A952b), Мардьи A954а), Шрпваставы и др. A954), Шри- ваставы A957) н работу Гумбеля и Голдстейна A954), в которой приведены два приложения. § 9.5. Теория экстремальных значений для зависимых величин Первый значительный результат в теории экстремальных значений для зависимых величии, кажется, принадлежит Уотсону A954). Он показал, что предельные распределения для максимума стационарной последователь- пост:! ?«-зависнмых величин, при определенных условиях, те же самые, что и для независимых величин. Стационарность означает, что P{Xi^Xi, Xj^Xj, ...\=^P{Xi,i^Xi, Xj.,i^xj, ..,}, a т-зависимость определяется в конце § 9.2. Условия Уотсона состоят в том, что величины Xj неограничены сверху и lim ' max Р {Х,>С, Х,>С}=0. С^оо Р{Х, >С} l-i\<m Эти условия выполнены, например, когда Xj п Xj имеют двумерное нормальное распределение N {О, О, 1, 1, р) при
§ У.61 ТЕОРИЯ ЭКСТРЕМАЛЬНЫХ ЗНАЧЕНИИ 273 р < 1. Обобщение этого результата можно найти у Нью- элла A964). Бартон A964) показал, что для стационарных гауссов- ских процессов таких, что ЕХ, = 0, ЕХ,.2 = 1 A=1,2,...); ЕХЛ^.л. = /-лг (Л^ = 1, 2, ...), (9.5.1) условие т-зависимости можно ослабить: если г^-^О достаточно быстро, то распределение Ад (х), являющееся предельным в случае независимости, продолжает быть предельным. В. частности, достаточно, чтобы Игл r^^logN^0 W—оо ИЛИ чтобы выполнялось соотношение со 2] г%'<Ссо. N = \ Недостаточно, чтобы lim г^ =• О, хотя это условие и гаран- тирует, чтобы выполнялось соотношение Bl0grt)-"/2X(„)-^l П.Н. (Пикендс A967а)). Простым, но удивительным примером (Берман A962 с)) случая, когда Лд (л:) не является предельной ф.р., является пример последовательности нормальных равнокоррелиро- ванных величин (т. е. (9.5.2) с г^ = р при всех Л^). Чтобы убедиться в этом, заметим сначала (сравните с E.5.7)), что при р>-0 величину Xt можно представить в виде суммы двух независимых нормальных величин t/, -f Y таких, что Et/, = 0 = EF, Et/?, = l-p, EF^ = p, Et/,t/^ = 0 AФ1). Таким образом, Х(„)= max {U^ + Y) = U^„^,-i-Y, (952) так что ф. p. величины Х(„) является просто сверткой распределения t/(„), максимума из п независимых нормальных величин, с распределением величины Y. Далее, plim{t/(„,-[2(l-p)lognr} = 0 1и Г. Дэйвид
274 АСИЛШТОТИЧЕСКАЯ ТЕОРИЯ (ГЛ. 9 (Гнеденко A943)), откуда, учитывая (9.5.2), получим, что распределение X(„,-[2(l-p)lognr сходится к распределению У, которое нормально N (О, р). Дальнейшие обобщения можно найти у Ппкендса A967а), который приводит много ссылок, и у Лойнеса A965). Асимптотическое распределение размаха сумм независимых величин изучалось Феллером A951) и Кемперменом A959). § 9.6. Асимптотическое распределение линейных функций порядковых статистик Ясно, что из совместной асимптотической нормальности квантилей, установленной в теореме 9.2, вытекает, что при определенных условиях линейная функция (конечного числа) таких квантилей должна быть асимптотически нормальной. С другой стороны, экстремальные значения в случайных выборках (Хг;„ при i/n-^0 и 1) имеют ненормальные предельные распределения (если они, вообще, имеют предельные распределения). Далее, выборочное п среднее X, которое можно переписать в виде У^Хс-„/п, i = l асимптотически нормально (при условии, что Xi имеет конечную дисперсию о^), хотя оно и зависит от экстремальных значений. Поэтому возникает вопрос: при каких п условиях Тп= y^Ci„Xi:n имеет предельное 1юрмальное i = I распределение? Помимо чисто теоретического интереса внимание к этому вопросу было вызвано работами Беннета A952) и Юнга A955), в которых отыскиваются оптимальные веса оценки Т„, где Т„ рассматривается как оценка параметра сдвига или масштаба. Как показывают проведенные выше простые рассуждения, для асимптотической нормальности Т„ потребуется наложить соответствующие условия как на коэффициенты Cin, так и на вид исходной ф. р. Р (х). Были найдены различные довольно сложные наборы условий, одни из которых накладывают сильные ограничения на С/„ и ела-
S 3.61 РАСПРЕДЕЛЕНИЕ ЛИНЕЙНЫХ ФУНКЦИЙ 275 бые —на Р(х), другие наоборот. Тем не менее можно еде лать несколько простых замечаний. Так как выборочное среднее асимптотически нормально, если а^<Ссо, то урезанное среднее [п (I -?.)] должно быть асимптотически нормальным ( [ ] обозначает целую часть). Подобным же образом можно ожидать, что уинсоризованное среднее , [пA-Х)] . \ t = [nX] / асимптотически нормально, поскольку оно имеет на краях меньшие веса, чем X; в этом утверждении в духе теоремы 9.2 (см. Бикел A967)) предполагается удовлетворительное поведение Р (х) в точках £?. и |i .?.. В действительности асимптотическая нормальность может иметь место даже при гораздо больших весах экстремальных значений. Простым примером является статистика G.4.1): п «g»=„("!!i) 2!■(^^^-"-^)^'•="• ^9.6.1) 1=1 Это выражение является 6^-статистикой (Хёффдинг A948)) и следовательно, асимптотически нормально (при условии, что а^ < оо). За более общими результатами мы отсылаем читателя к работам Бикела A967), Чернова и др. A967), Говинда- раюлу A968b) и Стиглера A969). Относительно простои вид имеет результат Мура A968). Чтобы сформулировать его, заметим, что Г„ можно записать в виде 1 = 1 где У (гг) —функция аргумента и (O^ii-^l) такая, что JH/n)=nCi„. Кроме того, Т„ можно выразнгь в виде 10*
276 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [ГЛ 9 интеграла Стилтьеса со Тп= \ xJ(P„(x))dPAx), — со где Р„(л:) —эмпирическая функция распределения X. Пусть Q —функция, обратная Р. Теорема 9.6. Предположим, что E\X\ = \\Q(u)' du< о <: оо, J непрерывна на [О, 1], за исключением скачков в точках а^ а^, дифференцируема на [О, 1 ] — {«!, ... ..., ам], J' на этом множестве непрерывна и имеет ограниченную вариацию. Тогда случайная величина 11/2 Тп-\ xJ(P{x))dP(x)\ — оо J асимптотически нормальна N @,а^) при условии, что а^<оо, где о^ = 2\\ J (Р (s)) J(Р (t))P{s){\-P(t)]dsdt. s<.' Пример. Для «0» из (9.6.1) имеем i—n—\) jti \_nU'iBi — n- \п I п — 1 так что можно положить J (u)=n^'''^ Bпи — п—1)/(п—I), что дает нам оо оо J xJ (Р (х)) dP (х) = я'/2 J X ^^"^^^^JГ^Г~'' dP {X). —оо —со Это согласуется асимптотически с известным точным результатом оо «а» = л 1/2 \ x[2P{x)-l]dP(x) — СО (см. Дэйвид A968)). Можно также упомянуть о том, что Стиглер A969) использует процедуру, применяемую Гаеком A968) к линейным ранговым статистикам для того, чтобы представить Тп в виде линейной комбинации Т„ независимых случай-
^ 9.7] ОПТИМАЛЬНОЕ АСИМПТОТИЧЕСКОЕ ОЦЕНИВАНИЕ 277 ных величин плюс остаточный член. К Т„ можно применить обычную центральную предельную теорию и можно показать, что остаточный член при довольно общих условиях сходится к нулю в среднем квадратичном. § 9.7. Оптимальное асимптотическое оценивание с помощью порядковых статистик В предыдущем параграфе мы исследовали асимптоти- п ческое распределение Т„ = ^ CinXi;n, где С/„ — заданные i = \ постоянные. Теперь мы перейдем к вопросу о том, как выбрать Cin для того, чтобы Тп была хорошей оценкой интересующего нас параметра. Беннет изучал этот вопрос еще в 1952 г. в своей замечательной неопубликованной докторской диссертации. Он рассматривал распределения, зависящие только от параметров сдвига и масштаба, т. е. распределения с п. р. р (л:) = |—|§((л: —|а,)/а) и ф. р. G({x — [x)lo). Получив сначала (независимо) по существу результаты Ллойда A952), он, естественно, перешел от определения оптимальных весов для малых выборок к выводу оптимальных асимптотических весов. Рассуждения Беннета допустимы для многократно цензурированных выборок, но мы разберем его подход только для двухстороннего цензурирования (которое, как частные случаи, включает одностороннее цензурирование, а также отсутствие цензурирования). Читателя, заинтересовавшегося обобщениями результатов Беннета, мы отсылаем к работе Чернова и др. A967). Рассмотрим сначала матрицу A'ilA из F.2.4), записывая ее более подробно где все суммы распространяются на (', j=\, 2 п и Р'"' являются элементами Q. Из § 4.5 с точностью до порядка 1 'п получаем для г :^ s
278 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ [ГЛ. 9 где Нг = G-1 (/■/(«+ 1)) = {Qr - \i)lo, так что g (Н^) = ар (Q,). Поэтому Р' определяются формулами (сравните (9.2.3)): Р« = ng" (Hi) ( 5 Н 5 о,-.,:_1^р.--,.,_ ng{Hi)g(Hi^,) (9.7.2) Р'/ = 0 в остальных случаях. Заметим, что эти результаты справедливы не только, когда (, / пробегает все целые 1, 2 п, но и для любого подмножества. В частности, если г^ наблюдений цензурировано слева и /"g —справа, то, положив pi = = i/(n+l) (t = /-i + l, /-1 + 2 (n — r^)) и pr,-=0 = = Pn~r,+u получим ИЗ (9.7.2) n — ri п — г, 1 12 2 p"= i = ri+\ / = '-1 + 1 i=/'i4-i где ^g{Hi) = g(Hi.j)—g(Hi), a Ap,= l/(n + l). Подобным же образом, используя соотношение ai = Hi-\-0 A/п), получаем с точностью до членов более низкого порядка _yAg(tf,)A[tf,g(^,)] я^.е^(Я^.+ 1) tf„,..gMtf«-..) -^ ДР; Р.,+1 1—Р,г-.. ' ^ Hl+t84fir,+ i) _^ ffn-гЖ^ (fin-г,) Если при п-^со ri/n-^Ki И {n — r^jn-^'k^, то
§9 7] ОПТИМАЛЬНОЕ АСИМПТОТИЧЕСКОЕ ОЦЕНИВАНИЕ 279 так как Ш dUidHju) и «=0(Л(«)). Для упрощения записи положим у = Н (и) и ^ {у) ^ = ё' (yVgiy)- Тогда, используя обозначения G.6.1), получим и, аналогично, IV ?-2 = |4'(l/)[l + «/^(l/)]d«+M+-^, (9.7.36) HA = J[l+l/^(l/)]''d« + ^ + T^. (9.7.3b) в случае отсутствия цензурирования (?ii = 0, ?i2=l) последние два члена соотношений (9.7.3а)—(9.7.Зв) исчезают при условии, что Ит4^ = 0, lim-i^ = 0. (9.7.4) Матрицей, обратной к ковариационной матрице н. к. оценок \i*, о* параметров |.i, о, будет как раз матрица Л'ОЛ/а^. Легко показать, что при условиях (9.7.4) она стремится к информационной матрице. Например, так как р {х) = = {~)g{y), где (/ = (л;-(-1)/а (= Н(и)), то Е [dlogp{x)Y _ £ \d\ogg{y)Y _ О ЧТО соответствует формуле (9.7.3а). Таким образом, наши Линейные оценки параметров |.i и а асимптотически эффек-
280 АСПМПТОТИЧЕСКЛЯ ТЕОРИЯ (ГЛ. 9 ТИВНЫ. Этот результат, как можно показать, справедлив и в случае цензурированной выборки (см. Чернов и др. A967)). До сих пор явный вид оценок нам не требовался. Теперь мы получим его. В соответствии с формулами F.2.5) и F.2.5'), приспособленными для цензурированных выборок (так что А имеет П — Г1 — Г2 строки и т. д.), оценки н. к. для [i и о имеют вид где ji*= V р,х,ч«, o*=y]yiXc,n, / = /•. + ! 1 Уа,РуУаМ, L:^^'' LL. Из (9.7.2) находим (9.7.5) ^"g{Hi) 1 \ po = _g(/y,) i='^+1 Также легко проверить, что Ар ((• = Л1 + 2, .... n-r^ — l). g(fir,+ l)-8{"r) ^ g(tf..+ lI Рл, + 1 J" /='•1+1 + Ap Тогда для ( = Ti + 2, .... n — г, — 1 получим асимптотические соотношения dU 1 ^^ п У pn+i./^ai (?.,,+ ,)dV.+i+ai.,.+i,
§ 9.Г] ОПТИМАЛЬНОЕ АСИМПТОТИЧЕСКОЕ ОЦЕНИВАНИЕ ^^Ы где й^1, '•, + 1= g (nr,+ l), а также аналогичное соотношение для а^^п—г,- Кроме того, для t = ri + 2 п — г^— I имеем Таким образом, если не учитывать самые крайние порядковые статистики выборки, то функции % и «2 примут вид (при у = Н(и)) а, («) = - g iy) ^ [yg (У)]=- [^ (У) +1/^' Ш • j (9.7.6) Поэтому из (9.7.5) следует, что для коэффициентов Рг, у,-, соответственно, можно получить асимптотические формулы, положив u = i/{n-\-l) в непрерывных весовых функциях Q /X Ql(f) /22 —Q2(f) /|2 PW «(/../22-/?.) • -■ /„X . Q2(f)/ll —Ql(f)/.2 ' ^ ■ ■ I yW- n(Iuh2-l\,) a также p^-b.=P(wo+"'-t(lT/:--/g''" и^-д- (9-7-8) Здесь /ц, /i2, /22 определяются как правые части соотношений (9.7.3а)—(9.7.3в). Для симметрично цензурированной выборки из симметричного распределения (9.7.7) упрощается: Р(") = ^. V(«)=-^|g-. (9.7.9) Пример (Чернов и др. A967)). Для нецепзуриро- ванной выборки из Л'(м. ^^) распределения /ii= 1, /12 = 0, /22 = 2, что дает 1 \1 .' t \ гт* — - ^ П ' X
282 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ В силу ТОГО, ЧТО ^(у)= — у, учитывая (9.7.6), легко получить, что «2 (и) = 2у. Таким образом. <"-12;'^-(^)*- i=i Эффективная оценка для ц, конечно, совпадает с К. Далее, предположим, что нам требуется оценить ц из симметрично цензурированной выборки, причем цензурирование вызвано подозрением на наличие выбросов. Тогда для Я^ = 1 — Яг = Я имеем 1 — к Ф ^^l — k) = 1-2Я + 2Ф-Ч5^)Ф(Ф 4?^))+^^^^^^^^ Поскольку ai(u) = l, искомая оценка имеет вид п — г (Л*=С(Хл+1;„Н-Х„_л:„)+—J- > Х{:„, "'и ^ где г = [п'к], с —дополнительный вес крайних из оставшихся наблюдений, который в силу (9.7.8) равен фМФ Ч>-))А+Ф'Ч>-)ф(Ф-Ч>-)) /ц Случаи, когда j.i или о известны. Для краткости мы рассмотрим только нецензурированныи случай. Если ц известно, то Xi:„ можно заменить на Xc:„ — [i. При этом Q не изменится, а у (и) будет определяться формулой (9.7.7). Получающаяся оценка 2Y(-74г)(^' = "-^^) /=1 асимптотически несмещенная и имеет дисперсию a^inl^^- Заметим, однако, что ^y{il(n-\-\)) Хс-.п, вообще говоря, является асимптотически смещенной оценкой для о.
УПРАЖНЕНИЯ 283 Аналогично, если а известно, то соответствующая оценка равна 1=1 где а, можно заменить на Hi. Несколько иной подход к оптимальному асимптотическому оцениванию принадлежит Юнгу A955). Он изложен в книге Сархана и Гринберга A970). Упраж нення 9.2.1. Пусть О <; Я < 1 и существуют числа а<.Ь такие, что a=inf{A; Я(д;)=Я}, ft=sup {д; | Р (д;) = Я}. Показать, что предельное распределение Хг^^^.^ (где [х\ обозначает целую часть х) определяется равенствами 0, если х<а, }™^ Р {^[«Я]:« ^ -^} = i \-' ^^™ а^х<Ь, 1, если х^Ь (Фельдмен и Такер A966)). 9.2.2. Бахадур A966) показал, что если Р (li)^K, Р имеет по крайней мере две производные в некоторой окрестности |;_, Р" (х) ограничена в этой окрестности и Р' {c,i) = p {^i)>0, то A^[-„;i.„ можно выразить в виде ^[пЦ:п-Ь. р(|,.) +^"* где Р„{Е?.) —частота события Xis^^^ {« = 1, 2, ... , п), а R„ стремится к нулю при п -> со. С помощью функции '^^0, 1, если X > О, если д; < О, Р„ (X) можно переписать в виде п
28-1 АСИМПТОТИЧЕСКАЯ ТЕОРИЯ |ГЛ. 9 Используя это представление, показать, что для х tSiy COV {Р„ (X), Р„ (ЬО) =~ Р(х}[\-Р (У)]. V. ьывести отсюда теорему 9.2, 9.3.1. Пусть а) Р (д;)=1—ехр {—д;°} при д;^0, а > 0; б) Р{д;)=1 —ехр {—д;/{1—д;)} для 0<д;^1. Показать, что P«{a„.v + bJ->exp{-e--v}, где в случае (а) o„ = ^(log«)<'-°"^ b„ = {log «)■/«, а в случае (б) a„ = {log«)^ Ь„ = .'°^" 1+logn (Гнеденко A943)). 9.3.2. Показать, что для стандартного нормального закона лучшим, че.м (9,3,9), приближением к /„ является /„ ^ B log n)l/^ - у B log "Г'^ (log log n + log 4л). Указание. Уточнить (9.3.У) методом Ньютона (Крамер A975)). 9.3.3. Пусть A'l, Х2>''^31 •••—независимые одинаково распределенные положительные случайные величины с ф. р, Р (.v), и пусть logn • Показать, что если Xi — равномерные на @,1) величины, то а) lim ER„ = \; п-*а:> в) Ига ОЛ„ = 0. в качестве следствия вывести, что для Р (х) общего вида R^ сходится по вероятности к lim tJP (.') (если такой предел конечны!! или бес- ПО конечный, существует), (Гренандер A965).) 9.4.1, Показать, что для t-ro (I фиксировано) квазиразмаха ^'^ .it =^1П'{-г1)~^И)
УПРАЖНЕНИЯ 285 соотношение (9.4.2) можно обобщить следующим образом: l\p) р ^ \-Р \\-Р'^'^ j 2Р-1 J I I/- '■да ^=('-1)! (»-%!(.•-1)! (КэДУэлл A953a)). 9.7.1. Показать, что асимптотически эффективные оценки параметров |,1 и а для логистического распределения с ф. р. ^W = |l+expf-=-^^=^lp (-со<д;<со) определяются соответствующими весовы.ми функциями , ,_ 9 {2ц- 1 +2ц A -и) log [и/{\ -и)]} '^^"'~ п(л2 + 3) (Гупта и Гнанадесикан A966); Чернов и др. A967)),
ПРИЛОЖЕНИЕ УКАЗАТЕЛЬ ТАБЛИЦ Параграфы приложения соответствуют параграфам основного текста. Приняты следующие сокращения: ПХ: Пирсон и Хартли A9Щ — Biornetrika Tables I. СГ: Сархан и Гринберг A970)— «Введение в теорию порядковых статистик». П. 3.1: Приложение, § 3.1. 2.1. Функция распределения экстремальных значений для выборок из единичной нормальной совокупности была табулирована Типпетом A925) для « = 3, 5, 10, 20, 30, 50, 100A00I000. Процентные точки для п^ЗО имеются в таблице 24ПХ. Процентные точки всех нормальных порядковых статистик даны Гуптой A961) для nsslO и Говпндараюлу и Хубакером A964) для П:^30, Два последних автора также рассматривали процентные точки порядковых статистик для равномерного распределения (п = 1 A) 30 E) 60), для х-распределення с одной степенью свободы (определение этого и других распределений см. в П. 3.1) и для трех распределений Вепбулла. Гупта A960) рассмотрел '/^-распределение с четными степенями свободы, а вместе с Шахом A965)— логистическое распре.аелекие. Эйзенхарт и др. A963) рассмотрели процентные точки медиан в выборках из нормального, двойного экспоненциального, равномерного и некоторых других распределений. 2.3. Обширные таблицы Хартера и Клемма A959) для функции распределения и процентных точек размаха W в выборках из стандартной нормальной генеральной совокупности дают значения ф. р. F (w) с 8 знаками для и' с шагом 0,01 и п = 2A) 20B) 40A0) 100 и 23 разные процентные точки с шестью десятичными знаками для
УКАЗАТЕЛЬ ТАБЛИЦ 287 каждого п. Процентные точки также имеются у Хартера A960). (См., кроме этого, Пирсон и Хартли A942; 1966, таблицы 22 и 23), где даны первые подробные точные таблицы.) Процентные точки W для выборок из равномерного распределения с единичным стандартным отклонением получены Хартером A961с) с шестью знаками для п = 2A) 20B) 40A0) 100. 2.4. Процентные точки размаха для независимых биномиальных Ь{р, N) величин даны Сиотани и Озавой A958). (См. также работу Ишии и Ям аса к и A961).) 2.5. Маккиннон A964) получил таблицы чисел J — г—1, для которых интервал (Х(^,, X(„_^+i)) является доверительным для медианы с коэффициентом доверия 5=1—а в случае п=1A) 1000 и а = 0,001; 0,01; 0,02; 0,05; 0,10; 0,50 (см. также работы Диксона и Массея A957) и Оуэна A966)). 2.6. См. работы Мерфи A948), Сомервилла A958) и Оуэна A966). 3.1. Хастингс и др. A947) табулировали значения дисперсий и ковариаций порядковых статистик для равномерной генеральной совокупности (а также для некоторых других случаев) для п^ 10. Математические ожидания (для некоторых ns^lOO) даны в работе Либлейна и Сол- цера A957) для распределения экстремальных значений с ф. р. Р{х) = ехр{—ехр (—х)] (—оо<:л:<:оо). Для 11^6 Либлейн и Зилен A956) также табулировали ковариаций (воспроизведены в СГ, стр. 366). Все математические ожидания и дисперсии для п ^ 20 (и отдельные для п^ 100) получены Уайтом A969); строго говоря, Уайт рассмотрел с. в. —X, которую он назвал «приведенной логвейбулловскон» величиной. Либлейн A955) провел вычисления для распределений Вейбулла с ф. р, ( 1—ехр{—(—х)~"'}, если xsssO, PW = { если х>0, О, если xsSO, 1—ехр(—X'"), если х>0, ■де r.'i>- Близким является обобщенное распределение
288 ПРИЛОЖЕНИЕ экстремальных значений (Мариц и Манро A967)) с ф. р. Р(л:) = ехр{—A-ул:)"'''} (Y>0; —оо<л;<1/у, или у<0; 1/г<.^<со)- Для Ssgni^lO и у = —0,10@,05H,40 авторы дали таблицы с тремя десятичными знаками всех математических ожиданий (см. также § 9.1). Для гамма-распределения с плотностью е--*л;'--1/Г (г). 0. если если х^О, х<0 Р(^)={. ^п (''>0) Гупта A960) получил первые четыре момента для г = = 1AM и nsglO и моменты с. в. Xi:„ для nsg 15. Брейтер и Крпшнайя A968) добавили первые четыре момента для л = 0,5 AI0,5 и п^9. Малик A966) табулировал с четырьмя знаками математические ожидания и ковариации для п^8 в случае распределения Парето с плотностью p(x)=vd^x-'^~^ (а>0; v>0; х^а) для V = 2,5 @,5) 5,0. Сархан A954) дал таблицы математических ожиданий и ковариации (nsS5) для треугольного распределения с плотностью если О р(х)=' -^х^1, если у ^ л: ^ 1, :1 двойного экспоненциального распределения с р(х) = = 2 ехр (—|х'). Для последнего распределения все математические ожидания и коварпацпи для «^^20 были табулированы Говипдараюлу A966). Он же вместе с Эйзен- штатом A965) получил все математические ожидания и ковариации для « = 1AJ0A0I00 для х-ра^пределения с одной степенью свободы, имеющего плотность _ 1 B/лI/2 ехр (—х2/2), если л: 5=0, ''^''^ = 10, если х<0. Точные значения для п s^5 были ранее получены Говипдараюлу A9G2). Первые четыре момента для стандарти-
УКАЗАТЕЛЬ ТАБЛИЦ 289 зопанного логистического распределения с плотностью р(х) = ~ ехр (— лх/\ ^3)/A + ехр (— л.!с/КЗ)J даны (nsg 10) Гуптой и Шахом A965). Шах A966b) табулировал также ковариации для п^Ю, а Гупта и др. A967) —для llsSnsS25 (сравните с работой Тартера п Кларка A965)). Для распределения Коши с плотностью р(х) = 1/яA-\-х^) fir:,, не существует для л=1 и г = п, а ал:„—для /'=1, 2, п—1, п. Барнет A966) табулировал все существующие математические ожидания для п ^^ 20 и ковариации Ors-n Для г и s от 3 до п —2 и п = = 5AI6BJ0. Для использования при изучении робастности (§ 6,5) Гаствнрт и Коэн A968) дали с пятью десятичными знаками все математические ожидания и ковариации для п:^20 в случае масштабно загрязненного нормального распределения с плотностью р^,*(^) = Bл)-1/2[A-г)е-^'^ + (г/^)е-^^/2П при Y = 0,01; 0,05; 0,10 и fe = 3. 3.2. Хартер A961а) табулировал Цг-.п с 5 знаками для стандартного нормального распределения для всех г и « = 2AI00B5J50E0L00. Для nsS20 все р, ;„ и iir.s-.,, даны Тейкроу A956) с 10 десятичными знаками, взятыми из неопубликованных вычислений с точностью до 20 знаков. Соответствующие значения Or,s:n с 10 знаками имеются у Сархана и Гринберга A956). Рубен A954) дал таблицы первых десяти моментов для Х„:„ (п^50), а Борениус A966)— первых двух моментов с 7 знаками для nss:120. Математические ожидания и дисперсии л-го квазиразмаха (л = 0, 1, ..., 8) табулированы Хартером A959) для п:^100. Он дал также (I960) значения математических ожиданий, дисперсий (с 10 знаками), пирсо- новского PJ''2 (с 8 знаками) и ^2 (с 6 знаками) для размаха \V„ (п sS 100). Математические ожидания уже были вычислены с 5 знаками для п «S 1000 Типпетом в 1925 г. 5.2. Хартер и др. A959) дали значения ф. р. Q„^ с 6 десятичными знаками или 6 значащими цифрами в зависимости от того, что менее точно, для п — = 2AJ0BL0A0I00 и v=l(lJ0, 24, ЗП, 40, 60, 120. Их пропентные точки с 4 десятичными знаками (или 4
290 ПРИЛОЖЕНИЕ значащими цифрами), соответствующие уровням 0,001. 0,005; 0,01; 0,025; 0,05; 0,1@,1H,9; 0,95; 0,975; 0,99, 0,995; 0,999, воспроизведены Хартером (I960). Меньшее число верхних процентных точек было получено Пирсоном и Хартли (ПХ, таблица 29). б.З.Граббс A950) привел таблицы ф. р. величин X(„) —X с 5 знаками для п = 2AJ5 с интервалом 0,05. Им также получены (с 3 знаками) верхние 10-, 5-, 1- и 0,5-процентные точки. Верхние значимые точки были табулированы целиком или частично методом § 5.3 (в случае нормальной генеральной совокупности) для следующих статистик: ^ ^ —'-^^ с 2 десятичными знаками для п = 2A) 10, 12; v^5 или v^ 10; а=10; 5; 2,5; 1; 0,5; 0,1"^ (ПХ, таблица 26); max А',;, — X „ ^ — С 2 десятичными знаками для п = •->v ==3AI0EJ0A0N0; v5s3; а = 5; 1% (Гальперин и др. A955)); — с 3 десятичными знаками для п = = 2AI0, 12, 15, 20;0sSvsS5n;a = = 5; 1% (ПХ, таблицы 26а, Ь); W„/S — c 2 или 3 десятичными знаками для п = = 3AJ0EI00E0J00,500,1000; верхние н нижние 10; 5; 2,5; 1; 0,5; 0-процентные точки (ПХ, таблица 29с). Сиотанн A959) табулировал с двумя знаками верхние 5; 2,5; 1-процентные точки величины Хтахо для п = = 3AI0BJ0EK0; р = 2, 3, 4 и величины Т^^^хо для п = 3AI2. 14; р = 2; v^20. Пусть Xi, Х2, ..., Х„ — независимые х^-величины с Vj степенями свободы, и пусть Хр —другая независимая от них х^'^^^лнчина с Vg степенями свободы. Эрмитэдж и Кришнайя A964) получили с 2 десятичными знаками верхние 10; 5; 2,5; 1-процеитные точки с. в. Fn.a = 'Vi max Xi/\\Xo (X,„)-X)/[(n-l)S^ + vSy'/2 max X(,,-X:/[(n-l)S2 + vSy'/2
УКАЗАТЕЛЬ ТАБЛИЦ 291 ДЛЯ п=1AI2; Vi = l(lI9; V2 = 5 или 6AL5. Опубликованные таблицы ограничиваются случаем Vj = 1 (таблица 19ПХ с добавлениями Чемберса A967), но в этих двух таблицах имеются расхождения). Кришнайя и Эрми- тэдж A964) дали подобные таблицы с 4 знаками для нижних 10; 5; 2,5; 1-процентных точек для с. в. V2 min Xi/viXo- Для Vi=V2 = 2BM0, fe=l(lI0 Гупта и Собел A962) привели таблицы (с 4 знаками) нижних 25; 10; 5; 1-процентных точек. 5.4. Фишер табулировал верхние 5 и 1-процентные точки для с. в. i^(„, A950) и верхние 5-процентные точки с. в. F^„_^) A940) (все для «*g50). В таблице 31аПХ приведены с 4 знаками верхние 5- и 1-процентные точки с. в. max /S^ / У] fS^ для « = 2AI0, 12, 15, 20 и v5sl; таблица 31b дает с 3 знаками для тех же п к т = 2AI0 верхние 5-процентные точки с. в. max,W/y,/W. 5.5. Пусть Fj, Fj F„ — многомерные нормальные с. в, с нулевыми математическими ожиданиями, единичными дисперсиями и одинаковыми корреляциями р. Гупта A963а) табулировал Р{У{п)<Су] с 5 десятичными знаками для «=1AI2 с шагом 0,1 для г/и р = 0,1 @,1) 0,9; 0,125@.125H,875; ^, |-. Верхние 10; 5; 2,5; 1 и 0,5-процентные точки с 3 десятичными знаками для F(„) при « = 2A) 10 и р = 0@,2) 1,0 были ранее получены Тигпеном A961), который нашел также эти же процентные точки для max ,' F; I. Последнюю таблицу во многом перекрывает работа Кришнайя и Эрмитэджа A965а), которые привели таблицы Р {Y'fn) sS f/} с 6 знаками для « = 1 A) 40, с шагом 0,1 для у и р = 0@,0125) 0,85 и дали с 3 знаками соответствующие 10; 5; 2,5; и 1-процентные точки. Пусть Fj, Fg, ..., F„ — многомерные нормальные с. в. с нулевыми математическими ожиданиями, одинаковыми неизвестными дисперсиями а^ и одинаковыми корреляциями р. Пусть Sy —обычная среднеквадратичная оценка
292 ПРИЛОЖЕН! lb ДЛЯ а, не зависяи^ая от F,. Кришнайя и Эрмитэдж A965b) табулировали с 2 знаками верхние 10; 5; 2,5; и 1-процентные точки св. max (F;/Sv) = F(„,/Sv для « = 1AI0; v = 5(lK5 и р = 0@,1H,9. Пиллап и Рамачандран A954) дали верхние и нижние 5-проиентные точки для шах | V,-/5v| (р = 0), т, е. для стьюдентизированного максимума модулей (см. также библиографию Гупты A963b)). 6.1. Таблицы Рандера A951) для /? (О, 6) выборки дают двухсторонние 10; 5; 1-процентные точки с. в. Wi/W^ для щ, «2*^10. Для тех же объемов выборок Хпреннус A953) привел верхние 10; 5; 1-процентные точки своей статистики Т и верхние и нижние 10; 5 и 1-процентные точки статистик и и V. Для k независимых выборок объема п из R (О, 6) генеральной совокупности Кхатрн A960) табулировал для ^ = 2AM и «=4AI0EJ0 нижние 5-процентные точки W(i)/VF(fc) (отношения наименьшего размаха к наибольшему), а для ^ = 2AI1 и «=1AI0EK0, 40, 60. 100, 500, 1000 —нижние 5-процентные точки с. в. F(i)/F(fc, (отношения наименьшего и наибольшего выборочных максимумов). Хартер A961с) табулировал обратные величины многих нижних и верхних процентных точек w^ размаха в выборках объемов « = 2AJ0BL0A0I00 из равномерной генеральной совокупности с единичным стандартным отклонением. Поскольку из того, что Р {W/a<iWa}= I—а, следует соотношение Р {сг> W^/Wa} = 1 — а, необходимо только умножить величину наблюдаемого размаха на l/Wa, чтобы получить НИЖНЮЮ доверительную границу для а с коэффициентом доверия 1 — а. 6.3. Большинство из работ, упоминаемых в этом параграфе, имеют дело с оценками максимального правдоподобия, и ряд из них содержит таблицы дисперсий, ковариа- ций и эффективностей оценок. А\ы здесь ограничимся таблицами коэффициентов НЛНО, включающими всякий раз и случай нецензурированных наблюдений. Сархан и Гринберг (СГ) табулировали (с 4 десятичными знаками) коэффициенты НЛНО для р и а в случае нормальной Л^ (|.(, а^) генеральной совокупности, включив все случаи цензурирования II типа для «sg20 (стр. 194—227), а также дисперсии, ковариации и эффективности оценок (стр. 228—244). Для «^5 они получили те же величины
УКАЗАТЕЛЬ ТАБЛИЦ 293 В комбинированной таблице для некоторых симметричных распределе1П1и: б'-образного, равномерного, параболического, треугольного, нормального и двойного экспоненциального (стр. 354—358; на стр. 351—352 определены эти распределения). Рассматривалось также распределение экстремальных значений для «*g6 и цензурирования справа (стр. 366—367) и правостороннее треугольное распределение для « s£ 10 (нецензурнрованное, стр. 410—411). Все случаи цензурирования справа для «=^20 в случае распределения экстремальных значений были рассмотрены Ь'айтом A964), который привел семизначные таблицы коэффициентов. Говиндараюлу и Эйзенштат A965) имели дело с усеченным нормальным распределением с плотностью р {х) = B/ла2)'/^ ехр { 2'^'*'~ 1-0V^'^}. если x'^\i, и р (л;) = О для х<С\1. Они табулировали (с 4 знаками) коэффициенты для многих случаев цензурирования, главным образом справа, для rt=^20. Говиндараюлу A966) рассмотрел симметричное цензурирование для двойного экспоненциального распределения («^20). Гупта и др. A967) исследовали все случаи цензурирования для логистического распределения и « = 2, 5EJ5. 7.3. Верхние 10, 5- и 1-процентные точки размаха ранговых сумм для двухфакторной классификации табулированы Данн-Рэнкином и Вилкоксоном A966). 7.4. Хартер A959) получил математические ожидания и дисперсии с. в. W^lo для нормальных выборок в случае «<100 и t<9 (включая размах, соответствующий г=1—у Хартера л = 0). Он также получил эффективности для W(i, (для « = 2BM0EI00 и ts£9) и оценок, являющихся линейными комбинациями двух W^i). 7.6. Огава A970, стр. 252—256) приводит таблицы оптимальных линейных ^-точечных оценок для |.i и а (для нормальной совокупности) в случае ^=1AI0 (для \.il) nfe=l(lN (для Оо). Соответствующие результаты для ^ = 2BJ0 даны Эйзенбергером и Познером A965), Эти авторы для тех же k дают и оценки для ц и а, основанные на общих k порядковых статистиках и минимизирую-
294 ПРИЛОЖЕНИЕ щие D[i*-\-cDa* (с= 1, 2, 3). Все оценки даны вместе с соответствующими значениями эффективностей. 7.7. Хартер A964Ь) привел (с 6 знаками) для п = = 2AJ0BL0A0I00 и а = 0.005; 0,01; П,0о; 0,1 пары величин, дающих после умножения на соответствующее w^^^ верхние и нижние доверительные границы для а с коэффициентом доверия 1 — а. Верхние 50; 25; 10; 5; 2,5; 1; 0,5; и 0,1-процентные точки для отношения ^W/^W табулированы Хартером A963) (см. также таблицу 29Ь ПХ) с 4 значащими цифрами для «j, п.^^ 15. Таблица 31 ПХ дает верхние 5- и 1-процентные точки величины Smax/Smin С 3 значащими цифрами и не меньше, чем с 2, соответственно, для fe = 2(lI2 и v = 2(lI0, 12, 15, 20, 30, 60. Лесли и Браун A966) для тех же ^ и v табулировали с 4 значащими цифрами верхние 5; 2,5; 1 и 0,5-процентные точки величины WmaJWmin- Мур A957) (а также таблица 29а ПХ) дает с 3 знаками верхние 10, 5, 2 и 1-процентные точки величины ^/?2 Д"™ til, «2 = 2AJ0. Джексон и Росс A955) получили с 2 значащими цифрами верхние 10, 5, и 1-процентные точки величин Gi и G^ для «'=2AI5 и k, ki,k2 = = 1AI5. Верхние 5- и 1-процентные точки Q' даны по крайней мере с 2 значащими цифрами для k, « = 2AI0 (Бейер A968)). Вычисления масштабного множителя с и эквивалентных степеней свободы v для двухфакторной классификации представляют трудную задачу численного интегрирования. Вычисления Хартли A950) проверил Мардья A967) и напечатал их в форме, позволяющей, очевидно, заменить таблицу ЗОЬ ПХ при следующем издании. Практический э(|)фект этой проверки невелик. Таблица дает значения с с 2 знаками после запятой и v с 1 знаком после запятой для н = 2AI0 и всех k. 7.8. Для /гг^50 Шапиро и Уилк A965) привели четырехзначные таблицы коэффициентов а,- и трехзначные таблицы 1, 2, 5, 10, 50, 90, 95, 98 и 99-процентных точек своей статистики W*, определенной в упр. 7.8.1. 7.9. Митра A957) табулировал с с 3 десятичными знаками (но испатьзуя первоначальную форму аппроксимации Патнайка для Г) для у = 0,75; 0,90; 0,95; 0,99; 0,999;
УКАЗАТЕЛЬ ТАБЛИЦ 295 Р^0,75; 0,90; 0,95; 0,99; « = 2AJ0; k=l и « = 4, 5; fe = 4 AJ0EL0, 50, 75, 100, оо. 8.2. Многие из имеющихся таблиц процентных точек для статистик (а) —(г) воспроизведены (но не всегда полностью) в ПХ и СГ. О некоторых случаях уже говорилось в П.5.2 II П.5.3. Приводим здесь сведения о таблицах для следующих статистик: Alt даны с 3 десятичными знаками нижние и верхние 10, 5, 2,5, 1, 0,5 и 0,1-процентные точки в случае я=1AK0-ПХ; СГ, стр. 291; Bj: см. П.5.3-ПХ; СГ, стр. 291; Bj: используйте таблицы для Cg, соответствующие v = co, и результаты Кришнайи и Эрмитэджа A965а), как в П.5.5; Вд: табулированы вероятности Р {Л'(„, — Л'(„ i) > ?^а} тя п = 2, 3, 10A0I00A00I000; ?i = 0,l @,1) 5-СГ, стр. 293; Cj.- см. П.5.3-ПХ; СГ, стр. 294; С,: см. П.5.3; Сд.- см. П.5.2-ПХ; СГ, стр. 111-112; С4, Q: см. П.5.3-ПХ; Dj: Граббс A950) табулировал с 3 десятичными знаками верхние 10; 5; 2,5; 1-процентные точки статистики (Х^п)-Х) п п - 1,2 II с 4 десятичными знаками соответствующие нижние процентные точки эквивалентной статистики -1 ■л = 1 / =1 2](X(„-A'„)Y у;(Х,.-Х)^-СГ, стр. 296; D^: воспользуйтесь соотношением Л2 = Сз («—1)'/^ при v = 0-nX; D.^: см. П.5.3; D^: получены с 3 десятичными знаками для п = = 25F) 50A0) 100B5) 200E0) 1000B00) 2000E00} 5000 верхние 5- и Ьпроцеитные точки —ПХ;
296 ПРИЛОЖЕНИЕ Dg: даны с двумя десятичными знаками значения верхних и нижних 5- и 1-процентных точек для «= 50 B5) 150E0) 700A00) 1000-ПХ; D^: табулированы (с 4 десятичными знаками) для « = 4A) 20 нижние 10; 5; 2,5 и 1-процентные точки— СГ, стр. 297; л-статистики Диксона: получены с 3 десятичными знаками при « = 3A) 30 значения 99, 5; 99; 98; 90A0I0; 5-процентных точек —СГ, стр. 298—303. Лоурент A963) табулировал P{t/(„)=^«} (t/(„) определяется в упр. 8. 2. 2 и 8. 2. 3) с 5 десятичными знаками для « = 3A) 10 и и = 0,1 @,1) 1. Он также получил значения верх1шх 10-и 1-процентных точек для L'(„). УилксA963) табулировал для « = 5A) 30E) 100A00M00; fe=l(lM; а = 0,1; 0,05; 0,025; 0,01 значе1шя Лц с 5 десятичными знаками. 8.3. Мостеллер A948) дал таблицы вероятностей Рг = = пт'-'''>/(пт)'-'''' того, что среди « выборок объема т имеется выборка, не менее г наблюдений которой больше, чем все элементы остальных выборок, для т=3, 5, 7, 10, 15, 20, 25, оо; « = 2AM или 6; л = 2AM или 6. Таблицы для max Ti — наибольшей суммы рангов Краскела — Уоллиса в « группах объема т даны Оде A967), который кроме критических значений для различных а и « = 2AN, т = = 2A)8 получил и ф. р. для «=^5, ms^5. Томпсон и Уплки A963) табулировали значимые точки с соответ- ствуюи^ими им точными уровнями значимости для критериев с двухсторонней ранговой суммой (когда « объектов ранжированы по каждому из т признаков) для номинальных уровней значимости а = 0,01; 0,03; 0,05; « = 3AI5; т = 3A) 15. Относительно Ь^., Ь% см. П.5.3, а о таблицах для 2 iS^-П.ЪЛ. 1=1 8.4. Дэйвид и Полсон A965) табулировали значения Pi для статистик В^ i\ Вг, с тремя десятичными знаками для ?1= 1AM; « = 2AI0, 12. 15, 20, 25; а = 0,05; 0,01 (ДЛЯ Бб фактически « = 3AN, 8, 12).
ЛИТЕРАТУРА Сокращение СГ используется для ссылок на сборник С а р х а н а к Гринберга A970). \бдель-Ати (Abdel-Aty, S. Н.) A954). Ordered variables in discontinuous distributions. Statist. Neerlandica 8, 61—82. A Й я p (Aiyar, K. R.) A963). On uncorrected linear functions of order statistics. J. Amer. Statist. Ass. 58, 245—6. Али 1! Чен (АН, Л1. М. and Chan, L. К.) A964). On Gupta's estimates of the parameters of the normal distribution. Biometrika 51, 498—501. Али II Чен (Ali, M. M. and Chan, L, K.) A965), Some bounds for expected values of order statistics. Ann. Math. Statist. 36, 1055—7. Анис (Anis, A. A.) A955). The variance of the maximum of partial sums of a finite number of independent normal variates. Biometrika 42, 96—101. Анис (Anis, A. .Л.) A956), On the moments of the maximum of partial sums of a finite number of independent normal variates. Biometrika 43, 79—84. Анис и Ллойд (Anis, A. A. and Lloyd, E. H.) A953). On the range of partial sums of a finite number of independent normal variates, Biometrika 40, 35—42, Бак ленд (Buckland, W. R.) A964). Statistical Assessment of the Life Characteristic, Griffin, London; Hafner, New York. Б a p л о у (Barlow, R. E.) A965). Bounds on integrals with applications to reliability problems. Ann. Math. Statist. 36 565—74, Барлоу и Гупта (Barlow, R, E, and Gupta, S. S,) A966), Distribution-free life test sampling plans, Technometrics 8, 591—613. Барлоу, Мадански, Прошан и Шейер (Barlow, R. Е., Madansky, А., Prosclian, F., and Scheuer, E. M.) A968). Statistical estimation procedures for the «burn-in» process. Technometrics 10, 51—62. Ьарлоу, Маршалл и Прошан (Barlow, R. E., Marshall, A. W. and Proschan, F.) A963). Properties of probability distributions with monotone hazard rate. Ann. Math. Statist. 34, 375—89. Барлоу и Прошан (Barlow, R. E and Proschan, F.) A967). Exponential life test procedures when the distribution has monotone failure rate. / Amer Statist. Ass. 62, 548—60, Барлоу и Прошан A969) Математическая теория надежности. — М.: «Сов. радио». Барнард (Barnard, G. А.) A953). Time intervals between accidents — a note on Maguire, Pearson and Wynn's paper. Biometrika 40, 212—13.
298 ЛИТЕРАТУРА Барндорф-Нильсен (Barndorff-Nielsen, О) A963). On the limit behaviour of extreme order statistics. Ann. Math. Statist. 34, 992—1002. Барндорф-Нильсен (Barndorff-Nielsen, O.) A964). On the limit distributionof the maximum of a random number of independent random variables. Acta Mathematica 15, 399—403. Барнетт, Муллен н Co (Barnett, F. C., Mullen, K. and Saw, J. G.) A967J. Linear estimates of a population scale parameter. Biometrika 54, 551—4. Барнетт (Barnett, V. D.) A966). Order statistics estimators of the location of the Cauchy distribution. /. Amer. Statist. Ass 61, 1205—18. Correction 63, 383—5. Барнетт и Ль ю и с (Barnett, V. D. and Lewis, Т.) A967). A study of low-temperature probabilities in the context of an industrial problem. / R. Statist. Soc. A130, 177—206, В a p p (Barr, D. R.) A966). On testing the equality of uniform and related distributions. /. Amer. Statist. Ass. 61, 856—64. Бартоломью (Bartholomew, D. J.) (l957) A problem in life testing. /. Amer. Statist. Ass. 52, 350—5. Бартоломью (Bartholomew, D. J.) A963) The sampling distribution of an estimate arising in life testing. Technometrics 5, 361—74 Бартон и Дэйвид (Barton, D. E. and David, F. N.) A956) Some notes on ordered random intervals. /. R. Statist. Soc. B18, 79—94. Бартон и Дэйвид (Barton, D. E. and David, P. N.) A959) Combinatorial extreme value distributions Mathematika 6, 63—76. (Slightly elaborated in Chapter 13 of David and Barton, 1962.) Бартон и Кэсли (Barton, D. E. and Casley; D. J.) A958). A quick estimate of the regression coefficient. Biometrika 45, 431—5. Басу (Basu, A. P.) A955). On statistics independent of a complete sufficient statistic. Sankhya 15, 377—80. Басу (Basu, A. P.) A965). On some tests of hypotheses relating to the exponential distribution when some outliers are present. /. Amer. Statist. Ass. 60, 548—59. Басу (Basu, A. P.) A967). On the large sample properties of a generalized Wilcoxon—Mann—Whitney statistic Ann Math. Statist. 38, 905—15. Басу (Basu, A. P.) A968). On a generalized Savage statistic with applications to life testing. Ann. Math. Statist. 39, 1591—604. Бахадур (Bahadur, R R.) A966). A note on quantiles in large samples. Ann. Math. Statist. 37, 577—80. Бейер (Beyer, W. H. (Ed.)) A968). Handbook of Probability and Statistics, 2nd Ed. The Chemical Rubber Company, Cleveland. Бейн H Томен (Bain, L. J. and Thoman, D. R.) A968) Some tests of hypotheses conserning the three-parameter Weibull distribution. /. Amer. Statist. Ass. 63, 853—60. Бейн и Уикс (Bain, L. J. and Weeks, D. L,) A965). Tolerance limits for the generalized gamma distribution, /. Amer Statist Ass. 50, 1142—52. Бейн и Энтл (Bain, L. J. and Antle, С E.) A967). Estimation of parameters in the Weibull distribution. Techrwmetrics 9, 621—7.
ЛИТЕРАТУРА 299 Бекхофер, Кифер и Собел (Bechhofer, R. Е., Kicfer, J. and Sobel, М.) A968). Sequential Identification and Ranking Procedures. University of Chicago Press. Белз и Хуке (Belz, М. Н. and Нооке, R) A954). Approximate distribution of the range in the neighborhood of low percentage points. /. Amer. Statist. Ass. 49, 620—36. Белл, Блэкуэлл ii Брейман (Bell, С. В., Blackwell, D. and Breiman, L.) (i960). On the completeness of order statistics. Ann. Math. Statist. 31, 794—7. Б ей нет (Bennett, В. М.) A966). Note on confidence limits for a ratio of bivariate medians. Metrika 10, 52—4. Беннет и Накамура (Bennett, В. М. and Nakamura, E.) A968). Percentage points of the range from a symmetric multinomial distribution. Biometrika 55, 377—9. Беннет (Bennett, C. A.) A952). Asymptotic properties of ideal linear estimators. Ph. D. Thesis, University of Michigan. Бен сон (Benson, F.) A949). A note on the estimation of mean and standard deviation from quantiles. Suppl. J. R. Statist. Soc. 11, 91—100. Берман (Berman, S. M.) A962a). Limiting distribution of the maximum term in sequences of dependent random variables. Ann. Math. Statist. 33, 894—908. Берман (Berman, S. M.) A962b). Gsnvergence to bivariate limiting extreme value distributions. Ann. Inst. Statist. Math., Tokyo 13, 217—23. Берман (Berman, S. M.) A962c). Equally correlated random variables. Sankhya Л24, 155—6. Б e p M a и (Berman, S. M.) A963). Limiting distribution of the studen- tized" largest observation. Skand. Aktuarietidskr., 1962, 154—61. Берман (Berman, S. M.) A964). Limit theorems for the maximum term in stationary sequences. Ann. Math. Statist. 35, 502—16. Бикел (Bickel, P. J.) A965). On some robust estimates of location. Ann. Math. Statist. 36, 847—58. Бикел (Bickel, P. J.) A967). Some contributions to the theory of order statistics. Proc. 5th Berkeley Symp. I, 575—91. Бикел и Ходжес (Bickel, P. J. and Hodges, J. L., Jr.) A967). The asymptotic theory of Galton's test and a related simple estimate of location. Ann. Math. Statist. 38, 73—89. Бнрнбаум (Birnbaum, A.) A959). On the analysis of factorial experiments without replication. Technometrics 1, 343—57. Бирнбаум (Birnbaum, A.) A961). A multi-decision procedure related to the analysis of single degrees of freedom. Ann. Inst. Statist. Math., Tokyo 12, 227—36. Бирнбаум и Ласка (Birnbaum, A. _ and Laska, E.) A967). Optimal robustness: a general method, with applications to linear estimators of location. /. Amer. Statist. Ass. 62, 1230—40. Бирнбаум, Изари и Сондерс (Birnbaum, Z. W., Esary, J. D. and Saunders, S. C.) A961). Multicomponent systems and structures and their reliability. Technometrics 3, 55—77. Бирнбаум и Соидерс (Birnbaum, Z. W. and Saunders, S. C.) A958). A statistical model for life-length of materials, J, Amer. Statist. Ass. 53, 151-60.
300 ЛИТЕРАТУРА Блисс, Кокрен и Тьюки (Bliss, С. I., Cochran VV. G. and Turkey, J. W.) A956). A rejection criterion based upon the range Biometrika 43, 418—22. Блнсс H Стнвенс (Bliss, С I. and Stevens, W. L.) A937). The calculation of the time-mortality curve. Ann. Appl. Biol. 24 815—52. Б лишке (Blischke, \V. R.) A968). Mixtures of distributions. la- Sills, D. L. (Ed.) International Encyclopedia of the Social Sciences, Vol. 4, 235—41. Macmillan and Free Press, New York. Блом (Blom, G.) A958). Statistical Estimates and Transformed Beta- Variables. Almqvist and Wiksell, Uppsala, Sweden; Wiley, New York. Блом (Blom, G.) A962). Nearly best linear estimates of location and scale parameters (русский перевод в СГ, 43—53). Блох (Bloch, D.) A966). А note on the estimation of the location parameter of the Cauchy distribution. J. Amer. Statist. Ass. 61 852—5. Блох иГаствнрт (Bloch, D. A. and Gastwirth, J. L.) A968). On a simple estimate of the reciprocal of the density function Ann. Math. Statist. 39, 1083—5. Блэнд, Гилберт, Кападья и Оуэн (Bland, R. P., Gilbert, R. D., Kapadia, С H. and Owen, D. B.) A966). On the distributions of the range and mean range for samples from a normal distribution. Biometrika 53, 245—8. Блэнд и Оуэн fBland, R. P. and Owen, D. B.) A966). A note on singular normal distributions. Ann. Inst. Statist. Math.. Tokyo 18, 113-6. Блюменталь (Blumental, S.) A966). Contributions to sample spa- cings theory. I: Limit distributions of sums of ratios of spacings. Ann. Math. Statist. 37. 904—24. Бодмер (Bodmer, W. F.) A959). A significantly extreme deviate in data with a non-significant heterogeneity chi square. Biometrics 15, 538—42. Бозе и Гупта (Bose, R. С. and Gupta, S. S.) A959). Moments of order statistics from a normal population. Biometrika 46, 433—40. Бокс (Box, G. E. P.) A953). Non-normality and tests on variances. Biometrika 40, 318—35. Борениус (Boreiiius, G.) A959). On the distribution of the extreme values m a sample from a normal distribution. Skand. Aktuarie- tidskr., 1958, 131—66. Борениус (Borenius, G.) A966). On the limit distribution of an extreme' value in a sample from a normal distribution. Skand. Aktuarietidskr.. 1965, 1—15. Бофингер (Bofinger, V. J.) A965). Tiie k-sample slippage problem. Auii. J. Statist. 7, 20—31. Брейтер и Крншнайя (Breiter, М. С. and Krishnaiah, P. R.) A968). Tables for the moments of gamma order statistics. Sankhyu B30, 59—72. Бриллииджер (Brillinger, D. R.) A966). An extremal property of tiie conditional expectation. Biometrika 53, 594—5. Б росс (Bross, 1. D. J.) A961). Outliers in patterned experiments: a strategic appraisal. Technometrics 3, 91 —102
ЛИТЕРАТУРА 301 Бхаттачарджи (Bhattacharjee, G. P.) A965). Distribution of range in non-normal samples. Aust. J. Statist. 7, 127—41. Бэйбик (Babik, S.) A96P). Application of reliability theory to a reactor safety circuit. Appl. Statist. 17, 137—56. Бэрр (Burr, I. W.) A955). Calculation of exact sampling distribution of ranges from a discrete population. Ann. Math. Statist. 26, 530—2. Correction 38, 280. оан дер Ваарт (van der Vaart, H. R.) A961a). A simple derivation of the limiting distribution function of a sample quantile with increasing sample size. Statist. Neerlandica 15, 239—42. ван дер Ваарт (van der Vaart, H. R.) A961b). Some exten- tions of the idea of bias. Ann. Math. Statist. 32, 436—47. ван Цвет (van Zwet, W. R.) A964). Convex Transformations of Random Variables. Mathematical Center Tracts 7, Mathematisch Centrum, Amsterdam. кан Цвет (van Zwet, W. R.) A966). Bias in estimation from type I censored samples. Static. Neerlandica 20, 143—8. ван Цвет (van Zwet, W. R.) A967). An inequality for expected values of sample quantiles. Ann. Math. Statist. 38, 1817—21. Ватанабе и др. (Watanabe Y. et al.) A957). Some contributions to order statistics. J. Gakugei, Tokushima Univ. 8, 4l—90. Ватанабе и др. (Watanabe Y. et al.) A958). Some contributions to order statistics (continued). J. Gakugei, Tokushima Univ. 9, 31—86. Вейлер (Weiler, H.) A954). A new type of control chart limits for means, ranges, and sequential runs. /. Amer. Statist. Ass. 49, 298—314. Вей с (Weiss, L.) A964). On the asymptotic joint normality of quantiles from a multi-variate distribution. /. Res. Nat. Bur. Stand. 68B, 65—6. В ей с (Weiss, L.) A965). On the asymptotic distribution of the largest sample spacing. /. Soc. Indust. Appl. Math. 13, 720—31. Вен тер (Venter, J. H.) A967). On estimation of the mode. Ann. Math. Statist. 38, 1446—55. Вннер (Winer, P.) A963). The estimation cf the parameters of the iterated exponential distribution from singly censored samples. Biometriks 19, 460—4. Гаек (Hajek, J.) A968). Asymptotic normality of simple linear rank statistics under allernatives. Ann. Math. Statist. 39, 325—46. Галло (Gallot, S.) A966). A bound for the maximum of a number of random variabl es. /. Appl. Prob. 3, 556—8. Гальперин (Halperin, M.) A952). Maximum likelihood estimation in truncated samples. Ann. Math. Statist. 23, 226—38. Гальперин (Halperin, M.) A960). Some asymptotic results for a coverage problem. Ann. Math. Statist. 31, 1063—76. Гальперин (Halperin, M.) A967). An inequality on a bivariate Student's t distribution. /. Amer. Statist. Ass. 62, 603—6. Гальперин, Гринхауз, Корнфилд н Залокар (Halperin, М., Greenhouse, S. W., Cornfield, J. and Zalokar, J.) A955). Tables of percentage points for the studentized maximum absolute deviate in normal samples. /. Amer, Statist, Ass. 50, 185— 95.
302 ЛИТЕРАТУРА Гальтон (Galton. F.) A502). Ttie most suitable proportion between ttie values of first and second prizes. Biometrlca 1, 385— 90. Гани иЙео (Gani, J. and Yeo, G. F.) A962). On ttie age distribution of n ranked elements after several replacements. Aust. J. Statist. 4, 55—60. Гарвардская вычислительная лаборатория (Harvard Computation Laboratory) A955). Tables of ttie Cumulative Binomial Probability Distribution. Harvard University Press, Cambridge, Miss. Гарнер (Garner, N. R.) A958). Curtailed sampling for variables J. Amer. Statist. Ass. 53. 862—7. Гаствирт (Gastwirtti, J. L.) A966). On robust procedures. J. Amer. Statibl. Ass. 61, 929—48. Гаствирт и Коэн (Gastwirtti, J. L. and Colien, M. L.) A968). Ttie small sample betiaviour of some robust linear estimaTOrs of location. Tech. Rep. 91, Dept. Statistics, Ttie Jotin Hopkins University. Гаствирт и Рубин (Gastwirtti, J. L. and Rubin, H.) A969). On lobust linear estimators. Ann. Math. Statist. 40, 24—39. Гебхардт (Gebhardt, F.) A964). On ttie risk of some strategies for outlving observations. Ann. Math. Statist. 35, 1524— 36. Гебхардт (Gebliardt, F.) A966). On ttie effect of staggiers on the risk of some mean estimators in small samples. Ann. Math. Statist. 37, 441—50. Гилкрист (Gilctirist, W. G.) A961). Some sequental tests using range. J. R. Statist. Soc. B23, 335—42. Гнанадесикан, ПинкхемиХьюз (Gnanadesikan, R., Pink- tiam, R. S. and Hugties. L. P.) A967). Maximum likelihood estimation of the parameters of the beta distribution from smallest order statistics. Technometrics 9, 607—20. Гнеденко (Gnedenko, B.) A943). Sur la distribution limite du terme maximum d'une serie aleatoire. Ann. Math. 44, 423—53. Говиндараюлу (Govindarajulu, Z.) A962). Exact lower moments of order statistics in samples from the chi-distribution A d. f). Ann. Math. Statist. 33, 1292—305. Говиндараюлу (Govindarajulu, Z.) A963a). On moments of order statistics and quasi-rauges from normal populations. Ann. Math. Statist. 34, 633—51. Говиндараюлу (Govindarajulu, Z.) A963b). Relationships among moments of order statistics in samples from two related populations. Technometrics 5, 514—8. Говиндараюлу (Govindarajulu, Z.) A964). A supplement to Mendenhall's bibliography on live testing and related topics. J. Amer. Statist. Ass. 59, 1231—91. Говиндйраюлу (Govindarajulu, Z.) A966). Best linear estimates under symmertic censoring of the parameters of a double exponential population. J. Amer. Statist. Ass. 61, 248—58. Говиндараюлу (Govindarajulu, Z.) A967). Characterization of the exponential and power distributions. Skand. Akluarietidskr., 1966, 132—6.
ЛИТЕРАТУРА 303 Говиндараюлу (Govindarajulu, Z.) {1968а). Certain general properties of Unbiased estimates of location and scale parameters based on ordered observations. SIAM J. Appl. Math 16, 533—51. Говиндараюлу (Govindarajulu, Z.) {1968b). Asymptotic normality of linear combinations of functions of order statistics., II Proc. A at. Acad. Sci. 59, 713—9. Говиндараюлу и Э й з ен шта т (Govindarajulu, Z. and Eisen- stat, S.) A965). Best estimates of location and scale parameters of a chi il d. f.) distribution, using ordered observations. Rep. Stat. Appl. Res. JUSE 12, 149—64. Говиндараюлу ii Хубакер (Govindarajulu, Z. and Hubac- ker, \'. W.) A964). Percentiles of order statistics in samples from uniform, normal, chi A d. f.) and Weibull populations. Rep. Stat. Appl. Res., JUSE 11, 64—90. Годвин (Godwin, H. J.) A949). Some low moments of order statistics. Ann. Math. Statist. 20, 279—85. Гудмэн и Мадански (Goodman, L. A. and Madansky, A.) A962). Parameter-free and nonparametric tolerance limits: the exponential case. Technometrics 4, 75—95. Граббс (Grubbs, F E.) A950). Sample criteria for testing outlying observations. Ann. Math. Statist. 21, 27—58. Граббс (Grubbs, F. E.) A964). Statistical Measures of Accuracy for Rifleman and Missile Engineers. Edwards Brothers, Ann Arbor, Mich. Граббс (Grubbs, F. E.) A969). Procedures for detecting outlying observations in samples. Technometrics 11, 1—21. Граббс, Кун и Пирсон (Grubbs, F. Е., G5on, Helen J. and Pearson, E. S.) A966). On the use of Patnaik type chi approximations to the range in significance tests. Biometrika 53, 248—52. Граббс H Уивер (Grubbs, F. E. and Weaver, C. L.) A947). The best unbiased estimate of population standard deviation based on group ranges. J. Amer. Statist. Ass. 42, 224—41. Гранди (Grundy, P. M.) A952). The fitting of grouped truncated and grouped censored normal distributions. Biometrika 39, 252—9. Г рей г (Greig, Margaret) A967). Extremes in a random assembly. Biometrika 54, 273—82. Грена H дер (Grenander, U.) A965). A limit theorem for sums of minima of stochastic variables. Ann. Math. Statist. 36, 1041—2. Гумбель (Gumbel, E. J.) A935). Les valeurs extremes des distributions statistiques. Ann. Inst. Henri Poincarc 5, 115—58. Гумбель (Gumbel, E. J.) A947). The distribution of the range. Ann. Math. Statist. 18, 384—412. Гумбель (Gumbel, E. J.) A949). Probability tables for the range. Biometrika 36. 142—8. Гумбель (Gumbel, E. J.) A954). The maxima of the mean largest value and of the range. Ann Math. Statist. 25, 76—84. Гумбель (Gumbel, E. J.) A961). Statistical theory of breaking strength and fatigue failure. Bull. Int. Statist. Inst. 38, C), 375—93. Гумбель (Gumbel, E. J.) A963). Statistical forecast of droughts. Bull. I. A. S. H. 8, 5—23. Гумбель Э, A965). Статистика экстремальных значений,—М., Мир,
304 ЛИТЕРАТУРА i ум бе ЛЬ к Гербах (Gumbel, Е. J. and Herbach, L. Н.) A951). The exact distribution of the extremal quotient. Ann. Math. Statist. 22, 418—26. Гумбель и Голдстейн (Gumbel, E.J. and Goldstein, N.) A9G4). Analysis of empirical biviriate extremal distributions. J. Amer. Statist. Ass. 59, 794—816. Гумбель, Карлсон к М у с т a ф к (Gumbel, Е. J., Carlson, P. G. and Mustafi, C. K.) A965). A note on midrange. Ann. Math. Statist. 36, 1052—4. Гумбель и Кини (Gumbel, E. J. and Keeney, R. D.) A950a). The geometric range for distributions of Caiichy's tvpe. Ann. Math. Statist. 21, 133—7. Гумбель к Кинн (Gumbel, E. J. and Keeney, R. D.) A950b). The extremal quotient. Ann. Math. Statib.. 21, 523—8. ГумбельнМустафи (Gumbel, E. J. and Mustafi, C. K.) A967). Some analytical properties of biviriate extremal distributions. J. Amer. Statist. Ass. 62, 569—88. Гумбель и Пикендс (Gumbel, E. J. and Pickands, J., Ill) A967). Probability tables for the extremal quotient. Ann. Math, Statist. 38, 1541—51. Гупта (Gupta, A. K.) A952). Estimation of the mean and standard deviation of a normal population from a censored sample. Bio- metrika 39, 260—73. Гупта (Gupta, S. S.) A960). Order statistics from the gamma distribution. Technomeirics 2, 243—62. Гупта (Gupta, S. S.) A961). Percentage points and modes of order statistics from the normal distribution Ann. Math- Statist. 32, 888—93. Гупта (Gupta, S. S.) A962). Life test sampling plans for normal and lognormal distributions. Technometrics 4, 151—75. Гупта (Gupta, S. S.) A963a), Probability integrals of multivariate normal and multivariate t, Ann. Math. Statist. 34, 792— 828. Гупта (Gupta, S. S.) A963b). Bibliography on the multivariate normal integrals and related topics. Ann. Math. Statist. 34, 829—38. Гупта II Гнанадеспкан (Gupta, S. S. and Gnanadesikan, M.) A966). Estimation of the parameters of the logistic distribution. Biometrika 53, 565—70. Гупта и Гролл (Gupta, S. S. and Groll, Phyllis A.) A961). Gamma distribution in acceptance sampling based on life tests. J. Amer. Statist. Ass. 56, 942—70. Гупта, К у p e ii Ш к и Шах (Gupta, S. S., Qureishi, A. S. and Shah, B. K.) A967). Best linear unbiased estimators of the parameters of the logistic distribution using order statistics. Technometrics 9, 43—56. Гупта к Пкллак (Gupta, S. S. and Pillai, K. С S.) A96o). On linear functions of ordered correlated normal random variables. Biometrika 52, 367—79. Гупта, Пиллаи к Стек (Gupta, S. S., Pillai, K. C. S. and Steck, G. P.) A964). On the distribution of linear functions and ratios of linear functions of ordered correlated normal random variables with emphasis on range. Biometrika 51, 143—51.
ЛИТЕРАТУРА 305 Гупта и Со бел (Gupta, S. S. and Sobel, М.) A958). On the distribution of a statistic Ъг:-ей on ordered uniform chance variables. Ann. Math. Statist. 29, 274—81. Гупта и Собел (Gupta, S. S. and hobel, M.) A962). On the smallest of several correlated F statistics. Biometrika 49, 509—23. Гупта H niax (Gupta, S. S. and Shah, B. K.) A965). Exact moments and percentage points of the order statistics and the distribution of the range frqm the logistic distribution. Ann. Math. Statist- 36. 907—20. Гут.мен u Смит (Guttman, I., and Smith, D.) A966). Investigation of rejection rules for outliers in small samples from the normal distribution. Tech. Reps. 90—93. University of Wisconsin. Гутмен u Смит (Guttman, I. and Smith', D. E.) A969). Investigation of rules for dealing with outliers in small samples from the normal distribution. I: Estimation of the mean. Technometrics 11, 527—50. Гхош (Ghosh, B. K-) A963). On sequential tests of ratio of variances based on range. Biometrika 50, 419—30. Гхош (Ghosh, B. K.) A965). Sequential range tests for components of variance. J. Amer. Statist. Ass. 60, 826—36. Данн (Dunn, O. J.) A958). Estimation of the means of dependent variables. Ann. Math. Statist. 29, 1095—1111. Даннет н Собел (Dunnett, С. W. and Sobel, M.) A955). Approximations to the probability integral and certain percentage points of a multivariate analogue of Student's t-distribution. Biometrika 42, 258—60. Д a H.ii - P ЭН к и H и Внлкоксон (Dunn-Rankin, P. and Wil- coxon, F.) A966). The true distributions of the range of rank totals in the two-way classification. Psychometrika 31, 573—80. Д a p в к li (Darwin, J. H.) A957). The difference between consecutive members of a series of random variables arranged in order of size. Biometrika 44, 211—8. Дарлннг (Darling, D. A.) A952a). The influence of the maximum term in the addition of independent random variables. Trans. Amer. Math. Soc. 73, 95—107. Дар л ИНГ (Darling, D. A.) A952b). On a test for homogeneity and extreme values. Ann. Math. Statist. 23, 450—6. Correction 24, 135. Дарлинг (Darling, D. A.) A953). On a class of problems related to the random division of an interval. Лпп. Math. Stat. 24, 239—53. Даун тон (Downton, F.) A953). A note on ordered least-squares estimation. Biometrika 40, 457—8. Даунтон (Downton, F.) A954). Least-squares estimates using ordered observations. Ann. Math. Statist. 25, 303—16. Даун тон (Downton, F.) A966a). Linear estimates of parameters in the extreme value distribution. Technometrics 8, 3—17. Даунтон (Downton, F.) A966b). Linear estimates with polynomial coefficients. Biometrika 53, 129—41. Двасс (Dwass, M.) A964). Extremal processes. Ann. Math. Statist. 35, 1718—25. Демпстер и К лей л (Dempster, А. Р. and Kleyle, R. М.) A968). Distributions determined by cutting a simplex with hyperplanes. Ann. Math. Statist. 39, 1473—8. J ' Г. Дэй«ид
ЗСб ЛИТЕРАТУРА де Фкнетти (пе Finetti, В.) A932). Sulla legije di probabililS degll ffilremi. Mjiiun 9, 127—38. де Ф П II e г r и (dc Fiiielti, B.) A961). The Bayesian approach to the rejection of outliers. Proc. 4th Berlceley Symp. I, 199—210. Джек о б CO 11 (Jacobson, P. H.) A947). The relative power of three statistics for small sample destructive tests. J. Amer. Statist. Ass. 42, 575—84. Джексон H Росс (Jackson, J. E. and Ross, Eleanor L.) A955). Extended tables for use with the «G» test for means. J. Amer. Statist. Ass. 50, 416—33. Джексон (Jaclison, O. A. Y.) A967). An analysis of departures frcm the exponential distribution. J. R. Statist. Soc. B29. 540— 9. Джеффрис Г,, С в lip с Б. A969). Методы математической физики—М.: Мир. Джини (Gini, С.) A912). Variabilita ё Mutabilita, contrlhuto alio studio delle distribuzioni e relazioni statistlche. Studi Economico — Giuridlcl della R. Universita di Cagliari. Джонс и Либерман (Johns, М. V., Jr., and Lieberman, G. J.) A966), An exact asymptotically efficient confidence bound for reliability in the case of the WeibuU distribution. Technomdrics S, 135—75. Джонсон и Янг (Jotinson, N. L. and Young, D. H.) A960). Some applications of two approximations to the multinomial distribution. Biometrika 47, 463—9. Джоунз (Jones, A. E.) A946). A useful method for the routine estimation of dispersion from large samples, Biometrika 33, 274—82. Джоунз (Jones, H. L.) A948). Exact lower moments of order statistics in small samples from a normal distribution. Ann. Math. Statist. 19, 270—3. Джоши (Joshi, P. C.) A969). Bounds and approximations for the moments of order statistics. J. Amer. Statist. Ass. 64, 1617—24. Диксон (Dixon, VV. J.) A950). Analysis of extreme values. Ann. Math. Statist. 21, 488—506. Диксон (Dixon, VV. J.) A951). Ratios involving extreme values. Ann. Math. Statist. 22, 68—78. Диксон (Dixon, W. J.) A953). Processing data for outliers. Biometrics 9, 74—89. Диксон (Dixon, W. J.) A957). Estimates of the mean and standard deviation of a normal population. Ann. Math. Statist. 28, 806—9. Диксон (Dixon, W. J.) A960). Simplified estimation from censored normal samples. Ann. Math. Statist. 31, 385—91. Диксон (Dixon, W. J.) A962). Rejection of observations, (русский перевод в СГ, 274—307). Диксон и Массей (Dixon, W. J. and Massey, F, J., Jr.) A957), Introduction to Statistical Analysis, 2nd Ed. McGraw-Hill, New York. Диксон и Тьюки (Dixon, W.J. and Tukey, J. W.) A968), Approximate behavior of the Uistrib^ition of Winsorized t (trimm- ing/VVinsorization 2), Technomefrics 10, 83—98. Додд (Dodd, E. L,) A923). The greatest and the least variate under f-eneral laws of error. Trans. Amer, Math. Soc. 25, 525—39.
ЛИТЕРАТУРА 807 Док сам (Doksum, К.) A967). Asymptotically optimal statistics in some models with iucreasing failure rate average. Ann. Math. Statist. 38, 1731—9. Дорн бос (Doorribcs, R.) A956). Significance of the smallest of a set of estimated normal variances. Statist. Neerlandica 10, 117—26. Д о p H 6o с (Doornbos, R.) A966). Slippage Tests. Mathematical Centre Tracts 15, Mathematisch Centrum, Amsterdam. Дорн бос и При НС (Doornbos, R. and Prins, H. J.) A956). Slippage tests for a set of gamma-variates. Indag. Math. 18, 329—37. Дорнбос и При НС (Doornbos, R. and Prins, H. J.) A958). On slippage tests. Indag. Math. 20, I. A general type of slippage (est and a slippage test For normal variates. 38—46. П. Slippage tests for discrete variates. 47—55. П1. Two distribution-free slippage tests and two tables. 438—47. Досс (Doss, S. A. D. C) A963). On the efficiency of best asymptotically normal estimates of the Poisson parameter based on singly and doubly truncated or censored samples. Biometrirs 19, 588—94, Дронкерс (Dronkers, J. J.) A958). Approximate formulae for the statistical distributions of extreme values. Biometrika 45, 447—70. Дункан (Duncan, D. B.) A965). A Bayesian approach to multiple comparisons. Technometrics 7, 171—222. Дурбин (Durbin, J.) A961). Some methods of constructing exact tests. Biometrika 48, 41—55. Дьюби (Dubey, S. D.) A967). Some percentile estimators for Wei- bull parameters. Technometrics 9, 119—29. Дэйвид и Бартон (David, F. N. and Barton, D. E.) A962). Combinatorial Chance. Griffin, London; Hafner, New York. Дэйвид H Джонсон (David, F. N. and Johnson, N. L.) A954). Statistical treatment of censored data. I. Fundamental formulae. Biometrika 41, 228—40. Дэйвид и Джонсон (David, F. N. and Johnson, N. L.) A956). Some tests of significance with ordered variables (with discussion). J. R. Statist. Soc. B78, 1—31. Дэйвид (David, H. A.) A951). Further applications of range to the analysis of variance. Biometrika 38, 393—409. Дэйвид (David, H. A.) A953). The power function of some tests based on range. Biometrika 40, 347—53. Дэйвид (David, H. A.) A954). The distribution of range in certain non-normal populations. Biometrika 41, 463—8. Дэйвид (David, H. A.) A955). A note on moving ranges. Biometrika 42, 512—5. Дэйвнд (David, H. A.) A956). Revised upper percentage points of the extreme studentized deviate from the sample mean. Biometrika 43, 449—51. Дэйвнд (David, H. A.) A9o7). Estimation of means o! normal populations From observed minima. Biometrika 44, 282—6. Дэйвид (David, H. A.) A962). Order statistics in short-cut tests (русский перевод в СГ, 94—121). Дэйвид (David. Н. А.) A966). А note on «А k-sample model in order statistics» by W. J. Conover. Ann. Math. Statist. 37, 287—8. Дэйвид (David, H. A.) A968). Gini's mean difference rediscovered, Biometrika 55, 573—5, 11*
308 ЛИТЕРАТУРА Дэйвид и Джоши (David, Н. А. and Joshi, P. С.) A968). Recurrence relations between moments of order statistics for exchangeable variates. Ann. Math. Statist. 39, 272—4. Дэйвид и Мишрики (David, Н. A. and Mishriky, R. S.) A968). Order statistics for discrete populations and For grouped samples. J. Amer. Statist. Ass. 63, 1390—8. Дэйвид и Ньюэлл (David, Н. A. and Newell, D. J.) A965). The identification of annual peak periods For a disease. Biometrics 21, 645—50. Дэйвид и Перез (David, Н. A. and Perez, C. A.) A960). On comparing different tests oF the same hypothesis. Biometrika 47, 297—306. Дэйвид и По л сон (David, Н. А. and Paulson, А. S.) A965). The performance oF several tests for outliers. Biometrika 52, 429—36. Дэйвид, Хартли и Пирсон (David. Н. А., Hartley, Н. О. and Pearson, Е. S.) A954). The distribution of the ratio, in a single normal sample, oF range to standard deviation. Biometrika 41, 482—93. Дэйвид (David, H. T.) A962). The sample mean among the moderate order statistics. Ann. Math. Statist. 33, 1160—6. Дэйвид (David, H. T.) A963). The sample mean among the extreme normal order statistics. Ann. Math. Statist. 34, 33—55. Дэйвис (Davis, R. C.) A951). On minimum variance in nonregulai estimation. Ann. Math. Statist. 22, 43—57. Дэйли (Daly, J. F.) A946). On the use oF the sample range in an analogue of Student's t-test. Ann. Math. Statist. 17, 71— 4. Дэниэл (Daniel, C.) A959). Use oF halF-normal plots in interpreting factorial two-level experiments. Technometrics 1, 311—41. Дэниэл (Daniel, С.) A960). Locating outliers in factorial experiments. Technometrics 2, 149—56. Дэниэлс (Daniels, H. E.) A952). The covering circle of a sample Жефф p у a (GeFfroy, J.) A958). Contribution a la theorie des valeurb extremes. Ph. D. Thesis, University of Paris. Закс и Ивеп (Zacks, S. and Even. M.) A966). The efficiencies in small samples oF the maximum likelihood and best unbiased estimators oF reliabilitv functions. ./. Amer. Statist. Ass. 61, 1033— 51. Зилеп (Zelen, M.) A959) Factorial experiments in life testing. Technometrics 1, 269—88. Знлен и Деннемкллер (Zelen, М. and Dannemiller, Mary C.) A961). The robustness of life testing procedures derived from the exponential distribution. Technometrics 3, 29—49. И зари li Прошан (Esary, J. D. and Prosclian. F.) A963). Rela tionship between system Failure rate and component Failure rates. Technometrics 5, 183—9. Изари, Прошан и Уолкап (Esary, J. D., Proschan, F. and Walkup, D. W.) A967). Association of random variables, with applications. Ann. Math. Statist. 38. 1466—74. Ирвин (Irwin, J. O.) A925). On a criterion ior the rejection of outlying observations. Biometrika 17, 238—50.
ЛИТЕРАТУРА 309 tl ш И И и я м а с а к и (Ishii, G. and Yamasakl, Al.) A961). A note on the testing of homogeneity of к binomial experiments based on the range. Ann. Inst. Statist. Math., Tokyo 12, 273—8. tv акул л ОС и ДеЧикко (CacouUos, Т. and DeCicco, Н.) A967). On the distribution of the bivariate range. Technometries 9. 476—80. К a n у p (Kapur, M. N.) A957). A property of the optimum solution suggested by Paulson for the k-sample slippage problem for the normal distribution, /nd. Soc. Agric. Statist. 9, 179—90. Карли H С u Стадден В. A976). Чебышевские системы и их при- мение в анализе и статистике. — М.: Наука. К а р л п н и Т р у а к с (Karlin, S. and Truax, D. R.) A960). Slippage problems. Ann. Math. Statist. 31, 296—324. К a p л T о 11 (Carlton, A. G.) A946). Estimating the parameters of a rectangular distribution. Ann. Math. Statist. 17, 355—8. Квизенберри иДэйвид (Quesenberry, С. P. and David, H. A.) A961). Some tests For outliers. Biometrika 48, 379—90. Кемпермен (Kemperman, J. H. B.) A959), Asymptotic expansions for the Smirnov test and for the range of cumulative sums. Ann. Math. Statist. 30, 448—62. Кендал л (Kendall, M. G.) A954). Two problems in sets of measurements. Biometrika 41, 560—4. Кендал Л, Стьюарт A973). Статистические выводь! и связи,—М.: Наука. Кенуй (Quenouille, М. Н.) A956). Notes on bias in estimation. Biometrika 43. 353—60. Кимболл (Kimball, A. W.) A951). On dependent tests of significance in tne analysis of variance. Ann. Math. Statist. 22, 600— 2. Кимболл (Kimball, B. F.) A960). On the choice of plotting positions on probability paper. J, Amer. Statist. Ass. 55, 546— 60. Кинг (King, E. P.) A952), The operating characteristic of the control chart For sample means. Ann. Math. Statist. 23, 384— 95. Кинг (King, E. P.) A953). On some procedures for the rejection of suspected data. J. Amer. Statist. Ass. 48, 531—3. Кифер (Kiefer, J.) A967). On Bahadur's representation of sample quantiles. Ann. Math. Staist. 38, 1323—42. Кларк и Уильяме (Clark, С. E. and Williams, G. T.) A958). Distributions of the members of an ordered sample. Ann. Math. Statist. 29, 862—70. Козелка (Kozelka, R. M.) A956). Approximate upper percentage points For extreme values in multinomial sampling. Ann. Math. Statist. 27, 507—12. Кокрен (Cochran, W. G.) A941). The distribution of the largest oF a set of estimated variances as a fraction of their total. Ann Eugen. 11, 47—52. KoKC (Cox, D. R.) A948). A note on the asymptotic distribution of range. Biometrika 35, 310—15. К OK с (Cox, D. R.) A949). The use oF range in sequential analysis. Suppl J R. Statist. Soc 11, 101—14.
310 ЛИТЕРАТУРА Кокс (Сох, D. R.) A954). The mean and coefficient of variation of range in small samples from non-normal populations. Biomctrika 41 469—81. KoKc (Cox, D. R.) A956). A note on the theory of quick tests. Bio- metrika 43, 478—80. К OK с (Cox, D. R.) A969). The analysis of experimentally distributed life-times with two types of failure. /. R. Statist. Soc. B21, 411—21. Ко к с (Сох, D. R.) A964). Some applications of exponential ordered scores. J. R. Statist. Soc. B26, 103—10. KoKc (Cox, D. R.) A968). Notes on some aspects of regression analysis. J. R. Statist. Soc. A131, 265—79. KoKC и Л о (Сох, D. R. and Lauh, Elizabeth) A967). A note on the graphical analysis of multidimensional contingency tables. Techno- metrics 9, 481—8. KoKC и Льюис A969). Статистический анализ последовательностей событий.—М.: Мир. Кон, Мостеллер, Пратти Татсуока (Cohn, R., Mostel- ler, F., Pratt, J. W. and Tatsuoka, M.) (I960). Maximizing the probability that adjacent order statistics of samples From several populations Form overlapping intervals. Ann. Math. Statist. 31, 1095—104. Коновер (Conover, W. J.) A965). A k-sample model in order statistics. Ann. Math. Statist. 36, 1223—35. Ко у л (Cole, R. H.) A951). Relations between moments of order statistics. Ann. Math. Stat id. 22, 308—10. Коэн (Cohen, A. C, Jr.) A9Б4). Estimation of the Poisson parameter from truncated samples and from censored samples. J. Amer. Statist. Ass. 49, 158—68. Коэн (Cohen, A. C, Jr.) A955a). [\estriction and selection in samples From bivariate normal distributions. /. Amer. Statist. Ass. 50, 884—93. Коэн (Cohen, A. C, Jr.) A955b). Maximum likelihood estimation ol the aispersion parameter of a chi-distributed radial error From truncated and censored samples with applications to target analysis. J. Amer. Statist. Ass. 50, 1122—35. Коэн (Cohen, A. C, Jr.) A955c). Censored samples From truncated normal distributions. Biometrika 42, 516—9. Коэн (Cohen, A. C, Jr.) A957). Restriction and selection in multi- normal distributions. Ann. Math. Statid. 28, 731—41. Коэн (Cohen, A. C, Jr.) A959). SimpliFied estimators for the normal distribution when samples are singly censored or truncated. Tech- nometrics 1, 217—37. Коэн (Cohen, A. C, Jr.) A961). Tables For maximum likelihood estimates: .singly truncated and censored samples. Teclinonipirics 3. 535—41. Коэн (Cohen, A. C, Jr.) A9f>3). l^rogressively censored samples in liFe testing. Technometrics 5, 327—39. Коэн (Cotien, A. C, Jr.) A965). Maximum likelihood estimation in the WeibiiU distribution based on complete and on censored samples. Technometrics 7, 579—88. Коэн (Cohen, A. C, Jr.) A966). Life testing and early failure. Tech' nometrics 8, 539—45,
ЛИТЕРАТУРА >з" Крамер A975). Математические методы статистики.—М.: Мир. К раскел (Kruskal, W. Н.) A960). Some remarks on wild observations. Technometrics 2, 1—3. К pefir (Craig, C. C. ) A962). On the mean and variance of the smaller of two drawings from a binomial population. Biometrika 49, 566-^9. Крем (Krem, A.) A963). On the independence in the limit of extreme and central order statistics. Publ. Math. Inst. Acad. Sci. 8, 469—74. Кришнаия II Ризви (Krishnaiah, P. R. and Rizvi, M. H.) A966). A note on recurrence relations between expected values of functions of order statistics. Ann. Math. Statist. 37, 733—4. Кришнаия и Э p м и т э д ж (Krishnaiah, Р. R. and Armitage, J. V.) A964). Distribution of the studentized smallest chi-square, with tables and applications. Aerospace Research Laboratories, 64—218. Кришна Й я и Эр M итэ дж (Krishnaiah, P. R. and Armitage, J. V.) A965a). Tables for the distribution of the maximum of correlated chi-square variates with one degree of freedom. Aerospace Researcli Laboratories, 65—136. Кришнаия иЭрмитэдж (Krishnaiah, P. R. and Armitage, J. V.) A965b). Percentage points of the multivariate t distribution. Aerospace Research Laboratories, 65—199. Kpoy и Сиддики (Crow, E. L. and Siddiqui, M. M.) A967). Robust estimation of location. J. Amer. Static. Ass. 62, 353—89. К у до (Kudo, A.) A956a). On the testing of outlyine observations- Sankliya 17, 67—76. К у до (Kudo, A.) A956b). On the invariant multiple decision procedures. Bull. Math. Statist. 6, 57—68. Кудо (Kudo, A.) A956c). Tables for studentization. Sankliya 18, 163—6. Кудо (Kudo, A.) A957). The extreme value in a multivariate normal sample. Mem. Fac. Sci. Kyushu Univ. (A) 11, 143—56. К у ни a с (Kounas, E. G.) A968). Bounds for the probability of a union of events, with applications. Ann. Math. Statist. 39, 2154—8. Курноу и Даннет (Curnow, R. N. and Dunnett, C. \V.) A962). The numerical evaluation of certain multivariate normal integrals Ann. Math. Statist. 33, 571—9. !<ypu, Линк, Тьюки и Уоллес (Kurtz, Т. Е., Link, R. F., Tu- key, J. \V. and Wallace, D. L.) A965a). Sliort-cut multiple comparisons for balanced single and double classifications. Part 1: Results. Technometrics 7, 95—161. К у p Ц, Л и H K, Тьюки и У о л л e с (Kurtz, Т. Е., Link, R. F., Tukey, J. VV. and Wallace, D. L.) A965b). Short-cut multiple comparisons for balanced single and double classifications. Part 2: Derivations and approximations. Biometrika 52, 485—98. Курц, Линк, Тьюки и У о л л ее (Kurtz, Т. Е., Link, R. Р., Tukey, J. W. and Wallace, D. L.) A966). Correlation or ranges of correlated deviates. Biometrika 53, 191—7. Кхатри (Khatri, С G.) A960). On testing the equality of parameters in к rectangular populations. J. Amer. Statist. Ass. 55, l44— 7. Кхатрн (Khatri, С G.) A962). Distributions of order statistics for discrefe саье. Ann. Inst. Statist. Math., Tokyo 14, 167—71.
312 .ПИТЕРАТУРА Кхатри (Khatri, С. G.) A965). On the distributions of certain statistics derived by the union-intersection principle for the parameters of к rectangular populations. J. Ind. Statist. Ass. 3, 158—64. Кэдуэлл (Cadwell, J. H.) A952). The distributions of quantiles of small samples. Blometrlka 39, 207—11. Кэдуэлл (Cadwell, J. H.) A953a). The distribution of quasi-ran- ges in samples from a normal population. Ann. Math. Statist. 24, 603—13. Кэдуэлл (Cadwell, J. H.) A953b). Approximating to the distributions of measures of dispersion by a power of y^. Biometrika 40, 336—46. Кэдуэлл (Cadwell, J. H.) A954). The probability integral of range for samples from a symmetrical unimodal population. Ann. Math. Statist. 25, 803—6. Кэйб (Kabe, D. G.) A968). Some distribution problems of order statistics From exponential and power function distributions. Canad. Math. Bull. 11, 263—74. Ламперти (Lamperti, J.) A964). On extreme order statistics. Ann. Math. Statist. 35, 1726—37. Лахенбрух и Дэйвид (Lachenbruch, P. A. and David, H. A.) A968). Tlie non-central distribution of range and studentized range in normal samples. (Abstract) Ann. Math. Statist. 39, 1092. Леман A964). Проверка статистических гипотез.—М.: Наука. Леман (Lehmann, Е. L.) A966). Some concepts of dependence, Ann. Math. Statist. 37, 1137—53. Лемберт (Lambert, J. A.) A964). Estimation of parameters in the three-parameter log-normal distribution. Aust. J. Statist. 6, 29^32. Лентнер иБюхлер (Lentner, M, M. and Buchler, R. J.) A963). Some inferences about gamma parameters with an application to a reliability problem. J. Amer. Statist. Ass. 58, 670—7. Леони, Джаячандран иЭйзенштат (Leone, F. С, Jayac- handran, T. and Eisenstat, S.) A967). A study of robust estimators. Technometrics 9, 652—60. Лесли иБрауи (Leslie, R. T, and Brown, B. M.) A966). Use of range in testing heterogeneity of variance, Biometrika 53, 221—7. Либлейн (Lieblein, J.) A952). Properties of certain statistics involving the closest pair in a sample of three observations. J. Res. Nat. Bur. Stand. 48, 255—68. Либлейн (Lieblein, J.) A954a). A new method of analyzing extreme- value data. Nat. Advisory Cotnm. Aeronaut. Tech. Note 3053. Либлейн (Lieblein, J.) A954b). Two early papers on the relation between extreme values and tensile strength. Biometrika 41, 559—60. Либлейн (Lieblein, J.) A955). On moments of order statistics from the WeibuU distribution. Ann. Math. Statist. 26, 330—3. Либлей и (Lieblein, J.) A962). The closest two out of three observations (русский перевод в CI^, 122—127). Либлейн и Зил ей (Lieblein, J. and Zelen, М.) A956). Statistical investigation of the fatigue life of deep-groove ball bearings. J Res. Nat. Bur. Stand. 57, 273—316, Либлейн и Солцер (Lieblein, J. and Salzer, H. E.) A957). Table of the first moment of ranked extremes. J, Res, Nat, Bur, Stand. 59, 203—6.
ЛИТЕРАТУРА 313 Ликеш (LikeS, J.) A962). On the distribution of certain linear functions of oidered sample from exponential population. Ann. Inst. Statist. Math., Tokyo 13, 225—30. Ликеш (LikeS, J.) A967). Distributions of some statistics in samples from exponential and power-function populations. J. Amer. Statist. Ass. 62, 259—71. Линк (Link, R. F.) A950). The sampling distribution of the ratio of two ranges from independent samples. Ann. Math. Statist. 21, 112—6. Ллойд (Lloyd, E. H.) A952). Least-squares estimation of location and scale parameters using order statistics. Biometrika 39, 88—95. Лойнес (Loynes, R. M.) A965). Extreme values in uniformly mixing stationary stocliastic processes. Ann. Math. Statist 36, 993—9. Лойнес (Loynes, R. M.) A966). Some aspects of the estimation of quantiles. J. R. Statist. Soc. B28, 497—512. Лорд (Lord, E.) A947). The use of range in place of standard deviation in the t test. Biometrika 34, 41—67; Correction 39, 442. Лорд (Lord, E.) A950), Power of the modified t test (u test) based on range. Biometrika 37, 64—77. Лоурент (Laurent, A. G.) A963). Conditional distribution of order statistics and distribution of the reduced i-th order statistic of the exponential model. Ann. Math. Statist. 34, 652—7. Людвиг (Ludwig, O.) A959). Ungleichungen Fur Extremwerte und andere Ranggrossen in Anwendung auf biometrische Pribleme. Biom Zeit. 1, 203—9. Людвиг (Ludwig, O.) A960). Uber Erwartungswerte und Varianzen von Ranggrossen in kleinen Stichproben. Metrika 3, 218—33. .Магуайр, Пирсон и Уинн (Maguire, В. А., Pearson, Е. S. and Wynn, А. Н. А.) A952). The time intervals between industrial accidents. Biometrika 39, 168—80. Магуайр, Пирсон и Уинн (Maguire, В. А., Pearson, Е. S. and Wynn, А. Н. А.) A953). Further notes on the analysis of accident data. Biometrika 40, 213—6. Ma дане к и (Madansky, A.) A962). More on length of confidence intervals. J. Amer. Statist. Ass. 57, 586—9. Маккарти (McCarthy, P. J.) A965). Stratified sampling and distribution-Free confidence intervals for a median. J. Amer. Statist. Ass. 60, 772—83. Мак к ей (McKay, A. Т.) A935). The distribution of the difference between the extreme observation and the sample mean in samples of n from a normal universe. Biometrika 27, 466—71. Маккей и Пирсон (McKay, A. Т. and Pearson, E. S.) A933). A note on the distribution of range in samples of n. Biometrika 25, 415—20. jMaKKHHHOH (MacKinnon, VV. J.) A964). Table for both the sign test and distribution-free confidence intervals of the median for sample sizes to 1000. J. Amer. Statist, Ass. 59, 935—56. .Ma к корд (McCord, J R.) A964). On asymptotic moments of extreme statistics. Ann. Math. Statist. 35, 1738—45. Ma к кул (McCool, J. I.) A965). Tlie construction of good linear unbiased estimates from the best linear estimates for a smaller sample size. Technometrics 7, 543—52-
314 ЛИТЕРАТУРА Макмиллан (McMillan, R. G.) A968). Tests for one or two outliers. Ph. D. Thesis, North Carolina State University. M a л LI к (Malik, H. J.J A966). Exact moments of order statistics from the Pareto distribution. Skand. Aktuarieiidskr. 1966, 144—57. Малик (Malik, H. J.) A967). Exact moments of order statistics from a power-Function distribution. Skand, Aktuarietidskr. 1967, 64—9. Мальмквкст (Malmquist, S.) A950). On a property of order statistics From a rectangular distribution. Skand. Aktuarietidskr. 33, 214 -22. Манн (Mann, Nancy R.) A967a). Tables for obtaining the best linear invariant estimates of parameters of the WeibuU distribution. Techno- metrlcs 9, 629—45. Манн (Mann, Nancy R.) A967b). Results on location and scale parameter estimation with application to the extreme-value distribution. Aerospace Research Laboratories 67—0023. Манн (Mann, Nancy R.) A968). Point and interval estimation procedures for the two-parameter WeibuU and extreme-value distributions. Technometrics 10, 231—56. M a p г о л и H и Винокур (Margolin, В. Н. and Winokur, Н. S., Jr.) A967). Exact moments of the order statistics of the geometric distribution and their relation to inverse sampling and reliability of redundant systems. J. Amer. Statist. Ass. 62, 915—25. Мардья (Mardia, K. V.) A964a). Asymptotic independence of biva- riate extremes. Calcutta Statist. Ass. Bull. 13, 172—8. Мардья (Mardia, K- V. A964b), Some results on the order statistics of the multivariate normal and Pareto type I populations. Ann. Math. Statist. 35, 1815—8. Мардья (Mapdia, K- V.) A967). Correlation of the ranges of correlated samples. Biometrlka 54, 529—39. Мариц и Ma про Maritz, J. S. and Munro, A. H.) A967). On the use of the ge .eralized extreme-value distribution in estimating extreme percentiles. Biometrics 23, 79—103. Мейзлер и В ей с мак (Mejzler, D. and Weissman, I.) A969). On some results of N. V. Smirnov concerning limit distributions for variational series. Ann. Math. Statist. 40, 480—91. Меллоус (Mallows, С L.) A968). An inequality Involving multinomial probabilities. Biometrika 55, 422—4. Мельник (Melnick, E. L.) A964). .Moments of ranked Poisson varia- tes. h\. S. Thesis, Virginia Polytechnic Institute. Me НД en холл (Mendenhall, \V.) A958). A bibliography on life testing and related topics. Biometrika 45, 521—43. M e H о 11 (Menon, M. V.) A963). Estimation of the shape and scale parameters of the WeibuU distribution. Technometrics 5, 175—82. Менте л (Mantel, N.) A951). Rapid estimation of standard errors of means for small samples. Amer. Statist. 5, No. 14, 26—7. Менте л и Пастернак (Mantel, N. and Pasternak, В. S.) A966). Light bulb statistics. J. Amer. Statist. Ass. 61, 633—9. Мерти (Murty, V. N.) A955). The distribution of the quotient of maximum values in samples from a rectangular distribution. J. Amer. Statist. Ass. 50, 1136—41. M1. p i!) II (Murphy, R. B.) A948). Non-parametric tolerance limits. Ann. Math. Statist. 19, 681—9.
ЛИТЕРАТУРА 31Б Мерфи (.Murphy, R. В.) A951). On tests for outlying observations. Pti. D. Thesis, Princeton University. .Мил (.Mead, R.) A966). A quick method of estimating the standard deviation. Biometrika 53, 559—64. Миллер (Miller, R. G., Jr.) A960). Early failures in life testing. J. Amer. Statist. Ass. 55, 491—502. Миллер (Miller, R. G., Jr.) A967). Simultaneous Statistical Inference. McGraw-Hill, New York. Миллер (Miller, R. G., Jr.) A968). Jacknifing variances. Ann. Math. Statist. 39, 567—82. Митра (Mitra, S. K.) A957). Tables for tolerance limits For a normal population based on sample mean and range or mean range. J. Amer. Statist. Ass. 52, 88—94. Моран (Moran, P. A. P.) A964). On the range of cumulative sums. Ann. Inst. Statist. Math., Tokyo 16, 109—12. Моранда (Moranda, P. B.) A959). Comparison ol estimates of circular probable error. J. Amer. Statist. Ass. 54, 794—800. ■^1 о p и г V T и (Atoriguti, S.) A951). Extremal properties of extreme value 'distributions. Ann. Math. Statist. 22, 523—36. Норигути (Moriguti, S.) A953a). A modification of Schwarz's Inequality with applications to distributions. Ann. Math. Statist. 24, 107—13. ■'юригути (Moriguti, S.) A953b). A note on Hartley's formula of studeiitization. Rep. Stat. Appl. Res., JUSE 2, 99—103. Mop и гут и (.Moriguti, S.) A954). Bounds for second moments of the sample range. Rep. Stat. Appl. Res., JUSE 3, 57—64. .''iOppncOH и Д Э ii в и Д (Morrison, D. F. and David, H. A.) A960). Ttie life distribution and reliability of a system with spare components. Ann. Math. Statist. 31, 1084—94. .^loppncoii II Тобиас (Morrison, M. and Tobias, F.) A965). Some statistical characteristics of a peak to average ratio. Techno- metrics 7, 379—85. .'.1остеллер (Atosteller, F.) A946). On some useful «inefficient» statistics. Ann. Math. Statist. 17, 377—408. .'.1остеллер (Mosteller, F.) A948). A k-sample slippage test For an extreme population. Ann. Math. Statist. 19, 58—65. '.осте л л ep и Тьюки (Mosteller, F. and Tukey, J. W.) A950). Significance levels for a k-sample slippage test. Ann. Math. Statist. 21, 120—3. Лур (Moore, D. S.) A968). An elementary proof of asymptotic normality of linear functions of order statistics. Ann. Math. Statist. 39, 263—5. 'iyp (Moore, P. G.) A957). The two-sample t-test based on range. Biometrika 44, 482—5. . айт (Knight, W.) A963). The use ol the range in place of the standard deviation in Stein's test. Ann. Math. Statist. 34, 346—7. Ha у с (Naus, J. I.) A966). Some probabilities, expectations and variances for the size of largest clusters and smallest intervals- J. Amer. Statist. Ass. 61, 1191—9. Нейман и Пирсон (Neyman, J. and Pearson, E. S.) A928). On the use and interpretation of certain test criteria for purposes of statistical inference. I. Biometrika 20A, 175—240.
316 ЛИТЕРАТУРА Нет ер (Noether, G. Е.) A955). Use of the range instead of the standard deviation. J. Amer. Statist. Ass. 50, 1040—55. Ньюэлл (Newell, G. F.) A964). Asymptotic extremes for m-depen- dent random variables. Ann. Math. Statist. 35, 1322—5. Нэнр (Nair, K. R.) A948). The distribution of the extreme deviate from the sample mean and its studentized form. Biometrika 35, 118—44. Нэир (Nair, K. R.) A950). Efficiencies of certain linear systematic statistics for estimating dispersion from normal samples. Biometrika 37, 182—3. Нэир (Nair, U. S.) A936). The standard error of Gini's mean difference. Biometrika 28, 428—36. Огава (Ogawa, J.) A951) Contributions to the theorv of systematic statistics. I. Osaka Math. J. 3, 175—213. Огава A970) — в книге Сархана и Гринберга, 1970. A) Оценки параметров расположения и рассеяния по выборочным квантилям, стр. 54—60. B) Оптимальные уровни для оценивания параметров нормального распределения, стр. 249—258. C) Проверка гипотез с помощью выборочных квантилей, стр. 266—273. D) Оптимальные уровни экспоненциального распределения, стр. 334—338. E) Проверка гипотез и доверительные интервалы, стр. 338—343. Одэ (Odeh, R. Е.) A967). The distribution of the maximum sum of ranks. Technometrics 9, 271—8. Оуэн Д. Б. A966). Сборник статистических таблиц, ВЦ АН СССР, Москва. Оуэн и Стек (Owen, D. В. and Steck, G. P.) A962). Aloments of order statistics from the equicorrelated multivariate normal distribution. Ann. Math. Statist. 33, 1286—91. Пайк (Руке, R.) A965). Spacings. J. R. Statist. Soc. B27, 395—436. Discussion: 437—49. Пайк (Pike, Л1 C.) A966). A method of analysis of a certain class of experiments in carcinogenesis. Biometrika 22, 142—61. Патна йк (Patnaik, P. B.) A950). The use of mean range as an estimator of variance in statistical tests. Biometrika 37, 78—87. Петтигру и Mo л ер (Pettigrew, Н. М. and Mohler, W. С.) A967). A rapid test for the Poisson distribution using the range. Biometrica 23, 685—92. Пикендс (Pickands, J., HI) A967a). jMaxima of stationary Gaussian processes. Z. Wahrscheinlichkeitstheorie verw. Geb. 7, 190— 223. Пикендс (Pickands, J., Ill) A967b). Sample sequences of maxima Ann. Math. Statist. 38, 1570—4. Пикендс (Pickands, J., HI) A968). Moment convergence of sample extremes. Ann. Math. Statist. 39, 881—9. П и л л a и (Pillai, К. С. S.) A950). On the distributions o' midrange and semi-range in samples from a normal population. Ann. Math Statist. 21, 100—5. Пи л лай и Рамачандран (Pillai, К. С. S. and Ramachand- гап, К. V.) A954). On the distribution of the ratio of the i-th observation in an ordered sample from a normal population to an independent estimate of the standard deviation. Ann. Math. Statist. 25, 565—72.
ЛИТЕРАТУРА 317 Пирсон (Pearson. Е. S.) A929). The distribution of frequency constants in small samples from non-normal symmetrical and skew populations. Biotne/rika 21, 280—6. Пирсон (Pearson, E. S.) A950). Some notes on the use of range. Blometrlka 37, 88—92. Пирсон (Pearson, E. S.) A952). Gjmparison of two approximations to the distribution of ttie range in small samples from normal populations. Biometrika 39, 130—6. Пирсон (Pearson, E. S.) A966). Alternative tests for heterogeneity of variance; some Monte Carlo results. Biometrika 53, 229—34. Пирсон и Адьянтхайя (Pearson, E. S. and Adyantiiaya, N. K.) A928). The distribution of frequency constants in small samples from symmetrical populations. Biometrika 20A, 356—60. Пирсон и Чандра Секар (Pearson, Е. S. and Chandra Sekar, C.) A936). The efficiency of statistical tools and a criterion for the rejection of outlying observations. Biometrika 28, 308—20. Пирсон и Хэйнес (Pearson, E. S. and Haines, Joan) A935). The use of range in place of standard deviation in small samples. Suppl. J. R. Statist. Soc. 2, 83—98. Пирсон и Хартли (Pear.son, E. S. and Hartley, H. O.) A942). The probability integral of the range in samples of n observations from a normal population. Biometrika 32, 301 —10. Пирсон и Хартли (Pearson, E. S. and Hartley, H. O.) A943). Tables of the probability integral of the studentized range. Biometrika 33, 89—99. Пирсон и Хартли (Pearson, E. S. and Hartley, H. O.) A966). Biometrika Tables for Statisticians, Vol. 1. 3rd Ed., Cambridge University Press. Пирсон (Pearson, K.) A902). Note on Francis Galton's difference problem. Biometrika 1, 390—9. Пирсон (Pearson, K.) A920). On the probable errors of frequency constants. III. Biometrika 13, 113—32. Пирсон (Pearson, K.) A934). Tables of the Incomplete B-function. Cambridge University Press. Пирсон и Пирсон (Pearson, К. and Pearson, M V.) A931). On the mean character and variance of a ranked individual and on the mean and variance of the intervals between ranked individuals. I A931): Symmetrical distributions (normal and rectangular). Biometrika 23, 364—97. II A932): Case of certain skew curves, Biometrika 24, 203—79. П итменн (Pitman, E, J. G.) A936). Sufficient statistics and intrinsic accuracy. Proc. Camb. Phil. Soc. 32, 567—79. Плэкетт (Plackett, R. L.) A947). Limits of the ratio of mean range to standard deviation. Biometrika 34, 120—2. Плэкетт (Plackett, R. L.) A958). Linear estimation from censored data. Ann. Math. Statist. 29, 131—42. По л сон (Paulson, E.) A952). An optimum solution to the k-sample slippage problem for the normal distribution. Ann. Math. Statist 23, 610—6. Пол сон (Paulson, E.) A961). Ц non-parametric solution for the k-sample slippage problem. In: Solomon, H. (Ed.), Studies in Hem Analysis and Prediction. 233—8. Stanford University Press.
318 ЛИТЕРАТУРА Прошан и Пайк (Proschan, F. and Руке, R.) A967). Tests for monotone Failure rate. Proc. 5th Berkeley Symp. Ill, 293—312. Пфанцагль (Pfanzagl, J.) A959). Ein kombiniertes Test & Klas- sifikations-Problem. Metrika 2, 11—45. Райдер (Rider, P. R.) A951). The distribution of the quotient of ranees in samples from a rectangular population. J. Amer. Statist. Ass. 46, 502—7. Райдер (Rider, P. R.) A955). The distribution of tlie product of maximum values in samples from a rectangular distribution. J. Amer. Statist. Ass. 51, 1142—3. Райдер (Rider, P. R.) A9B7). The midrange of a sample as an estimator of the population midrange. J. Amer. Statist. Ass. 52, 537—42. Ра;1дер (Rider, P. R.) A960). Variance of the median ot samples from a Cauchy distribution. J. Amer. Statist. Ass. 55, 322—3. Рама чан дран и Кхатрн (Ramachandran, К. V. and Khatri, С. G.) A957). On a decision procedure based on the Tukey statistic. Ann. Math. Statist. 28, 802—6. Pao (Rao, M. M.) A962). Theory of order statistics. Math. Annalen 147, 298—312. Рахман (Rahman, N. A.) A964). Some generalisations of the distributions of product statistics arising from rectangular populations. J. Amer. Statist. Ass. 69, 557—63. Раштон (Rashton, S.) A952). On sequential tests of the equality of variances of two normal populations with known means. Sankhya 12, 63—78. Реньи (Renyi, A.) A953). On the theory of order statistics. Ada Math. Acad. Sci. Hung. 4, 191—231. Рихтер (Richter, W.) A964). Ein zentraler Grenzwertsatz ffir das Maximum einer zufalligen Anzahl unabhSngiger Zufallsgrossen. Wiss. Zeit. Tech. Univ. Dresden 13, 1343—6. Робби Hc (Robbins, H.) A944). On distribution-free tolerance limits in random sampling. Ann. Math. Statist. 15, 214—6. Робсон и Уитлок (Robson, D. S. and Whitlock, J. H.) A964). Estimation of a truncation point. Elometrika 51, 33—9. Розенгард (Rosengard, A.) A964a). Independance limite uniforme de la moyenne et des valeurs extremes d'un echantillon. С R. Acad. Sci. Paris 258, 5786—8. Розенгард (Rosengard, A.) A964b). Independance limite uniforme d'un quantile et des valeurs extremes d'un echantillon. C. R. Acad. Sci. Paris 259, 2955—6. Романовский (Romanovsky, V.) A933). On a property of the mean ranges in samples from a normal population and on some integrals of Prof. T. Hojo. Biometrlka 23, 195—7. Россберг (Rossberg, H. J.) A963). Ober das asymptotische Verhalten der Rand- und Zentralglieder einer Variationsreihe. Publ. Math, hist. Hung. Acad. Sci. 8, 463—8. Россберг (Rossberg, H. J.) A965a). Ober die stochastische Unabhan- gigkeit eewisser Funktionen von Ranggrossen. Math. Nachr. 28, 157. Россберг (Rossberg, H. J.) A965b). Die asymptotische Unabhan- gigkeit der kleinsten und grossten Werte einer Stichprobe vora Stichprobenmittel. Math. Nachr. 28, 305-18.
ЛИТЕРАТУРА 319 Ротепберг, Фишер и Тиланус (Rothenberg, Т. J., Fisher, F. М. and Tilanus, С. R.) A964). А note on estimation from a Cauchy sample. J. Aincr. Statist. Ass. 59, 460—3. Рубен (Ruben, TI.) A954). On the moments of order statistics in samples from normal populations. Biometrika 41, 200—27. Рубен (Ruben, H.) A956a). On the sum of squares of normal scores. Biometrika 43, 456—8. Correction 52, 669. Рубен (Ruben, H.) A956b). On the moments of the range and product moments of extreme order statistics in normal samples. Biometrika 43, 458—60. Рустагн (Rustagi, J. S.) A957). On minimizing and maximizing a certain integral with statistical applications. Ann. Math. Statist. 28, 309—28. Руте мил л ep (Rutemiller, H. C.) A966). Point estimation of reliability of a system comprised of к elements from the same exponential distribution. J. Amer. Statist. Ass. 61, 1029—32. Ca лех (Saleh, A. K. M. E._) A967). Determination of the exact optimum order statistics for estimating the parameters of the exponential distribution from censored samples. Technometrics 9, 279—92. '..a лех и Али (Saleh, A. К. М. E. and AH, M. M.) A966). Asymptotic optimum quantiles for the estimation of the parameters of the negative exponential distribution. Ann. Math. Statist. 37, 143-51. Сархан (Sarhan, A. E.) A954). Estimation of the mean and standard deviation by order statistics. Ann. Math. Statist. 25, 317—28. Сархан (Sarhan, A. E.) A955). Estimation of the mean and standard deviation by order statistics. Part Til. Ann. Math. Statist. 26, 576—92. Сархан и Гринберг (Sarhan, A. E. and Greenberg, B. G.) A956). Estimation of location and scale parameters by order statistics from singly and doubly censored samples. Part I: The normal distribution up to samples' of size 10. Ann. Math. Statist. 27. 427—51: Correction 40, 325. Cap хан и Гринберг (Sarhan, A. E. and Greenberg, B. G.) A957). Tables for best linear estimates by order statistics of the parameters of single exponential distributionj from singly and doubly censored samples. J. Amer. Statist. Ass. 52, 5B—87. Сархан и Гринберг (Sarhan, Л. E. and Greenberg, B. G.) A959). Estimation of location and scale parameters for tlie rectangular population from censored samples. J. R. Statist. Soc. B21, 356— —63. Сархан и Гринберг A970). Введение в теорию порядковых статистик, — Л1.: Статистика (перевод под редакцией А. Я. Боярского). Гатхе и Барде (Salhe, Y. S. and Varde, S. D.) A959). Minimum variance unbiased estimation of reliability for the truncated exponential distribution. Technometrics 11, 609—12. Свамп (Swamy, P. S.) A962). On the amount of information sup- pliei by censored .samples of grouped observations in the estimation of btatistical parameters. Bio:nptrika 49, 245^9. Ceil CScn, P. K.) A959). О.ч the moments of the sample quantiles. Calcutta Statist. Ass. Bull. 9, 1 — 19.
320 ЛИТЕРАТУРА Сен (Sen, P. К.) A961). А note on the large-sample behaviour of extreme sample values from distribution with Finite end-points Calcutta Statist. Ass. Bull. 10, 106—15. Сен (Sen, P. K.) A964). On stochastic convergence of the sample extreme values from distributions with infinite extremities. J. fnd Soc. Agrlc. Statist. 16, 189—201. Сен (Sen, P. K.) A968). Asymptotic normality of sample quantiles for m-dependent processes. Ann. Math. Statisf. 39, 1724—30. Серн да л (Sarndal, С. E.) A962). Information From Censored Samples. Almqvist and Wiksell, Stockholm. Серн да л (Sarndal, С. E.) A964). Estimation of the parameters of the gamma distribution by sample quantiles. Technometrics 6, 405—14. Сет (Seth, G. R.) A950). On the distribution of the two closest among a set of three observations. Ann. Math. Statist. 21, 298—301. Сиддики (Siddiqui, M. M.) A960). Distribution of quantiles in samples from a bivariate population. J. Res. Nat. Bur. Stand. 64B, 145—50. Сиддики (Siddiqui, M. M.) A962). Approximations to the moments of the sample median. Ann. Math. Statist. 33, 157—68. Сиддики и Раджананданан (Siddiqui, М. М. and Raghu- nandanan. К.) A967). Asymptotically robust estimators oF location. J. Amer. Statist. Ass. 62, 950—3. Си л лито (Sillitto, G. P.) A951). Interrelations between certain linear systematic statistics of samples from anv continuous population. Biometrika. 38, 377—82. Сил лито (Sillitto, G. P.) A964). Some relations between expectations of order statistics in samples of different sizes. Biometrika 51 259—62. Си H r X (Singh, C.) A967). On the extreme values and range of samples From non-normal populations. Biometrika 54, 541—50. Спнгх (Singh, N.) A960). Estimation of parameters oF a multivariate normal population from truncated and censored samples. J. R. Statist. Soc. B22, 307—11. Сиотанн (Siotani, M.) A957). Ordei statistics For discrete case with a numerical application to the binomial distribution. Ann. Inst. Staiist. Math., Tokyo 8, 95—104. Сиотани (Siotani, Л1.) A959). The extreme value of the generalized distances of the individual points in the multivariate normal sample. Ann. Inst. Statist. Math., Tokyo 10, 183—208. Снотанн и Озава (Siotani, М. and Ozawa, М.) A958). Tables For testing the homogeneity of к independent binomial experiments on a certain event based on the range. Ann. Inst. Statist. Math., Tokyo 10, 47—63. Слепян (Slepian, D.) A962). The one-sided barrier problem for Gaussian noise. Bell System Tech. J. 41, 463—501. Cm ирнов H. B. 1) A949). Предельные законы распределения для члеиов вариационного ряда. Труды Математического института им. В. .'\. Стеклова 25, стр. 5—59. 1) Эта работа имеется в монографии И. В. Смирнова «Теория вероятностей и математическая статистика. Избранные труды», 1970, «Наука», Москва.
ЛИТЕРАТУРА 321 Смирнов Н. B.^) A966). О сходимости к нормальному закону распределенш"! членов вариационного ряда, Известия АН Уз. ССР, Ni 3, стр. 24—32. Смирнов И. В.') A967). Некоторые замечания о предельных законах для членов вариационного ряда. Теория вероятностей н ее применения ХП, № 2, стр. 391—392. Смит н Хартли (Smith, W. В. and Hartley, Н. О.) A968). А note on the correlation of ranges in correlated normal samples. Biometrika 55, 595—7. Co (Saw, J. G.) A959). Estimation of the normal population parameters given a singly censored sample. Biometrika 46, 150— Co (Saw, J. G.) A960). A note on the error after a number of terms of the David — Johnson series for the expected values of normal order statistics. Biometrika 47, 79—86. Co (Saw, J. G.) A961). The bias of the maximum likelihood estimates of the location and scale parameters given a type II censored normal sample. Biometrika 48, 448—51. Co и Чоу (Saw, J. G. and Chow, B.) A966). The curve through the expected values of ordered variates and the sum of squares of normal scores. Biometrika 53, 252—5. Соларн и Анис (Solari, М. E. and Anis, A. A.) A957). The mean and variance of the maximum of the adjusted partial sums of a finite number of independent normal variates. Ann. Math. Statist. 28, 706—16. Сомервилл (Somerville, P. N.) A958). Tables for obtaining non-parametric tolerance limits. Ann. Math. Statist. 29, 599— —«01. Сондерс (Saunders, S. C.) A963). On the sample size and coverage for the Jirina sequential procedure. Ann. Math. Statist. 34, 847—56. Сондерс (Saunders, S. C.) A968). On the determination of a safe life for distributions classified by failure rate. Technometrics 10, 361—77. Ста уде (Staude, H.) A959). Abkiirzung des Range—Verfahrens von H. O. Hartley zur Auswertung von Blockversuchen. Biom. Zeit. 1, 261—75. Стивене (Stevens, W. L.) A939). Solution to a geometrical problem in probability. Ann. Eugen. 9, 315—20. Стнглер (Stigler, S. M.) A969). Linear functions of order statistics. Ann. Math. Statist. 40, 770—88. Стьюарт (Stuart, A.) A958). Equally correlated variates and the multinormal integral. J. R. Statist. Soc. B20, 373—8. Сугиюра (Sugiura, N.) A962). On the orthogonal inverse expansion with an application to the moments of order statistics. Osaka Math. y. 14, 253—63. Сугиюра (Sugiura, N.) A964). The bivariate orthogonal inverse expansion and the moments of order statistics. Osaka J, Math. 1, 45—59. 1 Cm. сноску ira стр. 320.
322 ЛИТЕРАТУРА Сукхатме (Sukhatme, P. V.) A937). Tests of significance For samples of the 7° population with two degrees of ireedom. Ann. Eugen. 8, 52—6. Тайкью (Tiku, M. L.) A967a). Estimating the mean and standard deviation from a censored normal sample. Biometrika 54, 155—65. Тайкью (Tiku, M. L.) A967b). A note on estimating the location and scale parameters of the exponential distribution from a censored sample. Aust. J. Statist. 9, 49—54. Тайкью (Tiku, M. L.) A968a). Estimating the parameters of log- normal distribution from censored samples. J. Amer. Statist. Ass. 63, 134—40. Тайкью (Tiku, M. L.) A968b). Estimating the parameters of normal and logistic distributions from censored samples. Aust. J. Statist 10, 64—74. Тайкью (Tiku, M. L.) A968c). Estimating the mean and standard deviation from progressively censored normal samples. J. Ind. Soc. Agric. Statist. 20, 20—5. Такач (Takacs, L.) A967). On the method of inclusion and exclusion. J. Amer. Statist. Ass. 62, 102—13. Тартер II Кларк (Tarter, Л1. E. and Clark, V. A.) A965). Properties of the median and other order statistics of logistic variates. Ann. Math. Statist. 36, 1779—86. T ей кроу (Teichroew, D.) A955). Probabilities associated with order statistics in samples from two normal populations witti equal variance. Army Chemical Center, Maryland, Chemical Corps Engineering Agency. T ей кроу (Teichroew, D.) A956). Tables of expected values of order stEtistics and products of order statistics for samples of size twenty aiid less from the normal distribution. Ann. Math. Statist. 27, 410—26. Тигпен (Thigpen, С С.) A961). Distribution of the largest observation in normal samples under non-standard conditions. Ph. D. Thesis, Virginia Polytechnic Institute. Типпет (Tippett, L. H. C.) A925). On the extreme individuals and the range of samples taken from a normal population. Biometrika 17, 364—87. Томпсон и Уилки (Thompson, \V. A., Jr., and Willke, T. A.) A963). On an extreme rank sum test for outliers. Biometrika 50, 375—83. Томпсон (Thompson, W. I.) A936). On confidence ranges for the median and other expectation distributions for populations of unknown distribution form. Ann. Math. Statist. 7, 122—8. Тоысоп (Thomson, G. vV.) A955). Boifnds for the ratio of range to standard deviation. Biometrika 42, 268—9. Труакс (Truax, D. R.) A953). An optimum slippage test for the variances of к normal distributions. Ann. Math. Statist. 24, 6';9—74. Тьюки (Tukey, J. \V.) A947). Non-parametric estimation. II: Sta- tisticallv equivalent blocks and tolerance regions —the continuous case. Ann. Math. Statist. 18, 529—33. Тьюки (Tukey, J. W.) A949). The simplest signed-rank tests. Memo Rep. 17, Statist. Res. Group, Princeton University (duplicated).
ЛИТЕРАТУРА 323 Гьюки (Tukey, J. W.) A965). Interpolations and approximations related to the normal range. Biometrika 42, 480—5. Тьюки (Tukey, J. W.) A958). A problem of Berkson, and minimum variance orderly estimators. Ann. Math. Statist. 29, 588—92. Тьюки (Гикеу, J. W.) (i960). A survey of sampling from contaminated distributions. In: Contributions to Probability and Statistics, Olkin et al. (Eds.). 448—85. Stanford University Press. Тьюки (Tukey, J. W.) A962). The future of data analvsis. Ann. Math. Statist. 33, 1—67. Гьюки и Маклафлин (Tukey, J. W. and McLaughlin, D. H.) A963). Less vulnerable confidence and significance procedures for location based on a single sample: trimming Winsorization, 1. Sankhya A25, 331—52. Тьяго де Оливейра (Tiago de Oliveira, .1.) A963). Structure theory of bivariate extremes; extensions. Estudos de Mathematica, Estatistlca Econometria 7, 165—95. Тэнис (Tanis, E. A.) A964). Linear forms in the order statistics from an exponential distribution. Ann. .Math. Statist. 35, 270—6. Уайт (White, J. S.) A964). Least squares unbiased censored linear estimation for the log WeibuU (extreme value) distribution. Indust. Math. 14, 21—60. Уайт (White, J. S.) A969). The moments of log-WeibuU order statistics. Technometrics 11, 373—86. Узгерен (Uzgoren, Nakibe T.) A954). The asymptotic development of the distribution of the extreme values of a sample. In: Studies in Mathematics and Mechanics Presented to Richard von Alises. Academic Press, New York. Уилк и Гнанадесикан (Wilk, М. В. and Gnanadesikan, R.) A968). Probability plotting methods for the analysis of data. Bio~ metrika 55, 1—17. Уилк, Гнанадесикан и Ло (Wilk, М. В., Gnanadesikan, R, and Lauh, Elizabeth) A966). Scale parameter estimation from the order statistics of unequal gamma components. Ann. Math. Statist. 37, 152—76. Уилк, Гнанадесикан и Фрини (Wilk, М. В., Gnanadesikan, R. and Freeny, Anne E.) A963a). Estimation of error variance from smallest ordered contrasts. J. Amer. Statist. Ass. 58, 152— —60. Уилк, Гнанадесикан и Хьюэтт (Wilk, М. В., Gnanadesikan, R. and Huyett, Marilyn J.) A963b). Separate maximum likelihood estimation of scale or shape parameters of the gamma distribution using order statistics. Biometrika 50, 217—21. Уилк, Гнанадесикан и Хьюэтт (Wilk, М. В., Gnanadesikan, R. and Huyett, Marilyn J.) A962a). Probability plots for the gamma distribution. Technometrics 4, 1—20. Уилк, Гнанадесикан и Хьюэтт (Wilk, М. В., Gnanadesikan, R. and Huyett, Marilyn J.) A962b). Estimation of parameters of the gamma distribution using order statistics. Biometrika 49, 525—45. Уилк и Шапиро (Wilk, М. В. and Shapiro, S. С.) A968). The joint assessment of normality of several independent samples. Technometrics 10, 825—39.
324 ЛИТЕРАТУРА Уилки (Willke, Т. А.) A966). Л note on contaminated samples of size three. J. Res., Nat. Bur. Stand. 70B, 149—51. Уилкс (Wilks, S. S.) A941). Determination of sample sizes for sett- ing tolerance limits. Ann. Math. Statist. 12, 91—6. Уилкс ^Wilks, S. S.) A942). Statistical prediction with special reference to the problem of tolerance limits. Ann. Math. Statist. 13, 400—9. Уилкс (Wilks, S. S.) A948). Order statistics. Bull. Amer. Math. Statist. 6, 6—50. Уилкс (Wilks, S. S.) A963). Multivariate statistical outliers. Sankhya A25, 407—26. Уилкс С. A967). Математическая статистика.—М.: Наука. Уолкер (Walker, А. М.) A968). А note on the asymptotic distribution of sample quantiles. J. R. Statist. Soc. 30, 570—5. Уолш (Walsh, J. E.) A949a). Some significance tests for the median which are valid under very general conditions. Ann. Math. Statist. 20, 64—81. Уолш (Walsh, J. E.) A949b). Applications of some significance tests for the median which are valid under very general conditions. /. Amer. Statist. Ass. 44, 342—55. Уолш (Walsh, J. E.I A949c). On the range-midrange test and some tests with boundecl significance levels. Ann. Math. Statist. 20, 257—67. Уолш (Walsh, J. E.) A956). Asymptotic efficiencies of a nonparametric life test for smaller percentiles of a gamma distribution. /. Amer. Statist. Ass. 51, 467—80. Уолш (Walsh, J. E.) A958). Nonparametric estimation of sample percentage point standard deviation. Ann. Math. Statist. 29, 601—4. Уолш (Walsh, J. E.) A962). Distribution-free loleraiice intervals for continuous symmetrical populations. Ann. Math. Statist. 33, 1167—74. У от сон (Watson, G. S.) A954). Extreme values in samples from m-dependent stationary stodiastic processes. Ann. Math. Statist. 26, 798—800. Уоттерсон (Watterson, G. A.) A959). Linear estimation in censored samples from multivariate normal populations. Ann. Math. Statist. 30, 814—24. Фаррел (Farrell, R. H.) A966). Bounded length confidence intervals for the p-point of a distribution function, III. Ann. Math. Statist. 37, 586—92. Федерер (Federer, W. T.) A963). Procedures and desings useful for screening material in selection and allocation, with a bibliography. Biometrics 19, 553—87. Фелдыен и Такер (Feldman, D. and Tucker, H. G.) A966). E.-:timation of non-unique quantlles. Ann. Math. Statist. 37, 451 — —7. Феллер (Feller, W.) A951). The asymptotic distribution of the range of sums of independent random variables. Ann. Math. Statist. 22, 427—32. Ф p л л e p B. A967), Введение и leopwo сероятносгей и ее приложения, т. 1. —М.: Мир.
ЛИТЕРАТУРА 325 Ф е л ле р В. A967). Введение в теорию вероятностей и ее приложения. т. 2. — М.: Мир. Фергюсон (Ferguson, Т. S.) A961а). Rulet For rejection of outliers. Revue Inst. Int. de Stat. 29, 29—43. Фергюсон (Ferguson, T. S.) A961b). On the rejection of outliers. Proc. 4th Berkeley Symp. I, 253—87. Фергюсон (Ferguson, T. S.) A9G7). On characterizing distributions by properties of order statistics. Sankhya A29, 265—78. Филлибэн (Filliben, J. J.) A969). Simple and robust linear estimation of the location parameter of a symmetric distribution. Ph. D. Thesis, Princeton University. Финни (Finney, D. J.) A941). The joint distribution of variance ratios based on a common error mean square. Ann. Eueen. 11, 136—40. Фишер (Fisher, R. A.) A929). Tests of significance in harmonic analysis. Proc. Roy. Soc. A, 125, 54—9. Фишер (Fisher, R. A.) A940). On the similarity of the distributions found for the test of significance in harmonic analysis, and in Steven's problem in geometrical probability. Ann. Eugeri. 10, 14—17. Фишер (Fisher, R. A.) A950). Contributions to Mathematical Sta- Listics. Wiley, iN'ew York. Фишер и Типпет (Fisher, R. A. and Tippett, L. H. C.) A928). Limiting forms of the frequency distribution of the largest or smallest member of a sample. Proc Canib. Phil. Soc. 24, 180—90. Фолкенберри и У икс (Faulkenberry, G. D- and Weeks, D. L.) A968). Sample size determination for tolerance limits. Techno- tnetrics 10, 343—8. фон Аидрэ (von Andrae) A872). Ueber die Bestimmung des wahr- scheinlichen Fehlers durch die gegebenen Differenzen von m gleich genauen Beobachtungen einer Unbekannten. Astron. Nach. 79, 257—72. фон Мизес (von Mises, R.) A923). Ober die Variationsbreite einer Beobachtungsreihe. Sltzungsberlchte der Berliner Math. Gesellschaft 22, 3—8. Reproduced in von Mises A964), pp. 129—34. фон Мизес (von Mises, R.) A936). La distribution de la plus grande de n valeurs. Rev. Math. Union Interbalkanlque 1, 141—60. Reproduced in von Mises A964), pp. 271—94. фон Мизес (von Mises, R.) A964). Selected Papers of Richard von Mises, Vol. 2. American Mathematical Society, Providence. Фрейзер (Fraser, D. A. S.) A957). Nonparametric Methods in Statistics, Wiley, New York. Фреше (Frechet, M.) A927). Sur la loi de probabilite de I'ecart maximum. Ann. Soclete Polonaise de Mathematlque 6, 92— — 116. X аде OH (Hudson, D. J.) A968). A short-cut method for estimating only one of two parameters from a set of order statistics. Amer. Statist. 22, 23—5. Хаммерсли и Мортон (Hammersley, J. M. and Morton, K. W.) A954). The estimation of location and! scale parameter^ From grouped data. Blometrlka 41, 296—301. Хан (Han, C. P.) A968). Testing the homogeneity ol a set of correlated variances. Blometrlka 55, 317—26.
326 ЛИТЕРАТУРА Хан (Han, С. Р.) A969). Testing the homogeneity of variances in a two-way classification. Biometnks 25, 153—8. Хартер (Harter, H. L.) A9591. The use of sample quasi-ranges in estimating population standarcl deviation. Arm. Math. Statist. 30, 980—99. Correction 31, 228. Хартсп (Harter, H. L.) A960). Tables of range and sludentized range. Ann. Math. Statist. 31, 1122—47. Хартер (Harter, H. L.) A961a). Expected values of normal order statistics. Biometrlka 48, 151—65. Correction 48, 476. Хартер (Harter, H. L.) A961b) Estimating the parameters o! negative exponential populations from one or two order statistics. Ann. Math. Statist. 32, 1078—90. Хартер (Harter, H. L.) A961c). The use of sample ranges in setting exact confidence bounds for the standard deviation of a rectangular population. J. Amcr. Statist. Ass. 56, GOl—9. Хартер (Harter, H. L.) A963). Percentage point^ of tlie ratio oi two ranges and power of the associated test. Biornetrika 50, 187—94. Хартер (Harter, H. L.) (l964a). Exact confidence bounds, based on One order statistic, for the parameter of an exponential population. Technometrics 6, 301—17. Хартер (Harter, H. L.) A964b). Criteria for best substitute interval estimators, with an application to the normal distribution J. Amer. Statist. Ass. 59, 1133—40. Хартер (Harter, H. L.) A967). Maximum-likelihood estimation of the parameters of a four-parameter generalized gamma population from complet - and censored samples. Technometrics 9, 159—65. Хартер и Клемм (Harter, Н. L. and Clemm, D. .) A959). The probability integrals of the range and of the Studentiz^d range — probability integrals, percentage points, and moments of the range. Wright Air Development Center Tech. Rep. 58—484, Vol. I. Хартер, Клемм и Гатри (Harter, Н. L., Clemm, D. S. and Guthrie, E. H.) A959). Ttie probability integrals of the range and of the Studentized range — probability integral and percentage points of the Studentized range; critical values for Duncan's new multiple range test. Wright Air Development Center Tech. Rep. 58—484, Vol. II. Хартер и Мур (Harter, Н. L. and Moore, A. H.) A9G5). Poini and interval estimators, based on m order statistics, for tne scale parameter of a WeibuU population with known shape parameter. Technometrics 7, 405—22. Хартер и Мур (Harter, Н. L. and Moore. A. H.) A966). Local- maximum likelihood estimation of the parameters of three-parameter lognormal populations from complete and censored samples. J. Amer. Statist. Ass. 61, 842—55. Хартер и Мур (Harter, Н. L. and Moore, A. H.) A967a). A note on estimation from Type I extreme-value distribution. Technometrics 9, 325—31. Хартер и Мур (blarler, Н, 1.. and Moore, i, H.) A967b), Asymptotic variances and covariances of maximum-likdihood estimators, from censored samples, of the parameter-^ of WeibuU and gamm.i populations. Ann. Math. Statist. 38, 557—70.
ЛИТЕР.МУРА 327 X а рте р и My р (Harter, Н. L, and Moore, А. Н.) A967с). Maximum- likelihood estimation, from censored samples, or the parameters of a logistic distribution. J. Amer. Statist. Ass. 62, 675—84. Хартер и Мур (Harter, Н. L. and Moore, A. H.) A968a). Conditional maximum-likelihood estimators, from singly censored samples, of the scale parameters of type II extreme-value distributions. Tcchnometrics 10, 349—59. Хартер и Мур (Harter, Н. L. and Moore, A. H.) A968b). Maximum-likelihood estimation, from doubly censored samples, of the parameters of the first asymptotic distribution of extreme values. J. Amer. Statist. Ass. 63, 889—901. Хартли (Hartley, H. O.) A938). Studentization and large-sample theory. Suppl. J. R. Statist. Soc. 5, 80—8. Хартли (Hartley, H. O.) A942). The range in random samples. Biometrika 32, 334—48. Хартли (Hartley, H, O.) A944). Studentization or the elimination of the standard deviation of tlie parent population from the random sample-distribution of statistics. Biometrika 33, 173—80. Хартли (Hartley, H, O.) A949). Tests of significance in harmonic analysis. Biometrika 36, 194—201. Хартли (Hartley, H. O.) A950a). The use of range in analysis of variance. Biomelrika 37, 271—80. Хартли (Hartley, H. O.) A950b), The maximum F ratio as a short- -cut test for heterogeneity of variance. Biometrika 37, 308—12. Хартли (Hartley, H. O.) A955). Some recent developments in analysis of variance. Comm. Pure and Appl. Math. 8, 47—72. Хартли и Дэйвид (Hartley, Н. О. and David, Н. A.) A954). Universal bounds for mean range and extreme observation. Ann. Math. Statist. 25, 85—99. Хассансйн (Hassanein, K- W.) A968). Analysis of extreme-value data by sample quantiles for very large samples. J. Amer. Statist. Ass. 63, 877—88. Хастингс, Мостеллер, Тьюки и Уинсор (Hastings, С, Jr., Mosieller, F., Tukey, J. W. and Winsor, С P.) A947). Low moments for small samples: a comparative study of order statistics. Ann. Math. Statist. IS, 413—26. Хелмерт (Helmert, F, R.) A876). Die Berechnung des wahrschein- lichen Beobachtungsfehters aus den ersten Potenzen der Differenzen gleichgeriHuer direcler Keobachtungen. Astron. Nuch. 88, 127—32. ХёЛЛдинг (Hoeffdiiig, W.) A948). A class of statistics with asymptotically normal distribution. Ann. Math. Statist. 19, 293—325. Хил и (Healy, M. J. R.) A968). Multivariate normal plotting. Appl. Statist. 17, 157—61. Хилл (Hill, B. M,) A963), The three-parameter lognormal distribution and Bave^ian analysis of a point-source epidemic. J. Amer. Statist. Ass. 58, 72—84. _ Хиллиер (Hillier, F. S.) A964). X chart control limits based on a small number of subgroups. Industr. Qual. Contr. 20, No. 8, 24— —0. Хиллиер (Hillier, F. S.) A967). Small sample probability Hmlts for tlie ransje chart, J. Amer. Statist. Ass. 63, 1488—93. Correction 63, 1G49—Й0.
328 ЛИТЕРАТУРА Хирениус (Hyrenius, Н.) A953). On the use of ranges, cross-ranges and extremes in comparing small samples. J. Amer. Statist. Ass. 48, 534—45. Xorr (Hogg, R. V.) A956). On the distribution of the likelihood ratio. Ann. Math. Statist. 27, 529—32. Xorr (Hogg, R. V.) A960). Certain uncorrected statistics, J. Amer. Statid. Ass. 55, 265—7. Xorr (Hogg, R. V.) A967). Some observations on robust estimation. i. Amer. Statist. Ass. 62, 1179—86. Xorr и Крэйг (Hogg, R. V. and Craig, A. T.) A956). Sufficient statistics in elementary distribution theory. Sankhyu 17, 209—16. Xorr и Крэйг (Hogg, R. V. and Craig, A. T.) A959). Introduction to Matliematical Statistics. MacMillan, New York. Xorr и Тэнис (Hogg, R. V. and Tanis, E. A.) A963). An iterated procedure for testing the equality of several exponential distributions. J. Amer. Statist. Ass. 58, 435—43. Ходжес (Hodges, J. L., Jr.) A967). Efficiency in normal samples and tolerance of extreme values for some estimates of location. Proc. 5th Berkeley Symp. I, 163—86. Ходжес и Леман (Hodges, J. L., Jr., and Lehmann, E. L.) A963). Estimates of location based on rank tests. Ann. Math. Statist. 34, 598—611. Ходжес и Леман (Hodges, J. L., Jr., and Lehmann, E. L.) A967). On medians and quasi-medians. J. Amer. Statist. Ass, 62, 926—31. Хойо (Hojo, T.) A931). Distribution of the median, quartiles and interquartile distance in samples from a normal population. Biomet- rika 23, 315—60. Хойо (Hojo, T.) A933). A further note on the relation between the median and the quartiles in small samples from a normal population. Biometrika 25, 79—90. Холден 1! Джайякар (Haldane, J. B. S. and Jayakar, S. D.) A963). The distribution of extremal and nearly extremal values in samples from a normal distribution. Biometrika 50, 89—94. Хоуэлл (Howell, J. M.) A949). Control chart for largest and smallest values. Ann. Math. Statist. 21, 615—6. Хоэл и Шей ер (Hoel, P. G. and Scheuer, E. M.) A901). Confidence sets for multivariate medians. Ann. Math. Statist. 32, 477—84. X v6ep (Huber, P. J.) A964). Robust estimation of a location parameter. Ann. Math. Statist. 35, 73—101. Хубер (Huber P. J.) A968). Robust estimation. In: Selected Statistical Papers 2, Mathematical Centre Tracts 27, Mathemalisch Centrum, Amsterdam. Хузурбазар (Huzurbazar, V. S.) A955). Confidence intervals For the parameter of a distribution admitting a sufficient statistic when the range depends on the parameter. J. R. Statist. Soc. B17, 86— —90. Хьюм (Hume, M. W.) A965). The distribution of statistics expressible as maxima. Virginia J. Sci. 16, 120—7. Цукибаяши (Tsukibayashi, S.) A958). Estimation of variance and standard deviation based on range. Rep. Statist. Appl Res. JUSE 5, 69—67.
ЛИТЕРАТУРА 329 Цукибаяши (Tsukibayashi, S.) A962). Estimation of bivariate parameters based on range. Rep. Statist. Appl. Res. JUSE 9, 10—23. Чемберс (Chambers, C.) A967). Extention of the tables of percentage points of the largest variance ratio. Biometrika 54, 225—7. Чен (Chan, L. K.) A967a). Linear estimation of the location and scale parameters from type II censored samples from symmetric unimodal distributions. Naval Res. Legist. Quart. 14, 135—45. Чен (Chan, L. K.) A967b). Remark on the linearized maximum likelihood estimate. Ann. Math. Statist. 38, 1876—81. Чен (Chan, L. K.) A967c). On a characterization of distributions by expected values of extreme order statistics. Amer. Math. Monthly 74, 950—1. Ч ен г (Cheng, В.) A964). The limiting distributions of order statistics. Ada Math. Sinica 14, 694—714. Translation in Chinese Mathematics A965) 6, 84—104. Чернов, Гаствирт и Джонс (CI:ernoff, Н., Gastwirth, J. L. and Johns, M. V.. Jr.) A967). Asymptotic distribution of linear combinations of functions of order statistics with applications to estimation. Ann. Math. Static. 38, 52—72. Чернов и Либерман (Chernoff, Н. and Lieberman, G. J.) A954). Use of normal probability paper. J. Amer. Statist. Ass. 49, 778—85. Чернов и Либерман (Chernoff, Н. and Lieberman, G. J.) A956). The use of generalized probability paper for continuous distributions. Ann. Math. Statist. 27, 806—18. Чернов и Тайшер (Chernoff, Н. and Teicher, H.) A965). Limit distributions of the minimax of independent identically distributed random variables. Trans. Amer. Math. Soc. 116, 474—91. Черчыен и Эпстейн (Churchman, С. W. and Epstein, B.) A946). Tests of increased severity. J. Amer. Statist. Ass. 41, 567—89. Чоу (Chew, V.) A964). Tests for the rejection of outlying observations. RCA Systems Analysis Tech. Rept. Memo. 64—7. Чу (Chu, J. T.) A955). On the distribution of the sample median. Ann. Math. Statisi. 26. 112—6. Чу (Chu, J. T.) A957). Some uses of quasi-runges. Ann. Math. Statist. 28, 173—80. Ч у (Chu, J. T.l A968). Some statistical methods for large scale and preliminary data analysis. Ann. Inst. Statist. Math., Tokyo 20, 489—99. Чу и Хотеллинг (Chu, J. Т. and Hotelling, H.) A955). The moments of the sample median. Ann. Math. Statist. 26, 593—606. Чу и Якоуб (Chu, J. Т. and Ja'coub, K.) A968). Linear order estimates using subsamples. SIAM J. Appl. Math. 16, 162—6. Шапиро H Уилк (Shapiro, S. S. and Wilk, M. B.) A965). An analysis of variance test for normality (complete samples). Biometrika 52, 591—611. Шапиро и Уилк (Shapiro, S. S. and Wilk, M. B.) A968). Approximations for the null distribution of the W statistic. Techno- metrics 10, 861—6. Шапиро, Уилк и Че н (Shapiro, S. S., Wilk, М. В. and Chen, H. J.) A968). A comparative study of various tests for normality. J. Amer. Statist. Ass. 63, 1343—72.
330 ЛИТЕРАТУРА Шаркади, Шнелл н Виице (Sarkadi, К-. Schnell, Е. and Vincze, I) A902). On the position of the sample mean among the ordered sample elements. Publ. Math. Inst. Hung. Acad. Sci. 7A, 239—54. Шах (Shah, B. K.) A965). Distribution of midrange and semirange from logistic population. J. Ind. Statist. Ass. 3, 185—8. Шах (Shah, B. K.) {1966a). A note on Craig's paper on the minimum of binomial variates. Biometrika .53, 014—5. Шах (Shah, B. K.) {1966b). On the bivariate moments of order statistics from a logistic distribution. Ann. Math. Statist. 37, 1002— 10. Шеффе II Тьюки (Scheffe, H. and Tukey, J. W.) A945). Non- parametric estimation. I. Validation of order statistics. Ann. Math. Statist. 16, 187—92. Шидак (Sidak, Z.) A968). On multivariate normal probabilities of rectangles. Ann. Math. Statist. 39, 1425—34. Ш им a да (Shimada, S.) A957). Bias included in the estimator of standard deviation using range. Rep. Statist. AppL Res., JUSE 5, 21—6. Шорак (Shorack, R. A.) A967). On the power of precedence life tests. Technometrics 9, 154—8. Шривастава (Srivastava, O. P.) A967). Asymptotic independence of certain statistics connected with the extreme order statistics in a bivariate distribution. Sankliya 29, 175—82. Шривастава, ХаркнессиБарту (Srivastava, О. P., Hark- ness, W. L. and Bartoo, J. B.) A964). Asymptotic distribution of distances between order statistics from bivariate populations. Ann. Math. Statist. 35, 748—54. Шрикантан (Srikantan, K. S.) A961). Testing for the single outlier in a regression model. Sankhya A23, 251—60. Шрикантан (Srikantan, K. S.) A962). Recurrence relations between the PDF's of order statistics, and some applications. Ann. Math. Statist. 33, 169—77. Эйзенбергер (Eisenberger, I.) A968). Testing the mean and standard deviation of a normal distribution using quantiles. Technometrics 10, 781—92. Эйзенбергер и Познер (Eisenberger, I. and Posner, E. C.) A965). Systematic statistics used for data compression in space telemetry. J. Amer. Statist. Ass. 60, 97—133. Эйзенхарт, Демин г, Лола и Мартин (Eisenhart, С., Deming, Lola S. and Martin, С. S.) A963). Tables describing small- sample properties of the mean, median, standard deviation, and other statistics in sampling from various distributions. Nat. Bur. Stand. Tech. Note 191. Эйзенхарт и Соломон (Eisenhart, С. and Solomon, Н.) A947). Significance of the largest of a set of sample estimates for variance. In: Eisenhart, C, Hastey, M. W. and VVallis, W. A. (Eds.), Selected Techniques of Statistical Analysis. McGraw-Hill, New York. Эйзенхарт, ХестейиУоллис (Eisenhart, С, Hastay, M. W. and Wallis, W. A.) (Eds.) A947). Selected Techniques of Statistical Analysis. McGraw-Hill, New York. Ch. 5: Acceptance inspection when lot quality is measured by the range.
ЛИТЕРАТУРА 331 Эйлбот и Пэдлер (Eilbotl, Joan and Nadler J.) A965). On precedence life testing. Technometrlcs 7, 359—77. Элфви НГ (Elfving, G.) A947). The asymptotical distribution of range in samples from a normal population. Biometrika 34, 111—9. Энскомб (Anscombe, F. J.) A960). Rejection of outliers. Techno- metrics 2, 123—47. Энскомб (Anscombe, F. J.) A961). Examination of residuals. Proc. 4th Berkeley Symp. I, 1—36. Энскомб и Баррон (Anscombe, F. J. and Barron, B. A.) A966). Treatment of outliers in samples of size three. J. Res., Nat. Bur. Stand. 70B, 141—51. Энскомб и Тьюки (Anscombe, F. J. and Tukey, J. W.) A963). The examination and analysis of residuals. Technometrics 5, 141—60. Эпстейн (Epstein, B.) A949a). A modified extreme value problem. Ann. Math. Statist. 20, 99—103. Эпстейн (Epstein, B.) A949b), The distribution of extreme values in samples whose members are subject to a Markov chain condition. Ann. Math. Statist. 20, 590—4. Correction 22, 133—4. Эпстейн (Epstein, B.) A954). Truncated life tests in the exponential case. Ann. Math. Statist. 25, 555—64. Эпстейн (Epstein, B.) A956). Simple estimators of the parameters of exponential distributions when samples are censored. Ann. Inst, Statist. Math. 8, 15—26. Эпстейн (Epstein, B.) A960a). Statistical life test acceptance procedures. Technometrics 2, 435—46. Эпсте1н (Epstein, B.) A960b). Estimation from life test data. Technometrics 2, 447—54. Эпстейн (Epstein, B.) A967). Bacterial extinction time as an extreme value phenomenon. Biometrics 23, 835—9. Эпстейн и Собел (Epstein, В. and Sobel, M.) A953). Life testing. J. Amer. Statist. Ass. 48, 486—502. Эпстейн и Собел (Epstein, В. and Sobel, М.) A954). Some theorems relevant to life testing from an exponential distribution. Ann. Math. Statist. 25, 373—81. Эпстейн и Цао (Epstein, В. and Tsao, С. К.) A953). Some tests based on ordered observations from two exponential populations. Ann. Math. Statist. 24 458—66. Эрмитэдж и Кришнайя (Armitage, J. V. and Krishnaiah, P. R.) A964). Tables for the studentized largest chi-square distribution and their applications. Aerospace Research Laboratories, 64—188. Юден (Youden, W. J.) A963). Ranking laboratories by round-robin tests. Materials Res. and Stand. 3, 9—13. Юиг (Jung, J.) A955). On linear estimates defined by a continuous weight Function. Ark. Mat. 3, 199—209. Юнг (Jung, J) A962). Approximation of least-squares estimates of location and scale parameters (русский перевод в СГ, 37—42). Я н г (Young, D. Н.) A967). Recurre;ice relations between llie P. D. F's of order statistics of dependent variables, and some applications. Biometrika 54. 283—92.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Аномальные (резко выделяющиеся) наблюдения, многомерное нормальное распределение 226 , распределения, отличные от нормального 226 , робастное оценивание 161—168 Асимптотические методы 12, 253 — распределения, двумерный случай 272 Зависимых величин 272— 274 квантилей 256—260, 283 линейных функций п, с.*) 274—277 размаха 268—270, 284 спейсингов 270 Асимптотическое оценивание 277—283 Байесовские методы 220, 234 Бахадура представление для квантилей 259, 283 Бета-распределение 15, 93 , границы для ЕХ,^. ^ 93 —, цензурирование 155 Блома оценки 144—146 «Быстрые» процедуры 176 — — для двумерных выборок 190—192 для дискретных с. в. 204— 205 , оценивание параметра изменчивости 180—189 , сдвига 178—180 , таблицы 294 Вейбулла распределение 155 в асимптотической теории 255 Вейбулла распределение, критерий для параметров 138 , моменты п. с. 287 — —, упрощенные оценки 188 — —, цензурирование 155 Вероятностная бумага 205—209 Гамма-распределение 91 , границы для ЕХч,,1 91 — —, моменты п. с. 287 — —, цензурирование 155 Геометрический размах 270 Гипотез проверка с помощью п. с. 123 — для равномерного распределения 130—133 Группированные данные 152—154 Двойное экспоненциальное распределение 287 , моменты п. с. 287 , НЛНО 292 — — —, цензурирование 155 Двумерное нормальное распределение круговое 189 , линейные Лункции п. с. 121 , моменты п. с. 58 — — —, оценивание с помощью размаха 214 — распределение экстремумов 272 Диксона г-статистики 222—223, 295 Дискретные распределения, распределение п. с. 22—23 Дисперсионный анализ с помощью размаха 202—204, 294 Доверительные интервалы 22— 27, 37 *) п, с. — сокращение термина ьпорядковые статистики»,-
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 333 Доверительные интервалы для а в нормальных выборках 198, 294 Зависимые величины, теория экстремальных значений 272—274 , порядковые статистики ПО Интервальный янализ 156—161 Испытания на продолжительность жизни (долговечность) 29, 156— 161, 172 Квазиразмах 14—26 — для нормальной выборки 187, 283 -, моменты 289, 292 Квантилей выборочных асимптотическое распределение 256— 260, 283 — доверит&льные интервалы 23— 27, 37 Ковариации п. с. 41, 58 , таблицы 288—289 Контроль качества 209—212 Контрольные карты 209—212 Коши распределение 57 — —, моменты п. с. 289 , оптимальные спейсинги п. с. 197 , усеченное среднее 175 Коэффициента корреляции «быстрое» оценивание 191 Линейные оценки 123 , асимптотическая теория 277—283 Блома 144—146, 151 — — для группированных наблюдений 152—154 для симметричных распределений 141 —142 цензурированных наблюдений 147—161, 292 Ллойда метод оценивания при помощи п. с. 123, 139 Логистическое распределение 288 — —, моменты п. с. 288 , НЛНО 292 , цензурирование 155 , 5-сравненн51 85 Логнормальное распределение, оценивание параметров 138 , цензурирование 155 Максимального правдоподобия (МП) метод в случае цензурирований н усечений 142—152 Максимумы, асимптотическое распределение 32, 260 —, границы для моментов 64— 69 — для зависимых с. в. 118 многомерных св. 117 симметрично зависимых св. по — распределения 16, 32 Медиана выборочная 178 двумерная 36 для нормальных выборок 212 — —, доверительные интервалы 287 , эффективность в случае симметричных распределений 93 Межквартильное расстояние 26 Надежности теория 160—161 Наилучшие линейные несмещенные оценки (НЛНО) 292 — таблицы коэффициентов 292 Непараметрические границы для моментов п. с. и размаха 64—73 — доверительные границы для квантилей 23—27 — испытания на продолжительность жизни 161 — толерантные интервалы 27— 29 Несмещенные почти наилучшие оценки 144—146 Нормальное распределение, асимптотическое оценивание 281 , — распределение максимума 265, 284 , быстрые оценки для ц и о 176 , вероятностная бумага 205— 209 , границы и приближения для EX,,.„ 79, 86—90 , коэффициенты в НЛНО 230
334 предметный указатель Нормальное распределение, независимость среднего от размаха 31 , распределение размаха 286 , — экстремумов 286 , робастное оценивание |д, и а 161—168 , «-сравнение 85 Оценивание с помощью п. с. 123 — для распределения с границей, зависящей от неизвестного параметра 125— 130 цензурирован- ных наблюдений 141 — — — — —, максимального правдоподобия метод 143—152 , наименьших квадратов метод 139 Парето распределение 288 — — многомерное 122 — —, моменты п. с. 288 Пуассоновское распределение, размах 205 — —, цензурирование 155 Равнокоррелированные нормальные величины 113, 121 — — —, максимум модуля 292 , максимумы 121,273,292 , размах 114 , стьюдентизироваиный максимум 292 Равномерно наиболее мощные (РНМ) критерии, основанные на п. с. 130—131 Равномерное распределение 21, 30—31, 285 , моменты п. с. 41—43, 286 , оценивание параметров 125—130, 168—169, 292 , проверка гипотез 130—133, 292 , размах 285, 292 — —, цензурирование 168—170 с-сравнение 83 — —, s-сравнение 85 Размах в «быстрых» методах 176— 187, 198—205, 212—216 — границы Для моментов 64—73 Размах для дискретных распределений 36, 205 — моменты 43—44, 61 — «нарастающий» 187 — нецентральный 215 — предельное распределение 268—270 — приближения 181—183 — приложения 176 —, распределение 20—21, 33,270 — скользящий 211 — таблицы 285—292 Регрессии коэффициента «быстрые» оценки 190 Робастное оценивание 161, 174— 175 , загрязненное нормальное распределение 289 параметра сдвига для симметричных распределений 168 Сдвига и масштаба параметров оценивание при помощи п. с 121 —, «быстрые» способы 176 , для равномерного распреде.-ения 125—130 , робастное оценивание 161—168 Сдвигов критерий 217, 227—235, 250-251, 296 Середина размаха для равномерного распределения 127—128 , распределение 34 , свойства 179—180 Симметрично зависимые с. в. 53, ПО , распределения п. с. 110 , рекуррентные соотношения 111 Случайное разбиение интервала 106—ПО,-118—119 Спейсннги (разности между соседними п. с.) 109, 118 Среднее отклонение л ля нормальных выборок 189 — —, робастность 162 Степеннбе распределение 56 — —, цензурирование 155
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 335 Стьюдентизащ1я 94—97 — внешняя 94 — внутренняя 94 Стьюдентизированный размах 94—97 , дисперсионный анализ 202—205 , таблицы для 4. р. 289— 290 — —, s-сравнение 85—88 Толерантные интервалы (непара- метрическне) 27, 29, 37, 286 — для нормального распределения 211 — — — для экспоненциального распределения 174 Треугольное распределение 287 , моменты п. с. 287 , НЛНО 293 Тьюкн ?к-распределение 165 Уинсоризованное среднее 163 , асилштотическое распре деление 275 — — в присутствии аномальных наблюдений 163—167 для цензурированных наблюдений 179 Усеченное нормальное распределение 155 Условные распределения п. с. 30 Функции распределения для п. с. 16—20 Характеризацпи 31 Х-распределение (с одной степенью свободы) 287 —, моменты п. с. 287 —, цензурирование 155 Цензурирование 141 —, НЛНО 292 —, оценивание 141—161, 171— 173 —, I тип 142, 145 —, II тип 142, 144, 146 Экспоненциальное распределение 29—32 , аномальные наблюдения 226, 249 , испытания на продолжительность жизни 156—160, 172—173 , моменты п. с. 56 , цензурирование 156—160, 172—174 с-сравнение 84 Экстремальные (крайние) значения, асимптотическое распределение 260 , совместное распределение 268 Экстремальных значений распределение, моменты п. с. 286 , НЛНО 293 — — —, цензурирование 155
г. Дэйвид ПОРЯДКОВЫЕ СТАТИСТИКИ М., 1979 г., 336 стр. с илл. Редактор S. В. Абгарпн Техн. редактор И. Ш. АксельроЗ Корректоры 3. В. Аетонеееа, Л{. Л. Медеедская ИБ Ks И237 Сдано в набор II.01.79. Подписано к печати 15.05.79. Бумага 84Х108'/.з2. Тип. Кя I. Литературная гарнитура. Высокая печать. Усл. печ. л. 17,64. Уч.-изд. л. 19.33. Тираж 7000 экз. Заказ Л° 276. Цена книги I р. 70 к. Издательство «Наука» Главная редакция физико-математической литературы П7071. Москва. B-7I, Леннискнй проспект. 15 Набрано и сматрпцироваио в ордена Октябрьской Революции, ордена Трудового Красного Знамени Ленинградском производственно-техническом объединении «Печатный Двор» иыенн А. М, Горького «СоюзполиграфпрОдМа* при Государственном комитете СССР по делам .лздательств, полиграфин н книжной торговли. I97I33, Ленинград. Г1-136. Гатчинская, 26 Отпечатано в ордена Трудового Красного Зна.чени Ленинградской типографии Ks 2 имени Евгении Соколовой «Союзполиграфпродма» при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. 198052, Ленинград, Л-52, Измайловский проспекг, 29