Основы прикладной статистики - Мелник М.

Автор: Мелник М.
Теги: теория вероятностей и математическая статистика теория вероятностей математическая статистика комбинаторный анализ теория графов статистика высшая математика издательство энергоатомиздат
Год: 1983
Похожие
Прикладная статистика: Основы моделирования и первичная обработка данных
Вычислительные алгоритмы в прикладной статистике
Прикладная статистика. Исследование зависимостей
Прикладная статистика. Классификация и снижение размерености
Текст
                    м.мелник ОСНОВЫ
ПРИКЛАДНОЙ
СТАТИСТИКИ
ЭНЕРГОАТОМИЗДАТ
М. Мелник основы
ПРИКЛАДНОЙ
СТАТИСТИКИ
I
Перевод с английского
Л. А. КЛИМЕНКО,
В. В. МИНАХИНА
Под редакцией
Г. Г. ПИРОГОВА
МОСКВА  ЭНЕРГО АТОМИЗДАТ • 1983
ББК 22.172
И 48
УДК 519.2
Рецензент: Г. Г. Пирогов
Мелник М.
М 48 Основы прикладной статистики: Пер. с англ,—
М.: Энергоатомиздат, 1983. — 416 с., ил.
2 р. 90 к.
В книге изложен широкий и подробный курс прикладной стати
стики. Рассмотрены средние величины и другие статистические харак-
теристики. описан рад важных вероятностных распределений, исполь-
зуемых в статистической практике. Изложены проблемы проверки
статистических гипотез» принятия решений, критериев качества сгла-
живания, построения таблиц сопряженности, а также элементы дис-
персионного и регрессионного анализа и теории ранговой корреля-
ЦИ!1.
Для инженеров и экономистов, интересующихся методами ir.
применением математической статистики.
1702060000-63	ББК 22.172
М051(01)-83	251-82	517.»
Principles of Applied
Statistics
M. Melnyk
College of Business Administration,
Kent State University
FERGAMON PRESS JNC.
New York - Toronto Oxford • Sydney
© Pergamon Press, Inc.. 1974
©Перевод на русский язык, Энергоатомиддат, 1983s
ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ
Статистика возникла как наука
общественная. Ее первые ростки
появились в глубокой древности и
были связаны с такими функциями
государства, как землеустройство,
налогообложение и организация
армии. В древнейших цивилизациях
осуществлялись переписи и велись
земельные кадастры. Эти операции
. были связаны с наблюдениями и
вычислениями. Поэтому вычисления
сопровождают статистику с момен-
та ее зарождения.
На протяжении веков статистика
искала свой математический аппа-
рат и нашла его в теории вероят-
ностей, первыми создателями ко-
торой были Я Бернулли и П. Лап-
лас. Интересно, что истоки этого
формального аппарата также ле-
жат в общественных явлениях.
Случилось так, что формальный
аппарат статистики стал исполь-
зоваться и в естественных науках,
в первую очередь в астрономии (ме-
тод наименьших квадратов разра-
батывался К. Гауссом уже приме-
нительно к астрономическим наблю-
дениям), затем в физике. Таким
образом, в отличие о г других ви-
дов формально-математического ап-
парата, которые зародились в об-
ласти естественных наук, а затем
(к началу XX века) стали приме-
няться и в общественных науках,
статистические методы перешли из
общественных наук в естественные.
При изучении статистики в ее
приложениях нельзя допускать от-
рыва от содержательной основы.
Статистика здесь не может быть
сведена к сумме формальных прие-
мов. пе должна излагаться просто
как математическая дисциплина,
где теоремы строятся на основе
некоторых допущений. Особенно
важно это в курсах статистики,
предназначенных для исследова-
телей, работающих в области об-
щественных наук или связанных с
практическими задачами в эконо-
мике иди на производстве.
В связи с распространением ста-
тистических методов на естествен-
ные науки в настоящее время су-
ществуют два понимания этой дис-
циплины: широкое и узкое. В широ-
ком смысле статистика—это нау-
ка, изучающая массовые явления.
Какие же явления следует считать
массовыми? Опыт человечества по-
казывает, что существует большое
число процессов, закономерности ко-
торых «пробивают себе дорогу» че-
рез массу случайных отклонений.
Классики марксизма-ленинизма
придавали огромное значение мас-
совым явлениям в общественной
жизни. К. Маркс среди массы слу-
чайных явлений общественной жиз-
ни искал внутреннюю закономер-
ность. Он писал: «Внутренний за-
кон, прокладывающий себе дорогу
через эти случайности и регулирую-
щий их, становится видимым лишь
тогда, когда они охватываются в
больших массах»'. Раскрывая вза-
имосвязь между сущностью и фор-
мой проявления социально-экономи-
ческих отношений капитализма,
К. Маркс широко пользуется для
характеристики массовых явлений
методом средних величин. В своей
1 Маркс К. и Энгельс ф. Соч., изд.
2-е. т. 25. с. 396.
3
формулировке закона стоимости он
фактически опирается на понятие
средней величины, используя его
при определении понятия общест-
венно необходимого времени. Поня-
тие средней величины применяется
для выражения общей закономер-
ности и при формулировании зако-
на тенденции средней нормы при-
были к понижению.
В. И. Ленин уделял большое вни-
мание использованию статистичес-
ких методов при изучении социаль-
но-экономических явлений. В его
трудах применительно к обществен-
ным явлениям получил дальнейшее
развитие метод средних величин.
Особое значение В. И. Ленин при-
давал однородности, с социально-
экономической точки зрения, сово-
купности, для которой вычисляется
средняя. С помощью метода сред-
них величин он получил далеко
идущие выводы относительно сущ-
ности социально-экономических про-
цессов, происходивших в России в
конце XIX — начале XX века1.
Следуя классикам марксизма-
ленинизма, советская статистичес-
кая наука рассматривает массовое
явление, протекающее на множест-
ве единичных элементов, как обра-
зующее некоторое единство, без ко-
торого не было бы смысла делать
его объектом исследования. Это
единство может состоять в общно-
сти происхождения всех единичных
объектов, из которых составляется
множество, в общности их дейст-
вия в некотором процессе, в нали-
чии взаимодействия между ними.
В социально-экономической области
одним из важнейших признаков та-
кого единства элементов является
социально-экономическая однород-
ность элементов.
Именно поэтому массовое явле- '
ние не может протекать на мно-
жестве, механически, произвольно
образованном исследователем путем
объединения не имеющих никакого
1 Огромный интерес представляет в
этом отношении работа В, И Ленина
«Развитие капитализма в России» (Полное
собр. соч.» изд. 5-е» т. 3).
4
отношения друг к другу объектов,
сходство которых является лишь
поверхностным. Но установить внут-
реннее единство элементов множе-
ства можно в конечном счете лишь
путем неформального, качествен-
ного анализа, опирающегося на тео-
рию, описывающую физическую (в
общественной области — социаль-
но-экономическую) сущность иссле-
дуемого объекта.
Применительно к общественным
явлениям статистика может рас-
сматриваться как дисциплина в уз-
ком ее понимании. Однако и здесь
сохраняется универсализм статисти-
ки как науки. Он имеет положи-
тельное значение, но при условии,
что статистика опирается на теорию
общественных явлений, хотя прин-
цип примата качественного анали-
за нельзя понимать как наличие
1олько односторонней зависимости
«теоретический анализ — статисти-
ка». Правильнее понимать этот
принцип как систему с обратной
связью '«теория — статистика —
теория», в которой теория играет
ведущую роль.
Буржуазная статистическая наука
имеет тенденцию к чисто формаль-
но-логическому подходу. Вместе с
тем на Западе существует ряд ра-
бот, которые обращены непосредст-
венно к практике. Цель этих книг
заключается в том, чтобы снабдить
бизнесмена удобным инструментом,
помогающим ему решать повсед-
невные задачи планирования ком-
мерческой деятельности фирмы и
производства. Естественно, что, по-
скольку речь идет о достижении
максимума прибыли, в этих работах
должны излагаться надежные ме-
тоды, а изложение должно быть
простым и доступным, связанным с
практической деятельностью лиц,
к которым обращаются авторы. Это,
разумеется, требует и качественно-
го анализа явлений и множества
конкретных примеров. И хотя от
буржуазных ученых нельзя ожидать
глубокого социально-экономичес-
кого анализа и широких обобще-
ний, именно те работы, в которых
излагаются методы для повседнев-
ного практического применения,
могут представлять интерес для со-
ветского читателя.
В то время как теория математи-
ческой статистики у нас достаточно
хорошо представлена как в отече-
ственной, так и в переводной лите-
ратуре, в книгах с широким охва-
том проблематики прикладной
статистики ощущается определен-
ный дефицит, в особенности если
речь идет о работах, которые мож-
но было бы использовать в качест-
ве дополнительного учебного мате-
риала. Что касается переводной ли-
тературы подобного рода, то еще в
1958 году была выпущена работа
С. Р. Миллса «Статистические ме-
тоды» (М.: «Госстатиздат», 799 с.),
которая на сегодняшний день мо-
жет считаться в значительной сте-
пени устаревшей. Книга Дж. Вайн-
берга, Дж, Шумекера «Статисти-
ка», М.: «Статистика», 1979, 389 с.,
хотя и написана на хорошем методи-
ческом уровне, однако носит слиш-
ком упрощенный и популяризатор-
ский характер. Работа М. Мелника
выгодно отличается отсутствием из-
лишнего упрощенчества, широтой
тематического Охвата и прикладной
направленностью, при сохранении,
однако, доступности изложения. В
книге нет строгих математических
доказательств, все изложение ве-
дется не «от метода», а от харак-
тера исследуемого объекта и от по-
ставленной практической задачи.
Подробно излагаются «рецепты»
использования основных статисти-
ческих методов, они иллюстрируют-
ся множеством «сквозных» прик-
ладных примеров, следующих через
всю книгу, а также графически.
Почти каждая глава начинается с
изложения какой-либо практической
задачи, решаемой с помощью изла-
гаемых в ней статистических мето-
дов.
Наибольшее внимание в книге
уделяется прикладным методам
выборочных исследований (гл. 6—
9). Изложение ведется в традици-
онных для таких работ рамках, но
отличается высоким методическим
уровнем, заботой о том, чтобы чи-
татель усвоил предлагаемые ему ме-
тоды на уровне, обеспечивающем их
применение в повседневной практи-
ке. Особенностью методики автора
является тщательное «поэлемент-
ное» и «поэтапное» изложение ма-
териала.
В книге обсуждаются и некото-
рые более сложные современные
проблемы статистической науки:
вопросы теории принятия решений
(излагаемые с использованием байе-
совского подхода), критерий согпа-
сия хи-квадрат, построение и ана-
лиз таблиц сопряженности, элемен-
ты дисперсионного анализа (в том
числе метод ортогональных конт-
растов), элементы теории ранговой
корреляции. Особенно хорошо из-
ложены достаточно сложные проб-
лемы из области дисперсионного
анализа.
Несколько более слабыми явля-
ются главы, посвященные индексам
и анализу динамических рядов. На
наш взгляд, изложение здесь все-
таки является чрезмерно упрощен-
ным; хотелось бы найти рассмотре-
ние более сложных вопросов. Одна-
ко и эти главы содержат весьма
полезный материал.
Именно этот широкий охват и
полнота проблематики наряду с
удачной методикой изложения по-
зволяют использовать ее в качестве
дополнительного учебного пособия
для студентов-экономистов, причем
с этой точки зрения особенно важ-
ное значение имеет методическое
единство изложения широкого кру-
га разнообразных статистических
проблем. Вместе с тем книга весь-
ма полезна и как учебный, и как
справочный материал для исследо-
вателей (преимущественно в соци-
ально-экономической области), не
имеющих специальной подготовки в
области статистики, ни по роду сво-
ей работы постоянно сталкиваю-
щихся с задачами статистического
анализа массовых явлений.
Г. Г. Пирогов
Эта книга появилась в результа-
те длительного опыта преподава-
ния, ' научно-исследовательской ра-
боты и обсуждений. Ее основная за-
дача — соединить теорию с опытом.
Мне представляется, что такой под-
ход с самого начала вызовет инте-
рес к предмету студента и поможет
ему в процессе обучения.
Некоторые аналогичные книги
часто начинаются с разъяснений
понятий вероятности и вероятност-
ных распределений. В них мало вни-
мания уделяется статистическим
концепциям, объясняющим способы
изучения числовой информации. Та-
кой подход типичен для работ по
математической статистике и тео-
рии вероятностей. Однако опыт по-
казал, что для неспециалистов по-
добное изложение слишком абст-
рактно. С другой стороны, если
книга начинается с описания конк-
ретных задач, на примере которых
показана польза статистических ме-
тодов, это может вызвать желание
изучить методы глубже.
Руководствуясь этими соображе-
ниями,. мы начинаем книгу с опи-
сания- основных способов анализа
данных, а не с определения вероят-
ностей, так как именно анализ дан-
ных составляет содержание статис-
тики. Это поможет студенту усвоить
понятие «выборка».
Рассмотрение выборочных мето-
дов не должно предшествовать из-
ложению теории вероятностей, но
ие должно быть отнесено и в ко-
нец книги. Следовательно, оно дол-
. жно занимать промежуточное мес-
то между разделами по теории ве-
роятностей и по статистическим ме-
тодам.
6
ПРЕДИСЛОВИЕ
Байесовские методы имеют дело
с малыми выборками. Посвященный
им раздел можно было бы выделить
особо и поместить в конце книги.
Однако нам представляется, что
место байесовских методов рядом
с разделами по доверительным ин-
тервалам и проверке гипотез, так
как именно здесь учащийся впервые
задумывается об эффективности вы-
борочных статистик, объеме выбор-
ки и величине ошибок аир (пер-
вого и второго рода).
Критерий х2 является неларамет-
рическим. Однако с его помощью
сравниваются две и более генераль-
ные совокупности, распределения
признаков которых выражены в
процентах. Он играет в прикладной
статистике очень важную роль, поэ-
тому глава, где он описан, следует
сразу за главой, посвященной дис-
персионному анализу. Анализ вре-
менных рядов не должен предшест-
вовать регрессионному анализу, а
индексы не могут изучаться до то-
го, пока учащийся не познакомится
• с этими двумя разделами.
Студенты обычно испытывают
значительные трудности, пытаясь
связать теорию вероятностей с вы-
борочными методами, выборочными
распределениями и заключениями,
сделанными на основе выборок.
Понимание этой связи является
стержнем курса. Не почувствовав
этой связи, учащийся никогда не
увидит возможности и ограничен-
ности выборок. Опыт преподава-
тельской работы, убедил меня, что
эксперименты с выборками такого
рода, как это делали Диксон и Ма-
си, приводят к отличным резуль-
татам. Объяснение выборочных
распределений, рассмотренных в
гл. 7, ведется с помощью таких экс-
периментов.
Некоторые подходы к излагаемым
в этой книге проблемам не явля-
ются ни новостью, ни редкостью в
аналогичной литературе. Это под-
ходы к таким проблемам, как связь
между частотами и площадями,
сравнение распределений частот,
подгонка нормальной кривой к эм-
пирическим данным, выведение фор-
мулы Байеса, объяснение распреде-
ления Пуассона, связь между ошиб-
ками а и 0 и объемом выборки при
вычислении доверительных границ
и проверке гипотез,, байесовские
статистики, критерий %2, коэффици-
ент корреляции, индексы, прогноз
трендов, применение скользящих
средних для элиминирования цик-
лических составляющих.
Материал книги рассчитан на три
квартала или два семестра препо-
давания студентам младших кур-
сов. Однако он достаточно глубок
и с некоторыми дополнениями мо-
жет использоваться аспирантами.
Последовательность глав с 1 по 9
существенна для понимания пред-
мета. Другие главы содержат ма-
териал. исследуемый во многих ра-
ботах, так что может быть исполь-
зован любой порядок его изучения.
Детальность изложения материала
имеет особенное значение, посколь-
ку учащиеся предпочитают методы
обучения, которые не требуют под-
робного конспектирования на лек-
циях. Именно поэтому я стараюсь
не скупиться на подробности.
Во время работы над книгой моя
преподавательская загрузка была
не слишком велика: за это я бла-
годарен прежде всего Школе биз-
неса Кентского университета. Моя
особенная благодарность проф.
Р. Кхану, прочитавшему гл. 5— 13
и сделавшему массу ценных заме-
чаний. Я очень обязан проф. Л. Ко-
ну за его критику. Полезны были
замечания моих студентов, на кото-
рых я проверял излагаемый мате-
риал.
Приношу благодарности распоря-
дителю литературного наследия по-
койного сэра Д. Фишера и фирме
«Фр. Пейте и О. Бойд», разрешив-
шим перепечатку табл. VIII и IX из
их книги «Статистические таблицы
для исследований по биологии, сель-
скому хозяйству и медицине». В
книге использовались также мате-
риалы и таблицы других авторов.
М. Мелник
ПРЕДИСЛОВИЕ
ДЛЯ ПРЕПОДАВАТЕЛЕЙ,
ИСПОЛЬЗУЮЩИХ КУРС
«ОСНОВЫ ПРИКЛАДНОЙ
СТАТИСТИКИ»
В моей книге много новых момен-
тов. Чтобы облегчить работу препо-
давателя, отметим некоторые из
них.
1.	Описание статистик и других
положений в книге таково, что сту-
дент может изучать их без помощи
или с очень незначительной помо-
щью преподавателя. В частности,
вся необходимая для пользования
многочисленными таблицами инфор-
мация в очень компактной форме
приводится после таблиц. Такой
метод представляется удачным при
обзорах и при получении выводов.
2.	Связь между наблюдаемыми
распределениями частот ХД- и пло-
щадями под кривыми в прикладной
статистике является основной. Эта
связь (особенно нормальная кри-
вая) обсуждается довольно подроб-
но. Я не думаю, что в других кни-
гах вы найдете аналогичную трак-
товку.
3.	Подробно обсуждаются процен-
тили и их связь с площадями под
кривыми.
4.	Формула Байеса является кон-
цептуальной основой байесовской
статистики. Однако, как показал
мой опыт, большинство студентов
не понимают ее. В книге формула
выводится с помощью прямоуголь-
ников, площади которых принима-
ются за единицу. Это позволяет
легко вычислить площади (и ве-
7
роятности), используя такие прос-
тые отношения, как «половина од-
ной третьей равна одной шестой».
5.	Для многих студентов, вероят-
но, трудно понимание связи меж-
ду распределениями генеральной
совокупности и выборочных дан-
ных, связи между дихотомным вы-
борочным пространством и биноми-
альным распределением. Я убеж-
ден, что рассмотрение эксперимен-
тальных выборочных распределений
очень полезно для понимания этих
проблем Например, вы найдете в
книге три множества выборочных
средних (для выборок трех объе-
мов) и три множества процентных
характеристик. Тогда возникает
проблема; нужно выбрать одно из
этих средних. Из какого множест-
ва-первого, второго или третьего—
вы предпочли бы получить выбороч-
ное среднее? Почему?
6.	Подробно обсуждаются связь
между пуассоновским й биномиаль-
ным распределениями и примене-
ние распределения Пуассона к рас-
сматриваемым данным.
7.	Многие авторы не уделяют дол-
жного внимания проверке гипотезы
связи между p-ошибкой и объемом
выборки. В прикладной статистике
эта связь имеет важное значение и
потому обсуждается в книге.
8.	Каждый исследователь-статис-
тик знает: первое, что он должен
сделать, — это найти выборку под-
ходящего объема. Это положение
постоянно иллюстрируется одним
или двумя примерами на протяже-
нии всей книги.
9.	Я надеюсь, что читатель гл. 10
получит ясное представление о раз-
личии между ценой удачи и байе-
совскими статистиками, а также
между байесовскими и классичес-
кими статистиками.
10.	Я полагаю, что трудно найти
книгу, в которой понятие «коэффи-
циент корреляции» объясняется так,
как это сделано в настоящей рабо-
те. Сначала он поясняется с помо-
щью общих определений, а уже
затем (в главе по временным ря-
дам) в связи с использованием его
во временных рядах.
11.	Вы должны согласиться, что
проблемам прогноза трендов и взве-
шенных скользящих средних сле-
дует уделить больше внимания
Наконец, я надеюсь, что не толь-
ко эти нововведения вызовут инте-
рес к книге.
М. Мелник
ГЛАВА 1
ВВОДНАЯ
1.1. КАК ПОЛУЧАЮТ ДАННЫЕ
В ЭКОНОМИКЕ?
Статистика — это совокупность
методов, в основе которых лежат
математика и теория вероятностей.
Основная цель статистики — облег-
чить сбор и анализ числовых- дан-
ных, сделать более четкой их ин-
терпретацию и выводы.
Современная экономика имеет де-
ло с массой числовой информации.
Эта информация должна помочь
глубже понять проблему и облег-
чить принятие решений в сложных
ситуациях.
Информацию для экономической
статистики дают государственные
органы.. Государственные учрежде-
ния, а именно Министерство тор-
говли и сельского хозяйства и Бюро
статистики рабочей силы, публику-
ют, например, данные по националь-
ному доходу, ценам, занятости,
объему международной торговли.
Эти данные редко представляют со-
бой сведения о коммерческой дея-
тельности отдельных фирм. Обычно
они показывают агрегированную
динамику производства и цен како-
го-либо сектора экономики (напри-
мер, сельского хозяйства) или всей
экономики в целом.
Информация собирается и обра-
батывается также Федеральной ре-
зервной системой. Эти данные, по-
лучаемые как на местном, так и на
национальном уровне, чаше всего
характеризуют денежные и банков-
ские операции, промышленное про-
изводство. Сбором и агрегировани-
ем необходимой информации зани-
маются и другие государственные
учреждения и отдельные фирмы.
В то время как государственные
органы интересует информация за
достаточно длинный промежуток
времени, для фирм более важен
анализ последних данных. Истори-
ческому анализу данных особое
внимание начало уделяться во вре-
мя Второй мировой войны Приме-
нение различных статистических ме-
тодов показало, что они являются
существенным фактором снижения
затрат. В экономике, основанной на
конкуренции, такими методами
нельзя пренебрегать. В результате
фирмы начинают собирать п анали-
зировать данные самого разнооб-
разного характера, а именно инфор- •
мацию о прошлом развитии, конку-
рентах, привычках, вкусах и жела-
ниях заказчиков.
Как в органах управления, так и
в промышленности информацию по-
лучают в основном путем полного
охвата или с помощью выборки.
Собранные данные используют не-
посредственно или рассматривают
как основу для получения дополни-
тельно обработанной информа-
ции, прогноза или интерполяций.
Существует множество примеров
изучения генеральной совокупности
путем полного охвата или перепи-
си. Каждые 10 лет, например, про-
водится подсчет всех или почти
всех жителей в стране — перепись
населения. При переписи населения
государственные органы получают
такую дополнительную информа-
цию, как возрастной состав насе-
ления. доход, обеспеченность жили-
щем.
Данные о производстве товаров и
услуг получают либо методом пол-
9
него охвата, либо выборочным ме-
тодом.
В крупных отраслях производст-
ва, таких как автомобильная про-
мышленность, гражданское авиа-
строение, добыча золота, паровозо-
строение, судостроение, производст-
венные показатели получают прос-
тым объединением показателей
всех рассматриваемых фирм, т. е.
полным охватом.
Однако физически невозможно,
например, ежемесячно проводить
подсчет безработных. Трудно также
или почти невозможно получить
точную информацию о потреблении
в стоимостном или натуральном вы-
ражении одежды, жилья, овощей и
продуктов питания. Эту информа-
цию, необходимую. для вычисления
занятости рабочей силы, безрабо-
тицы или других компонентов ва-
лового национального продукта,
получают с помощью метода пол-
ного охвата или выборочного ме-
тода.
Государственные органы и отдель-
ные фирмы собирают и обрабаты-
вают необходимую им информацию,
используя оба метода. Ежемесячные
данные о продажах получаются
сравнительно легко. Однако на
больших предприятиях, производя-
щих товары различного вида, ассор-
тимент готовой продукции и сырых
материалов на складах огромен
(тысячи наименований). Руководи-
тель, желающий оценить уровень
запасов чаще, чем раз в год, может
получить необходимую информацию
путем выборки. Оценить, насколько
хорошо товар идет на рынке, мож-
но также этим методом. Информа-
ция о таких количественных харак-
теристиках продукта, как например,
диаметр стальной болванки, обра-
батываемой на токарном станке,
масса упаковки, вместимость буты-
ли, химический состав или проч-
ность материала на разрыв, полу-
чается либо соответствующим из-
мерением всех единиц продукта,
либо на основании измерения вы-
борки, состоящей из малого числа
единиц. Точно так же при оценке
К)
данных по безработице менеджеры
иногда вынуждены использовать
выборочную информацию, посколь-
ку из-за ограниченности времени и
средств они не могут получить точ-
ную информацию методом пол-
ного охвата. Опросы потребителей,
с помощью которых учитываются
мнения настоящих или будущих по-
купателей о качествах продукта, от-
носятся к этой же категории.
Методы полного охвата (или пе-
репись) и выборки не всегда исклю-
чают друг друга. Например, пуб-
ликуемые государственными орга-
нами данные о строительстве ба-
зируются на результатах использо-
вания метода полного охва га и
выборочного метода.
1.2. КАК СДЕЛАТЬ ДАННЫЕ БОЛЕЕ
ПОЛЕЗНЫМИ ДЛЯ КОНТРОЛЯ,
АНАЛИЗА И ПРИНЯТИЯ РЕШЕНИЙ
Статистические методы приобре-
тают особенное значение, если они
улучшают собранные данные или
существенно облегчают их анализ.
Для того, чтобы нагляднее пред-
ставить связи определенного вида,
например распределение студентов
по полу и возрасту, используют
специальные таблицы.
Пусть какая-нибудь компания ’хо-
чет изучить динамику продажи сво-
их товаров за прошедшие 10 лет.
Проблем в получении данных нет.
Однако прямое сравнение несколь-
ких таких рядов чисел представ-
ляет собой трудоемкую работу. Кар-
тина становится яснее, если пред-
ставить данные в виде графика. С
его помощью можно определить,
какие ряды испытывают сезонные
колебания, какие — нет, на какие
продажи влияет циклическое дви-
жение производства и какие про-
дукты пользуются наибольшим
спросом
Таблицы и графики не всегда
адекватно отражают сложные связи
между группами данных. Например,
сравнение оценок учащихся двух
школ требует рассмотрения двух
пачек бумаг, заполненных цифрами.
Все эти данные • сначала надо сде-
лать сопоставимыми. Например,
можно вычисл ить средние значения.
Сравнение средних даст более на-
глядное, чем сравнение отдельных
оценок, представление о том, у ка-
кой из школ успеваемость выше.
В промышленности постоянно
проводят измерения, например, мас-
сы, размера и других характерис-
тик. Эти характеристики должны
соответствовать определенным нор-
мам. Статистические методы могут
применяться и для целей контроля.
Историческое движение показате-
лей часто искусственно реконструи-
руется с помощью экстраполяций
и интерполяций. Числовую инфор-
мацию о будущем получают с по-
мощью различных методов прог-
ноза.
Применяя статистические методы,
следует различать два понятия —
генеральная совокупность и выбор-
ка. Генеральную совокупность об-
разуют все люди, животные, расте-
ния или все объекты, анализируе-
мые с некоторой точки зрения. Сло-
во «все» понимается, конечно, не в
абсолютном смысле. Оно скорее
подчеркивает отличие генеральной
совокупности от выборки. Совокуп-
ность определяется и описывается
статистиками так, чтобы удовле-
творить цели исследования. Цели
же исследования могут быть раз-
личными для одного и того же мас-
сива данных, так что одни и те же
данные могут рассматриваться
иногда как выборка, а иногда как
генеральная совокупность.
Приведенные выше определения
лучше иллюстрировать примерами.
Чтобы подсчитать, сколько сту-
дентов университетских городков
имеют собственные автомобили,
можно провести опрос всех студен-
тов, выяснить, сколько из них яв-
ляются владельцами автомобилей,
и вычислить их процентное отноше-
ние к общему числу. Если нет не-
обходимости в получении точного
числа или процента, то можно обой-
тись без полного охвата.
Например, можно провести оп-
рос только 300 студентов из общего
числа 12 000. Если 180 студентов из
300 являются владельцами автомо-
билей, то, выражая отношение их
к общему числу опрошенных в про-
центах, мы можем сказать, что при-
близительно 60 % всех студентов
имеют автомобили Таким образом
выборочный процент используется
для оценки процентного отношения
в генеральной совокупности. .
Пока нам этого достаточно, но
необходимо сделать два замечания
в связи с приведенным примером.
Очевидно, что выборка есть часть
целого, но она не всегда хорошо
отражает это целое. Если все бед-
ные студенты живут в определен-
ной части городка и исследователь
опрашивает 300 студентов именно
из этой части, то вместо 180 он мо-
жет найти лишь 15 владельцев ав-
томобилей. В результате он придет
к совершенно неправильному за-
ключению, что лишь 5% всех уча-
щихся имеет собственные автомо-
били, поскольку его выборка не
представляет всех студентов.
Второе замечание состоит в том,
что необходимо понимать различие
между процентными отношениями,
полученными из всей генеральной
совокупности и из выборки Первое
представляет собой конечный н не-
изменяемый результат, второе яв-
ляется лишь приближенной оценкой
первого, так как отражает выбороч-
ные вариации.
Если два или три человека будут
подсчитывать всех владельцев ав-
томобилей, то они в идеале полу-
чат одни и те же результаты. Од-
нако если они будут использовать
выборки, то результаты, по всей
вероятности, будут различны, даже
если выборки берутся из одной и
той же совокупности и имеют оди-
наковый объем — в каждом случае
равный, например, 300. Так как со-
став учащихся, представляющих
каждую выборку, не одинаков, то
результат не представляется не-
ожиданным.
Таким же образом можно найти
11
средний доход жителей некоторого
города, опрашивая все семьи или
некоторую выборку из них. Сред-
июю массу багажа можно получить,
усреднив массу всего багажа или
определив среднюю некоторой его
части. Если мастер или контролер
хочет оценить, сколько отходов по-
лучается при производстве, то он
может подсчитать либо все отходы,
либо взять какую-либо выборку.
Соответственно в первом случае он
получит точный ответ, во-втором —
приблизительную оценку первого.
В конечном итоге интерес для ис-
следователя представляют не выбо-
рочные данные, а генеральная со-
вокупность. Количественные харак-
' теристики выборок исследуются в
предположении, что они являются
аналогами соответствующих харак-
теристик генеральной совокупности.
Предполагается, например, что
средняя для выборочных данных не
слишком отличается от средней для
генеральной совокупности, так что
’ в полном перечислении количест-
венных характеристик всей совокуп-
ности нет необходимости. Другой
пример: желательно, чтобы числен-
ные отношения в выборке между
теми, кто голосует за X, и теми, кто
не отдает за него голоса, не слиш-
ком отличались от аналогичного
отношения среди всех возможных
избирателей.
Цель этой книги состоит не толь-
ко в том, чтобы проиллюстрировать
и объяснить статистические мето-
ды, используемые для анализа ге-
неральных совокупностей, но и в
том, чтобы читатель понял, как эти
совокупности могут быть изучены с
помощью выборочных данных. Эго
значит, что часто нет необходимос-
ти в обследовании всей генераль-
ной совокупности для изучения ее
характеристик. Исследование мож-
но провести, анализируя лишь вы-
борочные данные, что экономит
время и деньги. Необходимо сде-
лать еще несколько замечаний, ка-
сающихся применения статистичес-
ких методов.
1.	Результаты статистического
анализа могут противоречить дей-
ствительности. Это происходит обы-
чно тогда, когда исследователь не
понимает либо проблемы, либо при-
меняемых статистических методов
(или имеют место оба момента).
2.	Существует возможность умы-
шленно вводить в заблуждение с
помощью статистики. Примеры та-
кого рода читатель может найти в
книге Хаффа «Как обманывать с
помощью статистики»
3.	В последнее время специалис-
ты стараются применять все более
тонкие статистические методы. Та-
кой практики следует избегать.
Ведь цель анализа — не показать
знание сложных статистических ме-
тодов, а решить задачу. Очень ча-
сто именно простейшие методы при-
водят к желаемому результату.
2.1. АНАЛИЗ ЧИСЛОВОЙ
ИНФОРМАЦИИ
В табл. 2 1 приведены длины 300
стальных булавок. Разница в дли-
нах булавок незначительна. Уло-
вить такую разницу нельзя с по-
мощью обычной измерительной ру-
летки. Используя рулетку, мы мог-
ли бы установить, что длина каждой
булавки приблизительно равна од-
ГЛАВА 2
РАСПРЕДЕЛЕНИЕ ЧАСТОТ
ной четвертой доли дюйма *. Для
выявления малых различий нужно
применить более тонкий измеритель-
ный прибор — микрометр.
В табл. 2.2 приведены значения
почасовой зарплаты 303 рабочих в
промышленности, переписанные с
расчетных карточек одной промыш-
ленной компании.
1 1 дюйм=2,54 см.
12
I
Таблица 2.1. Длина 3)0 стальных
булавок, 10-* дюйм
25)	253	250	249	248	247	251	2Я0	253	248
249	24S	254	253	250	256	252	249	253	248
248	254	255	254	243	251	247	248	253	250
245	253	250	249	255	248	248	251	249	252
251	253	253	245	251	255	2Я1	248	248	250
252	254	249	251	254	248	251	249	251	251
250	249	247	245	252	248	249	252	251	256
256	250	255	249	249	248	247	250	248	248
252	253	250	250	247	252 1 * * * * * * В	249	250	251	249
248	250	246	249	248	248	2ЯО	251	246	252
252	250	254	253	250	255	254	254	253	251
251	245	250	232	249	251	247	256	25)	249
251	2W	252	251	251	252	247	250	252	252
250	252	247	249	248	250	253	250	248	249
250	250	247	251	250	249	247	252	244	240
250	252	250	245	252	252	249	250	J252	255
250	250	252	249	253	248	255	252	253	251
26Г	251	248	247	250	256	248	250	252	255
252	245	2^6	249	252	249	24S	251	255	252
246	249	246	249	250	252	250	249	251	244
249	247	252	250	24»	24В	255	246	251	2£Э
	254	250	256	250	255	250	252	249	250
251	250	252	251	249	248	249	250	250	247
254	248	252	248	263	251	248	252	255	248
248	245	255	252	240	250	249	247	250	2М
249	251	250	248	251	247	250	252	249	249
249	252	254	248	252	249	250	252	248	246
254	252	243	250	253	252	254	230	247	248
244	248	248	251	244	252	253	246	254	240
249	250	252	249	251	249	244	250	249	249
Таблица 2.2. Распределение частот
и почасовая зарплата 3)3 рабочих
в промышленности
	>1	*1	h	Х1	
2,49	1	2,77	2	3,05	4
2,50	4	2.78	9	3,06	2
2,51	1	2.79	5	3,07	0
2.52	1	2.80	22	3,08	2
2,53	0	2,81	'3	3,09	0
2,54	3	2,82	11	З.Ю	7
2,55	2	2,83	3	3,11	0
2,56	0	2.84	4	3,12	0
2,57	3	2,85	7	3,13	0
2,58	о	2,86	5	3,14	2
2.59	1	2.87	3	3,15	4
2,60	8	2,88	8	3.16	2
2,61	1	2,89	4	3,17	- 0
2,62	3	2,90	16	3.18	2
2.63	0	2,91	3	3,19	1
2,64	5	2.92	6	3,20	4
2,65	7	2.93	2	3,21	0
2.G6	3	2,94	4	3,22	1
2,67	2	2,95	8	3,23	0
2.68	3	2,96	5	3,24	0
2,69	2	2,97	2	3,25	3
2,70	14	2.98	3	3,26	1
2,71	4	2,99	1	3,27	0
2,72	9	3,00	9	3.28	0
2,73	3	3,01	I	3.29	0
2,74	10	3,02	2	з.зо	4
2,75	11	3,03	0	3,31	0
2.76	4	3.04	3	3.32	1
Продояжение табл. 2.2
х<	fl	xi		xi	fl
3,33 3,34	0 2	3.35 3,36	2 0	3,37	1
Наконец, табл. 2.3 представляет
собой список оценок 126 студентов
по курсу статистики (по балльной
системе).
Каждое из трех множеств чисел,
приведенных в табл. 2.1 —2.3, мож-
но рассматривать либо как выбор-
ку, либо как генеральную совокуп-
ность *.
Если на заводе работает ровно
303 рабочих, то числа в табл. 2.2
можно рассматривать как генераль-
ную совокупность, элементами ко-
торой являются показатели зарпла-
ты. Если же на предприятии за-
Таблица 2.3. Оценки по курсу
„Статистика", балл
128	131	100	136	130
43	58	104	74	82
83	142	106	143	125
123	136	118	127	77
122	122	129	91	50
138	129	92	130	109
104	101	135	86	134
145	108	97	133	44
115	132	86	130	77
109	127	118	120	81
109	49	126	139	85
100	140	118	122	137
130	47	78	132	114
123	125	138	129	126
110	113	119	119	132
138	105	129	80	136
75	82	96	129	115
131	135	107	111	100
77	100	56	130	70
141	123	125	106	A
HO	112	131	122	I
108	86	106	117	
61	130	141	130	1	-f
1 Как известно из курса высшей ал-
гебры, термин «множество» понимается как
совокупность различных объектов или чи-
сел. Каждый отдельный объект, относя-
щийся к множеству, называется «элемен-
том». Множество, не содержащее элемен-
тов, называется «пустым» или «нулевым»
множеством. Если заданы два множе-
ства — Д и В. причем каждый • элемент нэ
В является элементом из А, то "говорят,
что В является подмножеством А.
13
р
нято больше 303 рабочих и учетные
карточки выбраны случайным об-
разом (или каким-нибудь другим
выборочным методом), то приве-
денный список зарплат представля-
ет собой выборку. Таким же обра-
зом (как генеральную совокупность
либо как выборку) можно интер-
претировать данные из двух других
таблиц.
Предположим, что мы имеем де-
ло не с тремя выборками, а с тре-
мя генеральными совокупностями.
Тогда возникает вопрос: для каких
целей были собраны данные? Дан-
ные собирают и анализируют, как
правило, для того, чтобы потом
сделать некоторые сопоставления.
Показатели зарплаты можно изу-
чать с разных точек зрения. Нап-
ример, можно сравнивать среднюю
заработную плату наших рабочих
со средней заработной платой ра-
бочих на других заводах. Иногда
нас может интересовать «модаль-
ная» (наиболее распространенная)
зарплата. В других случаях важно
знать разность между максималь-
ной и минимальной зарплатой, на-
зываемую размахом (или вариаци-
онным размахом).
На заводе, производящем сталь-
ные булавки, инженерные работни-
ки контролируют как длину була-
вок, так и другие измерения и ха-
рактеристики. Станки налаживают-
ся таким образом, чтобы длина бу-
лавки составляла 0,25 дюйма. Бо-
лее того, каждый инженер знает,
что ни одна машина не может про-
изводить совершенно равные булав-
ки. Следовательно, должны быть
определены допустимые границы
изменений длины, например
± 0,003 дюйма.
Булавки, длина которых соответ-
ствует установленным границам,
принимаются для дальнейшей обра-
ботки, остальные булавки счита-
ются отходом. Булавки, не соответ-
ствующие стандартам или изготов-
ленные из дефектного материала,
либо идут в переплавку, либо рас-
продаются по сниженным ценам, ли-
14
бо используются каким-нибудь дру-
гим образом.
Итак, независимо от того, пред-
приятие само производит булавки
или получает их от смежников, оно
должно знать, соответствуют ли бу-
лавки требованиям заказчика. Ча-
сто для этого нужно найти среднюю
длину (или по статистической тер-
минологии — среднее арифмети-
 ческое); иногда необходимо знать,
отклоняется ли и насколько длина
булавок от допустимых границ.
Большинство студентов хорошо
знают, какой род информации они
могут извлечь из табл. 2.3. Пред-
ставляют интерес среднее, мода
(наиболее типичная или часто
встречающаяся оценка) или медиана
(верхняя граница оценок для 50%
студентов). Можно также опреде-
лить, какая из оценок высшая, а
какая низшая, и распределить уча-
щихся соответственно категориям
оценок.
Короче говоря, если возникает
какая-нибудь проблема, для реше-
ния которой необходима детализи-
рованная и точная информация, то
следует собрать необходимые дан-
ные и проанализировать их. Как
уже отмечалось, до Второй мировой
войны специалисты опирались в ос-
новном на опыт, интуицию, обоб-
щенные рассмотрения, грубую оцен-
ку, Вместо того чтобы сказать, что
средняя зарплата на другом пред-
приятии была на 23 цента больше,
просто отмечали, что она там выше.
Что касается длины булавок, то
часто говорили, что машину надо
остановить, потому что она произ-
водит брак. Теперь контролер или
оператор может очень рано заме-
тить изменение длины и остановить
машину до того, как она начнет
производить брак. Несколько лет
назад экономические прогнозы де-
лались, как правило, на основе опы-
та и интуиции.
Теперь для этой цели применя-
ются тщательно разработанные
статистические (и эконометричес-
кие) методы. Широкий круг лиц —
управляющий фирмы, администра-
тор и полицейский — часто прини-
мает решение, основываясь на зна-
ниях, полученных с помощью раз-
личных статистических методов.
Элементарным, но очень важным
методом при этом является метод,
использующий распределения ча-
стот и их графическое изображе-
ние.
Изучением этого метода пренеб-
регать не следует. Распределение
частот и его графическое представ-
ление являются основой анализа
совокупности данных. Более слож-
ные методы анализа часто требуют
сопоставления распределений и
графиков рассматриваемых данных
с математическими кривыми. Опыт
показал, что многие начинающие
изучение статистики испытывают
трудности при попытке найти соот-
ветствие между математическими
функциями и эмпирическими дан-
ными. Детальное рассмотрение свя--
зи между распределением частот и
площадью многоугольника (этот
термин будет объяснен) поможет
преодолеть это затруднение.
2.2. ПОСТРОЕНИЕ РАСПРЕДЕЛЕНИЯ
ЧАСТОТ
Распределение частот относится
к категории , «сгруппированных дан-
ных». Все числа, приведенные в
табл. 2.1 (длины булавок), пред-
ставляют собой множество «не-
сгруппированных данных». Распре-
деление частот строят, чтобы облег-
чить анализ данных, оценить часто-
ты неизвестного распределения ге-
неральной совокупности, основыва-
ясь па. данных выборки, облегчить
Таблица 2.4. Длины S09 стальных
булавок, 10_ж дюйм
xi	fl	xi	h	xi	fl
244	4	249	42	253	17
245	5	250	56	254	14
246	11	251	33	255	11
247	16	252	41	256	8
248	42				300
взяты нз табл. 2.1.
Примечание. Данные
вычисление различных статистичес-*
ких характеристик. В результате
все большего распространения вы-
числительной техники последнее со-
ображение потеряло свое значение.
Распределения частот приводятся
в следующих формах: 1) группиро-
вок, средних точек и частот;
2) группировок и только частот; '
3) средних точек и только частот
(табл. 2.4) *.
Чтобы построить распределение
частот, необходимо либо сначала
вычислить средние точки, а затем
(если это необходимо) добавить к
ним группировки, либо сначала по-
строить группировки, а затем вы-
числить для них средние точки В
обоих случаях на следующем шаге
подсчитывают, сколько исходных
данных входит в каждую группи-
ровку или как часто встречается
каждая средняя точка.
Термины, в которых описывается
распределение частот, поясняются в
примечании к табл. 2.5. Однако
следует дополнить ее некоторой ин-
формацией. Например, число груп-
пировок распределения частот рав-
но 10. Очевидно, что если из тех же
данных образовать больше груп-
пировок, то интервал будет мень-
ше.
В рассматриваемом распределе-
нии группировка определяется сво-
ими нижним и верхним пределами,
которые отличаются от границ груп-
пировки (последние будут исполь-
зованы ниже при графическом
представлении распределений и при
выведении некоторых формул). Но
обычно при выведении формул поль-
зуются пределами. Поэтому, как
правило, нет необходимости пока-
1 Прежде чем продолжить чтение, чи-
татель должен внимательно рассмотреть
табл. 2.5 и попытаться ответить на сле-
дующие вопросы: какая разница между
шириной и интервалом группировки, пре-
делами и границами групп; как вычисля-
ются средние точки и т. д. Читатель также
должен уметь пользоваться математически-
ми символами. Опыт показал, что, несмотря
на сложившееся предубеждение, правиль-
ное использование математических симво-
лов скорее облегчает, чем затрудняет по-
нимание предмета исследования.
1л
i
*Та блица 2,5. РасгреГе^екже частот и почассвгя ставка заработной платы
303 промышленных рабочих, долл.
	U®{-	ili		xi	h
2.445	2,545	2.45	2,54	INI IHI	2,495	10
2 545	2,645	2,55 .	2,64	Ml IHI IHI MI Ml	2,595	25
2,645	2,745	2,65	2,74	HI IHI Ml Ml INI HI Ml INI Ml IHI Nil	2.695	57
2,745	2,845	2,75	2,84 nu mi пи rw mi mi mi x nii mi гш iw mi в		2,795	74
2,845	2,945	2,85	2,94 INI Ml IHI INI ffll IHI NJIHI-Н1ГН11Н1II		2,895	58
2,945	3,045	2.95	3,04 MINI IHI Ml MINI III		2,995	34
3.045	3,145	3,05	3.14 NIIHUHIU		3,095	17
3,145	3,245	3,15	3,24 IHIIMIIII		3,195	14
3,245	3,345	3,25	3,34 I	III (Nil	3,295	11
3,345	3,445	3.33	3,44 III		3,395	3
		•				303
Примечания; ]. ДлHFbte взяты на табл. 2.2.
2. Пары чисел, например 2,45—2,54 или 2.В5—3»<А.
обозначают классы группирования или груптровли,
в сами числа называются пределами группировки. (Ми
говорим, например: .имеется 1С группироввх вариа-
ционного ряда* или „пределы группировок добраны
удач но* Л Числа 2,46 н 2.95 иьлмю^ся нижними пре-
делами группировок- Обозначим sth пределы через j
Тогда для 1 рассмятривдехых rpyi’TZEpoBoK jli = 2,45
я 1Д»=2,95- Два другие числа" являются верхними пре-
делами группировок и обозначаются через uLj- L Таким
образом, u£i=2i54 и иД<=3»(М. Числа 2,445—2.545
представляют собой границы гругпировкн в обоэна*
чаются через jJk и В{ соответственно; величины Х^ яв-
ляются средними точками» а величины f -— частот мн.
Разность . J называется «rw/шной группировки.
В рассматриваемом распределении частот ширина груп-
пировки составляет 0.G9. Чаше используется понятие
«интервал группировки*. Последний есть разность меж
ду верхней и нижней границами !руппнровок. между
Нижним hzh верхним пределом или между средними
точками соседки* f рупшровск: с=цВ.— |Bfr намр«м< р.
с= jLr— jf-t=0,10, или C^UI8—uf 1 или с^Хд—Ха =
5=0.10. ес-К расгреде.-ен1е имеет равнее интервалы
гружтпровок. Е. гн пределы 1руппирояок имеют еВД
2,45—2,55 и 2.55—2,65, ТО различие между границами
и пределами группировок исчезает; ice различаются
в этом случае также ширина и ишервал группировки-
зывать в одной таблице и пределы
и границы группировок.
В распределении частот, предста-
вленном в табл. 2.5, интервал отли-
чается от ширины группировки. Ши-
рину определяют, вычитая iLi из
и£(, а интервал с вычисляют как
разность между границами или ме-
жду двумя соседними средними точ-
ками.
Внутригрупповые средние точки,
обычно обозначаемые буквами X
и У, лежат точно по середине груп-
пировки или (что то же самое) на
равном расстоянии от ее границ
независимо от того, равны или нет
между собой интервалы и ширины
группировок; средние точки Xi вы-
числяются по формуле/£<+(и£<—
—i£f) /2. Для упрощения вычисле-
ний можно использовать формулу
X _ —	j_ t+	+ i^l
1	2 г 2	2
Из табл. 2.5 находим Х3=(2,65+
+2,74)/2 =2,695. В распределении
частот с равными интервалами для
16
вычисления всех средних точек до-
статочно определить только одну
среднюю точку и затем прибавлять
(или вычитать) интервал (но не
ширину). Если средняя точка пер-
вого класса A'i—20, а с=2, то
А2=22, Аэ=24 и т. д.
Распределение частот можно счи-
тать очень полезным статистичес-
ким инструментом, так как с его
помощью из собранных статистика-
ми данных мы немедленно получа-
ем обширную информацию. Мало
что можно сказать о зарплате слу-
жащих двух разных фирм, если в
распоряжении исследователя лишь
две пачки карточек, заполненных
цифрами. Но даже беглый про-
смотр двух распределений частот
делает возможным их подробное
сопоставление. Можно сразу ска-
зать. какая зарплата наиболее ти-
пична (мода), сколько людей по-
лучают зарплату ниже и выше моды
и какова вариация зарплаты.
Когда такие сопоставления про-
водятся для двух или более распре-
делений частот, необходимо разли-
чать, в каких случаях распределе-
ние представляет выборку, а в ка-
ких генеральную совокупность. В
то время как сопоставление двух
или нескольких генеральных сово-
купностей дает точную информа-
цию, сравнение выборочных данных
дает приближенную информацию о
связи между распределениями ча-
стот, из которых берутся выборки.
Для примера предположим, что
средняя зарплата в фирме А рав-
на 2,5 долл., а в фирме В —
2.8 долл. Если эти средние значе-
ния вычислены из генеральных со-
вокупностей, то мы можем сказать,
что разность зарплат составляет
ровно 0,3 долл. Если же средние
получены на основе выборочных
данных, то нельзя быть уверенным,
что разность между всеми зарпла-
тами служащих фирмы А и фирмы
В точно равна 0,3. Мы можем ска-
зать только, что эта разность приб-
лизительно равна 0,3 долл.
Другими словами, распределение
частот, представляющее все зар-
платы и оценки всех студентов или
длины всех булавок, дает точную
информацию о той или иной гене-
ральной совокупности. Распределе-
ние частот выборочных данных
представляет собой более или ме-
нее точную аппроксимацию распре-
деления, из которого берутся вы-
борки. И, конечно, одна из задач
книги — сделать интуитивный тер-
мин «приблизительно» более стро-
гим и понятным.
2.2.1. Пределы группировок и
внутригрупповые средние точки.
Число группировок
Приведенные выше замечания
касались интерпретации данных.
В общем же построение распреде-
лений частот не зависит от того,
рассматриваются ли выборочные
данные или генеральная совокуп-
ность, Степень того, насколько хо-
рошо распределение частот описы-
вает исходные данные (выборки
или генеральной совокупности), оп-
2—232
ределяется числом группировок и»
выбором внутригрупповых средних
точек. Здесь следует напомнить,,
что распределение частот может
быть сконструировано одним из
двух способов: 1) сначала выбира-
ют средние точки, а затем строят
относительно них (если это необ-
ходимо) пределы; 2) сначала
строят группировки, а затем по»
приведенной выше формуле вычис-
ляют для них средние точки. Про-
иллюстрируем оба метода на при-
мерах.
Рассмотрим данные табл. 2.1'
(длины булавок) и предположим,,
что мы можем выбрать между
двумя видами распределений. Одна
имеет интервал группировки, рав-
ный 2.' Разность между наиболь-
шим и наименьшим значением дли-
ны (вариационный размах) состав-
ляет 12. Если 12 разделить на 2,
получим 6: для данного случая это-
будет приблизительно 6 группиро-
вок. Следовательно, пределы могут
быть такими (10-3 дюйм): 244—
245, 246—247, 248—249 со средни-
ми точками 244,5; 246,5; 248.5 Те-
перь заметим, что наименьшая раз-
ность между длинами равна едини-
це. Это означает, что если мы вы-
берем интервал, равный единице,
то должно .быть 13 группировок.
Поэтому представляется, что в дан-
ном случае следует начинать не с
группировок, а со средних точек
(таких, как 244, 245.,.), а потом
(если это необходимо) достроить
к ним группировки (например,
243,5—244,4; 244,5—245,4...). Тог-
да получим распределение, приве-
денное в табл. 2.4.
Но какое распределение лучше:
с 6 (здесь не приводится) или с
13 группировками? Распределение-
с 13. группировками кажется более
подходящим по двум причинам.
Во-первых, но числу группировок.
В первом распределении слишком
мало группировок, так что часть
информации, содержащейся в дан-
ных. остается не раскрытой. Второе
распределение дает более полную
информацию о данных. Другая при-
IT
чина заключается в том, что неко-
торые статистические значения
(такие, как среднее арифметиче-
ское или среднее квадратическое
отклонение), полученные из второ-
го распределения, точно равны тем,
которые можно получить из всего
ряда данных. В общем, не слишком
хорошо, если интервал больше наи-
меньшей разности двух значений
из ряда чисел, на основе которого
•строится распределение частот. Оба
замечания не исключают возмож-
ности построения хорошего распре-
деления частот с 6 группировками.
Если бы, например, длина була-
вок 1 колебалась в интервале
(247—253) -10~3 дюйма, то 6 груп-
пировок было бы вполне доста-
точно.
Во втором примере распределе-
ние частот строится для списка
зарплат, приведенных в табл. 2.2.
Так как в основе этого распределе-
ния лежат средние точки, а не
группировки и, следовательно, ин-
тервал равен наименьшей разности
двух значений исходных данных,
то статистические характеристики,
вычисленные из этого распределе-
ния, будут равны аналогичным ха-
рактеристикам, полученным из ис-
ходных данных. Но, несмотря на
это преимущество, построенное
таким образом распределение не
будет «хорошим» распределением
частот. Число группировок здесь
окажется слишком большим, а это
так же плохо, как и если бы оно
было мало. В данном случае сле-
дует выбрать распределение с мень-
шим числом группировок.
В табл. 2.2 такие значения, как
2,5; 2,6; 2,7, встречаются чаще,
чем другие. Следовательно, целе-
сообразно рассматривать эти зна-
чения как внутригрупповые сред-
ние точки. Средние точки служат
характеристиками данных, входя-
щих в те или иные группировки.
Идеальная средняя точка должна
быть средней из этих данных. Чем
1 Здесь и дальше длина булавок из-
меряется в тысячных долях дюйма.
18
Таблица 2.6. Распределение частот
(оценки по курсу „Статистика")
ъ» г* £1	xi 	h	
42—5]	46,5	5	0.5
52—61	56.5	3	0,3
62—7)	66,5	I	o.l
72-81	76,5	8	0,8
82—91	86.5	8	0,8
92—101	96,5	8	0,8
102—111	106,5	15	1,5
112—121	1)6,5	12	1,2
122—131	126,5	зо	3
132—141	136,5	18	1,° 0,3
142—151	146,5	3	
В		III	
Прммечднн	е. Данные взягщ не тя-лл.		2.3.
ближе выбранная средняя точка к
идеальной, тем меньше разность
между статистическими значения-
ми, полученными из исходных дан-
ных, и значениями, полученными из
распределения частот.
Третий и наиболее распростра-
ненный случай иллюстрируется
данными табл. 2.6. Чтобы получить
этот вариант распределения, вы-
числяют вариационный размах и
делят на число группировок. Раз-
мах здесь равен 145—43=102. Ес-
ли разделить его, скажем, на 10
(значение интервала), то число
группировок приблизительно равно
10 с интервалом группировок 10.
Нижний предел IL} первого класса
может быть меньше минимального
значения, например равен 42. Что-
бы получить ]£г, надо суммировать
интервал и \Ц. Значение иЕ2 полу-
чают, суммируя 51 и интервал (оно
равно 61) ит. д.
Распределение частот можно
сконструировать за несколько ми-
нут. Однако, если это будут делать
два человека, весьма вероятно,
что они получат разное число груп-
пировок и разные пределы
Для одинаково хороших распре-
делений число группировок можно
варьировать в различных преде-
лах. Эта «разумность» определяет-
ся 10—15 группировками. Редки
случаи, когда требуется больше
25 группировок и меньше 8. Суще-
ствуют формулы для построения
«оптимального» распределения ча-
стот, но они используются редко
Одна из причин этого заключается
в том. что не всегда легко ответить
на вопрос: оптимально относитель-
но чего — среднего, моды, интер-
вала.
2.2.2. Другие виды распределений
Если исходные данные содержат
больше трех значений, может быть
использован следующий вид рас-
пределения частот:
2010 и менее 2025
2025 и менее 2040
2040 и менее 2055
Здесь uLj равно 2025, а не 2024.
Однако эта разница для большин-
ства случаев не играет большой
роли, и, например, выраженная в
процентах разность между средни-
ми, вычисленными из этого и «пра-
вильного» распределения, также бу-
дет незначительной Разумеется,
границы, и пределы в таких распре-
делениях не различаются.
Другой вариант открытого свер-
ху и снизу распределения имеет
вид:
менее 25
25—29
30—34
45—49
50 и более
Это распределение используется,
в частности, тогда, когда в начале
или в конце (или в начале и в кон-
це) упорядоченных по значению
данных (вариационного ряда)
имеются резко выделяющиеся зна-
чения — очень маленькие или очень
большие относительно большинства
значений — так называемые выбро-
сы.
Наконец, может быть построено
распределение частот с неравными
интервалами группировок. Рассмот-
рим, например, числа, упорядочен-
ные по возрастанию, причем внут-
ригрупповые средние возрастают
с нарастающей скоростью: 2, 3, 3,
2*
5. 6, 8, 8, 8. 15, 17, 25, 25, 36. 37,.
48, 61. 62. 67, 80, 80, 130, 135, 179,.
185, 186, 271, 275, 280. Разность
между наименьшим и наибольшим
числом равна 278. Если выбрать
небольшой интервал, например с=
= 2, то будем иметь 278/2=139
группировок. С другой стороны, при
с=50 число группировок будет
равно 6. В последнем случае рас-
пределение частот имеет вид:
	h	к	h
0—49	!5	150— J 99	3
50- 99	5	200—249	0
100-149	3	250—299	3
Однако если мы используем вмес-
то равных возрастающие интерва-
лы, то- получим более удобный вид.
распределения. Меняя размер ин-
тервала, можно получить практиче-
ски любой вид распределения. Сле-
довательно, можно сделать вывод,
что, если предварительно не выбран
удачный критерий, при построении
распределений с неравными интер-
валами будет очень велик элемент
произвольности.
2.3. ПОЛИГОН И ГИСТОГРАММА
ЧАСТОТ
К графическому изображению
распределения частот прибегают,
чтобы прядать данным наглядность
и тем самым облегчить необходи-
мые сопоставления или оценку ви-
.да распределения, построенного на
основе генеральной совокупности
или выборочных данных.
Придание наглядности данным
позволяет делать как вполне обос-
нованные, так и интуитивные сопо-
ставления, В связи с этим необхо-
димо иметь в виду следующий мо-
мент. Как уже отмечалось, в ко-
нечном итоге все статистические
вычисления и графики необходимы
для сопоставлений. Очень часто до-
статочно одного графика или од-
ного среднего значения. По это бы-
вает только тогда, когда предмет
19>
t
i
4
t
Г
Г
исследования настолько ясен, что
лет необходимости в дополнитель-
ной информации. Например, мы в
•США хорошо представляем себе,
что такое доход 25 000 долл Одна-
ко мало людей в США понимают,
насколько велики доходы 25 000
фунтов стерлингов и 25 000 лир в
других странах. Таким образом, в
последних двух случаях недостаточ-
но одного значения или одного гра-
фика.
2.3.1. Дискретные и непрерывные
данные
Другой важный момент с точки
зрения рассматриваемого здесь ма-
-териала — это различие между
дискретными и непрерывными дан-
ными или просто между дискретны-
ми и непрерывными переменными.
Результаты, полученные с помощью
всякого рода измерений, обычно не-
прерывны, а результаты подсчетов
дискретны. Это не значит, что дис-
кретные данные получаются лишь
в результате счета целых чисел.
Дискретные данные — это фикси-
рованные числа, обозначающие,
например, число людей, зверей
или отношения вида 2/3, 2/4, 2/5.
Вообще говоря, данные, получен-
ные в результате измерения или
подсчета, будут считаться дискрет-
ными, если получение значений,
лежащих между двумя соседними
измерениями, невозможно или бес-
смысленно. Если ботинки делают
размером 8. 8*/s. 9 и т. д., то лю-
бое значение между указанными,
бессмысленно. Если в магазине
работают 5 человек, то продолжить
ряд влево и вправо можно лишь
числами 4 и G, а не 4,9 и 5,1, так
как нельзя сказать, что в магази-
не работают 5,1 человека. Конечно,
при вычислении средних могут ис-
пользоваться числа вида 5,1, и они
-будут иметь смысл.
Непрерывные данные получают
-тогда, когда разность между двумя
измерениями как угодно мала. При-
мерами такого рода служат высота
.деревьев, масса человека и живот-
20
кого, длина гвоздей, давление в
шинах автомобилей и непрерывные
математические функции. Однако,
. чтобы обнаружить очень малень-
кую разницу, нужны сверхчувстви-
тельные инструменты. Для измере-
ния бесконечно малых различий
инструментов не существует.
При использовании выборочного
метода, когда проводится конеч-
ное число измерений объекта, для
которого можно бесконечным чис-
лом измерений получить бесконеч-
но малые различия в измеряемых
значениях, обращаются с результа-
тами, как с дискретными данными.
Число значений длины всех изго-
товленных булавок бесконечно.
Здесь можно говорить о бесконечно
малых различиях длин булавок.
Однако если измеряется конечное
число булавок, например 300, как
показано в табл. 2.1, то длины этих
булавок представляют собой дис-
кретные данные.
Изложенное выше ведет к сле-
дующим общим определениям и
обозначениям. Предположим, что
объект имеет характеристики, опи-
сываемые некоторыми числами.
Обозначим совокупность этих чи-
сел буквой X (или У или Z), назо-
вем ее переменной и примем, что
эта переменная непрерывна, если
она может принимать любое дей-
ствительное значение из некоторого
интервала. Дискретную перемен-
ную обозначим Х{. В примере с
ботинками Х]=8, X*— 8‘/г, Х3=
—9... Для обозначения суммы чи-
сел используем знак 2. Непрерыв-
ная переменная обозначается бук-
вой без индекса. Если определены
пределы изменения этой перемен-
ной а и Ь, то a<_X<Zb. Для сум-
мирования непрерывных величин
используется интеграл. Итак, еще
раз: Xi и с/ (с индексом) обознача-
ют дискретную переменную; X (без
индекса) интерпретируется как не-
прерывная переменная, а символ с
(без индекса) используется для
обозначения постоянной величины.
Пытаясь представить распределе-
ние частот графически, мы долж-
«ы прежде решить, как представить
частоты, как упорядочить горизон-
тальную шкалу, каковы должны
быть соотношения между верти-
кальной и горизонтальной шкала-
ми. Рассмотрим эти проблемы по
очереди.
2.3.2. Графическое изображение
частот
Частоты характеризуются либо
высотами, либо площадями, либо
и тем и другим. Для интервала
с=1 высота и площадь имеют оди-
наковые значения. Методы графи-
ческого изображения частот лучше
всего иллюстрировать на примерах.
Вертикальные линии. На рис. 2.1
приведены оценки по курсу «Стати-
стика». По оси абсцисс откладыва-
ются средние точки распределения
частот из табл. 2.6; частоты изо-
-бражаются соответствующими вер-
тикальными линиями. Горизонталь-
ная шкала не маркируется средни-
ми точками. Здесь интерпретация
вертикальных линий аналогична
интерпретации частот в распределе-
нии частот: показано, сколько раз
данная средняя точка встречается
в распределении. Напомним, что
средняя точка является усреднен-
ной характеристикой группы дан-
ных, входящих в некоторую груп-
пировку.
Гистограмма. То же распределе-
ние частот может быть изображе-
но в виде прямоугольников, или,
зи
АЪ
5*1
В Ю
$
о
Рис. 2.1. Оценки по курсу «Статистика»
(частота представлена высотой линии; дан-
ные взяты из табл. 2.6)
Рис. 2.2. Гистограмма для оценок по ста-
тистике (частота пре дета плетя высотой
прямоугольников; данные взяты из табл.
2.6)
как обычно говорят, гистограммы
(рис. 2.2). Здесь значения границ
откладываются по оси абсцисс и
на нее накладываются прямоуголь-
ники. Ось абсцисс — это шкала, по
которой можно откладывать что
угодно, т. е. ее не обязательно мар-
кировать границами. Важно отме-
тить также, что в рассматриваемом
случае частоты изображаются вы-
сотами прямоугольников, но не их
площадями.
Для представления частот в ви-
де площадей прямоугольников на-
до, чтобы ch{—fi. Для неравных
интервалов формула имеет вид
dhi=fi. Неизвестные значения Л,
можно найти из равенств hi=fi/c
или ht—fi/Ci. Вместо Л/ удобнее ис-
пользовать обозначение f'it тогда
формулы примут ВИД f'i = filc или
f'isszfi/d. Отметим, чт<Т если с,-< 1,
то а если с«>1, то
Полезно отметить, что в гисто-
граммах, где частоты изображают-
ся высотами прямоугольников,
(кроме случая, когда
с=1). Если изображаются преоб-
разованные частоты f'i, то на соот-
ветствующей им гистограмме
2 cvf'i=^ fi.
Если интервалы распределения
частот одинаковы, то гистограммы
для ft и if'( сходны. Для перемен-
* Величины f't соответствуют тому,
что в теории вероятностей и статистике
принято называть плотностью распределе-
ния. — Прим. ред.
21
Оценка, балл
Рис. 2.3. Оценки по курсу «Статистика»
(частота изображается ординатами средней
точки интервала)< Полигон для с—lC пред-
ставляет распределение из табл. 2.6; поли-
гон для с^5 — из табл. 2.3 (соответствую-
щее ему распределение частот в книге не
приводится)
кого интервала закономерность
другая. Например, в табл. 2.6
приводятся три границы: 71.5 —
81,5; 81,5—91,5; 91,5—101,5 с f4=
=s/s—f6=8. Но предположим, что
вместо соответствующих им трем
группировкам рассматривается од-
на группировка с границами 71,5—
101,5 и частотой f^—S. Эго
значит, что предполагаем, будто
не 8+8+8=24, а всего 8 студен-
тов получили оценки в диапазоне
71,5—101,5 баллов.
Однако график fi для этого рас-
пределения будет аналогичен гра-
фику рис. 2.2 за исключением того,
что в нем будут отсутствовать две
вертикальные линии между 75,5 и
101,5. Конечно, такой график не от-
ражает особенности последнего
распределения. Поэтому при пост-
роении гистограмм для частотных
распределений с переменными
должны использоваться f'i.
В распределениях с постоянным
интервалом с также следует разли-
чать fi и f'i, но так как гистограм-
мы для них имеют одинаковый вид,
достаточно рассмотрения одной,
использующей значение
Полигон. Распределение оценок
по курсу «Статистика» с интерва-
лом с—10 изображено на рис. 2.3.
Эта кривая называется полигоном.
Горизонтальная ось но маркирует-
ся ни средними точками, ни грани-
22
цами. По оси абсцисс откладываются
средние точки, а по осн ординат.—
соответствующие им частоты, а за-
тем все точки соединяются прямы-
ми линиями. Площадь под этой
ломаной не равна сумме частот.
График можно иллюстрировать
следующим примером. Вторая груп-
пировка в рассматриваемом рас-
пределении 52—61 имеет границы
51,5—61,5, Х=56,6 и частоту /а=
=3. Чтобы найти точку f2=3 на
графике (т. е. чтобы найти число*
студентов, попавших в эту группи-
ровку), надо отметить среднюю точ-
ку группировки на оси абсцисс и
отмерить высоту, ординаты полиго-
на в этой точке. Можно также ут-
верждать, что полигон показывает,
сколько раз та или иная средняя'
точка встречается в распределении.
Однако было бы неверным отме-
тить на горизонтальной оси какую-
либо другую произвольную точку"
(например, 61),’ отмерить соответ-
ствующую ей ординату кривой по-
лигона и сказать, что это значе-
ние показывает, сколько раз эта1
точка встречается в-распределении.
Итак, если с+1, то график полиго-
на, построенный для ненриведен-
ных частот, имеет смысл интерпре-
тировать лишь для средних точек.
Сравнение графических представ-
лений с помощью ординат и пло-
щадей. Разница между графическн-
«7	60	80 1OD 120	140
Оценка,Оаял
Рис. 2.4. Оценки по курсу «Статистика»
(частоты изображаются площадями плд
участком кривой, ограниченным соответст-
вующим интервалом). Частоты f'i для по-
лигона с с--=10 взяты на табл. 2.6; f'i для
полигона с с=5 в книге не приводятся
ми представлениями распределения
частот с помощью ординат и пло-
щадей видна из рис. 2.3 и 2.4. На
рис. 2.3 изображены два полигона
двух распределений частот, по-
строенных на основе одних и тех
же данных, но с разными с: 10
(см. табл. 2.6) и 5 (таблица не
приводится).
На графике ясно видна разница.
Несмотря на то, что суммы частот
для обоих распределений равны,
площадь, ограниченная кривой для
с=10, больше площади, ограни-
ченной кривой для с=5. Таким об-
разом, графические ' изображения
одних и тех же данных могуг внес
тн нас в заблуждение.
Кривые на рис. 2.4 получены для
частот, вычисленных по формуле
f'i=fifci. В этом случае площади,
ограниченные обеими кривыми, рав-
ны и, следовательно, визуально
отражают тот факт, что суммы ча-
стот в обоих распределениях рав-
ны.
Интерпретация графика на
рис. 2.4 с приведенными частотами
(плотностями распределения) су-
щественно отличается от интерпре-
тации графика на рис. 2.3. В пер-
вом случае мы не можем, отметив
среднюю точку на оси абсцисс и
измерив соответствующую ей орди-
нату полигона, сказать, что имен-
но эта ордината показывает, как
часто в распределении встречается
данная средняя точка. Здесь следу-
ет выбрать обязательно две точки
на горизонтальной оси и вычис-
лить площадь, ограниченную поли-
гоном и вертикальными линиями,
проходящими через эти две точки.
Только тогда можно сказать, что
оценки между 69—72,3 повторяют-
ся, например, «столько-то раз», где
величина «столько» равна указан-
ной площади.
Дальше мы будем иметь дело с
различными непрерывными кривы-
ми. Интерпретация таких кривых
(например, нормальной кривой)
аналогична приведенной выше.
Рассматриваться будут либо орди-
ната кривой в некоторой точке X,
либо площадь, ограниченная этой
кривой и вертикальными линиями,
проведенными через две точки.
Площадь сравнивается с частотой
попадания исходных данных в ин-
тервал между этими двумя точка-
ми.
Если распределение частот стро-
ится на основе дискретных данных
и хотят из графика найти число
объектов между 12 и 15 (или пло-
щадь под кривой между точками
12 и 15), то следует вычислить
площадь, ограниченную кривой и
вертикалями в точках 11,5 и 15,5,
т. е. вертикалями, проходящими
через точки, лежащие на половин-*
ном расстоянии между 12 и сле-
дующим значением слева и между
15 и следующим значением справа.
Позднее будет показано, почему
необходимо поступать именно та-
ким образом.
Следует отметить еще один мо-
мент. Сравнивая графики полиго-
нов для с=10 на рис. 2.3 и 2.4, мы
видим, что они совершенно иден-
тичны. Как и в случае гистограмм,
это объясняется тем, что переход
от fj к f'i при постоянном интерва-
ле не отражается на динамике
кривой. Очевидно, что для пере-
менных интервалов с,- полигоны
различны.
Гистограмма и полигон для е=1.
При построении гистограммы на
рис. 2.5 для распределения длин
Рнс. 2.5. Гистограмма распределения длин
стальных булавок с с=1 (частота пред-
ставлена и высотами, и площадями; дан-
ные взяты из табл. 2.4)
23
Рис. 2.6. Полигон распределения длин
стальных булавок (частоты изображаются
ординатами" средних точек и площадями;
данные взяты из табл. 2.6)
булавок на горизонтальной оси от-
кладывали средние точки, взятые
из табл. 2.4. Ширина ступенек ги-
стограммы равна границам. Так
как с=1, то высота каждой сту-
пеньки равна ее площади и сумма
всех площадей равна сумме всех
частот.
На рис. 2.6 приведен график по-
лигона для тех же данных. Как и
на рис. 2.4, здесь площадь под
кривой приблизительно равна сум-
ме частот.
График на рис. 2.6 можно ис-
пользовать двояко: если по горизон-
тальной оси откладываются сред-
ние точки, то измеряются ордина-
ты кривой, если же такие значе-
ния, как 245,5 -246,5 или 252,5—
254,5, то вычисляется соответст-
вующая часть площади под кривой.
В этой связи при графическом
изображении частот можно следо-
вать такому упрощенному правилу.
При с=1 могут быть использова-
ны и полигон, н вертикальные ли-
нии, и гистограмма.
При график вертикальных
линий строится лишь для исходных
частот. Для плотностей распреде-
ления удобнее использовать поли-
гон, чем гистограмму. При пост-
роении гистограмм предполагает-
ся, что все значения внутри груп-
пировки, изображаемой одной сту-
24
пенькой гистограммы, имеют оди-
наковую частоту. Это, конечно,
очень редкий случай.
Наконец, для распределений с
неравными интервалами следует
строить графики вертикальных ли-
ний, или полигоны для приведен-
ных частот (плотностей распреде-
ления)
В случае распределения с равны-
ми интервалами, когда целью гра-
фического изображения является
лишь наглядность вне связи с дру-
гими распределениями, можно не
переходить к .плотностям распреде-
ления. Как было показано выше,
переход к плотностям для распре-
делений с равными интервалами не
меняет вида кривой.
Во всех других случаях и осо-
бенно если требуется сравнить два
или более распределений (рис. 2.7),
следует перейти к плотностям рас-
пределения.
Итак, сформулируем:
1) с=1, используем графики
гистограмм, вертикальных линий и
полигона;
2) с#=1, hq константа (распре-
деления с равными интервалами):
а) в случае одного распределе-
ния на графике нет необходимости
переходить к плотностям распреде-
ления Используем графики верти-
кальных линий и полигона (но не
гистограмму);
б) при сравнении двух -и более
распределений с постоянными и
равными интервалами также нет
Оценка,б алл
Рис. 2.7. Оценки по курсам «Статистика»
(У) и «Исследование операций» (2)‘
I— сведения об оценках взяты из табл 2.6; 2 —
сведения об оценках в книге не приводятся
необходимости переходить к плот-
ностям распределения;
в) при сравнении двух и более,
распределений с постоянными, но
разными значениями интервалов с
(рис. 2.7) следует перейти к плот-
ностям распределения и изобразить
их на одном графике;
3) неравные интервалы: в слу-
чае одного распределения исполь-
зуем графики вертикальных линий
или полигонов для плотностей рас-
пределения; при сравнении двух
или нескольких распределений ис-
пользуем только полигоны для
плотностей;
4) основное правило: при графи-
ческом изображении выборочных
распределений, порождаемых с по-
мощью непрерывных измерений,
всегда удобно использовать пати-
гоны.
Дополнительное замечание о
площадях. Под кривой полезно еще
раз коротко описать способ интер-
претации графиков с плотностями
распределения
Как уже говорилось, если часто-
ты изображаются высотами, то
можно, выбирая границы (или пре-
делы), установить, сколько элемен-
тов вариационного ряда попадает в
•ограничиваемую ими группировку,
либо, фиксируя средние точки, оп-
ределить, сколько раз они повто-
ряются в распределении. Никакие
другие показатели не могут откла-
дываться по горизонтальной шкале,
и никакие другие способы интер-
претации не могут использоваться.
Если же частоты пересчитаны в
плотности распределения и площа-
ди под кривыми, то таких ограни-
чений не существует. Кроме того,
ордината (и это особенно следует
подчеркнуть) над каждой точкой
горизонтальной шкалы представля-
ет собой лишь ординату кривой, но
не частоту. Эти ординаты исполь-
зуются следующим образом: пред-
положим, что мы хотим получить
приблизительную оценку из
рис. 2.6 (а это может быть единст-
венная доступная нам информация
о распределении) того, сколько
студентов получили оценки в ин-
тервале от 100 до 120 баллов. (За-
метим, что эти два значения не яв-
ляются ни средними точками, ни
границами.) Чтобы получить та-
кую опенку, надо разделить интер-
вал между этими двумя точками
на малые равные отрезки. Обозна-
чим длину каждого отрезка через
ЛХ. Измерим ординаты средней
точки каждого из отрезков, умно-
жим их на ДХ, сложим и получим
2ДХЛ{. Сумма этих прямоугольни-
ков приблизительно равна площади,
ограниченной кривой и двумя вер-
тикалями: Х'е=100 и Х"=120. Эта
площадь приблизительно соответ-
ствует числу студентов, получив-
ших оценки в интервале 100—120
баллов.
2.3.3. Разметка горизонтальной
шкалы
Разметка горизонтальной шкалы
осуществляется в соответствии с
некоторыми принципами. Если ча-
стоты представляются вертикаль-
ными линиями или ординатами, то
по горизонтальной шкале можно
откладывать либо средние точки,
либо границы группировок. Обыч-
но, если с=1 (см. рис. 2.5 и 2.6),
лучше брать средние точки. Однако
на рис. 2.1 и 2.2 мы не следуем этой
рекомендации. На обоих рисунках
используется универсальная шкала
Она не противоречит методу, одна-
ко очевидно, что использование
средних точек или границ облегчи-
ло бы интерпретацию обоих гра-
фиков. Такая универсальная шкала
удобна, если на одном графике
изображается несколько распреде-
лений, границы группировок у ко-
торых различны (см. рис. 2.3 и 2.7).
Для одиночных полигонов следует
использовать средние точки, если
только это не полигоны с плотно-
стями распределения, для которых
исходные частоты представляются
площадями. В последнем случае не
имеет существенного значения, как
размечать горизонтальную шкалу.
25
2.3.4. Масштабирование
вертикальной и горизонтальной осей
Соотношение между вертикаль-
ной и горизонтальной осями может
носить и не носить информативно-
го характера. При разном соотно-
шении между ними одно и то же
распределение частот может иметь
более или менее острые пики.
Не существует строгого крите-
рия, определяющего выбор соотно-
шения между масштабами двух
осей. Можно сказать только следую-
щее: иногда удобно рассматривае-
мые данные изображать таким обра-
зом, как изображают некоторые
математические функции или теоре-
тические распределения (например,
нормальное распределение). Ио, с
другой стороны, решение о масш-
табировании осей должно опирать-
ся на знание задачи. Каждый ис-
следователь должен задаться воп-
росом: является ли, с точки зре-
ния данной задачи, характер пиков
информативным.
Это может быть проиллюстриро-
вано на примере изменения двух
показателей — индекса промыш-
ленного производства и учетной
ставки ценных бумаг. Например,
2%-ное изменение учетной ставки
(рост от 4 до 6%) является суще-
ственным скачком. Такое же изме-
нение в ряду индекса промышлен-
ного производства (рост от 120 до
122%) менее значимо. Следователь-
но, изображать оба графика в од-
ном масштабе вряд- ли имеет
смысл.
2.3 5. Относительные частоты
(частости)1
Иногда сравнение двух полиго-
нов облегчается, если разделить
каждую частоту на сумму частот,
т. е. получить относительные часто-
ты (частости) для первого (J* =
1 В советской статистической литера-
туре относительные частоты называются
частостям». — Прим. ред.
26
=	и второго (г/".=
= iftSift) распределений. Проил-
люстрируем задачу на искусствен-
ном примере распределений из
табл. 2 7, в которых средние точки
совпадают2. Если же на одном
графике изобразить исходные ча-
стоты обоих распределений, то все
ift будут выше, чем Ji- Какие-либа
сравнения в этом случае сделать
трудно. Конечно, можно было бы
использовать две вертикальные
шкалы и таким образом сделать
графики частот сопоставимыми.
Однако такой способ слишком про-
изволен. Вычисление частостей
удобнее проводить по формулам,
приведенным выше.
Таблица 2.7. Представление частостей
в форме отношений (числовой пример)
	•Ъ			
10	2	19	0,167	0,134
12	4	55	о.ззз	0,387
14		47	0,417	0,331
16	1	21	0,033	0,148
	—			—
	12	142	.1.00	1	1.00
Все знамечаиня, касающиеся гра-
фических представлений распреде-
лений частот и их интерпретаций,
переносятся на распределения ча-
стостей. Так, при с=1 возможно
представление как ординатами, так
и площадями. При этом сумма ор-
динат и соответствующих площадей
равна единице. При изобра-
жение и интерпретация графиков
аналогичны приведенным выше, но-
не всегда необходимо вычислять
плотности частостей	Од-
нако в этом случае лишь для плот-
ностей частостей сумма площадей
равна единице.
2 Читатель должен помнить, что рас-
пределения с таким малым числом, как
в данном примере, искусственны и исполь-
зуются лишь из стремления сэкономить пе-
чатное пространство и уменьшить число
вычислений.
В связи с частостями следует от-
метить еще один важный случай
графического сопоставления распре-
делений, Что делать с распределе-
ниями частот при постоянных, но
не равных с, если для одного
из распределений существенно от-
личается от Sft другого? В этом
случае сначала надо получить час-
тости	затем найти плот-
ности частостей	а потом
уже изобразить их на графике.
Выше мы рассмотрели основные
идеи, касающиеся графического
изображения распределений частот.
Это очень важный элемент стати-
стического анализа, и не следует
отказываться от его использования.
Другими словами, это наиболее
удобный метод, который следует
принять на вооружение вместо бо-
лее сложных или аналитических
методов.
Еще один важный случай ис-
пользования частостей будет рас-
смотрен в дальнейшем. Это задачи,
в которых наблюдаемые или полу-
ленные экспериментально распреде-
ления рассматриваются для широ-
кого круга исследований как рас-
пределения вероятностей.
2.3.6. Графическая оценка
генеральной совокупности
. Очень важно использовать поли-
гоны в случаях, когда характер
генеральной совокупности оцени-
вается на основе выборочных дан-
ных. На рис. 2.8 показано, как мож-
Рис. 2.8. Подгонка сглаживающей кривой
к эмпирическим выборочным данным (дан-
ные взяты из табл. 2.4)
но от руки провести сглаживаю-	j
щую кривую, которая будет ап-
проксимировать распределение . .
длин булавок. На следующем ша-	,
ге считываются значения частот с
этой сглаживающей кривой. Сгла-
живающая кривая не должна про-
ходить через точки максимальной	'
и минимальной частот, а скорее
где-то между ними. При такой
оценке генеральной совокупности
на основе выборочных данных
следует принимать во внимание
объем выборки. В дальнейшем мы
подробнее остановимся на этом воп-
росе. Еще раз напомним, что, осу-
ществляя сглаживание, мы рассмат-
риваем длины булавок как выбо-
рочные данные.
Получить оценку частот гене-
ральной совокупности (индекс
е — «опенка»)1 можно следующим
образом.
1. Если частоты исходного рас-
пределения задаются не в форме
плотностей	т. е. если ча-
стоты изображаются ординатами,-
как на рис. 2.8, то просто считыва-
ются ординаты в средних точках
сглаживающей кривой. Например:
х<		
244	I	
245	3	
246	5	й
Затем подсчитывают и если
то подправляют соответ-
ствующим образом каждое с/ь При
каждое значение Уве-
личиваем, а при	каждое
efi уменьшаем пропорционально с
ПОМОЩЬЮ множителя ni—hfifSefi.
2. Если частоты исходного рас-
пределения задаются в форме плот-
ностей, то горизонтальную ось сле-
дует разделить на маленькие отрез-,
ки АХ (где границы АХ. могут сов-
падать со значениями границ груп-
пировок и, следовательно, длина
’ Первая буква английского слова es-
timate. — Прим. ред.
27
АХ равняется интервалу с); затем
считываем ординаты сглаживаю-
щей кривой в средних точках от-
резков. Обозначая эти ординаты
через f(Xi), получаем оценки ча-
стот по формуле cfi=AX f(Xt).
В случае несовпадения соответст-
вующих сумм подправляем каждое
значение е/< с помощью множите-
ля т. В обоих случаях оцененные
частоты могут быть заменены час-
тостями	которые ин-
терпретируются как вероятности.
Эта процедура часто используется,
когда характер распределения оце-
нивается на основе выборочных
данных.
2.4.	КУМУЛЯТИВНЫЕ
РАСПРЕДЕЛЕНИЯ ЧАСТОТ
Кумулятивные распределения ча-
стот (КРЧ) полезны при составле-
нии и изучении статистических таб-
лиц, при оценивании вида распре-
деления генеральной совокупности
на основе выборочных данных, при
вычислениях таких статистических
характеристик, как квартили, меди-
аны, процентили. В определенных
случаях они дают оценку средней
и средней квадратической погреш-
ности. В настоящем разделе чита-
тель познакомится с построением,
графическим изображением и ин-
терпретацией КРЧ. Другие момен-
ты, касающиеся этих распределе-
ний, будут обсуждаться по мере
необходимости.

2.4.1.	Построение и интерпретация
кумулятивных распределений
частот
Построение КРЧ можно проиллю-
стрировать примерами из табл. 2.8 и
2.9. В табл. 2 8 приведены значения
частот ft, а также значения частостей
вычисленные по формуле f"i=
Значения границ X'i ис-
пользуются для построения кумуля-
тивных частот, таких, что X<ZX'{.
Интерпретация К,- и F"t очевидна.
Для Х/5=81,5, например, Л=17.
Это значит, что 17 учащихся из всей
28
Таблица 2.8. Кумулятивное
распределение частот (оценки по курсу
„Статистика")
Оценка, балл	Х1	Fi		X'i	Меньше. чем х'<	
					F'i 1	1 .
42-51	4*3,5	5	0.0450	41,5 51.5	0	0.0000
52-61	56,5	3	0,0270		5	0,0450
62—71	63,5	1	0,0090	61,5	6	0,0720
72—81	76,5	8	0,0721	71,5	9	0,0819
R2—91	86.5	В	0,0721	81.5	17	0.1531
92—101	96,5	8	0,0721	91.5	25	0,2252
102—111	106,5	15	0.1351	101,5	33	0,2973
112—121	1>6 5	12	0.1O3I	111,5	4Я	0.4324
122—131	126,5	30	0.2703	121.5	60	0,5*05
132—141	136, >	1В	0.1622	131.5	90	0.810В
142—151	161,5	3	0,0270	141,5	105	0.9730
		Hi	1,0030	151.5	lit	1.0000
Примечание. Данные взяты из табл. 2-3-	'
исследуемой группы (111 учащих-
ся) получили оценки меньше 81,5
балла. Значения F", более инфор-
мативны. Для того же значения
Го=81.5 F"5=0,1531, т. е. 15,3%
всех учащихся получили оценки ни-
же 81,5 балла.
Аналогичный вид имеют много-
численные публикуемые вероятност-
ные таблицы. Используются они.
так, как это было только что пока-
зано. Рассмотрим еще один случай
применения такой таблицы. Иссле-
дователь, имея в своем распоряже-
нии только значения кумулятивных
частостей должен уметь нахо-
Т а блин а 2.9. Кумулятивное
распределение частот (оценки по курсу
„Исследование операций")
Оценка, балл	xi	h	f'i	X'i	Меньше, чем X'i	
					Fi	
71—76	73,5	1	0,0154	70,5	0	0,0300
77-В2	79.5	3	0,0461	76.5	1	0.0154
83—	85.5	[	0,0154	82>>	4	0,0615
89-94	91,5	8	0,1231	88.5	э	0,0769
95—100	97.5	7	0,1077	94.5	13	0,2030
101—136	103,5	7	0.1077	103.5	20	0,3077
107—112	109,5	6	0,0923	106.5	27	0,4154
И .3—118	115,5	2	0.0J08	112.5	33	0.5077
119—124	121,5	9	0,1385	[ 18.5	35	0.5385
125—130	127,5	11	0.1692	124,5	44	0.6770
131—136	133.5	6	0,0923	1-50,5	55	0,8462
137—142	139,5	4	Э.0И5	136,5	61	0.93Й
		65	1 .ои»	142.5	65	1,00!»
Примечание. Исходные данные длн этого рас -
пре деления в книге не пригодятся.
b
дить значения f", или суммы
f=rt
по крайней мере для двух группи-
ровок. Например, очевидно, что
/"в, обозначающее долю учащихся,
получивших оценки в диапазоне
91—101 балл (это пределы группи-
ровки для данных из табл. 2.8),
можно найти вычислением разности
F"7—F"6=0,2973—0,2252=0.0721 =
=f"e- Долю студентов, получивших
оценки в диапазоне 71—] 11 баллов
(в этом случае iLt—72 и UI7=111),
находим, вычисляя разность F"&—
—F”i = 0,4324—0,081 = 0,3514 =
. 7
2	0.3514.
i=4
Если нужно вычислить долю
студентов, получивших, например,
оценки, меньшие 77 баллов, или
оценки между 77 и 95 баллами, то
распределение необходимо интерпо-
лировать. Удобнее всего произво-
дить интерполяции по графику.
Если задачу решают с помощью
довольно подробных статистических
таблиц, то необходимость в интер-
поляции возникает редко. Однако
знать, как интерполируют с по-
мощью вычислений, нужно.
Чтобы оценить долю студентов,
получивших оценки ниже 77 бал-
лов, проводят вычисления в следую-
щем порядке: поскольку значение
Х=77 находится между Х'4 и Xs',
возьмем F"i=0,081 и добавим к не-
му k-ю часть разности F"s—F"i, т. е.
0,081+^(0,1531 -0,081) =0,081+АХ
X (0,721). Значение k можно полу-
чить из равенства k = (X ~Х\)/(Х'5—
—Х'<) = (77—71,5)/(81,5— 71.5) =
=5,5/10=0,55. Таким образом,
вычисляемая доля равна 0,081+
4-0,55 (0,072) =0,1207, т. е. 12,1%
всех учащихся получили оценки ни-
же 77 баллов. (Если рассматривать
оценки в виде совокупности ди-
скретных чисел, то выражение «ни-
же 77 баллов» следует понимать
как «ниже 77,5 баллов»). Итак,при
условии X't<ZX<X'i+i общая интер-
поляционная формула имеет вид:
где ^(Х-Х^ЦХ'^-Х1^
Если доля учащихся, получивших
оценки ниже 95 баллов, вычисляет-
ся с помощью интерполяционной
формулы и составляет 0,2504, то до-
ля студентов, получивших оценки
между 77 и 95 баллами, составит
0,2504—0,1207=0,1297, или прибли-
зительно 13%. Верхние граничные
значения X, например, такие, как
Х'5=81,5 баллов, относительно кото-
рого известно, что 15,3% студентов
получили оценки ниже его, или Х=
=77 баллов, ниже которого полу-
чили 12,1% учащихся, называются
процентилями и обозначаются Рг.
Итак, Р15,з=81,5 и Pu>,i=77, и наши
кумулятивные частости «меньше
чем» равны индексу в выражении
Рг. Интерпретация процентилей
аналогична интерпретации значений
X для частостей F",- КРЧ. Более
подробно процентили рассматрива-
ются в следующей главе. Будет об-
сужден метод вычисления процен-
тилей Рг на основе исходного рас-
пределения (т. е. без построения ча-
стостей F"t КРЧ) Формула вычис-
ления процентилей выводится из
графика огивы 1.
Рассмотренные выше кумулятив-
ные распределения часто интерпре-
тируются как вероятностные. В на-
шем примере вероятность того, что
выбранный случайным образом сту-
дент получит оценку ниже 77 бал-
лов, равна 0,121. Вероятность полу-
чения оценки между 77 и 95 балла-
ми равна 0,13. Оба утверждения-
могут быть формализованы следую-
щим образом: Р(Х<77) и Р(77<
<Х<95). Кумулятивные доли, вы-
численные из различных теоретиче-
ских распределений вероятностей и
опубликованных таблиц, также мо-
гут быть использованы в виде ча-
стостей и вероятностей.
1 В советской статистической литерату-
ре соответствующая кривая называется^
кумулятон. Ошвой называется кривея, ко-
торая получается из кумуляты при пере-
мене местами координатных осей. — Прим,
ред.
29*
2.4.2.	Графическое изображение
кумулятивного распределения
частот
Кумулятивные распределения мо-
гут изображаться в виде графиков,
представленных на рис. 2.9—2.11.
Такие кривые называются кумуля-
тами. Если изображается лишь
одна кумулята, то нет смысла пе-
ресчитывать частоты в частости.
Можно просто разметить вертикаль-
ную шкалу точками либо от 0 до 1,
либо от 0 до 100. Однако необходи-
мо помнить, что 1 или 100 соответ-
ствуют S/,- исходной шкалы.
Чтобы найти, например, оценку,
ниже которой получили 25% уча-
щихся, т. е. найти Р25, надо на вер-
тикальной шкале отметить точку 25
(или 0,25), провести горизонталь-
ную линию до пересечения с куму-
лятой и опустить из точки пересе-
чения ес с кумулятой перпендику-
ляр на ось абсцисс (см. рис. 2.9).
бцеяла, балл
‘Рис. 2.9. Кум у ля гы для распределения оце-
нок по курсу «Статистика» (данные взяты
из табл. 2.8)
Рис. 2.10. Кумуляты для распределения
оценок по курсу «Исследование операций»
(данные взяты из табл. 2.9}
4’5 51,5 81,5 101,5 121,5 W.5
Оцснга, балл
Рис. 2.11. Кумуляты для распределений
оценок по курсам «Статистика» (/) и
«Исследование операций» (2) (данные
взяты из табл. 2.8 и 2.9)
Искомая оценка равна приблизи-
тельно />25=88,5. Позднее мы вве-
дем для нее еще одно определе-
ние — первый квартиль, который
обозначим через Qi. Любой другой
процентиль или фрактиль может
быть найден из графика.
Если надо сравнить две кумуля-
ты, то по вертикальной шкале сле-
дует откладывать только проценты
или отношения (частости). Никогда
не следует проводить аналогии меж-
ду интерпретациями полиюна и ку-
муляты. Ордината кумуляты в не-
которой точке оси абсцисс не то же
самое, что ордината полигона в той
же точке оси.
Это различие иллюстрируется
рис. 2.12 На рис. 2.12,а изображе-
ны графики кумуляты и жирных
вертикальных линий для распреде-
ления оценок по курсу «Статисти-
ка». В точке Х=иВ9=131,5 прове-
дена вертикальная линия, высота
которой равна 90 и соответствует
Fio из табл. 2.8. Если сложить вы-
соты всех вертикальных линий сле-
ва от Х=131,5, то их сумма также
равна 90. Если вместо графика вер-
тикальных линий изобразить поли-
гон, построенный для значений ис-
ходных частот, то его интерпрета-
ция аналогична, т. е. чтобы полу-
чить значение 90, надо сложить все
ординаты полигона в средних точ-
ках, лежащих левее Х=131,5.
Рисунок 2.12,5 представляет со-
бой растянутый по вертикали рис.
2.12,а. Это сделано для того, чтобы
30
W,5 51,5 b\5 W.5 121,5 W,5
йцснга, бела
Рис. 2.12. Кумуляты и графики распреде-
лений частот (данные взяты аз табл. 2.8)
представить оба графика на одном
рисунке. Полигон выглядит неболь-
шим, потому что построен для плот-
ностей	Вертикальная ли-
ния, как и в предыдущем случае,
проведена в точке X—131,5. Ее вы-
сота, как и раньше, равна 90, но ее
соотношение с полигоном другое.
Высота этой линии (для математи-
ческих функций это ордината) при-
близительно равна площади части
полигона, лежащей левее ее. Соот-
ношение между площадью и высо-
той иллюстрируется с помощью тем-
ного прямоугольника в середине
рисунка.
Интерпретация обоих графиков
аналогична: 90 студентов получили
оценки ниже 131,5 балла; разделив
90 на 111, получим число 0,8108.
Теперь можно сказать, что Рвм=
=131,5, или 81,1% студентов полу-
чили оценки ниже 131,5 баллов.
Используя значения f"i и Р"< из
табл. 2.8, можно построить еще два
графика. Вертикальная шкала в
этом случае будет иметь область
значений от 0 до 1; высота вертика-
ли в точке Х=131,5 составит 0.818.
Процентили Рг тогда будут считы-
ваться прямо с графика.
Можно построить также статисти-
ческую таблицу этого распределе-
ния. Для этого следует выбрать 20,
50 или 100 значений X с постоян-
ным ЛХ и вычислить F"i для каж-
дого из них. Статистические табли-
цы для любых других математиче-
ских функций строятся аналогич-
ным образом.
2.4.3.	Кумулятивные распределения
частот для дискретных данных
В дополнение к сказанному выше
следует упомянуть'специальную ка-
тегорию данных — дискретные дан-
ные. Это обычно данные (например,
длины булавок из табл. 2.1), рас-
пределение частот для которых кон-
струируется без построения группи-
ровок и пределов (см. табл. 2.4).
Примером другого такого распреде-
ления частот может быть распреде-
ление, средние точки которого при-
нимают значения I; 5,2; 5,3. Если
исследователь не ставит целью ин-
терполировать, то КРЧ и его гра-
фик могут быть построены несколь-
ко другим способом.
Как видно из табл. 2.10, вместо
выражения «меньше, чем X» ис-
пользуется формула «X или мень-
ше» (хотя кумулятивное распреде-
ление строится по принципу «мень-
ше, чем X»). График на рис. 2.13
построен так, что при считывании
невозможна интерполяция. Напри-
мер, отметив на вертикальной оси
точку 0,25 и опустив из точки пере-
сечения кумуляты и прямой, парал-
лельной оси абсцисс и проходящей
через точку 0,25 перпендикуляр-
на ось абсцисс получим значение 2,
31
Число золотых частей
Рнс. 2.13. Кумуляты для распределения
дискретных данных (число запасных ча-
стей, используемых за весь срок службы
по 59 электромоторам; данные взяты из
табл. 2.10)
Таблица 2J0. Распределение числа
запасных частей, использованных
за время работы 59 электромоторов
Х1	fi	f'i	Xj или меньше	
			ъ	' f^i
0	3'	0,050847	3	0,050847
I	7	0,118645	10	0,169492
2	12	0, .203389	22	0,372881
3	18	0,305085	40	0,677966
4	11	0,186440	51	0,864406
Г>	6	0,101695	57	0,966101
6	2	0,033899	59	1,000000
	59	l.o		
Примечание. Исходные данные в книге нс при
•водятся.
т. е. 25% всех электромоторов ис-
пользуют 2 или меньше (итак Х<
или меньше, а не «меньше, чем X.»)
запасных частей. Однако если, ча-
пример, на вертикальной оси отме-
тить точку 0,3, то результат будет
тот же.
Это, конечно, естественный способ
работы с дискретными данными.
Однако можно было бы использо-
вать и методику, рассмотренную
выше. Другими словами, можно бы-
ло бы получить КРЧ, отвечающие
принципу «меньше, чем». В этом
случае необходимо использовать
категории границ для значений Х\.
Однако понадобится только допол-
нительный шаг, необходимый для
соблюдения условий дискретности и
состоящий в округлении проценти-
лей с определенной степенью точ-
ности. Результаты будут те же.
-32
2.5. ВОПРОСЫ И ЗАДАЧИ
2.1. Приведенные
ляют собой затраты
каждая из которых
(в долл.):
48 44 40 51 44 45 46
39 41 39 38 43 29 45
33 40 45 40 55 45 32
53 42 38 49 46 42 41
32 50 46 41 43 40 55
ниже числа представ-
ка питание 66 семей»
состоит из 4 человек
57 57 34 38 47 48 52
54 38 28 48 28 47 52
32 56 41 52 36 50 37
51 39 47 37 35 44 39
44 53 46
а.	Постройте распределение частот
с 10 группировками. Чтобы это сделать,
найдите разность (размах) между мак-
симальными и минимальными значениями:
57—28=29, Разделив 29 на 10, примите
интервал равным 3. Выбрав число» несколь-
ко меньшее минимального значения, накри-
мер 26 или 27, сделайте его нижней гра-
ницей первой группировки. Например, при-
мем rL]=27t тогда uLi = 29, ]L2=30, 1X2—
= 32 и т. д.
б.	Постройте с теми же данными дру-
гое распределение частот с интервалом
I руппировок» равным 2.
в.	Изобразите оба распределения в ви-
де полигонов частот на одном листе бу-
маги. Горизонтальные оси должны быть
универсальными. Их можно разметить чис-
лами 20, 30...70. Отметьте на горизон-
тальной оси средние точки Сделайте не-
обходимые разметки шкал, полигонов, По-
пытайтесь сделать графики как можно
более наглядными и информативными.
Другими словами, попытайтесь сделать
так» чтобы при первом взгляде на график
был ясен характер распределения.
г.	Посмотрите на графики. Какое из
распределений лучше отражает специфику
данных? Почему?
д.	Чтобы сделать полигоны сопоста-
вимыми. перейдите к плотностям распре-
делений по формуле	и изобрази-
те оба полигона на одном графике.
е. Итак» мы имеем теперь четыре по-
лигона, построенные на основании одной
выборки. В двух из них использованы ис-
ходные частоты ft, в двух — плотности /'*.
Для дальнейшего прохождения курса по-
лезно сделать следующие упражнения: ис-
пользуя оба графика» реконструируйте рас-
пределения частот из графиков, найдите
определите число семей, тративших
еженедельно от 35 до 45 долл. Сделайте
все это дважды, используя полигоны с ft
и Гь
2.2. Используя данные предыдущей за-
дачи и принимая интервал группировок
равным 3. постройте КРЧ по принципу
«меньше» чем». Чтобы получить средние
точки, используйте границы группировок
следующим образом: iBf=X'El uBi=X'k
xlB2—XfZr uBg=XZ4. Вычислите F't и
Для получения F"i вычислите сначала ча-
стости ft по формуле
а Изобразите кумуляты. Наибольшая
отметка на вертикальной оси слева пусть
равняется 27<. Разметьте вертикальную
ось справа числами от 0 до 1.
б. Найдите несколько значений Ft и
F"i из графиков и сравните их с исходны-
ми частотами. -
в. Определите по графикам число се-
мей, тративших на пнтанйе еженедельно
от 35 до 45 долл.» и сравните этот ре-
зультат с аналогичным числом» получен-
ным в задаче 2.1,д.
г Найдите долю (в %) семей с рас-
ходами от 35 до 45 долл.
д.	Будет ли эта доля больше 50% ?
Или именно 50% семей тратят меньше,
чем эта сумма?
е.	Какое количество (в %) семей тра-
тит меньше 38,5 долл.» больше 38,5, боль-
ше 41,5 долл.?
ж,	20% семей тратят меньше указан-
ной суммы?
з.	Предположим, что при построении
КРЧ мы используем вместо границ кате-
горию пределов. В этом случае
0Li = X'2> vL2=X\ и т. д. Будет лн тогда
КРЧ строиться по принципу «меньше,
чем»?
2.3. Постройте по принципу «меньше,
чем® КРЧ для данных табл. 2.4. Имеем
-V1—243,5, X'j=244»5 и т. д. Ответьте на
ьопросы из задачи 2.2 применительно к это-
му распределению.
2 4. В приведенной ниже таблице по-
казаны два распределения частот в 1940 и
1964 гг. ферм в США, сгруппированные
по величине занимаемых площадей.
Г руппа по площади, ааннмаемой фермой, акр (1 акрлО.4 га)	Число ферм, 10*	
	1940 г.	|	1	1364 Г.	.
<10	506	183
10—49	1780	637
50-99	1291	542
100—179	1310	633
180-259	486	355
260—499	459	451
500—999	164	210
>1000	101	145
	6097	3156
Примечание. Данные изяты из U. S. Bureau of
the Census. Statistical Abstract of the United States;
Washington, D. C., 1969, p. Б92.
а.	Чтобы выяснить, какие изменения
произошли в фермерском хозяйстве США»
перейдем от частот и к частостям.
Проанализируйте и сравните оба распреде-
ления.
б.	Исключите из рассмотрения две
группировки: первую и последнюю. По-
стройте гистограмму для Перейдите
к плотностям распределения	и
постройте другую гистограмму. Сравните
сбе гистограммы. Нарисуйте теперь два
3-232
полигона. Как говорилось выше, для рас-
пределений с переменными интервалами
информативен лишь полигон, построенный
для плотностей распределения f'<* Объяс-
ните. почему это так.
Замечщие. Поскольку открытые груп-
пировки (им соответствуют интервал, от-
крывающий распределение, и интервал в
конце его) изобразить на графике невоз-
можно, их необходимо учитывать в снос-
ках. Только в том случае, если соответ-
ствующие им частоты очень малы, ими
можно пренебречь. Интерпретация очень
«малых частот» зависит от задачи. Напри-
мер. в рассматриваемой нами задаче 2.4
мы не принимаем во внимание начальный
и конечный, интервалы лишь при графи-
ческом изображении распределения. Соот-
ветствующие им частоты слишком велики,
чтобы можно было ими пренебречь.
в.	При построении КРЧ по принципу
«меньше, чем» нельзя брать X f=—0,5.
Вместо этого возьмите 2l]=9,5 и
“995,5. а характеристики начального и
конечного интервалов ^айте в сноске.
г. Почему иногда возникает необходи-
мость построения распределений с пере-
менными интервалами, хотя ясно, что ве-
личину интервала можно всегда выбрать
достаточно малой?
Пояснение. Сколько группировок будет
содержать рассматриваемое распределение,
ьсли выбрать для него наименьший воз-
можный интервал <72=40 акров.
2.5. В следующем примере иллюстри-
руется вычисление кумулятивных процен-
тов, с помощью которых строится кривая
Лоренца. Первый столбец совпадает со
столбцом распределения частот для 1964 г.
в предыдущей задаче Во втором столбце
приводится информация о величине общей
площади ферм для каждой из рассматри-
ваемых группировок Таким образом, об-
щая площадь земли, занимаемая 183 000
(bepMs составляет 778 000 акров.
Группа ла пло- щади. шннмэе- ыой фермой, акр	Число ферм. |0>	а Общая пло- щадь данн- ый сиэй земли, акр	Прпцеяпюе рагщжделевде	
			числа ферм	площа- ди земля
		1 А1	f”, 1	И'/ .
<10	183	778	5,8	0.1
10—49	637	J7 325	20,2	1.6
50—99	542	39 589	17,2	3,6
100—179	633	86 592	20	7.8
180—259	355	76 857	11,2	6.9
260—499	451	159 598	14,3	14,4
500—999	210	144 600	6.6	13,0
>1000	145	584 848	4.6	52,6
	3156	1 ПО 189	99,9	100
Лрим.чян	не. См- з<	>дачу 2.4.		
Заметим, что /"<=(f</2f«) • 100,
= (Ai/SAf) 100.
33
а.	Вычислите кумулятивные проценты,
проверьте данные для f"< и Л"*.
б.	Начертите вертикальную и горизон-
тальную оси одинаковой длины. Разметьте
горизонтальную ось числами от 0 до 100
н отложите на ней процент ферм. Анало-
гично разметьте вертикальную шкалу, от-
ложите на ней процентное отношение зе-
мельных участков. Соедините точки с по-
мощью лекала. Полученная кривая назы-
вается кривой Лоренца.
в.	Попытайтесь интерпретировать эгу
кривую, ответив на следующие вопросы,
площадь земли, занимаемая 20% ферм,
меньше какой площади в процентах, или
меньше какой площади в процентах со-
ставляет площадь земли, занимаемая 70%
ферм?
г.	Предположим, что значения, приве-
денные для и А % равны Как тогда
будет выглядеть кривая Лоренца? Как
можно интерпретировать ее график?
д.	Как будет выглядеть кривая Ло-
ренца для некоторой другой страны, в ко-
торой распределение земли будет более
равномерным, чем в США?
е.	Придумайте задачу, в которой мож-
но было бы построй 1ь кривую Лоренца.
ГЛАВА 3
СРЕДНИЕ И ДРУГИЕ ХАРАКТЕРИСТИКИ РАСПРЕДЕЛЕНИЙ
3.1. СЛОЖЕНИЕ И УМНОЖЕНИЕ
ДИСКРЕТНЫХ ПЕРЕМЕННЫХ
Теперь мы подошли к такому
моменту, когда необходимо прово-
дить различные операции и вычис-
ления над дискретными переменны-
ми. В этой связи представляется
полезным умение работать с ма-
тематическими символами, описы-
вающими операции сложения и
умножения дискретных переменных
Определение дискретных пере-
менных было дано в разд. 2.3. В
настоящей главе мы рассмотрим ди-
скретные переменные как ряды чи-
сел, нац которыми можно прово-
дить операции сложения и умноже-
ния. В качестве примеров дискрет-
ных переменных можно указать
следующие ряды: 1) несгруппиро-
ванные данные: например, длина
булавок (см. табл. 2.1), почасовая
заработная плата (см. табл. 2.2)
и т. д.; 2) средние точки для сгруп-
пированных данных; 3) частоты ря-
да сгруппированных данных (см.
табл. 2.4 и 2.5).
Переменные в табл. 2.1 (не-
сгруппированные данные) можно
обозначить Xt, или Zt. Тогда каж-
дой точке ряда соответствует опре-
деленный индекс; например, Xi=
=250, Х>=249, Х3=248, ..., ^299=
=249, Х«ю=249. Индекс каждого
элемента ряда должен оставаться
неизменным при всех операциях над
этим элементом.
34
Распределение частот из табл. 2 6
(сгруппированные данные) содер-
жит 5 переменных, из которых над
X,, fi, f'i чаще всего проводят опе-
рации сложения и умножения. Эти
переменные можно представить сле-
дующими рядами: Х\=46,5, Xi—
=56,5, .... Хц== 146,5, /,=5, f2=
—3, —, /ц=3.
Число значений в табл. 2.1 (не-
сгруппированные данные) равно
ЗОЮ. Если это вся генеральная сово-
купность, то, обозначив число ее
элементов буквой N, имеем jV=300.
Если это выборка, то будем обозна-
• чать число элементов в ней п, и
тогда л=300. Число элементов ря-
да, для,которого строится распреде-
ление, приведенное в табл. 2.6, рав-
но сумме всех fi. Для генеральной
совокупности эта сумма равна Л’=
=111. Если ряд представлен вы-
боркой, то Sfi=n=lll
Часто бывает необходимо отве-
тить на следующий вопрос: со
сколькими оценками мы имеем де-
ло? Ответ таков: 111, из них сред-
няя оценка 46,5 встречается 5 раз,
56,5 встречается 3 раза и т. д. Одна-
ко ответ на этот вопрос мы ие мо-
жем получить, складывая плотно-
сти распределения или частости,
т. е. вычисляя Zft или Sf',. Не по-
лучим мы ответа также, подсчиты-
вая число средних точек и полагая
N=l1 илн n=] 1. Однако если f'i
(плотности) умножить на длину
интервала с,- (постоянная) и ело-
жить, то сумма этих произведений
равна сумме всех частот, а значит,
общему числу оценок в рассматри-
ваемой задаче.
(Операцию сложения и умноже-
ния дискретных .переменных и ря-
дов можно проиллюстрировать на
| следующих коротких рядах:
xi .		fl	с
4	0,2	2	2
3	0,3	5	2
7	0,2	3	2
5	0.4	3	2
2	0,2	1	2
В результате сложения или умно-
жения получаем дискретную перс-
! менную, содержащую то же число
! значений, что и исходные ряды, т. е.
; Л/1=Л,2=Л/з=- - .—Nk- Сумма двух
или более дискретных переменных
является новой дискретной перемен-
ной, каждое значение которой пред-
ставляет собой сумму соответствую-
щих значений переменных-слагае-
мых. Произведение двух или более
переменных является новой ди-
скретной переменной, каждое значе-
ние которой представляет собой
произведение соответствующих зна-
чений переменных-сомножителей.
Запись вида Х/+У/ означает, что
мы получаем новую переменную Z,,
каждое значение которой равно
. сумме Xi и Y, с одинаковыми индек-
сами. Запись вида X,f,- означает, что
получаем новую переменную U7,,
каждое значение которой равно про-
изведению Yi и Л с одинаковыми
индексами. Однако, не вводя новых
обозначений Z,- или Wi, следует
пользоваться выражениями
или Xifi, так как они дают инфор-
мацию о том, какие преобразования
производятся с рядами.
Приведем несколько примеров:
Xi+Yt	4,2	3.3	7.2	5,4	2,2
Yifi	0.4	1,5	0,6	1,2	0,2
cXt	8	6	14	10	4
Вычисление X*;fi можно провести двумя
способами:
x*i	xtih
16	32
9	45
49	147
25	75
4	4
Vi	x*ifi
8	32
15	45
21	147
15	75
2	4
Знак суммы 2 используется,
когда надо сложить несколько пере-
4
менных. Например, g означает,
что складываются Л,, Xt и Xt т. е.
имеем 2 Xi = \5. Если надо сло-
«=2
жигЬ все члены ряда, то для гене-
N
ральной совокупности имеем S
1=1
п
а для выборки 2 Х{. Складывая все
i=I
значения из табл. 2.1, мы запишем
J оо
2 Далее мы будем иногда для
i=i
простоты при суммировании всех
значений переменной использовать
обозначение 2, т. е. не писать пре-
делов суммирования под и над зна-
ком суммы.
Если требуется затем сложить
все новые переменные, обозначен-
ные Xj, и cXf, X* 2jt, то запи-
шем 2 (Xi + Yi), 2 Yifb 2cX,-, ZX^ifi со-
ответственно. Выражения такого ро-
да означают, что сначала формиру-
юся ряды Xi + Vi или Yifi, а затем
производится операция сложения.
Итак, 2 (Х{ + У,) =22,3,	2 У«£=39
и т. д. Читатель может легко прове-
рить сам следующие формулы:
2(X.- + yz + Zi) = 2Xi+2y/ +
4-2Z,-; 2сХ,=с2Х£; 2c=Afc,
где с — постоянная.
3.2. СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ
Вычисление среднего для не-
сгруппированных данных илюстри-
35
3*
Таблица 3.1. Вычисление среднего для
весгруппированных данных
xi
2,92
3,05
2,75
3,25
2,59
3,17
2,85
2,72
2,89
26J9
руется данными в табл. 3.1. Сред-
ние вычисляются по формулам g=
=ZXi/N или X=2Xifn. Эти две
формулы отличаются только обо-
значениями. Результаты же вычис-
лений будут одинаковы.
При вычислении среднего из ге-
неральной совокупности использует-
ся обозначение ц, а для обозначе-
ния числа элементов совокупности
ДО; при вычислении среднего из вы-
борочных данных используют X,
для обозначения числа элементов
выборки — л. Как видно из табл. 3.1,
здесь среднее арифметическое упот-
ребляется в обычном смысле слова.
В статистической науке термин
«среднее» часто имеет более общее
значение, а именно: три величины,
называемые центральными момен-
тами: среднее арифметическое, ме-
диана и мода — относятся к поня-
тию среднего.
В связи с вычислением среднего
арифметического будет полезно за-
метить следующее. Очень часто ста-
тистики приводят лишь среднее и
значение ДО, при помощи которого
это среднее вычисляется. Примера-
ми такого рода являются недельная
заработная плата и число рабочих,
средний доход и число семей, сред-
няя масса и число мест багажа.
Чтобы получить (т. е. суммар-
ное значение заработной платы, об-
щий доход или общую массу бага-
жа), следует вычислить произведе-
ние цДО, так как р,=2Х7ДО.
Способы вычисления среднего
арифметического из распределения
частот (сгруппированные данные)
иллюстрируются данными табл. 3.2.
Первые две формулы, как и раньше
(см. табл. 3.1), отличаются только
обозначениями и отражают разли-
чие между генеральной совокупно-
стью и выборкой. Для вычисления
среднего по одной из этих формул
мы должны иметь значения Xt, и
/<, Х{. Процедура вычислений станет
понятнее, если найти ответ на во-
прос: можно ли вычислить среднее
для распределения частот, исполь-
зуя формулу для несгрулпирован-
ных данных X=SXifnt Ответ бу-
дет, конечно, положительный. Дан-
ные о распределении частот можно
представить в виде длинного столб-
ца цифр, в котором значение 2,495
будет повторяться 10 раз, 2,595—
25 раз, 2,695—57 раз и т. д Скла-
дывая затем все эти числа и деля
сумму на 303, получаем искомое
значение среднего.
Две альтернативные формулы на-
зываются формулами для быстрых
вычислений. Они могут быть полу-
чены, если принять X,=Xo4-cdf, где
Таблица 3.2. Вычисление среднего
для распределения частот почасовой
зарплаты 393 рабочих» запятых
в промышленности
Средние touch X -	h	fixl	di	
2,495	10	24,95	—3	—30
2,595	25	64,875	—2	—50
2,695 .	57	153,615	—1	—57
—А; = 2,795	74	206,83	0	0
2,895	58	161,91	1	58
2,995	34	101,83	2	68
3,095	17	52,615	3	51
3,195	14	44,73	4	56
3,295	11	36.245	5	55
3,395	3	10,185	6	18
	303	863.785		169
Примечания: I, Таблица построена по данным
табл. 2.5-
2. р =	j = Е/^X./iV» поскольку ж N
для генеральной совокупности: X =	=
“ 17{X -/в, поскольку Lff = п дли fttjCopoqrtjx данных;
Н « Хе 4- Г Е/ . = Х« +/ Ef .rf ./.V; X = X. 4-
+ Г = X, +	Н = s^X^/s^
=863,785/303 ж= 2,8507 * 2>85; j* = Х,+ c If.d^f^
«=2.79* + 0.1-169/303 и 2,795-M.l (0.5577F) = 2,7950 +
+ 0,0558 = 2.B5OR *
в качестве Хо можно взять любую
среднюю точку Xi, a d, равно цело-
му числу единиц, на которое теку-
щий индекс отклоняется от началь-
ного. Таким образом, если Х4=Х0=
=2,795, то любое другое значение
Xi может быть представлено в виде
Xb+cdi. Например, *2=2,795+0,1 X
X (—2) =2,595, *7=2,795 + 0,1-3=
=3,095,	*4=2,795+0,1 -0=2,795.
Подставляя эти выражения в пра-
вую часть формулы среднего, полу-
чаем х______о ~Е __________________
Sfi — zfi ~
Sf,*, + Zftcdi Xj^i cSfjdj ’
sfi	Sfi "r
Последняя формула используется
при вычислении среднего для рас-
пределений с равными интервала-
ми. Хотя теоретически любая вну-
тригрупповая средняя точка может
быть выбрана в качестве Хп, пред-
почтение следует отдавать модаль-
ной средней точке (точке наиболь-
шей частоты). Если принять во вни-
мание ошибки округления, то ре-
зультаты по этой формуле совпада-
ют с результатами, полученными по
первой формуле
Обычно среднее, вычисленное из
распределения частот (сгруппиро-
ванных данных), несколько отлича-
ется от среднего, полученного из
исходных данных. Если распределе-
ние частот строится по правилам,
приведенным в разд. 2.2, то разни-
ца будет не слишком велика. Сред-
нее часовых заработков, по данным
табл 3.2, составляет 2,8508; сред-
нее, вычисленное из исходных дан-
ных табл. 2.2, равно 2,8491. Оба чис-
ла округляются до 2,85. Как уже
отмечалось, если нет необходимости
переформировывать исходные дан-
ные в средине точки (если построе-
ние распределения частот возможно
без образования группировок), то
значение среднего, вычисленное из
исходных данных, совпадает со
значением среднего, полученного
из распределения частот.
3-3. МЕДИАНА, КВАРТИЛИ
И ПРОЦЕНТИЛИ
Еще одна, часто используемая
в статистике величина называется
медианой и обозначается Md. Так
как она аналогично среднему ха-
рактеризует объект исследования в
целом, используя всю информацию
данных о нем, то она относится
к категории средних. Но строго го-
воря, это не средняя в обычном
смысле, а скорее характеристика
размещения Другими словами, ме-
диана есть исходное или интерпо-
лированное значение для ряда дан-
ных, упорядоченных по величине,
меньше которого (или больше) бу-
дут 50% значений совокупности. Та-
ким образом, 50% всех элементов
совокупности меньше медианы, а
50%—больше ее. Следует отме-
тить, что иногда значение медианы
совпадает с одним из значений ва-
риационного ряда, а иногда вычис-
ляется интерполированием двух со-
седних значений.
Сейчас мы обсудим разницу
между двумя средними — медианой
и средним арифметическим. В то
время как на среднее арифметиче-
ское влияют все члены исходного
ряда (или распределения частот),
медиана является характерисшкой
размещения. Например, два корот-
ких ряда, упорядоченных по возрас-
танию чисел 2, 5, 6 и 4, 5, 6, имеют
одну и ту же медиану — 5, но раз-
ные средние арифметические, /две
другие характеристики размеще-
ния— квартиль и дециль. Обе они
имеют общее название—процен-
тиль. Вообще говоря, и медиана, и
квартиль, и дециль являются неко-
торыми процентилями Медиана —
это пятидесятый процентиль.
Первый, второй и третий кварти-
ли обозначаются <2i, Q2, Q-з- Вместо
Qz обычно используют Md. Первый
квартиль Q} определяет такое зна-
чение исходного ряда (или интерпо-
лированное), меньше которого бу-
дут 25%’ значений распределения.
Величины Qz=Md и Q3 определя-
ются аналогично.
37
Второй дециль обозначают обыч-
но Рао. Это исходное или интерполи-
рованное значение ряда упорядо-
ченных по возрастанию данных,
меньше которого будут 20% значе-
ний ряда. Очевидно, что Pw=Qz=
=Md. В отличие от приведенных
характеристик процентили могут
иметь любые индексы: например,
можно записать Рп, Р50 нли Рээ.
Чтобы лучше понять введенные
определения, обратимся к табл. 3.3.
В ней иллюстрируется на примере
ряда исходных данных процедура
интерполяции процентиля и дается
его геометрическая интерпретация.
После того как читатель хорошо
усвоит это, мы рассмотрим задачи
интерполяции и геометрической ин-
терпретации процентилей в распре-
делениях частот (сгруппированных
данных).
3.3.1. Процентили, получаемые для
вариационного ряда
несгруппированных данных
Рассмотрим ряды данных на III
и IV шкалах в табл. 3.3. На обеих
шкалах ряды одинаковы и упорядо-
чены по возрастанию. Число членов
в рядах нечетное. Значения Ры=
=Q2=Md приходятся ровно на се-
редину рядов. Не глядя на шкалу,
можно сказать, что это будет вось-
мой элемент ряда, который равен
12, и, следовательно, Md—12.
Ряды, размешенные на I и II шка-
лах, совпадают с только что рас-
смотренными рядами, кроме послед-
него элемента, и, следовательно, со-
держат четное число членов. Не
глядя на шкалу, мы можем сказать,
что медиана должна совпадать
с числом в середине ряда. Это чис-
ло должно располагаться между
восьмым и девятым элементами ря-
да и, следовательно, равно 12,5.
Вернемся к III и IV шкалам. За-
метим, что шкалы построены ана-
логично, но размещены по-разному:
IV шкала (и II) сдвинута па 0,5
влево по сравнению с Ш шкалой
(и I). Чтобы определить процентиль
с помощью любой из шкал, надо
найти соответствующую точку на
шкале и считать в ней исходное или
интерполированное значение ряда.
Таким образом, чтобы найти Md=
=Рх, на III шкале отмечают точку
гАГ, где г равно индексу Р, записан-
ному в виде дроби, a N — число всех
элементов ряда. Для II1 шкалы
(с нечетным числом элементов в ря-
ду) nV=0,5-15=7,5; отмечаем эту
точку и считываем над ней значение
Afd=PM=12. Если над точкой нет
числа, его можно получить интер-
поляцией. Однако можно найти тот
же процентиль, используя IV шкалу
и полагая no=rN+0,5. Символ п0
называется порядковым числом.
Для Afd=PS0 имеем ло=О,5*15+
+0,5=8. Значения члена вариаци-
онного ряда в этой точке равно
ЛМ=Р50=12.
Чтобы получить процентиль с по-
мощью I и III шкал, следует по-
строить шкалу как таковую. (Такие
шкалы, в качестве начальной точки
которых берется 0, использовались
при построении кумулят)
При нахождении того же процен-
тиля того же вариационного ряда
методом, представленным с по-
мощью II и IV шкал (т. е. с вычис-
лением порядкового числа Ло=
=nV+0,5), фактическое построение
шкалы необязательно. Как только
установлено значение процен-
тиль находят путем подсчета. Рас-
смотрим снова нечетный ряд чисел
в- IV шкале, но не будем принимать
во внимание саму шкалу. Медиану
получаем путем подсчета n^=rN+
+0,5=0,5-15+0,5=8 (как и рань-
ше), тогда восьмой член ряда есть
Чтобы получить Рю в ряду чисел
па II шкале, не используя ее, вы-
числяют no=r.V+0,5=0,1 • 16+0,5=
=2,1. Второй член ряда равен 6,
а 0,1 разности между вторым и
третьим числом- равна 0,1, следова-
тельно, Рю—-6,1.
Чтобы получить Рзз в этом же ря-
ду чисел без использования шкалы,
вычисляют л0=гЛ'+ 0,5=0,33 -16+
+ 0,5=5,78. Сумма пятого члена ря-
да и 0,78 разности чисел, стоящих
Таблица 3.3. Определение процентилей в ряду исходных данных
(исходные данные: 10, 7, 16, 13, 6, 13. 10, 14, 15, 18, 11, 12, 9. 16, 13, 6)
В ряду четное число чисел (N = 16)
Считывание процентилей со шкалы
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Определение процентилей с помощью подсчета
„ l?l8l7l»PPi'PPM‘?l1.:4l?ll?l'Pl1PllPllPll8l
I 2 8 4 5 6 7 8 9 10 II 12 13 14 15 16
В ряду нечетное число чисел (N = 15)
Считывание процентилей со шкалы
.6 .6 । 7 I 9 10<10|11 |12|I3113|13i14115116116i
HI	I । I । I i I t I  I । I । I । | । | । I
« 1 2 3 4 5 6 7, 8 9 Ю II 12 13 14 15
Определение процентилей с помощью подсчета <
IV 1?1?1
I 2 3 4 5 6 7 8 9 10 II 12 13 14 .15
В ряду четное число чисел {N = 16)
/ шкала
Н подсчет
nV	Pr	По	рг
Определение Q,: rN=0,25-16=4	<?1=9,50	лп=0,25 •164-0,5=4,5	(?.=9,50
Определение Q2: nV=0F5-16=8	<2г=ЛИ=12,50	«„=0,5-164-0,5=8,5	Q.=;WJ=12,50
Вычисление Plt: riV=<), 1 * 16=^=1,6	P(.=6,10	п„=0,1-164-0,5=2,1	Р,о=6.1О
, Вычисление P7t: rN—0,7- IS^l I >2	p„=13,70	«„=0,7-164'0,5=11,7	Р7„=13,70
В ряду	нечетное число	чисел ^=15)	
HI писала		IV подсчет	
Вычисление Qv rN—fi,25-15=3,75 Q,=9,25
Вычисление Q?: riV=0,5-15=7,5 Qt^=Md= 12,00
Вычисление Д„: rN=0,1 • 15=1,5 P14=6,00
Вычисление Pia: /7^=0,7-15=10,5 /\4=13,00
«„=0,25 154-0,5=—4,25
n4=0;5-154-0,5=8
n,=0.1- 15-f-O., 5=2
«„=0,7-154-0,5=11
<2=9,25
Qt=Mf=12.00
P,„=6.00
P„—13.00
39
на пятом и шестом мс; -ах, дает
Рзз=10+0,78-0=10. Наконец, вы-
числяя Рад, имеем По—0,95-16+
4-0,5=15,7. Сумма пятнадцатого
члена ряда и 0,7 разности между
пятнадцатым и шестнадцатым чле-
нами дает Рэз= 164-0,7-2= 17,4.
Итак, процентили могут быть
найдены либо по шкале, либо путем
подсчета. В первом случае шкала
существует реально, во втором—
шкалы строятся по II или IV прин-
ципу лишь для облегчения понима-
ния задачи. Например, несложно
вычислить какой-либо процентиль
для ряда данных из табл. 2.1 (дли-
на булавок). Построение шкал при
этом было бы пустой тратой вре-
мени. С другой стороны, неважно,
каким методом получены проценти-
ли — результаты будут одинаковы.
Этот момент иллюстрируется дан-
ными табл. 3.3.= Все процентили
в I и II столбцах совпадают.
Иногда процентили должны быть
выражены в форме дискретных зна-
чений. Подробное описание этой за-
дачи можно найти в книге по веро-
ятности и статистике Шлайфера *.
На практике обычно применяют
следующее простое правило: вычис-
ляют процентиль точно с помощью
приведенных выше формул, а за-
тем округляют его до требуемого
значения. Аналогичным образом по-
ступают при вычислении проценти-
лей из распределения частот,
г-
3.3.2. Процентили, вычисляемые для
ряда сгруппированных данных
Вычисление процентилей для
распределения частот иллюстриру-
ется данными табл. 2.8 и рис. 3.1.
Любой процентиль может быть
найден быстро с помощью аккурат-
но нарисованной кумуляты. Изо-
бразив кумуляту, маркируют про-
центными отношениями вертикаль-
ную ось, фиксируют требуемый про-
цент, опускают перпендикуляр из
точки пересечения кумуляты с пря-
1 Schlaifer R. Probability and Statis-
tics for Business Decisions. N. Y.: McGraw-
Hill, 1959.
h
н
ff
WO
0,754
80
dOr
401-
I
UZ5
61,5 81,5 101,5 X* Nd 151,5
Оценка, балл
Рис. 3.1. Получение медианы интерполя-
цией (оценки по курсу «Статистика»; дан-
ные взяты из табл. 2.8):
медианная группировка — это группировка, и ко-
торую попадает значение медианы X. Обозначим
меянанпую группировку qepes J* — Чтобы
ИАЙти Ь. вычислим порядковый номер До—г2/^ +
+0,5. В рассматриваемом случае г -0,5 и
—0.5. Ш-1-0,5—56. Из табл. 2.8 (или 3-4) находим,
что 5б е значение попадает в группировку Л-8
или — u/-e—l 12-:-121. Следовательно, значение
Nd находится в интервале	121,5.
Имеем ^/<«=1/2.2^0,5 2^-55.5. Далее /*-/*-12
(частота медианной группировки). Определяем
А—1	7
fj= 2^«=3+3+1+8+й+8+15“48
i=l	Zwl
(значение F* может быть также найдено прямо
из кумулятивного распределения частот, приве-
денного в табл. 2.8). Тогда jB*-^—111,5 (гра-
ницы Медианной группировки), вВ*™иВ£-!21.5 н
X* — ХВ-1Ю (средняя точка медианной групни-
роькм)


мой, параллельной горизонтальной
оси и проходящей через фиксируе-
мую точку процента, на гори-
зонтальную шкалу. Точка пере-
сечения этого перпендикуляра с
осью абсцисс дает значение про-
центиля. В основе метода лежит
способ нахождения процентилей с
помощью I и III шкал из табл. 3.3.
Метод нахождения процентилей
с помощью аккуратно нарисован-
ных кумулят с большим числом то-
чек обладает достаточной точно-
стью, и не следует отказываться от
него в пользу других способов.
Процентили можно найти и непо-
средственно из распределения ча-
стот, т. е. не вычисляя кумулятив-’
ные частости и нс строя кумулят.
Общая интерполяционная формула
вычисления процентилей для ряда
сгруппированных данных имеет вид:
Pr ~	+ с — Рk)iik*
Л-1
где =
1=1
40
Формула для медианы переписыва-
ется следующим образом:
M/=^,+c(0.5Sh-
На рис. 3.1 показано, как это фор-
мула может быть выведена из гра-
фика кумуляты.
Прежде чем перейти к выводу
формулы, рассмотрим индекс k. Он
обозначает ту группировку распре-
деления частот, в которую попадает
искомый процентиль. Возникает во-
прос: в какую группировку должна
попасть медиана?'Используя фор-
мулу подсчета процентилей, введен-
ную в табл. 3.3, определим поряд-
ковый номер zio=rSh+0,5=0,5Sf( +
+0,5, поскольку г для медианы рав-
но 0,5. Для распределения, пред-
ставленного в табл. 2.6, имеем пе=
=0,5-111+0,5=56. Складывая ча-
стоты начиная с первой группиров-
ки, находим, что 56-й член ряда по-
падает в восьмую группировку,
обозначаемую через 112—121. Сле-
довательно, А=8 и медиана будет
равняться числу, лежащему в ин-
тервале 1В8—иВв= 111,5-«-121,5. Дру-
гие символы в формуле понятны из
рис. 3.1.
Вывод формулы. Формула медиа-
ны выводится из уравнения, со-
ставленного с помощью отношения,
связывающего два подобных тре-
угольника. В большем треугольнике
катет, параллельный оси абсцисс,
равен мВк—[Bk, а сторона, парал-
лельная оси ординат, — fh. В мень-
шем треугольнике горизонтальный
катет равен Md—iBk, а вертикаль-
ный — 0,52/j—Fh. Из соотношения
для подобных треугольников имеем
= (Md - ^/(O.oSf, - Fk).
Так как uBa—jSa=c, to последнее
соотношение принимает вид:
с/7л^(Ш-Д)/(0,52/,-Гл).
Отсюда получаем
Рсл = Md =,Bk + с (0,5Sf, - F„)lfb.
Для заданного /го=56 k=8. Под-
ставляя значения из рис, 3.1, имеем
Md = 111,5 + Ю-0’51]' —=
=117,75.
♦
Если данные являются целыми чис-
лами, то Md=l 18. Это и будет оцен-
ка, ниже которой (или выше) по-
лучат 50% студентов. Отметим, что
значение F& можно взять непосред-
ственно из кумулятивного распре-
деления частот, приведенного в
табл. 2.8. Все другие процентили
могут быть получены аналогичным *
образом.
Площадь под кривой. Медиане,
может быть найдена также из гра-
фика полигона.
Полигон при этом строится для
плотностей распределения if',-
(табл. 3.4). Как показано на рис.
3.2, сначала изображают график по-
лигона для значений частот из табл.
3.4. Затем, выбирая АА’—4, строят'
прямоугольники. Площадь каждого
прямоугольника равна /<=AA/?(, где
АХ — константа, a hi — соответст-
вующие ординаты графика. Прямо-
угольники суммируются до тех пор,
пока 2Л;5к0,52/,. Правая граница
последнего прямоугольника опреде-
ляет медиану. Заметим, что Д*Х
Таблица 3.4. Оценки го курсу
„Статистика"
х,-	h		f'i	!f’ i
46,5	5	0.50	0,0450	0,00450
56.5	3	0,30	. 0,0270	0,00270
66,5	1	0,10	O.OOSO	0, ОС 090
76,5	8	0,80	0.072!	0,00721
86,5	8	0.80	0,0721	0,00721
96,5	8	0.80	0,0721	0,00721
166,5	J5	1,50	0.1351	0,01351
Н6»5	12	1,20	0,1081	0.01081
126,5	30	3,00	0,270В	0,02703
136.5	18	1,80	0,1622	0.01622
145,5	3	0,30	0.0270	0,00270
111	1,0000
Примечания. 1. Данные взяты из табл. 2.6 и 2.8,
исключая значения ,ff..
р>. = f.fff, = f" ,/С.
41
Рис. 3.2. Графическая оценка медианы (оценивание значения абсциссы для точки
кривой, соответствующей значению ординаты 0,5 Е/, =55,5). Полигон изображен для
данных из табл. 3.4. Значения hi оцениваются графически:
А| »	0.50	Дх • ht ±= 2,00	Ли = 0,80	Дх - йц	3,20
At —	0.42	Дх - ftj — 1,68	Ли = 0.80	Дх * Л1в —	3.20
Л» =	0,34	Дх - йэ =1.36	Я1В = 0,80	дх - Я1В =	3.20
л.	0.2?	Дх - Л* = 1 »0В	Л|4— 0,93	Дх  Лц ==	3.72
А* =	0.18	Дх • й» — и.72	Л1В = 1.20	Лх . Лав =	4,80
Л, _	0.14	Дх  Лв = 0.56	Л,#= 1,44	Дх - Я1в =	5.76
Лу —	0.36	йх - Л, = 1.44	ftt, — 1 .39	Дх • Ла, =	5,56
Л# ZT	О.'Х>	Дх - йи — 2.64	Ли = 1,27	Дх -	=	5.08
л* =	O.R0	Дх • Ля = 3,20	Al* = 1,45	Д*Х  Й1В =	зло
Л» —	0.83	Дх  Л>о = 3.20			55.60
Д‘х - 2.14
Рис. 3.3. Графическая оценка медианы (оценивание области 0,5 2/,-= 0,5 под кри-
вой) . Полигон изображен для данных из табл. 3.4. Значения оцениваются графи-
чески:
-	At	= 0,0045	Дх * h±	— 0.0180	Л и	= 0.0)72	Дх ’ Л„	= 0,^238
	йа	= 0,0038	Дх ’ й*	= 0,0152	Ли	= 0.0072	Дх - й1а	- 0,0288
	лв	» 0,0031	Дх • Я8	==0,0124	А и	= 0,0.172	Дх ‘	= 0,0288
	я<	- 0,0024	Дх * й4	-0,0096	Лц	= 0,0084	Дх  Лц	- 0,0336
	Лв	— 0,0016	Дх • Лв	= 0ДЮ64	Л|В	— 0,0(09	Дх • Й1В	±= 0,043-i
	л*	— 0,0012	Дх й*	= 0.0048	Ли	= 0,0130	Дх * Л1*	= 0.0529
	Л?	“ 0,0033	ДХ . йт	= 0,0132	Лц	= 0,0125	Дх Я17	= 0.0500
	Ав	- о.оо«о	Дх • hf	= 0,0240	л,а	= 0,0Н5	Ах йм	— 0.0460
	л*	= 0.0072	Дх • й|	- 0,0288	А**	= 0,0130	Дх А|*	= 0,0297
	Л15	- 0,0072	Дх * ftlQ.	- 0.02В8		•		0.5025
= 2.29
для последнего .многоугольника мо-
жет быть меньше ДХ
Площадь под полигоном на рис.
3.3 равна единице. Для построения
этого полигона вычислялись часто-
сти	Если с=#1, то необ-
ходимо перейти к f'i—f''i/с. Прини-
мая, как и в предыдущем случае,
ДХ=4, построим прямоугольники и
будем суммировать их, пока
якг«®0,5. Последний прямоугольник
определяет на горизонтальной оси
медиану, т. е. то значение, меньше
которого будет половина всех чле-
нов распределения Другими слова-
ми, медиана — это та точка, с по-
42
мощью которой площадь под поли-
гоном делится пополам. Следует
отметить, что, поскольку формула
для процентилей
Рг -= xBk + с (rift - Fk)ifk
была выведена из графика кумуля-
ты, ее нельзя применять к плотно-
стям распределения вида
или f'i==>f"tic. В формулу можно
подставлять только f, или f"i.
Медиана, определенная из рис.
3.2, равна 119; медиана, вычислен-
ная из рис. 3 3, равна 118. Сба
значения следует сравнить со зна-
чением ЛМ=118, полученным по ин-
терполяционной формуле. Этот при-
мер убедительно показывает, что
графики должны строиться аккурат-
но и что площади вычисляются по
ним с определенной степенью точ-
ности. Легче было бы применять
операцию интегрирования, но это
требует точного знания вида функ-
ции, аппроксимирующей рассматри-
ваемые данные. На практике это
встречается редко.
Некоторые другие процентили.
Полезно вычислить из распределе-
ния частот (см. табл. 2.6 — не из
кумулятивного распределения) не-
которые другие процентили, исполь-
зуя формулу
Для Рад или Qj порядковый номер
л<»=0,25-1114- 0,5=28,25. Следова-
тельно, Qi попадает в шестую груп-
пировку и k—б. Поскольку
iLe—и£в=92-*-101 и ^e—иЯв=91,5-*-
5
101,5, fe=8, имеем Ft = 5» =25 и
/=|
P25=Qi=95. Таким образом, 25%
учащихся получили оценки ниже 95
баллов.
Для Рео порядковый номер по=
=0,9-111 +0,5=100,4. Следователь-
но, Рэо попадает в десятую группи-
ровку, и А=10. Поскольку ]£1о—
—u£io=132 ь-141,	iPio—цРю==
= 131,5-^141,5. н Ао=1О, то
Г,.=3/,=90 " Р„=131.54-
1=1
+ 10 • (0,9 111 — 90)/18 = 137.
Итак, 10% учащихся получили
оценки выше 137 баллов.
1
3.4.	МОДА
Мода — еще одна средняя величи-
на, используемая при анализе дан-
ных. Если мы имеем дело с дискрет-
ными данными, то мода представ-
ляет собой наиболее часто встречаю-
щееся значение.
Как найти моду?
1.	В распределении частот с ин-
тервалом с, равным наименьшей
разности между двумя числами ис-
ходного ряда (с может быть равно
и больше единицы), моду можно
найти, просто просматривая распре-
деление. Данные о длине булавок
из табл. 2.4 и почасовой заработной
плате из табл. 2.2 (но не из табл.
2.5) являются именно такими рас-
пределениями. Из табл. 2.4 видно,
t что мода для длин стальных була-
вок равна Мо=250. Мода из табл.
2.2 равна 2,80; однако мода для тех
же данных из табл. 2.5 может быт»
получена только по иптерполяцион»
ной формуле.
2.	В других распределениях ча-
стот для получения моды нужна
применять интерполяционную фор-
мулу.
3.	Если существует сглаживаю-
щая кривая, аппроксимирующая ди-
скретные данные (см. рис. 2.8), то
моду можно найти из графика. Если
график достаточно точен, то, опу-
стив перпендикуляр из его наивыс-
шей точки на горизонтальную ось,
получим в точке его пересечения
с ней значение моды.
4.	Чтобы найти молу в нспрерыв*]
ной математической или вероятно!
стной функции, можно вычислить
первую производную (d/dx)[(x) и
приравнять ее нулю. Решение этого
уравнения даст значение моды. Тот,
кто не знаком с дифференциальным
исчислением, может просто нарисо-
вать функцию и найти моду графи-
феским способом, описанным в п. 3.
Как уже отмечалось, если распре-
деление частот таково, что интервал
не равен Наименьшей разности мсж-
,.ду. двумя числами из исходного ря-
да данных (случай, описанный
в я. 2), то моду можно найти интер-
поляцией. Часто используется сле-
дующая интерполяционная фор-
мула:
Mo^fik + cdM + d').
Эта формула может быть выведена
геометрически так, как это показа-
но на рис. 3.4.
43
Рис. 3.4. Получение моды интер-
поляцией (оценки по курсу «Ста-
тистика»: данные взяты из табл,
2.6):
»/в (модальная частота), fk .j-f^-12,
Is*-12*1*5 (нижняя
Ipаница группировки), иВй— uBe-131,5
верхняя граница группировки), с—(О,
d-/A-/*_1-/e-f8-30-J2-l8,	«T-f*-
—ff, ।	—/|0™ЭО-16-12,	Л
ft'- цЯ*— Afo-jB^+o-Afo,	так нак
иВЛ“1ВД+С
Высота прямоугольника в центре
графика соответствует наибольшей
частоте ffe=f8-=30 распределения,
представленного в табл. 2.6. Если
fk-i=fh+i, юв интерполяции нет не-
обходимости и средняя точка мо-
дальной группировки Хь может
быть выбрана в качестве моды. В
этом случае Мо=Хк- Если /*+!>•
>fk-t, то Мо>Хк, или Хк<Мо<
а если fh-i>fk+l, то Mq<Xk
и iBh<Mo<Xh. Сама формула мо-
жет быть выведена из подобия двух
треугольников, для которых, как из-
вестно, отношение высот равно от-
ношению оснований:
did' =hjh’.
Заменяя h на Мо—tBk, а й' на uBk—
— Мо, получаем
d/d' = (Мо -	- Мо),
откуда Мо — (d\Bk-f-duBk)’(d +<?').
Поскольку uBh=iBh+c, то форму-
ла может быть переписана в виде
Mo=iBh+cdf (d+df). Подставив в
нее соответствующие значения • из
рис. 3.4, получим
Мо= 121,5+ 10-18/30= 127,5.
Как мы и ожидали, значение моды
больше средней точки модальной
группировки: Л$=126,5. В нашей за-
даче целесообразно округлить полу-
ченное значение. Тогда мы сможем
сказать, что наиболее часто встре-
чающаяся оценка—128
3.5.	СОПОСТАВЛЕНИЕ СРЕДНИХ
Симметрия и асимметрия. Преж-
де чем приступить к сопоставлению
средних, обсудим понятия «симме-
трия» и «асимметрия» (скошен-
ность). Представим себе кривую
в двумерном пространстве, такую,
как на рис. 3.5,а. Проведем линию
/ и перпендикуляры к этой линии.
Если расстояния по перпендикуля-
рам от / до пересечения с кривой
равны, то кривая называется сим-
метричной относительно /. Очевид-
но, что кривая не симметрична от-
носительно линии 2,
Кривые на рис. 3.5,6, в симме-
тричны относительно перпендикуля-
ров к горизонтальной оси, которые
пересекают кривые в точках макси-
мума и минимума соответственно.
Рис. 3.5- Примеры симметрии
44
лу ^z~^s %з
Рис. 3.6. Примеры скошенности
Для обеих кривых высота кривой
в точке равна таковой в точке
Х3, если X.—Xi=Xe—Х3. Итак, сим-
метричные распределения частот
могут быть представлены, напри-
мер, в следующем виде:
xi	h	xi	fl
to	3	10	3
12	5	12	5
14	5	14	9
16	3	16	5
		18	3
Если распределение частот имеет
более или менее выраженный мак-
симум и левый ряд относительно
него несколько длиннее правого
(рис. 3.6,а), то говорят, что распре-
деление имеет скошенность влево.
Распределение, изображенное на
рис. 3.6,6, имеет скошенность впра-
во. Итак, для случая, изображенно-
го на рис. 3.6,a, X<_Md<Mo, а на
рис. 3.6,5 — Mo<Md<X. Если ско-
шенность не слишком велика, то,
зная X и Md, можно оценить Мо.
Из рис. 3.6,а имеем
мо (№?;-*)•
Из рис. 3.6,5 получаем Мо^&Х—ЗХ
X (X—Md). В симметричном рас-
пределении частот X—Md=Mo.
Символ X используется здесь без-
относительно от того, представляет
ли распределение генеральную со-
вокупность, выборку, данные экспе-
римента или математическую функ-
цию.
Примеры сопоставления средних.
Рассмотрим распределение частот
длин стальных булавок, приведен-
ное в табл. 2.4. Как мы уже знаем,
оно построено по данным табл. 2.1,
в которой каждое значение измере-
но с точностью до одной тысячной
дюйма. Следовательно, каждый ре-
зультат должен быть округлен до
трех значащих цифр ’. Промежуточ-
ные результаты можно не округ-
лять. Наименьшая разность между
двумя числами равна с. Средняя
точка Х=250,2 округляется до 250.
Порядковый номер для медианы
Ма равен	0,5-300+0,5=150,5.
Таким образом, медиана попадает
в седьмую группировку, и в качест-
ве медианы можно взять среднюю
точку Х7=250, так что Л(</=250.
Применять в этом случае интерпо-
ляционную формулу вряд ли имеет
смысл, так как лл всегда округля-
ется.
Седьмая группировка является
также модальной, и для нахожде-
ния моды также нет необходимости
в использовании интерполяционной
формулы. Итак, после округления
мы имеем X=Md=Mo. Располагая
этим равенством, мы можем, не
глядя на распределение, сказать,
что распределение длин булавок
симметрично. Конечно, распределе-
ние выборочных данных никогда не
будет абсолютно симметричным,
можно говорить, что оно симме-
трично приближенно.
В распределении оценок по ста-
тистике из табл. 2 6 имеем Х=110,
Afd=118, Afo=128. Предположим
на минуту, что вся информация о
распределении сводится лишь к
двум величинам — X и Md. Так как
X<Md, то можно предположить,
что распределение скошено влево.
Предположим, что график поли-
гона не слишком беспорядочен или
не бимодален, и зададимся вопро-
сом: можно ли считать скошенность
умеренной? Другими словами, мож-
но ли подсчитать моду по формуле
Mo^X+3(Md—X)? Вычислим Х+
+ 3(Md—X) =110+ 24=134. Если
сравнить значение 134 с действи-
тельным значением моды 128, то
следует признать, что скошенность
значительна.
В распределении зарплат имеем
Х=2,85, Afd=2,83. Поскольку Х>
1 Одна из лучших работ по методам
округления — книга А. М. Tuttle. Elemen-
tary Business and Economic Statistics.
N. Y.: McGraw-Hill, ISTO.
45
Рис. 3.7. Сопоставление средних
>Afd, то распределение скошено
вправо. Оценивая моду по формуле
X—3(Х— Md), получаем Мо=
=2,85—3  (2,85—2,83) =2,79. Срав-
нивая это значение моды с действи-
тельным (2.8), приходим к выводу,
что "распределение имеет неболь-
шую скошенность вправо.
С помощью рис. 3.7 рассмотрим
другие моменты, касающиеся срав-
нения средних. Частоты здесь рас-
сматриваются в качестве грузов,
размещенных на планке, на кото-
рой нанесена шкала распределений.
Эта планка имеет одну точку опо-
ры. Если точку опоры поместить
точно под средним арифметическим,
то распределение сбалансировано.
График на рис. 3.7,а симметричен.
Добавим к этому распределению
справа еще один грузик. Точка опо-
ры сместится вправо, как это пока-
зано на рис. 3.7,6. Мода па рис.
3.7,6 останется прежней. Медиана
сдвинется вправо, но не так, как
среднее. На рис. 3.7,в точка опоры
также сдвигается вправо. Разновес
добавлен здесь такой же, как на
предыдущем рнсунке, но его распо-
ложение таково, что лишь удлиня-
ется существующая -п рис. 3.7,о
вертикальная линия, а не добавля-
ется новая.
Из приведенных выше рассужде-
ний ясно, что сравнение средних
дает определенную информацию о
неизвестном распределении. Ищу-
щему работу лицу наниматель мо-
жет предложить цифру, равную
средней заработной плате, которая
может показаться претенденту оп-
тимистичной. Однако опытный че-
ловек должен поинтересоваться
другими средними. Когда студент
спрашивает преподавателя о сред-
ней оценке, то более полной будет
его информация, если он наряду
с средним арифметическим будет
знать значение моды и медианы.
При сравнении национальных дохо-
дов двух стран цифры, показываю-
щие доход на душу населения, ма-
ло говорят о соотношении между
бедными и богатыми. Более инфор-
мативно сравнение трех средних.
Мода и процентили часто исполь-
зуются в социальных науках. При-
менение среднего арифметического
доминирует в промышленном про-.
изводстве. Это не случайно. Боль-
шинство данных, собираемых непре-
рывно в промышленных фирмах
для анализа или качественного кон-
троля, например длины булавок,
симметрично распределены. Поэто-
му проблема скошенности здесь не
рассматривается. Если все же стал-
киваются со скошенностью, то эго
не значит, что речь идет о возникно-
вении социальной проблемы. Ско-
шенность будет просто сигналом о
нарушении производственного про-
цесса. Однако проявление такого
нарушения лучше измерять сдвигом
среднего арифметического, чем
сравнением медианы и среднего или
моды и среднего.
Информация о распределении, по-
лучаемая из трех средних, часто бы-
вает недостаточна. Необходимо
иногда также вычислять значе-
ние статистических характеристик,
являющихся показателями рассея-
ния (вариации) данных. Обычно
это характеристики, компактно опи-
сывающие величину вариации: ва-
риационный размах, квартильные
размахи (или размахи других про-
центилей) , среднее отклонение,
среднее квадратическое отклонение
и дисперсия. Эти величины рассма-
триваются в следующей главе.
3.6. ВОПРОСЫ И ЗАДАЧИ
3.3. Дано распределение частот
Теперь учащийся умеет применять
к наблюдаемым им эмпирически рядам
различные статистические методы. Но
в связи с этим возникает и много про-
блем. Вероятно» наиболее серьезной из,них
является неопределенность, которую Мож-
но выразить двумя вопросами: правильно
I ли я выбрал метод и корректны ли мои
вычисления.
К сожалению, единственный способ
преодоления этих трудностей — накопление
в многочисленных экспериментах собствен-
ного опыта. Поэтому не следует отказы-
ьаться . от упражнений» приводимых
в книге.
3.1.	Приведенные ниже распределения
содержат небольшое число группировок,
что упрощает вычисления:
1Ч—иЧ	/ •h	2	3
12—14	2	7	2
15—17	4	4	4
18—20	7	3	6
21—23	4	4	4
24—26	2	7	3
ULi	h
0,0025—0,0039	21
0,0040—0,0054	42
0,0055—0,0084	57
0,0085—0,0134	54
а.	Вычислите среднее,
б.	Можно ли упростить вычисление,
умножая интервал группировок X* на
10 000, а затем полученное среднее раз-
делив на 10 000?
в.	Покажите, что SfcX</jV=£p, где k —
константа (например, 10 000).
3.4. Приведенное ниже биномиальное
вероятностное распределение подробно
рассматривается в гл. 5. Распределение име-
ет два множества средних точек — одно,
представленное Xt значениями» другое, вы-
раженное в процентах р<» где
=(Х</Хт) *100, а т —последнее значение
Х< для f=L 2,...» m:
Pi xi *"i
а.	Просмотрев распределение /, найди-
те для него на глаз среднее арифметиче-
ское» медиану и моду,
б.	Вычислите среднее, медиану и мо-
ду для распределения вида 3 и сравните
их с соответствующими значениями из рас-
пределения 1. '
в.	На сколько отличаются средние, ме-
дианы и моды распределений / н 2?
г. Какие из рассматриваемых распре-
делений симметричны? Заметим, что аб-
солютной симметрии в экспериментальных
данных никогда не бывает. Однако ста-
тистики могут использовать выгоды, вы*
текающие нз знания факта симметрии, да-
же тогда, когда распределение симметрич-
но лишь приближенно,
д Что нужно сделать, чтобы найги
среднее распределение (3) с помощью
формулы среднего для нес группированных
данных ц=лХ i/Ar?
е. Предположим, что распределение /
представляет собой массу багажа (в фун-
тах). Какова общая масса багажа? Сколь-
ко мест насчитывает багаж?
3.2. Предположим, что имеется 5000
упаковок, средняя масса каждой нз ко-
торых составляет 2,5 унаии.
а.	Какова суммарная масса?
б.	Рели на каждой упаковке указа ta
масса 2,5 унции» то можно ли быть уве-
ренным, что средняя всех масс равна точ-
но 2,5 унции?
в.	Подставьте в формулу £Х<—.Vp
данные нз рассматриваемой задачи.
г.	Зная, что X/i=5000? а р=2,5, най-
дите Е/Л.
0
25
50
75
JOO
0,1296
0,3456
0,3456
0,1536
0,0256
1,0000
а.	Вычислите Ux и
б.	Умножив на 100, определите f*.
Округляя ft до одной десятой» снова вы-
числите цх. Сравните результаты.
в.	Покажите, что
W'iXi/Wi =
для	где k — константа (например,
100). Не отражается ли на значении сред-
него переход от f< к f'\?
3.5*	С помощью вычислений или на
глаз найдите средние арифметические сле-
дующих распределений.
1		2		3	
x_i	fi	xl 1	fi	_Zi_	h
—2,4	4	—2	2	1,25	5
— 1,8	5	— 1	5	1,35	0
— 1,2	5	0	8	1,45	8
—0,6	3	I	5	1,55	4
0	J	2	2	1,65	1
0,6	I				
1,2	1				
47
Какие эмпирические данные могут со-
ответствовать частотным распределениям
вида / и 2?
3.6.	Автомобильная компания закупи-
ла у двух сталелитейных фирм металличе-
ские заготовки для производства обойм
подшипников. (Обойма подшипника имеет
форму чашечки, в которую вставляются
иголки для подшипников.) Масса заготов-
ки имеет решающее значение при произ-
водстве подшипниковых обойм. Ниже при-
водятся две выборки масс стальных заго-
товок (в г):
сталелитейная фирма А
41,6 41,7	41,8	42,2	41.2	40,9	41,3	41,5	41,7
41,8 41,4	41,1	4L4	41,5	42,0	42,3	41,6	41,5
41,3 41,4	41,3	41,2	41,1	41,6	41,9	41,2	42,0
41,6 41.7 41.5
О-в Сам я		США	
возраст, лет	Числен ность 10» чел.	Возраст, лет	Числен- ность, 10»чел.
<5	37С9	5	16 243
5-9	3244	5—14	24 429
10—14	2993	15—24	22220
15—19	2182	25 -34	23878
20—24	1444	35—44	21 535
25—34	2261	45—54	17 398
35—44	1844	55—64	13 327
45-54	1162	65-74	8432
55—64	672	75 и выше	3862
65 и выше	540		
•			151 326
	20051		г
Примечание. Данные мнты кз источника tJS Bu-
reeti of the Census. Stat 1stkfil Abstract of the United
States, 1969. Wash. D. C., I9R9, p. 816.
сталелитейная фирма Б
40,5 41,1 40,9 41,4 41,7 41,8 41Л 40,7 41>2
41,4 40,9 41.0 41,4 41,3 41,5 41.6 42,2 41,2
41.0 40.9 40,7 40.6 41,3 41.6 40,7 40,9 41,2
41,7 41.8 41.3
а.	Вычтите из каждого числа 40,9,
умножьте разность на 10 и постройте рас-
пределения частот для двух выборок.
б.	Чтобы получить Ха и Хд, умножь-
те обе средних на 0.1 н прибавьте 40,0.
в.	Покажите, что	—Л)/л=Х—k,
где п — размер выборки, a k — константа,
равная, например, 40.
г.	Почему были использованы выбо-
рочные средние?
Замечание. Символы X. F. 2 исполь-
зуются для обозначения как выборочных
средних, так и средних теоретических н
экспериментальных распределений. Интер-
претация символа всегда очевидна из кон-
текста.
3.7.	Даны следующие два распределе-
ния — возрастные группы населения США и
острова Само'а в 1960 г. (см. ниже)
а.	Найдите две медианы. Почему ме-
дианы столь различны?
б.	Определите долю (в %) населения
возрастом старше 55 лет в обеих странах.
в.	Найдите Рг$ и для обоих рас-
пределений. Попытайтесь интерпретировать
результаты.
г.	Используя Fffi, начертите на одном
и том же графике кумуляты вида сменыие
чем». Найдите те же, что н в предыдущем
пункте, процентили с помощью графика.
Сравните результаты.
48
3.8.	Ниже приводятся два следующих
распределения-
Денежный доход окончивших’школу
(лица старше 25 лет после
марта 1968 г.)
Доход, долл.	Средняя школа (4 гада)	Колледж {4 года)
I—1999	5,6	3.8
2000—3999	9.2	4.9
4000-6999	31,8	15,5
7000—9999	32,6	25.1
10 000—14999	16,2	29.4
>15000	4,6	21.1
	100	100
а.	Найдите медианы и моды для обо-
их распределений и попытайтесь интерпре-
тировать их. Что можно сказать о сим-
метричности обоих распределений?
б.	Найдите Р25 и и попытайтесь
интерпретировать результаты. Сможете ли
вы найти для обоих распределений?
3-9. Читатель, наверное, заметил, что
невозможно вычислить среднее для откры-
тых с начадя или с конца распределений.
Однако, если имеется дополнительная ин-
формация в виде Ai из задачи 5 (см. гл. 2),
то среднее найти можно. Используя эту
информацию, вычислите среднее.
ЗЛО. Средняя заработная плата в од-
ном из отделений компании X—
^12 670 долл., а ЛП=11900 долл. Скоше-
но лн распределение зарплат? Предполо-
жив. что распределение умеренно скоше-
но, вычислите моду.
ГЛАВА 4
ХАРАКТЕРИСТИКИ ВАРИАЦИИ ДАННЫХ
4.1.	ВАРИАЦИЯ ДАННЫХ И ЕЕ
ИЗМЕРЕНИЕ
Конечной целью статистических
расчетов является сопоставление по-
лучаемых характеристик. Чтобы
иметь возможность сопоставлять,
необходимо располагать по мень-
шей мере двумя наборами значений.
Иногда, правда, анализу подверга-
ется лишь одна совокупность дан-
ных, после чего остается лишь один
набор статистических характери-
стик. Тем не менее в этом случае
подразумевается, что для сопостав-
ления есть некоторая базовая сово-
купность, которая всем хорошо из-
вестна. Результатами таких расче-
тов оказываются только одна ме-
диана, одно среднее арифметиче-
ское, одна мода.
Как правило, сопоставления про-
водятся во времени или в простран-
стве. Доход на душу населения
в этом году можно сопоставить со
средним доходом несколько лет на-
зад, модальные расходы на поездки
и путешествия э настоящее время
можно сопоставлять с модальными
расходами на то же самое в пред-
шествующий период, сегодняшние
оценки можно сопоставлять с оцен-
ками, полученными студентами не-
сколько месяцев или лет тому назад.
Примером «пространственных»
сопоставлений может служить срав-
нение дохода на душу населения
в одной стране с доходом на душу
населения в другой стране; сравне-
ненне оценок, получаемых учащими-
ся в разных школах, или сравнение
оценок, получаемых в какой-нибудь
одной школе со средним по стране.
В особенно широких масштабах
пространственные сопоставления ис-
пользуются в промышленности.
При этом чаще всего приходится
сравнивать средние арифметиче-
ские, а также различные характе-
ристики разброса и других величин,
описывающих реальный процесс
4—232
производства, с техническими усло-
виями. При этом возникают сред-
ние длины, диаметры, массы, объе-
мы, давления, всевозможные напря-
жения, плотности и многое другое.
Возникает важный вопрос: нужно
ли для таких сопоставлений вычис-
лять несколько характеристик на-
бора данных или достаточно только
одной? Часто ограничиваются вы-
числением лишь одной статистиче-
ской характеристики рассматривае-
мого набора (или наборов) данных.
Такой одной характеристикой мо-
жет быть среднее арифметическое,
мода или какой-нибудь процентиль.
Иногда строят график или выписы-
вают распределение частот.
В других случаях набор данных
описывают, используя несколько ме-
тодов и несколько статистических
характеристик одновременно. Гра-
фики и распределения частот мож-
но тогда вообще не использовать.
При этом распределение частот
можно описать, указав три его ха-
рактеристики: 1) форму полигона;
2) одно или несколько средних зна-
чений; 3) значение какой-нибудь
характеристики вариации, или рас-
сеяния, данных.
1.	С учетом формы полигона рас-
пределение можно классифициро-
вать на колоколообразное, U-образ-
ное, J-образное, прямоугольное ’
и др. Распределение может быть
симметричным или скошенным.
Однако специалист, который лучше
знаком с математикой и статисти-
кой, опишем форму графика в бо-
лее точных терминах. Этого можно
добиться, сравнивая полигон, обра-
зованный данными наблюдении или
экспериментов, с какой-нибудь из-
вестной математической кривой
или с кривой распределения веро-
ятностей. Сделать это можно, на-
1 Прямоугольным распределением на-
зывается распределение с равными часто-
тами. т. е. распределение, для которого
f l=fs==——f т-
49
пример, проведя несколько матема-
тических кривых, приблизительно
соответствующих данным, и выбрав
затем из них ту, которая дает нз- *
илучшее приближение. Как мы уви-
дим ниже, такой подход имеет пре-
имущества.
2.	Когда распределение частот
сим.метрично, вычисляют только
одно среднее — обычно это среднее
арифметическое (или же иногда
медиана). Если же распределение
частот скошено, то для того, чтобы
учесть в процессе сравнения эту
скошенность, приходится вычислять
два или три средних.
3.	Величина вариации данных
является еще одной важной харак-
теристикой, и для адекватного опи-
сания набора данных результат ее
вычисления следует добавить к пер-
вой и второй характеристикам.
Отметим еще раз, что, сравнивая
два или несколько наборов данных,
полученных в одинаковых ситуа-
циях, но различающихся по време-
ни наблюдения или по размещению,
можно сравнивать между собой
только средние арифметические или
только характеристики вариации
данных, или только формы кривых.
Можно также проводить все эти
сравнения одновременно. В таком
случае обязательно приходится
сталкиваться с характеристиками
вариации.
4.2.	ВАРИАЦИОННЫЙ
И МЕЖКВАРТИЛЬНЫЙ РАЗМАХ
Сначала мы обсудим проблему
вариации, или рассеяния, или рав-
номерности данных, не делая раз-
личия между выборкой, генераль-
ной совокупностью и эксперимен-
тальными данными.
Проблему рассеяния данных про-
ще всего изучить на нескольких при-
мерах. Пусть две машины — одна
старая, другая новая—режут сталь-
ную проволоку. Обе машины могут
производить булавки, длина кото-
рых в среднем равна 250-10-3 дюй-
ма. Однако более старая машина
работает с меньшей степенью точно-
го
стн, чем новая, и вариация значе-
ний длин булавок, производимых
ею, будет больше. Если распреде-
ление частот О (длина булавок,
производимых старой машиной) на-
рисовать на одном графике с рас-
пределением N (длин булавок, про-
изводимых новой машиной), то оба
они будут иметь одинаковую форму
и одинаковое среднее значение.
Почти единственным отличием бу-
дет разница расстояний между хво-
стами обоих распределений. Хвосты
О будут находиться друг от друга
на большем расстоянии, чем хвос-
ты А/.
Задачей инженера на производст-
ве является, в частности, определе-
ние тех границ, в рамках которых
допустимо изменение характеристик
тех деталей, из которых произво-
дится сборка изделия. При сборке
они должны подойти друг к другу.
Детали, которые не подходят, при-
дется переделать или выкинуть.
Однако зачастую реальные возмож-
ности производственного процесса
не соответствуют техническим усло-
виям. Именно поэтому инженер,
мастер, браковщик, работник ОТК
заинтересованы в измерении и срав-
нении нормативом не только сред-
них значений, но и величины вариа-
ции соответствующих данных.
Другой пример. Страховые ком-
пании А и В выплачивают своим
сотрудникам одинаковую среднюю
зарплату, однако у работников
компании В зарплаты более близ-
кие по величине, чем у сотрудников
компании А. Другими словами, ва-
риация илн рассеяние размеров
зарплаты в А больше, чем в В.
Отметим, что как число служащих,
так н фонд заработной платы в обе-
их компаниях могут быть одинако-
выми. При этом кадровая полити-
ка, проводимая компанией А, мо-
жет оказаться более успешной. Ис-
пользуя дешевую рабочую силу
для выполнения простых операций,
она может позволить себе платить
более высокую зарплату за выпол-
нение более сложных заданий.
Точно так же преподавателя
интересуют не только средние спо-
собности учащихся, но и тот диапа-
зон, в пределах которого они из-
меняются. Вариация данных на-
блюдается и в торговле. Конечно,
объем продажи за один день в том
или ином магазине молочных про-
дуктов более или менее стабилен,
но, например, число проданных
в определенном магазине автомо-
билей (за один день) может сильно
варьировать. Цены на бензин
в одном и том’ же городе могут быть
одинаковыми на всех бензоколон-
ках, в то время как стоимость холо-
дильника одной и той же марки мо-
жет сильно зависеть от места про-
дажи. Две страны могут иметь оди-
наковый средний доход на душу
населения, но в одной из них раз-
ница между очень богатыми и очень
бедными может оказаться очень
большой, тогда как в другой дохо-
ды богатых и бедных будут более
близки к некоторому среднему зна-
чению.
Как и в случае средних значений,
проблема измерения вариации
(рассеяния) данных требует реше-
ния двух вопросов — о выборе под-
ходящей характеристики величины
вариации и о том, следует ли при
получении этой характеристики ис-
пользовать весь имеющийся набор
данных (генеральную совокуп-
ность) или стоит оценить эту харак-
теристику вариации всей генераль-
ной совокупности на материале той
или иной выборки. Как и в преды-
дущем случае, мы обсудим только
первый вопрос; проблемы выбороч-
ных оценок будут затронуты лишь
с вычислительной точки зрения.
Методика вычисления различных
характеристик дисперсии данных
будет рассмотрена на примере не-
скольких небольших выборов экспе-
риментальных данных. При этом мы
не будем делать различия между
выборкой и генеральной совокупно-
стью. Такое различие будет сделано
нами позднее.
Простой, но часто используемой
характеристикой диапазона измене-
ния (вариации) данных является
4*
разность между наибольшим и на-
именьшим значениями (вариацион-
ный размах) выборки. Если име-
ются два или более набора данных,
полученных в результате одинако-
вых наблюдений, то можно для
каждого из этих наборов вычесть
наименьшее его значение из наи-
большего и сравнить полученные
разности. Например, размах длин
булавок в табл. 2.1 равен /?=
=Хп—Xi=256—244=12. Это значе-
ние мы уже можем сопоставить
с техническими условиями. Если эти
булавки были приобретены у кого-
то еще, то определение такой харак-
теристики явится проверкой качест-
ва полученного товара.
Размах значений почасовых зара-
ботков в табл. 2.2 равен R=Xn—
—Xi=3,37—2,49=0,88, т. е. 88 цен-
тов. Это значение можно сравнить
с размахом почасовых заработ-
ков в другом отделе, другой форме
или со средним по стране. Размах
оценок, по данным табл. 2.3, равен
/?=145—43=102. Это значение вряд
ли нужно с чем-нибудь сравнивать,
поскольку каждый студент по свое-
му собственному опыту знает, что
разница в 102 единицы очень вели-
ка. Тем не менее специалисту, ко-
торый проводит более подробные
исследования, может быть полезен
и этот результат.
Если задано распределение ча-
стот, то величину размаха можно
вычислить двумя способами. В том
случае, когда наименьшая разность
между парами значений, входящих
в исходной список данных, равна
интервалу группирования с, вели-
чина размаха равна разности меж-
ду последней и первой средними
точками, т. е. R—Xm—Xi. Получен-
ное таким образом по распределе-
нию частот значение равно R,
вычисленному по самим данным. Во
всех прочих случаях наиболее ра-
зумная оценка для R дается вели-
чиной R=aLm—iLi, т. е. разностью
между верхним пределом группиро-
вания последнего класса и нижиим
пределом группирования первого
класса. Таким образом, значение R
51
Таблица 4.1. Вариационный и межквартвдьный размах для]случая
несгруппированных данных
Вариационный размах
Х.=-4> -3 0, 2, 2, 4, 7 о
I Ф-Э I I СН-ОКО-1.......1 э I '
—5—4-3—2-1 012345678
У, = 5, 6, 8, 9, 12, 12, 12, 13, 14	®
—I I I I I I ОФ I ОСИ—НФСХЭ+-
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
—----5----—=- R> = 14 - 5 = 9-
-------------14-------------►
Z. = 125. 126, 128, 129, 132, 132, 132, 133, 134
I I II } hv I I I t I I I -I I i  ! <-
-1 0 1 2 3	124 125 126	134135
125 —----------Й2 = 134 - 125 = 9—*-
-*-------------134---------------*-
Межкеартильный размах
Для Xt N = 7
Для Q. п. =0,25-7 + 0,5= 1,75-RO.5=2,25,
Q, = —3 + 0,25-10—(—3)] = —3 + 0,75= —2.25.
Для Q3 «„ = 0,75-74-0,3 = 5,25'4-0,5 = 5,75,
Q, = 2+0,75-(4—2) = 2 + 1,5 = 3,5.
_	'	© I------------------Qt
—I (DOj i l Ф i (D p(D i i CD I I—
-5-4-3J-2-I 0 1 2 3 4 5 6 7
IRx = Q, - Q, = 3,5 -(- 2/25) = 5,75
F(=7I, 125, 126, 128, 129, 132, 132, 132, 133, 134, 221
Для (Г,- N = 11
Для Qt	n0 = 0,25-11 4-0,5= 3,25,	Q, = 126 + 0.25-(128—126) = 126.5.
Для Q,	n* = 0.75-11 +0.5 = 8,75,	Q, = 132 + 0,75-(133 — 132)= 132,75,	7/?F = 6,25.
Для Zi N = 9
Для Qi	ne = 0.25-9 + 0,5 = 2,75,	Q, = 126+ 0,75-(128—126) = 127,5.
Д>я Q,	n. = 0,75-9 + 0,5 = 7,25,	Q. = 132 + 0,25.(133—132) = 132,25,	7R,=	I32,25 —
— 127,5 = 4,75,
52
для почасовых заработков, получен-
ное по табл. 2.2, равно 0,88, а вы-
численное этим способом по табл,
2.5 равно 0,99.
Отметим, что не только размах,-
но и все другие характеристики
вариации данных имеют смысл
только в том случае, когда значе-
ния, по которым они получены, со-
поставимы друг с другом, т. е. при-
мерно одинаковы по величине, точ-
нее, данные сопоставимы, если их
средние значения не очень сильно
отстоят друг от друга. Пусть, на-
пример, в системе оценок, которой
пользуется другой преподаватель,
высшее число баллов — 350. Вполне
возможно, что размах значений его
оценок тоже равен примерно 100
единицам, так что в обоих случаях
числовые значения /? приблизитель-
но одинаковы. Тем не менее вряд
ли можно утверждать, что вариация
оценок в обоих случаях будет одной
и той же.
Если данные не сопоставимы,
можно сделать следующее;
1) вместо вариационного или
межквартильного размаха можно
вычислять среднее отклонение или
среднее квадратическое отклонение,
которое затем преобразуется в ко-
эффициенты вариации. Эти характе-
ристики будут отвлеченными числа-
ми, не зависящими от того, в каких
единицах измерялись исходные дан-
ные. Обычно их получают, деля зна-
чение среднего отклонения или
среднего квадратического отклоне-
ния на среднее арифметическое
сравниваемых данных;
• 2) данные можно сначала под-
вергнуть стандартизации и сделать
таким образом сравнимыми. Один
из способов стандартизации мы об-
судим позднее в этой же главе.
Межквэртильный размах опреде-
ляется выражением IR—Q3—Qt Та-
кая характеристика вариации дает
разумные результаты в том случае,
'когда сопоставляемые данные, если
их упорядочить по величине, имеют
в нижнем или верхнем конце полу-
ченного вариационного ряда или в
обоих его концах так называемые
выбросы. Распределение частот
можно считать имеющим выбросы,
если оно сильно скошено или имеет
длинные и зигзагообразные хвосты.
При этом выбросами считается от-
носительно небольшое число значе-
ний, которые выпадают из общего
массива данных (т. е. слишком ве-
лики или слишком малы по сравне-
нию с подавляющим большинством
чисел).
В табл. 4.1 графически проиллю-
стрированы эти две характеристики
вариации в случае несгруппирован-
ных данных и на рис. 4.1 для сгруп-
пированных данных. Следует обра-
тить внимание, например, на вычис-
ление размаха для величин Xi и
сравнить вариационный и межквар-
тильный размах для наборов велй-
чин Zi и Wi в табл. 4.1. Ряд W, да-
ет пример набора данных, имеюще-
го выбросы относительно основной
массы значений.
Ка к правило, межквартильный
размах чаще используется в зада-
чах, касающихся экономических и
Рис. 4.1 Вариационный (в) и межквартильный (б) размахи (данные взяты из
табл. 2.4)
53
социальных проблем. Размах как
характеристика вариации данных
применяется преимущественно в за-
дачах, связанных с измерением тех
или иных величин в процессе про-
мышленного производства, а также
в задачах теоретического характе-
ра. .Главная причина этого заклю-
чается в том, что величины, с кото-
рыми приходится сталкиваться в
процессе промышленного производ-
ства, изменяются от измерения к из-
мерению постепенно и равномерно,
а распределения частот обычно
являются симметричными.
4.3. СРЕДНЕЕ И СРЕДНЕЕ
КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЯ
По сути дела, между средним и
средним квадратическим отклоне-
ниями нет большой разницы, по-
скольку они характеризуют рассея-
ние данных через отклонения от-
, дельных значений имеющегося ряда
от среднего. Мы будем вводить эти
понятия, иллюстрируя их на приме-
ре экспериментальных данных, при-
веденных в табл. 4.2. Мы включили
в нее три набора дискретных пере-
менных— Xi, Yi, Zi и ряд постоян-
ных величин, причем по порядку
значения все они сопоставимы друг
с другом. Более того, во всех четы-
рех случаях среднее значение оди-
наково, а именно X=Y' = Z —А = 12.
Заметим, что величину вариации
данных в каждом из рядов можно
в некотором смысле просто «уви-
деть». Действительно, наши ряды
содержат мало членов, а разница
между ними, с точки зрения вариа-
ции данных, довольно значительна.
Наибольшую вариацию имеют дан-
ные Х(, а для А она равна нулю.
Это наблюдение подтверждается и
значениями размахов, приведенны-
ми в табл. 4.2. Отметим, что исполь-
зовать в данном случае размах в ка-
честве характеристики вариации
вполне уместно, поскольку ни одни
из рядов не имеет выбросов.
4.3.1. Среднее отклонение
Как вариационный, так и меж-
квартильный размах измеряют ве-
личину вариации данных через раз-
ность всего лишь двух чисел ряда
или распределения частот. Чтобы
получить характеристику, которая
будет учитывать все значения пере-
менной, можно из каждого числа
вычесть некоторую постоянную. Эту
постоянную можно выбрать произ-
вольно или использовать в качестве
нее одно из средних значений
(обычно берут среднее арифметиче-
ское). Таким образом, мы получим
столбцы (Хё—X), (У/—F) и (Zi—Z).
Разумеется, (Л—А)=0.
Таблица 4,2. Вычисление среднего значения и среднего
квадратического отклонения
xi	i/r31	lXf— A)		Yi	Ir.-Pi		(У-Г).	2.	IZ^-Zl		(Z-Z)*	A
7	5	—5	25	12	0	0	0	11,4	0,6	-0.6	0,36	12
3	9 '	-9	81	14	2	.2	2	12.3	• 0.3	0,3	0,09	12
11	1	—1	1	13	, I	1	1	11,8	0,2	—0,2	0,04	12
8	4	—4	16	11	1	1	— 1	12.8	0.8	0.8	0.64	12
20	8	8	64	8	4	4	—4	12.3	o,3	.0,3	0,09	12
21	9	9	81	17	5	5	5	11.9	0,1	—0.1	0,01	12
14	2	2	4	9	3	3	—3	11.5	0,5	—0.5	0,25	12
Примечание. R^ — 18. Ry = 9. R^ = 1,4. RA = 0; MD— £ J % — X |/1V;'	— 5,4, MDy — 2.3. MD? —
= 0,400, MDa = 0;	= Z(Xt- XYIN; = 38.9.	« 8>o.	= 0.2Ц4. a* = 0;	i
Ojf = 6,2.	= 2,8.	= 0,460. a, = 0.
54
Величину вариации, или рассея-
ния, данных можно после этого оце-
нить, сравнивая абсолютные значе-
ния полученных разностей. Другими
словами, сравним друг с другом но-
вые переменные: (X,—X), (Т;—У)
и (Z,—Z). Легко видеть, что пере-
менная (X;—X) принимает самые
большие, а переменная (Z,—2} —
самые маленькие значения. Отсюда
можно сделать вывод, что решение
X,, выраженное набором величин
(X;—X), больше, чем в двух других
случаях.
Чтобы получить в качестве харак-
теристики вариации одно число,
можно вычислить среднее арифме-
тическое каждою из наборов новых
переменных: (X,—X), (У1—F) и
(Z,—2). Эти величины называются
средними отклонениями от средне-
го значения соответствующего типа.
Возникает лишь одно осложнение.
Если буквально вычислить среднее
арифметическое по формуле М£)=
=Е(Х.—X) /.V, то независимо от то-
го, каковы значения X/, получится
нулевой результат. Действительно,
2(Х,-—Х)=0, так как
2 (Л\ - X) = SXf ~2Х — 2Х< —
- 2 (2X.-/X) = 2Xt - N {2.XJN} =
Поэтому, чтобы избежать такой си-
туации и получить содержательную
характеристику среднего отклоне-
ния, следует вместо разностей меж-
ду отдельными величинами и неко-
торой постоянной использовать аб-
солютные значения этих разностей.
Абсолютные значения обозначаются
вертикальными линиями. Тем са-
мым формула для среднего откло-
нения от некоторого среднего при-
обретает вид;
МД = 21 Xf - X |
В качестве постоянной, которая
вычитается из значений X,. можно
использовать и медиану. В этом
случае среднее отклонение от ме-
дианы равно
iWD'=^2|X,--AM|W.
Следует иметь в виду, что эта и
другие подобные статистические ха-
рактеристики называются также
характеристиками рассеяния, или
вариации, относительно выбранной
постоянной величины, или отклоне-
ниями от этой величины.
Для распределения частот сред-
нее отклонение можно вычислить,
вычитая выбранную постоянную из
значений средних точек интерва-
лов— |Х;—Х|, умножая затем эти
разности на соответствующие им
частоты — f,|X*—Х|, складывая все
полученные произведения — 2/t X
X |Х,-Х] и деля эту сумму на пол-
ное число всех наблюдений Zf». В
результате получим
AfD=2fi|Xf-X|?2fi.
4.3'2. Среднее квадратическое
отклонение
Если вычесть постоянную из зна-
чений переменной (X;—X), возвести
полученные разности в квадрат —
(Xi—X)2, сложить — 2 (X,—X)2 и
разделить на число значений этой
переменной, то получится иная ха-
рактеристика вариации данных, ко-
• торая носит название дисперсии:
^--=2{Xi-X)i;:N.
Квадратный корень нз дисперсии
о=/* 2(Х,-Х)*/Х
называется средним квадратическим
отклонением (или стандартным от-
клонением). Обе эти характеристи-
ки широко используются в теоре-
тической и прикладной статистике.
В теоретической (что обычно явля-
ется синонимом математической)
статистике величинам о2 и о отдают
предпочтение перед характеристи-
кой MD, поскольку ими удобнее
пользоваться при алгебраических
действиях, а также в связи с тем,
что они подобны некоторым мате-
матическим понятиям, разработан-
ным в ряде технических наук. На-
пример, в математической статисти-
ке среднее арифметическое называ-
55
ется первым моментом относитель-
но начала координат, а дисперсия—
моментом второго порядка относи-
тельно среднего арифметического.
Дисперсия вычисляется по задан-
ному распределению частот следую-
щим образом, вычтем среднее ариф-
метическое из значений средних то-
чек интервалов—(X,—X), возве-
дем эти разности в квадрат —
(X,—X)2, умножим на соответст-
вующие частоты—//(Х/—Х)2, сло-
жим все полученные величины —
—X)2 и разделим сумму на
полное число элементов распределе-
ния частот:
Sn (Хх -’*)• _ Efi (X, - X)»
и
В результате получаем для диспер-
сии следующую формулу:
_ SMX< -7)» _sfl (X, -Т)« * -
— Ef/ ~ N
где Zft—N. Тогда среднее квадра-
тическое отклонение равно
%
(Хг— X)»
Коэффициент вариации. В том
случае, когда приходится сравни-
вать (во времени и пространстве)
данные двух или более наборов пе-
ременных с точки зрения вариации,
они, как правило, сопоставимы на
большей части рассматриваемого
периода. Напомним, что с сопоста-
вимыми данными приходится иметь
дело чаще в промышленности, чем
в общественных науках. В промыш-
ленности данные, описывающие те
или иные результаты измерений, ла-
ются обычно в сопоставимых едини-
цах. Если компания приобретает
какой-нибудь продукт у нескольких
поставщиков, то его спецификации,
как правило, почти одинаковы. С
другой стороны, системы оценок,
зарплата, оклады, доходы, цены и
другие величины очень часто выра-
жаются в различных единицах из-
56
мерения и поэтому не сопоставимы
друг с другом В наших курсах
«Статистика» и «Исследования опе-
раций» оценки сравнимы, поскольку
их среднее не очень сильно отлича-
ются друг от друга и, следователь-
но, нет необходимости вычислять
коэффициенты вариации. Если име-
ются два или три набора стальных
болтов и требуется сравнить раз-
брос их длин, то для этого не пона-
добится вычислять коэффициент ва-
риации. В то же время нетрудно
найти двух преподавателей или две
школы, системы оценок которых
различны. В этом случае сравни-
вать одного преподавателя с другим
(или одну школу с другой) можно
лишь после того, как их системы
оценок будут сделаны сопостави-
мыми.
Коэффициент вариации и служит
для сравнения двух или более на-
боров данных, отличающихся по по-
рядку значения величины. Этот ко-
эффициент вычисляется очень про-
сто: достаточно разделить среднее
квадратическое или среднее откло-
нение на среднее значение соответ-
ствующего набора данных.
Генеральная совокупность и вы-
борка. Может оказаться, что содер-
Таблица 4.3. Вычисление среднего
кНадратического отклонения
(случай весгруппированных данных)
	X/-V X-X	(Л-(. - |ЛГ - Л')*
2,92	0,01	0.0001
3/’5	0,14	0.0196
2,75	—0,16	0,0256
3.25	0,34	0.1156
2.59	0,32	0,1024
3J7	0,26	0,0676
2,85	—0.06	0,0036
2,72	—0,19	0,0351
2,89	—0,02	0.0002
26,19		0,3710
Примечание.
* (Х£ - р)>
У
^0.04122 — 0.203; $
= Fo.(H6375 =0-2||>-
Та'блица 4.4. Вычисление среднего квадратического отклонения (почасовые ставки
заработной платы 303 промышленных рабочих)
xl	h	* 1 -|	(Xj-X)*	Iff (X-X)'	ai	Ml	
I	2	3	4	5	6	7	S
2.495	10	— 0,356	0,126736	1,2674	— 3	— 30	90
2,595	25	— 0,256	0,065536	1,6384	— 2	— 50	100
2,695	1 57	— 0,156	0,024336	1,3872	— 1	— 57	57
Xt = X. = 2,795	74	— 0,056	0,003136	0,2321	0	0	0
2,895	58	0,044	0,001936	’ 0,1123	i	58	58
I	2,995	34	0,144	0,020736	0,7050	2	68	i36
3,095	17	0,244	0,059536	1,0121	3	51	153
3,195	14	0,344	0,118336	1,6567	4	56	224
3,295	11	0,444	0,197136	2,1685	6	6	275
3,395	3	0,544	O-, 295936	0,8878	6	18	108
	’303		•	1i,0675		169	1201
V N

<з
(генеральная совокупность)
II
111
Ef; (X/ - X)»
-1
(X, - X)’
Ef( = zi (выборка)
(Sf,) (£M%-) - (£/,<)«
(£Л) (Sfi - 1)
WEf,-d\- -
n (n — i)
n— J

IV
— 0,1
,059.’
303/
= 0,1/3,9637 — 0,3111 =
='0,1 /з,6526 =ь 0, i (l,9i 12) = 0, >911
Zh № - X)»
n— 1
/11,0675
Г 302
= "/0.036664735 = 0,1914
V
-* = c
п£[^ -	o .
n(n-l)	"0J
/(303) 1 201 — 28 561	_/335 342 _
303.(303—>)	-°-1/ 91506
= 0,1 /3,664669 = 0,1.1,91434 = 0,1914
Примечание Данный взггы из табл . 2.5,
57

жащиеся в табл. 2.1 и 2.4 данные
о длйнах 300 болтов выбраны из
значительно большей генеральной
совокупности (насчитывающей, на-
пример, 10 000 значений). Точно так
же 303 значения, приведенные
в табл. 2.2 и 2.5 и представляющие
собой значения почасовых ставок
заработной платы, могут быть всего
лишь выборкой из некоторой более
обширной платежной ведомости. В
таком случае полученные нами на
материале этих выборок средние
квадратические отклонения могут
рассматриваться только как оценки
«истинных» средних квадратических,
отклонений, характеризующих обе
генеральные совокупности. Как мы
уже знаем, среднее арифметическое
как для произвольной выборки, так
и для полной генеральной совокуп-
ности вычисляется по одной и той
же формуле. В случае дисперсии
или среднего квадратического от-
клонения это не так. Если нужно
вычислить дисперсию для всей гене-
ральной совокупности, то сумму
квадратов отклонений надо разде-
лить на	а при вычислении
дисперсии набора выборочных дан-
ных— на п—\=£fi—I.
Эта разнйца хорошо видна в
табл. 4.3 (для случая несгруппиро-
ванных данных) и в табл. 4.4 (для
распределения частот). В II части
табл. 4 4 а — среднее квадратиче-
ское отклонение для всей генераль-
ной совокупности, s — среднее квад-
ратическое отклонение для выбор-
ки. С помощью двух формул из II
части табл. 4.4 в IV и V частях
вычислены (для о и $ соответствен-
но) средние квадратические откло-
нения данных о почасовых ставках
заработной платы из I части. При
этом одни и те же данные частот-
ного распределения I части в пер-
вом случае считаются генеральной
совокупностью, а во втором — вы-
боркой из нее. Отметим, что в обо-
их случаях (и для о, и для $) чис-
лители вычисляются одинаково.
В связи с тем, что в формуле,
соответствующей выборочным дан-
ным, знаменатель на единицу мсиь-
58
ше, значение s несколько больше
значения о. В том случае, когда п
велико, эта разница не очень су-
щественна (сравните значения 4 и о
в табл. 4.4). Если, однако, п мало
(например, около 10), разница бу-
дет довольно заметной. Поэтому,
вычисляя s и $2 по выборочным
данным, не следует забывать, что
в знаменателе должна стоять вели-
чина п—1, а не п. Причины такого
различия между выборкой и гене-
ральной совокупностью станут по-
нятны несколько ниже.
Можно ли использовать формулу,
соответствующую несгруппирован-
ным данным (т. е. формулу о =
= У 2 (Х] — р-)*/М- ДЛЯ вычисления
среднего квадратического отклоне-
ния в случае сгруппированных дан-
ных? Ответ на этот вопрос положи-
телен. Достаточно лишь переписать
в виде числового ряда средние точ-
ки частотного распределения, при-
веденного в табл. 4.4. При этом чис-
ло 2,495 надо повторить 10 раз,
число 2,595—25 раз и т. д., после
чего уже можно использовать на«пу
формулу для несгруппировачных
данных.
Формулы для быстрого счета.
В III части табл. 4.4 приведены
формулы для быстрого вычисления
о и s. Их можно получить так же,
как показано в разд. 3.2 при выво-
де формулы для быстрого вычисле-
ния среднего арифметического. За-
метим прежде всего, что величины
с, fi и нам известны. Чтобы по-
лучить остальные члены, обозначим
через Хс- какую-нибудь из средних
точек Xi (лучше всего — среднюю
точку модального класса Л\). Вве-
дем новую дискретную переменную
di, описывающую число единиц от-
клонения от Хь=Х0. При этом dk==0
(см. столбец 6 табл. 4.4). Вычислим
теперь величины fidt и fid2/, просум-
мируем их и подставим полученные
суммы в формулу из III части
табл. 4.4.
Формулу для ускоренного вычис-
ления дисперсии о2 (или з2) получа-
ют возведением в квадрат соответ-
ствующей формулы из III части,
а именно:
Второе вычисление IV части дает
3»=	= 0,01 -3,652 =
—0,03652. Разумеется, ту же вели-
чину можно получить, и возводя
в квадрат величину о=0,1911.
Формулы быстрого счета особен-
но полезны в том случае, когда
у нас нет счетной машинки и необ-
ходимо быстро, но «вручную» вы-
числить соответствующие характе-
ристики. Они еще более удобны
тогда, когда для какого-нибудь на-
бора данных необходимо вычислить
одновременно и среднее арифмети-
ческое, и дисперсию (пли среднее
квадратическое, отклонение). С та-
кой ситуацией приходится сталки-
ваться довольно часто, и очень важ-
но, что для получения обеих харак-
теристик по данным табл. 4.4 до-
статочно использовать только три
ее столбца, а именно: 6, 7 и 8, по-
скольку
где "Zfidi — просуммированная по i
дискретная переменная /Д из
столбца 7.
Еще одна формула, полезная для
вычисления дисперсии, выглядит
так:
В математической статистике эту
формулу выводят с помощью (п
в терминах) моментов. Здесь мы
докажем ее, пользуясь непосредст-
венно определением дисперсии.
Обозначая для удобства р через X,
имеем
Sfi
Eff Efz .
OySf,Z,- । y, Eft
“ sf.- “ "гл Sf' =
“ Sfi
_ yt	MM \«
Л — £f, — Eh ) •
Учитывая, что %fi=N, эту формулу
можно переписать в виде

Соответствующая формула для
среднего квадратического отклоне-
ния будет иметь вид:

Чтобы получить формулу для дис-
персии выборки, необходимо заме-
нить Л' на п и умножить всю фор-
мулу на п/(п—1). Таким образом,
г _ Г №Ll VI n
L « V n J J <«— 0 “
_ nEfjX^ _ n /SfjXf у _
n(n — 1)	(л — 1) n J
_ tXfiXb _ n	8 _
n(n—1)	{n— 1) n*
_ (Eft*.)8
n(n— 1)	П(Л— I)
fnShA8,' - (£h-Xt-)*|
л(«—1)
И
s=	(л - 1).
Заметим, что по своей структуре
эта формула и формула для бы-
строго счета (выражающая диспер-
сию через величину di) похожи друг
на друга. В обоих случаях величи-
ны X, являются средними точками
частотного распределения. Отметим,
кроме того, что как исходные, так
и только что полученные формулы
применимы к распределениям ча-
стот как с равными, так и с нерав-
ными интервалами группирования.
 В то же время формулы, в которые
входит величина di, годятся только
для распределений с равными ин-
тервами группирования. Приведен-
59
ные выше формулы удобны также
для расчетов с помощью простых
настольных калькуляторов.
Для удобства сведем формулы
в табличку:
нить друг с другом. Тем не менее»
взятые вместе с другими статисти-
ческими характеристиками среднее
квадратическое отклонение и ди-
сперсия дают возможность описать.
Для генеральной совокупности
Для »ь#5орки
Несгруппированные данные


Сгругширова иные данные
; (Хг-X)
п (п — I)
с
n£[iX*i - (£ЬХ,.)а
(Ef,) lEfi - .)
— с
л (л — I)
Чтобы получить дисперсию (гене-
ральной совокупности нлн выбор-
ки), следует возвести правую часть
соответствующей формулы в квад-
рат. Очевидно, что для этого доста-
точно опустить знак радикала (в
каждой из формул, кроме послед-
ней, где следует, помимо того, воз-
вести в квадрат величину с).
Дополнительные сведения о сред-
них и о характеристиках вариации
данных можно найти в книгах Юла
и Кендалла, Крокстона, Каудена п
Клейна * и др.
Как показано выше, среднее ква-
дратическое отклонение и диспер-
сия используются для описания ва-
риации двух или более наборов
данных, которые необходимо срав-
1 Udny Yule G, Kendall M. G. Al In-
troduction to the Theory of Statistics. f'. Y.:
Hafner Publishing Co., 1950. Croxton I. E.,
Cowden D. J., Klein S. Applied General
Statistics, Englewood Cliffs. N. Y.: Prenti :e-
Hall, 1967.
60
свойства и какого-нибудь одного
частотного распределения.
В следующем разделе будет рас-
смотрено еще одно важное приме-
нение характеристики среднего
квадратического отклонения, а
именно — методика стандартизации
данных.
4.4. СТАНДАРТИЗАЦИЯ ДАННЫХ
Стандартизация несгруппирован-
ных данных. Рассмотрим следую-
щую ситуацию. Имеются три препо-
давателя: X, У и №. Число студен-
тов у них одинаково, но они ис-
пользуют разные системы оценок.
В связи с тем, что эти оценки отно-
сятся к трем частям одного и того
же курса, хотелось бы иметь воз-
можность "сравнивать их друг с дру-
гом. Как это можно сделать, пока-
зано в табл. 4.5. В I части таблицы
приведены исходные оценки, в II ча-
сти — их отклонения от среднего
Таблица 4.5. Стандартизация несгруппнрованных данных
I	II	III		IV	’
Х1	V.	Х1~^х	XZi 1 1*1 V*l	loo-j-io^l ioo+iOj.Z/1 ioo+io^z.
69'	168	36	1.8	—0.4	—3	0.27	—0,03	— 1,1	102.7	99,7 •	89
70	190	44	2,8	21.6	5	0.42	1,43	1,8	104,2	114,3	118
77	147	37	9.8	—21j4	—2	L48	— 1,41	—0,7	114,8	85,9	93
62	158	38	—5,2	— 10,4	— 1	—0.79	—0,69	—0.4	92,1	93,1	96
58	179	40	—9.2	10,6	1	— 1,39	0,70	0.4	86,1	107,0	104
Пртшечаяне.			VjfS=57.2	. |»г=168.4. ji,r=39.0;			ML Я},-	15.13»	A2	i =	>'ex.
	^i^y'										
(соответствующего набора оценок).
В III части величина z показывает,
какую долю эти отклонения состав-
ляют от средних квадратических
отклонений каждого из трех набо-
ров оценок. Эти данные можно счи-
тать сопоставимыми
Следует иметь в виду, что в при-
ложениях вместо, например, z=l,48
часто пишут 2=1,48а. Это означает,
что значение X., которое соответст-
вует значению вычисленному по
общей формуле zi=(Xi—ц) /о, боль-
ше среднего на величину, в 1,48 ра-
за большую среднего квадратиче-
ского отклонения. В том случае,
когда z=—0,79 (или z=—0.79о),
соответствующее значение X мень-
ше среднего на величину, равную
0,79 среднего квадратического от-
клонения.
Поскольку ни один из трех набо-
ров данных не содержит выбросов,
разумно вычислить вариационные
размахи, что даст возможность еще
лучше представить, насколько су-
щественно указанные наборы отли-
чаются друг от друга. Легко ви-
деть, что J?zx=l,48— (—1,39) =2,87
средних квадратических отклоне-
ний; /?zr=l,43— (— 1,41)=2,84о,
Rzw=1,8—(—1,1)=2,9о. Теперь
уже вполне очевидно, что в дейст-
вительности разница между тремя
системами оценок не так велика,
как это может показаться на пер-
вый взгляд.
Предположим, что человек, мало
знакомый со статистикой, будет
сравнивать вариации оценок с по-
мощью характеристики среднего
квадратического отклонения. Он
получит следующие значения: аА=
=6,6, оу=15,1 и aw—2,8, и если
он не вычислит после этого коэффи-
циенты вариации, его выводы будут
сильно отличаться от наших и ока-
жутся совершенно неверными.
Если результаты процедуры стан-
дартизации нужно представить ли-
цам, незнающим, что такое среднее
квадратическое отклонение, можно
сделать еще одно преобразование
(см. IV часть табл. 4,5), где значе-
ния приводятся к одной общей для
всех трех преподавателей стандарт-
ной системе оценок.
Стандартизация сгруппированных
данных. Пример стандартизации
сгруппированных данных приведен в-
Т э_б л и п а 4.6. Стандартизация
сгруппированных данных
(длины стальных булавок)
1 xl	г	3 X^p. — l	а	4 h	5 - J«_ 4 -
244	—Г>,2	—2,445	4	0.0133
245	—5,2	—2,050	5	0,01667
246	-4,2	— 1,655	11	0,03667
247	-3.2	— 1,260	16	0,05333
248	—2,2	—0,865	42	0,14000
249	—1,2	-0,470	42	0,14000
250	—0,2	—0,075	56	0,18667
251	0,8	0,320	33	0,11000
252	1,8	0,715	41	0,13667
253	2,8	1,110	17	0,05667
254	3,8	1.505	14	0.04666
255	4,8	1,900	11	0,03667
256	5,8	2,295	8	0,02666
			300	1.00000
Пряшечавме. Данные взяты нвтзбл. 2.4; > = 2Ю,2^
а — 2^3.
61
Таблица [4.7. Стандартизация сгруппированных данных
(почасовые ставки заработной платы)
I 14 ~ и4	2	3 (14 —1*1 (и4 — •*) 1	4	1*7 — у. . а	5 —	~~ Н	II 1 X Q п 1 т	7 fi
					о		
2,45—2,54	2,495	(—0,40) —(—0,31)	—0,35	(—2,093)	—	1.622)	—1,858	10
2.5Б--2.64	2.595	(—0,30) — (-0,21)	—0,25	(—1,570) —(—1,099)		1,334	25
2,65—2,74	2,695	(—0,20) —(—0,11)	—0,15	(-1.047) — (—0.576)		0,811	57
2,75—2,84	2,795	(—0,10)—(—0,01)	—0,05	(—0,523	1—(—0,052)	0,288	74
2,85—2,94	2,895	(0,00)— 0,09)	0,04	(0,000	— (0,471)	0,235	58
2.95—3,04	2,995	(0,10) —(0,19)	0,14	(0,523)	— (0,994)	0,759	34
3,05—3,14	3,095	(0,20) — (0.29)	0,24	(1,047)	-(1,518)	1,282	17
3,15—3,24	3,195	(0,30) —(0,39)	0,34	(1,570	1 —(2,041)	1,805	14
3,25—3,34	3.295	(0,40)—(0,49)	0,44	(2,093	1—(2,564)	2,229	И
3,35—3,44	3,395	j (0,50)—(0,59)	0,54	(2,616)	— (3,087)	2,852	3
Прямечакае. Данные взяты из табл. 2.5 И 3.2; и = 2.85. я = 0,1911.
303
табл. 4.6 и 4.7. С помощью анало-
гичной процедуры можно преобра-
зовывать и другие наборы данных.
Все, что для этого необходимо,—
это вычислить величины zt=
= (Xt—ji)/о и затем построить рас-
пределение частот для значений г.
Но поскольку в любом случае все
равно необходимо построение рас-
пределения частот, то лучше преоб-
разовывать распределение, чем са-
ми исходные данные, ввиду того,
что это менее трудоемко. Значения
z приведены в столбце 3 табл. 4.6
и в столбце 6 табл 4.7.
Как и ранее, значения z можно
рассматривать как метки на гори-
зонтальной оси. При этом любое
значение z можно интерпретировать
как число единиц среднего квадра-
тического отклонения, на 'которое
соответствующее значение X отли-
чается от среднего. Например, чис-
ла £7=1,282 и f?=17 в распределе-
ниях, представленных в табл. 4.7,
можно интерпретировать как 17 чи-
сел, каждое из которых больше
среднего на величину, в 1,282 раза
превышающую среднее квадратиче-
ское отклонение. Точно так же пару
чисел г4=—0,288 и f4=74 следует
понимать как то, что 74 числа из
нашего набора меньше среднего на
величину, составляющую 0,288
среднего квадратического отклоне-
ния.
Последовательные этапы процес-
са стандартизации наглядно проил-
люстрированы на рис. 4.2—4.4. На
рис. 4.4 кривые тоже недостаточно
хорошо накладываются друг на
друга, несмотря на то, что суммы
Отклонение игл т	Длина бу лайки,
средней длины, Ю дюйм	дюйм
Рис. 4.2. Стандартизация данных (длины
булавок)
0	3.295
-&J5 OJ* 0№	Z.595 ЗД95
Птклпнение от	Почаеодая
средней стадии, долл,	стайка. долл.
Рис, 4.3. Стандартизация данных (почасо-
вые ставки заработной платы; данные взя-
ты из табл. 47)
€2
-z -1 О 1 Z 3
Отклонение от среднего*
средние квадратические отклонения
Рнс. 4.4. Стандартизация сгруппированных
данных (длины булавок н почасовые став-
ки заработной платы; данные взяты нз
табл. 4.6 н 4.7):
/ — 303 ставки заработной платы промышленных
рабочих; 2— 300 длин стальных булавок
частот этих двух распределений
практически одинаковы (300 и 303).
Дело в том, что рассматриваемые
распределения различаются по чис-
лу группировок (содержат 13 и 10
группировок соответственно). По-
этому частоты нз табл. 4.6 и 4.7 при-
ходится преобразовывать — сначала
в величины f"i, а затем — в величи-
ны f'i, в результате чего получают-
ся графики, построенные на рис. 4.5.
Вообще в подобных случаях (когда
два набора данных содержат прак-
тически одинаковое число наблюде-
ний) проще сначала провести стан-
дартизацию исходных данных, а за-
тем построить два распределения
частот с одинаковым числом груп-
пировок. В этом случае уже нет
-Z  1.5 -I -0.5 О О.5 / 1,5 2 2,5
Отклонение от среднего*
средние квадратические отклонения
Рнс. 4.5. Стаадартизацня сгруппированных
данных (длины булавок н почасовые став-
ки заработной оплаты; данные взяты из
табл. 4.5 и 4.7; расчеты значений \fi—
*=f”t/c не приводятся):
/ — 300 длин стальных булавок: 2 — ЭОЗ ставки
заработной платы промышленных рабочих
необходимости пересчитывать ча-
стоты.
С учетом этих и других проблем,
возникающих в процессе стандарти-
зации, можно сформулировать не-
сколько упрощенных правил:
1)	стандартизацию данных имеет
смысл проводить в том случае, ког-
да сопоставляемые данные разли-
чаются по порядку значения;
2)	если все сравниваемые наборы
данных содержат примерно одина-
ковое число элементов, лучше стан-
дартизировать сами исходные дан-
ные, а не распределения частот.
Стандартизация исходных данных
обеспечивает возможность построе-
ния распределений частот с одина-
ковым числом группировок, что
исключает необходимость дополни-
тельного пересчета частот;
3)	при рассмотрении процедуры
стандартизации было показано, что
стандартизация средних точек и
границ группировок еще не гаран-
тирует нам сопоставимости частот:.
а)	в том случае, когда числа
группировок (или средних точек)
одинаковы, а суммы частот различ-
ны, достаточно перевести эти ча-
стоты в частости;
б)	если число группировок не-
одинаково, частоты подлежат пере-
счету независимо от того, равны их
суммы между собой или нет. В
частности, если необходимо постро-
ить графики распределений, часто-
ты следует сначала перевести в ча-
стости, а затем вычислить значения
f'i. Тогда частоты будут представ-
лены не высотами, а площадями
соответствующих прямоугольников.
Если график нам не нужен, доста-
точно провести стандартизацию
средних точек и границ группиро-
вок.
Этими правилами мы воспользу-
емся в гл. 5, когда будем подбирать
нормальную кривую, лучше всего
описывающую опытные данные,
а также в гл. 7 при сопоставлении
данных эксперимента.
В связи с изложенным читателю,
по-видимому, будет полезно вычис-
лить средние и средние квадратиче-
63
ские отклонения распределений,
приведенных в столбцах 3 и 4 табл.
4.6 и 6 и 7 табл. 4.7. При этом сред-
ние значения должны получиться
равными нулю, поскольку в форму-
лу входит член 2(Х;—р), а как мы
уже знаем, 2(Хг—ц)=0. Кроме то-
го, как уже известно, среднее квад-
ратическое отклонение должно ока-
заться равным единице.
С помощью известного нам прие-
ма все содержащиеся в этом разде-
ле данные распределений частот
можно привести к оценкам по еди-
ной стандартной шкале. При этом
новые средние точки Xi вычисляют-
ся по формуле *(=100+ 10й. На-
пример, для распределения, приве-
денного в столбцах 3 и 4 табл. 4.6,
мы имеем: *i=100-|-10-(—2,455) =
=76,	*2=100+10- (—2,050)=80
и т. д. Разумеется, определяющие
новую шкалу значения 100 и 10
можно заменить любыми подходя-
щими числами.
Вычисление процентилей по стан-
дартизированному дискретному рас-
пределению вероятностей. Стандар-
тизированные распределения часто-
стей (для которых'2/"/= 1) можно
использовать как распределения ве-
роятностей. Они могут быть и ди-
скретными, и непрерывными. Важ-
ным примером непрерывного рас-
пределения вероятностей, когда на
горизонтальной оси откладываются
значения г, является нормальное
распределение. Позднее мы изучим
его подробно, а сейчас рассмотрим
лишь несколько упражнений, имею-
щих отношение к вычислению пло-
щадей под нормальной кривой.
Рассмотрим дискретное распреде-
ление, приведенное в табл. 4.6
(столбцы 3 и 5), и будем считать,
что исходное распределение нам не
известно. Известно только, что р=
=250,2, о=2,53 и *=300. Попыта-
емся ответить на несколько во-
просов.
Каково значение X (длина булав-
ки), при котором 25% булавок бу-
дут иметь длины, меньшие X?
Чтобы найти Р25, формулу для По
надо заменить следующей:
€4
п./2/,=г^/2Ь+0,5/2Ь- =
=г + 0,5/2//.
Мы приняли По^«еО,25. Складывая
частоты из столбца 5, находим, что
Ра попадает в 5-ю группировку,
Поскольку 2f"i=l, то
рп= Л+ с (г - р" ,)//",==—1.064+
+0,395.(0,25- 0,12)^0,14 =- 0.700.
Как видно, 35% длин булавок мень-
ше среднего на 0,7 среднего квадра-
тического отклонения. Остается вы-
числить величину р—0,7а=250,2—
-0,7-2,53=250,2—1,77=248,43; это
позволяет утверждать, что 25% бу-
лавок имеют длину меньше 248,43 X
ХЮ-3 дюйма. Если для последую-
щих расчетов такая большая точ-
ность не нужна, это число можно
округлить до 248.
Каково значение X, для которого
75%' булавок будут иметь длину
меньше X?
При По=0,75 Р75 попадает в 9-ю
группировку и
Р7Б=0,516+0,395- (0,75 —
—0,70) /0,14=0,657.
Другими словами, если мы найдем
значение X больше среднего на
0,657 среднего квадратического от-
клонения, то 75% булавок будут
иметь длину меньше X. Это значе-
ние равно X=|i+0,6570=250,2+
+ 0,657-2,53=251,86.
Чтобы найти межквартильный
размах длин булавок, также доста-
точно вычислить .межквартильный
размах значений z. Вновь находим,
что Р7Б=0,657 и Ра=—0,700, откуда
/Р=0,657— (—0,700)=1,357 средне-
го квадратического отклонения.
Учитывая, что а=2,53, получаем:
1,357О=1,357-2,53=3,43 • 10~3 дюйма
и равно разности между двумя про-
центилями, найденными выше, т. е.
251,86—248,43=3,43. Если процен-
тили предварительно округлить до
248 и 252, то /Р=252—248 и /Р=
=1,357-2,53 будут несколько отли-
чаться друг от друга.
Кроме того, можно утверждать,
что 50 % ил и 0,5Лг = 0,5 • 300 =150
булавок имеют длину больше
248,43-Ю-3 и меньше 251,86-10'3
дюйма.
С расчетами такого типа в ста-
тистике приходится сталкиваться
очень часто. Тем не менее при пер-
вом знакомстве с ними у студента
нередко возникает чувство раздра-
жения, поскольку такие расчеты
требуют проведения более громозд-
ких арифметических операций. По-
этому следует сразу подчеркнуть,
что такие вычисления являются ос-
новой применения теоретических
распределений к опытным данным и
требуют тщательного и всесторон-
него продумывания и глубокого по-
нимания.
Итак, для анализа и сопоставле-
ния экспериментальных данных ис-
пользуется один или несколько ти-
пов средних значений, одна или не-
сколько характеристик вариации
данных, причем исследователю всег-
да хочется вычислить эти характе-
ристики по всем данным, относя-
щимся к рассматриваемому вопро-
су, т. е. по генеральной совокупно-
сти. Если такой возможности (или
необходимости) нет, то в качестве
оценок соответствующих характе-
ристик генеральной совокупности
используют те же самые характе-
ристики, но вычисленные по данным
той или иной выборки. В этом слу-
чае принципиальное значение име-
ют объем выборки и ее свойства.
В этой книге мы подробно рас-
смотрим задачу оценивания средне-
го значения и дисперсии (или сред-
него квадратического отклонения)
генеральной совокупности с помо-
щью выборочного среднего и выбо-
рочной дисперсии (или выборочно-
го среднего квадратического откло-
нения). Чтобы научиться обращать-
ся с выборочными процентилями,
читателю следует обратиться к спе-
циальной литературе.
При первой же попытке оценить
ту или иную характеристику гене-
ральной совокупности по статисти-
ческим свойствам какой-нибудь вы-
5-232
борки мы попадаем в сферу неопре-
деленности. Рассмотрим простой
пример. Студентам университета
было предложено ответить на во-
прос: сколько денег они истратили
за прошлый учебный год на приоб-
ретение одежды в местных магази-
нах. По полученным данным можно
вычислить их среднее арифметиче-
ское. Оно будет средним по всей
генеральной совокупности. Это со-
вершенно определенное значение,
и здесь нет ничего неоднозначного
и неясного. Представим себе теперь,
что нам необходимо сэкономить
время, и поэтому мы хотим оценить
среднее всей генеральной совокуп-
ности по некоторой выборке. При
этом возникает целый ряд вопро-
сов.
Можно ли быть уверенным в том,
что выборочное среднее окажется
равным среднему по всей генераль-
ной совокупности? Ясно, что нет.
Можно ли утверждать, что сущест-
вует некоторая величина (сколько-
то долларов и центов), такая^ что
разница между X и ц не может ее
превышать? Пока трудно ответить
на этот вопрос, но, как мы увидим
ниже, ответ на него можно дать
в следующей форме: величина X бу-
дет лежать между р и некоторым
значением X, но только с опреде-
ленной вероятностью. Это утверж-
дение можно в некотором смысле
интерпретировать и так, что X от-
личается от р не более чем на дан-
ную величину.
Итак, подчеркнем еще раз, что
вычисление среднего, среднего ква-
дратического отклонения и процен-
тилей по генеральной совокупности
есть совершенно однозначная, не
содержащая никаких неопределен-
ностей процедура. Оценивая же эти
статистические характеристики по
некоторой выборке, мы сталкиваем-
ся с такими понятиями, как вероят-
ность и случай.
Действительно, при формирова-
нии выборки из нашей генеральной
совокупности студенты отбираются
случайным образом. Тем самым и
значение выборочного среднего за-
65
i
висит (с точки зрения максимума
возможной разности между X и ц)
от случая. Понятию случайности
можно придать точный смысл с по-
мощью исчисления вероятностей,
так что знание этого предмета аб-
солютно необходимо для понимания
процесса оценивания характеристик
генеральной совокупности по вы-
борке.
Исчисление вероятностей имеет и
много других приложений. Оно при-
меняется не только в задачах оцени-
вания, но.и в задачах анализа ре-
шений. Приведем еще несколько
примеров.
Руководителю предприятия необ-
ходимо принять решение: сколько
запасных частей приобрести вместе
с новой машиной? Ясно, что его бу-
дет интересовать прежде всего ве-
роятность того, что в течение неко-
торого срока в машине будет то или
иное число неисправностей. Поэто-
му, принимая решение, он должен
будет использовать вероятностные
методы. Они обязательно окупятся,
если он будет использовать их по-
следовательно и систематически.
Другой пример. Банкиру необхо-
димо сделать выбор между различ-
ными вариантами вложения капи-
тала. Его, несомненно, будет инте-
ресовать вероятность заработать
(или потерять) некоторую сумму.
В таком же положении окажется и
работник торговли, которому надо
сделать выбор между альтернатив-
ными типами одного и того же про-
дукта. Какова вероятность того, что
продукт А лучше продукта В
или С?
С понятием вероятности связана
и проблема отношения человека
к риску. Сомнительно, например,
чтобы президент банка с консерва-
тивными взглядами с такой же лег-
костью представлял займы, как
президент другого банка, который
любит рисковать. Страховые компа-
нии интересует не только вероят-
ность смерти или несчастного слу-
чая (для вычисления размеров
страховых ставок), но и (в послед-
нее время) отношение реальных и
66 .
перспективных клиентов к риску.
Должны ли они считать, что про-
фессор колледжа скорее согласится
застраховать себя, чем представи-
тель какой-нибудь другой профес-
сиональной или социальной группы.
Если это так, то компания сможет
обоснованно планировать большую
активность своих сотрудников среди
членов именно этого контингента.
Так что прежде чем вернуться к
проблемам формирования выборки
и связанным с ними вопросам, не-
обходимо ознакомиться с основны-
ми понятиями теории вероятностей.
В следующей главе мы и рассмо-
трим понятие вероятности и три
распределения вероятностей — би-
номиальное, гипергеометрическое и
нормальное. Именно эти три рас-
пределения чаще всего применяют-
ся в задачах, связанных с выборка-
ми, как и во многих других. Они
будут часто использоваться в по-
следующих главах, поэтому мы изу-
чим их довольно подробно.
4.5. ВОПРОСЫ И ЗАДАЧИ
4.1. Даны следующие распределения:
а.	Найдите из размахи.
б.	Не производя вычислений, иа глаз,
сравните следующие пары распределений
(столбцов) с точки зрения значений их
средних квадратических отклонений: 1 и
3. 2 и 3. 1 и 4. 4 и 5. 6 и /. 6 и 7, 6 и 2.
в.	В тех случаях, когда вы не можете
дать уверенного ответа на вопрос задачи
4.1,6, вычислите с помощью формулы бы-
строго счета средние квадратические от-
клонения и сравните полученные значения,
с вашими ответами.
г.	Есть ли необходимость (для сравне-
ния вариации данных указанных распре-
делений) в вычислении коэффициента ва-
риации (о/ц)? Почему?
д Предположим, что наши распреде-
ления содержат данные о ценах, массах
ИЛИ оценках. Какие из наборов цен, масс
« оценок будут наиболее равномерны? Ка-
кие дают *наибольшую вариацию данных?
е Предположим, что распределения /
tf 4 представляют собой оценки» выставлен-
ные двумя различными преподавателями.
Вы получили у каждого из них одну и
ту же оценку, а именно Й5 единиц. Озна-
чает ли это, что ваши успехи в каждом
из предметов одинаковы?
ж. Стандартизируйте свои 25 единиц,
соответствующие распределениям 1 и 4.
Подтверждают ли два полученных значе-
ния z ваш ответ на задачу 4.1,е? Что
означает более высокое значение z?
4.2.	Рассмотрим среднее отклонение,
среднее квадратическое отклонение и дис-
персию. Какая из трех этих характери-
стик показывает истинную величину от-
клонения данных от среднего? Можно ли
использовать каждую из них для сравне-
ния вариации данных?
4.3.	Нарисуйте два колоколообразных
распределения с одинаковыми размахами
и средними, но с различными средними
квадратическими отклонениями. Какие из
распределений задачи 41 дают похожие
графики?
4.4.	Нарисуйте два колоколообразных
распределения с одинаковыми средними
квадратическими отклонениями, но разны-
ми средними. Отдельно нарисуйте два рас-
пределения с одинаковыми средними, но
разными размахами. Какие распределения
задачи 4 j дают похожие графики?
4.5.	Что нужно сделать ‘для того, что-
бы найти о по распределению / из за-
дачи 4.1» используя при этом формулу
для несгруппированных данных
« == Ке (АГ,- —
4.6.	Даны следующие пять значений,
25. 21, 22, 25. 27.
а.	Уменьшите каждое из них на 20 и
вычислите р/ и о.
б.	Прибавьте 20 к р', а значение а
оставьте без изменения; 20-^р'=р.
в.	Докажите, что прибавление и вы-
читание константы из а* не отражаются
на величине о. Другими словами, дока-
жите, что
— d)*/N =
= VЕ ((%,- —ft) — S |(X,— K)/N\*lN -
= /s(Xi->Yjs/W.
47.	Даны следующие пять значений:
2,5; 2,1; 2,2; 2,5; 2,7. ’
а.	Вычтите из каждой из этих вели-
чин 2. умножьте полученные разности на
10 и вычислите ц' и а\
б.	Разделите ц' на 10 и прибавьте
к результату 2. Вы получите величину р.
{Следите за тем, чтобы вышеперечислен-
ные операции деления и сложения выпол-
нялись именно в таком порядке.)
в.	Умножьте о' на 10. Получите и.
г.	Докажите, что величина* о, вычйс-!
ленная по набору данных (где А —
5*
константа), будет в k раз больше значе-
ния о» вычисленного по данным Xi. Дру-
гими словами, докажите, что
/S (X,ft—ftA)7AT= k V Е(АГГ —
Сформулируем теперь упрощенные
правила» облегчающие процедуру вычис-
ления р. и о:
1.	Если данные, не сгруппированы Гили
если длины интервалов отдельных группи-
ровок различны). то из самих данных
(или из средних точек) следует вычесть
подходящую константу, после чего все чи-
сла станут меньше.
2.	Если есть необходимость, все вели-
чины Xi (в случае несгруппированных дан-
ных или средние точки распределения
с различными значениями с<) можно умно-
жить на 10*. чтобы избежать вычислений
с десятичными дробями.
3.	Если длины интервалов группирова-
ния постоянны и если мы применяем ме-
тоды быстрого счета, то проводить все эти
преобразования ие нужно.
4.8.	Рассмотрим еще раз распределение
из задачи 3.3:
4 г KJ	fi
0,0025—0,0039	21
О’, (1040—0,0054	42
0,0055—0,0084	57
0,0085—0,0134	54
а.	Учитывая, что к этому распределе-
нию не применимы методы быстрого сче-
та. полезно умножить средние точки на
10000.
б.	Чтобы вычислить оЛ используйте
значение среднего из задачи 3.3.
в.	Чтобы получить о, разделите о'
на 10 000.
4.9.	Прочитайте еще раз условие за-
дачи 3.6. Рассмотрим следующую выборку
масс стальных заготовок, приобретенных
у компании С	(в г):
41,0 41,3 41,4	41,3	41,7	41,9	41,3	41.2	41,0
41,1 41,С 41,4	41,4	41.5	41,7	42,1	41,8	41,6
41,4 41,5 41,2	41,0	41.5	41,5	41,5	41,4	41,3
41.4 41я4 41,5
а.	Составьте из этих данных распре-
деление частот. Оно будет иметь одина-
ковые интервалы группировок, что позво
лит применить метода быстрого счета. По-
этому (в отличие от того, что пришлось
делать в задаче 3.6) нет необходимости
вычитать нз Xi постоянную и умножать
полученную разность на 10.
б.	Вычислите X и S, Не забудьте, что
формула для э отличается от формулы
для о.	_
в.	Вычислите X и s для двух распре-
делений из задачи 3,6.
67
г.	Какие заготовки тяжелее? Какие
дают наибольшую вариацию данных? Как,
1 по вашему мнению» отражаются соотно-
шения между тремя парами ц и о на со-
отношениях между соответствующими па-
рами X и s?
д. По техническим условиям» предъ-
являемым к заготовкам автомобильной
компанией, их масса должна составлять
415+0»5 г. Вычислите процент заготовок»
масса которых лежит в допустимых пре
делах. Будет ли процент забракованных
заготовок’ единым для всех трех генераль-
ных совокупностей?
4.10.	Рассмотрим пять значений из за-
дачи 4.6: 25, 21» 22» 25» 27.
а.	Стандартизируйте эти данные.
б.	Вычислите среднее и среднее квад-
ратическое отклонение величин z.
в.	Докажите, что г=0 н о*—].
Указание, Заметим, что z — 2te47.V н
то зг = ]/£ (z£ — Подставьте вмес-
сто Z, ВЕ»тражение (Х«—Х)/о и восполь-
зуйтесь тем, что Х)-=0.
4.11.	Найдите межквартильные рахма-
хи для двух распределений из задачи 3.8.
Какой процент значений лежит между Qi
и фз? С учетом ответа на этот вопрос
сравните межквартильные размахи этих
двух распределений. Всегда ли можно не
посредственно сравнивать межквартильные
размахи? Можно ли в этой задаче исполь-
зовать вместо меж квартильных размахов
средние квадратические отклонения?
4.12.	Сделайте попытку сформулиро-
вать разумную гипотезу, в каком из слу-
чаев вариация данных больше: цены на
бензин и цепы па автомобили; очень про-
стой экзамен и экзамен средней трудно-
сти; доходы на одну семью в США и
в Индии; масса мешка с пшеницей, напол-
няемого на новом н старом оборудовании;
ставки заработной платы в сталелитейной
и легкой промышленности; ставки заработ-
ной платы рабом их на сборочном кон-
вейере и чертежников из отдела техни-
ческой документации; диаметры десяти ка-
рандашей, измеренные обычным сантимет-
ром и микрометром.
ГЛАВА 5
ВЕРОЯТНОСТЬ И РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ
5.1. ПОНЯТИЕ ВЕРОЯТНОСТИ,
ВЗАИМНО НЕСОВМЕСТИМЫХ
СОБЫТИЙ И УСЛОВНОЙ
ВЕРОЯТНОСТИ
5.1. Что такое вероятность
Теория вероятностей занимается
оцениванием правдоподобия, веро-
ятности или шансов на то, что то
или иное событие из некоторого
множества возможных событий дей-
ствительно произойдет. Что мы по-
нимаем под словом «событие»?
Каждому вопросу или проблеме
соответствует некоторое множество
возможных ответов. В теории ве-
роятностей событием называется
произвольное подмножество всего
этого множества.
Рассмотрим несколько примеров.
На вопрос о том, какая завтра бу-
дет погода, обычно дают четыре
ответа — дождь, солнечно, облач-
ность, переменная облачность, на
заявление о приеме на работу —
принять или отказать, на вопрос
о целесообразности вложения капи-
68
тала — приредет к убытку, окупится
и даст прибыль, на вопрос о том,
как упадет монета, — «орел» или
«решка», на вопрос о том, сколько
лошадей участвует сегодня в скач-
ках,— некоторое конкретное число,
как упадет игральная кость — одно
из шести чисел и т. д.
В теории вероятностей любое
конечное рассуждение предполагает
возможность полного перечисления
всех возможных исходов в каждой
рассматриваемой задаче. После то-
го как такое перечисление прове-
дено, каждому из возможных ис-
ходов приписывается некоторая ве-
роятность. Эта вероятность может
быть описана словесно или некото-
рым числом. Пример словесного
описания: «Завтра почти наверняка
будет солнечно, в крайнем случае
будет переменная облачность. Я
почти уверен, что дождя не будет».
Пусть буква Т означает «орел»,
а Н — «решка»1. Тогда можно ска-
1 От английского head •— лицевая сто-
роиа монеты («решка*), tail — обратная
сторона монеты («орел»), — Прим. ред.
зать, что при подбрасывании моне-
ты исход Т столь же вероятен, как
и исход Н. Однако в каждом из
этих примеров вероятность можно
выразить и в числовой форме.
В самом общем виде задачи тео-
рии вероятностей можно раз-
бить на три категории: 1) най-
ти вероятность того, что реа-
лизуется хотя бы один из воз-
можных исходов: 2) найти ве-
роятность того, что будут иметь ме-
сто лишь некоторые из возможных
исходов; 3) найти вероятность того,
что произойдет событие, не принад-
лежащее ко множеству возможных
исходов.
Вариант 1. В вероятностных рас-
суждениях рассматривается мно-
жество возможных исходов. Поэто-
му ясно, что вероятность того, что
будет иметь место хотя бы один из
них, в действительности превраща-
ется в достоверность: некоторое со-
бытие обязательно произойдет. Та-
кая достоверность всегда обознача-
ется одним и тем же числом. На-
пример, мы можем совершенно уве-
ренно предсказать, что завтра будет
либо солнечно, либо переменная об-
лачность, либо облачность, либо
дождь. Точно так же в результате
подбрасывания монеты выпадет ли-
бо Т, либо Н.
В исчислении вероятностей при-
нято таким полностью детермини-
рованным событиям приписывать
число 1 Вместо того, чтобы говорить,
что завтрашняя погода будет обяза-
тельно одного из четырех типов или
что при подбрасывании монеты обя-
зательно выпадет Т или Н, можно
сказать, что вероятность события S
(солнечно) или PS (переменная об-
лачность) или С (облачность) или
R (дождь) равна единице и что ве-
роятность события Т и Н также
равна единице.
Вариант 2. Неопределенность на-
чинается тогда, когда мы пытаемся
оценить вероятность некоторого
конкретного исхода, принадлежаще-
го множеству всех возможных ис-
ходов. Если вероятность, равная
единице, введена так, как мы это
сделали выше (т. е. полностью со-
ответствует достоверному событию),
ю отдельным исходам должны быть
поставлены в соответствие вероят-
ности, меньшие единицы. При этом
все вместе взятые они должны
в сумме давать единицу. Разумеет- i
ся, в существе дела ничего не из-
менится, если вместо единицы взять,
например, 5. Единственное различие
будет заключаться в требовании,
что вероятности всех возможных
исходов должны давать в сумме не
1, а 5.
Вариант 3. Событиям, нс рассма-
триваемым в данной задаче, при-
писывается нулевая вероятность.
Так, вероятность того, что завтра
будет —100°С, равна 0. Вероятность
того, что монета станет на ребро,
также равна нулю.
Как же определяются вероятно-
сти отдельных событий? По-разно-
му. Иногда это делают на основа-
нии предыдущего опыта или запи-
сей (например, так поступают при
прогнозировании погоды), с помо-
щью логических рассуждений (в за-
даче о подбрасывании игральной
кости), интуиции (при решении во-
проса о том, в какое предприятие
вложить капитал). Зачастую приме-
няют сразу несколько подходов. На-
пример, в страховом деле решения
могут основываться как на интуи-
ции, гак и на опыте.
Задача представления вероятно-
сти в числовом виде может оказать-
ся и очень простой и очень ело ие-
ной. Однако в связи с тем, что мно-
жество возможных исходов всегда
конечно, основной метод вычисле-
ния всегда один и тот же. Необхо-
димо определить и сосчитать все
возможные исходы, определить, ка-
кие именно исходы составляют то
или иное событие, и найти, сколь-
кими способами оно может прои-
зойти. Вероятностью этого события
будет число способов, которыми оно
может произойти, деленное на час- >
ло всех возможных исходов. Рас-
смотрим несколько примеров, ил-
люстрирующих этот общий ме-
тод.
69
5.1.2. Непосредственное вычисление
вероятностей
Отметим, что параллельно с при-
мерами мы рассмотрим и некоторые
понятия исчисления вероятностей.
Пространство элементарных со-
бытий. В задачах теории вероятно-
стей множество всех возможных ис-
ходов называется пространством
элементарных событий. Пусть на
восьми шарах одинакового‘размера
и цвета написаны восемь букв — от
а до Л, Это множество букв мы на-
зовем пространством элементарных
событий и будем обозначать через
Si = {a, с, rf, е, f. g, h}. В задачах
о подбрасывании монеты и играль-
ной кости множества возможных
исходов обозначим через S2={T, Н}
и S3={1, 2, 3, 4, 5, 6} соответственно.
При желании мы можем экспери-
ментировать с двумя белыми и тре-
мя черными шарами или с 200 бе-
лыми и 300 черными шарами. Тог-
да пространствами элементарных
событий будут множества
П7, В, В, В] и S5={200 раз W, 300
раз В}.
В группе 20 студентов: из 14
мужчин 4 первокурсника и 10 вто-
рокурсников; из 6 женщин 2 пер-
вокурсницы и 4 второкурсницы. Про-
странством элементарных событий
будет множество Se={Afy, Mit
Afj. Af.$, Als, Afs. Af4o Мй, Afj, AT5, AE,
Мй, M3, Fj, Fjt Fn, Ft, Ft, Fs}. Мож-
но ввести и другие обозначения.
Например, большой буквой можно
обозначать курс, а маленькой — пол
студента.
Колоду из 52 карт также можно
рассматривать как пространство
элементарных событий, хотя его не-
посредственное перечисление и за-
няло бы слишком много места. По-
этому обозначим «пики» (hearts)
буквой В и т. д., после чего про-
странство элементарных событий
запишется следующим образом: ,
Нк, Нц, Н},	Нг,
Од, ..., Dz, Sa, ..., S2, Сц, ..Сг}.
Очень существенным является тот
факт, что распределения частот и
площади под различными матема-
70
тическими кривыми тоже можно
рассматривать как пространства
элементарных событий. Они часто
используются в вероятностных рас-
четах и бывают дискретными и не-
прерывными. При этом к дискрет-
ным распределениям применимы
все рассмотренные нами выше на
примерах методы.
Описание события и вычисление
его вероятности. Чтобы упростить
процедуру вычисления вероятно-
стей, удобно отождествить события
с наборами элементарных испыта-
ний. В случае пространства S( та-
ким элементарным испытанием мо-
жет считаться взятие наугад одно-
го или нескольких шаров. Попы-
таемся понять, какое именно значе-
ние следует приписать вероятности,
например, следующего- события:
на выбранном шаре написана бук-
ва а. Событие £={а} является под-
множеством St. Число способов в
нашем пространстве элементарных
событий, которыми это событие мо-
жет произойти, равно л(£)=1 Чис-
ло всех возможных исходов равно
n(SI)=8. Отсюда вероятность со-
бытия Е, т. е. Р(Е) или Р(а) рав-
на п(Е) /n(Si)=l/8=0,125. Заме-
тим, что собственно вычисление
оказалось .очень простым: фигур-
ные скобки понадобились нам лишь
для обозначения множества как со-
вокупности своих элементов.
Рассмотрим теперь множество S2
и вычислим вероятность того, что
при одном подбрасывании монеты
выпадет «орел». В наших обозначе-
ниях это событие записывается так:
Е={Т}. При этом n(E)=I, n(S2) =
=2 и Р(Р)=Р(Т)=1/2=0,5.
Определим на .множестве S4 со-
бытие «выбор белого шара». Ему
соответствует подмножество Е=
={WZ, П7}, откуда п(£)=2 и Р(Р) =
=2/5=0,4. Точно так же вероят-
ность выбора белого шара в случае,
если пространством элементарных
событий является множество S5,
равна Р(Е) =200/500=0,4.
Вероятность того, что выбранный
наугад из множества Se студент
окажется мужчиной, равна Р(Л1) =
=14/20=0,7, а вероятность выбрать
мужчину-первокурсника равна
Р(М3) =4}20=0,2. Событие «выбор
первокурсника» (независимо от по-
ла) есть E={Mj, Mj, Mj, Mjt Fj, Fj},
n(E)=6 и P (E) =6/20=0,3. Анало-'
гичные события можно определить
и на множестве S?.
Дискретные распределения ве-
роятностей. Пространствами эле-
ментарных событий можно считать
и частотные распределения, а также
математические функции, описы-
вающие такие распределения При
этом, как мы уже указывали, очень
важно четко представлять себе раз-
ницу между дискретной и непре-
рывной переменными.
Например, пространством элемен-
тарных событий можно считать рас-
пределение частот из табл. 2.10.
Это распределение дает число за-
пасных частей, понадобившихся в
процессе эксплуатации для 59 элек-
тромоторов. Используем это распре-
деление в качестве материала, на
основе которого руководитель пред-
приятия, которому надо купить
один электромотор, должен принять
решение, сколько приобрести к это-
му электромотору запасных частей.
Наше распределение можно пере-
писать в виде множества S={3 ра-
за 0, 7 раз 1, 12 раз 2, 18 раз 3, 11
раз 4, 6 раз 5, 2 раза 6). Пусть нас
интересует событие Х6=5, или (в
виде множества) £={5, 5, 5, 5, 5,
5}. Тогда n(S)=59, n(£)=6=/6 и
Р(£)=6/59. Хотелось бы, конечно,
• уметь вычислять эту вероятность
непосредственно по распределению
частот, не переписывая его в виде
множества. Оказывается, что это
не только возможно, но и более
удобно.
Прежде всего в исчислении ве-
роятностей величины fi пересчиты-
ваются в частости f", (как пока-
зано в табл. 2.10). Поскольку для
таких частостей по определению
распределение после этого
превращается в распределение ве-
роятностей. Обычно такое распреде-
ление называют распределением
вероятностей случайной перемен-
ной Xi.
Термин «случайная переменная»
используют, когда речь идет о не-
котором множестве чисел в той или
иной задаче исчисления вероятно-
стей. Например, в простейшем слу-
чае такими числами являются все
возможные результаты подбрасыва-
ния игральной кости, которые обра-
зуют множество S3. Любое другое
пространство элементарных собы-
тий также можно превратить в слу-
чайную переменную, поставив в со-
ответствие отдельным объектам те
или иные числа. Например, множе-
ство букв Si можно сделать случай-
ной переменной, переписав его сле-
дующим образом: S*i={1, 2, 3, 4, 5,
6, 7, 8). При этом предполагается,
что соответствующие каждому из
чисел вероятности составляют в
в сумме единицу. После такого пре-
образования мы получаем случай-
ную переменную (с соответствую-
щими каждому значению вероятно-
стями), и с ней можно обращаться
так же, как с обычным распреде-
лением частостей.
В несколько более общем виде
можно сказать так: пусть имеется
некоторое множество возможных
исходов. Требуется поставить с по-
мощью некоторого определенного
правила в соответствие каждому
исходу одно и только одно действи-
тельное число. Полученное таким
образом множество действительных
чисел в теории вероятностей назы-
вается случайной переменной. Мож-
но дать и еще более формальное .
определение: случайной переменной
называется действительнозначная
функция, определенная на простран-
стве элементарных событий.
Все приведенные выше примеры
были примерами дискретных слу-
чайных переменных, Непрерывные
распределения вероятностей мы
рассмотрим в следующем разделе.
Между пространством элементар-
ных событий и распределением ве-
роятностей дискретной или непре-
рывной переменной, связанной с
этим пространством, имеется кон-
71
цептуальное различие. Пространст-
вом элементарных событий считает-
ся совокупность объектов, описы-
вающих в нашей задаче все воз-
можные исходы. Но как только этим
объектам поставлены в соответст-
вие числа и вероятности, оно пре-
вращается в распределение вероят-
ностей некоторой случайной пере-
менной (статистик скажет, что слу-
чайная переменная определена на
данном пространстве). Это обстоя-
тельство было уже проиллюстриро-
вано нами на примере преобразова-
ния S, в S*i. Ниже мы познакомим-
ся и с другими способами преобра-
зования пространства элементарных
событий в распределение вероятно-
стей.
Вернемся теперь к дискретному
распределению вероятностей (или,
иначе, к распределению вероятно-
стей дискретной случайной перемен-
ной X.) из табл. 2.10.
В рассматриваемом примере
Р(Х6 = 5) =0,‘101695 = /"е = 6/59.
Если руководитель предприятия по-
купает один электромотор (что
эквивалентно выбору одного шара
из 59), то величина Р(Х=5) имеет
для него следующий смысл: вероят-
ность того, что в процессе эксплуа-
тации мотора понадобится 5 запас-
ных частей, равна f"e=0,101695.
Другое событие имеет вид: Е—
={0, 0, 0). В этом случае п(Е) =
=/1=3 и Р(Е)—3/59. Воспользо-
вавшись распределением вероятно-
стей с частостями f"i вместо Д-, эту
вероятность можно переписать так.
P(Xt =0) =0,050847 =/", =3/59. Та-
‘ кова вероятность того, что при по-
купке одного мотора не понадобит-
ся ни одной запасной части.
Рассмотрим еще несколько полез-
ных примеров: Ei={12 раз 2, 18 раз
3. 11 раз 4); £2=г{3 раза 0, 7 раз 1);
Е.ч={11 газ 4, 6 раз 5, 2 раза 6). Со-
ответствующие вероятности равны:
I
5
п(£,) = 2Ь = 41-
(=3
откуда P(£i)=41/59;
72
»(£,)=2Р,= 10.
откуда Р(Ег) =10/ 59;
i=5
откуда Р(Ез) =19/59.
В терминах «распределений веро-
ятностей» эти результаты могут
быть получены несколько иным
способом
Р (X, < X,- < Х5) = 2 Гi = 0.69 =
г=3
5
=-^- =41/59;
Р(Х,-<Хг)=2Г,-0.17 =
«ЛГ I
= 2/f/S/(= Ю/59;
P(Xi>X$)=2/''1- = 0.32 =
i=3
^=2/^= 19/59.
i=5
•Таковы вероятности того, что для
одного электромотора понадобится
«от 2 до 4», «1 или менее» и «4 или
, более» запасных частей Вероят-
ность Р(Х/)=2А/2/;=2Н=1. Это
есть вероятность того, что X, при-
нимает одно из значений из множе-
ства 0, 1,2, 3, 4, 5 или 6. Она, разу- ’
меется, равна единице. Вероятность
Р(ХА=13)=0 также превращается
в достоверность, поскольку на осно-
вании предыдущего опыта нам из-
вестно, что ни один из моторов нс
выходил из строя 13 раз.
Очень часто приходится вычис-
лять среднее арифметическое рас-
пределение вероятностей. Оно назы-
вается математическим ожиданием
и обозначается Л1(Х) Процедура
вычисления М(Х} совпадает с по-
рядком вычисления ц, и для одного
и того же распределения ц=Л1(Х).
Более подробно
Отсюда, учитывая, что Sf",=l, по-
лучаем £(Х)=2/"Л=2,9. При этом
мы получили> дополнительную ин-
формацию. Л именно, при покупке
одного мотора можно ожидать, что
он выйдет из строя 2,9 раза и что
ожидаемое число необходимых зап-
частей будет равно Л4(Х)=2,9. Так
как покупатель не может приобре-
сти 2,9 запасной части, он скорее
всего округлит это число и купит 3
штуки. Ниже мы рассмотрим и дру-
гие случаи применения величины
М(Х).
Вполне может оказаться, что зна-
ния лишь этих вероятностей еще
недостаточно для того, чтобы при-
нять обоснованное решение. Поку-
пателю необходимо учесть не толь-
ко стоимость запчастей, но и сум-
му, в которую ему обойдется ожи-
дание поставки дополнительных
запчастей (в том случае, если он
не сразу закажет достаточное чис-
ло). Решение такой задачи мы рас-
смотрим ниже.
Вычислим теперь, сколько запча-
стей было приобретено к этим
£/,=59 моторам. Простое вычисле-
ние дает	(X) =
=] 71=59«2,9. Предположим теперь,
что мы хотим купить не один, а 150
моторов, причем нам известно толь-
ко распределение вероятностен, т. е.
только f"i, но не fi. Сколько запча-
стей нам следует купить? Считая,
что распределение вероятностей
действительно является надежным
показателем потребности в запча-
стях, мы будем рассуждать следую-
щим образом: нуль запасных частей
понадобятся для f"i-150=0,0508X
X 150=7,6=fi моторов, где /1 — со-
ответствующая частость, 1 запчасть
(%2=1) понадобится для /"г 150=
=0,1186-150= 17,8=f2 моторов; 2
части (Х3=2) понадобятся для
fs  150=0,2034  150=30,5=^з моторов
и т. д. Отсюда общее число подле-
жащих покупке запчастей равно:
2ЛЛ,- =	(X) = 150-2,9 = 435.
Непрерывные распределения ве-
роятностей. Непрерывные распреде-
ления вероятностей строятся по тем
же правилам, что и непрерывные
распределения, не являющиеся рас-
пределениями вероятностей. Эти
правила были рассмотрены в гл. 2,
сейчас следует лишь напомнить
(в несколько иной формулировке)
некоторые из них.
1. С непрерывными распределе-
ниями вообще и непрерывными рас-
пределениями вероятностей в част-
ности приходится сталкиваться всю-
ду, где речь идет о непрерывно из-
меняющихся значениях. Примером
может служить длина булавки.
Вполне разумно считать, что в неко-
торых пределах (например, от
247,34-Ю-3 до 251,10-10~3 дюйма)
длина булавки, производимой на
имеющемся оборудовании, может
принимать любое значение. Для
дискретных данных это не так: за-
пасных частей может быть либо 2,
либо 3, заработать можно 2 долла-
ра 21 цент или 2 доллара 22 цента
и т. д. Любое промежуточное значе-
ние не имеет смысла.
2. Согласно распределению длин
булавок, приведенному в табл.'2.4,
«имеется II булавок длиной 246Х
Х10-3 дюйма». Строго говоря, это
утверждение неверно. Ясно, что бо-
лее точный измерительный прибор
покажет, что все 11 булавок имеют
различную длину. Более того, даже
само выражение «длина одной бу-
лавки» не имеет абсолютно четкого
смысла, так как. применяя все бо-
лее точные измерительные приборы,
мы каждый раз в качестве длины
булавки будем получать новые, бо-
лее точные значения Поэтому, стро-
го говоря, утверждение: «имеется
столько-то булавок некоторой дли-
ны», неверно. Гораздо правильнее
указать, какое число булавок имеет
длины, попадающие в определенный
интервал. Так, в нашем примеое II
булавок имеют длину от 245,5'10-а
до 246,5-10-3 дюйма.
Непрерывным распределением ве-
роятностей называется распределе-
73
ние, для которого площадь под со-
ответствующи м полигоном или кри-
вой равна 1 и Р(Л'=А')—О, где X'
есть некоторое фиксированное зна-
, чение на горизонтальной оси. По-
следнее требование связано с тем,
что переменная X изменяется непре-
рывно и может тем самым прини-
мать бесконечное число значе-
ний, вследствие чего выражения
вида Р(Л\=5)=0,17 или Р(Х() =
=f(Xi)[A ff(Х<) — ордината точки
кривой с абсциссой Xir а А—полная
площадь под кривой] становятся
бессмысленными.
Вместо них следует писать:
P(X'<X<Xf')=A*':iA (где
площадь под той частью кривой или
полигоном, которая лежит над ин-
тервалом (X’, X”) горизонтальной
оси Р(Х<Х‘)=Ах_^1А или Р(Х>
Учитывая вышеизложенное,
уместно спросить, не допустили ли
мы ошибку, считая распределение
табл. 2.4 (длины булавок) дискрет-
ным? Вовсе нет. Наоборот, в ре-
альных задачах обычно так и дела-
ют При этом частоты /( пересчиты-
вают в частости, откуда и получа-
ют вероятности: например, Р(Х3=
=246) =11 /300 или Р (Х,<245) =
=9/300.
Однако это распределение (в от-
личие от других распределений с
дискретными данными) можно опи-
сать иначе, а именно с помощью
графика, имеющего форму полиго-
на, площадь под которым равна
единице. Далее этот полигон можно
аппроксимировать некоторой сгла-
живающей кривой, построенной от
руки или выбранной с помощью той
или иной математической процеду-
ры. После этого мы можем для лю-
бого интервала (например, между
точками 247,033 и 249,289) вычис-
лить площадь под участком кривой,
расположенным над ним. • Так,
Р (247,033<Х<249,289) =Д^’^ /А.
Учитывая, что Д=1, знаменатель
можно опустить.
Важно иметь в виду, что вели-
чине в}случас дискретного рас-
пределения ’вероятностей соответст-
р
вует выражение ^1",-. Если кривая
t=k
представляет собой график какой-
нибудь известной математической
функции,^ то величину А%',' можно
х>»
получить, вычислив интеграл f .
У	X'
Площади под графиками непрерыв-
ных функций часто вычисляют гра-
фически, как показано на рис. 3.3.
Процедуру анализа непрерывного
распределения вероятностей полез-
но продумать на следующем сильно
•упрощенном примере. Пусть имеет-
ся выборка, включающая 312 сталь-
ных булавок. Измерим их длину и
составим распределение частот
(табл. 5.1). На рис. 5.1,а построен
график этого распределения. Чита-
тель, разумеется, сразу же возразит;
длины булавок должны иметь коло-
колообразное, а не прямолинейное
распределение. Это действительно
Длина булавок, 10~3ВюЦы
Рнс. 5.1. Кумулятивные распределения длин 312 стальных булавок (см. табл. 51)
74
Таблица 5.1. Длина 312 стальных
булавок, 10-’ дюйм (опытные данные)
х,	h	xi	h	xi	fi
244	12	i 249	22	254	31
245	14	। 250	26	255	34
246	17	251	24	256	36
247	17	252	28		
248	20	. 253	31		312
так, но мы использовали искусст-
венные данные, чтобы облегчить
вычисления.
Наш полигон можно аппроксими-
ровать прямой f(x) =—476+-2х, ко-
торая построена на рис. 5.1,6. Рас-
смотрим отрезок этой прямой, на-
чинающийся над точкой Х=Х'=
=243,5 и кончающийся над точкой
Х=Х'=256,5, причем f (Л'=243,5) =
=11 и f(X"=256,5)=37, где f(x)~
как обычно, ордината точки прямой
с абсциссой х.
Попытаемся найти общую форму-
лу для вычисления площади над
произвольным интервалом (х'<
<Х<.х"), лежащим между точка-
ми 243,5 и 256,5. Отметим на оси
абсцисс пару точек Х=х' и Х=х"
и найдем соответствующие им орди-
наты [(х7) и f(x") (рис. 5 1,6) Пло-
щадь под графиком между этими
двумя точками равна:
.|-4-(x"-x')U(x")-/(x')L
где f(x')=a+2x', a f(x")=a+2x".
Подставляя эти значения, полу-
чаем ’
-L -у- (Л-" - л') (2х" - 2х') =
= а (х" — х') ( х" 1 — х' *.
Поскольку а=—476 [уравнение
нашей прямой f(x) =—476 +2х],
в окончательном виде формулу для
1 Проше, конечно» вычислить инте-
грал.
вычисления ‘площади под ней мож-
но записать так:
А*'' = - 476 (л-” - х') + х" 8 - х' *.
Воспользуемся ею для вычисления
конкретных площадей. Мы уже зна-
ем, что площадь под полигоном, по-
строенным по экспериментальным
данным, 2f,=312, поскольку в этом
случае с=1. Для сравнения вы-
числим соответствующую площадь
под прямой. Имеем А^^ =—476Х
X (256,5 — 243,5) + (256,5)2 —
—(243,5)2=312, что равно По-
видимому, выбранная нами прямая
оказалась хорошим приближением
к данным эксперимента. Вместо х'
и х" в формулу можно подставлять
и любые другие значения. Так, на-
пример, Л2445 = 14, и мы можем
утверждать, что имеется 14 булавок
длиной от 244,5-Ю-3 до 245,5-Ю-3
дюйма.
Итак, мы получили непрерывное
распределение, график которого хо-
рошо аппроксимируется отрезком
прямой на том участке, где значе-
ния Х=х' и Х=х" имеют смысл
(напомним, что 243,5<^-<256,5).
Уравнение прямой имеет очень про-
стой вид, что дает нам возможность
вычислять любую площадь под ней
с помощью простой формулы Ана-
логичные формулы имеются и для
колоколообразных функций, кото-
рые часто применяются в математи-
ческой статистике. Вывод их, одна-
ко, несколько сложнее.
Рассматриваемое распределение
можно превратить и в распределе-
ние вероятностей, причем с помо-
щью такой процедуры, которая име-
ет общий характер и применима во
многих других случаях. Некоторое
исходное распределение станет рас-
пределением вероятностей, если
площадь под кривой равна единице.
Добиться этого можно, вычислив
площадь под исходной кривой (ве-
личину А) и умножив затем f(x) на
1/Л. При этом формула для вычис-
ленияА*," также умножится на 1/А.
В случае рассматриваемой нами
75
прямой линии
А'^“ = I  А |а (а" - х') 4-х" 2 - х' ’]
и
г (х) = \!А(а-\-Ьх).
Подставляя вместо известных па-
раметров их значения (Л—312 и
а=—476), получаем
Л"х" = 1/3121—476 (х" —xr) -L
4-х"*
и
f" (х) = 1/312 (- 476 -|-2х).
График f"(x) приведен на рис.
5.1,в. В нашем случае его можно
построить по двум точкам (напри-
мер, по точкам с. ординатами
Г-243,5 = 1 /312(—476 + 487) =
=0,0352 и Г’256,5= 1/312 (—476+
+513)=0,1186. Если графиком яв-
ляется некоторая кривая, двух то-
чек, конечно, недостаточно.
Теперь уже можно вычислять
различные вероятности. Все, что для
этого требуется, эго подставить
вместо х' и х" соответствующие
значения. При этом считается, что
Р(х<243,5) = Р(х>256,5) = 0. На-
пример, Р (245,2 < х < 247,8) =
=-Л	1 /312- 476 (247,8-245,2)+
+ (247,8)2 - (245,2)‘ = 0.142; Р (х <
< 248.2) =	= 0.237; Р (X >
> 253,9) =	5 =0.376 и т. д. Эти
значения имеют следующий смысл.
Если из всей генеральной совокуп-
ности стальных булавок выбрать
одну, то с вероятностью 0,142 ее
длина будет заключена между
245,2-10-3 и 247,8-10~3 дюйма, с ве-
роятностью 0,237 ее длина будет
меньше 248,2-10-3 дюйма и с веро-
ятностью 0,376—больше 253,0-10-3
дюйма. Кроме того, как и следовало
ожидать, Р (243,5 о <256,5)=1,
что означает достоверность соответ-
ствующего события.
Площадями под кривой можно
пользоваться и в качестве часто-
стей. Например, если в коробке
76
имеется 5000 стальных булавок и
у нас есть основания полагать, что
графиком их распределения являет-
ся прямая, то вычисленные нами
вероятности дают возможность под-
считать число булавок, удовлетво-
ряющих тем или иным требованиям.
Так, из 5000 булавок 0,142-5000=
=710 будут иметь длину от 245,2X
ХЮ3 до 247,8-10-3 дюйма; 0,237х
X 5000= И 85 будут короче, чем
248,2 • 10 3 дюй и а; 0,376• 5000= 1880
будут длиннее, чем 253,0- Ifr3
дюйма.
Площади под кривой можно на-
ходить и с помощью кумулятивной
функции распределения* F(x). На-
помним, что в общем виде формула
для площади под прямой имеет вид
4*''— fa(x"—х') +х"2—х'2]. Что-
бы получить отсюда выражение для
функции распределения вида «мень-
ше, чем», нужно вместо х' подста-
вить нижнюю границу области до-
пустимых значений л. Получим
F (х) = [- 476 (х" - 243.5) 4-
4-х"*-(243,о)2|.
Штрихи теперь можно опустить и
после упрощения функция принима-
ет вид:
F (х) = 56613,75 — 47бх х*.
Соответствующей кумулятивной
функцией распределения вероятно-
сти будет
F (х) = 1/312 (56613,75 - 476х х2).
Функция распределения вида «боль-
ше, чем» получается подстановкой
в формулу дляД*/ верхней грани-
цы области допустимых значений
для X. Однако в статистике, как
правило, пользуются только функ-
цией вида «меньше, чем».
Теперь с помощью полученной
кумулятивной функции распределе-
ния Е(х) можно без труда вычис-
’ В советской математической литера-
туре принято для непрерывного случая
называть функцию вида	функцией
распределения плотное гн вероятностей,
а функцию вида л (х) — функцией распре-
деления вероятностей. — Прим. ред.
лять площади иод кривой (в част-
ности, прямой). При этом достаточ-
но знать, что при любом допусти-
мом значении аргумента X число
F (х) есть площадь под кривой меж-
ду нижней границей области допу-
стимых значений (если таковая
имеется, — в нашем примере это
243,5) и данным значением аргу-
мента X.
Так, чтобы еще одним способом
.' '247,3
вычислить Д245.2 • следует сначала
найти F (247,8) (площадь между
нижней границей и точкой 247,8),
а затем вычесть отсюда F (245,2)
(площадь между нижней границей
и 245,2). Получаем, как и ранее,
0,142. Чтобы найти Р(Х<2248,2) до-
статочно просто подставить 248,2,
в F(x). Чуть сложнее найти
Р(Х> 253,0). Здесь тоже надо под-
ставить значение 253,0 в Р(х), но,
поскольку мы пользуемся функцией
распределения вида «меньше, чем»,
полученную величину следует вы-
честь из единицы.
Чтобы избежать громоздких вы-
числений, на практике обычно поль-
зуются статистическими справочни-
ками и таблицами, в которых даны
раз и навсегда вычисленные значе-
ния площадей под кривыми для
весьма большого числа функций и
большого набора значений X. Эти
площади вычисляются как по фор-
мулам для А*” .так и по формулам
для кумулятивной функции распре-
деления F(x) вида «меньше, чем».
Чаще пользуются кумулятивной
функцией распределения . Мы по-
знакомим читателя с такими табли-
цами, когда будем рассматривать
биномиальное и нормальное распре-
деления.
В следующем разделе мы будем,
как правило, рассматривать ди-
скретные пространства элементар-
ных событий и дискретные распре-
деления вероятностей. Тем не ме-
нее наши результаты будут приме-
нимы и к непрерывным пространст-
вам элементарных событий.
5 1.3. Описание более сложных
 4	событий
На множестве Si можно опреде-
лить и более сложные события. По-
ложим £t=(a, Ь, с, d], Е2={с, d, е),
E3~{g, h}. Пространство элементар-
ных событий St содержит 4 элемен-
та, которые принадлежат подмно-
жеству Еь Отсюда n(fi)=4 и
P(EI)=4/8=0,5,	Р(Е2)=3/8 и
P(Es)=2/8. Выше мы поставили
каждому элементу S5 в соответст-
вие некоторое число. Поэтому со-
бытия можно описывать, вводя пе-
ременную Xi. Например, событие
Е=(Х^З) совпадает с событием
Е={1, 2, 3}, откуда Р(£)=Р(Х<^
<СЗ)=3/6. Точно так же Е=(2^
^Х^4)={2, 3, 4}, Р(Е)=Р(2<
<Х,<4) =3/6.
Все возможные исходы (для про-
странства S3) и соответствующие им
вероятности можно записать в виде
дискретного распределения вероят-
ностей :
Р (Хр
I
2
3
4
5
6
1/6
1/6
1/6
1/6
1/6
1/6
1
Если Et=[a, b, с, dj, то через E'i
обозначают дополнение к Е\, т. е.
подмножество исходов, «не принад-
лежащее к Е1». Другими словами,
2?'i={e, f, g, й), откуда n(Ei) +
+ n(E'l)=n(Si) и Р(ЕЛ+Р(Е',)=
=1. Если мы рассматриваем собы-
тие £={!}, то Е'={2, 3, 4, 5, 6} и
Р(Е')=5/6, что есть вероятность
того, что при одном подбрасывании
игральной кости не выпадает еди-
ница.
Вероятность события (или Еи
ИЛИ Р2) И вероятность события (Е|
и Е2). Зачастую при определении
того или иного события приходится
использовать союзы «и» и «или».
Рассмотрим определенные на Sico-
77
бытия Ei, Ez и E3. Событие Е=
= (или £{, или £z) .есть подмножест-
во букв ИЗ S1 (и ТОЛЬКО ИЗ S1),
принадлежащих либо £ъ либо Ег,
либо им обоим одновременно. Это-
му условию удовлетворяют следую-
щие буквы из множества Si: Е=
= (или £i, или Ez)={a, b, с, d, е],
откуда п(Е)=п (или £i, или £2) =5
и Р (или Ei, или Ez)=P(E)==5f8.
Другими словами, если из множест-
ва Si наугад выбрать какой-нибудь
шар, то вероятность того, что на
нем будет написана буква, соответ-
ствующая событию £=(или £1, или
£2), равна 5/8.
Событие (£1 и Ег) — обычно пи-
шут (£i, £2) — есть подмножество
букв из Si, принадлежащих одно-
временно и £1, и Ez. В рассматри-
ваемом случае £=(£i, £з)={с, </},
л(£)=п(£1,	£2) =2 и £(£) =
=Р(£Ь £2)=2/8. Событию Е=(£ь
£а) соответствует пустое множество,
поскольку ие существует ни одной
буквы, принадлежащей одновремен-
но и £i, и £3. Отсюда P(£i, £3)=
—0/8=0.
Если буквам из Si поставить, в со-
ответствие числа 1, ..., 8 и припи-
сать каждому из этих чисел вероят-
ность 1/8, то нашу задачу можно
переформулировать в терминах ди-
скретного распределения вероятно-
стей, которое будет аналогично рас-
пределению вероятностей из задачи
о подбрасывании игральной кости.
События £i, £2, £3 можно теперь
записать следующим образом: £1=
=(1<Х<4), £г=(З^Х/^5) и £3=
=(7<сХ,<<8). После этого вероят-
ность Р(1^.Х^4) можно вычислить
не путем подсчета числа элементов
простра нства элементарных собы-
Рис. 5.2. Диаграмма Венна (Р(£|, Еа) —
отношение площади заштрихованной обла-
сти ко всей плошади]
78
тий, принадлежащих событию, а
складывая друг с другом вероятно-
сти, соответствующие числам от 1
. ..	11
до 4. Их сумма равна -g- -|- -g- -|-
1 1 1
Точно так же собы-
тия £1 и £3 можно записать в виде
(Х,-^4) или (Х/^7). Вероятность Р
(или Еь или £2) равна Р (или
<4, или 3<Х,<5)=Р(1^Х1<5) =
=Р(Х,^5) =5/8, а вероятность
P(£i, £г)=Р(Х,-^4 и 3<XS<5) =
=Р(З^Х<<4)=2/8.
Взаимосвязь событий £ь Е2 и £3
можно графически представить
с помощью диаграмм Венна (рис.
5.2). Все множество буке St услов-
но представлено площадью прямо-
угольника, а три наши события —
площадями трех кругов При этом
если круги не пересекаются, соот-
ветствующие вероятности совмест-
ных событий, например Р(£ь £3)
или Р(Ег, £3), будут равны нулю.
Несовместимые события и неко-
торые вычислительные формулы.
Оказывается, что вероятность Р
(или £tl или £2) можно вычислить,
ие прибегая к перечислению всех
элементов Si, принадлежащих со-
бытию (или Et, или £2). Для этого
достаточно знать величины P(£i),
Р(Е2) и Р(£|, £2). В этом случае
Р(или £,, или £г) = Р(£,)-]-
+ Р(£г)-Р(Е.. £s).
Подставляя в эту формулу соответ-
ствующие значения, получаем Р
(или Elt или £2) =4/8-|-3/8—2/8 =
=5/8. Другой пример: Р (или Elt.
или £3) =4/8-|-2/8—0/8=6/8. За-
метим, что в этом случае Р(£,)-1-
4-Р(£3)-Р(£ь	£3) =£(£,) 4-
4-Р(£з) и, следовательно,
Р (или £ь или £3) =Р(£1)4-Р(£з)-
Тем самым мы получили пример
несовместимых (или взаимоисклю-
чающих) событий. Термин «несов-
местимые события» означает, что
пересечение подмножеств Л и £ пу-
сто, откуда Р(Л, В)=0. В против-
ном случае события называются
совместимыми.
Так, в задаче о подбрасывании
игральной кости Р (или 1, или 2,
или 3)=Р(Г)+Р(2)+Р(3) (несов-
местимые события), так как Р(1,
2)=0, £(!, 3)=0 и Р(2, 3)=0. Ве-
роятность того, что наугад выбран-
ная карта окажется королем или
будет червовой масти, равна
Р (или К, или Н) = Р (К) Р (Н) —
- р	== 4/52 + 13/52 - 1/52 =
=16/52.
Вероятность того, что студент из
множества Se окажется либо муж-
чиной, либо женщиной, равна Р
(или М, или F)=P(M) +P(F)=
=14/20+6/20=1, так как Р(М,
F) —0 (последнее соотношение озна-
чает, что студент не может быть
одновременно и мужчиной, и жен-
щиной). Точно так же равна нулю
и вероятность того, что при подбра-
сывании игральной кости одновре-
менно выпадает и единица, и трой-
ка, поскольку верхней может отка-
заться лишь одна грань.
Более сложной задачей является
вычисление вероятности
Р(илн £,, или Ег, или £j =
= P(E,) + P(Es) + P(Et)-
— Р(Е1. Et) —P(Et. Б,)—
— Р(Е3, Р (£..£,.£,)•
Проиллюстрируем ее на примере.
Определим на множестве Si три
события: £i={a, b, с, d}, Ez={c, d, е}
и Ez={d, е, f} и рассмотрим соот-
ветствующее им событие £=(или
£i, или £?, или £3). Событию £ во
множестве Si принадлежит 6 букв,
откуда Р(Е)=Р (или £t, или £2,
или £я)=6/8.
Тот же результат можно получить
и с использованием общей форму-
лы. В нее входит, во-первых, сумма
вероятностей Р (£i) + Р (£2) + Р (£з),
соответствующая множеству {а, Ь,
с, с, d, d, d, е, е, /}, которое не явля-
ется подмножеством Si. Вычитание
fonfzn£j)
Рис. 5.3. Диаграмма Венна [P(£i,
F3) — отношение площади заштрихованной
области ко всей площади]
из этой суммы величин P(£i, £2),
P(£i, £s) и Р(£г, £з) соответствует
удалению из него элементов {с, d),
{d}, {d, е}, что дает {о, b, с, е, f).
Последнее множество уже явля-
ется подмножеством S(, и мы
можем вычислить его вероятность.
Однако оно еще не соответству-
ет определению события (или £|,
или £2, или £3), так как ему не
принадлежит элемент {d}. Только
после того, как мы добавим к нему
(£1, £2, £3)={d), получится подмно-
жество букв, полностью соответст-
вующее определению нашего собы-
тия £. Эту ситуацию иллюстрирует
диаграмма Венна (рис. 5.3).
Для взаимно несовместимых со-
бытий справедливо соотношение
Р(или £,, или или £,) =
= Р(£1) + Р(Р,) + Р(Р.)
и вообще
Р(или Et, или £s, или .... или Еп) =
= Р(£,)4-Р(£,) + ...+Р(£л).
5.1.4. Условная вероятность
Еще одним важным понятием ис-
числения вероятностей является по-
нятие условной вероятности. Пред-
ставим себе, что из множества S?
наугад выбрана одна карта, и нам
сообщили, что ее масть красного
цвета. Какова вероятность того, что
выбранная карта есть король?
Такую ситуацию сокращенно
можно записать так: Р(£|д) веро-
ятность события £ при условии К.
Посмотрим, как можно решить та-
кую задачу. После того, как мы вы-
тянули карту и получили информа-
79
цию о том, что она красного цвета,
мы уже не находимся в исходном
пространстве элементарных собы-
тий. Найим новым пространством
элементарных событий будет мно-
жество, содержащее только 26 карт.
Так как средн этих 26 карт имеют-
ся ровно два «красных» короля, то
Р(£| К) =2/26.
В этом рассуждении нам понадо-
билось перейти к новому простран-
ству элементарных событий. Су-
ществует, однако, формула, с по-
мощью которой искомую вероятность
можно получить, не выходя за рам-
ки множества 5?. А именно:
Р(Е2\Е1)=Р(Е1, £2)/Р(£!), если
Р(£,)>0;	Р(Е{\Е2) = Р(ЕЬ Е2)1
Р(Е2), если Р(£2)>0. Отсюда
видно, что если Р(Е}) =Р(Е2), то
P(E2\Ei)=P(E\\E2). В рассматри-
ваемом примере с колодой карт
Р(Я|А)=Р(£, К)/Р(К). Так как
всего в колоде имеются два крас-
ных короля (мы снова рассматри-
ваем все исходное пространство эле-
ментарных событий), то Р(К, Р) =
= 4 „ ₽(К|К) = 4/>=2/26.
С другой стороны. P(RlK) — P(Kt
R\/P(K) = ^I -^=214. В этом
случае после вытягивания карты
нам сообщили, что выбранная кар-
та — король. Новое пространство
элементарных событий содержит
четыре короля, два из которых —
красные, откуда P(R\K) =2/4. .
Предположим тенерь, что грани
игральной кости с номерами 1, 2, 3
имеют белый цвет. Нам известно,
что выпавшая грань — белого цве-
та. При этом условии вероятность
того, что выпала единица, равна
1/3. Возвращаясь к исходному
пространству элементарных собы-
тий S={№i, Wz, ^з, Вь Bs. В6}, тот
же результат можно получить и
по формуле условной вероятно-
сти: Р {единица | W}=P (единица,
1Г)/р(ю=4-/4=,/з-
Рассмотрим события £i={a, b, с},
Е2={с, d, е) и £з={/, g), определен-
ные на множестве Выберем на-
угад одну букву и предположим,
что она принадлежит Е2. Тогда но-
вым пространством элементарных
событий становится множество Е2 и
Л/(£2)=3. Вероятность того, что ка-
кая-нибудь буква из Ег принадле-
жит также и Et, равна 1/3, так как
в Е2 имеется ровно одна буква, ко-
торая принадлежит и £ь Тот же ре-
зультат можно получить и по форму-
ле Р(£||£2) = Р(£1,	£2)/Р(£2) =
= 4-/4 = 1/3=P(£2|£i)- В то же
время Р(£||£3)=Р(£Ь £3)/Р(£3) =
=0/4 = 0.
Вероятность того, что студент,
о котором известно, что он перво-
курсник, окажется мужчиной, равна
P(A4|J) = P(A1, J)!P(J)=.±/± =
•=4> а pVfM)-=P(M, J)fP (М) =
=4 / — =4/14.
20 / 20	1
Поскольку определенная на 5i ве-
роятность P(Ei, £2) равна 1/3, то
Р(£ь £2)=Р(£2)Р(£1|£2)=3/8х
X 1/3= 1/8. Этому событию соответ-
ствует подмножество {с}, состоящее
из одной буквы, которая принадле-
жит как £t, гак и £2.
Аналогично, пользуясь тем, что
Р (R| К) =2 /26, получаем: Р (R,
K)=P(R)-P{R\K) = 1/2-2/26=
=2/52. Действительно, в колоде из.
52 карт имеются ровно два короля
красного цвета.
Итак, справедливы следующие
формулы. Р(А|Р) =Р(К, R)IP(R)
и P(R\K)=P(R)P(K\R), причем,
хотя Р(Et | Ez)^= Р(£21 £1), вероят-
ность Р(£ь £2) всегда удовлетво-
ряет соотношению Р(£ь £2) =
=Р(£!)Р(£2|£1)=Р(£2)-Р(£||£2).
5.1.5. Разбиения пространства
элементарных событий и формула
Байеса
Ряд очень полезных формул мож-
но вывести, разбивая некоторое ис-
ходкое пространство элементарных
событий на несколько частей и под-
разделяя затем каждую из этих ча-
стей еще на несколько подмно-
жеств. Предположим, что имеется 9
шаров, каждый из которых покра-
шен в один из двух цветов — чер-
ный или белый, и на этих шарах на-
писаны буквы от а до к Обозначим
это пространство элементарных со-
бытий и его элементы следующим
образом. 5—bb, ^ь, Cw, fw,
gb, hv, i’b}, где индексы w и b обо-
значают соответственно белый и чер-
ный цвет. Разбиением пространства
S- будет, например, набор событий
Et={a, b, с, d}, Ей={е, f, g) и Е3=
—{ft, i}. Каждое из этих событий
можно в свою очередь разбить на
события: £iw={o} и Ец>={Ь, с, d};
E2V.={e, f} и E2b={g}; E3w={h} и
£at)={t}. Термин «разбиение» озна-
чает, что любая пара этих событий
имеет нулевое пересечение. В этом
случае P(Ei, £з)=0, P{Et, £3)=0
и P(ES, Е2)=0. То лее самое долж-
но быть справедливо и для событий,
полученных после повторного раз-
биения £i, Е2 и £3, так что P(Eiv>,
Etb)=d, P(E2w, Е2Ь)=0 и P(E3w,
Езь)=£. Все эти соотношения про-
иллюстрированы на рис. 5.4,а.
Рассмотрим пространство S (рис.
5.4,а) и событие £lw={a}. Оно со-
стоит в том, что на шарике белого
цвета написана буква а. Вероят-
ность выбрать эту букву из множе-
ства S можно записать как
P(Eiw)=P(Ei, £w)=l/9. Если о вы-
бранной букве известно, что она
принадлежит £i, то соответствую-
щая условная вероятность равна
P(£w|Ei)=1/4. Если известно, что
выбранная буква написана на ша-
рике белого цвета, то P(Ei\Ew) =
=1 /4, так как из четырех имеющих-
ся белых шаров только один при-
надлежит Et.
Та же самая задача проиллю-
стрирована и на рнс. 5.4,6 с той
лишь разницей, что полная площадь
прямоугольника на нем считается
равной единице (на рис. 5.4,а она
равна 9). Соответственно площади
трех столбцов на рис. 5.4,6 равны
4(9, 3/9 и 2/9. Площадь верхнего^
правого прямоугольника, отвечаю-
щего букве а, равна 1/4 только
в том смысле, что она составляет
1/4 площади первого столбца. От-
носительно всей площади большого
прямоугольника эта площадь со-
ставляет 1/4 от 4/9, т. е. 1/4-4/9=
= 1/9.
Аналогично площадь прямоуголь-
ника с буквами е и f внутри состав-
ляет 2/3 площади столбца Е?„ До-
ля этой площади во всей площади
есть 2/3 от 3/9, т. е. 2/3-3/9=2/9.
Таким образом, числа 4/9, 3/9 и
2/9 есть вероятности событий Elt Е2
и Е3 Числа 1/4, 3/4, 2/3 и осталь-
ные представляют собой условные-
вероятности, смысл которых сразу
виден из рисунка и которые не тре-
буют никаких вычислений. Напри-
мер, Р(£„|£1)=]/4, Р(£ь|£3) = 1/2’
и т. д. Вероятность выбрать белый
шар с буквой а на нем, т. е. вели-
чина P(EW, £i), равна отношению
площади верхнего прямоугольника-
первого столбца ко всей площади.
Мы уже знаем, что он составляет
1/4 от 4/9, т. е. 1/4 4/9=1/9. От-
сюда P(£u,, £i) = (1 /9)/1, так как
полная площадь всего прямоуголь-
ника равна единице, и эту единицу
в знаменателе можно опустить. Та-
ким образом, чтобы получить
Р(Е1е, Ei), достаточно вычислить
произведение 1/4-4/9. В используе-
мых обозначениях P(EW, £i)=
= P(£u,|£1).P(£1)=l/4-4/9= 1/9.
Плошадь верхнего прямоугольника
второго столбца составляет 2/3 от
3/9, т. е. 2/3-3/9=2/9, откуда
£(£«., £2)=Р(£ю|£2)-Р(£2)=2/9,
Если о выбранной букве известно,
что она написана на белом шаре,
то вероятность того, что она при-
надлежит Ei, равна P(Ei |£„) =1/4.
В верхних прямоугольниках всех
трех колонок на рис. 5.4,о содер-
жатся ровно 4 белых шара, н толь-
ко один из них принадлежит Et.
Эту вероятность можно найти и
с помощью рис. 5.4. Составим сле-
дующее отношение: площадь перво-
го верхнего прямоугольника, делен-
ная на сумму площадей трех верх-
них прямоугольников, т. е.
/>(£.[£„) =
____________£ю)___________________
£t-)4-P(E±. £а,) + Р(£г> £ц1)] —
— 1Р{£Ш| £,)-Р(£1)+Р(£И1/£',)Р(Ея)+ —
+ P(£W|£3)P(£3)J
I	4 / 7 1	4	2	3
~ 4 " 9 / \ 4 ' 9 г 2 " 9 +
^29 J 4 *
Это отношение называется фор-
мулой Байеса; оно всегда примени-
мо к разбиениям пространств эле-
ментарных событий, подобных рас-
смотренному на рис. 5.4. Отметим,
что если бы события, вероятности
которых суммируются в знаменате-
ле, не были бы взаимно несовме-
стимы, то эти вероятности нельзя
было бы складывать.
Пространство элементарных со-
бытий Se также можно рассматри-
вать как разбиение-—сначала на
множество мужчин и множество
женщин, а затем — на множество
первокурсников и второкурсников.
При этом «(Se)=20, Р(М) —
= 14/20, Р (F) = 6/20, Р (J I М) =
= 4/14. P(J, Р) = 2/Ъ, Р(М. ]) =
=Р(М;) = 4Г20. P(F, J) = P(Fj)^
= 2/20 и РШ|/) = Р(Лф)/]Р(М,
J)4-P(F, ЛИРСВДР^Н-Р^Н
= Р (J | М) • Р (М)/[Р и \М)-Р (Л!) +
+ P(/|F).P(F)] = 4/6
Формула Байеса особенно полез-
на в тех случаях, когда мы не зна-
82
ем ни n(S), ни «(ЕД, т, е. когда
в условиях задачи даны лишь ве-
роятности тех или иных событий.
Предположим, например, что име-
ются три урны, в которых лежат
белые и черные шары. Число шаров
в каждой из урн таково, что Р(1) =
=0,2, Р(Н)=0,5 и Р(Ш)=0,3. Та-
ким образом, вероятность того, что
некоторый шар (независимо от его
цвета) происходит из первой урны,
равна Р(1)=0,2. В первой урне до-
дя белых шаров равна 0.4, во вто-
рой— 0,7, а в третьей — 0,1. Эти
значения представляют собой услов-
ные вероятности, и в используемых
обозначениях их можно записать в
виде P(IF|I), Р(№|П), P(IF|III)
и т. д Далее, P(I, 1Г)=Р(1) X
ХР(МП I)—0,08, откуда
Р(1|1Г) = Р(1)-Р(Г]1)ДР(1)Х
ХР(^|1) + Я(П)-Р(1Г|П) +
4- Р (III) - Р (WIIII)] = 0.08/9,46 =
=4/23.
Эту дробь можно также представ-
лять себе как отношение площади
верхнего прямоугольника первого
столбца к сумме площадей трех
верхних прямоугольников.
Этот пример можно переформули-
ровать как задачу из анализа ре-
шений. Представим себе, что фирма
А собирается объявить конкурс на
заключение выгодного контракта.
Фирма В располагает достаточной
информацией о фирме А для того,
чтобы оценить минимально возмож-
ный, максимально возможный и
промежуточный объем контракта.
Обозначим их цифрами I, II и III
соответственно. По оценкам фирмы
В, вероятность того, что Л предло-
жит минимально возможный кон-
тракт, равна Р(1)=0,2, а две дру-
гие вероятности равны Р (II) =0,5 и
Р (III) =0,3. Со своей стороны фир-
ма В может в данный момент уча-
ствовать только в этом конкур-
се, поэтому она может в каждом
из трех случаев легко оценить ве-
роятность того, что ей удастся полу-
чить зтот заказ. Л именно, по ее
? (SffPGfffTtMCCffH
rfc w)=8j$ r&wtyjs	ffo w)-mj
f(ftL)-D,lZ	f(E9L)=Q,?7
Рис. 5-5. Вероятности (достоверности)
сложных событий
оценкам. Р(F11) =0,4, P(W|II)=
=0,7 и Р (IF| III)=0,1. Располагая
всеми этими данными, фирма В мо-
жет теперь вычислить вероятности
событий типа «А объявляет конкурс
на контракт типа I, и наша фирма
его получает», т. е. вероятности
P(I, 1F), Р(П, IF) и Р(Ш, IF). Пер-
вая из них, например равна
Р(1, IF) = Р(1) .р(Г|I) =0,2(0,4) =
=0,08.
Вероятности типа P(I, IF) назы-
вают иногда сложными вероятно-
стями. На рис. 5.5 для нашей за-
дачи приведен полный набор таких
вероятностей. Мы построили это де-
рево с единственной целью пока-
зать, что все сложные вероятности
последнего уровня дают в сумме
единицу. Другой способ наглядно
представить себе эту ситуацию—это
воспользоваться рассмотренной на-
ми выше системой прямоугольников
(см. рис. 5.4).
5.2.	НЕЗАВИСИМЫЕ СОБЫТИЯ,
БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
5.2.1.	Независимые события
4	и испытания
Еще одним важным понятием ис-
числения вероятностей является по-
нятие «независимые события» (как
и понятие «зависимые события»).
Оно находит применение для вычис-
ления вероятностей вида P(Eit
Ez,  Еп). Поясним его на примере
всего двух событий. Как мы уже
видели выше, справедлива формула»
P(El,Et) = P(El).P(El\Ey
Однако в некоторых типах задач
' P(£JE,) = P(Et);
в этом случае
Р (£..£,) = £(£,)£(£,).
В то время как формулу P(£i, £г)=
=P(Ei) ’P(Ei\Ei) можно применять,
к зависимым и независимым со-
бытиям, формулой P(Ei, Е?) =
=Р(Е1) -Р(£2) можно пользовать-
ся только для вычисления вероят-
ностей независимых событий.
Во всех рассмотренных выше за-
дачах мы имели дело с эксперимен-
тами, которые предполагали прове-
дение испытания. Таким испытани-
ем могло быть одно подбрасывание
.монеты или игральной кости, выбор
наугад одной буквы или одной кар-
ты и т. п. Понятие зависимых и не-
зависимых событий используется в
гораздо большем числе приложений,,
и его проще всего пояснить на при-
мере задачи, условие которой тре-
бует проведения не одного, а не-
скольких испытаний.
Предположим, что имеются три
одинаковых шара, на которых напи-
саны буквы а, Ь, с. Они образуют'
пространство элементарных собы-
тий S={a, b, с). Испытание заклю-
чается в последовательном выборе
двух шаров. Посмотрим, какие при-
этом возможны события. Мы будем
обозначать их следующим образом:
(а, а) —это значит: «а и а» или «за
а следует а»; (Ь, а), (а, b или а.,
с) — событие заключается в том^.
что на первом выбранном шаре на-
писана буква а, и т. д. Наша зада-
ча — вычислить вероятности Р(а, я),
Р(Ъ, а), Р(а, b или а, с) и др.
Перечисление всех возможных ис-
ходов. Стандартный способ вычис-
ления вероятностей требует пере-
числения всех возможных исходов
(теперь уже при выборе двух ша-
ров). Условимся, что каждый вы-
бранный шар возвращается на свое
83-
а	Ъ	с
/|\	/|\	/|\
ab cab cab с
S^{aa,ab,au3ba,bb,bcfca,cb,c£}
а)
а	b	с	,
/|\	/|\	/|\
abcabcabc
/|\/\/|\/|\/|\/|\/|\/|\/|\
a b cabcabcabcabcabcabcab cab £
S^-faaa, aabt aac, aba, abb, abc, аса, acbt accr
baa, bab, bact bba, bbbt bbc, bca, bGb, bcc, R
caa, cab, cac, cba, ebb, ebe, ccaf ueb, ccc} °
Рис. 5.6. Перечисление всех возможных исходов с помощью дерева исходов (5= {a. bt с});
а— независимые испытания, п«*2; б — зависимые испытания, п—2; а— независимые испытания; л=3; г —
ааййскмыв испытания, л-3
место *. Множество всех возможных
исходов (новое пространство эле-
ментарных событий) будет некото-
рым множеством пар букв. Проце-
дура его перечисления наглядно по-
казана на рис. 5.6,а. С помощью
этого дерева немедленно получаем
пространство элементарных собы-
тий S*—{аа, ub, ас, ba, bb, Ьс. са,
cb, сс).
Как и ранее, на этом пространст-
ве можно определить много различ-
ных событий. Событие (а, а), «а и
я» или «за а следует а» (слово
«следует» означает здесь то же са-
мое, что и союз «и») является, как
и следовало ожидать, подмножест-
вом £={п.д} множества 5*. Это со-
бытие встречается во множестве S*
только один раз, откуда л(£)=1,
и, учитывая, что л(5<')=9, получа-
ем Р(а, а)=Р(Е) = 1/9
Событие «а на первом месте»
(т. е. на первом из выбранных ша-
ров написана буква а) содержит
три элемента из множества S* (см.
рис. 5.6,а). Его можно записать в
виде Е—{аа, ab, ас}, и, таким об-
разом, Р(а на первом месте)=
=Р(Е)=3/9.
Вывод биномиального распреде-
ления с помощью пространства эле-
ментарных событий S *. Биноми-
альное (как и гипергеометрнческое)
1 В статистике такой вид испытаний
называется выборкой с повторным отбо-
ром. — При ч. ред.
84
распределение получается при ана-
лизе событий следующего типа:
«число шаров, на которых оказалась
написанной буква а, равно некото-
рому фиксированному числу». При
этом 'полное число проведенных ис-
пытаний мы обозначим буквой п.
Для нас существенно лишь то,
сколько раз в этих испытаниях мы
вынули букву а, и совершенно не
важно, в каком порядке это про-
изошло. Число шаров с буквой а
мы обозначим X,. Тогда при'л=2 X;
может принимать следующие значе-
ния; Xi=0, Хг=1, Хз=2. Это зна-
чит: буква не была написана ни на
одном из выбранных шаров; она
была написана на одном шаре из
двух; она была написана на обоих
выбранных шарах.
Достаточно взглянуть на множе-
ство S*, чтобы заметить, что собы-
тие £’1=(Х1=0) встречается в нем
четыре раза, откуда д(Е1)=4 и
Р(%! =0) =4/9. Далее, Е2=(Х2=
=1),	л(Е2)=4 и Р(Хг=1) =
=4/9, а Ез=(Х3=2), п(Е3}=\ и
Р(Хз=2)=1/9, причем SP (%,-) =
=57"= 1. Тем самым величины X,-
вместе с соответствующими вероят-
ностями P{Xi) образуют распреде-
ление вероятностей случайной пере-
менной X,. Оно называется бино-
миальным распределением и приве-
дено в табл. 5.2 (при и=2).
Биномиальное распределение име-
ет свойства, которые делают его
Табл и ц а п.2. Биномиальные
распределения п = 1/3» ч — 2 и п = 3
п — 2		л —	' 3
1	[ pvrz>	Х1	
А^О	4 9 = 0,444...	А',=0	8/27
А\^=1	4 •9 = 0.444...		12/27
л	1/9 = 0.111...	А',=2	6/27
		Х,=3	1/27
I 1.000	—
I
ПрП.Чгчлиие Соответствующее ирострэкспю эле°
менгарных. событий:
3 = |а, t>. cj мчи 5 = {а, п*, a' J, или S — {IF, В» В},
исключительно полезным в задачах,
связанных с выборками из гене-'
ральных совокупностей, которые
естественным образом распадаются
на две части (дихотомные генераль-
ные совокупности). Как мы вскоре
убедимся, при одном и том же
числе испытаний (например, при
л-2) и при условии, что доля отме-
ченных объектов (в нашем случае—
буквой а) фиксирована, биномиаль-
ное распределение не зависит ог
числа элементов в пространстве
элементарных событий. Так, при
л=2 биномиальное распределение
одинаково в для S={a, b, с), и для
S—{а, а, Ь, Ь, с, с}, и для S={200
раз а, 400 раз не а}.
Другая характерная черта би-
номиального распределения заклю-
чается в том, что соответствующее
ему пространство элементарных со-
бытий естественным образом рас-
падается на две части (является
дихотомным). Нас интересуют лишь
элементы, помеченные буквой а, и
нам безразлично, будут ли два
прочих элемента (или 400 прочих
элементов) помечены буквой Ь,
буквой с или и той, и другой впе-
ремешку. Кроме того, для нас не
существен порядок выбора элемен-
тов: неважно, «следует за а эле-
мент, помеченный иначе», или наобо-
рот. Все, что мы должны сделать,—
это выбрать один элемент, возвра-
тить его на место, еще раз выбрать
какой-нибудь элемент и записать,
сколько раз нам попались элемен-
ты, помеченные буквой а. Ясно, что
при п— 2 это число может равняться
0, 1 или 2.
При п=3 мы должны выбрать
друг за другом три элемента (с воз-
вратом каждого на место) и сосчи-
тать, сколько раз нам попадется
буква а. Возможные исходы — 0, 1,
2 или 3 раза. В последнем случае
буквой а будет помечен каждый из
выбранных элементов. Таким обра-
зом, при условии, что буквой а по-
мечена одна треть элементов S,
т. е. что Р(а)=1/3, мы можем пол-
ностью перечислить все варианты
того, сколько раз при проведении
трех испытаний может встретиться
буква а. Имеем A't=0, Хг=1, Xs=2,
А\=3, и остается вычислить веро-
ятности P(Xi), P(Xi}, ..Р(Хп+1).
Как и ранее, Р(Х2=1) означает ве-
роятность того, что при выборе трех
элементов буквой а окажется поме-
чен ровно один из них.
Читатель, наверное, уже заме-
тил, что процедура построения би-
номиального распределения совпа-
дает с процедурой взятия выборки
из дихотомнон (состоящей из двух
частей) генеральной совокупности.
Вопрос о том, какую долю составля-
ют в пространстве элементарных
событий элементы, помеченные бук-
вой а, аналогичен вопросу о том,
какая часть студентов университета
имеет голубые глаза, или какая
часть избирателей будет голосовать
за кандидата Я, или какая доля
только что произведенных деталей.
оказалась бракованной. Для'эконо-
мии времени и средств естественно
попытаться оценить каждую из
этих величин по некоторой выбор-
ке. Возьмем какую-нибудь выборку,
определим, сколько элементов из
нее помечено буквой а, обозначим
это число X/, и разделим на наше
число независимых испытаний (на
объем выборки). Отношение Хк к
общему числу проведенных испыта-
ний п (к объему выборки) можно
считать оценкой доли элементов,
помеченных буквой а во всей гене
ральной совокупности.
Предположим, что буквой а по-
мечено 40% элементов генеральной
85
совокупности. Возьмем выборку, со-
стоящую, например, из 10 элемен-
тов (т. е. проведем 10 испытаний
с возвратом каждого шара на ме-
сто) . Сосчитаем, сколько раз в этой
выборке нам встретится буква а.
Если окажется, что Х5=4, то отно-
шение Х5 к п (т. е. 4/10) в точности
совпадает с долей таких элементов
во всей генеральной совокупности.
Если в этих 10 испытаниях мы по-
лучим значение Х<=3, то дробь 3/10
даст уже менее точную оценку доли
элементов с буквой а в рассматри-
ваемой генеральной совокупности.
Попытаемся получить лучшее при-
ближение и возьмем для этого вы-
борку, содержащую 100 шаров (по-
прежнему с возвратом), Если ока-
жется, что 40 шаров из них помече-
ны буквой а, то наша оценка вновь
будет точной, поскольку величина
p4i—Х41 /л=0,4 есть отношение пол-
ного числа шаров с буквой а к объе-
му генеральной совокупности. Если
в нашей выборке из 100 элементов
буква а встретится Х40=39 раз, то
полученная нами оценка уже не бу-
дет абсолютно точной, но достаточ-
но близкой к действительности.
Однако если мы насчитаем Х3|=ЗО
шаров с буквой а, то наша оценка
будет столь же плохой, как и для
%4=3 в выборке с «=10.
Чему же равна вероятность
Р (Х4=3) при «=10 и Р (Х31=ЗО)
при п= 100? Если Р (Х31==ЗО) ока-
жется меньше, чем Р (Х4=3), то
нам целесообразнее взять выборку
объемом «=100. Если значение
Р (Х31=ЗО) мало, то выборка из
100 элементов даст нам больше
шансов получить значение Хь, близ-
кое к действительному, выборка
л=10.
Эти вероятности задаются соот-
ветствующими биномиальными рас-
пределениями, и именно поэтому эти
распределения так важны в стати-
стике.
Точно так же можно с помощью
выборки оценивать и долю студен-
тов с голубыми глазами, избирате-
лей, голосующих за кандидата А,
или бракованных деталей.
86
Каким же образом можно в об-
щем виде получить значения вероят-
ностей, соответствующих бино-
миальному распределению? В рас-
сморенном нами примере (при п=2
и при условии, что буквой а была
помечена одна треть элементов S)
мы делали это, построив сначала
множество S*, а затем пересчитав
число его элементов, содержащих О,
1 и 2 буквы а. Теперь наша цель
в том, чтобы вывести Формулу, с по-
мощью которой Р(Х.) для бино-
миального распределения можно вы-
числять непосредственно по харак-
теристикам множества S, не перехо-
дя к вспомогательному множест-
ву S*.
Независимые события и правило
умножения вероятностей. Вероят-
ность любого события вида Е= (EiT
Ег. .... Еп) можно найти также
с помощью так называемого прави-
ла умножения ьероятностей. Это
правило требует обращения лишь
к исходному пространству элемен-
тарных событий, что избавляет от
необходимости перечисления всех
возможных исходов (т. е. элементов
множества S*). Например, вероят-
ность Р(а, а), т. е. вероятность со-
бытия «за а следует а», можно вы-
числить следующим образом:
Р(а, а) = Р(я)-Р(а|о) = Р(а)Х
хР(а, если на первом выбран-
ном шаре была буква а) = 1/3х
X 1/3=1/9. Мы получили тот же ре-
зультат, что и при перечислении
элементов множества S*. Так как
каждый элемент, будучи выбран,
возвращается после этого на свое
место, результат первого испытания
не уменьшает пространство элемен-
тарных событий и, следовательно, не
отражается на вероятности получить
при втором испытании тот же эле-
мент а. Таким образом, эти два со-
бытия являются независимыми, сле-
довательно, Р(ц|а)=Р(а) и
Р(а,а)==Р(а)'Р(а). Аналогично
Р(а, с) = Р{а)-Р{с\а) = Р(а)х
ХР(с)=1/3-1/3=1/9.
Список всех возможных исходов
в задаче о последовательном выборе
трех шаров (с возвратом каждого
на место) приведен на рис. 5.6,в. Па
множестве 3* можно определить це-
лый ряд событий, включая события
вида £=(£|, £2, .... Еп). Напри-
мер, вероятность того, что «за а сле-
дует буква а, за которой снова сле-
дует а», равна Р(а)-Р(а)‘Р(а) =
=(1/3)3=1/27, Тот же результат
дает и вспомогательное множество
3*. в котором событие Е={ааа}
встречается всего один раз, откуда
«(£) = !, n(S*)=27 и Р(а, а, а) =
=1/27.
События типа «число элементов
с буквой а при трех последователь- '
ных испытаниях (независимо от их
порядка) равно фиксированному
числу (т. е. или 0, или 1, или 2,
или 3)» вместе с соответствующими
вероятностями (которые можно вы-
числить с помощью множества S*)
также образуют биномиальное рас-
пределение (см. табл. 5.2 при п=
=3). Оно вполне аналогично бино-
миальному распределению с п=2.'
В частности, если случайная пере-
менная приняла значение Xi=0, то
это можно интерпретировать как
«в трех испытаниях буква а не
встретилась ни одного раза»; Хз=
=2 — «буква а встретилась два ра-
за» и т. д.
Поскольку после каждого испыта-
ния выбранный шар возвращается
на место, задача имеет смысл и при
л>п(3), т. е. для более чем трех
испытаний. Ее можно решать
теми же двумя способами: путем пе-
речисления всех возможных исхо-
дов и с помощью правила умноже-
ния вероятностей. Например, если
на множестве S={a, b, с} определе-
но событие E-s=(a, а, Ъ, с, а), то
Р(Е) = Р(а) • Р(а) • Р(Ь) • Р(с) X
ХР(а) = (1/3)5=1/243. Заметим,
что вероятность того, что «е следует
за а», равна вероятности того, что
«а следует за с». Действительно,
от перемены .мест сомножителей
произведение не меняется, откуда
Р(а, с)=Р(с, а)=Р(а)-Р(с) =
=Р(с)‘Р(а).
Дихотомное пространство элемен.
тарных событий Еще один способ
описать событие на множество 3
(например, событие 3 = (а, 6, с)) за-
ключается в следующем. Рассмо-
трим события £i=(a) и Е2—(а'),
где а' означает событие, включаю-
щее элементы, отличные от а, так
что при этом Р(а) -j-P(a')=l- Обо-
значение Е2=(а') заменяет обо-
значение £2={&, с), после чего мно-
жество S можно записать в виде
S={a, а', а'}. Такая форма записи
указывает на то, что нам безразлич-
но, какие буквы, кроме а, имеются
во множестве 3. И в том, и в другом
варианте л(£2)=2 и P(£2)=P(h
или с) = Р(а') =2/3. Точно так же
Р(£ь £2)=Р(а, а') = 1/3-2/3=2/9.
Этот пример типичен для задач,
связанных с дихотомными простран-
ствами элементарных событий. Как
правило, в таких случаях использу-
ются следующие обозначения. Ве-
роятность Р(а), определенную на
пространстве S (а не на S*), обыч-
но обозначают буквой р, а Р(а') —
буквой q Другими словами, полага-
ют Р(а)=р и P(u')=q, где q=\—р
и p-]~q=]. Однако в связи с тем, что
мы в этой книге будем обозначать
через р процентные характеристики
выборки, для обозначения Р(а) бу-
дем пользоваться греческой бук-
вой я. В нашем примере P(aj=
=л=1/3 и Р(п')=1—л=2/3. Выра-
жения вида Р(а, а')=Р(а) *Р(а')
теперь можно переписать следую-
щим образом: Р(а, а')=л(1—л) =
=1/3-2/3=2/9; Р(а, а, а')=_Р(а)Х
XP(a)-P(a') = л2(1—л) = (1/3)2Х
Х2/3 = 2/27; P(a, а', а')=Р(а)Х
X P(a')-P(a') = л(1— л)2=1/3 X
X (2/3)2=4/27. Отметим еще раз,
что во всех этих примерах мы имели
дело с независимыми событиями
(выбор элемента с возвратом его на
место). Каждое из них включало
несколько испытаний, проводивших-
ся на множестве S={a,b, с} (или
в новых обозначениях S={a, а', а'}) •
Приведенные в табл. 5.2 бино-
миальные распределения и дают ве-
роятности того, что буквой а будут
помечены Xi элементов (при прове-
дении двух и трех испытаний). Эти
вероятности получены путем перебо-
ра элементов вспомогательных про-
ст
странств элементарных событий S*
на рис. 5.6,а. При этом интересую-
щие нас события были определены
таким образом, что единственным
существенным для нас параметром
является число элементов с бук-
вой а, полученных в п испытаниях,
и для нас неважно, какими буквами
были помечены все прочие элемен-
ты. Именно в этом смысле наше про-
странство элементарных событий
распадается на две части и называ-
ется дихотомным. Результат совер-
шенно не зависит от того, строим ли
мы пространство элементарных со-
бытий S* по множеству S={a, а', а'}
или по множеству 5’={U7a В, В},
где W— белый шар, а В — черный.
5.2.2.	Зависимые события
и испытания
Рассмотрим теперь задачу о про-
ведении двух или трех испытаний
в том ее варианте, когда выбранный
шар не возвращается на свое ме-
сто1. В этом случае мы встречаемся
с простым примером зависимых со-
бытий. Как и ранее, перебором всех
возможных исходов строится мно-
жество S*, на котором можно опре-
делить целый ряд различных собы-
тий. Вероятности этих событий, на-
пример события вида E=(Elt Ец),
можно получить пересчетом соответ-
ствующих элементов из S*. Другой
способ — воспользоваться формулой
произведения вероятностей. При
этом, однако, следует иметь в виду,
что P(£2|^i) ¥=Р(Е*), так как вы-
бранный элемент не возвращается
на место, указанную формулу необ-
ходимо использовать в общем виде:
P(Elt Е^Р^-Р^Е^.
Таким образом, вероятность полу-
чить в первом из двух испытаний
букву а (см. рис. 5.6,6) рацна 2/6
(сравните с 3/9, как это было в том
варианте задачи, когда шары после
каждого испытания возвращались
на свое место). Вероятность собы-
тия а и Ь, или, другими словами,
1 В статистике такой вид испытаний
называется выборкой с бесповторным от-
бором.— Прим, ред.
88
«за а следует Ь», равна 1 /6, что
' можно получить и по формуле
Р(а, &) =Р(а)-Р(6|я) = 1/3-1/2 =
=1/6. Очевидно, что Р(а, а} =
= Р(а) -Р(а|п)=1 /3-0=0. Вероят-
ность Р(а, Ь, с), вычисленная для
трех испытаний с помощью множе-
ства S* (рис. 5.6,г), равна 1/6, что-
согласуется с вычислением по фор-
муле Р(а. Ь, с)=Р(а)-Р(Ь\а)Х
ХР.(с\а, 6)=1/3-1/2-1=1/6. Ясно,
что вероятность Р(а, а, 6)=0.
Вероятность вытянуть из колоды
карт два короля подряд равна
Р(К, /С)=4/52-4/52 (в задаче с воз-
вратом) и 4/52-3/51 (без возврата);
вероятность вытянуть короля, а за-
тем туз или даму равна Р(Л', Л или
Q) =4/52-8/52 (свозвратом) и4'52х
Х8/51 (без возврата). Далее,
Р (К. К') = л (1 —л) = 4 /52 - 48 /52
(с возвратом) и л-48/51 (без воз-
врата). В последнем случае мы уже
не можем писать в качестве второго
сомножителя 1—л (вероятности ме-
няются от испытания к испытанию).
Вероятность того, что при двух
подбрасываниях игральной кости
оба раза выпадает 1, равна
Р(1,	1)=1/6-1/6;	Р(1,	!')=
. =л(1—я)=1/6-5/6. При пяти под-
брасываниях Р(1, 1, Г, Г, Г) =
=я2(1—я)3=(1/6)2(5/6)3. Все эти
испытания обязательно будут неза-
висимыми «по определению», так
как в эксперименте с игральной'
костью результат предшествующего
испытания никак не может оказать
влияния на следующий за ним,
Независимые испытания вида
P(l, I, 1)=л3=(1/6)3, когда каждое
испытание проводится на одном и
том же пространстве элементарных
событий, иногда называют повторны-
ми испытаниями. Если мы имеем
дело с повторными испытаниями на
дихотомном пространстве элемен-
тарных событий, то в этом случае
всегда можно пользоваться обозна-
чениями л и 1—л (или, как это де-
лается во многих других книгах, р
и <?)
Сравнение независимых испыта-
ний с зависимыми. Различия меж-
ду зависимыми и независимыми
испытаниями (между испытаниями
с возвратом и без возврата) весьма
существенны для процедуры отбора
выборки. Рассмотрим пример.
Пусть имеются три шара с бук-
вами а, b и с на них. Чтобы полу-
чить днхотомное пространство эле-
ментарных событий (дихотомную
генеральную совокупность), запи-
шем наше множество в виде S=
={а, а', а'} или, еще лучше, S=
={№, В,'В}, где V/ — белый шар,
а В — черный. Обозначим это про-
странство элементарных событий че-
рез Si и рассмотрим еще 52={117,
И7, В, В, В), Ss={10 раз 20 раз
В} и S4={50 раз W7, 100 раз В}.
Число элементов в этих простран-
ствах равно: n(S|)=3, n(S2)=6,
л($з)=30 и rt(S<j = 150. Считая эти
пространства генеральными сово-
купностями, можно записать Лч=3,
ЛГ2=6, Л/3=ЗО и Л?4==150.
Пусть п есть число испытаний,
каждое из которых состоит в выбо-
ре одного элемента из множест-
ва 5,-. При п=2 для каждого из этих
пространств элементарных событий
вероятность того, что мы дважды
выберем белый шар (при условии,
что первый возвращается на место),
равна Р(Г, 1Г)=]/3-1/3=1/9=
=0,111. Кроме того, несмотря на то,
что n(S|)=3, соответствующие ве-
роятности будут иметь смысл и для
п>3; например, /’(TV, U7, W, IV') =
= (1/3)*.
Если выбранный шар не возвра-
щается на место, вероятность P(Et,
£2, Вп) будет зависеть и от
n(Si) (илщ что то же самое, от Л'.),
а при n>n(Si) (т. е. при n>N,) бу-
дет равняться нулю [что вовсе не
значит, что мы не можем получить
нулевую вероятность при «<n(Si)J.
Действительно, для пространства
$,Р(Г. IV')=1/3-0=0, для' прост-
ранства S2 P(W, №) = 1 /3-1/5=
=1/15=0,067, для пространства
53Р(Г, Г) =1/3-2/29=9/87=0,103
и для S4 P(W, W) = 1/3-49/149 =
=49/447=0,109.
Интересно отметить, что если от-
ношение п к >V стремится к нулю,
то вероятность P(W, IV') быстро
приближается к 1/9=0,111, т. е.
к значению соответствующей ве-
роятности в задаче с независимыми,
испытаниями. Это обстоятельство
лежит в основе взаимосвязи между
биномиальным и гипергеометриче-
скими распределениями.
Сравнение биномиального распре-
деления с гипергеометрическим. При
л=2 биномиальное распределение
для Si=(W', В, В) в точности совпа-
дает с распределениями для S|=
={а, Ь, с} и Si={a, а', а'} В каж-
дом из этих случаев значения слу-
чайной переменной определяются
как число элементов, помеченных
буквой а и полученных в двух испы-
таниях с возвратом (см. табл. 5.2).
Точно так же можно получить и би-
номиальное распределение для мно-
жества .$2={№', П7 В, В, В}. Доста-
точно построить ветвящуюся диа-
грамму, подобную построенной на
рис. 5.6,а, переписать все возмож-
ные (их будет 36) исходы и сосчи-
тать, сколько элементов S*2 вклю-
чают 0, 1 и 2 белых шара. Соответ-
ствующие вероятности будут иметь
значения 16/36, 16/36 и 4/36, т. е.
4/9, 4/9 и 1/9. Они совпадают с ве-
роятностями биномиального распре-
деления, определенного на множест-
ве S( (табл. 5.2, п=2). Те же значе-
ния будут получены и для множест-
ва 5*3 и 5*4.	V
Все эти примеры говорят о том,
что вид биномиального распределе-
ния не зависит от числа элементов
в S (другими словами, от объема
генеральной совокупности Л'). По-
этому, если для двух пространств
элементарных событий значений л
и п одинаковы, соответствующие им
биномиальные распределения также
будут совпадать и не будут зависеть
от величины n(S) (или .V).
Рассмотрим теперь задачу о вы-
боре двух шаров из множества \=
={а, Ь, с} без возврата выбранного
шара на место. Множество возмож-
ных исходов изображено на
рис.5.6,6. На нем можно определить
также события, состоящие в том,
что число выбранных элементов, по-
меченных буквой а, равно (незавн-
89
Таблица 5.3. Гипергеометрическке распределения для я-=>1/3®/,> п = 2> JV. = 3.
2V. = 6, /У, = 30, Л\ = 150
я) = Ь, с} или £, = {<7, а', а'} или			
S. = {U7, В, В)		G) St^{W, В, В, В, В}	
х<	С-	Х1	Р(Х.)
0	2/6=0,333	» 0	12/30 = 0.400
1	4/6=0,667	]	16/30=0.533
2	 0 =0,0 I 1,000	2	2/30^0,067 ’ 1	1,000
в) £,= {10 раз «?', 20 раз В}
Xi	
0	380/870 = 0.437
1	400/870 = 0,460
2	90/870 = 0,103
	J	1.0С0
г) S4 = {50 раз IT, 1С0 раз В)
xi	Р [X.}
0	9900/22 350 =*0.443
1	10 000/22 350 = 0,445
2	2450/22350=0,100 1	1,000
симо от их порядка) некоторому
фиксированному числу. Обозначая
это число через Xi, построим новое
распределение (табл. 5.3,а), кото-
рое называется гипергеометриче-
ским. Точно такое же распределение
получится и для множеств Si={a,
а', а'} и S1=={^, В, В}.
В табл. 5.3 приведены и другие
гипергеометрические распределения
для л=1/3 и л=2, но при 7^2=6,
Л’з=30 и при Л\=150. Хорошо вид-
но, что с уменьшением отношения п
к N вероятности P(Xi) быстро при-
ближаются к соответствующим ве-
роятностям биномиального распре-
деления из табл. 5.2,а. Уменьшить
Отношение п к Лг можно, например,
увеличивая N (как мы и делаем
в рассматриваемом примере) и со-
храняя при этом величину п по-
стоянной или, наоборот, сохраняя
постоянным значение N и уменьшая
величину п. Разумеется, если значе-
ния п и N достаточно велики, пере-
бор всех возможных исходов с по-
мощью построения ветвящейся
диаграммы быстро становится непо-
сильной задачей. Именно поэтому
важно иметь в виду, что для пост-
роения биномиального распределе-
ния достаточно знать лишь значения
п и л, в то время как для построе-
90
ния гипергеометрического распреде-
ления требуется и значение IV.
5.2.3.	Совместные вероятности
С теоретической точки зрения,
важно уметь объяснить свойства би-
номиального и гипергеометрического
распределений в терминах совмест-
ных вероятностей. Тем не менее эти
понятия имеют смысл и во многих
других задачах, поэтому мы начнем
с рассмотрения некоторых общих
положений.
Понятие совместных вероятно-
стей используется в тех случаях,
когда при фиксированном простран-
стве элементарных событий и для
проведения конкретного эксперимен-
та нас интересует несколько харак-
теристик исхода. Приведем несколь-
ко примеров.
Пример 1. В группе 10 студентов:
а именно £={!/, Im» Im» II/» Пт> Пт»
III/. Шт, IV/, IVfn}» где римской цифрой
обозначен курс, на котором учится сту-
дент, а индексы ш и f обозначают пол —
соответственно мужской и женский. Опре-
делим случайные переменные X и У сле-
дующим образом: Х=0 для f, Х=1 для
ш, У=0 для I, У=1 для И» У=2 для III
и У=3 для IV. Таким образом, случайная
переменная X принимает значения от 0
до 1, а случайная переменная У —от 0
до 3-
Таблица 5Л. Таблицы совместных вероятностей
а)
X	Y				Р{Х = ж)
	0	1 ,	2 1	I 3	
0 1	0,1 0,2	0.1 0,2	о,1 0,1	0.1 0.1	0.4 0.6
Р(У=у)	0,3	0,3	0.2	0,2	1.0
б)
х>	Ха			= Xt)
	0 1	1	2	
0	0.09	0.06	0,15	0,30
1	0,06	0,04	0,10	0,20
2	0,15	0,10	0,25	0,50
Р (ХЕ = х2)	0.30	0,20	0,50	1,00

Х1						Р <Xt - ж*)
	0	1		2	
0	_3 2 _6 10' 9" 90	3 2	6 Ю’ 9=90	_3 5 15 Ю’“9”90	27 Л 90“0.30
1	_2 3 _6 10‘ 9=90	_2 1 _2 10* 9=90	2 5 10 10 9~90	18 ^=0,-20
2	5 3 15 10 *9—90	_5 2 10 Ю’ 9=90	5 4 20 Ю’ 9~90	45 90°°-ТО
Р (X, = X.)	27 уц=0,30	18 90~0,20	45 Л gg=0.50	1.00
Нас интересуют совместные вероятно-
сти зида Р(Х=х и У=г/), например веро-
ятность Р(Л=1 и У=0). Все варианты
возможных исходов перечислены в
табл. 3.4,а.
Одного взгляда на пространство эле-
ментарных событий S достаточно, чтобы
заметить, что Р(1ж)=2/10, так как из 10
студентов имеются равно два первокурс-
ника мужского пола. Поскольку в наших
обозначениях событие (Im) записывается
в виде (Х=1 и У=0), вероятность Р (Х=
«=1. У=0)=0,2. Именно это значение сто-
ит в клетке с21 табл. 54 а. Аналогично
P(IV/)=l/10=P(X=0, У=3).
Прпжр 2. Рассмотрим пространство
элементарных событий» состоящее из бе-
лых. красных и зеленых шаров: §={№,
W', Я. Я, 6, G, G, G, G). Определим
случайную переменную X, равную О, 1 и
2 для V, Я и G соответственное Тогда
Р( №)=Р(Х=0)=0,3. Выберем теперь два
шара (с возвратом) и обозначим результат
первого испытания через Хь а второго —
через Х2. Наша задача — вычислить веро-
ятность того, что (Xi«=x1 и	На-
пример. вероятность P(Xi=l) при первом
испытании равна Р(ХТ = 1) *=0,2, а веро-
ятность Р(Х2=0), соответствующая второ-
му испытанию, равна Р(Х2=0)=0,3. Отсю-
да Р(Х]=1,	Х2=-0)=Р(Х1=»1)Р(Х2=-О)-
=0.2(0,3) >=0,06- Именно это число стоит
в клетке c2i табл. 5.4,6.
Пример 3. Рассмотрим задачу из при-
мера 2» но будем считать, что после каж-
дого испытания выбранный шар не воз-
вращается на место. В этом случае
Р (Х! = 0. Х5-0)=Р (Х1«0)Р(Х2=0|Х1 =
«0)—3/10-2/9 6/90, что н стоит в клетке
с21 табл. 5.4,в. Подобным образом можно
получить (см. клетки c2i) Р(Х-И» Х2—0)™
=Р(Х1)Р(Х2=0|Х1«=1)=2/10-3/9=6/90.
Каждая часть табл. 5.4 содержит и
гак называемые маргинальные вероятности.
Так, в части а даны вероятности Р(/)==
=Р(Х=0)=0,4 и гР(П)=Р(У=1)-0А
в частях б и я— вероятности P(Xj=0) =
=Р(Х3=0)=Р(Б)=0,30. Тем не менее часть
б описывает независимые события, а часть
в — зависимые. Иначе можно сказать,
что случайные переменные Xi и Х2 неза-
висимы в части б и зависимы в в. Опре-
9!
Таблица 5.5. Табличное перечисление всех возможных исходов для
S~--{at bt с} и S-{6. 4, 8}. п^2
Независимые события
f
а) Все возможные исходы	б) Р (£, = е|(. Ег = г>г)
	а	ь	С				
					1	0	0
а	аа	db	ас	I	1 1 з* з	1 1 з”з	j 2 з‘ 3
Ъ	Ъа	bb	be	0	j 2 з' 3	j 2 Т з	2 2 з’з
с	са	cb	сс	0	2 2 з' 3	1 2 3* 3	2 2 3*3
в) Все возможные исходы	г) Средние значения исходов b
ь		4	СП - * Се »	6	5	7
6	6; 6	6; 4				
4	4; 6	4; 1	4: 8	5	4	6
8	8; 6	8; 4	8; 8	7	6	8
Зависимые события
д) Все возможные исходы	е) Р
	а	ь	С				
					1	° 1	)	0
а .	1	ab	ас	1	1 3°	2 2 3* 2	- |М - jrt
&	Ьа	—	Ьс	0	1 I 3’2	-3°	2 i 3‘ 2
с	са	cb		0	1 1 3’ 2	wl — K>i-	wl « л
Примечание. Чьста а н б содержат те же данные, что и рнс. 5-6.а и 6,
делить, являются лн случайные перемен-
ные в табл. 5.4,д зависимыми или незави-
симыми. можно, вычислив Р(Х=0) и
Р(У=1) н Р(Х=0, У=1). Поскольку Р(Х=
-О, У=1)^Р(Х=0)Р(У=1). эти случай-
ные переменные зависимы.
Набор чисел, образующих- каждую из
трех таблиц (без маргинальных вероятно-
стей), называется также двумерным ди-
скретным распределением вероятностей.
Каждое из них можно изобразить в виде
графика в трехмерном пространстве. Вы-
берем три координатные оси и обозначим
их для данных табл. 5.4,а буквами X, У
и /(X, У), а для данных табл. 5,4,6 —
Хь Х2 и f(X}., Х2). Если число рассматри-
ваемых характеристик больше 2, то соот-
ветствующее распределение называют мно-
гомерным распределением вероятностей.
92
Отметим, что здесь индексы 1 и 2 ис-
пользуются для обозначения случайных пе-
ременных № I м 2. С гем же успехом
можно использовать и обозначения Xt—X
и Х£=аУ. В то же время в случае одно-
мерного -распределения (напрнмер, для
величины А\ в табл. 5.3) мы обозначали
индексом i значения случайной переменной.
Во многих случаях, когда, например, Х=
—(0. 1. 2,..), индексы можно не исполь-
зовать. Однако если учитывать, что зна-
чения А биномиального распределения ча-
сто выражаются в процентах и -сравни-
ваются с данными экспериментов н наблю-
дений, использование индексов типа X» не-
сколько облегчает процедуру сравнения.
Рассмотрим снова набор экспе-
риментальных распределений. Вме-
сто ветвящейся диаграммы рис. 5.6,а
можно использовать данные
табл. 5.5,а. Точно так же табл. 5.5,6
дает те же значения, что и диаграм-
ма на рис. 5.6,6. Это важное обстоя
тельство; оно справедливо и в об-
щем.случае. А именно, всегда, когда
мы имеем дело с днхотомным прост-
ранством элементарных событий,
например с пространствами вида
S=(a, а', а'} или S={IV7, В, 5}, для
перебора всех возможных исходов
достаточно составить соответствую-
щую таблицу.
Биномиальное распределение
табл. 5.2,а можно получить двумя
способами — из табл. 5.5,а или б
В табл. 5 5,6 приведены значения
вероятностей Р(£1=е1,	Е2=е2).
Можно считать, что табл. 5.5,6 по-
строена по пространству элементар-
ных событий S={1, 0, 0}, где 1 озна-
чает наличие буквы а, а 0 — ее от-
сутствие.
Если учитывать, что эти испыта-
ния независимы, число, стоящее на
пересечении первой строки и перво-
го столбца Си, равно Р(Е(=1, Е2=
—1)=1 /3.1/3= 1 /9. Это есть ве-
роятность того, что при проведении
двух испытаний с возвратом мы оба
раза получим единицу. Число, стоя-
щее на пересечении второй строки и
первого столбца (c2i), равно P(Ei=
=0, Е2=1)—1 /3-1 /3=1 /9, так как
вероятность Р(0, 1)=Р(0)Р(1) =
=1/3-1/3=1/9. Аналогичным обра-
зом вычисляются и все остальные
вероятности.
Теперь мы можем по данным
табл. 5.5,6 получить биномиальное
распределение табл. 5.2,а. Вероят-
ность P(Xi=0) есть вероятность1
того, что ни в первом, ни во втором
испытании нам не попадется эле-
мент, помеченный буквой а. Соот-
ветствующие вероятности стоят
в клетках С22, с23, С32 и с33, откуда
£>(А|=0) =022+023-1-032+^33. Далее,
вероятность P(X2=1) в табл. 5.5,а
есть вероятность того, что при про-
’ Отметим, что в табл. 5.2,а мы име-
ем дело только с одной случайной пере-
менной, поэтому индекс « описывает ее
значение.
ведении двух испытаний нам по-
падется ровно одна буква а (при
этом неважно, на каком месте). Это-
му событию соответствует либо
клетка с12, либо C13, либо с2ь либо
Сзь откуда Р(Х2=1)=С12 + С1з+с2|+
4-Сзь Величина Р(Х$=2) может
быть получена лишь одним спосо-
бом, вероятность которого есть сц=
= 1/9. Другими словами, при й=2
биномиальное распределение име-
ет вид:
х.	
0	4- G? + СJ2 + Csa
1	“F с1а 4" С21 4“
2	гп
Тот же самый результат можно
получить и иначе, а именно: опре-
делим на 5={1, 0, 0} случайную пе-
ременную:
тг
0
I
Тогда таблица, аналогичная
табл. 5.5,6, будет выглядеть сле-
дующим образом:
		
	о	1
0	2 2 3‘ 3	2 J з‘ 3
i	1 2 з’ 3	! 1 3 3
Мы вновь получили двумерное рас-
пределение.
Стоящие й клетках табл. 5.5,6’
(или в последней таблице) вероят-
ности можно в некотором смысле
считать результатом умножения
двух одномерных распределений ве-
роятностей. В статистике понятие
умножения двух независимых слу-
чайных переменных имеет очень-
93
•большое значение и прежде всего
в тех многочисленных случаях, ког-
да (как и в нашем примере) для
описания непрерывного процесса
используются дискретные величины,
Гипергеометрическое распределе-
ние из табл.-5.3,а может быть полу-
чено подобным же методом из
табл. 5.5,д и е. Различие состоит
в том, что в этом случае испытания
не являются «повторными», посколь-
ку наше пространство элементарных
событий меняется после каждого
очередного испытания.
В табл. 5.6 приведены пример
•случайной переменной, которая
определена на недихотомном прост-
ранстве элементарных событий,
а также соответствующее распреде-
ление вероятностей Оно получено из
табл 5.5,в и а, н его можно интер-
претировать следующим образом.
Представим себе, что на трех одина-
ковых шарах вместо букв а, b и с
написаны цифры 6, 4 и 8. Они мо-
гут представлять собой массу, длину
Таблица 5.6. Распределение
выборочного среднего
Примечание Данные взяты из
тмбл. 5.5,г.
или какие-нибудь другие характе-
ристики, т. е. для нас существенна
•более подробная информация, а не
просто утверждения типа а и не а.
Выберем (с возвратом) два ка-
ких-нибудь шара. Все возможные
исходы этого эксперимента перечис-
лены в табл. 5.5,о. По этим данным
для каждой пары чисел можно вы-
числить их средние арифметические
(см. табл 5.5,г), дисперсии и другие
характеристики. Эти средние назы-
ваются выборочными средними,, а их
«4
распределения вероятностей — вели-
чины X и Р(Х) (см. табл. 5.6) —
называются выборочными распреде-
лениями или распределениями вы-
борочного среднего. Переменная
X является дискретной случайной
переменной. Вероятности Р(Х)
можно найти, сосчитав число клеток
табл. 5.5,г, содержащих одинаковые
числа. Например, соотношение f4=
=2 в табл. 5.6 означает, что величи-
на Х=7 встречается в табл 5.5,г
дважды. Распределение вероятно-
стей табл. 5.6 можно получить ина-
че, а именно, построив таблицу, ана-
логичную табл. 5.5,6, и затем про-
суммировав соответствующие совме-
стные вероятности.
Таблицами такого рода можно
пользоваться и в задачах с двумя
испытаниями (при л=2). При п>2
наглядно представить себе геоме-
трическую картину многомерного
распределения значительно сложнее,
и такие распределения приходится
рассматривать как чисто математи-
ческие конструкции.
Распределение выборочного сред-
него X нормально распределенной
генеральной совокупности также бу-
дет нормальным. Похожую ситуа-
цию мы рассматриваем, когда гово-
рим о множестве S={6, 4, 8} или
о дискретном распределении данных
о массе индеек (см. табл. 7.1). По-
скольку нормальное распределение
непрерывно, мГы, конечно, не можем
за конечное число шагов перебрать
все возможные исходы. Тем не ме-
нее в этой ситуации также можно
перемножать распределения, но уже
в виде функций плотности распре-
деления вероятностей (впрочем, эта
операция основывается на понятии
умножения дискретных пространств
элементарных событий). Именно
таким образом и доказывается, что
распределение выборочного средне-
го нормально распределенной гене-
ральной совокупности также будет
нормальным. На этом фундамен-
тальном факте основывается целый
ряд математических теорем о свой-
ствах выборочных распределений
(непрерывных и дискретных).
5.2.4.	Вывод биномиального
распределения
На примере биномиального рас-
пределения мы рассмотрим некото-
рый метод общего характера, кото-
рый применим и для получения дру-
гих выборочных распределений.
Пусть некоторая генеральная со-
вокупность содержит 1/3 белых и
2/3 черных шаров. Пусть /’($’’)==
=л=1/3 и P(IF')=P(5)=1—л=
=2/3, где V7—белый шар, а В —
черный. Можно считать, что вместо
черных шаров имеются шары раз-
личных цветов — главное, что нас
будет интересовать, какова доля
шаров белого цвета. Так что нам
безразлично, состоит ли генеральная
совокупность из белых и черных или
из белых и не белых шаров Однако
испытание состоит в выборе произ-
вольного шара (с возвратом), так
что вероятность выбрать белый шар
не зависит от номера испытания и
остается всегда одной и той же. Та-
кие испытания называются испыта-
ниями по схеме Бернулли (по имени
Якова Бернулли, 1654—1705 гг.).
Возьмем некоторую выборку
с л=3 и сосчитаем в ней белые ша-
ры. Нас интересует лишь число бе-
лых шаров, и нам несущественно,
когда этот шар появился — в пер-
вом, втором или третьем испытании.
Если л=3, то число белых шаров
может равняться 0, 1, 2 или 3 Обо-
значим эту случайную переменную
через Xi. Наша задача — найти
общую формулу для вычисления
P(Xi), которая в общем случае (для
произвольных лип) дала бы нам
возможность избавиться от необхо-
димости полностью перебирать все
возможные исходы, как это приходи-
лось делать в табл. 5.5 и на рис 5.6.
При л=3 перебрать все возмож-
ные комбинации (а не исходы),
в которых имеется Xi белых шаров,
не представляет большого труда.
Если Xj=O, то соответствующим со-
бытием будет E=(W', W', JF') =
= (В, В, В), откуда следует, что
подходит лишь одна комбинация
с вероятностью P(W', W', W') =
=Р(£) = (!— л)?=(2/3)3=8/27. Для
Х2=1 существуют три возможные
комбинации, а именно: E1=.(W, В,
В). Е2=(В, W, В) и Е3=(В, В, W),
которые имеют вероятности Р(Е1) =
= Р(Е2) = Р(Е3) = л(1-л)2 =
= 1/3-(2/3)2=4/27. Для Х3=
—2 возможны комбинации Е\-=
= (№, IF, В), Е2=(Г, В, IF) и £з=
= (В, W. W) и />(£•!)== Р(Е2) =
= Р(Е3) = л2(1—л) = (1 /3)22/3 =
=2/27, Наконец, для Х4=3 вновь
имеется лишь одна возможность:
F=(U7, W, W) и Р(Е)=л3=
= (1/3)3=1/27.
Поскольку мы определили вели-
чину X,- как число белых шаров не-
зависимо от порядка, то для значе-
ний Xi, соответствующих комбина-
ции нескольких событий, вероятно-
сти можно получить в виде P(Ej
или Е2, или Ея). Так, P(Xi=0) =
=Р(£) = (1-я.)3=8/27, но Р(Х2=
= l)=P(Ej или Е-2, или Ез) =
=л(1—л)2-?-л(1—л)2 + л(1—л)а'=
=3л(1—л)2=3(4/27)=12/27. Ана-
логично Р (Х8=2) = Зл2 (I —л) =
=3(2/27) =6/27 и Р(Х4=3)=л3=
= 1/27. Это и есть значения вероят-
ностей для биномиального распре-
деления с параметрами л=1 /3 и л=
=3 (табл. 5.2,6).
В общем случае вероятность лю-
бого события Е типа «за W следу-
ет В, за которым следует Р» можно1
получить по правилу умножения ве-
роятностей для повторных испыта-
ний. Вероятность какой-нибудь,
одной комбинации, в которой чис-
ло белых шаров Xi, согласно этому
правилу равна it '(1 —-т) Чтобы
получить полную вероятность (неза-
висимо от порядка), это выражение
следует умножить на общее число
комбинаций, соответствующих этому
значению Xt. Это число комбинаций
можно найти по хорошо известной
формуле С*‘ =л!/(л—X,)! XJ, где
л! читается «л-факторнал» и опре-
деляется по формуле л! = 1-2 ...
... п, причем считается, что 01=1.
Итак, при фиксированных лил ве-
роятности Р(Х,) могут быть вычис-
95.
.лены по формуле
Величине P(Xj=0) соответствует
только одна комбинация Е=(В, В,
В). Следовательно, в этом случае
должно получиться п!/(л—X()!Aj!=
=1, что и подтверждается вычис-
лением: 31 / (3—0) 10! = I -2 -3/1 - 2X
ХЗ-1=1,
так что
Р(Х,=0) =
Продолжение табл. 5.7
0,4, или 40%
в) л — 3	г) л = 5
Pi	xi	P(.vp	Pi	xi	P(Xf.)
0	0	0,216	0	0	0.078
33,3...	1	0,432	20	!	0,259
66,6...	2	0.288	40	2	0,346
100,0	3	0.064	60	3	0,230
			80	4	0,077
		1,000	100	5	0,010
					1.000
		я = 0,5, пли	50%		
	d) л — 3		е) л = 5		
Pi	xi	P (X p	Pi	xi	P(X-)
0	0	0.125	0	0	0.031
33.3...	1	0.375	20	1	0,156
66,6...	2	0.375	40	2	0.313
100,0	3	0.125	60	3	0.313
			80	4	0,156
		1,000	100	5	 0.031
					LOOP
Р (У  ох 3! / । Д* f 2 \ 6 _
Г1 » ' 2!П\3 7\.37 — 27’
В виде биномиального распреде-
ления случайная переменная А, с со-
ответствующими вероятностями при-
ведена в табл. 5.7,а. Это распреде-
ление совпадает с распределением
табл. 5.2,6 с той лишь разницей, что
включает новый набор средних то-
Таблица 5.7. Некоторые биномиальные
распределения
я = 1/3
о) п — 3	б) п — 5
* Pi		Р (Х-->	Pi	xi	P(Xr)
0	0	8 — 0,296	0	0	0,132
		!2	20	1	0,329
33,3..,	1	5= -г 0,445			
		£ г	60	3	0.165
66,6...	2	6 ^ = 0.222	80	4	0,041
100,0	3	27 ~ 0,0°7	100	5	0,004
					1,000
		1	1,000			
чек р>. В процессе отбора выборки
средние точки р< можно использо-
вать вместо А,- и наоборот. Напри-
мер, вероятность выбрать два белых
шара, т. е. 66,6... % выборки, при
условии, что п=3, а л=1/3, равна
6/27=0,222. Если взять 1000 таких
выборок, то в идеальном случае 222
из них должны содержать два бе-
лых шара (66,6 ... %).
По приведенной выше формуле
можно вычислить и приведенные
в табл. 5.7 вероятности для других
биномиальных распределений. До-
статочно знать значения параметров
п и л. (Параметром мы здесь назы-
ваем постоянную, значение которой
может равняться некоторому дейст-
вительному числу.)
Графики распределений из
табл. 5.7 построены на рис. 7.9.
Каждому из распределений на
рис. 7.9 соответствуют два масшта-
ба на горизонтальной оси: один из
них даст долю в процентах и одина-
ков для всех четырех распределе-
ний, другой выражен в единицах А',
и каждому распределению соответ-
ствует свой собственный масштаб.
На рис. 7.10 построен график бино-
миального распределения при л=
=0,4 и п=3200. Приведем некоторые
вероятности этого распределения:
Р(^,'=0) =
= (32001/3200! 0|) (0,4)* (0,6)"*’;
Р(ЛС„.= 1000) =
= (32001/2200! 1000!) (ОЛ)100* (0,6)”*°;
Р(Х„„=3200)=
=(32001/0! 32001)(0,4)”**(0,6)*
и т. д. Отметим, что вероятности
определены для всех значений X от
0 до 3200 на горизонтальной оси, но
0,997 площади под графиком сосре-
доточены на очень небольшом участ-
ке вокруг значения Xi28i=1280 на
осн X или, другими словами, около
значения Pi28i=40% на оси р.
Термин «биномиальное распре-
деление» происходит от слов «бино-
миальное разложение», с помощью
которого также можно вычислять
все эти вероятности. Рассмотрим,
например, выражения (а-Н>)п и
(b+а)3. Биномиальное разложение
последнего имеет вид &3+3/>2а +
+36а2-|-а3. Подставим л вместо а и
(1—л) вместо Ь; (0,6)3-{-3* (0,6)2Х
X (0,4)+3-(0,6)-(0,4)2 + (0,4)3=
= 0,216 + 0,432 + 0,288+ 0,064 = 1,000.
При этом последовательные члены
биномиального разложения совпа-
дают со значениями P(Xi) из
табл. 5.7,в. Чтобы получить бино-
миальное разложение (и соответст-
венно распределение) для я=0,6,
достаточно расписать выражение
(а-г-5)3 или, как легко видеть, пере-
вернуть столбец P(Xi) из табл. 5.7,б.
5.2.5.	Свойства биномиального
распределения
Форма графика. Биномиальное распре-
деление широко применяется в задачах,
связанных с отбором выборки, поэтому
важно знать три его свойства: форму его
графика, связь между средним значением
распределения Л1(Х<) и параметром гене-
ральной совокупности л, характеристики
вариации (дисперсию или среднее квадра-
тическое отклонение).
7-232
График биномиального распределения
симметричен при п=0,5 и скошен при
^fc0.5. При одном и том же значении п чем
больше л отличается от 0,5, тем сильнее
скошенность. Это хорошо иллюстрируют
данные табл. 5.7. С увеличением п график
биномиального распределения приближает-
ся к нормальной кривой. При этом биноми-
альное распределение с л—0,5 быстрее,
стремится к нормальному, чем распределе-
ние с л=#0,5. В задачах об отборе выборки
в случае, когда биномиальное распределе-
ние достаточно близко к нормальной кри-
вой, суммы частей биномиального распре-
деления можно аппроксимировать значе-
ниями площадей соответствующих участ-
ков под нормальной кривой. Хорошее при-
ближение достигается, когда пл>5, для
0,5 и, когда п(1—я)>5, для л>0.5.
Разумеется, условия /ш>5 и п(1—я) >5
выбраны в значительной мере произвольно;
в качестве критических можно брать и дру-
гие значения. Тот факт, что биномиальное
распределение так быстро сходится к нор-
мальному, избавляет нас от необходимости
составлять и использовать громоздкие таб-
лицы его значений.
Если значение л мало, то часто удоб-
нее пользовагься распределением вероятно-
стей Пуассона. В последнее время оно при-
меняется все чаще и чаще, особенно в за-
дачах об очередях. Свойства распределе-
ния Пуассона и его характеристики мы
рассмотрим ниже.
Среднее значение биномиального
распределения. Биномиальное рас-
пределение является распределени-
ем вероятностей. Поэтому его сред-
нее значение называется математи-
ческим ожиданием и обозначается
Л1(А5)- Поскольку это распределе-
ние дискретно, можно использовать
и обозначения Л4(Я»=Я и М(рг) =
(здесь хорошо видна связь с по-
нятием среднего и с выборкой). Ча-
ще, однако, используют обозначение
Л1(Х|)=Цж, особенно когда среднее
значение выражают в терминах мо-
ментов.
Среднее (или ожидаемое) значе-
ние биномиального распределения
равно М (Х<) =p«=nn, если средние
точки выражены в абсолютных зна-
чениях л<» и Л1(р<) = рр=л, если
средние точки выражены в значени-
ях р<. Среднее квадратическое от-
клонение равно Ox=V пл(1—л) и
Ор = Ул(100—л)М ИЛИ Gp^V л(1— * 97
—л) /п.
97
где индексы х и р вновь означают,
что значения на горизонтальной оси
измеряются в абсолютных величи-
нах и в процентах (или долях) соот-
ветственно. Очевидно, что примене-
ние к любому из биномиальных рас-
пределений табл 5.7 общих формул
для вычисления среднего и среднего
квадратического отклонения даст
тот же самый результат, а именно:
=^”iXl = от,
так как
х ~~ V w
=/sr, <p,-^r= У .
Для любознательного читателя
мы приведем доказательство этих
формул.
Воспользуемся определением ма-
тематического ожидания распреде-
ления частот: ц=2/Л/2/л Пере-
считаем частоты ft в f't (так что
площадь под нашим полигоном бу-
дет равна 2/<) и построим под гра-
фиком распределения узкие прямо-
угольники, подобные построенным
на рис. 3.2 и 3.3. Площадь каждого
из них равна Д<Л==Л4-=ДХЛ/, откуда
2А=Ляй52Л{. Подставим теперь Л^
вместо f, в формулу для ц:
и=2ЛгХ//2Лг.
Устремляя ДХ к нулю, перейдем
к непрерывно меняющейся величи-
не X. При этом знак суммирования
2 надо будет заменить на знак инте-
грала /, Д,-Л заменить на dA, а ве-
личину AXhi заменить на f(x)dx,
после чего математическое ожида-
ние оказывается равным
СО	оо
J XdA	J Xf(x.)dx
__ —00	—ср
со	00	•
[ dA	[ f(x)dx
Эту формулу уже нельзя применять
к опытным данным: она имеет
смысл лишь для непрерывных кри-
вых, являющихся графиками тех
или иных математических функций,
причем Л есть площадь под кривой,
a dA — первый дифференциал пло-
щади.
Если мы вычисляем математи-
ческое ожидание распределения ве-
роятностей, то соответствующие ча-
стоты будут вероятностями (в ди-
скретном случае соответствуют ча-
стостям) f"t, и будут выполняться
соотношения 2/"/=2Л1-=Л=1. Отпу-
ская в знаменателе единицу, полу-
чаем в случае дискретных данных
М(^,) = !А = 2ГЛ,.
для непрерывного распределения
М(Х) = ^= J XdA = ^ Xf(x)dx.
—СО	—00
Поскольку биномиальное распре-
деление является дискретным рас-
пределением вероятностей, его ма-
тематическое ожидание можно запи-
сать в виде
^(^=^=3 гл
/=1
где	Подставляя C^'V^X
_Y
X(l—it) 1 вместо f"/, получаем
A1(XZ) = ^ =
i=i
Заменяя для удобства л на р и
(1—я) на 9, имеем
л+1
SV ”1 пХ‘лП~Х{______________
t=l
_ V ______пх'оп~х! _
-Д (n-X^XiiP *	-
i=l
л+1
Ел!	х. *-Х(_
/=1
98
n+l
_____________nnx^an~xi
(п —X/)| (X/ —I)! ”” q
n
-ад V И-W nX~lan-Xl
/=1
(мы вынесли пр за скобку). Примем
т=п—1, тогда
М(Л.)^Р* =
m F1
= ПР S (т - (Х£-”!))! (X, -!)! X
ЛГ—1 m-(X.-I)
ХР q
Наконец, обозначая X,— 1 через
Zif получаем
М(Х{) = ^ =
m+1
Smi	«. гп—«.
*=!
— пр = ПК,
так как
ni + 1
____________
(m-z,)U(! р q
t»l
как полная сумма вероятностей би-
номиального распределения
Это и завершает доказательство
формулы ЛТ(Х,-)=Цх==лл для бино-
миального распределения. Осталось
отметить, что ц/п=цр=л, посколь-
ку Xi}n=pi.
Среднее квадратическое отклоне-
ние биномиального распределения.
Формулу а = Уnpq для	среднего
квадратического отклонения бино-
миального распределения можно вы- ,
вести точно так же. Начнем с опре-
деления дисперсии дискретной слу-
чайной величины Xi
получим
Л = 2ГЛ\-(2Г'Л,)«.
Как мы только что показали,
WiX^p.^
п + 1	*11
л! х, п-Х{
*(л — X,)tX£! q =
Lf=l
= (пр)\
откуда
п + 1
Л = J] x*t (n-JaiXiiр lq 1~
/»1
- (пр)*.
Записывая Х\ в виде ХДХ<—1) +
+Х/, имеем
п+1
’’-=$] (Х,(Х,-1) +
f=l
{пр}* =
S-1 п{Х£(Х, —I) X. л-х,-
(n^-XJlX,! Р q '
i=\
п+1
+ S Xi Р lq
i=l
Поскольку в правой части второе
слагаемое равно р,х=пр, а первое
обращается в нуль для Xi = O и для
Хз=1 получаем, что
л+ 1
= S (л-хлцх.-г)! Р iq 1 +
i=3
-i-np— (пр)*.
Чтобы упростить первое слагаемое,
вынесем п(п—1)р2 за скобку:
а\ = п(п~ Ьр’Х
Как было показано в гл. 4, эту фор-
мулу можно переписать в следую-
щем виде:
(n-2)t	/,-2
(л-Л/)1 (Xf-2)! Р 4

-^пр — (пр)*.
Если перейти от частот f,- к часто-
стям f для которых 2f"=l, то
Полагая в этом выражении /и==
=п—2, имеем
99
o'*==n(re —1)р*Х
/лi
V V	V
X JJj (ffi—(zYj — 2))!(X, — 2)1 *
1=1
X -2 m—{X-—2} ,	.
XP Q +np-(np)a.
Снова примем zi=Xi—2, откуда
;Л = П(« — !)P*X
m+1
x yU-zU-i
1=1
Поскольку
m-H
Swl nV~*i = 1
(m—z,)|z;!
»±=1
o\ = n [n — 1) p9 + ПР — {nP? =
= (пр? — прг + np — (npy=
= np — np* = np(\ — p) = ripq
и	___
ax=Vnpq.
Выраженное в долях среднее квад-
ратическое отклонение принимает
вид:	__
о/п = ЯР=Vnpq/n = V^q(n.
Вновь заменяя р на я, получаем
ах =	— я).
так что
вр=У«(1 — «)/».
или (в процентах)
ср =	(1(Х) — «)/п.
Этот способ доказательства весь-
ма поучителен, но он не является
единственным. Те же самые резуль-
таты можно получить и с помощью
производящих функций моментов.
Этот способ несколько проще, и он
применим в более общих ситуациях
(например, для нахождения сред-
них, дисперсии и прочих моментов
различных выборочных распреде-
лений).
5.2.6.	Гипергеометрическое
распределение
Выше было показано, как можно
получить гипергеометрическое рас-
пределение опытным путем. Некото-
100
рые простые примеры приведены
в табл. 5.3. Все содержащиеся в ней
вероятности можно получить и по
следующей формуле:
pm=f(x,)=c^r>/cj.
где X — число элементов простран-
ства элементарных событий или ге-
неральной совокупности; р (мы сно-
ва пользуемся этим обозначением
вместо буквы л) — доля положи-
тельных исходов в пространстве эле-
ментарных событий (в генеральной
совокупности); q=l—р\ п—число
зависимых испытаний (объем вы-
борки). Мы предполагаем также,
что число X конечно, а выбранные
элементы на место не возвраща-
ются.
Как мы видим, гипергеометриче-
ское распределение зависит от трех
параметров, которыми являются
числа р (или л), п и N. Напомним,
что биномиальное распределение
определяется только двумя параме-
трами— п и р (или л).
Вооружившись указанной выше
формулой, вычислим вероятности
гипергеометрического распределения
из табл 5.3 Чтобы найти, например,
вероятности табл. 5.3,а, подставим
в нее 77=3 (число шаров в Si), п=
=2 и р=л=1 /3, тогда
сГ'/с?=
“3 т8
— С1 и2 I (3 — 2)12!’"Н с2. №•
Для Х,=0
Р(Х1 = 0) = С\С95/3=1/3;
для Хг = 1
p(z,= i)=cp^-'/3.=2/3
и для Хз=2
Р (X, — 2) = С2 С2~2/3 =0 С° /3 s= 0.
Чтобы получить вероятности, со-
ответствующие распределению- из
табл. 5.3,6, подставим в нашу фор-
мулу р=л=1/3 п=2 и N—6. Тогда
Для Xj=O
715=1-6/15 =
. =0.4;
। для = 1
Р(Ха^1)=С\С\!\5=^
= 2-4/15=0,533
и для %з=2
Р (X, = 2)=С’,С\/15 = 1-1/15=
=0,067,
й
Формулы для математического
ожидания и для среднего квадрати-
ческого отклонения (т. е. для wo-
ментов) гипергеометрического рас-
пределения можно вывести так Же,
как соответствующие формулы для
биномиального распределения. Ока-
зывается, как и в случае биномиаль-
ного распределения, Л4(Х<)=цх=
' =пп. Это означает, что математиче-
ское ожидание гипергеометрическо-
го распределения не зависит от
объема генеральной совокупности.
В то же время его среднее квадра-
тическое отклонение зависит от N
(см. табл. 5.3 и др.). Соответствую-
щая формула, как мы уже знаем,
имеет вид:
аж = )'ГЛ'к(1 — n)(N — n)l(N— 1) =
=У л* (1 - ж) У (ЛГ - n)/(N - 1).
Это выражение совпадает со сред-
ним квадратическим отклонением
для биномиального распределения
с точностью до конечного множите- .
ля FM. В приложениях величину
FM =У (N — n)[(N — 1) часто заме-
няют более простым выражением —
FM =У 1 — (n/N). В такой форме
особенно наглядно видна зависи-
мость между отношением п к N н
абсолютным значением среднего
квадратического отклонения.
Чтобы проверить, как согласуют-
ся эти формулы с нашими опытны-
ми данными, вычислим ожидаемые
значения гипергеометрических рас-
пределений из табл. 5.3. Имеем
4/6 = 20/30 = 580/870 =
= 14 900/22 350 = ^ = 2 -1 /3 = 2/3.
То же значение даст и обычное оп-
ределение математического ожида-
дания:
p=sr\xz/sn=sr\-A>
поскольку S//'=1.
Соответствующая данным табл.
5,3,6 дисперсия равна
о%=ЛВ(1 —	=
С
7
-
I
£
Г
=2 • I /3  2/3. (6 - 2)15= 16/45.
Тот же результат дает и вычисле-
ние по формуле
Л = 2/'\.(Х,.-р,)*/2П =
= 2Г/(Х,-^)1.
В гл. 7 мы рассмотрим еще несколь-
ко подобных примеров и сравним
результаты расчетов по вышеприве-
денным формулам с опытными дан-
ными.
I
Л
4
i
9
С
V
/
I
5
1
г*
S
»
>
5.3.	РАСПРЕДЕЛЕНИЕ ПУАССОНА
Еще одним важным примером
дискретного распределения вероят-
ностей является распределение Пу-
ассона. Оно им^ет вид:
P(X/)=f(Ari) = e-WXI-!; Л( =
=0,1.2...
i
1
г
(где Х1=0,' X2=l, Xs=2 ...). Рас-
пределение Пуассона определяется
с помощью условий, похожих на те,
с которыми мы сталкивались при
описании биномиального распреде-
ления. А именно, рассматриваются
испытания, каждое из которых мо-
жет иметь лишь два исхода («ус-
пех» и «неудача»). Исходы не зави-
сят друг от друга, и вероятность
успешного исхода остается постоян-
ной в течение всего эксперимента
(как и повторные испытания по
схеме Бернулли, которые приводят
к биномиальному распределению).
Различие состоит в том, что в
пуассоновском процессе число ис-
пытаний п не является фиксиро-
ванным, и тем самым размер вы-
101
1
г
N
I
п
А
3
I
*
I
4
й
1
*
*
е
Е
борки бесконечен. При выводе это-
го распределения п по существу
устремляется к бесконечности, а
р— к нулю, но при этом величина
пр=ц должна оставаться постоян-
ной.
Последнее обстоятельство, а
именно, что величину ц можно рас-
сматривать как произведение пр,
дает возможность установить связь
распределения Пуассона с биноми-
альным, несмотря на то, что п не
является параметром первого из
них. При фиксированном значении
ц, например при р—0,6, биномиаль-
ное распределение с достаточно
большим п и малым р (пр=0,6)
дает очень хорошее приближение к
распределению Пуассона с пара-
метром р=0,6. Вообще при фикси-
рованном значении пр=р, чем боль-
ше п и чем меньше р, тем лучше
распределение Пуассона аппрокси-
мируется биномиальным.
Мы очень рекомендуем читате-
лю выписать из табл. VI (см при-
ложение) значения распределения
Пуассона с параметром р,—1, а из
табл. П — значения двух биноми-
альных распределений — сначала с
параметрами р—0,1 и л=10, а за-
тем с параметрами р=0,05 и п =
= 20. Заметим, что в обоих случаях 
(0,1) • 10= (0,05) 20=1 =ц. При
этом график второго биномиально-
го распределения ближе к графику
распределения Пуассона, чем гра-
фик первого.
Отсюда следуют важные выводы
для приложений. Любое биноми-
альное распределение с малым р и
большим п можно заменить рас-
пределением Пуассона. Это очень
удобно с точки зрения вычислитель-
ной практики, поскольку воспользо-
ваться распределением Пуассона
намного проще, чем вычислять зна-
чения вероятностей биномиального
распределения.
Рассмотрим биномиальное рас-
пределение с параметрами р=0,005
и п=400. Поскольку пр=2<5,
нам не удастся аппроксимировать
его с помощью нормального распре-
деления. Вычислять, его значения с
102
помощью биномиального разложе-
ния (0,005+0,995)400 — также очень
громоздкое и длительное занятие.
В то же время значения распреде-
ления Пуассона с параметром р=
-=(0,005)-400=2 можно легко най-
ти в любой книге, содержащей ста-
тистические таблицы.
Математическое ожидание рас-
пределения Пуассона равно
Л1(х,)=ц, а биномиального распре-
деления М(х()=пр, так что оба
ожидаемых значения совпадают.
Дисперсия распределения Пуассона
равна р.. Очевидно, что и дисперсия
биномиального распределения, т. е.
величина c2=npq, стремится к ц,
когда п растет, а р уменьшается.
Отметим, что в аналогичных обстоя-
тельствах распределение Пуассона
можно использовать и вместо гипер-
геометрического распределения, ес-
ли N значительно больше л1.
Тот факт, что распределение Пу-
ассона довольно часто заменяют би-
номиальное и гипергеометрическое
распределения, далеко не исчерпы-
вает всех возможностей его исполь-
зования в практических задачах.
Основная область его применения
несколько иная. Наиболее полезным
оно оказывается в тех задачах, где
требуется определить лишь число
положительных исходов («успе-
хов»). Подобная ситуация возника-
ет довольно часто — например, если
мы хотим определить число повреж-
дений в изоляции электропроводки,
число слабых звеньев в различного
рода цепях, число слабых мест
струны, нити, проволоки и т. п Ес-
ли считать, что по дороге движется
«бесконечное» чцело автомашин, то
в качестве, условно говоря, «ус-
пешных» исходов (в действительно-
сти «повреждений») можно рас-
сматривать число машин, стоящих
в очереди перед пунктом «Автосер-
вис» (это пример задачи об очере-
дях из исследования операций).
Другой пример дают телефонная
сеть и набор расстояний между або-
1 Имеются в виду параметры гипер-
геометрического распределения. — Прим,
ред.
нентами, которые в некоторый мо-
мент разговаривают друг с другом,
или число абонентов, получивших
при вызове сигнал «занято». Это
примеры «неполадок» на «линии».
Задачи такого рода могут быть и
двумерными: рассмотрим, напри-
мер, куски ткани или металлические
листы и число дефектов на каждом
из них. Распределение Пуассона
используется и в трехмерных за-
дачах— например, когда нас инте-
ресует число бактерий или тех или
иных частиц в жидкости или число
дефектов в некотором объемном
предмете.
Во всех подобных случаях мож-
.но сосчитать число исходов одного
фиксированного типа (условно го-
воря, «успешных» исходов), тогда
как число «неудачных» исходов оп-
ределить нельзя.
Задачи такого рода можно ре-
шать путем взятия выборок по схе-
ме Бернулли. Для этого разобьем
область изменения длин, площадей
или объемов иа небольшие участки.
Добьемся того, чтобы на каждом
участке было не более одного де-
фекта. Тем самым мы получим не-
которую генеральную совокупность,
из которой уже можно взять слу-
чайную выборку. Перебор ее эле-
ментов будет последовательностью
независимых испытаний с двумя
возможными исходами («успех»
или «неудача») для каждого. Сле-
довательно, полученное выборочное
распределение будет биномиаль-
ным.
Возьмем, например, кусок про-
волоки и разрежем его на доста-
точно небольшие части (так, чтобы
каждая содержала не более одного
дефекта). Обозначим число полу-
ченных сегментов через /ц. Сосчи-
таем число сегментов, имеющих де-
фекты, н разделим его на общее
число сегментов: NS/n\=p\. Этому
числу можно придать вполне опре-
деленный смысл с точки зрения не-
которого биномиального распреде-
ления. Чтобы получить это распре-
деление, нам понадобится уже не
один, а много, например 200, кус-
ков проволоки, каждый из которых
разрезан на сегментов (объем
выборки). Запишем теперь на ли-
сте бумаги друг под другом числа
Х<=(0, 1, 2, ...). Они будут сред-
ними точками нашего распределе-
ния частот и будут представлять
собой возможное число дефектных
сегментов из общего числа П\, на
которое разрезан каждый из 200
кусков проволоки. Начнем теперь
подсчитывать частоты нашего рас-
пределения. Возьмем первый кусок
проволоки. Может оказаться, что
из П] его сегментов только один
имеет дефект (Х2=1), Поставим
в нашей таблице рядом со
значением Х2^1 одну черточку.
Если среди частей, на которые
разрезан второй кусок проволоки,
окажется три дефектных, мы поста-
вим следующую черточку у значе-
ния Х4=3. Третий кусок, возмож-
но, вообще окажется без дефектов.
Это значит, что черточка появится
у значения Xi=0 Обработав таким
образом все 200 кусков проволоки,
пересчитаем черточки у каждого из
значений Эти числа и будут
частотами fi нашего эксперимен-
тального выборочного распределе-
ления. Наконец, по формуле f"=
=fi!20G переведем абсолютные ча-
стоты числа в частости, после чего
их уже можно сравнивать с подхо-
дящим биномиальным распределе-
нием.
Предположим теперь, что каж-
дый из 200 кусков проволоки разре-
зан не на а на большее число
(обозначим его л2 сегментов). При
этом л2>П1 и p2<Zpi, но произведе-
ния Pirtj и р2п2 равны друг другу.
Таким образом, разрезая каждый
из 200 кусков проволоки на все бо-
лее мелкие сегменты, мы добьемся
того, что п (число сегментов, на ко-
торое разрезан каждый из кускоз)
будет стремиться к бесконечности,
ар — к нулю. Это значит, что в
пределе наш эксперимент приводит
к распределению Пуассона. Но са-
мое интересное то, что процедура
разрезания каждого из 200 кусков
проволоки на маленькие сегменты
103
оказалась в конечном счете излиш-
ней. В самом деле, достаточно про-
сто пересчитать число дефектов
каждого куска проволоки, и мы не-
медленно получим нужное распре-
деление частот:
	h	r't
0	ft	
1	f	ftf
1	It	I 2
2	h	f".
й»	•	•
•		*
Здесь /<— число кусков проволоки,
каждый из которых имеет ровно
дефектов. Величины /, можно те-
перь пересчитать в частности f"—
—/</200 После вычисления средне-
го значения это распределение мож-
но сравнить с некоторым пуассонов-
ским распределением. При этом мы
будет сравнивать опытное распре-
деление с теоретическим.
Еще раз подчеркнем, что разни-
ца между этим методом и преды-
дущим состоит в том, что в послед-
нем случае нет необходимости раз-
резать проволоку на отдельные
сегменты. В качестве оценки пара-
метра г. процесса Пуассона можно
взять величину X и считать, что п
стремится к бесконечности, ар —
к нулю.
Какой размер должны иметь
куски проволоки? С одной стороны,
они не должны быть слишком ко-
роткими, иначе на каждом из них
будет не более одного дефекта. С
другой стороны, они могут оказать-
ся столь длинными, что не будет ни
одного, на котором дефектов не бы-
ло бы вообще. Иногда длина куска
(или площадь, или объем, или вре-
мя) определяется не зависящими от
нас факторами — такими, как усло-
вия производства, технология про-
цесса и т. п. Так, в текстильном
производстве обычно изготовляют-
ся полосы тканей, длины которых
практически бесконечны. Однако на
следующей стадии эти полосы раз-
резаются на некоторый стандартные
куски. Сосуды с жидкостями, кото-
104
рые подлежат анализу на количест-
во содержащихся в них бактерий и-
других частиц, также имеют стан-
дартные размеры и т. д.
В задаче о длине очереди (напри-
мер, автомобилей перед бензоко-
лонкой) мы сами можем выбрать
отрезок времени (аналог куска про-
волоки), для которого нас интере-
сует число автомобилей, стоявших
перед бензоколонкой. Если мы хо-
тим при этом найти вероятности ти-
па P(Xi=0), то промежуток време-
ни следует выбрать достаточно ко-
ротким.
Читателю, по-видимому, будет
полезно еще раз вернуться к этому
разделу после изучения материала,
гл. 7.
5.4.	НОРМАЛЬНОЕ
РАСПРЕДЕЛЕНИЕ
Нормальное распределение зада-
ется математической функцией ви-
да
f (х)=(Ь/о/Й	.
Она называется функцией плотно-
сти нормального распределения ве-
роятностей, и площадь под ее гра-
фиком равна единице. Функция эта
самая важная в статистике: она
постоянно используется при анали-
зе опытных данных и решении за-
дач, связанных с отбором выборки.
График плотности нормального
распределения имеет хвосты беско-
нечной длины, чего не бывает в слу-
чае опытных данных. Поэтому ут-
верждения типа «полученные дан-
ные наблюдений нормально распре-
делены» обычно относятся к вели-
чинам, не выходящим за пределы
ц±3о.
Нормальные распределения встре-
чаются в статистике чрезвычайно
часто. Практически всегда, когда
значения данных наблюдений опре-
деляются случайным образом (т. е.
большим числом мелких обстоя-
тельств, которые не поддаются точ-
ному анализу), любой специалист
по статистике прежде всего выска-
жет гипотезу, что они имеют нор-
мальное распределение. В частно-
сти, всевозможные измерения (дли-
ны, диаметра, массы, напряжения,
плотности, объема и т. д.), с кото-
рыми приходится иметь дело в про-
мышленном производстве, имеют
распределения, близкие к нормаль-
ному. В природе громадное число
характеристик также распределено
по законам, близким к нормально-
му. К этим характеристикам отно-
сятся способности человека (опре-
деляемые, например, по результа-
тами тех или иных экзаменов), раз-
мер и масса живых существ и-мно-
гое другое.
Однако данные, с которыми при-
ходится иметь дело в экономике,
например ставки заработной платы,
цены, товарооборот, уже значитель-
но реже подчиняются законам нор-
мального распределения.
В задачах, связанных с отбором
выборки, нормальная кривая при
определенных условиях описывает
распределение выборочных средних
и является предельным случаем би-
номиального распределения, гипер-
геометричсского распределения,
распределения Стьюдента (f-pac-
пределения). Сказанного уже, по-
видимому, достаточно, чтобы по-
нять, насколько важно подробно
познакомиться с функцией нормаль-
ной плотности и с методами ее ис-
пользования для анализа данных
наблюдений и выборочных исследо-
ваний.
1
5.4.1Подгонка нормальной кривой
к опытным данным
В самом общем виде функция
плотности нормального распределе-
ния имеет вид:
f(x)=(A/c) (l//2^)e-uL*W2”_ (5.1)
Упростим это выражение, введя
новую переменную z—(x—р)/о.
Тогда показатель степени уравне-
ния (5.1) превращается в — za/2 и
все соотношение приобретает вид:
f (з)=(Л/ч) 1//2^) е-*'2.	(5.2)
При Д = 1 имеем
f(z) = (l/a)(l//^-^2.	(5.3)
Площадь под графиком этой
функции равна единице, вследствие
чего она действительно может счи-
таться плотностью распределения
вероятностей. Заметим, что уравне-
ние (5.3) получено путем умноже-
ния равенства (5.2) на 1/А, т. е.
тем же способом, с помощью кото-
рого мы ранее привели к единице
площадь под отрезком прямой.
Наконец, если <т=1, мы получа-
ем так называемую стандартную
функцию нормальной плотности ве-
роятностей
f(z)=(l//S)e—'2-	(5.4)
Значения этой функции в довольно
большом числе точек приведены в
табл. III (см. приложение). Они по-
лучены подстановкой соответствую-
щих значений в уравнение (5.4) и
проведением, необходимых опера-
ций. (Числа лиг есть известные
константы.) Точно так же мы вы-
числяли и значения линейной функ-
ции, например функции /(х)=24-
4-0,8х. Помимо функции плотности,
принято табулировать и значения
соответствующей кумулятивной
функции распределения F(z) вида
«меньше, чем» Эти значения приве-
дены в табл. IV (см. приложение).
Таким же образом мы строили и
функцию распределения F{x) в слу-
чае прямой.
Из уравнения (5.1) видно, что
функция плотности зависит только
от у, и о, так как е=2,71828... и
/й? =2,50663... суть известные
константы, а от величины А не за-
висит ни форма кривой, ни ее поло-
жение на горизонтальной оси.
Далее, график нормальной плот-
ности симметричен относительно у,
так как из уравнения (5.2) сразу
видно, что / (г) =f (—г).
При любом —оо<г<оо значе-
ние f(z) положительно, так что гра-
фик нормальной плотности 4 лежит
в верхней полуплоскости. Хвосты
его уходят в бесконечность и асимп-
105
тотйчески приближаются к оси абс-
цисс, т. е., как принято говорить,
ось х является асимптотой для нор-
мальной кривой.
Если в выражении (5.1) менять
значения параметра ]л, то график
будет перемещаться параллельно
самому себе вдоль оси х. Если фик-
сировать ц, то с увеличением о кри-
вая будет становиться все более
плоской, а с уменьшением а все бо-
лее пикообразной.
Рассмотрим теперь стандартную
функцию плотности нормального
распределения. Ее график уже
нельзя построить по двум точкам,
как это было в случае отрезка пря-
мой, и нам придется подставить в
уравнение (5.4) ряд значений аргу-
мента. Например, удобно выбрать
значения 2=(—3; —2,5; —2,0; ...
.... 2,5; 3,0). Может возникнуть во-
прос: а почему бы не взять значения
2= (5,0; 5,5; ...; 15,0)? Ответ очень
простой. Величина г имеет вид
(х-*-р)/а, и с точки.зрения зависи-
мости от г функция плотности сим-
метрична относительно оси р=0.
Читатель может самостоятельно
вычислить одно-два значения f(z),
пользуясь приведенными выше зна-
чениями и е. Однако проще
воспользоваться значениями, приве-
денными в табл. III (см. приложе-
ние). Например, f[— 3)=/(3) =
= 0,0044; f(-2,5) =f(2,5) =0,0175;
f(0) = 0,3989 и т. д. Из’ уравнения
(5.4) имеем
f(0) = (l//2^)e-₽,2 =
= (1/2,50663) • 1 =0,3989,
что совпадает со значением /(0),
взятым из табл. III. Построим та-
Рнс. 5.7. Стандартное нормальное распре
деление
105
ким образом несколько точек, со-
единим их с помощью лекала,
(рис. 5.7). Полученная кривая и
будет графиком стандартной плот-
ности нормального распределения с
параметрами ц=0 и а=1, причем
по горизонтальной оси откладыва-
ются значения г.
Посмотрим теперь, как выглядит
график нормальной плотности с па-
раметрами, отличающимися от 0
и 1. Возьмем для этого приведен-
ные в табл. 4.7 значения почасовых
ставок заработной платы 303 про-
мышленных рабочих. Этим данным
соответствуют значения р=2,85 и
а= 0,1911. Обычно наша задача со-
стоит в том, чтобы установить, ло-
жатся ли опытные данные на «хо-
рошую» кривую, являющуюся гра-
фиком той или иной известной ма-
тематической функции. Если это
так, обработка данных существенно
упрощается. В том случае, когда
наш процесс дает значения, распре-
деленные, например, по нормально-
му заколу, то его легче сравнивать
с другими процессами такого же
типа. Кроме того, нетрудно вычис-
лить площади под кривой, так как
соответствующие значения имеются
в таблицах.
Попробуем теперь построить нор-
мальную кривую с- параметрами
р=2,85 и о=0,1911. Выберем опять
несколько точек на оси абсцисс,
причем сделаем это так, чтобы по
ним можно было проследить ход
всей кривой. Ясно, что эти точки
следует взять симметрично относи-
тельно значения ц=2,85. Обычно
в качестве самой правой точки бе-
рут значение X=p-J-3a=2,85+
4-0,5733=3,42, а в качестве самой
левой —Х=|л—За=2,85—0,5733=
=2,28. Выбор значения За обус-
ловлен тем, что большая часть
(0,997) площади под нормальной
кривой заключена между значения-
ми —3<z<3 (это видно на
рис. 5.7). Учитывая определение
переменной z= (х—ц)/а, можно
считать, что z=3 соответствует точ-
ке на оси х, отстоящей от точки
р на За.
Обозначим выбранные нами зна-
чения буквой X/, а именно: Х/—
=р—За=2,28; Х/=р—2а=2,37 и
т. д. Полный набор точек X' приве-
ден в 3-м столбце табл, 5.8. -При
этом их число вовсе не обязательно
совпадает с числом средних точек
Xi нашего набора данных. Более
того, в большинстве случаев удобно
выбирать точки X/ и X'i+1 так, что-
бы они отстояли друг от друга на
расстояние 1/2о. В общей сложно-
сти мы получим 13 точек.
Таблица 5.8. Подгонка нормальной
кривой к данным о почасовых ставках
заработной платы 303 промышленных
рабочих
i	1	2 h	9 X'i	4 Zl	5 f <Z.)	6 n? i.	7 f'i	s J" I
2.496	10	2,23	—3.0	0,0044	0.7	0.0330	0.002
2.595	25	2,37	-2,5	0,0175	2.6	0.0625	0.009
2,696	57	2.47	—2.0	0.0540	6.6	0.1681	0.028
2.795	74	2.57	—1.5	0.1296	20,5	0.2443	0,068
2.895	58	2.66	-1.0	0.2420	38,4	0.1914	0,127
2,995	34	2.76	—0,5	0.3521	55,8	0.1E22	0.184
3.096	17	2.85	0	0,3969	63.2	0.0561	0.209
3.195	14	2.95	0.Б	0.352]	55.8	0,0462	0.184
3.295	11	3.04	1,0	0,2423	38,4	0.0363	9.127
3.395	3	3.14	1.5	0,1296	20,5	0.0099	0 068
	303	3,24	2,0	0,0450	8.6	1ДХЮ0	0 028
		3,33	2.5	0.0175	2.8		0.009
1		3.43	3.0	0,0044	0*7		0,002
Прямечжвия; 1. Данные столбцов J н 2 взяты из
табл- 4-7, оста.7ьныс значения вычислю ы с учетом сле-
дующих значений: с=0.19П (см, табл. 4?Ч ц=2^В5
<см. табл. 3.2К	4=€£//=(0.1)-303=30.3-. Л/з=
=30.3/0.1911=158.56; Х"=сЕ/.=(0,1)-1=0.]; Л"/с>=
=0, I/O .1911=0.5233.
2. Столбцы: Arj- средние точки распредглекняча-
стог данных о почасовых ставках зараСотноЙ платы;
f соответствующие данным столбца I частоты;
[например, Х'в=2.85-Н—2.5)-0,1911=2.37];
Z^=(Ar'ц)/э [например, Zi=(2.37—235) /0.1911=
= —2.5]; взяты из табл. HI (ем. приложение);
^=(Л/в)/ (2^=158,56 f вероятности из нереаль-
ного распределения:	частости, вычисленные из
частот, соответствующих столбцу /;nf"j=|d"/ar>/(Zp=
=0,5233 f(Zp— вероятности нз нормального распределе-
ния, соответствующие
Подставим эти значения X/ в
уравнение (5.1) и вычислим соот-
ветствующие значения функции.
Проще всего, конечно, воспользо-
ваться готовыми значениями f(z)
из табл. III (см. приложение). А
именно, запишем друг под другом
значения Z<=—3; —2,5; ..2,5; 3).
Далее запишем рядом с математи-
ческим ожиданием стандартного
нормального распределения ц—
=Х/=2,85 величину p = Z7=0.
Вычислим все остальные значения 1
X/, последовательно вычитая (или
прибавляя) величину 1/2а=0,1911/2
из р=Х/=2,85. Затем справа от	i
столбца Zi перепишем значения
f(z) из табл. III (см. приложение).	?
Получим столбец 5 табл. 5.8. Ум-	I
ножим, наконец, значения [(Z,) из	?
столбца 5 на A/а, что и даст нам
требуемое нормальное распределе-
ние частот (см. столбец 6). Эти ча-
стоты уже можно сравнивать с рас- •
пределением частот опытных дан-
ных. Необходимость последнего ша-
га станет совсем очевидной, если
сравнить стандартную функцию нор-
мальной плотности [уравнение
(5.4)] с уравнением (5.2). Таким
образом, в столбце 6 приведены
нормальные частоты, вычисленные
по формуле
Z = (A/a)f(z).	’	?
Осталось вычислить величину А.
Разумнее и проще всего сделать
это следующим образом:
A = 2c(-h.
Если все интервалы группировок
одинаковы, то A=Scf{—(с
уже не нуждается в индексе). а при
с=1. А =2/,-. Первая из этих фор-
мул является самой общей: она
справедлива для всех распределе-
ний частот, а именно, для распреде-
лений, описываемых величинами
/й /< 1 fi , С, Ci И С 1.
Для рассматриваемых почасовых
ставок зарплаты А=с£/1=о,1Х
Х303=30,3, а А/а=30,3/0,1911 =
= 158,56. Тогда частоты соответст-
вующего нормального распределен
ния примут вид nfi= (A/o)l(Zi) =
= 158,56/(Z.).
Итак, процедура подгонки нор-
мальной кривой состоит в следую-
щем. Выберем удобный набор зна-
чений X/ (симметричных относи-
тельно р), подставим эти значения
в уравнение (5.1), что даст непо-
средственно величины nf{. Другой
способ (который намного проще)
107
заключается в том, что выбирают
некоторый набор значений, лежа-
щих между точками —3 и 3, нахо-
дят в табл. Ill (см. приложение)
соответствующие им значения /(г)
и умножают их на Л/а. Результа-
том будут те же частоты п/,.
На рис. 5.8,а приведены два гра-
фика — экспериментального распре-
деления и соответствующего нор-
мального распределения. При этом
данные наблюдений (на горизон-
тальной оси) можно откладывать в
реальных единицах, а частоты 'Нор-
мального распределения можно
строить над той же осью х и над
параллельной осью значений z (в
зависимости от того, пользуемся мы
данными столбца 3 или 4 табл. 5.8).
Взаимное расположение этих
двух графиков, возможно, напом-
нит читателю о существующей, по
мнению многих экономистов, связи
между размерами дохода в рамках
всей национальной экономики и
нормальным распределением. Наши
почасовые ставки заработной пла-
ты ведут себя аналогично общему
распределению дохода: а именно, в
обоих случаях наблюдается скошен-
ность вправо и отсутствие левого
хвоста графика. Последнее обстоя-
тельство обусловлено существовани-
ем во всех этих задачах некоторого
минимального уровня дохода.
Распределение почасовых ставок
заработной платы имеет колоколо-
образную форму, но существенно
отличается от нормальной кривой.
Это’ замечание справедливо, конеч-
но, лишь в том случае, когда поча-
совые ставки представляют собой
всю генеральную совокупность, а не
являются только выборкой из нее.
Для экономиста важно отметить,
что если бы левый хвост экспери-
ментального распределения был
длиннее, то это отразилось бы на
значении р, которое сдвинулось бы
влево, и наша нормальная кривая
гораздо лучше соответствовала бы
опытным данным. Разумеется, если
бы распределение опытных данных
имело U-образную форму, то не
помог бы никакой сдвиг вдоль оси х.
В столбце 8 табл. 5.8 приведены
вероятности, соответствующие нор-
мальному распределению, а в 7—
частости распределения опытных
данных. Величины nf" вычисляются
так же, как и выше, с той лишь
разницей, что значение Л будет
другим. Тем не менее оно также
вычисляется по уже известной фор-
муле Л=с2//г=0,1-1=0,1. Заме-
тим, что, несмотря на то, что £/«"=
— 1, площадь под полигоном Д=£1,
поскольку с=^1. Обе эти кривые
построены на рис. 5.8,6.
Нормальную кривую можно по-
догнать и к набору данных о дли-
нах 303 стальных булавок. Все не-
обходимые вычисления и графики
приведены в табл. 5.9 и на рис. 5.9.
То, что число значений X? оказа-
лось равным числу значений Xi,—
случайность. Все другие вычисле-
ния проводятся так же, как и в пре-
дыдущем случае. При этом, по-
скольку с=1, Л=1*2Д-=300 и
Рис. 5.8. Подгонка нормальной кривой к данным о почасовых ставках заработной платы
303 промышленных рабочих (данные взяты из табл. 5.8):
I — из столбцов / и 2; 2 — из столбцов 3, 4 Кб; 3 из сюлбцов / я 7; 4 — из столбцов 3, 4 и 8
108
Та блица 5.9, Псдгонка нормальной
кривой к данным о длинах 3)0
стальных булавок
1 xi	3 ft	s	4 Zt	5	6 r!i	7 f”l	8
244	4	242,6	-3.0	0.0044	0,5	0.0133	0.3D2
245	5	243,9	—2.5	0,0175	2.1	0.0167	U.0U7
246	11	245,1	—2.0	0,5540	6.4	0.0367	0.021
247	16	246,4	-1.5	0.1295	15.3	0.0533	0,051
248	42	247,7	—1.0	0.2420	28.7	0.1400	0.100
249	42	245,9	—0,5	0.3521	41.7	0.1100	0.139
259	56	259,2	0	0.3989	47,3	0,1867	0,158
251	33	251.6	0.5	0,3521	41.7	0,1100	0,139
252	41	252,7	L0	0,2420	28,7	0,1367	0,100
253	17	254,0	1.5	0.1295	15,3	0,0567	0,051
254	14	255.2	2.0	0,0450	6.4	0.0467	0.02!
S55	n	256,5	2,5	0.0175	2.1	0,0387	0t007
256		6	257,8	3,0	0.0044	0.5	0.0267	0.003
	300 ч					1,0000	
Примечание: I. Данные амты н» столбцов /, 3 в
7 табл 4.6; данные столбцов 4 и 5 совпадают с дан-
KhQfH столбцов 4 я 5 геол. 5.6; остъ-ъаде дшше ш>
числены с учетом следующих значений; р=250.2; а=
=2.53; A=clfi=i -300=300=Ef £; Д/о= 300/2.63=
=11838; 4"=£/". =Ь1=Е/"-; 4"/7=1/2,53=
-0.3849.
2. САределение величай приведенных в каждом из
столбцов, см. в табл. 5.8.
Л"=1«2//*=1. Отметим, что вме-
сто того, чтобы строить четыре кри-
вые на двух координатных плоско-
стях, мы взяли два разных масш-
таба по вертикальной оси.
Рис. 5.9. Подгонка нормальной кривой
к распределению 300 стальных булавок
(данные взяты из табл. 5.9)
Видно, что экспериментальное
распределение длин булавок до-
вольно точно следует нормальному
закону, хотя его хвосты по-прежне-
му имеют небольшую длину. Озна-
чает ли это, что наша машина в
принципе не может производить бо-
лее короткие и более длинные бу-
лавки? Вовсе нет. Может оказать-
ся, что данные выборки не вполне
адекватно представляют всю гене-
ральную совокупность и что боль-
шая выборка содержит более зна-
чительные выбросы — это делало
бы хвосты распределения более
длинными.
Несколько иной способ подгонки
кривой приведен в табл. 5,10 Раз-
ница состоит в юм, что значения
Zt вычисляются по опытным дан-
ным Xf. Тем самым число значений
Zt в точности совпадает с числом
значений Xi, и интервал, на кото-
ром строится нормальное распреде-
ление, будет равен размаху набора
опытных данных. Кроме того, сум-
ма Snfi будет примерно равна сум-
ме частот, частостей или плот-
ностей (2fa, Sft", Sfi'), к которым
подгонялась нормальная кривая.
Таблица 5.10. Подгонка нормальной
кривой к данным о почасовых ставках
заработной платы 303 промышленных
рабочих
7	3 ft	3 zl	Hzp	8 nh
2,495	10	—1.86	0,0707	И.2
2,595	25	—1,33	0,1647	26,1 .
2,695	57	—0,81	0,2874	45,6
2,795	74	—0,29	0,3825	60,6
2,895	58	0,24	0,3876	61,5
2,995	34	0.76	0,2989	I 47,4
3.095	17	1.28	0,1758	27,9
3.195	14	1.81	0,0775	12,3
3.295	11	2.33	0,0264	4,2
3.395	_3	2.85	0,0069	1,1
	303			297.9
Прямечяхямх 1. Данные столбцов 1 я 2 мяты ив
табл 4-7. осталыде иьнислеад с учетом следующих
амэтеяяй* р.=2.85 (см табл, 3.2); с=0,1911 (см. табл*
4.4); А и Ala (ем табл. 5.8)
2. Столбцы; Хр распределение частот опытных
Дат»; 2^={Х^—р.)/а ^например, Z»=(2^595—
—2^5)70.1911=—1,331; f(Zj) взяты нз табл. Ш (см,
преложеште);	f (zp= 158,58.
Если Zj вычислены по значениям Х^ исходного рас-
пределения частот, то сумма nf{ будьт приблизитель-
но совпадать с суммой f
Рассмотренные нами процедуры
особенно полезны в тех случаях,
когда используются численные ме-
тоды сопоставления (например,кри-
109
терий хи-квадрат). Отметим, что с
помощью этих методов нельзя об-
наружить отсутствующие хвосты
распределения, и их следует приме-
нять с осторожностью, чтобы избе-
жать неверных выводов.
5.4.2. Площадь под нормальной
кривой
При подгонке1 нормальной кри-
вой к опытным данным мы прежде
всего сравниваем форму полигона,
описывающего распределение опыт-
ных данных, с формой некоторой
нормальной кривой. Если опытные
данные хорошо ложатся на нор-
мальную кривую, то это существен-
но упрощает вычисление площадей
под графиком экспериментального
распределения.
Площади А*',' под нормальной кри-
вой, как, впрочем, и под графиками
других теоретических распределений,
1 На самом деле речь идет не о «под-
юнке» как выборе из определенного клас-
са кривых некоторой кривой, нанлучшнм
образом соответствующей эксперименталь-
ным данным с точки зрения заданного
критерия. Под термином «подгонка» здесь
подразумевается нечто другое: в предпо-
ложении, что экспериментальные данные
хорошо ложатся на нормальную кривую,
площадь под экспериментальной кривой
аппроксимируют площадью ' под нормаль-
ной кривой. Автор указывает и а два спо-
соба такой аппроксимации. Во-первых,
можно начать со стандартизации графика
экспериментальных данных, для чего сдви-
гают среднее в нуль и приводят площадь
под кривой и дисперсию к единице Затем
строят график нормальной кривой по таб-
личным значениям и, убедившись, что он
не очень сильно отличается от стандарти-
зованной экспериментальной кривой, полу-
чают интересующие нас площади допол-
нительным умножением табличных значе-
ний площадей и я соответствующие коэф-
фициенты. Во-вторых, можно поступить
наоборот: стандартизовать только интер-
валы группировок экспериментальных дан-
ных, подобрать соответствующие им пло-
щади по таблицам нормального распреде-
ления и построить несгандартизованный
(рафик путем дополнительного умножения
этих площадей на соответствующие коэф-
фициенты. Тогда интересующие нас площа-
ди вычисляются но этому графику с ин-
терполяцией между известными значения-
ми. — При и. ред.
ПО '
вычисляются с помощью кумулятив
ных функций распределения F (z) ви-
да „меньше, чем“ которые, в свою
очередь, могут быть получены по
функциям плотности ['(г). Вывод фор-
мулы для А*,' принципиально ничем
не отличается от вывода соответст-
вующей формулы в случае, если
кривая представляет график линей-
ной зависимости. Поскольку нор-
мальная кривая применяется в
очень большом числе задач, величи-
ны площадей под ней можно найти
в большом числе таблиц. Использо-
вание этих таблиц заменяет под-
становку значений z или х в общие
формулы и тем самым избавляет
нас от необходимости проводить
сложные арифметические операции.
Площади под кривой стандарт-
ной плотности нормального распре-
деления содержит и табл. III (см.
приложение). При этом в нее вклю-
чены лишь площади, имеющие вид
Л (а не л"£)- Этого вполне до-
статочно, так как нормальное рас-
пределение симметрично и До"*=
=Д_/Ч
Как пользоваться этой таблицей»
мы рассмотрим на нескольких
простых примерах. Для интервала
0<z< 1,2 Д''1'2= 0,38493 (так как
значению 1,2 в первом столбце
соответствует значение 0,38493 во
втором); для интервала —0,8<z<
< I.2	= До"12 + ло"°18 =
=0,38493+0,28814 = 0,67307; для
интервала —l,2<z<0,8 Д"1?’| =
=	Д 0"0.8	=	0,38493—
—0,28814 = 0,09679; для интервала
z<—1,2 Д_<в"-’-2=Д0/,«—До',’>2=
=0,50000—0,38493=0,11507; для
интервала z>l,2 Д1,2,'°°=До"“—
—Д0"«.2 = 0,50000-0,38493- =
=0,11507, что совпадает с пло-
щадью над интервалом z>l,2. Три
из этих площадей показаны на
рис. 5.10
Значения кумулятивной функции
распределения F(z) вида «меньше,
чем» нормального распределения
можно найти по табл. IV (см. при-
Рис. ».1О. Площади под нормальной кривой
ложение). Воспользуемся теперь
этой возможностью и еще раз вы-
числим площади, рассмотренные в
предыдущих примерах:
А"1*= F (1.2) - F (0) = 0,8849 -
-0,3000=0,3849;
Д"^8 = Г(1,2)-Г(-0,8) =
=0,8849 - 0.2119 = 0.6730;
A'f^=F (- 0.8) - F (- 1.2) =
=0,2119 - 0.1151 =0,0968;
1,2) =0,1151;
Д"« = 1 F (1 2) = 1 - 0,8849=
=0,1151.
Второй способ [с использованием
кумулятивной функции распределе-
ния F(z) вида «меньше, чем»] го-
раздо удобнее в том случае, когда
график распределения является
скошенным относительно ц. Именно
поэтому в большинстве статистиче-
ских таблиц приводятся значения
этой функции распределения.
Однако можно поступать и в об-
ратном порядке и подгонять нор-
мальную кривую путем сравнения
площадей. Для этого следует по
обычным формулам \Zt= (iB,—
—ц)/о и и2>-= (цВ<—ц)/ст стандар-
тизовать границы группировок
и vFi, найти площади под нормаль-
ной кривой и умножить их на
Sfi, после чего мы получим равенст-
ва
Вся процедура вычисления приве-
дена в табл. 5.11. Использованные
в ней экспериментальные данные
касаются статистики школьных
оценок, распределение которых спе-
циалисты любят сравнивать с нор-
Таблица 5.11. Подгонка нормальной кривой к распределению оценок по статистике
(путем сравнения площадей)
ив.	*1	fl	uZ(	A'^Zl \zl	Jl
41,5—51,5	46,5	5	(—2,71)—(—2.32)	0,0068	0,8
51,5—61,5	56,5	3	(—2,32) —(-1,92)	0,0172	1.9
61,5—71.5	66,5	1	(—1.92) —(—1,53)	0,0356	4,0
71,5—81.5	76,5	8	(—1.53)-(-l,13)	0,0662	7,3
81,5—91,5	86,5	8	(—1,13)-(-0,74)	0,1004	11,1
91,5—101,5	96,5	8	(—0,74)—(—0,34)	0,1373	15,2
101,5—111,5	106,5	15	(—0,34)—0,05	0,1530	17,0
111,5—121,5	Н6,5	12	0,05—0,45	0,1537	17,1
121,5-131,5	126,5	30	0,45—0,84	0,1259	14,0
131,5—141.5	136,5	18	0,84—1,24	0,0930	10,3
141,5—151,5	146,5	3	1,24-1,63	O',0559	‘	6,2
		111			104,6
Примечание. Данные исходного распределения пяяты из табл. 2.6; а=25.29. р-тт I !0.19.
Чтобы получить £^-=111. у множим на fe=l 11/104,9=з1.058.
II 1
мальвой кривой. Мы рекомендуем
читателю начертить обе кривые и
попытаться понять их смысл. Сле-
дует отметить существенный факт:
экспериментальная кривая не имеет
правого хвоста, и обе кривые вооб-
ще мало похожи друг на друга. В
чем дело? Может быть, плохих
студентов было больше, чем хоро-
ших? Или виновата программа эк-
замена?
Сравнение площадей под нор-
мальной кривой и полигоном. Име-
ется еще один полезный метод, с
помощью которого можно прове-
рить, насколько хорошо некоторое
распределение следует нормально-
му закону. Можно взять три-четы-
ре значения площади под нормаль-
ной кривой и сравнить их с значе-
ниями соответствующих площадей
под полигоном, являющимся графи-
ком распределения опытных дан-
ных. Предположим, например, что
мы выбрали три площади под нор-
мальной кривой:пЛ^=0>683,пЛ2з=
=0,955 и „Aj=0,997, где индекс п
означает нормальное распределение.
Анализируя графики на рис. 5.9,
мы уже отмечали, что распределе-
ние длин булавок довольно хорошо
ложится на нормальную кривую.
Проверим теперь это наблюдение,
вычислив значения 0A_J,0A_2 и «ДД.
где индекс о означает опытные дан-
ные, а правые верхний и нижний
индексы — значения z, которые ог-
раничивают рассматриваемый ин-
тервал. Для опытных данных каж-
дое значение z, например z=2, on- ч
ределяет некоторое значение пере-
менной х, а именно такое, при кото-
ром (х—р)/о=2. Проще говоря,
значению z=2 отвечает число х,
лежащее на два средних квадрати-
ческих отклонения правее р, т. е.
х=ц-}-2о.
Вычислим величину оА2,{ , чтобы
сравнить ее с • Для этого най-
дем сначала ОА*',' , где дг'=ц — о,
а х" — р-|-з. В других обозначе-
ниях мы найдем . Это есть пло-
щадь, под рассматриваемым отрез-
ком полигона, и ее можно вычис-
лить, складывая отвечающие точки
этого отрезка частоты. П ри этом, как
правило, ряд промежуточных зна-
чений приходится интерполировать.
Чтобы величину ОА^ можно было
сравнивать с rtA"]_], ее следует пре-
образовать к следующему виду:
А
Л"‘-и£:/ЗГ<=2м?г<
или в более общей форме
X', = „А^/А.
В рассматриваемом примере р=
=250,2, ст=2,53. Мы хотим найти
А
Д* "  ДН+»  «252,7   VI с
О*'  «/^-о </*247,7 Zl II-
l-P
В подобных случаях площади
следует выражать через границы
интервалов группировок (плюс ин-
терполированные значения в тех
случаях, когда х" и х7 не совпада-
ют с границами интервалов группи-
ровок). В рассматриваемом случае
границы интервалов группировок
равны uB9=252,5 и jB6=248;5, от-
куда
9
</S= S Л = 172.
7=G
К этому следует прибавить некото-
рую долю /5=42 и некоторую долю
/10=17. Первая из них равна
(jBe—247,7)/с=
= (248,5—247,7)/1 =0,8,
так что (0,8)-42=33,6, а вторая
(252,7—А)/с=
=.(252,7—252,5)/1=0,2,
поэтому 0,2-17=3,4. В результате
И' = 172 + 33,6 + 3,4 = 209.
В относительных величинах (часто-
тах) эта площадь равна
Л'Х7 =<Л” ! = 209/300 = 0,697,
X'A4rJ > v	1
112
и именно ее .мы хотим сравнить с
=0,683. Разность между дву-
мя этими значениями составляет
0,014, т. е. 1,4%. Для многих задач
такая разница будет несуществен-
ной.
Что би получить ^2/ • вычислим
ДН+2’_______ дйз.з
о'р.-й» — o'be.l •
Как и в предыдущем случае, на-
чнем с площади между границами
интервалов группировок иВц =
=254,5 и ^з=245,5. Площадь под
полигоном между этими двумя точ-
ками равна
o^=Sf.=272.
7=3
Прибавляя к ней 0,4 -Ь=0,4 -5=
=2,0 и 0,8-fi2= 0,8-11=8,8, полу-
чаем
j == 272 + 2,0 + 8.8 = 282,8,
и окончательно имеем
И(,=282.8/300=
=0,943.
Вспомним, что „д"22=0.955; значит,
эти две величины различаются на
0,012, т.е. на1,2%.
Наконец, ХХ=о^1=300-
Отсюда ОД_Э|=1, и именно эту ве-
личину необходимо сравнивать с
йД2/= 0,997.
Сравнение нормального распре-
деления с биномиальным. Сравним
теперь нормальное распределение
с биномиальным. Оба они очень
важны с теоретической точки зре-
ния и часто Используются в выбо-
рочных исследованиях. Вместо того
чтобы вычислять площадь над ин-
тервалом р—мы
возьмем три пары границ интерва-
лов группировок и найдем соответ-
ствующие значения z. В результате
отпадает необходимость в интерпо-
ляции частот, и попутно мы позна-
комимся еще с одним способом вы-
числения площадей под кривой.
8—232
Выше мы уже отмечали, что, если
лп>5 [когда л<(1—л)] или если
(1— л)п>5 [когда (1—л)<л], би-
номиальное распределение близко
к нормальному. В качестве примера
возьмем биномиальное распределе-
ние из табл. II (см. приложение) с
параметрами п=20 и л=0,3. Для
этого распределения л<(1—л),
так как 0,3<0,7, и ля=6. Если на-
ше упрощенное правило справедли-
во, это распределение по своей фор-
ме будет похоже на нормальную
кривую.
Так как математическое ожида-
ние этого биномиального распреде-
ления р.х=ля=6, выберем удоб-
ные границы интервалов группиро-
вок симметрично относительно это-
го математического ожидания.
Возьмем, например, 1В5=3,5 и
иВэ=8,5, т. е. рассмотрим значения
Х, из интервала
9
И« = 2 f", =0.7796.
35	7=Б
Строго говоря, мы должны были
бы вместо А написать А", но в дан-
ной ситуации никакого недоразуме-
ния возникнуть не может, поэтому
мы штрихи опустили. Чтобы найти
соответствующую площадь под
нормальной кривой, вычислим сна-
чала величины
р)/ст
и
2/= (1В,—р)/(Т.
Для рассматриваемого нами би-
номиального распределения
0=’|/д7г(1 —чг)=^ул 20-0,3-0,7 =
=2.05.
z"= (8,5— 6) /2,05=1,22 и У=
= (3,5—6)/2,05=—1,22. Отметим,
что в нашем примере z'=—z", од-
нако это вовсе не означает, что
иВ< и надо всегда выбирать так,
чтобы соответствующие значения z
были симметричны относительно |х.
Далее, „А*','= „Д^22=0>7775, что
очень хорошо выдерживает сравне-
ние с величиной ьД!’г =0,7796.
113
Для интервала 2<Xi<10 ifi3=
= 1,5, u6i! = 10,5 и
п
ьД’0* = 2 Г г —0,9754.
’	4=3
Найдем теперь площадь под нор-
мальной кривой на интервале z'<Z
<z<z":
г"= (10,5—6)/2,05= 2,20;
z'=(l,5—6)/2,05=—2,20.
Имеем X" =«^20=0.9722. что
также очень мало отличается от
ьД’0.-3 =0,9754.
I iO
Наконец, приведем еще одну па-
ру соответствующих величин—Х"’5=
= 0,9942 и	= 0,9926, кото-
рые тоже очень близки друг к другу.
В случае, когда я = 0,3, но л=10
(здесь уже /ги: = 3<5), биномиаль-
ное и нормальное распределения бу-
дут менее сходны. Для этих распре-
делений	= /гя = 3,	о =
= /10 - 0,3.0,7 = 1,45, Х.1 =
=0,7004, а ХТоз=0’6970- Г,ло‘
щадь XW.9244, а =0.9146.
Отметим еще одно обстоятельст-
во. Пусть на оси х выбраны две
точки. Чтобы сделать их сравнимы-
ми и не зависящими от распределе-
ния, приведем соответствующие ин-
тервалы к виду ц—
Мы уже знаем, что для биномиаль-
ного распределения величины
меняются с изменением пил,
хотя эта разница и стремится к ну-
лю с увеличением п (при постоян-
ном л). Именно поэтому биноми-
альное распределение является по
существу семейством распределе-
ний.
В случае нормального распреде-
ления величина пА^^1А=аА,,*1’ име-
ет всегда одно и то же значение.
Другими словами, вполне может ока-
заться, что несколько распределений,
имеющих разные ц и а, будут подчи-
нягься нормальному закону. В этом
случае, все площади Л^^/Д будут
одинаковы, хотя графики этих рас-
пределений могут сильно отличать-
ся друг от друга. Если, однако,
стандартизировать их по общей
формуле г=(х—ц)/с, то новые
графики будут совпадать (в отли-
чие от графиков биномиального рас-
пределения).
Теперь мы может дать более
разумный ответ на вопрос: зачем
вообще нужно искать некоторую
математическую кривую, на кото-
рую хорошо ложатся 'опытные дан-
ные? Основные причины состоят в
следующем: 1) если два (или бо-
лее) распределения описываются
одинаковыми математическими
кривыми, то иногда на основании
этого можно предположить, что
форма их определяется одними и
теми же причинами; 2) значительно
упрощается Процедура вычисления
площади под графиком распределе-
ния опытных данных (полигоном).
Ее можно оценить по известным
формулам или с помощью стандарт-
ных таблиц, причем при вычислении
по формулам используются не все
данные (например, в случае нор-
мального распределения достаточ-
но знать ц ио); 3) два распределе-
ния можно сопоставить, подогнав к
ним одну и ту же математическую
функцию, вместо того чтобы стро-
ить их графики и вычислять целый
ряд статистических характеристик.
Такая процедура особенно полезна
в тех случаях, когда сопоставляе-
мые значения существенно отлича-
ются по порядку — как, например,
зарплата промышленных рабочих и
оклады конторских служащих, с од-
ной стороны, и доходы квалифици-
рованных специалистов — с другой.
5.5. НЕКОТОРЫЕ ПРИЛОЖЕНИЯ
Площади под нормальной кривой.
Заказчику необходимо 5000 сталь-
ных булавок. Он определяет нуж-
ные ему свойства материала, диа-
метр булавки и ее длину. Длина
114
должна составлять 0,250±0,005
дюйма, т. е. (250±5) ♦ Ю-3 дюйма.
Производитель, чтобы установить,
позволяет ли имеющееся у него
оборудование удовлетворить требо-
вания покупателя, может взять до-
статочно большую выборку, напри-
мер 300 булавок, и вычислить ее
характеристиюн. Предположим, что
он получит Х=р/=250,2, т. е. ок-
ругленно 250-10~3 дюйма и s=o/=
=2,54. .
Среднее арифметическое выборки
совпадает с требованиями покупате-
ля к длине булавок; производствен-
ные возможности соответствуют ус-
ловиям заказчика (250-Ю-3 дюй-
ма) .
Как теперь быть с максимально
допустимым отклонением ±5-10_3
дюйма? В предположении, что зна-
чения длины булавок распределены
по нормальному закону, в процессе
производства будет получен раз-
брос 250±3о, т. е. 250±3-2,54=
=250 ±7,6. Разброс слишком ве-
лик, и некоторое число булавок не
будет удовлетворять условиям за-
казчика Что же делать изготови-
телю?
Он может внести изменения в
процесс производства, но это обой-
дется ему в 18 долл., поэтому, преж-
де чем сделать это, он постарается
определить, сколько булавок будут
иметь длину, выходящую за допу-
стимые пределы, и сравнить их
стоимость с суммой в 18 долл.
Определить число булавок, дли-
на которых попадает в допустимые
пределы (245 255) • 10-3 дюйма, —
значит найти число значений X*,
таких, что (Х'<Х,-<Х") = (245<
СХ(С255). В предположении, что
длины распределены по нормально-
му закону, это число можно найти,
умножив 5000 на размер площади
под нормальной кривой , где
промежуток z'<Zz<Zz" должен со-
ответствовать интервалу (245^Х<^
С255).
Эти границы изменения перемен-
ной г равны:
/ X' — р/ . X" —р' \ __ .
/245 — 250 .	.
= ( 2,54- <г<
<2552^425°) = (- 1.97< Z < 1,97),
<Ь	*
где р/ и s' есть оценки значений и
и о, полученные по взятой выборке
(т. е. просто значений X и s). Пло-
щадь под нормальной кривой над
интервалом —1,97<г<1,97 равна
XS = F- 1.97-F( - 1,98) =
=0,9756—0,0244=0,9512. Это зна-
чит, что около 0,9512-5000=4756
булавок будут удовлетворять усло-
виям заказчика. Остальные булав-
ки (5000—4756= 244) придется от-
править в брак. Если одна булавка
стоит 2 цента, то 244 булавки обой-
дутся в 4 доллара 88 центов —
сумму, существенно меньшую, чем
та, которая потребуется для изме-
нения производственного процесса,
так что изготовитель вполне, может
сохранить имеющееся у него обо-
рудование.
Еще один пример. В воинской
части офицеру-снабженцу необхо-
димо заказать 2000 пар ботинок
для новобранцев. Ботинки бывают
следующих размеров: 9; 9,5; 10;
10,5 и т. д. На основании своего
опыта снабженец знает средний
размер и средиеквадратическое от-
клонение. А именно (данные име-
ют, конечно, искусственный харак-
тер): (1=10,3 и а=1,2. Кроме то-
го, ему известно, что размеры рас-
пределены по нормальному закону.
Сколько пар ботинок размером
9,5 он должен заказать?
Прежде чем воспользоваться
свойствами нормального распреде-
ления, необходимо числу Х=9,5
поставить в соответствие неко-
торый интервал. Возьмем для это-
го промежуток 9,25 <х< 9,75. Как
и в предыдущем примере, эти пре-
делы следует привести к стандарт-
ному виду (к переменной z):
9,25—10,3
1.2
8*
115
<----------W“ 0,88 <z< — 0,55).
Над этим промежутком площадь под
нормальной кривой равна „4"®/ =
=F(-0.55)-Р(-0,88)=
=0,2912-0,1894=0.1018. Это зна-
чит, что нашему снабженцу следу-
ет заказать 0,1018 • 2000=203,6, т. е.
204 пары ботинок размером 9,5.
Точно также можно определить и
необходимое число ботинок всех
остальных размеров. Аналогичные
соображения должен учитывать и
руководитель торгового отдела
универмага. В противном случае он
быстро распродаст ботинки некото-
рых, размеров и окажется не в со-
стоянии удовлетворять спрос поку-
пателей, в то время как ботинки
других размеров будут лежать не-
проданными.
Нормальная вероятностная бума-
га. Нормальная вероятностная бу-
ОДОО
У’одпо
^0,300
1^
0.050
f^'ojbzO
^6,ОДО5
. ,O.OOZ
Пз)—-
F&
F(3)^
.L'&WS.
одво
F(f,5)^~
ОДОО
F(t)----
0,000
Длина булавки, 10 3ВюйП
if)	i'} чъ
Рис. 5.11. Нормальная вероятностная бума-
га (распределение длин 300 стальных бу-
лавок; данные взяты из табл. 5.12)
116
мага — очень полезное средство, с
помощью которого можно прове-
рить, следует ли некоторое распре-
деление частот нормальному зако-
ну. Если ответ на этот вопрос ока-
зывается положительным, то с ее
помощью можно графически оце-
нить среднее арифметическое и
среднее квадратическое отклонения
нашего распределения. Кроме того',
по графику можно найти и значе-
ния nfi, но этим вопросом мы здесь
заниматься не будем.
Вертикальная ось на нормальной
вероятностной бумаге (рис. 5.11)
размечена так, чтобы по\ней отсчи-
тывались значения F(z), а не f(z).
Возьмем из табл. IV (см. при-
ложение) несколько значений
^(z)—например, для набора то-
чек z=’(—3, —2,5,...). Отметим
значения z на горизонтальной оси и
построим над ними точки с орди-
натами F(z). Все они будут лежать
на одной прямой.
Чтобы построить на нормальной
вероятностной бумаге распределе-
ние частот опытных данных, вычис-
лим частости f"t, найдем кумулятив-
ную функцию распределения F"t,
отложим на горизонтальной оси
значения Х\ и построим точки с
координатами X'it F"i. На рис. 5.11
построен график распределения
длин 300 стальных булавок из
табл. 5.12. Полученный полигон
будет почти совпадать с прямой —
это подтверждает наш вывод о
том, что длины булавок распреде-
лены по нормальному закону. Од-
нако мы не построили точки, имею-
щие координаты F"i=0 и X'i=
=243,5, а также F"u=1,000 и Х'и=
=256,5. Дело в том, что наимень-
шая возможная длина, которую мо-
гут иметь булавки, изготовляемые
на нашем оборудовании, вряд ли
равна 244, а наибольшая — 256. Не
исключено, что машина может оши-
биться и на большую величину.
Чтобы оценить среднее значение,
найдем точку на абсциссе, соответ-
ствующую F(0)=0,50. Полученная
величина g'=250,l очень хорошо
согласуется.с вычисленным значе-
Таблица 5.12. Распределение частот
длин 300 стальных булавок, 10** дюйм
Х1	h		x’i	Меньше, чем X'.,
				F"i
244	4	0,0133	243,5	0,0000
245	5	0,0167	244.5	0,0133
246	11	0.0367	245,5	0,0300
247	16	0.0533	246,5	0 0667
248	42	0J4O0	247,5	0,1200
249	 42	0,1400	248,5	0.2600
250	56	0,1867	249,5	0,4000
251	33	0,1100	250,5	0,5867
252	41	0,1367	251,5	0,6967
253	17	0,0567	252,5	0,8334
254	14	0,0467	253,5	0,8901
255	Ь	0,0367	254,5	0,9368
256	8	0,0267	255,5	0,9735
	300	1,000	256,5	1,000
Пряь	1еч>вие,	. Данные взя	ты и» табл. :	2.4.
нием 250,2.		Чтобы	оценить	а, най-
дем точки на оси абсцисс, соответ-
ствующие ординатам F(l) и
/(—1). Получим значения 252,8 и
247,8, которые можно записать в
виде ц-}-<7= 250,1-Нт=252,8 и р—
—а=250,1—о=247,8. Отсюда по-
лучаем две оценки для а:«У1 =
=252,8—250,1=2,7 и с/2=250,1 —
—247,8=2,3. Взяв среднее от этих
двух оценок, получаем а'—2,5, что
хорошо согласуется со значением
<т=2,53.
Если выборка относительно не-
велика, то, хотя построенные точки
и будут лежать близко от некото-
рой прямой, график может иметь
зигзагообразную форму. В этом
случае нормальная вероятностная
бумага очень удобна: можно прове-
сти прямую от руки и сразу полу-
чить оценки среднего и среднего
квадратического отклонения.
Моделирование с помощью нор-
мально распределенных случайных
чисел. Нормально распределенные
случайные числа используются
во многих задачах, связанных с
моделированием случайных процес-
сов. Прежде всего выясним, что
такое нормально распределенные
случайные числа. Лучше всего
сделать это, сравнивая их с обыч-
ными случайными числами.
Таблица обычных случайных чи-
сел приведена в приложении (см.
табл. I). Таблицу такого рода мож-
но'получить следующим образом.
На десяти одинаковых шарах на-
пишем числа от нуля до девяти.
Будет брать из этой совокупности
наугад по одному шару (с возвра-
том) и каждый раз записывать но-
мер выбранного шара. Если из
табл. I выбрать 500 (или любое
другое достаточно большое число)
однозначных чисел и составить их
распределение частот, то мы убе-
димся в том, что все числа будут
иметь примерно одинаковые часто-
ты. Другими словами, это распре-
деление частот будет прямоуголь-
ным.
Нормально распределенные слу-
чайные числа приведены в табл. IV
(см. приложение). Это есть значе-
ния величины z, причем z=0 (и
близкие к нему) встречается в ней
гораздо чаще, чем, например, г=
=—2,825. Если из табл. IV выпи-
сать 500 нормально распределен-
ных случайных чисел, то это рас-
пределение частот уже не будет
прямоугольным, а будет напоми-
нать нормальную кривую.
Рассмотрим конкретный пример.
В электромоторе имеются детали
А и В, причем выход из строя лю-
бой из них приводит к остановке
двигателя. Только что началось
производство новой модели этого
электромотора, и фирма-изготови-
тель хочет определить распределе-
ние частоты ее срока службы.
Анализ имеющихся данных по-
казал, что срок службы детали А
гораздо короче, чем срок службы
Детали В, так что большая долго-
вечность детали В совершенно бес-
полезна. Графики соответствую-
щих распределений частот оказа-
лись похожими на кривые, приве-
денные на рис. 5.12,а.
Убедившись в этом, фирма-изго-
товитель решила сделать так, что-
бы долговечность обеих деталей
стала примерно одинаковой. По-
скольку деталь А уже является
лучшей на мировом рынке и увели-
117
Рис. 5.12. Срок службы запасных частей:
I — деталь Л; 2 — деталь Б
Продолжительность,103ч
чить ее долговечность до уровня
долговечности детали В практиче-
ски невозможно, фирма-изготови-
тель решила использовать менее
долговечные детали В. Такая за-
мена даст значительную экономию
в связи с тем, что стоимость дета-
ли зависит также и от ее долго-
вечности. Графики распределений
частот стали теперь похожи на кри-
вые, построенные на рис. 5.12,6.
Далее, по некоторой выборке
были определены средние значения
срока службы каждой детали и со-
ответствующие средние квадрати-
ческие отклонения. Но поскольку
двигатель был новой модели, вы-
борка была взята из данных уско-
ренных лабораторных испытаний.
Были получены следующие значе-
ния: ц'А=52,3, о'а=4,38, |а'в=
= 55,1, с?в=5,85-103 ч. Подгонкой
кривой было установлено, что оба
распределения можно считать нор-
мальными.
Представим теперь, что сборщик
на конвейере собирает электродви-
гатель, Он устанавливает детали
А и В. Сколько часов проработает
конкретная деталь А? Возможный
вариа нт	ответа:	AL = р'+za'A=
=52,3-|-z-4,38, где AL—-срок служ-
бы детали А. Мы, конечно, не зна-
ем, какое значение z соответствует
той или иной конкретной детали А,
поэтому берем ее из таблицы нор-
мально распределенных случайных -
чисел и получаем оценку срока
службы одной детали. Разумеется,
для одной детали эта оценка почти
заведомо окажется неправильной,
но для большего числа таких де-
талей эти оценки дадут хорошую
модель распределения реальных
значений срока службы детали А.
118
Срок службы детали В также
оценивается по формуле вЬ=ц'в+
-|-ов= 55,14-2-5,85, где z берут из
таблицы нормально распределен-
ных случайных чисел.
Срок службы всего двигателя mL
равен мЬ=л1. сели AL<B£, и
м£=вЬ. если uL<aL. Порядок вы-
числений в этой задаче приведен в
табл. 5.13. После того как некото-
рое число значений мЬ уже полу-
чено, можно составить распределе-
ние частот. Его можно использо-
вать при организаций рекламы но-
вых двигателей и при выработке
гарантийных условий его эксплуа-
тации. Проведенный нами анализ
дает фирме возможность организо-
вать рекламу и (или) гарантийное
обслуживание, а также точно оце-
нить издержки гарантийного обслу-
живания. При этом следует иметь
в виду, что результаты моделирова-
ния можно применять уже в са-
мом начале производства новой мо-
дели, поэтому фирме-изготовителю
не придется ждать 2—3 года, пока
накопятся экспериментальные дан-
ные и достаточный опыт эксплуа-
тации.
Распределения вероятностей в
задачах об управлении запасами.
Шеф-повар некоторого ресторана
заказывает продукты на воскрес-
ный день. Сколько килограммов
определенного продукта он сможет
использовать? Если бы каждое вос-
кресенье его ресторан посещало од-
но и то же число людей, то ника-
кой проблемы не было. Однако в
городских условиях число посети-
телей зависит от многих факторов,
в частности от того, какие блюда и
развлечения предлагают своим гос-
тям другие рестораны. В прошлом
Таблица 5.13. Распределение частот,
полученное путем моделирования срока
службы электродвигателей
zi	X ьГ т + о СП «— С4 ~А <х	zl	В/(- (65,1 + zp< Х5.85), НЯ ч	- ф» - < * •J	О' * < Д 2
—0,257	51,2	—1,789	44,6	44,6
0,178	53, J	0,510	58,1	53,1
—1,033	47.8	0.102	55,7	47,8
1,220	57,6	0.89!	60,3	57,6
1,063	57.0	—0,510	51,9	51,9
—0,481	50,2	—1;О32	49,1	49,1
наш шеф-повар иногда заказывал
больше продуктов, чем оказыва-
лось необходимым; случалось ему
заказывать и меньше, чем требова-
лось, и лишь очень редко количе-
ство продуктов в точности соответ-
ствовало спросу.
Чтобы тщательнее изучить этот
вопрос, шеф-повар поступил сле-
дующим образом. Он начал зака-
зывать продукты с некоторым за-
пасом — с тем, чтобы гарантиро-
вать себя от нехватки. Далее, в
течение длительного периода он
каждое воскресенье записывал ко-
личество действительно использо-
ванного продукта, а затем составил
распределение частот этих дан-
ных. Будем считать, что это рас-
пределение оказалось похожим на
распределение длин 312 стальных
булавок из табл. 5.1. Таким обра-
зом, шеф-повар 12 раз использо-
вал 244 кг продукта, 14 раз —
245 кг и т. д. Отметим, что скорее
всего он собирал данные, соответ-
ствующие воскресным дням некото-
рого сезона, а не брал данные за
весь год подряд.
Правильно ли будет вычислить
теперь среднее арифметическое это-
го распределения и закупать на
каждое воскресенье именно такое
количество продуктов? Верно ли,
что в перспективе это .будет са-
мой разумной политикой? Да, это
будет верно, но только в том слу-
чае, если стоимость излишков, ко-
торые ему придется выбрасывать в
некоторые из воскресных дней, бу-
дет равна потерям, связанным с
нехваткой продукта в другие вос-
кресные дни.
Пусть Се=0,80 долл.— стои-
мость 1 кг продукта, который при-
ходится выбрасывать, a Cs=
= 1,20 долл, представляет собой
потерянную в связи с нехвдткой
1 кг продукта прибыль. Так как в
этом случае C<.=/=CS, необходим
дальнейший анализ проблемы.
Данные табл. 5.1 ложатся напря-
мую линию (этот пример, конечно,
искусствен, поскольку на практике
распределение будет иметь колоко-
лообразный вид). Подберем неко-
торую прямую, соответствующую
нашим данным, и составим ее урав-
нение. Эту операцию мы продела-
ли выше, так что воспользуемся го-
товым результатом Уравнение пря-
мой, площадь под которой равна
единице (над соответствующим
интервалом), имеет вид f"(x) =
= 1/312(—476-f-2x). График ее по-
строен на рис. 5.1,в.
Шеф-повара интересует некото-
рая оптимальная величина х, при-
чем 243,5<х<256,5. Если спрос
окажется меньше х, то потери бу-
дут определяться величиной Се, ес-
ли . больше х, — то величиной Cs.
Для фиксированного значения х
вероятность того, что £><х (где
буквой D обозначена величина
спроса), равна площади под графи-
ком слева от точки х. Вероятность
того, что D>x, равна площади
справа от х.
Каково же оптимальное значе-
ние х? Оно должно быть таким,
чтобы СР, умноженное на P(D<.x),
равнялось Са, умноженному на
P(D>x). Причем для того, чтобы
решить задачу, достаточно найти
P(D<x), так как Р(О2>х)=1—
—P(D<x). Для того чтобы найти
P(D<x), достаточно решить урав-
нение
СеР (О< х) = CJ> (D > х) =
= СД1 -P(D<x))=Cs~
-CSP(D< л).
119
т. е.
CeP(D<x)4-CsP(D<x)=Cs,
что можно записать в виде
P(D<x)(Ce+Q=Cs,
откуда
P(D<x) = C,'(Ce + Q =
= 1.20/(0,804; 1,20)= 0,6.
в
Точку х можно найти и графиче-
ски. Для этого проведем на рис.
5.1,в с помощью метода, проиллю-
стрированного иа рис. 3.2 и 3.3, та-
кой перпендикуляр, чтобы слева от
него лежало 0,6 площади под гра-
фиком. Основание этого перпенди-
куляра и даст требуемую величину
х (в кг). Такого рода графический
способ решения очень удобен на
практике, и его часто применяют
в тех случаях, когда трудно по-
строить хорошую математическую
кривую, аппроксимирующую опыт-
ные данные.
Величину х можно найти и с по-
мощью вычислений, используя для
этого кумулятивную функцию рас-
пределения вида «меньше, чем»
F"(x) = 1/312(56-613,75 — 476х +
4-х2). Нам известно, что она равна
0,6. Поэтому все, что необходимо
сделать, — это решить' квадратное
уравнение 0.6 = 1/312-(56613,75.—
—476х-|-х2) относительно х. Полу-
чаем
0.6-312=56 613,75—476x4-х2,
откуда
л’ - 47бх + 56 426,55 = 0
и х=476 ± 1/(476)’-4-56 426.55/2.
Следовательно, х=223.2 или х=
=252,8.
Первое* решение (х=223,2) не
подходит, так как в нашей задаче
количество использованных продук-
тов в прошлом никогда не выходило
за пределы интервала 243,5<х<
<256,5. Таким образом, шеф-повару
следует заказывать 252,8 кг продук-
тов на каждый воскресный день.
Для каждого конкретного воскре-
сенья (например, для следующего)
это количество скорее всего окажет-
120
ся или чрезмерным, или недоста-
точным. Поэтому при определении
количества продуктов для одного,
воскресного, дня проведенный ана-
лиз даст мало пользы. В этом слу-
чае решение шеф-повара в значи-
тельной мере будет зависеть от то-
го, насколько он любит рисковать:
если он осторожный человек, он за-
кажет больше, если нет—меньше.
Тем не менее для длительного про-
межутка времени наш метод анали-
за даст самое лучшее решение.
В этом примере речь шла о не-
прерывном распределении, но тот
же метод применим и к дискретным
данным. Для иллюстрации вернем-
ся к рассмотренной в гл. 2 зада >е
о запасных частях. Основанные на
прошлом опыте данные о необходи-
мом числе запасных частей приве-
дены в табл. 2.10.
Если нам необходимо купить
много электродвигателей (или в ->е-
ченис длительного времени много
раз приобретать по одному двига-
телю) и нас интересует только сто-
имость запчастей, то достаточно вы-
числить математическое ожидание
распределения. Оно равно 2.9. Та-
ким образом, при покупке 20 элек-
тродвигателей нам следует приобре-
сти к ним 59 запасных частей.
Более разумно, однако, учесть не
только стоимость запчастей, но и
стоимость Простоя оборудования.
Предположим, что стоимость про-
стоя равна С4=400 долл., а стои-
мость лишних запасных частей рав-
на Се=20 долл. Применяя то же
рассуждение, что и в случае с шеф-
поваром, получаем
G/(Ce |-СД =400/420=0,952.
Это значение и должна принимать
функция Е"=0,952. Из табл. 2.10
видно, что оно лежит между F"sf=
=0,864 и /’"б=0,966. Точно посере-
дине между F"s и F"e лежит точка
(0,8644-0,966)/2=0,915. Поскольку
0,952>0,915, нам следует приобре-
сти 5 запасных частей.
Еще раз подчеркнем, что наши
выводы имеют очень небольшую
ценность, если речь идет о покупке
только одного электродвигателя
Они вряд ли произведут впечатле-
ние на осторожного человека, кото-
рый скорее всего купит больше за-
пасных частей, тогда как любитель
рисковать может купить и меньше,
чем 5.
Целый ряд рассмотренных нами
в этой главе вероятностных понятий
используется и в задачах, связан-
ных с выборками и с выборочными
распределениями. Прежде чем пе-
рейти к их рассмотрению, мы в гл. 6
обсудим различные методы отбора
выборки.
5.6. ВОПРОСЫ И ЗАДАЧИ
5.1.	Рассмотрим эксперимент, в кото-
ром монета подбрасывается только один
раз. Перечислите все элементы соответ-
ствующего пространства элементарных со-
бытий, состоящего из всех возможных ис-
ходов. Найдите Р(Н), Р (или Н иди 7),
Р(Н, 7) н Р(Г'), где Н означает «орел»,
а Г —«решка».
5.2.	Перечислите все элементы про-
странства элементарных событий, состоя-
щего из всёх возможных исходов одного
подбрасывания игральной кости. Найдите
Р (вероятность того, что выпадает грань
<_ одной точкой) =Р(1). Р(или 1, нли 2,
или 3), Р(3), Р(1, 2), Р(или 1, нлн 2,
«ли 3, нли 4, или 5, или 6) и Р(Г).
5.3.	Рассмотрим эксперимент, заклю-
чающийся в случайном выборе нз колоды
’какой-нибудь одной карты (всего в ко-
лоде 52 карты). Найдите Р(К), Р (или К,
«ли А). Р (или К, или S), Р(К')> Р<К, А)
и Р(Л\ S), где К— король, А,—туз, aS —
пики.
5.4.	При некотором условии на собы-
тия Е[ и Р2 справедливо соотношение
P(Ei или E2)«^P(tt)-!-P(E2). Каково это
условие?
5.5.	Из 500 деталей 50 оказались бра-
кованными. Чему равна вероятность вы-
брать бракованную деталь?
5.6.	При некотором условии на собы-
тия Е] н Е2 справедливо соотношение
Р(Е\. Р2)=0. Каково это условие?
57.	Игральная кость такова, что одна»
две и три точки находятся па гранях бе-
лого цвета, а все остальные — черного.
Найдите Р (вероятность того» что выпа-
дет белая грань)=Р(№), Р(1 JB7), Р(1 |В),
Р (или h или IF), Р (I, W)a Р(№л В) н
Р (или или В) при одном подбрасы-
вании.
5.8.	Рассмотрим колоду из 52 карг,
лак в задаче 5.3. Найдите P(K|S), P(S|K),
Р (или К. или Q|S) и P(tf|Q); Q — дама.
5.9*	В группе 20 человек —12 студен-
тов н 8 студенток, 5 студентов женаты»
а 4 студентки замужем. Вы разговаривае-
те с одной из студенток. Какова верояг-
ность» что она замужем? Кроме того» най-
дите Р (имеет семью или мужского пола),
Р (не имеет семьи и мужского пола),
Р (имеет семью), Р (мужского нли жен-
ского пола), Р (мужского и женского
пола)
5.10.	Имеются три одинаковые короб-
ки с деталями. Назовем их А, В и С. До-
ля деталей с некоторым дефектом, обозна-
чаемых через d, составляет 0,2 в А9 0,08
в В и 0.06 в С Найдите Р(Л. d), P(d[A),
P(A[d) и Р(Л Id')1- Какой смысл имеют
эти вероятности? Вы берете наугад одну
нз дефектных деталей. Чему равна веро-
ятность того, что она лежала в короб-
ке А?
5.11.	Вытянем из колоды, содержащей
52 карты» одну за другой две карты
(с возвратом). Найдите Р(К, Q), Р(К, К),
Р(2К), Р(К при втором вытягивании).
Найдите те же вероятности в эксперимен-
те с вытягиванием двух карт без воз-
врата.
5.12.	Игральная кость подбрасывается
три раза. Найдите Р(1. 1, 1), Р(1, Г. 1'),
Р[(1, 1', 1') нли (Г. I, Г)» или (!'. 1'. I)]»
а также вероятность того, что единица
выпадет только один раз.
5.13.	Рассмотрим дихотомное простран-
ство элементарных событий, соответствую-
щее возможным исходам 1 и I' при двух
подбрасываниях игральной кости. Напри-
мер, если первый раз выпала единица, а
второй раз — не единица, то этому собы-
тию отвечает элемент пространства элемен-
тарных событий 1 Г. Определим на этом
пространстве случайную переменную Х]«=
=G,	1, Хз=^2 так, что, например на
элементе Е=(1' Г} Л\=0. Найдите Р(Х,=
=0), Р(Х3=2), Р(Х<^1). Р(Х<) и Р(Х5«=
=4) .
5.14.	Имеется 40 коробок с деталями,
изготовленными на станке А, и 60 коробок
с деталями, изготовленными на станке В.
Станок А дает 12% брака, а станок В —
5%. Все коробки случайно перепутали.
а. Заполните следующую таблицу ве-
роятностями типа Р(Л)» P(d)A) н т. до
Оценка
годности
в
с
1
I
»
»
У
f
т
*
Брак
Норма
б Предположим, что, выбрав из неко-
торой коробки деталь, мы обнаружили,
что она дефектна Чему равна вероятность
P(A|d)? Найдите также P(A|g), P(B|d)»
P(B|g) и заполните еще одну (g —нор-
1 Очевидно, символом dr азтор обо-
значает событие «отбор бездефектной де-
тали».— Прим, ред.
121
v
маль— от good) таблицу. Заметьте, что
мы пользуемся новыми терминами, апри-
орная и апостериорная вероятность.
А при >рная вероят-, ность	Апостериорная вероятность	
	прн условии d	при условии f
А 0,4 В 0,6		
Представим себе теперь» что вы вы-
брали одну деталь и обнаружили, что она
нормальная. Что можно сказать о том.
сделана ли она на станке А или на станке
В? Другими словами, содержит ли короб-
ка, откуда мы ее взяли, 12% нлн только
5% брака?
в. С помощью процедуры, описанной
в задаче 5.14,6 (т. е. выбирая только одну
деталь из коробки), мы не смогли устано-
вить, какие именно коробки содержат де-
тали. изготовленные на станке А. Попро-
буем теперь выбрать из коробки две де-
тали. Определите вероятности того, что О,
1 или 2 из них окажутся дефектными,—
ГФИ условии, что в коробке находятся де-
тали. изготовленные на станке Л, и при
условии, что в ней находятся детали, из-
готовленные на станке В. Заполните за-
чем следующую таблицу:
Число бракованных деталей	А 0,4	В 0.6
0 1 2		
г. Выберем пз некоторой коробки две
детали, проверим нх н сосчитаем число
дефектных. С помощью таблицы, состав-
ленной Вами в задаче 5.14,в, найдите
Р(Л|0Д), Р(Л|М), P(d|2d). Заполните
этими значениями следующую таблицу:
Апрюрчая вероятность	Апостериорная вероятность		
	прн усло- вия 0d	Прн vCAO- вди !d	Прн усло- вии 2d
А 0.4			
В 0,6			
Предположим, что мы на самом деле
выбрали две детали и обнаружили, что
обе они соответствуют норме/На каком
станке изготовлены детали, находящиеся
в этой коробке? Какова будет ваша гипо-
теза, если одна деталь оказалась хорошей»
а другая — бракованной?
д. Что изменится, если перепугаются
коробки с деталями, изготовленными на
трех станках?
122
5.15.	Дано пространство элементарных
событий, состоящее из трех белых и двух
черных шаров S={U^r R7, В, В}.
а.	Рассмотрим случайную переменную:
*1	
0	
1	
Считая, что Х< есть число белых ша-
ров, полученных прн одном испытании,
найдите все вероятности Р(Х<).
б.	С помощью соответствующей табли-
цы и ветвящейся диаграммы (дерева исхо-
дов) перечислите все возможные исходы
' t случае проведения двух независимых
испытаний. Опишите полученное вспомо! а-
тельное пространство элементарных собы-
тий S* и найдите tt7')» P(U7, В),
Р[или (№. В), или (W7, В)].
в.	Рассмотрим случайные переменные
Xi и рс
		Р(Х.)=Р (F/)
0	0	
50	1	
100	2	
[здесь Xi — количество, а р, — число белых
шаров» полученных при проведении двух
независимых испытаний (в %)]. Вероят-
ность Р(Х2=1) мы уже вычислили в зада-
че 5.15,6. В каком именно месте? Найдите
Р(Х1=О), Р(Х3=2ь Р(Х<^0). Кроме того,
по обычным формулам найдите
о* и gp. Сравните полученные зна-
чения с величинами
ря = лк,	=	(1 — и ор—
=	(100 —п)/л,
т. е. со значениями этих характеристик»
выведенными для биномиального распре-
деления.
г.	Имеется еще один способ найти ве-
роятности Р(Х<) в задаче 5.15»в. Восполь-
зуйтесь распределением вероятностей иэ
задачи 5.15,а в виде таблицы
	0	1
0 	•		
1		
и найдите: вероятность того, что за 0 бе
лых шаров будет следовать 0 белых ша-
ров, т. е. Р(0,0)— 0,40.4, и вероятности
Р(0» 1)=0.4-0,6. Р(1, 0)=0Л-0.4 и Р(1,
I) =0,6-0,6 С помощью этих вероятностей
найдите значения Р(Х») из задачи 5.15,в_
д.	С помощью дерева исходов пере-
числите все возможные исходы трех неза-
висимых испытаний и выпишите получен-
ное пространство элементарных событий
S*. Можно ли провести это перечисление
исходов с помощью таблицы? Найдите
p(wt в, B)t Р(В, if. В), p(w, if; m.
P(W, IF, IF) и P[(IF, В, В) или (Bt IF, B),
или (/3, В. IF)].
Как и в задаче 5.15.в. определим слу-
чайные переменные X, н ре
Pi	xi
0	0
33,3	1
66,6	2
100	3
Р (XZ)-_P (р.)
Вероятности Р(Х<=3) и P(Xj=l) мы
уже нашли в задаче 5.15,д. Найдите те-
перь остальные вероятности. С помощью
«формул, выведенных специально для би-
номиального распределения, найдите Цр,
а ж и Ср. С помощью формулы для
’биномиального распределения найдите еще
раз P(XS=1).
ж. Предположим» что проведено 10»
100» 1000 и 10000 независимых испытаний.
В каждом из этих случаев найдите р,р»
|ikr? о« и Ор. Для значений и» найдите
соответствующие коэффициенты вариации.
Чем эти два параметра отличаются друг
от другЯ?
з. С помощью дерева исходов перечне
лите все возможные исходы двух зависи-
мых испытаний (выбор шара без возврата
на место). Выпишите полученное простран-
ство элементарных событий S* и найдите
все вероятности Р(Х,) Для соответствую-
щего гипергеоыетрического распределения:
Pi	P(Xz)=P(Pi)
0	0
50	I
100	2
Найдите также цж. Цг? Ох И 0р,
Пусть из генеральной совокупности
5= {300 раз IF, 200 раз В} выбраны без
возврата три шара. Найдите	ох и
сР соответствующего этому эксперименту
гипергеометрического распределения.
5.16,	Найдите следующие площади пЛ*7
сод нормальной кривой. ni42^J, п^В’
л—2.2	д 1,96
Х1Л—ОТ н пЛ—1.96"
5.17.	Рассмотрим распределение 300
стальных булавок, приведенное в столбцах
1 и 7 табл. 5.9.
а.	Найдите следующие площади под
полигоном опытных данных:	и
После этого найдите значения г, соответ-
ствующие абсциссам 252. 248. 256 и 244,
и вычислите соответствующие площади под
нормальной кривой. Насколько велика раз-
ница между этими значениями?
б.	Найдите площади под нормальной
кривой n^Li и	В табл. 5.9 найдите
значения X, соответствующие 1, —I, 2 и
-—2, после чего найдите площади под по-
лигоном опытных данных (в случае необ-
ходимости интерполируйте значения) и
сравните их с площадями под нормальной
кривой.
в.	Вы выбираете одну булавку из ко-
робки. в которой содержится 300 булавок.
Найдите Р(Х4=247), P(X4<X£<Xfl),Р(Х£<
*£247) и Р (247^X^252).
г.	Выберем (с возвратом) три булавки.
Найдите Р(245, 245, 245) сначала с по-
мощью данных нз столбца 2, табл. 5.9»
а затем нз столбца 7. С помощью дан-
ных из столбца 2 найдите ту же вероят-
ность в случае зависимых испытаний.
5.18.	Заказчику необходимо 5000 сталь-
ных стержней диаметром 0,750±0,005 дюй-
ма. Имеющееся оборудование дает про-
дукцию. которой соответствуют величины
р—0.750 и о=0,0021.
а.	Сколько стержней окажутся непри-
емлемыми для заказчика в случае, если
диаметры распределены по нормальному
закону?
б.	У Вас есть следующие возможности:
1) проверять каждый стержень и прода-
вать заказчику только стержни, удовлет-
воряющие его требованиям; 2) внести не-
обходимые изменения в имеющееся обо-
рудование, чтобы выпускаемая продукция
уже соответствовала условиям заказчика;
3) снизить цену на плохие стержни. Ка-
кой путь вы выберете? Обоснуйте.
в.	Можно ли в качестве характеристи-
ки разброса данных ь этой задаче ис-
пользовать не среднее квадратическое
отклонение, а размах?
5.19.	В двух магазинах продаются жен-
ские блузки. В одном из них остались
только очень большие и очень маленькие
размеры. В другом имеются блузки всех
размеров. Оба магазина принадлежат од-
ной компании; блузки одинаковы и посту-
пили в продажу одновременно. Чем мож-
но объяснить такую разницу в наличии
блузок некоторых размеров?
5.20.	При изготовлении стального ли-
ста для автомобильных корпусов некото-
рые места, подверженные ржавчине и кор-
розии. следует подвергнуть процедуре
гальванизации. Она состоит в том, что
обычный стальной лист целиком покрыва-
ют тонким ровным слоем цинка. Заказчику
необходимо найти металлургический завод»
который имеет возможность провести
гальванизацию таким образом» чтобы плот-
ность слоя покрытия была не меньше
0,3 унция/фут2. На одном заводе собраны
123
следующие данные о цинковом покрытии
стальных листов:
Платность покре^тня унцня/Фут1	Чжсло стальных листов/.	Плотно? ть покрытия */• унцда/фут*	Число стальных ластов
0,275	4	0,475	10
0,325	10	0.525	4
0,375	18	0,575	1
0,425	18	0,625	1
а Вычислите X и s.
б. Подгоните к этим данным нормаль-
ную кривую.
в. Если подогнанная кривая хорошо
описывает опытные данные, найдите, ка-
кая доля стальных листов не будет удов-
летворять требованиям возможного за-
казчика?
5.21.	Магазин хочет заказать 1000 муж-
ских рубашек, размеры которых 14,0; 14,5;
15.0 и т. д. На основании опыта известно,
что g-14,8 и о=0,8. Сколько рубашек
размером 15,5 следует заказать, если эти
размеры распределены по нормальному за-
кону? Что можно сделать, если размеры
не распределены по нормальному закону?
5.22.	На рис. 5.8 приведен пример нор-
мальной кривой, подогнанной к опытным
данным. Распределение этих данных (став-
ки заработной платы) похоже на нормаль-
ную кривую, если не считать отсутствия
левого хвоста. Это может отразиться как
на среднем значении, так и на среднем
квадратическом отклонении. Некоторые по-
правки можно внести следующим образом.
а. Возьмите значения f"i из столбца?
табл. 5.8 и найдите по ним значения
Постройте на нормальной вероятностной
бумаге точки, соответствующие значени-
ям F"\.
б. В предположении, что F"i лягут на
некоторую прямую, найдите с помощью
табл. 4.7 моду Мо. Отметьте* моду на со-
ответствующей оси координат нашей ве-
роятностной бумаги и найдите значение
X", которое на 34% больше моды, и зна-
чение Л, которое на 34% меньше моды.
Вычислите [(X — ЛТо) + (Л1о— Xz)]/2.
Это и будет вашей оценкой величины с.
Процедура получения этой оценки 'совпа-
дает с использованной в тексте с той лишь
разницей, что вместо X мы использовали
величину Мо.
в. Воспользуйтесь найденными в зада-
че 5-22,6 значениями Мо н с' и еще раз
подгоните к данным о почасовых ставках
заработной платы нормальную кривую
(данные табл. 5.8). Постройте обе кривые
ь сравните их с рис. 5.8. Если вы полу-
чите лучшее соответствие (отсутствие хво-
ста было случайностью) и будете исполь-
зовать в качестве оценок ц н о значения
Мо и о', новая процедура даст несколько
лучшие' результаты.
124
5.23.	Отбор выборки часто обходится
очень дорого, поэтому форму распределе-
ния генеральной совокупности приходится
оценивать по небольшим выборкам.
Приведенные в табл. 7.6 выборки с
п=6 и я—20 отобраны из некоторой ге-
неральной совокупности, о которой изве-
стно. что она распределена по нормаль-
ному закону. Найдите для этих двух рас-
пределений значения F"<, постройте нэ
нормальной вероятностной бумаге соответ-
ствующие точки, оцените У и s' и сравни-
те полученные вами результаты со значе-
ниями S’ н з из табл. 7.6 я со значениях!и
р и о из табл. 4.6. Можно ли по графи-
кам сделать вывод, что выборки отобраны
из нормально распределенной генеральной
совокупности?
5.24.	Газета, выпускаемая некоторым
издательством, продается по 10 центов за
штуку. Производство одной газеты обхо-
дится издательству в 7 центов. Данные
о продаже газеты за 52 воскресных дня
имеют следующий вид:
Число проданных гэдст. 10s	Число воскрес- ных дней
23	6
24	12
25	16
26	11
27	7
а Какое число газет должно каждый
раз выпускать издательство, если оно хо-
чет максимизировать свою прибыль в те-
чение довольно большого промежутка вре-
мени и не боится потерять покупателей
из-за того, что иногда газет не будет хва-
тать. Воспользуйтесь методикой, изложен-
ной в тексте.
б. Получив это значение, определите,
какая доля воскресных дней не будет обес-
печена газетами для всех желающих.
в. Будем считать, что вышеприведен-
ное распределение близко к симметрично-
му Предположим, что стоимость произ-
водства одной газеты 5 центов. Оцените»
не проводя вычислений, сколько газет сле-
дует выпускать.
5.25.	В двух различных населенных
пунктах продаются три типа газонокоси-
лок, Ниже приведены данные о числе про-
данных газонокосилок в течение года:
Населен ню й тг,ихт	Тип габонок этитт 			Всего
	А	В	С	
а	90	102	108	300
Ь	60	68	72	200
	150	170	180	500
а Рассмотрим какую-нибудь одну про-
данную газонокосилку. Найдите следую*
щне вероятности: Р(а, Лк P(atB), Р(а.С),
Р(А), Р(«), Р(й|Л), Р(л|а). Верно ли»что
объем продажи каждого из трех типов га-
зонокосилок по-разному зависит от того»
в каком населенном пункте они продают-
ся? Можно воспользоваться этим обстоя-
тельством для того, чтобы отличить один
населенный пункт от другого?
б. Предположим, что на следующий
год в количествах проданных газонокоси-
u лок произошли следующие изменения:
НассЛсишЙ пункт	Тип газонокосилки			Всего
	А	в 1	1 с	
а	80	120	100'	300
Ь	70	50	80	200
	150	170	180	500
Найдите Р(а|Л) и Р(Д|а). Сравните те-
перь обе таблицы: какая из них показы-
вает большую зависимость объема прода-
жи от места продажи? Как вы можете
обосновать ваш ответ с помощью вероят-
ностей? Отличаются ли эти таблицы свои-
ми маргинальными вероятностями?
вп Составьте по таблице из задачи
5,25»б таблицу совместных вероятностей-
г. Составьте по таблице из задачи
5.26,6 таблицу с вероятностями Р(о Д),
Р(Ь|Д)»..., P(ft|C) и найдите Р(Д|а).
5.26.	Руководитель некоторой организа-
ции решил проверить работу своего маши-
нописного бюро и дал указание сообщать
ему каждый день, сколько заказов в этот
день не было выполнено вовремя. Через
120 дней он обнаружил^ что в среднем
ежедневно не выполнялось 6 заказов. Обо-
значим через X число не законченных
в срок печатных материалов и будем счи-
тать» что Х=$, 1» 2... Предположим так-
же» что X является случайной переменной,
распределенной по закону Пуассона.
а.	Постройте распределение частот»
на которое должно быть похоже распре-
деление частот» построенное руководителем
этой организации.
б.	Какова вероятность того, что в ка-
кой-то день не будет выполнено 6 или бо-
лее заказов?
в.	Руководитель организации хочет
уменьшить вероятность задачи 5.26.6 до
значения Р (Л ^6)=0,20. Найдите, при ка-
ком среднем числе невыполненных заказов
получится такая вероятность.
5.27.	Отдыхающие на некотором ку-
рорте являются, как правило» бизнесмена-
ми или людьми свободных профессий (ад-
вокатами, художниками, врачами и т. п.).
Директор курорта хочет установить, не
выгоднее ли ему будет выпускать рекла-
му двух типов» а не одного. Для этого
он поручил своему рекламному отделу
подготовить рекламу двух типов — одну
для бизнесменов (тип I). другую — для лю-
дей свободных профессий (тип П). Рекла-
ма была подготовлена, материалы разосла-
ны возможным клиентам, и было получено
800 заявок. Они распределились следую-
щнм образом:_____________________________
•	I	II	Всего
Специалисты Бизнесмены	120 280	80 320	200 600
Всего	400	400 .	.800
а. Найдите вероятности Р(Р, I); Р(Р»
II); Р(Р, II); Р(1|Р) (Р —специалисты).
б* Зависят ли заявки представителей
каждой из двух групп от типа рекламы?
Чем вы можете это обосновать?
в. Постройте таблицу, согласно данным
которой оба типа рекламы отражались бы
на заявках одинаково Найдите соответ-
ствующие вероятности Р(Р, I) и Р(Р, II).
6.1. ВВЕДЕНИЕ
Прежде чем перейти к дальней-
шему изложению, следует напом-
нить читателю некоторые общие
принципы, определяющие методику
сбора численной информации. Ког-
да мы собираем данные такого ро-
да по некоторому вопросу» надо
иметь в виду следующее:
1)	прежде всего необходимо чет-
ГЛАВА 6
ОТБОР ВЫБОРКИ
ко описать рассматриваемую гене-
ральную совокупность;
2)	необходимо отдавать себе от- •
чет в том, что описание генеральной
совокупности становится более
сложным, когда исследование каса-
ется более чем одного вопроса;
3)	необходимо принять решение
о том, будем ли мы собирать ин-
формацию с помощью полного
охвата (переписи) генеральной со-
125
еокупности или выборочным путем;
4)	необходимо решить, в каком
виде результаты исследования бу-
дут представлены возможному поль-
зователю.
Описание генеральной совокупно-
сти. Описать предмет статистиче-
ского анализа иногда очень просто,
а иногда чрезвычайно сложно. Рас-
смотрим несколько примеров.
Нужно найти среднее арифмети-
. ческое и среднее квадратическое от-
клонение для 5000 деталей, находя-
щихся в некоторой коробке. Нашей
генеральной совокупностью явля-
ются именно эти 5000 деталей в этой
коробке. Здесь нет ничего неопре-
деленного и неясного. Мы можем
либо измерить все детали подряд,
либо же оценить требуемые стати-
стические характеристики (среднее
арифметическое и среднее квадра-
тическое отклонение) по некоторой
выборке.
Несколько сложнее описать ге-
неральную совокупность в том слу-
чае, если требуется узнать, сколько
студентов некоторого университета
имеют машину. Следует ли учиты-
вать и студентов данного отделения
и студентов-заочников? Включать
ли сюда лишь студентов, которые
имеют свои собственные машины,
• или уже учитывать и тех, которые
пользуются машинами своих родст-
венников? Что делать с теми, кото-
рые ездят на машине лишь часть
учебного года, и с теми, к го приез-
жает на занятия в ’машинах своих
друзей?
Еще больше проблем возникнет
при изучении структуры доходов
жителей некоторого города. Вот
лишь некоторые из вопросов, на ко-
торые необходимо ответить: имеет-
ся ли в виду доход до уплаты на-
* догов или после; будем ли мы учи-
тывать лишь суммы, зарабатывае-
мые жителями в своем городе или
вне его; что нас интересует—доход
каждой семьи, доход каждого чело-
века или доход главы семьи; следу-
ет ли учитывать заработок работа-
ющих неполный рабочий день.
Приведенные примеры прказыва-
126
ют, что эти вопросы лучше решить
до проведения исследования, а не
после него, особенно если процеду-
ра исследования стоит дорого. Оче-
видно также, что никакие статисти-
ческие методы, сколь бы хорош-.) вы
ими ни владели, не могут улучшить
результатов, еСли генеральная со-
вокупность выбрана неправильно.
Задачи, связанные с изучением
нескольких вопросов в задаче. Во
многих задачах нас интересует
только одна характеристика рас-
сматриваемой генеральной совокуп-
ности. На производстве нас может
интересовать средний срок службы
станка или детали, средняя масса,
средняя длина, прочность, диаметр,
процент отходов или вариация ка-
кой-нибудь из этих характеристик.
Иногда нам понадобится сразу не-
сколько характеристик этой величи-
ны (например, и среднее арифмети-
ческое и среднее квадратическое от-
клонение) одновременно. Кроме то-
го, нас может заинтересовать фор-
ма распределения частот.
В ряде исследований (касающих-
ся тех или иных контингентов лю-
дей, деловых операций, проводимых
теми или иными фирмами, и т. п.)
изучается только какой-нибудь один
вопрос и ответ дается в виде неко-
торого среднего значения, доли
в процентах, характеристики вариа-
ции или графика распределения ча-
стот. В других случаях принято
изучать сразу несколько вопросов
(или собирать информацию сразу
по нескольким вопросам) при реше-
нии одной задачи. Если в некото-
ром городе мы собираем информа-
цию только о размерах доходов его
жителей, то мы занимаемся иссле-
дованием одного вопроса. Ситуация
. аналогична возникающей при полу-
чении численной информации о диа-
метрах некоторого набора стальных
стержней. В обоих случаях эту ин-
формацию можно выразить s форме
среднего значения или одновремен-
но и среднего значения, и некото-
рой характеристики вариации дан-
ных.
Иногда собирают данные не толь-
ко о размере дохода, но и, напри-
мер, об образовании, намерении
купить тот или иной товар, о воз-
расте, о наличии вклада в банке
и т. д. Проведение даже одного
опроса фактически дает сразу не-
сколько генеральных совокупностей.
При этом генеральные совокупности
могут отличаться друг от друга по
численности. Например, вопрос об
образовании может быть задан
всем людям, включенным в список.
В то же время вопрос о том, како-
го сорта губную помаду предпочи-
тают опрашиваемые, имеет смысл
задавать только женщинам. Таким
образом, сбор данных сразу по не-
скольким вопросам часто (но не
всегда) предполагает одновремен-
ное изучение нескольких генераль-
ных совокупностей, причем все они
строятся при опросе людей из одно-
го и того же списка.
Подобная ситуация возникает и
на производстве, когда необходима
информация не только о длине де-
тали, но также о ее диаметре, мас-
се, прочности, цвете или числе слу-
чаев, когда все эти характеристики
не соответствуют техническим усло-
виям.
В обследованиях, связанных с
изучением сразу нескольких проб-
лем, обычно пользуются анкетами.
Иногда они строятся по принципу
«один вопрос на каждую исследуе-
мую характеристику», но гораздо
чаще удовлетворительную инфор-
мацию трудно получить с помощью
только одного вопроса. В таких
случаях задают два или несколько
косвенных вопросов. Наконец, мож-
но включить в анкету несколько
специальных вопросов, целью кото-
рых является проверка того, на-
сколько правильно понял смысл
предыдущих вопросов, или разо-
браться в том, сказал ли он прав-
ду. Так, в одном из вопросов анке-
ты женщину можно прямо спросить
о ее возрасте, а несколько дальше—
задать вопрос, сколько лет назад
она окончила институт.
Независимо от того, пользуемся
мы анкетой или нет, следует всегда
иметь в виду, что изучение в рам-
ках одного и того же исследования
сразу нескольких проблем надо
рассматривать как одновременное
исследование нескольких генераль-
ных совокупностей. Если по какому-
то вопросу список обследуемых
нельзя считать полным, то этот во-
прос лучше исключить. Проводя,
например, обследование среди воз-
можных покупателей новой модели
автомобиля, не следует включать
в него вопрос о том, собираются ли
они купить мотоцикл. Однако во-
прос о том, собираются ли они ку-
пить новый холодильник, вполне
допустим.
Как получать численную инфор-
мацию — с помощью полного охва-
та или выборки? После описания
генеральной совокупности и выбора
подлежащих изучению вопросов ис-
следователю необходимо принять
еще одно важное решение: будет ли
он измерять, опрашивать или пере-
считывать все элементы генераль-
ной совокупности или только неко-
торую выборку таких элементов.
Вот основные критерии решения
этого вопроса.
1.	Пусть в контейнере находятся
5000 стальных булавок, и нам не-
обходимо найти их среднюю длину
(среднее арифметическое) и, воз-
можно, вариацию длин (размах).
Если эти параметры (особенно
вращения длин) имеют ключевое
значение (например, потому что
при *выходе параметров за пределы
допусков имеется опасность полом-
ки дорогостоящего оборудования),
придется осуществить полный ох-
ват. Но даже этого иногда недоста-
точно, поскольку никто из проводя-
щих обследование не застрахован от
ошибки.
В таких случаях обследование
приходится повторять 2—3 раза.
Ограничиваться выборкой в таких
случаях недопустимо.
2.	Если достаточно приблизи-
тельной оценки одной или несколь-
ких характеристик (среднего значе-
ния, дисперсии и т. п.), то такую
оценку можно вычислить по неко-
127
торой выборке. Это обойдется го-
раздо дешевле, чем измерение, оп-
рос или пересчет всех элементов
генеральной совокупности.
3.	Предположим, что мы хотим
определить, какова максимальная
масса продуктов, которую можно
переносить в бумажных пакетах,
взятых из некоторой вновь закуп-
ленной партии. Для этого будем за-
гружать пакет до тех пор, пока он
не порвется. Ясно, что информацию
о прочности партии пакетов можно
получить только с помощью выбор-
ки, поскольку проведение опытов со
всеми пакетами невозможно (не
осталось бы ни одного целого).
4.	Когда генеральная совокуп-
ность очень велика или бесконечна,
перечислить все элементы невоз-
можно.
Информацию о характеристиках
такой генеральной совокупности
также можно получить только с по-
мощью выборки.
5.	Бывает и так, что генеральная
-совокупность уже не существует.
Такая ситуация имеет место в зада-
чах, связанных с анализом времен-
ных рядов, описывающих доходы,
уровень производства, занятость за
прошлый период. Все эти данные
можно восстановить лишь выбороч-
ным путем. В этом случае выборка-
ми будут являться записи, имею-
щиеся лишь в ограниченном числе
городов и по ограниченному числу
вопросов.
Конечно, чаще -всего решение
о том, воспользоваться выборкой
или обследовать всю генеральную
совокупность, приходится прини-
мать, руководствуясь соображения-
ми экономии (п. 1 и 2).
Представление результатов. Ис-
следователь должен заранее ре-
шить, в каком виде он будет пред-
ставлять результаты своего анали-
за предполагаемому пользователю.
Дело в том, что это решение иног-
да отражается на самой процедуре
сбора информации. Это станет оче-
видным при дальнейшем обсужде-
нии различных статистических ме-
тодов.
1 28
6.2.	ПРОСТОЙ СЛУЧАЙНЫЙ
ОТБОР ВЫБОРКИ
6.2.1.	Генеральная совокупность
и выборка
Рассмотрим следующий пример.
Приемщик взвешивает все поступа-
ющие к нему мешки с зерном и вы-
числяет среднее арифметическое
полученных значений. Он делает это
для того, чтобы сравнить среднюю
массу мешков этой партии со сред-
ней массой мешков предыдущей пар-
тии или чтобы установить, соответ-
ствует ли она стандарту. Вполне
возможно, что он будет сравнивать
также медианы, дисперсии, средние
квадратические отклонения и т. д.
Отметим лишь, что в каждом из
этих случаев сравниваются величи-
ны, вычисленные по всей генераль-
ной совокупности.
Все эти сопоставления можно
также проделать, пользуясь лишь
выборочными данными. Приемщик
может отобрать некоторую выбор-
ку и взвесить лишь мешки -из этой
выборки. После этого он вычислит
выборочное среднее, выборочную
дисперсию, выборочное среднее
квадратическое отклонение и т. д.
Таким образом, чтобы сравнить
средние значения двух партий, он
возьмет некоторую выборку из каж-
дой из них, вычислит два выбороч-
ных средних и постарается сделать
выводы по полученным результа-
там. Другими словами, его задача
будет заключаться в том, чтобы по
двум выборочным средним устано-
вить, совпадают ли средние значе-
ния по всем генеральным совокуп-
- ностям (точных значений которых
он не знает).
Если приемщик решил никогда не
пользоваться выборками, все, что
ему потребуется, — это изучить пер-
вые четыре главы этой книги. Но
если он хочет уметь сравнивать те
или иные характеристики с помо-
щью выборок, ему надо знать го-
раздо больше.
Еще один пример. Администра-
ция некоторого университета со-
гласна на создание нового студен-
ческого-союза только в том случае,
если студенты согласятся на уве-
личение плазы за обучение на
5 долл. Поскольку это увеличение
коснется всех студентов, необходи-
мо, чтобы по крайней мере 75% их
числа выразили сбое согласие. Ад-
министрация может разослать
письма всем студентам или опро-
сить студентов во время регистра-
ции, или получить оценку выбороч-
ным путем. Если сравнить рассыл-
ку писем всем студентам со взяти-
ем выборки, то выборочное исследо-
вание, вероятно, обойдется гораздо
дешевле. Однако человек, проводя-
щий такое исследование, должен
знать, как отбирать выборку и как
интерпретировать результаты вы-
борочного анализа. Действительно,
опрос всех студентов дал бы окон-
чательный и недвусмысленный от-
вет. При выборочном исследовании
положительные ответы дадут лишь
приблизительную оценку количест-
ва студентов (в %), согласных
с предложением администрации.
Отметим еще одно обстоятельст-
во. В первом примере, чтобы вычис-
лить среднее арифметическое, при-
емщику следовало сложить резуль-
таты многих измерений. Во втором
примере мы вообще не имеем дела
с какими бы то ни было измерения-
ми. Генеральная совокупность или
выборка разбиваются на два кате-
гории: те; кто отвечают «да», и те,
кто дают иной ответ. После этого
остается лишь сосчитать число по-
ложительных ответов и выразить
результат в процентах.
Если мы решили оценить те или
иные статистические характеристи-
ки выборочным путем, нам необхо-
димо знать, как отбирать выборку,
каким должен быть объем выборки
и как интерпретировать результаты
выборочных исследований. В насто-
ящей главе мы обсудим только ме-
тоды отбора выборки.
6.2.2.	Случайная выборка
Если отбор элементов проводит-
ся более или менее произвольно, то
9—232
полученная выборка носит назва-
ние случайной В математической
статистике это понятие имеет спе-
циальное определение: выборка на-
зывается случайной, если все эле-
менты генеральной совокупности
имеют одинаковые вероятности
быть отобранными в состав этой
выборки, т. е. если Р(а) ~Р(Ь) — ...
... -Р(г). Это соответствует про-
цедуре взятия выборки с воз-
вратом, когда любой элемент гене-
ральной совокупности может по-
пасть в выборку более одного раза.
Если выбранный элемент не воз-
вращается на место, то различные
элементы генеральной совокупности
будут иметь разные вероятности
быть отобранными — в зависимости
от номера шага процедуры. В этом
случае уже нельзя пользоваться
понятием «случайная выборка».
Определение случайной выборки
явно предполагает проведение не-
зависимых испытаний. Если ото-
бранный в состав выборки элемент
возвращается на место, вероятность
получить при втором испытании,
например, белый шар остается той
же самой (повторные испытания).
В случае, когда объем генераль-
ной совокупности невелик, например
когда £=={№, IT, В, В, В}, вероят-
ность получить на втором шаге не-
который элемент в повторном экс-
перименте существенно отличается
от вероятности получить тот же
элемент в бесповторном экспери-
менте. В первом случае (для дихо-
томной генеральной совокупности)
выборочное распределение будет
биномиальным, а во втором — ги-
пергеометрическим. В том случае,
однако, когда генеральная совокуп-
ность велика, а объем выборки (или
число испытаний) мал, между по-
вторным и бесповторным отбором
нет большой разницы. Мы уже от-
мечали, что если выбрать из гене-
ральной совокупности 5={200 000
раз U7, 300 000 раз В} один шар и
не вернуть его на место, то вероят-
ность получить во втором испыта-
нии шар того же цвета практически
не отличается от вероятности полу-
129
чить этот шар в повторном экспери-
менте.
На основе этого можно сделать
вывод, что, если генеральная сово-
купность велика, а объем выборки
(число испытаний) относительно
мал, между повторным и беспо-
вторным отбором нет разницы. Од-
нако если генеральная совокуп-
ность мала, а объем мер. выборки
относительно велик (например, ког-
да n//V>0,05), бесповторный отбор
выборки приведет к существенно
иным результатам. В частности, ес-
ли наша выборка отобрана из дихо-
томной совокупности, выборочное
распределение даст меньшую дис-
персию, что легко усмотреть из фор-
мулы для среднего квадратического
отклонения гипергеометрического
распределения
ор = 7/1: (100—®)/л j/" 1—n!N.
Меньшая дисперсия выборочного
распределения означает, что наша
выборка дает более эффективную
оценку рассматриваемого парамет-
ра генеральной совокупности. Это
говорит о том, что исследователю
выгодно прибегать к зависимым ис-
пытаниям, т. е отбирать в выборку
элементы без возврата- выбранного
элемента на место.
Некоторые авторы пользуются
понятием «случайная выборка» и для
описания зависимых испытаний:
многие, говоря эти слова, имеют в
виду процедуру случайного отбора
(см. подразд. 6.2.3).
Вероятность того, что при прове-
дении одного испытания нам попа-
дется белый шар, можно построить
с помощью чисто логического рас-
суждения. Точно так же логическим
путем можно получить и вид вы-
борочного распределения. Поэтому,
строго говоря, реальная выборка
представляет собой не что иное, как
вероятностный эксперимент. Если
она хорошо аппроксимирует резуль-
таты, полученные путем логических
рассуждений, это значит, что наши
теоретические выводы в приложе-
но
нии к рассматриваемой задаче име-
ют силу. В противном случае это не
так. Именно поэтому исследователь
должен следить за тем. чтобы его
методика отбора выборки соответ-
ствовала вероятностным понятиям
зависимых или независимых собы-
тий. Эти понятия представляют со-
бой математическую модель дейст-
вия случайных факторов, и отбор
выборки не должен осуществляться
на основании каких-либо критериев,
противоречащих принципу случай-
ного выбора.
6.2.3.	Случайный отбор*
Учитывая изложенные соображе-
ния, можно сделать вывод, что вы-
борочные статистические характери-
стики (или просто выборочные ха-
рактеристики) можно считать на-
дежными оценками соответствую-
щих параметров генеральной сово-
купности лишь в тех случаях, когда
отбор выборки проводился путем
случайного выбора. Например, про-
водя обследование некоторого кон-
тингента людей, мы должны иметь
список всех обследуемых. После это-
го необходимо решить, каким дол-
жен быть объем выборки, и ото-
брать п людей из этого списка. При
этом выбор того или иного липа из
нашего списка должен быть случай-
ным. Ситуация должна быть такой,
чтобы каждый попавший в выборку
человек оказался там без особой на
то причины. Исследователь не мо-
жет включать туда лишь тех людей,
которые ему нравятся, или тех, ко-
торые хорошо одеваются, или тех,
которые каждое воскресенье ходят
в церковь. В противном случае его
методику уже нельзя будет считать
случайным отбором, и, следователь-
но, он уже не сможет пользоваться
правилами, применимыми к случай-
ным выборкам.
Очень хороший способ обеспечить
случайность выборки состоит в том,
чтобы записать имена всех членов
1 В советской статистической литера-
туре используется термин «собственно слу-
чайный отбор».—Прим. ред.
генеральной совокупности на от-
дельных листках бумаги, а затем
наугад выбрать нужное число лис-
тов.
Случайный отбор можно прово-
дить и с помощью случайных чисел
из табл. I (см. приложение). Пред-
положим, что в некоторой учебной
группе 46 студентов и нам необхо-
димо отобрать выборку, включаю-
щую 8 из них. Поставим в соответ-
ствие каждой фамилии в списке
студентов двузначное число — 01,
02. ..., 45, 46. Выберем наугад чис-
ло: например, можно взять число,
стоящее на пересечении второго
столбца и третьей строки. Двигаясь
далее направо (можно идти и нале-
во, и вверх, и вниз), будем выписы-
вать из таблицы пары цифр. Полу-
чив 8 двузначных чисел (например,
17, 05, 21, 09, 40, 43, 35, 18), выбе-
рем фамилии соответствующих им
студентов и включим их в нашу вы-
борку. Если студентов не 46, а 250.
то из таблицы случайных чисел на-
до выбрать 8 трехзначных чисел.
В тех случаях, когда генеральная
совокупность очень велика, соста-
вить полный список ее членов почти
невозможно. В такой ситуации при-
меняются другие методы, но все они
должны соответствовать элементар-
ным методам случайного отбора.
Государственные органы, организа-
ции по изучению общественного
мнения, торговые организации по-
стоянно экспериментируют с такими
процедурами. Большое число мето-
дов описано, например, в книгах
Деминга1, а также Хансена, Гурви-
ца и Мэдоу2.
На производстве осуществлять
случайный отбор значительно про-
ще. Как правило, изучаемая гене-
ральная совокупность используется
в одном месте, и обеспечить непред-
взятый отбор элементов в выборку
не сложно.
1 Deming W., Edwards W. Sample De-
sign in Business Research. N. Y.: Wiley,
1960.
» Hansen M. Hurvltz W. N-, Ma-
dow W. C. Sample Survey Methods and
Theory. N. Y - Wiley, 1953.
Очень часто коробки, металличе-
ские листы, доски, ящики или меш-
ки складывают друг на друга. Мо-
жет ли исследователь выбрать не-
сколько предметов сверху (чтобы не
перекладывать все предметы) и
считать такую выборку случайной?
Да, но только в том случае, если
предметы складывались случайным
образом. Если же они складирова-
лись по некоторому принципу (на-
пример, в зависимости от массы),то
полученная выборка уже не будет
случайной и мы не сможем приме-
нить к ней правила обращения с вы-
борочными статистическими харак-
теристиками.
6.3.	ДРУГИЕ МЕТОДЫ ОТБОРА
ВЫБОРКИ
При собственно случайном отбо-
ре элементов в выборку каждый
«элемент генеральной совокупности
имеет одну и ту же вероятность по-
пасть в выборку. Существуют, од-
нако, и другие методы взятия вы-
борки, когда этот принцип равной
вероятности применяется в некото-
ром ограниченном смысле или не
применяется вообще. Речь идет
О методах систематического1 и экс-
пертного отбора. Вообще говоря,
процедуры случайного, системати-
ческого и экспертного отбора мож-
но считать составными частями лю-
бого выборочного метода. Другими
словами, любой способ взятия вы-
борки можно рассматривать как не-
которую комбинацию всех трех.
Какой же из них лучше? Может
быть тот. который лучше всего ап-
проксимирует процедуру случайного
отбора? Вовсе не обязательно. Це-
лью выборочного исследования яв-
ляется оценка некоторой характе-
ристики генеральной совокупности
с помощью выборки, а не просто
применение определенного метода
отбора выборки. Исследователь
1 Описанному здесь методу в совет-
ской статистической литературе в опреде-
ленной степени соответствует тернии «ме-
ханический отбор». — Прим. ред.
9*
131
всегда стремится к тому, чтобы вы-
борочная статистика даже в худшем
случае максимально соответствова-
ла характеристикам генеральной со-
вокупности. Заранее нельзя сказать,
что такой результат может быть по-
лучен лишь с помощью случайного
отбора. В целом ряде случаев го-
раздо лучше применить метод экс-
пертного отбора. Однако лишь
в случае случайного отбора стати-
стик располагает теорией и прави-
лами, которые точно предписывают
ему, что он должен делать. Никакой
из других методов не подчиняется
таким общим правилам.
*
6.3.1.	Систематический отбор
Систематический отбор предпола-
гает отбор, выборки согласно неко-
торому плану. Приведем несколько
примеров, иллюстрирующих это по-
нятие.
Пусть каждому элементу гене-
ральной совокупности приписан по-
рядковый номер и пусть в выборку
попадает каждый десятый или пят-
надцатый элемент. Например, при
Л/=500 и , п=50 следует выбрать
каждый десятый элемент.
В группе 40 студентов. Чтобы по-
лучить выборку, включающую 10 из
них, возьмем из списка каждую чет-
вертую фамилию. При этом первую
фамилию мы можем выбрать вооб-
ще наугад, а вслед за ней брать
каждую четвертую из списка или
же просто брать каждого четверто-
го студента из сидящих в аудито-
рии. Важно отметить, что в послед-
нем варианте нам вообще не пона-
добится список студентов.
Директор библиотеки хочет уста-
новить, как много •студентов поль-
зуются читальным залом от 9 до
12 ч в летние месяцы. Для этого он
может дать указание своему сотруд-
нику пересчитывать каждую пятни-
цу число студентов в этом читаль-
ном зале.
В некотором городе мы хотим со-
брать некую информацию среди те-
лефонных абонентов. Возьмем теле-
132
фонный справочник, будем откры-
вать его на каждой десятой страни-
це и выбирать первое попавшееся
имя. Отметим, насколько проще эта
процедура процедуры взятия слу-
чайной выборки.
По поводу систематического от-
бора необходимо отметить два об-
стоятельства. Во-первых, система-
тический отбор может дать резуль-
таты, совпадающие с результатами,
полученными по случайной выбор-
ке, а может и не дать.
Чтобы яснее представить себе,
в чем именно состоит уменьшение
расходов, вспомним механику слу-
чайного отбора. Имеется лишь два
способа получить случайную выбор-
ку. При первом из них каждому эле-
менту генеральной совокупности да-
ется название или порядковый но-
мер, а при втором они должны быть
все доступны исследователю. Они
все доступны, если вся генеральная
совокупность локализуется в одном,
относительно небольшом месте.
В первом случае названия или но-
мера элементов можно поместить в
некоторый контейнер, а затем, вы-
брать из пего наугад необходимое
их число. Во втором случае можно
всю генеральную совокупность, на-
пример, деталей поместить в одну
коробку и взять случайную выбор-
ку непосредственно из нее. При си-
стематическом отборе, как правило,
нет необходимости давать название
или номер каждому элементу' гене-
ральной совокупности, и это может
уменьшить издержки, связанные
с исследованием.
Систематический отбор не всегда
приводит к тем же результатам, что
и случайный. Если элементы гене-
ральной совокупности хорошо пере-
мешаны, между этими двумя вы-
борками не будет большой разни-
цы. Если же систематический отбор
применяется к генеральной совокуп-
ности, элементы которой располо-
жены в определенном порядке (как,
например, в нашем примере с биб-
лиотекой: пятница не обязательно,
отражает привычки читателей в.
другие дни недели), случайность
уже не будет главным фактором,
определяющим взятие выборки.
В таких случаях систематического
отбора следует избегать. В действи-
тельности трудно представить себе
ситуацию, когда систематический
отбор, не будучи эквивалентен слу-
чайному, даст лучшие выборочные
оценки. Поэтому разумно пользо-
ваться только таким систематиче-
ским отбором, который близок
к случайному.
6.3.2.	Экспертный отбор
Когда мы отбираем некоторый
элемент генеральной совокупности
в случайную выборку, всегда мож-
но спросить: почему был взят имен-
но этот, а не какой-нибудь другой
элемент? Как мы уже указывали,
стандартный ответ на этот вопрос
следующий: причина выбора имен-
но этого элемента настолько несу-
щественна и неопределенна, что мы
даже не можем ее описать. Однако,
когда мы отбираем выборку путем
экспертного отбора, именно иссле-
дователь (его оценка) определяет,
какой элемент генеральной сово-
купности должен попасть в выбор-
ку. Исследователь решает: если он
отберет такой-то и такой-то элемент
в свою выборку, то полученные по
ней выборочные характеристики да-
дут наилучшую оценку параметра
генеральной совокупности.
При таком определении процеду-
ры экспертного отбора ясно, что его
можно применять лишь при отборе
небольших выборок и из небольших
генеральных совокупностей. Чтобы
иметь возможность пользоваться
экспертным отбором, исследователь
должен знать свойства отдельных
элементов своей генеральной сово-
купности. В противном случае он не
сможет сказать, какие именно эле-
менты лучше всего ее представ-
ляют.
По-видимому, чаще всего с экс-
пертным отбором можно встретить-
ся при покупке и продаже различ-
ных товаров. Покупатели фруктов,
кофе, скота, текстиля и многих дру-
гих товаров постоянно основывают
свои решения па экспертном отборе.
Экспертный отбор требует знаний
и опыта. Если исследователь распо-
лагает и тем, и другим, он сможет
получить очень хорошие оценки по '
очень маленьким выборкам. Эти
оценки будут лучше тех, которые
могут быть получены по случайной
выборке. Несмотря на это, исследо-
ватель не сможет сказать по поводу
результатов, полученных с помощью
экспертного отбора, что они с та-
кой-то вероятностью лежат в таких-
то пределах, содержащих истинное >
значение.	t
Еще раз подчеркнем, что эксперт-
ный отбор не следует применять
к большим генеральным совокупно-
стям и к генеральным совокупно-
стям, в которых исследователю
трудно отличить один элемент от
другого (например, детали в короб-
ке).
I
6.3.3.	Районированный отбор
Такие выборки отбираются слу-
чайным образом, но не из всей ге-
неральной совокупности как цело-
го, а из двух или нескольких «райо-
нов», на которые исследователь де-
лит всю генеральную совокупность.
Такое деление позволяет получить 
лучшие оценки и поэтому обходится
дешевле.
Процедура районирования осно-
вана на двух вариантах подхода,
каждый из которых можно описать
на примере. Пусть наша задача со-
стоит в том, чтобы с помощью вы-
борочного исследования оценить
средний доход на семью в некото-
ром городе. Предположим, что бо-
гатые и бедные в этом городе так
перемешаны, что в нем нет богатых
кварталов, бедных кварталов и
кварталов, где живут люди со сред-
ним достатком. Если весь город
разделить на две части, то средний
доход и среднее квадратическое от-
клонение в одной половине будут
равными среднему доходу и средне-
му квадратическому отклонению
1зЗ
в другой половине. С точки зрения
статистика это означает, что от раз-
биения города на районы выбороч-
ное исследование вовсе не выигры-
вает.
Возможен, однако, и другой ва-
риант, а именно, когда люди с вы-
соким и низким доходом живут в
двух различных районах города,
для которых но oi=02- Если
город разделить на две равные ча-
сти, то (р.1-Ьц2)/2=и» но <014-
4-О2)/2<о. Это можно проиллюст-
рировать на следующем примере.
Пусть районы А и В включают
только по три семьи. Доходы их та-
ковы :
6
7
8
2
3
4
Соответствующие средние значе-
ния равны цА=3 и рв=7. Пользуясь
для упрощения вычислений средни-
ми отклонениями вместо средних
квадратических, получаем MDA=
=2/3 и AfD3=2/3. Отсюда (цА+
-Ьв)/2= (3+7)/2=5 и (МОА+
+АШВ) /2= (2/3+2/3) /2=2/3.
Если данные для А и В объеди-
нить, то их среднее будет равно ц=
=30/6=5= (рА+рв)/2, но MD=
=12/6=2>(AWa+/WDb)/2. Отме-
тим, что если районы отличаются
друг от друга по числу элементов,
то среднее от средних вычисляется
по формуле ц=(Л'1ЦА+^21гв)/^.
Это есть взвешенное среднее, и оно
будет равно среднему, вычисленно-
му по всем данным одновременно.
Взвешенное среднее от средних ква-
дратических отклонений вычисляет-
ся так же, и оно всегда будет мень-
ше среднего квадратического откло-
нения, вычисленного по всем дан-
ным.
Иными словами, если мы можем
разбить нашу генеральную совокуп-
ность на районы, для которых сред-
ние значения различны, а средние
квадратические отклонения одина-
ковы, целесообразно отобрать вы-
134
борки отдельно по районам и, объ-
единив выборочные средние, полу-
чить опенку среднего для всей гене-
ральной совокупности. Это объяс-
няется тем, что оценка ц является
функцией не только объема выбор-
ки п, но и ст, а о, полученное по
районированной генеральной сово-
купности с разными средними, бу-
дет меньше, чем ст, полученное для
всей генеральной совокупности.
Если районы отличаются по числу
элементов, то выборки следует
брать пропорционально объемам
районов, т. е. так, чтобы
2—	... —rtfc/JVjk.
Другой вариант подхода к раз-
биению генеральной совокупности
на районы применяется в тех случа-
ях, когда районы дают не только
различные средние, но и различные
средние квадратические отклонения.
Для достижения большей равно-
мерности из районов с большей дис-
персией следует выбирать большие
по объему выборки.
6.3.4.	Прочие методы отбора
выборки
Существуют еще два важных ме-
тода отбора выборки. Это ступенча-
тый отбор и множественный отбор.
Последний относится скорее к обла-
сти статистических выводов, а не
к методологии выборочных иссле-
дований, поэтому будет рассмотрен
в соответствующем месте.
Методика ступенчатого выбороч-
ного обследования заключается
в разделении генеральной совокуп-
ности на удобные для обследования
группы. Такими группами могут
быть графства того или иного шта-
та или всей страны, кварталы того
или иного города или они могут
быть получены разделением гене-
ральной совокупности по некоторо-
му другому удобному или уже су-
ществующему критерию. Затем от-
бирается некоторая выборка, Для
этого сначала выбирается совокуп-
ность (выборка) исходных групп —
например, графств в штате или
кварталов в городе, после чего либо
каждая группа обследуется с пол-
ным охватом элементов, либо из
каждой группы отбирают одну или
более подвыборок.
Этот метод не увеличивает точ-
ность оценки. Наоборот, по сравне-
нию с обычной случайной выборкой
он дает худшие результаты. Причи-
на его использования состоит в том,
что он дает возможность существен-
но уменьшить издержки обследова-
ния. Если генеральная совокупность
велика или разбросана по большой
территории, как правило, практиче-
ски невозможно оприходовать вес ее
элементы, а затем провести случай-
ный отбор выборки. В то же время
выборочное обследование по груп-
пам существенно упрощает задачу.
Существует и еще несколько ме-
тодов отбора выборки, но в боль-
шинстве своем каждый из них явля-
ется комбинацией описанных нами
выше основных процедур.
Переходя к обсуждению вопро-
сов, касающихся анализа результа-
тов выборочного исследования, мы
будем далее считать, что выборка
получена собственно случайным по-
вторным или бесповторным отбо-
ром. Именно такой смысл будет
вкладываться в слово «выборка».
В гл. 6 мы введем и рассмотрим
понятие выборочного распределите-
ля. С его помощью читатель сможет
понять связь между статистически-
ми характеристиками одной выбор-
ки и соответствующими параметра-
ми всей генеральной совокупности.
Это даст возможность решить зада-
чу о том, при каком именно объеме
выборки выборочная характеристи-
ка будет иметь нужную точность.
6.4.	ВОПРОСЫ И ЗАДАЧИ
6Л. Рассмотрим данные о массе вось-
ми индеек (в фунтах) из табл. 7.1:

5	1
6	4
7	2
8	J
а.	Запишите эти массы на восьми ли-
сточках бумаги. Сложите эти листочки и
отберите три выборки с л=2 (с возвратом
и без возврата). Вычислите значения X и
5 и сравните их со значениями и о из
табл. 7.1.
б.	Припишем каждой массе номер (1,
2, .... 8). Пользуясь таблицей случайных
чисел, возьмите три повторные выборки
с п=2 (с возвратом) и три бесповторные
выборки (без возврата). При повторном
отборе случайные числа могут повторяться.
При бесповторном отборе случайные числа
не должны повторяться. Эта процедура
дублирует методику отбора выборки из
задачи 6.1 А
в.	Пользуясь таблицей случайных чи-
сел, возьмите три повторные выборки с л=
=7 и три бесповториые. Вычислите все
значения X и s. Сравните полученные зна-
чения для выборок обоих типов. Срав-
ните также эти результаты с значениями
ц и о Какой тип выборки даст лучшие
результаты? Почему?
г.	Можно ли взять выборку л=20 по-
вторно и бесповторно?
д.	Для двух независимых событий кай-
лите: Р(5.5) н Р(Х-5); Р(5.6), Р(6,5) и
Р[(5.6) или (6,5)], проанализируйте гипо-
тезу Р[(5,6) или (6,5)]-Р(Х«=5.5)_
6.2.	Предположим, что нас интересует
число индеек Массой меньше 7 футов. Тем
самым мы получаем дихотомную генераль-
ную совокупность. Отбор выборки из этой
генеральной совокупности равносилен отбо-
ру выборки из -множества S={№, U5 6 7 8. IP,
IP, IP. В, В, В}. Следовательно, при одном
испытании Р(5 или 6)==Р( IP)=5/8=
-0,625 «л;	Р(7 нли 8)-Р(В)=318=
=0,375= (1 —я).
а.	Возьмите лист бумаги и напишите
слева букву S, а справа — Г. Возьмите те-
перь выборку с л=4, Сделаем эго следую-
щим образом: выберите наугад один из
наших восьми листочков и откройте его.
Это равносильно тому, что мы выбрали
одну из нцдеек «и взвесили ее. Если полу-
ченн<^ значение, равно пяти или шести,
сделайте отметку под буквой S. В про-
тивном случае поставим черточку под бук-
вой F. Верните выбранный листок на ме-
сто, выберите еще один, откройте его и
скова поставьте черточку под S или F.
Проделав еще два испытания, вычислите
NS—X н разделите эту величину на л, что
даст p=NS/4*=X/4.
Отберите еще две такие выборки и
вычислите значения р.
Отберите три бесповторные выборки
объемом л=4 и тоже вычислите значения
р. Какие из них дадут лучшие оценки
для л?
б.	Отберите три повторные и три Ссс-
повторлые выборки л=7 и тоже вычислите
значения р. Какие выборки дают лучшую
оценку для я?
е. Определите случайную переменную
следующим образом. Если при дроведе-
135
ннн четырех испытаний нам попадутся
только индейки массой 7 или 8 фунтов, то
примите Х]==0. Если одна из индеек будет
меньше 7 фунтов* то примите Х$=1. Ана-
логично определим Х3—2, Х4=3 н Х5=4.
Точно так же можно определить случай-
ную переменную X, н в случае семи испы-
таний, При этом последним значением пе-
ременной будет Х8=7. Вероятность Р(Х|=
“=0) будет больше при л=4 или при
п-7?
г. Выберите одну индейку, т. е. прими-
те л=1. Найдите вероятности Р(Х|«=0) и
Какой смысл имеют выражения
Л1==0 н Х2=1?
Замечание. Мы взяли такую неболь-
шую генеральную совокупность только для
. того, чтобы упростить все рассуждения.
В действительности, конечно, нецелесообраз-
но брать выборку нз такой небольшой ге-
неральной совокупности.
6.3.	Результата ми этого упражнения
мы будем пользоваться в упражнениях
к гл. 7.
Пусть перед вами стоит коробка с 300
булавками. Чтобы получить выборку п=6
(бесповторную), можно взять 6 булавок,
измерить их длину н записать результаты
измерения. Затем го этим шести числам
можно вычислить X нлн X И 5.
Эту процедуру можно смоделировать
с помощью приведенных в табл. 2.1 дан-
ных о дл-инах 300 остальных булавок. При-
пишем каждой булавке порядковый номер
от 001 до 300. С помощью таблицы слу-
чайных чисел найдите одно случайное чис-
ло, лежашее между 001 н 300. В табл, 2.1
найдите булавку, длина которой соответ-
ствует этому числу. Выпишите длину еще
5 булавок (уже не пользуясь случайными
числами), беря их подряд из того же
столбца (или из той же строки), откуда
было выбрано первое значение.
С помощью этой процедуры возьмите
одну выборку объемом л—20 н одну вы-
борку га=60 Сравните выборочные средние
друг с другом, а также с значениями р.
и о из табл. 4.6.
6Л. Вновь предположим, что *!еред
вами коробка, содержащая 300 стальных
булавок. Однако вместо того, чтобы изме-
рять каждую из них. вы пропускаете нх
через некоторое калибровочное устройство.
Это устройство показывает только, заклю-
чена ли длина булавки в пределах (246—
254)-10“3 дюйма. Тем самым ваш набор
булавок превращается в днхотомшую гене-
ральную совокупность. Измерив таким об-
разом булавки, вы установили, что 30 из
jinx либо короче 246-10”’ дюйма, либо
длиннее 254-10“’ дюйма. Эти булавки при-
шлось забраковать. Такны образом, коли-
чество бракованных булавок составило
10% общего числа.
Теперь будем считать, что мы не про-
пускали паши булавки через калибровоч-
ное* устройство, поэтому не знаем значения
л. Мы хотим оцегить значение л по выбо-
рочной характеристике л. Для этого мы
Кб
решили взять бесповторную выборку р=
Смоделируйте (как и и задаче 6.3)
процедуру отбора выборки—найдите слу-
чайное число между 001 и 300 и отметьте
в табл. 2.4 соответствующую длину булав-
ки. Выпишите начиная с этого места еще
120 значений, двигаясь по строкам или по
столбцам. На чистом листе бумаги напи-
шите буквы S и F и проанализируйте по-
лученные 120 значении. Если некоторое
число заключено в интервале от 246 до
254 включительно, поставьте черточку под
буквой F, если нет — то под буквой S
Сосчитав число отметок под буквой S, по-
лучим jVS=X. Разделив это число на 120,
получите значение р, которое н следует
сравнить с величиной л =40. Выберите еще
одно случайное число, отберите другую вы-
борку л=120, снова найдите р и сравните
его с истинным значением.
Каким методом отбора выборки сле-
довало бы воспользоваться, если бы зна-
чения длины всех булавок были располо-
жены в порядке возрастания?
6.5.	Результатами этого упражнения
мы также воспользуемся в гл. 7.
Перед вами коробка, в которой лежат
300 шариков: 120 — белого цвета, а 180 —
черного. Нас интересуют белые шарики,
так что л—120/300 =0,4. т. е. 40%. Этой
генеральной совокупности соответствует
пространство элементарных событий S»
={120 раз 180 раз о}.
Чтобы получить выборку п=5, снова
напишите на листе бумаги буквы S и /\
выньте один за другим шарики и поставь-
те черточку под буквой S, если шарик
оказался белого цвета, я под буквой г —
если черного Сосчитав черточки под бук-
вой S и разделив полученное число на
и=5, определите значение р. При этом раз
выбранный шарик на место не возвраща-
ется (мы хотим получить бесповторную
выборку).
Эту процедуру можно снова смодели-
ровать с помощью случайных чисел. В таб-
лице случайных чисел произвольно выбе-
рите цифру и начиная с нее выпишите не-
сколько случайных трехзначных чисел. Это
следует делать до тех пор, пока не полу-
чите 5 чисел, заключенных между 001 и
300, причем ни одно из них не должно
повторяться (мы моделируем процесс отбо-
ра бесповторной выборки). Поставьте
столько черточек под буквой 5, сколько
чисел вашей выборки будут лежать в пре-
делах от 001 до 120. Для всех остальных
элементов выборки поставьте черточки под
буквой F.
Отберите еще две выборки объемом
л=5, три выборки п—20 и три выборки
п=80. ь каждом случае вычислите NS—
=Х и р. Сравните полученные значения р
с величиной л=40.
6.6.	В табл. 2.2 приведено распределе-
ние частот почасовых ставок заработной
платы. Мы хотим превратить его в дихо-
томную генеральную совокупность и вы-
числить Qi. Чему может быть равно л?
Чему будет равно л, если вместо Q( вы-
числить Q2?
6.7.	Вам предложено отобрать выбор-
ки из следующих генеральных совокупно-
стей: все семьи некоторого города, все
семьи США, студенты некоторого универ-
ситета, врачи, рестораны некоторого горо-
да. преподаватели высшей школы, строи-
тельные фирмы, избиратели на выборах.
а.	Какую информацию по этим гене-
ральным совокупностям вы хотели бы со-
брать? Какую информацию вы хотели бы
получить о самих этих генераторных сово-
купностях? Какие из трех характеристик
л, s и р вы стали бы вычислять?
б.	Как вы будете отбирать ваши вы-
борки?
в.	В каких случаях вам понадобится
список адресов? На основании чего вы бу-
дете принимать решение о том, составлять
его или нет?
г.	С какими проблемами вам придется
столкнуться, если вы захотите не ограни-
чиваться выборкой, а обследовать эти ге-
неральные совокупности методом полного
охвата?
6.8.	На некотором предприятии рабо-
тает 303 рабочих. Вы хотите выяснить,
чему в среднем равна их почасовая ставка
заработной платы. Поскольку бухгалтерия
отказалась дать вам такую информацию,
вы отберете бссповторную выборку п *25. .
Будем считать, что данные из табл. 2.2
описывают эти ставки заработной платы.
Упорядочьте их и возьмите 25 случайных
чисел от 001 до 303. Выпишите соответст-
вующие ставки заработной платы, найди-
те Я и $ и сравните их с величинами р
и о из табл. 4.7.
Когда мы отобрали выборку из табл.
2.1, нам хватило лишь одного случайного
числа. Здесь придется найти 25 случайных
чисел. Почему?
Замечание, Пусть мы знаем р и а. ио,
как часто случается,, (нам не известно,
является ли распределение нормальным или
колоколообразным, или U-образным, или
еще каким-нибудь. В случае нормального
распределения 95,5% значений попадает
в пределы ц±2а. Если графиком распре-
деления является более пологая кривая, то
это значение будет меньше 95,5%.
Можно поставить следующий вопрос: чему
равно наименьшее возможное количество
(в %) значений, лежащих в пределах pdt
±2(7» или в более общем виде в пределах
ц+fco?
Ответ на этот вопрос дал П. JI. Че*
бышев (1821—1904 гг,), который показал,
что эта величина (вероятность) равна 1—
— 1/fc2, Таким образом, при А=2 1—1/Л2—
=0,75. Это означает, что по меньшей мере
75% значений лежит в пределах
Для нормальной кривой в пределах
р±3и лежит 0,997 всей площади под кри-
вой. Но и для любой другой кривой доля
площади, лежащей в этих пределах, равна
по крайней мере 1—1/9=0,778.
Прн это утверждение выполняет-
ся тривиальным образом.
6.9.	В некотором городе ваша компа-
ния продает какой-нибудь товар. Вы хоти-
те установить, пользуется ли он одинако-
вым спросом среди групп покупателей
с разным доходом. Местная газета* регу-
лярно публикует цветную карту города, где
различными цветами обозначены районы
с различным доходом жителей.
а.	Предположим» что вы уже выбрали 4
требуемый объем выборки л и теперь хо-
тите приписать отдельные значения лг,
«2» -.Пк (где 2л4«=п) каждому из райо-
нов. Как вы это сделаете? Как в статисти-
ке называются отдельные группы с различ-
ным доходом?
б.	.Вы хотите провести выборочное
обследование, посылая своих агентов в от-
дельные семьи или к отдельным людям.
К кому именно вы их пошлете? Иными
словами, какие именно семьи или люди
войдут в вашу выборку?
в.	Предположим, что необходимая ин-
формация не настолько ценна, чтобы поль-
зоваться услугами агентов. Поэтому вы
решили провести опрос по почте. Каким
образом вы будете составлять список адре-
сатов?
6Л0. Несмотря на то, что вы получили
достаточное число ответов, результаты
обследования могут оказаться смещены.
С чем связана такая возможность?
6.11.	В следующих примерах попытай-
тесь с достаточной степенью точности опи-
сать вашу генеральную совокупность.
а.	Требуется установить, располагает
ли некоторый кандидат на пост мэра под-
держкой большинства.
б.	Требуется определить процент без-
работных в некотором городе.
в.	Требуется сравнить средние расходы
жителей двух городов на продовольствие.
г.	Требуется сравнить цены на холо-
дильники в различных магазинах одного
’ города.
6.12.	Компания по производству- ле-
карственных средств хочет направить свое-
го торгового агента к врачам, практикую-
щим в некотором городе, изучив их предва-
рительно с помощью случайной выборки.
Как можно получить такую выборку?
6.13.	Ваше упаковочное оборудование
наполняет ящики некоторым материалом.
С помощью повторной выборки вы хотите
проверить, нормально ли оно работает. Как
вы будете брать эти выборки?
6.14.	Директор некоторой крупной ор-
ганизации хочет с помощью выборочного
обследования определить число служащих»
которые в некоторый момент рабочего дня
не занимаются выполнением рабочих зада-
ний. Как ему это сделать?
137
ГЛАВА 7
ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ
7.1. ПЕРЕЧИСЛЕНИЕ ВСЕХ
ВОЗМОЖНЫХ ВЫБОРОК
Связь между некоторой выбороч-
ной характеристикой и соответству-
ющим параметром всей генеральной
совокупности лучше всего понять,
изучая выборочное распределение
этой характеристики. Такое распре-
деление полезнее всего построить
экспериментальным путем. Л имен-
но, фиксируем объем выборки и
возьмем из нашей генеральной со-
вокупности все возможные выбор-
ки, имеющие этот объем. Затем для
каждой из этих выборок вычислим
интересующую нас выборочную ха-
рактеристику (например, выбороч-
ное среднее) и составим распреде-
ление частот. Далее полученные
распределения частот обычно ана-
лизируются с точки зрения средних
арифметических (например, средне-
го арифметического выборочных
средних или выборочных дисперсий
средних выборочных процентных
характеристик и т. п.) и связи вы-
борочной характеристики с соответ-
ствующим параметром генеральной
совокупности (т. е. с ц, о2, п или
др.), его дисперсии и формы ею
графика.
Ниже мы рассмотрим три типа
выборочных распределений: распре-
деление выборочных средних, рас-
пределение выборочных дисперсий
и распределение выборочных про-
центных характеристик.
7.1.1. Распределение выборочных
средних
Приведенная в табл. 7.1 гене-
ральная совокупность состоит из 8
индеек. Нас интересует их средняя
масса. Мы рассматриваем столь ма-
лую генеральную совокупность
лишь для того, чтобы сделать ре-
зультаты обсуждения обозримыми.
Проще всего взять из этой гене-
ральной совокупности все возмож-
Та(блица 7.1. Массы восьми индеек
1
4
2
8
I* =, LfiXll^fl = 6,375;
о* = Sf; (Xt — |*) Wi = 0,734375.
ные выборки объемом п=2. Выбор-
ки п=3 можно наглядно предста-
вить себе лишь в трехмерном про-
странстве или с помощью бол её
сложной системы таблиц. Перечис-
ление всех возможных выборок п—
=2 проведено в табл. 7.2. Перечень
таких выборок выглядел бы при-
Та блица 7.2. Все возможные выборки
п=2 из генеральной совокупности
табл. 7.1
xi	Х1							
	б 1	1 8 I	1 5 1	1 6 |	1 8 |	1 7 |	1 ?	6
6	6,0	7,0	5,5	6,0	6,0	6,5	6.5	6,0
8	7.0	8,0	6,5	7,0	7,0	7,5	7,5	7,0
5	5,5	6,5	5.0	5.5	5.5	6,0	6.0	5,5
6	6,0	7,0	5,5	6,0	6,0	6.5	6,5	6,0
6	6,0	7.0	5.5	6,0	6,0	6.5	6,5	6.0
7	6,5	7,5	6,0	6,5	6,5	7,0	7,0	6,5
7	6,5	7,5	6.0	6,5	6,5	7,0	7,0	6,5
6	6,0	7,0	5,5	6,0	6,0	6,5	6,5	6,0
Прамечшше. Выборочные средние X.. = (Xt +
мерно так: 6,6; 6,8; 6,5; 6,6; ...; 8,6,
8,8; 8,5 ... Средние по этим выбор-
кам равны ^11=6,0,^12=7,0, Х]з=
=5,5, Хц=6,0, ..., Xzi=7,0, Хгг=
=8,0, ^23=6,5 ...
Распределение частот выбороч-
ных средних и будет выборочным
распределением £табл. 7.3,о).
Связь между X и ц. Среднее по-
лученного распределения является
средним средних, а не средним из
отдельных масс. Чтобы подчеркнуть
* илО
Таблица 7.3. Эксйернментальные
выборочные распределения
(распределения выборочных средних)
43) л — 2
1в/ — lA	xi	h	
4.75—5,25	s.o	1	0,0156
5,25—5,75	5,5	8	0.1250
5,75—6,25	6,0	20	0,3125
6,25—6,75	6,5	18	0,2812
6,75—7.25	7,0	12	0,1875
7,25—7,75	7.5	4	0,0625
7,75—8,25	8,0	I	0,0156
		64	1,0000
Примечания* 1. Данные взяты нэ табл. 72.
2, Среднее средних Y= ЪЦХ.рЦ = 6,375.
3. Днеперсня средних в среднее квадратическое
9	__ —
отклонение = If (X { — Х)/Х/^ = 03371875= з*/л=
= 0.734375/2 = 03671875;
°- = У If, (Aj- X)»/£f ( = 0fVn -= V0.3671675 =
= 0,6060.
(У) л = 3			
			f"^P(X{)
4,83—5,17	5	1	0,0020
5,17—5,50	16/3	12	0,0234
5,50—5,83	17/3	54	0,1054
5,83—6,17	6	115	0,2246
6,17—6,50	19/3	132	0,2578
6,50—6,83	20/3	"08	0,2109
6,83—7,17	7	59	0,1152
7,17—7,50	22/3	24	0,0469
7.50-7,83	23/3	6	0,0117
7.83—8,17	8/512	1	0,0020
			1.0000
Примечании- 1. Данные взяты на табл. 7.1.
=	2	_	=
2 X - 6.375; э- = If. {Х^- X)-/if{ =: 03W9 =
= ^/Л = 0^375/3 = 0,24479; э- =
= Р Ef. (7i—‘xF/EJi - а/К7Г = /054474 = 0,4948,
в) п = 5
]Bf — vBi	xi		
4,9—5,1	5,0	0	0
5,1—5,3	5,2	0	0
5,3—5,5	5,4	0	0
5,5—5,7	5,6	0	0
5,7—5,9	5.8	6	0,0800
5,9—6,1	6,0	6	0,0800
6,1—6,3	6,2	13	0,1733
Продолжение табл. 7.3
lBi — uBl	xi	fi	ff’ = p
6,3—6.5	6.4	19	0,2533
6,5—6,7	6,6	13	0,1733
6,7—6,9	6,8	11	0,1467
6,9-7,1	7,0	4	0,0533
7,1—7,3	7.2	2	0,0267
7,3-7,5	7,4	1	1	0,0133
7.5—7,7	7,6	0	0
7,7—7,9	7,8	0	1 0
7,9-8,1	8,0	0	0
		*75 '	1,0000
Примечания: 1 Истсгинж — якперкмеитальвде
данные^	_
2. Г= 6.445; e'J = If - (X- - X)*/If-	0.1265;
х 1	1	1
< = V ~х. — xy/xf= 0,3556; oL •= o*/n =
х	> X
= 0.734375/5 = 0,14665; о— =	/0.14688 =
и 0.3832.
этот факт, используют обозначение
X Каковы же соотношения между
средним средних X и средним всей
генеральной совокупности р? Здесь
есть три возможности. Среднее вы-
борочного распределения может
быть равным соответствующему па-
раметру генеральной совокупности;
среднее выборочного распределения
может не быть равным истинному
параметру генеральной совокупно-
сти, но связь между ними можно
предсказать, и, наконец, среднее
выборочного распределения может
быть не равным среднему по всей
генеральной совокупности, но о воз-
можной величине разности между
ними ничего сказать нельзя.
Среднее выборочных средних дей-
ствительно равно среднему всей ге-
неральной совокупности. Причем
очень существенно, что это справед-
ливо независимо от вида распреде-
ления всей генеральной совокупно-
сти. Другими словами, график рас-
пределения рассматриваемой гене-
ральной совокупности может быть
колоколообразным, U-образным или
прямоугольным—в каждом из этих
случаев среднее выборочных сред-
них равно среднему генеральной со-
вокупности. Если выборочное рас-
139
пределение используется в качестве
распределения вероятностей, то его
среднее называется математическим
ожиданием случайной переменной.
Так. величина Х=ц есть математи-
ческое ожидание _случайной пере-
менной X, т. е. М(Х)=ц.
Мы проверили равенство Х=ц
опытным путем и только на двух
примерах. Оно, однако, справедли-
во во всех случаях и может быть
формально доказано. По определе-
нию среднего значения для дискрет-
ного распределения выборочных
средних
X=2fIXi/2fi.
Если площадь род графиком равна
единице, то
х = 2/"ЛТ=Л1 (Х^М^ zxt у
=Д- М (2Х,)	2 М( х,).
Здесь Af(Xi) есть то же самое, что
и pi, откуда
п _____
2 Af(Xi)=W
/-1
и, следовательно,
М (X) =	= р.
Более подробный вывод можно
найти, например, в книге Муда и
Грейбилла *. Этот вывод подтверж-
дает тот факт, что равенство Х=
=М(Х)=р совершенно не зависит
от формы распределения генераль-
ной совокупности. Кроме того, оно
выполняется для выборки любого
объема.
Этот вывод подтверждают и два
других выборочных распределения
из табл. 7.3. Для получения распре-
деления выборочных средних были
перечислены все возможные выбор-
ки п=3. Число этих выборок равно
83=512=2fi, что, конечно, намного
больше, чем 2f<=64 в случае рас-
1 Mood Alexander Graybill Frank-
lin A. Introduction to ttye Theory of Sta-
tistics. N. ¥.: McGraw-Hill, 1963, p. 145.
140
пределения для n—2. Распределе-
ние для п=3 снова дает значение
X, совпадающее с р. Третье распре-
деление есть’ распределение выбо-
рочных средних, вычисленное для
всех выборок п=5. На этот раз мы
не стали перебирать все возможные
выборки этого объема, так как их
число довольно велико: 85=32 768.
Вместо этого мы аппроксимировали
выборочное распределение с помо-
щью 75 случайных выборок п=5,
которые и были отобраны фактиче-
ски из генеральной совокупности
(8 индеек) табл. 7.1. Полученное
приближение дает_очень хорошие
результаты. Хотя Х=6,445 не сов-
падает с значением р=6,375, как в
в случае полных выборочных рас-
пределений для п=2 и п—3, оно
очень близко к истинному значению.
Чтобы далее проиллюстрировать
взаимосвязь между средним значе-
нием распределения некоторой вы-
борочной характеристики и соответ-
ствующим параметром генеральной
совокупности, отметим, что среднее
значение распределения выбороч-
ных дисперсий s1 2 также равно дис-
персии всей генеральной совокупно-
сти а2. Однако среднее значение вы-
борочных средних квадратических
отклонений s не равно среднему
квадратическому отклонению гене-
ральной совокупности <г. В том слу-
чае, когда генеральная совокуп-
ность распределена по нормально-
му закону, связь между ними изве-
стна. Благодаря этому при фикси-
рованном объеме выборки можно
вычислить некоторый коэффициент,
такой, что, умножив на этот коэф-
фициент среднее значение $ выбо-
рочных средних квадратических от-
клонений, мы получим значение,
равное среднему квадратическому
отклонению по всей генеральной со-
вокупности а.
Что касается тех случаев, когда
нельзя ничего сказать о связи меж-
ду средним значением некоторой
выборочной характеристики и соот-
ветствующим параметром генераль-
ной совокупности, важным приме-
ром является случай смещенной
выборки. Если отбор выборки не яв-
лялся беспристрастным, то опреде-
лить или предсказать разницу меж-
ду выборочным средним (или выбо-
рочной дисперсией) и средним по
всей генеральной совокупности (или
дисперсией всей генеральной сово-
купности) невозможно. Иными сло-
вами, мы не сможем оценить ошиб-
ку выборочного обследования
сколько-нибудь эффективным обра-
зом. Поэтому нельзя вычислить
пределы, в которых должна быть
заключена ошибка, а если такие
пределы все-таки будут вычислены
по тем или иным формулам, то им
нельзя будет верить.
В большинстве случаев для того,
чтобы оценить некоторый параметр
генеральной совокупности, исследо-
ватель пользуется лишь одной вы-
боркой. Чем же ему в таком случае
может помочь знание взаимосвязи
между X, F и (среднее выбороч-
ных характеристик, %) и р, а2 и л?
Кто даст ему возможность устано-
вить связь между значениями X, s2
или р для одной выборки и величи-
нами ц, а2 и л?
Сразу можно предположить, что
если предсказуемой величиной яв-
ляется среднее значение выбороч-
ного распределения, то связь меж-
ду характеристикой одной выборки
я соответствующим параметром всей
генеральной совокупности также
будет предсказуемой. Конечно, ха-
рактеристика, вычисленная по од-
ной выборке (например, среднее
значение), не всегда равна средне-
му значению всей генеральной со-
вокупности. Она может совпадать
или не совпадать с ним. Но зная
связь между X и р., все (или почти
все), что нам останется сделать,—
это найти какой-нибудь способ вы
числения ошибки выборочного ис-
следования, которая и будет^ описы-
вать связь между средним X по од-
ной выборке и значением ц
Еще раз подчеркнем, что мы
должны быть полностью уверены в
том, что среднее значение рассма-
триваемой выборочной характери-
стики (например, среднее от сред-
них) равно (или может быть сдела-
но равным с помощью тех или иных
коэффициентов или статистической
таблицы) соответствующему пара-
метру всей генеральной совокупно-
сти. Только убедившись, что это
так, мы можем начать анализиро-
вать связь между величинами X, s2
и р для одной выборки и величина-
ми рц о2 и л.
Тот факт, что среднее значение
всех возможных выборочных сред-
них равно среднему всей генераль-
ной совокупности, еще не дает пол-
ной картины взаимосвязи между
средним значением одной выборки
и средним генеральной совокупно-
сти. Если мы сможем также выве-
сти формулу, описывающую вели-
чину возможной ошибки выборочно-
го исследования или величину от-
клонения выборочного среднего от
среднего всей генеральной совокуп-
ности, то это даст возможность по-
лучить надежные пределы, с опре-
деленной степенью достоверности
ограничивающие возможную ошиб-
ку. Эти пределы называют «довери-
тельными». Другими словами, мы
будем в состоянии получать надеж-
ные оценки среднего по всей гене-
ральной совокупности с помощью
всего лишь одной выборки.
Имеется, конечно, существенная
разница между теми случаями,
когда среднее значение распределе-
ния некоторой выборочной характе-
ристики просто равно соответству-
ющему параметру генеральной со-
вокупности, и теми случаями, когда
оно может быть сделано таковым с
помощью некоторого коэффициента.
При прочих равных условиях в по-
следнем случае ошибка выборочно-
го исследования будет больше. Ста-
тистики пользуются для описания
этих различий следующей термино-
логией. В первом случае выбороч-
ная характеристика называется не-
смещенной, во втором — смещенной
оценкой рассматриваемого парамет-
ра генеральной совокупности (не
путать со смещенными процедурами
отбора выборки). В обоих случаях
141
отбор элементов в выборку должен
проводиться случайным образом.
Таким образом, выборочное среднее
является несмещенной оценкой
среднего по генеральной совокупно-
сти (истинного среднего). Выбороч-
ная дисперсия также является не-
смещенной оценкой истинной дис-
персии. Однако, как это ни странно,
выборочное среднее квадратическое
отклонение является смещенной
оценкой истинного среднего квадра-
тического отклонения. Ни один из
этих терминов (смещенная или не-
смещенная оценка) нельзя приме-
нять к выборкам, которые не были
получены случайным отбором эле-
ментов. Результаты таких выбороч-
ных исследований в некотором
смысле вообще не являются пред-
сказуемыми.
Абсолютная величина ошибки вы-
борочного исследования. Слова
«ошибка выборочного исследова-
ния» нуждаются в уточнении. Что-
бы сделать это, необходимо решить
две проблемы. Во-первых, необхо-
димо найти статистическую харак-
теристику этой ошибки. Этого, од-
нако, недостаточно. Как мы уже
подчеркивали, выборочная характе-
ристика может совпасть или не со-
впасть с соответствующим парамет-
ром всей генеральной совокупности.
Поэтому мы должны уметь отвечать
на следующие вопросы: с какой ве-
роятностью эта характеристика бу-
дет на некоторое фиксированное
значение отличаться от истинного
параметра генеральной совокупно-
сти; какова наибольшая возможная
ошибка выборочного исследования
(наибольшая разница между этой
характеристикой и истинным пара-
метром). Чтобы ответить на эти во-
просы, недостаточно лишь найти
подходящую меру ошибки выбороч-
ного исследования, необходимо
знать и вид выборочного распреде-
ления, в некоторых случаях вид
распределения данных генеральной
совокупности.
Таким образом, три самых важ-
ных вопроса, возникающих при ана-
лизе результатов выборочного ис-
142
следования с помощью одной вы-
борки, таковы: 1) равно ли среднее
выборочного распределения соот-
ветствующему параметру генераль-
ной совокупности (даст ли эта ха-
рактеристика смещенную или не-
смещенную оценку); 2) какова
ошибка выборочного исследования
для этой характеристики и можно
ли найти подходящую меру этой
ошибки; 3) какой вид имеет то или
иное выборочное распределение и
можно ли выразить это в матема-
тической форме
Стандартная ошибка среднего.
Ошибка выборочного исследования
в случае выборочного среднего из-
меряется с помощью стандартной
ошибки среднего. Меру ошибки вы-
борочных процентных характери-
стик мы рассмотрим несколько по-
зднее.
Стандартная ошибка среднего фа-
ктически совпадает со средним ква-
дратическим отклонением выбороч-
ного распределения среднего. Для
трех приведенных в табл. 7.3 рас-
пределений выборочного среднего
это среднее квадратическое откло-
нение (стандартная ошибка средне-
го, обозначаемая о?) вычислено по
обычной формуле для среднего ква-
дратического отклонения. Всегда,
когда мы можем получить выбороч-
ное распределение, а это возможно,
только когда объем генеральной со-
вокупности и объем выборки явля-
ются обозримыми величинами, зна-
чение стандартной ошибки среднего
можно вычислять этим путем — по
обычной формуле для среднего ква-
дратического. отклонения. Однако
наиболее интересное и важное об-
стоятельство, касающееся стандарт-
ной ошибки среднего, состоит в том,
что ее можно вычислять и по фор-
муле о-= о/т. е. просто разде-
лив среднее квадратическое откло-
нение генеральной совокупности на
квадратный корень из объема вы-
борки п.
Чтобы получить стандартную
ошибку среднего по обычной фор-
муле для среднего квадратического
1
। отклонения, мы должны знать пол-
ное выборочное распределение.
С * помощью формулы о_ = о/)/Г/г
ошибка выборочного исследования
в случае выборочного среднего мо-
жет быть представлена как функ-
ция среднего квадратического от-
клонения всей генеральной сово-
купности и объема выборки.
Как мы уже отмечали, Х=р не-
зависимо от вида распределения
данных генеральной совокупности.
Точно так же и = п незави-
х
сим о от вида распределения гене-
ральной совокупности. Именно та-
ким образом эта формула для а-
выводится в математической стати-
стике. Тем самым вид распределе-
ния генеральной совокупности вли-
яет только на вид распределения
выборочных средних и то лишь при
определенных условиях (например,
если объем выборки мал). '
В этом виде формула для стан-
дартной ошибки среднего подтверж-
дает наше интуитивное представле-
ние о зависимости ошибки выбороч-
ного исследования от объема выбор-
ки Если брать все выборки из
одной генеральной совокупности,
то значение о в числителе будет по-
стоянным, а стандартная ошибка
среднего (наша характеристика
ошибки выборочного исследования)
будет уменьшаться с ростом п. Ра-
зумеется, для выборок из различных
генеральных совокупностей стан-
дартная ошибка будет зависеть
(как показывает формула) не толь-
ко от объема выборки, но и от а со-
ответствующей генеральной сово-
купности. Тем не менее, когда о ко-
нечно, на значении стандартной
ошибки среднего гораздо сильнее
отражается объем выборки, чем о.
Все эти моменты хорошо видны
на примере трех выборочных рас-
пределений из табл. 7.3. Поскольку
распределения при я=2 и л=3 явля-
ются полными выборочными распре-
делениями, их средние квадратиче-
ские отклонения, вычисленные по
обычным формулам, совпадают со
средними квадратическими отклоне-
ниями, вычисленными по формуле
б_=о/угл.Распределение при л=5
есть лишь аппроксимация полного
выборочного распределения. В связи
с этим величина oj-=0,3556, полу-
ченная по обычной формуле, не рав-
на с_ — я/Уп=0,3832. Тем не менее,
учитывая ограниченный характер
нашего эксперимента (всего 75 вы-
борок), результаты можно считать
удовлетворительными.
Стандартная ошибка среднего
является третьей из рассмотренных
нами характеристик типа среднего
квадратического отклонения. Двумя
другими были о (среднее квадрати-
ческое отклонение всей генеральной
совокупности) из (среднееквадрати-
ческое отклонение значений, относя-
щихся к одной выборке). В каждом
случае следует четко представлять
себе, о какой именно характеристи-
ке идет речь, и не путать их между
собой.
Выборочные распределения как
распределения вероятностей. Теперь
мы уже можем на примере трех вы-
борочных распределений из табл 7.3
изучить взаимосвязь между одним
значением X и величиной р. в тер-
минах теории вероятностей.
С увеличением объема выборки
вероятность Р(Х\— 5) уменьшается.
Другими словами, с увеличением
объема выборки вероятность полу-
чить значение выборочного средне-
го, которое будет сильно отличаться
от р, уменьшается. При п=2 Р(Х\=
=5) =0,0156; прнп=3 Р(Я,=5) =
=0,0020; при n=5 P(J?j=5)=0. Ко-
нечно, если бы распределение (&)
было полным выборочным распреде-
лением, последняя вероятность не
равнялась бы нулю. В этом случае
она была бы равна P(Xi=5)=
= 1/32768.
Смысл каждой из этих вероятно-
стей состоит в следующем: если из
генеральной совокупности, содержа-
щей 8 индеек, взять одну случайную
выборку, например, объемом л=3,
то вероятность того, что все 3 индей-
143
ки подряд будут весить по 5 фунтов
(только в этом случае выборочное
среднее оказывается равным Xi=
=5), равняется 0,0020. Тот факт,
что величина P(J1=5) уменьшается
с ростом п, полностью соответствует
нашему здравому смыслу. Учитывая
строение рассматриваемой гене-
ральной совокупности (в которой
только одна индейка имеет массу
5 фунтов), проще выбрать одну и ту
же индейку 2 раза подряд (л=2),
чем 5 раз подряд (л=5). Фактиче-
ски соотношение P(Ji = 5), или
Р(5,5,5,5,5) =1 /32768, тоже озна-
чает, что если взять 32768 выборок
л=5, то выборка, которая состояла
бы из одной и той же индейки (мас-
сой 5 фунтов), выбранной 5 раз под-
ряд, встретилась бы среди всех этих
выборок в идеальном случае только
один раз.
В то время как вероятность по-
лучить в качестве среднего значе-
ние, сильно отличающееся от ц,
с ростом п уменьшается, вероят-
ность получить среднее значение,
близкое к значению р, увеличивает-
ся. Как это отражается на величине
0_so/)/n? Лучше всего проана-
лизировать это на примере. Возьмем
некоторое прямоугольное распреде-
ление и построим другое распреде-
ление, имеющее те же средние точки
и ту же сумму частот, но иное рас-
пределение частот по средним точ-
кам. А именно, перераспределим
частоты таким образом, чтобы рас-
пределение стало колоколообраз-
ным. Размахи обоих распределений
будут совпадать, так как средние
точки не изменились, но среднее
квадратическое отклонение вто-
рого распределения будет мень-
ше. Таким образом, если взять
некоторый фиксированный интервал
вокруг точки р, то расположенная
над ним площадь под графиком рас-
пределения будет для колоколооб-
разного распределения больше, чем
соответствующая площадь в случае
прямоугольного или другого, более
пологого распределения.
Это дает основание предполо-
жить, что если на одном и том же
144
графике построить все три распре-
деления из табл. 7.3, пользуясь для
этого частостями (вероятностями),
то соответствующее л=5 распреде-
ление будет более островершин-
ным *, чем два других. Более остро-
вершинное распределение имеет
меньший разброс данных и, следо-
вательно, меньшее среднее квадра-
тическое отклонение, а значит, и
меньшую стандартную ошибку
(в применении к выборочным рас-
пределениям). Графически эта связь
между выборочными распределения-
ми показана на рис. 7.10.
Сравним теперь вероятности
/>(6^A’s^7) для этих трех выбороч-
ных распределений. Отметим, что
пределы 6 и 7 выбраны нами в зна-
чительной мере произвольно. При
л==2 Р(6<^7) =0,7812; при л=
=3 Р(6<^<7) =0,8085 и при л=5
Р(6^<7) =0,8799. Это снова
означает, что если отобрать одну
выборку л=3, то вероятность того,
что ее среднее значение будет за-
ключено между 6 и 7 включительно,
равняется 0,8085.
В этом примере границы рассма-
триваемого интервала (6<^Х’1^7) не
менялись, поэтому площадь под гра-
фиком, выраженная в относитель-
ных единицах, увеличивается. Это
связано с тем, что график становит-
ся все более островершинным,
уменьшается о— или растет объем
выборки п. Все три объяснения эк-
вивалентны.
Чтобы еще яснее представить се-
бе, как связаны среднее по одной
выборке и среднее по всей генераль-
ной совокупности, .постараемся по-
нять, что будет происходить с наши-
ми пределами, если сохранять пло-
щадь под кривой неизменной. Фик-
сируем для этого некоторую долю
общей площади, например число 0,6,
и найдем такие X' и X", чтобы
P(X/<JF<X,')=0,6. Эти значения
X найдем для трех случаев: л=2,
л=3 и л=5. Из предшествующих
1 В советской статистической литера-
туре наряду с термином «островершин-
ность» употребляется термин «эксцесс». —
Прим ред.
рассуждений ясно, что прн л=2 гра-
фик распределения будет иметь бо-
лее пологую форму, и, следователь-
но, расстояние между X' и X" при
п=2 будет больше, чем при п=3.
Теперь заменим X1 на у.—&с_, а
X” на	т. е. укажем, на
сколько единиц среднего квадрати-
ческого отклонения наши средние
отличаются от р. Другими словами,
примем X' — у- —	и А"' = р+
+ А»_. и вычислим некоторые ве-
роятности вида Р(Х' <X<X") —
= Р[(р — А»_) < X < (у. + Ла_)] для
п—2, п=3 и п=5 при постоянном
значении k. Можно показать, что
в случае нормально распределенных
генеральных совокупностей или для
больших по объему выборок рас-
пределение выборочных средних
также будет нормальным, В резуль-
тате расстояние между X' и X" бу-
дет уменьшаться с ростом п, но при
постоянном k площадь под графи-
ком не будет меняться независимо
от объема выборки. Для наших вы-
борочных распределений это не
вполне верно, так как генеральная
совокупность индеек не является
нормально распределенной, а раз-
меры выборок малы.
Итак, задача состоит в следую-
щем: 1) сравнить площади под гра-
фиком (убедиться в том, будут ли
они приблизительно равны друг дру-
гу) при п=2, п=3 и п=5 и 6=1;
2) сравнить площади под графиком
при п=2, п=3 и л=5 и 6=2;
3) понять, насколько эти площади
отличаются от площадей под нор-
мальной кривой для значений z,
соответствующих выбранным значе-
ниям k, т. е. для 2=1 и z=2.
Прн k = 1 и п = 2 Р (р — с_ <
< X < и + <з_)=Р [(6,375—0,6060)<
<Х<(6.375 +0,6060)1=Р(5.769 <
< X < 6,981) = Р (5,77 < X < 6,98).
Для этого интервала интерполиро-
ванная сумма частот равна 42,6. Это
значит, что 43 из 64 выборочных
10—232
средних значений из табл. 7.3,а по-
падают в интервал от 5,77 до
6,98 фунта. Интерполированная сум-
ма частей для того же интервала
равна 0,666, откуда Р(5,77<Х<|
<6,98) =0,666. Площадь под нор-
мальной кривой над тем же интер-
валом равна =„Л_| =0,683.
При 6=1 и п=3 рассматривае-
мый интервал имеет вид (6,375—
—0,4948) < Х< (6,375 + 0,4984) =
=5,88< j<6,87. Интерполированное
число выборочных средних, попа-
дающих в этот интервал, равно 345,
а интерполированная сумма относи-
тельных частостей — 0,674. Вероят-
ность Р(5,88<Я<6,87)=О,674 еще
ближе к значению 0,683 площади
под нормальной кривой и ненамно-
го отличается от значения 0,666, со-
ответствующего случаю п=2.
Таким образом, доля выборочных
средних, лежащих в пределах р±а_ ,
для п = 2 и п = 3 примерно одина-
кова. Однако при п — 3 интервал
у z±z о_ меньше интервала р zlr. а_ для
п = 2 из-за соответствующей раз-
ницы между средними квадратиче-
скими отклонениями (или стандарт-
ными ошибками).
Наконец, при п = 5 (р' — а'_ <
< X < р' + а'_) = (6,445—0,3556) <
< X < (6,445 +0,3556) = 6,09<Х<
<6,80 Чцсло выборочных средних,
попадающих в эти пределы, равно
50,8, округленно -- 51 (67,7®/0). Ины-
ми словами, Р[(р-о_)<^<(р +
+<>_)] яз 0,677. Можно сделать вы-
вод, что если из генеральной сово-
купности 8 индеек взять одну слу-
чайную выборку л=5, то с вероят-
ностью около 0,667 среднее по этой
выборке будет заключено между
6,09 и 6,80 фунтами. Величина
Р Кр' — 3'-) < Л” < (р' + о' ){снова
Л	Л
очень близка к двум предыдущим
значениям и к площади под соответ-
ствующим участком нормальной
кривой, однако сам интервал имеет
меньшую длину.
145
Будут ли площади под графиком
распределения выборочных средних
близки к площадям под нормальной
кривой и в том случае, когда рас-
пределение генеральной совокупно-
сти будет, например, U-образным
или прямоугольным? Для выборок
малого объема—нет, а для несколь-
ко больших выборок — да. На са-
мом деле даже для случая равно-
мерно распределенной генеральной
совокупности распределение выбо-
рочных средних будет очень близко
к нормальному уже при л=15.
Подобная же связь имеет место
и для интервала (р. — 2а_) < X <
<(р-ф2а_). Он имеет в 2 раза
большую длину (4о_ по сравнению
с 2а_ при k=l). Однако вследст-
вие того, что выборочные распреде-
ления имеют колоколообразную фор-
му. доля выборочных средних, ле-
жащих в пределах р,д±2с_, вовсе не
будет в 2 раза больше, чем соот-
ветствующая величина для проме-
жутка [х±с__. Эта доля будет равна
0,95 по сравнению с 0,68 в случае
и ± а_ .
X
Так, при й=2 и л=2 (р—2о_) <
+ 2о_) = (6,375 - 1,212) <
<Х<(6.375+1,212)=5,16<Х<7,59.
Число выборочных средних, попада-
ющих в этот интервал, равно 60,9
(т. е. после округления 61). аР[(ц—
— 2о_) < X< (р.2о_)] =0,952, что
хорошо согласуется со значением
=0,955. При д=3 (р-
-2а_) < X < ((р + 2а_) = (6,375 -
— 0,9896) < X < (6,375 + 0,9896) =
= 5,39<Х<7,36; число выбороч-
ных средних, попадающих в эти
пределы, равно 486, что составляет
0,949 всех 512 выборочных средних.
Другими словами, Р (5.39 <Х <
<7,36) = 0,949. Наконец, при п=?5
(р' - 2о'_) < X < (р' + 2о'_) =
= (6,445- 0,71 !)<*<
< (6,445 4- 0,711)=5,73 <
<У<7,16.
Число выборочных средних, лежа-
щих в этих пределах, равно 72. Это
составляет 0,956 от полного чис-
ла 75 выборочных средних, так что
Р Кр - 2а_.)< X < (р4-2о_)]^0,956.
Напомним^ что при k = 1 пределы
(р — йо_) < X < (р 4~	) имеют
вид 5,77—6,98 для распределения а
табл. 7.3, 5,88 — 6,87 для распреде-
ления б (при л=3) и 6,09—6,80 для
распределения в (при л=5), при-
чем в каждом из этих случаев дли-
на интервала равна 2а_. Числа вы-
борочных средних, попадающих
в эти пределы, равны соответствен-
но 43, 345 и 51. Они составляют
следующие доли полного числа вы-
борочных средних (в каждом слу-
чае— своего): 0,666; 0,674 и 0,677.
Именно эти последние значения сле-
дует сравнивать с n/l’-i =0,683.
Для Л=2 эти пределы таковы:
5,16—7,59 для распределения при
п=2; 5,39—7,36 для распределения
при п=3 и 5,73—7,16 для распреде-
ления в при п=5. В каждом случае
длина интервала равна 4с_. В эти
интервалы попадают 61,486 и 72 вы-
борочных средних Соответствующие
доли полного числа выборочных
средних составляют 0,952; 0,949 и
0,956, которые и надо сравнить
с значением пЛ2-2=0,955.
Теперь .мы можем сформулиро-
вать следующие правила. Если гене-
ральная совокупность распределена
по нормальному закону, то распре-
деление выборочных средних будет
нормальным уже при наименьшем
возможном объеме выборки п=1
Если распределение генеральной со-
вокупности не является нормаль-
ным, но имеет колоколообразную
форму, то распределение выбороч-
ных средних будет приближаться
к нормальному уже при л=5. Для
равномерно распределенной гене-
146
I
ральной совокупности понадобятся
уже несколько большие объемы вы-
борки (например, л=)5). Лишь при
таких значениях п распределение
выборочных средних будет близко
к нормальному.
Одно из характерных свойств
нормального распределения состоит
в том, что значение пА*'' будет
одним и тем же для любого нор-
мального распределения (другими
словами, не будет зависеть от сред-
них значений и средних квадратиче-
ских отклонений рассматриваемых
распределений). То же самое спра-
ведливо и для выборочных нормаль-
ных распределений, в частности для
нормальных распределений выбо-
рочных средних. Если взять величи-
ны Я' и а", отличающиеся от J на
фиксированное число средних квад-
ратических отклонений (которые
здесь называются стандартными
ошибками), то площади под графи-
ком над соответствующими отрезка-
ми всегда будут иметь одно и то же
значение. Это, вообще говоря, не
имеет места для биномиального рас-
пределения, распределения Стью-
дента и для некоторых других рас-
пределений.
Так, например, 0,68 площади под
графиком, или 68% выборочных сред-
них, лежит между X' и X", если
Х' = 1±-1 о_. a
х	X
где X = ft; 0,955 площади под гра-
фиком, или 95,6% выборочных сред-
них, лежит между ~Х' =р —2з_ и
X"—р.-|-23-; 0,997 площади под
графиком, или 99,7% выборочных
средних, лежит между	Зо_
и Аг" = (*4-3з_ . Разумеется, пло-
щадь под кривой можно найти и
для любого другого удобного числа
стандартных ошибок.
Если зафиксировать число стан-
дартных ошибок, определяющее пре-
делы pztzs—, то расстояние меж-
ду X' =р,— га- и Аг"=|л-}-.2»:_ бу-
10*
дет уменьшаться с ростом п, но пло-
щадь под кривой будет оставаться
постоянной. Уменьшение расстояния
связано с тем, _ что стандартная
ошибка а/У л является функци-
ей о и л. Для выборочных распреде-
лении, определенных на одной н
той же генеральной совокупности,
о будет константой, не зависящей от
п, а заявляется функцией только»
от п.
Поскольку в пределах со-
держится 0,997 площади под нор-
мальной кривой, с помощью значе-
ния z=3 легко найти точку, которую
можно приближенно считать наи-
меньшим значением нормального
распределения или наименьшим зна-
чением выборочного среднего. Та-
кое наименьшее возможное значение
X можно_вычислить, найдя величи-
ну X' — X — За_ . Точно так же
оценкой наибольшего значения бу-
дет знйчениеА"' = Х+Зз—.
В случае распределения с л=5
(табл. 7.3) наименьшее значение X,.
реально полученное в нашем огра-
ниченном (всего 75 выборок) экспе-
рименте, равно 5,8, а наибольшее —
7,4. Эти значения хорошо согласу-
ются с вычисленными по упрощен-
ному правилу:
—ЗУ 7/д = 6,375-
— 3 J<0,734375/5=5,2
и
X 4- з V^Iri = 6,375 +
+ 3 КО,734375/5 = 7,5.
Таким же путем мы можем ре-
шать и другие задачи подобного ти-
па. Пусть из нашей генеральной со-
вокупности, содержащей 8 индеек,
взята случайная выборка с л=20.
Среднее по этой выборке может
быть равно, больше, или меньше ц.
Однако, пользуясь нашим упрощен-
ным правилом, можно считать наи-
меньшим возможным значением
147
число
Х = -3e_ = 6,375-
х
- 3 У 0,734375/20 = 5,8.
Если из той же генеральной сово-
купности 8 индеек взять выборку
Л=50, то выборочное среднее вновь
может оказаться равным ц, боль-
шим р. или меньшим р.. Однако мы
вряд ли получим выборочное сред-
нее, которое меньше 6.375—
- 3 К0734375/50 =6,011 и боль-
ше 6,739.
Как же обстоит дело с такими
крайними значениями выборочных
средних, как 7=5 и 7=8? Конечно,
каждое из этих выборочных распре-
делений содержит некоторую ве-
§оятность того, что 7=5 и 7=8.
тими вероятностями, однако, мож-
но смело пренебречь. Действитель-
но, например, при п=50 вероятность
Р(7=5)=(1/8)Б0 (очень маленькое
значение). Именно это значение да-
ет вероятность 50 раз подряд вы-
брать индейку массой 5 фунтов.
Ддже если читатель возьмет 100 или
200 выборок п=50, ему скорее всего
не попадется выборочное среднее
меньше X = ц — За_ =6,011.	Как
показывают выборочные данные из
табл. 7.3,в, он не получит в качестве
выборочного среднего и само значе-
ние 7=6,011.
Интервал 6,011—6,739 уже до-
вольно мал. Это говорит о том, что
случайная выборка л=50 даст даже
в худшем случае (т. е. если иметь
в виду значения р — Зз_ и р.-|-Зо_)
очень хорошую оценку для ц. С дру-
гой стороны, как мы уже отмечали,
при п—2 худшее выборочное сред-
нее с заметной вероятностью может
оказаться равным 7=5. Поскольку
такое значение может получиться
в реальном выборочном эксперимен-
те, величину р. вряд ли стоит оцени-
вать с помощью выборки столь ма-
лого объема.
Оценивание р с помощью одной
выборки. Рассмотренные выше свой-
ства распределения выборочных
средних дают возможность оцени-
148
вать р, по 7, соответствующему
одной выборке, более формальным
путем. Это можно делать с помощью
так называемых «доверительных
пределов». Они обозначаются бук-
вами С. L. (от английского Confi-
dence Limits) и равны
C.L. =Х±&_.
X
причем
Р(Х-Ь_<р-Х + Ь_) =
А г, .
Широко распространена точка
зрения, что после того, как некото-
рое значение 7 по той или иной вы-
борке найдено, делать вероятност-
ные утверждения типа Р(5<ц<
<7)=е уже неправильно. Это мне-
ние хорошо сформулировано в книге
Хамбурга: «Нельзя делать вероят-
ностные утверждения о данном фик-
сированном интервале. Среднее по
всей генеральной совокупности не
является случайной переменной» *.
Автор предлагает следующее истол-
кование «Неизвестное нам среднее
по генеральной совокупности может
либо принадлежать рассматривае-
мому интервалу, либо не принадле-
жать ему ... Точное утверждение
состоит в том, что если из рассма-
триваемой генеральной совокупное-,
ти взять много случайных выборок
одного или того же объема и по
каждой из них построить интервал
7±1,96а_, то 95% утверждений, что
этот интервал содержит истинное
среднее по всей генеральной сово-
купности |хх, будут правильными*.
В настоящее время почти все со-
гласны с тем, что доверительный
интервал (но не р, которое, очевид-
но, является константой) есть слу-
чайная переменная2, а следователь-
но, вероятностные утверждения типа
Р[(7—Л) <р< (74-£)]=8 имеют
' Hamburg Morris. Statistical Analysis
for Decision Making. N. Y.: Harcourt, Brace
and World, 1970, p. 379.
s См., например, Samuel S. Wilks. Ma-
thematical Statistics. N. Y.: Wiley, 1962,
p. 366. Mood Alexander M., Graybill Frank-
lyn A., op. cit,» p, 251.
смысл. Например, можно сказать,
j что 95 интервалов из 100 будут со-
держать р. После того как значение
X найдено и получен интервал, на-
пример 5<р<7, величина X (или
соответствующий интервал) пере-
стает быть случайной переменной и
вероятностных утверждений вида
Р(5<р<7)=в делать нельзя.
Дисскуссия по этому вопросу бы-
ла начата Р. Фишером и Дж. Ней-
маном, причем первый поддерживал
позицию, соответствующую проци-
тированному отрывку из книги
Хамбурга, а второй выступал про-
тив нее1. Поскольку преобладает
точка зрения, что фиксированный
интервал не может быть предметом
вероятностного утверждения, чита-
тель может пренебречь подобными
утверждениями на последующих
страницах этой книги. Тем не менее
в пользу вероятностных утвержде-
ний можно привести следующую
аргументацию.
Во-первых, надо иметь в виду, что,
 истолковывая выборочный экспери-
мент в том смысле, что «95 интерва-
лов из 100 будут содержать р», мы
всегда основываемся на вероятност-
ном утверждении. Во-вторых, между
выражениями X—k<p.<X-]-k и 5<
<р<7 нет разницы с точки зрения
информации о том, содержит этот
интервал р или нет. Поэтому во вто-
ром случае вполне законно задать
вопрос: с какой вероятностью р по-
1 падает в интервал от 5 до 7?
Эта проблема довольно запутана
и, следовательно, допускает несколь-
ко истолкований в зависимости от
определения. Но основная причина
этого состоит, по-видимому, в сме-
шении двух разных понятий — ве-
роятности того, что некоторое X
(или соотве гствующие доверитель-
ные пределы) будет получено, и ве-
роятности того, что значение р по-
1 Fisher R. Statistical Methods and Sci-
entific Index. — Journal of the Royal Sta-
tistical Society, ser. B, v. 17, N 1, 1955,
p.‘69—78; Neymann J. Note on an Article
by Sir Ronald Fisher. — Journal of the Roy-
al Statistical Society, 1956, ser. B, v. 18,
№ 2, p. 288.
падает в некоторый' интервал/ Про-
иллюстрируем это различие на при-
мере.
Рассмотрим выборочное распре-
деление из табл. 7.3 при п=2 и р=
=6,375. Будем четко отличать дове-
рительные пределы (С. L.— Confi-
dence Limits) от доверительных
интервалов (С. I. — Confidence
Intervals). Примем, например,
С. I.i=l,0 и С. 1.3=2,0. Наше дис-
кретное выборочное распределение
содержит 64 возможных выбороч-
ных средних. При этом Р(Х=5,5)=
=0,1250, Р[С. L —(5,0—6,0)] =
=0,1250 для С. I.i = 1,0 и P[C.L.=
= (4,5—6,5) ] =0,1250 для С. 1.2=2,0;
кроме того, Р (^=7,0) =0,1875,
РГС. L.=(4,5—6,5)]=0,1875	для
C.I.i=l,0 и P[C.L.=(6,0—8,0)] =
=0,1875 для С. 1.2=2,0. В этом
смысле как Xi, так и С. L.y (но не
С. 1.<) являются случайными пере-
менными с равными вероятностями.
Теперь мы можем перейти к воп-
росу о том, какие доверительные
интервалы (C.I.) содержат р. Наша
цель —найти Р(СД. содержит р).
т. е. в других обозначениях Р (^С.1.).
При С.1., = 1,0 имеется 38 довери-
тельных интервалов, содержащих р,
откуда Р((1С.1.,)=38/64. Для С.1.,=
=2.0 имеется 58 интервалов C.I.,,
откуда Р (ИС1.,) == 58/64. ДляСЛ.,=
=4 вес доверительные интервалы
содержат р и РСС.1.1) = 1. Таким
образом, вероятность Р (А')=РС.1.=
= (X' — X") не следует смешивать
с вероятностью Р(иС.1.). Тот факт,
что значения X' и X" указаны, ни-
коим образом не влияет на наши
сведения о том, содержит ли ‘неко-
торый доверительный интервал С. I.
величину р.
Рассмотрим аналогичный при-
мер, а именно: пусть имеется
100 шаров десяти различных цветов
и пусть для простоты имеется 10 ша-
ров каждого цвета. Цвет в этом
случае эквивалентен выбору довери-
тельных пределов С. 1.<, и вероят-
ность выбрать шар некоторого цвета
равна Р(£с)=1/10. Если, помимо
149
цвета, на 95 шарах написана буква
р. то Р(£ц) =95/100. Если выбрать
наугад какой-нибудь один шар и
определить только его цвет (но не
наличие или отсутствие буквы р),
то вероятность Р (Е^ относительно
этого конкретного шара останется
равной Р(Е^) — 0,95. Этот результат
ничего не говорит нам о связи меж-
ду цветом и наличием р.
Проиллюстрируем это вероят-
ностное утверждение еще на одном
примере. Во дворе находятся
8 индеек. Мы хотим оценить их
среднюю массу, не взвешивая каж-
дую из них. Для этого выберем трех
(л=3) индеек одну за другой с воз-
вратом, взвесим их, вычислим сред-
нюю массу X, а затем попытаемся
получить доверительные пределы
С.L.=X±£n— Чтобы сделать это,
JC
нам необходимо знать значение а-*
X
Поскольку а__1=а/)/’3, нам надо
иметь либо само значение а, либо
некоторую его оценку.
Читателю может показаться
странным, что величина р неизвест-
на, и мы хотим оценить ее по выбор-
ке, тогда как значение о известно.
Как может р быть неизвестно, когда
а известно?
На практике часто бывает так,
что среднее меняется, а дисперсия
остается постоянной. Поэтому при-
ходится оценивать величину р
(установить, насколько она измени-
лась), используя для этого извест-
ное из предыдущего опыта значе-
ние о. Предположим, например, что
некоторое устройство обрезает
стальные булавки, доводя длину
каждой из них до некоторого тре-
буемого значения. Разброс получае-
мых длин (пусть даже очень незна-
чительный) может быть связан
с вибрацией мотора и недостаточной
подгонкой отдельных его деталей.
В то же время изменение средней
длины может быть обусловлено из-
носом (затуплением) режущего ме-
ханизма. При этом средняя длина
может меняться, тогда как среднее
150
квадратическое отклонение будет
оставаться одним и тем же (вибра-
ция машины остается постоянной).
Поэтому раз оцененным значением
о можно пользоваться и в других
случаях.
Когда величина о неизвестна,
вычисляют среднее квадратическое
отклонение s рассматриваемой вы-
борки (масса трех индеек), которое
И используется в качестве оценки
величины а в формуле s_ = s/]/3.
Будем считать, что в рассмат-
риваемом примере значение <з изве-
стно из предыдущего опыта и, сле-
довательно. а_ = рС, 734375/3 ==
—0,4948. Именно этим значением
мы пользовались при вычислении
PKn-feJ<S<(H+fe Я-
Пусть наша случайная выборка
дала следующие значения массы: 6,
8 и 6 фунтов, откуда Я=20/3=6,67.
Соответствующие доверительные
пределы имеют вид X ztz =
=6,67±Jfe-0,4948. При k — l дове-
рительные пределы равны 6,17—7,16,
при k—2 равны 5,68—7,66. Им соот-
ветствуют вероятности Р(6,17<р<
<7,16) и Р(5,68<р<7,66).
Что это за вероятности? Как
можно их получить, если выбороч-
ное распределение неизвестно? Если
есть основания считать, что при не-
которых условиях (большой объем
выборки в случае произвольной
генеральной совокупности или лю-
бая выборка из нормально распре-
деленной генеральной совокупности)
распределение выборочных средних
следует нормальному закону, то
можно воспользоваться нашим уме-
нием вычислять площади под нор-
мальной кривой. В частности, мы
можем сказать, что эти вероятности
таковы: Р(6,17<р<7,16)^0,68 и
Р(5,68<ц<7,66)«к0,955. Гак как
при вычислении этих пределов мы
приняли k=l и k=2, длины соот-
ветствующих интервалов равны
2а_ и 4з_ . После этого мы можем
X	X
заключить, что с вероятностью 0,68
величина р является числом, лежа-
щим между 6,17 и 7,16 фунта,
а с вероятностью примерно 0,955
р лежит между 5,68 и 7,66 фунта.
Однако значение р нам известно.
Попадает ли р=6,375 фунта в эти
доверительные интервалы? Да, по-
падает. Будет ли она всегда лежать
в пределах X ztz 3—(Л = 1)? Нет, не
обязательно. Выборочное распреде-
ление из табл. 7.3,6 показывает, что
можно выбрать такие три индейки,
что Л'=17/3=5,67, соответствующие
доверительные пределы будут иметь
вид С. L.=5,67±0,4948=5,18+-6.16,
и среднее по всей генеральной сово-
купности не попадет в эти гра-
ницы.
Эту проблему можно понять еще
лучше, если сравнить интервал (р—
— <Ь_) < X < (р	k<3_.) с интерва-
лом (X — Jb_)<p<(JV-|- Ла_). Вспом-
ним, что Л=1 и п=3, первый из
этих интервалов имеет вид (X’ <
<^<Х") = (р-Ь_)<Х<(р +
-Р £х_) = (5,88 < X < 6,87) и что в
эти пределы попадает 345 выбороч-
ных средних. Если мы теперь возь-
мем любую выборку с л=3, вычис-
лим X и построим вокруг X довери-
тельные пределы, ограничивающие
интервал той же самой длины (За-
при 6=1), то р попадает в эти пре-
делы во всех тех случаях, когда X
будет лежать внутри промежутка
5,88—6,87. Если окажется, что Х<
<5,88 или Я>6,87, то р не будет
лежать в доверительных пределах
Х±е~.
X
Тот, кто не знает статистику,
возможно, захочет действовать на-
верняка и возьмет в качестве дове-
рительных пределов С. L.=A" zt7а_.
В этом случае наш исследова-
тель может быть уверен в том, что
р попадет в его доверительные пре-
делы. Однако эти пределы будут
избыточно широкими (14а_), поэтому
оценка будет слишком грубой. Ана-
лиз приведенных выборочных рас-
пределений показывает, что 95%
всех выборочных средних попадает
в пределы pz*z2a_. Поэтому обычно
нет нужды брать доверительные пре-
делы, ограничивающие интервал
большебз— Иными словами, нет не-
обходимости выходить за пределы
С L.=Xzlz3a_..
X
Связь _мвжду интервалами (р —
- Аа_) < X < (р + feu.) и (Х-Ь_)<
<Cp<C(^ + ^-) ДЛЯ некоторых дру-
гих выборочных распределений гра-
фически показана на рис. 7.5—7.8
и др.
Ошибка выборочного исследова-
ния для бесповторной выборки.
Среднее квадратическое отклонение
распределения выборочных средних
имеет вид = а/Уп в тех случаях,
когда выборки отбираются с воз-
вратом или когда генеральная сово-
купность бесконечно велика. Это
среднее квадратическое отклонение
(стандартная ошибка) является
функцией они. Для постоянного о
(например, когда все выборки бе-
рутся из одной и той же генераль-
ной совокупности) величина0— зави-
сит только от п,
В случае бесповторных выборок
о_ =	V(tf—л)/(АГ—1)
(что можно получить с помощью ги-
пергеометрического распределения
из гл. 5). При л=2 полное выбороч-
ное распределение для нашей гене-
ральной совокупности восьми индеек
можно получить, исключив главную
диагональ из табл. 7.2. Теперь при
отборе выборки мы уже не можем
2 раза получить индейку массой 5
фунтов, так как во всей генеральной
совокупности есть только одна такая
индейка. Далее, вероятность того,
что нам дважды попадается индей-
ка массой 6 фунтов, равна (4/8) X
X (3/7)=12/56, а не (4/8)-(4/8) =
=16/64, как это было в случае,
когда выбранная индейка затем
151
возвращалась на место (испытания
были независимыми).
Чтобы перечислить полное выбо-
рочное распределение с п=3, можно
воспользоваться деревом исходов,
таким как было построено на
рис. 5.6,г. При этом число возмож-
ных исходов будет равно 336, а не
512, как в случае выборочного рас-
пределения, основанного на повтор-
ных выборках.
Для этого выборочного распреде-
ления вреднее значение равно ц
(т. е. Л=ц), но его среднее квадра-
тическое отклонение зависит от N,
а не только от о и п.
В гл. 5 конечный множитель
]/(jV — n)l(N— 1) обозначен через
FM. Было указано, что величина
FM не изменится, если ее перепи-
сать в виде
FM=V{N - п)/л = У1 - л/ЛГ.
Отсюда следует, что FM всегда
меньше единицы, а если отношение
п к N очень мало, то FM настолько
близко к единице, что вообще не от-
ражается на величине стандартной
ошибки.
При вычислении доверительных
пределов С. L. для бесповторных вы-
борок всегда следует умножать
на FM. Однако, если отношение п
к N мало, вычислять коэффициент
FM бессмысленно, так как он не
меняет величину стандартной
ошибки.
Это дает ответ на вопрос: каки-
ми выборками следует пользовать-
ся: повторными или бесповторными?
Если п составляет лишь небольшую
часть N (например, если n<0,05JV),
это не имеет значения. Но когда N
равно, например, 500, а п—300, луч-
ше использовать бесповторную вы-
борку. Стандартная ошибка средне-
го будет заметно меньше, чем для
повторной, и исследователь получит
более узкий доверительный интер-
вал и лучшую оценку величины ц.
7.1.2.	Распределение выборочных
дисперсий
Как уже отмечалось, среднюю
длину стальных булавок р в одной
152
партии вычисляют, например, для
того, чтобы сравнить ее с техниче-
скими условиями. Иногда ее оцени-
вают по данным той или иной вы-
борки. Точно так же, чтобы срав-
нить среднюю длину булавок одной
партии со средней длиной булавок
другой партии, величины щ и рг
можно либо вычислить непосредст-
венно, либо взять их оценки, полу-
ченные путем выборочного иссле-
дования.
Мы отмечали уже и то, что две
или более генеральные совокупности
можно сопоставлять с точки зрения
различия или совпадения не только
их средних, но и их дисперсий. Это
можно делагь, вычисляя дисперсии
или средние квадратические откло-
нения по всем данным каждой гене-
ральной совокупности. Дешевле,
однако, проводить такие сравнения,
пользуясь соответствующими выбо-
рочными характеристиками.
Для того чтобы оценить диспер-
сию генеральной совокупности по
Одной выборке, необходимо знать
свойства выборочного распределе-
ния выборочных дисперсий Как и
в случае выборочного среднего,
к этим свойствам относятся форма
графика выборочного распределе-
ния, величина ошибки выборочного
исследования и связь между $2 и о2.
В следующем примере мы рассмо-
трим лишь последний из этих во-
просов.
Для той же генеральной сово-
купности, состоящей из восьми
индеек, возьмем все возможные вы-
борки л=2 и вычислим их выбо-
рочные дисперсии. Как мы уже зна-
ем, формула для вычисления выбо-
рочных дисперсий отличается от
формулы для дисперсии генераль-
ной совокупности множителем в зна-
менателе. В формуле для выбороч-
ной дисперсии этот множитель на
единицу меньше:
s* = S(X;-X)B/(n-l).
При л=2 эту формулу можно пере-
писать в виде
з*=[(Х,_-Х)‘ +
-Н*,-АУ1/(2-1)
Если записать все возможные вы-
борки объемом п=2 в виде таблицы
(табл. 7.4), то все индексы в по-
Та блица 7.4. Все возможные выборки
л=2 из генеральной совокупности
табл. 7.1
Х1	Xl							
	6	1 8 |	1 5	8 1	Is 7 I		1 7 |	1 6
fi	0,00	2.00	0.50	0.00	0,00	0.50	0,50	0.00
8	2,ОЭ	0.00	4,50	2,00	2,00	0.50	0.50	2.00
5	0,50	4,50	0,00	0,50	3,50	2.00	2,00	0.50
fi	0.00	2.00	0,50	0,00	0,4»	0.50	0.50	0,00
6	0,00	2.00	0,50	0,00	0.00	0,50	0,50	0.00
7	0,50	0,50	2,00	0,50	0,50	0,00	0,00	0,50
7	0.50	0,5u	0/2)	3,50	0.50	0,00	0,00	0.50
6	0,00	2.03	0,50	0,00	0.00	0,50	0,50	0,00
Прммечлмме. Выборочные днсперсвш рассчитывают-
ся по формуле	1>.
следней формуле следует изменить
следующим образом:
- - *,7)’]/(« -1).
Например, в одну из выборок вхо-
дят две индейки, массы которых
JC3=5 и А'г=8. Среднее по этой вы-
борке можно либо вычислить, либо
взять из табл. 7.2. Подставляя эти
значения в формулу, получаем
= 1(5 - 6.5)’ + (8 - 6.5)1 /(2 “
- 1) = 4,50.
Выборочное распределение всех
выборочных дисперсий приведено
в табл. 7.5. Важным его свойством
является то, что среднее значение
Таблица 7.S. Экспе-
риментально* выбороч-
ное распределение (рас-
пределение выборочных
дисперсий)
s’i
'г
0,00
0,50
2,00
4,50
22
28
12
2
64
распределения выборочных диспер-
сий равно дисперсии всей генераль-
ной совокупности s2=a2. Причем это
равенство справедливо лишь в том
случае, если при вычислении диспер-
сий отдельных выборок мы будем
пользоваться формулой с п—1
в знаменателе. Как и равенство
X=p, оно выполняется независимо
от вида распределения генеральной
совокупности В связи с тем, что
s2=o2, каждая отдельная выбороч-
ная дисперсия s2 называется несме-
щенной оценкой истинной дисперсии
всей генеральной совокупности.
Форма распределения выборочных
дисперсий заметно отличается от
распределения выборочных средних.
Видна сильная скошенность, тогда
как распределение выборочных
средних практически симметрично.
Однако с увеличением объема вы- «
борки величина ошибки выборочно-
го исследования уменьшается и фор- '
ма распределения быстро становит-
ся симметричной.
Мы не будем здесь приводить
пример получения интервальной
оценки а2 с помощью s2. Для полу-
чения такой оценки необходимо не
только знать более точно вид вы- *
борочного распределения, но и
уметь пользоваться характеристи-
ками этого распределения.
В последующих разделах мы
рассмотрим несколько примеров вы- /
борочиых распределений выборочно-
го среднего и выборочных процен-
тов характеристик.
I
7.2.	ЭКСПЕРИМЕНТАЛЬНЫЕ
РАСПРЕДЕЛЕНИЯ ВЫБОРОЧНЫХ
СРЕДНИХ
7.2.1.	Теоретические
и экспериментальные выборочные
распределения
Когда генеральная совокупность
содержит дискретные данные и не-
велика по объему и когда объем
выборки тоже очень мал, нетрудно
перечислить все возможные выбор-
ки. Когда же генеральная совокуп-
на
Примечания: I. Данные
взяты нз табл. 7.4,
2. Среднее значение s»^=7»=
=E/i.s*./J//=0.734375=o».
ность велика или когда данные ее
элементы могут принимать непре-
рывно меняющиеся значения, един-
ственный способ получить выбороч-
ное распределение состоит в том,
чтобы воспользоваться теми или
иными общими математическими
методами. При этом выборочные
распределения описывают с по-
мощью непрерывных математиче-
ских кривых или дискретных функ-
ций. В задачах такого рода чаще
всего встречают следующие назва-
ния математических функций: функ-
ции нормального распределения,
биномиального распределения, рас-
пределения Стьюдента, Пуассона,
хи-квадрат, гипергеометрического
распределения и т д.
Некоторые из этих функций широ-
ко используются не только в зада-
чах, связанных с отбором выборки,
но и для описания распределений
генеральной совокупности данных.
Такой функцией является, например,
функция нормального распреде-
ления.
Математическая функция, исполь-
зуемая в выборочных исследова-
ниях, должна удовлетворять некото-
рым условиям, налагаемым на
функции распределения вероятно-
стей, или ее необходимо преобразо-
вать к такому виду. Как было по-
казано в гл. 5, это преобразование
состоит в приведении площади под
кривой к единице. Некоторые функ-
ции, например функция бино-
миального распределения, уже име-
ют такой вид. Их можно называть
функциями распределения случай-
ной переменной х, р или других.
Таким образом, самым общим явля-
ется понятие . «математическая
функция»; термины «функция ве-
роятностей», «функция распределе-
ния случайной переменной х» имеют
более узкий смысл и используются
в задачах, связанных с выборочны-
ми и вероятностными исследования-
ми. Например, распределение выбо-
рочных средних описывается при
определенных условиях нормальной
кривой, распределение выборочных
процентных характеристик — функ-
154
цией биномиального распределения;
выборочные дисперсии распределе-
ны по закону хи-квадрат с соответ-
ствующим числом степеней свободы
и т. д. В ряде случаев, когда рас-
пределение генеральной совокупно-
сти имеет конкретный вид, соответ-
ствующее выборочное распределе-
ние обладает теми или иными хоро-
шими свойствами. Так, если гене-
ральная совокупность распределена
по нормальному закону, некоторые
выборочные распределения будут
иметь некоторую вполне определен-
ную форму.
Графики многих из этих мате-
матических функций и функций рас-
пределения вероятностей можно по-
строить обычными методами высшей
математики. Многие из них мы уже
приводили выше. Иногда, однако»
полезно проверить, соответствует ли
наша теория опытным данным, по-
лученным на практике, а- именно»
интересно сравнить свойства мате-
матических функций распределения
вероятностей со свойствами экспери-
ментальных распределений.
7.2.2.	Распределение выборочных
средних
Читатель уже знаком с основными
свойствами распределения выбороч-
ных средних. Как мы показали»
Х=|а, а разброс значений выбороч-
ных средних около ц (ошибка выбо-
рочного исследования) измеряете»
величиной	независимо от
вида распределения генеральной со-
вокупности. С увеличением п ошиб-
ка выборочного исследования умень-
шается. Взяв выборку достаточно'
большого объема, ее можно сделать
настолько незначительной, что вы-
, борочным средним можно пользо-
ваться как точечной оценкой, т. е.
как истинным значением среднего-
по всей генеральной совокупности.
Если генеральная совокупность-
распределеца по нормальному зако-
ну (или если ее распределение близ-
ко к нормальному), распределение-
выборочных средних будет нормаль-
иым независимо от объема выборки.
Если генеральная совокупность не
является нормально распределен-
ной, распределение выборочных
средних не будет нормальным для
выборок малого объема. Однако
с увеличением размеров выборки
распределение выборочных средних
•быстро приближается к нормально-
му. Это явление описывается хоро-
шо известной математической тео-
ремой, которая называется цен-
тральной предельной теоремой.
Единственное ее требование состоит
в том, чтобы дисперсия генеральной
совокупности была конечной.
Сравним теперь теоретические
распределения с экспериментальны-
ми для генеральной совокупности,
объем которой значительно больше,
чем в рассмотренном выше примере
< 8 индейками. А именно, будем счи-
тать генеральной совокупностью на-
' бор длин 300 стальных булавок из
табл. 2.1 и рассмотрим различные
выборки из нее.
Распределение этой генеральной
•совокупности очень близко к нор-
мальному. Число элементов в ней
.настолько велико, что полностью
перебрать все возможные выборки
практически невозможно. Поэтому,
чтобы проиллюстрировать распреде-
ление выборочных средних, мы бу-
дем отбирать не все возможные вы-
борки некоторого фиксированного
объема, а лишь достаточно большое
их число. Под словами «достаточно
большое» обычно понимают по
крайней мере несколько сотен выбо-
рок. Однако основные свойства рас-
пределения выборочных средних
видны уже на меньшем материале
(60—70 выборочных средних). Разу-
меется, соответствующие кривые не
будут гладкими (как им положено),
и вычисленные по этим распределе-
ниям статистические характеристики
будут несколько отличаться от тео-
ретических значений. Тем не менее
такие ограниченного характера экс-
перименты очень полезны в учебном
процессе, и их можно без большого
‘ труда проводить в условиях семи-
нарских занятий.
Мы рассматриваем бесповторные
выборки, отобранные из нашей гене-
ральной совокупности стальных бу-
лавок без возврата. Среди них
66 выборок объемом п=6, 63 выбор-
ки п=20 и 68 выборок л=60. Для
каждой из этих выборок вычислено
среднее арифметическое. Примеры
таких вычислений приведены в табл.
7.6 Значения выборочных средних
для выборок каждого объема пере-
числены в табл. 7.7—7.9. Поданным
этих таблиц обычным способом были
построены распределения частот
(табл. 7.10—7.12). Таким образом,
три распределения из табл. 7.6 пред-
ставляют собой распределения ча-
стот данных трех выборок, а распре-
деления из табл. 7.10—7.12 являют-
ся экспериментальными распределе-
ниями выборочных средних.
Таблица 7.6. Распределения частот
выборочных средних значений
(по давным табл. 2.1)
«1;	= 6	=з 20			= 60
iXf |	'1	.х/ |	h	1	G
248	2	244	1	244	1
249	0	245	0	245	4
250	1	246	0	246	2
251	0	247	1	247	5
252	1	248	1	248	6
253	1	249	3	249	6
254	0	250	7	250	15
255	0	251	1	251	7
256	1	252	2	252	5
		253	3	253	2
	6	254	1	254	4
			—	255	2
			20	256	1
	1				60
Принечжяж		к; I tT-	= 251,17.	в, = 3.12521	=	
= 250.20.	=2.3308: JC			'= 249,80	, в, = 2,7172.	
2- Средние квадратические отклонения $ рассчн/а-					
ны по	формуле s =		У tf. (Xj-XH/ifEf,-1) =		
=	\Xt—XW (я—1). так как здесь If. = п.					
Сравнение отдельных выборок
с генеральной совокупностью. На
рис 7.1 построены графики трех вы-
борочных распределений и график
распределения генеральной совокуп-
ности. Напомним, что среднее по
всей генеральной совокупности рав-
но ц=250,2. Средние значения трех
155
f
50
50
20
iU
0
ZW z<rt 250	255	255
r Длина б у ладна, 10 3 дюйм
Рис. 7.L Сопоставление генеральной сово-
купности и трех выборок. Данные взяты
из табл- 2.4 (для генеральной совокупно-
сти) н из табл. 7.6 (для выборок)
Таблица 7.7. Выборочные средние
значения при л = 6 (выборки отобраны
из данных табл. 2.1)
251,17	249,17	248.50	250,00	250,67	251.00
250,17	248,83	250,83	249,33	250,00	251,17
249,33	251,17	250,17	251,17	249,83	250,67
251.00	250,33	249,67	250,00	249,00	250,67
250.50	251,17	250,83	252,17	249,50	249,33
249,00	250,50	250,17	251,17	249,33	251,67
249,67	249,17	250,67	249,67	250,17	219,83
252.50	249,50	249.67	250,00	250,50	251,17
249,17	248,67	250,67	249,67	249,67	250,17
250,50	251,00	250,00	249,33	249,67	250,50
24S,33	249,17	249,33	249,33	250,50	249,83
выборок, приведенных в табл. 7.6,
равны X] =251,2; Я2=250,2 и Я3=
=249,8. Поскольку мы знаем, что
все три выборки взяты из одной и
той же генеральной совокупности,
различие между Х3 и р обуслов-
лено случайным характером отбора
Таблица 7,8. Выборочные средние
значения при л = 20 (выборки отобраны
нз данных табл. 2.1)
250,20	249,70	250.65	249,35	249,40	250,25
250,15	250.20	249,85	251,00	250,05	249,15
250,20	250,25	250,05	250,05	249,40	250,00
250,75	250,95	251,15	250,50	249,85	250,50
250,20	249,60	250,20	250,45	250,80	249,30
250,20	249,45	250,40	250,05	251,00	249,95
250,15	249,75	250,05	249,80	250,90	250,50
249,80	249,20	249,90	249,20	250,35	•250,70
250,75	249.80	249,55	250,20	250.25	249,80
250,50 249,80	240,95 249,65	249,75 251,10	250,70	250,55	250,20
Таблица 7.9в Выборочные средние
значения при ч = 60 (выборки отобраны
из данных табл. 2.1)
249,80	249,53	250,30	250,22	249,93	249,90
250,50	249,87	249,93	250.02	249,92	219,72
250,10	250,45	249,63	249,97	249,87	250,10
250,20	250,32	249,37	249.67	249.90	250,50-
250,47	250,17	249,83	249,25	250,25	250.03
250,03	250,62	249,90	250.63	250,00	249,30
250,38	250,28	250,27	250,53	250,02	250,57
250,32	250,43	250,53	250,07	249,98	249,95
250,33	250,05	249,87	250,05	249.90	250,37
250,05	250,22	250,17	250.58	250,07	250,02
249,90	250,57	250,12	249.83	250,15	250,63
250,03	250,03				
выборки. Это и есть ошибка выбо-
рочного исследования. Выборочное
среднее Я2 не дает такой ошибки.
Таблица 7.10. Выборочное
распределение средних значений
(66 выборочных средних значений л — 6}
Д-шна булавки, 10’® дюйм, 1	h	f''{=1.1^1
248,0 < X <248,5	1	0,015
248,5 <Л< 249,0	3	0.045
249,0 < X < 249,5	13	0,197
249,5 <Д< 250,0	12	0,182
250,0 <Л< 250.5	11	0,167
250,0< X <251,0	13	0,197
251,0<Х< 251,5	10	0,152
251,5<ЛГ <252,0	1	0,015
252,0<Х <252,5	1	0,015
252,5 <Х< 253,0	1	0,015
	—	- »
	66	1,000
Примечание. 1. Дачял: изЯТЫ ИЗ табл. 7.7.
2. X=A0+crf Л./1Ь = 250.254-0.5(-6)/66=-
= 250,2045 - 250.2;
«•'- = с Кf =
==O,5V21O/66 — (—6/65)» = 0.89074 = 0.89Г.
о—= »/НГ = 2.53/^б"= 1,03.
Сравним теперь вид графика и
дисперсию каждой из трех выборок
(но не выборочные распределения)
с видом графика и дисперсией рас-
пределения генеральной совокупно-
сти. Что касается формы распреде-
ления выборочных данных прн п=6>
ее трудно описать и сравнить с тре-
156
Таблица 7.IL ВыЗорочнсе
распределение средних значений
(63 выборочных средних значения»
л = 20)
Длина булавки. -10“» дшйм	h	
249,0<Х< 249.2	1	0,016
249,2< Х< 249,4	4	0,064
249,4< Л< 249,6	4	0,064
249,6<Т < 249,8	5	0,079
249.8<Л< 250,0	10	0,159
250,0 < Л <250,2	8	0,126
250,2 <Х< 250,4	12	0,190
250,4<Х< 250.6	7	0,111
250,6sS X <250,8	5	0,079
250,8<Х< 25! ,0	3	0,048
25!.0<Х< 251,2	4	0.064
	™ 1—	
	63	1,000
Примечаний: Данные взяпы вз табл. 7.6.
2. Т"= Х0 + сГ/^Ш. = 250,1 4- 0.2-20/63 =
= 2&0J634 -250.2;
О'- = с	=
= 0,2 V M3/63—(20/63>> = 0,49228 = 0,492;
о— — ~^= У 1 — n/N — 2.53/^20 V 1—20/300=0,547,
х Vn
мя прочими графиками. В таких слу-
чаях хорошие результаты дает срав-
нение кумулят выборочного рас-
пределения и распределения гене-
ральной совокупности. Другие два
распределения (особенно выбороч-
ное распределение л=60) довольно
хорошо повторяют форму графика
распределения генеральной сово-
купности. Это сходство станет еще
более отчетливым, если перевести
частоты обоих распределений в ча-
стости. Соответствующие графики
построены на рис. 7.2: они хорошо
согласуются с нашим предположе-
нием о том, что по достаточно боль-
шой выборке можно с большой сте-
пенью точности определить свойст-
ва всей генеральной совокупности.
Средние квадратические отклоне-
ния каждой из трех выборок (не пу-
тать со стандартной ошибкой рас-
пределений выборочных средних)
244	247	250	253	256
^Цлина булавки, 10~3дюйм
Рис. 7.2. Сопоставление генеральной сово-
купности с выборкой объемом л=60. Дан-
ные взяты из табл. 2.4 (для генеральной
совокупности) и табл. 7.6 (для выборки).
Вычисления величин	здесь не
приводятся
равны соответственно «|=3,13, s2=
=2.33 и «з=2,72. Эти значения необ-
ходимо сравнить с значением о=
=2,53. Отметим, что значение « для
п=6 оказалось (по воле случая)
больше значения а.
Таблица 7.12. Выборочное
распределение средних значений
(68 выборочных средних значений, л=60)
Длина бупанкн.	10"« дюйм	h	Г,.=Л
249.2 < X <	С 249,4	2	0.029
249,4 <Х<	С 249,6	I	0,015
249,6	; 249,8	3	0,044
249,8 Л <	с 250,0	18	0,265
250,0^Л <	с 250,2	19	0,270
250,2 < У <250,4		12	0,177
250,4 <.Y<	с 250,6	10	0,147'
250,6<	с 250,8	3	0,044
•		68	1,000.
Примечания: 1. Данные взяты нз табл. 7.9 _
2. Т"= Хо4-	= 250.1 + 0.2 6/68 =
= 250,1176 = 250,1;
= с	] - (E/^./Efp. =
= 0,2 F 150/68-(6/68)« = 0,29652 = 0,297;
V1 — л/Л- = (2,53//бОЖ
X L1 63/300= 0,292.
157
Разница (или отсутствие таковой)
’между величинами s и о имеет
в теории и практике выборочных
исследований особое значение. Как
мы уже знаем, выборочная ошибка
•среднего измеряется с помощью спе-
циальной характеристики, которая
называется стандартной ошибкой
среднего и вычисляется по формуле
з- = а/’И«. Эта характеристика ва-
риации используется, в частности,
для вычисления доверительных пре-
делов. Как мы отмечали, иногда
значение о известно нам из преды-
дущего опыта. Если это не так, то
в качестве оценки о используют ве-
личину s и берут в качестве оценки
стандартной ошибки среднего
S—Однако величина s мо-
жет довольно существенно отличать-
ся от о, особенно когда ее значение
получено по небольшой выборке.
В случае одной выборки из трех,
рассмотренных нами в качестве при-
мера, s на самом деле оказалось
больше а. Чтобы учесть это обстоя-
тельство, следует, используя при вы-
числении доверительных пределов
s_ вместо а_ , принимать во вни-
мание объем выборки. Для выборок
небольшого объема стоит несколько
расширить эти пределы В соответ-
ствующем месте мы рассмотрим
этот вопрос более подробно.
Свойства распределения выбороч-
ных средних. Три распределения вы-
борочных средних, приведенные
в табл. 7.10—7.12 (которые не сле-
дует путать с распределениями са-
мих выборок в табл. 7.6), можно
использовать для проверки теорети-
ческих выводов, касающихся формы
графика распределения, совпадения
значений I и р. и формулы стан-
дартной ошибки среднего о_=а/Ул.
Графики этих трех распределений
построены на рис. 7.3. Число выбо-
рок в каждом из трех случаев (60—
70) слишком мало для того, чтобы
эти графики были гладкими кривы-
ми, поэтому на глаз нельзя опреде-
лить, насколько хорошо они при-
458
ближаются к нормальной кривой.
Единственное, что можно уверенно
сказать, — это то, что все они имеют
более или менее колоколообразную
форму и что график, соответствую-
щий п=60, является более островер-
шинным, чем два других.
ТЫ. 267	250	Z53	256
Длина булабки, 10 }дюйм
Рис. 7.3. Сопоставление генеральной сово-
купности и три распределения выборочных
средних (данные взяты из табл. 2.4 для
генеральной совокупн<хггн и нз табл 7 10—
7.12 для распределений выборочных сред-
них)
Каким же образом три выбороч-
ных распределения могут иметь раз-
личные графики и следовать нор-
мальному закону? Как мы уже зна-
ем, это можно понять, стандартизи-
ровав данные по формулам
zf = (Xt — A')/g_ и fi^f''t/с (см.
гл. 4, рис. 4.4 и 4.5). Если стандар-
тизированные распределения дают
примерно одинаковые графики, это
означает, что их можно описать
одной математической кривой. Кро-
ме того, будут совпадать и площади
под графиками, соответствующие
одним и тем же интервалам гори-
зонтальной оси. Именно этот факт
имеет особое значение для рассма-
триваемых нами вопросов.
Стандартизованные распределе-
ния выборочных средних дают три
графика, построенных на рис. 7.4.
Они очень похожи друг на друга,
поэтому нет причины сомневаться
в том, что они распределены по нор-
мальному закону, несмотря на то,
что до проведения стандартизации
их графики выглядели по-разному.
Если три (или более) распределе-
ния выборочных средних следуют
нормальному закону, то в пределах
ц ± гз_ будет лежать одна и та же
доля значений г независимо от раз-
мера соответствующих интервалов
Если, однако, одно распределение
Ряс. 7.4. Сопоставление трех стандартизо-
ванных экспериментальных распределений
выборочных средних (данные взяты из
табл. 7.10—7.12; частоты вычислены по
формуле f'i=f"i/c)
является нормальным, а другое бу-
дет, например, распределением
Стьюдента, то выборочные средние
(в %), попадающие в эти пределы,
будут различными.
Теория утверждает, что Х=ц.
Три значения X, вычисленных по
трем нашим экспериментальным
распределениям, подтверждают этот
вывод. Как видно из табл. 7.10—
7.12, эти значения равны 250,2; 250,2
и 250,1. Для эксперимента ограни-
ченного характера эти результаты
можно считать вполне удовлетвори-
тельными.
Вариация элементов распределен
ния выборочных средних характери-
стик определяется величиной о_ =
X
~с1Уп, а если я неизвестно, то
величиной s_ = s/yn. Если отбор
элементов в выборку проводится
бесповторно, то
3_ = (3//й) /1 - n/N.
Однако этой формулой пользуются
только при л>0,05Лг, поскольку при
n<0,05.W значение стандартной
ошибки очень мало меняется при
умножении на FM == У1 — (n/AZ).
Для п = 6 з_ = 3///г, так как
X
6 <<0,05 (300). Другими словами,
я_ = 2,53//6 = 1,03.
Для п = 20
з_ = (я//й) ]/ i -n.W =
X
= (2.53//20) /1 -20/300 = 0,547;
для п — 60
я_ = (2.53//6С) X
JC
х /1-60/300 = 0,292.
Соответствующие значения средних
квадратических ошибок, вычислен-
ные по обычным /формулам непо-
средственно по экспериментальным
распределениям выборочных сред-
них, приведенным в табл. 7.10, 7.11
и 7.12, равны соответственно 0,891;
0,492 и 0,297. Таким образом, теоре-
тические и экспериментальные ха-
рактеристики вариации выборочных
средних довольно хорошо согласу-
ются друг с другом.
7.2.3.	Доверительные пределы
Доверительные пределы, соответ-
ствующие стандартной ошибке, вы-
численной по экспериментальным
распределениям. Возьмем среднее
значение всей генеральной совокуп-
ности р=250,2, прибавим и отнимем:
от него одну стандартную ошибку и
рассмотрим для данных табл. 7.10'
(п=6) пределы 250,2 ±0,891 =
=249,31—251,09 (если округлять,
249,3—251,1). Сколько выборочных
средних значений из табл. 6.10 бу-
дет лежать в этих пределах? Интер-
полируя, получаем, что частоты,
соответствующие выборочным сред-
ним, попадающим в этот интервал,,
равны 5,2; 12; 11; 13; 2. В сумме они
составляют 43,2. Деля 43,2 на сумму
всех частот 2/<=66, получаем1
0,654. ,
Теперь мы можем сделать не-
сколько выводов довольно общего*
характера.
Если из генеральной совокупно-
сти, содержащей 300 значений дли-
ны булавок, взять одну бесповтор-
159 ,
ную выборку объемом л=6 и вычис-
лить среднее по этой выборке, то
с вероятностью 0,654 это среднее по-
падет в интервал 249,3—251,1, Дли-
на этого интервала равна 2 в' . Эту
информацию можно следующим
образом использовать при вычисле-
нии доверительных пределов. Возь-
мем одну выборку с л=6, вычислим
выборочное среднее X и вспомним,
что доверительные пределы имеют
вид
т. е.
X — Аа'_ < и. <* Д' + k<3'_.
X	Л
Когда мы вместо k подставляем
«единицу, значения р. попадают в эти
пределы с вероятностью 0,654.
Для п = 6. но при k — 2 рас"
сматриваемый интервал имеет вид
H±z2c'_, т. е. 250,2 zt 2 (0,891) или
248,2 — 252,0, Его длина равна 4я'_ .
Число выборочных средних, попа-
дающих в эти пределы, равно (пос-
ле интерполяции) 63,2, что состав-
ляет 0,95 всей суммы частот. Ве-
роятность того, что одно выборочное
«среднее попадает в эти пределы,
равна примерно 0,95. Если взять
одну выборку__и вычислить по фор-
муле C.L.—X ±:2а'— доверитель-
ные пределы, то с вероятностью
Ю.95 среднее по всей генеральной со-
вокупности будет лежать в этих
границах.
Наконец, при Л=3 интервал
имеет вид pzt3a'_, т. е. 250,2 ±
f ±3-0,891 или 247,5—252,9, Доля
выборочных средних, попадающих
в эти пределы, равна 0,997. Таким
•образом, если из генеральной сово-
купности, содержащей 300 булавок,
взять одну выборку п=6, то с ве-
роятностью 0,997 ее среднее попадет
в эти пределы. Если вычислить дове-
рительные пределы, соответствую-
щие £=3, то они почти наверняка
будут лежать по разные стороны
ют р.
' 160
%
Точно так же вычисляются грани-
цы интервалов и соответствующие
вероятности и для л=20. Используя
значение стандартной ошибки из
табл. 7.11, получаем, что р.±1а'~=
=250,2± 1 -0,492, т. е. рассматривае-
мый интервал имеет вид 249,7—
250,7. Число выборочных средних,
попадающих в эти пределы, рав-
но 42, т. е. 0,67 от 2/i=63. Эта доля
(при fc=l) почти совпадает с соот-
ветствующей долей выборочных
средних для п=6. Но поскольку
стандартная ошибка теперь меньше,
интервал 249,7—250,7 короче интер-
вала 249,3—251,1, соответствующего
п=6.
При k=2 требуемый интервал
имеет вид ц 2з'_ , т. е. 249,2—
X
251,2. Доля выборочных средних,
попадающих в эти пределы, равна
примерно 0,98, что не очень сильнр
отличается от значения 0,95 для п=
=6. (Теоретически они должны со-
впадать.) Интервал 249,2—251,2
вновь меньше соответствующего
интервала 248,4—252,0 для л=6.
Значению k—З соответствует
интервал 248,7—251,7, На этот раз
*он содержит все выборочные сред-
ние. Если бы эксперимент проводил-
ся нами более обстоятельно, мы
вряд ли получили бы такой резуль-
тат Если бы наше обследование
включало большее число выборок,
то интервал, отвечающий значению
й=3, содержал примерно 99,7% вы-
борочных средних.
Значениям я =60 и £=1 соот-
ветствует интервал pzhlo'_ =
=250,2± 1-0,297, т.е. 249,9—250,5 по
сравнению с 249,7—250,7 для п=
=20 и 249,3—251,1 для п=6. Число
выборочных средних из табл 7.12,
попадающих в эти пределы, равно
45, что составляет 0.66 полного чис-
ла выборочных средних. Это значе-
ние близко к соответствующим зна-
чениям для л=6 и п=20. Заметим,
что в идеале все эти доли для одно-
го и того же значения k должны со-
впадать.
При k=2 предел имеет вид
249,6—250,8 против 249,2—251,2 при
й=20 и 248,4—252,0 при n=6t и чис-
ло выборочных средних, попадаю-
щих в эти пределы, равно 65, т. е.
0,95 общего числа.. В случае двух
других распределений соответствую-
щие значения долей равны 0,98 и
0,95.
При k—З интервал имеет вид
249,3—241,1, и в нем лежат 67 вы-
борочных средних, что в относитель-1
ных единицах составляет приблизи-
тельно 0,99.
Получение доверительных интер-
валов с помощью нормального рас-
пределения. Вычисленные по рас-
. сматривасмым нами в качестве при-
мера экспериментальным выбороч-
ным распределениям относительные
величины (используемые как веро-
ятности) следует сопоставить с со-
ответствующими площадями под
нормальной кривой. Как мы уже
знаем, площади под нормальной
кривой, отвечающие рассмотренным
выше значениям k. равны: ^*-1=
=0,68, „Д 2_о=0,955 и ЯД’„3=0,997
Следовательно, в идеальном случае
(когда распределение выборочных
средних следует нормальному зако-
ну) вероятность того, что одно вы-
борочное среднее значение будет ле-
жать в пределах р_!=1з_, равна
0,68; вероятность того, чго одно вы-
борочное среднее попадает в преде-
лы (12л2с_, равна 0,955, и вероят-
ность того, что одно выборочное
среднее попадает в пределы р±3а_,
равна 0,997. Эти вероятности хоро-
шо согласуются с соответствующи-
ми вероятностями, вычисленными по
нашим экспериментальным распре-
делениям, которые равны: 0,654;
0,67 и 0,66 для Jfe==l, 0,95; 0,98 и 0,95
для k=2, 0,997; 1,00 и 0,99 для k—
=3. Значения вероятностей, соот-
ветствующие другим значениям k,
могут быть найдены таким же спо-
собом.
Если распределение выборочных
средних нс является нормальным
(например, в случае малых выбо-
рок из равномерно распределенной
генеральной совокупности), то зна-
11-232
чения вероятностей будут другими и
придется использовать иные мате-
матические кривые.
Отобрав из генеральной совокуп-
ности, содержащей 300 стальных
булавок, какую-нибудь выборку п=
=6, мы можем получить любое из
значений, перечисленных в табл. 7.7.
Предположим, что мы получили
первое из них, а именно А'=251,17.
Если из предыдущего опы,та нам из-
вестно среднее квадратическое от-
клонение генеральной совокупности,
мы можем вычислить доверитель-
ные пределы Ь-. которые дадут
интервал 251,17±2,53/)/б, т. е.
250,1—252,2 Обозначив число стан-
’дартных ошибок буквой z вместо k,
мы будем говорить, что при z=l
величина р с вероятностью 0,68 по-
падает в интервал 250,1—252,2. При
z=2 доверительные пределы имеют
вид С. L.=X’±2-1,03, т. е. 249.1—
253,2, и с. вероятностью 0.955 зна-
чение р будет заключено между эти- 
ми значениями. При z=3 довери-
тельными пределами будет 248,1—
254,3, которым соответствует веро-
ятность Р (248,р <254,3) =0,997.
Как мы видим, для каждого из
этих трех значений г соответ-
ствующие доверительные пределы
на самом деле содержат р
Возьмем еще какое-нибудь выбо-
рочное среднее значение из табл. 7 7,
например X—248,50. Доверительные
пределы для значений z, равных 1,
2 и 3, имеют вид 248,50z£zZ-1,03,
т. с. 247,5—249,5 для z—1, 246,4—
—250,6 для z=2 и 245,4—251,6 для
z=3. Это выборочное среднее нахо-
дится уже довольно далеко от ис-
тинного значения р и не попадает
в самый маленький нз рассматри-
ваемых трех интервалов — Х±1о_-
Два других интервала содержат р.
Точно так же можно вычислить
доверительные пределы при л=20 и
п=60, беря выборочные средние из
табл. 7.8 и 7.9. Для п=20
C.L. = X ± z (2,53/1/20) X
X V1—20/300,
161
т. e.'Xztz (0,547), а для п = 60
C.L =Xd= z(2.53//60) X
XVI- 60/300,
т. е. Х±г (0,292).
Изображение доверительных пре-
делов на графике. Все указанное
графически проиллюстрировано на
рис. 7.5—7.8. На рис. 7.5 показаны
распределение длин 300 стальных
Рис. 7.5. Выборочные распределения сред-
них (данные для генеральной совокупно-
сти взяты из табл. 2,4; графики выбороч-
ных распределений нарисованы от руки,
причем их размах равен шести стандарт-
ным ошибкам среднего)
Рис. 7.7. Доверительные пределы для
—20 (выборочное распределение средних
для ц—250,2, а=2,оЗ и л=20).
Горизонта чья а я ось та же, что и на рис. 7.6. Конвая
построена над интервалом н ± 3?— = 250.2 ± 1,64 —
= 246,6 4- 251.8, длина которого R = 251,8 — 248.6 =
= 6?— <* 3,28. Для каждого Л построены три домре-
Тельных интервала длиной 6з—= 3.38, 4;—= 2,19 н
2s-= 1.0& .—= (?//-; /]—/.V = (2,53/Kfti) X
X У'Г—21)/300=0.547
л —

5=250,2
п=б
253,3
л-~24в,5
I-----
Рис 7.6. Доверительные пределы для п—6
(выборочное распределение средних для
р=250,2, о=2,53 н л=6).
Кривая построена над ннт- риалом н * За—^2S0>2±
±3,09 = 247,2 — 253.3, длина которого /? = 253,3 —
— 247,2 = 6з— - 6,13. Для каждого Х~ построены Три
доверительных интервала длиной 6а—=6,18. 4а—=
X	X
= 4,12 п 21— = 2,01. Величина с— = VrT=2t53/V^~s3
х	х
= 1.03
162
X=Z51,17
J---------I—
251 Z5Z \ Z59-
Z97,Z	,	Длина
ОулаВки,
Х=25ОД #
_ Z99t3 t
XjZ99y80
X=Z50,22
„-6О
Г
Х=2Щ53
1---1---
2V7 29 д
5=250,2
X=Z50J
251,1 длина
ЛулаОка,
Рис. 7.8. Доверительные пределы для п=
— 60 (выборочное распределение средних
для р=250,2, о=2,53 и п=€0).
1 сджаонталысая ось 1Д же, что н на рнс. 7,6 и 7.7.
Кркрся 1ххт;оеия над интервалом и £ 3-— = 250 2 ±
*0,876=249.34-251.1, Длина которого R=251.1 — 249,3=
ж= 6т— **
*1
1.75. Для каждого X построены три довери-
тельных интервала дчнной 6т^= 1»75, 4з^ = 1,17 в
2;^s=0.58:>—= (o/V^) V'l—л/JV = (2.53/V60) х
Л j	X
X V Г—60/300.= 0,292
булавок и три выборочных распре-
деления выборочного среднего. Гра-
фики построены так же, как на рис.
7.3, с той лишь разницей, что взяты
теоретические (а не эксперимен-
тальные) выборочные распределе-
ния. Эти графики строились следу-
ющим образом. Наибольшими и
наименьшими значениями были
Р — Зс_ и р -f- За-., между которыми
были построены гладкие кривые.
Так, для п=6 наименьшим значени-
ем распределения считалось значе-
ние 250,2—3-1,03=247.2, а наиболь-
шим — 250.24-3-1,03 = 253,3. Для
«=20 наименьшее и наибольшее
значения равны соответственно
250,2—3-0,547=248,6 и 250,2+ЗХ
X0,547=251,8, а для «=60—250,2—
-3-0,292=249,3 и 250,2+3-0,292=
=251,1.
Смысл этих пределов состоит в
том, что если из генеральной сово-
купности, содержащей 300 стальных
булавок, взять какуЬ-нибудь выбор-
ку л=6, то вычисленное по ней вы-
борочное среднее будет не меньше
247,2 и не больше 253,2. Выбор
именно трех стандартных ошибок
(почему бы не взять, например, 3,2
иля 2,9) до некоторой степени про-
изволен, но, как показывает практи-
ка, за наименьшее значение нор-
мального распределения удобно
принимать*значение, которое натри
среднестандартные ошибки меньше
среднего значения.
На рис. 7.6—7.8 выборочные рас-
пределения рис. 7.5 построены еще
раз, но в более крупном масштабе,
что облегчит построение довери-
тельных интервалов.
Чтобы построить примеры дове-
рительных интервалов, мы взяли из
первых строк табл. 7.7—7.9 четыре
выборочных средних значения. Для
каждого из них вычислены три па-
ры доверительных пределов, соот-
ветствующих одной, двум и трем
стандартным ошибкам Как видно
из рис. 7.6, во всех случаях, когда от-
резок, представляющий доверитель-
ный интервал, отвечающий некото-
рому фиксированному значению z,
И*
пересекает вертикальную ось, пред-
ставляющую р, и соответствующие
доверительные пределы содержат
между собой величину р. Однако
в тех случаях, когда выборочное
среднее лежит слишком далеко от р
и когда доверительный интервал
слишком мал, соответствующий ему
отрезок не будет пересекать верти-
кальную ось, проходящую через точ-
ку р на оси абсцисс.
Длины этих отрезков ра-вны 2, 4
и 6 стандартным ошибкам соответ-
ственно. Если построить такие от-
резки для всех выборочных средних
значений табл. 7.7—7.9, то 68% от-
резков длиной в 2 стандартные
ошибки будут пересекать, а 32% от-
резков не будут пересекать верти-
кальну/b ось, проведенную в точке
р. Далее, 95,5% отрезков длиной в 4
стандартные ошибки будут пересе-
кать, а 4,5% не будут пересекать эту
ось; практически все отрезки длиной
в 6 стандартных ошибок’ будут пе-
ресекаться с ней. Это значит, что
если вычислить доверительные пре-
делы вида С. Ь.=У±1о_, например,
для 1000 выборочных средних (со-
ответствующих выборкам одного и
того же объема и взятых из одной
и той же генеральной совокупно-
сти), то 680 из них будут содержать
р, а 320 —не будут; если для той
же совокупности из 1000 выбороч-
ных средних вычислить доверитель-
ные пределы вида С. L.= X zt 2я_ ,
X
то 955 из них будут, а 45 не будут
содержать р, и, наконец, из довери-
тельных пределов вида С. L.=X+
4-Зз_997 будут и только 3 не будут
содержать р.	,
Далее, если взять’одну выборку
и вычислить доверительные пределы
C.L.J=Xzb 1о_ , то с вероятностью
0,68'значение р попадет в эти пре
делы. Две другие вероятности рав
ны Р (X - 2о_ <р<Х+ 2а_) =0.955
и Р (X - Зо_ < р < Z-pa _)=0,997.
В заключение отметим, что мы бе-
. ’	163
рем округленные значения числа
стандартных ошибок только для
удобства. Ниже мы будем пользо-
ваться для вычисления доверитель-
ных пределов другими значениями
z, например 1,64; 1,96 и 2,58.
Пример точечной оценки. Рас-
смотрим еще один пример. Допу- -
стим, что набор длин булавок из
табл. 2.4 представляет собой не ге-
неральную совокупность, а некото-
рую выборку объемом л=300, эле-
менты которой были отобраны бес-
повторно из некоторой большей ге-
неральной совокупности. Среднее
значение по этой выборке равно
Л'=250,2. Если из прошлого опыта
известно, что о=2,30, то мы можем
для того, чтобы оценить* ц, вычис-
лить соответствующие доверитель-
ные пределы. При z=2 имеем
Х^_ 2з_ У1 -
X
Поскольку мы знаем, что наша
гнеральная совокупность очень ве-
лика, нет необходимости умножать
на FM. Следовательно, дове-
рительный интервал ограничивается
значениями X 2е_. т. е. числами
250,2z!i2-2,30/j/300, и имеет вид
219,94—'250,46. Этот промежуток на-
столько мал, что величину Х=250,2
можно просто округлить до 250 и
использовать в качестве точечной
оценки. Другими словами, мы мо-
жем утверждать, что р^250.
7.3.	ЭКСПЕРИМЕНТАЛЬНЫЕ
/ РАСПРЕДЕЛЕНИЯ ПРОЦЕНТНЫХ
ХАРАКТЕРИСТИК ВЫБОРКИ
Предположим, что в коробке име-
ется 300 шариков и что часть из них
белого цвета. Возможно, что другие
шары тоже окрашены в различные
цвета. Нас будет интересовать лишь
вопрос о том, сколько белых шаров
находится в коробке. Поэтому бу-
дем считать, что шары бывают толь-
ко двух сортов — белые и небелые.
Аналогично в выборах на тот или
иной пост могут участвовать более
164
двух кандидатов и зубная паста мо-
жет быть более двух сортов, но в
процессе исследования каждую из
этих генеральных совокупностей
можно разбить на две части — тех,
кто будет поддерживать нашего
кандидата и всех остальных в пер-
вом случае, и на тех, кго предпочи-
тает наш сорт зубной пасты и всех
остальных — во втором.
Разумеется, каждую из этих ге- .
неральных совокупностей можно
разбить на большее число частей,
но тогда придется пользоваться со-
всем другими методами анализа вы-
борочных данных. Всюду в этом раз-
деле мы будем заниматься лишь
анализом дихотомных генеральных
совокупностей.
Для того, чтобы установить,
сколько белых шаров имеется в ко-
робке, можно просто перебрать всю
генеральную совокупность, делая
при каждом появлении белого шара
отметку из листе бумаги. Пересчи-
тав затем все отметки, мы получим
число успешных исходов NS. В на-
шем эксперименте эго число равно
120, а число неудач (выбор небело-
го шара) Л'Г=180, так что iVS-f-
+NF=3Q(). Результаты такого об-
следования лихотомной генеральной
совокупности обычно записывают
одним из двух способов: «число бе-
лых шаров равно 120 из 300» или
«процент белых шаров равен
(NS/N)  100=40», в наших обозна-
чениях л=40 %. Иногда результаты
выражают в долях,.тогда (NS/N)=
=0,4. Равенство NS-\-XF=N пере-
ходит в jr—|—(100—л) = 100 или л+
-г(1—л)=1 в зависимости от того,
выражаем ли мы данные результа-
ты обследования в процентах или
долях.
Если нет необходимости знать
точное значение л или NS для всей
генеральной совокупности, то л
можно оценить по некоторой вы-
борке. Эту выборку можно отобрать
как повторно; так и бесповторно,
хотя чаше пользуются бесповторны-
ми выборками. Перебор выборки
проводится так же, как и перебор
всей генеральной совокупности
с тем-лишь отличием, что 1VS-|-
4 NF=n, a NS/n—p.
Предположим, что некоторая вы-
борка /1=20 дала NS=7: Этот ре-
зультат можно сформулировать сле-
дующим образом: «в некоторой вы-
борке из 20 шаров 7 шаров белого
цвета». Можно предположить, что
результат этого выборочного экспе-
римента аппроксимирует связь меж-
ду число,м белых и небелых шаров
во всей генеральной совокупности.
В рассматриваемом случае NS{n=
=р=7/20=(0.35) • 100=35%. В этом
виде характеристика выборки р яв-
ляется непосредственной оценкой
параметра л.
Как и в других выборочных ис-
следованиях, значение р может со-
впадать или не совпадать с л. Если
выборка мала (например, п=3), то
вполне возможно, что мы получим
в ее составе 3 белых или 3 небелых
шара. Доля белых и небелых шаров
в выборке большого объема будет
даже в худшем случае довольно
близка к доле белых и небелых ша-
ров во всей генеральной совокупно-
сти. Другими словами, наибольшая
возможная разница между рил
(наибольшая возможная ошибка
выборочного исследования) будет
в случае большой выборки весьма
незначительна.
Взаимосвязь между величинами р
и л для выборок различного объе-
ма и ошибку выборочного исследо-
вания можно оценить, анализируя
выборочные распределения соответ-
ствующих выборкам значений NS и
р. Здесь возникают следующие
очень важные вопросы. Предполо-
жим, что мы взяли все возможные
выборки объемом п, вычислили все
значения р и построили их выбороч-
ные распределения. Будет ли сред-
нее всех выборочных р (обозначае-
мое pj>) равно я? Существует ли
«простая» формула для среднего
квадратического отклонения этого
выборочного распределения? Мож-
но ли описать распределение выбо-
рочных значений р некоторой мате-
матической функцией, что сущест-
венно облегчило бы вычисление ве-
роятностей того, что значение р.
полученное по какой-нибудь одной
выборке, будет отличаться от л не
более чем на некоторую заданную
величину.
Приближением к теоретическому
выборочному распределению явля-
ется экспериментальное распределе-
ние выборочных значений р или NS
для п, равного 5, 20 и 80. Эти вы-
борки были взяты из генеральной
совокупности, содержащей 300 бе-
лых и черных шаров, причем число
белых шаров во всей генеральной
совокупности было равно Лг5=120,
т. е. 40%. Среди этих выборок име-
ются 64 выборки п=5, 68 выборок
л=20 и 65 выборок п=80. Все они
отбирались бесповторно. Конечно,
, чтобы получить лучшее приближе-
ние соответствующих выборочных
распределений, следовало бы рас-
смотреть большее число выборок.
Однако по тем же причинам,
а именно, чтобы показать, что да-
же такие ограниченные эксперимен-
ты могут быть полезны и убедитель-
ны, мы взяли такое число выборок,
с которым можно работать 'В усло-
виях семинарских занятий.
В табл. 7.13 перечислены 64 вы-
борки с /1=5, приведено число ус-
пешных исходов NS—X и их доля
Р (в %) Ниже мы будем пользо-
ваться как обозначением .VS, так
и X.
Первое значение Xi=0 означает,
что в некоторой выборке н=5 вооб-
ще нет белых шаров, т. е. что все 5
шаров черные. Второе значение
Х-2=2 означает, что вторая из на-
ших выборок п=5 содержала 2 бе-
лых шара. В третьей выборке с п=
=5 имелся один белый шар и т д.
Во второй части табл. 7.13 все эти
значения приведены в процентах.
Таблицы 7.14 и 7.15 устроены ана-
логично.
Построенные по этим данным
распределения частот приведены в
табл. 7.16—7.18. В каждой из них
имеются два набора средних то-
чек—Х-. и pi. Важно отметить, что
длины соответствующих точкам Xi
интервалов группировок всегда рав-
165
Tja блица 7.13. Выбэрэчное исследование днхотомной генеральной совокупности,
п = 5 (число успешных исходов NS и процент успешных исходов р для 64 выборок
п =5 из генеральной совокупности с я^49»/,)
NS = х
0„2. 1. 3, 1, 2, 3, 1. 2, О. 3, 1. 1. 3. 1. 1. 2, 3. 3, 3, 2. 4, 2, О, I, 3, 2, 3, 2, 1, 1, 2. О,
3, 3 2. 2, 2, 2. 3. 3, 1, 3. 3. 2, 2. О, 3, 3. 3, 1, 1, 1, 2, 0, 2, 2, 2, 3, 1, 0, 4, 1, 3
A'S/rt = р
СО,	40, 20.	60,	20.	40.	60,	20.	40,	00,	60.	20,	20, 60, 20,	20,	40.	60.	60,	60,	40,	80,	40,	00.
20,	60,* 40,	60.	40,	20,	20,	40,	00.	60.	60,	40,	40, 40. 40,	G9,	60,	20,	60,	60,	40.	40,	00,	60
60.	60,-20,	20,	20,	40.	00,	40,	40.	40,	GO,	20,	00, 80, 20,	60
Га б л ни а 7.14. Выборочное исслед>вание днхотомной генеральной совокупности,
ж= 20 (число успешных исходов NS и процент успешных исходов р для 68 выборок
л 20 из генеральной совокупности с п = 40%)
NS«= X
4. 5, 10. 6, 6. 6, 6. 6, 7, 7. 6,”9, 9, 9, 10, 10, 9, 9, 8. 5. 10. 8, 9, 7, 7, 8, S. 7, 10, 9, 6,
10, 8, 5, 6, 7. 10 12, 3. 7, 7, 6, 9. 7-9, 10, 5, 11, 6. 9. 7. 8, 6. И, 9. 12, 12, 6. 7. 5, 7.
6, 8, 7. 9. 6, 9, 7
NS/n — р
20, 25.	50,	30,	30,	30,	30,	30,	35,	35.	30,	45,	45,	45,	50, 50, 45, 45, 40, 25. 50,	40, 45,	35,
35. 40,	25,	35,	50.	45,	30,	50,	40,	25.	30,	35,	50.	60,	15, 35, 35, 30, 45, 35. 45 ,	50, 25,	55,
30, 45,	35,	40,	30.	55,	45,	60,	60,	30,	35.	25,	35,	30.	40, 35, 45, 30, 45. 35
Таблица 7.15. Выборочное исследование днхотомной генеральной совокупности, л—80
(число успешных исходов NS и процент успешных исходов р для 65 выборок объемом
л = 80 из генеральной совокупности с я = 40%)
ns = x
41, 36.	27.	31,	34,	36.	33.	28,	32, 33,	40,	32i	28.	38,	30.	38,	30,	33.	33.	33,	30,	29,	28,	31,
24, 25.	40.	30.	27,	37,	37,	41,	26, 33,	34,	26,	34,	25.	28,	31.	32,	27,	36,	32,	33,	34.	34.	27,
37. 29.	29.	29,	32.	35,	35,	28,	34, 34.	27.	37.	33,	28,	39,	29,	30'
NSjn = р
51,25, 45,00,	33,75,	.38,75,	42,50,	45,00,	41,25,	35,00.	40,00,	41,25,	50,00,	40,00,	35,00,
47,50, 37,50.	47,50.	37,50,	41,25,	41,25.	41,25,	37,50.	36,25.	35.00,	38.75.	30,00,	31,25.
50.00, 37,50,	33,75,	46.25,	46.25,	51,25,	32,50.	41,25,	42,50,	32,50,	42,50,	31,25,	35,00,
38,75, 40,00,	33.75,	45,60.	40,00.	41,25,	42,50,	42,50,	33,75.	46,25.	36,25,	36,25,	36,25,
40,00, 43,75.	43,75,	35.00,	42,50,	42,50,	33,75,	46,25 ,	41,25,	35,00.	48,75,	35,25,	37,50
166
Таблица 7.16. Эксперименталыое
выборочное распределением = 5
(распределение выборочных процентов
р и числа успешных исходов X;
я = 40%, л = 5, ArS = Xt NS/n — р)
	pi	Х1	fi	
Р1	= 0	х.=о	Г = 6	/", = 0,0^4
Рг	= 20	Xt= 1	к = 16	/".— 0,250
Рз	= 40	Х, = 2	/,= 19	J", =x 0.297
А	= 60	х4=з	/< = 20	f''4x=0,3J3
Ре	= 80	Xs=4	fs=2	/", = 0,031
А	= 100	X. = 5	f. = J 64	f"t = 0,015 1,000
Прныечхнн* р'р = 40 -f- 20(—1/«И)=39,7%.
= 24-1(^1/64);= 1.96» Ир = ж = 40%. р.х = пж =
~ 5*0,4 = 2; о'х = I /77/64 —(0.31Р = 1.03. о'₽ =
= 2Э V77/64 - (Э.ЗП* = 21.0%, ор = V « (100—п)/л =
= V40,60/5 = 21,9%, з = Fn« (I — к) = V5-0,4-0.6=
= 1,09.
Таблица 7.17. Экспериментальное
выборочное распределение л = 20
(распределение выборочных процентов р
и числа успешных исходов X; « = 40%,
п = 20, ATS = Л, NS/n = р)
pi	xi	fi	p'
0	0	0	0.000
5	1	0	0.000
10	2	0	0,000
15	3	I	0,015
20	4	I	0,015
25	5	6	Op 088
30	6	14	0,206
35	7	14	0.206
40	8	6	0.088
45	9	13	0,191
50	10	9	0,133
55	11	2	0.029
60	12	2	0,029
65	13	0 •	0.000
95	19	0	0,000
100	20	0	0,000
			
		68	1,000
Примечание. = 35ч5-(44/68) — 38,?%, ц'х =
= 7+1-(44/б8) = 7,5$,	1*р=« = 40%, Цх=п« =
— 20-0,4 = 8; о'р = 5 У 284/68(44/68)» = 9.69%, «'х =
= I У264/6Й(44/Й8Р - 1,94, ср •= ¥«U00-K)/n X
у Fl — n/S = F 40-60/ЭД Ff — 20/303 = 10.6%.
ax = Fnn (1 — «) Fl — n/tf = F20-0,4*6,6 X
X У I — 20/300 — 2.12.
Таблица 7,18. Экспериментальное
выборочное распределение п — 8
(распределение выборочных процентов р
и числа успешных исходоз л; я = 40%,
п = t0, NS Х9 NS/n = /?)
Pi	xl	fi	p‘ <•'<> = 57 = '"/	a
00.00	0	0	0,000	5 ъ *
01,25	1	0	0,000	
02,50	2	0	o.coo	%
				f
				J
28,75	23	b	O.OGO	4
30,00	24	i	0,015	
31,25	25	2	0,031	S
32,50	26	2	0,031	a
33,75	27	5	0,077	
35,00	28	6	0,092	4g
36,25	29	5	0,077	v
37,50	30	5	0.077	
38,75	31	3	0.046	t
40. CO	32	5	0.077	
41,25	33	8	0,123	
42,50	34	7	0,107	
43,75	35	2	0,031	
45,00	36	3	0,046	
46,25	37	4	0,062	
47,50	38	2	0,031	-
48.75	39	1	0,015	L
50,00	40	2	0,031	
51.25	41	2	0,031	
52,50	42	0	o.ooo	k
• •	 	0	> 	j
98,75	79	0	0.000	J
100.00	80	.0	0.000	
		 M		J
		65	1,000	
Примечание. Н?р= 41,25+ 1,25-(—63/65)=40.0.
1*'х = 33 + 1 -(-63/65) = 32.0. Нр = * = -»0%- Р-х»
= ли = 80-0,4 = 32; ofp = 1.25 V+227/65-(—63/65^=
= 5.29%, »'х= 1 /17227/05 — (—63/65)» =4.24. ор =
= /х(1£Ю-«)/п /1 — л/Л = /40-60/80 /1 — 8/300 =
= 4.7%, ах = /лх (1 — в) /1	= /80-0,4-0,6Х
X /I — &)/30О = 3,75.
ны единице. Величины интервалов
группировок, соответствующих сред-
ним  точкам Pit не имеют особого
значения. В идеале все средние точ-
ки Х{ должны принимать целые зна-
чения — от 0 до л. т. е. число сред-
них точек должно быть на единицу
больше объема выборки. Средние
точки pi всегда начинаются нулем и
заканчиваются величиной' 100% не-
зависимо от объема выборки. В во-
167
просах, связанных с выборочными и
вероятностными исследованиями,
величины Xj и называются дис-
кретными случайными переменны-
ми.
Частоты каждого из трех выбо-.
рочных распределений были затем
вереведены в частости, после чего
их можно было использовать как
вероятности. Так, в табл. 7.16 зна-
чение частоты fi=6, соответствую-
щее Л|=0, означает, что из 64 вы-
борок объемом /1=5 ровно 6 выбо-
рок будут содержать только черные
шары. Шестнадцать выборок (f2=
=16) будут содержать один белый
шар (Х2=1), т. е. 20% (р2=20).
В 19 выборках (/з=19) белыми бу-
дут 2 шара (Х3=2), т. е. 40% (р3=
=40) и т. д.
Распределение из табл. 7.17 (п=
=20) вообще не содержит выборок
с 0. 1, 2, а также с 13, 14,	19 и
20 белыми шарами. Имеются толь-
ко одна выборка с тремя (что со-
ставляет 15%) белыми шарами и
только 2 выборки с 12 (60%) белы-
ми шарами. Это говорит о том, что
для выборок большего объема вы-
борочные проценты даже в худшем
случае {,15 и 60%) ближе к истин-
ному значению л=40%, чем для вы-
борок с п=5.
При л=80 из 65 выборок такого
объема только одна содержала 24
белых шара. Это составляет
30,00%. Наибольшее число белых
шаров в выборках /1=80 равно 41,
т. е. 51,25%, Эти значения еше бли-
же к л=40%, чем приведенные вы-
ше крайние значения для /1=20.
Если все частоты перевести в ча-
стости, то ими можно будет пользо-
ваться как вероятностями. Напри-
мер, в табл. 7.18 Р2н=35,00, т. е.
Х2й=28 и /2Э=6. В частостной фор-
ме /"23=0,092. Эту величину можно
интерпретировать следующим обра-
зом: если взять одну выборку л=
=80, то с вероятностью 0,092 белых
шаров в ней будет 28, т. е. белые
шары будут составлять 35,00% об-
щего числа шаров. Другими слова-
ми.	Р(р2д=35,00)=Р(Х29=28) =
=0,092. Складывая первые 30 час-
168
тостей друг с другом, получаем .
зо
£ Г/= 0.323.
<=i '
Это значит, что если взять одну вы-
борку п=80, то вероятность того,
что она будет содержать 29 или ме-
нее белых шаров, равна 0,323. Дру-
гими словами, вероятность получить
выборку, содержащую 36,25% или
менее белых шаров, равна (при п=
=80) 0,323. Это можно записать
в следующей форме: Р(Х,^29)=
= Р(р,гС36,25) = 0,323. Далее
37
2 Г (=0,676, т. е. P(28^Xi<36) =
7=29
=Р (Зо.ОО^р^б.ОО) =0,676.
Теперь сравним еще раз эти три
выборочных распределения друг
с другом. Как видно из табл. 7.16,
если объем выборки мал (напри-
мер, /1=5), некоторые из выборок
будут содержать крайние значе-
ния — 5 или 0 белых шаров. Если
мы хотим оценить истинное значе-
ние л с помощью выборочных про-
центов р, нам придется сказать, что
«процент белых шаров в генераль-
ной совокупности может быть за-
ключен в пределах от 0 до 100%».
Таким образом, пользоваться столь
маленькими выборками нет смысла.
Отметим, однако, что этот вывод
справедлив лишь для дихотомных
генеральных совокупностей. На про-
изводстве в процессе контроля ка-
чества изделий очень часто прихо-
дится иметь дело с выборками объ-
емом п=5 и даже меньше.
Выборочное распределение из
табл 7.17 показывает, что при п=
=20 наименьшее значение р равно
15%, а наибольшее — 60%. Нако-
нец, при /г=80, как видно из табл.
7.18, наименьшее значение р равно
30%, а наибольшее — 51,25%-
Эти и другие интересные обстоя-
тельства проиллюстрированы на
рис. 7.9 и 7.10. На рис. 7.9 построе-
ны как графики экспериментальных
распределений для п, равного 5, 20
и 80, так и графики соответствую-
щих теоретических распределений.
Вообще говоря, эксперименталь-
ные распределения выборочных про-
центных характеристик (или выбо-
рочных величин jVS) описываются
биномиальным и гипергеометриче-
ским распределениями. Если л от-
личается от 50%, то для выборок
небольшого объема оба распределе-
ния скошены, но с увеличением объ-
ема выборки они приближаются
к нормальной кривой.
•, i_i______।----1—।----------1-------л
0 1	5	В	Ю	15	X
I---1-----1---U---1—2------1----1——।
о	ю	го зозг м so	so	гог"
Рис. 7.9. Биномиальные и эксперименталь-
ные выберочные раслрсделения при л=
—40% и п, равном 3, 5, 20 и 80 (экспери-
ментальные данные взяты из табл. 7.16—
7.18):
J — экспериментальное рзсггрсд&зение; ? — бино-
миальное распределение
Несколько различных биномиаль-
ных распределений приведено в
табл. II (см. приложение). Чтобы
получить биномиальное распределе-
ние с параметрами п=20 и л—40%,
найдем в первом столбце значения
равные 0, 1, ..., 20, и возьмем
частости из того столбца, над кото-
рым написано значение 0,40. В сум-
ме эти частости равны единице, по-
этому ими можно пользоваться как
вероятностями. Чтобы эксперимен-
тальные распределения можно было
сравнивать с биномиальным, их
частоты также следует перевести
в частости.
Многие выборочные процентные
характеристики для л=3 дадут точ-
ки, аналогичные полигону, постро-
енному на рис. 7.9 для П]=3. Отме-
тим, что полигон, соответствующий
П2=5, все еще скошен, но биноми-
альное распределение, отвечающее
л3=20, уже очень близко к симмет-
ричному. Это соответствует тому,
что мы уже знаем, а именно, что при
малых п биномиальное и гипергео-
метрическое распределения снимет-'
ричны при л=50% и скошены при
Лт^50%, с увеличением объема вы-
борки оба они приближаются к нор-
мальной кривой.
Но когда выборочные процентные,
характеристики описываются бино-
миальным распределением, а ког-
да — гипергеомегрическим? Бино-
миальным распределением пользу-
ются в тех случаях, когда выборки
отбираются повторно или когда для
бесповторной выборки n<0,05 N.
Если выборка берется бесповторно и
н>0,05 N, то выборочные проценты
имеют гипергсометрическое распре-
деление.
На рис. 7.9 экспериментальное
распределение для п2—Б должно
Рис. 7.10 Биномиальные распределения
при л=40% и л, равном 8. 20 и 3200
169
описываться биномиальным распре-
делением, так как 5< 0,05-300. Рас-
пределение выборочных процентов
при п3=20 представляет собой пере-
ходный случай, поэтому нет боль-
шой разницы, пользоваться ли би-
номиальным или гипергеометриче-
еким распределением. Однако при
я3=80 (80> 0,05-300) наше распре-
деление следует определенно срав-
нивать с гипергеомегрическим. Как
биномиальное, так и гипергеометри-
ческое распределения для л=40% и
л=20 уже очень близки к нормаль-
ному. В то же время различие меж-
ду биномиальным и гипергебметри-
ческим распределениями и нормаль-
ной кривой в случае л=40 % и п=3
очень заметно.
Будет ли среднее распределения
выборочных процентов равняться л?
Как было показано в гл. 5, цР=л и
р,х=«л. Три рассмотренных экспе-
риментальных распределения под-
тверждают этот теоретический вы-
вод. Так, вычисленное по формуле
быстрого счета среднее выборочных
процентных характеристик из табл.
7.16 равно у,'р=39,7. Оно хорошо со-
гласуется с значением •ц.р=л=40%-
В терминах X, величина p'x=l,98
также очень близка к цх=лл=2.
Соответствующие величины, вычис-
ленные по данным табл. 7.17 и 7.18,
равны: для л=20 р,'р—38,2 по срав-
нению с рр=л=40°/о, при этом ц'х=
=7,65, а р,х=ля=8; для п=80 ц'р=
=40,0 и точно так же рр=л=40%,
при этом ц'х=32, а Цх=/1л==32.
Все эти величины можно сравнить
с помощью графиков на рис. 7.9;
чтобы сделать сравнение более на-
глядным, мы построили несколько
горизонтальных осей с разными
масштабами. В табл. 7.16—7 18
каждое из выборочных распределе-
ний имеет два набора средних то-
чек— pi и NS=Xi. Средние точки
р,- всегда изменяются от 0 до 100.
Поэтому на рис. 7.9—7.11 имеется
только одна горизонтальная ось, на
которой складываются значения pi.
Значения средних точек А',- изменя-
ются от 0 до п, в связи с чем для
каждого выборочного распределе-
но
ния приходится пользоваться своей
осью X.
Если по средним точкам pi вы-
числить значения цр, то рр-=л не-
зависимо от объема выборки. Зна-
чения будут, конечно, разными
для разных л, но все они будут ле-
жать точно' под соответствующим
значением л на оси р. Равенство
значений рр и л позволяет сделать
вывод, аналогичный сделанному на-
ми в связи с совпадением X и ц.
Это равенство дает нам возмож-
ность оценивать значение л по вы-
борочной характеристике р с боль-
шей степенью точности, чем это
можно было делать при цР^=л.
Как и для выборочных средних,
если из дихотомнон генеральной со-
вокупности взять одну выборку, то
вычисленный по ней выборочный
процент р может как равняться, так
и нс быть равным л. Разность меж-
ду р и л, которая определяется слу-
чайными факторами, а именно эле-
ментами, которые попали в данную
выборку, называется ошибкой вы-
борочного исследования (или выбо-
рочной ошибкой). Точнее говоря,ве-
личина этой ошибки определяется
характеристикой вариации выбороч-
ного распределения. Если выборки
отбирались повторно или если для
бесповторных выборок л<0,05 А/, то
в качестве характеристики вариации
данных выборочного распределения
pi или Xi можно использовать сред-
нее квадратическое отклонение би-
номиального распределения, кото-
рое можно вычислить по форму-
лам
=	(100
К
(для того случая, когда средние
точки выражены в процентах) и -
ах =^1'rnn (1 — it)
(когда средние точки выражены в
единицах М5=Х<). Величину <тР на-
зывают также стандартной ошибкой
выборочного процента. Если одно из
этих средних квадратических откло-
нений известно, то второе легко по-
лучается из него умножением на п,
а именно:
1 Г ъ (I — к)
ож = Я3р = «У- >- =
— j/«,Я(1 _	= ]/дц (1 _ т).
Если выборки берутся без воз-
врата и распределение выборочных
процентов задается гипергеометри-
ческим распределением, то аппро-
ксимация среднего квадратического
отклонения будет иметь вид:
ор = уп (100 — ъ)/п /1 — n/N
или
оЛ = ]/nit (1 — я) /1 — n/N.
Стандартная ошибка выборочных
процентов хорошо согласуется со
средними квадратическими откло-
нениями экспериментальных рас-
пределений, приведенных в табл.
7.16—7,18. Для п=6 о/Р=21,0, а
ар=21,9%; для п—20 о/Р=9,69%, а
Ор=Ю,6% и для л—80 0^=5,29%,
а ор=4,7%. Биномиальное распре-
деление для «=3200 построено на
рис. 7.10. Его среднее квадратиче-
ское отклонение, т. е. стандартная
ошибка выборочного процента (в
используемой нами терминологии),
равна ор = /40-60/3200 --= 0,87%.
Это показывает, как уменьшается
выборочная ошибка с увеличением
объема выборки.
Средние квадратические отклоне-
ния, выраженные в абсолютных
значениях X (число успешных исхо-
дов), увеличиваются с ростом п, но
их нельзя непосредственно сравни-
вать друг с другом. Как мы уже от-
мечали, средние квадратические от-
клонения можно сравнивать друг
с другом лишь в тех случаях, когда
средние значения соответствующих
распределений одинаковы или мало
отличаются друг от друга Если рас-
пределения не сопоставимы, то
можно вычислить соответствующие
коэффициенты вариации. В случае
наших биномиальных распределе-
ний они также будут уменьшаться
с ростом п. Например, для л=6
Ох/цх=1,09/2=0,545 [где ож=
= У (1 — и) и Цх=лл], для «=20
^/1*^=2,12/8=0,265, для л=80
^/^==3,75/32=0,117 и т. д.
Рассмотрим теперь вопрос о том,
как можно использовать знание
распределения выборочных про-
центных характеристик для получе-
ния оценки по одной выборке. Для
этого мы снова воспользуемся по-
нятием интервальной оценки и до-
верительных пределов. Будем рас-
сматривать лишь распределения,
соответствующие достаточно боль-
шим значениям п (т. е. те, графики
которых близки к симметричным).
Поведение скошенных распределе-
ний мы рассмотрим несколько ниже.
Начнем с биномиального распре-
деления выборочных процентных
характеристик, соответствующих ге-
неральной совокупности с парамет-
рами л=40%, Af=300, и пусть п=
=20. Тогда
f
Зр = /й (100 - Т)/2О =
= /40-60/20 = 10,95
и
Од =	(1 -тг) = 20-0,4 0,6 =2.19.
Это биномиальное распределение
приведено в табл. II (см. приложе-
ние), а его график построек на рис.
7.10. Оно описывает распределение
выборочных процентов в тех случа-
ях, когда выборки отбираются по-
вторно или когда беспов горные вы-
борки отбираются из относительно
большой по объему генеральной со-
вокупности.
Интервал Цр±1ор имеет вид 40±
±10,95, т. е. 29,1—51,0, а р.х±1ох
дает 8±20-0,4-0,6, т. е. 5,8—10,2.
Сумма частостей, соответствующих
точкам, лежащим в этих пределах,
для биномиального распределения
табл. II (см. приложение) совпада-
ет с. суммой частостей, отвечающих
средним точкам А>=7, Х9=8 и
Х10=9, т. е. интервалу 6,5—9,5. Она
равна
1Л
\о
2 f" , = 0,1659 + 0,1797 + 0,1597 =
»=8
= 0,5053
плюс некоторая доля (мы интерпо-
лируем) 6,5—5,8=0,7 частости, со-
ответствующей точке ,¥-=6, или
плюс 0,7-0.1244=0,08708 и плюс
еще доля 10,2—9,5=0,7 частости,
соответствующей точке Лц=10. т. е.
плюс 0,7 0,1171=0,08197. Таким об-
разом, интерполированная сумма
частостей, отвечающих интервалу
5,8—10,2" (в абсолютных значениях)
или 29,1—51,0 (в %) равна
0,5053 + 0,08708 + 0;08197 = 0,674. От-
метим, 4то каждой средней точке Л",-
соответствует интервал горизон-
тальной оси Xi—0,5, Xi-j-0,5. Имен-
но поэтому мы сначала сложили все
частости, соответствующие интерва-
лу 6,5—9,5, а затем интерполирова-
ли эту сумму частостей на весь ин-
тересующий нас интервал 5,8—10,2,
Смысл этой суммы частостей та-
кой же, как и в предыдущем случае.
Если из генеральной совокупности с
параметром л=40% взять одну вы-
борку п=20, то с вероятностью
0,674 она будет содержать от 5,8 до
10,2, или от 6 до 10, белых шаров.
Выраженная в процентах та же вы-
борка с той же вероятностью будет
включать от 29,1 до 51,0% белых
шаров. В вероятностных обозначе-
ниях Р (6<^Л',<1 10) ^0,674 или
Р(29,1 <р<51,0) ^0,674 Отсюда по-
лучаем доверительные пределы
C.L. =р± la., = pifr
7t/*(10U —я)/д.
Поскольку в реальной ситуации ве-
личина л неизвестна (нашей целью
и является получение ее оценки),
обычно вычисляют следующие дове-
рительные пределы:
Р — lSP — Р — У ц >
где неизвестное значение л замене-
но выборочным процентом р. Эти
доверительные пределы интерпрети-
. ру юте я так же, как и в предыду-
172
щих случаях. Если же рассматри-
ваемой генеральной совокупности
взя гь одну выборку с п=20, то
P(p — ksp < Я <p + Asp) = Р(р —
—1 sp < л < р-|-1 $р) ^.0,674.
Доверительным пределам цр±2ор
соответствует интервал 18,1—61,9,
а доверительным пределам цх±
±2ох—интервал 3,6—12,4. Интер-
полированная сумма частостей, от-
вечающих этому интервалу, равна
0,956. Пределам р.р±1ор соответст-
вует вероятность 0,674, а пределам
|лр±2ар — вероятность 0,956. Эти
вероятности почти совпадают с пло-
щадями соответствующих участков
под нормальной кривой.
Для п = 80 Зр = /40-60/80=5.5,
а -зх — /80-0.4-0,6 = 4,4. Интервал
Рр±1ор теперь имеет вид 34,5—
45,5, т. е. существенно короче ин-
тервала 29,1—51,0, соответствую-
щего л=20. Интервал рх±1ох име-
ет вид 27,6—36,4, но его нельзя не-
посредственно сравнивать с интер-
валом 5,8—10,2, соответствующим
п=20. Сумма частостей, отвечаю-
щих интервалу 27,6—36,4, может
быть заменена площадью под соот-
ветствующим участком нормальной
кривой. Эта площадь равна и-4'_]=
=0,683. Следовательно, если из ге-
неральной совокупности с парамет-
ром л=40% взять одну выборку, то
с вероятностью 0,68 число белых
шаров в пей будет заключено в ин-
тервале 28—36, а число белых ша-
ров будет лежать между значения-
ми 34,5 и 45,5%. Это означает, что
Р(28<Х<36)^0,68, а Р(34,5<р<
<45,5)^0,68. Для того чтобы полу-
чить по одной выборке величину л
с помощью доверительных преде-
лов, вычислим С. L.=p±lsp. отку-
да Р [ (р—sp} <л< (р-Ьхр)] ^0,68.
Интервалы, соответствующие
двум стандартным ошибкам,
zt2op и цх±2ох, имеют вид 29,0—
51,0% (по сравнению с интервалом
19,8—60,2% для л=20) и 23,2—40,2
в абсолютных значениях (которые
нельзя сравнивать непосредствен-
но). Соответствующая сумма часто-
стей, аппроксимированная пло-
I
- '-ЧГП м
щадыо под нормальной кривой, рав-
на пД2-2=0.955.' Отсюда' Р(29,0<
<р<51,0)=Р (23<Х,<40)	0,955.
Если из рассматриваемой генераль-
ной совокупности взять 1000 выбо-
рок п=80, то в идеальном случае
для 955 из этих выборок число бе-
лых шаров будет заключено в ин-
тервале 23—40. или составит 29,0—
51,0%. Только примерно в пяти вы-
борках число белых шаров будет
меньше 23 или больше 40. Если
взять одну выборку л =80, то с ве-
роятностью приблизительно 0,955
значение я попадает в пределы
Р±2$р, т. е. Р [(р— 2sp) <л< (р-Ь
4 2зР) ]^0,955.
Приведем пример. Предположим,
что для некоторой выборки л=80,
взятой из большой по объему гене-
ральной совокупности. A'S=38, что
дает р=47,5%. Тогда доверитель-
ные пределы равны 47,5±2х
XV 47,5-52.5'80, т. е. 36,3—58,7%,
откуда Р(36,3<л<58,7) ^0,955. Ес-
ли вместо двух взять три стандарт-
ные ошибки, то вероятность того,
что л попадет в пределы р±3$р бу-
дет равна 0,997. что близко к едини-
це, но при этом соответствующий
интервал имеет значительно боль-
шую длину.
Приблизительный график бино-
миального распределения для л=
—40% и п=3200 построен на рис,
7.10. Среднее квадратическое от-
клонение этого распределения рав-
но — j/40- 60/3200 — J.87 (менее
1%), а ох=3200-0,4-0,6=27,7. Ин-
тервал рр±2ор имеет вид 38,3—
41,7%, а интервал pxztOx имеет вид
1,280+2.27,7, или 1225—1335 NS.
Следовательно, если из генеральной
совокупности с л.=40% взять одну
выборку с объемом л=3200. то чис-
ло белых шаров в ней будет заклю-
чено в интервале 1225—1335. При
этом белых шаров будет не менее
38.3% и не более 41,7%. Довери-
тельный интервал вида p±2sp бу-
дет теперь настолько малым, что
если взять какую-нибудь одну вы-
борку такого объема и вычислить
величину p=A'S/3200, то ею можно
будет пользоваться как точечной
оценкой, не указывая значение вы-
борочной ошибки.
Аналогично рассматриваются и
графики рис. 7.11, которые отлича-
ются от графиков рис. 7.10 только
значением л.
Рис. 7.11. Биномиальные распределения при
л-70 % И п, равном 3, 20 и 3200
В случае бесповторных выборок,
когда их обьем превышает 5% объ-
ема всей генеральной совокупности,
следует пользоваться формулой для
среднего квадратического- отклоне-
ния гипергеометрического распреде-
ления. Это означает, что соответст-
вующее значение среднего квадра-
тического отклонения биномиально-
го распределения необходимо умно-
жить на некоторый конечный мно-
житель. Никаких других изменений
в порядке вычисления доверитель-
ных интервалов не произойдет.
Таковы основы теории выбороч-
ных распределений. Мы подробно
рассмотрели два из них — распре-
деление выборочных средних и рас-
пределение выборочных процентов.
В последующих главах мы рассмот-
рим и другие выборочные распре-
деления, но принципы их использо-
вания останутся прежними.
В гл. 8 мы еще раз вернемся
к задачам оценивания, однако нас
173
будут больше интересовать прило-
жения, а не теория.
7.4.	ВОПРОСЫ И ЗАДАЧИ
7.1.	Рассмотрим не одну и не две* и
не три, а все возможные бесповторные вы-
борки, содержащие п=2 элементов из ге-
неральной совокупности табл. 7.1.
а.	С помощью табл. 7.2 постройте рас-
пределение выборочных средних.
б.	Вычислите х и сравните его значе-
ние с и
в.	Вычислите
о- = ]/ £f/ Й,-
а затем
= (о/У^д) К— п)/(М — 1).
JC
Сравните эти величины.
г.	Предположим, что мы хотим взять
только одну бесповторную выборку л=2.
Из выборочного распределения найдите ве-
роятность Р	Чему равна ве-
роятность Р (6<Л\<7), если ее вычислить
по табл 7.3? Какого рода выборка дают
лучшие результаты — повторные или бес-
повторные? Почему?
Замечание. Для того чтобы уловить
разницу, соответствующие вероятности сле-
дует вычислить с точностью до третьего
знака после запятой.
д. Сравните значение а-, вычисленное
в задаче 7.1,в, со значением <77 из табл.
7.3. Будет ли разница между ними в об-
щем случае определять разницу между ве-
роятностями, рассмотренными в задаче
7.2.	С помощью данных табл. 7.4 по-
стройте распределение выборочных диспер-
сий для бесловторных выборок л=2. Вы-
числите s%=3(Sf«s2f)/Sf< и сравните эту ве-
личину с о2 из табл. 7.1. Найдите Р (s2s=
—0,50) н сравните ее с вероятностью Р
, ($2э=0,50) из табл. 7.5.
7,3.	Постройте график распределения
длин 300 стальных булавок. На том же
рисунке постройте три распределения (по
одному для каждого объема выборки) вы-
борочных значений, полученных в задаче
6.3. Сравните их с графиками на рис. 7.1.
7.4.	Постройте график распределения
длин 300 стальных булавок из табл. 4.6,
пользуясь для этого столбцами 1 и 5. Вы-
числите частости для выборочных данных,
соответствующих л=60 и рассмотренных
в задаче 6.3. Постройте по этим относи-
тельным частостям соответствующий гра-
фик и сравните его с построенным на
рис. 7.2. Отражает ли распределение вы-
борочных данных распределение самой ге-
неральной совокупности?
7.5	Добавьте полученные в задаче 6.3
выборочные средние к данным табл. 7.7—
174
7.9 и постройте три новых распределения
частот.
а.	Вычислите значения X и сравните
их с значениями ц из табл. 4.6,
б.	С помошью формул для быстрого
счета вычислите значения а'-- и сравните
их с соответствующими значениями о—=
= с/К п.
в.	Найдите долю выборочных средних»
попадающих в пределы	для л. рав-
ною 6, 20 и 60.
г.	Для л, равного 6, 20 и 60, найдите
Р (249,5^X^250,5).
д.	Для трех значений п (6, 20 и 60)
найдите Р (Х,-г^249,0).
7.6.	Предположим, что вы взяли все
возможные выборки, содержащие п, рав-
ное 6, 20 и 60 элементам, из генеральной
совокупности табл. 2.1* вычисляли их вы-
борочные средине и построили три распре-
деления частэт.
а.	Как будет называться каждое из
этих распределений?
б,	С графиком какой математической
кривой они будут почти точно совладать?
в.	Чему будут равны три значения
г.	Вычислите с—, соответствующее рас-
пределению п — 6. Найдите Р р, — 1,2 з_<
<Х<р4-1,2а-), Р (Х< 250,2), Р(Х<
<246) и Р (248,5 < X < 251,5).
д.	Какой график будет иметь распре-
деление выборочных средних л=2? Что
изменится, если взять все выборки с л»2
из генеральной совокупности, график рас-
пределения которой имеет U-образную
форму?
7,7.	Массы некоторой партии мешков
распределены по нормальному закону
с р=200 фунтов. Отберите выборки с л,
ратным 4, 25, 100 и 400 элементов.
а.	В каждом из четырех случаев най-
дите Р (199,5<Х<200,5) для сг=2 и о=5.
б.	В случае о=2 найдите примерную
массу самого легкого мешка,
в.	В случае л=2 -найдите приблизи-
тельно наименьшее значение X для л» рав-
ного 4, 25, 100 и 400. Для каждого значе-
ния X определите выборочную ошибку
(в фунтах).
7.8.	Возьмите выборочные средние из
задач 6.3 к 6.6 н вычислите доверительные
пределы C.L. = X -Ъа— и С. L = X 4-2о_.
X	X
Проверьте, содержат ли эти пределы р.
Запишите соответствующие утверждения
в вероятностном виде и объясните нх
смысл.
7.9.	Добавьте результаты задачи 6.S
к данным табл. 7.13—7.15.
а.	Составьте три распределения частот,
подобные приведенным в табл. 7.16—7.18.
б.	Вычистите частости и постройте
графики этих трех .распределений (как на
рис. 7.9). На том же графике достройте
биномиальные распределения для п, рав-
ного 5 и 20 элементам.
в.	Какое теоретическое распределение
лучше всего соответствует вашему экспери-
ментальному распределению л «80?
г.	Для каждого из трех эксперимен-
тальных распределений вычислите р'х и
сравните эти значения со значениями р*
теоретических распределений. Кроме того,
вычислите о'р для экспериментальных рас-
пределений и сравните нх с значениями
<Тр. соответствующими теоретическим рас-
пределениям.
7.10.	Рассмотрим достаточно большую
генеральную совокупность, для которой не-
существенно, отбираются повторные или
бесиовторные выборки. Генеральная сово-
купность содержит 60% белых шаров. Рас-
смотрим биномиальные распределения, со-
ответствующие п, равному 10. 500 и 2000
элементов,
а.	Вычислите значения аР для каждо-
го нз этих значений л
б.	С помощью нормального распреде-
ления и нашего упрощенного правила най-
дите наименьшее значение выборочного
процента р для каждого из трех значений
п. Выразите выборочную ошибку в про-
центах.
«в. Найдите Р (50<р<70) для каждо-
го из трех значений л.
г. Сделайте набросок графика бино-
миального распределения для я = 60 и
«2000.
7Л1- Согласно упрощенному правилу
наименьшее и наибольшее значения нор-
мального распределения вычисляются по
формулам Х'=р,—За и	Возьми-
те их наименьшее и наибольшее значения
из табл. 7.7—7.9, 7.14, 7.15 и 2.1, вычисли-
те соответствующие им значения г н срав-
ните нх со значением z=3. Для <всех таб-
лиц, кроме табл. 2.1, используйте значения
|А—250,2, л=40%, возьмите "значения о—
из рис. 7.6—7.8 и воспользуйтесь значения-
ми ар, вычисленными в предыдущих зада-
чах. Для данных табл. 2.1 ц —250,2 и
«=2,53.
7.12. Вычислите доверительные преде-
лы для трех выборочных процентов р из
задачи 6.5, соответствующие C.L.=p±Oj>
и CL=p±2oP. Какие из них содержат л?
7.13. Вычислите C.L.==pdbo₽ для зна-
чения .р, тюлучекпого в задаче 6.4. Запи-
шите соответствующее вероятностное ут-
верждение. Лежит ли л в этих пределах?
Объясните смысл получеппых результатов.
7-14. Вычислите C.L.=p±2a₽ для зна-
чения р из задачи 6.6. Запишите резуль-
тат в вероятностной форме и объясните
его смысл.
715. Чему равно значение as если
а-^8, а п=16?
X
7Л6. Фирма, торгующая оптом, про-
дает каждый день большое количество не-
которого товара, объем которого, однако,
сильно колеблется в связи с наличием
большого числа конкурентов н изменением
спроса. Для фирмы очень важно иметь ин-
формацию об объеме продажи ее товара
как можно скорее. Ее получают путем ,
отбора выборки из набора заказов, посту-
пивших к фиксированному моменту каж-
дого дня.
а.	Как можно использовать одно зна-
чение X?
б.	Можно ли считать, что ц не зависит
от даты и дня недели?
®.	Пусть Х2 оказалось несколько боль-
ше, чем X]. Означает ли это, что общий
объем продажи во второй день был боль-
ше, чем в первый день?
7.17.	Станок-автомат разрезает чугун-
ные плиты на заготовки определенной тол-
щины. С помощью выборочного исследо-
вания периодически проверяется, правиль-
но ли отрегулирован станок.
а.	Можем лн мы считать, что значение
р. остается постоянным?
б.	Пусть X» «несколько больше, чем Хь
Означает ли это, что станок разрегулиро-
ван?
в В каком случае можно заключить,
что станок разрегулирован? Как записать
этот вопрос, используя «символ ц?
г. Вычислим по значениям X, получен-
ным за 2 дня, значение XI Каков его
смысл?
7Л8. Приведите пример, аналогичный
рассмотренному в задаче 7.17, «но с заме-
ной величины л на р.
ГЛАВА 8
ОЦЕНИВАНИЕ ИСТИННЫХ ПАРАМЕТРОВ ПО ВЫБОРКЕ
8.1. ВВЕДЕНИЕ
Анализу общих принципов, опи-
сывающих взаимосвязь между ис-
тинными параметрами генеральной
совокупности и выборочными ха-
рактеристиками, была посвящена
гл. 7. Главным инструментом тако-
кого анализа были доверительные
пределы Теперь, пользуясь этими
общими принципами, мы рассмот-
рим, как выборочные данные при-
меняются в конкретных задачах.
В вопросах, связанных с выбороч-
175
ными исследованиями, и при истол-
ковании результатов таких исследо-
ваний часто приходится встречать-
ся с такими выражениями, как «вы-
борочное среднее А’ является оцен-
кой р.» или «для того чтобы оценить
л, вычислим выборочный процент
р», или «№ есть оценка о2». Эту тер-
минологию можно использовать при
изучении основных принципов ста-
тистики. Однако, когда выпускник-
статистик переходит к применению
полученных знаний, он должен осо-
знавать главные цели проводимого
исследования. .Мало сказать, что
значение X является оценкой вели-
чины р. Важно разобраться в том,
почему вообще необходимо оцени-
вать величину р, только тогда по-
нимание им статистики будет доста-
точно полным, поскольку он сгложет
выбирать наиболее адекватные кон-
кретные статистические методы или
планы исследования. Конечной це-
лью изучения статистики вовсе не
является ознакомление с соответст-
вующим математическим аппара-
том; владение статистическими ме-
тодами и понятиями необходимо
для того, чтобы облегчить анализ
конкретных данных в конкретных
задачах.
Причины, по которым статистику
приходится вычислять или оцени-
вать параметры р, о2, л и др., были
рассмотрены в гл. 1—4. Отметим
еще раз некоторые аспекты этого
вопроса и свяжем их с понятиями
доверительных пределов и проверки
гипотез (последнее из которых бу-
дет рассмотрено в гл. 9).
Зачем вычислять р? Обычно это .
делают по двум причинам. Полу-
ченное значение р используется ли-
бо в последующих вычислениях, ли-
бо для сопоставления с некоторым
стандартом или с другими значени-
ями р. Выборочные характеристики
вычисляются с теми же целями.
Бессмысленно определять X, если
мы далее не будем пользоваться
этой величиной вместо р в последу-
ющих расчетах или для целей со-
поставления. Это обстоятельство
имеет очень большое значение.
176
Имея его в виду, мы сможем лучше
понять, как пользоваться довери-
тельными пределами (которые яв-
ляются предметом настоящей гла-
вы) и правилами проверки гипотез
(которые мы рассмотрим в гл. 9) в
задачах, требующих статистическо-
го анализа.
Что касается «последующих вы-
числений», для которых может по-
надобиться знание среднего ариф-
метического, то они бывают самы-
ми разнообразными. Зная, напри-
мер, среднюю массу индейки р или
оценку р по некоторой выборке
(т. е. величину X), фермер может
вычислить общую массу всех имею-
щихся у него индеек и определить
ожидаемый доход. Если этот фер-
мер захочет к тому же сопоставить
оценку р с соответствующей величи-
ной за прошлый год или со средней
массой индеек своего соседа, то ему
придется изучить материал гл. 9.
В этой главе нас будут интересо-
вать лишь последующие вычисле-
ния, а не сопоставление выборочных
характеристик.
Другой пример.. Директор систе-
мы супермаркетов (универсальных
магазинов) хочет с помощью выбо-
рочного исследования определить
средний доход жителей некоторого
города. При этом его целью не яв-
ляется сравнение этого дохода с до-
ходом жителей какого-нибудь дру-
гого региона. Он хочет, найдя эго
среднее значение пли его оценку,
умножить его на общее число семей
или жителей, проживающих в этом
городе, и тем самым определить их
общий доход. После этого он будет
в состоянии примерно оценить, ка-
кую долю своего дохода жители го-
рода могут выделить на его товары.
Владелец ресторана может и даже
должен вычислить среднее количе-
ство продуктов питания, потребляе-
мых его посетителями. Зная это, он
сможет правильно установить цены
на приготовляемые в его ресторане
блюда. Он даже может сделать так,
чтобы стоимость обеда или ужина
в его ресторане нс зависела от то-
го, какое количество еды сможет
съесть посетитель. Кроме того, ум-
ножив это среднее на общее число
посетителей, он сможет вычислить
необходимое количество продуктов
на каждый день.
Во всех этих примерах среднее
значение используется в последую-
щих расчетах. Если значение р, не
известно, то вместо него можно
пользоваться величиной X (в фор-
ме как точечной, так и интерваль-
ной оценки).
Аналогично можно пользоваться
доверительными пределами для ве-
личины я. Например, торговая ор-
ганизация может провести выбороч-
ное исследование, взять в качестве
оценки величины л значение р и
найти с его помощью число вероят-
ных покупателей. Для этого доста-
точно умножить р на N. Отметим,
что в этом случае никакого сопо-
ставления с другой генеральной со-
вокупностью не проводится В отли-
чие от этого контролер ОТК зани-
мается тем, что оценивает с помо-
щью выборочной характеристики р
общий процент брака л,* а затем со-
поставляет его с допустимым зна-
чением. Обычно его не интересует
абсолютное число всех бракованных
деталей, хотя иногда ему может по-
надобиться и это число.
В гл. 7 мы рассмотрели пример
вычисления доверительных преде-
лов для среднего значения длин бу-
лавок с чисто иллюстративными це-
лями. Контролеру ОТК доверитель-
ные пределы не нужны, так как
единственное, для чего он вычисля-
ет л или его оценку, — это сопо-
ставление полученной величины с
некоторым стандартом. Такой стан
дарт может быть некоторым черте-
жом пли тем или иным техническим
• условием В этом случае контроле-
ру придется использовать методику
«проверки гипотез». Поэтому, вы-
числяя доверительные пределы, он
будет пользоваться ими скорее для
сопоставления, чем для последую-
щих вычислений.
Приведенные выше примеры по-
казывают, что часто (но ни в коем
случае не всегда), когда довери-
12—232
тельные пределы вычисляются не
для сопоставления, их используют
вместе с числом элементов всей ге-
неральной совокупности Л'. В этом
клане доверительные пределы очень
часто применяются для того, чтобы
получить оценку pi для конечных ге-
неральных совокупностей.
8.2. ОЦЕНИВАНИЕ ИСТИННОГО
СРЕДНЕГО
Прежде чем приступить к оцени-
ванию у с помощью X, необходимо
принять целый ряд решений и
учесть обстоятельства, которые гмы
не можем изменить. Это называют .
составлением «плана выборочного
исследования». Конкретно речь идет
о том, чтобы учесть следующие фак-
торы: длину интервалов группиро-
вок и объем выборки; факты, что
значение о известно или значение о
не известно и поэтому должно быть,
оценено величиной s; взаимосвязь
между доверительным интервалом и
уровнем значимости а или довери-
тельным коэффициентом е.
Начнем с такого плана выбороч-
ного исследования, в котором зна-
чение а известно п объем выборки
п установлен. Вопрос о том, как оп-
ределить этот объем, мы рассмот-
рим позже.
Случай, когда значение ст извест-
но. Анализируя числовые данные,
довольно часто приходится сталки-
ваться с ситуацией, когда величину
у приходится оценивать много раз
поряд. Если при этом значение ст
было вычислено заранее и есть ос-
нования полагать, что оно не изме-
няется, то исследователю удобнее,
конечно, использовать это значение
ст вместо того, чтобы оценивать его
по каждой новой выборке заново.
Если объем выборки п установлен,
то остается только решить, каким
должно быть значение «.
Как было показано в гл. 7, до-
верительные пределы вычисляются
по формуле C.L.	[здесь k=
— za_ — z (а/ У п) J, откуда C.L. —
__X
=	. По.эюй формуле до-
177
верительные пределы можно вычис-
лять тогда, когда выполнены сле-
дующие предположения: 1) гене-
ральная совокупность распределена
по нормальному закону; 2) осуще-
ствляется повторный отбор; 3) из-
вестно истинное значение среднего,
квадратического отклонения всей
генеральной совокупности. При по-
вторном отборе объем генеральной
совокупности не имеет значения: он ,
может быть и очень мал, и беско-
нечно велик.
Как уже указывалось в гл. 7, до-
верительные пределы можно запи-
сать в виде вероятностного утверж-
дения
P[(^-Z3_)O<
X
<(А'4-И )]=..
Л
в котором переменной считается до-
верительный интервал, а не величи-
на ц. Доверительный коэффициент
е, или уровень значимости <х=1—е,
определяют, сравнивая вероятность
того, что р. не попадет в эти дове-
рительные пределы с издержками,
которые мбжет вызвать ошибка.
При а=0,05 для 5 из 100 довери-
тельных пределов р. будет лежать
вне их. Другими словами, в 5 из 100
случаев наша интервальная оценка
будет ошибочной (такая ошибка на-
зывается ошибкой I типа). Если из-
держки слишком велики, то вместо
<х=0,05 следует взять а=0,01 или
даже а=0,003.
Пусть из ящика, содержащего
JV=300 булавок, выбраны наугад 6
(л=6) из них. Предположим, что
длины этих булавок равны приве-
денным в табл. 7-0- Соответствую-
щее выборочное среднее Х=
=251,17-10-3 дюйма. Будем счи-
тать, что среднее квадратическое
отклонение генеральной совокупно-
сти имеет то же значение, что и ра-
нее (ст=2,53-КН дюйма). Выберем
а=0,05 и найдем С. L.=251,17±
± 1,96-2,53/ /6 = (249,2-^253,2) X
ХЮ-3 дюйма. Конечно, мы не зна-
ем, попадет ли р. в эти пределы.
В этом случае имеет смысл лишь
178
рероятностное утверждение вида
Р (249,2 < р < 253,2) =0,95.
Дальнейший анализ этих преде-
лов есть дело уже не статистика, а
специалиста по производству була-
вок. Если пределы слишком далеко
отстоят друг от друга (если они да-
ют слишком грубую оценку для р).
то следует по возможности увели-
чить объем выборки, что улучшит
требуемую точность оценки,
Для приведенной выше оценки
доверительный интервал равен
253,2—249,2=4-10"3 дюйма. Пред-
положим, что мы хотим получить
интервал длиной 3-10-3 дюйма. Вы-
борка какого объема даст такой ин-
тервал? Интервал длиной 3-10“3
дюйма соответствует доверитель-
ным пределам С. L.=X±1,5. Это
значит, что га/ /4=1.5; 1,96Х
X 2,53/ /Л = 1,5; 5,0 = 1,5 /4;
п= (5,0/1,5)2=11. Итак, требуемый
доверительный интервал можно по-
лучить при л=11.
Если нужно отобрать выборку
такого объема, чтобы Х=^р, то ве-
личина аз_ должна быть мала. По-
X
нятие «мала» относительно. Оно оз-
начает, что после округления дове-
рительные пределы должны ока-
заться равными X. Предположим,
что полученное нами значение А=
=250,2. При?а_=2 доверительные
пределы имеют вид С. L.=248,2-^
252,2. Но когда za_=0,2, довери-
тельные пределы становятся равны-
ми С. L.=250,0->-250,4 Округлив X
до 250, нижний предел 250,0 до 250
и верхний предел 250,4 до 250, мы
видим, что все три значения совпа-
дают друг с другом, и, следователь-
но, интервальная оценка ц превра-
щается в точечную
Это будет верно тогда, когда
объем выборки удовлетворяет сле-
дующим соотношениям: .го//4=0,2;
1,96-2,53//4=0,2; 4,96 = 0,2/4;
п= (4,96/0,2) 2=615. Значение 0,2
было выбрано по следующей при-
чине. Проводя вычисления с точно-
стью до 1-10-3 дюйма и полагая,
например, ц=251-10-3 дюйма, по-
лучаем наименьшее _ выборочное
среднее с а=0,05 Л'=250,8 10-3
дюйма. Доверительные пределы для
этого выборочного среднего имеют
ид С. L.=250,6-^251,0 дюйма. По-
сле округления получаем 251 -10~®
дюйма.
Этот метод очень важен для при-
ложений. Если в коробке имеется
50000 булавок и необходимо полу-
чить точную оценку для р. то до-
статочно измерить только 600’ из
них. На практике, однако, статистик
получает точечные опенки, пользу-
ясь выборками значительно мень-
шего объема.
Отметим, что длину доверитель-
ного интервала не следует смеши-
вать с надежностью оценки. Если
мы добьемся того, чтобы обе вы-
борки— и большая, и маленькая —
были случайными, и если вычисле-
ния проведены без ошибок, то до-
верительные пределы, полученные
для каждой из этих выборок, будут
одинаково надежными. Разной бу-
дет только длина доверительного
интервала.
Читатель должен понять, что рас-
смотренный нами пример является
до некоторой степени искусствен-
ным Как мы уже указывали, вы-
борки из генеральных совокупно-
стей, подобных генеральной сово-
купности стальных булавок, берут-
ся обычно с целями сопоставления,
т. е. для того, чтобы установить,
соответствует ли средняя длина бу-
лавки некоторому стандарту. Более
реальные примеры, показывающие,
как использовать доверительные
пределы в дальнейших расчетах,
будут приведены ниже.
В случае бесповторного отбора и
конечной генеральной совокупности
порядок вычисления доверительных
пределов несколько меняется. Вновь
предположим, что генеральная со-
вокупность нормально распределе-
на и что о известно. При выполне-
нии этих условий
__ < а \ 1 /У - Л 1/~1	п
Зг у п ) V Л'— 1 ** г 1	У
Если генеральная совокупность
бесконечна, то не важно, является
ли выборка повторной или беспов-
торной. В обоих случаях
Когда же генеральная совокуп-
ность конечна, правильная формула
имеет вид:
1 ~ Ж* *
х	V п J • Л
Если, однако, п мало по сравнению-
с N, значение конечного множителя
FM —njN будет близко к
единице и он не повлияет на стан-
дартную ошибку. Хотя для конеч-
ных генеральных совокупностей
формула включает множитель FM,
во всех случаях, когда л<0,05ЛГ,
его вычисление будет только поте-
рей времени. При n>0,Q5N умно-
жение на FM несколько уменьшает
стандартную ошибку среднего. По-
этому в интересах исследователя
отбирать в этих случаях бесповтор-
ные выборки.
На практике почти всегда пользу-
ются бесповторными выборками.
Поэтому ниже мы предполагаем,
что берутся именно такие выборки.
Это дает следующее упрощенное
правило вычисления стандартной
ошибки среднего и стандартной
ошибки выборочного процента: при
«>0,05jV конечный множитель
FM «=« V1 — n.W используется, а
при л<0,05ЛГ—не используется.
В рассмотренном выше примере
предполагалось, что 6 булавок от-
бираются случайным образом и
с возвратом. На самом деле длины
б булавок, приведенные в табл. 7.6,
представляют собой бесповторную
выборку. Поэтому, строго говоря,
следует вычислить новые довери-
тельные пределы:
C.L. = |(251,17 tL- 196)-2,53//я) X
х V1 - 6/300 • 10 - * дюйма.
Учитывая, однако, что 6<0,05*300,
множитель FM можно отбросить.
12»
179
Для приведенной в табл. 7.6 вы-
борки л=20 20>0,05 «300, поэтому
C.L.= £(250,2—1,96) X
X У1 - 6/300 = (249.1 н- 251,3) X
X дюйма.
Чтобы определить, при каком объе-
ме выборки C.L.=J±0,2 (известно,
что Лг=300, отбор — бесповторный),
решим уравнение
'(1.96-2,53/ УЛ) У Г «/300 = 0,2.
Умножив обе части этого уравнения
•на УЛ, получим:
4,96 У1 - п '300 = 0,2 Уп. п = 202.
1Три п <f 0,05Лг з_ ~ з/Уп,	так
X
что з_ уже нс является функцией
от /V. Поэтому при фиксированных а
и п доверительные пределы C.L. =
= Л'± гз_ будут одинаковы как для
W = 50000, так и для У=10000000.
. Средн тех, кто не знаком со ста-
тистикой, широко распространено
мнение, что для того, чтобы добить-
ся одной и той же точности, выбор-
ка из большей по объему генераль-
ной совокупности должна быть
больше, чем выборка из меньшей
генеральной совокупности. Это
справедливо лишь тогда, когда
в обоих случаях п>0,05Лг. В про-
тивном случае эта точка зрения
неправильна.
Случай, когда значение а неиз-
вестно. Предположим теперь, что
рассматриваемая генеральная сово-
купность распределена по нормаль-
ному закону, что отбор бесповтор-
иый, но значение о не известно.
В этом случае
C.L. — X zt ts_. — X zt ts/ Уп
для бесконечной генеральной сово-
купности и
C.L. = Xzt/s~ = Xtz
X
zt (fs/K«) У1 — П/Х
для конечной генеральной совокуп-
ности. Если я <^0,05Л\ то множи-
телем FJ\4 У Г— ЛТХ можно пре-
небречь
В этих формулах э используется
как точечная оценка для а. Смысл
величины t. можно понять, сравни-
вая ее с величиной г. Пусть у нас
имеется некоторое распределение
выборочных средних, и пусть все
эти выборки отбирались из нор-
мально распределенной генеральной
совокупности. Тогда для любого п
величина Xi будет тоже распреде-
лена по нормальному закону. Если
преобразовать Xi в относительные
величины Zi по формуле г,- —
— (X, —	• то соответствующие
значения Zj также будут распределе-
ны по нормальному закону. Однако
если величины _Х/ преобразовать по
формуле ti = (Х( — j*)-s_, где =
= 5;'Уп, то значения будут сле-
довать другому закону, а именно:
они будут иметь так называемое
распределение Стьюдента.
Формула для плотности ^распре-
деления Стьюдента имеет вид:
(	—2)/2]1 j
(v-D/2
— оо t </ оо
где v есть число степеней свободы.
Поскольку' в нашем случае
значение v=n—1, где п — объем вы-
борки.
Чтобы подобрать функцию такого
типа к рассматриваемым экспери-
ментальным данным, все 66 выбороч-
ных средних из табл. 7.7 (для п—
=6) следует привести к виду t,—
=(JP<—p)/s—, а затем построить
график распределения частот зна-
чений ti. Мы получим некоторый
полигон. Чтобы подобрать к нему
кривую /-распределения, подставим
в формулу, по которой вычисляются
значения этого распределения, ве-
180
'личину v=n—1=5. Найдем теперь
несколько значений f(t) в некото-
рых удобных точках, например в
точках /=(—3,0; —2,5; ..2,5, 3,0).
Построим эти точки и проведем че-
рез них сглаживающую кривую.
Аналогично можно построить и /-
распределение прн л=20. Единст-
венное различие будет состоять в
том. что теперь нужно в формулу
подставить о=20—1—19.
Как видно из .этих примеров, t-
распределение зависит от одного
параметра о, изменение которого
меняет форму кривой. Тём не менее
юна всегда остается колоколообраз-
ной, симметричной со средним зна-
чением (ожидаемой величиной)
t, равным Л1(/)=0 из(=	2).
При небольших значениях Ot су-
щественно больше единицы, но
с ростом v величина приближа-
ется к единице. Кроме того, с рос-
том n t-распределение приближа--
етсч к нормальному. На самом деле
при с»>30 /-распределение настоль-
ко близко к нормальному, что уже
отпадает необходимость в состав-
лении для него специальных таб-
лиц, поскольку начиная с этого зна-
. чения v можно пользоваться табли-
цами нормального распределения.
Для малых значений v (напри-
мер, us$30) /-распределение имеет
большую вариацию, чем нормаль-
ное распределение. Так, для нор-
мального распределения 0,95 пло-
щади под кривой лежит между зна-
чениями z"=l,96 и z'=—1,96. Для
небольших значений v (например,
о=2) 0,95 площади под кривой /-
распределения лежит между значе-
ниями /"=4,30 и /'=—4,30. Но для
г’=30 эта доля площади ограничи-
вается значениями /"=2,04 и t'=
=—2,04. Эти значения уже очень
близки К 2=±1,96.
Сформулируем теперь несколько
правил вычисления доверительных
пределов для ц.
1. Пусть: а) проводится беспов-
торный отбор; б) генеральная сово-
купность распределена по нормаль-
ному закону; в) генеральная сово-
купность бесконечна или генераль-
ная совокупность конечна, но
<0,05Х; г) о известно. Тогда дове-
рительные пределы вычисляются по
формуле
C.L. = X zL гз_ = X го/]/ п-
2. Пусть: а) проводится беспов-
торный отбор; б) генеральная сово-
купность распределена по нормаль-
ному закону; в)' генеральная сово-
купность конечна и л>0,05Х; г) о
известно. Тогда доверительные пре-
делы вычисляются по формуле
С. L. = X ~ zi- = X	(zjfy nj X •
X
X К1 -- л/Х-
3.	Пусть: а) проводится беспов-
торный отбор; б) генеральная сово-
купность распределена по нормаль-
ному закону; в) генеральная сово-
купность бесконечна или генераль-
ная совокупность конечна, но п<
<0,05Х; г) о неизвестно. Тогда
доверительные пределы вычисляют-
ся по формуле
C.L. = X zt Is- = X zt tsjV n.
X
Чтобы найти значение /, следует
пользоваться при о^ЗО таблицами
/-распределения и при и>30 табли-
цами нормального распределения.
4.	Пусть: а) проводится беспов-
торный отбор; б) генеральная со-
вокупность распределена по нор-
мальному закону; в) генеральная
совокупность конечна и rt>0,05Ar;
г) о неизвестно. Тогда доверитель-
ные пределы находят по формуле
C.L. =Х ±/s_ = Xzt
X
zt (М/— n(N.
При этом, чтобы найти значение /,
следует пользоваться при о^ЗОтаб-
лицами /-распределения, а при v>
>30—таблицами нормального рас-
пределения.
5.	Если распределение генераль-
ной совокупности довольно близко
к нормальному, также применимы
первые четыре правила. Если рас-
пределение генеральной совокупно-
сти сильно асимметрично, прямо-
угольно или имеет U-образную фор’--
181
му, то нельзя пользоваться выбор-
ками малого объема. Например,
когда распределение генеральной
совокупности имеет прямоугольную
форму, объем выборки п должен
быть не меньше 15.
Напомним, что в этой главе мы
занимаемся оцениванием у, с по-
мощью Л не с целью сопоставить
эту оценку с некоторым стандар-
том, а для того чтобы использовать
ее в последующих вычислениях.
Имея это в виду, мы можем вос-
пользова гься методом доверитель-
ных интервалов для достижения
одной из следующих целей,
1.	Нам нужно найти точную ве-
личину у. Для этого следует взять
достаточно маленький доверитель-'
ный интервал и найти соответст-
вующий ему объем выборки п. По-
сле этого величину X можно счи-
тать точечной оценкой у..
2.	Нужно получить приближен-
ную оценку у,. Для этого следует
выбрать доверительный интервал
требуемой ширины и вычислить со-
ответствующие доверительные пре-
делы. Результатом будет интерваль-
ная оценка вида
Р [(X -	< р. < (У + Zs_)J = е.
3.	Предположим, что мы не мо-
жем менять объем выборки по свое-
му усмотрению, например, из-за то-
го, что генеральная совокупность
уже не существует, или выборочное
обследование проводил кто-то дру-
гой (например, данные собраны ми-
нистерством труда). В этом случае
следует вычислить доверительные
пределы п только после вычисления,
сравнив их, понять, дают ли они
требуемую точность.
Пример 1. Среди студентов, изучавших
в некотором колледже курс статистики,
был сын фермера. На занятиях преподава-
тели говорили ему» что в задачах, связан-
ных с .промышленным производством, раз-
личные оценки делаются на основании
очень небольших выборок. Он решил оце-
нить общую массу 50и0 индеек на ферме
своего отца с помощью небольшой случай-
ной выборки и, взвесив вошедших в эту
выборку индеек, он получил следующие
значения масс (в фунтах): 12, 7, 9, 5, 4,
8, 17, 2, 11, 14, 13» 9. После этот» он вос-
182
пользовался следующей формулой для вы-
числения доверительных пределов:
C.L, = X ± ts- = _Yj± t&jVп.
Эту формулу он взял потому, что распре-
деление индеек по массе было близким
к нормальному, величина а неизвестна,
а п=12<0.05-5000.
Приняв и=0»05, он получил довери-
тельные пределы C.L.=J±2^01 ($/И 12),
где 2.201 есть значение t, соответствующее
о=11. Наконец» определив значение Я и $»
он получил
C.L, = (9.25 ± 2,201)-4,39/К 12 ==
= 9,25 ± 2»80.
Последнее соотношение он переписал в ве-
роятностной форме: Р (6,5 <р<! 2,0) =0,95,
Разумеется, отец только посмеялся» по-
смотрев на такой результат, и сказал сы-
ну, что он может без всяких выборок го-
раздо точнее оценить ц. для чего ему до-
статочно просто взглянуть на СВОИХ ПТИЦ-
Тем не менее ему очень хотелось получить
доверительный интервал шириной 1 фунт,
поскольку тогда он был бы в состоянии
точнее оценить свой доход.
Сын заметил, что интервалу шириной
1 фунт соответствуют доверительные преде-
лы C.L. = -V_tO,5, и составил уравнение
fs—0,5. Он решил, что не сюит полагать
f=2,20l, так как даже при своем ограни-
ченном опыте выборочных исследований он
понимал, что объем его выборки будет
больше 30. Поэтому Он подставил^в урав-
нение tel,96 и получил 1,96 (s/Уп) = 0,5.
После этого он стал думать над тем. по
какой формуле вычислять $— : воспользо-
ваться формулой = S/KfT или S—
=5= (s/Уп ) КI — л/Л', Второй формулой сле-
дует пользоваться в toM случае, когда п>
>0,05 -5000, т, е. когда л>250. Сын ре-
шил, что в сомнительном случае лучше по-
тратить больше (времени па вычисления„
чем получить неправильный ответ. Непра-
вильный ответ будет означать, что ему при
дется обследовать большую выборку, на
что понадобится гораздо больше времени,,
чем на решение уравнения, включающего
коэффициент FAf^eKl — (n/N)- Таким об-
разом. уравнение «приобрело вид:
(Г ,96s//Л ) Ki — /1/5000 = 0,5.
Тогда ему стало ясно» что придется
использовать значение $=4,39, вычисленное
по уже отобранной мм выборке из 12 ин-
деек. Он понял, что это обстоятельство
имеет более общее значение. Нельзя найти
л. -не зная ст или» по крайней мере, $. Во
всех последующих выборочных исследова-
ниях. в которых ему придется искать пг
он должен будет сначала отобрать иекото-
рую небольшую выборку, ио -не для того,
чтобы вычислить ио ней доверительные
пределы, а для того, чтобы найти $» без
чего он вообще -не сможет определить объ-
ем выборки.
Теперь уже его уравнение стало урав-
нением с одним неизвестным.
0,5= {tsiVп ) V1 — n/Л' =
= (1.96-4,39/Кп) V1 — л/5000.
Умножая“оЛе части на он получил
0,5167 = в.бКТ^л/ЙЖ
После возведения в квадрат уравнение
приобрело вид:
’ 0.25^=73,96—73,96^/5000.
Умножение обеих частей на 5000 дает
1250л = 369 800—74л, откуда л=279или280.
К счастью, наш студент еще не выпу-
стил 12 индеек, которых он взвешивал,
обследуя свою первую «выборку, так что
ему пришлось взвесить еще «только*
268 индеек. Он получил X—10,6 и $—4.2.
откуда
С. L. = [(10.6 ± 1,96).4,2/K2§6j X
X/1—283/5000= 10,6±0.5=(10.|—11,1).
Общая масса 5000 индеек будет заклю-
чена между 5000-10,1 и 5000-11.1, т, е.
между 50 500 и 55 500 фунтами. В это вре-
мя фунт индейки стоил 6,38 долл., так что
доход фермера от продажи всех индеек
составил бы от 19 190 до 21 090 долл. Ве-
роятность ошибки I типа, т. е. вероятность
того, что это значение окажется меньше
19 190 долл, или больше 21 090 долл., рав-
на 0.05. Однако наш фермер счел такую
вероятность пренебрежимо малой.
Пример 2. В ведении некоторой компа-
нии находятся 2000 магазинов, разбросан-
ных по всей стране. До последнего време-
ни компания ежемесячно получала заказы
на производимые ею товары от каждого
магазина в отдельности. Сложив все эти
заявки, компания определяла SX — общее
число единиц товара» подлежащего от-
правке.
Оказалось, однако» что спрос на товар
сильно колеблется от месяца к месяцу.
Компания -просила директоров своих мага-
зинов делать свои прогнозы с особой тща-
тельностью. iho после исчерпывающего ана-
лиза полученных цифр руководство фирмы
пришло к выводу, что директора магази-
нов не справились со своей задачей. Не-
удачные прогнозы создавали трудности
в управлении запасами товаров, н компа-
ния решила перевести всю работу по прог-
нозированию в свое центральное управ-
ление.
Для того чтобы делать прогноз, ком-
пании было необходимо быстро и дешево
получать сведения о числе непроданных
единиц товара. Было решено делать это
ежемесячно, проводя выборочные исследо-
вания с- помощью случайных выборок.
Так как' магазины не очень сильно
отличаются друг от друга, работники ком-
пании решили пренебречь некоторыми де-
талями выборочного исследования (напри-
мер, группировкой магазинов в зависимо-
сти от их размерив) и использовать ^для
получения оценки ц обычные случайные
выборки.
Обозначим число единиц товара, имею-
щихся в каком-нибудь магазине, через А\.
Тогда общее число единиц непроданного
товара будет равно SX;. Среднее число
единиц непроданного товара для каждого
магазина будет равно EX.72000, где i=
' =1, 2, .... 2000. Компания ’решила каж-
дый раз запрашивать 400 магазинов о ко-
личестве имеющегося у них в наличии то-
вара. Соответствующее выборочное среднее
равно X=EXi/40C, а
C.L. = [(Л ± 1,96) C/400J КI — 400/2000 =
= [(АГ± 1,96)-60/4001 V1 — 400/2000.
Г
Было проверено, что .величина О=60 не
претерпевает значительных изменений с те-
чением времени, поэтому се использовали
для получения целого ряда оценок.
При одном нз обследований X оказа-
лось равным 250,0. Отсюда
C.L. = [(250,0 ± l,96).60/V400J X
х у 1 — 410/2000 = 244,7 -Н 255.3.
Это значит, что общее число единиц
непроданного товара лежит между 244.7Х
Х2000 и 255,3-2000, т. е между 489 400 и
510 600. На основе этой информации ра-
ботники компании могут сделать прогноз
спроса на следующий месяц. После этого
полученное число единиц товара можно но
некоторой формуле распределить между
всеми 2000 магдзгинами.
Еще раз отметим, что величина р, оце-
нивалась вовсе не для того, чтобы срав-
нить ее значения со значением за другой
месяц или с величиной, описывающей коли-
чество какого-нибудь другого товара,
а с единственной целью — улучшить проце-
дуру прогнозирования.
Пример 3. В книготорговом деле часто
приходится иметь дело с продажей тех или
иных собраний книг, причем объем такого
собрания может колебаться от нескольких
томов до нескольких сотен тысяч книг.
Директору некоторой библиотеки пред-
ложили купить собрание, насчитываю-
щее 80 000 томов, н предложили -назвать
свою цену. По мнению советников дирек-
тора. некоторые книги ничего не стоцди,
в то время как другие были весьма цен-
ными. Они посоветовали директору пред-
ложить 0,5 долл, за книгу, т. е. 40 000 долл,
за все собрание-
Директор не последовал этому совету.
Речь шла о большой сумме, н он решил
истратить некоторые средства для прове-
дения более научного анализа всего собра-
183
ния. Прн этом он, конечно, «понимал, что
если его стоимость окажется достаточно
низкой, то все средства, затраченные на
проведение анализа, будут потеряны.
Он решил взять некоторую выборку
книг <из собрания, оценить каждую из них
и получить затем доверительные пределы
вместе с оценкой общей Стоимости, Попав-
шие в выборку книги он мог просто срав-
нить с каталогом своей библиотеки. Двойные
экземпляры «можно было либо продать,
либо выбросить. В последнем случае счи-
талось, что стоимость книги равна нулю.
Директор хотел получить доверитель-
ные -пределы вида ЛХ’6,06 долл., где X
есть средняя цена книги. Это дало бы ему t
доверительный интервал шириной 0,12 долл.
Для всех 80 000 книг этот интервал озна-
чал бы разницу в 9600 долл. Более точная
оценка обошлась бы ему слишком дорого.
Чтобы определить, выборка какого объема
даст такой интервал, он должен был сна-
чала получить оценку для о по относи-
тельно небольшой выборке. Зная, что ва-
риация цен для книг этого собрания будет
очень большой и что распределение частот
цен будет сильно скошенным, он понимал,
что объем выборки будет заведомо больше
л — 100. Поэтому он взял предварительную
выборку н-=100 (для того чтобы оценить
а и найти л, но не для того, чтобы вычис-
лить доверительные пределы).
После того как все 100 книг выборки
были оценены, оказалось, что $=0.82 долл.
Чтобы найти затем л, он решил следующее
простое уравнение:
й/Кл =0,06.
Взяв а— ОД 0, он-получил
1.64 -0,82/Ул = 0,06, п 502.
При этом нс было необходимости исполь-
зовать формулу	1
(/э//п) Ki—ft/W —0.06,
так как и<0.05-80000, т. с. п<4000.
После этого осталось выбрать наугад
еще 402 книги, оценить их н вновь вычис-
лить X и $. Эти два значения оказались
равными Х=0,72 долл, н $—0,85 долл.
Отсюда
C.L.=(X± 0 s. Vrt"«= (0,72 ± 1,64) X
Х0,85/Г4502== (0,66 — 0,78 долл.),
так что Р (0.06<н<0.78 долл.) =&0,90.
Из этого следует, что стоимость всего
собрания заключена в интервале 52 800—
62 400 долл. Директор предложил за него
53 000 долл, но попросил «продавца сооб-
щить ему, если кю-ннбудь предложит
больше. Он был готов дать гораздо боль-
ше—до 63 000 долл. Если бы он -последо-
вал оекомендации своих советников, он ни-
когда не приобрел бы это собрание, по-
скольку предложенная цена за одну книгу
(0.5 долл.) была бы слишком низкой для
его приобретения.
184
Оценивание ц с помощью Л1</.
Если генеральная совокупность рас-
пределена по нормальному закону,
величину р можно оценить с по-
мощью Md (для любого значения
п). Если распределение генеральной
совокупности не является нормаль
ным, но симметрично, то полученное
по некоторой выборке значение
можно использовать в качестве
оценки р, когда объем выборки и
достаточно велик. Такой дополни-
тельный метод оценивания может
оказаться полезным на практике.
Кроме того, на его примере можно
проиллюстрировать одну из задач
определения эффективности оценки
в статистике.
Проблема эффективности возни-
кает всегда, когда тот или иной па-
раметр можно оценивать разными
способами (с помощью разных вы-
борочных характеристик). Если для
некоторой генеральной совокупно-
сти и фиксированного объема вы-
борки п доверительные интервалы,
соответствующие двум различным
выборочным характеристикам, раз-
личны, то это значит, что эффектив-
ности этих оценок тоже различны.
Поэтому, когда у нас есть выбор,
следует пользоваться наиболее эф-
фективной оценкой, т. е. той, кото-
рой соответствует меньший довери-
тельный интервал.
Величина Md является ме^ее эф-
фективной оценкой ц, чем X. Для
больших выборок (например, для
п>30) выборочная дисперсия Md
может быть записана в виде
3’ли = и’/2«
Поскольку л/2=1,57, а о2/л есть
дисперсия выборочного среднего,
доверительные пределы C.L.=Afd±
rbzcfMd будут шире, ч-ем пределы
X±za~.
Чтобы несколько упростить про-
цедуру сравнения Md и X, перепи-
шем сРма в следующем виде:
' а*АИ=з*/л(2^)=<0.637«,
откуда
сш=3//0.637л.
Поэтому, для того чтобы сделать
величины ajMrf = o;',yr0.637/i1 и в-?=
—з/у/ТЦ равными друг другу (зИ4 =
* ”dr)’ необходимо, чтобы
Отсюда 0,637П]=и2 и п,=п2/0,637.
Например, для па=637 величина
«1=637/0.637=1000.
Выборочной медианой пользуют-
ся в тех случаях, когда нельзя не-
посредственно определить значение
X. Такая ситуация может возник-
нуть, например, в тех случаях, ког-
да мы располагаем усеченным рас-
пределением частот. Иногда нельзя
вычислить и э, и ее приходится оце-
нивать с помощью межквартильно-
го размаха, точнее, с помощью
квартильного отклонения Q=(Q3—
—Q2) /2.
Для нормальной кривой над отрез-
ком, соответствующим межквартиль-
ному размаху, лежит лД*/'=гО,5 всей
площади под кривой, где z"=Q3=
=0,675 и z'=Qt=—0,675. Таким об-
разом,	Q=(Q3—Q2)/2=[0,675—
— (—0,675)] /2=0,675, и, учитывая,
что о=1, получаем kQ=u, где k—
—o/Q=l /0,675=1,48. Другими сло-
вами, получить оценку s, использо-
вав Q, можно, умножив Q на 1,48.
Однако этой оценкой можно поль-
зоваться лишь в тех случаях, когда
распределение генеральной совокуп-
ности близко к нормальному. Если
о известно, то единственное требо-
вание, предъявляемое к генераль-
j	ной совокупности, заключается
	в том, чтобы она была симметрична^
Оценивание ц с помощью Л?
I Иногда мы располагаем лишь зна-
; чениями X, но нет данных, по ко-
торым эти значения X были вычис-
лены. В этом случае доверительные
пределы можно получить по фор-
муле
C.L. = (Л - b'iVkn\
X Н - ta'IVkn).
При этом предполагается, что вы-
борки отбираются из одной и той
же генеральной совокупности, объе-
мы всех выборок одинаковы, число
выборок равно k, kn>3\, Х=
—XtXjf k, а
a* = «2(Xz-X)7(^- 1).
Последняя формула основана на
том, что •s’-=a’/nt и, следовательно,
,о^-=яа*-. Величина о*- здесь аппро-
ксимируется числом S(X~Х)2/(Л—
—1), откуда
с'*^Я2(Х;-Х//(Л-1).
а
(X, - X )7(£ - 1).
Проиллюстрируем порядок вычис-
ления таких доверительных преде-
лов’ на примере. Возьмем значения
X из первой и второй строк табл. 7.7.
В этом случае количество выборок
равно 6=12, а объем выборки ц=6.
Среднее от средних равно X =
= 250,1; с'-=	— Х*)/(Л-1 )=
= }/9,2424/11 = 0.92, что не очень
сильно отличается от а- =2.536=
= 1,03. Отсюда </= 6 -9.2424/1 Г=
w
'= 2,24, что следует сравнить с
о ==2,53. При а.— 0,045 получаем
/	*	° 94
C.L. = [250,1-2- 1Z ;
V 12-6 ’
250,1 Л-2 .A2--- V (249.5; 250,7).
г V 12-6 )
Такими доверительными предела-
ми часто пользуются в задачах, свя-
занных с контролем качества. Оце-
нивание (/ с помощьюя'- является
основой дисперсионного анализа, с
которым мы познакомимся несколь-
ко позднее.
8,3. ОЦЕНИВАНИЕ ИСТИННЫХ
ПРОЦЕНТНЫХ ХАРАКТЕРИСТИК
Когда выборки берутся из дихо-
томией генеральной совокупности,
185
в качестве оценки истинного значе-
ния л можно использовать выбороч-
ный процент р. Как-и в предыду-
щем разделе, мы считаем, что до-
верительные пределы вычисляются
для того, чтобы с их помощью опи-
сать степень точности оценки или
по заданной точности найти соот-
ветствующий ей объем выборки
(или с обеими этими целями). Еще
раз подчеркнем, что получаемые
оценки используются не с целью со-
поставления, а для дальнейших рас-
четов.
Существуют три способа вычисле-
ния доверительных пределов.
1.	При определении доверитель-
ных пределов можно использовать
доверительные интервалы из табл.
VIII (см. приложение). При этом
требуется, чтобы генеральная сово-
купность была дихотомной и отбор
был повторным или бесповторным,
но из достаточно большой генераль-
ной совокупности, для которой
< 0,05V.
2.	Доверительные пределы можно
вычислять по следующей формуле:
C.L. = p^_zs„ —
= р±а)Лр(100 — р)‘п.
При этом необходимо, чтобы гене-
ральная совокупность была дихо-
томной, отбор был повторным или
бесповторным по достаточно боль-
шой генеральной совокупности, для
которой л < 0,05V, и чтобы соответ-
ствующее биномиальное распреде-
ление было близко к нормальному,
т. е. выборочное значение NS или
NF (в зависимости от того, какое
из них меньше) должно быть боль-
ше 5.
3.	Наконец, формулу для довери-
тельных пределов можно перепи-
сать в виде
C.L. —p±zsp~
= р ± z]/~р (100— р)1пУ 1 — nlN.
Предполагается, что генеральная -
совокупность дихотомна, отбор осу-
ществляется бесповторно из относи-
тельно небольшой генеральной со-
вокупности, для которой л > 0,05 V,
186
и что соответствующее биномиаль-
ное распределение близко к нор-
мальному.
В табл. VIII,а и VIII,б (см. при-
ложение) представлены номограм-
мы доверительных пределов, кото-
рымр можно пользоваться при а,
равном 0,05 или 0,01. В некоторых
учебниках подобные номограммы •
приведены для большего числа
уровней значимости. Для того что-
бы найти доверительные пределы,
возьмем выборку объемом п (на-
пример, п=20), сосчитаем число
успешных исходов (пусть MS =4).
вычислим p=VS/n=0,2 и найдем
эту точку на горизонтальной оси
табл. VIII,а. Из этой точки восста-
новим перпендикуляр и найдем две
точки пересечения этого перпенди-
куляра с границами полосы, поме-
ченной цифрой 20. Ординаты этих
точек и дадут доверительные преде-
лы. В нашем примере С.Е.= (6; 44).
Поскольку в этом случае NS <5, ве-
личину Р (6^л^44) следует взять
из таблицы биномиального (а не
нормального) распределения с па-
раметрами /г=20 и р=0,2. В этом
случае доверительные пределы
нельзя записать в виде C,L‘.=p±k,
поскольку соответс гвующее бино-
миальное распределение сильно
скошено. Поэтому в этом случае их
следует записать в виде C.L.=
=(р—k; р+т). На самом деле /?=
=14 для точки 20—k и т=24 для
точки 20+ т. Поэтому эти довери-
тельные пределы можно записать в
виде C.L.= (p—k\ p+m)=(20—14;
20+24).
Такой номограммой особенно
удобно пользоваться в тех случаях,
когда min(VS, VF)<5, т. е. когда
соответствующее биномиальное рас-
пределение недостаточно хорошо
аппроксимируется нормальной кри-
вой и когда, следовательно, довери-
тельные пределы приходится вычис-
лять по формулам, соответствую-
щим биномиальному распределе-
нию. Однако, поскольку в этом слу-
чае п довольно мало, a sp довольно
велико, такая ситуация на практике
встречается редко.
Вообще говоря, при исследовании
атрибутивных рядов приходится
пользоваться выборками большего
объема, чем при исследований ва-
риационных рядов. В последнем
случае — особенно в вопросах, воз-
никающих при промышленном про-
изводстве,— значения о очень м^-
лы, поэтому достаточно взять вы-
борку небольшого объема. Выбо-
рочное обследование дихотомной
генеральной совокупности, с другой
стороны, может дать довольно боль-
шое значение ор. Например, для
Р—20 и п=400 Ср—2, и доверитель-
ный интервал 0,955 имеет ширину
8%, Чтобы получить интервал ши-
риной 1%, для которого C.L.=p±
zh0,5, потребуется выборка, объем
которой удовлетворяет следующему
условию: 2р 20-80/7: =0,5, 1600/п=
=0,125, п —12800. Поэтому номо-
граммы используются довольно ред-
ко. Обычно, когда можно получить
доверительные пределы с помощью
и номограммы, и формулы С.L.=p±
±zsp, предпочтение отдают послед-
ней. Номограмма к тому же часто
требует графической интерполяции,
что снижает точность результатов
по сравнению с вычислениями по
формуле.
Пример I. Руководство некоторой ком-
пании, в которой работает 2000 человек,
решило организовать пикник для своих со-
трудников. Чтобы установить, какое коли-
чество продуктов следует заказать, орга-
низаторы пикника решили не запрашивать
руководителей отдельных подразделений,
а провести выборочное обследование. На
предприятии есть только одни ворота, и
все рабочие кончают работать в одно и то
же время. Поэтому организаторы направи-
ли к окончанию рабочего дня своего со-
трудника к воротам и поручили ему задать
400 рабочим вопрос, хотят ли оии принять
участие в пикнике.
Обследование дало следующий резуль-
тат: WS=100, откуда р~25%. Доверн
тельные прадеды для а=0,045 равны
С. L. = (25 ± 2) 1^25-75/400 X
X УI — 400/2000 -= 25 ± 2.2,05 = (21—29).
Основываясь на этом результате, орга-
низаторы должны были бы заготовить про-
дукты для участников пикника, число ко-
торых заключено в интервале 420—580 че-
ловек.
Поскольку разница в 160 человек ока-
залась слишком большой, организаторы ре-
шили обследовать ббльшую выборку. Точ-
нее, они поставили себе «елью получить
доверительный интервал шириной 4%, или
в абсолютных величинах 0,04-2000—80 че-
ловек Чтобы узнать, какой объем выбор-
ки обеспечивает требуемую точность, не-
обходимо решить следующее уравнение:
2 V25-75/п V1 — п/2СОО = 2,
К 1875/n (1 —п/2000) = 1;
1875/л — 1875/2000 = 1. п = 938.
Пример 2. В одном городе некоторая
организация решила ежемесячно атублнко-
вать сведения о числе безработных в этом
городе. Эти сведения было решено полу-
чать, проводя каждый месяц выборочное
исследование. Затруднительным оказался
выбор методики выборочного исследования.
Наконец, было решено разбить город на
участки, затем были исключены участки,
занятые парками, промышленными пред-
приятиями и другими нежилыми районами.
Всем остальным участкам для облегчения
процедуры взятия случайной выборки бы-
ли присвоены номера.
Далее, на каждый участок, лопавший
в выборку, был послан представитель этой
организации. Его задачей было отобрать
из числа семей, проживающих иа этом уча-
стке, определенную долю и задать им со-
ответствующие вопросы. Отбор опрел елей-
ной доли семей на -каждом участке был
оставлен на усмотрение агента.
Следующий раз (через месяц) прово-
дить обследование семей из той же выбор-
ки будет уже легче, поскольку выборка
будет обеспечиваться практически та же
самая, и каждую из семей можно будет
проинтервьюировать просто по телефону.
Следующей проблемой было определе-
ние объема выборки. Для того чтобы уло-
вить небольшие колебания числа безра-
ботных от месяца к месяцу, было решено
взять доверительный интервал шириной не
более 1%. Был выбран уровень значимо-
сти 0,045. для которого в среднем лишь
45 интервалов из J ОСЮ не ’содержат истин-
ного значения я (доля, безработных, %).
Для того чтобы получить интервал ши-
риной 1%, объем выборки должен удов-
летворять следующему условию:
4 Иб-94/n = I; 16-564,/п = 1; л = 9024.
Первая выборка дала ArS==587, следо-
вательно, р^6,5%. В городе 400 000 рабо-
тающих. Организация опубликовала сле-
дующие результаты: безработица в февра-
ле (без поправки на сезонные колебания)
составила 6,5%, или 26 000 человек.
После того как этот результат стал
известен, было высказано мнение о том,
187
что хорошо бы иметь сведения отдельно
о безработице среди мужчин и средн жен-
щин. Однако один из статистиков возра-
зил: если уже взятую выборку просто раз-
делить на мужчин и женщин, то получен-
ные цифры окажутся недостаточно точны-
ми и могут ввести в заблуждение. Его до-
воды состояли в следующем. Из общего
числа работающих около 40% составляют
женщины. Следовательно, объем ‘выборки)
' соответствующей женской части населения,
будет равен 0.4-9024=3610. Если доля без-
работных в этой выборке окажется той же
(р=6,5%)г то мы получим доверительные
пределы C.L. =- 6,5 £ 2 Уб,~5-93»5/3610 —
—6,5 zr 0,82. Следовательно, соответствую-
щий доверительный интервал будет иметь
ширину 1,64%, а нс 1%.
Эти выводы оказались убедительными,
н организация решила увеличить объем
выборки, с тем чтобы доверительный ин-
тервал для женщин тоже стал равным 1%.
В результате доверительный интервал, со-
ответствующий общей доле безработных,
будет меньше 1%.
Пример 3. Директор по кадрам неко-
торой компа-нии ведет переговоры с проф-
союзом о заключении нового коллективно-
го договора. Представители профсоюза тре-
буют увеличения длительности оплачивае-
мого отпуска для рабочих, проработавших
на предприятии более 10 лет. Директор но
кадрам хочет определить, в какую сумму
обойдется компании удовлетворение этого
требования. Он попросил заведующего от-
делам обработки данных дать ему сведе-
ния о числе рабочих, чей стаж работы на
предприятии превышает 10 лет.
Заведующий отделом обработки дан-
ных поручил одному из своих программи-
стов написать программу для получения
такой информации. Вскоре он, однако, за-
метил, что подобного рода запросы посту*
нают очень часто. Его неоднократно проси-
ли дать сведения о ставках заработной
платы, возрастных группах, объемах про-
дажи различных товаров, производимых
компанией» и т. д. При этом было не обя-
зательно использовать для получения такой
информации всю генеральную совокупность,
что требовало больших затрат машинного
времени. В результате были написаны опё-
ииальные программы для взятия вы-
борок.
Наиболее удобной для машины явля-
ется систематический отбор (например,
можно брать каждую десятую перфокар-
ту). Ои дал очень хорошие результаты*
Экономия машинного времени в некоторых
случаях была довольно значительной, осо-
бенно когда необходимую степень точности
удавалось получить но небольшой выбор-
ке. Очень часто информация, полученная
по выборке л = 50 или «==100, вполне мог-
ла заменить информацию, для получения
которой ранее требовалось обследовать ге-
неральную совокупность» включавшую не-
сколько тысяч перфокарт,
188
8.4. ОЦЕНИВАНИЕ ИСТИННОЙ
ДИСПЕРСИИ И ИСТИННОГО
СРЕДНЕГО КВАДРАТИЧЕСКОГО
ОТКЛОНЕНИЯ
Чтобы вычислить доверительные
пределы для р в случае, когда о
неизвестно, мы пользовались стан-
дартной ошибкой 5/ — 5 1 V л .	11ри
этом мы пользовались выборочным
средним квадратическим отклонени-
ем s как точечной оценкой для о.
Ясно, однако, что величинами s2 и
5 можно воспользоваться и для по-
лучения интервальных оценок— а2 и
о соответственно.
Вспомним, что s2 есть несмещен-
ная оценка для а2, так как среднее
выборочного распределения s2=o2»
т. е. М (в2)=&=<Л Мы уже проил-
люстрировали это обстоятельство
на примере экспериментального
распределения величин s2 для л=2
(см. табл. 7.5). Поэтому» пользуясь
s2 как точечной оценкой для о2, не
следует вводить поправочный мно-
житель.
Выборочное среднее квадратиче-
ское отклонение s является смещен-
ной оценкой величины о. Пользуясь
значениями s как точечной оценкой
а (кроме тех случаев, когда целью
является вычисление доверительных
пределов С. L'.), его можно умно-
жить на некоторый поправочный ко-
эффициент. Примером такого по-
правочного множителя может слу-
жить величина C.F.=l + l/4(n—1)»
но он годится лишь для нормально
распределенных генеральных сово-
купностей. Таким образом, величи-
на s2 дает несмещенную оценку для
о2 для любой генеральной совокуп-
ности, а [I + 1/4(л—1 )]$ будет не-
смещенной оценкой для о при усло-
вии» что генеральная совокупность
распределена по нормальному зако-
ну. При я=10 имеем C.F.=1 +
+ (п—1)/4=1,028, что увеличивает
значение s на 2,8%. Отметим» что
для выборок меньшего объема фор-
мула для поправочного коэффици-
ента имеет несколько иной вид, но
разница между ними не очень су-
ществен на.
Вычисление доверительных преде-
лов для о2 основано на выборочном
распределении величины з2/о2. Экс-
периментальное распределение з2/о2
может быть получено обычным пу-
тем. Возьмем из табл. 2.1 100 выбо-
рок /1=6, вычислим 100 величин з2,
разделим каждую из них на о2, со-
ставим распределение частот и преоб-
разуем величины f.- в 1"( по форму-
ле /",•=/</Sfг. После этого можно
найти Рг15 и Рй7.ь и записать, напри-
мер, следующее вероятностное
утверждение:
W,.6<s!V<P»J = 0.95.
Разумеется, в тех случаях, когда
s2==d2,.s2/d2=\, при s2<a2 з2/а2<1
и при з2>а2 s2/n2>l. Поэтому в об-
щем случае, пользуясь обозначения-
ми P(Pr<s2/a2<Pi_r), мы всегда
имеем в виду, что Prd, a Pi_r>l.
Когда генеральная совокупность
распределена по нормальному зако-
ну, величина з2/о2 имеет распреде-
ление «хи-квадрат» с соответствую-
; щим числом степеней свободы (рас-
пределение rfjdf или х2/и)- Некото-
рые процентили для этого распре-
деления приведены в табл. X (см.
приложение). Их значения получе-
ны делением частостей из табл. IX
на значения о, приведенные в пер-
вом столбце. При получении этих
оценок использована лишь одна вы-
борочная характеристика, величина
v=n— 1, и требуемые процентили
можно найти из табл. X. Таким об-
разом, для л=6 наше вероятност-
ное утверждение принимает вид:
Р (/>,.. < Л1** < Л, .»> = Р (0.166 <
s*/o* < 2.566) = 0,95.
Эта вероятность имеет очень про-
стой смысл. При л=6 отношение
।	з2/о2 будет с вероятностью 0,95 ле-
 жать между 0,166 и 2,566. Послед-
ний процентиль означает, что з2
может быть более чем в 2 раза
больше о2. Если взять 1000 выборок
п=6 и разделить соответствующие
значения на а2, то 950 из получен-
ных отношений должны лежать
между 0,166 и 2,566. Для /1=2000"
имеем
Р (Р, < з>‘ <	= Р (0.949 <
<з2/аг< 1.053) = 0,90,	\
а для п = 10 000
Р (0.964 < з7з‘ < 1,023) = 0,90.	‘
Другими словами, для больших вы- •
борок, например /1=10000, s2 явля-
ется почти точной оценкой а2.
. Эти примеры показывают, что
распределение х2/о скошено вправо, • «
но эта скошенность уменьшается
с ростом v.. Для /1=5 мы имеем. ?
1— Р5=0,771, а 1—Рм=—1,214, но
для п=10000 мы имеем уже 1—Р5=
=0,036, а 1—Рэь=—0,023. Таким1 t
образом, при /г=5 скошенность го- г
раздо больше, чем при /1=10 000.
Это обстоятельство имеет важное
значение для определения объема
выборки. Пусть требуется, чтобы з2
составляло не менее 50% о2 и не
более 150% а2, т. е. чтобы з2 не бо-
лее чем на 50% превышало о2. Для
выполнения первого условия (Р5=
=0,500) требуется выборка объе-
мом л=17, а для выполнения вто-
рого условия (P«s=l,500)—выборка
объемом п=26. Для того чтобы s2
составляло не менее 80% а2 и не
в более 120% а2, необходимо, чтобы •
л=126 (для Р5=0,800) и п=146
(для Р95= 1,200).
Доверительные пределы для о2
можно вывести непосредственно из
этих вероятностных утверждений.
Вероятность Р (Рт <С з2/сг2 < Pt_r) =е
можно переписать в виде Р(\/Рг>
^>ст2/з2>-1/Pi_r)=e или в виде'
P(l/Pf_r<o2/s2<l/Pr) =е. Умножая
все три величины, стоящие в скоб-
ках, на s2, получаем
Р(з2/Р1_г<о®<з2/Рг)=е,
откуда
Отсюда получаем доверительные'
пределы для о в следующем виде:
c.l.-(/?7p^7
Рассмотрим, например, выборку
объемом /г=6 из табл. 7.6. Для нее*
18»
$2=9,766 и 5=3,125. Доверительные
пределы для а2 при а=0Д0
имеют вид	C-L'.= (9,766/2,214—
—9,766/0,299)=(4,1 —42,6). Квад-
ратные корни из этих двух чисел
дают доверительные пределы для
п: C.LJ.= (2,1—6,5). Эти доверитель-
, ные пределы содержат как о2=6,42,
так и 0=2,53.
Предположим, что для нас дове-
рительные пределы C.L*.= (4,1—
—42,6) слишком широки. Найдем
такое п. что разность между верх-
ним доверительным пределом
UC.L.=42,6 и $2=9,766 была равна
не 32,8, а, например, «С.Е.—$2=3.
Иными словами, мы хотим, чтобы
*9,766/ Рг=9,766+3= 12,766. Отсюда
Рг=9,766/12,766=0,765, так что при
<1=0,10 значение п, соответствую-
щее этому процентилю, примерно
равно 89.
Размах как оцениватель а. В за-
дачах, связанных с контролем ка-
чества, в качестве точечного оцени-
ла тел я о часто используется раз-
мах. Например, для того чтобы вы-
числить значение s^—sl^n- не
обязательно вычислять $. Ее можно
аппроксимировать значением /?.
С увеличением объема выборки
(при л>15) лучше пользоваться $,
а не /?. Кроме того, величину а не •
следует оценивать с помощью /? в
тех случаях, когда генеральная со-
вокупность имеет скошенное рас-
пределение. В противном случае
крайние значения (большие или ма-
ленькие) сильно исказят значение
стандартной ошибки.
8.5. ВОПРОСЫ И ЗАДАЧИ
8.1.	Некоторая организация хочет еже-
месячно устанавливать цену на мясо раз-
ных сортов, продаваемое в 512 магазинах
города. Она не может узнать цены по те-
лефону и должна поэтому воспользоваться
услугами своих агентов. Чтобы уменьшить
расходы (агентам приходится много пла-
тить), организация решает проводить вы-
борочные .исследования.
Одному из агентов поручили посетить
/20 магазинов, случайным образом выбран-
* ных из общего списка. Он получил сле-
дующий перечень цен: 1,95; 2,00; 1,70; 1.65.
2,00; 1,30; 2,05; L55; 2.30; 1.50; 1.55; 1,30;
2,45; 1,90; 2,25; 1,45; 2,05; 1,75 долл.
а.	Вычислите доверительные пределы,
соответствующие уровню значимости et=
^0,045. .
б.	Поскольку средние цены на мясо
будут публиковаться в форме индексных
показателей, они должны быть представ-
лены точечными огхенками. Кроме того, они
должны отражать даже небольшие месячные
колебания. Следовательно, доверительней
интервал должен быть как можно короче.
Определите, выборка какого объема тре-
буется для того, чтобы €±.=,¥±0,04 долл.
а. Если бы вы отвечали за вычисление
индекса цен. представляющего, например,
200 типов товаров, стали бы вы получать
ежемесячные значения средних цен для
этих 200 типов товаров выборочным путем
или с помощью полного охвата?
8.2.	Предположим, что вы взяли 1000
выборок того же объема из той же гене-
ральной совокупности и для каждой нз них
вычислили C.L—¥± zc— для г=3 и г=1.
JC
а.	Сколько раз в идеале доверитель-
ные интервалы обоих типов не будут со-
держать И-
б.	Примем Р (ошибка 1-го вида)--а,
где а есть некоторый заданный уровень
значимости. Сколько раз в идеальном слу-
чае мы совершим ошибку 1-го вида, когда
2=1?
8.3.	В каких случаях мы пользуемся
.формулами э- = сКп, ст—(а/Иг:) X
X V1 -л/Л', = З/Уп И	($/И п) X
X / 1
8.4.	Имеются две генеральные сово-
купности. Для первой из -них формулой
C.L. = X — za— можно пользоваться для
X
выборок любого объема. Во втором случае
доверительные пределы имеют такой внд,
когда п достаточно велико, В чем причина
этого различия?
8.5.	Почему в одних случаях довери-
тельные пределы вычисляются при а*«
—0,003, а в других—при а—0,1?
8.6.	Вычислите доверительные пределы
в следующих случаях (прн а=0,05 и -¥=
=20); ‘
о = 2, п= 25, W	велико;
в = 2, n ==25,	= 50;
s = 2, л = 25, У	велико;
s=2, л =25, N	=*50;
s — 2» n — 400, Д’	велико;
s = 2, n = 400, N	= 800;
о = Ю, п = 25. N велико.
Тщательно проанализируйте результа-
ты н объясните, почему они отличаются
друг от друга.
'190
8.7.	Решите уравнение 2/V 25— 4/V’i
и объясните его смысл.
8.8.	а. Если известно, что о — -0,4 и
X
л=25, то известна н величина а. Чему она
ра-вна?
б. Если вам известно, что 5— =0,4 и
X
л=25, то известна н точечная оценка не-
которого параметра, Какого именно?
8.9
8.10.	Сотруднику некоторого универси-
тета поручено каждые три года давать
оценку средних расходов студентов на пи-
тание. Эта оценка публикуется в универ-
ситетском бюллетене н используется для
определения размера стипендий и дотаций
нуждающимся студентам. Сотрудник ре-
шил взять некоторую выборку из общего
числа студентов и попросить студентов, во-
шедших р. выборку, отмечать свои расходы
на питание в течение 2 недель осеннего '
семестра. Затем он решил собрать данные
об общих расходах от каждого из студен-
тов и вычислить X и C.L.
а.	Выборку какого объема следует '
взять для получения доверительного интер-
вала шириной 0,4 долл, с уровнем значи-
мости 0,045? Из предыдущего опыта изве-
стно» что s=2 долл.
б.	Оказалось, что выборочное среднее
равно 28 долл. Вычислите доверительные
пределы.
в.	Сколько в среднем расходует сту-
дент па питание в течение академического
года (35 недель)?
г.	Сведения о расходах иа питание
должны быть опубликованы в виде точеч-
ной оценки. Считаете ли вы, что получен-
ный доверительный интервал мал для того,
чтобы можно было считать X точечной
оценкой ф1?
8.11.	Рассмотрим следующие выборки:
л i=50, Ar^j=10; «2=200, jVS^=40; Пз=
=2000, /VSa=400.
а.	Постройте доверительные пределы
для £=0,90-
б.	Примем ЛГ^ЮО, Л^в400 и Ng=
=4000. Вычислите доверительные пределы
для в=0.90.
в.	Заметим, что в каждом случае jV<
в 2 раза больше п>-.
Сравните все три задачи друг с другом,
8.12.	Для л—400 вычислите довери-
тельные пределы при а=0»045 для р=10 и
р=50.
8.13.	Для с=0,045 найдите, при каком
объеме выборки получаются следующие
доверительные пределы: р± 10? если р«^10;
р±10, если р=о0; р±2, если /*=10; р±2,
если р=50, Проанализируйте результаты.
8.14.	При и=0,045 и л «>400 вычислите
доверительные пределы для /*=40 и
=50 00С и для р—40 и Л==5 000 000
1 Ввиду того что в оригинале вопрос
8.9,а перепутан с вопросом 8.10.Э, задача
8-9 из текста перевода исключена,—При*,
ред.
8J5. Будем считать, что данные из
табл. 2.4—2.6 представляют собой некото-
рые выборки. Для а—0,05 оцените три зна-
чения ц и три значения о. Разделите все
три пары доверительных пределов для р
на X и сравните друг с другом. Затем раз-
делите все три пары доверительных преде-
лов для а на X и также сравните друг
а другом.
8.16.	Вы . хотите получить оценку для
и1 2. Выборку какого объема следует взять,
чтобы при a—0,005s2 было не менее
80%
8.17.	Известно, что .^=4. Найдите та-
кое п, чтобы при а=0,05 нижний довери-
тельный предел отличался от $2 на 0,8.
8.18.	После изменения состава кормов
из 500 поросят была взята выборка, вклю-
чающая 60 поросят. Их массы оказались-
следующимм:
Мясса. Фунт	Чнс.-.О, <1ГГ.
60—64,9	3
65—69,9	40
70—74,9	14
75—79,9	3
а.	Дайте оценку (с уровнем значимо-
сти а—0,05) средней массы всех поросят.
б.	Предположим, что фермер хочет не-
медленно продать всех 500 поросят. Чему
равна их общая масса?
в.	Оцепите о Будет ли интересовать
фермера эта оценка?
8.19.	На некотором предприятии рабо-
тает 2000 человек. Дирекция хочет оценить
долю рабочих, которые в понедельник
опоздали на работу более чем на 5 мин.
Положим и—0,045.
а.	Выборку какого объема следует
взять, чтобы доверительный интерпал имел
ширину ие более 4%.
(Дирекции известно, что количество
опоздавших не больше 30%).
б.	Была взята случайная выборка того
объема, который вы нашли в задаче
8.19.3, и было установлено, что р=*18%.
Каково общее число рабочих, опоздавших
на работу в понедельник?
8.20.	В некотором банке число сроч-
ных счетов равно 20 000. Дирекция банка
хочет предоставить вкладчикам, имеющим
на срочных счетах более ЮОО долл., спе-
циальные льготы. Для этого ей необходимо
знать как число таких счетов, так и общий*
объем сбережений.
а.	Как вы определите объем выборки
для получения оценки общего объема сбе-
режений? Не будет ли такая выборка
слишком малой?
б.	Сколько выборок придется отобрать-
(две или одну), чтобы получить обе-
оценки?
в.	Была отобрана предварительная вы-
борка объемом п“50,' она дала значение
s=1200 долл. Какую выборку следует ото-
брать, чтобы получить доверительный ин-
тервал для ц шириной 200 долл. Возьмите-
0=0,045.
191
г.	Выборку какого объема следует ото-
Ярать, чтобы получить для л доверитель-
ный интервал шириной 4%. Примите и^=
= 0.045.
д.	Выборка объемом п— 600 дала сле-
дующие результаты: число срочных вкла-
дов выше 1000 долл. ArSs=120. Соответст-
вующие значения выборочного среднего и
выборочного среднего квадратического от-
клонения равны Х=4500*долл. -и s=
= 1180 долл. Получите (с уровнем значи-
мости «—0,045) оценку общего числа сроч-
ных вкладов и оценку числа срочных вкла-
дов более 1000 долл.'
8.21.	800 студентам был задан следую-
щий вопрос: купили ли зы в период с сен-
тября по июнь в магазинах нашего универ-
ситетского городка хотя бы одну пару обу-
ви? Число положительных ответов оказа-
.лось равным NS ^-100.
а.	Вычислите доверительные пределы
для и—0,05.
б.	Сколько всего было покупателей-
студентов, если в университете учится
в общей сложности 20 000 студентов?
в.	Предположим, что студентам, гкжав-
зшим в эту выборку, задавался такжё во
прос о том, сколько пар обуви они купили
и за какую цену. 100 студентов, каждый из
которых купил хотя бы одну пару обуви,
купили в общей сложности 120 пар" по
средней цене А'^-18 долл, за пару, причем
s — 2,50 долл.
1.	Вычислите соответствующие уровню
значимости 0.05 доверительные пределы
для средней стоимости пары обу^и, при-
обретенной всеми студентами.
2.	Воспользуйтесь значением р как то-
чечной оценкой и оцените общую сумму
денег, истраченных и а обувь студентами
ч магазинах этого городка.
8,22.	Рабочий у конвейера выполняет
некоторую простую операцию. В течение
5 рабочих дней одной недели были несколько
раз проведены замеры времени..необходимо-
го для проведения этой операции. Время за-
мера выбиралось случайным образом, и по-
лученные значения оказались равными (вс):
53. 49, 51. 58, 52, 48, 51, 50, 56, 53, 54, 55.
При е—0,99 вычислите доверительные
пределы для ц. Сколько деталей пройдет
через руки рабочего в течение недели, если
продолжительность рабочей недели раз-
на 35
ГЛАВА 9
ИСПОЛЬЗОВАНИЕ ВЫБОРОЧНЫХ ХАРАКТЕРИСТИК
ДЛЯ СОПОСТАВЛЕНИЯ ИСТИННЫХ ПАРАМЕТРОВ
ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ
9.1.	ВВЕДЕНИЕ
В предыдущей главе доверитель-
ные пределы использовались в тех
случаях, когда значения ц, л, а2 или
с оценивались с помощью X, р, №
или s, причем получение оценок
нужно было для последующих рас-
четов, а не для сопоставления с дру-
гими величинами этого рода. Мы
познакомились с методикой нахож-
дения объема выборки, дающей тре-
буемую степень точности.
Настоящая глава посвящена во-
просам сопоставления истинных
значений' тех или иных параметров
с помощью выборочных характери-
стик. Например, непосредственное
вычисление |Д[ и по полным ге-
неральным совокупностям может
быть нецелесообразным, и поэтому
важно уметь делать выводы о воз-
можной разнице между p.t и р2 при
сравнении рассчитанных .по. выбор-
кам значений X, и Ха.
192
С вычислительной точки зрения
сравнить истинные значения пара-
метров для двух генеральных сово-
купностей (если они уже определе-
ны) не представляет труда. Это со-
вершенно однозначная и полностью
определенная процедура. Однако в
тех случаях, когда нам приходится
делать выводы о разнице между ц,
и Ц2, сопоставляя выборочные сред-
ние, следует учитывать зависящие
от выборки колебания этих двух ха-
рактеристик. При этом возникает
необходимость использовать веро-
ятностные понятия. Мы снова стал-
киваемся с неопределенностью, и
именно поэтому предмет настоящей
главы называют также «теорией
статистических выводов», «решения-
ми в условиях неопределенности»,
«стохастическими и вероятностными
процедурами принятия решений»
и т. д.
Как уже указывалось, если мы
располагаем данными по полным
генеральным совокупностям, то их
сопоставление не вызывает про-
блем. Если, например, имеются два
ящика со стальными булавками и
длины всех булавок уже измерены,
то каждый, кто умеет складывать и
умножать, может вычислить и
р2. Процедура сравнения чрезвы-
чайно очевидна, Если pi—251,
а ц2=250, то первое значение на
одну тысячную дюйма больше вто-
рого, и этот вывод можно использо-
вать для принятия соответствующих
решений.
Однако процедура сопоставления
щ с ц2 с помощью Xi и Я2 совсем
не так проста. То, что одно значе-
ние Я отличается от другого, еще пе
обязательно указывает на то, что
соответствующие ц также отлича-
ются друг от друга на значение то-
го же порядка. Разность между
и Я2 может быть вызвана в
большей степени погрешностью вы-
борочного исследования и в мень-
шей степени разницей между Ц1
И Ц2-
В этой главе мы и рассмотрим
методы анализа данных выбороч-
ных исследований, с помощью кото-
рых мы сможем отвечать на сле-
дующие вопросы.
Имеется ли разница (или сущест-
венная разница) между значениями
Pj И Ц2, J4 И Л2, Цо И Ц, По и Jt, О1 И
02 ИЛИ Оо И О?
2. Если такая существенная раз-
ница имеется, то чему она равна?
Предположим, что имеются две
нормально распределенные гене-
ральные совокупности с параметра-
ми |Xi=80, oi=5, ц2=130 и о2=5-
Наибольшим значением первой ге-
неральной совокупности Pi можно
приближенно считать Ц1 + За=804-
4-15=95, а наименьшим значением
второй генеральной совокупности
Р2—Ц2~Зо=130— 15= 115. Это озна-
чает, что наши генеральные сово-
купности практически не пересека-
ются. Поэтому разницу между pi и
ц2 можно обнаружить при сопостав-
лении Ji и Я2, даже если последние
получены по очень маленьким вы-
боркам; А'г будет всегда больше Я\.
13-232
Если Ц1=8О и 01=5, но р2=82 и
02=5, то графики обоих распределе-
ний будут в значительной мере пе-
рекрывать друг друга. Наибольшее
значение Pi^95, а наименьшее зна-
чение Р2=77. Если объемы выбо-
рок, взятых из каждой из этих ге-
неральных совокупностей, будут
слишком малы, то может иметь ме-
сто любое из трех соотношений:
= и	По-
этому разницу между щ и р2 нель-
зя обнаружить, сравнивая такие
значения и Я2. Объемы обеих
выборок должны быть достаточно
велики, чтобы соответствующие вы-
борочные распределения не пересе-
кались.
Часто спрашивают, зачем вообще
тратить время на обнаружение та-
ких небольших расхождений, как
разница между щ=80 и ц2=82?
Но ведь даже если эти числа ха-
рактеризуют массу некоторого ма-
териала в граммах после его рас-
фасовки, то разница между массой
10 миллионов таких упаковок в пер-
вом и во втором случае вполне за-
служивает серьезного анализа.
Если изготовляемые на станке
стержни всего на 0,0002 дюйма ко-
роче стандарта, но из-за этой раз-
ницы может выйти из строя двига-
тель другого дорогого устройства,
это расхождение стоит того, чтобы
его обнаружить. То же самое мож-
но сказать и об отдельных компо-
нентах тех или иных лекарств.
9.2.	СОПОСТАВЛЕНИЕ р, С р0
Заголовок этого раздела кратко
характеризует эксперимент, цель ко-
торого— сопоставление истинного
значения р, с некоторым стандар-
том, обозначенным буквой цо. Зна-
чение этого стандарта определяет-
ся, как правило, одним из двух спо-
собов. Его либо просто предписы-
вают извне, исходя из тех или иных
технических или организационных
соображений, или же оно на самом
деле представляет собой среднее
по некоторой стандартной генераль-
ной совокупности, с которой сопо-
193
ставляют одну или несколько дру-
гих совокупностей.
Можно привести сколь угодно
много примеров стандартов в про-
мышленном производстве. Почти
любая деталь станка, прибора, авто-
мЪбиля, самолета, судна и др. про-
изводится со степенью точности,
определенной техническими усло-
виями. Такие условия могут требо-
вать, чтобы длина стальной булав-
ки равнялась 0,250±0,005-10-3 дюй-
ма. К диаметру отверстия предъяв-
ляются более жесткие требования
например, 2,250±0,002-10-3 дюй-
ма. Ось двигателя с большим сро-
ком службы должна быть особо
тщательно зачищена и отполирова-
на, при этом требуется, чтобы ее
диаметр был равен 1,0000zc0,0002
дюйма. В такой же форме даются
технические условия на прочность
материалов (напряжение сжатия,
растяжения, разрыва и т. д.), масса,
объем и прочие характеристики.
Есть два способа проверить, со-
ответствуют ли реально выпускае-
мые детали техническим условиям,
например условию, что диаметр не-
которого отверстия должен быть ра-
вен 2,250±0,002. Во-первых, можно
просто измерить диаметр каждого
отверстия. Если некоторые отвер-
стия будут иметь диаметр, меньший,
чем 2,248, то это еще можно будет
исправить. Однако детали с отвер-
стиями, диаметр которых больше
2,252, скорее всего придется отпра-
вить в брак.
Иногда проводится не только про-
верка отдельных деталей, но и за-
пись результатов измерений. После
этого можно составить распределе-
ние частот этих данных и вычис-
лить его среднее и среднее квадра-
тическое отклонение. Это среднее
будет средним по соответствующей
генеральной совокупности р, а сред-
нее квадратическое отклонение даст
значения о. Затем это значение
среднего можно сравнить с ро=
=2,250, а о использовать, чтобы
установить, например, какой про-
цент деталей лежит в пределах ро±
±0,002.
194
Такой сплошной контроль приме-
няют в тех случаях, когда издержки
ошибки очень значительны. Если
это не так, то сравнение реального
значения р с рю, требуемой техниче-
скими условиями, можно проводить
не путем сплошного контроля, а пу-
тем взятия выборки (т. е. не вычис-
ляя значение р).
Ко второй группе сопоставлений
относятся случаи, когда значение рю
само является средним арифметиче-
ским, вычисленным по некоторой1
стандартной генеральной совокуп-
ности. Примерами могут служить
такие показатели, как заработная
плата рабочих некоторой компании
и средняя заработная плата по-
стране, средний уровень знаний
школьников вообще и уровень в
данной школе, средняя производи-
тельность одного предприятия и
всей отрасли и т. д.
Из этих примеров видно, что сфе-
ра приложений методики сопостав-
ления р с рю действительно очень
широка.
В данном разделе мы рассмот-
рим порядок сопоставления р с р<>
с помощью X. Как сравнивать <т
с Оо с помощью выборочного зна-
чения s, мы рассмотрим в разд. 9.6.
9.2.1.	Проверка гипотез
с помощью пределов интервала
принятия
Рассмотрим, какие выводы о свя-
зи между р и рю можно сделать,
сравнивая X и ро. Пусть техниче-
ские условия требуют, чтобы ро=
=250-10~3 дюйма. Предположим
далее, что наш станок может нахо-
диться только в двух состояниях—
отрегулированном и разрегулиро-
ванном. В первом случае он произ-
водит булавки с pi=250, во вто-
ром— с р2=255. Других значений р
быть не может. Предположим так-
же, что <Т1=ав=<г=2,50.
Работник ОТК хочет выработать
методику, которая даст ему возмож-
ность установить с помощью X, вер-
но ли, что po=pi, или же p«^pt-
Так как ему никогда еще не прихо-
дилось этого делать, и он не знает,
как определить требуемый объем
выборки, он принимает п=25.
Для п=25 0- = 2,50/ У25= 0,5.
Интересующие исследователя взаи-
мосвязи графически показаны на
рис. 9.1. На горизонтальной оси
отмечено значение ро=25О. Обе ге-
неральные совокупности, графики
которых построены внизу, распреде-
Рис. 9.1. Проверка гипотез, п=25, °——
=0,5) (две возможности для р.)
лены по нормальному закону и име-
ют одинаковые дисперсии. Строя
эти графики, мы считали, что наи-
большее и наименьшее значения
каждого из распределений равны
соответственно 250±3-2,50 и 255±
±3-2,50. Аналогичным образом
построены и распределения выбо-
рочных средних, т. е. в предполо-
жении, что их наибольшие и наи-
меньшие значения равны 250±
±3-0,5 и 255±3-0,5 соответственно.
На всех последующих графиках мы
будем строить только распределе-
ния выборочных средних.
Контролер заметил, что Р(Х,<
< Н.+-Ч-) = Р (X, < 251,5) = 0,999-
Поэтому он мог спокойно считать,
что практически наибольшим воз-
можным значением выборочного
среднего, которое можно получить
из генеральной совокупности с щ==
=250, будет J?i=251,5.
Затем он отметил, что Р(Х2>
>р2—Зсг)=Р(Х2>253,5)=0,999, и
отсюда заключил, что наименьшим
возможным значением Х2, которое
можно получить из генеральной со-
13*
вокупности с р2=255, является
253,5. Таким образом, наибольшее
выборочное среднее из первой ге-
неральной совокупности не пере-
крывается с наименьшим выбороч-
ным средним второй генеральной
совокупности. Пользуясь этим, кон-
тролер сформулировал следующее
правило: гипотеза Н: ц=р.о спра-
ведлива, если Х<251,5; альтерна-
тивная гипотеза р#=ро справед-
лива, если Я>251,5. С учетом
того, что крайние значения и Х2
далеко отстоят друг от друга, мож-
но сформулировать и другое прави-
ло: р=ро, когда Х<252,5, и р#=ро.
когда .£>252,5, где точка 252,5 взя-
та потому, что она находится в се-
редине отрезка между точками pi
и р2. Главное предположение в этом
правиле называется «нулевой гипо-
тезой». Если нулевая гипотеза спра-
ведлива, это означает, что р=ро.
Если она отвергается, то р#=ро.
До тех пор, пока выборочные
средние удовлетворяют условию
л<252,5, мы принимаем нулевую
гипотезу. Это значит, что наш ста-
нок отрегулирован правильно. Одна-
ко, как только мы получим Х>
>252,5, станок следует остановить
и отрегулировать.
Такое решающее правило оказа-
лось очень хорошим со статистиче-
ской точки зрения, но наш контро-
лер попытался уменьшить расходы
на выборочное обследование и
взять выборку меньшего объема.
Он выбрал л=4.
Выборочные распределения для
Ji и Xz при п—4 показаны на рис.
9.2. Генеральные совокупности на
f(X)
255
Hq-250
2*t5
Рис. 9.2. Проверка гипотез, п=4,о—=
— 1,25 (две возможности для р)
195
рисунке отсутствуют, так как они
в точности повторяют показанные
на рис. 9.1.
В этот момент контролер заме-
тил, что эти два выборочных рас-
пределения перекрываются. Это
усложнило принятие решения по
сравнению с предыдущим случаем.
Все, что он знает, это что при Х<
<251,25 истинное значение средне-
го удовлетворяет соотношению р=
= ро- Число 251,25 равно р?—За-, и,
следовательно, выборочное среднее,
удовлетворяющее неравенству Х<
<251,25, не может принадлежать
Ра. Кроме того, понятно, что если
X больше, чем 253,75, т. е. X боль-
ше величины р, -{- Зс-, то это выбо-
рочное среднее не может получить-
ся из генеральной совокупности с
ра=255, и в этом случае наш ста-
нок следует остановить и отрегули-
ровать. Контролер, однако, не знал,
как быть, если X лежит в пределах
251,25<Я<253,75. Такое выбороч-
ное среднее могло получиться из
любой из этих генеральных сово-
купностей.
Немного подумав, он решил по-
смотреть, что получится, если сфор-
мулировать следующее правило.
Так как выборочные исследования
проводятся регулярно (через фик-
сированные промежутки времени),
он вычислил предел интервала при-
нятия	pi +1,96а -у=Цо +1 .®6а —=
=252,45. Если выборочное среднее
таково, что Я<252,45, то нет необ-
ходимости останавливать станок, и
это значение X происходит из гене-
ральной совокупности с Ц1=250=
=цо. При Я>252,45 станок следует
отрегули ювать, так как в этом слу-
чае можно считать, что он произ-
водит булавки с (12=255. Оставим
теперь нашего контролера и про-
должим анализ задачи самостоя-
тельно.
Ошибка первого рода. Для преде-
ла интервала принятия (i0+ 1,96с-=
= 252,45 площадь, под нормальной
J96
кривой справа от этой точки равна
Л^2,45 —0,025. Это значит, что в
идеале из 1000 случаев, в которых
(i=(io, гипотеза (1=(ю будет приня-
та 975 раз, и, следовательно, реше-
ние не останавливать станок будет
правильным. Однако в 25 случаях
гипотеза будет отвергнута. Это
произойдет потому, что предел ин-
тервала принятия равен Р-, 4~ 1,96с-,
а не рь0—За—. В результате ста-
нок будет остановлен, но, как бы-
стро выяснится, зря, поскольку о»
был отрегулирован правильно и вы-
пускал булавки с (i=(io=25O.
Когда предел интервала принятия
равен (1<,-т-Зз-=253,7о, площадь под
нормальной кривой справа от этой
точки равна Д“25?.75=0,0013. Таким
образом, вероятность отвергнуть ги-
потезу (1=(ю=25О при условии, что-
на самом деле ро=25О, равна 0,0013.
Такой вероятностью можно спокой-
но пренебречь. Это значит, что пре-
дел интервала принятия устраняет
возможность ошибки такого рода.
Когда предел имеет вид -|“
-4-1,96о-, вероятность того, что с ганок
будет остановлен напрасно, равна
Р(Х > |i0 -| • 1 ,96о-) —0,025. Она сов-
падает с уровнем значимости « и
называется вероятностью ошибки
первого рода. Этот термин мы уже
использовали в связи с вычислени-
ем доверительных пределов в гл. 8.
В нашем примере стоимость ошиб-
ки первого рода определяется стои-
мостью неоправданной остановки и
обследования станка. Отметим, что
значению 2=1,96 соответствует а=
=0,025, а не а=0,05, как в преды-
дущих случаях. Причина состоит
в том, что теперь нас интересует
лишь один (односторонний) пре-
дел, соответствующий только одно-
му хвосту графика. В тех много-
численных случаях, когда нас инте-
ресуют оба хвоста, значению z=
=1,96 должен соответствовать уро-
вень значимости а=0,05.
Ошибка второго рода. Еще одна
I
I
1
i
трудность, возникающая при ис-
пользовании двух перекрывающих-
ся (вследствие того, что объем рас-
сматриваемых выборок мал) выбо-
рочных распределений, заключает-
ся в возможности совершить так
называемую ошибку второго рода
или fl-ошибку. Мы говорим, что со-
вершаем такую ошибку во всех слу-
чаях, когда принимается неправиль-
ная гипотеза. Для предела интерва-
ла принятия ро+1,96 а-= 252.45
может оказаться, что выборочное
среднее, меньшее этого предела,
все-таки происходит из генеральной
совокупности с параметром ц2, а не
|М. Согласно нашему правилу, если
.¥<252,45, следует принять нуле-
вую гипотезу и станок останавли-
вать не следует. Если при этом X
происходит из Pt, то это решение
будет правильным. Однако если
.¥<252,45, но происходит из Р2, то
станок нельзя не останавливать,
так как на нем будут производить-
ся булавки неправильной длины.
Эти булавки придется забраковать
или (если возможно) переделать,
а соответствующие расходы опреде-
лят стоимость ошибки второго рода.
Вероятность ошибки второго ро-
да относительно ps — 255 равна fl =
. что представляет собой пло-
щадь под кривой слева от точки р, -|-
-J- 1,96о-. Другими словами, вероят-
ность Р(Х < 252,45|ps = 255, с^- =
= 0,5) = fl =0.021 (это читается так:
вероятность того, что	252,45
при условии, что =255 и	= 0,5)
9.2.2.	Принятие решений
и определение объема выборки
с учетом ошибок первого и второго
рода
В случаях, подобных только что
рассмотренному, т. е. когда станок
может производить булавки либо
с |ц=250, либо (если он разрегу-
лирован) с Ц2=255, очень просто
устранить ошибки как первого, так
и второго рода (или и тех и других
одновременно).
Чтобы сделать пренебрежимо ма-
лой ошибку первого рода, можно
взять допустимый предел в точке
Pi -J- Зо-=253,75. Это, однако, уве-
личит ошибку второго рода до зна-
чения
fl = Р (У|< 253,751; р, = 255) =
Чтобы сделать пренебрежимо ма-
лой ошибку второго рода, достаточ-
но взять в качестве допустимого
предела точку р1 — За-=251,25.
В этом случае вероятность ошибки
второго рода пренебрежимо мала,
но вероятность ошибки первого ро-
да равна а=Р(У>251,25|ц1=
=250)=Л*(25=0,159. Оба эти допу-
стимых предела показаны на
рис. 9.2.
Добиться того, чтобы обе ошибки
были одновременно пренебрежимо
малыми, можно, взяв выборку до-
статочно большого объема (в на-
шем примере больше, чем л=4).
Объем выборки должен быть таким,
чтобы два выборочных распределе-
ния практически не перекрывались.
Точнее, начиная с точки р2—Зо—.
хвост_ выборочного распределения
для Л'2 не должен лежать слева от
предела интервала принятия. Кроме
того, сам предел должен, в свою
очередь, иметь вид pe-|~ 3sЧтобы
это выполнялось, необходимо, что-
бы
^Ч-Зз-=!г5 — Зс-.
Подставляя известные значения,
получаем
250 -и (3 -2,50) '//Г= 255 -
- (3-2,50);//?
откуда п — 9. Для выборок такого
объема предел интервала принятия
имеет вид ^-f-За* = 252=р2—За-.
Если мы принимаем ошибку первого
рода с вероятностью а=0,05, но хо-
197
тим устранить ошибку второго рода,
то нам следует решить уравнение
^+1,96зг =1^-30-.
Объем выборки п=9 может пока-
заться небольшим, если сравнить
его с объемами выборок, которые
мы рассматривали в гл. 8. Но уже
было отмечено, что в промышлен-
ном производстве вариация данных
обычно невелика. Отсюда и неболь-
шой объем выборок.
Если 1*0=250, р 1=250, но р,2=253,
то объем выборки, при котором
ошибки первого и второго рода бу-
дут практически исключены, равен
п=25 и может быть получен из ана-
логичного уравнения
250 4-(3 2,5Э)//п =
= 253 - (3-2,50)//л.
Однако, чтобы практически исклю-
чить ошибки обоих ТИПОВ при р,о=
=250, р(=250 и р,2=251, следует
взять выборку уже с п=225.
Это показывает, что с помощью
малых выборок нельзя обнаружить
различие между цэ и pi в тех слу-
чаях, когда это различие невелико.
Это обстоятельство имеет общее
значение и справедливо для всех
критериев проверки гипотез.
Теория статистических выводов в
тех случаях, когда р может прини-
мать бесконечное множество значе-
ний. Все сказанное выше основыва-
лось на предположении, что на на-
шем станке можно производить бу-
лавки, соответствующие только
двум значениям р. Такие случаи
редко встречаются на практике.
В частности, рассмотренный нами
пример был явно искусственным.
Конечно, он был полезен тем, что
с его помощью мы смогли йроиллю-
стрировать целый ряд важных ста-
тистических понятий. Теперь мы не-
сколько изменим его, сделав более
реалистичным.
Предположим, что согласно тех-
ническим условиям длины булавок
должны примерно составлять р0=
=250, но на нашем станке можно
производить продукцию с любым
19S
значением р. В этом случае уже нет
необходимости помечать р тем или
иным индексом. Достаточно запи-
сать соотношение между р и ро, на-
пример р,=ро, р^ро, р>ро и т. д.
Так как мы рассматриваем один и
тот же станок, разумно предполо-
жить, что о не зависит от р и име-
ет постоянное значение.
Рис. 9.3. Проверка гипотез, п—4.,о-,=
= 1,25 (может принимать бесконечное чис-
ло значений)
Для нас среди бесконечного чис-
ла возможных значений р идеаль-
ной является генеральная совокуп-
ность с р=ро=25О, поскольку она
в точности соответствует техниче-
ским условиям. Распределение вы-
борочных средних, соответствующих
этой генеральной совокупности для
п=4, показано на рис. 9.3.
Теперь уже контролер может
счесть необходимым установить
пределы интервала принятия не с
одной, а с обеих сторон точки р=ро
(рис. 9.3). Например, уровню зна-
чимости (или вероятности ошибки
первого рода) а=0,05 будут соот-
ветствовать точки р нн 1,96а-=
=(247,55—252,45). Как и ранее, мы
можем сделать эту вероятность пре-
небрежимо малой, расширив преде-
лы до интервала принятия рг±3з-.
Однако, поскольку р может теперь
принимать любое значение, вычис-
лить вероятность ошибки второго
рода р и выработать правило при-
нятия гипотезы или отказа от нее
в этом случае гораздо сложнее.
Если Х>252,45 или Х<247,55, то
можно считать, что р=/=ро, и, следо-
вательно, наш станок необходимо
отрегулировать. Однако если
247,55<Х <252,45, то уже нельзя
сказать, что р=ро. На рис. 9.3 вид-
но, что такие выборочные средние
вполне могут происходить из боль-
шого числа генеральных совокупно-
стей, значения р для которых отли-
чаются от значений ро-
Возьмем, например, значение X—
=251,1 (которое попадает в преде-
лы интервала принятия) и найдем
р, для которого р—Зз-=251,1 (иная
форма записи доверительных преде-
лов): р=251,1+3-1,25=254,85. Это
означает, что Х=251,1 может про-
исходить из генеральной совокуп-
ности с р, равным 250, 251, 252
или даже^254,85. Но вероятность то-
го, что X происходит из генераль-
ной совокупности с р, большим, чем
254,85, очень мала. Точно так же
можно решить уравнение р-|~3о^ =
=251,1 (откуда р=251,1—3-1,25=
= 247,35) и сделать вывод, что Х=
=251,1 может происходить из гене-
ральной совокупности с р, равным
250, 249, 248 или даже 247,35. Одна-
ко маловероятно, что это значение
X соответствует генеральной сово-
купности с р<247,35. Другими сло-
вами (как это и показано _на рис.
9.3), выборочное среднее Х=251,1
может происходить из любой гене-
ральной совокупности, которой со-
ответствует значение р, лежащее
в промежутке от 247,35 до 254,85.
Таким образом, если р может
принимать не два, а произвольное
число значений, и если пределы ин-
тервала принятия имеют вид ро±
— гох»то нулевая гипотеза р=ро
может быть принята, но это вовсе
не значит, что_р=ро. Нельзя ска-
зать, что если X попадает в преде-
лы интервала принятия, то обяза-
тельно выполняется соотношение
р=ро- Эю происходит в том и толь-
ко в том случае, когда объем вы-
борки достаточно велик, чтобы
можно было суверенностью пред-
полагать, что Х=р=ро.
Чтобы избежать недоразумений,
мы в этой книге будем формулиро-
вать наше правило следующим об-
разом: гипотеза Н: р несуществен-
но отличается от ро и альтернатив-
ная гипотеза — р существенно от-
личается от ро. В этом случае, при-
нимая гипотезу Н, контролер дол-
жен сказать, что различие между р
и ро несущественно, а не р=ро-
Отсюда ясно, что смысл ошибки
первого рода в случае, когда Н мо-
жет принимать произвольное значе-
ние, точно такой, как и в случае
двух значений. Однако ошибку вто-
рого рода (значение 0) теперь уже
следует вычислять для каждого из
значений р, представляющего инте-
рес для исследователя С учетом до-
пустимых пределов (247,55—252,45)
можно, сказать, что вероятность
ошибки второго рода для, напри-
мер, pi=251,00 равна 0,=^^^—
.247.55 о,
—А_ед . Эта площадь равна доле
выборочного распределения X при
условии pj=251,00, попадающей в
интервал (247,55—252,45). Соответ-
ствующие значения z равны:
zx= (252,45—251,00)/1,25= 1,16:
z2=(247,55—251,00)/1,25=—2,76, '
откуда 0, = A^ -ТГ*7 = 0,8770-
—0,0029=0,874. Аналогично можно
вычислить вероятность ошибки вто-
рого рода и для р2=252,00, р3 =
=255,00 и р«=256,20. Они равны со-
ответственно 02=О,64О, р3=0,021 и
04=0,001. Среднее р4 мы выбрали
так, чтобы выполнялось соотноше-
ние р4—За—=252,45. Таким образом,
наименьшее значение X, которое
можно получить по Р4, совпадает с
верхним допустимым пределом. Все
эти соотношения показаны на рис.
9 4,а. Аналогичные величины можно
вычислить и для нижнего допусти-
мого предела р0 — 1,96с—= 247,55.
Эти числа говорят о том, что если
разница между р и р0 невелика, то
значение ошибки второго рода 0
близко к значению площади под
нормальной кривой между допусти-
мыми пределами, т. е. к ^^0=
199
Рис. 9.4. Ошибка второго рода для некоторых фиксированных значений ц; допустимые
пределы для а=0,05 и п=4 , а— *-1,25 (а) и п-9, с_ = 0,833 (б)
JC	X
250	Z55	260ц
= 0,95. С увеличением разности
между р и цо ошибка р уменьша-
ется. Когда ц станет больше верх-
него предела интервала принятия,
так что расстояние от ц до этого до-
пустимого предела будет больше
трех стандартных ошибок среднего
(т. е. р — За->252,45), ошибка § бу-
дет пренебрежимо малой. Таким
предельным значением будет сред-
нее значение ц4. и на практике ста-
тистик, рассматривая наш пример,
будем считать, что для р>р4== 256,20
ошибка второго рода невозможна.
Вернемся еще раз к постановке
задачи. Для п=4, с-=1,25 и а=0,5
пределы интервала принятия имеют
вид	цо± 1,96 (1,25)=(247,55—
—252,45). Решающее правило пред-
полагает выбор одной из двух гипо-
тез: гипотезы Н\ разница между у
и цо несущественна и альтернатив-
ной гипотезы: у, существенно отли-
чается от Щ). Если X происходит из
генеральной совокупности с р=цо=
=250, то вероятность принятия этой
гипотезы равна 0,950. Другими сло-
вами, Р (247,55 <Х< 252,45 |ц=цо=
=250) =0,950, а Р(Х>252,45 или
X <247,551 ц=цо=250) =0,05. В этом
случае нет ошибки второго рода, а
вероятность ошибки первого рода
равна а=0,05. Когда р,У=рю, ошибки
а уже не будет. Имеется только ве-
роятность ошибки второго рода,
или, в более общих терминах, веро-
ятность принять или отвергнуть рас-
сматриваемую гипотезу относитель-
но некоторого значения ц.
Для щ=251,00 р,=Р(247,55<Х<
<252,45|jij=251,00) =0,874, а веро-
ятность отвергнуть _эту гипотезу
равна 71=1—Pi=P(X>252,45 или
Х<247,551 ц,=251,00) =O,1J6. Веро-
ятность р2=Р (247,55 <Х< 252,451
112=252,00) =0,640, а_ у2=1—р2=
=Р(Х>252,45 или X<247,55|р,2=
=252,00) =0,360. _ Наконец, р4=
= Р (247,55 < X < 252,45 |у4 =
=256/20) =0,001, а _ у4= 1 —₽4=
=Р (X > 252,45 или X<247,551 ц4=
=256,20) =0,999. Если, например,
значение у.2=252,00 на самом деле
встречается 1000 раз, то мы 640 раз
не останавливаем станок, 360 оста-
навливаем его для отладки.
Если контролер хочет устранить
ошибку второго рода для значений
р, которые находятся ближе к 250,
чем Ц4=256,2О, то ему следует вы-
брать новое предельное значение у
и найти соответствующее значение
л. Например, для ц=254,2 ему надо
будет составить и решить следую-
щее уравнение:
+ 1,96сь = у — 3s-,
•	-V	А
250 4- (1,96- 2,50)/|/« =
=254,2 — (3-2,50)/
Отсюда н—9, c7=2,50/j/9 =0,83 и
пределы интервала принятия при
а—0,05 будут равны 248,37—251,67.
Для р^=251, Ц2=252 и р3=255 ве-
роятность ошибки второго рода рав-
на соответственно 3]-=0,787 (для
п—4—0,874), £2=0.345 (по сравне-
нию с 0,640 для п=4), и £3 после
округления будет равно нулю. Соот-
ветствующие площади показаны на
рис. 9.4,6.
Решающее правило останется тем
же самым. Гипотезу следует при-
нять (что означает, что станок не
нуждается в отладке, поскольку р.
не существенно отличается от ро),
если X лежит в пределах 248,37—
251,67, и гипотезу следует отверг-
нуть (станок отладить), если Х<
<248,37 или если Х>252,67. При
этом возможны следующие вари-
анты:
1.	Гипотеза будет отвергнута, и
решение отладить станок будет пра-
вильным, поскольку р, существенно
отличается от pfl. Когда р очень
близко к ро, вероятность отвергнуть
гипотезу почти не отличается от а.
С увеличением расстояния между р
и ро эга вероятность возрастает.
Когда р становится настолько боль-
шим, что величина р— За- будет
больше или равна верхнему преде-
лу интервала принятия, вероятность
принять гипотезу становится прене-
брежимо малой. Аналогичные рас-
суждения справедливы и для ниж-
него предела интервала принятия.
2.	Гипотеза будет отвергнута, но
решение отладить станок будет не-
правильным, поскольку на самом
деле р=ро. Вероятность такой ошиб-
ки равна а. Доводя предел интерва-
ла принятия до значений pQ-|-3o-,
вероятность ошибки первого рода
делают пренебрежимо малой.
3.	Гипотеза принимается, и реше-
ние не отлаживать станок оказыва-
ется правильным.
4.	Гипотеза принимается, но ре-
шение не отлаживать станок оказы-
вается неправильным.
Ошибку первого рода можно ус-
транить, чего нельзя сказать об
ошибке второго рода. Однако кон-
тролер ОТК (или кто-либо другой)
всегда может установить некоторые
предельные значения для ц' и \i",
относительно которых значения £
должны быть пренебрежимо малы
или совпадать с некоторым уровнем
значимости, а после этого опреде-
лить, выборку какого объема следу-
ет взять, чтобы получить это значе-
ние £.
Р
0,5
0
2<f8	250	252 д
Рис. 9.5. Кривая ошибок второго' рода для'
И(Я=250, 0=2,50, а=0,05, п=4 и п=9
На рис. 9.5 показана вероятность
ошибок второго рода для рассмот-
ренных выше пределов интервала
принятия при <1=0,05, п=4 и п=9.
Интересующие нас значения р, рас-
положены на горизонтальной оси.
Соответствующие значения £ отло-
жены по вертикальной оси. Графи-
ки позволяют находить р.' и р," по-
значению £.
При составлении плана выбороч-
ного исследования в задачах, свя-
занных с проверкой гипотез, глав-
ное— понять связь между объемом
выборки и значением £. Если отно-
сительно некоторого значения р'за-
дана £, то п можно найти из урав-
нения
l*o + za-=p' — z'o-.
Например, при р0=250, о=2,50 а=
=0,045 (и. следовательно, при z=
=2), р'=253, £=0,003 (и, следова-
тельно, z'=3)
250 + (2-2,50)//^ =
= 253-(3-2,50)//л,
откуда л=17. При таком неболь-
шом значении £ мы можем быть
практически уверены в том. что ни
291
одно X, происходящее из генераль-
ной совокупности с р,=253, не по-
падет в пределы интервала приня-
тия.
Если дано п и необходимо для
некоторого р найти р/, то эту фор-
мулу следует преобразовать к сле-
дующему виду:
Р-'=Ь, + «Г — (*+*')•
Из всего сказанного выше ясно,
что наша гипотеза может быть от-
вергнута, даже когда на самом де-
ле разность между ро и р очень ма-
ла. В то же время гипотеза может
оказаться принятой несмотря на то,
что на самом деле р. заключено
между р' и р", где ц' и ц" опреде-
лены по вероятности р.
Следует подчеркнуть, что в при-
кладной статистике большое значе-
ние имеет не только интерпретация
результатов выборочного исследо-
вания, но и искусство составления
плана выборочного исследования,
или выборочного плана. В процессе
составления такого плана одной из
основных задач яляется определение
подходящего объема выборки Этот
объем определяют сравнением стои-
мости выборочного исследования со
стоимостью принятия неправильно-
го решения.
Решение каждой задачи, связан-
ной с проверкой гипотез, можно раз-
бить на два этапа. Первая заклю-
чается в выработке плана выбороч-
ного исследования, а вторая — в ин-
терпретации полученных результа-
тов. Окончательный план должен
учитывать связь между издержками
принятия неверного решения и сто-
имостью самого выборочного иссле-
дования Эти издержки, в свою оче-
редь, зависят от а и 0 и от объема
выборки. После того, как выборка
уже отобрана, величина 0 более не
нужна, поскольку более точная ин-
терпретация результатов может
быть получена с помощью довери-
тельных пределов, причем они по-
могают истолковать связь между X
и р как в том случае, когда X ле-
жит внутри пределов интервала
202	'  ;
принятия, так и тогда, когда X не
попадает в них.
При определении объема выбор-
ки имеются две возможности. Стои-
мость выборочного исследования
может быть 1уала по сравнению со
стоимостью неправильного решения, |
и в этом случае мы можем взять до-
статочно большую выборку, с помо-
щью которой можно обнаружить
даже очень небольшое расхождение
между р и ро- Во втором варианте
речь идет о тех случаях, когда сто-
имость выборочного исследования
может оказаться равной стоимости
неверного решения, причем еще до
достижения объема выборки, гаран-
тирующего обнаружение некоторой
«минимальной разницы» между р, и
р0. Тогда максимальным значением
п будет то, для которого стоимость
выборочного исследования будет
равна стоимости неправильного ре-
шения. Разумеется, есть много за-
дач, в которых не требуется очень
большой точности и в которых до-
статочно взять выборку меньшего
объема.
Если мы согласны на то, чтобы
отобрать выборку достаточно боль-
шого объема (т. е. расходы на от-
бор выборки относительно невели-
ки), с помощью которой можно бы-
ло бы обнаружить даже очень не-
большую разницу между ро и р, то
возможен либо однократный отбор
одной выборки, либо последователь-
ный отбор нескольких выборок.
В любом случае необходимо преж-
де всего установить, что именно мы
примем за «минимальную разницу»
между р и р0 Этот вопрос анало-
гичен вопросу, рассмотренному на-
ми в гл. 8. Например, для стальных
булазок эта величина равна одной
тысячной дюйма. Выборка, объем
которой гарантирует, что»-=0,2»
может считаться удовлетворитель-
ной. В других задачах вполне мо-
жет быть, что р может равняться
р,о=1200 фунтов с точностью до 10
фунтов. В этом случае все выбороч-
ные средние будут округляться до
десятков фунтов, и соответствую-
щий объем выборки можно найти из
соотношения zs- = 2,5. При Х=ро
нулевую гипотезу следует принять,
а при — отвергнуть.
Зачастую, однако, можно сэконо-
мить время и средства, если начать
с выборки относительно небольшого
объема в надежде на то, что нам
удастся отвергнуть гипотезу преж-
де, чем мы дойдем до значения п,
соответствующего «минимальной
разнице». Можно предложить це-
лый ряд процедур проведения вы-
борочного исследования. Одной из
самых простых будет следующая:
выберем подходящее значение р',
относительно которого мы можем
позволить себе совершить ошибку
второго рода с вероятностью 0. За-
тем с помощью приведенной выше
формулы найдем значение л и от-
берем выборку этого объема. Если
то нашу гипотезу сле-
дует отвергнуть, и решение задачи
на этом заканчивается.
Если окажется, что X <+ +гс-,
то необходимо выбрать еще одно
значение р' (которое будет распо-
ложено ближе к go), найти новое п
и продолжить отбор выборки, лока
число элементов в ней не станет
равным л. Если окажется, что Х>
>р0-|-гс-, то задача решена. В про-
тивном случае можно выбрать еще
одно р' или просто взять значение
п, соответствующее «минимальной
разнице».
Если стоимость проведения выбо-
рочных исследований настолько ве-
лика, что расходы на отбор выбор-
ки будут равны стоимости принятия
неправильного решения еще до до-
стижения значения п, соответствую-
щего минимальной разнице, то сле-
дует прежде всего найти именно это
значение п. Если окажется, что от-
бор такой выборки является слиш-
ком дорогим, то необходимо найти
объем выборки, отбор которой мы
можем себе позволить.
Пусть, например, /г=25. Теперь
уже нужно вычислить не только
пределы интервала принятия, но
также найти pz, относительно кото-
рого вероятность совершить ошибку
второго рода будет равна 0. Если
ро=25О, ог==2,50, п=25, а=0,045 (и,
следовательно, z=2), 0=0,0225 (и,
следовательно, zz=2,00), то значе-
ние можно найти из соотноше-
ния
250+ (2,00-2,50)1 25 =
=р' - (2,00-2,50)//25,
' р'=252.
В других случаях бывает целесо-
образно найти несколько значений
п и р', соответствующих различной
вероятности а и 0, и только после
этого выбрать оптимальное значе-
ние п.
После того, как значение п опре-
делено, необходимо отобрать соот-
ветствующую выборку. Если окажет-
ся, что ?С> pD-j-zo-, то гипотеза о
том, что между р0 и р нет сущест-
венной разницы, отвергается, и ре-
шение задачи на этом закончено. Ес-
ли X попадет в интервал р0 —
— го- < X < P# + 2о-, то решение
необходимо принять, основываясь
на этом факте. Будет иметься неко-
торая вероятность того, что р, оцен-
кой которого является полученное
значение X, попадет в интервал
р'<р<р". Однако интервал (pz, р)
может оказаться в два раза шире
интервала принятия (р0—zoj-, щг|-
-J-ZO-). Следовательно, принятию
решения существенно поможет вы-
числение доверительных пределов.
Кроме того, мы можем указать зна-
чение р, которое по тем или иным
причинам представляет для нас осо-
бый интерес и лежит в промежутке
р'<р<р", и вычислить вероятность
того, что рассматриваемое значение
X происходит из генеральной сово-
купности с этим р.
Еще раз подчеркнем, что, отбирая
сначала небольшую выборку, мы
можем сэкономить некоторую сум-
му. Если гипотезу удастся отверг-
нуть, то на этом решение задачи бу-
дет закончено. Если ее придется прв-
203
пять, то мы можем вычислить дове-
рительные пределы и постараться
принять решение на основе этой ин-
формации. Если это не удастся, то
следует отобрать большую выборку
и т. д., пока мы не дойдем до опти-
мального значения п.
9.2.3.	Проверка гипотез
сопоставлением 2* с z или /* с t
В рассмотренных выше задачах
проверку гипотез можно проводить
и несколько иным путем. В место то-
го, чтобы строить пределы интерва-
лов принятия, вычисляют значение
2*, которое затем сравнивают с тео-
ретическим значением 2. Аналогич-
но вычисленные значения срав-
нивают с теоретическими значения-
ми t. При этом как процедуры срав-
нения, так и анализ результатов ос-
нованы на рассмотренных выше
принципах. Поэтому разница меж-
ду этим разделом и предыдущим за-
ключается скорее в форме проведе-
ния исследования, но не в его со-
держании. Все рассмотренные вы-
ше примеры можно переформулиро-
вать в терминах сравнения величин
2* И Z.
Еще раз предположим, что наш
станок может производить продук-
цию либо с pi==po=250, либо с Ц2=
=255. Мы отбираем выборку с п=
=25 и хотим определить по ней, из
генеральной совокупности с каким
именно параметром происходят ее
элементы. В этом случае нулевая
гипотеза имеет вид: //: р=ро, а аль-
тернативная— р^ро- Чтобы прове-
рить эту гипотезу, сравним z*=
= |Х — с 2-
При «=0,025 z=l,96. Так как в
таблицах обычно приводятся толь-
ко положительные значения теоре-
тических г и t, величины z* и t*
также можно сделать положитель-
ным, вычисляя модуль |Х—p]/ff£
или |Х— у, |/$-. Если окажется, что
z* будет меньше z=l,96. то нашу
гипотезу следует принять. При 2*>
>z гипотезу следует отвергнуть.
204
Для п =25 имеем с-=2,50/)/25 =
= 0,5. Предел интервала принятия,
соответствующий этому уровню зна-
чимости, равен	1,96 о-=250,98.
Если выборочное среднее X состав-
ляет 250,2, то гипотезу необходимо
принять. В этом разделе мы сфор-
мулируем соответствующие решаю-
щие правила: «Если разность меж-
ду выборочным средним и ро мень-
ше, чем 1,96 от стандартной ошиб-
ки, т. е. если 2* <2, то гипотезу сле-
дует принять». Пользуясь допусти-
мыми пределами, мы сравниваем
абсолютные значения в дюймах,
фунтах или других единицах изме-
рения. В этом варианте все величи-
ны измеряются в «единицах стан-
дартных ошибок». Результаты от
этого не меняются. В рассмотрен-
ном примере г*=(250,2—250)/0,5=
=0,4. Поскольку 0.4<1,96, гипотеза
принимается.
Разница между значением ро=
=250 и пределом интервала приня-
тия 250,98 в дюймах равна 0,98;
в единицах стандартных ошибок
она равна 1,96. Разница в дюймах
между ро—250 и Х=250,2 равна 0,2;
выраженная в единицах стандарт-
ных ошибок она равна 0,4.
Если р может принимать произ-
вольное число значений, то неравен-
ство р<ро ничем не лучше, чем не-
равенство р>ро В этом случае про-
верка гипотезы является двусторон-
ней процедурой (нас интересуют
оба хвоста распределения). Теперь
для z=l,96 а=0,05, но не 0,025. Те-
перь наши гипотезы будут форму-
лироваться следующим образом: ги-
потеза И: р несущественно отлича-
ется от ро, альтернативная гипоте-
за—р существенно отличается отро.
Если выбрать а=0,05, то 2=1,96.
Для ро=25О и п=4 с-=1,25. Если
мы получили выборочное среднее,
равное Х=249,1, то 2*=| 249,1—
—2501/1,25=0,7. Таким образом,
2*<г, и гипотеза принимается. Для
Х’=501,1 г*= (501,1—250)/1,25=
=200,9. Поскольку 200,9>1,96, ги-
потеза отвергается. Когда выбороч-
woe среднее сильно отличается от
.go, даже при слабом знакомстве с
правилами анализа результатов вы-
борочных исследований нашу гипо-
тезу можно немедленно отвергнуть,
т. е. не производя дальнейших рас-
четов и сопоставлений.
Что касается значения Х=249,1,
.для которого наша гипотеза была
принята, на вопрос: «Каково при-
близительно наименьшее возможное
значение ц, соответствующее гене-
ральной совокупности, из которой
может происходить это значение
X?» можно ответить так же, как и
выше (а именно, решая уравнение
За—=249,1). Соответствующее
значение g равно 245,35. Этот во-
прос можно теперь перефразировать
следующим образом: «При каком
наименьшем значении g соответст-
вующая генеральная совокупность
может дать выборочное среднее
Х=249,1, если считать допустимой
вероятность 0=0,05?» Это значение
можно найти из уравнения g-|-
—1,96с-=249,1, откуда р=246,65.
.Если взять п=9, то эти два значе-
ния g будут еще ближе к g<j. Вооб-
ще, отобрав выборку достаточно
.большого объема, оба эти значения
ji можно сделать настолько близки-
ми к go, насколько это необходимо.
Подобные задачи удобно рассмат-
ривать в терминах доверительных
«интервалов X zt: га- =249,1 га—.
Проводя проверку гипотез с по-
мощью пределов интервалов приня-
тия или же путем сравнения z* с г
или /* с t, мы основываемся на тех
.же принципах, что и в гл. 8. Считая,
что генеральная совокупность рас-
пределена по нормальному закону и
что выборки отбираются бесповтор-
но, можно сформулировать следую-
щие правила:
1.	Если значение о известно нес-
ли генеральная совокупность беско-
нечна или достаточно велика, чтобы
•было справедливо неравенство п<
<0,05 N, то — а!Уп и необходи-
мо сравнивать величины z* и г.
2.	Если значение ст известно, но
генеральная совокупность относи-
тельно мала, так что «>0,05 N, то
о- (a.-V п)У 1 — n/N и необходи-
мо сравнивать величины z* и г.
3.	Если значение ст неизвестно,
а генеральная совокупность беско-
нечна или настолько велика, что
я<0,05 N. то следует сравнивать
величины t* и t Если при этом
^30, то I берут из таблицы /-рас-
пределения. При с>30 i аппрокси-
мируется величиной г.
4 Если значение ст неизвестно, но
генеральная совокупность относи-
тельно мала, так что n>0,05 N, то
s -	($ /У n)V 1 — n/N и следует
сравнивать величины t* и t. При
гл^ЗО значение t берут из таблицы
/-распределения. При и>30 t ап-
проксимируется величиной z.
5. Если распределение генераль-
ной совокупности не является нор-
мальным, объем выборки должен
быть достаточно большим.
Пример 1. Фермер каждый год выра-
щивает около 5000 индеек. Однажды ему
предложили купить корм нового типа. Этот
корм будет стоить дороже, но, как пред-
полагается, даст возможность увеличить
среднюю массу индеек на 1 фунт. Такоч
увеличение средней массы было бы ферме-
ру очень выгодно, и он решил испробовать
новый сорт корма, но не на всех сразу
индейках, а на некоторой случайной вы-
борке. Каким должен быть объем этой вы-
борки?
Средняя масса индеек, выращенных
фермером за последние три года, равна
ц=14.8 фунта. Поэтому он решил, что его
стандартом будет щ=15,8 фунта. Так как
нас интересует лишь то, будет ли ц су-
щественно больше, чем ро. то нам будет
необходимо воспользоваться односторон-
ним критерием с пределом интервала при-
нятия 15,8—ts—. Соответствующая гипоте-
за формулируется Следующим образом: ги-
потеза Н'. ц несущественно отличается от
Цо или ц больше go- Альтернативная гипо-
теза имеет вид: ц существенно меньше go.
Если в результате своего выборочного
исследования наш фермер получит Х>
>15.8— is—, то он примет сформулиро-
ванную гипотезу и закупит количество но-
вого корл1а, необходимое для всех индеек.
В противном случае гипотеза будет отвер-
гнута.
Чтобы найти подходящий объем вы-
борки, необходимо знать либо значение ст,
либо значение $. Поскольку значение ст
205
фермеру было не известно, его необходимо
было оценить величиной s. Эту оценку
можно было получить, взвесив необходи-
мое число индеек, откармливающихся ста-
рым способом. Фермер считал, что новый
корм мог бы изменить среднюю массу ин-
деек, но не отразился бы на разбросе масс.
Выборка с л =15 дала следующие ре-
зультаты (в фунтах): 11,5; 15,7; 16,8; 15,0;
17,4; 11,6; 14,2; 15,2; 15,6; 15,7; 14,7; 16.8;
17,1; 13,0; 11,2. Среднее квадратическое
отклонение этих значений равно
s = Fe (X, —X)7(n - I) = 2.07.
В этот момент фермер подумал о том,
что неплохо бы сравнить расходы на про-
ведение .выборочного исследования с из-
держками, связанными с ошибками а и ₽
Издержки выборочного исследования рав-
ны стоимости нового корма в количестве,
необходимом для выборки из п индеек,
минус стоимость корма старого типа. Из-
держки ошибки первого рода равны сум-
ме, в которую обойдется фермеру принятие
решения, что ц меньше ро, тогда как на
самом деле ц несущественно отличается от
р®. При этом фермер решит «не покупать
корм нового типа» и тем самым потеряет
возможность получить большую прибыль.
Издержки ошибки второго рода будут
определяться тем, что фермер примет свою
гипотезу (и закупит большое количество
нового корма), тогда как на самом деле р
существенно меньше рю- При этом допол-
нительные расходы на новый тип корма
окажутся нескомпенсированнымн увеличе-
। нием дохода от продажи птицы.
В связи с этим фермер решил прове-
сти более подробный анализ соответствую-
щих затрат. К своему удивлению он обна-
ружил. что увеличение его дохода вслед-
ствие использования нового корма может
оказаться гораздо больше, чем расходы на
выборочное обследование (т. е. стоимость
корма в количестве, необходимом для вы-
борки из л индеек). Кроме того, он обна-
ружил, что окажется в выигрыше даже
в том случае, если средняя масса его
индеек увеличится только на 0,5 фунта»
т. е. до м=15.3 фунта. Поэтому он решил
проверить гипотезу с уровнем значимости
а=0,005 и с р-» 0,025 относительно ц'—
=15.3 фунта. Объем требуемой выборки
был найден из уравнения
+ 1 »96$- = н-о — 2.58s—, 15.3 +
X	X
+ (1,96-2,07)/Кп = 15,8 —(2,58'2,07)/Кп.
Решением будет л—353.
Это означает, что фермеру следует ку-
пить корм нового типа в расчете на
353 индеек Эти индейки будут, конечно,
откармливаться отдельно ото всех осталь-
ных. Когда они вырастут, фермер опреде-
лит их среднюю массу. Если окажется, что
Х> 158—2.58 т. е. если /•</, то он
примет свою гипотезу и будет считать, что
|А, либо несущественно отличается от ро,
206
либо ц>|1о. Если окажется, что /*>/, то
он отвергнет свою гипотезу. Тем не ме-
нее, прежде чем окончательно принять ре-
шение о приобретении нового корма, фер-
меру полезно будет проделать еще одно
вычисление- Если X будет лежать недалеко
от предела интервала принятия ро— ts—
с какой бы то ни было стороны (т. е.
когда /• близко к 0, то ему стоит вычис-
лить доверительные пределы, а также ве-
роятность того, что это значение X про-
исходит из генеральной совокупности с не-
которым фиксированным значением р.
Пример 2. Проектный отдел компании,
производящей электродвигатели, разрабо-
тал некоторые усовершенствования, кото-
рые должны существенно увеличить срок
службы двигателей. Руководству компании
предстоит оешнть два вопроса. Будет ли
увеличена? срока службы мотора достаточ-
ным, чгобы оправдать возрастание цены
на него, необходимое для покрытия новых
издержек производства? Если серийное
производство нового двигателя все-гаки
будет начато, то необходимо будет уста-
новить новые условия гарантийного обслу-
живания. Каким должен быть гарантийный
срок работы нового двигателя?
Чтобы собрать некоторые опытные
данные, было решено изготовить 12 двига-
телей новой модели. Далее, для определе-
ния их срока службы все двигатели были
приведены в действие и должны были ра-
ботать до тех пор, пока ие выйдут из
строя. Это заняло бы приблизительно
6 мес. Подобная процедура применяется
довольно часто. Однако на этот раз ком-
пании было необходимо принять решение
гораздо быстрее. Поэтому все двигатели
работали только месяц. После этого срок
службы каждого из моторов был предска-
зан по износу отдельных деталей. Соответ-
ствующие значения срока службы в часах
оказались равными 6212, 6309, 6181, 6273»
6290. 6222, 6248, 6224, 6249, 6172. 6263,
6195. Среднее но этим данным равно
— 6236 ч, a s=43 ч. Средний срок службы
двигателя старого типа был равен Ц(г=
=5820 ч.
Рассматриваемая задача вновь требует
применения одностороннего критерия про-
верки гипотез. Имеем: гипотеза И: р несу-
щественно отличается от рс или р<щ я
альтернативная гипотеза —	Значе-
ние t для а=0.025 и а=11 равно f=2,201,
а предел интервала принятия равен
4-As—=5820+ 220!-2.4=5847. В то же
время /♦-= (6236—5280) /12,4=77.1. Таким
образом, ^>5847, а /*>/« Следовательно,
необходимо отвергнуть сформулированную
нами гипотезу и заключить, что ц>ро.
Как правило, в этом случае даже очень
неопытный статистик, увидев такую боль-
шую разницу между ро»=5820 и ^—6240,
должен будет прийти к тому же выводу
без какой бы то ни было проверки ги-
потез.
Учитывая этот результат» руководство
компании может не только организовать
рекламу двигателей с большим сроком
службы, но и увеличить гарантийный срок
этого двигателя. Чтобы получить более
точную информацию, работающий в этой
компании специалист по статистике может
вычислить доверительные пределы C.L. =
= X ±	. При уровне знатимости о®
X
= 0.05 C.L. - 6236±2,201-12,4 = (6,209—
—6263).
Таблица 9.1. Срок службы
электродвигателей, ч
Срок службы, «I	h		x'i	F"i
6170 <_Х<6185	2	0,167	6185	0,167
6185 <Х <6200	1	0,083	6200	0,250
62С0<2£<6215	1	О.О&З	6215	0,333
6215 < X < 6230	2	0,167	6230	0,500
6230 <Х< 6245	0	0	6245	0,500
6245 < X < 6260	2	0,167	6260	0,667
6260 < X < 6275	2	0,167	6275	0,834
6275<Х< 6290	0	0	6290	0,834
6290 < X < 6305	1	0,083	6305	0,917
6305 <Х< 6320	1	0,083	6320	1,000
	12			
Если компания хочет дать гарантию
на определенное число часов, а затем опре-
делить число (в %) двигателей, которые
проработают этот срок, то опа может по-
ступить следующим образом. Составим
распределение частот выборочных данных
и вычислим значения, приведенные в табл.
9.1. Отметим точки F" на нормальной ве-
роятностной бумаге и подгоним к ним пря-
мую линию, как мы делали в разд. 5.4 (см.
рис. 5.11). Если эта прямая хорошо опи-
сывает опытные данные, то можно взять
на горизонтальной оси точку X*, найти
соответствующее значение F" и сообщить
эту информацию руководству фирмы. На-
пример, при Х=6190 Е"=5Ю,18. Это значит,
что примерно 18% всех двигателей будут
иметь срок службы меньше 6190 ч. i
9.3. РАЗНИЦА МЕЖДУ щ И ц2
Как мы уже указывали во введе-
нии к этой главе, разницу между рц
и ц,2 можно обнаружить, сравнивая
значения Xi и Х2, вычисленные по
малым выборкам, при условии, что
распределения Р\ и Р2 не перекры-
ваются. Такие случаи встречаются,
однако, не часто. Чаще всего при-
ходится сравнивать значения рц и
р.2, которые не сильно различаются.
Мало кто захочет сравнивать ско-
рость чтения четвероклассников со
скоростью чтения студентов. Одна-
ко сравнивать скорость чтения уче-
ников различных школ, но одинако-
вого возраста уже интересно.
Критерии, касающиеся различия
межлу_рц и_р2, основаны на срав-
нении Х| и Х2 и учитывают ошибку
выборочного исследования. Эта
ошибка вычисляется в предположе-
нии, что pu=pi2. В связи с этим
здесь также используется термин
«нулевая гипотеза».
Имеются две генеральные сово-
купности Р\ и Р^, из которых берут-
ся выборки объемом П\ и п2 соот-
ветственно. Затем вычисляются вы-
борочные средние Х! и Х2. Если
оказывается, что Xi и Х2 находятся
на большом расстоянии друг от дру-
га, то без каких бы то ни было кри-
териев принимается решение, что p.j
и р2 существенно различаются. Ес-
ли же два X имеют довольно близ-
кие значения, то решение придется
принимать с помощью того или ино-
го статистического критерия про-
верки гипотез.
Мы уже знаем, что малая выбор-
ка не дает возможности обнаружить
небольшое расхождение между зна-
чениями gi и ц2. В то же время да-
же очень маленькую разницу мож-
но обнаружить с помощью выборки
достаточно большого объема.
Предположим, что у нас имеются
две нормально распределенные и боль-
шие по объему генеральные совокуп-
ности с параметрами ц, и t**, с* и
Возьмем выборки, содержащие л,
и пг элементов соответственно, и
найдем разность dx=Xt—Xt. Выбо-
рочное распределение значений dx
будет подчиняться нормальному за-'
кону, и его среднее будет равной х=
=М (dx) = н, — j*s. Дисперсия значе-
•
ний dx имеет вад о*.-—-Ф-о*— =
а среднее квадра-
тическое отклонение
207
=V с-’,+4=/л ч+л/«г-
Условие нормального распреде-
ления Рх и необходимо только для
того, чтобы d- было также распре-
делено по нормальному закону. Фор-
мула	-Н*-2 справедлива для
значений dx, построенных по любой
паре генеральных совокупностей при
условии, что отбор выборки произ-
водится путем проведения незави-
симых испытаний, т. е. если она от-
бирается из больших по объему ге-
неральных совокупностей или если
производится повторный отбор. По-
этому, когда Pi и Р% не являются
нормально распределенными, фор-
мула для ad- сохраняет свой вид,
но, чтобы пользоваться таблицами
значений нормального распределе-
ния при проверке гипотез, следует
отбирать выборки достаточно боль-
шого объема.
Вообще можно показать, что для
любых двух независимых случайных
переменных Х1 и Xt дисперсия их
суммы равна сумме дисперсий, т. е.
0*^=0’,Если в качестве этих
случайных величин вз^ть выборочные
средние X, и то о®^—о*-, +
+ °-й == °‘1/л I +	a Od- =
—Величина od- назы-
вается стандартной ошибкой разно-
сти.
Эти теоретические выводы можно
проверить с помощью эксперимен-
тального выборочного распределе-
ния. Такое распределение можно
построить, взяв достаточное количе-
ство выборок (например, «1=5 и
л2=6) из двух больших по объему
и нормально распределенных гене-
ральных совокупностей с парамет-
рами Hi, PJ, о2| И 0^2-
Для каждой пары выборок можно
затем вычислить разности соответ-
ствующих выборочных средних 4,- =
=Xit - X/.- Когда н=Ь. примерив
208
половина значений будут отрица-
тельны. Распределение частот значе-
ний J убудет аппроксимировать тео-
ретическое распределение d—.
Среднее значение этого распреде-
ления равно d-=2fid'i-/'2fi (где d't-
есть средняя точка распределения}
и должно аппроксимировать величину
р., — Среднее квадратическое от-
клонение o'd- = / Х/\ (de- — J-) 'S/ i
должно быть приблизительно равно
Экспериментальное распределе-
ние, с помощью которого можно
проиллюстрировать процедуру про-
верки нулевой гипотезы, строится
точно так же, с той лишь разницей,
что наши выборки следует брать из
генеральных совокупностей Pt и Р2,
для которых Ц1=Ц2- Тем самым зна-
чения diX должны быть близки
к нулю.
Наименьшее возможное значе-
ние dt- можно приблизительно счи-
тать равным dii~ 3o'd-, где г=3
берется в предположении, что значе-
ния d- распределены по нормальному
закону. Кроме того, величина 2* =
=- а-Wg -I»., X,.} -£| t
Q'ax будет примерно равна га=
Реально проверка гипотез в этом
примере проводится следующим об-
разом. Если две выборки, отобран-
ные одна из Р], а другая из Р2, да-
дут значение d-=Xi—Х2 (выражен-
ное в единицах стандартных оши-
бок) , которое будет больше двух, то
можно считать, что щ существенно
отличается от р2. Чтобы узнать, бу-
дет ли d- больше двух стандартных,
ошибок, достаточно определить.
z* = (X, — X,)/ad-. Таким образом,
проверка гипотезы сводится к еле-
дующим операциям: вычислить зна-
чение z* и сравнить его при некото-
ром уровне значимости а со значе-
нием г. При z*>z pi>g2, если Х(>
>Х2.
При z*<z величина щ несущест-
венно отличается от ц2. Это означа-
ет, что либо эти две генеральные
совокупности одинаковы, либо пе-
рекрываются настолько, что разни-
цу между ними нельзя обнаружить
с помощью выборок такого объема.
Если это так, то независимо от то-
го, будет ли Х]<Х2 или Xi>X2,
придется заключить, что может
иметь место любое из трех соотно-
шений: |JU)=|Al,	ИЛИ Щ>Р2
Ошибку второго рода можно
практически устранить путем отбо-
ра выборок достаточно большого
объема. Значение таких выборок
можно найти рассмотренными выше
методами. Другими словами, объе-
мы выборок должны быть таковы,
чтобы соответствующие выборочные
распределения Xi и Х2 не перекры-
вались.
Сформулируем несколько правил,
с помощью которых можно устано-
вить наличие или отсутствие разни-
цы_между pi и |л2 по значениям Xi
и Х2.
1.	Генеральные совокупности Р\
и Р2 нормально распределены и
имеют достаточно большой объем.
Значения (У]=(т2=о известны. Гипо-
теза Н: у,] несущественно отличает-
ся от ц2. Альтернативная гипотеза:
рч существенно отличается от ц2.
Выбрав подходящее а, следует
найти по таблице нормального рас-
пределения соответствующее значе-
ние z. Затем необходимо вычислить
|(Х, -Л,) - (ц, - н,)1/оЛ =
где
od- = / о1/^ 4~о7л,=а>/1/п1Ч- 1/л,.
Далее мы будем в выражениях для
г* или /* писать в числителе про-
сто —Х<2.
При z*<z гипотеза принимается.
Можно сделать вывод, что pi несу-
14-282
щественно отличается от ji2. В пре-
делах, соответствующих ошибке 0,
может выполняться любое из трех,
соотношений pi=p2, Ц1<Р2 или pi>
>|л2. Тот факт, что, например, Xi>
>Х2, не имеет огношения к взаим-
ному расположению чисел щ и ц2.
При z*>z гипотеза отвергается.
В этом случае неравенство Xj>X2
имеет вполне определенный смысл.
Оно указывает на то, что pi>g2 и
наоборот.
2.	Генеральные совокупности Pi
и Р2 нормально распределены и
имеют достаточно большой объем,
но значение_ 01=02=0 неизвестно.
Тогда/*=(Х2 — X^]sa-имеет /-рас-
пределение. Теперь нужно выбрать,
уровень значимости а и найти зна-
чение t для v=rzi+n2—2 степеней
свободы. Далее, следует определить.
где
$ах — s V “Ь Цп,.
а
Чтобы оценить неизвестное значе-
ние о, используют величину s'. Фор-
мулировка гипотез и критерии их
проверки сравнением /* с i анало-
гичны приведенным в п. 1.
Отметим, что когда N конечно и
выборки бесповторные, формула для •
Sa— имеет такой же вид при усло-
вии, что /114-п2<ЛЛ
3.	Генеральные совокупности Pi
и Р2 нормально распределены и
имеют достаточно большой объем.
Значения «Л и о22 известны, но
*т21=?£:<г22. Тогда определяют

°dx'
где
4.	Генеральные совокупности Pi
и Р2 нормально распределены и
имеют достаточно большой объем,
<J2i¥=o22, и обе эти величины <j*i и
g22 неизвестны. Стандартная ошиб-
209-
ка разности равна
sd- = /+ Л/л..
«о распределение (^ — Xt)[sd- для
выборок небольшого объема не бу-
дет ни нормальным, ни распределе-
нием Стьюдента. Тем не менее оно
близко к /-распределению, и для вы-
борок малого объема таблицами Л
распределения можно пользоваться
при и=П1-|-Я2—2. Лучшее прибли-
жение для t можно получить, если
вычислять число степеней свободы
по формуле1
(Л/Я1 + Л/Д.)1
При я, л« — 2 > 30 величина
Of, —XJ/sa- распределена примерно
по нормальному закону. Поэтому
для проверки гипотезы необходимо
•сравнить
f = |X,-X,|'sd-
< величиной I, аппроксимированной
соответствующим значением z.
5.	Когда генеральные совокупно-
сти Р\ и ₽2 не являются нормально
распределенными, объем выборок
(п\ и п2) должен быть достаточно
большим.
Так как с помощью малых выбо-
рок нельзя обнаружить небольшое
расхождение между щ и |х2, необхо-
димо найти такие гц и п2, с помо-
щью которых можно обнаружить по
крайней мере разницу |щ—g2|=&
ПуСТЬ Ц2>Ц1, (Г21=Оа2 и П]—П2=П.
Рассмотрим наибольшее значение
Х'2 из всех, которые происходят из
Pi, и наименьшее значение Х': -.з
всех, _которые происходят из Р2.
Если Xi и Х2 определены так, что
1*2—Н1=^» можно найти объем вы
борки, которая обеспечат выполне-
ние соотношения (Х\ — ^\)!adx —=г.
В этом случае при |щ—ц2|>Л ги-
потеза будет отвергнута.
Предположим, что (X't—Л'1)/о<й=
=z, где X\	—
—z'ch , o-x = c/y?nt a z' может быть
как равным, так и не равным г.
Подставляя эти величины в уравне-
ние, получаем
— г'с- — (j*. -J- г'о- ))/od- = г;
}xs-p1-2z'0-=20d-.
Далее, учитывая, что £=ц2—pt. по-
лучаем
k = zoj/ 1/я	1 ,'п 4- 2z' п) —
—"zayf 2/}/п -f-2z'o/V п\
з(уЛ 2z-|-2z')M;
л = [0(K2z4-2z')/Jfe]*.
Например, для k=3, и=2,5, z'=l,64
и z=2,00
/г = (2,5[1/2‘(2)4-2(1,64)]/3)\ л=^26
При 01У=о2 значение fii=n2=n мож-
но найти следующим образом:
[р -	- (р, +2,ой)]/(о47)-=г;
==z/(°*i+A)M;
k =4z]/s’ -J-o\l -/n 4-/(o, 4-
П =	+ г'(з. + О.Я/Л}*.
Оценивание разности |Л1—|х2 с по-
мощью доверительных пределов.
Когда гипотеза о том, что между ри
и и2 нет существенной разницы, от-
вергается, это расхождение можно
оценить с помощью обычного мето-
да доверительных пределов. Они
вычисляются по следующим прави-
лам:
C.L. = (X. - Хг) ± 23/1^,+1/«;
когда п21=а22=о2 и величина о из-
вестна.
C.L. =(Х, - Xt) zt ts'V l/n. 4-Jl/as,
когда* *д‘1 = а,х—я*, но величина з*
неизвестна* и где
1 Эта формула взята из книги Dixon
Wilfrid J.. Massey Frank J., Jr. Introduction
to Statistical Analysis, N. Y.: McGraw-Hill,
1969, p. 119.
210
s' =/|S(X,.,-X,A+£(X,-, -*
+А — 2)-

Далее
где
C.L. = (X, - Xt)=b zV^Jn, + *
* । ~г 77
когда и обе величины известны.
Наконец,
сх. = (%,
когда Qi =/=02 и обе величины неиз-
вестны. Доверительные пределы
имеют приблизительно такой вид
при ni+n2—2<30. Значения /-рас-
пределения берутся со степенями
СВОбОДЫ /11+^2—2.
Объем выборки, дающей требуе-
мую степень точности, можно най-
ти из уравнения
s’./n+^/n = k,
/(Л(Л+Л) (t/ky=n.
Пример L Компания, в ведении кото-
рой находится большое число магазинов,
разбросанных по всей страну решила рас-
смотреть вопрос о целесообразности прове-
дения общенациональной кампании по рек-
ламе некоторого продукта. Выполнение
предварительных исследований было пору-
чено отделу сбыта готовой продукции.
Чтобы добиться максимальной сравнимости
результатов, проверка должна была произ-
водиться в одно и то же время в двух со-
поставимых регионах (а не в одном и там
же регионе, во в разное время). Это устра-
нило бы возможные эффекты, обусловлен-
ные теми или иными сезонными нли цикли-
ческими факторами.
В регионе Л проводили соответствую-
щую рекламную кампанию, тогда как
в регионе В работа шла обычно^ Через не-
которое время в регионе Л случайно были
выбраны 22 магазина и собраны данные
о количестве проданного ими товара. Со-
ответствующие суммы оказались равными
(в долларах): 391, 367, 360, 429, о89, 420,
375, 344, 421, 385, 443, 379, 379, 356, 405,
369, 425, 345, 372, 395, 406, 382. Сведения
по 25 магазинам, взятым из региона В, ока-
зались следующими (в долларах): 319,302,
311, 279, 317, 344, 333, 326, 290, 348, 245,
323. 332, 302. 300, 286, 309, 338. 334, 293,
285, 310, 312. 325, 291.
При а«=0,05 М=1,96. Результаты даль-
нейших вычислений следующие: для регио-
на Л Я1"-^388, sai" 15 887/21 =757, а для
региона В 3^=310 и 13 424/24=559.
Будем считать, что	и
/• = | X, — Xt	-== |388 — 310 | /7,55 =
tfx
— 10,3,
з_ ^Уз*л/п, + к%/л4=К757/224-559/25=
ОХ
= 7,55.
Поскольку /*>/, гипотезу о том, что
Pi несущественно отличается от Цъ следует
отвергнуть. Таким образом0 неравенство
указывает на то, что И1>Цз-
Теперь можно вычислить доверитель-
ные пределы для щ. При уровне значимо-
сти а—0,05 они имеют вид:
C.L. = 388 ± 2,08^757/22 = (376 — 400).
Если необходимо оценить разность
то можно вычислить доверительные преде-
лы для этой величины
C.L. = (X. -Хг) ± i
=78±1,96-7.55= (63—93).
С помощью этой информации руковод-
ство компании может теперь принимать ре-
шение о том, следует ли организовывать
рекламную кампанию в общенациональном
масштабе.
Пример 2. Возьмем наибольшее и наи-
меньшее выборочные средние из табл. 7.8:
Х1ж251Д9 а л2—^249,15. Этот пример, ко-
нечно. искусственный, поскольку мы знаем,
что обе выборки, соответствующие этим
значениям, отбирались из одной и той же
генеральной совокупности, т. е. № = №»
а о-—о2=а=2,53. Определим
Z* = I х, - xt I/O К 1/Л.+ 1/п. =
= | 251.10 — 249,151/2.53 К1/20 + 1/20 =
= 2,50.
При а=0»05 гипотеза о том, что между р,
и р2 нет существенного различия, будет
отвергнута, и мы совершим ошибку перво-
го рода. При а<0,012 (т. е. при z>2,50)
гипотеза будет принята.
Пример 3. Предприятие должно заку-
пить большую партию стальных листов, и,
необходимо принять решение о том, про-
дукции какой сталелитейной компании от
дать предпочтение. Покупателя особенно
интересует предел прочности при растяже-
ния» поскольку эта характеристика часто
не согласуется с техническими условиями.
Были проведены испытания, которые далн
следующие результаты (в фунтах на квад-
ратный дюйм)/Сталелитейная компания Л:
83 542. 85 459, 83 378, 82 575, 84 27!, 82 285,
83 742, 81 238, 83 112, 82 208; сталелитейная
компания В 85 483, 96 396. 84 852» 83 965,
85 297, 84 492, 85 930» 88 829, 85 482. 82 908.
При о-=0,05 и №=18 /=*2,101. Вычислим
теперь значение
f = I X. - X» I / (s'KI/и. + l/ns).
где формула = s' Кl/nt + 1/л» исполь-
зована потому, что разумно предполагать,
что а21“а®а=>а.
Выборочные данные дают следующую
оценку для
14*
211
-s' = fl-xt)*+s (Xia- Xa)«J/(n, 4-
•f* fts 2) =
= К(12 758 0264-22 435 842)/18 = 1398.
Таким образом, <*= |— 21821/1398-0,447=
=3,5. Поскольку t*>t, гипотезу о том, что
между Ц1 и р-2 нет существенного разли-
чия, следует отвергнуть. Разница между
jii и цг существенна, и, следовательно,
-можно считать, что Ц2>щ. Предприятию
«следует закупить стальные листы у стале-
„литейноя компании В.
9.4.	СОПОСТАВЛЕНИЕ п С л0
Сравнить истинное значение л
с некоторым стандартом ло не пред-
оставляет никакой проблемы. Пусть,
например, рабочий у токарного
станка должен высверлить отвер-
стия в 1000 деталей. Во время рабо-
ты сверлильного устройства рабо-
чий свободен, и инспектор ОТК мо-
жет попросить его проводить про-
верку каждой законченной детали.
Контроль проводится с помощью
двустороннего калибра. Если один
конец калибра входит в отверстие,
а другой — нет, то диаметр отвер-
стия правилен, и деталь кладется
в ящик с готовыми деталями. Если
оба конца калибра не входят в от-
верстие, то это значит, что оно
слишком мало. Если оба конца вхо-
дят, то отверстие слишком велико.
В каждом из этих случаев детали
отправляются в брак. Количество
•бракованных деталей оказалось рав-
ным WS—55. Число нормальных де-
талей равно NF, а общее число У=
==jVS-HVF==1055, откуда n=NS
=55/1055= 0,052, т. е. 5,2%.
Это совпадает с истинным значе-
нием л. Его можно сравнить с обыч-
ным процентом брака при этой опе-
рации, который равен ло=6,О%. По-
видимому, наш рабочий работает
лучше других, и мастер может
учесть это обстоятельство в буду-
щем. С точки зрения статистика,
анализ на этом закончен. Все, что
для него потребовалось, это сосчи-
тать бракованные детали и вычис-
лить значение л.
Если такой анализ проводить вы-
варочным методом, то задача будет
212
похожа на задачу сравнения ц и рю
путем сравнения X с цо. В этом слу-
чае контролер ОТК должен принять
решение о размере выборки, ото-
брать такую выборку, проверить во-
шедшие в нее детали, сосчитать ко-
личество бракованных деталей и
рассчитать величину p=NS}n. За-
тем сравнением р с л0 можно попы-
таться сделать выводы о том, суще-
ственно лн л отличается от л0.
Методы, рассматриваемые нами
ниже, применимы при условии, что
отбор бесповторный и что соответст-
вующее биномиальное распределе-
ние можно аппроксимировать нор-
мальным. Последнее условие выпол-
няется, когда лло>5 для ло<(1—
—по) или когда п(1— л0)>5 для
(1—ло) <яо.
В этих предположениях процеду-
ра проверки гипотез заключается
в сравнении 2* с z, соответствующей
уровню значимости a. z* вычисляет-
ся по одной из двух формул. Пер-
вая из них имеет вид:
2*= |/? — «0|	= |р —	*
" - «»)/«•
Она применяется в тех случаях,
когда генеральная совокупность бес-
конечна или когда п<0,05М. Если
генеральная совокупность конечна и
n>0,05N, то z* следует вычислять
по формуле
?*= 1^—
— «.I'VXOOO—х.)/л ]<1 —n>N.
Заметим, что в формуле для стан-
дартной ошибки выборочных про-
центов в этом случае лучше пользо-
ваться величиной по, а не р. Именно
поэтому в ней стоит оР, а нс sp.
При z*<z гипотезу о том, что
между л и ло нет существенного раз-
личия, следует принять. В против-
ном случае опа должна быть от-
вергнута. Ошибки аир рассматри-
ваются так же, как и выше.
Пример /. Вернемся к задаче о про-
верке размера отверстий в деталях неко-
торого типа. Отверстия делаются очень
быстро с помощью ручною сверлильного
станка или некоторым автоматическим
устройством. В проведении 100%-ной про-
верки нет необходимости, и качество ра-
Соты оператора можно проверить по неко-
торой выборке.
Рабочему необходимо обработать
10 000 деталей. В среднем брак при про-
ведении этой операции за длительный про-
межуток времени составляет Л(Я=6,0%в Для
того, чтобы биномиальное распределение
можно было аппроксимировать нормаль-
ным, объем выборки должен удовлетворять
усложняю л>83 [поскольку должно выпол-
няться соотношение ц-0,06>5]. Из дихо-
томных генеральных совокупностей выбор-
ки обычно отбираются достаточно большо-
го объема, и это условие, как правило,
выполняется,
Чтобы найти подходящий объем вы-
борки, следует принять во внимание ошиб-
ки первого и второго рода. Можно счи-
тать, что мастера не интересует случай,
когда л<л0. Его беспокоит лишь возмож-
ность того, что я>л<>. В этом случае ра-
бочий должен быть переведен на более
низкооплачиваемую работу’ или вообще
уволен. Таким образом, интересующий нас
критерий вновь должен быть односто-
ронним.
Для уровня значимости а = 0,0225 пре-
дел интервала принятия имеет вид п0 4-
4-2сг—я,+ 2 Vл, (100— я,)/л К 1=пДб 00%
Такой предел эквивалентен сравнению ве-
личины z*~|p—л|/оР с 2 = 2.
Если окажется, что р<л<г | 2ор (т. е.
•если z*<z)» гипотезу о том, что л несу-
щественно отличается от До или даже мень-
ше Ле, следует принять, и наш рабочий не
потеряет свою работу. Если окажется, что
/>>^04-20» (т. е. что z*>z), его следует
перевести или уволить.
Однако, когда ему сообщили об этих
двух' вариантах, мастер понял, что при
-относительно небольшом объеме выборки
гипотеза может быть легко отвергнута,
когда я всегда на 1% больше Ло=6,0. Он
счел неправильным так сурово наказывать
рабочего за небольшое расхождение. В то
же время с учетом возможности ошибки
второго рода гипотеза могла оказаться
принятой даже в том случае, когда рабо-
чий дает, скажем, 10% брака.
Поскольку расходы на проведение вы-
борочного исследования по сравнению
•с издержками принятия неправильного ре-
шения незначительны, мастер оешил посту-
пить следующим образом. Во-первых, он
выбрал л'>л0 такое, что относительно
этого л' ошибка второго рода может быть
совершена с некоторой фиксированной ве-
роятностью р. В нашем случае он принял
л'=8,5 и ₽” 0.0225. С учетом того, что а=
«=Р = 0,0225, объем выборки можно полу-
чить, решая уравнение
«, + z Vйо(100—п0) л V I — n/tf =
=п' _ z>	(100 — я,), п КI — л/10 000.
Так как а=₽, z будет равно zf. Подставив
соответствующие величины, получим
6 + 2 Кб“ 94/л V Г^л/; о tco =
= 8,5 — 2 Кб -94/л И1 — л/10000 ,
4 V КI —л/10 000 -= 2,5, п ~ 1262,
Необходимо отобрать выборку с п=
= 1262, проверить все ее детали (такое ко-
личество деталей можно проверить при-
мерно за 1,5 ч), определить количество
брака NS и вычислить p=A’S/I262. После
это можно получить г*= |р—я0|/Ор, где
ор = Кб.94/1262 — 1262/10 С<_0=0,62%
Предположим, что мы получил^ р-=7,0.
г*— |7»0—6,0 [/0,62=1,61. Таким образом,
z*<z; гипотеза принимается, н рабочий
сохраняет свое рабочее место. Тот же ре-
зультат получаем» определяя предел интер-
вала принятия P(rj 20р=6.О-1-2-0,62=7,2 и
замечая, что р—7.0 меньше, чем 7.2.
При Р=7,5	17.5—6,01/0,62-2,42.
Теперь уже z*>z; гипотезу следует от-
вергнуть, а рабочего перевести или уво-
лить. Однако мастер может заметить, что
значение р=7»5 может быть с легкостью
получено из генеральной совокупности с л,
равным, например, 6,5, что он считает
вполне допустимым На этом этале несо-
мненную пользу может принести вычисле-
ние доверительных пределов. Они равны
C.L. = 7,5 ± 2 К7,5-92,5/1262 X
х И1 — 12(52/10000 = 7,5 ± 2.0,69 =
= 6.1 =8,9.
Если доверительные пределы ие помо-
гают, мастер может продолжать увеличи-
вать объем выборки до тех пор, пока не
сможет принять необходимое решение.
Пример 2. Кампания разработала но-
вый сорт зубной пасты н должна принять
решение о том, следует ли производить ее
в общенациональном масштабе. Если про-
изводство будет начато, но паста не будет
пользоваться Спросом, то компания понесет
большие убытки. Если производство не бу-
дет начато» ио окажется, что паста поль-
зовалась бы спросом, то компания упустит
возможность получить большую прибыль.
Так как издержки принятия неправильного
решения очень велики, руководство компа-
нии решило провести анализ спроса.
Был выбран некоторый регион» новый
сорт насты был разослан по магазинам
этого региона, начата рекламная камлания,
а в каждую семью был бесплатно послан
образец новой пасты. Через некоторое вре-
мя было проведено выборочное последова-
ние с целью установить, какой процент на-
селения перешел на использование новой
пасты. Если >5% населения пользуется
этой пастой, то имело бы смысл начинать
производство этого сорта в общенацио-
нальном масштабе. В противном случае от
него пришлось бы отказаться.
Отдел сбыта разработал план выбо-
рочного обследования, приняв а—0,045,
?=2Д)0 и р=0»15 относительно величин в 3
213
и 7%. Соответствующий такой ошибке
объем выборки равен
5 J- 2 /5-95/л = 7 — 1 ,С4 /5-95/л; п=
= 1098,
ито дает стандартную ошибку ар =
— V 5-95/1098= 0,66%. Пределы интерва-
ла принятия имеют вид Яо±г<Тр*=5±
±2»00 (0,66) — (3,7—6,3). Эти результаты
дают следующий критерий. Если р>6,3
(г*>2Л0), то следует начинать производ-
ство нового сорта зубной пасты. Если ока-
жется, что р<3,7 (z*<2,00), то от него
придется отказаться. Для значений, лежа-
щих в интервале 3,7<р<6,3 (0<г*<2,00),
следует вычислить доверительные пределы
и рассмотреть весь проект заново. Резуль-
татом дополнительного рассмотрения долж-
ны быть либо принятие решения, либо от-
бор выборки большего объема.
Предположим, что результаты первого
выборочного обследования уже поступили.
Оказалось, что WS—70 и />=70/1098—
=6,4%. Это означает, что л несущественно
отличается от по. Доверительные пределы
имеют видг
C.L. = 6,4 ± 2 /6,4.93,6/1098 = 4,9 Ч- 7,9,
и их можно представить руководству ком-
пании для дальнейшего анализа.
Пример 3, Один из кандидатов на не-
который пост на данном этапе своей изби-
рательной кампании решил, что его шансы
очень хороши и что он должен собрать
значительно больше 50% голосов. Если это
действительно так, то он мог бы умень-
шить расходы на свою избирательную
камланию. Организация, проводящая опрос
общественного мнения, разъяснила ему
связь между объемом выборки и издерж-
ками проведения выборочного исследова-
ния. Кандидат предложил п—200. При а=
=0,05 и п=200 оР= /50'50/200 =3,54%
и -предел интервала принятия будет равен
50-]-1.64-3,54=55,8. В связи с этим орга-
низация по опросу общественного мнения
сообщила кандидату, что даже при р=
=55,7% число его сторонников составит
несущественно больше 50%. В то же вре-
мя такая выборка может происходить из
генеральной совокупности, которой соот-
ветствует л— 61,5 (с вероятностью 0,05).
[Поэтому объем выборки должен быть
больше, чем п=200. Кандидат решил, что
значение р=0,05 при л'=58 вполне доста-
точно. В этом случае ему придется опла-
тить выборочное исследование (п=420).
Это значение п можно получить из урав-
нения
50 + 1,64 К50 ‘50/п =
= 58— 1,64 /50-50/п.
Теперь предел интервала принятия име-
Lt вид 50+1,64 /50-50/420=54,0. Это по-
будило кандидата спросить; какова веро-
214
ятность, что гипотеза окажется отвергну-
той, если л=55? Чтобы ответить на этот
вопрос, следует найти Р (р>54,0|л=55%,
п—420) =Лтем.о. Соответствующее значение
определяется величиной г = (54 —
— 55)// 55 • 45/420 = —0,41,	откуда
41 w-o.4i=0,84, Такой ответ удовлетворил
кандидата, н он решил провести обследо-
вание.
9.5.	СОПОСТАВЛЕНИЕ л( С л2
Как и во всех предыдущих слу-
чаях, рассмотренных в этой главе,
значения Л] и л2 можно сравнивать,
непосредственно вычисляя каждый
из этих параметров. Если это невоз-
можно или нецелесообразно, то не-
которые выводы все-таки можно
сделать, сопоставив значения pi
и р2.
Проверка того, насколько Л1 отли-
чается от л2, проводимая сравнени-
ем pi и р2, основана на тех же тео-
ретических принципах, что и провер-
ка того, насколько различаются зна-
чения pi и ц2. Будем считать, что
у нас имеется большая дихотомная
генеральная совокупность, что отбор
осуществляется бесповторно и что
объемы выборок позволяет считать
распределение величин (pi—р2)
приблизительно нормальным. Ожи-
даемое значение этого распределе-
ния равно
M(pi—p2)=nt—n2,
а среднее квадратическое откло-
нение
adp — /^.(lOO—1г)/л.-|--к(100 — т)^,—
Эту формулу выводят с учетом
того, что дисперсия разности двух
независимых случайных величин
равна сумме их дисперсий. Диспер-
сии pi и р2 равны соответственно
О2р1 = л(100— Л) /til И 0^2 =
=л (100—л) /п2.
= т. (100 — *)/«,	(100 —
— -r) ;Пг — « (100 — it) (1 lnt + 1 /«,).
откуда непосредственно следует фор-
мула для cap.
Проверка гипотезы о наличии или
отсутствии разницы между Я[ и я2
основана на предположении, что
jti—я2=0. Следовательно, для z
.можно записать
г — [Са — А) — К —	=
= КА ~ А) - 01/з*г= (А - рМъц,-
Прежде чем проводить проверку,
следует выбрать уровень значимости
и определить объем выборки. После
отбора выборки необходимо срав-
нить значения z* и г. При z*<z ги-
потеза о том, что между Л1 и л2 нет
существенной разницы, принимает-
ся. Это означает, что в пределах
ошибки р может выполняться любое
из трех соотношений Л1<лг, Я1=л2
или Л1>Л2. Если окажется, что z*>
>z, то гипотезу следует отвергнуть,
откуда следует, что при р\<ръ
Л1<л2 и наоборот.
Z* можно вычислить по формуле
2 = (рх Рг)1$4р»
где sdp уpr (100 — р) (1 /л, +1 /п,)
Значение р' рассчитывают по дан-
ным обеих выборок, так что
р'=^5,+ *$,)/(«> +А)-
При этом предполагается, что Л1=
—я2.
Если гипотеза о том, что между
Л1 и л2 нет существенной разницы
отвергается, то можно вычислить до-
верительные пределы для Л1—л2:
C.L. = (а - А) ± zsdp = (р, - а)±
=t KpJlOO-А)'«1+ аООО - А).'А-
Отметим, что здесь стандартную
ошибку ВЫЧИСЛЯЮТ С ПОМОЩЬЮ Pl и
А, а не р'.
Объем выборки, необходимой,
чтобы обеспечить требуемую степень
точности, можно приблизительно
найти следующим образом:
ZSdp = Ь\
zVy (100 - X)	Yn)=k-
y(iW-y)(tyi) = (k№i
n =$p' (100 - p’) (z/ky.
Для того чтобы определить «>=
=л2—А с помощью которого можно
найти некоторую минимальную раз-
ницу | Л1—л2|=&, можно воспользо-
ваться приемом, рассмотренным
в разд. 9.3. Считая, что лг>Я1 и л1=
==П2=л, вычислим наибольшее p"i,
происходящее из Pi, и наимень-
шее p"it происходящее из Р2, такие,
что я2—Л(=й. Как и ранее,
(р"г—p"i)/SdP==z, где
р’\ =*,	100—и р'\ —
= — z' У(100 —	!п.
Конечно, значения Л1 и л2 нам не
известны. В качестве некоторого
компромиссного варианта можно
взять значение рг— (а+а) /2, полу-
ченное по предварительным выбор-
кам. Тогда
р", =«, +»')//(|00-Х)/я
И
А-/)/«.
Подставляя эти величины в наше
уравнение, получаем
к2 — ж 'V	—
- (Я, + ж'/^(ЮО-^/Кл)/
К/?'(Ю0-//)К(1/л+1/л) = »;
T.t - Т, - 2z'//p00=
=^/2/ (100 - У)/Уп;
. k = у р'(100 - р') X
х (У^-у2У}1Уп\
п = {Ур1 (100 - р1) (У2z -hJ2zf)/Ap.
Пример 1. Двое рабочих на одинако-
вых станках изготовляют одинаковые де-
тали. Есть ли существенная разница в про-
центе выпускаемого ими брака? Чтобы вы-
яснить это, была собрана следующая ин-
формация: Л|=200, /VSia=12, р|=6.0; ла—
•=200, NS2-18. ра=9,0. При а=0.05 z=
=1.96. Значение z* ра<вно:
г* = 16,0 — 9,0 |/К7,5-92,5 (1/200+1/200)=
= 1,14»/.,
где p'=(12-i 18)/400=7,5%.
Отсюда мастер, в ведении которого на-
ходятся оба рабочих, может заключить,
что Л1 н ла различаются несущественно,
Следовательно, из того, что р\<р2, еще нс
следует, что один рабочий делает больше
брака, чем другой.	
215
Для того чтобы обнаружить разницу
по крайней мере а 4%, мастеру придется
отобрать выборку, объем которой должен
быть равен
л = (К7,5-92,5 У?.1,96+ 2.!.641/4)1 =
= 1588.
Объем выборок был после этого уве-
личен до Л|~п2=!588, и случайно были
получены те же самые результаты: nt =
=1588, JVS1=^95, pi=6.0; «*=1588. NS2=
= 143, р2=9.0.
Возьмем 2=1,96 и вычислим г*:
z* = |6,0 —
— 9,0 |/К7,5-92,5 (1/1588+ 1/1588) =
= 3/0.93 = 3,23.
Тетерь уже гипотеза должна быть отверг-
нута, и мастер может считать, что второй
рабочий делает существенно больше брака»
чем первый.
Пример 2. Издатель газеты хочет про-
вести опрос общественного мнения в не-
котором регионе, чтобы определить отно-
шевие его жителей к обсуждаемому зако-
нопроекту об абортах. При этом он хочет
не только определить число жителей
(в %), поддерживающих законопроект, но
и понять, есть ли какая-нибудь разница
в отношении к нему мужчин и женщин.
Возникают две статистические задачи. Пер-
вая заключается в вычислении доверитель-
ных пределов, а вторая — в проверке того»
насколько существенно Л] отличается отл3.
Читатели его газеты будут считать
разницу в подходе к этой проблеме между
мужчинами и женщинами интересной лишь
в том случае, если она будет составлять не
менее 5%- Чтобы найти объем выборки,
с помощью которой можно обнаружить та
кую разницу, следует рассчитать
л = (/5б+0[ИГ-1,96 + 2.1.64J/5)» = 3662.
Таким образом, nr=/Zjj=3662. Стандартную
ошибку выборочного процента (для всего
населения, независимо от полз) можно
аппроксимировать еще до отбора выборки.
Объем выборки, необходимой для вычисле-
ния доверительных пределов, равен не п=
=3662, а	«^=7324. Стандартная
ошибка равна sP = К 50-50/7324 = 0,58%.
Таким образом» желание понять, на-
сколько по-разному подходят к законопро-
екту мужчины и женщины, потребовало от
издателя отбора гораздо большей выбор-
ки, чем было бы необходимо для вычисле-
ния одних только доверительных пределов.
Обратите также внимание на разницу меж-
ду объемом выборки в этом случае и
в примере I.
Пример 3. В табл, 7.15 приведены
65 значений выборочных процентов, поду-
ченных из дихотомной генеральной сово-
купности с параметрами Л1«Ла^=я=40%.
Все выборки имели объем л=80. Возьмем
теперь наибольшее и наименьшее из полу-
216
ченных в этих выборочных исследованиях
значений pt и проверим» имеется ли су-
щественная разница между m и л2:
= 80, р,=31»25; «2=80, р^=53»75. Тогда
С. adp = ^40-60(1/80+ 1/80) = 7.75.
z*-53,75—31,25/7,75 =2,90.
Таким образом, гипотеза будет отверг-
нута при а=0.05 и 2=1,96 и принята при
а<0,004 и z>2,90 (например, при
9.6.	СОПОСТАВЛЕНИЕ ДИСПЕРСИЙ
Сначала .мы рассмотрим, как
можно сравнить значения о2 с а2о
с помощью s2, а затем установим
связь зависимости между o2i и о2^
с зависимостью между s2i и ss2.
9.6.1.	Сопоставление а2 с а2»
Сопоставление значений а2 и о20.
с помощью s2 основано на теорети-
ческих принципах, рассмотренных
нами в разд. 8.4. Предположим, что
мы отбираем выборки объема п из
большой, нормально распределенной-
генеральной совокупности. Отноше-
ние s2/о2о будет распределено по за-
кону %2/v (т. е. по закону хи-квад-
рат с v степенями свободы). Пло-
щадь под графиком распределения
y2/v можно выразить в терминах
процентилей Рт или в виде Л'/*/ —
__ар,-'Ь«
— 71Р1/,а '	,
Некоторые значения процентилеft-
для различных значений v и г приве-
дены в табл. X (см. приложение).
Например, для v — n — 1 = 10
/1-’М _ л₽0.05__ .1ЛЗ
%«	^0.05	0,39 ’
где Р0.м. — 0.394 и	1,83 взяты
из табл. X при ’/2а=0,05 и 1—]/2а=
=0,95. При этом, разумеется, а=
=0,10
Наша гипотеза формулируется
следующим образом. Гипотеза //.а2
несущественно отличается от о2»,
альтернативная гипотеза:о2 сущест-
венно отличается от о20.
После того, как мы отберем выбор-
ку и вычислим по ней s2, необходи-
wo сопоставить отношение s /а\ с
11 ^l—v,а • Прн P,fta
<^Р}-ч,а гипотеза принимается. В
пределах, задаваемых ошибкой р, мы
можем’заключить, что любое из трех
соотношений может быть справедли-
во: а2=а‘о,	или з*>а*в. При
«7<<Р.,1в или при J/o\> Р^*
гипотезу следует отвергнуть. При
з* можно считать, что з1 < о\
и наоборот. Когда $г/а*в сравнивает-
ся как с Ptf^ так и с Pf_tl в, мы
имеем дело с двусторонним крите-
рием
Рассмотрим выборку л=6, ото-
бранную из генеральной совокупно-
сти стальных булавок, для которой
о2=(2,53)2=6,40. Из табл. 7.6 возь-
мем дисперсию этих шести величин
s2=9,77. Будем считать, что о20=
=6,40. В этом случае <j2=o2n. Сле-
довательно, отношение s2/o20 дол-
жно попадать в пределы
ПРИ а=0»05 и v=n—1=
= 5 Ро,о2з=0,166; Ро,975=2,566 ;
52/о20=9.77/6,40 = 1.527. Поскольку
0,166<1,527< 2,566, гипотезу о том,
что между о2 и о20 нет существенной
разницы, следует принять.
Для другой выборки из табл. 7,6
л=20, a s2=5,432. Для а=0,05 и
1) = П—1 = 19	PlJ,025 — 0,469,	Pq.975 =
= 1,729 отношение s2/o20=
==5,432 /6.40=0,849. Мы вновь имеем
0,469 <0,849<1,729, так что гипотезу
о том, что между а2 и о20 нет суще-
ственной разницы, вновь следует
принять.
Можно рассмотреть и несколько
иную формулировку: гипотеза Н—о2
несущественно отличается от а2» или
о2>о2о; альтернативная гипотеза —
<у2 существенно меньше о2о. В этом
случае по таблице находится только
значение Рв (а не Pj_a или Рч^).
При $г1^а^>Ра гипотеза принимает-
ся. Например, для а=0,05 и п=20
Р0105=0,533. Этот критерий будет
односторонним.
Предположим, что мы пользуемся
односторонним критерием при о2о=6
и а=0,025, и требуется найти такое
п, что относительно сг'2=4 ошибку
второго рода можно совершить с ве-
роятностью ₽=0,05. Теперь мы
имеем два выборочных распределе-
ния Одно описывает отношения
s'2 [o'2, а другое — з2/о2о- Объем вы-
борки п должен быть таким, чтобы
обе кривые перекрывались не бо-
лее, чем разрешено значениями ве-
роятностей а и р.
Это перекрытие определяется зна-
чениями Hq’'95=0,95 и А/%_о25 =0,975,
где P0,95=s'2/4, а Ро.о25=$2/6. Для
таких двух распределений очевидно,
что з,2/4>1, а s2/6<l. Следователь-
но, Рс,95^ Ро,о25, но 8/2=s2. Если это
так, то можно записать два уравне-
ния: 4P0,9s=s2 и 6Ро,о25=«2- Отсюда
4Po,95=F=6Po,O25 И 6/4=Pq.95/Po,025"=1,5.
В результате для a2o>a/2 мы имеем
Л1°'г=
Далее, можно с помощью табл. X
(см. приложение) найти методом
проб и ошибок значение п, соответ-
ствующее отношению а20/<т'2==1,5.
А именно, можно вычислить не-
сколько значений Po.%/Po,o25, стре-
мясь к тому, чтобы одно из них ока-
залось близким к 1,5. Соответствую-
щее п равно 160.
Отметим, что все, что мы говори-
ли о сопоставлении о2 и а20, приме-
нимо и для сопоставления о с оо-
9.6.2.	Сопоставление o2i с о22
Будем считать, что у нас имеются
две большие нормально распреде-
ленные генеральные совокупности,
для которых o2i=o22. Отберем из
каждой по одной выборке объемом
П\ и П2 соответственно й вычислим
P*=s2i/s22. Они будут иметь так
называемое PW1-распределение с
Vf=n—1 и о2=п—1 степенями сво-
боды. Плотность F-распределения
задается формулой
f (р\	((о. 4- о, - 2)/2)?	.
М '	((е. - 2)/2)!((1», - 2)/2)! х
(Uj \Ч/2	2>/2
Эта функция включает два пара-
метра— Di и о2. Если значения и
217
va зафиксировать, то, приняв не-
сколько удобных значений F и вы-
числив соответствующие значения
/(F)» можно построить ее график.
При F=0 f(F)=O. Кроме того, для
0<F<oo Aeo0=l. Как обычно, пло-
щадь под кривой обозначается через
Ар, , а функция распределения есть
F(F)=AF0. Значения некоторых
функций F-распределеннй приведе- -
ны в табл. XI (см. приложение).
Чтобы сравнить величины o2i и о22
использовав s2i и $2г, сформулируем
соответствующую гипотезу. Гипо-
теза Н: а2| несущественно отли-
чается от о22- Альтернативная Ги-
потеза: o2i существенно отлича-
ется от о22. Если наша гипо-
теза принимается, то мы считаем,
что o2i равно или очень незначи-
тельно отличается от <j22. Если она
отвергается, то при s2i<s22
и наоборот.
Вновь рассмотрим выборки ni=6
и «2=20, отобранные из генераль-
ных совокупностей Pi и Р2, для ко-
торых G2i=or22=6,40. Эти выборки
приведены в табл. 7.6. Их дисперсии
равны s2j=9,77 и s22=5,43. Посколь-
ку нам заранее известно, что o2i=
=о22, отношение F* должно попасть
в пределы
Проверим, будет ли это действитель-
но так.
Возьмем <х=0,05, для которого
Fo,o25; (5,19)=0> 158 И F0,975 (5.19)=3,33.
Так как F*=s2i/s22=9,77/5,43=1,80,
получим, что 0,158<1,80<3.33. Ги-
потеза принимается, и мы заключа-
ем, что о3] и а2а различаются несу-
щественно.
Нас может интересовать также и
односторонний вариант этого крите-
рия. В этом случае гипотеза имеет
следующий вид: гипотеза Н: o2i не-
существенно отличается от о22 или
<Г1 меньше, чем о22. Альтернативная
гипотеза: o2t существенно боль-
ше о22. Для такой гипотезы следует
по таблице найти значение
(а не или и
сравнить, его с F*. При F*<F гипо-
218
теза принимается, а в противно!*
случае — отвергается. Например,,
при а=0,025 F0,975; ао,15)=3,О6.
Пусть требуется найти объем вы-
борки, необходимой для обнаруже-
ния некоторой минимальной разни-
цы между о2] и о22. Несколько утри-
руя (и упрощая) задачу, примем*
п51=20о22. Когда значение o2i вели-
ко по сравнению с о22, отношения
F*=s2i/s22 также будут больше со-
ответствующих отношений при a2i=
=о22.
На самом д^ле для оценки этих отно-
шений разумно взять Fa.(ciu>) или
И УМНОЖИТЬ ИХ НЭ 20 (ДЛ®
случая 20a2i=o22 их необходимо-
разделить на 20).
Например,	при о2! = а2?
Fo,o5; ао,ю)=0,336, a Fq.bs; аоло)=2,98.
При о21=20а2г эти отношения рав-
ны F/o>Q5;(io,i'0)=20'0,336=6,72 и
F/o,95;(io,io)=20'2,98=59,6. Таким об-
разом, при уровне значимости
0,10 наименьшее значение s2j будет
в 6,72 раза больше наибольшего
значения s2a, а наибольшее значение
s2i будет в 59,6 раза больше наи-
меньшего значения $*2. Эти вычисле-
ния показывают, что при a2i=20a22
разницу между o2i и о22 можно
всегда обнаружить с помощью вы-
борки Л1=Л2=Ц.
Предположим теперь, что o2i=
=2о22. Имеем F/o,o5;(io,io)= 2-0,336=
=0,672 и F,o>95;(io>io)=2  2,98= 5,96.
Поскольку F'o,о5=0,672<Fo,95=2,98,
гипотеза о том, что между о2! и о®»
нет существенной разницы, довольно
часто окажется принятой, несмотря
на то, что на самом деле a2i=2o22.
Это будет ошибкой второго рода, ве-
роятность которой равна
Л).9б; (10.10) __ д2-98
f0,05; (10.10)	°-672
= 0,66.
Посмотрим теперь, что произойдет»
если отобрать выборки m=n2=12L
При а21=<^2
Fo,O5; (120,120)=0,740
и
Fo,95; (120,120)= 1.35,
Следовательно,	F'w, (i2o,i2o)=2 X
X0,740=l,48 и F'o.№; (120,120) =
=2-1,35=2,70. Мы видим, что
Р'ол5>Ро,95, и поэтому в большинст-
ве случаев нам удастся с помощью
F-критерия обнаружить разницу
между o2i и о22, когда o2i=2o22. При
условии, когда о21=Ло22, выборка,
объем которой обеспечивает выпол-
нение равенства ^1_1/2а
всегда достаточна, чтобы обнару-
жить разницу между этими двумя
дисперсиями.
9.7.	ВОПРОСЫ И ЗАДАЧИ
9.1.	Торговый контролер, в задачу ко-
торого входит контроль за правильной
массой отдельных товаров, отобрал десять
однофунтовых пакетов с кофе и взвесил
содержимое каждого из них. Он получил
-следующие результаты (в фунтах): 0,94;
0,95; 0,92; 1,02; 0,97; 0,95; 1,02; 0,96; 0,92;
0,97.
а. Вычислите X и s
- б. Контролер хочет проверить, будет ли
р. существенно меньше, чем |Ло=1,00. Есть
ли.здесь двусторонний критерий? Сформу-
лируйте соответствующую гипотезу.
в, Найдите стандартную ошибку сред-
него. Приняв а=0,025, найдите теорети-
ческие значения / или z. Какое из них по-
надобится при проверке нашей гипотезы?
Почему? Найдите г* или и, сравнив по-
лученное значение с г или Л сделайте вы-
вод о- том, примет ли контролер гипотезу
или отвергнет ее.
г. Вычислите доверительные пределы и
объясните смысл результата.
д. Если окажется, что 0.95<1,00.
то мт азину будет сделано замечание. Од-
нако если ц<0,95, то магазин будет
оштрафован. Какова вероятность того, что
наше значение X происходит нз генераль-
ной совокупности с р—0,95? Должен ли
контролер, располагая указанной выше ин-
формацией, оштрафовать магазин или
только сделать ему замечание?
е. Контролер хочет отобрать такую вы
борку, для которой вероятность ошибки
второго рода относится ц'=0,995 была бы
равна 0—0,005. Чему должен быть равен
объем этой выборки?
9.2.	Торговый инспектор отобрал в ма-
газине десять однофунтовых пакетов
с кофе и взвесил их содержимое. При этом
получились следующие результаты (заме-
тим, что масса каждого пакета на 0.05
фунта меньше, чем в задаче 9.1): 0,89;
0.90; 0,87; 0,97; 0,92; 0,90; 0.97; 0,91; 0.87;
0,92.
а.	Проверьте, будет ли ц существенно
меньше, чем р0—1,00 при уровне значи-
мости 0,025
б.	Проверьте, будет ли р существенно
меньше, чем ц0"=0,95, при уровне значи-
мости 0,025.
в.	При а—0,05 оцените, сколько фун-
тов кофе понадобится владельцу магазина,
чтобы наполнить 1000 пакетов, если он бу-
дет продолжать это делать так же, как и
ранее.
9.3.	Вице-президент компании, владею-
щей системой супермаркетов, произвел сле-
дующие вычисления. Он взял число всех
семей в некотором регионе и разделил его
на количество уже существующих супер-
маркетов плюс один (этот один он пла-
нировал вскоре построить). В результате
получилось 1800 семей иа магазин. Это
ему не очень понравилось, поскольку ком-
пания предпочитала иметь не менее
2000 семей па каждый магазин. Однако
новый супермаркет предполагалось по-
строить в удобном районе, населенном
людьми со средним доходом, причем эго
население продолжало увеличиваться. По-
этому вице-президент решил глубже изу-
чить проблему. Он решил ^се-таки открыть
Mai азин, если средний расход на продо-
вольственные товары в неделю составит
нс менее 40 долл, па человека.
Возьмите выборочные данные из зада-
чи 2.1 и попытайтесь сообщить вице-пре-
зиденту, будет ли р существенно больше
ДО долл. Выберите уровень значимости,
вычислите t* или г* (в зависимости от
того, какая величина здесь необходима)
и сравните результат с i или г. Кроме
того, вычислите доверительные пределы и
разберитесь, помогают ли они составить
более полную картину. Достаточен ли
объем выборки?
9.4.	Некоторая компания приобретает
ящики с деталями Диаметр детали дол-
жен быть равен Цо=2,500, т. е. 2500-10”1
дюйма (мы пишем два нуля после запятой,
чтобы показать, что все измерения про-
водятся с точностью до одной тысячной
дюйма). Из прошлого опыта известно, что
вариация диаметров приемлема и является
постоянной. Однако поставщику не всегда
можно было доверять в том, что касалось
величины ц. Несмотря на это, цена дета-
лей была настолько низкой, что компания
решила закупить некоторое количество де-
талей и проверить их, прежде чем искать
другого поставщика. Это решение было
принято в связи с тем, Что издержки вы-
борочного обследования были значительно
меньше, чем разница в ценах.
Работники ОТК разработали следую-
щий план выборочного анализа. Среднее
квадратическое отклонение диаметров о—
=15. В каждом ящике находится 100 де-
талей. Всю проверку было решено прове-
сти в два этапа. На первом этапе отби-
рают небольшую выборку из каждого
ящика (#=100). Если она дает отрица-
тельные результаты» то проверяют все со-
держимое ящика. В противном случае вы-
борочное исследование продолжают до тех
пор пока объем выборки не достигнет
219
после чего принимают окончательное ре-
шение о том, годится ли этот ящик.
а.	При а=0,003 и 0=0,003 относитель-
но ц'=2502 (или ц'=2498) найдите объем
выборки и вычислите доверительные пре-
делы,
б.	При а=0»003 найдите доверительные
пределы, которые после округления дадут
pi—2500. Для выборки этого объема най-
дите ошибку 0 относительно ц'=2501,
9.5.	Дано: Цо—50» g=4, л—25 н а=
= 0.045. Найдите ₽а и относительно
y,'i=54, и ц'3=50,3.
9.6.	Дано: Цо=5О» о=0,6, я=25 и а=
=0.045, Найдите 0Ь 02 и 6Э относительно
ц'1=54, ц'2=52 и ц'з=50,5 и сопоставьте
полученные результаты с результатами за-
дачи 9.5,
9.7.	Дано: ц»—50, с=4, л=100 и « =
=0,045. Найдите pi, 02 и 05 относительно
p'i=54, ц'г=52 и ц'з=50,5.
9.8.	Даны два распределения частот
срока службы радиоламп (в тысячах ча-
сов),	полученные	по Двум	выборкам:
для 	типа Л и jf,	для типа	Б.
		•fi	
	От 17 до 18	8	4
	От 18 до 19	21	8
	Or 19 до 20	40	14
	Ог 20 до 2!	27	17
	От 21 до 22	12	12
1	От 22 до 23	6	11
	От 23 до 24	3	8
	От 24 до 25	2	4
	От 25 до 25	1	2
а.	Проверьте, есть ли разница между
Ц] и ц2 при уровне значимости 0,045, счи-
тая, что c2i-oV Какое ц больше?
б.	Проверьте, есть ли разница между
Pi и ц2 при уровне значимости 0,045, счи-
тая» что <х=0,045 и сг*[=£а22.
в Вычислите доверительные пределы
для разности между |i| и Цз в предполо-
жении, что <з2|т£=а£2
9.9.	Автомобилестроительная компания
покупает у двух сталелитейных компаний
заготовки обойм для шарикоподшипников.
Пользуясь приведенными ниже выбороч-
ными данными, проверьте при уровне зна-
чимости 0,05, имеется ли существенная раз-
ница в массе (в 1) между Ц( и ц2- Счи-
тайте, что а<=(У2.
Сталелитейная компания А
41,6	; 41,7; 41.8; 42,2; 41,2; 40.9; 41,3, 41.5;
41,7; 41,8.
Сталелитейная компания Б
40.5	; 41,!; 40,9; 41Л; 41.7; 41,8; 41,1; 40.7;
41,2; 41,4.
а.	Предположим, что автомобилестрои-
тельная компания предпочтитает более
гяжелые заготовки. При прочих равных
условиях (например, при равных ценах)
чьи заготовки она приобретет? Обоснуйте
ваше решение результатами проверки.
б.	Найдите Л1=и2, для которого с ве-
роятностью 0,045 будет обнаружена раз-
ница по крайней мере в 012 Г»
9Л0. Дано, что X1=50,00, /1г=25, Хг*
^52,00 и п2=25. Проверьте, имеется ли
существенная разчица между Ц1 и ц2 прн
уровне значимости 0,045. считая, что с/\—
=<Т*2-
а.	$1=4,00 и s2=5,00.
б.	5—0,30 и 52=0.28.
в.	Вычислите доверительные пределы.
ja-.l pj—ц2. пользуясь значениями средне-
го квадратического отклонения из йадач^
9.10,а и 9.10,6. Объясните разницу.
Указание:
<г = ./ S(X<. —X3»+S(A/t-X,)«
V	п. + п, —2
1 / <п,- 1)^.4-(«,-’) Л
Г п,+пг - 2
9.11. В прошлом году среди студентов
университета одного штата 15% происхо-
дили не из этого штата. Законодательное
собрание штата решило, что штату не сле-
дует субсидировать эту категорию студен-
тов. и значительно увеличило плату за
обучение. Чтобы оценить влияние этой
меры на состав будущего контингента сту-
дентов, университет решил проанализиро-
вать выборку из адресов лиц, уже по-
давших заявления о приеме, и проверить»
будет ли число студентов, проживающих
вне штата, составлять существенно мень-
ше 15%.
а.	Каков должен быть размер выборки
для 0—0,05 относительно л'=13,0%, если
общее число заявлений равно 10 000?
б.	Один из работников университета
решил независимо получить ту же самую
информацию. Он принял «=200, выбрал
200 адресов наугад и насчитал среди ник
24 человека» проживающих вне штата.
Проверьте прн а—0»0225, будет ли для
всех желающих поступить в университет
доля проживающих вне данного штага
существенно меньше 15%; найдите ошиб-
ку 0 относительно ^=13,0; вычислите для
л доверительные пределы.
На основе всех этих данных как вы
ответите на вопрос корреспондента сту-
денческой газеты о том. верно ли, чго
число студентов из других штатов по
сравнению с общим числом студентов су-
щественно понизилось,
9.12.	Рассмотрим гипотезу: л несуще-
ственно отличается от Ло или л больше-
го. Будет ли ваш предел интервала при-
нятия ИЫСТЬ ВИД ЛQ-J ZOр ИЛИ Л<г—2Ор.
Почему?
9.13.	Рассмотрим следующие односто^-
роиние критерии прн а=0,045:
а. Для Ло=50,6 найдите также объемы
выборок, для которых 0=0,0225 относи-
тельно л'(=600» -<2=^55,0, л'з=52,0, л'4—
=51,0 и
•б. Для nu=10,0 найдите такие объемы
выборок» для которых 0=0,0225 относи-
тельно л'1==20,0, л 2=15,0, л'3=12,0,
= 11,0 и я,5=10.5. Сравните эти ответы
С результатами задачи 9 13»а.
220
9.14.	Как вы отнесетесь к следующему
рекламному объявлению, сделанному по
телевидению: <27 из 50 выбранных наугад
врачей прописывают наше обезболивающее
средство X. Вы можете быть уверены
в средстве, которое предпочитают более
половины врачей». Обоснуйте свой ответ
не только с помощью проверки соответ-
ствующей гипотезы, ио и вычисляя дове-
рительные пределы.
9.15.	В среднем брак составляет л0=
=9%. Необходимо проверить #=5000 де-
талей. находящихся в некотором ящике.
Нас интересует вопрос» будет ли я су-
щественно отличаться от 9%.
а.	Возьмите а=0.01 и постройте пре-
делы интервала принятия для р—0,01 от-
носительно л"=10,5 и я'=7,5. Если р по-
падает в эти пределы» мы будем продол-
жать отбор выборки до тех пор, пока ее
объем не будет равен п* для которого
ЛоЧ-20р=9±0,5. Найдите л2. Кроме того,
найдите ошибку 0 относительно л"=10,5
и л'=7,5 (для этого значения Лг).
б.	Возьмите а=0,05 и 0=0,05 и повто-
рите те же вычисления. Сравните резуль-
таты.
9Л6. а. Возьмем Л|=40% и 60%.
Каков должен быть объем выборки П(=
—л2, при котором 4,5% выборочного рас-
пределения Pi будет перекрывать 4,5%
выборочного распределения г2
6. Пусть теперь Л1=48% и л2=52%.
Каков должен быть объем выборки, П|=
=л2, при котором 4,5% выборочного рас-
пределения Pi будет перекрывать 4,5%
выборочного распределения Р2.
9.17. Имеются две игральные косги.
На одной написаны числа 1, 2, 3» 4. 5» 6,
причем грани с числами 5 и 6 покрашены
в черный цвет. На другой написаны числа
5. 6» 7» 8, 9» 10, причем грани с числами
5 и 6 тоже покрашены в черный цвет.
Если при подбрасывании двух игральных
костей одновременно выпадуют две черные
грани, вы примете некоторую гипотезу.
В противном случае вы ее отвергнете. Че-
му равна вероятность того, что гипотеза
будет принята?
9.18. Вы начинаете брать выборки из
дихотомных генеральных совокупностей
Pi в Р2. Дойдя до значений л'1=п|Г2=200,
вы получили p'i-20% и p's—25%. Поль-
зуясь этими предварительными результа-
тами, найдите объем выборки Л|=л2» до-
статочным для того, чтобы при уровне
значимости «=0,045 можно было обнару-
жить разницу в 4%,
9Л9. Дано И|=л2=2000.
а. Будет ли	существенно отличаться
от л2, если р1==40%, а Ps=60%?
б Будет ли	существенно отличаться
от Л2, если р|=48%, а Ps=52%?
Выберите некоторый уровень значимо-
сти и проведите проверку соответствую-
щей гипотезы.
9.20.	а. Возьмите выборочные данные
из задачи 9.1 и проверьте, будет ли о2
существенно меньше, чём а2о=0,00150.
Примите <1=0,05.
б.	При каком значении $2 можно бу-
дет считать, что с2 существенно меньше,
чем q2o—0,00150?
9.21.	Пусть а2о= 10. Каков должен быть
объем выборки, чтобы при и2=12 и задан-
ном rf=0,05 обеспечить 0=0,05?
9.22.	Ниже приведены сведения об
оценках по курсам «Статистика» и «Ис-
следование операций» у одного и того же
преподавателя. Будем считать эти данные
выборкой.
Оценки по курсу’ ^Статистика"		Оценки по курсу „Исслед ванйе операций"	
Оценка, балл	h	Оценка, балл	h
42—51	5	71—76	1
52—61	3	77- 82	3
62—71	1	83- -88	1
72—81	8	89—94	8
82—91	8	95—100	7
92-101	8	101—106	7
102—И)	15	107—112	6
112—121	12	113—118	2
122—131	30	119—124	9
132—141	18	125—130	11
142-151	3	131—136	6-
		137—142	4
а.	Дисперсия оценок по курсу «Эконо-
мика» равна о2о=325. Будет ли дисперсия
оценок по курсу «Статистика» существенно
больше? Проверьте соответствующую ги-
потезу при а=0,05.
б.	Проверьте при а=0,05, будет ли дис-
персия оценок по курсу «Статистика» су-
щественно отличаться от дисперсии опенок
по курсу «Исследование операций» (т е.
существенна ли разница м^жду cr2i и а22)«
в.	Поскольку результаты двух преды-
дущих проверок справедливы и для соот-
ветствующих средних квадратических от-
клонений, вычислите а01 н и сравни-
те их между собой.
9.23.	Рассмотрим генеральные совокуп-
ности Рх и Р2. С помощью распределения-
Х2А> найдите jPo.bts и аЛмпб для П1=л2=И,
П[=Л2=101 и Л|=Л2=1001. Найдите, при
каких s2j и s22 получатся эти процентили,
если о21=10 и oV==12; о2!=10 и о22=14;
а2^ 10 и <у22=20.
9.24.	Проверьте, будет ли существенной
разница между значениями и о22 из
задачи 9.8 (при уровне значимости 0,05).
9.25.	Требуется сравнить банковские,
счета работников умственного и физиче-.
ского труда. Для это! о следует определить,
выборочные средние для каждой из групп
вкладчиков.
а.	Достаточно ли, по вашему мнению,
взять выборки небольшого объема? По-
чему?
221
б.	Предположим, что две взятые вы-
борки дали следующие результаты. Ра-
ботники умственного труда: л?]—400, X}—
=180 долл., si=50 долл Работники физи-
ческого труда: «2=400, Хг=210, 5S=80.
Будут ли эти средние значения су-
щественно различаться? Будут ли оба зна-
чения а существенно различаться? Прове-
дите проверку при а=0,05
9:26. На некотором предприятии днев-
ная смена дает в среднем 10% брака. Бу-
дет лн в ночную смену брака существенно
больше? Выборка «=400 дала WS=48.
Проведите проверку при а=0,01.
9.	27. Как относятся рабочие предпртя-
тия к предложению о проведении заба-
стовки? Директор по кадрам решил осто-
рожно провести соответствующее исследо-
вание. На его фабрике работает 800 ра-
бочих.
а.	Директор по кадрам хочет обнару-
жить по крайней мере разницу 4% между
Ло=5О и л при уровне значимости а=₽=
=0.045. Какого объема выборки ему сле-
дует взять?
б.	Предположим, что директор по кад-
рам попросил старших по участках узнать,
что думают люди о предполагаемой заба-
стовке. Старшие по участкам собрали ин-
формацию о мнении 300 рабочих. 135 тз
них сказали, что они будут голосовать за
то, чтобы начать забастовку. Проверьте
при уровне значимости а=0,045, будет ли
я существенно отличаться от ло^50. Мож-
но ли считать такую процедуру выбороч-
ного опроса случайной?
НЕКОТОРЫЕ ВОПРОСЫ
10.1.	ОТНОШЕНИЕ ЧЕЛОВЕКА
К РИСКУ
В конечном итоге все вероятност-
ные понятия и расчеты предназначе-
ны для использования в реальных
ситуациях Всегда имеется некото-
рое универсальное пространство 3,
на котором определено некоторое
событие Е. Задача статистика со-
стоит в том, чтобы высказать свое
мнение о вероятности того, что
в реальных условиях это событие
может произойти. Он может соста-
вить такое мнение — очень часто
с помощью исчисления вероятно-
стей— на основе своего опыта,
имеющихся у него сведений о прош-
лом, логических рассуждений или
с помощью интуиции. После этого
он должен сформулировать некото-
рое утверждение относительно ве-
роятности события Е.
Для некоторых подобного рода
вероятностные утверждения будут
лишь приятным развлечением. Одна-
ко многим другим они нужны, чтобы
на их основе совершить (или не со-
вершить) то или иное действие.
Если завтра я все равно собираюсь
сидеть дома, то вопрос, о том, с ка-
кой вероятностью завтра будет
идти дождь, является для меня лишь
темой для разговора. Но если я со-
бираюсь посетить целый ряд мага-
222
ГЛАВА ю
ТЕОРИИ ПРИНЯТИЯ РЕШЕНИЙ
зинов с целью предложить им това-
ры, производимые моей компанией,
то мне необходимо решить, брать ли
с собой зонтик. Проблема в том, что
я не люблю носить с собой зонт, так
как он мешает мне работать. Но
в то же время мне не хотелось бы
промокнуть. Такова в этом случае
цена неправильно принятого ре-
шения.
Вообще говоря, может произойти
целый ряд различных событий. Их
часто называют возможными состоя-
ниями или альтернативами. Каждо-
му из этих состояний приписывается
некоторая вероятность, и на этой
основе принимается решение совер-
шить действие 1 или действие 2.
После того, как эксперимент прове-
ден, событие могло произойти или
не произойти, наше решение ока-
жется либо правильным, либо не-
правильным, и нам придется рас-
плачиваться за последствия.
Это и есть принятие решений
в условиях неопределенности. Такие
решения нужно принимать, и их при-
нимают в реальной жизни, хотим мы
того или нет. Как видно на нашем
примере, процедура принятия такого
решения состоит из правильного пе-
речисления всех возможных альтер-
натив, оценки их вероятностей иоп-
ределения возможной пользы от
принятия правильного решения и
возможных издержек при ошибке.
Задачей экспериментатора
является как перечисление всех воз-
можных альтернатив, так и оценка
возможных последствий. Затем, по-
лучив всю относящуюся к делу
информацию, он должен постарать-
ся оценить вероятности и провести
необходимый анализ, чтобы облег-
чить процедуру принятия решения?
Таблица 10.1. Анализ процесса
принятия решения
в) Имеющаяся информация
Альтернатам		
Дождь	И.	0,6
Нет дождя	А	0,4
		1,0
б) Перечисление всех возможных
альтернатив, возможных действий
и их последствий
Действия: at — взять зонтик
а2 — не брать зонтика
«1 «•
А	Решение правильно	Решение неправильно
А	Решение неправилыю	Решение правильно
Рассмотрим более подробно и си-
стематически пример с дождем и
зонтиком. Методика анализа пока-
зана в табл. 10.1. В ней перечислены
главные составные части мыслитель-
ного процесса, происходящего в уме
человека, который должен принять
решение о том, брать ему зонтик
или нет. Таблица показывает, что
когда эти составные части являются
более сложными по своей природе,
весь анализ лучше проводить не
в уме, а на бумаге. В этом случае
-составные части задачи можно бу-
дет описать с большей степенью
точности. Кроме того, можно будет
применить те или иные математиче-
ские методы, что позволит еще луч-
ше исследовать задачу.
Проанализируем теперь всю за-
дачу более подробно. Посмотрим
сначала, как лицо, принимающее
решение, будет интерпретировать
вероятности отдельных альтерна-
тив А. Эта интерпретация будет за-
висеть от того, сколько раз придется
принимать решение. Другими слова-
ми, будет ли соответствующий экс-
перимент состоять из многих испы-
таний или только из одного?
В случае многих испытаний ве-
роятность первой из альтернатив,
(дождь) будет играть роль ожидае-
мой величины. Это значит, что чело-
веку, о котором идет речь в нашем
примере, приходится принимать та-
кое решение очень часто. Пусть, на-
пример, он решил брать зонтик,,
только когда Р(Л[)=0,4, Будем счи-
тать, что он следовал этому пра-
вилу в течение 1000 дней, для кото-
рых прогноз погоды предсказывал
дождь с вероятностью Р(Л1)=0,4.
Следуя своему правилу, он брал
с собой зонтик 1000 раз, но тот по-
надобился 400 раз, а 600 раз он
только мешал.
Другой торговый агент, работая
в аналогичных условиях, горазда
больше не любил носить зонтик,
чем его коллега. Его правило фор-
мулировалось следующим образом:
«Я беру зонтик, когда Р(Л1)=0,6».
В его случае из 1000 дней, для каж-
дого из которых вероятность того,
что пойдет дождь, равнялась 0,6,
зонтик оказался бы полезным толь-
ко 600 раз.
Третий торговый агент настолько
боялся промокнуть, что он брал
с собой зонтик всякий раз, когда
дождь прогнозировали с вероят-
ностью 0,2.
Был еще и четвертый торговый
агент, которому перспектива ока-
заться без зонта под дождем не нра-
вилась в точности в той же степени,
что и первому. Но, несмотря на это,
он решил брать зонтик только в те
дни, когда P(.4i)=0,5. Просто у не-
го было другое отношение к риску.
Мы подробно описали процесс
принятия решения, чтобы показать
разницу между статистиком и ли-
223
щом, принимающим решение. Все
дело в том, что одна и та же вероят-
ность может быть по-разному истол-
кована разными людьми. Современ-
-ная теория принятия решений стре-
мится к тому, чтобы устранить это
различие. Если это удастся, то все
специалисты по принятию решений
потеряют свою работу, а их место
займут отчасти статистики, а отчас-
ти технократы, которые будут про-
сто выполнять «решения», принятые
статистиком по некоторым фор-
мальным правилам.
Минимум того, что может сделать
статистик, — это предоставить неко-
торую относящуюся к делу инфор-
мацию, на основе которой можно
сделать прогноз, выраженный в ви-
де тех или иных вероятностей. Да-
лее с этими вероятностями уже бу-
дет мучиться торговый агент, кото-
рый должен правильно истолковать
их, а также подумать о последст-
виях, к которым может привести не-
правилъный вывод. Именно он при-
нимает окончательное решение.
Кроме того, статистик может не-
сколько упростить процесс принятия
решения. Помимо того, что он про-
сто вычислит вероятности, как это
было сделано в табл. 10.1,а, он мо-
жет еще представить всю задачу
в виде табл. 10.1,6, что может ока-
заться очень полезно. Он может и
исследовать последствия того, что
«торговый агент возьмет зонтик,
д дождя не будет», или того, что он
•«не возьмет зонтик, но дождь все-
таки пойдет». Но даже после того,
как такая оценка возможных по-
следствий будет произведена, торго-
вый агент все-таки должен будет
гпринять решение самостоятельно.
Чтобы полностью избавить наше-
го торгового агента от необходимо-
сти принимать решение о том, брать
•с собой зонтик или нет, статистику
.необходимо было бы сделать еще
юдин, последний шаг. Он должен
«был бы разобраться в психологии
человека, принимающего решение,
точнее, в его отношении к риску и
к возможным последствиям приня-
тия неправильного решения.
224
Такого рода теория была разрабо-
тана фон Нейманом и Моргенштер-
ном. На уровне настоящей книги ее
рассматривают среди прочих
У. Дж. Бомол * и Р. Шлайфер1 2
Отношение человека к риску часто
связывают с теми или иными объек-
тивными факторами. Для нашего
торгового агента таким фактором
может быть его здоровье. Если оно
у него довольно слабое, и он часто
простужается, то он будет брать
с собой зонтик, даже когда вероят-
ность того, что пойдет дождь, неве-
лика.
Если последствия принятого ре-
шения заключаются в том, что вы
можете потерять или заработать не-
которую сумму денег, то на ваше
отношение к риску будет влиять ва-
ше общее финансовое положение.
Бедный человек, скорее всего, менее
охотно будет рисковать своими сбе-
режениями, чем богатый. Очевидно,
однако, что психологические аспек-
ты отношения человека к риску вов-
се не исчерпываются этими объек-
тивными факторами
Вообще говоря, экономические по-
следствия принятия решения могут
быть одинаковыми, но их психоло-
гическое воздействие на различных
людей, принимающих решение, мо-
жет быть различным. Это возмож-
ное психологическое воздействие на-
зывается «полезностью»3, и, по
крайней мере теоретически, его
можно измерить. Соответствующие
единицы измерения называются «по-
лезностями». После того, как отно-
шение того или иного человека
к риску оценено, вычисляется соот-
ветствующая функция полезности.
Когда это сделано, человек факти-
чески перестает быть лицом, прини-
мающим решение, поскольку все
1 Baumol W. J. Economic Theory and
Operations Analysis. Englewood Cliffs.
N. Y.: Prcntice-Hall, 1961.
2 Schlaifer R. op. cit.
a Данное понятие полезности отличает-
ся от понятий предельной и количествен-
ной полезности в экономике. Этот вопрос
рассматривается Бомолом.
его решения могут быть точно пред-
сказаны.
Сомнительно, однако, чтобы этот
последний шаг в процессе принятия
решений (т. е. вычисление функции
полезности) нашел применение
в обозримом будущем. Этот скепти-
цизм основан на опыте, полученном
в большом числе реальных задач.
Известно, например, что прогности-
ческая ценность обследований, про-
водимых среди потребителей, дале-
ка от идеальной. Точно так же ре-
зультаты прогноза исхода выборов
часто оказываются неудовлетвори-
тельными. По-видимому, причины
этого являются по сути своей психо-
логическими. Человек может быть
вполне уверен в том, что он обяза-
тельно купит новую машину через
три месяца, но может легко изме-
нить свое мнение, как только речь
зайдет о том, чтобы заплатить соот-
ветствующую сумму. То же самое
может быть и с каждым избирате-
лем. Условно говоря, для каждого
такого решения имеется некоторый
«момент истины». Это значит, что
в слишком большом числе случаев
нельзя оценить отношение человека
к рискованному предприятию до тех
пор, пока не наступит момент, кото-
рый непосредственно предшествует
принятию соответствующего реше-
ния или совершению того или иного
действия.
До сих пор мы считали, что наше-
му торговому агенту приходится
принимать решение о том, брать ли
ему зонтик, много раз. Предполо-
жим теперь, что он стал заведую-
щим отделом сбыта и лишь иногда
покидает свой кабинет. Его уже ма-
ло интересует, что произойдет с ним
в среднем, при проведении большого
числа испытаний. В таком же поло-
жении находится человек, которому
предстоит принять решение о покуп-
ке дома или о том, куда вложить
свой капитал, или о том, где снять
себе квартиру. Во всех этих случаях
отношение человека к риску может
существенно отличаться от той си-
туации, в которой требуется принять
большое число однородных решений
аналогичного порядка
15—232
10.2.	ОЖИДАЕМАЯ ПРИБЫЛЬ
И ОЖИДАЕМЫЕ ПОТЕРИ
Проблема принятия решений
в условиях неопределенности явля-
ется одной из самых главных, когда
последствия такого решения могут
носить финансовый характер. Такие
решения приходится принимать по-
стоянно — в каждой семье, в каждой
фирме или организации. Как и
в приведенном выше примере, лицо,
принимающее решение, должно по-
следовательно пройти через этапы
сбора информации по интересующе-
му его вопросу, оценки вероятностей
и последствий как правильного, так
и неправильного решения. Кроме то-
го, для него существенно, придет-
ся ли ему принимать решение много
раз в примерно одинаковых усло-
виях или же это решение принадле-
жит к разряду тех, которые прини-
маются нечасто, а может быть и все-
го лишь раз в жизни. Да и само по-
нятие финансовой выгоды или
убытков относительно. Возможные
убытки, например, могут привести
к банкротству, а могут составить
всего лишь небольшую долю имуще-
ства и активов фирмы.
Какую же пользу может оказать
наш анализ лицу, принимающему
решение? Во-первых, с его помощью
можно уточнить все рассуждения,
сделать их более логичными и кон-
кретными. Во-вторых, проведенный
анализ может показать, что имею-
щаяся информация еще недостаточ-
на для принятия решения. Наконец,
лицо, принимающее решение, может
убедиться в том, что роль статисти-
ка в процессе выработки решения
довольно существенна и связана с
его умением организовать всю
имеющуюся по данному вопросу ин-
формацию.
Анализ имеющихся альтернатив и
действий в условиях неопределен-
ности с финансовой точки зрения
можно проводить в терминах при-
былей, убытков или упущенных воз-
можностей. Рассмотрим пример за-
дачи, в которой идет речь о возмож-
ной прибыли. Представим себе
225
инвестора, владеющего облигациями
на сумму 20000 долл. Эти облига-
ции приносят доход 1200 долл/год.
В некоторый момент он полу-
чил информацию о том, что курс
акций на бирже должен повыситься,
и ему предстоит принять решение,
сохранить ли свои облигации или
перевести их в акции.
Таблица 10.2. Условный доход
в случае покупки акций
			Р(Х.)
4000	0,0005	1200	0.1611
3600	0,0054	800	0,0806
3200	0.0269	400	0,0269
2800	0,0806	0	0,0055
2400 2000	0,1611 0,2256	—400	0,0004
1600	0,2256		1,0000
Примечания: 1, Х.=р*-20 000/100» где р^ пред-
ставляет собой доход (или убьгки), выражений и про-
центах ЕйожевдОго капитала (—
2	вероятность получить доход в X* долл,
(ио мнению инвестора)|. Предполагается, что Р (Х(-<
< —400) = Р(Х->4О00) = 0.
Будучи знаком с фирмой, акции
которой он думает купить, наш
инвестор считает, что он не может
получить больше 20% прибыли со
своей суммы 20000 долл, и не
может потерпеть убытков боль-
ше чем на 2%, Чтобы проанали-
зировать всю ситуацию более по-
дробно, он перечислил условные зна-
чения подхода и приписал каждому
из этих значений определенную ве-
роятность (табл. 10.2). После этого
инвестор вычислил ожидаемую при-
быль АОД) = 2Х,Р(Х.) =
=1800,4 долл, и сравнил это значе-
ние со своим доходом в 1200 долл/год.
Означает ли это, что ему стоит пе-
реключиться с облигаций на акции?
Конечно, ожидаемый доход есть
величина, имеющая смысл для боль-
шого числа испытаний. По сути дела
наша задача эквивалентна задаче
о выборе одного шара из набора
шаров, на которых написаны числа
4000, 3600, .... — 400. При проведе-
нии только одного испытания нам
226
может попасться любой из этих ша-1
ром. Но если при проведении мно-
гих испытаний распределение ве-
роятностей остается одним и тем же,
средний доход будет примерно ра-
вен М (Xi)=1800,4 долл.
Если весь капитал нашего инвесто-
ра состоит из 20 000 долл., то, несмот-
ря на то, что P(Xt> 1200) =0,7257,
вполне возможно, что он не будет
продавать свои облигации. Может
случиться и так, что он вообще не
любит заниматься покупкой акций,
и это тоже может привести к тому,
что, несмотря на возможность полу-
чить большую прибыль, он все-таки
не будет этого делать. В то же вре-
мя есть люди, которые любят риско-
вать, даже когда вероятность выиг-
рыша гораздо меньше. Однако, те,
кому приходится принимать такое
решение неоднократно, обязательно
должны руководствоваться ожидае-
мой прибылью. Да и в любом дру-
гом случае инвестору следует прове-
сти все эти рассуждения. При этом
он может изложить свои мысли на
бумаге, что сделает процедуру при-
нятия им решения более упорядо-
ченной.
Другой очень большой областью,
в которой постоянно приходится
принимать решение в условиях неоп-
ределенности, является управление
запасами. Директор каждого пред-
приятия должен все время решать,
сколько единиц продукции того или
иного типа ему следует произвести,
заказать или, вообще говоря, запа-
сти, чтобы он мог максимизировать
свою прибыль или минимизировать
потери. Некоторые примеры такого
рода задач мы уже приводили
в разд. 5.5. Рассмотрим одну из этих
задач еще раз, используя при этом
методику перечисления всех возмож-
ных альтернатив и действий.
Пример основан на задаче 5.24,
В некоторый момент директор по
сбыту издательства, выпускающего
воскресную газету, заметил, что раз
за разом значительное число экзем-
пляров газеты оказывается непро-
данным. Производство каждой лиш-
ней газеты обходится в 6 центов.
Таблица 10.3 Задача о продаже
газет (число газет, проданных
в каждый нз 52 воскресных дней)
Число пподан- вых газет X., 10»	'	Число воскресных дней	
	fi 1	
23	6	1	0,12
24	12	0,23
25	16	0,31
•26	11	0,21
27	7	0,13
		
	52	1,00
'Примечание. Данные взяты ю зддачн5-24.
В тех же случаях, когда спрос пре-
вышает предложение, издательство
теряет возможность заработать на
каждой газете 4 цента.
Чтобы получить более точные све-
дения, директор по сбыту решил
® течение 52 воскресных дней сде-
лать так, чтобы предложение всегда
•обеспечивало спрос. После этого он
•собрал информацию о количестве
проданных в каждый из этих дней
газет. Эти цифры приведены
и табл. 10.3 Частоты ft были пере-
ведены в частности которыми
уже можно пользоваться как веро-
•ятностями (например, при вычисле-
нии ожидаемой прибыли или по-
терь).
Следующий этап заключается
в составлении таблицы возможных
доходов (табл. 10.4,а). Альтерна-
тивами являются различные значе-
ния возможного спроса. Возможные
для издательства действия — это вы-
пуск того или иного числа газет.
Так как и те и другие величины вы-
ражаются в численной форме, мы
используем обозначения Аг=Х< и
Oj—Qj. Каждое из чисел, приведен-
ных в табл. 10.4,а, представляет со-
бой размер условной прибыли.
Альтернативы А»=Х; представляют
собой величину спроса. Возможные
действия aj=Qj представляют собой
выпуск того или иного числа газет.
Прибыль Р=4 цента на газету. Убы-
ток £=6 центов на газету. Общий
объем прибыли при некоторых фик-
сированных Xi и Qj равен РРц=
=4Qj при Xi^Qj и РЯц=4 Xt—
—6(Qj—Х<) = 10 Xt—GQf при Х<<
<Qj. Например, Р/?2з=10*24—6Х
X 25=100.
В табл. 10.4,6 показана процеду-
ра вычисления ожидаемой прибыли
для одного значения Q3-. Ожидаемая
прибыль для всех Qj приведена
в табл. 10.4,в. Наибольшее значение
ожидаемой прибыли равно
0М (PRa) =95,3, которое соответству-
ет оРз=25. Это означает, что опти-
мальный объем выпуска газет равен
25000. Так как Р(Х{>25) =0,34, сле-
дует предполагать, что 34% воск-
ресных дней не будут обеспечены
газетами полностью. В некоторых
районах такая нехватка может по-
будить читателей начать покупать
какую-нибудь другую газету. Это
приведет к дополнительным поте-
рям, которые тоже следует оценить,
а это не всегда является легкой за-
дачей. В настоящем примере мы
считаем, что подобного рода нехват-
ка не может вызвать снижения
общего оборота, и поэтому в расчете
Таблица 10.4. Задача об
-ожидаемой прибыли)
.а) Таблица возможных доходоа
	<?/				
	23	24 |	1 25 |	| 26	27
23	92	86	80	74	68
24	92	96	90	84	78
25	92	96	КЮ	94	88
26	92	96	100	104	98
27	92	.96	100	104	108
15*
оптимизации числа выпускаемых газет (определение
б) Ожидаемая грябьгь при Q»=25	s') Ожидаемая прибыль
для всех Q4.
xi				«/	
23	0,12	80	9,6	23	92,0
24	0,23	90	20,7	24	94,8
25	0,31	100	31,0	25	95,3
26	0,21	100	21.0	26	92,7
27	0,13	100	13,0	27	88,Q
	1,00	Al (Р₽и)=95,3			
227
Таблица 10.5. Задача об оптимизации числа выпускаемых газет
а) Условные потерн от ненспольэо- в^иия благопрентных возможно стей (платежная матрица!						б) Ожндаелб» потери Q*				в) [Ожидаемые потери для всех Q-	
xi						xi			₽<*,-) oa/s)		М. (OI£/>
	23	24 |	1 25 I	1 26 |	1 27						
23	0	6	12	18	24	23	0,12	6	0,72	23	8.0 Л-
24	4	0	6	12	18	24	0,23	0	0	24	
25 26	8 12	4 8	0 4	6 0	12 6	25 26	0,31 0.21	 4 8	1,24 1,68	25 26	4,7 7,3-
27	16	12	8	4	0	27	0.13	12	1,56	27	12,0
							1,00	Л1 (OL,	[8)=5.20		
на длительный период можно счи-
тать оптимальным объемом выпуска
25 000 экземпляров.
В подавляющем большинстве слу-
чаев задачу удобно проанализиро-
вать в терминах потерь от неисполь-
зования благоприятных возможно-
стей. Для нашего примера с газета-
ми такой анализ проведен
в табл. 10.5. Издержки неудовле-
творенного спроса равны 4 центам
на экземпляр. С ними приходится
считаться, если Х4>ф3. При X(-<Qj
нам приходится иметь дело с из-
держками избыточного предложения
Се=6 центов. При X—Q} потеря от
неиспользования благоприятных воз-
можностей равна, конечно, нулю.
В табл. 10.5,а приведены условные
потери такого рода, вычисление ко-
торых описано ниже и приведено
в той же таблице. В табл. 10.5,6
показан пример вычисления ожидае-
мых потерь для одного из значений
Qi, а в табл. 10.5,в ожидаемые потери
приведены для всех Qj. Поскольку
наименьшее значение ожидаемых по-
терь равно оМъ(ОЬ<з) =4,7, опти-
мальным числом выпуска газеты бу-
дет оСз=25 000 экземпляров.
Альтернативы Ai=X, представляют
собой величину спроса. Возможные
действия Oj—Qj представляют со-
бой выпуск того или иного числа
экземпляров. Издержки нехватки
Са=4 цента на экземпляр (для Х,->
>Qj). Цена перепроизводства С,=
=6 центов на экземпляр (для Х,<
<Qj). Условные потери от не-
использования благоприятных воз-
можностей равны: OLij=Q при Х,=
—Qf,	— Ce(Xi Q,) при X(>Q}
[например, OL42=4(26—24) =8];
OLij=Ce(Qj—Xi) при Xi<Q, [на-
пример, O£S(—6-(25—23)—12]
Анализ ожидаемой прибыли и по-
терь не может быть попным без
рассмотрения вопроса об ожидаемой
ценности полной информации. Это
понятие основано на том, что мы мо-
жем получить полную информацию»
о спросе. В нашей задаче о продаже
газет можно, посмотрев на условные
прибыли табл. 10.4,а, задать сле-
дующий вопрос: если бы мы знали,
что спрос равен А\=23, чему дол-
жен равняться в таком случае
объем выпуска? Разумеется, следу-
ет выпустить Qi=23. Этому соответ-
ствует объем прибыли PR^i.=92,
т. е. 92000 центов или 920 долл. За-
пишите это значение в табл. 10.6,а.
Если бы мы знали, что Х2=24, то
следовало бы выпустить (?2=24, что
дает Р₽*22=96 и т. д. Эти величины,
и представляют собой условную при-
быль при наличии полной информа-
ции. Их ожидаемое значение (ожи-
даемая прибыль при наличии пол-
ной информации)	100,00,
т. е. 100 000 центов или 1000 долл.,
как это показано в табл. 10.6,6.
Вспомним теперь, что оптималь-
ное (в нашем случае максимальное}
значение ожидаемой прибыли
в условиях неопределенности равно-
(см. табл. 10.4,в) 0ЛД3(РР*з)=95,3.
Вычтем ее из ожидаемой прибыли
при наличии полной информации
M(PR*ij)=100,00. Полученную раз-
ность называют ожидаемой ценой
полной информации (сокращенно»
Таблица 10.6, Задача об оптимизация
числа выпускаемых газет (условная
и ожидаемая прибыль при наличии
полной информации)
а) Условная пр«бнлъ пр»
налжии полной ин-
формация.
Значения PR*полу,
чены из ~вЛл. ЮЛ.о
по формуле
PR*.y-Majt(/’R‘,[).
где 1=1. 2. 3. 4. 5
б) Ожидаемая прибыль прн
наличия полной информа-
ции
EVPI) ’. Она равна 4,7, т. е.
4700 центам или 47 долл. Отметим,
что значение EVPI=4,7 совпадает
с оптимальным (минимальным) зна-
чением ожидаемых потерь от неис-
пользования благоприятных возмож-
ностей оЛ1з(0£,з)=4,7, т. е. EVPI—
=oAf3(OLi3)=4,7. Более подробный
анализ этих понятий показывает,
что такое совпадение неслучайно.
Название «ожидаемая ценность
полной информации» говорит само
за себя. Эта величина представляет
собой максимальную среднюю сум-
му, которую директор по сбыту со-
гласен заплатить каждое воскре-
сенье за точный прогноз спроса на
его газету. Конечно, если он запла-
тит всю эту сумму, то он не получит
никакой прибыли, поскольку, как мы
только что видели, EVPI=
=М (РЯ*ц)—0М.; (РЯ%). Прибыль
появится лишь в том случае, если он
заплатит за прогноз сумму, мень-
шую, чем ожидаемая ценность пол-
ной информации.
В нашем примере с газетами
трудно представить себе, каким
именно образом можно получить
полную информацию о том, сколько
1 От английского expected value of per-
fect information. — Прим. ped.
экземпляров газеты удастся про-
дать завтра. Однако во многих дру-
гих подобных случаях часто удает-
ся получить хорошую информа-
цию — с помощью выборки или
пользуясь прогнозом эксперта. При
этом расходы на выборочное обсле-
дование или на оплату услуг экс-
перта не должны превышать значе-
ния ожидаемой ценности полной
информации.
Рассмотрим две задачи, в каж-
дой из которых имеются две альтер-
нативы и два возможных действия.
С такими задачами приходится
сталкиваться в жизни, хотя и не
очень часто. Рассмотрим их по-
дробно, поскольку они хорошо ил-
люстрируют различия в подходе
к проблеме риска. Кроме того, на
примере этих задач удобно рассмот-
реть процесс принятия решений
с помощью выборки (этим вопро-
сом мы займемся в следующем раз-
деле) .
Первая задача касается человека,
который может купить лотерейный
билет и должен решить, стоить ли
ему это сделать. Лотерейные биле-
ты продаются по 2 долл, за штуку,
и по ним можно выиграть автомо-
биль, который стоит 4000 долл. Об-
щее число лотерейных билетов рав-
но 8000, и предполагается, что все
они будут проданы.
Распределение вероятностей (вы-
играть или проиграть) приведено в
табл. 10.7,а. Таблицу условных при-
былей можно составить, как это
показано в табл. 10 7,6. После это-
го можно вычислить ожидаемую
прибыль или ожидаемые потери.
Таким образом, вся процедура ана-
лиза совпадает с рассмотренной на-
ми выше с той лишь разницей, что
все таблицы будут гораздо меньше.
Как видно из этой таблицы, опти-
мальное (максимальное) значение
ожидаемой прибыли oAl(Pl/?,-2)=0,
а минимальная ожидаемая потеря
oM(OL ) =0,50. Если бы все перс-
пективные покупатели лотерейных
билетов рассуждали бы таким обра-
зом (в терминах ожидаемой прибы-
ли или потерь), то скорее всего все
229
Таблица 10,7. Задача о лотерейных билетах (задача типа ядве альтернативы —
два возможных действия»)
а) Распределение вероятностей
Возможный исход	4.	Р (А,-)
Выигрыш Проигрыш	л:	1 8000 7999/8000 1 I
6J Возможный доход (л, — купить лотерейный
билет, — не покупать билета)
Ai	Qi	Л1
	4000	0
	—2	0
Примечание Числа в каждой клетке соответствуют
условным значениям прибыли РКц-
е) Ожидаемая прибыль
Р^ЩРВц)	р (V
0.50	0
—1,99975	0
Af (/>/?,-,) =-1,50	Л1(Р₽г-2) = 0
г) Условные потерн от неиспользования
благоприятных возможностей
'’i		а»
A,	0	4000
A	2	0
Примечание. Числа з каждой клетке соответствуют
условным потеря л от н?п пользования благоприятных ноз-
мощностей
<?) Ожидаемые потери от неиспользования
благоприятных возможностей
8 0,)(ОГ1)	P (A,-) <O£/S)
0	0,50
1,99975	0
	 —
Af (O£fl) = 2,00	M(OLit) = Q,50
организаторы таких лотерей пере-
стали бы этим заниматься. В дейст-
вительности этого не происходит.
Большое число людей не интересу-
ется вероятностями и/или ожидае-
мой прибылью. Они видят разницу
между 4000 и 2 долл, и понимают,
что они вполне могут позволить се-
бе купить лотерейный билет. В то
же время целый ряд людей, по-ви-
димому, рассуждает в терминах ве-
роятностей или возможной прибыли
или потерь. В противном случае мы
были бы просто завалены всякого
рода лотерейными билетами.
Заметим, что здесь нет необходи-
мости составлять таблицу два на
два. Требуемое заключение можно
сделать, пользуясь величиной ожи-
даемой прибыли M(PPit)=—1,50.
230
Вторая задача касается двух биз-
несменов—А и В; В занимается раз-
ведкой нефтяных месторождений за
границей и просит А предоставить
ему заем в 20000 долл. Он предла-
гает выплатить этот заем через год
плюс еще 25% этой суммы. В насто-
ящее время А зарабатывает на этом
капитале 1000 долл, в год, так что
для него это означало бы условную
прибыль в 4000 долл. Кроме того,
В согласен передать А в качестве
гарантии выплаты займа некоторое
имущество, стоимость которого со-
ставляет 10 000 долл. Бизнесмен А
имеет следующие альтернативы:
«одолжить деньги бизнесмену В и
считать, что предприятие последне-
го окажется успешным» (тогда биз-
несмен А заработает 4000 долл.)
Таблица 10.8. Задача о рискованном займе (задача типа,, две альтернативы — два
возможных действия0)
я) Распределение вероятностей
Возможный ИСХОД	Л-	Р (Л,-)
Успех	А	0,8
Неудача	А	0,2
		1,0
tf) Возможные действия (а1—дать заем» а,—
не давать заема)
А1	С1	
А	4000	0
А	— 10 000	0
Примечание. Числа в каждой клетке соответствуют
условный значениям прибыли.
а) Ожидаемая прибыль
г) Условные потерн от неиспользования
благоприятной возможности
Р (А) {РР;^		P^j) (PR^)			л»	«2
	3200 -2000	С	0 0	м сч	0 10 000	4900 0
Л1№) =	1000	(P7?Zs) =	0	Примечание. Числа в каждой клетке соэгветствуют условным потеряла от неиспользования благоприятной воз- можности.		
d) Ожидаемые потерн от неиспользования
благоприятной возможности
(ОЛ.р
0
2000
Л1 (OLtl) = 2000
3200
0
М(ОРц) =*3200
или «одолжить деньги и счи-
тать, что В потерпит неудачу и ста-
нет банкротом» (в этом случае А
потеряет 10000 долл.).
Необходимые вычисления приве-
дены в табл. 10.8. Ожидаемая при-
быль составит 1200 долл., и это го-
ворит о том, что бизнесмену А стоит
серьезно рассмотреть вопрос о том,
чтобы одолжить своему другу В
сумму в 20000 долл. Скорее всего
он решит этот вопрос положительно,
если 20000 долл, составляют лишь
небольшую долю его капитала или
если он любит рисковать.
Заметим, что оптимальная потеря
от неиспользования благоприятной
возможности равна A4(OLn) =2000.
Она совпадает с ожидаемой ценно-
стью полной информации. Если А
хочет получить сведения о шансах
В на успех, то он может ориентиро-
ваться на эту величину, решая во-
прос о том, сколько ему следует ис-
тратить средств на получение такой
информации. На практике, однако,
такая возможность вряд ли заинте-
ресует А, если он все равно не лю-
бит делать больших и рискованных
капиталовложений.
В заключение можно сказать, что
численный анализ решений в усло-
виях неопределенности полезен да-
же в тех случаях, когда лицо, при-
нимающее решение, не следует ло-
гике ожидаемой прибыли или убыт-
ков. В тех случаях, когда решения
по той или иной проблеме прихо-
дится принимать многократно, ра-
зумно считать оптимальные значе-
231
вия ожидаемых прибылей и потерь
наилучшим ориентиром для своих
действий.
10.3.	ИЗДЕРЖКИ, СВЯЗАННЫЕ
С ОШИБКАМИ а И р (ПЕРВОГО
И ВТОРОГО РОДА), И ОБЪЕМ
ВЫБОРКИ
Когда в гл. 8 и 9 мы вычисляли
доверительные пределы и проверя-
ли гипотезы, нас прежде всего ин-
тересовал вопрос о том, как опре-
делить объем выборки, с помощью
которой можно обеспечить требуе-
мую степень точности. Мы познако-
мили читателя с ошибками а и р,
но пока только с одной стороны.
В ходе анализа задач такого рода
возникают и другие вопросы. На-
пример: «Почему мы принимаем
а—0,05, а не 0,01?» То же самое
можно спросить и о значении ошиб-
ки р. Кроме того, имеются еще во-
просы об объеме выборки, длине
доверительных интервалов и ценно-
сти информации.
В предыдущих главах мы лишь в
самых общих чертах отмечали, чго
ошибки аир определяются издерж-
ками, связанными с этими ошибка-
ми. Эти издержки следует также
связывать с объемом выборки. Если
длина доверительного интервала за-
дана заранее (как чаще всего и бы-
вает), то для того, чтобы получить
меньшее значение а, необходимо
отобрать выборку большего объема,
и наоборот.
Обычно, когда исследователь
сталкивается с задачей определения
уровня ошибок а, р и объема вы-
борки п, он уделяет основное вни-
мание издержкам выборочного ис-
следования, а издержками, связан-
ными с ошибками аир, пренебре-
гает. Это значит, что он занимается
прежде всего вероятностной сторо-
ной задачи и не учитывает, во что
обойдется ему совершение ошибки.
При таком подходе процесс выбора
значений аир становится по суще-
ству задачей об отношении каждо-
го отдельного человека к риску.
232
Имеется принципиальная разница
между теми, кто рассматривает ве-
личины аир как вероятности оши-
биться или не ошибиться, и теми,
кто связывает эти вероятности с из-
держками, связанными с такими
ошибками. С аналогичной пробле-
мой пришлось столкнуться во вре-
мена внедрения в практику элек-
тронно-вычислительных машин.
Многие вычислительные центры
брались за решение задачи, лишь
убедившись в том, что с помощью
ЭВМ они могут решить ее быстрее,
чем другими средствами. Только че-
рез некоторое время удалось осо-
знать, что скорость вовсе не являет-
ся единственным фактором, опреде-
ляющим целесообразность решения
той или иной предлагаемой задачи.
Главная цель настоящего раздела
заключается в том, чтобы продол-
жить рассмотрение конкретных при-
меров, показывающих, что в эконо-
мических и деловых вопросах риск
следует всюду, где это возможно,
формулировать в стоимостных тер-
минах. Конечно, сделать это можно
далеко не всегда. Вполне может
оказаться, что точное вычисление
издержек на ошибки аир обойдет-
ся дороже, чем определение издер-
жек выборочного исследования и
издержек каждой из этих ошибок,
вместе взятых. Но в других случа-
ях провести такие вычисления впол-
не возможно. В любом варианте по-
лезной будет уже сама необходт-
мость проводить рассуждения в сто-
имостных терминах, хотя большей
частью с их помощью можно полу-
чить лишь очень грубые оценки.
10.3.1.	Доверительные пределы
Прежде чем отобрать выборку и
вычислить доверительные пределы,
нам следует сравнить ценность по-
лученной по выборке информации с
издержками самой выборки и из-
держками на ошибки а. Обозначим
ценность выборочной информации
через VI (от английского Value of
information), издержки иа ошибки
а через Се и издержки отбора вы-
борки через лС„, где постоянная ве-
личина Сп представляет собой из-
держки увеличения объема выборки
на единицу.
Если V7=0, никакую выборку не
стоит брать вообще.
Если считать а постоянной, то
длина доверительного интервала бу-
дет являться функцией от п и а.
Величину а можно, конечно, сделать
настолько малой, насколько мы это-
го пожелаем, но на практике редко
используются значения а<0,003.
При фиксированном а верхние и
нижние границы для п обычно опре-
деляются природой рассматривае-
мой проблемы. Среди небольших
значений п имеется такое, ниже ко-
торого доверительный интервал бу-
дет слишком широким и совершенно
бесполезным; это знает каждый
специалист, знакомый с задачей.
Примером такой ситуации может
служить вычисление доверительных
пределов для массы индеек (см.
гл. 8). Кроме того, на практике име-
ется и некоторая верхняя граница
для п, которая дает нижний предел
длин доверительных интервалов.
Она определяется максимальной
степенью точности, требуемой в
данной задаче; и это тоже знает
каждый специалист в соответствую-
щей области.
Когда стоимость выборочного ис-
следования равна нулю или оче-?ь
мала по сравнению с величиной VI.
необходимо только указать мини-
мальное а или минимальную ожи-
даемую стоимость ошибки а (т. е.
величину аС€) и минимальный до-
верительный интервал. После этого
с помощью методов, рассмотренных
в гл. 8, найдем требуемый объем вы-
борки и можем приступать к отбору
элементов в такую выборку.
Если значения Сп и Се не так ма-
лы, то задача становится более
сложной. Если значения Сп и Се
даны, то исследователь может вы-
брать некоторый доверительный ин-
тервал, руководствуясь формули-
ровкой задачи, а затем приступить
к выбору или нахождению опти-
мального значения а. В этом случае
фиксированным будет доверитель-
ный интервал.
Фиксированный доверительный
интервал вовсе не только теорети-
ческая абстракция. С таким поня-
тием приходится очень часто иметь
дело на практике. На самом деле
почти в каждой задаче, если только
объем выборки не определен каки-
ми-нибудь внешними обстоятельст-
вами (например, если нам прихо-
дится пользоваться результатами
выборочного исследования, прове-
денного кем-нибудь еще, или когда
генеральная совокупность была уни-
чтожена и существует только вы-
борка из нее), каждый исследова-
тель знает, какой именно мини-
мальный интервал соответствует
данной задаче.
Взяв такой фиксированный дове-
рительный интервал, исследователь
может найти оптимальный объем
выборки и оптимальное значение
ошибки а. Как это сделать, показа-
но в табл. 10.9. В ней рассмотрен
пример, для которого о==4, С. 1.=5,
издержки увеличения объема вы-
борки на единицу равны Сп=0,50
долл., издержки на ошибки а равны
Се=5 долл., ]V/=6 долл, и гУ1=
=60 долл. Издержки отбора выбор-
ки пСп плюс ожидаемые издержки
на ошибки а (значения аСе) из
столбцов 5 и 6 сравниваются с ожи-
даемой ценностью информации
(1—а) VI из столбца 7 или 8. Опти-
мальный объем выборки есть значе-
ние л, для которого положительная
разность между этими двумя вели-
чинами максимальна, т. е. макси-
мально значение (1—а) VI— («Сп+
-f-aCe), при условии, что эта раз-
ность больше либо равна нулю. Ес-
ли она окажется меньше нуля, то
следует либо расширить пределы,
либо вообще не отбирать выборку.
Для рассмотренной в табл. 10.9
задачи эта разность при п=4 равна
1,69 долл., при п=5 она равна 1,74
долл., а при п=6 она составляет
1,57 долл. Следовательно, оптималь-
ным объемом выборки будет л=5,
а оптимальным уровнем значимости
будет а=0,16. То же самое значение
23»
Таблица 10 9 Анализ плана
выборочного исследования
1	2	3	4	6	6	7	3
1	4,00	0,63	0,53	2,65	0,50	2,82	28,20
2	2,83	0,88	0,38	1,90	1,00	3,72	37,20
3	2,31	1,08	0,28	1,40	1,50	4,32	43,20
4	2,00	1,25	0,21	1,05	2,00	4,74	47,40
5	1,79	1,40	0,16	0,80	2,50	5,04	50,40
6	1.63	1,53	0,13	0,65	3,00	5,22	52,20
7	1,51	1,65	О.Ю	0,50	3,50	5,40	54,00
Примечания: 1. Предположения и терминология:
от = 4; доверительный интервал С Л =5:	— условная
стоимость ошибки а. равная 5 долл.; Сп — стоимость
увеличения объема выборки на единицу, равная
0.50 Долл,
2. Столбцы: /—л-объем выборки; 2 — а-. =
»/Ул=4/Кп,гдел=1, 2, 3....; 3—z.=Cr 1./а-^)/2=
= б/2з-.; 4 — значения а-, соответствующие 5—
a|Ce=sa.-5 — ожидаемые издержки ошибки а при
условен а.; 6— пСп =а п-0.60; 7—(1—a)jVZ = (1—а)-6—
ожидаемая ценность информации S’—(1 —а)4У7 =
— (1— <0-60,
п получится, если мы будем исполь-
зовать столбец 8.
Процедура вычисления чисел,
стоящих в столбцах 6, 7 и 8, до-
вольно очевидна. Числа из столбца
5 рассчитывают путем умножения
значений а из столбца 4 на Се=5
долл. Значения из столбца 4 пред-
ставляют собой площади под нор-
мальной кривой, отвечающие значе-
ниям 1 — Д_/.
Значения г; берут из столбца 3.
Их, в свою очередь, находят с по-
мощью подстановки значений о_ из
xl
столбца 2 в уравнение 2,5 = z,o_ ,
откуда z, = 2,5/a_ , где 2,5 — поло-
вина длины нашего фиксированного
доверительного интервала C.I. = 5.
Наконец, числа из столбца 2 вычис-
ляют по формуле о_ = б/^'гя =
= 4/1Лг, т. е. пут.ем подстановки
последовательных значений п.
10.3.2.	ПРОВЕРКА ГИПОТЕЗ
В задачах, связанных с проверкой
гипотез, мы пытаемся установить,
234
будут ли истинные параметры гене-
ральной совокупности (у., л, о2) су-
щественно отличаться от некоторых
стандартных значений (go, По, <т2о).
Мы можем поступить тремя различ-
ными способами. Во-первых, мы мо-
жем найти необходимый параметр
генеральной совокупности методом
полного охвата, а затем сравнить
полученное значение со стандартом.
Во-вторых, мы можем оценить этот
параметр с помощью вычисления не-
которой выборочной характеристи-
ки. В-третьих, мы можем оценить
его из предыдущего опыта. Выбор
одного из этих трех методов зави-
сит от сопоставления ценности тре-
буемой информации с издержками
выборочного исследования.
В большинстве случаев вычислить
издержки выборочного исследова-
ния довольно легко. Однако опре-
делить ценность получаемой инфор-
мации обычно удается лишь очень
грубо* Это объясняется нескольки-
ми причинами. Может оказаться,
что в принципе ценность этой ин-
формации нельзя измерить, или же
с первого взгляда станет ясно, что
получение точной оценки ценности
информации обойдется существенно
дороже, чем отбор выборки, или же
может случиться,, что лицо, прини-
мающее решение, будет вообще не-
знакомо со всей проблемой сопо-
ставления ценности информации с
издержками ее получения.
Наша цель заключается в том,
чтобы показать, как именно следует
систематически проводить сравне-
ние потерь вследствие неиспользо-
вания благоприятной возможности
с издержками выборочного иссле-
дования. Мы рассмотрим один при-
мер, который, однако, можно рас-
пространить на целый ряд подоб-
ных ситуаций.
Студент некоторого университета
решил немного подзаработать, про-
давая портфели. В университете
учатся W=10 000 студентов. В ме-
стных магазинах портфели стоят по
7 долл, за штуку. Однако если он
сможет купить минимум 1000 шт.,
то эти портфели ему продадут со
значительной скидкой. А именно,
если он купит не меньше 1000 порт-
фелей, то ему они обойдутся но 4,2
долл, за штуку. Он считает, что, ес-
ли он установит цену в 5 долл, за
штуку (на 2 долл, ниже магазинной
цены), то его товар будет пользо-
ваться спросом, что даст ему 0,8
долл, чистой прибыли. Однако если
он закупит слишком много
портфелей, то он не сможет продать
их все. В результате ему придется
еще снизить цену. Он уверен в том,
что если снизить цену до 3,8 долл,
за штуку, то ему удастся продать
по меньшей мере 1000 портфелей.
При этом он потеряет по 0,4 долл,
на каждый портфель.
Теперь следует найти значение х,
для которого издержки будут рав-
ны выручке. Стоимость 1000 порт-
фелей— 4200 долл. Число портфе-
лей, которые необходимо продать,
чтобы скомпенсировать эту сумму,
находится из условия 5=4200,
откуда х=840,что составляет 8,4%
общего числа студентов jV=10 000.
Итак, ло=8,4%.
Пусть л есть истинное значение
процента студентов, которые купят
его товар по 5 долл. (т. е. л — ис-
тинный параметр генеральной сово-
купности). При л<8,4% издержки
недостаточного спроса можно найти
с помощью уравнения
Ced= (840 10 000л) • 0,40=
=336—4000л.
При л=0 C«i=336 долл., что соот-
ветствует максимально возможным
условным потерям.
При л>8,4% имеется условная
потеря от неиспользования благо-
приятной возможности, связанная с
избытком спроса. Ее можно найти
из уравнения
Ced= (10 000л—840) • 0,80=
=—672+8000л.
При л=1.00 100%-ная потеря от не-
использования благоприятной воз-
можности составит 7328 долл. При
л=0,084 (8,4%) эта потеря равна
C«i=Cec!^0.
Графики этих соотношений пока-
заны на рис. 10.1. Обе функции ли-
нейны, и их часто называют функ-
циями потерь.
Теперь наш студент, посмотрев на
все эти результаты, может немед-
ленно принять решение. Если он по-
лагает, что он сможет продать боль-
ше, чем 840 портфелей, то он купит
1000 портфелей и начнет свою дея-
Рис. 10.1. Условные потери вследствие не-
использования благоприятной возможности
в примере с портфелями
тельность. Предположим, однако,
что он не уверен в исходе и хочет
поэтому получить дополнительную
информацию с помощью выборочно-
го исследования. Он решил обра-
титься к ряду студентов и предло-
жить им свой товар. Предположим,
что при этом ему удастся продать
NS портфелей, что даст p—NSJn.
Свое окончательное решение он бу-
дет принимать на основе этой ин-
формации, т. е. информации о том,
чему равно р.
Так как п заведомо будет меньше
1000, то в магазине при покупке п
портфелей ему дадут меньшую
скидку, а именно, каждый портфель
обойдется ему в 5,5 долл. Это на 0,5
долл, выше, чем установленная сту-
дентом цена в 5 долл, за портфель,
и это значит, что издержки его вы-
борочного исследования будут рав-
ны 0,5 долл, на каждый элемент вы-
борки.
Прежде чем провести выборочное
исследование, будущий торговец ре-
шил сформулировать более точное
решающее правило. Один из его ва-
риантов приведен в табл. 10.10.
В этом случае объем выборки п=
=200 (ее стоимость будет равна
235.
Таблица 10.10, Взвешенные потери от
неиспользования благоприятной
возможности в примере с портфелями
Ж	1	2	3		5	6
0	0	336	0			0	0
2	0,001	256	0.3	»»—	0	0
4	0,192	176	33,7			0	0
6	0,684	96	65,7			0	0
8	0,928	16	14,8	—	0	0
8.4	—	0	0	0,050	0	0
Ю	—	0	0	0.012	128,0	1,64
12	—	0	0	0,002	288,0	0,58
14	—	0	0	0	448,0	0
Примечания; 1, Предположения: п =х2О0.
п9 = 8.4%, а = 0,05; гипотеза Hi: ж существенно
меньше, чем ж® ™ 8,4; гипотеза К> : « несущественно
отличается от х« = 8.4 нли больше этой величины. Ги-
потеза Hi принимается при р<5,2; гипотеза Яа при-
нимается при р > 5.2, где 5.2 — 8.4 — 1,64 о = 8,4 —
—1,64.1,96.	Р
2. Столбцы: / — вероятность ошибки 0 Р (jjE)—
= Р (р > 5.2 | «. н) при ж < 8,4; 2—условная стои-
мость недостаточного спроса Csd = 336—4000» при
ж < 8.4: 3—взвешенная стоимость недостаточного
спроса С^ —произведение чисел столбцов / н 41—
вероятность ошибки а или Р (аЕ) = Р 5,2 j «, п)
при ж ^8,4; 5— условная стоимость избыточного спро-
са Срд = —572+8000* пря ж > 8.4; 6—взвешенная
стоимость избыточного спроса — тхжзведекие чи-
сел столбцов 4 л 5.
100 долл.), и мы можем воспользо-
ваться односторонним критерием.
Принимая а=0,05, получаем предел
интервала принятия
«,-zep = 8,4-
- 1,64)/8 4(91,6)'200 = 5,2.
Если р будет меньше, чем 5,2%, то
можно сделать вывод, что я суще-
ственно меньше до, равного 8,4%.
Это будет нашей гипотезой Н\. При
р>5,2 будем считать, что л^ло, и
это будет гипотезой Н2.
Как обычно, при проверке гипо-
тезы мы будем иметь дело с ошиб-
ками аир, которые называются
также риском поставщика и риском
потребителя соответственно.
Вероятности ошибки ₽ при-
ведены в столбце 1. Чтобы пока-
зать, как они вычислены, предполо-
жим, что некоторая выборка с п=
—200 дала р>5,2. В этом случае
принимается гипотеза Н2. Если же
тем не менее оказалось, что истин-
ное значение л равно 2%, то мы
236
совершили ошибку р. вероятность
которой равна Р(р£)=0,01. Дейст-
вительно, для этого значения л мы
имеем г— (5,2—2)/0,99=3,23, и со-
ответствующая площадь под нор-
мальной кривой равна =0,01.
В столбце 2 приведены условные
потери для соответствующих значе- < ;
ний л<Я0. Они получены из урав-
нения Csd=336—4000л. Взвешенные
(или ожидаемые) потери даны
в столбце 3, величины которого яв-
ляются произведениями соответст-
вующих чисел из столбцов 1 и 2.
В столбце 4 даны вероятности
Р(а£) ошибки а. Эта ошибка име-
ет место, когда р<5,2, и мы прини-
маем гипотезу Hi, в то время как i
на самом деле я>ло. Для л=10
г=( 10—5,2)/2,12=2,26 и А^ =	'
=0,012.
Таблица 10.11. Взвешенные потери
от неиспользования благоприятной
возможности в примере с портфелями
*	1	2	3	4
0	0	0		0
2	0	0	—	0
4	0,085	15,0	.	0
6	0,524	50,3	——	0
8	0,862	13,8	—	0
8,4	«—	0	0,100	0
10	—	0	0,027	3,4
12	—	0	0,004	1,15
14	—	0	0	0
Прамечянля: 1. Предположения: л = 200 к0 =
= 8.4, а е 0,10; гипотеза Hi : х существенно мень-
ше, чем «« = 8,4; гипотеза : ж несущественно отли-
чается от «о — 8.4 нли существенно Созыве зтой велн-
чнжы; гнпспезэ Hi принимаеюи пря р<5»9: гипотеза
Ht гчжнямается при р > 5.9 где 5.9 = 8.4—1,28 зр =
= 8.4—1.28-1,96.
2. Столбцы: 1—Р ф£) = Р (р > 5.9 | х. л) при
ж <8.4; 2—взвешенные значения С^, т. е. прончве-
девке чисел из столбцов / и 2 табл, 10.10; 5—Р (аЕ)=
= Е (/><: 5.9 | ж. п) при х^гв.4; 4—взвешенные
значения С^г т. е. произведение чисел из столбцов J
и $ табл. 10.10.
Если мы принимаем гипотезу Hi
в то время, как на самом деле л>
>ло, то это означает, что появляют-
ся условные потери вследствие не-
использования благоприятной воз-
можности. Их можно получить из
уравнения С^=—672+8000л. Взве-
шенные (или ожидаемые) потери от
неиспользования благоприятной
возможности приведены в столбце
<б, который является произведением
чисел из столбцов 5 и 4. Точно так
же построены табл. 10.11 и 10.12.
Таблица 10.12. Взвешенные потери
от неиспользования благоприятной
возможности в примере с портфелями
Ж	1	2	3	4
0	0	0	• •	0
2	0	0	—	0
4	0,001	0.2	—	0
6	0,100'	9,6	—	0
8	0,468	7.5		0
8,4	—	0	0,450	0
10	—	0	0,192	24,6
12		0	0.048	13,8
14	1—	0	0,008	3.6
16	•—	0	0,001	0,6
Примечания: I Предположения: п = 200, жо =
= 8,4%, а = 0,45; гипотеза Н>:ж существенно мень-
ше. чем «с = 8,4; гипотеза На : ж несущественно отли-
чается от к® или больше этой величины; гипотеза К>
Принимается при ж ^8.15; гипотеза принжмается при
/>=£8,15, где 8.15 = 8,4 —0»13 о = 8Л — 0,13-1 »9э.
2. Столбцы: 1 — Р (£Е) = Р (р > 8.151 ж. п) при
«	8,4; 2 — взвешенные значения С^» т. е. произведе-
ния чисел на столбцов / и 2 табл. 10.10; 3 — Р (а£) =
= Р (р 8.15 | ж, м) прн ж 8.4; 4 — взвешенные зна-
чения С^, т. е. произведения чисел из столбца 3 на
«исля на столбца S табл. 10.10.
Посмотрим теперь, как будет рас.
суждать наш студент. Мы уже от-
мечали, что он может просто посмо-
треть на столбцы 2 и 5 и постарать-
ся принять решение о том, покупать
ему или нет 1000 портфелей, не про-
водя никакого выборочного исследо-
вания. Если он купит такое количе-
ство портфелей, но не сможет про-
дать по своей цене ни одного из них
(п=0), то он потеряет 333 долл,
(столбец 2). Если он испугается
возможных убытков и решит отка-
заться от всей своей затеи и если
это решение окажется неправиль-
ным, то он потеряет возможность
получить прибыль, указанную в
столбце 5.
Эти рассуждения обязательно
приведут его к вопросу: чему равна
вероятность Р(л<8,4) или вероят-
ность Р(л^8,4)? Если он может по-
лучить надежную оценку этой веро-
ятности (например, если его прия-
тель из другого университета уже
проводил такой эксперимент), то это
существенно облегчит процедуру
принятия решения. В противном
случае ему придется подумать
о том, как получить информацию
о соотношении между л и л0 с по-
мощью выборки.
В последнем случае ему придется
внимательнее изучить числа, нахо-
дящиеся в столбцах 1 и 4, а затем
числа, находящиеся в столбцах 3 и
6. Если он на самом деле возьмет
выборку с п—200 и получит р>5,2,
то он примет гипотезу и закупит
по меньшей мере 1000 портфелей.
При этом максимальная ожидаемая
потеря может составить 65,70 долл;
Для того чтобы получить более точ-
ное значение для этого максимума,
ему следовало бы проделать все эти
вычисления для л=0, I, 2, ..., 100,
а не только для л—0, 2, 4, ..., 100.
При р£5,2 максимальная ожидае-
мая (взвешенная) потеря от неис-
пользования благоприятной воз-
можности равна 1,54 долл.
Значительное расхождение между
этими двумя максимумами заставит
студента изменить его решающее
правило. Предположим, что он ре-
шил сохранить п=200, но увеличить
значение а с 0,05 до 0,10 (табл.
10.11). Максимальная ожидаемая
потеря вследствие ошибки р равна
теперь 50,3 долл, (столбец 2), а
ожидаемая потеря вследствие ошиб-
ки а равна 3,4 долл, (столбец 4).
Резкое увеличение а до значения
а=0,45 дает максимум 9,6 долл,
в столбце 2 и максимум, равный
24,6 долл, в столбце 4 табл. 10.12.
Если наш студент хочет выработать
решающее правило, для которого
максимум ожидаемой ошибки при-
мерно равен максимуму ожидаемой
ошибки а, то ему следует составить
еще две или три такие таблицы, по-
ка он методом проб и ошибок не
добьется равенства.
Три приведенные нами таблицы
показывают, что значение а=0,05,
часто используемое на практике (и
которым мы пользовались в гл. 8 и
237
9), в этом примере вовсе не явля-
ется оптимальным. Данные табл.
10.12 подсказывают, что можно при-
нять гораздо большее значение а.
Причина такого различия состоит
в том, что в предыдущих главах мы
придавали больше значения вероят-
ностям ошибок аир. Теперь же
нам недостаточно знать лишь сами
вероятности, а следует сравнить их
с условными потерями. Результатом
такого сравнения и будут ожидае-
мые потери.
Из данных табл. 10.12 видно, что
ожидаемая потеря вследствие оши-
бок аир будет равна максимум
25 долл., если отобрать выборку с
п = 200. Однако выборка такого объ-
ема обойдется студенту в 100 долл.
Это гораздо больше того, что он
может потерять в долгосрочной
перспективе, даже в наихудшем ва-
рианте, если он совершит одну из
двух ошибок. Таким образом, если
наш студент хочет использовать
в качестве ориентира ожидаемые
потери, ему следует составить еще
несколько таблиц с объемами вы-
борки менее 200. В конце концов он
получит оптимальное решающее
правило.
Напомним читателю, что решаю-
щие правила, основанные на вычис-
лении ожидаемой потери от неис-
пользования благоприятной возмож-
ности, применимы в тех случаях,
когда проводится много экспери-
ментов. Ожидаемые значения реа-
лизуются лишь в длительных экспе-
риментах, а это всегда означает
проведение большого числа испыта-
ний. Если наш студент хочет полу-
чить информацию по выборке толь-
ко один раз (или небольшое число
раз), то он вполне может уделять
больше внимания ошибкам аир,
а не ожидаемым потерям.
Аналогичной техникой можно
пользоваться и для того, чтобы
сравнить р с ро с целью выработ-
ки решающего правила с оптималь-
ным объемом выборки. Читатели,
желающие подробнее изучить этот
вопрос, могут обратиться к очень
238
i
I
четкому изложению в книге Шлай-
фера 1. Еще одной полезной книгой
является книга Сасаки2.
10.4.	ЭЛЕМЕНТЫ БАЙЕСОВСКОЙ!
СТАТИСТИКИ
Байесовской статистикой называ-
ется более эффективное использова-
ние результатов выборочных иссле-
дований путем учета информации
о распределении генеральной сово-
купности и о его параметрах. Рас-
смотренные нами в гл. 8 и 9 про-
цедуры оценивания истинных значе-
ний параметра и проверки гипотез
относятся к так называемой класси-
ческой статистике и основываются
только на выборочной информации.
Байесовская теория дает статисти-
ку возможность воспользоваться
любой информацией о всей гене-
ральной совокупности, .из которой
берутся наши выборки. Такой ин-
формацией может быть некоторое
распределение частот, полученное из.
предыдущего опыта. Или же в фор-
му вероятностного распределения
можно перевести опыт лица, прини-
мающего решение. Тогда это веро-
ятностное распределение вместе с
результатами выборочного исследо-
вания можно использовать для того,.
чтобы сделать те или иные стати-
стические выводы.
10.4.1.	Априорное распределение
величины л
Мы рассмотрим основные поня-
тия байесовской статистики на кон-
кретном примере. Предположим, ^то •
некоторая фирма разработала элек-
тродвигатель нового типа и постро-
ила его прототип. Специалисты по
анализу издержек производства ус-
тановили, что производство новой 
модели окупится, если компании
удастся завладеть по крайней мере
20% рынка. (Этот процент заведомо
преувеличен, чтобы упростить все
1 Schlaifer R. Introduction to Statistics
for Business. N. Y.: McGraw-Hill, 1961.
2 Sasaki K. Statistics for Modern Busi--
ness Decision Making. Belmont, California:
Wadsworth Publishing Co., 1968..
рассуждения.) Если руководство
компании решит начать серийное
производство, но объем продажи
•будет меньше 20% рынка, то ком-
пания потерпит убытки. Такой си-
туации соответствует некоторая
ошибка р или риск потребителя1.
Если будет принято решение не пу-
скать модель в серийное производ-
ство, а какая-нибудь конкурирую-
щая фирма предложит подобную
же модель и будет иметь успех, то
компания потерпит убытки от неис-
пользования благоприятной воз-
можности, которым соответствует
ошибка а или оиск поставщика.
л
Таблица 10.13. Распределение частот
объемов продажи 89 электродвигателей
сходного типа
1			Ki		=P(KZ)
5	1	0,01	35	13	0,16
10	2	0,03	40	9	о.п
15	6	0,07	45	6	0,07
20	10	0,18	50	2	0.03
25	14	0,18	55	1	0,01
30	16	0.20		80	1,00
Компания имеет некоторый опыт
продажи двигателей сходного типа.
Данные приведены в табл 10.13.
Ориентируясь на это распределение,
руководство фирмы может оптими-
стично смотреть на перспективы за-
нять не менее 20% рынка. Вероят-
ность Р(л1^20)=0,85 можно счи-
тать довольно высокой. Теперь мож-
но вычислить ожидаемые значения
потерь от неиспользования благо-
приятной возможности (как мы это
делали в разд. 10.1), а затем ис-
пользовать эту информацию в про-
цессе принятия решения.
Однако руководство фирмы реши-
ло объединить сведения, приведен-
ные в табл. 10.13, с результатами
выборочного исследования. Чтобы
1 Имеется в виду, что модель не удов-
летворит потребителя, вследствие чего объ-
ем продажи не достигнет желаемого уров-
ня Противоположность этому составляет
риск поставщика, который связав с его
решением не производить модель. — Прим,
ред.
Таблица 10.14. Таблица условных
потерь от неиспользования благоприятной
возможности; задача о продаже
электродвигателей
a. i	I	2		I	2
5	150	0	35	0	120
10	100	0	40	0	160
15	50	0	45	0	200
20	0	0	50	0	240
25	0	40	55	0	288
30	0	80			
Прямечваке. Столбцы: /—условные потери от не-
использования благоприятной возможность вследствие
действия 1: начать серийное производство, тогда как
на самом деле «<«0=20; 2—условные потерн от певс-
пользоеання благоприятной возможности вследствие дей-
ствия 2: ие начинать серийного производства, тогда как
на самом деле *>а»=20.
получить эти выборочные данные,
торговому агенту было поручено
взять с собой электродвигатель и
посетить ряд произвольно выбран-
ных перспективных покупателей.
Издержки выборочного исследова-
ния будут включать в себя заработ-
ную плату торгового агента плюс
его командировочные расходы.
Предположим, что после учета всех
этих обстоятельств руководство ре-
шило отобрать выборку с л=10.
Посетив 10 покупателей, торговый
агент смог продать один электромо-
тор. Соответствующая информация,
касающаяся решения о том, следует
ли начинать серийное производство,
приведена в табл. 10.15. Она по-
строена с помощью табл. 10.14, в ко-
торой проиллюстрирован порядок
применения байесовского, решаю-
щего правила.
Однако прежде, чем использовать
распределение частот из табл.
10.13, распределение для выработки
байесовского решающего правила
(табл. 10.15), частоты f, следует
перевести в частности f"p, в этой
форме оно становится априорным
распределением.
Вероятности, приведенные в
столбце 1 табл. 10.15, будут услов-
ными вероятностями. Так как вы-
борку отбирали из большой дихо-
томией генеральной совокупности,
эти вероятности можно вычислить
239
Таблица 10.15. Байесовское решающее
правило; задача о продаже
электродвигателей (ожидаемые потери
для и=10 и <¥й=1; априорное
распределение
*4	/’(«р	1	2	3	4	5
5	0.01	0.315	0,00315	0,021	3.15	0
10	0,03	0.387	0,01161	0.077	7,70	0
15	0.D7	0,347	0,02429	0.162	8.10	0
20	0,13	0.268	0.03484	0,233	0	0
25	0,18	0,188	0.03384	0.226	0	9.04
30	0,20	0,121	0,02420	0.162	0	12.95
35	0,16	0.073	0.01168	0.078	0	9,36
40	0,11	0.040	0.00440	0,029	0	4,64
45	0.07	0.021	0.00147	0.010	0	2,00
50	0.03	0,010	о.тоозо	0,002	0	0,48
55	0.01	0,004	0.00004	0		0		0	
	•		0,14982	1,000	18.95	38.48
Примечав не. Столбцы: 7—условные ^биномиаль-
ные) врровтности ух правдоподобия Р (Х*=Ип=10. Wj);
9- совместные оероягтности P(Xs=Ib «Х-)=Р («/) -Р(Х®=
=!|л=10, «р; 3—апостериорное распределение: пере
считанные (апостериорные) вероятности -Р
=Р(Х»=1, «р/£Р (Ха±=1, «-); 4—взвешенные потеря
от неиспользования благоприятной жиможности в случае
действия I: числа кэ столбца 3, умнож^Жные на числа из
столбца / табл 10 J4; “—взвешенные потери от неис-
пользования благоприятной возможности в случае дей-
ствия 2: произведение чисел яз столбцов 3 н 1 табл.
10.14.
по формуле для биномиального рас-
пределения или взять из таблицы
биномиального распределения. Так,
для п=10 и лз=15 Р(%2=1) =0,347,
т. е. />(Хг=11«3^!5. п=10) =0,347;
а при /7=10, но Лд=20 Р(Хг=1) =
=0,268, т. е. Р(Х2=1|л4=20, п=
=10) =0,268. Эти условные вероят-
ности принадлежат к тому же типу,
что и приведенные на рис. 5.4,6 и
использованные при выводе форму-
лы Байеса. Значение вероятности
P(fj)=4/9 на этом рисунке соответ-
ствует вероятности Р(лз=15)=0,07,
a P(Et0|£I)=l/4 соответствует зна-
чению Р(%2=11 лз=15, п=10) =
=0,347. Отметим, что приведенные
в столбце 1 условные вероятности
обычно называются величинами
правдоподобия. Сумма правдоподо-
бий, вообще говоря, не равна еди-
нице.
Площадь каждого прямоугольни-
ка на рис. 5.4,6 находится путем ум-
ножения вероятностей, скажем, ве-
роятностей P(EW|-EI) и P(£i), кото-
рые дают (1/4) 4/9= 1/9. Такие же
вычисления проделаны, чтобы полу-
чить числа в столбце 2 табл. 10.15.
Наконец, числа из столбца 3 по-
лучены путем деления каждого из
чисел столбца 2 на сумму всех чи-
сел этого столбца. Такая процедура
называется нормированием. Она эк-
вивалентна делению площади пря-
моугольника, которому соответству-
ет 1/4, на сумму площадей трех
верхних прямоугольников на рис.
5.4,6. Величины, данные в столбце 3,
вместе с соответствующими значе-
ниями л. называются апостериор-
ным распределением, а сами веро-
ятности называются пересчитанны-
ми (апостериорными) вероятностя-
ми. Важно иметь в виду, что совме-
стные вероятности из столбца 2
пропорциональны апостериорным
вероятностям столбца 3. Это значит,
что взвешенные потери, приведен-
ные в столбцах 4 и 5, можно также
вычислить с помощью данных
столбца 2. Мы получим величины,
пропорциональные тем, которые да-
ны в столбцах 4 и 5.
Числа столбца 4 говорят о том,
что может произойти (в терминах
взвешенных потерь от неиспользо-
вания благоприятной возможности),
если руководство фирмы решит
предпринять действие 1 (начать се-
рийное производство) в то время,
как на самом деле л<ло- Эти числа
представляют собой значения стои-
мости риска потребителя, а их сум-
ма (18,95) составляет значение ожи-
даемой потери от неиспользования
благоприятной возможности. В то
же время ожидаемая потеря от не-
использования благоприятной воз-
можности, зависящая от риска по-
ставщика, равна 38,48. Это значение
ожидаемой потери соответствует ре-
шению не пускать мотор в серийное
производство в то время, как на са-
мом деле «>ло- Сопоставляя эти
два вида ожидаемых потерь, мы ви-
дим, что руководству компании сле-
дует меньше опасаться возможной
потери от действия 1, чем от дейст-
вия 2. Если лицо, принимающее ре-
шение, предпримет действие 1, то
ожидаемая потеря будет составлять
лишь 18,95 долл, по сравнению
с 36,48 долл, в случае действия 2.
240
Чтобы лучше понять этот резуль-
тат, читателю следует иметь в виду,
что А 2=1 соответствует р=10%.
Успешный исход в этой выборке
значительно менее вероятен (ниже
ло=2О). но комбинация апостериор-
ных вероятностей из столбца 3 и
условных потерь от неиспользова-
ния благоприятной возможности из
табл. 10.14 обусловила наличие
именно таких значений ожидаемых
потерь, которые приведены в табл.
10.15.
Таблица 10. 16. Байесовское решающее
правило; задача о продаже
электродвигателей (ожидаемые потери
для п^100 и -¥„=10); априорное
распределение
*1		1	2	3	4	5
5	0,01	0,017	0,00017	0,022	3,30	0
10	0,03	0.132	0,00396	0,521	52,10	0
15	0,07	0,014	0,00308	0,405	20,25	0
20	олз	0,003	0,00039	0,05!	0	0
25	0,18	0	0	0	0	0
30	0,20	0	0	0	0	0
35	0,16	0	0	0	0	0
40	0,11	0	0	0	0	0
45	0,07	0	0	0	0	0
50	0,03	0	0	0	0	0
55	0.01	0	0		0	_0		0
			0,00760		76,65	
Примечание. Столбцы /—условные (биномиаль-
ные) вероятности или праздооодобня Р1Хц=10|п—100,
«р; 2—совместные вероятнее™ Р(Хи=1<^^Р{ж.}х
ХР (Хи— IOf/1—100, я,); 3— агюстериорное распределе-
ние: япостернораде вероятности Р(ж.|Хи»Ю)^Р(ЛГм«
=•0, (Лп—Ю. «.); 4—взвешенные потеря от кеТ
использования благоприятной вазмоноюстн в случае
действия 1: «тела из столбца Я, умножение на числа нз
столбца 1 табл. Ю.Н; 5—нзведнеяныс потеря от ненс-
пользеввння бпа.ттприитной возможности в случае дей-
ствия 2: произведение чисел нз столбца J на числа из
столбца 1 твбл. 10,14.
Аналогичные вычисления приве-
дены и в табл. 10.16. В пей л=100,
но Хп=10, так что р=10%, как и
в предыдущем случае. Апостериор-
ное распределение здесь радикально
отличается от предыдущего случая,
а ожидаемая потеря от действия 1
равна 76,65 долл, по сравнению с
0 долл, для действия 2. Т аким обра-
зом, в этом случае, несмотря на то,
что значение р не изменилось, лицо,
принимающее решение, скорее всего
выберет действие 2.
16—232
Разница между этими двумя слу-
чаями очень хорошо показывает,
как определяются вид и ожидаемое-
значение апостериорного распреде-
ления. Вспомним, что апостериор-
ная вероятность зависит от априор-
ной — Р(л.) — и условной — Р (Xi | п,.
л,-) — вероятностей. Когда объем;
выборки мал, на апостериорные ве-
роятности значительно сильнее вли-
яют веса, соответствующие априор-
ным вероятностями, чем веса, отве-
чающие условным вероятностям, и
наоборот. В этом легко убедиться,
сравнив ожидаемые значения апри-
орного и апостериорного распреде-
лений в табл. 10.15 и 10.16. Значе-
ние prM(m) (где индекс рг означа-
ет априорное распределение) в обе-
их таблицах, конечно, совпадает.
Оно равно ргЛ4 (л,-)=29,7. Ожидае-
мое значение апостериорного рас-
пределения при п=10 и р=10%
равно роЛ1(л/)=22,9 (где буквы ро
означают «апостериорное» распре-
деление). Однако в случае, когда
п=100, а р=10%, ожидаемое зна-
чение апостериорного распределе-
ния равно роМ (л1)=12,4.
Если бы для выборки п=10 р=
=50%, то ожидаемое значение та-
кого апостериорного распределения-
(которое здесь не показано) равня-
лось бы роЛ1(л,-)=36,5. Для р=50%
и выборки п=100 ожидаемое значе-
ние апостериорного распределения
есть роМ (л,) =46,3. Заметим, что
такое ожидаемое значение апосте-
риорного распределения можно ис-
пользовать как точечную оценку
для л, если среднее квадратическое
отклонение апостериорного распре-
деления не очень велико.
Эти результаты можно объяснить-
следующим образом. При фиксиро-
ванном размахе л/, фиксированном
значении п и числе успехов X или<
проценте успешных исходов р зна-
чения правдоподобий (например,,
правдоподобий из столбца / табл.
10.15) будут одинаковыми незави-
симо от вида кривой Р(л,). Мы зна-
ем, что совместные вероятности яв-
ляются произведениями Р(л.) »
правдоподобий. Напомним также,
241.
что совместные вероятности пропор-
циональны апостериорным вероят-
ностям, и посмотрим, что происхо-
дит с видом апостериорного распре-
деления, когда априорное распреде-
ление становится плоским или поч-
ти плоским, а кривая правдоподо-
бия принимает островершинную фор-
му и наоборот. Допустим, что апри-
орное распределение является на
самом деле прямоугольным, так что
Р(л;)=Р(л2)= ... =P(.tfc). В этом
случае априорное распределение
вообще не будет влиять на апосте-
риорное. При этом можно совсем не
вычислять совместные вероятности
и провести только нормирования
(перевод в вероятностную форму)
правдоподобий.
В то же время, если правдоподо-
бия распределены довольно равно-
мерно, апостериорное распределе-
ние будет совпадать с априорным.
Итак, в тех случаях, когда априор-
ное распределение будет довольно
плоским, но график правдоподобий
имеет значительный эксцесс, причем
этот эксцесс приходится на некото-
рое значение л/, апостериорное рас-
пределение будет определяться
главным образом выборочными дан-
ными и не будет зависеть от апри-
орного распределения. Обратно,
когда график априорного распреде-
ления имеет сильно выраженный
эксцесс, во правдоподобия распре-
делены довольно равномерно, апо-
стериорное распределение (и, сле-
довательно, исход эксперимента)
будет определяться главным обра-
зом видом априорного распределе-
ния.
В каких же случаях графики ап-
риорного распределения или прав-
доподобий имеют плоскую форму?
Прямоугольные или почти плоские
распределения редко встречаются
в реальной жизни. Распределения
правдоподобий могут быть близки
к 5тому, когда объем выборки мал.
Напомним, что правдоподобия соот-
ветствуют величинам P(Xfc|rtj) или
Для испытаний по схеме
Бернулли вероятность Р(ря|л;) бу-
дет принимать наибольшее значе-
242
ние при некотором Рл=лд (где лд—
одно из значений л/), как, напри-
мер, р2=Л2=Ю в табл. 10.15. Одна-
ко в малых выборках значения, су-
щественно отличающиеся от рл=лф
могут иметь значительные правдо-
- подобия. В этОхМ легко убедиться,
взглянув на столбец 1 табл. 10.15.
Именно поэтому для выборок не-
большого объема исход байесовско-
го эксперимента определяется глав-
ным образом априорным распреде-
лением (при условии, что оно не бу-
дет плоским), а не результатами
выборочного исследования.
Когда выборка имеет большой
объем, правдоподобия группируют
вокруг значения pk=nq. Например,
в столбце 1 табл. 10.16 они имеют
выраженный максимум около зна-
чения Р1|=Л2=1О%. Это объясняет
разницу между ожидаемыми значе-
ниями апостериорного и априорного
распределений для п=10 и л=100,
которая имеет место, несмотря на
то, что р2=рп=Ю%. Поэтому с
увеличением объема выборки апо-
стериорное распределение (а с ним
и исход байесовского эксперимента)
будет во все большей степени опре-
деляться результатами выборочного
исследования.
Как .мы уже отмечали, плоские
априорные распределения редко
встречаются в реальной жизни. Тем
не менее ряд специалистов по ста-
тистике рекомендует в1 некоторых
случаях прибегать к искусственно-
му построению такого априорного
распределения. Если лицо, прини-
мающее решение, не знает форму
априорного распределения, но у не-
го есть сведения о наибольшем и наи-
меньшем возможном значении л,, то
можно предположить, что график
априорного распределения имеет
прямоугольную форму. Такое апри-
орное распределение не будет
влиять на форму апостериорного
распределения, но определит его
размах.
Разница между байесовским ана-
лизом и классической проверкой ги-
потез носит принципиальный харак-
тер. В подобных случаях байесов-
ский эксперимент строится с помо-
щью априорного распределения,
для которого случайной переменной
является не выборочное значение
а параметр генеральной совокупно-
сти я/. Обычная же проверка гипо-
тез проводится с помощью, напри-
мер, биномиального распределения
Рг при условии, что дано только од-
но значение л (например, гю). По-
этому распределение величин р, ни-
когда не следует смешивать с рас-
пределением л,-.
Пользуясь байесовским методом,
статистик предполагает, что ему из-
вестно распределение Р(т). На-
пример, как видно из табл. 10.15,
Р(Л2=1О) =0,077, а Р(л6=30) =
=0,162. Таким образом, вероятность
(правдоподобие) того, что р* про-
исходит из л„ является только од-
ной составной частью апостериорно-
го распределения вероятностей. В то
же время, проводя классическую
проверку гипотезы, статистик вовсе
не предполагает, что ему известно
л. Он может сказать только, что
с некоторой вероятностью 0 выбо-
рочное значение р, происходящее из
генеральной совокупности с некото-
рым я, будет больше или меньше
допустимого предела ло+& (напри-
мер, имеющего вид ло+^сгр). Дру-
гими словами, в байесовской стати-
стике мы имеем дело с вероятно-
стями для значений л, а в классиче-
ской проверке гипотез с вероятно-
стями того, что р происходит из ге-
неральной совокупности, соответст-
вующей определенному значению л.
По этой причине и в таком именно
смысле следует, например, отличать
апостериорное распределение из
столбца 3 табл. 10.15 от вероятно-
стей р и а из столбцов 1 и 4 табл.
10.10. С принципиальной точки зре-
ния, мы в обоих случаях имеем де-
ло по-прежнему с риском постав-
щика и риском потребителя, но по-
лучили мы их двумя различными
путями. Точную зависимость между
ними можно определить лишь в том
случае, когда априорное распреде-
ление является известной матема-
тической функцией, например функ-
16*
цией нормальной плотности распре-
деления.
Применяя оба метода анализа,,
лицо, принимающее решение, мо-
жет получить несколько советов по-
рассматриваемому вопросу. Специа-
лист по классическим методам бу-
дет утверждать, что в некоторых
случаях (когда генеральная сово-
купность дихотомна или когда ис-
тинное значение о велико) не сле-
дует пользоваться малыми выбор-
ками. Он укажет, что малая выбор-
ка и ненадежное априорное распре-
деление могут только ухудшить ка-
чество информации.
Однако в тех случаях, когда име-
ется надежное априорное распреде-
ление, скорее всего преобладает
мнение специалиста по байесовским
методам, поскольку исход экспери-
мента будет более эффективным.
Такое, однако, встречается не часто,
поскольку трудно получить априор-
ные распределения, на которые
можно полагаться. Наконец, для
выборок большого объема специа-
лист по классической статистике
только с большой неохотой может
согласиться учесть свойства апри-
орного распределения, в частности,
в связи с тем, что оба метода при
большом объеме выборки дают ре-
зультаты, которые не сильно разли-
чаются.
10.4,2.	Априорное распределение pt
Когда имеется априорное рас-
пределение дискретной случайной,
переменной р„ методика, описанная
в табл. 10.13 и 10.14, применяется
практически без изменений. При
этом на основе предыдущего опыта
предполагается, что каждое истин-
ное среднее р, встречается с неко-
торой частотой fi. Эти частоты, как.
и частоты для щ (см. табл. 10.13),
дают нам априорное распределение.
Однако каждое р является средним
значением некоторой генеральной
совокупности, имеющей свое собст-
венное распределение с той или
иной формой и тем или иным сред-
ним квадратическим отклонением от.
243
Рассмотрим априорное распреде-
ление, приведенное в табл. 10.17.
Средние квадратические отклонения
для всех генеральных совокупно-
стей распределения одинаковы: п—
=4. Из одной из приведенных в таб-
лице генеральных совокупностей бе-
рется выборка л=4. Она дает вы-
борочное среднее Х=84. Если это
среднее происходит из генеральной
совокупности л=83, то при усло-
вии, что выборочные средние рас-
Таблица 10.17. Вычисление
апостериорного распределения для
дискретной случайной переменной р.г-
	р<р-£)		Р (Х=84. *9	
83	0,01	0.352	0,00352	0,013
84	0,13	0,500	0,06500	0,232
85	0,25	0,352	0,08800	0,314
86	0.41	0,242	0.09922	0,354
87	0,(8	0,130	0.02340	0,083
88	0,02	0,054	0,00108	0.004
			0,28022	1,000
Примечание. Предположения:
=«=4. п=4. Х*=84.
пределены по нормальному закону,
его правдоподобие / (z,=0,5) =
=0,352, где
Z, = (X — н)/а_ =
= (84-83V(4//4)=0,5.
Значение 0,352 равно ординате точ-
ки графика стандартной плотности
нормального распределения, соот-
ветствующей z=0,5, и это число
стоит на первом месте столбца 2.
Все остальные числа в других
столбцах вычисляются так же, как
и в предыдущем случае. Фиксиро-
вав некоторую точку и условные
потери от неиспользования благо-
приятной возможности, соответству-
ющие риску поставщика и потреби-
теля, можно вычислить ожидаемые
потери от неиспользования благо-
приятной возможности. При усло-
вии, что среднее квадратическое от-
клонение апостериорного распреде-
ления не слишком велико, его ожи-
даемое значение можно использо-
244
вать также и в качестве точечной
оценки для р.
Для каждого из априорных рас-
пределений (описывающих л, и ц»)
можно взять вторую и третью вы-
борки. При этом апостериорное рас-
пределение, полученное по предыду-
щей выборке, становится априор-
ным распределением относительно
новой выборки. Можно поступить и
иначе, объединив данные второй вы-
борки с данными первой выборки
В этом случае апостериорное рас-
пределение останется прежним.
10.4.3.	Апостериорное нормальное
распределение и апостериорное
^-распределение
Нормальное распределение. Рас-
смотрим прямоугольное априорное
распределение ц. Пусть каждое ц
является средним значением нор-
мального распределения, среднее
квадратическое отклонение которо-
го равно о. Будем считать, что о
известно. Если взять выборку объ-
ема п и вычислить X, то можно по-
казать, что апостериорное распреде-
ление ц будет нормальны^ с пара-
метрами р=Х из =о/У«. Послед-
ний из этих параметров представля-
ет собой хорошо известную нам
стандартную ошибку среднего, но
вычисленную заново в терминах ап-
риорных и апостериорных распреде-
лений. Так как апостериорное рас-
пределение описывает случайную
переменную ц, а не X, мы будем
обозначать эту стандартную
ошибку через вместо <з_ .В при-
ложениях ее можно использовать
точно так же, как было описано в
гл. 8 и 9.
Если у исследователя есть неко-
торая информация не только о о,
но и о р, то ею можно воспользо-
ваться. В этом случае среднее ква-
дратическое отклонение апостериор-
ного распределения вычисляют по
формуле
/ ’
а ожидаемое значение апостериор-
кого распределения равно
7И(|1) =
*>/(«*,/*.)+*,/(Л/л.)
1/(’г|/л.) + !/(<»%/««)
Ожидаемое значение р является в
некотором смысле видоизмененным
выборочным средним, и им можно
пользоваться как точечной оценкой
для ц.
На самом деле в этих формулах
считается, что берутся не одна, а
две выборки. Другими словами,
имеется прямоугольное априорное
распределение, для которого взяты
две выборки объемом ni и п^. Затем
по комбинированному апостериор-
ному распределению вычисляются
<Тц и Л1(р). В том случае, когда у
нас имеется некоторая информация
о р. и or из предыдущего опыта и
мы взяли только одну выборку,
можно считать, что «1=1 и что из-
вестное из предыдущего опыта зна-
чение р равно Агь
Пусть, например, из прошлого
опыта нам известно, что ранее ап-
риорное распределение было нор-
мальным с параметрами р—80 и
0=8. Мы решили, что об этой ге-
неральной совокупности необходима
дополнительная информация, и
отобрали выборку с п2=16, которая
дала нам Х2=82. Отсюда получаем
М (р) =
80/(61/1) + 82/(64/16)
1/(64/1) + 1/(64/16)
=81,9.
Для л2=4 Л1(р)=81,6, а для п2=1
получаем в качестве М(р) просто
среднее арифметическое от обоих
средних. При /г2=16 среднее квад-
ратическое отклонение апостериор-
ного распределения равно
V I/(64/1) + 1/(64/16)
= 8//Т7 = 1,94 = а/ |/п++
что почти совпадает с а_ = з/ргл=
_ 8/"|/Тб. С помощью доверительных
пределов оценку для истинного
значения можно получить следую-
щим образом:
Р {[М (р) - zsj < р <
<[M(p) + ^J} = в.
При е=0,95 Р [(81,9-1,96-1,94) <
<р<(81,9+1,96-1,94)]=0,95, т. е.
Р (78,1 <ip <85,7) =0,95.
P-Распределение. Когда априорное
распределение есть распределение
л», целесообразно попытаться подо-
брать к нему некоторое 0-распреде-
ление. Дело в том, что если априор-
ное распределение является р-рас-
пределением, то апостериорное рас-
пределение также будет р-распреде-
лением, ожидаемое значение и
среднее квадратическое отклонение
для которого можно вычислить по
простым формулам. Значения р-рас-
пределения можно найти в табли-
цах. Его можно записать в виде
к(л-1)1
Г(Р)— (s—Т)! (п—s—1)!

причем M(p)=s/n, а'
oaJ>=s (n—s)/[п2 (п+1) ],
где 0<p<J, a 0<s<n. Параметра-
ми этого распределения являются
величины sun, где s — число ус-
пешных исходов при проведении п
испытаний по схеме Бернулли. Эта
функция похожа на функцию плот-
ности биномиального распределе-
ния, но с точки зрения зависимости
от р она будет непрерывной.
Чтобы построить график какой-
нибудь из функций f(p), подставьте
просто некоторые параметры s и
п и постройте несколько точек для
удобных значений р, а затем соеди-
ните эти точки гладкой кривой. Не-
которые из графиков 0-распределе-
ний построены на рис. 10.2. Напри-
мер, при $=1 и п=2
fM=-^-p°a~py=i
и графиком будет прямая, парал-
лельная оси абсцисс и проходящая
от точки р=0 до точки р=1 на вы-
соте 1 при всех 0<р<1. В этом слу-
чае мы получаем прямоугольное
распределение. При s=l и п=3
Г(/’) = -ЙТГР,(1-р)’ = 2-2р.
245
Это—пряма*} с отрицательным уг-
ловым коэффициентом. При n=2s
графиком ^-распределения будет,
вообще говоря, симметричная коло-
колообразная кривая.
Таким образом, график ^-распре-
деления может принимать самую
разнообразную форму, включая
прямоугольную, U-образную, J-об-
разную, форму прямой линии, и,
конечно, бывает колоколообразной
кривой. С методикой подгонки 0-
распределения к эмпирическим дан-
ным можно познакомиться в книге
Пратта, Райффы и Шлайфера L
Предположим, что на основании
предыдущего опыта было построено
вероятностное распределение л/.
Подгоним к нему некоторое ^-рас-
пределение. Допустим, что наилуч-
шее приближение дает 0-распреде-
лсние с параметрами $1 и Возь-
мем теперь выборку объемом ns и
подсчитаем в ней число успешных
исходов s2. Апостериорным распре-
делением для этого эксперимента
будет 0-распределение с парамет-
рами	и n=rti+n2- Далее,
как всегда, можно использовать
ожидаемое значение этого распре-
деления в качестве оценки для л
или же вычислить ожидаемые поте-
ри для дальнейшего использования
их в процессе принятия решения.
1 Pratt J- W., Raiffa Н„ Schlaifer R.
Introduction to Statistical Decision Theory.
N. Y.: McGraw-Hill, 1%5.
246
10.5.	ВОПРОСЫ И ЗАДАЧИ
10.1.	Компания должна установить объ-
ем производства некоторого товара Qi*
где Qj может равняться 20. 30, 40. При-
быль на единицу товара равна 5 долл. Ту
часть товара, которую не удастся про-
дать, придется реализовать с убытком по
2 долл, на штуку. Комиссия экспертов,
состоящая из 3 человек приписала воз
можним значениям объема спроса 20, 30
и 40 следующие вероятности:
xi		»/> (X.)	
20	0,6	0,7	0,5
30	0,3	0,2	0,3
40	п,1	0.1	0.2
а. Вычислите средние вероятности
Р(Л,). Как бы вы поступили в том слу-
чае. если мнение первого члена комиссии
было бы для вас в два раза авторитетнее
мнений второго и третьего членов ко-
миссии?
б. Постройте платежную матрицу (таб-
лицу) условных прибылей PRtj* вычислите
для всех Qj значения ожидаемой прибыли
и найдите оптимальный объем производ-
ства.
в. Постройте матрицу (таблицу) услов-
ных потерь от неиспользования благопри-
ятной возможности, содержащую величи-
ны OLijt найдите для всех Q, ожидаемые
значения потерь от неиспользования бла-
гоприятной возможности. Сравните значе-
ние оптимального объема производства,
полученное этим методом, со значением
оптимального объема производства, полу-
ченным в задаче 10.L6.
г. Найдите условную и ожидаемую при-
быль при наличии полной информации. Че-
му равна ожидаемая иенностЕ, полной ин-
формации? Как связана эта величина
с PR<i и О1.ц?
10.2.	Возьмите в задаче 10.1 Х<==0, К
2 и Qj=O. 1, 2 и снова ответьте на все
поставленные в ней вопросы.
10.3.	Найдите условную и ожидаемую
прибыль при наличии полной информации
для задачи, рассмотренной в табл. 10.8.
Найдите также ожидаемую ценность пол-
ной информации.
10.4.	Матрицу потерь от неиспользо-
вания благоприятной возможности можно
получить и с помощью одной только мат-
рицы условных прибылен (т. е. без какой
бы то ни было дополнительной йнформа-
цим). Предположим, что матрица прибы-
лей имеет вид:
А			«1	«4
Л,	50	40	15	5
И,	50	70	60	40
	— 10	—8	—4	—6
а.	Составьте матрицу потерь от неис-
пользования благоприятной возможности.
б.	Чему равны условные прибыли прн
наличии полной информации?
10.5.	Некоторая фирма выпускает но-
вый продукт и хочет получить оценку то-
го, какую долю рынка ей удастся занять
Фирма запрашивает организацию, которая
специализируется на проведении выбороч-
ных исследований, о цене получения такой
информации.
а.	Какие факторы будут определять из-
держки этого выборочного исследования?
б.	Будет ли интересовать фирму длина
доверительного интервала? Можно ли счи-
тать. что есть некоторый минимальный
доверительный интервал, после которого
информация теряет ценность? Почему?
в.	Можно ли считать, что большое зна-
чение Сп будет заведомо неприемлемо для
фирмы, даже если оно будет оптималь-
ным с точки зрения ожидаемых издер-
жек?
г.	Мы определили Сп как издержки
увеличения объема выборки на единицу.
Можно ли предполагать, что Сп во мно-
гих случаях непостоянно? Почему?
10.6.	Для оптимального объема выбор-
ки «=5 из табл. 10.9 определите влияние
снижения условных издержек ошибки а,
т. е. Св на «. Для этого возьмите С*=
=8 долл, вместо С«=2 долл., пересчитай-
те данные столбца 5 и найдите новые зна-
чения для оптимальных п и а.
10.7.	Чтобы определить влияние уве-
личения о на оптимальное значение п,
возьмите о=5, пересчитайте столбцы /, 3,
4. 5 и 7 из табл. 10.9 и найдите оптималь-
ные значения п и а.
10.8.	Чтобы определить влияние умень-
шения доверительного интервала на опти-
мальное значение п, возьмите С. I.—3, пе-
ресчитайте столбцы 3, 4, 5 и 7 табл. 10 9
и найдите оптимальные значения п и а.
10.9.	Рассмотрим предположения табл.
10.12 и допустим, что наш студент пред-
ложил свои портфели случайной выборке
«3 200 студентов. Ему удалось продать
24 портфеля.
а.	Оцените вероятность того, что jx>12
при условии л=6. Сделайте то же самое
для л =8.
б.	Следуя решающему правилу
табл. 10.12, мы принимаем гипотезу
так как р>8,4. Следует ли пересмотреть
это решающее правило с учетом резуль-
тата задачи 10.9,а?
10.10.	Возьмите данные табл. 10.10, За
исключением п, и пересчитайте таблицу
для «=100.
а.	Чем новая таблица отличается от
табл. 10.10?
б.	Будет ли новый выборочный план
лучше выборочного плана табл. 10.10? По-
чему?
10.11.	Возьмите данные из табл 10.10,
за исключением п и а, и пересчитайте таб-
лицу для «=400 и а—0,20.
а.	Чем новая таблица отличается от
табл. 10.11?
б.	Чем эта таблица отличается от таб-
лицы, составленной в упражнении 10.10?
10.12.	С помощью апостериорных рас-
пределений из табл. 10.15 и 10.16 найдите
Р(л,>20). Найдите также Р(л»>20) по
априорным распределениям, приведенным
там же. Сравните эти величины и объяс-
ните разницу
10.13.	Пусть апрнрорное распределение
в табл. 10.15 является равномерным, при-
чем Р(л,)=1/Н.
а.	Найдите апостериорное распределе-
ние. Необходимо ли для этого вычислять
совместные вероятности?
б.	Найдите ожидаемое значение апо-
стериорного распределения и сравните его
с р=10 и с ожидаемым значением апо-
стериорного распределения из табл. 10.15.
в.	Найдите величину Р(л=30) по апо-
стериорному распределению задачи 10.13-а
и по табл. 10.15.
10.14.	Исследователь уверен в том, что
наименьшее л( его априорного распреде-
ления есть л=15, а наибольшее составляет
л=45. Поскольку никакой другой инфор-
мации об априорном распределении у него
нет, он приписывает равные вероятности
значениями л <=15, 20.. 45.
а.	Найдите апостериорное распределе-
ние для п=10 и Хг=1 (воспользуйтесь ре-
зультатами табл. 10.15).
б.	Найдите ожидаемое значение этого
апостериорного распределения и сравните
его с ожидаемым значением из зада-
чи 10.13.
в.	Найдите по апостериорному распре-
делению Р(л=30) и сравните это значе-
ние со значением Р(л=30) из задачи
10.13.
10.15.	Предположим, что исследователь
ь задаче 10.14 оказался прав в том, что
касается верхнего и нижнего предела зна-
чений л<=15, 20,..., 45, но ошибся в том,
что касается разных вероятностей для
всех л,. В действительности эти вероятно-
сти имеют вид:
Р («,)

15
20
25
30
0,75
0,10
0,05
0,03
0,03
0,02
0,02
а. Возьмите «=10 и Xj=l и найдите
апостериорное распределение, пользуясь
результатами табл. 10.15
б Найдите ожидаемое значение этого
распределения и сравните его с ожидае-
мым значением из задачи 10.14.
247
в Найдите по апостериорному распре-
делению вероятность Р(л=30) и сравните
ее с Р(л=30) из задачи 10.14.
г. Предположим» что вы знаете преде-
ILL КРИТЕРИИ СОГЛАСИЯ
В гл. 9 проверка гипотез приме-
нялась^ среди прочего и в случае
дихотомных генеральных совокуп-
ностей. Имелись некоторое стан-
дартное значение ж» и дихотомная
генеральная совокупность с про-
центом успешных исходов, равным
л. С помощью процедуры проверки
гипотез мы могли сравнить я и по,
не .зная при этом самого значения
л. Это делается путем отбора вы-
борки и сопоставления р с ло. Ре-
зультаты такого сопоставления да-
ют возможность сделать некоторые
выводы о том, имеется ли сущест-
венная разница между л и ж».
Эту задачу можно решать и ина-
че, а именно сравнивая частоты, а
не проценты. Пусть ло=5О% (доля
белых шаров). Допустим, что из ге-
неральной совокупности с неизвест-
ным процентом белых шаров мы
взяли выборку с п=250, подсчита-
ли количество белых шаров в ней,
которое оказалось равным 105, и
получили тем самым р=42%. Кро-
ме процедуры проверки гипотез,
для того, чтобы установить, имеет-
ся ли существенная разница между
я и ло, можно воспользоваться и
так называемым критерием хи-ква-
драт. Применяя этот критерий, луч-
ше пользоваться частотами, а не
процентами. Сравним два набора
частот:
105
145
250
125
125
250
лы изменения л,, но не имеете представ-
ления о форме априорного распределения.
Можно ли считать, что в таком случае
априорное распределение будет плоским?
2
5
ГЛАВА 11
КРИТЕРИЙ ХИ-КВАДРАТ
где — выборочные, a — теоре-
тические частоты. Они используют-
при применении критерия хи-квад-
рат вместо процентов, которые рав-
ные соответственно:
д = 42	«, = 50
100— р = 58	100 —ко=50
Предположим, что наша генераль-
ная совокупность состоит из 50000
шаров и что критерий хи-квадрат
показывает, что между л и л« нет
существенной разницы. В терминах
частот это означает, что количество
белых шаров во всей генеральной
совокупности несущественно отли-
чается от 25000.
Если в задаче возможны только
два исхода, и, следовательно, име-
ются только две частоты, ее всегда
можно решить с помощью провер-
ки гипотез. Это всегда «выгоднее»,
чем применять критерий хи-квад-
рат. Однако, когда генеральная со-
вокупность не является дихотомной
(т. е. когда мы имеем дело не с дву-
мя, а с большим числом процентов
ль яг, ..., Лщ), проверкой гипотез
пользоваться уже нельзя. В этом
случае все необходимые сопоставле-
ния проводят с помощью критерия
хи-квадрат.
Рассмотрим поэтому генеральную
совокупность, элементы которой мо-
гут иметь не две, а т характери-
стик, например 50000 шаров, кото-
рые могут быть белого, черного, зе-
леного, желтого и красного цвета.
Подмножество шаров одного цвета
состоит из некоторого числа элемен-
тов, и эти числа, вместе взятые, об-
разуют набор истинных частот Д,
Ь, /5. которым соответствуют про-
центы	Допустим, что упа-
ковщик должен положить в короб-
ку разноцветные шары именно в та-
248
кой пропорции. Как проверить, де-
лает ли это он правильно? Если он
ошибется, то набор шаров будет воз-
вращен компании, и она потерпит
значительные убытки. Поэтому от-
дел технического контроля хочет
предварительно убедиться в том,
является ли набор шаров правиль-
ным.
У компании есть для сравнения
некоторый стандарт, а именно
проценты 1Л1, m2,	.-л.-,. Они
называются теоретическими до-
лями tn/, с которыми следует срав-
нить истинные значения долей л,.
Чтобы получить значения л,-, кон-
тролеру ОТК необходимо перебрать
все 50000 шаров, рассортировать их
по цветам, сосчитать число шаров
каждого цвета и пересчитать эти
истинные частоты f, в частости с по-
мощью соотношения ni=f,/50 ООО.
Разумеется, вместо того чтобы пере-
бирать всю генеральную совокуп-
ность, гораздо дешевле было бы
сравнить л; с (Л, с помощью выбор-
ки. Это и можно сделать с помощью
критерия хи-квадрат.
Будем считать, что требуемые
значения долей равны fnt=0,I5;
<Л2=0,Ю; /Лз=0,03; fjt4=0,35 и (Ла=
=0,37. Предположим, что выборка
с л--600 дала следующие выбороч-
ные частоты «fi=108, ./2=48, */з=30,
<,/д=228 и в/ь= 186. Соответствующие
значения выборочных долей равны
pi=0,18; р2=0,08; р3—0,05; р4=0,38
и р5=0,31. Видно, что выборочные
процентные характеристики отлича-
ются от теоретических in,. Значит
ли это, что л( существенно отлича-
ется от 1Лг, или же различие между
pi и обусловлено ошибкой выбо-
рочного исследования, в то время
как на самом деле между ж и
нет существенной разницы?
Чтобы установить это, проводят
проверку с помощью критерия хи-
квадрат (табл. 11.1,а). Так как этот
критерий используют для сравнения
частот, а нс процентов, первый шаг
состоит в переводе теоретических
процентных характеристик (или
теоретических частостей tf"i) в тео-
ретические абсолютные частоты tfi
путем умножения гл, на п, т. е. по
формуле ,/<=,Л)П. Если мы по тем
или иным причинам предпочитаем
пользоваться значениями tf"t вме-
сто i.-i, (как, например, рассматри-
вая теоретические распределения
вероятностей), то tfi=tf",n. Таким
образом, Ji=0,15  600=90; J2=
=0,10-600=60 и т. д.
Сравнение выборочных частот
с теоретическими частотами tf,- про-
водят с помощью величины хи-квад-
рат, которую вычисляют по фор-
муле
X’*=S(4.f,.-f/;)%-)-
Для нашей задачи о шарах значе-
ние х2* определено в табл. 11.1. Из
формулы видно, что, когда разница
между •/,• и tfi невелика, величина
X2* также будет маленькой. В на-
шем примере значение хн-квадрат
равно х2*=21»3. Его следует срав-
нить с теоретическим значением хи-
квадрат, взятым, например, из табл.
IX (см. приложение). Это теорети-
ческое значение зависит от уровня
значимости а и числа степеней сво-
боды v. В нашем примере v
равняется числу частот т минус
единица, т. е. v=m—1=5—1—4.
Принимая а=0,05, находим по таб-
лице, что х2о.9-':4=9,49. Поскольку
оказалось, что х2*>Х2, то можно сде-
лать следующий вывод: разница
между pi и л, слишком велика, что-
бы ее можно было объяснить только
ошибкой выборочного исследова-
ния. Следовательно, имеется суще-
ственная разница между ж и 1Л,-.
Это означает, что упаковщик не вы-
полнил требования об ассортименте
шаров (или других товаров) в
ящике.
Посмотрим теперь, что произой-
дет, если объем выборки мал, на-
пример, если п=200, но значения
выборочных процентов р, и теоре-
тических процентов <л,- не меняют-
ся. Необходимые в этом случае вы-
числения приведены в табл. 11.1,6.
Хи-квадрат теперь равен х2*=7,13,
и он меньше, чем x2o.8s;i9.5. (Заме-
тим, что теоретическое значение х
такое же, как и в случае п=600. по-
249
1 Таблица 11.1. Спределенке значений ги-ивалрата для проведения							•
проверки с помощью критерия согласия							
				а) л = 600	1		
		t*f	sh	th	i i	— t	hh-thWth
	0,18	0,15	108	90	18	324	3,60
в	0,08	0,10	48	60	— 12	144	2,40
G	0,05	0,03	30	18	12	144	8,00
У	0,38	0,35	228	210	18	324	1.54	‘
R	0,31	0,37	180	222	—36	1296	5,84	>
	1.00	1,00	600	600			21,38	| r
				6) л = 200			1
	Pi	t*i	sh	th		hh-th*		 i ~ t	f i 		__ 1
W	0,18	0,15	36	30	6	36	1,20
В	0,08	0,10	16	20	—4	16	0,80
G	0,05	0,03	10	6	4	16	2,67
Y	0,38	0,35	76	70	6	36	0,51
R	0,31	0,37	62	74	-12	144	1,91
	1,00	1,00	200	200			7,13
в) п= 100							
sh	th	Л	th		hh-fh**	Wl-twl
18	15	18	15	3	9	0.60
8	10	13	13	0	0	0
5	3	38	35	3	9	0.26
38	35	31	37	-6	36	0.97
31	37	—					1
	" 	100	100			1,83
100	100					
скольку значения а и v не измени-
лись.) В результате мы приходим
к противоположному заключению,
а именно, что между значениями л,-
Имя» нет существенного различия.
По-видимому, разница между т и
не очень ярко выражена, так
как нам удалось обнаружить ее
лишь с помощью довольно большой
выборки и не удалось обнаружить
с помощью меньшей выборки.
Если взять еще меньшую выбор-
ку, скажем, с п=100, то, как видно
из табл. 11.1,в, теоретическая ча-
стота ifa—З очень мала. Для таких
малых теоретических частот приме-
250
пять критерий хи-квадрат не следу-
ет. Поэтому мы объединили эту
частоту с еще одной. Получилась
новая частота, равная количеству
шаров В или G (т. е. черного или
зеленого цвета). Если малых частот
будет больше, то все их нужно
скомбинировать таким образом,,
чтобы теоретическая частота каж-
дой из групп равнялась по меньшей
мере пяти. Заметим, что в табл.
11.1,6 х2*=1,83, несмотря на то, что
значения pi не изменились. Что ка-
сается теоретического значения хи-
квадрата, то в этом случае т—4,
а о=3 и х2о,85;з=7,81.
Распределение хи-квадрат для
v=4 и для v=6 показано на рис.
11.1. Эти кривые можно построить
ло формуле
= [(v/2) — I]! X
Х-^-(-Лм2,“'«р(-х72).
Это есть непрерывная функция
одной переменной, зависящая от па-
0 7 Z 3 Ь 5 6 7 В 9 IO X1
Рис. 11.1. Распределения хи-квадрат для
№4 и v=6
раметра v Например, при v=4 она
имеет вид:
f(Zs)=0,25(X*)exp(-X’/2).
"Чтобы построить кривую, достаточ-
но взять несколько удобных значе-
ний х2» например значения х2=0, 1,
2 . . ., и найти соответствующие зна-
чения / (х2> -
Эту функцию можно получить
экспериментальным путем. Возьмем
генеральную совокупность, состоя-
щую из шаров пяти различных цве-
тов, причем доля шаров каждого
цвета равна л,. Допустим, что щ
совпадают с tni, так что л,—{Л{=0.
Возьмем много выборок с п=600 и
вычислим х2* Для каждой из этих
выборок. Составим распределение
частот полученных значений х2*,
переведем частоты fi в частости f"i
и построим график. Он будет по-
хож на кривую, соответствующую
л>=4 (рис. 11.1). В этом примере
приблизительно 95% всех значений
X2* попадут в интервал между 0 и
Х2о.95л = 9,49. Это означает, что, хотя
на самом деле величины я, совпада-
ют с {Ль значение х2*» найденное по
выборочным частотам /л», может
составлять до 9,49. Для а = 0,05 мы
считаем, что если у. >9,49, то это
обусловлено не только ошибкой вы-
борочного исследования, но и су-
щественной разницей между л,
И {Л,.
Критерий согласия очень часто
применяется к распределениям ча-
стот. Проиллюстрируем это на двух
примерах. Имеется распределение
частот неизвестной генеральной со-
вокупности. Отбирается выборка
подходящего объема и составляется
выборочное распределение частот.
Затем выборочные частоты *fi срав-
ниваются с теоретическими частота-
ми tfi с целью установить, будут ли
неизвестные частоты генеральной
совокупности fi существенно отли-
чаться от теоретических частот J/.
Проще говоря, мы хотим с помо-
щью распределения выборочных
данных проверить, будет ли неиз-
вестное распределение генеральной
совокупности существенно отличать-
ся от некоторого теоретического
распределения.
Разумеется, если бы распределе-.
ние генеральной совокупности было
известно, мы не стали бы пользо-
ваться критерием хи-квадрат, по-
скольку он применяется исключи-
тельно к выборочным частотам.
Когда известны истинные частоты
по всей генеральной совокупности,
вообще нет никакой ошибки выбо-
рочного исследования. Между из-
вестными значениями частот гене-
ральной совокупности fi и теорети-
ческими частотами tfi разница мо-
жет либо быть, либо не быть, и
здесь нет никакой проблемы.
Нормальное распределение. Про-
иллюстрируем процедуру сравне-
ния истинных частот некоторой ге-
неральной совокупности с нормаль-
ными частотами на примере выбо-
рочных частот из табл. 5.10. В ней
приведены данные о почасовых
ставках заработной платы для 303
промышленных рабочих. В этой
таблице они считаются данными о
всей генеральной совокупности.
Предположим теперь, что это есть
распределение выборочных данных
с Я=2,85 и 5=0,1911.
251
Теоретические частоты приведены
в столбце 5. Они были получены
путем подгонки к распределению
почасовых ставок заработной платы
некоторого нормального распреде-
ления (как описано в разд. 5.4.1).
Посмотрев на столбец 5, можно
заметить, что Snf<=297,9, а не 303.
Поэтому мы увеличим частоты nfi
на 1,71 %, что соответствует отноше-
нию 303/297,9=1,0171. Заметим да-
лее, что две последние теоретиче-
ские частоты меньше пяти. Объеди-
ним их (а также соответствующие
выборочные частоты) в одну. Те-
перь уже мы готовы к тому, чтобы
определить %2*.
Таблица 11.2. 'Использование критерия
согласия для сравнения с нормальный
распределением
sh	th	t~tf р	•Л-^Р*	tWi
10	11,4	-1,4	1.96	0J7
25	26,5	— 1,5	2,25	0,04
57	46,4	10,6	112,36	2,42
74	61,6	12,4	153.76	2,50
58	62,6	—4,6	21,16	0,34
34	48.2	—14,2	201.64	4.18
17	28,4	— 11,4	129,96	4.58
14	12,5	1.5	2,25	0,18
14	5,5	8.6	73.96	13.70
303	303,0			28.11
Примечание. Дангаое ьэяты из табл. 5.10.
Эти расчеты приведены в табл.
112 (х2*=28,П). Вновь беря уро-
вень значимости а=0,05, получаем,
что это значение х2* следует срав-
нить с х2о.95;6= 12,6. Таким образом,
приходится сделать вывод, что рас-
пределение почасовых ставок зара-
ботной платы для всей генеральной
совокупности (т. е. распределение
почасовых ставок для всех рабо-
чих) существенно отличается от
нормального.
Читатель, возможно, заметил, что
нижний индекс у х2 равен v=6, а не
v = 8. Имеется общее правило, ка-
сающееся определения числа степе-
ней свободы при использовании
критерия согласия. Как правило,
v=m—1. Однако когда вычисление
теоретических частот требует ис-
252
пользования одной или более выбо-
рочных характеристик, то значения
v следует еще дополнительно умень-
шить на это число. В нашем приме-
ре для вычисления нормальных ча-
стот потребовались величины X и s.
Поэтому v=9—1—2=6.
Распределение Пуассона. Мы
проиллюстрируем процедуру под-
гонки распределения Пуассона на
примере задачи об очередях.
Управление платной автодороги
хочет получить информацию о за-
висимости длины очереди автомоби-
лей перед пунктом оплаты от коли-
чества необходимых для обслужи-
вания этого пункта сотрудников.
Одиому из работников было пору-
чено следить за двумя полосами
движения одновременно и подсчи-
тывать число автомобилей, прибы-
вающих в течение 20-секундных
промежутков времени. После этого
брали наибольшее число прибываю-
щих по каждой полосе автомобилей.
Общее число 20-секундных перио-
дов равнялось 495, а частотное рас-
пределение, показывающее количе-
ство прибывавших автомашин, при-
ведено в табл. 11.3. Например, ча-
стота «/«=35 в ней означает, что
в течение 35 из 495 20-секундных
промежутков не прибыло ни одной
машины. Для 11 20-секундных про-
межутков количество прибывших
машин равнялось двум.
Как часто бывает в задачах об
очередях, полученное распределение
частот напоминает распределение
Пуассона. Поэтому исследователь-
решил сравнить его с этим теоре-
тическим распределением. Для это-
го необходимо прежде всего полу-
чить пуассоновские частоты, даю-
щие в сумме 495. Так как распре-
деление Пуассона зависит лишь от
одного параметра X, следует вычис-
лить среднее от выборочных дан-
ных. Оно равно А=2,8, и соответ-
ствующие этому среднему частости
можно взять из табл. VI (см. при-
ложение). Остается умножить их на
495, а затем объединить три послед-
ние частоты, поскольку каждая из
них меньше пяти.
Таблица 113 Использование критерия согласия для сравнения с распределением
Пуассона
Х1	sh	tf'i	th	X. 1	th	th	sh~th	hh-th*	
0	35	0.061	30	0	35	30	5	25	0,83
1	87	0,170	84	1	87	84	3	9 ‘	0,11
2	П4	0,238	118	2	114	118	—4	16	0.14
3	106	0,222	НО	3	106	110	—4	16	0,15
4	69	0,156	77	4	69	77	—8	64	0,83
5	34	0,087	43	5	34	43	—9	81	1.88
6	26	0.041	20	6	26	20	6	36	1,80
7	18	0,016	8	7	18	« I	10	100	12,50
8	5	0,006	3	8	_6	5	1	1	0.20
9 10	1 0	0,002 0,001	1 1		495	495			18.44
	495	1,000	495						
Примечание.	-X./iJ-=1Я0/495=2Л
а	J l t J I
Вычислив значение хи-квадрат,
получим %2*=18,44; это больше, чем
Х2о,95;7=14.1. Поэтому исследовате-
лю следует заключить, что распре-
деление прибытия всех автомашин
(истинное распределение генераль-
ной совокупности) существенно от-
личается от распределения Пуассо-
на. Поэтому пуассоновским распре-
делением нельзя пользоваться при'
оценивании расходов на обслужива-
ние пункта оплаты. Однако, внима-
тельнее посмотрев на наши данные,
можно заметить, что большое зна-
чение %2* вызвано наличием всего
лишь одного большого числа в по-
следнем столбце. Если для появле-
ния одного такого выброса нет ни-
каких объяснений, то генеральную
совокупность все-таки можно счи-
тать распределенной приблизитель-
но по закону Пуассона В таких
случаях следует проверить, не до-
пустили ли мы где-нибудь ошибку.
11.2. ТАБЛИЦЫ СОПРЯЖЕННОСТИ
Критерием хи-квадрат можно
пользоваться и в тех задачах, где
классификация проводится по двум
признакам. Приведенные ниже таб-
лицы иллюстрируют порядок при-
менения этого метода.
Предположим, что в некотором
университете имеется спецкурс, сда-
ча которого требуется от всех сту-
дентов, но время посещения этого
курса (год обучения) они могут вы-
бирать самостоятельно. Как прави-
ло, они сдают его на первом году
Таблица 11.4. Экспериментальное
распределение оценок для генеральной
совокупности студентов (классификация
по двум признакам)
а) Абсолютные частоты
Год обучения
Оценка I II III и VI
A	100	105	95	300
В	150	140	110	400'
C	400	335	65	800»
Ниже C	350	120	30	500'
	1000 1	700	,	| 300	2000
(У) Частости
Год обучения
Оценка I II III и IV
A	0,0500	0,0525	0,0475	0,1500
В	0,0750	0,0700	0,0550	0,2000
c	0,2000	0,1675	0,0325	0,4000
Ниже C	0,1750	0,0600	0,0150	0,2500
	0,5000	0,3500	0.1500	0,100
Примечание. В табл 11.4, а частоты, стоящие
в клетках, обозначаются через сумЯЫ частот по
столбцам — через Lj. а суммы по строкам — чере»
f[.. В табл. 11.4, б в клетках стоят зяачейня сум-
мы по столбцам обозначаются -срез ж,г» а суммы по
строкам — через ж/. . Например /23 = “°- f-2 — 700
f-2. = 400, »|2 = 0,0625 и т, д. Сумма всех абсолютных
частот равна N> а сумма всех частостей равна единиц
253
обучения, но иногда откладывают
яа второй, третий или даже четвер-
тый курс.
Чтобы проанализировать, как за-
висят оценки, получаемые студента-
ми, от года обучения, исследователь
«собрал информацию у всех студен-
тов, сдавших этот курс в прошлом
году. Результаты приведены в табл.
11.4. Их следует считать данными
по всей генеральной совокупности.
Поскольку частоты в табл. П.4,а не
очень наглядны, они были пересчи-
таны в частости (табл. 11.4,6).
Однако и по этой таблице еще не
легко понять, зависят ли получен-
ные оценки от года обучения. По-
этому следует построить некоторую
-стандартную таблицу долей и ча-
стот, а затем сравнить с ней наше
эмпирическое распределение.
Таблица 1! .5. Теоретическое распре*
деление оценок для генеральной
-совокупности студентов (классификация
тпо двум признакам)
а) Абсолютные частоты
Год обучения
Оценка	I	II	Ши IV	
А	150	105	45	300
В	200	140	60	400
С	400	280	120	800
ЗНиже С	250	175	75	500
1000	700	300	2000
б) Частости
Год обучения
Оценка 1 И Ш и IV
А	0,0750 1 0,0525		0,0225	0,1500
В	0,1000	0,0700	0,0300	0,2000
	0,2000	0,1400	0,0600	0,4000
1Ниже С	0,1250	0,0875	0,0375	0,2500
	0,5000	0,3500	0.1500	1,0000
Примечание В табл. 1L5, л частоты в клетках
-обозначаются через в табл. ||.5Г б величины в
«летках обозначаются чер< з
Такой стандартной таблицей бу-
дет табл. 11.5. Она построена сле-
дующим образом. Имеется, напри-
мер, 300 студентов, которые получи-
ли оценку А. Это составляет 15%
-общего числа студентов. Если оцен-
ка не зависит от года обучения, то
254
для каждого курса число студентов,
получивших оценку А, должно со-
ставить 15%. Это значит, что нужно
взять 15% из 1000 первокурсников,
15% из 700 второкурсников и 15%‘
из 300 студентов третьего и четвер-
того курсов. Это дает нам теорети-
ческие частоты. Их можно было по-
лучить и иначе, взяв 50% от 300,
т. е. 150, 35% от 300, т. е. 105, 15%
от 300, т. е. 45 и далее.
В табл. 11.5,6 приведены часто-
сти. Это теоретические доли, или
проценты, где, например, значение
елн=0,0750 соответствует теоретиче-
ской частоте tfu=150, поскольку
*Лп=</и/АГ=150/2000. (Эти обозна-
чения объясняются в табл. 11.4.)
Полученные две таблицы можно
использовать в качестве стандарта
для сравнения. Если год обучения
никак не связан с оценкой (т. е.
если студенты третьего и четвертого
курса получают ту же долю оценок
А, что и первокурсники), то абсо-
лютные частоты и частости нашей
генеральной совокупности должны
напоминать таковые из табл.
11.5,а и 6. Сравнивая истинные зна-
чения абсолютных частот и часто-
стей со «стандартными», мы видим,
что оценка в действительности за-
висит от года обучения. Значитель-
но большая доля студентов третьего
и четвертого курса получает оценку
А и значительно меньшая доля этих
студентов получает оценки «ниже,
чем С» Так как данные', приведен-
ные в табл. 11.4, представляют со-
бой данные обо всей генеральной
совокупности, исследование на этом
заканчивается. При этом нам нет
необходимости использовать крите-
рий хи-квацрат для сопоставления
экспериментальных частот с теоре-
тическими.
На эту задачу можно посмотреть
и с вероятностной точки зрения.
Предположим, что мы имели бы ге-
неральную совокупность с частота-
ми, совпадающими с теоретически-
ми частотами из табл. 11.5. На этой
генеральной совокупности можно
было бы определить различные со-
бытия и вычислить их вероятность.
В этом случае табл. П.5,6 называ-
лась бы таблицей совместных ве-
роятностей, а величины <л./ и
носили бы название маргинальных
вероятностей. Например, Р (1) =
<11.1=0,5000, а Р (В) =<л.2=0,2000.
Частости в каждой из клеток рав-
ны вероятностям того, что одновре-
менно произойдут события Ех и Е2.
Так, Р(В, 11)=<Л2з=0,3000. При
ЭТОМ ВИДНО, ЧТО <Л23 = ?Л. а’/Л2.=
=0,15 0,2=0,03 и что вообще <я^=
Следовательно, можно
заключить, что эти события являют-
ся независимыми и что оба призна-
ка классификации независимы.
В действительности каждая «стан-
дартная» таблица с теоретическими
абсолютными или относительными
частотами строится по двум незави-
мым признакам. Тем самым сравне-
нение истинных частот и частостей
из табл. 11.4 с теоретическими ча-
стотами и частостями из табл.
11.5 является по существу про-
веркой того, будут ли признаки,
по которым проводится классифика-
ция частот, зависимыми или неза-
висимыми. Поскольку истинные зна-
чения относительных частот л,;
табл. 11.4 нельзя получить, умно-
жая л., на л,-., мы приходим к выво-
ду, что в нашей задаче оба призна-
ка классификации не являются не-
зависимыми. Отсюда и соответст-
вующий практический вывод. За-
висимость двух признаков класси-
фикации означает, что оценки зави-
сят от года обучения.
Предположим теперь, что полный
охват всей генеральной совокупно-
сти обошелся бы нам слишком до-
рого и что поэтому у нас нет воз-
можности составить табл. 11.4. Вме-
сто этого мы отобрали выборку с
л—600 и составили табл. 11.6. Вы-
борочные частоты из табл. 11.6,а
можно обозначить уже знакомой
буквой Jij, а соответствующие ча-
стости из табл. 11.6,6 можно обо-
значить буквой юц. Вся информа-
ция, которой располагает исследо-
ватель, заключена в этой таблице.
Он не знает, сколько во всем уни-
верситете первокурсников или вто-
рокурсников, и поэтому он не мо-
жет построить таблицу теоретиче-
ских частот, подобную табл. 11.5.
Но ему все-таки необходимо соста-
вить таблицу, с которой можно бы-
ло бы сравнить имеющиеся у него
данные.
Таблица 11.6. Экспериментальное
распределение оценок для выборки
студентов
а) Абсолютные частоты
Год обучения
Оценка I II III и IV
А	43	37	10	90
В	55	46	13	114
С	118	81	53	252
Ни;ке С	72	52	20	114
	288	216	96	600
6} Частости
Год обучения
Оценка 1 II III и IV
А	0,0717	0,0616	0,0167	0,1500
В	0,0916	0,0767	0,0217	0,1900'
С	0,1967	0,1350	0,0883	0,4200=
Ниже С	0,1200	0,0867	0,0333	0,2400
	0.4Я00	0,3600	0,1600	1,0000
Примечание- В табл, П-6, а частоты в клетках,
обозначаются через _f-.; в табл- Н-6, б частости в
ч
клетках обозначаются через Р...
Лучшее, что он может сделать,—
это воспользоваться полученными па
выборке значениями p.j и pi. и вы-
числить tpn. Это и сделано в табл..
11.7, где, например, tpi2=p.2-pr =
=0,36-0,15=0,054. Далее значения.
tpij умножаются на «=600, а соот-
ветствующие результаты заносятся
в табл. 11.7,6. Это и будут значе-
ния теоретических частот За-
метим, что <f,-j можно также полу-
чить, умножив суммы по столбцам
на суммы по строкал! и разделив
255.
Таблица 11.7. Теоретические
^значения частот и частостей»
полученные по выборочным данным
(классификация по двум независимым
признакам)
а) Абсолютные час ости
Гол обучения
Опенка I И 1П и IV
А	43,2	32,4	14,4	90,0
В	54,7	41,1	18,2	114,0
С	121,0	90,7	40,3	252,0
Ниже С	69,1	51,8	23,1	144,0
	288,0	216,0	96,0	600,0
б) Частости
Год обучения
Оценка I П III wlV
А	0.0720	0,0540	0,0240 '	0,1500
В	0,0912	0,0684	0.0304	0.1910
С	0,2016	0,1512	0,0672	0,4200
Н«*же С	0,1152	0,0864	0.0384	0,2400
	0,4800	0,3600	0,1600	1,000
это произведение на nt т. е, по фор-
муле=	п- На'
пример, Ju =288-90/600 — 43,2.
Теперь можно сравнить значения
часто ли, приведенные в табл. 11.6
я 1! .7. Мы видим, что два этих
набора частостей различны, однако
интерпретация этого факта может
отличаться от предыдущего случая.
В предыдущем примере мы сравни-
вали их истинные значения часто-
стей с их теоретическими значения-
ми по всей генеральной совокупно-
сти. Когда они различались мало,
мы говорили, что оценка слабо за-
висит от года обучения. Если эта
разница была значительной, мы го-
ворили, что такая зависимость су-
щественна.
256
Значения частостей из табл. 11.6,6
не являются истинными значения-
ми по всей генеральной совокупно-
сти. Это выборочные частости, кото-
рыми мы пользуемся как оценками
неизвестных истинных частостей.
Поэтому сравнительно небольшая
разница может быть обусловлена
скорее ошибкой выборочного иссле-
дования, чем существенной разни-
цей между Щ} и (Лц. Когда значе-
ния рц и tPa сильно различаются,
то из таблицы видно, что значения
лц и tTiij также существенно различ-
ны. Это то же самое, что отобрать
некоторую выборку и обнаружить,
что выборочные данные имеют LJ-
образное распределение. Тогда мы
без всяких критериев согласия мо-
жем заключить, что генеральная со-
вокупность, откуда отбирались эти
данные, не могла быть распределе-
на по нормальному закону. Однако
если рц или »f,j не так сильно от-
личаются от tPij или tfn, то нам бу-
дет не очень ясно, что сказать.
Именно в таком случае прийти к не-
которому заключению нам и помо-
жет критерий хи-квадрат.
С помощью этого критерия выбо-
рочные частоты „fit сравниваются
с теоретическими частотами tf<j
(табл. 11 8). Вычисления аналогич-
ны тем, которые мы проводили,
пользуясь критерием согласия %2*—
=9,741. Теоретическое значение хи-
квадрат, соответствующее а=0,01,
равно x2o,w;6=16,8. Отсюда мы за-
ключаем, что л/, несущественно от-
личается от <nfj. По всей видимости,
студенты различных курсов получа- .
ют примерно одинаковые оценки.
При этом не следует забывать, что
небольшие расхождения между ло-
и fjr«j можно обнаружить лишь с по-
мощью достаточно большой вы-
борки.
Когда мы пользуемся таблицами
сопряженности, число степеней сво-
боды следует принимать равным
v — (г— 1) (с— 1), где г—число
строк, а с — число столбцов, В на-
шей задаче v=(4—I) - (3—1)=6.
Это число можно следующим обра-
зом связать с процессом построе-
Таблица 11.8. Критерий хн»квадрат
		1^	4^ г	••-и "М Г
43	43,2	1 о ю	0,04	0.001
55	54,7	0,3	0,09	' о;оо2
118	121,0	— 3,0	9,00	0,074
72	69.1	2,9	8,41	0,122
37	32,4	4,6	21,16	0,653
46	41,1	4.9	24,01	0,584
81	90,7 1	—9,7	94,09	1,037
52	51,8	0.2	0,04	0,001
10	14,4	—4,4	19,36	1,344
13	18,2	—5.2	27,04	1,505
53	40,3	127	161,29	4,002
20	23.1	—3,1	9,61	0,416
600	600.0			9,741
Примечание. Дамм; взяты нз табл, 11.6 к П.7
ния таблицы теоретических частот,
таких как приведенные в табл.
11.7,6. Маргинальные суммы 288,
216, .90, ... 144 должны быть
такими же, как и в табл. 11.6,а.
Следовательно, оценивая значения
tfi,, мы можем выбрать только
(г—1)(с—1)=6 чисел. Шесть
остальных частот затем определя-
ются тем условием, что суммы ча-
стот по столбцам и по строкам дол-
жны равняться заранее известным
маргинальным суммам.
Это обстоятельство можно уви-
деть еще более наглядно, если рас-
смотреть таблицу сопряженности,
размерность которой 2x2. В этом
случае число степеней свободы рав-
но v=(2—1) • (2-~!) = 1. Мы «сво-
бодны» вставить в такую таблицу
только одну теоретическую частоту.
Три остальные частоты будут опре-
деляться маргинальными суммами.
Отметим, что если некоторые из
теоретических частот окажутся
меньше пяти, то их, как и в пре-
дыдущем случае, следует объеди-
нить. Так, мы уже объединили оцен-
ки D и F в одну общую категорию
оценок, «меньших С». Точно так же
мы объединили в одну категорию
17—232	'
студентов третьего и четвертого
курса.
Наконец, для таблиц размерно-
стью два на два можно пользовать-
ся поправкой Иейста на непрерыв-
ность. Эта поправка требует вычис-
ления критерия хи-квадрат по фор-
муле
Причина состоит в том, что часто-
ты таблицы сопряженности являют-
ся дискретными величинами, тогда
как функция f (%2) непрерывна. Ана-
логично используют некоторый по-
правочный множитель при подборе
нормальной кривой к биномиально-
му распределению для малых зна-
чений п.
Знакомясь с порядком использо-
вания критерия хи-квадрат, мы со-
ставили довольно много таблиц На
самом деле процедура применения
этого критерия состоит из меньшего
числа шагов. А именно:
1.	Отберите выборку и составьте
таблицу, подобную табл. П.б.а.
2.	Постройте таблицу типа табл.
11.7,6. Для этого сначала выпиши-
те маргинальные частоты из табл.
11.6,а. Затем выразите маргиналь-
ные частоты по столбцам или мар-
гинальные частоты по строкам в ви-
де долей от л—600. Если вы реши-
те пользоваться маргинальными ча-
стотами по столбцам, то ваши значе-
ния будут равны 0,48; 0,36 и 0,16.
Вычислите tfц, где, например, г/ц =
=0,48-90, ^2=0,36-90, /fI3=0,16-90,
tf21 =0.48-114. J22 = 0,36-114 и т. д.
3.	Примените критерий хи-квад-
рат, как показано в табл. 11.8.
11.3. ВОПРОСЫ И ЗАДАЧИ
11 1. В прошлом году на 1-й. 2-й, 3-й и
4-й курсы некоторого университета было
принято соответственно 32, 25, 23 и 20%
новых студентов. В этом году новый кол-
ледж в соседнем городе начал набор сту-
дентов, и приемная комиссия решила про-
верить, не отразится ли этот факт на но-
вом наборе этого года. Была отобрана
случайная выборка, включающая 1000 за-
явлений, которая дала следующие резуль-
таты: 240 заявлений на первый курс, 285—
на второй, 262—на третий и 213—на чет-
вертый.
257
а.	Выразите выборочные данные в про-
центах н сравните их с набором прошлого
года. На что указывает это сравнение?
б.	Примените критерий хи-квадрат с
уровнем значимости 0,05. Подтверждает ли
критерий хн-квадрат вывод, к которому
вы пришли в задаче 11.1,а? Была ли во-
обще в этой задаче необходимость при-
менять критерий хи-квадрат? Почему?
11-2. Фирма продает пять различных
моделей (ЛЛ В, Сл D, Е) некоторого това-
ра. Средние проценты продажи за прош-
лый год равны:
А	В	С	D	Е
15	19	29	26	11
Из соображений, диктуемых прибылью,
фирма решила несколько изменить реклам-
ную политику для товаров различных мо-
делей. После этого объем продаж за один
месяц оказался равным:
А	В	С	D	Е
120	190 330	270	90
а С помощью критерия хи-квадрат и
при уровне значимости 0,01 проверьте, от-
разилось ли изменение рекламной полити-
ки на объеме продажи.
б. Предположим, что объем продаж за
один месяц равен:
А	В	С	D	Е
190	120	90	330	270
Стоит ли применять критерий хи-квад-
рат в этом случае? Почему?
11.3. Допустим, что распределение оце-
нок но курсу «Статистика» из табл. 5.11
представляет собой данные некоторой вы-
борки. Тогда частоты Л являются выбо-
рочными частотами Мы хотим срав-
нить эти частоты с частотами нормального
распределения пЦ=чЦ. Имеем
л	th	sh	tf i		th
5	0.8	8	11.1	30	14,0
3	1.9	8	15,2	18	10,3
1	4.0	15	17,0	3	6.2
8	7.3	12	17.1	iTi	104,9
Преобразуйте нормальные частоты та-
ким образом, чтобы они давали в сумме
111. Для этого их следует умножить на
значение Л=111/104,9. Воспользуйтесь кри-
терием хи-квадрат при а=0,05 и проверь-
те, будет ли генеральная совокупность, из
которой отобрана эта выборка, распреде-
лена по нормальному закону. Сформули-
руйте ваше заключение.
11.4. Следовало бы ожидать, что экспе-
риментальное распределение, подобное
приведенному в табл. 7Д6, не будет су-
щественно отличаться от биномиального.
258
Ниже даны частоты, приведенные в этой
таблице:
h
6
16
19
20
2
1
64
Найдите требуемое биномиальное распре-
деление для л=40 и п=5. Постройте тео-
ретические частоты и примените критерий
хи-квадрат при а=0,01, чтобы проверить,
был ли эксперимент проведен надлежащим
образом. Как может случиться, что такой
эксперимент окажется смещенным?
11*5. Приведенное ниже распределение
частот имеет следующий смысл: Х=0 и
fi=22 означает, что в некоторой механи-
ческой мастерской 22 раза в течение не-
которой недели перед инструментальной,
кладовой совсем не было очереди ожи-
дающих инструмента рабочих.
	0	1	2	3	4
fi	22	29	33	9	7
Сравните распределение длин очереди
перед кладовой с распределением Пуассо-
на. Воспользуйтесь критерием хи-квадрат
при уровне значимости а=0»01.
11.6* Газета публикует результаты»
опроса общественного мнения, которые го-
ворят о том, что наибольшей поддержкой
избирателей пользуется кандидат /? (30%
избирателен). Затем следует кандидат В
(26% голосов), кандидат S (22%) и кан-
дидат Р (22%).
а.	Имеется ли существенная разница
между кандидатами с точки зрения под-
держки избирателей? Примените критерий»
хи-квадрат при уровне значимости а=0Л5>
считая сначала, что	а затем что»
«=□1000.
б.	В каком случае имеет смысл упоря-
дочить всех кандидатов по уровню под-
держки избирателей?
11.7. Универмаг решил проанализиро-
вать сроки погашения кредита для раз-
личных категорий своих клиентов. Выбор-
ка, включающая п=1200 платежей, дала
следующие результаты:
Время	Рабочие	Свяшен ники	Служа- щие	Всего
30 cyr. 30 — 90 сут.	380 220	220 200	120 60	720 486
Всего	600	420	180	1200
.Есть ли существенная разница между от-
дельными категориями покупателей с точ-
ки зрения сроков погашения ими кредита?
Проведите проверку с помощью критерия
хи-квадрат при уровне значимости а=
=0,05.
П.8. В двух различных регионах про-
годились две различные рекламные кампа-
нии, посвященные одному и тому же типу
товара. Мы хотим определить» реклама
какого типа эффективнее. Для этого были
случайным образом выбраны 100 магази-
нов. и руководству каждого из них был
задан вопрос: увеличился ли объем про-
дажи этого товара магазином более чем
на 5% или менее чем на 5%? Результаты
оказались следующими:
Реклама	Менее 5%	Бо-тсс 5%	Всего
Тип I	40	10	50
Тип 11	30	20	50
	70	30	100
Есть ли существенное различие в эф-
фективности этих двух рекламных кампа-
ний? Какая из них эффективнее?
11.9. В мастерской имеются три станка
шлифовальный станок, револьверный ста-
нок и токарный станок. Для компании вы-
годно, чтобы на этих трех етанках рабо-
тали только двое рабочих. Одинаково ли
хорошо работают эти двое рабочих на всех
трех станках? Была отобрана случайная
ъыборка из 600 деталей, которая дала зна-
чения, приведенные ниже.
’Таблица была составлена следующим об-
разом. Каждого рабочего попросили пора-
ботать на каждом из станков некоторое
фиксированное время, после чего детали
были проверены и подсчитаны годные (че-
бракованныс).
а. Имеется ли существенная разница
между А и В с точки зрения общего чис-
ла произведенных деталей?
б Одинаково ли хорошо работают двое
рабочих на всех трех станках?
	Шлифо- ВЭЛЬНзЙ CTdHDK	Реводьоер №4° станом	Токаояый станок	Всего
Л	85	153	42	280
В	95	177	48	320
	180	330	90	600
1 МО. Результаты опроса общественно-
го мнения из задачи Г1.6 были уточнены
с точки зрения поддержки кандидатов из-
бирателями южных и северных штатов.
Получилась следующая таблица1’
	R	в	S	р	Всего
N	200	156	128	116	600
S	100	105	92	104	400
Всего	300	260	220	220	1060
Имеется ли существенное различие
между кандидатами с точки зрения под-
держки их избирателями каждого из ре-
гионов?
1 Сокращения в таблице следует по-
нимать N— север (от англ, north), $ —
юг (от англ, south). — Прим ред.
В гл. 9 приводился метод сопо-
ставления Hi И |12 С ПОМОЩЬЮ и
-^2. Дисперсионный анализ применя-
ется в случаях, когда нужно срав-
нить больше, чем два р.
В разностном тесте, описанном в
гл. 9, оперируют непосредственно
•с Xt и В методе, приведенном
в данной главе, сравниваются две
дисперсии. Сравнивая их, исследо-
ватель устанавливает, значимо ли
различие между jp- Дисперсию вы-
числяют двумя различными спосо-
бами. При этом значения могут по-
I 7*
ГЛАВА 12
ДИСПЕРСИОННЫЙ АНАЛИЗ
лучиться равными или одно из них
больше другого. Если одно из зна-
чений существенно больше, то ц раз-
личны. Следовательно, мы можем
сказать, что заключения относи-
тельно м мы делаем с помощью
сравнения двух выборочных значе-
ний дисперсий, вычисленных двумя
различными методами. Конечно,
если ц известны, то в таком анализе
необходимости нет.
Аналогичным образом анализи-
руют ряд рц, Ц2, - • Мл. Однако это
только одна из моделей, к которым
259
можно применять дисперсионный
анализ. Другая широко применяе-
мая модель (обсуждается в разд.
12.2) проиллюстрирована табл. 12.1.
В ней представлена генеральная со-
вокупность, состоящая из подмно-
жеств, которые можно класси-
фицировать по двум признакам: по
столбцам и по строкам. Другими
словами, мы вычисляем в этом слу-
чае средние значения не только по
столбцам, но и по строкам.
6) Распределение
выборочных
данных
S
О
к
g.
Е
Таблица 12.1. Модель классификации
по двум признакам
а) Распределение
генеральной сово-
купности
Категория столбцов		Категория столбцов	
Н1Н2---НС H2LP-22 - •  Н2с	5	* ** N	Т Кате горня строк	*11*12 . . . ЛГ1г *21*22 ‘ * • *2с ХГ\Хг2  * • ХГс	*1 х2 хг
Н.1М-.2Н-С		X.tX.2 X с	X.
Рассмотрим пять школ (соответ-
ственно пять столбцов), обучение
в которых проводится четырьмя раз-
личными методами (четыре стро-
ки). Если бы у исследователя были
оценки всех учеников для всех пяти
школ, то он мог бы вычислить все
у и затем сравнить их. Тем самым
задача его была бы решена. Однако
если бы он хотел решить ту же за-
дачу, используя выборку, то он
представил бы результаты в виде
табл. 12.1,6. В этом случае было бы
целесообразно применить дисперси-
онный анализ и сделать заключения
относительно различных категорий
у на основе имеющейся выборки
данных. В статистике, как известно,
даже малые различия между у. су-
щественны. Однако малые различия
между выборочными X вовсе не оз-
начают, что у. существенно раз-
личны.
В этой главе мы рассмотрим
только два способа классифика-
ции— по одному признаку и по
двум признакам. Более сложный
дисперсионный анализ описан в
книгах Шеффе1, Ли2, Диксона и
Масси3 4.
12 1. КЛАССИФИКАЦИЯ
ПО ОДНОМУ ПРИЗНАКУ1
В модели классификации по одно-
му признаку предполагается выпол-
нение гипотезы у.1=у..2=.. .=у.л. Та-
ким образом, применяя модель к
исходным данным, мы проверяем
справедливость этой гипотезы. При-
мером являются данные, приведен-
ные в табл. 12.2. Интерпретация ги-
Т а б л л и а 12.2. Эксперименталтые
данные -(классификация го одному
признаку)
0} Обозначения	Например,
-	~ 4
tf) К/ = Р.. и
___________ п2
3 г — 0 р
в)
-Af.. >'
потезы аналогична рассмотренной
выше, т. е., если гипотеза отклоня-
ется, мы заключаем, что у сущест-
венно различны. Однако если гипо-
теза не отклоняется, то это не озна-
чает ,что у равны. Единственно, что
мы можем сказать, это то, что они
• Scheffe Н. The Analysis of Variance-.
N. Y_: John Wiley, 1959.
2 Li C. Introduction to Experimental
Statistics. N. Y.: McGraw-Hill, 1964.
3 Dixon W., Massey F. op. cit.
4 Иногда используется термин одно-
или двух-(трех)факторная классификация.
существенно не различаются. При
этом мы всегда имеем в виду, что
малые выборки не могут вскрыть
малые различия
Сейчас мы на примере покажем
читателю, как исследователь наи-
более простым способом может
сделать выводы относительно ц,
сравнивая дисперсии. Сначала
вспомним формулы для нескольких
дисперсий. Если мы имеем k сово-
купностей объемом Afj, <V2, -  Nk
со средними pi, р2,   •» |ла, то дис-
персию распределения генеральной
совокупности можно вычислить по
формуле 1
_ S (А',.-к.»14-2 (А',2-
jy, + Ars + ...
_Н.г)г 4~ • •• + E(A\-fe — p.ft)8 |2 jj
где цл — средние по столбцам. Если
данные, приведенные в табл.
12.2,6 и в, рассматривать как одну
генеральную совокупность, то дис-
персию последней вычисляют по
формуле
/ i
•••+*»).	(12.2)
где р — среднее генеральной сово-
купности, полученное по формуле
Дисперсия, из-
i *’
меряющая вариацию значений р-.у,
оценивается так:
. = 2(к.-р.)’/й.	(12.3)
С учетом того, что дисперсия рас-
пределения выборочного среднего
при выборке объемом п есть
q* —пз*!п,	(12.4)
получим формулу для дисперсии ге-
неральной совокупности 2.
са = лз2 *_.	(12.5)
1 Назовем о2р «объединенной диспер-
сией». — Прим. ред.
2 Назовем o2t «общей дисперсией».—
Прим. ред.
Подставляя данные из табл.
12.2,6 в формулу (12 1), вычислим
объединенную дисперсию генераль-
ной совокупности:
о2р = (20 4-20+20)/(4 4-4+4) =5.
При этом мы, конечно, предполага-
ем, что данные получены из гене-
ральной совокупности. Пусть р>=4,
тогда общая дисперсия, полученная
по формуле (12.2), равна
i l
Итак, очевидно, что обе дисперсии
равны, поскольку в рассматривае-
мой задаче равны дисперсии и сред-
ние для каждого из столбцов.
В данном случае [з2 .. и вычис-
ляемая по формуле (12.3), равна
нулю. Следовательно, сравнение
двух дисперсий (о2р и о2{) приво-
дит к заключению, что средние по
столбцам jij одинаковы.
Соотношение между дисперсиями
остается тем же самым и в задаче,
приведенной в табл. 12.2,в. Дейст-
вительно, дисперсии для каждого из
столбцов одинаковы и равны и2,=
=о22=о2з=5. Следовательно, и зна-
чение дисперсии генеральной сово-
купности, вычисляемое по формуле
(12.1) объединенной дисперсии,
остается тем же самым. Однако об-
щее среднее здесь равняется
=S S -ь -н =14-
/ i
Следовательно, общая дисперсия
равна
о2, =860/12=71,67,
т. е. намного больше объединенной
дисперсии генеральной совокупно-
сти о2р = 5 из табл. 12.2,5.
Итак, еще раз в примере из табл.
12.2.В объединенная дисперсия ге-
неральной совокупности равна дис-
персии столбцов. Однако общая
дисперсия больше, чем объединен-
ная дисперсия, а это означает, что
средние по столбцам различны. Та-
ким образом, если мы знаем две эти
дисперсии, то, сравнив их, мы мо-
жем сказать, различаются ли сред-
264
ние по столбцам. Следовательно,
мы можем получить статистический
вывод, не зная значений средних
по столбцам.
Теперь предположим, что данные
в табл. 12.2,в представляют собой
выборку, а не генеральную совокуп-
ность. Тогда вместо сравнения
с мы должны сравнивать (с тем
же самым результатом)
с
- X..y>(k ~ 1). (12.7)
где X..— общее среднее по всем
выборкам, вычисленное так же, как
и |i.В формуле (12.7) предпола-
гается, что все выборки имеют оди-
наковый объем п. Если это не так,
то надо применить следующую фор-
мулу:
=2л,(X .-X ..)»/(* -1). (12.8)
. Две последние формулы нужда-
ются в некотором пояснении. Эти
формулы были бы похожи на фор-
мулу (12.3), если бы мы в числите-
ле не использовали множители п
для (12.7) и для (12.8). Без
этих множителей мы получили бы
= 2 (X.{ - А' )7(*~ 1). (12-9)
которая уже использовалась в гл. 7
в несколько иных обозначениях:
а? □= S (Х< -
Формула (12.9) измеряет вариа-
цию выборочных средних X, и яв-
ляется оценкой а®_, приведенной в
соотношении (12.4). Если известны
я8_ и объем выборки п\ то □*_
можно использовать для вычисления
дисперсии генеральной совокупности
Г* =	.
X
' 1 Имеется в виду истинное значение
в—полного выборочного распределения при
с бъеме выборки л. — Прим. ред.
262
Если оценка а*_ была сделана на
X
основе выборочных данных, то дис-
персию генеральной совокупности
можно оценить по формуле (12.7),
которая получается умножением
(12.9) на п.
Дисперсия, обозначаемая в (12.7)
как $2Ь, является оценкой величины
. Однако, как мы уже го-
ворили, если средние по столбцам
равно нулю. В этом
р. равны, то 02ц
/
случае значение $2ь из (12.7) или
(12.8) становится оценкой только
первого слагаемого о2 и не будет
существенно больше объединенной
дисперсии 52р из формулы (12.6).
Если в то же время средние столб-
цов не одинаковы, то s2b становится
оценкой u2+n<Js .Эта величина 6v-
*4
дет существенно больше объединен-
ной дисперсии s2p. Итак, мы имеем
в дисперсионном анализе следующее
фундаментальное правило: если s2b
существенно больше (а не сущест-
венно отлично), чем s2p, то средние
значения р по столбцам существен-
но различны. Если з2ь существенно
больше, то дисперсия <г значимо
отлична от нуля, а тогда средние
значения р существенно различны.
Если s2b незначительно больше s2p,
то средние столбцов различаются
несущественно.
Полезно заметить, что существует
связь между числителями соотно-
шений ,(12.6) — (12.8). Можно пока-
зать, что
22<*« -х? =22(*«-
i i	i‘
В табл. 12.2,в мы имеем 860—60+
+ 4-200, а в табл. 12.2,6: 60=60+ 0.
Эти числители называются сумма-
ми квадратов. Первый, обозначае-
мый SS(, представляет собой полную
сумму квадратов, второй—SSti.—
внутригрупповую сумму квадратов,
а третий SSft — межгрупповую сум-
му квадратов
В дисперсионном анализе s~b на-
зывают часто средним межгруппо-
Таблица 12.3. Обобщенная -таблица (классификация оо одному признаку)
Источник дисперсии	SS		V . 1			MS	M (AIS)
Межгрупповая	SS6 = п!(Х.г	-X .)*	*1 =	/г —	1	MS(! = SSb/v1	о2 + Да2 р. ;
Внуг ригруп повая	SSw=^StXi 1 i i i  сумма квадратов;			л?-	~k		СТ2
Полня я		-х..Г	*3 =		- vs		
Примечание. SS —		— число <	степеней	свободы; Л		(S — средний квадрат:	Л! (MS) — мате-
матачкксе ожидание среднего квадрата.							
вым квадратом и обозначают MSb.
Итак, мы можем записать
A/St>=SSb/vi,
где S| — число степеней свободы.
Как видно из формулы (12.7), $1 =
=fe—1.
Дисперсию s2p называют «внут-
ригрупповой дисперсией» и обозна-
чают MSW.
Тогда (12.7) можно переписать
следующим образом:
MSW= sswfv2.
Значение v2 здесь равно знаменате-
лю в соотношении (12.6) v2—
= ^nj—k.
Таким образом, в задаче с клас-
сификацией по одному признаку
речь идет о сравнении MSb с MSW.
Если MSb^>MSw, то исследователь
заключает, что средние по столб-
цам pi.j существенно различны Са-
мо сравнение можно производить
с помощью F-статистики, описанной
в лодразд. 9.6.2 книги. Вычисляемое
F-значение получается из отноше-
ния F*=MSt,fMSw и сравнивается с
табличными значениями F (a,
v2) из табл. XI (см. приложение).
Основные соотношения обычно
представляют в табличной форме
(табл. 12.3). Здесь введен новый
символ nt=Znj.
Порядок вычислений показан в
в табл. 12.4 При этом используют
данные табл. 12.2,в. Результаты
вычислений сведены в табл. 12 5.
Вычисляемое среднее квадратиче-
ское отношение равно F* = 400'6,67 =
=59,97. Принимая о=0,05, находим
теоретическое значение F«185; 2; »=
=4,26. Вычисляемое значение F*
гораздо больше табличного; следо-
вательно, мы можем заключить, что
средние существенно (и мы мо-
жем добавить, значительно) раз-
личны.
Просматривая данные, читатель
может усомниться в необходимости
вычислений, приведенных в табл.
1_2.5._Действительно, определив
Х.2, Х.з, он видит, что они настолько
различны, что непонятно, зачем
нужно для установления этого раз-
личия прибегать к дисперсионному
анализу.
Однако если средние значения не
слишком различаются, то исследо-
ватель не может прийти к какому-
либо заключению лишь на основе
визуальных рассмотрений. В этом
случае дисперсионный анализ ока-
жется полезным.
Число категорий k может быть
задано априори или может быть
случайным. Проиллюстрируем это
на примере. Допустим, что студен-
там штата предлагается стандарт-
ный «юридический» тест1. Некая
организация, которой принадлежат
колледжи, хочет выяснить, наблю-
дается ли разница результатов по
штатным, городским, религиозным
и светским частным колледжам. Для
1 Этот тест называется pre-law и пред-
лагается абитуриентам при поступлении на
юридический факультет. — Прим. пер.
263
аблица 12.4. Вычисления для задачи с классификацией по одному признаку
(данные взяты из табл. 12.2, Ь)
а)	б)
S5w	ssb
хп		Xi2		ХЬ	(Xfn-X 3’’	ъ	(X f-X )*
г 5	9 1	11 15	9 1	21 25	9 1	4	100
3 7	i‘ о 1 tc — i 		13 17 Л’.2 = 14,	1 9 20 Л\3-24,	23 27 = 14	1 9 20 1	14 24	0 100 200
55к	.=2Six«7-^./ 1 i		г=2^ I	й-<>)2	—1”	SS6 = n2(XJ-* .P = /	
+2	®)г+3(А' 4	4			/з-Х ,)»:	= 204-204-20=60		= 4-200 = 800	
в)
xn			<*{t-x.r	xi,	lxi,-x..v
1	169	11	9	21	49
Э	81	15	I	25	12]
3	121	13	f	13	81
7	49	17	9	27	169
	— .  		——		..
	420		20		420
5S/ -= 2 2 (Д';/ - *..)* = S (*й - 14)* + 2 (Х* - |4)* + 2 (Х'2 ~ 14>* ~
I i	I	«
= 420 + 20 + 420 = 860;
SS/ = 2 2 <* *7 “ X- • У = 22 (X‘i — X^' + n^(x> —•*?.)* = 60 + 800 = 8C0.
/ »
каждой из указанных категорий от-
бирается выборка объемом п и при-
меняется дисперсионный анализ.
Теперь предположим, что органи-
зацию интересует, аналогичны ли
результаты по различным коллед-
жам штата. Пусть имеется, напри-
мер, 20 колледжей (20 категорий),
Таблица 12.5. Результаты дисперсионного
а на исследование отведена сумма
денег, достаточная лишь на органи-
зацию работы в нескольких учебных
заведениях. Тогда следует коллед-
жи выбрать произвольно и так, что-
бы k не было слишком малым. Объ-
ем каждой выборки п также дол-
жен быть не слишком малым. Не-
анализа
Источглк диспергин	SS	vi	MS	F*
Межгрупповая Внутрш рупповая Полная	8с S 00 0 430 ! ii и ;i ОС OS Со	я? < ш to М II II li — (О W	Л15ь = 400 jW5w = 6,67	59,97
Примечание. Лунные взяты из табл. 12.4.
264
смотря на то, что в данном случае
число колледжей выбирается произ-
вольно, дисперсионный анализ про-
водится по приведенному выше об-
разцу. Однако при интерпретации
результатов всегда нужно отражать
тот факт, представляет ли k все
исследуемые категории (колледжи)
или только выборку из категорий
(колледжей).
Примером применения дисперси-
онного анализа в бизнесе может
быть сравнение инвестиционных
компаний. Многие из этих компаний
утверждают, что у них высокий до-
ход. Исследователь хочет устано-
вить, обоснованы ли эти утвержде-
ния. Для этого он выбирает k ком-
паний, просматривает для них вы-
борки объемом п квартальных до-
ходов и сравнивает.
В промышленном производстве
примером использования дисперси-
онного анализа может быть задача
о сравнении шумового уровня воз-
душных кондиционеров. Компания
закупает часть ком ди пионеров у
k=5 различных предприятий. Инже-
неры знают, что шумовой эффект
наблюдается именно у этой части
кондиционеров. Исследуют и срав-
нивают п кондиционеров для каж-
дой из пяти различных фирм.
В сельском хозяйстве также ши-
роко применяют дисперсионный
анализ. Ученых может интересовать
продуктивность различных пород
скота или плантаций с различными
характеристиками. Возьмем не-
сколько видов рогатого скота. Если
они содержатся в одинаковых усло-
виях и получают одинаковый корм,
то можно сравнивать их по надою
молока, по его жирности и т. п.
В какой бы форме дисперсионный
анализ ни применялся, с его помо-
щью можно получить ответ на во-
прос: будут ли одновременно разли-
чаться все р? Это означает, что, не
ставя перед собой задачу упорядо-
чения всех значений р, исследова-
тель выясняет, существенно ли они
различаются между собой. Таким
образом, его интересует, ведется ли
преподавание во всех школах шта-
та по одной системе, так что резуль-
таты юридического теста не будут
при определенных условиях сильно
различаться. Однако он может
использовать эти данные и для ин-
дивидуальных сравнений. Такое
сравнение может быть сделано с по-
мощью разностного теста между щ
и (12. рассматриваемого в гл. 9.
Однако, если ему нужно провести
несколько сравнений, он не сможет
воспользоваться этим тестом. Ско-
рее он остановится па методе кон-
трастов, рассматриваемом в разд.
12.3.
Дисперсионный анализ обнаружи-
вает только, значимо ли различа-
ются все р, но не дает способа ран-
жировать их по значению. Напри-
мер, вычислив доверительные гра-
ницы для всех р, мы можем уви-
деть, что некоторые из интервалов
пересекаются. Только если ни один
из интервалов не пересекается, мы
можем составить упорядоченный по
значениям ряд р.
12.2.	КЛАССИФИКАЦИЯ ПО ДВУМ
ПРИЗНАКАМ
Модель классификации по двум
признакам состоит из совокупности
элементов, каждый из которых опре-
деляется категорией строки и столб-
ца. Такая модель описывается
табл. 12 1,а. Выборка из генераль-
ной совокупности приводится
в табл. 12.16. Таким образом,
в табл. 12.1,а мы видим значения
средних для столбцов (р./), средних
для строк (р,-.) и средних для каж-
дой ячейки (pi/), а соответствующие
выборочные статистики приведены
в табл. 12.1,6.
Описывая метод классификации
по одному признаку, мы привели не-
сколько примеров из его применения
в области исследования человече-
ской деятельности. Во всех этих
примерах предполагается,' что k со-
вокупностей однородны по всем ха-
рактеристикам, кроме одной. Эта
характеристика представлена зпаче-.
нием p.j. Цель дисперсионного ана-
265
лиза — выяснить, значимо или нет
различаются p.j.
Теперь несколько изменим наши
примеры, чтобы показать полезность
применения модели классификации
по двум признакам. Другими слова-
ми, изменим примеры так, чтобы
подвыборки можно было классифи-
цировать с помощью двух критери-
ев — а именно, с учетом категорий
столбца и строки.
В примере с юридическим тестом
категории столбцов определяют раз-
личные университеты штата. Но нас
может также интересовать, варьи-
руются ли результаты опроса в зави-
симости от профилирующей дисцип-
лины учащихся. Таким образом, мы
будем иметь еще и список профили-
рующих дисциплин, который и бу-
дет определять категорию строки.
Если в результате -дисперсионного
анализа окажется, что р., сущест-
венно различны, то ректоры уни-
верситетов или соответствующие го-
сударственные органы управления
должны задуматься о причине этого
явления. Вывод о том, что р,. суще-
ственно различны, должен заинтере-
совать консультантов теста. Резуль-
таты будут интересны и для соста-
вителей теста. Если цель разработ-
чиков теста — направлять учащихся
на юридический факультет вне за-
висимости от профилирующих дис-
циплин, то они должны изменить
тест таким образом, чтобы между
щ. не было существенного раз-
личия
Когда мы рассматривали задачу
об инвестиционных компаниях, то
мы интересовались лишь тем, значи-
мо ли различаются их средние до-
ходы. Теперь мы можем добавить
другой критерий — величину компа-
нии. Оба фактора представляют
интерес как для инвестора, так и
для администрации компании.
В примере с кондиционерами ин-
женеры могли бы предположить, что
шум порождается не одним, а дву-
мя факторами. Каждая подвыборка
тогда классифицируется также в со-
ответствии с другими категориями
(например, масса, размер), и произ-
266.
водится дисперсионный анализ. Та-
кой вид анализа часто представляет
собой единственный путь обнаруже-
ния дефекта в моторах.
Наконец, рогатый скот можно
классифицировать по породе и по
получаемому корму,
12.2.1.	Классификация по двум
признакам: одно наблюдение
в ячейке
Выборочные данные, классифи-
цированные по двум критериям, мо-
гут быть представлены в виде таб-
лицы, каждая ячейка которой соот-
ветствует одному наблюдению
(табл 12.6). Средние по столбцам
j.j и средние по строкам Xi. явля-
ются оценками соответствующих
средних для распределения гене-
ральной совокупности и р,_; нас
интересует вопрос, значимо ли раз-
личаются р для каждой из двух
категорий. Дисперсионный анализ
начинается с вычисления трех сред-
них квадратических характеристик.
Это средний квадрат по столбцам
MSC = SSJvt = rS (X у -
-X У1(с— 1),	(12.10)
где г равно числу элементов в столб-
це; средний квадрат по строкам
AlSr = SSf/vtr=c2(X;
-X)s,'(r-1),	(12.11)
где с равно числу элементов в стро-
ке; и остаточный средний квадрат
(или средний квадрат ошибки)
SSe/va =2 2 (*-7 ~	} ~
j i
— Xf -|-X )*/[(£—l)(r—I)]-
(12.12)
Можно показать, что числители этих
трех формул связаны соотношением
22r-s^-x.r +
+Е(Х(.-Х..)’-ь _
+2S^o-^7-^-+^)a-
(12.13)
Та б ли на 12.6. Числовой пример дисперсионного анализа
	A	a)		D	x<
		В	c		
a	10	10	10	10	10
b	10	10	10	10	10
c	10	10	10	10	10
*•/	10	10	10	10 <	lx — 10 1 B •
ЗЕ(Х..— Х..)*=0; 4Е (X-X. )2U);
/ *
/ <
б)
	A							в	c	D	X. 1
	2	1	—1	—2	0	я	12	11	9	8	10
«»•/ =	— 1	1	1	—1	0	b	9	11	11	9	10
	—1	—2	0	3	0	c	9	8	10	13	10
	0	0	0	0		X. 1	10	10	10	10	Л _ 1 )
ЗЕ(Х j — X _)* = 0;	4Е(Х/.-Х..)®=-=0;
/ i
i I

«./ = (3,1, -2, -2)
3S(X./-X..)' = 54; 4S(X,.-X.)’ = 0;	(*<,—*./-X., + X..)2 = 28;
/ I
X.)> = 82;
1 •
-267
		г)					А	Продолжение табл. /2.6				
								в	C D	x,-		
^i- =	( 3> \ 1				a b c	1 1	18 11 К)	15 11 7	10	9 8	6 6	9		13 9 8	
					д1	-/ 13		11	8	8		X.. = Ю	
A..)a=54; 4Е(ЛГЬ — X„)= 23<*< / < Прим e чание. Обозначения: её . — ошибки, Ге I г				/— f	56; 1 i -XJ*= 138. о-1Я«.м* стдэ:<. ее j -			-X.}-Xt,+^..) - злиякне столбцов.		г _	= 28;	
Это соотношение в табличной форме приведено в табл. 12.7,а. Предположим, что задача записа- на в виде табл. 12.6,г. Результаты дисперсионного анализа для нее представлены табл. 12.7,6. Средний квадрат по строкам вычисляется по формуле (12.11). Он составляет MSr=4f(13-10/ + (9- 10/+ + (8—10/J-’2^28,					Средний квадрат no столбцам вы- числяют с помощью формулы (12 10) MSC-=3|(13- 10/+ (11 - ю/+ + (8 — 10/ + (8 - 10/]-3= 18. Остаточный средний квадрат можно получить по формуле (12.12) AfSe^I(18 - 13- 13+Ю/+ (11 - - 13- 9 + Ю/ + (10 - 13-8 +							i J
Таблица 12.7. Классификация по двум признакам (одна ячейка) а) Обобщенная таблица												I
				V				MS			E(MS]	1 1 i
Строки Столбцы Оста I ок	ssr- ssc= SSe =	:C^(Xi_ -X. У  rS (X; — Aj2  22^'/ + i l_ . + A'..)»	2 /		11	II	II С?	»	-ч ?	1	1	-1 -1 -1)(г-1)		MSr MSe MSe	II II II Co to to Co to to i £ £ « “v	**	G‘ a' <r	2 4- ^°2r 8 + r^c г	1 1 1
	-X,-											
Всего	sst-	SSwj—* / ‘	.)*		= П/		1				-	
б) Вычисление результатов из табл. 12.6,г												
		5$				MS			F* =	MS/MS" KJ		1
Строки Столбцы Остаток		56 54 28	2 3 6				28 18 . 4,67		6.0 3,9		 •	
Всего		138	11									
268												J
4-Ю)2^-j-(15- ii - i34-io)2+.
+ (11 - 11 - 9+Ю)!+ .- + (9-
— 8 — 8 + 10)*]/6=4,67.
Однако легче было бы сначала най-
ти суммы квадратов, а затем полу-
чить средние квадратов. Из соотно-
шения (12.13) SS«=SSt—SSr—S$c,'
и легче было бы вычислить SSt, чем
3Se. Полная сумма квадратов
равна:
SS< = (18-10)4-(11 -
- 10)’ +(10- 10)2 +
+ (15-10)а+...4-(9-10)*=138,.
Так как SSr=56, a SSC=54, то SSC
получаем нз SS,.=138—56—54=28 и
/4^=28/6=4,67.
Первое расчетное А* равно F*r=
=28/4,67=6. Его надо сравнить
е теоретическим F-значением. При-
нимая' а=0,05, находим Е'оэ5:2;б=
=5,14. Отсюда мы приходим к за-
ключению, что значения р для под-
множеств, классифицированных по
категориям строк (т. е. щ), сущест-
венно различны. Итак, используя
термин «влияние строк», мы можем
утверждать, что «влияния строк»
существенно различны и что они по-
рождают существенное различие
в р-.
Чтобы исследовать влияние столб-
цов, вычисляют F*C=I 8(4,67=3,9
Теоретическое значение F при том
же самом уровне значимости
F095; з; с>=4,76. . Значения 14 (или
влияние столбцов) несущественно
различны.
Чтобы лучше понять сущность
дисперсионного анализа, следует на-
глядно показать, как табл, 12.6,г мо-
жет быть построена из начальной
таблицы, т. е из табл. 12.6.Л, в ко-
торой все значения А\>, Л’./ и Xi.
равны,- Следовательно, MSr=MSc—
—MSe=6. В табл. 12.6 добавляются
остатки или, как нх еще называют,
«влияния ошибок» eet}, в результате
чего SSe=28. Две другие'суммы
квадратов пока остаются нулевыми,
так как разности (X./—А..) и
(Xt—Х„) равны нулю. Следователь-
но, полная сумма квадратов SSt=
=SSe=28. В табл. 12.6,в добавляют-
ся эффекты столбцов се'}, в резуль-
тате чего SSC—54, но SSe остает-
ся прежним, так что SSe=28, а
SS<=SSc+SSe=82. Наконец, в
в табл. 12.6,г добавляются эффекты
строк ret_, что дает нам SSr—56 и
SSt=SSr+SSe+SSes®l 38.
. Совершая обратную .; процедуру,
мы можем из'табл. 12.6,г получить
. табл. 12.6,а. Однако не все таблицы
можно, разложить таким образом.
Таблицы,' в которых нельзя выде-
лить аддитивные слагаемые в столб-
цах и строках, невозможно свести
...к виду табл. 12.6.	•	... -
Возвращаясь к модели, приведен-
ной в табл. 12.1,а,- можно сделать
следующее утверждение. Диспер-
сионный анализ основан на незави-
симости или'аддитивном свойстве
эффектов ..столбцов:!! строк, а’также
остаточных/эффектов: Это можно
записать в виде -'	•
.	I -  I -	*.  » •-
й/=Р-
В литературе встречается- следую-
щая запись этого выражения:’: . .
где р, at,. — константы, a et} —
нормальйо распределенная случай-
ная величина со средней, равной О,
И дисперсией, равной о2.	. .. . ,.,г
Это; аддитивное свойство на прак-
тике встречается, редко. Предполо-
жим, что .к некоторой смеси,-йз . ко-
торой делаются пластиковые палоч-
ки, добавляются два химических ве-
щества. Добавление вещества. А
увеличивает прочность материала
на 10%. Добавление вещества В
( увеличиваем прочность на 8%. Одна-
ко это не означает, ..что добавление
обоих веществ увеличит прочность
на 18%.
. 1		.	 г
12.2.2.	Классификация гтр двум
признакам: несколько' наблюдений
. ,	. , в ячейке
Тдблида. 12.8 является-.обобщаю-
щей таблицей, иллюстрирующей за-
плачу с более чем одним наблюдени-
ем. в ячейке. Часто.вместо термина
' .'«наблюдение» в дисперсионном ана-
лизе, применяемом к, удучным....экс-
’^269
Таблица 12.8. Классификация по двум признакам (несколько наблюдений
в одной ячейке)
а) Обобщенная таблица Хщ	б)
Категория столбцов
А Б В	А Б В
^11» Категория	*** ы м г» «В И	М М	«9 ммм »	w	» ***	*1 в* о ь> *1*1 м	ЛЭ	м •	»	*».	х,.. Хг..
строк	v Л2>1	*** МММ МММ ММ»	*** МММ W м м мм»	Хг..	Х ’•	*1 ю 1	х.}.	Л • • •
						
Таблица 12.9. Классификация по двум
признакам для задачи с несколькими
наблюдениями в одной ячейке
Категория столбцов
ЛЕВ
периментам в сельском хозяйстве и
биологии, используется термин «ре-
продукция:». Имеется обычно в виду
повторение измерений и эксперимен-
тов, чтобы увеличить степень репре-
зентативности опыта. Заметим так-
же, что случайные переменные
в табл 12.8,а имеют дополнитель-
ный индекс 4=1, 2 ..., где п — объем
выборки или число повторений
в каждой ячейке.
Как и прежде, общий объем вы-
борки обозначается tit и использует-
ся для вычисления общей сред-
ней X .
В любом анализе такого рода
всегда вычисляют выборочные сред-
ние для ячеек, строк и столбцов (см.
табл. 12.8,6). Рассмотрение их дает
ценную информацию исследовате-
лю. Формулы для вычислений име-
ют вид:
=2 ДЛЯ г =(1, 2, .... г),
/
/ = (1. 2. с)\	(12.14)
2 2 X‘Wrn для / =
i I
_ =(1,2......с);	(12.15)
xt =22 х<н'сп для i=
j t
= (1.2...г);	(12.16)
X ^WCijJrcn^S^Xmlnt.
(12.17)
Числовые значения этих средних
для данных из табл. 12.9 приведены
в табл. 12.10,6.
270
Катего-
рия
строк
16
20
17
20
12
13
9
Н
10
12
8
13
10
10
13
6
9
9
Формулы для вычисления всех не-
обходимых сумм даны в табл..
12.10,а н б. Используя эти формулы*
получаем:
1

4
5
-

4
ч
°’
i
%
-
4
Таблица 12.10. Классификация по двум признакам (несколько наблюдений
в одной ячейке)
я) Обобщенная таблица
Источник дисперсии	SS	V	£(MS)
Главный эффект строки Главный эффект столбца Эффект взаимо- действия ячеек	S.Sr = cnS(Xf.. — X'Y SSc = rriE (X y ~Y )S SS^n^iX^-Xi.- -x‘,+x-,.	7 1	1	X II	li 1 к v	к II >	о*-Ьспа‘иЛ »a+"«V/. o2 nv2e
Общий межъ- ячейковый эффект Внутрмячейковый эффект (ошибка)	SSb^n^^tXa-X.y i i 35ц, = ЕЕЕ(Х,7-Х;/с)*	vb — ГС — 1 v = rc(n — 1)	<3^ _!=. Дд® . . 9*
Полная	$$, = ЕЕЕ(Л//в-У)«	V/ =ГСП— 1	
О) Вычисления для данных из табл. 12.9
a	X Лп, — 3	—	45 *>’=-	X A,a. — 3	—	128 л,.. — 9	
b	X л*«- — 3	y yt28. —	3	A«s- — 3	Л*-~ 9	
	X x * — 6	X A-«- " 6	x -- -Л.*. — 6	V	“1®  “ 18	
в) Таблица конечных результатов
Источник Дисперсии	5S	> {	MS	F»	^'о.ЭЗ, v. t
Главный эффект страны	SSr = 80.22	1	80,22	12,9	4.8
Главный эффект столбца	SSC==92.44	2	46,22	7,4	3.9
Эффект взаимодействия ячеек	SSe = 16,45	2	8,22	1.3	3,9
Общий межьячейковый эффект	SSb = 189,11	5	37,82	6.1	3.1
Общий межьячейковый эффект	SS„,= 74.67	12	6,22		
Полная	SSf=r 263,67	17	-—	—	—
Поскольку SSe=SSb—S5,—SSC, to эту величину можно не рассчиты- вать. Остальные суммы квадратов равны:	SSW = (16 -	Y 4- /20 -	+
/33	218 у + ("3	18 ) /24	218	у + 3	~‘	18 )	+ ... , \ = 189,11;	... +(9—^-¥ = 74,67;
271
sst =
218 V
+8/
218 V
18 I
Заметим, что SSi=SSb-|--S>Sw. Таким
образом, нужно вычислить либо
SSW, либо В общем достаточно
знать SS* S5C. SSi и SSW, чтобы
получить таблицу конечных резуль-
татов.
Описываемый метол используют
более широко, чем любой другой.
С его помощью можно установить
разницу между эффектами строк
или, что точнее, средними по стро-
кам pi.., эффектами столбцов или,
что то же самое, средними по столб-
цам pj, а также между средними
отдельных ячеек pij- Для последнего
теста надо вычислить MSt, и MSV.
Это можно сделать совершенно не-
зависимо,. т. е. без вычисления дру-
гих сумм квадратов. Формулы их
вычисления такие же, как и в слу-
чае классификации по одному при-
знаку. Порядок вычислений приве-
ден в табл. 12 2—12.5. В рассматри-
ваемом примере имеется шесть сред-
них для каждой ячейки p/j., что
соответствует шести категориям
в модели классификации по одному
признаку. Расчетное F* получается
так же, как и в табл. 12.3. Таким
образом,	F* — MSb/MSv =
=37,82/6,22=6,1. Поскольку теоре-
тическое значение F меньше этого
значения, то мы заключаем, что раз-
ница между средними шести ячеек
существенна или что эффекты ячеек
существенно различны. Результаты
этих и других сравнений приведены
в табл. 12.10,в. Все расчетные F*-
отношения получаются делением со-
ответствующих средних квадратов
MS на /145^=6,22. Оказывается, что
эффекты строк и столбцов сущест-
венно различны, а эффект взаимо-
действия ячеек — нет. Это означает,
что данные сопоставимы, т. е. что в
них отражаются лишь эффекты
272
строк, столбцов и меж'ьячейковые
эффекты. Такая ситуация желатель-
на для исследователя: ведь если су-
ществен эффект взаимодействия, то
он накладывается на главные эффек-
ты, а это затрудняет интерпретацию
последних. Как видно из табл.
12.10,а, с помощью среднего квадра-
та взаимодействия ячеек MSe мож-
но оценить о2+по2е. Если эффекты
взаимодействия несущественны, то
о2е несущественно отличается от ну-
ля. Следовательно, MSC будет оцен-
кой одного слагаемого о2, и MSe и
MSW можно объединить *. Это объ-
единение более или менее оправда-
но, если F* = MSe!MSw меньше, чем
2F, ч v „ - Для нашего случая
имеем ve=2, vw=12, Го, 5,2,12=0,735
и, следовательно, 2Г0,5= 1,47
(Го,5 в соответствующей таблице
приложения найти нельзя). Расчет-
ное Г*-отношение равно 1, 3, что
меньше 1,47. Следовательно, обе
средние суммы можно объединить.
Именно это мы и полагаем, склады-
вая SSe и 55^. Их сумма равна
16,45+74,67=91,12; v,=2+12=14.
Остаточный средний квадрат вычис-
ляется из AfS„=91,12/14=6,51. По-
следний и другие результаты сведе-
ны в табл. 12.11.
В ранее рассмотренных случаях
число категорий по строкам могло
быть либо максимальным, либо вы-
боркой из большего числа катего-
рий. То же самое относится к
к столбцам. Существует и смешан-
ная модель, в которой одна группа
категорий представляет всю сово-
купность, а другая выборку. Как
уже отмечалось, число элементов
в ячейке п может быть различным
для разных ячеек. Наконец, для на-
блюдений в каждой ячейке делают-
ся обычные предположения, т. е. это
независимо и нормально распреде-
ленные величины, с одинаковой дис-
персией а2.
* Г. Шеффе отрицательно относится к
подобному объединению MSt взаимодей-
ствия ячеек с внутриячейкового эф-
фекта (ощибок), называя его «сомнитель-
ной практикой» (см. подробнее Шеффе Г.
Дисперсионный анализ).— Прим. ред.
Таблица 12.11. ('бъедкнекие сумм квадратов из табл. 12.10, в
ИстотннК ДНС1ИДОНН	SS	V	MS	Г»	^0,95, vu
Главный эффект строки Главный эффект столица Остаток	СЧ ** GS (М чг — OOl — CQ о? Оз 11III	г г II 1! II - to -	50,22 16,22 6,51	>2.3 7.1	4,8 3,9
Полная	SSj = 263,78	V/ = 17			
12.3- ОРТОГОНАЛЬНЫЕ
КОНТРАСТЫ
С помощью дисперсионного ана-
лиза исследователь устанавливает,
существенно ли различны р. Инди-
видуальные сравнения между парой
р можно сделать, используя разно-
стный тест, описанный в гл. 9. Одна-
ко такой тест не действует в случае,
когда необходимо ранжировать р.
Как уже отмечалось в разд. 12.1, та-
кое ранжирование возможно лишь
при условии, если доверительные
интервалы не пересекаются.
Гораздо больше индивидуальных
сравнений к тому же одновременно
позволяет делать метод ортогональ-
ных контрастов, который будет опи-
сан ниже. Контрасты могут быть по-
лучены из значений выборки Х{ц
и значений средних: средних по
строкам и столбцам, средних для
каждой ячейки и т. д. Принцип при-
менения метода одинаков во всех
случаях, здесь мы обсудим вычисле-
ние контрастов для средних.
Вычисление ортогональных кон-
трастов требует вычисления частных
средних квадратов (PMS). Послед-
ние используются затем при провер-
ке разности между отдельными
средними или различными группами
средних. Эту проверку проводят
с помощью сравнения расчетного F*
с теоретическим F-значением. Дру-
гими словами, процедура проверки
аналогична описанной выше. Инте-
ресно, что частные средние квадра-
ты в сумме дают вычислявшиеся
выше средние квадраты.
Контрасты — это разности между
средними, получаемые с помощью
скалярного произведения векторов,
18—232
Читатель знает, что вектор может
рассматриваться в двумерном, трех-
мерном и л-мерном пространстве.
Двумерное пространство — пло-
скость; каждая точка на плоскости
может быть записана как Р=2, 3,
где по общему соглашению 2 откла-
дывается по горизонтальной оси,
а 3 — по вертикальной оси в ортого-
нальной системе координат. Эту точ-
ку можно назвать также векто-
ром V. В общей форме векторы за-
писываются как V=(O|, а2), V=(bit.
b2) или V=(%i, х2) и т. п. В трех-
мерном пространстве вектор запи-
сывается в виде V=(ai, а2, а2), в
n-мерном пространстве в виде V =
~ (^1, О2...^п) 
Из основных определений вектор-
ной алгебры нам надо знать только
правила сложения и скалярного
умножения векторов. Для заданных
Vi=(ai, а2, а2) и V2=(blt b2, Ь2),
где элементы векторов ti, и Л,—
действительные числа, определим
V| +V2= (<?i + bi, a2+b2, Пз + &з). Для
V,=(—1, 1/2, 3) и V2=(l, 1, -2)
имеем V] + V2=(0, 1, 5, 1). Итак,
согласно определению суммой век-
торов будет вектор.
Скалярное произведение двух век-
торов определяется так: ViV2=
—(aifei-l-а2Ь2+азМ- Для приведен-
ного выше примера имеем V1V2=
=(—1, 1/2, 3)(1, 1, —2) =6,5. Оче-
видно, что скалярным произведени-
ем двух векторов будет не вектор,,
а действительное число.
Ортогональные контрасты в дис-
персионном анализе получаю гея
с помощью определенного вида ска-
лярного умножения. Такое скаляр-
ное умножение представляет собой
273-
^некоторый способ нахождения част-
ного среднего квадрата или PMS.
Этот метод лучше всего пояснить
на примере.
В случае классификации по одно-
му признаку, который был описан
с помощью табл. 12.4 и 12.5, име-
лись три выборочных средних: ,?i=
=4, Х2=14, Я3=24 и М$ь=400. Нам
нужно найти два контраста и две
суммы РЛ1Х так, чтобы XPMS=
=MSft=400. Перепишем три выбо-
рочных средних в виде У=4, 14, 24
Этот вектор умножим (скалярно)
на векторы контрастов. Для получе-
ния М$ь=400 число векторов кон-
трастов и скалярных произведений
должно быть равно числу степеней
•свободы V, использованных при вы-
числении AlSb. Для данного случая
имеем из табл. 12.5 v=2; следова-
тельно. нам нужны два ортогональ-
ных вектора определенного вида, на-
зываемых векторами контрастов.
Если число степеней свободы v=5,
то число векторов контрастов также
будет равно 5.
Векторы контрастов строятся та-
ким образом, что Sa,=0, все воз-
можные комбинации скалярных про-
изведений этих векторов также рав-
ны нулю. Если выполняется послед-
нее условие, то векторы называются
ортогональными. Например, векторы
Vt = (--2, 1, 1) и V2=(l, 1, 1) будут
ортогональны, так как их скалярное
произведение V( V2= (—24-14 1) =0.
Если мы изобразим эти векторы в
трехмерном пространстве в виде от-
резков, исходящих из начала коор-
динат, то оба отрезка будут перпен-
дикулярны друг к Другу. Это имеет
место всегда, когда скалярное про-
изведение равно нулю.
Два вектора предыдущего приме-
ра ортогональны, но не являются
векторами контрастов, так как не
удовлетворяют другому требова-
нию — а именно, сумма элементов
должна равняться нулю. Векторы
Vi=(-1, 0, 1) и V2=(l, -2, 1)
удовлетворяют обоим требованиям:
действительно, Sa,- для Vi равна
—1-4-04-1=0, а S6{ для V2 равна
1- 2 + 1=0 и V,V2=—1+04-1=0.
274
Ортогональными контрастами
для i=(I, 2, ..., v) называют числа,
равные скалярному произведению
вектора ортогональных контрастов
на вектор выборочных средних. Так,
например, взяв в качестве векторов
ортогональных контрастов векторы
из примера выше и умножив их на
выборочные средние, получим
^=^^=(-1, 0, 1)(4, 14, 24)=20;
C2=V2V=(1, -2, I) (4, 14, 24) =0.
Можно взять другую пару векторов
ортогональных контрастов: V|=(l.
—1,0) и V2=(—1, —1, 2); суммы:
2^-14-1+0=0, 26^-1-14-2=
=0, произведение Vr1V2= 1 — 14-0=0.
Используя эти векторы, получим
другую пару ортогональных кон-
трастов:
€?! = (!, —1, 0) (4, 14, 24)=—10;
С2=(—1, —1, 2) (4, 14, 24) =30.
Средний квадрат ALSft=400 может
быть теперь представлен в виде сум-
мы частных средних квадратов
PMSbi для i=l, 2, .... у. Для /=
= 1,2 имеем
MSb = PMSbl 4- PMSbt =
где n — число значений (объем вы-
борки), с помощью которых форми-
руются компоненты .вектора V. Ве-
личина V2! равна скалярному про-
изведению вектора V, на себя. На-
пример,
V»9 = (l, -2, 1)(1, -2, 1) =
= 14-44-1 =6.
Для первой пары контрастов:
= (20)’ ( — 1 0 1) ( —t, о. 1)2 +
4- 0 = 400.
Для второй пары:
М$ь = (—10)	_|t о) о)2 +
+	-1, 2)(-l, -1. 2) =
= 400.
Конечные результаты можно пред-
ставить в виде таблицы. Таблица
12.12 состоит из двух частей.
В табл. 12.12,а первый контраст есть
Таблица J 2.12. Контрасты и частные
средние квадраты для данных из
табл. 12.5.
а)
У = (4, 14, 24)	Q	С* i	п P/V	PMSbl
V, = (-l. 0,1)	20	400	1	400
Vt = (l, -2, 1)	0	0	J/3	0
AfSb= 400
6)
V = 4, 14. 24	Ci		n Pp	PMSbl
V, = (l,-l,0)	-10	100	1	100
v2 = (-1,-1,2)	30	900	J/3	300
MSb = 400
Прхмечанне. С{. — V.V.например. С,=(1,— I, 0)Х
Х(4. 14. 24) = —10; я — объем выборки (л = 4):	=
= V.V(.. например. V»4 — (I, —2, I) (1. —2, 11 = 6( »—
—число степеней «оболы для MSb (» = 2); л/lV’i») =
= 4Д6-2) — 1/3.
Таблица 12.13. Контрасты и частные-
средние квадраты для данных из
табл. 12.7
я) Средние по столбцам
V- (|3. 11. 8. 8)	ci		I	
vt-(l,1,-1, -1)	8	64	1/4	16
Vs=(0, 0, -1, J)	0	0	1/2	0
V1 = (-l, J, 0, 0)	...2	4	1/2	2
MSC = 18
б) Средние по столбцам
V= (13, 11, 8, 8>	c. t		c	Ct
V,=(—1, —I, 1, 1)	—8	64	1/4	16
'.-I, 1)	—2	4	1/4	1
V,-=(l,-J, -1, J)	2	4	1/4	1
Л15с = 18
контраст между Ji (ему соответст-
вует первый элемент V) и Хз (ему
соответствует третий элемент V),
поскольку Vi представлен вектором
—1, 0, 1. Второй контраст — между
Х1 и Хз (положительные элементы
V2), с одной стороны, и удвоенным
Х2 (отрицательный элемент V2),
с другой стороны. В табл. 12.2,6 дан
первый контраст между Xt и Х2,
а затем Xi и Х2 сравниваются со
взвешенным значением .Y3.
Каждая частная сумма, вычислен-
ная из этих контрастов, всегда име-
ет одну степень свободы. При про-
верке различия между щ и р-з с по-
мощью суммы PMSbl из табл.
12.12,а найдем
Г*=PMSbi/MSw=400/6,67 = 60,
где MSW можно взять из табл. 12.5.
Это значение F* сравнивается с таб-
личным Го,95; 1; 9=5,15.	Приходим
к заключению, что щ и Цз сущест-
венно различны.
Используя значение PMS^ нз
табл. 12.2,6, получаем F*=
=100/6,67=15. Сравнение этого зна-
чения с табличным Л),9Б; и г>=5,15 по-
казывает, что pi и р,2 существенно
различны.
18*
К
Примечание. л=3 и * = 3 для средних по
столбцам в частях а и б; п — 4 я v = 2 для средних,
по строкам в часта в.
В табл. 12.13 приведены некото-
рые контрасты для средних по-
столбцам и по строкам. Если число
степеней свободы для среднего ква-
драта MSC по столбцам v=3, то чис-
ло векторов контрастов также долж-
но быть равно трем. Как и ранее,
все возможные скалярные произве-
дения векторов контрастов равны
нулю. Другими словами, ViV2=.
=ViV3=V2V3=0. Все остальные вы-
числения аналогичны рассмотрен-
ным в предыдущем случае. Для
определения значимости разницы
вычисляют различные средние квад-
раты PMSci или PMSri. Для полу-
чения Г*-значений вычислим Г*=
= PMS/MSe=PMS/4.67. Например,
из табл. 12.13,а находим PMSC|=16;
275-
а.блица 12.14. Контрасты и частные средние квадраты для данных из табл. 12.10
а} Средние по ячейкам
Г=(53/3. 33/3, 45.3. 33/3, 30/3, 24/3)=(17. 7, 11, 15. И. 10. 8)	ci	<>1		™Sbi
1, 1, -I, -1, _]) V, =(1, 0, —1, —1, 0, 1) V, = (1.0, -1. 1. 0, —1) V4 = (l. —2, 1, 1. —2, 1) Vs = (l, —2, 1. -1, 2. —1)	14.7 —0,3 <5,7 9,6 11,6	216,09 0,09 32,49 92,16 134,56	1/10 3/20 3/20 1/20 1/20	21,61 0,01 4,87 4.61 6.73
	(Г) Средние по столбцам		•	AfSb = 37,83
1^= (86/6* 78/6, 54/6)= =(48/3, 39/3, 27/3)	С1	С*1	л/(Р-»)	™sci
II II 1“ “| 1 ’“<9 кэ	4/3 28/3	16/9 784/9	3/2 1/2	8/3 392/9
MSC^ 46/22
Примечание. п—3 н *=5 для средних ni Я1е1юя d Т15и. 12.14, а; л=6> v=2 для средних по столбцам
s табл. 12.14. б.
•и, следовательно, Г*=16/4,67=3,43.
•Сравнивая это значение с таблич-
ным ^0,95; 1; 6=5,99, ПРИХОДИМ К ЗЭ-
ключению, что разница между сред-
ним для первого столбца и средним
для второго столбца несущественна.
Контрасты и частные средние
квадраты для средних по ячейкам и
средних по столбцам, приводимых
.в табл. 12.10, показаны в табл 12.14.
В части табл. 12.14,а мы видим
5 векторов контрастов; все возмож-
ные комбинации скалярных произ-
ведений каждой пары этих векторов
должны равняться нулю. Чисдо
всех нулевых комбинаций определя-
ется из
v!/[(v—2)!2!]=5!/(3’2!)=10.
Все ^-значения определяют из от-
шений вида F*—PMS >MSW=
=PMSfQ,22. Аналогично вычисляют
контрасты для взаимодействия меж-
ду ячейками.
I
12.4.	ВОПРОСЫ И ЗАДАЧИ
12Л. В табл, 7.6 приведены три выбор-
ки.. отобранные нз одного и того же рас-
пределения. Выборки имеют объемы
=6, п2=20 и л3=60. Выборочные средние
равны: ^=251,17; У^-250^0; Х3=249,8.
Соответствующие стандартные отклонения
ровны s 1=3,1252, $г=2,3306, $3=2Л72.
276
Этой информации достаточно для диспер-
сионного анализа. Если расчетное F* зна-
чительно больше Ft то мы приходим к вы-
воду, что процедура отбора выборок яв-
ляется смещенной, так как априори мы
знаем, что все три выборки отбираются нз
одного распределения и, следовательно,
Да и № должны быть равны.
а.	Используя уравнение (12.5), вычис-
лите сумму 2(Хн—Xi)2 которая вам по-
надобится для определения MSw==s2P из
уравнения (12.6). Поскольку s2j==S(Xfj—
^Л)2/(Пэ-1). S(XO-Xj)2=(nj-l)s2j.
б.	Найдите MSb- Используйте соотно-
шение (12.8), а не (12.7), так как выборки
отбираются не одинакового объема,
в.	Найдите с помощью интерполяции
^о.95: n: v» и сДелайте вывод,
12.2.	Ниже приведенные данные пред-
ставляют собой измерения предела прочно-
сти на разрыв, выраженные в тысячах
фунтах на квадратный дюйм для низко-
углеродистого стального листа. Сталь за-
купается у трех сталелитейных компаний.
При а=0,0Ь проверьте, одинаковые ли
пределы прочности на разрыв у этих трех
поставщиков.
	xh		xi2				xh	
61,6	51,4	51,5	50.5	50.9	50,7	61.0	51.1	51,5
51,7	5Ы	51.3	51,1	51.0	50.6	51.3	51,0	51.2
51,8	51,4	51.4	50.9	5L4	51.3	51,4	51,4	51.0
52.2	51.5	51,3	51.4	51.3	51,6	51,3	51,4	51.5
SI .2	51,6	51,2	51.7	51.5	50.7	51.7	51,6	51,5
50,9	5Ь7	51,1	51,8	51.6	50,9	51,9	51,7	51.4
61,3	51 5	51,6	51.1	52,2	51.2	51,5	52,1	51,3
51.5	52,0	51,9	50,7	51.2	51.7	51.3	51.8	51,4
51,7	52 >3	51,2	51,2	51.0	51.8	51.2	51,6	51,4
51.8	51 6	52,0	51 Д	5019	о Г .3	51.0	51.4	51Л
12.3.	Дисперсионный анализ основы-
вается на трех предположениях, касаю-
щихся вида, дисперсии и взаимодействия
распределений, из которых отбираются вы-
борки. Что это за предположения?
12.4.	Предположим, что имеются три
следующие выборки:
Хп		хй
10	16	19
8	17	21
9	14	18
12	15	22
11	13	20
я еще три выборки:
	Yi2	у.-з
10	15	25
8	18	20
9	9	30
12	12	10
11	21	15
где X i=F.j, X.2=F 2Х.з=Кз-
а.	Изучите приведенные выше данные.
Какую вы видите разницу между значе-
ниями Xij и Y<j?
б.	Примените дисперсионный анализ
j< Xij и У\; при а=0»01. Проанализируйте
полученные результаты.
12.5.	Имеются три нормальных распре-
деления со средними рх, и р*. Пусть
jix=200. Ox^-ov=Ut—10 и п=1б.
а.	Найдите X' и X" такие, что Р(Х'<
<£,<Х")—0,95.
б.	Найдите У' и У" такие, что Р(У'<
<Гг-<У") =0,95 и Х"=1"
в.	Найдите Z' и Z" такие, что P(Z'<
<Z;<Z")==0,95 и Y"=Z'.
г.	Повторите все только что выполнен-
ные задания для л» 100. Обратите внима-
ние на разницу результатов для л=16 и
л=100.
12.6.	На шести участках земли посеян
ячмень. Почва на этих участках одинако-
ва, сами участки расположены близко друг
от друга. Были использованы три вида
удобрений. Удобрения представляют собой
смесь в различных пропорциях фосфора,
калия и азота. Участки орошались двумя
способами. Ниже приведены показатели
урожайности, выраженные в бушелях на
I акр:
Удобрения
	I	п	III 
Орошение 1 _	2	62 65	79 70.	87 84
Применяя дисперсионный анализ» про-
верьте» значима ли разница урожайно-
сти: а) в зависимости от способа ороше
ния; б) в зависимости от разных комби-
наций азота, фосфора и калия.
12 7. Пусть вы имеете таксомоторный
парк и хотите во всех машинах заменить
аккумуляторы (речь может идти о лю-
бых запасных частях» таких, например, как
шины, свечи или глушители). Так как цены
на аккумуляторы одинаковы и качество
товара также приблизительно одинаково,
то вы предполагаете покупать не у одной
какой-нибудь фирмы, а у трех. Выбрав
наугад, например» 18 машин (реально сле-
довало бы выбрать больше), вы устано-
вите на них новые аккумуляторы. Пусть
моторы всех машин имеют одинаковую
мощность, но половина моторов имеет
шесть цилиндров, а другая половина —
восемь. (Вместо числа цилиндров вы мог-
ли бы классифицировать машины по мар-
кам, мощности, сроку службы, массе
и т. п.) Время работы аккумуляторов
(10 000 ч) приводится ниже:
Компания
А Б В
8 цилиндров	6,3 8,5 5,5	8,5 8,0 8.3	6.0 5,7 6,3
	7,0	7,7	6
6 цилиндров	6,7	8,5	' 6
	5,8	5,6	5„4 1
а.	Применяя метод дисперсионного
анализа при уровне значимости а=0,05,
найдите, существенно ли различается ра-
бота аккумуляторов в зависимости от:
1) компаний; 2) 8- и 6-цилиндровых мото-
ров; 3) средних по ячейкам. Значимо ли
взаимодействие ячеек? Думали ли;вы» что
последний результат будет иметь место
в данном примере.
б.	Постройте числовой пример для той
же самой задачи, в котором бы было оче-
видно на глаз (без применения дисперси-
онного анализа), что существует значимая
разница аккумуляторов между фирмами»
но она не зависит от вида мотора. Вы мо-
жете немного преувеличить Каков будет
ваш критерий?
в.	Постройте числовой пример для той
же самой задачи, в котором было бы оче-
видно с первого взгляда (без применения
дисперсионного анализа), что существует
значимая разница и в зависимости от вида
мотора.
, г. Предположим, что автомобили оди-
наковы, но аккумуляторы закупаются
у трех компаний по разным ценам. Будут
ли цены показателями качества? Почему?
277
л. Некоторый материал (сталь, пластик,
сплав) испытывается на прочность. Мате-
риал получают с помощью технологий, ис-
пользующих три различные комбинации
химикалнев и два разных температурных
режима. Прочность выражается числами
предыдущей таблицы. К каким выводам
вы придете? Ожидали ли вы, что обнару-
жите какое-либо взаимодействие ячеек.
12.8.	Примените метод контрастов к вы-
борочным данным из задачи 12.2» для
сравнения: a) с н.г; б) |АЛ с jis;
в) р.2 с ц_3.
12.9.	Испод 1>зуйте метод контрастов для
проверки разницы между: а) цл и
б) р.2 и ц.з в задаче 12.6.
12.10.	Используйте метод контрастов
для проверки разницы между: а) jij и
б) Mij.Pis.Psl и раз. в задаче 12.7.
12.11.	Имеется матрица из пяти столб-
цов, трех строк, в каждой ячейке которой
по одному наблюдению. Найдите vr, vc, vc
и vt.
12.12.	Пусть теперь в каждой ячейке
матрицы из задачи 12.11 по 20 наблюде-
ний. Найдите vr, vC1 V&, vw» v«.
12.13.	Сеть супермаркетов в крупном
городе обвинялись в том, что она продает
товары по различным ценам в зависимо-
сти от районов проживания граждан с вы-
соким или низким уровнем дохода. Чтобы
проверить это утверждение, отобрали
пробные выборки. Наугад выбирались три
магазина А, Б, В в трех различных райо-
нах города и фиксировались цены товаров.
Общие затраты на эти покупки см. ниже.
Наблюдается ли при уровне значимости
0,05 существенная разница: а) по магази-
нам; б) по уровням дохода; в) между
ячейками.
Уровень дохода	Район		
	А	Б 1	1 в
i	27,10	28,7	25,1
Высокий	27.5	27,9	26,8
	27,СО	28,2	25.2
	22,8	26,1	26,9
Средний	23,2	25,2	25,5
	22.6	26,6	25,00
	25,1	25,8	26,1
Низкий	2-1,7	26.9	25,1
	26,2	25,1	26,9 ,
12Л4. Используя данные справочников
фирмы «Стандарт энд пур>» сравнивала
отношение цены к прибыли для несколь-
ких компаний, производящих одни и те же
виды продуктов. В нашем примере бра-
лись данные для трех компаний. Компа-
нии выбирались случайным образом.
	А	Компания	
		Б	в
1965	11	12	14
1966	18	16	J5
1967	10	14	14
19(58	24	18	•18
1969	10	12	17
1970	15	24	18
1971	21	31	18
1972	22	38	18
При уровне значимости а=0.05 про-
верьте, существенна ли разница между
этими отношениями для различных корпо-
раций.
13.1.	ОСНОВЫ РЕГРЕССИОННОГО
И КОРРЕЛЯЦИОННОГО АНАЛИЗА
Регрессионные и корреляционные
методы анализа рассматривают рас-
пределения, элементы которых за-
висят от двух или более переменных
факторов. Эти методы позволяют
исследователю измерить более точно
взаимосвязь этих факторов. Мы мо-
жем рассматривать совокупность
студентов, изучавших сначала мате-
матику, а затем статистику. Для
сравнимости результатов выбирают-
ся учащиеся, прошедшие один и
гот же учебный курс по одинаковым
учебникам. Эксперимент будет еще
278
ГЛАВА 13
РЕГРЕССИЯ И КОРРЕЛЯЦИЯ
чище, если преподавание проводи-
лось одними и теми же людьми
Каждый студент получил две
оценки. Эти данные показаны на
рис. 13.1. Обозначим оценки по ма-
тематике через X, а по статистике-
через У. Исследователь интересует-
ся вопросом, существует ли связь-
между X и У.
Если такая связь существует, то
это означает, что в среднем студен-
ты, получившие низкие оценки по-
математике, получат низкие оценки
по статистике, и наоборот. Если
между X и У нет корреляции, то сту-
дент, получивший низкую оценку по-
математике, может получить любую
оценку по статистике. Аналогично
учащийся, имеющий высокую оценку
по математике, может получить низ-
кую, среднюю или высокую оценку
по статистике.
г I	•
*4
w - •• •
2ot_J___1_I—i—1---1-—---
M 00	70 BO X
Рис. 13.1. Полная корреляция (данные
взягы из табл. 13.1)
Очень полезны более точные све-
дения о таком соотношении. Если
установлена хорошая корреляция
между изучаемыми переменными, то
усвоение студентом курса статистики
может быть спрогнозировано с по-
мощью оценки по математике. Если
будет зафиксировано отсутствие
корреляции, то курс статистики мо-
жет быть прочитан вне зависимости
от того, был ли предварительно про-
слушан курс математики.
Предположим, что администрация
предприятия постоянно берет на ра-
боту начинающих чертежников. На-
чальное обучение чертежников доро-
го, поэтому адиминистрация решает
создать (или купить) тест, с по-
мощью которого можно было бы
проверить квалификацию претен-
дентов (такие тесты широко исполь-
зуются на практике). Тест помогает
предпринимателю решить, брать или
нет на работу того или иного пре-
тендента, а если брать, то какую
предложить ему работу. Предполо-
жим, что администрация покупает
такой тест у компании, специализи-
рующейся на создании тестов. Те-
перь она хочет проверить пригод-
ность теста.
Для этого тест предлагается груп-
пе вновь принятых на работу, и ре-
гистрируются баллы. Затем в тече-
ние некоторого времени наблюдают
за производственной деятельностью
этих людей и оценивают ее резуль-
таты. Если низким результатам те-
ста соответствуют в среднем низкие
оценки работы, то тест хороший и
может быть использован как при
найме на работу начинающих чер-
тежников, так и при распределении
заданий среди них.
Пример полной корреляции. Те-
ста, с помощью которого можно бы-
ло бы сделать абсолютно достовер-
ный прогноз, в реальной жизни не
существует. Однако, чтобы лучше
понять проблему, предположим, что
администрации предприятия уда-
лось создать такой тест.
Результаты этого теста обознача-
ются X и приведены в табл. 13.1.
Оценки результатов работы показа-
ны в этой же таблице в столбце У.
Графическое изображение связи
между двумя указанными перемен-
ными, называемое диаграммой рас-
сеяния, мы видим на рис. 13.1. При ,
рассмотрении рисунка становится'
явным, что оценки производственной
деятельности связаны с результата-
ми теста «механизмом» прямой ли-
нии. Это так называемая функцио-
нальная связь, причем функция име-
ет вид: У=—40+ 1,5Х. Это означает,
что значения У из табл. 13.1 полу-
чают подстановкой в данное уравне-
ние последовательных значений X.
Например, 62=—40+1,5-68.
Таблица 13.1. Полная корреляция
X 68 54 90 64 61 51 79 51 83 48
Y 62 41 95 56 52 36 78 36 84 32
Важно отметить, что У является
указанной функцией X лишь в пре-
делах (40<Х< 100) и (20<У<120).
В регрессионном анализе такие гра-
ницы обычно всегда имеют место,
т. е. связь, описываемая прямой ли-
нией, часто верна лишь в определен-
ных пределах. Если кто-нибудь по-
лучит по тесту оценку ниже нижней
границы, например 10, то оценкой
его работы должна быть величина
У=—404-1,5-10=—25, что совер-
шенно абсурдно, так как наимень-
шая используемая оценка производ-
ственной деятельности равна 20.
Другими словами, зависимость вне
границ, определяемых задачей, мо-
279
жет отличаться от линейной или
здесь вообще может отсутствовать
корреляция.
Неполная корреляция. Если бы
администрации предприятия уда-
лось найти тест, показывающий пол-
ную корреляцию между оценками
двух видов, то в их распоряжении
был бы совершенный инструмент
при отборе на работу. Это означает,
что, подставляя результаты теста
в уравнение, администрация име-
ла бы точные сведения о результа-
тах работы. Однако, как мы уже го-
ворили, такого точного соотношения
на практике не существует.
Чтобы лучше понять задачу, пред-
ставим, что X принимает те же зна-
чения, что и в предыдущем примере,
но механизм образования У соответ-
ствует неполной корреляции. Это
происходит тогда, когда между дву-
мя переменными существует линей-
ная связь, но она имеет вид связи
между средними. Таким образом, на
линейную связь между оценками
практической производственной дея-
тельности и теста накладываются
ошибки, т. е она не точна.
Метод, иллюстрирующий генери-
рование таких значений У, поясняет-
ся с помощью табл. 13.2, Значения
X и 1" совпадают со значениями X
и У из табл. 13.1. Предположим те-
перь, что на значения, полученные
из соотношения для прямой линии
значения У', накладываются случай-
ные ошибки, в среднем равные
5 единицам. Эти ошибки не сводят-
ся к ошибке выборки. Они обуслов-
лены тем, что двое или трое людей,
получивших одинаковые оценки,
вовсе не идентичны со всех точек
зрения. Следовательно, оценки их
производственной деятельности мо-
гут быть больше и меньше значений
У', лежащих на прямой линии.
Ошибка (в нашем примере 5z) бу-
дет огромной, если это не учитывать
в тесте, и наоборот. Она не зависит
от выборки и потому не является
ошибкой выборки.
Для генерирования случайной
ошибки, накладываемой на У', бра-
лись нормально распределенные
случайные числа из табл. V (см.
2«0
приложение). Умножали их на 5 и
прибавляли к У', получая значения
У, соответствующие неполной кор-
реляции. Это оценки производствен-
ной деятельности, которые можно,
получить в реальной жизни.
Таблица 13.2, Небсльшсе рассеяние
вокруг прямой линии
X	У'	Z	5г	У	
68	62	—1,381	—7	55	62,6
54	41	—0,574	—3	38	43,7
90	95	0,096	0	95	92,2
64	56	1,389	7	63	57,2
61	52	1,249	6	58	53,1
51	36	0,756	4	40	39.6
79	78	—0,86	—4	74	77,4
51	36	—0,778	—4	32	39,6
83	84	0,037	0	84	82,8
48	32	2,619	13	45	35.6
Примемянне. Значения Y* получаются из соог-
нонгеякя ¥^=—29Л+ 1.318 X (4Э < .X < 100), (20<У<
<120); Л' и Y' взяты из табл. 13.1. Метод получение*
значений Y (из пятого столбца) называется мртодо*г
Монте-Карло.
Последний столбец таблицы со-
держит значения, полученные из со-
отношения прямой линии. Эта линия
получается, если попытаться
аппроксимировать значения У пря-
мой линией. Эта аппроксимация осу-
ществляется с помощью метода наи-
меньших квадратов (см. ниже).
Используя метод, получим уравне-
ние Уж=—29,14-1,348Х. Имея это
соотношение, можно вычислить от-
дельные значения Ух. Например, для
X—68 получим Ух“бв=—29,1+
+ 1,348-68=62,6. Теперь мы имеем
два множества точек. Одно из них:
(X, У) = {(68,55), (54,38), ...
(48,45)},
другое
(X, Ух) = {(68,62,5), (54,43,7),...
...» (48,35,6)}.
Диаграмма рассеяния показана на
рис. 13.2, значения (X, У) отмечены
на ней точками, значения (X, Ух)
отмечены крестиками. Как уже го-
ворилось, точки (X, У) часто называ-
ют наблюдениями или эмпирически-
ми значениями. Точки (X, Ух) назы-
ваются расчетными или значениями
регрессионной линии Так как эти
точки лежат на прямой линии, то их
называют значениями прямой ли-
нии. Наконец, уравнение, получен-
ное методом наименьших квадратов,
называется регрессионным урав-
нением.
Рис. 13.2. Умеренное рассеяние вокруг
прямой (данные взяты из табл. 13.2)
Итак, подведем итог; процедура
построения точек (X, У) (эмпириче-
ские данные) основана на предпо-
ложении о существовании в среднем
линейной связи. Значения У откло-
няются от Ух на 5z, где г находится
случайным образом, а 5 рассматри-
вается как средняя сумма отклоне-
ний (X, У) от (X, Рх). Для выборок
большей размерности (например,
л=5000) каждому значению X, ука-
занному в табл. 13.2 (или табл.
13.1), соответствует несколько зна-
чений У. Например, Х=68 будет
соответствовать много значений У.
Их стандартное отклонение равно
Syx—5, где sназывают стандарт-
ной ошибкой УнаХ. Формулы для ее
расчета [(13.13), (13.14)] даются
ниже. Средняя для всех значений У,
соответствующих Х=68, вычисляет-
ся из УХ=68 = —29,1 + 1,348Х=62,6.
Теперь мы можем заметить сле-
дующее. В примере с полной корре-
ляцией из табл. 13.1 существует
лишь проблема определения вида
регрессионной линии, на которой
изображаются точки (X, У). О рас-
сеянии относительно (X, Рх) речь
не идет. Точки (X, У) и (X, Рх)
здесь идентичны. Определение вида
регрессионной функции сводится
лишь к определению угла наклона.
Если связь нелинейна (что довольно
часто случается), то описание ре-
грессии более сложно. Следователь-
но, в случае полной корреляции и
линейной связи исследователю нуж-
но лишь попытаться объяснить, по-
чему угол наклона мал или велик,
положителен или отрицателен.
Во втором примере (табл. 13.2)
вид линии (X, Ух) такой же, как и
в предыдущем случае. Однако здесь
исследователь должен дополнитель-
но принять во внимание значения
(или среднее значение) отклонений
наблюдаемых (X, У) от вычислен-
ных (X, Рх). Как уже ранее отмеча-
лось, эти значения измеряются стан-
дартной ошибкой оценки. Чем оно
больше, тем менее полезен тест при
прогнозировании результатов рабо-
чей деятельности.
В примере с полной корреляцией
администрация могла сделать совер-
шенный прогноз сразу после получе-
ния результатов опроса. Во втором
случае она лишь в состоянии ска-
зать, что при данном X оценка ра-
бочей деятельности Y будет лежать
в пределах (Ух—k< У< Yx+k). Зна-
чение k определяется средним от-
клонением (X, У) от (X, Ух), т. е.
Отсутствие корреляции. Постро-
им теперь такие значения У,
при которых отсутствует какая-либо
функциональная связь между X
и У. Значения X останутся прежни-
ми, а значения У теперь не будут
случайными отклонениями от пря-
мой, а просто случайными числами,
изменяющимися в интервале 20<
<У<120 [табл. I (см. приложе-
ние)]. Данные о значении X и У
приведены в табл. 13.3 и на
рис 13.3.
Таблица 13.3. Корреляция отсутствует
X 68 54 90 64 61 51 79 51 83 48
У 95 25 68 54~90 99 56 51 28 21
Примечание. Y выбирается произвольно; 40<Х<
<100. £0<У<120-
Уравнение прямой линии, аппрок-
симирующее эти данные, имеет вид:
Ух=52.6+0,094 X. Прямая имеет
очень маленький угол наклона. Если
281
взять больше значений У (изменяю-
щихся в тех же границах), то угол
наклона будет равен нулю или очень
близок к нулю. Получив результа-
ты, аналогичные представленным
в табл. 13.3 и на рис. 13.3, админи-
страция предприятия сразу поймет,
что предлагаемый тест не может
служить индикатором оценок буду-
щей производственной деятельности,
и исключит его нз применения.
г
ев
во
ад
20
ад 50	60	70 ВО Л
Рис. 13.3. Значения У, полученные по таб-
лице случайных чисел (данные взяты из
табл. 13.3)
Так как полной корреляции в при-
роде не существует, а случаи, пред-
ставленные данными табл. 13.3,
можно из рассмотрения исключить,
то обычно исследователь имеет дело
с задачей второго рода, рассмотрен-
ной на примере данных табл. 13.2 и
рис. 13.2. Он анализирует данные
с точки зрения либо вида регрес-
сионной линии, либо рассеяния (X,
У) вокруг (X, Ух), либо обоих мо-
ментов вместе. Анализ такого вида
называется регрессионным анали-
зом.
Данные обычно изображают либо
с помощью прямой линии, либо
с помощью кривой с одной точкой
перегиба Прямая линия может
иметь положительный или отрица-
тельный наклон. Соответственно
связь называется положительной
или отрицательной корреляцией.
Например, количество продаваемых
товаров и цены на них находятся
в отрицательной корреляции; если
эту связь можно представить пря-
мой линией, то тангенс угла наклона
ее будет отрицательным. Очевидно,
что и положительная и отрицатель-
ная корреляции могут быть пол-
ными.
Рассеяние наблюдений вокруг
регрессионной линии. Дисперсия
наблюдаемых данных (X, У) вокруг
вычисленных точек (X, Рж) или во-
круг регрессионной линии приобре-
тает особенное значение при оцени-
вании качества прогноза. Качество
прогнозных методов связано с необ-
ходимостью делать несколько прог-
нозов. Для чего бы ни делался про-
гноз, обычно исследователь не огра-
ничивается одним методом. Сущест-
вуют различные альтернативные
методы. В примере с оценками по
тесту и по работе это будут после-
дующий опыт работы и личные
оценки, полученные из бесед. Следо-
вательно, нм один здравомыслящий
человек ие будет свои прогнозы ба-
зировать только на регрессионном
анализе. Если рассеяние точек
(X, У) около регрессионной линии
слишком велико, то следует исполь-
зова гь другие методы.
В регрессионном анализе, глав-
ной целью которого является прог-
ноз, угол наклона прямой может и
не иметь существенного значения.
Стандартная ошибка иЙХ, измеряю-
щая рассеяние точек (X, У) вокруг
(X, РЛ), может быть одинаковой при
разных углах наклона прямой. Слу-
чай вертикальной прямой исключа-
ется Например, для У из интервала
20<У<120 (табл. 13.2) получаем
коэффициент наклона Ъ—1,34. Для
значений У из интервала 0<У< 140'
этот коэффициент будет больше.
Значения У из интервала 60<У<61
порождают прямую с очень малым
углом наклона Но во всех случаях
значение оух будет одно и то же.
Вид регрессионной функции. Угол
наклона (или в общем случае вид
регрессионной функции) представ-
ляет интерес для исследователя.
Если значения У меняются мало для
некоторых значений X (что отража-
ется в малом угле наклона), то это
означает, что значительная разница
в оценках по тесту вызывает малую
разницу в оценках рабочей деятель-
ности. Таким образом, сотрудникам
с высокими оценками по тесту, вооб-	'
ще говоря, не обязательно платить*
очень высокую зарплату.	
282
Таблица 13.4. Содержание серы и потери энергии в 77 плавках стали (масса
плавки 293 т)
1	2	I	2	/	2	/	9
0,006	2,46	0,012	2,44	0,018	2,52	0.023	2,51
0,007	2,28	0,012	2,43	0,018	2,56	0.023	2,60
0,007	2,31	0,012	2,35	0,018	2,57	0.023	2,79
•0,007	2,39	0,013	2,69	0,018	2,58	0,024	2,63
"0,067	2,43	0,014	2.48	0,018	2,59	0,024	2.64
’0..007	2,47	0,014	2,58	0,018	2,64	0.024	2,65
Ю,0С8	2,42	0,014	2,55	0,019	2,64	0,024	2,67
0,008	2,54	0,014	2,56	•0,020	2,72 -	0,024	2,73
0,009	2,40	0.014	2,58	0,021	2,56	0,024	2,77
••0,009	2,42	0,014	2,61	0,021	2,59	0,025	2,63
0,009	2,46	0.01Б	2,42	0,021	2,61	. 0,025	2,64
о.ою	2,30	0,015	2,51	0,02!	2,63	0,025	2.68
0,010	2,35	0,015	2,54	0,022	2,48	0,025	2,71
0,010	2,40	0.016	2.52	0,022	2,53	0,026	2,58
0,011	2,37	0,016	2,57	0,022	2,55	О.<26	2,70
0,011	2,49	0,016	2,68	0,022	2,63	0,028	2,72
0,011	2,56	0,(17	2,48	0,022	2,66	0,030	2,73
0,012	2,61	0,017	2,53	0,022	2,67	0,030	2,69
0,012	2,43	0,017	2,54	0,022	2,73	0,030	2,64
Приме 1	t а н и е Сюл	йен /—содержа	Нис Серы. %;	стозбсц 2—поп	ери анергии.	0,030	2,76
В некоторых случаях наклон ре-
грессионной линии приобретает бо-
лее важное значение, чем uvx. Это
бывает при изучении спроса на ка-
кой-нибудь продукт. Регрессионная
зависимость аппроксимирует в этом
случае функцию спроса. Если функ-
ция имеет вид прямой линии, то ис-
следователь приходит к заключе-
нию, что спрос эластичен.
Корреляция. Рассмотрим пример
связи между курением и заболева-
нием раком. Здесь, конечно, иссле-
дователя интересует не прогноз,
когда умрет некоторый курильщик,
и даже не вид регрессионной функ-
ции, а степень взаимосвязи. Его
исследование будет называться не
регрессионным анализом, а корреля-
ционным анализом в несколько бо-
лее узком смысле слова. Однако
нужно отметить, что, вообще говоря,
термин «корреляция» часто приме-
няется как в регрессионном, так и
корреляционном анализе.
Пример из производства. Прежде
чем мы приступим к описанию мате-
матических и вычислительных мето-
дов регрессионного анализа, рас-
смотрим еще один пример, иллюст-
рирующий двумерный вид связи
(табл. 13.4, рис. 13.4). Дана выбор-
ка из 77 плавок стали (плавка — ко-
личество металла, получаемое в ста-
леплавильном производстве за один
раз), изучаемая с точки зрения со-
держания серы и потерь энергии
в металле. Этот вид стали использу-
ется при производстве трансформа-
торов и роторных электромашин.
При нагреве агрегата происходит
потеря энергии в металле, поэтому
283
величина потерь энергии в металле
играет большую роль при конструи-
ровании электромашин и трансфор-
маторов. Электромашиностроитель-
ные компании при закупке стали
у сталелитейных компаний ограни-
чивают сверху потери энергии в ме-
талле.
‘Z.625----
Верхний предел
~ дойеритсльня-
_ва интервала
принятия
2,481
-—Ра ж над предел
дсдерительнаго интерва
ла принятия =2,335
_1___1—1__1—1__I.-L-J--L
Содержание серы Х„ W3 %
Рис. 13.4. Зависимость показателя потерь
энергии от содержания серы (данные взя-
ты из табл. 13.4)
Энергетические потери определя-
ются процентным содержанием серы
в металле. Связь между количест-
вом серы и потерями энергии поло-
жительна, т. е. чем меньше процент-
ное содержание серы в металле, тем
меньше потери энергии. Однако, как
это видно из рис. 13.4, связь между
этими двумя переменными не очень
пропорциональная. Причина этого
в том, что на энергетические потери
влияют еще и ошибки измерения и
сами процессы плавки, прокатки
и т. д. Это и будут те факторы, ко-
торые определяют оух, т. е. значения
рассеяния (X, Y) вокруг (X, Ух).
Итак, подведем итог: стандартная
ошибка Сух, измеряющая разброс
наблюдений вокруг расчетных зна-
чений, не определяется объемом вы-
борки. Увеличивая объем выборки,
мы не уменьшаем значение оух.
Единственно, что мы делаем, это бо-
лее точно аппроксимируем сух.
В предыдущем примере значение
оУх определялось качеством теста.
Чтобы уменьшить <jyx, надо улуч-
шить тест. Такое улучшение состоит
в том, чтобы исключить из теста во-
284
проси, не отражающие связи оце-
нок. Уменьшить вариацию вокруг
прямой для задачи с потерями энер-
гии означает усовершенствовать из-
мерения и стараться зафиксировать
все другие переменные (режим на-
гревания, температуру плавки и
прочие компоненты стали) на по-
стоянном уровне.
Две базисные модели двумерного'
корреляционного и регрессионного
анализа. Диаграмма рассеяния на
рис. 13.4 иллюстрирует одну из двух
базисных моделей регрессионного
анализа. Из диаграммы видно, что
каждому X соответствует несколько
значений У. Регрессионные модели
рассматриваемого вида предполага-
ют, что значения X измеряются без
ошибок. Однако для каждого X име-
ется несколько значений У. Эти зна-
чения У нормально распределены со
средней рх и стандартным отклоне-
нием аУх- Средняя р.х есть та точка
регрессионной кривой, для которой
р.т—а + рХ. Она оценивается по вы-
борке с помощью Ух. В то время
как |ix есть точка регрессионной ли-
нии, аппроксимирующей совокуп-
ность, Ух есть точка регрессионной
линии, аппроксимирующей выборку.
Предполагается, что стандартная
ошибка оУх одинакова для всех X.
Распределение У для фиксирован-
ного X называется условным рас-
пределением, т. е. (К|Х) означает
«У для данного X»,
Другая модель линейного регрес-
сионного анализа применяется в за-
дачах, касающихся оценок качества
учебы и производственной деятель-
ности или связи между массой и ро-
стом людей иди животных. Во всех
этих случаях предполагается нор-
мальное распределение не только У,
но и X. График диаграммы рассеяния
нагляднее строить не на плоскости,
а в трехмерном пространстве Если
такой график имеет вид симметрич-
ной колоколообразной поверхности
(а его проекция — вид круга), то
угол наклона линии, сглаживающей
наблюдения, равен нулю, и в этом
случае говорят, что корреляция от-
сутствует. Если же проекция поверх-
ности имеет вид эллипса, то следует
признать наличие некоторой корре-
ляции. Угол наклона линии, сглажи-
вающей наблюдение, не будет рав-
няться нулю. Этот и другие .моменты
хорошо иллюстрируются в книге
Эктона1 по анализу линейных рег-
рессий.
13.2.	ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ
АНАЛИЗ
Регрессионный анализ включает
в себя процедуру подгонки к дан-
ным подходящей регрессионной за-
висимости и нахождения стандарт-
ной ошибки оценок. Так как регрес-
сионный анализ часто используется
для прогноза, то необходимо рас-
смотреть также метод вычисления
прогнозных пределов. Анализ про-
водят как графически, так и с по-
мощью математических вычислений.
Здесь мы рассмотрим только второй
способ. Остановимся сначала на ли-
нейной регрессии. Методы подгонки
с помощью нелинейных функций мы
обсудим позднее.
Рассмотрим данные из табл. 13.4.
Обе переменные здесь не обозначе-
ны. Какой из рядов следует обозна-
чить X? В математике обычно зави-
симую переменную обозначают бук-
вой У, а независимую X. В регрес-
сионном анализе исследователь сам
должен принять решение, но ему
всегда из контекста задачи ясно,
как обозначить исследуемые им пе-
ременные.
Если цель анализа — прогноз, то
обычно прогнозируемую переменную
обозначают У. В случае рассмотре-
ния связи между ценами и количест-
вом товара (эластичность в задаче
спроса) цены будут всегда зависи-
мой переменной, а количество това-
ра — независимой. В примере из
табл. 13.4 энергетические потери
являются функцией от процентного
содержания серы. Такие естествен-
ные связи в жизни встречаются ча-
сто Если же исследователя интере-
1 Acton F. S. Analysis of Straight —
Line Data. N. Y.: Dover Publications, 1959..
сует лишь вопрос одной корреляции,
то способ обозначения переменных
не играет роли. В приведенных вы-
ше примерах мы использовали для
обозначения букву У как для оценок,,
так и для показателя потери энер-
гии.
13.2.1.	Подгонка прямой линии
с помощью метода наименьших
квадратов
Уравнение прямой линии обычно
записывается в виде Y=a-j-bX или
ajXi~l-a2X2=c. Последняя форма
является нестандартной. Для приве-
дения ее к стандартной разрешим
относительно %2:
х2=с/а2—(а1/а2)х]
и, переобозначив коэффициенты, по-
лучим
х2 = а Ц-Ьх,,
где а = с.'а1 и b— — aja2.
Если прямая линия используется
для регрессии, то ее обозначения
должны отражать тот факт, что точ-
ки прямой являются средними для
многих значений У. Обозначения
должны фиксировать также разли-
чие между выборкой и генеральной
совокупностью. Следовательно, име-
ем для 1енеральиой совокупности
уравнение вида
= я,	(13.1)
а для выборочных данных
Yx = a~\~bX.	(13.2)
Таким образом, Fr, п, Ь в том соот-
ношении должны рассматриваться’
как выборочные оценки ц,, а, р из
уравнения (13.1).
Обычно линию регрессии подгоня-
ют к рассматриваемым данным
с помощью метода наименьших
квадратов. Идея метода заключает-
ся в следующем. Если на графике
изобразить наблюдаемые точки
(X, У) и точки линии регрессии (X,
Уя), то сумма расстояний по верти-
кали между ними равна нулю или
сумма квадратов разностей мини-
285.
тмальна. Эти требования записыва-
-ются в виде
2(У-Ух) = 0;	(13.3)
2 (У — У*)’ —* мин.	(13.4)
Выражения (13.3) и (13.4) спра-
ведливы для любых регрессионных
зависимостей. Так как мы сейчас
рассматриваем метод наименьших
квадратов применительно к прямой,
то выражение (13.4) принимает
в этом частном случае вид
2 |У - (а + WQ]4 * * * — мин, (13.5)
где а + ЬХ заменяет Ух.
«Сумму (13.5) обозначим через
f(a, 6) = 2[У-(а + «>Х)]‘ (13.6)
и будем искать точки минимума
f(a, b). Эти точки находятся с по-
мощью частных производных1, в ре-
зультате чего получим следующую
•систему линейных уравнений:
I (SX) а + (2АГ4) b = ZXY. 1 '
'Неизвестные в этой системе а и b
являются параметрами уравнения
(13.2) (т. е. уравнения Vx=a+bX)
и находятся методом наименьших
квадратов. Другими словами, если
величины а и Ь из выражения (13.2)
являются решением системы (13.7),
то прямая линия будет прямой наи-
меньших квадратов, для которой
выполняются условия (13.3) и
(13.4).
Для примера рассмотрим точки
(X, У) из табл. 13.2. Требуется най-
ти точки (X, ух) на прямой линии
(13.2), которая подгоняется методом
1 Дифференцируя f(a, b) сначала по а,
.а затем но 6, получаем
Ь)/<?аГг-~ 22(У—о—fcX)=:
—2(2У—ла—SJZ>),
df(а, d) tdb=—2X2 (У—а—ЬХ) =
=х—2(ZXY—SXa—ZX2b).
( Принимая производные равными нулю,
т. е. д[(а, b)!'da^df(a, fi)/<?fr=0, имеем
—2 (2 У—па—2X6) =0;
—2(2ХУ—Х.Ха—ЕА’гЬ)=0.
Разделив оба уравнения на —2, полу-
чим систему' (13.7).
.286
наименьших квадратов к наблюдае-
мым точкам (X, У). Параметры
уравнения (13.2) находятся из си-
стемы (13.7). Как только значения
параметров будут вычислены, иско-
мые значения (X, Ух) получаются
подстановкой последовательных зна-
чений X в уравнение регрессии
(13.2).
Обший метод решения систем
уравнений. Чтобы разрешить систе-
му (13.7) относительно а и 6, мы
должны знать значения п, SX, 2 У,
SX2 * i * *, ЕХУ. В табл. 13.5 приведены
Таблица 13.5. Оценки на экзамене
и результаты деятельности (вычисления,
необходимые для линейного
регрессионного анализа)
X	У	Л*	У8	XY	X		т-гх
68	55	4624	3025	3740	68	62.6'	1-7,6
54	38	2916	1444	2052	54	43,7	-5,7
90	95	8100	9025	8550	90	92,2	2.8
64	63	4096	3069	4032	64	57,2	5.8
61	58	3721	3364	3538	61	53,1	4.9
51	40	2601	1600	2040	51	39,6	0,4
79	74	6241	5476	5846	79	77,4	-3,4
51	32	2601	1024	1632	51	39,6	—7,6
83	84	6889	7056	6972	83	82.8	1.2
48	45	2304	2025	2160	48	35,6	9.4
649	584	44 093	38008	40562			0,2
Примечания: 1, Данные взяты из таЗл. 13.2,
2. X— оценки теста; У—оценки результатов дея-
тельности.
эти величины. Подставляя их в си-
стему (13.7), получаем
i 10а 4-6496 = 584,
( 649а 4- 44 0936— 40 562.
Общий метод решения систем ли-
нейных уравнений рассматривается
в линейной алгебре. Он основан на
элементарных линейных преобразо-
ваниях матриц.
Система линейных уравнений мо-
жет быть преобразована в эквива-
лентную систему умножением каж-
дого уравнения на некоторое число
и сложением полученного уравнения
с другим Решение преобразованной
системы совпадает с решением ис-
ходной системы уравнений.
В рассматриваемом примере оста-
вим первое уравнение без измене-
ния, а второе преобразуем таким
образом, чтобы исключить неизвест-
ный параметр а. Это можно сде-
лать, если умножить первое уравне-
ние на —64,9 и сложить результат
со вторым. Итак, имеем
-649а - 42120,16 = - 37901,6
-649g+ 44 0936 = 40 562
1972 96 =2660,4
Эквивалентная система примет
вид
10а + 649 6=584,
1972,96=2660,4,
и ее решение совпадает с решением
исходной системы уравнений. Из
второго уравнения преобразованной
системы находим
6=1,348.
Подставляя это значение 6 в первое
уравнение, получим
а=—29,1,
Применяя любое другое линейное
преобразование к системе, мы полу-
чили бы тот же результат. Напри-
мер, вместо а мы могли бы исклю-
чить из второго уравнения 6. Для
этого надо было первое уравнение
умножить на —1/649, а второе на
1/44 093. Тогда
(—10/649) а—6=—584/649,
(649/44 093) а+ 6=40 562/44 093
или после соответствующих деле-
ний
-0,0154 а - 6 = - 0,8998
0,01471 а+ 6=0.9199
-0,00069а = 0,0201
Эквивалентная система уравнений
примет вид
10«+6496=584,
—0,00069а=0,0201.
Решая ее относительно а, полу-
чаем а=—29,1. Это совпадает с ре-
зультатом, вычисленным ранее. Под-
ставляя значение а в первое урав-
нение, находим 6 = 1,348.
Методы быстрых вычислений.
Параметры а и 6 можно найти
быстрее, если ко второму уравнению1
системы (13.7) применить некото-
рые преобразования.
Эти преобразования основаны на
том, что 2л=2#=0, где х=(Х—X)
и y=Y—У. Тогда получим
[ ™+s«’=si'. (13.8>
I Sx%=s.r!l.
Решая первое уравнение относитель-
но а, находим
а = У-Х6.	(13.9)
Разрешая второе уравнение относи-
тельно 6, получаем
6=2ху,/2ха.	(13.10)
Замена вида х=Х—Я означает, что
центр координатной системы пере-
носится в соответствующую точку
оси У. Этот сдвиг координатной си-
стемы не изменяет угла наклона
прямой.
Значения 2х2, Хху, 2 г/2 (эти вели-
чины будут далее использоваться
при вычислении syx) находятся нз
следующих формул:
2лт/ = 2 АТ - Х2У;
2х4 = 2А'! - АТА’:
2//* = 2У* — У2У.
Для нашего примера
Zxy = 40562 - 64,9 (584) = 2660,4,.
2х* = 44 093 - 64,9 (649) = 1972,9,
2«/‘ = 38 008 - 58,4 (584) = 3902,4.
Подставляя эти значения в (13.9) и:
(13.10). получаем
6= 2660,4/1972,9 = 1,348,
а = 58.4 - 1.348 (64,9) = - 29,1.
Уравнение прямой имеет следующий
вид
У = -29.l-x-l.348A'.
Угол наклона можно интерпрети-
ровать следующим образом в то^
время как оценка по тесту увеличи-
вается на единицу, оценка произ-
водственной деятельности увеличи-
вается в 1,348 раза. Если тангенс
28Г
угла наклона отрицателен, то еди-
нице увеличения оценки по тесту со-
ответствует уменьшение в 1,348 ра-
за оценки производственной дея-
тельности.
Подставляя последовательные
значения X в уравнение, получаем
значения РА, приведенные в табл. 13.5
и 13.6. Например, Ух=—29,1-f-
+1.348 (68) =62,6 при Х=68. Значе-
ния разностей У—Ух также приве-
дены в табл. 13.5. Сумма этих раз-
ностей, если их не округлять, ближе
к нулю, чем к приведенному в таб-
лице значению 0,2.
Таблица 13.6. Процентное содержание
серы и показатель потерь энергии
(вычисления, необходимые для линейного
регрессионного анализа)
Аг	Y		У*	XY	X	
0,006 0,007 о.оо7	2,4-5 2.28 2,31	0,000036 0,000049 0,000049	6,0516 5Л984 5,3361	0,01476 0.01596 0.01617	0,006 0.007 0,007	2,396 2.41 2,41
0,015	2.51	0,000225	6,3001	0.03765	0,015	2,524
0.03 1.346	2,76 197,08	0,0019 0.026826	7.6176 505,5090	О.О82Ч 3.49202	0,03	2,738
Примечания: L Данные из табл. F3.4.
2- X—процентное содержание серы; У—показатель
лютеръ энергии.
Линия регрессии изображена на
рис 13.2. Так как в нашем случае
регрессия имеет смысл лишь для X
из интервала 40<Х<100, то пря-
мая не выходит за соответствующие
этому интервалу границы. Это озна-
чает, что регрессионная зависимость
имеет место лишь для 40<Х<100.
Чтобы найти параметры прямой
регрессии по методу наименьших
квадратов для данных из табл. 13.4,
вычисляют значения XX2, ХХУ, ХУ2.
Эти величины приведены в табл. 13.6.
На следующем шагу находят
2лу = ХЛУ - ХХУ = 3x49202 -
-(1,346/77) -197,08= 0,04706,
= 0,026826 - (1,346'77) • 1.346 =
= 0,003298.
Хлу’=505,509 - (197.08/77)  197.08=
= 1.083.
288
Подставляя эти суммы в соотно-
шения (13.10) и (13.9), получаем
6=0,04706/0,003298 = 14,269,
а = 2,5595 - 14,269 (0,01748) =
= 2,3101.
Уравнение прямой имеет вид:
Y~x = 2,3101 -|-14,269 X,
и, следовательно, можно сказать,
что увеличению содержания серы
в .металле на 1 % соответствует уве-
личение показателя потерь энергии
в 14,269 раза. Теперь можно найти
все значения УЛ. Например, чтобы
найти точку (0,006, рЛ), вычисляем
У*мо,ооб==2,3101-|-
+ 14,269 -0,006 =2,396.
Таким образом, получаем точку
(X, Ух) = (0,006, 2,396) Эта точка
соответствует наблюдаемой точке
(X, У) = (0,006, 2,46). Все вычис-
ляемые значения приведены
в табл. 13.6. Две экстремальные
точки (X, Ух) соответственно (0,006,
2,396) и (0,03, 2,738) отмечены на
рис. 13.4, и через них проведена
прямая. Конечно, прямую можно
было бы провести через две любые
другие расчетные точки.
13,2.2.	Пределы доверительного
интервала для р и а
Если целью регрессионного ана-
лиза является оценка угла наклона
прямой линии (например, измерение
эластичности спроса), то необходи-
мо принять во внимание выбороч-
ные ошибки оценок а и Ь. Парамет-
ры а и b являются выборочными
оценками а и 0. Следовательно, бы-
ло бы хорошо вычислить довери-
тельные границы 0 (и а) либо про-
верить (используя выборочную оцен-
ку коэффициента регрессии 6), зна-
чимо ли 0 отличается от 0о.
Вероятностное утверждение, ле-
жащее в основе определения дове-
рительного интервала C.L., для 0
имеет вид
P(fr-(sb<0<6 + ^)^e. (13.11)
Стандартная ошибка коэффициента
регрессии b вычисляется по формуле
a,=3,x//Z(X-X)', (13-12)
где Пух, произносимая как «сигма У
на X», является стандартной ошиб-
кой регрессии.
Формула для вычисления стан-
дартной ошибки для генеральной
совокупности имеет вид
(13.13)
а для выборочных данных
s^=/s(K-FJ7(»-2). (13.14)
Таким образом, соотношение (13.12)
можно переписать так:
s<.=WK2(A'-XC =
=s„//SP.	(13.15)
Поскольку Оь в (13.12) обычно не-
известно, то доверительные границы
b^ztSb вычисляются с помощью
оценки Sb из соотношения (13.15).
Для вычисления стандартной
ошибки оценки ovx и svx находят
значение рЛ или ?х> вычитают его
из наблюдаемых значений У и раз-
ности возводят в квадрат. Значения
разностей приведены в табл. 13.5.
Именно потому, что в стандартную
ошибку входят разности, мы гово-
рим, что стандартная ошибка явля-
ется мерой рассеяния наблюдаемых
точек (X, У) вокруг вычисляемых
точек (X, у*) или (X, рА). Знамена-
тель в (13.14) равен п—2. Это озна-
чает, что при использовании «ух
в качестве оценки ОуЖ мы теряем две
степени свободы. Потеря степеней
свободы вызвана тем, что входящая
в формулу (13.14) переменная Рх
зависит от двух неизвестных пара-
метров (а, Ь).
На практике вместо вычисления
по (13.14) применяют следую-
щую формулу:
svx = V (2^-&ад/(/г-2). (13.16)
С помощью вычислений, приведен-
ных в табл. 13.5, можно найти урав-
нение прямой
Ух=—29,1 + 1,348Х.
19—232
Вычислим также величины Ъху=
=2660,4; Sx2= 1972,9, 2^=3902,4.
Подставляя соответствующие зна-
чения в формулу (13.16), получаем
=/[3902,4-1,343"(2660,4)]/( 10-2)=
= 6,285
И
У 2(Х - Х)г = /£? =
= /1972,9 = 44,42.
Подстановка этих значений в (13.15)
дает
«*=6,285/44,42=0,1415.
При а=0,05 и v=8 имеем /=2,306
и C.L. для Р имеет вид C.L.=
= (&—/«*; &+/«*) = ( 1,348—2,306Х
X 0,1415; 1,348 + 2,306-0,1415) =
= (1,022; 1,674). Пределы довери-
тельного интервала для коэффици-
ента регрессии а получим из
C.L. = (a-/so; a + tsa). (13.17)
где
sa=(sgxlVn) (X - Ху.
(13.18)
В рассматриваемой задаче
so = (6,285/lT0) X
X У44 093/1972,9 = 9,4
и, следовательно, C.L.= (—29,1 —
—2,306-9,4;	—29,1+2,306-9,4) =
= (-50,8; -7,4).
13.2.3.	Проверка различия между
Р и Ро
Тест на различие между р и Ро
состоит в нахождении значения t*
и сравнении его с теоретическим.
Вычисляемое значение /* найдем из
соотношения
Г = |0-1Ш	(13.19)
где Sb задается формулой (13.15).
Коэффициент регрессии р можно,
разумеется, сравнивать с любым Ро-
Но особенно полезно это делать тог-
да, когда выборка мала, а & не
289
слишком отличается от нуля. В по-
следнем случае речь идет о провер-
ке того, значимо ли р отличается от
Ро=О. Если это отличие несущест-
венно, то исследователь может за-
ключить, что между Хи У нет кор-
реляции.
Данные табл. 13.3 иллюстрируют
эту задачу. Значения У выбираются
случайным образом в интервале
20<У<120; следовательно, мы
ожидаем, что тангенс угла наклона
линии регрессии равен нулю. Одна-
ко расчетный коэффициент b не ра-
вен нулю (6=0,274). Поэтому надо
проверить, существенно ли 0 отли-
чается от нуля.
Вычислим /*=] (6—0)/$*|.
Поскольку $1/х=30,8, то из фор-
мулы (13 15) найдем
sb = 30,8/^1972^9 = 0,964,
и /*=0,274/0,694=0,39.
Это значение t* меньше теоретиче-
ского /=2,306. Следовательно, мы
приходим к выводу, что р несущест-
венно отличается от нуля, и между
X и У нет связи. Вспомнив, как бы-
ли получены значения У, мы не уди-
вимся результату.
13.2.4.	Пределы доверительного
интервала прогноза для У и
Одно из важнейших применений
регрессионного анализа — это ис-
пользование его для прогноза. Как
уже говорилось, предсказания по
линии регрессии должны сопостав-
ляться с результатами какого-либо
другого метода прогноза. Оконча-
тельно используется тот метол, ко-
торый окажется лучше.
Точность прогноза определяется
оценкой суммарного рассеяния эм-
пирических X, У вокруг расчетных
(X, gjc). Эта сумма обозначается
aVx. Для данных табл. 13.1 возмо-
жен абсолютно точный (совершен-
ный) прогноз, поскольку аУх=0.
Данные, приведенные в табл. 13.2,
более реалистичны. Стандартная
ошибка уравнения здесь равна svx=
=6,285. Это значение представляет-
ся не слишком большим. В то же
время мы уже знаем, что данные
табл. 13.3 прогнозировать с по-
мощью регрессии бессмысленно.
Итак, значение иух определяет
пригодность данных с точки зрения
прогноза. За исключением экстре-
мальных случаев (полная корреля-
ция или отсутствие ее). Значение
Сух задает не статистик, а сам ис-
следователь. Именно он решает, го-
дятся ли его данные для целей
прогноза. Пусть иух составляет 10%
от V в двух разных задачах. Вполне
возможно, что при этом в одном
случае данные пригодны для про-
гноза, а в другом —нет. Если дан-
ные исследователя охватывают всю
генеральную совокупность, из-
вестно и доверительного интервала
для него вычислять не надо Дове-
рительный интервал вычисляют
только для У Определение его пре-
делов основано на вероятностном
утверждении вида
Р (У | X) = Р К -	< У < +
(13.20)
Это утверждение задает условную
вероятность У по X в предположе-
нии нормального распределения то-
чек (X, У) вокруг точек линии ре-
грессии (X, Ух) для каждого X.
Однако в случае выборочных дан-
ных доверительный интервал про-
гноза надо определять не только
для У, но и для и*, поскольку на Ух
влияют ошибки выборки. Довери-
тельный интервал прогноза для не-
которого значения У имеет вид:
1Л=(У1.-^Ж; VHM (13-21)
где
$еух —
= syxV l+l/n+(X-X)s/2(X-Xf;
(13.22)
syx = / l-f-l/n-HX-xr/Sx8.
Для Цх имеет вид:
CIP =(Ух-/5_ ; Ух4 is. ).’
В V * еух' * 1 еух'
(13.23)
где
5 - —
гух
= Syx /1/« + (А'-ад2(Х-ад
(13.24)
С1РИ- syx l/l/« 4-“(X-A)=/Sx\
В обоих случаях при заданном
уровне значимости а значение t на-
ходится для п—2 степеней свободы.
Значение sevx из формулы (13.22)
определяется аук и ошибкой выбор-
ки. Выражение под знаком корня
здесь не может быть меньше едини-
цы. Поэтому с ростом объема вы-
борки подкоренное выражение стре-
мится к единице, и практически для
больших выборок подкоренное вы-
ражение в формуле (13.22) можно
не учитывать, так как оно будет
мало влиять на seyx. Однако в вы-
ражении (13.24) подкоренное выра-
жение стремится с ростом выборки
не к единице, а к нулю. В резуль-
тате доверительный интервал про-
гноза для уменьшаясь, сходится
в точку, т. е. С1Р^ = (ря—0; Р*+0).
Таким образом, в этом случае ис-
следователь говорит, что Ух = Мх-
В выражения под корнем [(13.22)
и (13.24)] входит член (X—X)2.
Следовательно, значения setfX и $_
будут велики, если в выборку по-
падают большие выбросы значений
X, и малы, если в выборку по-
падают значения ХягХ. Для боль-
ших п влияние этого члена умень-
шается и, как уже отмечалось, seyxxt
^syx, каковы бы ни были значе-
ния X.
Вычисление пределов довери-
тельного интервала для У. Вычис-
лим теперь пределы доверительного
интервала прогноза для некоторого
значения Y, используя сначала дан-
ные табл. 13.2, а затем табл. 13.6.
После того, как администрация
предприятия получит данные из
табл. 13.2 и проведет расчеты, ана-
логичные приведенным в табл. 13.5,
она получит стандартную ошибку
уравнения 5^=6,285 (получение
этой оценки подробно обсуждалось
выше). Если это значение было не
19*
слишком велико, то администрация
приходит к выводу, что оценки
теста являются достаточно хороши-
ми предикторами оценок трудовой
деятельности. Следовательно, при-
нимается решение использовать ре-
зультаты теста при приеме на рабо-
ту очередных претендентов.
Предположим, что тестируемый
претендент получил оценку, равную
58 баллам. Каковы пределы довери-
тельного интервала прогноза пэ
этой оценке. Другими словами, чему
равны пределы доверительного ин-
тервала прогноза для У. Определе-
ние их по выражению (13.21) тре-
бует значения Тх=58, /, seyx. Про-
гнозное значение равно:
ух=6я=—29,1 +1,348 - 58 - 49,1
Из формулы (13.22) найдем
= 6,285 X
ХУ1 4-1/10 +(58-64,9)71972,9 =
=6,285)/ 1,1+0,024 =
=6,285-1.06 = 6,66.
Таким образом, множитель со зна-
ком радикала увеличил стандарт-
ную ошибку на 6%. Приняв а=0,05,
найдем /-значение для v=8 степе-
ней свободы: /=2,306. Подставляя
эти значения в формулу (13.21), по-
лучим доверительный интервал про-
гноза С1Р=[ (49,1-2,306-6,66);
(49,1 +2,306  6,66) ] = (33,7; 64,5).
Теперь администрация может при-
нять решение, брать ли претендента
на работу.
Предположим, что администрация
устанавливает правило: претенден-
та следует взять на работу, если
Р(У>40/Х) >0,8. Будет ли взят на
работу рассматриваемый претен-
дент? Так как п мало, то следует
использовать площадь под / кривой
At00. В приложении нет таблицы
/-распределений, поэтому проиллю-
стрируем метод с помощью нор-
мального распределения. Нам нуж-
но найти Ах°°, соответствующее +>
При данных Fx=49,l и $vx=6,285
(40—49,1)/6,285=— 1,45 и Л“135=
=0,926. Если нет претендента луч-
ше, то данное лицо следует принять
на работу.
291
Для вычисления границ прогноза
У для данных табл. 13 4 и 13.6 сна-
чала надо получить стандартную
•ошибку уравнения. С помощью вы-
ражения (1316) найдем
sax = V (1.083- 14,269 • 0,04706)/75 =
= 0,0741.
Предположим, что имеется ме-
таллическая болванка с 0,012%-ным
содержанием серы. Каков при этом
будет показатель потерь энергии
У? Подставим в формулу (13.21)
необходимые значения. Поскольку
v=75>30, Лстатистику можно ап-
проксимировать z-значением. При
а=0,05 имеем /~1,96. Таким обра-
зом получаем, что при Х=0,012
?л=о,С12=2,3 1014-14,269 (0,012) =
=2,481.
Из выражения (13.22) можно найти
=0,0741 X
Х/1 +1/77+ (0,012- **
* -0,0175)70,003298=
= 0,0741 У 1,013+0,00003025.
Заметим, что для выборок боль-
шого объема подкоренное выраже-
ние слабо влияет на значение
Следовательно, мы можем просто
принять 5^=5^=0,0741. Для за-
данного X—0,012 доверительный
интервал прогноза составляет
С1Р*=1(2,481- 1,96.0.0741); 2,481+
+ 1,96(0,0741)] = (2,336^2,523,.
Эти границы показаны на рис. 13.4.
При проверке данной металличе-
ской болванки на энергетические
потери было установлено, что с ве-
роятностью 0,95 значение показате-
ля энергетических потерь попадет
в указанный выше интервал.
Вычисление пределов довери-
тельного интервала прогноза для
р*. Пределы доверительного интер-
вала прогноза для ц* находят из
уравнения (13.23). В примере
с оценками мы нашли, что для X—
=58 имеет место Р*=58=49,1. Ис-
пользуя (13.24), получаем
=6,285 X
X /1 / Ю + (58 - 64,9)71972/=
= 6,285 /ЦД24 = 2,123.
При ст =0,05 и .у = 8 доверительный
интервал прогноза для ju имеет вид:
CIPp- [(49,1—2,306-2,213);
(49,14-2,306-2,213)] = (44,0; 54,2)..
Итак, мы можем сказать, что с ве-
роятностью 0,95 средняя оценка тру-
довой деятельности всех претенден-
тов, получивших по тесту 58 баллов,
попадет в этот интервал.
Пределы доверительного интер-
вала прогноза для показателя энер-
гетических потерь при Х=0,012 вы-
числяют аналогичным образом:
$_ =0,0741 X
XV1/77 +(0,012
*-0,0175)70,003298=
= 0,0741 /0,013 = 0,00845,
что дает следующий интервал:
С1Ри = [(2,481 - 1,96-0,00845);
(2,481 + 1.96-0,00845)] =
= (2,464; 2,498).
Длина интервала прогноза, равная
2,498—23464=0,03, очень мала. Сле-
довательно, в этой задаче Р* явля-
ется точечной оценкой Это озна-
чает, что не для всех оценок есть
необходимость в вычислении преде-
лов доверительного интервала про-
гноза.
13.3.	ДВУМЕРНЫЙ (ПАРНЫЙ)
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Иногда имеет смысл изучать
связь между двумя переменными,,
не ставя перед собой задачу прогно-
за или построения линии регрессии.
Исследования такого рода называ-
ются корреляционным анализом.
Наличие связи (или отсутствие ее)
определяется некоторыми абстракт-
292
ными числами, называемыми коэф-
фициентами или индексами. В слу-
чае прямолинейной связи широко
используются два коэффициента
(часто их путают). Это коэффи-
циент корреляции и коэффициент
детерминации.
Коэффициент корреляции вычис-
ляется по формуле
r = S(X-X) (У-7)	_
"Kzjx — Х)« £ (У— У)2
Яху
КЕх2^2
(13.25)
Если линией регрессии является
прямая, то может быть использова-
на другая формула для вычисле-
ния г:
г=-^~ = /1 - (=>*,ХЛ (13.26)
где
о_ = У1 (Ух - У)»/ЛГ (13.27)
И
2(У-У)’/М (13.28)
в из выражения (13.26) задается
соотношением (13.13)*
Коэффициент детерминации опре-
деляется из выражения
d=G,_ /а»	(13.29)
у? v
В случае прямолинейной связи d=
—г2. Для нелинейных связей J=/=r2,
если г2 вычисляют из формулы
(13.25), и если г2 определяют
из (13.26).
Соотношение (13.25) самое про-
стое для вычисления. В задаче
с оценками из табл. 13.5 коэффи-
циент корреляции составляет
г = 2660,4//1972,9-3902,4 =
= 2660,4/2774,7 = 0,96.
Коэффициент детерминации J=0,92.
В задаче с показателем энергетиче-
ских потерь
г = 0,04706/ /0,003298(1,083) =
= 0,04706/0,05976 = 0,79
и коэффициент детерминации ра-
вен:
d=0,62.
Соотношение (13.25) не зависит
от формы линии регрессии. Это вид-
но из самой формулы. В соотноше-
нии (13.26) г является функцией
следовательно, оба значения г
равны только тогда, когда кривая
регрессионной зависимости имеет
вид прямой. Другими словами, если
X и У связаны нелинейной зависи-
мостью, но данные аппроксимиру-
ются прямой, то значение г из фор-
мулы (13.25) равно значению, полу-
ченному из выражения (13.26). Од-
нако, если аппроксимировать дан-
ные не прямой, а некоторой кривой,
г из формулы (13.25) может быть
равно и больше значения, получен-
ного из формулы (13.26). Чтобы
сделать эти различия яснее, коэф-
фициент г, полученный из выраже-
ния (13.26) для нелинейной зависи-
мости, называется коэффициентом
ассоциации или корреляционным
индексом в отличие от коэффициен-
та корреляции для линейной связи.
Эта терминологическая разница не-
обходима и будет использоваться
в дальнейшем.
В любом случае связи, линейной
или нелинейной, простой или мно-
жественной, коэффициент корреля-
ции или ассоциации принимает зна-
чения в диапазоне от 0 до 1. Для
линейной связи знак связан с углом
наклона прямой. Для нелинейных
регрессий и множественной корре-
ляции знак не интерпретируется.
Почему г принимает значения от
0 до 1, станет ясно, если вспомнить
следующее фундаментальное соот-
ношение:
о*,=о*-+<)’м.	(13.30)
Поскольку г = а_/з и 0<зг- = а2
ух е	«х v
для г выполняется 0 < г < 1. В слу-
чае полной корреляции o*w=0 и
; следовательно, г = 1. Когда
Ух
корреляция отсутствует, тангенс
угла наклона прямой b равен 0. а
потому <з_ =0 и г = 0. Итак,
Ух
293
отражает разницу между У и У; о2ух
характеризует разницу между эмпи-
рическими значениями У и расчет-
ными значениями Yx (которая имеет
решающее значение при прогнози-
ровании); в- измеряет разницу
между расчетными значениями и
средним F [в случае, когда к эмпи-
рическим точкам (X, У) подгоняет-
ся методом наименьших квадратов
прямая, Y=yx, т. е. средняя эмпи-
рических значений совпадает со
средней вычисляемых из регрессии
значений].
Дисперсию а1— называют „объяс-
ух
ненной, частью дисперсии", a в*
У*
по обратной аналогии — «необъяс-
ненной частью дисперсии». Сходную
терминологию применяют при ин-
терпретации d. В примере с оцен-
ками профессиональной подготовки
d=0,92. Переходя к процентам,
можно сказать, что 92% дисперсии
в У объясняется уравнением регрес-
сии. Многие люди идут на один шаг
дальше и говорят, что оценка про-
изводственной деятельности почти
полностью объясняется оценками ио
тесту. Только 1—d=l—0,92=0,08
или 8% дисперсии объясняется дру-
гими факторами. Простота такого
объяснения очень заманчива, и
именно поэтому так часто интерпре-
тация корреляционной проблемы
с помощью d приводит к большим
заблуждениям.
Приведенная выше интерпретация
справедлива лишь для крайних слу-
чаев d=l и d=G. Если d отлично
от 0 и 1, то интерпретация не так
проста.
Коэффициент корреляции исполь-
зуется также в теории вероятностей
и ее приложениях.
В теории вероятностей речь идет
о совместном распределении слу-
чайных переменных X и У. Для
г#=0 случайные переменные зависи-
мы. Для г=0 случайные перемен-
ные некоррелмрованы, но не обяза-
тельно независимы, исключая случай
двумерного нормального распреде-
ления. Этот момент обсуждается
в книге Гольдберга по дискретной
вероятности
В прикладных задачах г характе-
ризует тесноту связи, значение кор-
реляции, степень ассоциации и т. д.
Часто г используется как абсо-
лютная мера корреляции. В этом
случае значение г=0,95 должно ин-
терпретироваться как высокая кор-
реляция во всех условиях и для всех
задач. Но, к сожалению, дело об-
стоит не так просто.
Рис. 13.5. Зависимость между дисперсиями
и стандартными отклонениями:
а — общие зависимости: б — оуЛ-комстакта; в —
V,-ксистанта; г — о— -комет->н та
Чтобы лучше понять, что же
представляют собой оба коэффици-
ента, на рис 13.5 даны графические
изображения соотношения (13.30) и
связи между uv, avx из_ . На гра-
фике рис. 13.5,а показано общее со-
отношение между дисперсиями и
стандартными отклонениями. Дру-
гие графики следует изучать с точ-
ки зрения связи между г и aVx, по-
скольку г используется как мера
1 Goldberg S. Probability. Prentice —
Hall, I960. См. также Вентцель Е. С. Тео-
рии вероятностей. — М.: Физматгнз, 1962.—
При#, ред.
294
корреляции, а характеризует
точность прогноза по регрессии L
Из рис. 13.5,6 видно, что г =
— а_ возрастает, в то время как
иух постоянно. Это положение ил-
люстрируется экспериментальными
данными табл. 13.7 и рис. 13.6.
г
в
7
8	!Z3<t567BX
Рис. 13.6. Пример постоянной ovx и увели-
чивающейся с— * Данные взяты из табл.
Ух
13.7
Рис. 13.7. Пример двух задач с различны-
ми atfX, но одинаковыми г
В трех примерах сух равны, что
означает одинаковую точность про-
гноза. Однако если Ь увеличивается,
г возрастает от 0 до 0,932, и, следо-
вательно, а_ (см. рис. 13.5) также
возрастает. Итак, могут быть боль-
1 Способ интерпретации г, иллюстри-
руемый графиками, аналогичными пока-
занным на рис. 13.5—13.7, был предложен
автором этой книги в работе: Л Suggested
Approach to Teaching of Simple Correla-
tion Analysis and the Coefficient of Corre-
lation, представленной в 1963 г. на еже-
годном собрании американского статисти-
ческого сообщества.
Таблица 13.7. Экспериментальные
данные с постоянной оух (числовая
иллюстрация рис. 13.5)
а		6		в	
X	У	X	У	X	У
1	7,8	1	7,73	1	7.1
2	8,2	2	8,15	2	7,7
3	7,8	3	7,77	3	7,5
4	8,2	4	8,19	4	8.1
5	7,8	5	7.81	5	7.9
6	8.2	6	8,23	6	8,5
7	7,8	7	7.85	7	7,83
8	8,82	8	8,27	8	8,9
шие сух при малых г — основание
треугольника на рис. 13.5,6 растет—
и малые о^х при больших г. Но
важный вывод заключается в том,
что большие значения г не гаранти-
руют высокую точность прогноза.
Действительно, часто прогнозы по
кривей регрессии бессмысленны, не-
смотря на большое значение г, вви-
ду того, что их доверительные ин-
тервалы слишком широки.
На рис. 13.5,в значение су остает-
ся постоянным В этом случае су-
ществует прямая связь между суХ и
г. Другими словами, г возрастает
при уменьшении сух и, следователь-
но, большое значение г является
индикатором высокой точности про-
гноза. На рис. 13.5,г показаны ана-
логичные результаты для постоян-
ных , т е. г растет с уменьше-
нием Сух.
Теперь посмотрим, можно ли ис-
пользовать г как абсолютную меру
корреляции. Коэффициент корреля-
ции г — з- /зу равен синусу угла а
между Зу и зух, т. е. г — з. !зу =
= sina. Следовательно, г, —г3 тогда
и только тогда, когда а1 = а2. На
рис. 13.7 показаны две задачи с оди-
наковыми г. Для этих задач и а_
V Ух
различны, а коэффициенты коэреля-
ции одинаковы, так как об г тре-
угольника имеют общий угол а. Да-
лее, меньший треугольник представ-
ляет задачу с маленькими значе-
ниями (маленький угол наклона
Ух
295
прямой) и ^ух. В горой треугольник
иллюстрирует задачу с большими
значениями (большой угол на-
&Х
клона прямой) и Итак, задачи
совершенно различны, хотя коэффи-
циенты корреляции у них одинако-
вы. Но если в двух совершенно
различных задачах могуг быть оди-
наковые г, то трудно, разумеется,
интерпретировать, например, г=
=0,95 одинаковым образом.
Сделаем следующие заключения:
1.	Коэффициент корреляции не
является индикатором точности
прогноза.
2.	г бессмысленно использовать
как абсолютный показатель корре-
ляции.
3.	Для сравнимых задач г просто
показывает, что корреляция в одной
задаче больше, чем в другой. Ис-
пользование г для этой цели вполне
оправдано.
Естественно, что коэффициент де-
терминации d обладает теми же не-
достатками. Его использование как
«процента объясненной дисперсии»
нуждается в дополнительном пояс-
нении Следует всегда помнить, что
дисперсия не является точной мерой
вариации. Только такие статистиче-
ские величины, как вариационный
размах, межквартильный размах и
среднее отклонение, обсуждавшиеся
в этой книге выше, являются точной
мерой вариации (рассеяния). Сред-
нее квадратическое отклонение яв-
ляется хорошей аппроксимацией ва-
риации, но и2 таковой не является.
Хотя значения а2 и могут быть ис-
пользованы для сопоставления, они
не представляют собой точное зна-
чение вариации. Эти моменты надо
всегда иметь в виду, интерпретируя
d-значения.
Интересно заметить, что г, вычис-
ленное по формуле (13 25) или из
условия прямолинейной регрессии,
будет одним и гем же, какую бы
переменную мы ни обозначили X.
Однако Сух в общем случае не рав-
но Олу. Связь между двумя этими
значениями имеет вид: сух=охуоу/ох.
296
Следовательно, вух=яху только тог-
да, когда оч=Ох.
Если делать различие между ге-
неральной совокупностью и выбор-
кой, то следует считать г выбороч-
ным коэффициентом, а р коэффи-
циентом генеральной совокупности. I
Если выборка мала, а г не слишком
отличается от нуля, то было бы по-
лезно проверить, значимо ли р от-
клоняется от р0. Такая проверка
делается с помощью /-статистики
для п—2 степеней свободы. Расчет-
ное /* получаем но формуле <
/*=г//(1-г‘)/(л-2). (13.31)
Например, читатель помнит, веро-
ятно, что значения У из табл. 13.3
функционально не связаны с X зна-
чениями. Эти значения Y выбира-
лись произвольно, и мы ожидаем,
что г=0. Коэффициент корреляции
вычисляется по формуле 25 и равен:
г = 185,7/К1972.9(7596,1) = 0,048.
!
Используя выражение (13.31), нахо-
дим /*:
/* = 0.048/)/ (1 —0,0023)/8 = 0,43.
Л4ожно прийти к выводу, что р не-
существенно отличается от ро=0.
Результат будет тем же самым, если
мы будем проверять гипотезу отно-
сительно разницы между b и Ро=0.
Вообще говоря, результаты должны
быть одинаковыми, что бы мы ни
проверяли на значимость: Ь или г.
13.4. НЕЛИНЕЙНАЯ РЕГРЕССИЯ
Если функция, связывающая У
и X, нелинейна, например является
многочленом второго порядка (па-
раболой)
Yx == а + ЬХ -J- сХ\ (13.32)
то она может быть подогнана к дан-
ным с помощью метода наименьших
квадратов	[
Используются также функции са-
мого разнообразного вида. Одна из
них — экспоненциальная кривая
Yx=abx. Аппроксимация данных
с помощью этой функции рассмот-
рена в гл. Г5. Другие нелинейные
функции подробно обсуждаются
в книге Крокстона, Каудена и Клей-
на *. Однако многочлен второго по-
рядка, приведенный в выражении
(13.32), наиболее универсален
в применении.
Нелинейные зависимости встреча-
ются часто. Например, таковой яв-
ляется зависимость между ценой и
количеством товара. В сельском хо-
зяйстве рост урожайности в зависи-
мости от внесения дополнительных
удобрений подчиняется скорее не-
линейному закону. В промышленно-
сти часто качество продукта явля-
ется функцией пропорций входящих
в него химикалиев, температуры
плавки и формовочного процесса.
В этих случаях маловероятно ожи-
дать линейной зависимости.
Какова бы ни была цель исследо-
вания— анализ вида линий регрес-
сии или прогноз, нет смысла всегда
ограничиваться прямой линией.
Если целью регрессионного ана-
лиза является прогноз, то примене-
ние нелинейных функций особенно
полезно. Когда парабола аппрокси-
мирует данные лучше, чем прямая,
то это означает, что оух для пара-
болы будет меньше, чем для прямой.
Но меньшее значение стандартной
ошибки эквивалентно уменьшению
длины доверительного интервала
прогноза. Следует добавить, что
сравнивать прямую линию с пара-
болой можно с помощью коэффици-
ентов корреляции и ассоциации.
Более высокий коэффициент ассо-
циации для кривой второй степени
говорит о том, что подгонка пара-
болой имеет преимущества.
Часто в формальном сравнении
параболы и прямой нет необходи-
мости, поскольку наличие нелиней-
ной связи очевидно. В этом случае
исследователь может не терять вре-
мени, аппроксимируя данные пря-
мой и сравнивая потом результаты
с результатами подгонки параболой.
Однако во многих задачах такое
1 Croxton F., Cowden D., Klein S.
op. cit.
сравнение необходимо. Проиллюст-
рируем на примере вычислительный
процесс сравнения.
Чтобы аппроксимировать данные
параболой (13.32) с помощью мето-
да наименьших квадратов, надо ре-
шить систему из трех линейных
уравнений относительно параметров
а, Ь, с. Эта система имеет вид:
па + (EX) b + (ЕХ4) с =
(ЕХ) а 4- (EX1 2) b -И
Н- (ЕХ3) с = ЕХУ;
(ЕХ4) «4- (EX3) b +
к +(EX4)Cz=EXT.
(13.33)
Вычисления упрощаются, если
принять х=(Х—X) и y=Y—Y и
подставить их во второе и третье
уравнения системы (13.33). Тогда
получим систему
Г (Ex4) b 4- (Ех3) с = Ех//;	13 зд
I (Ex3)64"(E*’Jc==s-*V
из которой найдем параметры b и с.
Параметр а вычислим из выраже-
ния
а=Y-Xb— (XX2/п) с. (13 35)
С помощью данных табл. 13.8 (ко-
личество и стоимость вишни) произ-
ведем следующие предварительные
вычисления:
Ex4 = ЕХ4 — ХЕХ 870 918 -
- 228.375 • 3654 = 36 436;
Е//4 = ЕУ2 — УЕУ = 918 446 -
-232,625-3722 = 52616;
Ex// = ЕХУ - XЕУ= - 32 316;
Ex5// = ЕХ4У - УЕХ4 =
= — 15 376 149;
Ex3 = ЕХ* - ХЕХ4 = 17 614 104;
Ex4 = ЕХ4 - (ЕХ4)4/« =
=-. 8 657 456 930.
Подставляя необходимые значения
в выражения (13.34), получаем си-
29.7
Г аблица 13.8. Производство и цена (франко-ферма) вишни в США с 1954 по 1969 г.
X	У	Л®	У®	ХУ	№	Х’У	
204	'2§1	41 616	71 289	54 468	8 489 664	11 111 472	1 731 891 500
260	174	67 600	30 276	45 240	17 576 0С0	11 762 400	4 569760 000
168	228	28 224	51 984	38 304	4 741 632	6 435 072	796 594 180
239	208	57 121	43 264	49712	13 651 919	11 881 168	3 262 808 600
192	225	36 864	50625	43 200	7 077 888	8 294 400	1 358 954 500
218	243	47 524	59 049	52974	10 360232	11 548 332	2 258 530 6С0
185	227	34 225	51 529	41 995	6 331 625	7 769 075	2655 237 800
266	217	70 756	47 089	57722	18821096	15 354 052	5006411 500
276	163	76 176	26 569	44 988	21 024 576	12416688	5802 783СОО
150	345	22 500	119 025	51 750	3 375 000	7 762 500	506 250 000
344	154	118 336	23 716	52976	40 707584	18 223 744	14 003 409 000
248	165	61 504	27 225	40 920	15 252 992	10 148 160	3 782 742 300
200	299	40000	89 401	59800	8 000 000	11 950 000	1 600 000 ОСО
198	325	39 204	105 625	64 350	7 762 392	12 741 300	1 536 953600
228	294	51 984	86 436	67 032	11 852 352	15 283 296	2 702 336300
278	188	77 284	35 344	52 264	21 484 952	14 529 392	5972816700
3654	3722	870918	918 446	817695	216509 904	187221051	56 063592100
Примечания; J. Даяны* вяяты из Agricultural Statistics (Милетерегю срлы:есого хозяйства США).
2- X—в ЮХ)т; У—фермерская цена за 1 т (в ДолЯ.)< скорректированная на индекс потребительских цен.
стему:
36 436 £>4-17614 104 с =
=--32316;
17614 104^4-8 657 456 930с—
==- 15376 149.
Разделив оба уравнения на коэффи-
циент при Ь, умножим первое урав-
нение на —1 и сложим со вторым.
Имеем
- b - 483.426 с = 0,886925
b -4- 491.507 с = - 0,872945
8,081 с = 0,01398,
надо найти несколько последова-
тельных точек. Например, для ряда
Х=(140, 180, 220, 260, 300, 340) по-
лучим точ!<и (140; 324,7), (180;
277,9), (220; 236,6), (260; 200,9),
(300; 170,7), (340; 146,1). Первую
точку найдем, подставив в уравне-
ние параболы значение Х=140, г. е.
Ух=532—1,72324-140+
4-0,00173-19 600=324,8.
Для оценки стандартной ошибки ис-
пользуем формулу
syx =- V 2 (У - Гх)7(« - 3). (13.36)
откуда получаем с=0,00173. Под-
ставляя это значение с в первое
/равнение, найдем Ь=—] ,72324.
Наконец, возвращаясь к (13.35), по-
лучаем
а = У - A'i- (2Х7л) с= 232.625
-] 228,375-1,72324 -
- (870 918/16).0.00173 — 532,002.
Таким образом, уравнение паработ
лы примет вид:
Ух =532- 1.72324Х + 0.00173Х*.
Чтобы изобразить параболу на диа-
грамме точек рассеяния (рис. 13.8),
298
цена вишни, долл./т
Рис. 13-8- Производство и цена (франко-
ферма) вишнй в США в 1954—1969 гг.
(данные взяты из табл. 13.8)
Знаменатель п—3 показывает, что
яри оценивании параметров ot b и с
теряются три степени свободы. Са-
мый простой способ вычислить svx —
это воспользоваться тождеством
— ^ух + □*_. .Если его обе части
умножить на N, то получим тожде-
ство для числителей дисперсий
2(У-У)‘ = 2(У -Ух)‘+
+ 2
Эти числители часто называют ва-
риациями. Теперь перепишем тож-
дество в виде
2 (У -YJ = 2 (Г - У)’ -
— 2 (Ух — У)\
так что
= /12 (Г - П’ - 2 (Г, - П1/ЛГ
(13.37)
И
*_у)*Р(/г_3).	(13.38)
Чтобы найти syx, вычислим сна-
чала:
2 (У — У)*= 2У8 — У2У =
= 918 446 - 232.625 (3722) = 52 616
я
2 (Л - П* =	- 2УУ =
= 2 (а 4- ЬХ -L сХу - 2УУ =
= а2У 4- bZXY 4- с£№У - У2У =
=532-3722 — 1,72324-817 695 4-
4-0,00173 -187 221 051 -
-232,625-3722 = 29 082.
Подставляя эти вариации в уравне-
ния (13.37) и (13.38), получаем
<зух = у (52 616 — 290^2)/16 = 38.34
и
syx = v (52616 - 29 082)/13 = 42,5.
Коэффициент ассоциации найдем из
выражения (13.26) следующим об-
разом:
= /2 (Ух - У)£/2 (У - У)1 =
= У29 082/52 616 — 0,744.
Если все вычисления делать с вы-
сокой точностью, то получим коэф-
фициент ассоциации г=0,762.
Стандартную ошибку иух и коэф-
фициент ассоциации г нужно срав-
нить со стандартной ошибкой для
прямолинейной регрессии и коэффи-
циентом корреляции, вычисляемыми
из формулы (13.25). Применяя фор-
мулы предыдущей главы, получим
значения oVx=39,96, г= 0.738. За-
метим, что в коэффициенте ассоциа-
ции знака минус нет. Итак, мы при-
ходим к заключению, что парабола
лучше, чем прямая линия, описы-
вает связь между количеством и це-
ной вишен, поскольку рассеяние то-
чек (X, У) вокруг параболы меньше,
чем вокруг прямой линии. Сравните
коэффициенты ассоциации и корре-
ляции, подтверждающие этот ре-
зультат.
Однако различие между парабо-
лой и прямой невелико, на это ука-
зывает значение коэффициента г
для уравнения параболы. Имеет ли
смысл использовать для прогноза
параболу, если разница между пря-
мой и параболой так мала? Этот
вопрос встает острее, если вместо
значений ауХ сравнивать оценки svx.
Действительно, для параболы s)JX=
=42,5, а для прямой syx=42,7. Раз-
ность между этими двумя стандарт-
ными ошибками становится совсем
незначительной, поскольку при вы
числении syx для параболы мы те-
ряем три степени свободы, а при
вычислении для прямой — всего
две степени свободы.
Следует отметить еще один важ-
ный предельный случай. Часто па-
рабола хорошо аппроксимирует ис-
ходные данные только потому, что
их выборка очень мала, т. е. чисто
случайно несколько точек отклоня-
ются от прямолинейной связи. Эта
гипотеза может быть проверена
299
с помощью дисперсионного анализа.
Однако еще раз подчеркнем, что во
многих задачах нелинейная связь
очевидна. В этих случаях целесооб-
разнее сравнивать различные кри-
вые, чем сравнивать их с прямой.
Доверительный интервал прогно-
за для параболической регрессии
есть
С1Р, = [(У Л - tsexy,	(Yx + tsy j].
Выборки не должны быть слиш-
ком малы, a t можно найти из
/-распределения с п—3 степенями
свободы. Например, в задаче с виш-
нями для Х=220 получим
Yx^i0 = 532 - 1.72324 - 220 +
+ 0,00173-48400 = 236,6.
Приняв а=0,05, определим
CIP^ [(236,6 - 2.16-42,5); (236,6+
+ 2,16 - 42,5)1 = (145 / V 328).
Разумеется, ни один человек не
будет прогнозировать цены на виш-
ню в зависимости от ее урожая по
регрессии, поскольку любой фермер
это сделает лучше без всякой ре-
грессии. Однако, кроме прогноза,
вид кривой регрессии и значения
представляют для экономиста
самостоятельный интерес.
13.5. МНОЖЕСТВЕННАЯ
РЕГРЕССИЯ И КОРРЕЛЯЦИЯ
Если Y есть функция только од-
ного X, независимо от того, линейна
или нелинейна зависимость между
Y и X, мы имеем дело с двумерным
анализом. Если же У будет функ-
цией более чем одного X (скажем,
Xi, Х2, ..., Хь), то говорят, что
связь множественная, и для ее ана-
лиза применяют методы множест-
венной регрессии и корреляции.
Лучше всего проиллюстрировать
эти методы на примере трех пере-
менных. Одна из них будет зависи-
мой, а две—независимыми. Однако
метод легко распространить на лю-
бое число переменных Прочность
углеродистой стали прямо пропор-
ционально зависит от содержания
углерода и обратно пропорциональ-
но от температуры. Данные, описы-
вающие эту зависимость, приведены
в табл. 13.9. Характер связи очеви-
ден при первом рассмотрении таб-
лицы. Значения У увеличиваются
с ростом и снижением Х2. Если
бы, например, Х2 не был связан
Таблица 13.9. Твердость углеродистой стали в зависимости от процентного
содержания углерода и температуры отпуска
Г	х.	X»	УХ,	гха	Х,Х.	У*		XS
555	6	133	3330	73 815	798	308 025	36	17 689
499	10	122	4990	60878	1220	24-9 СО!	100	17 689
588	23	112	13 524	65 856	2576	345 744	529	12544
559	24	103	13416	57 577	2472	312481	576	10 609
608	15	116	9120	70528	1740	369 664	225	13 456
507	24	99	12 163	50 193	2376	257 049	576	9801
603	57	83	34 371	50 049	4731	363 609	3249	6889
653	54	69	35 262	45 057	3726	426 409	2916	4761
661	65	76	42 965	50 236	4940	436 921	4225	5776
678	66	74	44 748	50 172 ‘	4884	459 684	4356	5476
661	68	61	44 948	40 321	4148	436 921	4624	3721
708	62	38	43 896	26 904	2356	501 261	3884	1444
724	83	40	60 092	28 960	3-320	524 1 76	6889	1600
703	100	47	70 300	33 041	4700	494 209	10 000	2209
749	116	31	86 881	23 219	3596	561 001	13 456	961
9456	773	1204	520 014	726 806	47 583	6 046 158	55 601	111 820
Примечания: I. У—значения показателя прочности; -процентное содержание углерода в стали, 10'*; тем-
пература отпуска стали в течение часа (в умноженная ня 10.
2. Эти данные быт получены в качкретлэм эксперименте, и вместе с тем они отражают общую связь между
твердостью стали» содержанием углерода и темперзтурой отпуска.
с У, то можно было бы считать, что
значения Х2 случайно располагают-
ся в интервале 30<Х2<140 (см,
табл. 13.3).
Предположим, что исследователю
неизвестно, имеется ли какая-либо
связь между У и Х2. Не применяя
множественную регрессию, он мог
бы ограничиться анализом связи У
и Ль Однако отказываясь от одного
или более факторов, влияющих на
зависимую переменную, он может
прийти к неверным выводам или по-
лучить слишком широкие границы
прогноза. Если У является функцией
более чем одной переменной, но
рассматриваются не все из них, то
рассеяние эмпирических точек (X, У)
вокруг расчетных (X, Ух) будет
очень большим. В результате иссле-
дователь может решить, что не
имеет смысла объяснять с помощью
полученной зависимости поведение
У. При прогнозе значение syX также
будет настолько большим, что он
будет вынужден отказаться от при-
менения регрессии.
Множественная регрессия исполь-
зуется по крайней мере по трем
соображениям Во-первых, прогноз.
Чтобы прогнозировать У с помощью
независимых переменных (Л'ь Х2,...
Xfe), исследователь должен вы-
яснить, имеет ли отношение к зада-
че (релевантен ли) тот или иной
фактор. Если фактор релевантен, то
он включает его в регрессию, и стан-
дартная ошибка оценки и довери-
тельный интервал прогноза стано-
вятся меньше.
Другая цель анализа с помощью
множественной регрессии — устано-
вить, каков вклад каждой независи-
мой переменной в поведение У. До-
полнительно может интересовать
вид связи (аналогично различию
линейного и нелинейного случая
в двумерной регрессии).
Наконец, исследователя может
интересовать сопоставление множе-
ственных регрессий в разных зада-
чах. В этом случае он может огра-
ничиться сравнением только коэф-
фициентов корреляции
Если неизвестно, релевантна ли
некоторая переменная, то можно
применить ступенчатую процедуру
регрессионного анализа. Простей-
ший способ — начать с двумерной
(парной) регрессии и добавлять на
каждом шагу новую переменную.
Если переменная релевантна, то при
ее введении стандартная ошибка
уравнения уменьшается, а коэффи-
циент корреляции увеличивается.
В противоположном случае происхо-
дит обратное.
iiiiiiiiiiil
О 20 40 60 80 100 120
800
700
ООО
500
400
СоОсрмпиав у г пероОа Хью'°А
Рис. 13.9. Зависимость твердости углероди-
стой стали от процентного содержания
углерода (данные взяты из табл. 13.9)
Итак, мы можем начать анализ
связи, приведенный в табл. 13.9,
с рассмотрения парной зависимости.
Диаграмма рассеяния (Хь У) по-
казана на рис. 13.9. Уравнение пря-
мой имеет вид;
УЛ1 = 523,5-г2,075Хь
причем <тУ1=36,38; rvi = 0,893.
Отметим различия в использова-
нии здесь индексов. Такие обозна-
чения необходимы, чтобы выделить
различные переменные, применяе-
мые в множественном регрессионном
анализе. Три символа, приведенные
только что, соответствуют величи-
нам Рх, ОуХ и г из предыдущего па-
раграфа.
Диаграмма рассеяния (Х2, У) по-
казана на рис. 13.10. Соответствую-
Рис. 13.10. Зависимость твердости углеро-
дистой стали от температуры отпуска (дан-
ные взяты из табл. 13.9)
301
щими ей статистиками являются:
Гх2==800,65—2,121 Л'2;	оу2=35,96;
ги2=—0,896.
Прежде чем начать обсуждение
математических свойств и вычисле-
ний для регрессионного анализа
с тремя переменными, приведем ре-
зультаты такого анализа и сделаем
некоторые сравнения Наиболее
часто уравнение множественной ре-
грессии записывается в такой об-
щей форме:
^х. и.	Ч"	F*- • 
Л». (13.39)
где k — число независимых перемен-
ных. Для случая трех переменных
имеем
(13-40)
и в нашей задаче
Ух 13 = 669,23 + 1 ,02664л-! -
- 1,14292Л,.
Стандартная ошибка и коэффи-
циент множественной корреляции
будут: аУ12=31,317; /?1/|2=0,909.
Сравним теперь эти результаты со
стандартной ошибкой и коэффици-
ентами регрессии в парных регрес-
сиях. ПОСКОЛЬКУ Oyijj-COtrt или
Ку\2>Гу2, мы заключаем, что пере-
менная Х2 релевантна. Доверитель-
ный интервал прогноза для множе-
ственной регрессии будет меньше,
чем соответствующие интервалы для
парных регрессий.
Уравнение вида (13.40), связыва-
ющее три переменные, представляют
собой уравнение плоскости в трех-
мерном пространстве. Точки трех-
мерного пространства записываются
так: (Х(, Х2, У), а точки, лежащие
на плоскости, можно записать (Х|,
Х2, Ух 12). Уравнение имеет три па-
раметра, которые называются коэф-
фициентами регрессии avl2, 6wi.2,
Если их найти и подставить
в зависимость (13.40), то можно по-
лучить значения (Хь Х2, Рх,12). Все
таким образом вычисленные точки
размещаются на плоскости, соответ-
ствующей данному уравнению.
Рассмотрим теперь первую точку
из табл. 13.9 (Хь Х2, У) = (6, 133,.
555). Требуется найти расчетную
точку (6, 133, Рх.12), соответствую-
щую этой эмпирической точке. Под-
ставив Х]=6 и Х2=133 в уравнение,
получим:
Ух. lt = 669.23 + 1,02664 6 -
- 1,14292-133 = 523,4.
так что вычисляемая из регрессии
точка имеет вид (6, 133, 523,4).
Обозначим вертикальную ось трех-
мерного пространства через У, а две
другие оси — через Xi и Х2, тогда
обе точки — эмпирическая и расчет-
ная — будут находиться на одной
вертикальной линии, параллельной
оси У. Так как У=555 больше, чем
Ух.12=523.4, то мы заключаем, что
эмпирическая точка (555, 6, 133).
располагается выше плоскости.
Вторая эмпирическая точка—(10,
122, 499). Соответствующей расчет-
ной точкой является точка (10, 122,
540, 1). Обе эти точки будут лежать
на линии, параллельной оси У, но>
эмпирическая точка теперь будет
ниже плоскости, поскольку У<РХ.12.
Этот анализ приводит к следую-
щей очевидной интерпретации: в то
время как в двумерном анализе
с помощью owx измеряют рассеяние
эмпирических точек (X, У) вокруг
Прямой ИЛИ кривой, с ПОМОЩЬЮ Ор|2
измеряют рассеяние эмпирических
значений (Хь Х2, У) вокруг пло-
скости.
Для нахождения параметров
уравнения решают систему трех ли-
нейных уравнений. Эта система
имеет вид:
+ (ЕЛ4)^.1 = 1У;
+ (ЕХЛ,)6„. = £Л-,Г;	(ld'41>
I +(SX J1
Система решается с большей точ-
ностью и с меньшей затратой вре-
мени, если сделать замену у=
= (У-У), ^(Х.-Х,) и л2=
= (Л2—А'г) во втором й третьем
уравнении системы. Тогда мы полу-
чим:
(Ех,)2	. 8 4- (Ех,хг) Ьу2, =
=
(Ех,лг) byi , + (Ех%)Ьу2_,=
=- Ъ*гУ •
После того, как подсистема
будет решена, значения b
подставить в уравнение
(13 42)
(13.42)
можно
=	(13.43)
которое получают из первого урав-
нения системы (13.41).
Используя результаты из табл. 13.9,
сделаем предварительные вычисле-
ния:
Е/ = ЕУ* - УЕУ = 6 046 158 -
- 630,4 • 94-56 =-- 85095,6;
Ех*, = Е№, - J.EX, = 55 601 -
- 51,5333 -773=15765,759;
Ех1,=ЪХ\ - Х^Хг = 111 820 -
- 80,2667-1204= 15178,893;
Ех,г/=ЕХ1У - Х,ЕУ = 520014-
- 51,5333 - 9456 = 32715.115;
Ех,у = ЕХ,У - Х2ЕУ = 726 806 -
- 80,2667-9456= -32195,915;
Ех.х, =E^,X, - XtEX,=47 583 -
— 51,5333-1204= - 14463,093.
Система (13.42) примет вид
' 15765,759 £>рь,-14463.093 by21 =
=32715,115;
' -14463,093 ^,.,4-15178,893 &,,.,=
= -32195,915.
Чтобы получить fti/2-i, разделим оба
уравнения на коэффициент 6wi.2 и
сложим:
^.,-0.9173737 6,,..=
= 2,0750738
1.0494914
= - 2,2260739
0,1321177byt'=-0,1510001.
Отсюда £>1/2.1=—1,14292. Подставив
это значение в первое уравнение
подсистемы, получим
byi.2= 1,026638.
Из уравнения (13.43) найдем
0^12=630,4— 1,026638 - 51,53334-
4-1,14292 • 80,2667=669,2324.
Это и будут параметры уравнения
плоскости, приведенного выше.
Стандартная ошибка в уравнении
множественной регрессии показы-
вает разницу между эмпирическими
и расчетными значениями. В нашем
случае она измеряет рассеяние эм-
пирических точек вокруг плоскости.
Формула стандартной ошибки имеет,
за исключением обозначений, тот
же вид, что и для парной регрессии:

Е(У-Ух.„)’
п — 3
п — 3	»
(13.44)
где число 3 в знаменателе соответ-
ствует числу потерянных степеней
свободы. В нашей задаче
sfilt=/(85095,6-1,026638 X ‘
"Х 32715,115- 1,14292 X ’*
X 32195,915)/12 = 35,01.
Вспомним, что ovi2=31,317.
Коэффициент множественной де-
терминации можно вычислить из
выражения
-Е(Г-Г,.„)*,'Е(У-1,)>. (13.45)
Числитель составляет Е(У—Рх.12)2=
= 14711,6646. Знаменатель также
известен: Е(У— F)2=Si/2=85095,6.
Подставив оба значения в (13.45),
получим '
/?2у12=1—14711,6646/85095,6=
=0,827.
Формула коэффициента множест-
303
венной корреляции имеет вид:
= / I - £(У- Г, „)"/Е(Г- Г)Г
(13.46)
Извлекая квадратный корень из
/?2vi2=0,872, получаем
/^,2=0,909.
Для множественной регрессии тож-
дество, связывающее общую, объяс-
ненную и необъясненную части дис-
персии, имеет тот же вид, что и для
парной регрессии, т. е. о2в=о_ 4-
Ух.\2..к
+ o2«i2..ft. Следовательно, интерпре-
тация /?хл2..л не отличается от ин-
терпретации г.
Для выборок большой размерно-
сти имеем формулу доверительного
интервала прогноза’:
С1Р,= [(Ух.12-^12);
где i находится при степенях свобо-
ды (л—3). Например, приняв а=
=0,05, получим для Xi=25 и Х2—
= 100:
Ух. 1г = 669,23 4-1,02664 - 25 —
- 1.14292-10	0 = 580.6;
С1Р^Д(580.6-2,179-35,01); (580,6-f-
4-2.179-35.01)1= (504; 657).
Другими словами, при содержании
углерода 10-2=25* 10-2=0,25% и
температуре закалки Х2*10=1(ЮХ
XI 0=1000 градусов по Фаренгейту
показатель прочности стали по-
падает с вероятностью 0,95 в полу-
ченный интервал.
Уравнение плоскости (13.40) вы-
водилось на основе выборочных дан-
ных. Для генеральной совокупности
его можно переписать в виде
Iх*.и== я$>>г 4"	Руг. t- (13.47)
Таким образом, выборочные коэф-
фициенты регрессии <ztf>2, а и bvz.\
являются оценками коэффициентов
регрессии для генеральной совокуп-
ности 0^12, PU|.2 И 0^21-
При ₽vi.2=₽i/2.i=0 плоскость па-
раллельна плоскости XjXa коорди-
натной системы и /?vi2=0-
304
хМожно также проверить, сущест-
венно ли коэффициенты регрессии
отличаются от нуля. Однако если
выборки малы, то из-за потери боль-
шого числа степеней свободы мож-
но обнаружить лишь значительную
разницу. Следовательно, в множест-
венном корреляционном анализе вы-
борки нс должны быть слишком
малы. Таким образом, чем больше
переменных, тем больше должен
быть объем выборки.
Уравнение регрессии, связываю-
щее четыре переменные, имеет вид:
+ Wr (13-48)
Эмпирические точки записываются
как (Х|, Х2, Х3, У), а расчетные точ-
ки— как (Xi, Х2, Х$, Ух.12з)- Точки
из четырехмерного пространства яв-
ляются математической абстракцией
и не существуют реально. Уравне-
ние (13.48) представляет собой
уравнение гиперплоскости. Эго так-
же абстрактное понятие, которое
является простым обобщением соот-
ветствующих геометрических поня-
тий в случае одного, двух и трех
измерений.
Для нахождения параметров
уравнения (13.48) по методу наи-
меньших квадратов надо решить,
следующую систему уравнений:
1“	is-|- (2Аа)6уг „4"
+ (EA,)6l,,.1I=sr;
4- (£X,XS) byt, „ + (SA.A,) byt, I2 =
= ЕХ.У;
(2At)ai/l2a4-(XA,X2)6sl.224-
4- (^%) V ..+ ОВД) It =
=S*2y; (2^Х1гЖ2*ЛЛ1.«4-
4 (2XJQ	. 4- (LA/) bUi, I4 =
= 2АаУ.
(13.49)
Процесс вычислений упрощается,
если сначала решить систему трех
уравнений:
I (^*'^1'^3) byt-12	^A',1/,
(Sx,x2)~F (Sx t) ьуг ti~F
“F (^-^S-^з) byt.ii == ^'•^'2^’
(^*^1-^1) bgi .аз +	3) Ьуг.13 ' I
+ (2^гз)^3.12 = 2^Л
(13.50)
а затем подставить полученные зна-
чения b в соотношение
^yiti Y	^уг.м
^3^у».12’	(13.51)
Формула для стандартной ошибки
представляет собой обобщение фор-
мулы (13.44):
с — 1Л (у-п.,,»)»
*Р123 — |/	^4	=
f ^У" ^yi.ts^X’iy	jjSXj!/—
— у	п— 4	•
(13.52)
Коэффициент множественной корре-
ляции для четырех переменных вы-
числяется по формуле
Я₽1И == /1 — «“j, 1 м/<»\ =
= ]/”s (У - PX.14S)7S (К - Р? •
(13.53)
Если исследователю неясно, ка-
кие из трех независимых перемен-
ных релевантны, то он может при-
менить ступенчатую процедуру. Та-
ким образом, он может найти стан-
дартные ошибки парных регрессий
У на X], У на Х2 и У на Х3, т. е.
величины svl, 5уг и sv3. Затем он
может найти величины svl2, svi3,
$у23. Если они меньше ошибок Л ля-
парных регрессий, то можно попро-
бовать вычислить 5^123. Если эта.
ошибка также меньше предыдущих,
то надо вычислить пределы довери-
тельного интервала прогноза.
Аналогичный процесс исключения
проводят, используя значения коэф-
фициентов корреляции. Коэффици-
енты корреляции вычисляют в той
же последовательности, т. е. снача-
ла рассчитывают rv2, гу3, за-
тем— /?У]2, ЯР1з, Ry23 и, наконец,
l?vi23- Переменные, включение кото-
рых не дает увеличения R, в даль-
нейшем из задачи исключатся.
Для ЭВМ составляются програм-
мы ступенчатой регрессии по алго-
ритмам, аналогичным только что
рассмотренному, но более сложным.
В частности, обычно включение или
исключение переменной зависит от
результатов Е-теста.
Рассматриваются также нелиней-
ные множественные регрессии. Бо-
лее полное изложение регрессионно-
го анализа читатель может найти
в книге Эзекиэла и Фокса *.
13.6. ВОПРОСЫ И ЗАДАЧИ
Указание, Задачи, приводимые ниже,
связаны с большим объемом вычислитель-
ной работы. Поэтому советуем либо ис-
пользовать вычислительную технику, либо-
помочь студентам, представив в их рас-
поряжение некоторые промежуточные вы-
числения.
13.1. Представителя приемной комиссии'
университета интересует, какое значение
имеет для прогноза один из национальных
вступительных тестов, предлагающийся
абитуриентам. Он произвольно выбирает
15 студентов и сравнивает их результаты
по тесту, записанные в виде процентилей
с кумулятивными средними оценками успе-
ваемости:
Прсн.ентилв 70.3	80.0	82,1	87.5	65,2	71.3	71,6	73.8	70.7	83,8	76,8	69,3	90.9	74.8	70,6
Залл4	2.21	2.99	3,00	3.19	1,36	2,26	2,46	2.48	2.63	3,35	2.98	1.85	3.24	2,41	2.00
1 Mordecai Ezekiel, Fox К. A. Methods
of Correlation and Regression Analysis.
N. Y.: Wiley, 1959.
20—232
а. Будет ли эта задача корреляционной
или регрессионной? Какой из рядов вы
обозначите через X? Какой ряд вы будете
считать зависимой переменной?
305'.
б. Нарисуйте диаграмму рассеяния и
«изучите ее. Какой из линий — прямой или
параболой — вы будете аппроксимировать
данные?
в. Найдите методом наименьших квад-
ратов параметры кривой и нарисуйте ее
-на диаграмме рассеяния. Объясните зна-
чение b в терминах задачи.
г. Вычислите стандартную ошибку урав-
нения бу*- Что измеряет эта величина? Мо-
жет ли она быть больше оух? Что проис-
ходит с sVXf когда п растет? Обозначьте
-.первый ряд символом (Pr) Y вместо X и
вычислите syx для этого случая: будет ли
полученное значение равно предыдущему?
Как сравнивать стандартные ошибки двух
задач, данные для которых сильно разли-
чаются?
д. Вычислите Вычислите при е=
=0,95 пределы доверительного интервала
CIPLV прогноза для студента, результаты
вступительного теста которого состави-
ли Ръз-
е. Формула для оценки sfyX имеет вид:
= ViP' + 1 /л +	(х — X)1.
Значения X берутся из интервала 50<
<Х<95.
1)	Будет ли достаточно большой раз-
ница между (X—X)2 для п=15 и
(X—Xs)2 для п—100? Почему?
2)	Будет ли достаточно большой разни-
ца между S (X—X)2 для п=15 и S (X—Т)2
для п=100? Почему?
3)	Сильно ли будет искажено значение
Sfyjc? если не принимать во внимание мно-
житель при
К1 + 1/п + (Х-Х)»/Е(Х—Л)« для п =
= 100.
4)	Вычислите $ —. Найдите также пре-
еУ*
,делы доверительного интервала CIPLy
прогноза для оценки успеваемости сту-
дента, результаты вступительного теста ко-
торого составили Рез- Полагая, что при
=100 членом (X—X)2/S (X—X2)	можно
пренебречь, найдите 5 — , используя то же
€Ух
значение svx,
13.2.	Если вы изучили разд. 8.4, в ко-
тором <у2 и о находятся с помощью Рг и
Pi-r, то оцените o2vx с помощью $%х, вы-
численной в задаче 13.1,г. Примите
=0,05. Как вы думаете, будет ли прием-
ная комиссия колледжа удовлетворена
объемом выборки, для которой мы полу-
чили эти оценки о2 и а? Как с помощью
этого метода можно было бы определить
необходимый объем выборки?
13.3.	Вычислите г для данных задачи
13.1. Проверьте при уровне значимости
0*05, существенно ли р отлично от нуля.
Что нужно сделать, чтобы применить этот
тест? Почему?
13.4.	Вычислите при е=0.95 пределы
доверительных интервалов прогноза для Р>
используя данные задачи 13.1.
306
13,5.	Для заданных ниже дисперсий вы-
числите Г] и ГД и нарисуйте три пары диа-
грамм рассеяния, представляющих эти за-
дачи.
,0^=20^*^= 15,3’-= 5 и 4с11,=401з»4Л=
= 30,о%х = 10;
,e,irt=20lesilX= ISjB*— = 5 и ,0^ —
Ух
= 50so syJt - 1 52c®_ = 35;	= 20! а tyX =
Ух
= 01a2— =20 и 2^= 202a2f?x =
Ух
= 202q2_ =0.
Ух
13.6.	Значения X, представленные ниже,
являются массами металлических слитков,
описанных в разд. 13.6. Прежде чем ис-
пользовать слитки в производстве, их нуж-
но отштамповать до требуемого размера.
Будут ли массы определять с достаточной
степенью размеры после штамповки? Если
это не так, то нет необходимости в конт-
роле масс металлических слитков. Итак,
через Y обозначены размеры слитков в ты-
сячных дюйма после штамповки, но перед
шлифовкой-
а.	Нарисуйте диаграмму рассеяния для
этих данных
б.	Аппроксимируйте данные прямой
с помощью метода наименьших квадратов
и найдите syx-
в.	Найдите при е—0.95 нижний предел
доверительного интервала прогноза для
наименьшего значения X и верхний предел
для наибольшего значения X.
X		У	
41,0	41,4	0.665	0,669
41,0	41,5	0,656	0,659
41,1	41,5	0,655	0,663
41,2	41,5	0,659	0,665
41,2	41,5	0,661	0,666
41,3	41,5	0.665	0,668
41,4	41,6	0,660	0,665
41,4	41,6	0,661	0,665
41,4	41,6	0,662	0,666
41,4	41,7	0,662	0,669
41,4	41,9	0.663	0.670
г. Если размер слитка после штампов-
ки будет меньше 0,655, то его невозможно
обработать на шлифовальном станке, и
слиток считается браком. Найдите такую
массу» для которой 95% слитков будут
иметь размеры больше 0,655. Как можно
решить эту задачу графически? Сделайте
эскиз.
13.7- Данные, приведенные ниже, пред-
ставляют собой объем продажи (в ты-
сячах миллионов долларов) и чистый до-
ход (в миллионах долларов) 20 фирм
в США. Будет ли объем продажи опре-
делять доход?
X		у	
8,9	4,4	441	454
8,4	4,2	278	291
7.4	4,2	456	321
7,2	4,1	934	51
7,0	3.8	89	III
6,1	3,8	611	2
5,9	3.6	770	356
5,8	3,5	53	150
5.5	3,3	234	237
4,8	3,2	217	151
а.	Нарисуйте диаграмму рассеяния»
б.	Постройте методом наименьших
квадратов прямолинейную регрессию и
вычислите svx. О чем говорят Вам эти
данные? Можете ли Вы сказать, что по-
лученное является большим или ма-
леньким? Если необходимо, то проверьте,
существенно ли b млн г отличаются от
нуля.
13	.8 На заводе производят некоторый
материал с различной твердостью. Чтобы
повысить твердость, увеличивают содержа-
ние некоторого химического вещества.
Ниже приведены выборки из 20 образцов.
Переменная X обозначает процентное со-
держание химического вещества, a Y —
прочность образца.______________________
X	Y	X	Y
18	72,2	19	79.1
18	80,1	14	56,4
18	69,8	22	82,4
6	58,2	8	55,2
20	79,7	22	107,8
9	45,6	И	34,4
11	58.6	24	115,4
	85,4	14	73,5
17	80.1	24	99,5
17	66,7	5	56,8
а.	Нарисуйте диаграмму рассеяния. Бу-
дете Вы аппроксимировать данные пара-
болой или прямой?
б.	С помощью метода наименьших
квадратов найдите вид параболы. Опреде-
лите. насколько увеличивается твердость,
когда содержание химического вещества
возрастает с 4 до 5% нс 24 до 25%. Бу-
дет ли разница такой же. если аппрокси-
мировать данные прямой?
в.	Вычислите svX- Будет ли значение
sVx для прямой таким же? Почему?
г.	Найдите при е=0.95 пределы дове-
рительного интервала прогноза CIPV для
Х=15. Будут ли эти пределы такими же
для прямой?
20*
д.	Правильно ли поставить задачу вы-
числения пределов доверительного интерва-
ла прогноза CIPLy для Х=50? Почему?
13.9.	Данные о средней заработной пла-
те за год в колледже и университете полу-
чить нетрудно. Будет ли зарплата предик-
тором качества преподавания? Ниже при-
ведены ряды: У — показатели качества*
для университетов, дающих ученые степе-
ни; Xi—средняя заработная плата,,
тыс. долл.; Ха — число доцентов и профес-
соров, перечисленных в справочнике «Кто
есть кто в Америке^, %.
Y	А,	Хв	Y	А1	А’а
31,6	13,2	47,1	29,8	13	12
32,6	13,5	23,3	35,6	11.3	12
33,8	13,4	14.9	36	12,3	10,3.
34	12,7	12.7	36,3	12,6	18,8
34,8	14	19	36,5	10,8	12,0
35,1	12,4	10,8	36,5	12,3	23,9'
16,3	>2,4	21.0	36.6	11,1	10.6
16.7	14,4	49,7	36.6	10,8	10.9
22,2	15,4	21.2	36,7	9,8	10,5
28	13.1	6,5	36,8	10.9	15,5
28,6	15.1	32.1	36,9	10,5	8,3
а.	Найдите диаграммы рассеяния У на
Xj и У на Х2.
б.	Постройте прямую с помощью ме-
тода наименьших квадратов, аппроксими-
рующую связь У от Xj.
в.	Найдите и вычислите пределы
CIPy для Х1=И0 и Xj—12 при уровне зна-
чимости а=0,05. Как вы думаете, является
ли средняя зарплата хорошим показате-
лем качества?
г.	Подгоните уравнение плоскости к на-
блюдениям за переменными У, Хь Х2 и
вычислите Sy12. Как вы думаете, должны
ли справочники колледжей внести допол-
нительную информацию о числе профессо-
ров, перечисленных в справочнике «Кто
есть кто?»
д.	Вычислите и сравните rv«? rv2 и
13.10.	Значения У представляют собой
число разводов на 1000 жителей в 20 шта-
тах CIIIA. Значения Х|—средний доход на
семью» тыс. долл.; X — процент городско’
го населения.
У		А ?	У	X,	ха
1,2	4,9	38.5	3.6	4,9	75
Ы	6,3	83.6	3,9	5,2	47,5
0.4	6,4	85,4	4.0	5,9	56,8
2,4	6.2	73,4	2,7	5,8	73,7
2,7	5,8	62,4	3,0	5,4	65.7
2,1	6,2	73,4	2,4	5.9	74,9
1.2	4,2	39,3	1.2	4,9	51,3
1,5	4,9	<54,3	3.3	6,2	68,1
1,9	5,0	55,8	3.2	5.9	62,2
4.6	4,6	62.9	3.1	6.7	86,4
307
а.	Есть ли какая-нибудь корреляция
между числом разводов и процентом го-
родского населения?
б.	Существует ли какая-нибудь корре-
ляция между числом разводов н средним
доходом?
в.	Примените множественную корреля-
цию, сравните svl2 с svl и sv2r прокоммен-
тируйте связь трех факторов и вклад каж-
дого из них. .
г.	Что вы думаете о других факторах»
объясняющих разницу в числе разводов?
(3.(1. Прогнозы продажи часто делают-
ся на основе предварительных данных.
Эти предварительные данные обычно пред-
ставляют собой прогнозы отдельных тор-
говцев. Будут ли такие прогнозы хороши-
ми? Регрессионный анализ может дать от-
вет на этот вопрос. Для примера рассмот-
рим прогнозы продаж 10 торговцев для
своего района на 4 мес. вперед. Спустя
4 мес. прогнозы сравнивались с действи-
тельными продажами. Были полученр^г сле-
дующие данные:
Тсрп> вец	Прог- нал	Дейст- витель- ная прода- жа	Торго- вец	Прог. НПЗ	Дейст- витель- ная прода- жа
/?/	59	46	вс	42	31
	45	27	со	70	65
AU	81	86	МА	42	23
zo	55	51	BI	74	83
НА	52	49	YO	39	36
а.	Нарисуйте диаграмму рассеяния. Как
Вы думаете, удовлетворительны ли прог-
нозы торговцев?
б.	Вычислите и пределы довери-
тельного интервала прогноза CIPLV для
Х=50„ Удовлетворительны ли эти преде-
лы? Как вы думаете, можно ли улучшить
работу компаний по прогнозированию?
в В каком случае данные будут пред-
ставлять генеральную совокупность?
13.12. Некоторый исследователь инвести-
ционной деятельности интересуется, будет
ли доход больших корпораций устойчивым.
Так как множество сравнений трудно про-
извести визуально, то он решает приме-
нить регрессионный и корреляционный ана-
лиз. Для этого он отбирает выборку нз
10 корпораций (выборка в действительно-
сти может быть больше) и фиксирует
средний доход на акцию пять лет назад и
в текущем году.
5 лет назад	В текущем году	5 лет назад	В текущем году
4,60	1,72	2,30	1,77
2,24	0,94	3,25	2,60
1,15	0J0	3,04	2,33
0,7	0.48	4.29	2,63
2,18	из	3.84	1.97
а.	Нарисуйте диаграмму рассеяния и
найдите прямую методом наименьших
квадратов^ Вычислите и пределы дове-
рительного интервала прогноза C!PLy. Бу-
дет ли полезным на сегодня прогноз, сде-
ланный на основе данных о доходе пять
лет назад?
б.	Вычислите коэффициент корреляции.
Можете ли Бы привести еще примеры мно-
жественных сравнений» в которых исполь-
зуется коэффициент корреляции?
14.1. ИНДИВИДУАЛЬНЫЕ ИНДЕКСЫ1
Индексы представляют собой вы-
раженные (по некоторым опреде-
ленным правилам) в процентах ве-
личины, которые обычно вычисляют
с целью облегчить сравнение дан-
ных между собой. Такие показатели
1 Автор использует термин «простой
индекс» (от. англ. Simple Index number).
В созетской статистической литературе та-
кого рода показатели носят название ин-
дивидуальных индексов. См. «Общая тео-
рия статистики», под ред. Л. Я= Боярско-
го. М.: Изд-во МГУ, 1977, с. 195.—Прим,
пер.
308
ГЛАВА 14
ИНДЕКСЫ
вычисляют для данных любого ро-
да Однако чаще всего их исполь-
зуют в случае временных рядов.
Несколько временных рядов при-
ведены в табл. 14.1. Каждый из них
представляет собой набор данных,
расклассифицированных по време-
ни. Соответствующие промежутки
или моменты времени обычно обо-
значают буквами t или X, причем
Х==(0, 1, ...), а соответствующие
числовые данные — буквами У/ или
Yx. Мы будем пользоваться обозна-
чениями X и Ух.
Значения Y могут представлять
Таблица 14.1. Цены и абсолютные
значения производства апельсинов,
яблок, персиков и вишни
	Апрльснны		Яблоки		Персики		Вишня	
Год	1	2	3	4	5	6	7	8
	<1	Р	ч	Р	ч	Р	Ч	Р
1950	39	2.85	4,91	4,84	3.56	3.84	69.4	362
1961	40	3,88	5.63	4,13	3,70	3.95	101,8	323
1952	46	2 .ад	5,68	4.32	3*55	3,87	109,1	2*8
1963	20	3,56	3.72	4 ,21	3,51	4,-15	69.4	359
1964	34	5,01	6,24	4,00	3,43	4,59	J18,1	290
1965	38	3.34	5,99	4,35	3,35	4,54	86.6	330
1966	45	2,42	5,65	4.46	3,38	5,27	111.0	389
1967	50	1.59	5,39	5,56	2,68	6,36	Л0.2	400
4968	45	3.55	5,44	6,11	3,59	5,44	90,9	439
1969	45	3,06	6.72	4*09	3,67	3,35	126,8	342
Примечания: 1. Данные Минкстерстяз сельского
хсняЛстбя США.
2. Столбцы: 1—согни тысяч ящиков: 2—долларов за
яшьк; & -миллиарды фунтов; 4~центов заф.т; 5—
миллиарды фунтов; 6—центов за фунт; 7- -тысячи тонн;
Я—долларов за тонну.
3. р—цены: Q—количество.
собой некоторые суммарные значе-
ния или же средние по тем или
иным промежуткам времени (таким,
как неделя, месяц, квартал, год)
или значения, отмеченные по состо-
янию на некоторые моменты време-
ни. Соответственно такие данные
называются либо периодическими,
либо точечными данными. Значения,
приведенные в табл. 14.1, являются
периодическими. Значения цен в гой
же таблице представляют собой го-
довые средние. Цифры валового на-
ционального продукта обычно вы-
числяют ежеквартально, а затем их
умножают на четыре, чтобы их мож-
но было сравнивать с данными за
год. В то же время учетные ставки
Федеральной резервной системы яв-
ляются точечными данными. Они
даются на те или иные определен-
ные даты, как, например, на 5 фев-
раля некоторого года.
Самая основная формула для вы-
числения индексов 1Х имеет вид:
IX=YX/C, (14.1)
где С — константа базового перио-
да. Временной ряд /х будет назы-
ваться индексным рядом, а каждое
отдельное значение /&— индексом.
Рассмотрим цены на апельсины,
которые приведены в табл. 14.1.
Пользуясь в качестве константы ба-
зового периода ценой 1960 г. (т. е.
принимая С=2,85), получаем /|060=
=2,85/2,85=1,000, т. е. 100,0%;
/.«,=3,88/2,85=1,361» или 136,1%,
и т. д. Чтобы вычислить индексы для
цен на яблоки, возьмем в качестве
константы базового периода цену
1960 г. (С=4,84), откуда /i960—
=4,84/4,84=1.000, или 100,0%;
/1961=4,15/4,84=0,857, или 85,7%,
Дата
Рис. 14.1. Цены на апельсины, яблоки и
вишню в США (данные взяты из табл.
14.2)
и т. д. Индексы цен на апельсины и
вишню приведены в табл. 14.2 и по-
казаны на рис. 14 1.
Таблица 14.2. Цены на апельсины,
яблоки и вишню в США в 1960—1969 гг.
(цены I960 г. приняты за 100)
Год	Апельсины	Яблоки	Вишня
I960	100,0	100,0	100,0
1961	136,1	85,7	89,2
1962	92.3	89,2	79,6
1963	124,9	87,0	99,2
1964	175,8	82,6	80,1
1965	117,2	89,9	91,2
1966	84,9	92,1	107,4
1967	52,6	114,9	110,5
1968	124,6	126.2	121,3
1969	107,4	84,5	94.5
Примечание.	Данные взя“	гы из тзбл.	14.1.
Когда временной ряд состоит из
индексов, недостаточно сказать в за-
головке, что именно представляют
эти величины и откуда они берутся.
Необходимо также дать информа-
цию и о константе базового перио-
да. Для индексов из табл. 14.2 та-
кие данные приведены в виде соот-
ношения (1960—100). Точно так же
и на рис. 14.1 около вертикальной
оси указано: 1960=100.
Индексы имеют следующий
смысл: когда мы проводим сравне-
ние с некоторым базовым периодом,
индексы представляют собой просто
соответствующие величины, выра-
женные в процентах этого базового
периода. Возьмем, .например, индекс
цен на апельсины (табл. 14.2). Ин-
декс, соответствующий 1963 г., ра-
вен 124,9. Это значит, что средняя
цена за этот год составляла 124,9%
цены базового 1960 г., или. иначе
говоря, была на 24,9% выше цены
базового периода (1960 г.). В 1962г.
средняя цена составляла 92,3% це-
ны 1960 г., т. е. была на 7,7% ниже
цены 1960 г.
Таблица 14.3. Цены на апельсины*
персики и оптовые цены на
сельскохозяйственные продукты в США
в I960—1969 гг. (цены 1967 г. приняты
за 100)
Год	Апельсины	Персики	Сельскохозяй- ственная ПрОДу'ЖЦНЯ
I960	190,0	60.4	97.2
196!	258,7	62,1	96)3
1962	175,3	60,8	98,0
1963	237,3	68.4	96,0
1964	334,0	72 2	94,6
1965	222.7	71,4	98,7
1966	161.3	82,9	105,9
1967	100,0	100.0	1С0.0
1968	236,7	85,5	102,5
1969	204.0	84.1	109,1
Примечание. Данные п ценах на апельсины и
персики взяты нз табл. 14.1. Данные об оптовых ценах
на сельскохозяйственную продукцию—из Federal Re-
serve Bulletin,
В табл. 14.3 индексный показа-
тель цен на апельсины за 1960 г.
равен 190,0. В этом году средняя
цена на апельсины составляла
190,0% цены 1967 г., или, другими
словами, была на 90% выше цены
1967 г. (базовый период). Индекс-
ный показатель цен на персики
310
в 1960 г. равен 60,4. Это означает,
что цена на персики в 1967 г. со-
ставляла 60,4% цены на персики
в 1967 г., т. е. была на 39,6% ниже
цены 1967 г. Таким образом, индек-
сы представляют значения, выра-
женные в процентах от значения
некоторого базового периода того
или иного временного (или любого
другого) ряда
В тех случаях, когда сравнение
проводится не с базовым, а с ка-
ким-нибудь иным периодом, следует
отличать разность процентов от
процентной разницы. Например, в
табл. 14.3 индексы, отвечающие 1960
и 1961 гг., равны соответственно-
го,0 и 258,7. Предположим, мы хо-
тим установить, на сколько процен-
тов выросли цены на апельсины
с 1960 по 1961 г. (т. е. найти про-
центную разницу). Значение 258,7'
уже не является процентом от 190,0.
Вычислить рассматриваемое изме-
нение в процентах можно следую-
щим образом: 258,7/190.0—1=
= 1,362—1=0,362, что эквивалентно»
увеличению на 36,2%.
Значение 190,0 можно просто от-
нять от 258,7. Полученная разность,
процентов, а именно 68,7, уже не бу-
дет совпадать с процентной разни-
цей.
Когда временной ряд состоит из
индексов и необходимо описать, как
изменяются его члены, то пользу-
ются как процентной разницей, так.
разностью процентов. При этом в
последнем случае говорят, что про-
изошло изменение на столько-то-
пунктов. Например, когда Феде-
ральное резервное управление уве-
личивает учетную ставку с 4,5 до-
5%, говорят, что учетная ставка уве-
личилась на 0,5 пункта (а не на
0,5%). Соответствующее процентное-
изменение составляет 5,0/4,5—1 =
=1,111—1=0,111, т. е. 11,1%.
Приведем еще один пример, в ко-
тором фигурирует и индексный по-
казатель 100,0. Возьмем три числа
из табл. 14.3: /1966=82,9, /1Ш= 100.0»
и /19б8=-85,5. Об этих трех индексах
можно сделать следующие утверж-
дения. Рост цен с 1.966 по 1967 г. со-
ставил 17,1 пункта, причем цены вы-
росли на 100,0/82,9—1=1,206—1=
=0,206, или 20,6%. Цена 1966 г.
была на 17,1% меньше цены 1967 г.
С 1967 по 1968 г. цена на персики
понизилась на 14,5%. Цена 1967 г.
была на 14,5 пунктов выше цены
1968 г., т. е. на 100,0/85,5—1 =
=1,170—1=0,17, или на 17% боль-
ше в 1967 г., чем в 1968- Иначе го-
воря, процентные изменения получа-
ются только в тех случаях, когда то
.или иное значение сравнивается со
значением 100,0 Если это не так, то
процентная разница не совпадает
с разностью процентов.
Процентные изменения, вычислен-
ные по индексам, равны процент-
ным изменениям, вычисленным по
исходным данным. Например, поль-
зуясь индексными показателями из
табл. 14.3, можно получить, что про-
центное увеличение цен на апельси-
ны с 1963 по 1964 г. равно
175,8/124.9—1=0,408, или 40,8%.
Если вместо индексов показателей
.использовать исходные данные из
табл. 14 1, то процентное изменение
-окажется равным 5,01/3,56—1=
=1,407—1=0,407, или 40,7%. Не-
большая разница в результатах воз-
никла в процессе округления.
В рассмотренных выше примерах
в качестве константы базового пе-
риода всегда брали только одно из
значений временного ряда. На
практике, однако, часто используют
«разу несколько значений. В этом
случае в качестве константы базо-
вого периода берут их среднее. Если
мы хотим, например, взять в каче-
стве основы для сравнения цен на
апельсины из табл. 14,1 1961, 1962
и 1963 гг., примем С= (3,88+2,63+
-)-3,56) /3=3,36. В этом случае 1Х=
=Кх/3,36. Приведем несколько ин-
дексов, соответствующих этому зна-
чению С:
I960	84,8
1961	115,5
1962	78,3
1963	106,0
1964	149,1
Базовый период записывается те-
перь в виде 1961—1963=100, и все
индексы представляют собой вели-
чины, выраженные в процентах по
отношению к этому базовому перио-
ду. Так, цена на апельсины 1962 г.
(78,3) на 21,7% была меньше сред-
ней цены 1961—1963 г.; с 1962 по
1963 г. цена выросла на 27,7 пункта
или на 106,0/78,3—1=1,354—1 =
=0,354, т. е. на 35,4%. Индекс цен
1961 г. равен 115,5, что означает,
что цена 1961 г. на 15,5% была
больше средней цены 1961—1963 гг.
С 1961 по 1962 г. цены упали на
37,2 пункта или на 78,3/115,5—1 =
=0,678—1=—0,322, т. е. на 32,3%.
Если, например, базовым перио-
дом является 1967=100, но данные
даются за каждый месяц, то кон-
станта базового периода будет сред-
ней из двенадцати значений за каж-
дый из месяцев 1967 г. Если берут-
ся ежеквартальные данные, то С
будет средним от четырех величин.
Если рассматриваются ежемесяч-
ные данные, а базовый период есть
1967—1969=100, то константа С со-
ставляет среднее из 36 значений.
Обобщая, скажем, что у нас име-
ется некоторый временной ряд
о
I
2
о
2
для которого необходимо вычислить
простые индексы IX—YJC. Значение
€ либо имеет вид
С=П,	(14.2)
либо составляет
с=2ад</+1;.	(14.3)
Так, может быть, что
с=у\=у2
или
с=(Г, + У. + W	i У, 1(2 + 1).
Х=1
311
Что касается выбора базового пе-
риода, то здесь самым важным кри-
терием является сопоставимость
данных. В случае, когда необходи-
мо сравнить два или более времен-
ных ряда с помощью индивидуаль-
ных индексов, можно взять любой
подходящий базовый период. При
этом его очень легко менять, пере-
ходя таким образом к сравнению
иных величин. Совсем иначе обстоит
дело со взвешенными агрегатными
общими индексами когда с помо-
щью одного индекса описывают
сотни временных рядов. В этом слу-
чае базовый период выбирают го-
раздо тщательнее, и он сохраняет-
ся в течение многих лет. Основная
причина заключается в том, что
сбор данных и вычисление весов,
приписываемых каждому из отдель-
ных рядов, входящих в индекс, ча-
сто являются дорогостоящими про-
цедурами. Поэтому различные пра-
вительственные и неправительствен-
ные организации заботятся о том,
чтобы базовые периоды для их ин-
дексов совпадали. Эту политику
проводят, в частности, для таких
известных индексов, как индекс
объема промышленного производст-
ва, индекс потребительских цен, ин-
декс оптовых цен и др.
Например, приведенный в табл.
14.3 индекс цен на сельскохозяйст-
венную продукцию представляет со-
бой агрегированный взвешенный
индекс с базовым периодом 1967=
=100. Для того чтобы добиться
сравнимости цен на апельсины и
персики с этим индексом, в качестве
констант базового периода С сле-
дует взять цены 1967 г.
Если величины ряда сильно ко-
леблются, в качестве константы ба-
зового периода целесообразно взять
среднее от нескольких величин. Это
1 Автор использует термин «агрегат-
ный» или «агрегированный» (индекс or
англ, aggregative index number). В совет-
ской литературе эта категория индексов
называется «общие индексы». Она, в свою
очередь, делится на агрегатные индексы и
средние из индивидуальных индексов (см
ниже) . — Прим. ред.
312
i
хорошо видно на примере цен на
апельсины из табл. 14.3, график ко-
торых показан на рис. 14.2. По-
скольку в качестве константы базо-
вого периода нужно было взять наи-
меньшую из цен, все индексы ока-
зались больше 100,0.
Рис. 14.2. Цены на апельсины» персики и
оптовые цены на сельскохозяйственную
продукцию в США (данные взяты на
табл. 14.3)
Таблица 144 Объем производства
апельсинов» яблок и о5щий объем
производства продовольствия в США
в 1961—1969 гг. (объем 1961 г. принят
за 10Э)
Год	Апельсищ.i	Яблоки	11рпнзчодство пролежи ЬСТВИЯ
1961	100,0	100,0	100.0
1962	115.0	100,9	102,9
1963	50,0	101,6	106,0
1964	85,0	110,8	109,3
1965	95,0	106,4	112,1
1966	112,5	100,4	116.4
1967	125,0	95.7	120,2
1968	112,5	96,6	123,0
1969	112,5	119,4	127.6
Примечания: I. Данные о ценах на апельсины и
яблоки взяты из табл. 11.L индексы объема производ-
ства продпиътъетвия взяты по дянным Federal Reserve-
Bulletin.
2. Базовый период для дэшых обобьеме «риязиэд-
ства продовольствия был сдвинут с 1957—1659 гг. на
1961 г.
Иногда базовый период прихо-
дится менять (табл. 14.4). Индекс
объема производства продовольст-
вия в этой таблице является взве-
шенным количественным индексом и
I
t
L
I
t
составной частью индекса объема
•промышленного производства, для
которого базовым периодом явля-
ется 1957—1959=100. Исходные зна-
чения этого индекса
1961	ИО.З
1962	113,5
1963	П6,9
Это значит, что, например, в 1961 г.
объем производства продовольствия
в США был на 10,3% больше, чем
в 1957—1959 гг. Поскольку в табл.
14.1 нет цен на апельсины и яблоки
за 1957—1959 гг., мы не можем
пользоваться этим базовым перио-
дом для данных о производстве
продовольствия. Поэтому базовый
период следует изменить. Достаточ-
но взять в качестве константы базо-
вого периода индекс 1961 г. (т. е.
принять С=110,3) и пересчитать все
остальные индексы.
С помощью сдвига базового пери-
ода общественности часто объясня-
ют, какое количество товаров мож-
но было купить за 1 долл, в том
или ином году. Обычно для этой
цели пользуются индексом потреби-
тельских цен. Например, при базо-
вом периоде 1967=100 индекс по-
требительских цен составлял 51,8 в
1954 г. и 121,3 в 1971 г. Используя
эти три значения, можно сделать
следующие утверждения: 1 долл.
1967 г. стоил 0,52 долл в 1954 г. и
1,21 долл, в 1971 г. Это означает,
что для того чтобы приобрести одно
и то же количество товаров и услуг
(которое в 1967 г. стоило 1 долл.),
в 1954 г. следовало заплатить 0,52
долл., а в 1971 г.— 1,21 долл.
За 1 долл. 1971 г. (т. е. если при-
нять 1971=100) в 1967 г. можно
было купить товаров и услуг стои-
мостью 100,0/121,3=0,82 долл.
1967 г., а в 1954 г. — товаров и ус-
луг стоимостью 51,8/121,3=0,43
долл. 1954 г.
Наконец, за 1 долл. 1954 г.
(1954=100) можно было купить на
100,0/51,8=1,93 долл, и на 121,3/
51,8=2,34 долл, товаров и услуг в
1967 и 1971 гг. соответственно. По-
следнее утверждение означает так-
же, что в 1967 г. понадобилось бы
1,93 долл., а в 1971 г. — 2,34 долл.,
чтобы оплатить объем товаров и ус-
луг стоимостью в 1 долл. 1954 г.
Например, семье, доход которой в
1954 г составлял 10000 долл., не-
обходимо было заработать 23400
долл, в 1971 г., чтобы ее уровень
жизни не понизился.
Процедура сдвига базового пери-
ода существенно отличается от его
замены. Проводя замену базового
периода, мы пользуемся исходными
данными. Такая операция доволь.ю
проста для простых индексов (в этом
случае следует просто взять в каче-
стве С какую-нибудь другую вели-
чину), но может оказаться доволь-
но сложной для взвешенных индек-
сов. Чтобы заменить базовый пери-
од 1957—1959 гг. на 1967 г., необхо-
димо провести большую работу для
получения новых весов и несколько
изменить набор товаров. В то же
время сдвиг базиса применяется не
к исходным данным, а к индексам и
представляет собой, как мы уже по-
казали, не более чем пересчет ин-
декса. Когда базис взвешенного ин-
декса подвергается сдвигу (в отли-
чие от его изменения), целесообраз-
но указать и исходный базовый пе-
риод, как это сделано в табл. 14.4.
Часто приходится состыковать
два индексных ряда. Обычно такая
необходимость возникает в тех слу-
чаях, когда цены или количество
одного и того же товара или при-
близительно одинаковой группы то-
варов представляются двумя индек-
сами с различными базовыми пери-
одами. Эту проблему можно проил-
люстрировать с помощью индексных
рядов цен на апельсины из табл.
14.2 и 14.3. Предположим, что ин-
дексный ряд цен в табл. 14.2 закан-
чивается индексом 7=175,8 для
1964 г., а индексный ряд в табл. 14.3
начинается индексом /=334,0 для
1964 г. Иначе говоря, будем счи-
тать, что мы не располагаем в табл.
14.2 данными до 1964 г., а в табл.
14.3 — данными после 1964 г. В этом
виде оба индексных ряда не срав-
313
ни мы друг с другом, и их необхо-
димо состыковать. Предположим,
что базовый период состыкованного
ряда целесообразно взять соответ-
ствующим 1967 г. (как и в табл.
14.3). В этом случае (1967=100)
индексы из табл. 14.2 необходимо
изменить. Их нужно умножить на
некоторый коэффициент г, такой,
чтобы значение 175,8 стало равным
334,0. Этот коэффициент должен
удовлетворять условию г= 175,8=
= 334,0 или г=334,0/175,8 =1,900=
= 1,9. Это значит, что все индексы
табл. 14.2 следует увеличить на
90%. Имеем:
Год	(1961 г,=100)	(1967г.= 100)	(1967 г,=Ю0)
1962	92.3		175,4
1963	124,9	—	237,3
1964	175,8	334,0	334,0
1965	—	222,7	222,7
1966	—	161,3	161,3
Ясно, что процедура стыковки двух
индексных рядов требует, чтобы по
крайней мере за один период ин-
дексы перекрывались.
Хотя чаще всего в виде индексов
представляют временные ряды, в
этой форме можно представлять и
любые другие данные, выраженные
в процентах. Например, можно вы-
числить индексы цен на апельсины
в различных городах, взяв в качест-
ве базовой константы данные, ска-
жем, по Чикаго. Если индекс, соот-
ветствующий Нью-Йорку, равен
116,3, то это значит, что цена на
апельсины в Нью-Йорке на 16,3%
выше цены на апельсины в Чикаго.
Конечно, этот пример является ис-
кусственным. Сравнивая цены на
один и тот же товар, пет смысла
вычислять межгородские индексы.
Однако агрегатные индексы весьма
полезны, и нам часто приходится
пользоваться индексом потребитель-
ских цен с базовой константой С,
соответствующей некоторому горо-
ду, а не году. Подобные сведения
о базовом городе указывают следу-
ющим образом: «Цены Чикаго=
=100».
Формула для вычисления простых:
индексов (14.1) имеет общий вид.
В применении к ценам ее можно за-
писать так:
/г — Pxl С)
а для индекса объема производст-
ва того или иного товара
/х=<?х/С‘.
В этом и заключается разница
обозначениях между индексами цен
и объемов. Примеры индексов объ-
ема производства приведены в табл.
14.4, в которой объем производства
апельсинов и яблок сравнивается с
агрегированным индексом объема
промышленного производства.
Индексы существенно упрощают
сравнение данных, различающихся
по порядку величины (как, напри-
мер, цены на апельсины и вишню в
табл. 14.1) или по используемым
единицам измерения (как цены и
объемы производства или объемы
производства персиков и вишни в
табл. 14.1). Временные ряды, отли-
чающиеся по порядку величины,
трудно графически сравнивать друг
е другом, если не прибегать к отно-
сительной шкале (которую мы рас-
смотрим несколько ниже). В то же
время индексы легко строить на
графике и сравнивать друг с другом
(см. рис. 14.1—14.3).
Рис. 14.3.
апельсинов
табл. 14.1)
Цены и объем производства-
в США (данные взяты и»
14.2.	ОБЩИЕ ИНДЕКСЫ
Возьмем среднее от двух или бо-
лее временных рядов и вычислим
индексы этих средних значений. По-
лученные индексы относятся к ка-
тегории общих индексов *. Общие
индексы строятся как непосредст-
венно по исходным данным, гак и по
индивидуальным индексам. Индек-
сы первого типа носят название
«агрегатных индексов». Индексы
второго типа называются «средними
из индивидуальных индексов». Сло-
во «средние» здесь уже само по се-
бе указывает на то, что речь идет
об общем индексе. Индексы обоих
типов могут быть как взвешенными,
так и невзвешенными. Поскольку
невзвешенные индексы взвешивают-
ся неявно, можно сказать, что каж-
дый общий индекс является взве-
шенным (явно или неявно). хМ.ы бу-
дем говорить далее как о взвешен-
ных, так и о невзвешенных индек-
сах.
В этом разделе мы рассмотрим
невзвешенные и взвешенные агре-
гатные индексы, а затем познако-
мимся со взвешенными и невзве-
шенными средними из индивидуаль-
ных индексов.
Невзвешенные агрегатные индек-
сы. Пусть имеются три временных
ряда, представляющих цены или
объемы производства товаров трех
типов. Эти данные могут быть годо-
выми, ежемесячными, ежекварталь-
ными или недельными. Если взять
среднее от цен (или объемов про-
изводства), соответствующих каж-
дому периоду, то полученный вре-
менной ряд будет давать среднюю
цену от всех трех рядов.. Индекс,
вычисленный по этим средним це-
нам с помошью уравнения (14.1),
называется невзвешенным агрегат-
ным индексом.
На самом деле при вычислении
этого индекса нет необходимости
вычислять средние цены. Процедура
вычислений такова, что тот же са-
мый индекс можно получить и с по-
1 О терминологии см. в цнт. выше кни-
ге «Обшая теория статистики», с. 191-199.
Таблица 14.5. Вычисление
невзвешенных агрегированных индексов
Пргжеча1.ня: 1. X — периоды или моменты време-
ня; у — кы ipwro ых рнкст; т — номер времен-
ного ряда, / — 1. 2....jt
2. Из выражений (I4.li. — (14.3) Z _ У /С. где
С — клк С — у	Эти формулы можно
X—fe
также переписать в виде I = Xi	0. 1.2-...
i
k-ya
г де С = 2 !,ki ,кя с = 3	+ ’>*
i	/
мощью сумм значений, соответству-
ющих каждому периоду. Хотя наш
индекс и является по существу ин-
дексом средних цен (или объемов),
можно сэкономить много труда и
времени, просто складывая цены
(или объемы), соответствующие
каждому из периодов, а затем вы-
числяя индексы по суммам, а не по
средним. То же самое верно и для
взвешенных агрегатных индексов.
В общем виде методика вычисле-
ния невзвешенных индексов приве-
дена в табл. 14.5. Суммы по стро-
кам образуют временной ряд Уя,
для которого с помощью уравнения
(14.1) вычисляют индивидуальные
индексы. Если наш временной ряд
представляет собой цены, то буквы
yXj можно заменить на pxj. В этом
случае SpXJ—Yx. и формулу для 1Х
315
Таблица 14.6. Невзвешенный агрегатный индекс цен (цены на апельсины,
яблоки и вишню; все цены даны в долларах)
Год	Л	Р»	РЛ2	рхз	3 РХ! i	(1960г.=100)	(1952—1964гг. = =100) 1х
I960	0	2.85	0,0484	362	364.90	100,0	115,4
1961	1	3,86	0,0415	323	326,92	89,6	103.4
1962	2	2,63	0,0432	288	290,67	79,6	92’0
1963	3	3.56	0,0421	359	362,60	99,4	114,7
1964	4	5.0|	0,0400	290	295,05	80,8	93,3
1965	5	3,34	0,0435	330	333,30	91.3	105,4
1966	6	2,42	0.0446	389	391.46	107,3	123.8
1967	7	1,50	0,0556	400	401,56	110,0	127,0
1968	8	3,55	0,0611	439	442.61	121,3	140,0
1969	9	3,06	0,0409	342	345,10	94,6	109,2
Примечания' I. Данные бзтгы из табл. 14.1.
2. Длл базового периода (I960 г.=Ю0} f — Г /364,90.
3. Для базового периода (1962—1964 rr.iiOO) Г^/316.11. где 316.11 = <290,67+362.60+295.05)/3.
можно записать в виде
Л=Тх/С = 2рх//С, Х=о. 1. 2 ....
1
где
k'-d
С = ИЛИ С =
/	x=k j
Если нам нужен индекс объема про-
изводства, то вместо yXj можно за-
писать qXj. Однако в общем виде ча-
ще всего пользуются обозначением
Ухз-
Методика вычисления невзвешен-
ных агрегатных индексов, приведен-
ная в табл. 14.5, применена для вы-
числения невзвешенного агрегатно-
го индекса цен на апельсины, ябло-
ки и вишню в табл. J4.6. Заметим,
что обычно одни цены выражаются
в долларах, а другие—в центах (см.
табл. 14.1). Однако при вычислении
агрегатных индексов все цены дол-
жны быть выражены в одинаковых
единицах. Поэтому в табл. 14.6 це-
ны на яблоки были переведены из
центов (4,84 цента) в доллары
(0,0484 долл.). Мы уже отмечали,
что невзвешенный индекс на самом
деле является неявно взвешенным
индексом. Это хорошо видно на на-
шем примере. В табл. 14.6 агреги-
рованный индекс описывает измене-
ние средней цены всех трех продук-
тов. Однако доминирующую роль в
нем играют цены на вишню, кото-
рые даются в сотнях долларов (па
сравнению с единицами долларов,
для апельсинов и единицами центов
для яблок). Поэтому агрегатный
индекс из табл. 14.6 лишь немного
отличается от индивидуального ин-
декса цен на вишню в табл. 14 2.
Причина того, что один из рядов
оказывается доминирующим, состо-
ит в том, что данные рядов не со-
поставимы друг с другом. Как вид-
но из табл. 14.1, цены на апельсины
выражаются в долларах за ящик,
цены на яблоки — в центах за фунт,
а цены на вишню—в долларах за
тонну. Поэтому поступать так, как
мы это делали в табл. 14.6 (т. е.
вычислять индекс средних цен), в
данном случае нельзя (цены выра-
жены в различных единицах изме-
рения).
Единственными двумя временны-
ми рядами, для которых можно вы-
числить агрегатные индексы, явля-
ются ряды цен на яблоки и перси-
ки. Обе цены выражаются в центах
за фунт. То же самое справедливо
и для индекса средних объемов про-
изводства.. Невзвешенный агрегат-
ный индекс объема производства
апельсинов, яблок и вишни может
только ввести в заблуждение. Одна-
ко такой же индекс для объема
Т а блица 14.7 вычисление взвешенных индексных показателей
X				 Я »	wm^xm	« Ух /
0 1	®,F„		«Мо»	<	♦	♦ •		a	^rnVim	^fP<> j k 1 =Уг 1
2	«’i.V,,	u2i/22		 ♦ *	ЩпУ 2Ш	2	= У? i
3			а'эУ»»	♦ • *	am	i
4	tt'lV,!			 » •	im	^4 =-- Yt i
•		>	•	• * *	-	Л	»
	в	A		 • •	«	•	в
временного ряда (/ =
Примечания: k X — периоды или моменты времени; у±- — временные ряды; т — номер
= 1,2,	, гл); су — веса, на которые умножается ряд #
1 k+<i
2. Из уравнений (14.1) —(14.3) /* = У^/С, где С = У& или С= Fx/(d + 1}-
x=k
£j“WC’X = °> ’ 2 ГДе C=Se’/^“J,R
I
3. Эти формулы можно также переписать в виде
/
C=S Sv*?w+*»-
xrk i
производства яблок и персиков бу-
дет отражать реальные колебания
среднего объема производства этих
продуктов.
Взвешенные агрегатные индексы.
Взвешенные индексы учитывают как
средние изменения, так и относи-
тельную важность каждого из ря-
дов. Процедура вычисления индек-
са такого рода приведена в табл.
14.7. Каждый из рядов умножается
на некоторый вес, и для каждого
периода времени все произведения
складываются. Эти суммы образуют
новый ряд Ух, для которого и вы-
числяется индекс по формулам
(14.1) —(14.3).
Веса определяются или вычисля-
ются многими различными способа-
ми. Однако чаще всего в качестве
весов для индексов цен пользуются
объемами производства или прода-
жи, а для индексов объема произ-
водства— ценами. При этом обычно
веса совпадают со значениями ба-
зового периода.
Вычисление взвешенного индекса
цен, описывающего средние колеба-
ния цен на апельсины, яблоки и
вишню, приведено в табл. 14.8. Це-
ны каждого из трех продуктов ум-
ножены на объемы производства &
1960 г., так как именно 1960 г. вы-
бран в качестве базового периода
индекса. Исходные и приведенные
веса несколько отличаются друг от
Друга. Для облегчения вычислений,
исходные значения был и разделены
на 100. Такая операция и возмож-
ное последующее округление весов
(проведенное правильно) не отра-
зятся на индексе. Кроме того, что-
бы упростить процедуру вычисления
1Х, суммы взвешенных цен (г. е.
значения к) можно округлять до
пяти значащих цифр.
В то время как невзвешенный ин-
декс цен из табл. 14.6 почти не от-
личается от индивидуального ин-
декса цен на вишню, поведение ин-
декса табл. 14.8 определяется преж-
де всего ценами на яблоки. В этом
31Г
Таблица 14.8. Взвешенный индекс цен (цены на апельсины, я>локи и в:;шню;
все цеиы даны в долларах)
Год	X	Яблоки (ЗЭ 0(Ю₽х1)	Апельсина (49 100 000ух2)	Вишня	(I960 г,=1Л1	
					Zjw p .—У	I X
1960	0	111 150	2376 440	25! 228	2 738 Sift	100,0
1961	1	151 320	2 037 650	224 162	2 1)3 132	88,1
1962	2	102 570	2121120	199872	2 »23 562	88,5
1963	3	138840	2 067 ПО	249 146	2 455 096	89,6
1964	4	195390	1 964 000	201 260	2 360 650	86,2
1965	5	130 260	2 135 850	229 С2П	2 495 130	'	।	91,1
1965	6	94 380	г 189 860	269 966	2.554 206	93.2
1957	7	58 500	2 279 960	277 6С0	3 066 060	Hi,9
1968	8	138 450	3 000 010	304 660	3 443 120	125.7
1959	9	119 340	2 008 190	237 348	2 364 878	86.3
Примечания: I. Данные взяты нз тайл. 14 1.
2. Исходные массы {отъемы произвол тва л 1^0 гЛ: ai|—-3 903 003 ящныэз апельсинов, «>.—4 910 000 030 ф.л юв
тйблок. c'8—69 400.
3. Приведенные массы; «^ЗЗПОО. «^=49 100 030, «?з=б£М.
легко убедиться, сравнив этот взве-
шенный индекс с индивидуальными
индексами из табл. 14.2. В период
с 1961 по 1962 г. цены как на апель-
сины, так и на вишню упали, но це-
ны на яблоки поднялись, в резуль-
тате чего увеличилось и значение
взвешенного индекса цен. Причина
этого состоит в том, что вес, при-
писанный ценам на яблоки, являет-
ся самым большим. Как видно из
табл. 14.8, произведения весов и цен
на апельсины заключены между 50
и 200 тысячами; для яблок—меж-
ду 2 и 3 миллионами, а для виш-
ни— между 200 и 300 тысячами.
Поэтому влияние колебаний цен на
яблоки на поведение индекса при-
мерно в десять раз больше влияния
колебаний цен на вишню.
Вообще говоря, взвешенные ин-
дексы цен показывают, как измене-
ния цен отражаются на доходах или
расходах отдельных лиц или групп
лиц, покупающих или продающих
товары, включенные в .индекс. На-
пример, приведенный выше взве-
шенный индекс несомненно являет-
ся показателем изменений в дохо-
дах американских фермеров, произ-
водящих апельсины, яблоки и виш-
ню. Однако он имеет слабое отно-
шение к изменениям дохода гою
.или иного отдельного фермера, если
только объемы выращиваемых им в
318
своих садах фруктов не пропорцио-
нальны весам, использованным при
вычислении индекса.
Как мы уже указывали, при вы-
числении взвешенных количествен-
ных индексов в качестве весов ис-
пользуются цены базового периода.
Приведенная в табл. 14.7 процедура
вычисления индекса применима ив
этих случаях. В результате этот ин-
декс учитывает не только изменения
объемов производства продуктов,
соответствующих каждому из вре-
менных рядов, но и их относитель-
ную важность.
Возьмем, например, производство
пуговиц и автомобилей и предполо-
жим, что производство пуговиц уве-
личилось на 5%, а производство ав-
томобилей уменьшилось на 5%.
Так как число пуговиц гораздо
больше числа автомобилей, неизве-
шенный агрегатный индекс этих
двух товаров покажет увеличение
производства. Если оба ряда взве-
сить с помощью цен, то взвешенный
индекс покажет уменьшение произ-
водства. Такой индекс будет отра-
жать не только изменения объемов,
но и важность каждой из составных
частей.
Несмотря на то, что индекс объ-
ема (формально) взвешивается с по-
мощью цен, он не является стоимо-
стным индексом, как, например, ва-
левой национальный продукт в те-
кущих ценах. Цифры, представляю-
щие стоимость производимых това-
ров и услуг, зависят не только от
изменения объема производства, но
и от изменения цен. Выше, при вы-
числении взвешенного количест-
венного индекса, были использова-
ны фиксированные ценовые веса.
Тем самым взвешенный индекс фи-
зического объема после учета с по-
мо1цью процедуры взвешивания
важности каждой из составных час-
тей показывает только изменения в
объеме производства. Точно так же
взвешенный индекс цен показывает
изменения в цепах, а не стоимости,
несмотря на то, что в качестве ве-
сов в процессе вычисления индекса
используются объемы производства.
14.3.	СРЕДНЕЕ
ИЗ ИНДИВИДУАЛЬНЫХ ИНДЕКСОВ
В настоящее время самые различ-
ные правительственные ведомства и
другие организации и учреждения
генерируют многочисленные времен-
ные ряды, многие из них в индекс-
ной форме. Пользователям же дан-
ных часто необходимы общие ин-
дексы, поскольку по той или иной
причине их интересует некоторый
избранный набор временных рядов.
Поскольку они не располагают ис-
ходными временными рядами, то им
приходится пользоваться индексны-
ми рядами и уже по ним вычислять
невзвешенные или взвешенные сред-
ние из индивидуальных индексов *.
Невзвешенное среднее из индиви-
дуальных индексов. Порядок вы-
числения такого индекса показан в
табл. 14.9.
Если даны т индивидуальных ин-
дексных временных рядов, среднее
из индивидуальных индексов пред-
ставляет собой просто среднее
арифметическое составляющих.
Единственное, что требуется, это
При этом в число составляющих мо-
жет входить и общий индекс, но при вы-
числении среднего он будет рассматривать-
ся как индивидуальный. — Прим. ред.
Таблица 14.9. Вычисление
невзвешенного среднего из
индивидуальных индексов
ьремешых рядов (; = 1,2.т).
чтобы базовые периоды у всех со-
ставляющих были одинаковыми.
Такие средние арифметические от
индивидуальных индексов цен на,
апельсины, яблоки и вишню, взятых
из табл. 14.2, в форме невзвешен-
ного среднего нз семейства индек-
сов приведены в табл. 14 10.
Таблица 14.10. Невзвешеннсе среднее
из индивидуальных индексов
(цены на апельсины» яблоки и вишню)
(1960 г. = Ш0)
Год	Л	'х	ГОД	X	/ X
I960	0	100,0	1965	5	99,4
1961	1	ИЗ.7	1966	6	94,8
1962	2	87,0	1957	7	92,7
1963	3	IC3.7	1968	8	124.0
1964	4	112,8	1969	9	95,5
Примечание. Данные взяты из табл. 14.2.
Читатель, возможно, помнит, что*
невзвешенный индексный ряд цен
из табл. 14.6 мало отличался от ин-
дексного ряда цен на вишню. В этом
случае доминировал неявный вес
индексного ряда цен на вишню. Те-
перь же каждый 'из рядов берется,
с одинаковым весом. Пользовате-
31&'
Таблица 14.1! Вычисление j а) w, — стоимостные веса			взвешенного среднего (произведения объемов		из индивидуальных индексов и цен для базового периода tJbjPbj)	
X	®*'xi	w*rxi		• • ♦	tn хт	/• /
О 2 3 4 * 9	•Aj «’1Л1 W	W2 142 U?2/J2 «Мм •	tt'^23 » я 6) w’j = u?j	W	♦	fl • • • • • • ♦ • • • • • fl	♦	• /Euy, Stt1'	Щп! 41П  в 1	^и’Уо//2 wi ~ i	i wi — A 2u,//*//3w’/=/2 7	/ 1	i 2 wi2 wl ~ J* 7	/ *	9
X	W'JX1	w'vl 3 AS	№'>'хг	• * *		/
0 1 2 3 4 nF менного	wrlJ 11 ^1^21 • * шысчкнне. X — ряда: J = 1» 2. .	W	M	w	W	«	33 о	—	«	«	*	S . s СЧ	CM	«	«	*1	- s	э з a	I . I s 	 	 	 	 Sj r	а1>аЛ>> «ЛЛ» • •	1 <енгы временя; ,		•	w •		Л 9	♦	• BA* V	•	 4	-	> Л		A Г; — ИНДИЕМ •*/	П14ottt E£',f winJtn vn WrmI 4ГП w ♦ дуальны? илн об	л / 2f = / / 2 ^//4/=л j 	 •	» шде индексы; m — номер вре-
лям таких индексов следует учиты-
вать этот факт. Этим методом мо-
жет пользоваться и организация,
«выпускающая» индексы, в тех слу-
чаях, когда исходные временные ря-
ды не сопоставимы, но должны
быть взвешены одинаково.
Взвешенное среднее из индивиду-
альных индексов. Методика вычис-
ления взвешенных индексов по вре-
менным рядам, состоящим из ин-
дексов, приведена в табл. 14.11. Ря-
:320
ды индексов умножаются на соот-
ветствующие веса, а затем сумма
этих произведений для каждого из
моментов времени X делится на
сумму всех весов Sty,. Эти вычис-
ления даны в табл. 14.11,а. В табл.
14.11,6 в качестве весов берутся от-
носительные величины, для которых
So»'/=1. Поэтому в этом случае ин-
декс, соответствующий моменту
времени X, равен просто сумме про-
изведений w'j и /х/.
►
к
На практике в качестве весов ин-
декса такого рода берутся стоимо-
стные веса. Они представляют со-
бой произведения физических объе-
мов и цен (или средних физических
объемов и цен), соответствующие
базовому периоду. В результате
среднее из индивидуальных индек-
сов будет совпадать со взвешенным
агрегатным индексом. В том слу-
чае, когда индексы являются индек-
сами цен, а веса, использованные в
процессе вычисления этих индек-
сов, — соответствующими количест-
венными показателями,
ZWiPkilC —
что можно переписать в виде
^QbjPbj tybjPbj
~	(Pbj1 PbjY^biPbj'f
^bjPkj_ _ bjbjPkj.
tybjPbj tybiPbj
Таким образом, правая часть пер-
вого уравнения является взвешен-
ным средним из индивидуальных
индексов, а правая часть последне-
го уравнения представляет собой
взвешенный агрегатный индекс, об-
щая формула для вычисления кото-
рого дана в табл. 14.7.
Вовсе не обязательно, чтобы ве-
са, использованные при построении
среднего из индивидуальных индек-
сов, были стоимостными. Для этой
цели пользуются и другими крите-
риями. Однако процедура вычисле-
ния, приведенная в табл. 14.11, при
этом не изменяется.
Реальный пример вычисления
взвешенного среднего из индивиду-
альных индексов приведен в табл.
14.12. Поскольку в этом случае ве-
са являются стоимостными весами с
• базовым периодом, соответствую-
щим 1960 г., индексы из табл.
14.12,а совпадают со взвешенными
агрегатными индексами из табл.
14.8. Вычисление того же самого ин-
декса с помощью весов, представ-
ленных в относительной форме, по-
21—232
Таблица 14.12. Взвешенное среднее
из индивидуальных индексов (цены на
апельсины/ яблоки и вишню)
a) Wj — веса, вычисленные по формуле
и>1=дъ>Рь; (оии взяты нз первой строки
табл. 14.8)
Год
0960 г.=100
к
s'
м-
е
в"
if
I
t
/
i960	0	И 1150»	237 644 000	25 122
1951	I	15 127 515	203660Г03	22 409 538
1932	2	10 259 Н5	211 978 44&	19 997 749
1963	3	13882 635	203 750 230	Z4 92I 818
100,9
88,1
88,5
89,6
tt'y = «j;/£a’p rti'j = 0,04058;
х’г9 — 0,86769,	= 0.09173.
£«?',= 1,00600
i960	0	4.058	86.769	9,173	100,0
1961	1	5,512	71.361	8,182	88J
1962	2	3,746	77,398	7,302	88,4
1963	3	5,068	75t489	9,099	89,6
Примерам не. / . — юикяидуальаде индексы дтя
апельсинов, яблок н вкшки, iwrru из табл. 14.2.
казано в табл. 14.12,6. Между дву-
мя значениями 1Х есть небольшая
разница, возникшая в процессе ок-
ругления Ixi.
14.4.	НЕКОТОРЫЕ ПРИМЕНЕНИЯ
ИНДЕКСОВ ЦЕН И ФИЗИЧЕСКИХ
ОБЪЕМОВ
Дефлятирование стоимостных ве-
личин. Одним из самых важных
применений индексов цен является
дефлятирование стоимостных вели-
чин. Стоимостные величины делят-
ся на подходящий агрегатный ин-
321
деке цен, в результате чего эффект
колебаний цен устраняется и соот-
ветствующий ряд показывает лишь
изменения абсолютных количествен-
.ных показателей. Когда цены рас-
тут, временной ряд стоимостных ве-
личин (например, валовой нацио-
нальный продукт в текущих долла-
рах) показывает относительно боль-
шие увеличения и меньшие спады.
Когда цены падают, ряд показыва-
ет относительно меньшие увеличе-
ния и более резкие спады. Такой ряд
показывает одни только изменения
в объеме производства лишь в том
случае, когда цены не меняются.
Использование индекса цен для
дефлятирования имеет особо важ-
ное значение для валового нацио-
нального продукта, для ставок за-
работной платы (которые дефляти-
руются с помощью индекса потре-
бительских цен) «и для дефлятиро-
вания данных о реализации про-
дукции крупными фирмами и целы-
ми отраслями.
Валовой национальный продукт
представляет собой стоимость това-
ров и услуг, произведенных эконо-
микой за некоторый промежуток
времени. Эти данные публикуются
ежеквартально или раз в год. Что-
бы сделать квартальные данные
сравнимыми с годовыми, их следу-
ет умножить на четыре. Чтобы
устранить влияние цен, величины в
текущих долларах делятся на ин-
декс цен, который называется неяв-
ным дефлятором. Результатом яв-
ляются цифры валового националь-
ного продукта в постоя иных долла-
рах (1958 г.). Избранные величины
из всех трех рядов показаны в
табл. 14.13.
Неявный дефлятор представляет
собой взвешенный индекс цен, соз-
данный специально для дефлятиро-
вания величин валового националь-
ного продукта. В качестве состав-
ных частей в него входит много ин-
дексов, с помощью которых можно
дефлятировать не только сам вало-
вой национальный продукт, но него
отдельные компоненты.
232
Таблица 14.13. Валовой национальный
продукт и неявный дефлятор
(избранные значения)
Год	Ва^снэоЛ ка - ЦЯО‘ОЛЬИ4Й продукт, те- кущее дол- лары	Дефлятор скрьпих цен (!Ы58г-1СЮ1	ВалотюЛ нз* аномальный продукт пост. (1958 г.) доил.
1920	103,1	50т6	203,6
1933	55.6	39,3	141.5
1941	124,5	47,2	263,7
1950	284,8	80,2	355,3
1958	447,3	100.0	447,3
1965	681,2	110.9	614,4
1971	1046,8	141,6	739,4
Примечания: I. Даюие Министерств тор1Ювл»
США (The National Income and Product Accounts of the
Uni led States, 1929—1965 н Federal Reserve Bulletins).
2. Если читатель разделит дядак? первого стплбщ.
на данные второго, то палучсЮЯйе ч&стньгс не всегда бу-
дут совпадать с числами из третьего сюпбца, так как
третий столбец бы- Ждался с большей го1ностью.
Выраженные в постоянных дол-
ларах, эти величины показывают
так называемые реальные измене-
ния валового национального про-
дукта. Обычно они выражаются в;
долларах 1958 г. Их абсолютные
значения имеют смысл только в тех
случаях, когда проводят сравнения
по времени. Очень полезно сравнить
эти величины с валовым националь-
ным продуктом других стран или е
валовым национальным продуктом
в текущих долларах. Например,
вследствие падения цен уменьшение
валового национального продукта в.
текущих долларах с 1929 по 1933 г.
было больше, чем соответствующее
уменьшение в постоянных долларах.
Вследствие роста цен увеличение
валового национального продукта с
1941 по 1971 г. составило в теку-
щих ценах 741%, а в постоянных
ценах только 180%. Иначе гово-
ря, валовой национальный про-
дукт 1971 г. в текущих долларах
был в 8,4 (а не в 7,4) раза больше
валового национального продукта
1941 г.; в постоянных же долларах
валовой национальный продукт
1971 г. был всего в 2,8 (но не в 1,8)
раза больше, чем в 1941 г.
Но, как мы уже указывали, пря-
мое сопоставление постоянных дол-
ларов с текущими не имеет смысла.
Например, для 1929 г. эти цифры
равны соответственно 203,6 и 103,1.
При этом нельзя сказать, что реаль-
ный валовой национальный продукт
в 1929 г. был в два раза больше та-
кового в текущих долларах. Изме-
нение или сдвиг базового периода
для неявного дефлятора существен-
но изменили бы соответствующие
1929 г. цифры в постоянных долла-
рах.
Индекс цен на потребительские
товары, «выпускаемый» Министер-
ством труда США, используется в
качестве дефлятора ставок заработ-
ной платы, окладов и пенсий. Его
•официальное наименова ние — «ин-
декс потребительских цен для го-
родских рабочих, работающих по
найму и конторских служащих». Он
представляет собой взвешенный аг-
регатный индекс цен, описывающий
изменения в ценах на товары и ус-
луги, приобретаемые городскими
рабочими, работающими по найму и
конторскими служащими.
Главными компонентами индекса
потребительских цен на товары яв-
ляются индексы цен на продоволь-
ствие, жилье, на одежду и из-
держки на ремонт, транспортные
расходы, расходы на медицинское
обслуживание и отдых'. Индекс сто-
имости жилья объединяет квартир-
ную плату, издержки на собствен-
ные дома, цены на нефть и уголь,
газ и электричество, мебель и из-
держки на обслуживание жилища.
Индекс цен на медицинское обслу-
живание и отдых включает индексы
стоимости медицинского обслужи-
вания, личной гигиены, книг, газет
и журналов, отдыха, а также цепы
на другие товары и услуги. Индекс
потребительских цен строится так-
же и для некоторых крупных горо-
дов.
Весами для этого индекса явля-
ются количества товаров и услуг,
приобретаемых семьями (состоящи-
ми из одного или более лиц) рабо-
чих, получающих зарплату, или кон-
торских служащих. Эти величины
определяются примерно каждые 10
21*
лет с помощью выборочных иссле-
дований. После проведения такого
исследования базовый период меня-
ется. В настоящее время использу-
ется базовый период 1967=100; пре-
дыдущим базовым периодом был
1957—1959=100. Исследование, ко-
торое проводилось в 1964 г., охва-
тило 66 городских ареалов.
В относительной форме веса, обо-
значаемые через W'j, равны: про-
довольствие—0,2243; жилье—0,3323;
одежда и ремонт—0,1063, транс-
порт—0,1388; медицинское обслу-
живание ц отдых—0,1945. В сумме
эти значения" дают единицу. Они
представляют собой доли семейного
бюджета, затрачиваемые на каж-
дую из основных категорий товаров
и услуг.
Методика дефлятирования окла-
дов и ставок зарплаты с помощью
индекса цен на потребительские то-
вары приведена в табл. 14.14. В ней
содержатся данные об окладах пре-
подавателей государственных уни-
верситетов штата Огайо. Поэтому
использовался не общенациональ-
ный индекс потребительских цен, а
были объединены индексы для го-
родов Кливленд и Цинциннати. Ин-
дексы представляют собой средние
не по 'календарным, а по финансо-
вым годам, поскольку оклады про-
фессоров вычисляют из расчета на
9 мес, и их увеличение относится к
периоду приблизительно с 15 сен-
тября по 15 июня. Базовым перио-
дом для объединенного индекса яв-
ляется 1957—1959—100. Для того
чтобы облегчить процедуру сравне-
ния, базовый период был сдвинут на
1964—1965 гг. (1964—1965=100).
После деления окладов на дефля-
тор были получены так называемые
реальные оклады. Подобно выра-
женному в постоянных долларах
валовому национальному продукту
реальные оклады представляют со-
бой значения окладов с учетом по-
правки на изменения цен. Они дают
представление о том, какими были
бы оклады, если бы цены остава-
лись неизменными.
323
Таблица 14.14. Средние оклады
университетских профессоров в плате
Огайо и индекс потребительских цен
(1904—1970 гг.)
Годы	/ <долл/год)	2		4 (долл/год)
1964—1965	9338	106,4	100,00	9338
1965—1966	9478	108,4	101,87	9304
1966—1967	10227	111,5	104,79	9760
1967—1968	10954	116,4	109..39	10014
1968—1969	11 364	122,4	115,03	9879
1969—1970	12 187	129,6	121,80	10 006
Примечания: 1. Данные взят: столбец 1 нз AACJP
Bulletins: столбец 2 нз The Consumer Price Index.
bS длине Министерства тру Ла СШ£.
2. Столбцы: /—средние оклады: 2—объеличенныН
лвлекс потреби-е-льских цен для городе® Кливленд и
Цинциннати (данные 1957—1969 гг. приняты аа 100); <? —
индекс потребит пьсхтос цен со сдвинутым базовым пе-
раодо*' 1964—1965=100; 4—реальные оклады, получен-
ные путем деления	на столбца / на данные нз
столбца 3.
Ясно, что индексом потребитель-
ских цен нельзя пользоваться для
дефлятирования ставок зарплаты
или окладов отдельных лиц, если
только они не тратят свои доходы
на товары и услуги, перечисленные
в индексе, причем так, что доля до-
хода, затрачиваемая на товары каж-
дого вида, не очень значительно от-
личается от указанных выше весов.
Индекс потребительских цен ис-
пользуют и в коллективных догово-
рах. В такой договор может быть
включен пункт, предусматривающий
периодическое изменение ставок за-
работной платы в некоторой про-
порции к индексу потребительских
цен. Такие коллективные договоры,
однако, способствуют развитию ин-
фляции при росте цен и отрица-
тельно влияют на занятость при па-
дении цен. Несмотря на это, индек-
сом потребительских цен часто поль-
зуются в качестве основы при со-
ставлении плана регулирования
ставок зарплаты, окладов и пенсий.
Служащие федерального или
штатного правительства, служащие
муниципалитетов, правительствен-
ные чиновники, составители прави-
тельственных и частных планов
пенсионного обеспечения использу-
ют индекс потребительских цен в
качестве ориентира для расчета по-
324
правок к заработной плате и пенси-
ям на рост прожиточного минимума.
Объем реализации своей продук-
ции крупные фирмы или целые от-
расли также могут вычислять с уче-
том поправки на индекс оптовых
цен. Индекс оптовых цен вычисляет
Министерство труда США. В нем
суммируют изменения пен на това-
ры основных рынков. Сюда входят
цены на продукцию обрабатываю-
щей промышленности, сельского хо-
зяйства, лесной промышленности,
рыболовной промышленности, до-
бывающей промышленности, газ,'
электричество, коммунальные услу-
ги и т. д. Общее число продуктов
превышает S000. В 1965 г. они под-
разделялись на 15 основных групп,
90 подгрупп и 314 классов. Это
очень широкий ассортимент индек-
сов цен, и поэтому почти для любой
группы фирм, производящих один и
тот же товар, можно найти подхо-
дящий индекс.
Доходы фермеров дефлятируются
с помощью индекса цен, получае-
, мых фермерами. Этот индекс вы-
числяет Министерство сельского хо-
зяйства США, и его можно найти
в изданиях Statistical Reporting
Service, Agricultural Statistics и др.
Индексы как индикаторы колеба-
ний временных рядов. Когда индек-
сы вычисляются по временным ря-
дам, они представляют собой вели-
чины, выраженные в процентах от-
носительно некоторого базового пе-
риода. В табл. 14.2 цены на апель-
сины даны в процентах цены на
апельсины в 1960 г. В табл. ,14.4
объем производства апельсинов так-
же дан в процентах (по сравнению
с объемом производства 1961 г.).
Мы уже знаем, что не только от-
дельные ряды, но и группы рядов
могут быть преобразованы в один
индекс. Такая форма представления
улучшает сопоставимость рядов.
Вследствие своей простоты индекс
потребительских цен стал хорошо
известным индикатором инфляции
или дефляции. Индекс оптовых цен
также используют в качестве инди-
катора общих изменений цен. По
сути дела этот индексный ряд ре-
конструирован вплоть до 1720 г.
Его применяли в многочисленных
экономических исследованиях, ка-
сающихся изменений цен в США,
так же как и для сравнения цен в
международном масштабе.
Еще одним подобным индексом
является индекс объема промыш-
ленного производства. Это индекс
физического объема, который стро-
ится Федеральной резервной систе-
мой. Его компоненты представляют,
ся в виде рыночных и отраслевых
групп. Основными рыночными груп-
пами являются товары личного по-
требления, • оборудование, товары
производственного потребления, ма-
териалы и вспомогательные группы.
Отраслевая классификация состоит
из отраслей, производящих товары
длительного пользования; отраслей,
производящих товары кратковре-
менного пользования, добывающей
промышленности и коммунальных
услуг.
Компоненты этого индекса ис-
пользуют крупные фирмы, если им
нужно сравнить колебания и темпы
роста своего производства с коле-
баниями и темпами, роста всей от-
расли. Правительство и экономисты
используют этот индекс в качестве
индикатора расширения или сокра-
щения всей экономики. Индекс
объема промышленного производст-
ва имеется в каждой промышленно
развитой стране, и поэтому им мож-
но пользоваться при проведении
экономического анализа для срав-
нения краткосрочных колебаний и
долгосрочных темпов роста разных
национальных экономик.
Имеются также хорошо известные
финансовые индексы, за колебани-
ями которых следят очень многие.
Это индексы курсов акций и цен-
ных бумаг, как, например, индекс
Доу-Джонса, касающийся курса ак-
ций 30 промышленных компаний, 20
железнодорожных компаний и 15 •
компаний коммунального обслужи-
вания; индекс нью-йоркской фондо-
вой биржи; индекс курса акций про-
мышленных компаний,публикуем ый
газетой «Нью-Йорк Таймс», и др.
Иногда некоторые индексы пред-
ставляются в несколько ином виде..
Например, для индекса Стандард
энд Пур (Standard and Poor’s in-
dex) в качестве базового периода
берется 1941—1943=10 (вместо
100), а базой для индекса курса ак-
ций нью-йоркской фондовой биржи
служит 31 декабря 1965 г.=50.
14.5.	ВОПРОСЫ И ЗАДАЧИ
14.1, Вычислите индивидуальный ин-
дексный ряд по данным объема производ-
ства вишни из табл. 14.1, приняв 1961= .
= 100= Сравните этот индексный ряд с ин-
дексным рядом цен на яблоки из
табл. 14.4. Для каждого из этих индексных
рядов найдите:
а)	процентное изменение объема про-
изводства с 1961 по 1969 г.;
б)	разность процентов (в пунктах)
между 1961 и 1969 г.;
в)	процентное изменение с 1962 по
1963 г. и разность процентов (в пунктах)
между 1962 и 1963 гг.;
г)	на сколько процентов объем произ-
водства вишни в 1961 г. был меньше, чем
в 1969 г.?
д)	как следует вычислять. все указан-
ные выше проценты: по исходным данным
или по индексному ряду?
14.2. Постройте график индексного
объема производства вишни, приведенного
в задаче 14.1, вместе с графиком индекса
цен на вишню из табл. 14 2, Подтверж-
дает ли этот график мнение экономиста
о том, что при прочих равных условиях,
большие объемы производства соответ-
ствуют меныпим ценам и наоборот?
14.3. Вычислите индивидуальный ин-
дексный ряд по данным об объеме произ-
водства персиков нз табл. 14 1 с 1961 -
1963=100- Сдвиньте базовый период ин-
декса, вычисленного в задаче 14.1- так>
чтобы сделать его сравнимым с получен-
ным индексным рядом для персиков. Как
согласуются колебания обоих индексов?
Можете лн вы указать причину их раз-
личия?
144. В среднем ваша семья потребляет
6 батонов хлеба и 2 фунта масла в неде-
лю. Средние цены в долларах на эти про
дукты составляли:
1970	1971	1972
Хлеб .  -.......... 0,42	0,40	0,45
Масло............... 1,00	1,02	1,02
а.	Вычислите невзвешеипые агрегатные
индексы, приняв 1971^100
б.	Вычислите взвешенные агрегатные
индексы, приняв 1971=100.
в» Объясните причину расхождения
между этими двумя индексами.
325
*
г. Допустим, что иены *на все остальные
продукты не менялись. Израсходовала ли
ваша семья на продовольствие в 1971 г.
больше, меньше или столько же. как и
в 1970 и в 1972 гг. по сравнению с 1971 г.?
Какой из индексов дает возможность отве-
тить на этот вопрос? Почему?
14.5.	Является ли взвешенный индекс
цен из табл. 14.8 хорошим индикатором
изменений в доходах американских фер-
меров, выращивающих апельсины, яблокп
и вншню? Будет ли этот индекс полезным
для той же цели в одном только штате
Мэн? Почему?
14.6.	Вычислите взвешенный индекс
объема производства апельсинов, яблок н
вишни с 1960=100, пользуясь данными из
табл. 14.1. Для экономии времени вычис-
лите только индексы, соответствующие
I960 и 1961 гг.
14.7.	Рассмотрим следующие данные:
Год	Средний оклад служащих кочпа- гае X	Индекс потреби, телъекнх цен <1957 г=100)
1966	10670	97,2
1967	11 060	100,0
1968	II 910	104,2
1969	12 790	109,8
1970	14400	116,3
1971	14720	121,3
а.	Сдвиньте базовый период индекса
потребительских цен с 1967 на 1966 г. и
вычислите реальные оклады.
б.	Сдвиньте базовый период с 1967 на
1971 г. и вычислите реальные оклады Ка-
кой из базовых периодов (1967 нли 1971)
лучше?
в.	Найдите процентное увеличение но-
минальных и реальных окладов, а также
индекса потребительских цен между 1966
и 1967 гг. и между 1967 и 1968 гг.
г.	Допустим, что номинальные оклады
возросли на 3%, а индекс потребительских
цен вырос на 2%. Можно ли сказать, что
реальные оклады выросли иа 1%?
д.	Считаете ли Вы индекс потребитель-
ских иен хорошим индикатором изменений
реального дохода фермеров? Почему?
14Л С помощью двух прямых линий,
обозначенных ВНП в текущих ценах и
ЙНП в постоянных иенах, проиллюстри-
руйте связь между валовым националь-
ным продуктом в текущих и постоянных
долларах в следующих ситуациях:
а)	ВНП растет, но неявный дефлятор
падает;
б)	ВНП растет и неявный дефлятор
растет;
г) ВНП падает, но неявный дефлятор
растёт;
 д) ВНП падает н неявный дефлятор
падает;
е) ВНП растет, а неявный дефлятор
остается постоянным.
14.». Вы располагаете индексами объ-
ема производства электротехнической про-
мышленности, текстильной промышленно-
сти и целлюлозно-бумажной промышлен-
ности для вашего штата. Вы хотите
сравнить их с общенациональным индек-
сом. Для этого Вы берете следующие ком-
поненты индекса объема промышленного
производства (с учетом сезонных попра-
вок):
Год. месяц	Электро- технЯче- екяя про «лишен- ность I ~ XI	Текстиль* нал про мъгклен- ость	Целлюлоз- нобумал нвя промьд '- ленцость
197! декабрь	101,2	112,0	120,0
197?: январь	101.5	108,9	122,4
февраль	102,4	107,0	123,0
март	102.8	110,3	122,8
апрель	105.3	112,0	124,1
а.	Сдвиньте базовый период на декабрь
1971 г=100.
б.	Вычислите взвешенное среднее из
индивидуальных индексов, приняв »i=
=8,72, Ш5=2,69 и Шз=3,18%.
в.	Какой смысл имеют величины Zoi, Ав,
/оз и /<!» Аз? Какой нз рядов растет
быстрее по сравнению с декабрем 1971 г.?
Какой нз рядов растет быстрее по сравне-
нию с 1967 г.?
г.	Для каждого из трех рядов найдите
процентное изменение с декабря 1971 г.
по апрель 1972 г.
15.1. МОДЕЛИ ВРЕМЕННЫХ РЯДОВ
Как отмечалось в предыдущей
главе, временные ряды представля-
ют собой упорядоченные во времени
данные. В соответствии с этим опре-
делением мы будем впредь обозна-
326
ГЛАВА 15
АНАЛИЗ ВРЕМЕННЫХ РЯДОВ
чать период времени (или точку)
через X, а соответствующее емузна-
• чение временного ряда через У
(табл. 15.1).
Необходимо отметить, что члены
временного ряда являются либо
суммами, либо средними, либочис-
t
Таблица 15J. Примеры трендов
д) Абсолютные величины уровней
и скоростей роста
X	/	2	9	4	5	
0	40	40	40	40	40	40
	4	4	4	4	4	4
1	44	36	44	36	44	36
	4	4	6	6	2	2
2	48	32	50	30	46	34
	4	4	8	8	1	1
3	«52	28	58	22	47	33
б) Абсолютные величины уровней
и темпы прироста, %
X	7	S	9	J0
0	40	40	40	40
	10	10	10	10
1	44	36	44	36
	10	10	9.1	11,1
2	48,4	32,4	48	32
	10	10	8,3	12,5
3	53,2	29,2	52	28
Примечания I. Числа между строками в табл.
15-1. о — скорости,
2. Число между строками в табл. 15,1 • б являются
темпами прироста в процентах.
3. Столбцы: / — рост с постоянной споростью, 2—
ладегою с постоянной скоростью: 5—рост с ускорением;
4—падение с ускорением; 5 —рост с замедлением;
падение с замедлением; 7—рост с постоянным темтюм
(или с ьозрастающей скоростью); падевде с посто-
янным темпом (или с ухи выдающейся скоростью); 9—
рост с убывающим темпом (или с постояжой скоростью);
10—падение с убывающим темпом (идя с пэстоянмой
скоростью).
ловой информацией, полученной
в определенные моменты времени.
Если, например, владелец магазина
подсчитывает сумму своих недель-
ных продаж в течение некоторого
периода времени, то полученные
числа образуют временной ряд, на-
зываемый просто рядом недельных
продаж магазина. Цены на опреде-
ленные виды товаров также могут
представлять собой либо средние
данные за некоторый период, либо
значения в фиксированный момент
времени. Некоторые преимущества
имеет сбор информации к опреде-
ленному моменту времени: напри-
мер, к первому числу каждого ме-
сяца, года или к 31 декабря каждо-
го года. Демографические данные,
например, представляются таким
образом. Однако это не всегда воз-
можно. Изменения в процентах и
учетных ставках не могут быть рав-
номерно распределены и, следова-
тельно, должны соотноситься с тем
моментом времени, в который они
были получены.
Генерируя временной ряд, необ-
ходимо помнить, что члены ряда в
различные моменты времени долж-
ны быть сравнимыми. Временные
ряды строят не только для нужд от-
четности. Их используют для широ-
кого анализа явлений и различных
сравнений. Следовательно, при по-
строении ряда его члены необходи-
мо предварительно обработать.
Февральские продажи не всегда
сравнимы с мартовскими. Если в
какой-либо месяц предприятие бы-
ло закрыто на неделю на ремонт, то
производство в этот месяц не может
быть сравнимо с производством в
другие месяцы. Во всех таких слу-
чаях данные нужно скорректиро-
вать так, чтобы их можно было
сравнивать.
Динамику временных рядов изу-
чают в долгосрочной (более 10лет),
среднесрочной (5—12 лет) и крат-
косрочной перспективе. Значитель-
ный интерес представляет также
изучение характера годовых, не-
дельных и даже ежедневных коле-
баний временных рядов.
Динамика некоторых из наибо-
лее важных динамических рядов,
характеризующих американскую
экономику, показана на рис. 15.1.
Тонкими линиями изображены гра-
фики исходных данных. Жирные и
более гладкие линии, из которых ис-
ключены кратковременные колеба-
ния исходных временных рядов, яв-
ляются взвешенными скользящими
средними. Толстые вертикальные
линии проведены для облегчения
зрительного сравнения верхних и
нижних поворотных точек экономи-
ческого цикла в обрабатывающей
промышленности с аналогичными
точками в других временных рядах.
Рассмотренные динамические ря-
ды построены на основе использо-
327
Silния годовых данных, большинст-
во из которых не существовало до
1930 г. Однако они были реконст-
руированы при использовании всех
доступных источников информации.
В первую очередь были использова-
ны труды отдельных экономистов-
статистиков (часто связанных с
Национальным бюро экономических
Рис. 15.1. Обрабатывающая промышлен-
ность, ВНП, строительство, производство
товаров длительного пользования, прокат
рельсов в 1869—1960 гг, (вертикальные
жирные ливни проведены из некоторых по-
воротных точек ряда выпуска обрабаты-
вающей промышленности):
/ — обрабатывающая промышлевность; 2 —стро-
ительство; 3 — жилищное строительство (кроме
сельского): < —прочие отрасли предприниматель-
ского секторе; 5 — производство товаров дли-
тельного пользования; £ — прокат рельсов
328
исследований) и также публикации
различных государственных ве-
домств, таких как Министерство
торговли США. Такие ряды приня-
то называть историческими времен-
ными рядами. Большинство из них
помещено в «Исторической стати-
стике США», опубликованной Ми-
нистерством торговли США (Histo-
rical Statistics of the United States).
Анализ временных рядов можно
проводить различными методами.
Существуют разные точки зрения,
но большинство специалистов счи-
тает, что при анализе необходимо
выделять: 1) тренды — долговре-
менные или даже вековые движе-
ния; 2) краткосрочные тренды;
3) длинные циклы; 4) краткосроч-
ные циклы или (в более общем
смысле) циклы деловой активности
или экономические циклы; 5) сезон-
ные колебания.
Понятие тренд означает общее
направление и динамику временно-
го ряда. В этом определении уда-
рение делается на понятии «общее
направление», так как необходимо
основную тенденцию отделить от
краткосрочных колебаний. Графи-
ческая Или статистическая концеп-
ция тренда представляется в виде
непрерывной линии, сглаживающей
краткосрочные колебания. Эта ли-
ния не должна менять направление
чаще чем один раз в 10 лет. Други-
ми словами, тренд может быть или
прямой линией или выпуклой (во-
гнутой) линией относительно гори-
зонтальной оси. Предполагается,
что он не может иметь S-образную
форму в пределах менее чем 10-го
териода. Если же члены ряда не
увеличиваются и не уменьшаются,
гак что соответствующий график
является горизонтальной прямой
линией, то в этом случае тренд от-
сутствует.
Главное различие между долго-
временным 1 и кратковременным
трендом заключается в длине рас-
сматриваемого промежутка време-
ни. Имеется несколько основных
временных рядов, таких как ВНП,
продукция обрабатывающей про-
мышлснности (и некоторые дру-
гие), рост которых можно содержа-
тельно интерпретировать на проме-
жутках от 10 до 20 лет. На этих
промежутках происходят коренные
изменения ряда. Они могут выра-
жаться в росте и падении или толь-
ко в росте или только в падении.
Тренд может быть коротким про-
сто вследствие отсутствия достаточ-
ного количества данных. Этот слу-
чай необходимо отличать от концеп-
ции кратковременного тренда, вы-
деляемого в соответствии с некото-
рым критерием динамики. Для
описания основной тенденции вре-
менных рядов и для сравнения раз-
личных трендов используют различ-
ные математические функции, сгла-
живающие исходные данные. Наи-
более широко применяют Прямую
линию, параболу, экспоненту.
Дополнительно для сглаживания
циклической .составляющей и сезон-
ных колебаний используют метод
скользящей средней. Последнюю
также часто называют трендом или
линией тренда, но в отличие от пря-
мой линии, параболы и экспоненци-
альной функции она является менее
усредненной и используется не для
представления базовой динамики
временных рядов и сравнения раз-
личных трендов, но для изучения
экономического цикла или сезонных
колебаний. В этом смысле скользя-
щая средняя представляет только
«усредненное» поведение временно-
го ряда.
Такое многозначное использова-
ние термина «гренд» может в неко-
торых случаях привести к ошибоч-
ным представлениям. Чтобы исклю-
чить возможные недоразумения, мы
будем рассматривать отдельно ана-
лиз тренда, с одной стороны, и ци-
клических и сезонных колебаний —
с другой, и будем использовать
термин «линия тренда», а не
«тренд». Но провести это различие
не всегда возможно.
Длинные циклы наблюдаются
главным образом в рядах оптовых
цен и жилищного строительства в
больших городах. Базовая концеп-
ция цикла состоит в изучении- аль-
тернативных фазовых состояний —
фаз роста и падения временного
ряда. Следовательно, при анализе
циклов любой длины целесообразно
использовать такие термины, как
«верхняя поворотная точка», «ниж-
няя поворотная точка», фазы «подъ-
ема» и «спада». Расстояние повре-
мени между двумя нижними пово-
ротными точками называется дли-
ной никла.
Например, длина одного цикла
ряда оптовых цен США приблизи-
тельно составляет 46 лет (между
1842 и 1888 гг.). Длина другого та-
кого цикла — около 44 лет (1888—
1932 гг.). Длинные циклы наблюда-
ются также в рядах, описывающих
жилищное строительство в городах
(рис. 15.1). Их длина колеблется от
10 до 15 лет.
Экономические (промышленные)
циклы имеют существенно мень-
шую длину. Начиная с 1834 г. толь-
ко один цикл — совсем недавно —
длился 10 лет. Только два цикла
продолжались 8 лет, но 13 циклов
имели длину 3 года; длина шести
циклов равнялась 4 годам. С 1854-
по 1970 г. наблюдалось 27 циклов,
длина которых в среднем была рав-
на 51 мес. Сезонные колебания
встречаются в большинстве времен-
ных рядов, описывающих продажу
производство, занятость и др. Наи-
более важную роль среди сезонных
колебаний играют погодные усло-
вия, изменения в моде и стиле, вре-
мя массовых отпусков и др. Но име-
ются также недельные (продажи в
бакалейной торговле) и дневные
колебания.
Нерегулярные или случайные ко-
лебания временных рядов наблю-
даются в виде подъемов и спадов в
течение короткого периода време-
ни— скажем, в течение двух или
трех месяцев. Они не подчиняются
Никакой закономерности, и не су-
ществует теории, способной пред-
сказать их поведение.
Ряд моделей временных рядов
показан на рис. 15.2. Они представ-
ляют следующие базовые мидели.
329
1.	Гладкий ряд — возрастающий
или убывающий в виде прямой ли-
нии. Другими словами, это ряд,
члены которого увеличиваются
(уменьшаются) на постоянное зна-
чение. Гладким может быть также
ряд с увеличивающимися или
уменьшающимися приростами (ус-
корением или замедлением) и име-
ющий вид двух других кривых на
рисунке.
Рис. 15.2. Модели, описывающие поведение
временных рядов
Члены гладкого ряда могут так-
же расти с одинаковым процентом
от месяца к месяцу (от года к го-
ду). Этот рост аналогичен росту
вклада в банке при фиксированной
процентной ставке. Если приросты
первоначального вклада не снима-
ются со счетов, то последующие
приросты к сумме вклада будут все
больше и больше, но процент при-
роста в каждый момент времени
будет одним и тем же. Такие про-
центы называют сложными процен-
тами. Члены ряда могут также уве-
личиваться с растущим или падаю-
щим темпом в процентах или умень-
шаться с постоянным, возрастаю-
щим или падающим темпом.
Характерной чертой поведения
этого временного ряда является его
гладкость. Это означает отсутствие
случайных, сезонных или цикличе-
Ззо
ских колебаний. Наиболее важны-
ми из таких рядов являются демо-
графические ряды. Имеются глад-
кие ряды в некоторых сферах про-
изводства и торговли, но в основном
они связаны с проблемой демогра-
фического роста. Некоторые продук-
ты (такие, как соль, сигареты, зуб-
ная паста) покупаются даже в слу-
чае потери работы и потребляются
независимо от сезона года; ряды,
описывающие эти продажи, естест-
венно будут гладкими. Они имели
бы сезонные циклические колеба-
ния только в случае, если бы демо-
графический ряд имел сезонную и
циклическую составляющие.
2.	График на рис. 15.2,6 пред-
ставляет временной ряд, построен-
ный на основе квартальных данных
с сезонными колебаниями. Конечно,
структура сезонных колебаний ред-
ко может быть представлена в та-
ком чистом виде, как в рассматри-
ваемом случае.
Всегда присутствуют искажения,
большие или меньшие, вследствие
воздействия всякого рода случайно-
стей. Прямая линия, сглаживающая
временной ряд, является трендом
этого ряда. В то время, как гладкая
линия на рис. 15.2,а представляет
фактические данные, гладкая линия
на рис. 15.2,6 есть подогнанная к
данным линиям тренда, проведен-
ная от руки или с использованием
некоторых математических методов,
например метода наименьших квад-
ратов.
Так как ряд представляет квар-
тальные данные, то построение
полного графика одного сезонного
колебания требует знания 5 квар-
тальных точек. Такой график пред-
ставлен в увеличенном виде в ниж-
ней части рис. 15.2. Для ряда, по-
строенного на основе месячных дан-
ных, необходимо знание 13 точек.
Если квартальные (или месячные)
данные сложить, образовав годовые
данные, то вновь построенный ряд
будет похож на ряд, показанный
на рис. 15.2,а.
Временные ряды с сезонными
(но без циклических) колебаниями
также фундаментально связаны
с изменениями доходов. Уровень по-
требления жидкого топлива будет
зимой выше, чем в летние месяцы,
и, следовательно, будет подвержен
сезонным изменениям. Но так как
удовлетворение потребности в жид-
ком топливе является жизненно
необходимым, то уровень его по-
требления существенно не зависит
от изменений в уровне занятости и
доходах; следовательно, ряд не бу-
дет иметь циклических составляю-
щих.
3.	График ряда на рис. 15.2,в
показывает наличие циклических и
отсутствие сезонных колебаний.
Этот пример является еще более
искусственным, чем график сезон-
ных колебаний. Графики сезонных *
колебаний часто воспроизводятся от
года к году без каких-либо сущест-
венных изменений. Циклические ко-
лебания ведут себя по-другому. Дей-
ствительные экономические циклы
описываются моделью, аналогичной
представленной на рис. 15.2,в толь-
ко в своих основных характеристи-
ках. Этот факт может быть отмечен
и на рис. 15.1. Ряд выпуска в обра-
батывающей промышленности име-
ет циклические колебания. Его по-
воротные точки часто совпадают
с поворотными точками всей эконо-
мики в целом. Перечислим некото-
рые из нижних поворотных точек
экономических циклов американ-
ской экономики: декабрь 1867 г.—
декабрь 1870 г.; декабрь 1870 г.—
март 1879 г.; март '1879 г. — май
1885 г.; май 1885 г.—апрель 1888 г.
Читатель может определить на гра-
фике эти поворотные точки — через
некоторые из них приведены тол-
стые вертикальные линии — и уви-
деть размещение во времени эконо-
мических циклов. Такой визуальный
для соответствующего ряда ана-
лиз позволяет сделать вывод, что
циклы отличаются от других не
только своей длиной и формой, но
также и амплитудой.
Циклы наблюдаются в рядах,
описывающих производство, торгов-
лю, занятость, так как они связаны
с изменениями в доходах и занято-
сти. Продажи товаров и услуг рас-
тут с увеличением занятости и дохо-
дов; в условиях неопределенной
экономической ситуации некоторые
покупки откладываются.
Прямая линия на рис. 15.2,в
опять, как и ранее, представляет
собой искусственно подогнанную
к данным линию тренда. Однако,
как можно было заметить из рис.
15.1 и как уже говорилось выше,
часто для сглаживания временного
ряда с циклическими колебаниями
более целесообразно использовать
линии тренда с точками перегиба.
Наиболее часто используется линия
тренда, полученная методом сколь-
зящей средней.
4	График на рис. 15.2,г имеет
сезонные и циклические колебания.
Сезонные колебания сглаживаются.
Обычно для этого используют ме-
тод скользящей средней или прибе-
гают к помощи индексов сезонности.
Вычисления по методам скользящей
средней и индексам сезонности да-
ны ниже. Экономические циклы
сглаживаются прямой линией.
5. Последний график рассматри-
вается для полноты картины. Он
представляет собой временной ряд
с длинными циклами, экономически-
ми циклами и сезонными колеба-
ниями. Экономический цикл сглажи-
вается здесь по методу скользящей
средней. Как уже отмечалось, длин-
ные циклы встречаются во времен-
ных рядах, описывающих жилищное
строительство в больших городах.
Однако эти колебания в данной ра-
боте не рассматриваются.
15.2. АНАЛИЗ ТРЕНДОВ
ВРЕМЕННЫХ РЯДОВ
Как уже отмечалось, тренды вре-
менных рядов являются либо пря-
мыми и так называемыми линиями
«без перегибов», где слово «без пе-
регибов» означает, что кривая ли-
ния не обнаруживает S-образную
форму по крайней мере в течение
10 лет. Такая прямая или кривая
линия описывает усредненное пове-
331
дение временного ряда в течение
достаточно длительного периода
времени. В этом смысле ряд может
расти (падать) с постоянной, воз-
растающей или убывающей скоро-
стью. В.течение длительного перио-
да времени многие временные ря-
ды вначале растут с ускорением,
а затем с замедлением до тех пор,
пока они не достигнут своего потол-
ка или момента начала падения.
«Прокат рельсов» на рис. 15.1
является примером последнего слу-
чая.
Рис. 15-3. Графические представления
трендов из табл. 15.L
Вместо описания трендов времен-
ных рядов в терминах абсолютных
средних приростов, широко исполь-
зуют описание в терминах средних
приростов в процентах или темпов.
Исходные данные часто являются
не сопоставимыми, и тогда послед-
нее описание трендов становится
более целесообразным. Таким обра-
зом, временные ряды могут расти
(падать) с постоянным, возрастаю-
щим или убывающим темпом.
Некоторые примеры таких трен-
дов приведены в табл. 15.1 и на
рис. 15-3. Эти прямые и кривые ли-
нии, с помощью которых обычно
аппроксимируются временные ряды
Если данные из сголбца 1 табл. 15.1
представляют собой тренд в виде
прямой для данных о производ-
стве некоторого товара, то мы мо-
жем сказать, что производство это-
го продукта возрастает в каждую
единицу времени на четыре изме-
ряющие его единицы. В случае
тренда из столбца 7 мы заключаем,
что производство возрастает в каж-
332
дую единицу времени на 10%. Про-
изводство в столбце 5 возрастет с
линейным замедлением, а в столб- 
це 9 возрастает с падающим тем-
пом;.
Часто ряды аппроксимируют пря-
мыми или другими линиями, чтобы
проводить сравнения. Эти линии
используются также для целей дол-
госрочного прогноза, однако приме-
няемая при этом техника несовер-
шенна в том смысле, что получен-
ные прогнозы дают слишком боль-
шую ошибку. Прямолинейные и
другие тренды полезны ори изуче-
нии циклических подъемов и спа-
дов. Однако более приемлемо в
этих случаях применение скользя-
щих средних и других методов.
Экономисты строят тренды для
ВНП и его компонентов, для изуче-
ния экономического роста, провер-
ки экономических законов и откры-
тия новых. Государственные органы
интересуются долговременными
трендами роста населения и различ-
ных отраслей производства. Такой
анализ необходим при долгосроч-
ном планировании и в других обла-
стях. Еще одна полезная сфера при-
менения этого анализа — сравнение
трендов рядов экономического рос-
та и роста населения.
Промышленная фирма также вы-
играет, если будет изучать свое раз-
витие в течение длительного проме-
жутка времени. Собственный рост
она может сравнить с компонента- 
ми индекса промышленного произ-
водства и другими агрегатными ин-
дексными рядами. Например, про-
изводитель электрических приборов
может сравнить историю своего раз-
вития с движением индекса элек- -
тротоваров. Это даст ему более точ-
ные сведения о долговременном ха-
рактере изменения рынка. Будет ли
объем рынка расти, сокращаться
или оставаться на прежнем уровне
в течение длительного промежутка
времени?
Как мы уже говорили, среди ма-
тематических функций, аппроксими-
рующих ряды, чаще всего исполь-
зуют прямую, параболу и экспонен-
ту. Методы наименьших квадратов
для подгонки к рядам этих функций
будут описаны в порядке перечис-
ления этих функций.
15.2.1. Прямая линия
Метод наименьших квадратов.
Прямую линию можно подобрать с
помощью метода наименьших квад-
ратов. Критерий и последователь-
ность вычислений такие же, как
описываемые в предыдущей главе.
Уравнение прямой запишем в виде
cYx^a^-bX.
Часто принимают Х=0, 1, 2, ...
..JV—1, а не Х= 1......jV. где Af —
число элементов ряду. Итак, значе-
ния X
Таблица 15.2. Прямолинейный тренд
(индекс промышленного производства
США в 1947—1963 и 1964—1971 гг.)
1967 г.-100)
Год	Л	Г	X»	Г»	XY	сух
1947	0	40.0	0	1600.00	0	39,5
1948	1	41.7	!	1738,89	41,7	41.6
1949	2	39.6	4	1568,16	79,2	43,8
1950	3	45,7	9	2088,49	137.J	45.9
1951	4	49.8	16	2480,04	199,2	48.0
1952	5	51,4	25	264!,96	257,0	50.2
1953	6	55.8	36	3113,64	334.8	52.3
1954	7	51,9	49	2693,61	363,3	54.4
1955	8	58,5	64	3422,25	468,0	56.6
1956	9	61,1	81	3733,21	549,9	58,7
1957	10	61,9	100	3831.61	619,0	60,8
1958	11	57,9	121	3852,41	636,9	63.0
1959	12	64,8	144	4199,04	777,6	65.1
1960	13	66,2	159	4G82.44	860,6	67.2
1961	14	66,7	196	4448,89	933,8	69.4
1962	15	72.2	225	5212,84	1083,0	71.5
1963	16	76,5	256	5852,25	1224,0	73.6
	136	961,7	1496	56359.73	8565.1	
Экстраполяция
тренда
1964	17	81,7	75.8
1965	18	89,2	77,9
1966	19	97,9	80.1
1967	20	«СО. 0	82.2
1968	21	105,7	84,3
1969	22	110,7	86,5
1970	23	106,7	88.6
1971	24	106,3	907
П1	рнмеч	ан не. Денные взяты нз Federal Re	serve
'Bulletins.
изменяются от 0 до —1 независи-
мо от того, представляют ли У го-
довые, квартальные или месячные
данные.
Как и раньше, параметры а и Ь
находят решением системы двух ли-
нейных уравнений
( JVa + (EX)6 = Sy;
( (EX)a + (SX* *)6=EXy.
Проиллюстрируем необходимые
вычисления на примере ежегодного
индекса промышленного производ-
ства, приведенного в табл. 15.2.
Подставив в систему соответствую-
щие значения, получим
| 17а + 1366=961,7;
I 136а +14966 = 8565,1.
Разделим теперь первое уравнение
на —17, а второе на 136 и сложим:
-а- 86 = -56,57058
а+П6= 62,97867
36 = 6,40809
6 = 2,15603.
Подставляя полученное значение b
в первое уравнение, найдем а
’ 17а+136(2,13603) =961,7;
• а=39,48235.
Уравнение прямой, найденное мето-
дом наименьших квадратов, имеет
вид:
£УХ = 39,48 + 2.136Х.
Если в это уравнение подставить
последовательные значения X, то
получим сУх, представленные’ в по-
следнем столбце табл. 15.2.
Наклон прямой. Тангенс угла на-
клона прямой равен изменению СУЖ
в единицу времени. Если тангенс
положителен, то изменения приво-
дят к росту показателя, а если от-
рицателен, то показатель убывает.
Вообще принято интерпретиро-
вать угол не относительно СУХ, а от-
носительно исходных значений У, к
которым подбирается прямая. Пря-
мая линия представляет собой
тренд, а значения СУХ называются
333
трендовыми значениями. В этом
случае тангенс наклона равен
«среднему» за единицу времени аб-
солютному (но не процентному),
приросту членов временного ряда.
Другими словами, значения членов
ряда возрастают за единицу вре-
мени в среднем на величину, рав-
ную тангенсу утла наклона. В рас-
сматриваемом примере мы говорим,
что индекс промышленного произ-
водства США возрастал в год за
период 1947—1963 гг. в среднем на
6=2,1 пункта (но не процента).
Если бы ряд представлял собой
продажи в тысячах долларов, мы
бы сказали, что продажи возраста-
ют в среднем за год на 2100 долл.
Наконец, когда прямая аппрокси-
мирует месячные данные, то тан-
генс угла наклона равен скорости
роста за месяц. Итак, разница со-
стоит в том, что cYx возрастает в
каждую единицу времени на б, а У
возрастает в среднем на 6.
Средняя скорость роста может
быть прямо найдена из эмпириче-
ских значений Y, т. е. без подгонки
к ним прямой Y. Мы просто вычи-
таем первое значение из последнего
и делим разность на jV—1. Длякна-
шего примера имеем (76,5—40) /16=
=2,3. Это значение не слишком от-
личается от 2,1. Однако интерпрета-
ция обоих данных, вообще говоря,
различна. Мы не можем сказать,
что временной ряд возрастает
в среднем каждый год на 2,3. Пра-
вильно сказать так: «Средняя ско-
рость от первого до последнего чле-
на ряда составляет 2,3% ». Это до-
статочно тонкая разница иногда су-
щественна, иногда нет. Если тренд
описывается такой кривой, как, на-
пример, на рис. 15.5, или ряды сильно
колеблются, или период рассмотре-
ния слишком короток, вычисленная
таким образом средняя скорость
может привести к неверным выво-
дам. Средняя скорость обычно ассо-
циируется с прямой линией, по-
скольку прямая предполагает рост
постоянным в единицу времени. Вре-
менные ряды, которые аппроксими-
руют линиями, отличными от пря-
334
мой, не предполагают постоянной
средней скорости.
В случае индексов, например ин-
декса промышленного производства
из табл. 15.2,'тангенс наклона пря-
мой для месячных данных получа-
ется из тангенса наклона прямой
для годовых данных простым деле-
нием 6 на 12. Таким образом, Ь'=
=2,13603/12=0,178. Мы предпола-
гаем здесь, что изменение, напри-
мер, с июня 1960 г. до июня 1961 г.
было таким же, как изменение го-
дового индекса за период с 1960
до 1961 г. Однако если данные пред-
ставляют собой, скажем, тонны, то
переход к месячной базе происходит
по-другому. Возьмем значения СУХ
для л=0 и Х=1. Пусть, например,
сУо=39,5 и СУ1=41,6 тонн. Эти
данные представляют собой объ-
емы за год. Трендовые зна-
чения месячных данных получают-
ся, если разделить с У* на 12. Сле-
довательно, при переходе от сУо/12
к сУ1/12 тангенс угла наклона ли-
нии тренда для месячных данных
должен быть умножен на 12. Дру-
гими словами,
Л/12+12А'=Х+1/12,
откуда имеем
*' = (Л+./12-еГх/12)/.12 =
=(Лг+1-Л,)/144 = 6/144.
Итак, тангенс угла наклона тренда
к месячным данным составляет
Ь'=2,13603/144 = 0.01483 тонн.
Если трендовое значение месячных
данных сУх/12 будет в течение 12
периодов возрастать с той же скоро-
стью, ТО МЫ получим сУх+1/12. Для
квартальных данных
cYx/4 + ^=cYx+,/4,
откуда
6'-(Л+,/4-Х/4)/4 =
= (Л+,-<Ух)/16 = 6/16.
Экстраполяционный прогноз трен-
довых значений. Иногда трендовые
значения продлевают (экстраполи-
руют) на несколько лет вперед. Эти
прогнозные значения приведены в
табл. 15.2 для Х=17, 18, .... 24.
Если кто-нибудь в 1963 г. экстрапо-
лировал бы тренд, построенный на
данных за эти годы, то спустя 8 лет
он захотел бы сравнить полученные
значения со значениями тренда, по-
догнанного к данным за 1947—
1971 гг.
if
^<§
95
75
55
55
Ch S}
дата
th
Рис. 15.4. Индекс промышленного произ-
водства, S. A. (Statistical Abstracts),
1947—1971 гг. (данные взяты из табл. 15.2)




Уравнение прямой для всего пе-
риода (1947—1971 гг.) имеет вид:
сКж=33,83+3,047Л’. Тангенс угла на-
клона этой прямой существенно
больше, чем для уравнения подпе-
риода 1947—1963 гг. Этот факт от-
ражен на рис. 15 4. Трендовые зна-
чения для всего периода в 1964 г.
СГ17=85,6, а в 1971 г. сУ24=107. Раз-
ница между этими значениями и
значениями, полученными по про-
гнозу, составляет 9,8 и 16,3 пунк-
тов. В процентах эта разница будет
равна 11,4 и 15,2% соответственно,
т. е. на столько процентов прогноз-
ные значения будут ниже действи-
тельного тренда.
Это сравнение проясняет несколь-
ко моментов. Прогноз трендовых
значений всегда основан на предпо-
ложении, что ряды будут расти так
же. как и в базовом периоде. Сле-
довательно, два критерия играют
основную роль. Один определяет
точность подгонки математической
функции к ряду данных. В соответ-
ствии со вторым экстраполяция
трендовой линии на будущее имеет
смысл только тогда, когда можно
сделать предположения о характере
поведения временного ряда в буду-
щем.
Аппроксимация данных матема-
тической функцией предполагает
выбор. Если мы подгоняем к дан-
ным прямую, то это означает, что
мы делаем допущение о том, что
скорость изменения временного ря-
да в среднем постоянна. В случае
экспоненты мы предполагаем, что
скорость изменения ряда логариф-
мов эмпирических значений в сред-
нем постоянна. Линия тренда, хо-
рошо аппроксимирующая данные,
дает хорошие прогнозы Следова-
тельно, при выборе функции мы
даем предпочтение той, которая луч-
ше приближает данные. Этот выбор
облегчается визуальными сравне-
ниями графиков или нахождением
абсолютных значений разностей У
и сУх и затем осреднением их, т. е.
вычислением (S[У—CVX|)/W.
В примере с индексом промыш-
ленного производства видно, что
подгонка прямой к данным дает не
слишком хорошие результаты.
Позднее мы попробуем подогнать
к ним экспоненциальную кривую и
сделаем соответствующие сравне-
нения.
Не следует экстраполировать на
будущее тренды, если предполага-
ется, что ряд может сильно поме-
нять направление движения. Это
бывает, если рассматриваемый пе-
риод слишком короток. Понятие
«слишком короток» относительно.
Если ряды гладкие, то 10 лет доста-
точно для построения прогноза.
Если же ряды содержат длинные
циклы, например строительный цикл
(см. рис. 15.1), то может оказать-
ся, что и 50 лет мало.
Временные ряды, описывающие
достаточно большую отрасль, не
могут резко изменяться. Однако это
вполне возможно в случае времен-
ных рядов, представляющих дея-
тельность отдельной фирмы, пусть
даже очень крупной.
Экстраполяция трендов относит-
ся к категории долгосрочных про-
гнозов. Так как тренды обычно
335
сглаживают циклические колеба-
ния, их экстраполяцию не исполь-
зуют для краткосрочных предсказа-
ний, производства или продаж, на-
пример, на год вперед. Любой дру-
гой метод даст лучшие результаты.
Однако экстраполяция тренда со-
держит ключ к определению произ-
водственных возможностей отдель-
ной отрасли или фирмы, скажем, на
10 лет вперед. Так как данный ме-
тод не требует детального анализа
компонент исследуемого ряда, то
его часто называют наивным мето-
дом прогнозирования. Однако слож-
ность какого-либо метода еще не
является показателем его качества.
15.2.2. Парабола
Временные ряды могут возрас-
тать или убывать не с постоянной
скоростью, а с переменной. Такне
ряды приведены в столбцах 3, 4, 5
и 6 табл. 15.1. Так как очевидно,
что их тренд описывается кривой,
прямую линию подгонять к ним не
следует. Парабола лучше характе-
ризует средний рост этих рядов.
Параболу подгоняют уже описан-
ным в гл. 13 методом наименьших
квадратов. Уравнение параболы
или многочлена второй степени
имеет вид:
сУх = а4-6Х4-сХ*.
Параметры а, Ь и с находятся ре-
шением системы трех линейных
уравнений:
' Na + (EX) b + (ЕХ*) с = ЕУ;
(EX) a-REX’) 6 4-
4- (EX’) с == ЕХУ;
(EX’) а Н- (EX’) b +
+ (ЕХ4) с = ЕХ=У.
В табл. 15.3 приведены все необ-
ходимые вычисления для подгонки
параболы к данным индекса вы-
* пуска, оборудования 'для частно-
предпринимательского сектора. Гра-
фик этого показателя можно найти
на рис. 15.5. Параболу сначала
приближают к 17 первым значени-
336'
ям индекса, а затем сравнивают с
результатами подгонки параболы
ко всем 25 значениям ряда.
Подставив в систему соответст-
вующие значения, получим:
' 17а 4-	136.54- 1496с=
= 988.4;
136а 4- 1496&4-18 496с =
= 8078,9;
1496а 4- 18 4966 4-243 848с =
•= 90676,3.
Систему решим с помощью пре-
образования, описанного в преды-
дущей главе. Мы можем также сде-
лать следующее. Разделим первое
уравнение на —17, второе на 136,
а третье на 1496; затем, сложив
первое со вторым и третьим, мы ис-
ключим а. Тогда получим:
-а- 86- 88с =-58,141176
а _|_ П6 4- 136с = 59,403676
364- 48с =1.262500
и
—а _ 86 - 88с = - 58,141176
а 4- 12.3636366 4- 163с = 60,6125
4,3636366 4- 75с=2,471324.
Система примет вид:
। а 4- 86 4- 88с = 58,141176;
{	36 4- 48с = 1,2625;
I 4,3636366 4- 75с = 2,471324.
Теперь исключим 6 из третьего
уравнения, используя второе урав-
нение. Поступаем так же, как и
раньше. Второе уравнение делим на
—3, а третье на 4,363636 и склады-
ваем:
-6- 16с =-0.420833
64- 17,187501с = 0,566345
1,187501с = 0,145512
Умножив второе уравнение на — 1,
получим систему:
। а 4-864- 88с = 58.141176
{	6 4-16с =0,420833
I	1,18750k=0,145512.
Таблица 15.3. Подгонка параболы (индекс выпуска оборудования
для частнопредпринимательского сектора — компонента индекса промышленного
производства США в 1947—1963 и 1964—1971 гг.) (1967 г.=109)
Год	X	У	х*	У*	XY		YX	1 А*	
:947	0	55,8	0	3113,64	0	0	0	0	59,7
1948	1	57.9	1	3352,41	57,9	1	57,9	1	58.2
1949	2	50,7	4	2570,49	101,4	8	202,8	16	57,1
1950	3	54.2	9	2937,64	162,6	27	487,8	81	56,2
195!	4	66,3	16	4395,69	265,2	64	1060,8	256	55,5
1952	5	75,1	25	5640,01	375,5	125	1877,5	625	55,0
|953	6	52,8	36	2787,84	316,8	216	1900,8	1296	54,8
1954	7	46,5	49	2162,25	325,5	343	2278,5	2401	54.9
1955	8	50,3	64	2530,09	402,4	512	3219,2	4096	55.2
1956	9	57,2	81	3271,84	514 8	729	4633,2	6561	55,7
1957	10	57.6	100	3317,76	576,0	1000	576(1,0	10000	56,5
1958	11	49,1	121	2410,81	540,1	1331	5941,1	14 641	57,6
1959	12	57,4	144	3294,76	688.8	1728	8265,6	20 736	58,8
1960	13	60,3	169	3636,09	783,9	2197	10190,0	28 561 -	60,4
1961	14	60,2	196	3624,04	842,8	2744	11799,2	384J6	62,1
1962-	15	66,8	225	4462,24	1002,0	3375	15030,0	50 625	64, 1
1963	16	70,2	256	4928,04	1123,2	4096	17971,2	65536	66,4
	136	988.4	1496	58435,64	8078,9	18496	90676.3	Г 243 848	
	Экстраполяция тренда		
1964	17	76,1	68,9
1965	18	85,7	71,6
1966	19 1	99,1	74,6
1967	20	100,0	77,9
1968	2|	101,0	81,4
1969	22	106,9	85,1
1970	23	102,5	89,1
1971	24	96,1	93,3
Примечание. Данные вэггы нз Federal Reserve Bulletins.
Система эквивалентна исходной
системе, это означает, что их ре-
шения совпадают. Итак, мы нахо-
дим с, подставляем полученное зна-
чение во второе уравнение, находим
Ь, наконец, из первого уравнения
получаем а. В качестве окончатель-
ного результата вычислений полу-
чаем : а=0,122536, b=— 1,539743,
с=59,675952.
Уравнение параболы, таким обра-
зом, имеет вид:
г. Ух=59,68— 1,54Х+0,1225Х2,
где каждый параметр вычислялся
до четырех значащих цифр.
Трендовые значения СУЖ, приве-
денные в табл. 15.3, находили под-
становкой в последнее уравнение па-
раболы последовательных значений
Х=0, 1, ..., 16 Для получения про-
гнозных значений подставляли зна-
чения Х=17, .24.
Уравнение параболы, аппрокси-
мирующей 25 значений ряда, имеет
вид:
с Гх=59,45— 1,883Л'+0.1703№.
Сравним теперь пару прогнозных
значений с соответствующими зна-
чениями тренда, вычисленными из.
последнего соотношения. Возьмем
два прогнозных значения СУ17=68,9
и €^24=93,3. Соответствующие им
значения последнего тренда сУп=
=76,6 и еУа4=Н2,3. Итак, первое
значение тренда на 11,2%, а послед-
нее на 20,4% будет больше про-
гнозных. Разница существенна. На'
рис. 15.5 мы видим графики, с по-
мощью которых можем провести ви-
зуальные сравнения.
22-232
337
Предположим, что теперь вместо
параболы будем подгонять к дан-
ным индекса производства оборудо-
вания для частнопредприниматель-
ского сектора на промежутке 1947—
1963 гг. прямую. Тогда прогнозные
значения еще больше будут отли-
чаться от трендовых значений. На
рис. 15.6 это ясно видно.
Рис. 15.5. Индекс выпуска оборудования
для частнопредпринимательского сектора.
NSA (National Stastical Abstracts). 1947—
1971 гг. (данные взяты из табл. 153)
,u,anni
Рис. 15.6. Индекс выпуска оборудования
для частнопредпринимательского сектора,
NSA, 1947—1971 гг. (данные взяты нз
табл. 15.3)
Тренд индекса оборудования явно
описывается кривой линией. Однако
для большинства случаев это не
очевидно. В таких случаях исследо-
ватель не знает, подгонять ли к дан-
ным прямую или параболу. В обшем,
когда к ряду, тренд которого описы-
вается прямой, подгоняют параболу,
то параметр с либо равен нулю, ли-
бо очень мал. Если с=0. то уравне-
ние параболы вырождается в урав-
нение прямой.
В предыдущем параграфе мы
оценивали тренд для индекса про-
мышленного производства. Будет ли
парабола лучше описывать тренд
этого ряда? Да, будет! Значение с
338
в этом случае равно 0,07921. Оно ма-
ло. Гораздо меньше, чем с=0,1703
для индекса производства оборудо-
вания для частнопредприниматель-
ского сектора. Но не достаточно
мало, чтобы считать его несущест-
венным.
Итак, возникает проблема выбора
не между прямой и параболой, но
между параболой и некоторой дру-
гой кривой. Геометрия параболы
ясна; теоретически нетрудно уста-
новить, будет ли- линия тренда
иметь вид параболы. Если тренд па-
рабола, то первые разности ряда
еУ*—сУх-t располагаются на графи-
ке вокруг прямой *. Например, пер-
вые разности значений СУХ, приве-
денных в табл. 15.3, будут лежать
около прямой. Слово «около» мы
употребляем, потому что значения
вычисляются приближенно, т. е.
округляются
Аналогичные рассуждения спра-
ведливы и для исходных данных.
Если первые разности ряда лежат
около прямой, то тренц описывает-
ся параболой. Однако, как мы уже
говорили, временные ряды должны
быть достаточно гладкими, иначе
трудно понять, будут ли первые раз-
ности аппроксимироваться прямой.
, Например, первые разности индекса
оборудования показывают сильные
краткосрочные колебания, и визу-
ально трудно понять, хорошо ли
прямая приближает разности.
15.2.3. Логарифмическая прямая
Логарифмическая прямая получа-
ется из экспоненциальной функции
вида	"
(YK=abx.
Значения этой функции приведены
в табл. 15.1 в столбцах 7 и 8. Лога-
рифм этой функции
1g	= lg а + (1g &) АГ
на графике имеет вид прямой.
Скорость изменения. Экспоненци-
альная функция отражает матема-
1 Первые разности ведут себя как пря-
мая, поскольку первая производная f(x)*=
==а-|-6х-}-сд^ Р(л)=Ь-|-2сх представляет
собой уравнение прямой с тангенсом угла
наклона, равным 2с.
тически идею сложного процента,
другими словами, временные ряды
изменяются в каждую единицу вре-
мени в среднем с постоянным тем-
пом в процентах. Поясним это свой-
ство на примере. Предположим, что
начальный вклад в банк составля-
ет 200 долл., и ежегодно начисляе-
мый процент г=0,05 (5%), так что
6=14-7=1+0,05=1,05. Требуется
найти СУ* (сумму вклада четыре го-
да спустя). Имеем:
—Y0)/(N—1), что составляет в на-
шем примере (Ум—У0)/16=(76,5—
—40)/16=2,281. Эта величина на-
зывается средним приростом отно-
сительно первого и последнего
члена.
Используя экспоненциальную’
функцию сУх=а6х, мы-найдем по-
стоянный темп изменения в процен-
тах относительно первого и послед-
него члена, а также темп измене-
ния в процентах для тренда,- полу-
X	л	cYx
0	200	cYe=a
1	200-1.05 = 210	рУ। — pl $b	лЬ
2	210-1,05 = 220,5	cYt = cY1b = (ab}b = abi
3	220,5-1,05 = 231,52	eYs = cYtb= (ab2)b ab*
4	231,52-1,05 = 243,1	eY<=cYtb = (ib>) b = ab*
Эти же вычисления можно провести
с помощью функции
СУХ=2004(1.05)Х
‘Для Х=4
еУ4 = 200(1,05)*= 101ав1М*Х
IQg.HlgM |QO,*g<7E8 _
= 10’’MS7B*=243,1.
Если бы значения 200, 210, 220,5,
231,52, 243,1 были не суммами де-
нег, а просто представляли собой
временной ряд, то мы сказали бы,
что значения ряда вырастают на 5%
в год. При 6<1 временной ряд
уменьшался бы на г=Ь—1 процен-
тов в год. Например, если 6=0,95,
то г=0,95—1=—0,5 и члены ряда
уменьшаются на 5% в год.
В разд. 15.2.1 к индексу промыш-
ленного производства подгонялась
прямая на промежутке 1947—
1963 гг. Тангенс наклона прямой
6=2,136. Этот коэффициент озна-
чает, что временной ряд увеличива-
ется в единицу времени в среднем
на постоянную сумму, равную 2,136.
Мы отмечали также, что средний
абсолютный прирост может быть
получен вычислением (Уд-i—
ценного методом наименьших квад-
ратов. Для примера снова рассмот-
рим индекс промышленного произ-
водства.
Чтобы найти, темп в процентах
относительно первого и последнего-
члена, перепишем уравнение в виде
Y.N_t = Y^~\
Подставив значения У1в=76,5 »
Уо=40, получим
76,5=406”
Разделив обе части на 40, имеем
1,9125=6”.
С помощью логарифмических таб-
лиц перепишем последнее соотно-
шение в виде
| Q« ____^1«.
। q0.2816o2j 1/16 _ (£16^ 1/16.
1,0417=6.
Значение г получим из
r=b—1=1,0417— 1 =0,0417.
Мы можем сказать, что промыш-
ленное производство в 'США воз-
растало в среднем на 4,2% в год в
1947—1963 гг.
Таблица 15.4. Логарифмическая прямая (индекс промышленного произзодства США
В 1947—1963 и 1964—1971 гг., (1967 г.=100)
Год	X	У	У'	№		Х1"	уг с л	с*х
1947	0	40,0	1,6021	0	2,5667244 |	0,0000	1,6099	40,7
1948	1	41,7	1.6201 .	1	2,6247240	1,6201	1,6267	42,8
1949	2	39,6	1,5977	4	2,5526453	3,1954	1,6436	44,0
' 1950	' 3	45,7	1,6599	9	2,7552680	4,9797	1,6604	45,8
1951	4	49,8	1.6972	16	2.8804878	6,7888	1,6773	47,6
1952	5	51,4	1.7110	25	2,9275210	8,5550	1,6941	49,4
1953	6	55,8	1,7466	36	3,0506116	10,4796	1,7110	51,4
1954	7	51.9	1,7152	49	2,9419110	12,0064	1.7278	53,4
«955	8	58.5	1,7672	64	3,1229958'	14,1376	1,7447	55,6
1956	9	61,1	1,7860	81	3.1897960	16,0740	1,7615	57,7
1957	10	61,9	1,7917	100	3,2101889	17,9170	1,7784	60,0
1958	11	57.9	1,7627	121	3.1071113	19,3897	1,7952	62,4
1959	12	64.8	1.8Н6	144	3,2818946	21,7392	1,8121	64,9
1960	13	66.2	1,8241	169	3,3273408	23,7133	1,8289	67,4
'961	14	66,7	1,8241	196	3,3273408	25,5374	1.8458	70,1
19G2	15	72,2	1,8585	225	3,4540223	27,8775	1,8626	72,9
1963	16	76,5	1,8837	256	3,5483257	30,1392	1,8795	75,8
	136		29,6594	1496	51,8689093	J 244,1499		ц
-							Экстраполяция	
							тренда	
1964	17	81.7		-	।		1,8963	78.8
1965	18	89.2		•			1,9132	81.9
1966	19	97.9		-			1,9300	83.1
1967	20	100,0					1,9469	88.5
1968	21	105.7					1.9637	92.0 ‘
1969	22	110,7					1,9806	95.6
1970	23	106,7					1,9974	99» 5
1971	24	106,3		л	-		2,0143	103.4
Примечания: I. Данные взяты и» табл. 15.2.
2. У' = 1g У.
Для периода 1947—1971 гг.
106,3 = 40,Об24;
2,658=624;
(io°-423577/24-=(>:
1,0419=6,
что дает
г=0,0419.
Это значение не слишком отли-
чается от значения г, полученного
для предыдущего периода.
Возьмем теперь последнее зна-
чение ряда и разделим его на пер-
вое: 106,3/40=2,6575. Мы можем
сказать, что последнее значение на
165,75% больше первого. Некоторые
делят 165,75 на число точек Л'—1 =
=24 и, получая 165,75/24 = 6,91. го-
340
ворят,'Что это значение представля-
ет собой средний темп изменения
в процентах Это неправильно и ни-
как не согласуется со значением
г=4,19%. Если, начиная с первого
значения Уо=40} увеличивать все
24 года индекс на 4,19%, то полу-
чим последнее значение У24= 106,3.
Однако мы получим совсем другое
число, если будем значение каждо-
го предыдущего года увеличивать
ежегодно на 6,91%.
Метод наименьших квадратов.
Способ аппроксимации данных
функцией cYx=abx в ее логарифми-
ческой форме lgcyx=lga-|- (Igfe)X
аналогичен методу подгонки пря-
мой, описанному в разд. 15.2.1, за
исключением того, что исходные
данные У заменяются их логариф-
мами. Все вычисления приведены в
табл. 15.4.
Используя соотношения lgy=>",
!ga=a', lg b=b', перепишем урав-
нение в виде
cY’x = a'+b'X
и получим систему линейных урав-
нений
| Na' + (XX)b' = ЕГ';
( (LX)a' ^(ZX2)b' = ^ХГ.
Подставив в систему необходи-
мые значения из табл 15.4, полу-
чим
| *17а'+ 1366' =29,6594;
( 136а' 4- 14966' = 244.1499.
Разделив первое уравнение на —17,
а второе на 136 и сложив:
-а'- 86'=1,74467
+ 116'=1,79522
36'=0.05055,
получим
6'= 0,01685;
а'= 1.609871.
Уравнение логарифмической пря-
мой принимает вид:
СУ'Х = 1,60987 + 0.01685Х.
Подставив Х=0, 1, ..., 16, .получим
значения логарифмического тренда
<У'в=1,6099, с У',=1,6267, вУ'«=
= 1,87947. Прогнозные значения
найдем из уравнения, заменив в
йем X числами 17, 18, .... 24.
Теперь мы можем найти парамет-
ры eYx=abx и значения тренда CYX-
Параметры будут просто антилога-
рифмами а' и 6', так что
СУХ—40,72 (1,0396)Л.
Антилогарифмы СУХ для ГУ\ приве-
дены также в табл. 15.4. Так как
параметры функции теперь извест-
ны, то значения CYX находятся пря-
мо из уравнения тренда подстанов-
кой значений Х=0, 1, ..., 16. На-
пример, сУо—40,72 (1,0396) =40,72.
Этот результат позволяет сделать
вывод, что в 1947—1963 гг. промыш-
ленное производство в США росло
в среднем на 3,96 или 4% в год.
(Более точная формулировка тако-
ва: значения тренда, полученные ап-
проксимацией индекса экспоненци-
альной функций cYx=abx, возрас-
тали приблизительно на 4% в год).
Итак, г=4 сравнимо с г=4,2, полу-
ченным ранее. Заметим, что разни-
ца мала. В общем, если ряды не
слишком колеблются и изменяются
в среднем на постоянный процент
и рассматриваемый промежуток
времени не слишком коротко, то раз-
ница между двумя г будет не слиш-
ком велика.	х
Подгоняя логарифмическую кри-
вую к данным из всего промежутка
1947—1971 гг., сравним значения
тренда с прогнозными значениями
из табл. 15.4. Например, трендовые
значения в 1964 и 1971 гг. равня-
лись сУп=83,3 и СУ24=113,1. Им со-
ответствовали прогнозные данные
СУ17=78,8 и сУ24==103,3. Разница
трендовых и прогнозных значений
невелика и составляет 5,7 и 9,4%.
Вычисление темпа изменений в
процентах за единицу времени ши-
роко применяется при анализе и
сравнении временных рядов. Итак,
повторим: значение средней скоро-
сти изменения может привести к
ошибочным выводам, если ряды не
сопоставимы по порядку величин.
Темп изменений в процентах можно
вычислить как для индексов, так и
для рядов, построенных в любых
единицах измерений. Методы под-
гонки данных с помощью многочле-
нов третьей степени и модифициро-
ванных экспонент (кривые роста)
описываются в работе Крокстона,
Коудена и Клейна «Общая при-
кладная статистика».
Полулогарифмические графики.
Если надо сравнить графически два
или более ряда по их темпам изме-
нений, то используют координатную
систему, по вертикальной оси ко-
торой откладывают логарифмы. На
рис. 15.7 показан такой график, на
котором изображены логарифмы ин-
декса промышленного производства
и два тренда.
341
Вертикальная шкала такого гра-
фика всегда маркируется числами
от 1 до 10. Если два графика на-
кладываются друг на друга, то гра-
фик называется двухциклическим
полулогарифмическим, а шкала про-
сто повторяет себя, сначала от 1
до 9, а затем от I до 10. Шкала
трехциклического графика содер-
жит отрезки от 1 до 9, снова от 1 до
9 и, наконец, от 1 до 10.
Рис. 15.7. Индекс промышленного произ-
водства, SA. 1947—1971 гг. (данные взяты
из табл. 15,2)
Расстояния между 1 и 2, 2 и 4,
3 и 6 и 4 и 8 одинаковы, поскольку
2 на 100% больше 1, 4 на 100%
больше 2 и т. д. Расстояния между
2 и 3 и 4 и 6 также одинаковы, так
как 3 на 50% больше 2, а 6 на 50%
больше 4. Такое упорядочение вер-
тикальной шкалы дает возможность
изобразить ряды с постоянным тем-
пом изменения в процентах в виде
прямых. Ряды из столбцов 7 и 8
табл; 15 1 будут изображаться в ви-
де, близком к прямым линиям. Зна-
чения логарифмической прямой сУ'х
из табл. 15.4 представляют собой
прямую и в случае арифметической
шкалы. Значения экспоненциально-
го тренда из той же самой таблицы
будут представляться в виде кривой
(ряды возрастают с возрастающей
скоростью изменений) в арифмети-
ческой координатной системе и в
виде ^прямых на полулогарифмиче-
ском графике.
342
Техника построения таких графи-
ков состоит в умножении значений
исходной шкалы на некоторое чис-
ло. Это дает возможность сделать
вертикальную шкалу совместимой
с порядком величин ряда При изо-
бражении индекса промышленного'
производства исходную шкалу
умножали на 20.
Кривую можно сдвигать вверх »
вниз без изменения ее вида, умно-
жая исходную шкалу на соответст-
вующее число. Например, если ис-
ходную шкалу умножить на 40, то
шкала станет 1-40=40, 2-40=80,
3-40=120, и кривая индекса сдви-
гается вниз.
Используя в качестве множителя
10, получим шкалу, маркированную
числами 10, 20, 30, ..., 100. По-
скольку индекс промышленного
производства варьирует от 40 до
106,3, умножение исходной шкалы
на 10 вынуждает использовать двух-
циклический график, т. е. макси-
мальное значение будет более 100.
Следует заметить, что в качестве
множителей надо брать такие круг-
лые числа, как 10, 20, 50. Числа с
множителем 22,5 изобразить было
бы трудно,
В случае, когда надо изобразить
два или более рядов на одном гра-
фике, надо использовать несколько
шкал. Множители следует выбирать
так, чтобы ряды не пересекались и
не были слишком далеки друг от
друга.
Полулогарифмические графики
из-за их свойств широко применя-
ются. Если надо сравнить тренды
рядов не относительно скорости из-
менений, а относительно темпов, то
следует воспользоваться полулога-
рифмическим графиком. Многочис-
ленные примеры таких графиков
можно найти в справочнике «Анализ
экономического положения» Мини-
стерства торговли США и в журна-
ле графиков Федеральной резерв-
ной системы. Публикации ежемесяч-
ные '.
1 Business Conditions Digest. US De-
partment of Commerce. Federal Reserve Bo-
ard's Chart Book.
15.3.	СТАТИСТИЧЕСКИЙ АНАЛИЗ
ЭКОНОМИЧЕСКИХ ЦИКЛОВ
Модель циклических колебаний
временного ряда показана на рис.
15.2,в. В модели предполагается, что
во временном ряду либо совсем от-
сутствуют сезонные колебания, ли-
бо они были предварительно ис-
ключены. Прямая, сглаживающая
ряд, изображает его тренд. В этом
случае обычно каждое значение ря-
да считают суммой трех компо-
нент—а именно, тренда Т, цикли-
ческой составляющей С и остатка
/, представляющих чисто случайные
' нерегулярные флуктуации. Таким
образом, Y=T+C+I, отсюда С+
+/=К—Т, т. е. равно разности меж-
ду исходными значениями ряда и
его трендом.
Экономический цикл состоит из
фаз подъема и спада, а следова-
тельно, имеет верхнюю и нижнюю
поворотные точки, обычно называе-
мые пиком и спадом. Большой исто-
рический анализ статистики эконо-
мических циклов был проведен На-
циональным бюро экономических ис-
следований. Этот институт устано-
вил хронологию экономических цик-
лов Для американской экономики,
которая везде сейчас принята. Им
были даны определения поворотных
точек для всей экономики в целом,
которые называются опорными по-
воротными точками. Используя обо-
значения Р для пиков и Т для впа-
днн, приведем некоторые из них:
Т — август 1954 г., Р— июль
1957 г., Т — апрель 1958 г., Р— май
1960 г., Т—февраль 1961 г., Р —
ноябрь 1969 г., Т — ноябрь 1970 г.
Цикл, которым определены поворот-
ные точки для всей экономики в це-
лом, называется опорным циклом.
Число месяцев (или лет) от впа-
дины до впадины или от пика до
пика называют длиной цикла. Итак,
длина цикла, определяемая между
токами впадин, будет 44, 34 и
117 мес. Длина фаз подъема равна
35, 27 и 105 мес. Соответственно
фазы спада длились 9, 7 и 12 мес.
Опорные поворотные точки для
всей экономики устанавливались на
основе поведения индекса промыш-
ленного производства, показателя
ВНП и показателей занятости.
Поворотные точки каждого инди-
видуального ряда называются спе-
цифическими поворотными точками.
Они редко совпадают с опорными
поворотными точками. Итак, длина
специфического цикла индивидуаль-
ного ряда не равна в общем случае
длине экономического цикла. Ког-
да пики ,и впадины ряда устойчиво t
предшествуют соответствующим
опорным поворотным точкам, ряд
называют опережающим. В случае '
совпадения поворотных точек — сов-
падающим. Если поворотные точки
индивидуального ряда запаздывают
по сравнению с опорными точками,
ряд называется запаздывающим. i
Конечно, есть некоторые беспоря-
дочно колеблющиеся ряды, к кото-
рым эта классификация не отно-
сится.
Национальное бюро экономиче-
ских исследований составило так
называемый краткий список времен-
ных рядов с предшествующими,
совпадающими и запаздывающими
поворотными точками. К опережаю-
щим рядам относятся: средняя ра-
бочая неделя, число производствен-
ных рабочих, объем выпуска обра-
батывающей промышленности,
средненедельное число первичных
заявлений на пособие по безработи-
це, выплаты по штатной системе
страхования от безработицы, чи-
стые изменения в .организации биз-
неса (число основанных новых фирм
и банкротств), выпуск товаров дли-
тельного пользования, объем кон-
трактов и заказов на здания, соору-
жения и оборудование, число раз-
решений на новое строительство
жилья, балансовые изменения запа-
сов в обрабатывающей промышлен-
ности и торговле, цены на промыш-
ленное сырье, курсы акций, доходы
корпораций после вычета налогов,
отношение цены к издержкам на ,
труд на единицу продукции в обра-
батывающей промышленности, из-
343
менения в задолженности по потре-
бительскому кредиту.
Совпадающие ряды: ВНП, про-
мышленное производство, объем
продаж в обрабатывающей про-
мышленности и оптовой торговле,
объем продаж в розничной торгов-
ле, число лиц, работающих по най-
му в несельскохозяйственных отрас-
лях, процент безработных.
Запаздывающие ряды: процент
безработных, число лиц, занятых
непрерывно свыше 15 недель, затра-
ты предпринимательского сектора,
балансовая стоимость, новые зда-
ния, сооружения и оборудование, за-
пасы в обрабатывающей промыш-
ленности и торговле, издержки на
труд на единицу выпуска продукции
в обрабатывающей промышленности,
сумма задолженности в торговле и
промышленности по еженедельным
отчетам коммерческих банков, бан-
ковские проценты по краткосроч-
ным производственным займам
предпринимательскому сектору. •
При изучении циклов в экономике
рассматриваются не только их дли-
ны, запаздывания и опережения, но
и амплитуды. Амплитуды циклов
изменяются со временем. Напри-
мер, перед П мировой войной про-
цент безработных доходил до таких
цифр: 1908 г. —8,5%, 1915 г. —9,7,
1921	г,— 11,9,	1933 г. —24,9,
1938 г.— 19%. После войны про-
цент безработных не превышал 7%
(в годовом исчислении). Следова-
тельно, амплитуда колебаний в ря-
ду безработицы в послевоенное вре-
мя уменьшилась.
Как уже отмечалось, амплитуда
колебаний зависит от того, в какой
степени ряд чувствителен к колеба-
ниям изменений дохода. С«этой точ-
ки зрения очень показательна раз-
ница между движением показателя
'выпуска конторского оборудования,
выпуска автомобилей и производст-
ва зубной пасты.
. Статистический анализ экономи-
ческого цикла состоит из ряда из-
мерений и сопоставлений. Чтобы
сделать эти измерения и сравнения
более точными, надо изучать циклы
344
в их чистом виде, т. е. удалив из
ряда трендовую составляющую н
сезонные колебания. Наиболее ча-
сто используемые при этом стати-
стические методы включают подгон-
ку трендов с точками перегиба и
без них (скользящие средние), ме-
тод Национального бюро экономи-
ческих исследований (НБЭИ), ме-
тоды элиминирования сезонных ко-
лебаний, регрессионный анализ.
Мы будем рассматривать эти ме-
тоды в том порядке, как они
перечислены выше.
15.3.1.	Колебания вокруг тренда без
точек перегиба
Чтобы увидеть цикл в чистом ви-
де, следует сначала аппроксимиро-
вать данные прямой, параболой или
экспонентой, т. е. найти тренд без.
перегибов методом наименьших
квадратов или каким-либо другим.
Затем вычисляют значения тренда
и вычитают из исходного ряда (или
исходные значения делят на трендо-
вые). В первом случае мы имеем
разность между У и сУх. Во вто-
ром— получаем процентные откло-
нения У от СУХ.
Метод анализа циклического дви-
жения вокруг тренда без перегибов
иллюстрируется на ряде, представ-
ляющем собой отношения потреби-
тельского кредита к располагаемо-
му доходу. Ряд приведен в табл.
15.5. Данные аппроксимировались
параболой, уравнение которой име-
ет вид:
с Ух=8,124 + 0.7079Х—0,01622№. (
Графики ряда и параболы показа-
ны на рис. 15.8.
Разности У—СУХ, приведенные в
табл. 15.5 и изображенные на рис.
15.9, представляют собой цикличе-
ское движение в чистом виде. Это-
будут составляющие С4/ из тож-
дества Y=T+C+I. Процесс подгон-
ки к ряду трендовой линии, а за-
тем вычитания трендовых значений
из исходных значений ряда назы-
вается очищением ряда от тренда?
или его исключением.
Та блица 15.5. Отношение суммы предо-
ставленного потребительского кредита к
располагаемому доходу в 1947—1971 гг.
(Л^. 124+0.7079 X—0.01622 А?)
Гол	X	Г	CYX	V 4	8
1947	0	7,5	8.12	—0,62	92,3
1948	1	8,2	8,82	-0,62	93,0
1949	2	9,6	9,47	0.12	101,3
1950	3	10,4	10.10	0.30	103,0
1951	4	20,4	10.70	—0.30	97,2
1952	5	12,4	11,26	1,14	110,1
1953	6	12.5	11,79	0,71	106,0
1954	7	12.1	12,28	—0.18	98,5
1955	8	14,2	12,75	1,45	111.4
' 1956	9	13,6	13.18	0J2	103,5
1957	10	13,6	13,58	0,02	100,1
1958	!1	12,6	13,95	— 1,35	90,3
1959	12	14,2	14,28	—0,08	99,4
1960	13	14.2	14,58	—0.38	97,4
1961	14	13,3	14.86	—1.56	89,5
1962	15	14,3	15,09	-0,79	94,7
1963	16	15,0	15.30 ।	—0,30	98,0
1904	17	16,1	15.47	0.63	104,1
1965	18	16.6	15.61	0,99	106,3
1966	19	16.1	15.72	0,38	102,4
1967	20	15,5	15.79	—0.29	98,1
1968	21	16.4	15.84	0,56	103,5
1969	22	16.2	15.85	0.35	102,2
1970	23	15,1	15,83	—0.73	95.4
1971	24	15.9	15,77 .	0.13	100,8
Примечания! I. Данные взяты
Current Business/
2. Значения У даны в (фоценгах.
1(3
Survey of
слишком крут. Почти очевидно, что
в начале роста амплитуда колеба-
ний невелика. По мере развития
тренда растет и амплитуда циклов.
Для того чтобы сделать сравнимы-
ми амплитуды циклов, вычисляют
процентные отклонения от тренда,
т. е. вычисляют (YfcYx)-100. Эти
PiiC. 15.8. Отношение суммы представлен-
ного потребительского кредита к распола-
гаемому доходу (данное взяты нз табл.
15.5)
i 1 I - I I » <•» I 1 1 11 1 t I I 1 I I I 1
Теперь исследователю легче уста-
новить поворотные точки и опреде-
лить длительность и амплитуду
цикла и сравнить фазы подъема и
спада. Точки становятся еще более
очевидными, если сравнить поведе-
ние обоих графиков на периодах
1950—1951, 1952—1953, 1956—1957,
1959—1960 гг. На рис. 15.8 эти пе-
риоды описаны почти горизонталь-
ными линиями. На рис. 15.9 они же
представлены резкими спадами. За-
метим, что мы используем ежегод-
ные данные лишь для экономии ме-
ста. Обычно же экономические цик-
лы изучаются на месячных и квар-
тальных данных, ежегодные же по-
казатели используются. только •
в случае, если нет других данных.
Абсолютные отклонения от трен-
да не сопоставимы, если тренд
Рис. 15.9. Отклонения от тренда (отноше-
ние суммы предоставленного потребитель-
ского " кредита к располагаемому доходу;
данные взяты из табл. 15.5)

Рис, 15.10. Отклонения от тренда (отноше-
ние суммы предоставленного потребитель-
ского кредита к располагаемому доходу;
данные взяты из табл. 15.5)
345
процентные отклонения показаны в
табл. 15.5 и на рис. 15.10. Теперь
относительная амплитуда первого
цикла сопоставима с амплитудой'
последнего.
15.3.2.	Скользящая средняя
Когда данные аппроксимируются
трендом, чтобы легче увидеть цик-
лическое движение, то необходимо,
чтобы тренд сглаживал все циклы,
пересекая их. Однако тренд без
точек перегиба часто не удовлетво
ряет этому условию. Парабола из
рассматриваемого примера иллю-
стрирует эту проблему. Например,
из рис. 15.9 и 15.10 видно, что цикл
между 1958 и 1967 гг. лежит ниже
трендовой линии (опорные впадины
НБЭИ для этого ряда приходятся
на апрель 1958 г. и февраль 1961 г).
Напротив, впадина 1954 г. (опорная
впадина НБЭИ приходится на
август 1954 г.) лежит лишь незна-
чительно ниже трендовой линии.
Сейчас мы покажем, что трендовая
линия с точкой перегиба, называе-
мая скользящей средней, более при-
годна для анализа.
Скользящая средняя (обозначим1
ее pMx,t где р — число временных
интервалов) представляет собой
тренд, сглаживающий цикл любого
характера и длины. Наиболее часто
Таблица 15.6. Вычисление скользящих средних
Р
2 пу, *,= Р^ + (р—1)/2]>0(где р—число временных интервалов)»
/^1 _
wt, .... wp)
а) Длина цикла р равна нечетному числу временных интервалов
Змх,
0
1
2
3
4
(к^У, 4* и^У, 4*	— ,Л1,
(WjF, + wtYt 4- wsYB)/Yu!j = ,Л12
(WiFj 4-	4-	— ,Af,
б) Длина цикла p равна четному числу временных интервалов
X	ух		5м X'
			
0 I	У»	у. 4-У3 4-У* + у. .. 4	— 4™1, *	—	2 У« 4- 2У, 4- 2У, + 2У, + У«
1	у»		“	8
2	У»	У. + У, + У,+ У« ..	в + 4/йаг1
		4	—•	•	л,-	2
3	У		
	1 а		У, 4- 2Уа 4- 2У, + 2У« 4- у»
4	у.	У, + У,+ У« + У, м 4	— 4JWlf ,	”	8
5	У»		.Л/4_	2
6	у.	1 •а + * + -< • II * *	У, + 2У, 4- 2У4 4- 2У,+ У. “	8
346
Таблица 15.7. Вычисление скользящих средних
3МХ,-. »Г,-(1, I. 1); Ett-j = 3
Год	X		зм*- п
1947	0	7 ,5	7.54-8,2 + 9,6 „
			о—1	=8,4
1948	1	8,2	О
1949	2	9,6	8,2 + 9,6+10,4 —г22—=9-4
1950	3	10,4	
1951			9.6+10,4+10.4
	4	10,4	3	—10,1
Првме	4 а н и е. Полны	е ряду для зтнх	СЕсользяищх приведены в табл. 15.8.
	= (1, 2. 2» 2t 1); Еа>; = 1		8
Гад	X	Yx	6м**
1947	0	7,5	•
1948	1	8,2	7,5 + 2-8,2 + 2-9.6 + 2-10,4 + 10,4
			8	.-9.3
1949	2	9,6	
			8.2+2-9,6+ 2-10,4+ 2-10,4+ 12,4
1950	3	10,4		—	—	§	1	= 10,2
1951	4	10,4	9,6 + 2.10,4 + 2-10,4 + 2-12,4 + 12.5
			о	—11,1
1952	5	12.4	о
1.953	6	12,5	
в, 5МЖ/; Л/=(1; 1.25; 1,5; 1.25; 1); £0.7 = 6
Год	X	г*	5М*'
1947	0	7,5	
1948	1	8.2	7,5+ 1,25-8,2 + 1,5-9,6+ 1,25-10,4+ 10,4 fi	У1 о
1949	2	9,6	О	S
1950	3	Ю,4	8,2+ 1,25.9,6+ 1.5-10,4+1.25-10,4+12,4 6 .	.	— 0,2
1951	4	10,4	9,6+ 1,25-10,4 + 1,5-10,4 + 1,25-12,4+ 12,5
1952	5	12,4	6
1953	6	12.5	
ее используют для выделения цик-
лических и сезонных колебаний.
Способ вычисления tMx, скользя-
щих средних третьего порядка при-
веден в табл. 15.6,а и 15.7,а.
Скользящие средние могут быть
взвешенными и простыми. Приве-
денная ниже скользящая средняя
третьего порядка простая. Ее вы-
числяют (это видно из таблицы) по-
следовательным осреднением каж-
дых трех точек. Простую ЛМХ, вы-
числяют аналогично, так как каж-
дая ее точка равна средней четырех
последовательных точек исходного
ряда.
Если скользящую среднюю вы-
числяют для нечетного числа перио-
347
дов, то индекс р в рМх, — нечетное
число. В этом случае индекс х' так-
же целое число, и можно сказать,
что рМх, центрирована в точках X.
Для ,Л1х, и ЛГ = (О. 1, .... А-1)
первое значение будет х’ = 1, а пос-
леднее x' = N~ 2; для &Afx, первое
значение будет л'= 2, а последнее
N — 3. Для tMx, первое значение
х' — 2, а последнее х' = N — 2.
Если р четно, то для 9МХ, первое
значение х' будет л' —0,5, а пост
леднее N — 1,5; для 4ТИХ, первое
значение х'=1,5, а последнее х'=
=N-—2,5 и т. д. Итак, х' находим из
условия
*'=1Х+(₽-1)/2].
т. е. из выражения для медианы по-
следовательных значений X.
Порядок вычисления ЛМ приве-
ден в табл. 15.БД Однако центри-
ровать tMx, в промежуточных точ-
ках неудобно. В этом случае надо
было бы вычислить еще одну сред-
нюю 24Afx,. Эти вычисления также
приведены в табл. 15.6,6, Откуда
видно, что средняя двух скользящих
средних является просто весовой
скользящей средней пятого порядка
ЬМХ, с весами р1Г/ = (1, 2, 2, 2, 1).
Следовательно, чтобы центрировать
в точках Л' (а не промежуточ-
ных), надо вычислить весовую сколь-
зящую с весами aUZ.==(l, 2, 1);
чтобы центрировать ЛМХ, в точках
X. применяют взвешенную скользя-
щую 3МХ, с весами 7Wj=;(l, 2, 2,
2, 2, 2, 1) и т. д. Вычисление взве-
шенной sAfx, с весами 1WZ/ = (1, 2,
2, 2, 1) дано в табл. 15.7.в.
Значения р и веса скользя-
щих средних рМх, определяются
длиной цикла и условием, чтобы РЛ1Х,
сглаживало цикл или циклы, пере-
секая их. Несколько моделей цик-
лов показано на рис. 15.11. Они
построены с помощью знаковой
функции так, что амплитуда лрини-
348
мает значения между +1 и —1.
Эти циклы, таким образом, разли-
чаются только длиной.
Число на верху циклов рис.
15.11,0 обозначают длины циклов
в единицах временных интервалов.
Таким образом, длина первого цик-
m ал
7 а}
7	*

Ь'!
-1
О
,	. У
Wp(f;r,Z5;!,5;r,a5:D
О
-/
Рис. 15,11. Модели экономических циклов
и их скользящие, средние (число Б над
третьим циклом показывает, что длина
цикла равна 5 единицам времени)
ла р=3, второго р=4. Для каж-
дого из этих циклов РМХ, должно
равняться нулю в любой точке х'.
Это условие удовлетворяется, если
число р — порядок скользящей сред-
ней— равно длине цикла.
Если ,7ИХ, вычисляют для данных,
для которых первый цикл имел вид
кривой, изображенной на рис. 15.11 ,л,
то все значения tMx, будут равны
нулю. Значения рМх, будут равны
нулю для простой скользящей ,
вычисленной для данных, образую-
щих цикл с р=4. Однако нулю бу-
дут равны и значения взвешенной
скользящей среднего ett7/ = (it 2, 2.
2, 1). Поэтому ее и использовали
вместо простой скользящей <A1X, в
табл. 15.6,6 и 15.7,6.
Все циклы на рис. 15.11,а не име-
ют тренда. Если бы мы нашли со-
вершенный временной ряд с трен-
дом в виде прямой и циклами рав-
ной длительности и амплитуды, то
значения тренда, найденного мето-
дом наименьших квадратов, совпа-
ли бы со значениями рМх, где р
равно длине цикла
Как мы видели на предыдущих
примерах, обычно временной ряд
содержит циклы с различными ам-
плитудами и длиной. В результате
скользящая средняя для р=3 будет
сильно отличаться от скользящей
Дата
Рис 15.12. sMx. и ?МЖ. — скользящие срод-
нив (отношение суммы предоставленного
потребительского кредита к располагаемо-
му доходу; данные взяты из табл. 15.8)
Чъ	О <1 Чз
Су, Ь> th	Су. Су
Дата
Рис. 15.13. Отклонения от скользящей сред
ней (отношение суммы предоставленного
потребительского кредита к располагаемо-
му доходу; даяные взяты нз табл. 15.8)
для р=7. Такие простые скользя-
щие для разных р представлены в
табл. 15.8. Эти же скользящие и
процентные отношения их к исход-
ному ряду изображены на рис. 15.12
и 15.13. На рис, 15.13 видно, что
tMx, образует два цикла между
1954—1958 гг., что не верно, так как
’ Таблица 15.8. Простые скользящие
средние и процентные отношения
скользящих к исходному ряду
(отношения потребительского кредита
к доходу)
Год	X					
1947	0	7,5				
.1948	1	8,2	8.4	97.3		
1949	2	9,6	9.4	102,1		
1950	3	10.4	ГО, 1	102,7	10,1	102,6-
1951	4	10.4	11.1	94,0	10,8	96,3
1952	5	12,4	Г1,8	105,4	И.7	106,3
1953	6	12,5	12,3	101,4	12,2	102,2-
1954	7	12.1	12,9	93,6	12,7	95,4
1955	8	14,2	13.3	106,8	13,0	109,г
1956	9	13,6	13.8	98.6	13,3	102,6
1957	Ю	13.6	13,3	102,6	13,5	100,7
1958	11	12,6	13.5	93.6	13,7	92,2
1959	12	14.2	!3»7	104,0	13,7	103,7
I960	13	14.2	13,9	102.2	13,9	102,2
1961	И	13,3	13.9	95.5	14,2	93,4
1962	15	14,3	14,2	100.7	14,8	96,6
1963	16	15.0	15,1	99.1	15,1	99 4
1964	17	16.1	• й.9	101.2	15,3	105,4
1965	18	16.6	16.3	102.1	15,7	103.8
1966	19	16.1	16J	100,2	16,0	100,7
1967	20	15.5	16,0	96,9	16,0	96,9
1968	21	16,4	16.0	102,3	16,0	102,7
1969	22	16.2	15,9	101,9		
1970	23	15.1	15,7	96,0		
1971	24	15,9				
Примечание. Дяы«е вяягы нз табл. 15.5.
в этом периоде наблюдался только
один цикл.
В периоде 1961 — 1970 гг. aAft,.
показывает три цикла, а гМх, — два.
Это происходит потому, что tMx,
имеет меньше точек перегиба, чем
(см. рис. 15.7).
Связь между значениями сколь-
зящих средних и исходными данными
видна из рис. 15.11. На рис. 15.11,(7
изображена простая скользящая eAfx,„
Как и следовало ожидать, лМх, равна
нулю для всех X, если временной
ряд образуют циклы длительности
/7 = 5. Если та же простая сколь-
зящая 6МХ, считается для рядов, со-
держащих циклы другой длины, ТО'
ЯМ , имеет вид некоторой кривой.
На рис. 15.11,в изображены взве-
шенные скользящие с весами 5^=
= (1; 1,25; 1,5; 1,25; 1) и Sw,-6. Эти
349
веса получают следующим обра-
зом *. Их находят для циклов дли-
тельности р=2, р==3, р=4 и р=5
таким образом, чтобы взвешенная
сглаживала (пересекала) эти цик-
лы. Затем веса осреднили и полу-
чили sWj. На графике видно, что
для циклов р (3, 4, 5) взвешенная
скользящая значительно луч-
ше, чем невзвешенная ,МХ,. В то
же время она будет хуже для цикла
р=7.
На рис 15.11 показаны взвешен-
ные ,Л4д, для весов ,М.= (1,1
7/6, 9/6, 7/6, 1,1) и Swj=47/6. Ве-
са находили так же. Результаты по-
лучили гораздо лучше, чем если бы
мы подбирали тренд с помощью
взвешенных и простых ,МЖ„
Если должна быть вычислена
скользящая, эквивалентная tMx„ в
годовом сочетании на основе ряда
месячных данных, то ее порядок р
должен равняться 60. Однако, чтобы
центры приходились в точках X,
следует взять рг-=61. Конечно, tMx
должно быть взвешенной скользя-
щей с весами е1Н7,=(1, 2, ..., 2, 1),
но для такого большого р разница
между взвешенной и простой сколь-
зящими будет незначительна.
Когда выбирают скользящую
среднюю, соответствующую времен-
ному ряду, содержащему несколько
циклов, то надо прежде всего при-
нимать во внимание длину циклов.
Если временной ряд не содержит
слишком длинных и слишком ко-
ротких циклов, то РМХ, должно
быть равно длине самого продолжи-
тельного цикла. В других случаях
оказывается более удобным брать
р, немного меньшее длины наиболь-
шего цикла. Понятие «немного
меньшее» будет различным для ря-
дов месячных, квартальных и го-
довых данных.
1 Более подробное описание метода
см. Melnyli М. Some Statistical Methods in
the Study of Long Swings, 1965 ASA Pro-
ceedings, op. cit.
•350
15.3.3.	Методы процента средней и
средних циклов
Еще сравнительно недавно ана-
лиз экономических циклов пред-
ставлял исключительную важность
для экономистов. Чтобы глубже и
детальнее понять циклические про-
цессы в экономике, сравнивались
‘ специфические циклы сотен времен-
ных рядов. Вероятно, наибольший
вклад в этом направлении был сде-
лан учеными из НБЭИ.
Статистические методы, долгое
время используемые НБЭИ в ана-
лизе экономических циклов, корот-
ко можно охарактеризовать следую-
щим образом.
Сначала фиксируют поворотные
точки. Затем вычисляют средние
арифметические месячных или квар-
тальных данных для одного цикла
и отдельные значения ряда в этом
цикле выражают в виде процентно-
го отношения к этому среднему.
Таким образом производят анализ
специфических циклов. Те же са-
мые ряды, однако, расчленяют на
сегменты, соответствующие опор-
ным точкам экономического цикла.
Как и ранее, вычисляют арифмети-
ческие средние на указанных интер-
валах и рассчитывают процентные
отношения.
С помощью этого метода удается
частично освободиться от тренда и
сделать сопоставимыми отдельные
циклы, сравнивая процентные отно-
шения фактических значений к сред-
ним. В результате значительно об-
легчаются анализ циклов и особен-
но детальное сравнение фаз подъе-
ма и слада. Подробное описание
этого метода с сотней примеров
можно найти в хорошо известной
книге Бернса и Митчелла «Измере-
ние экономического цикла», опуб-
ликованной в 1946 г. НБЭИ.
Теперь в НБЭИ используется дру-
гой метод, позволяющий более кор-
ректно сглаживать циклы. Это ме-
тод построения трендовой линии
«среднего цикла» (рис. 15.14). Что-
бы найти эту трендовую кривую,
прежде всего фиксируют поворот-
пые точки временного ряда. Затем
находят средние арифметические
циклов и наносят горизонтальные
прямые, соответствующие им. Про-
водят вертикали к этим линиям в
точках, лежащих посередине между
нижними и верхними поворотными
точками, и затем соединяют точки
пересечения этих вертикалей со
средними линиями. Полученная ли-
ния и будет искомым трендом В
НБЭИ имеется вычислительная про-
грамма для этого метода.
Рис. 15.14 Построение тренда средних
циклов (данные взяты из М. Melnyk. Long
Fluctuations an Real Series I American
Economy, op. cit., p. 31):
/—средняя линия; 2 — исходные данные, 3— ли-
ния тренда; 4—средине точки
Основная цель метода — выде-
лить циклы так, чтобы длина каж-
дого цикла просматривалась визу-
ально. С помощью скользящей сред-
ней нельзя сделать это так хорошо.
Однако вычисление скользящих
средних не требует фиксации пово-
ротных точек и во многих случаях
дает результаты, не слишком отли-
чающиеся от результатов метода
среднего цикла.
15.4.	СЕЗОННЫЕ КОЛЕБАНИЯ
И ИНДЕКСЫ СЕЗОННОСТИ
Временной ряд с сезонными коле-
баниями можно представить сле-
дующей моделью;
У=Т+С+5 + Г.
Если ряд содержит сезонные коле-
бания, но не содержит циклические,
то модель имеет вид У=Г+5+/.
Графики таких рядов показаны на
рис. 15.2,г и д.
Сезонные колебания являются
выражением сезонных явлений, ко-
торые имеют место ежегодно неза-
висимо от фаз экономического цик-
ла и движения тренда. Как уже от-
мечалось, такие сезонные явления
связаны с погодой, праздниками,
обычаями. Они отражаются на про-
изводстве и продажах товаров и
услуг в том смысле, что производ-
ство и продажи во время «пиково-
го» сезона будут выше средних, а
во время «застойного» сезона—ни-
же средних. Средние равны либо
средним арифметическим по двенад-
цатнмесячной продукции или значе-
ниям трендовой линии, пересекаю-
щей сезонные циклы.
Анализ сезонных колебаний
в форме отклонений У от годовой
средней полезен лишь в случае,,
когда во временных рядах отсут-
ствуют явно выраженные цикличе-
ские колебания, а наблюдаются
только умеренные изменения
тренда.
Во всех других случаях следует
аппроксимировать данные трендом
и изучать отклонения сезонных ко-
лебаний У от тренда.
Анализ сезонных колебаний пред-
ставляет интерес и для фирм, и для
правительства, и для других инсти-
тутов по множеству причин. Каж-
дый год новогодние продажи во
многих отраслях экономики горазда
больше, чем, скажем, например,,
октябрьские. Сезонный рост, срав-
ниваемый с тем же периодом време-
ни в прошлом году, может быть и
больше, и равен, и меньше прошло-
го. Если сезонный рост в этом году
будет больше прошлогоднего, то
можно считать, что экономика всту-
пила в фазу подъема экономическо-
го цикла. Противоположное состоя-
ние имеет место, если сезонный рост
данного года меньше сезонного ро-
ста предыдущего.
Если показатель объема строи-
тельной деятельности падает с ок-
тября по декабрь, то это не обяза-
тельно означает спад в строительст-
ве. Спад наблюдается лишь в том
случае, если это падение будет боль-
ше, чем в предыдущем году.
Рост цен на определенные виды
сельскохозяйственной продукции
35Ъ
Таблица 15.9. Затраты на новые
здания, сооружения и оборудование
в 1966—1971 гг., млрд. долл.
Год	Квар- тал	X		I	2	3
1966	I	0	13,33			15,0
	II	I	16,05			15,8
	III	2	15.92	16,02	.99,38	15,9
	IV	3	18.22	16,24	112,19	16.6
1967	I	4	1436	16,36	88,39	16,3
	II	5	16.69	16.38	101.89	16,5
	III	6	16,20	16,45	98.48	16,2
	IV	7	18,12	16,55	109,49	16,5
1968	I	8	15,10	16,65	90,69	17,0
	II	9	16,85	16,83	100,12	16,6
	III	10	16,79	17,06	98,42	16,8
	IV	И	19,03	17.43	109,18	17,3
1969	I	12	16,04	17,98	89,21	18,0
	II	13	18,81	18,59	101,18	18,6
	(II	14	19,25	19,07	103,66	19,2
	IV	15	21,46	19,44	110,39	19,6
1970	I	16	17,47	19,76	88,41	19,7
	II	17	20,33	19,91	102,11	20,1
	III	18	20,26	19.96	101.50	20,2
	IV	19	21,66	20,02	108,19	19,7
1971	1	20	17,68	20,04	88,22	19,9
	(1	21	20,60	20,19	102,03	20,3
	III	22	20.И			20,1
	IV	23	23,04			21,0
Примечания: 1. Давдые взяты из Survey of
Current Business.
2. Столбцы: /—взвешенная 5Л1 , с etF. =0, 2,2,
•* <
2. I); 2—процвггмые отклонения от 6Afx/ —
— (К	3 — У. очищенный от сезонности
ул/3/.
весной необязательно означает ин-
фляцию. Если цены вырастут мень-
ше, чем в прошлом году, то можно
•сказать, что средний уровень цен
падает.
Существование сезонности в про-
дажах и производстве создает труд-
ности для управления. Новогодняя
торговля требует дополнительных
рабочих рук и больше денег для
поддержания запасов Периоды се-
зонных застоев порождают сверх-
безработицу. Поэтому очевидно, что
любая фирма будет стремиться
уменьшить амплитуду сезонных ко-
лебаний или по крайней мере знать
точно, что они собой представляют.
В связи со всем сказанным можно
•выделить две основные причины, по
которым проводят статистический
анализ сезонности. Одна — это необ-
ходимость элиминирования сезонных
•колебаний, чтобы в чистом виде рас-
52
смотреть циклические движения.
Операция исключения сезонности
называется «очищением временных
рядов от сезонных колебаний» или
«сезонным сглаживанием». Буквы
S4 (seasonelly adjusted) и ASX
(not seasonallyadjusted) использу-
ются во многих источниках для обо-
значения очищенных и неочищен-
ных от сезонных влияний рядов.
Другая причина анализа — это
желание фирмы изучить подробно
само явление сезонности. Для этого
вычисляют средние характеристики
сезонности для заданного ряда.
Один из наиболее простых (и во
многих случаях наиболее адекват-
ный) методов нахождения средних
характеристик сезонности и очище-
ния ряда от сезонности состоит
в вычислении индексов сезонности.
Рассмотрим метод на примере квар-
тального ряда расходов на новые
здания, сооружения и оборудование,
приведенного в табл. 15.9 и на
рис. 15.15. Вычисления проводят
в следующей последовательности.
1.	Поскольку данные квартальные,
то ряды имеют период сезонности
р=4. Предварительно из ряда
нужно исключить тренд. В идеальном
случае необходимо вычислить про-
стую скользящую 4ТИЛ,. Но поскольку
среднюю следует центрировать в
точках X, то применяют взвешен-
ную скользящую с весами tW-=
= (1, 2, 2. 2, 1). Эту скользящую
приводят в столбце 1 табл. 15.9
Если ряд представлен месячными
данными, то надо рассчитать tiMx,
Дета
Рис. 15.15. Расходы ла новые здания, со-
оружения и оборудование и взвешенные
скользящие средние (данные взяты из
табл. 15.9)
c ,>, = (!. 2, 2, 2, 2, 2, 2, 2. 2, 2,
2, 2, I). Однако поскольку в этом
случае число р велико, можно ис-
пользовать простую
2.	На следующем этапе выра-
жают исходные данные У, в виде
процентных отношений к jMx„ т. е.
вычисляют (Yx/tMx,)-100. Результаты
представлены в столбце 2 табл. 15.9.
3.	Далее процентные отношения
из столбца 2 классифицируют по
кварталам (или месяцам, если дан
ряд месячных данных) и по годам
(табл. 15.10). Для каждого кварта-
ла (или месяца) вычисляют сред-
ние. В нашем примере арифметиче-
ское среднее для первого квартала
равно 89%. Это означает, что расхо-
ды на новые здания, сооружения и
оборудование в США в первом
квартале составляли в среднем 89%
скользящей средней, или были на
11% меньше ее. В четвертом квар-
тале расходы составляли в среднем
110% скользящей, т. е были выше
ее на 10%.
Таблица 15.10. Вычисление индекса
сезонности
Год	1	II	Ш	IV
1966			99,38	112,19
1967	88,39	101,89	94,48	109,49
1968	90,69	100,12	98,42	109,18
1969	89,21	101,18	103,60	110,39
1970	88,41	I02J1	101,5	108,19
1971	88,22	102,03		
	444,92	507,33	501,44	549,44
Примечания: I. Данные взяты нз табл. 16.9.
2. Средние арифметические. 88,9?И 101.106 100,268
10X888, сумма средних; 400.62т;
вддекс сеэсиности; 83.9 101,3 100,1 I09J.
3. Чтобы получить индекс се юнжктн, арифмети-
ческие средние умножают на А — 0,99844. где Л =
=<00/400.626.
Средние арифметические в нашем
случае получали осреднением пяти
чисел, соответствующих 5 годам.
Если сезонные колебания не одно-
родны от года к году, то, чтобы вы-
числить индексы сезонности, надо
иметь более длинные ряды. Для
6 лет и более следует внимательно
23 -232
изучить таблицу и вычеркнуть наи-
большее и наименьшее значения по
всем кварталам (или месяцам). Как
известно, среднее, вычисленное та-
ким образом, называется преобразо-
ванным средним.
4.	Наконец, вычисляют преобра-
зованные средние. Для совместности
сумма этих средних должна быть
равна 400 (в случае месячных дан-
ных она должна равняться 1200).
Сумма средних равна 400,626
(табл. 15.10). Следовательно, каж-
дую среднюю надо умножить на не-
которое значение. Множитель дол-
жен удовлетворять условию 400,626
А=400, откуда 6=0,99844. Умножив
все средние на k и округлив, полу-
чим индексы сезонности
S/1=88,9, $/ц=101,3, S/in= 100,1,
S/iv=109,7, a 2S/,=400
Согласно этому индексу затраты
на здания, сооружения и оборудо-
вание в США в I квартале в сред-
нем на 11,1% ниже значений трен-
довой линии. Для II квартала они
на 1,3% в среднем выше трендовых
значений.
Очистить ряды от сезонных коле-
баний означает получить кривую,
похожую на кривую скользящей
средней. Ряды делятся на индексы
сезонности. Результаты приведены
в столбце 3 табл. 15.9. Итак, очи-
щенное значение Уо=13,33/0,899=
=15, У1=16,05/1,013=15,8 и т. п.
Очищенные ряды надо сравнить со
значениями скользящих средних.
Действительно, если сезонные явле-
ния одинаковы в каждому году, то
не будет разницы между скользя-
щими средними и очищенными зна-
чениями.
Графическое сравнение двух таких
рядов—а именно, значений из
столбцов 1 и 3 табл. 15.9 — можно
увидеть на рис. 15.16. Из рисунка
видно, что оба ряда очень близки
друг к другу, а имеющиеся отклоне-
ния невелики. Это отражает тот
такт, что сезонные влияния не изме-
няются от года к году. Во многих
рядах, однако, явления сезонности
не носят регулярный характер
В этих случаях разница между очи-
353
шенпыми значениями и скользящей
средней резко выражена Таким
образом, представляется естествен-
ным использовать для очищения от
сезонности скользящие средние.
Однако мы знаем, что при вычис-
лении скользящих мы теряем неко-
торые значения. Поэтому иногда
приходится очищать с помощью
индексов сезонности.
Рис. 15.16. Очищенный от сезонности ряа
расходов на новые здания, сооружения и
оборудование я взвсшсгатая скользящая
средняя пятого порядка (данные взяты из
табл. 15.9)
Циклические колебания анализи-
ровать гораздо легче, если предва-
рительно исключить из ряда сезон-
ные колебания. Это ясно видно,
если сравнить рис. 15.15 и 15.16 Во
многих случаях ряды, очищенные от
сезонности, представляют больше
интереса, чем исходные. Лучшими
примерами этого являются показа-
тели цен, безработицы, промышлен-
ного производства. Рассматривая
ряд безработицы, любой человек
скажет, что этот показатель являет-
ся индикатором состояния экономи-
ки в целом. Другими словами, лю-
дей не интересуют скачки, связан-
ные с сезонностью, а представляют
интерес лишь процессы, • присущие
экономическому циклу. Эти процес-
сы нагляднее представляются с по-
мощью очищенных рядов, чем
исходных.
Когда в газетах пишут, что цены
в последний месяц выросли, то
важно знать, соответствует ли этот
рост ряду, очищенному от сезонно-
сти, или нет. Если рост цен будет
больше, чем это показывает индекс
сезонности, то мы имеем дело с ин-
фляцией. Если цены относительно
этого индекса вырастут меньше, то
можно сказать, что общий уровень
354
цен снижается. Аналогичные выво-
ды справедливы и относительно
индекса промышленного производ-
ства и других показателей.
Ряды, очищенные -от сезонности,
применяют при прогнозировании.
Последнее значение ряда также
должно быть свободным от сезон-
ных воздействий. Предположим, что
временной ряд из табл. 15.9 теперь
будет представлять продажи неко-
торой фирмы; последнее значение
ряда (это значение соответствует
четвертому кварталу 1971 г.) рав-
но 23,04. Очищенный от сезонности,
этот член примет значение 21. Он
на 4,5% больше, чем в предыдущем
квартале 20,1. Однако экономист
приходит к выводу, что это возра-
стание случайно, потому что в пре-
дыдущих двух кварталах наблюда-
лось падение продаж на 2 и 3% со-
ответственно.
Пусть данный прогноз делают
для очищенного ряда продаж; та-
ким образом, прогноз на I и II квар-
талы составит 21 -0,98—20,6 и 20,6X
X 0,97=20. Конечно, это прогноз
тренда, а не действительных про-
даж. Чтобы сделать его прогнозом
фактических продаж, надо умно-
жить оба значения на индексы се-
зонности. Получим 20,6-0,899=18,3
и 20-1,013=20,3.
Если известно, что сезонность не-
прерывно меняется, то индексы се-
зонности надо часто перевычислять.
Иногда это делают каждый год.
Существует также проблема и нере-
гулярных колебаний; если они зна-
чительны, то их также следует сгла-
дить. Наконец при необходимости
используют скользящие средние со
сложными весами.
15.5. КОРРЕЛЯЦИОННЫЙ
И РЕГРЕССИОННЫЙ АНАЛИЗ
ВРЕМЕННЫХ РЯДОВ
Временные ряды сравнивают
с помощью регрессионного и корре-
ляционного анализа по трем сооб-
ражениям:
1. Чтобы вскрыть причинную
связь. Наиболее общая и широко
известная связь существует между
выпуском и инвестициями. Так как
инвестиции являются фактором,
обусловливающим изменение вы-
пуска, то для каждого экономиста
важно знать как можно более точ-
но, какие изменения выпуска дейст-
вительно связаны с изменениями
инвестиций.
Другой пример — связь между из-
менениями выпуска и денежной
массой. Поскольку колебания коли-
чества денег не объясняют пол-
ностью изменения выпуска, то
в рассмотрение берутся проценты и
скорость оборота денежной массы.
Вносят ли они что-нибудь в объяс-
нение динамики выпуска? Необхо-
димость введения дополнительных
факторов требует применения мно-
жественного корреляционного ана-
лиза. Экономические журналы и
книги заполнены примерами регрес-
сионного анализа, целью которого
является установление причинной
связи.
. 2. Другая причина применения
корреляционного анализа — необхо-
димость в механическом сравнении
колебаний различного вида во вре-
менных рядах. Обычно такие срав-
нения производят с учетом сезонных
колебаний и экономического цикла.
При этом сравнивают либо сами
временные ряды, либо сезонные
компоненты ряда с теоретическими,
полученными по математическим
формулам.
Рассмотрим производство автомо-
билей. Оно подчинено циклическим
колебаниям. После определенного
числа лет службы в автомобиле за-
меняют покрышки сидений, глуши-
тели, аккумуляторы и другие части.
Если производство машин подчиня-
ется циклическим колебаниям, то
циклические флуктуации будет
испытывать и производство запас-
ных частей. Однако пики в первом
будут предшествовать пикам во вто-
ром. Следовательно, временной ряд
производства автомашин будет ли-
дирующим по отношению к ряду
производства запчастей.
Для производителя некоторых
«3*
запчастей важно измерить период
опережения или запаздывания
с большой точностью. Если он знает
время пика в производстве автомо-
билей, то ему легче будет сплани-
ровать и спрогнозировать движение
собственной продукции. Период
опережения измеряют с помощью
корреляционного анализа. Если два
временных ряда сдвинуты относи-
тельно друг друга, то сначала X,
сравнивают с Х|, затем Xi с Х2, Xi
с Х3 и т. д. Значение г находится
для каждого момента. Наибольшее
г при сравнении Xi с Хц-ь даст зна-
чение k, которое называем перио-
дом опережения (или запаздыва-
ния).
Другой пример применения кор-
реляционного анализа для сравне-
ния колебаний — проверка качества
методов прогнозирования. Некото-
рые методы прогнозирования (на-
пример, экспоненциальное сглажи-
вание) требуют определения опти-
мальных весов, коэффициентов или
параметров. Прогнозные ряды срав-
нивают с историческими в каждый
момент времени. Чтобы найти опти-
мальный коэффициент (вес или па-
раметр) k, в формулу подставляют
несколько значений k и делают про-
гнозы. Коэффициент корреляции
вычисляют для каждого значения
k, и берется то, которое соответст-
вует наибольшему г. Аналогичный
метод применяют при отборе двух
и более методов прогнозирования.
3. Наконец, еще один вклад, ко-
торый делает корреляционный ана-
лиз временных рядов в прогнозиро-
вание. Предположим, что из регрес-
сионного анализа получили, что
ВНП=У является функцией Xi —
чистых капиталовложений, Х2— де-
нежной массы, Х3 — процента. Для
нахождения значения ВНП на 6 мес.
вперед экономист сначала спрогно-
зирует значения Хц Х2, Хз, а затем
подставит их в регрессионное урав-
нение. Используя некоторый уро-
вень значимости, он вычислит гра-
ницы прогноза.
Между корреляционным и регрес-
сионным анализом временных рядов
355
и каких-либо других данных нет ни-
какой разницы. Однако один мо-
мент, касающийся интерпретации
результатов, надо всегда иметь
в виду. Очень часто исследователи,
особенно при анализе временных
рядов, используют г в абсолютном
смысле, полагая, что если г в двух
задачах одинаковы, то корреляция
тоже одинакова. Однако известно,
что в общем случае это не верно
(см. гл. 13). Эта проблема приобре-
тает особенное значение в анализе
временных рядов, поскольку коэф-
фициенты корреляции здесь обыч-
но высоки из-за наличия трендов.
Этот момент можно объяснить
так. Пусть временные ряды без
тренда содержат два или три иден-
тичных цикла, аналогичных пока-
занным на рис. 15.11. Если эти ряды
коррелированы с другими, то г=1.
Если ряд перевернуть (т. е. просто'
изменить знак на противоположный
у данных, по которым был построен
один из циклов), то коэффициент
корреляции будет г=—1. Пусть
теперь мы имеем прямую, аппрок-
симирующую квартальные данные
ВНП для послевоенного периода,
а колебания вокруг этой прямой пе-
ревернуты указанным выше обра-
зом. У нас есть два ряда: один
исходный, а другой с перевернуты-
ми циклическими колебаниями.
Если из обоих рядов исключить
тренд и вычислить коэффициент
корреляции для остатков, то, как и
ожидали, получим г=—1. Однако
коэффициент корреляции для двух
рядов, из которых не был исключен
тренд, положителен и высок. Он ра-
вен 0,935. Причина этого заключа-
ется в том, что он отражает доми-
нирующую связь, а именно связь
между трендами. Лишь в неболь-
шой степени он описывает обрат-
ную корреляцию, связанную с не-
большими по амплитуде цикличе-
скими колебаниями
Еще один пример представляет
интерес для читателя. Индекс про-
мышленного производства мы кор-
релировали с отношением задол-
женности по потребительскому кре-
356
диту к располагаемому доходу
(рис. 15.17). Коэффициент корреля-
ции был г=0,87, стандартная ошиб-
ка уравнения составляла $ух=1,31.
Из обоих рядов затем вычитали
тренды и изучали корреляцию полу-
ченных разностей. Диаграмма рас-
сеяния этих данных показана на
рис. 15.17 и 15.18. Коэффициент
корреляции стал г=0,44, зато стан-
дартная ошибка упала до эуж=0,67.
Следует заметить, что исключение
тренда, конечно, не всегда умень-
шает г.
Итак, повторим. Коэффициент
корреляции всегда можно использо-
вать для сравнений, т. е. при опре-
titrfexc промышленного
лроизЗойстйя (T9&7frtf№)
Рис. 15.17. Диаграмма рассеяния для ря-
дов отношения суммы предоставленного по-
требительского кредита к располагаемому
доходу» отнесенного к индексу промыш-
ленного производства (данные взяты чз-
табл. 15.2 и 15.5)
Индекс промышленного произЗоОо^За
Рис. 15-18 Диаграмма рассеяния для ря-
дов разностей между исходными и трендо-
выми значениями отношения суммы предо-
ставленного потребительского кредита
к располагаемому доходу, отнесенных
к индексу промышленного производства
(разности для отношений взяты из табл.
15.5; разности для ИПП здесь не приве-
дены)
делении длины шага запаздывания
или проверке, какой из методов
прогнозирования лучше. Однако
высокий ко )ффициент корреляции
не обязательно доказывает, что су-
ществует связь между циклически-
ми колебаниями двух временных
рядов. Высокий коэффициент кор-
реляции, полученный при сравнении
прогноза с истинными данными,
также не обязательно означает со-
вершенство метода прогноза.
Прямолинейный тренд можно
исключить также с помощью мно-
жественной регрессии. При этом
в уравнение регрессии следует вве-
сти независимую (объясняющую)
переменную вида Х=1, 2, N,
представляющую время Этот метод
применяли к ряду отношений из
табл. 15.51 и ряду индексов про-
мышленного производства из
табл. 15.2. Первый из них был взят
за зависимую (объясняемую) пере-
менную, второй и время X — за
объясняющие переменные. Как уже
говорилось, коэффициент корреля-
ции между рядом отношений и
ИПП был г=0,87, а стандартная
ошибка 5ц,х=1,31. После включения
в регрессию времени Х=1, 2, ..., Л’
коэффициент множественной корре-
ляции стал /?=0,91, а стандартная
ошибка уменьшилась до sy.i2=l,08.
При использовании регрессии по
этим данным для прогноза
(рис. 15.17) кривая второго поряд-
ка — парабола дала еще меньшую
стандартную ошибку. Если для ли-
нейной регрессии мы имели syx—
=1,31, то для параболы получили
$^‘=0,64.
15.6. МЕТОДЫ ПРОГНОЗИРОВАНИЯ
Конъюнктурный и экономический
прогнозы бывают краткосрочные,
среднесрочные и долгосрочные.
Краткосрочные обычно охватывают
период до 1 года, среднесрочные от
1 до 5 лет, а долгосрочные — свыше
5 лет.
1 Имеется в виду отношение суммы
предоставленного потребительского креди-
та к располагаемому доходу. — Прим. ред.
В современном мире люди пы-
таются предсказать все то, что для
них важно и более или менее пред-
сказуемо. Прогноз в экономике ва-'
жен из-за возможного использова-
ния его для эффекта стабилизации.
Разумные’ прогнозы побуждают лю-
дей действовать более рационально
и предупреждают их сверхреакцию.
«Сверхреакция», в прошлом порож-
даемая излишним пессимизмом или
оптимизмом, вела к усилению коле-
баний в занятости и доходах. Когда
начинался спад, люди, боясь худ-
шего, резко уменьшали запасы и
капиталовложения, что еще больше
обостряло положение. «Сверхреак-
ция» в сторону оптимизма означала
излишние капиталовложения и рас-
ширения экономики и делала еще
более болезненным последующий
спад. Такие резкие колебания слиш-
ком дорого обходились экономике,
являясь иногда причиной массовых
банкротств, недоиспользования ре-
сурсов и снижая, таким образом,
темпы роста. Эти явления были еще
более болезненны для многих людей.
Хороший прогноз в промышлен-
ной фирме экономит средства на со-
держание излишнего количества за-
пасов, обеспечивает принятие более
рациональных решений относитель-
но производимого ассортимента и
помогает выбрать политику разви-
тия фирмы. Одна из важнейших
проблем фирмы — получение крат-
косрочного прогноза спроса, кото-
рый определяет необходимый уро-
вень запасов. Отсутствие прогноза
заставляет фирму предпринимать
излишние меры предосторожности,
делать большие запасы. Конечно, и
сокращение запасов может оказать-
ся убыточным и привести к поте-
рям. Итак, сделаем короткое резю-
ме: краткосрочный прогноз исполь-
зуется для определения текущего
состояния экономики и спроса на
интересующие фирму виды товаров.
Эконометрические методы. Не-
сколько лет назад экономические
прогнозы касались только оценок
валового продукта. Сейчас делают-
ся предсказания не только нацио-
357
налыюго продукта, но и выпуска
различных секторов экономики и
отдельных предприятий. При этом
применяются эконометрические ме-
тоды. В частности, национальный
продукт представляют в виде функ-
ции многочисленных переменных,
которые связаны уравнением или
системой уравнений. Пусть в тече-
ние некоторого периода времени
произошли изменения. Например,
возросли капиталовложения, спрос
на товары и услуги, денежная мас-
са, стабилизировался банковский
процент, снизился темп роста заня-
тости. К чему это приведет через
несколько месяцев? Необходимые
данные подставляются в соответст-
вующее уравнение для получения
прогноза. Некоторые из этих про-
гнозов настолько надежны, что под-
писка на их публикации стоит весь-
ма дорого. Большая пионерная ра-
бота в этом направлении была про-
делана Я. Тинбергеном и Л. Клей-
ном
Опережающие и запаздывающие
временные ряды. Прогноз нацио-
нального продукта и некоторых его
компонентов можно сделать с по-
мощью анализа опережающих ря-
дов. Вероятно, наибольший вклад
в это направление внесли исследо-
ватели из НБЭИ. Много (хороших
опережающих и других рядов пуб-
ликуется в ежемесячнике Министер-
ства торговли, называемом «Анализ
экономического положения». Он со-
держит и графики, и временные
ряды; подписчикам высылаются
приложения с дополнительными
данными, чтобы сделать информа-
цию как можно более доступной.
Интересной особенностью журна-
ла является публикация так назы-
ваемых индексов диффузии. Они
классифицируются по индексам
опережающих и индексам совпа-
дающих рядов. Индекс диффузии
рассчитывают для следующих опе-
режающих рядов: средняя рабочая
неделя в обрабатывающей промыш-
1 Оба лауреаты Нобелевской премии.—
При », ред.
358
ленности, новые заказы на товары
длительного пользования, утверж-
денные увеличения капиталов ком-
паний, прибыли, оптовые цены, це-
ны на промышленное сырье, первые
заявки на выплату страхования по
безработице.
Индексы диффузии выражаются
в процентах числа растущих рядов
по отношению к общему числу охва-
тываемых индексом рядов. Если
индекс составлен для 30 рядов, 24
из которых растут, то индекс диф-
фузии будет DI=24/30=80%. Если
только 6 рядов будут растущими, то
DI=6/30=20%.
В журнале публикуются прогнозы
множества рядов. Прогнозы дела-
ются обычно на 6 мес вперед. По-
дробности по этому вопросу вы най-
дете в публикациях НБЭИ. Наибо-
лее важные из них: Мур. «Индика-
торы экономических циклов», 1961;
Мур и Шишкин. «Индикаторы
подъемов и спадов», 1967'.
Выборочные обзоры. Выборочные
обзоры делаются для установления
уровня спроса потребителя. Этот
спрос представляет интерес как для
экономиста, так и для производи-
теля. Экономист знает, что если на-
мерение покупать (склонность к по-
треблению) невелико, то увеличение
новых капиталовложений дает ма-
лый прирост дохода и в экономике
не будет наблюдаться подъема, и
наоборот. Следовательно, только
большой подъем спроса указывает
на подъем экономики.
Сотрудники отдела, ответственно-
го за сбыт в фирме, также интере-
суются мнением покупателей отно-
сительно товаров фирмы. Такая
информация особенно необходима,
когда принимается решение о за-
пуске в производство нового про-
дукта. Часто имеется возможность
либо с помощью рекламы довести
до потребителя адекватное описание
продукта, либо выбросить на рынок
небольшую партию его. Реакция
1 Moore Geoffrey Н. Business Cycle
Indicators (1961); Moore Geoffrey H-,
Shishkin Julius. Indicators of Business Ex-
pansions and Contractions (1967).
потребителей помогает решить, на-
до ли вкладывать деньги в массо-
вое производство.
На первый взгляд кажется, что
изучение намерений потребителей
является абсолютно надежным ме-
тодом прогноза. Но иногда оказы-
вается, что это не так. Люди, кото-
рые изучают прогнозные качества
таких обзоров, установили, что не
всегда результаты удовлетворитель-
ны. Вместе с тем метод обзоров
применяется довольно широко. Бо-
лее подробно с этим методом мож-
но познакомиться из книг Катона
«Всесильный потребитель» (1964),
Джастера «Ожидание и покупки:
анализ повеления потребителей»
(1964) ’. Последняя работа легла
в основу организации ежекварталь-
ного издания «Перспективы потре-
бительского спроса» (Consumer
Buying Prospects). Прогнозы, при-
водимые в этом журнале, основыва-
ются на результатах опроса
15000 семей, проводимого каждые
три месяца. Опрос проводит Стати-
стическое управление Министерства
торговли США Прогнозы делаются
на три квартала вперед. Они каса-
ются автомобилей и запасных ча-
стей к ним, бытовых приборов, ме-
бели и односемейных домов.
Экспоненциальное сглаживание н
экстраполяция по прямой. Методы
прогноза, описываемые выше, тре-
буют больших затрат времени и де-
нег. Бизнесмен или какая-либо про-
мышленная фирма нуждаются
в механических методах, которые не
требуют сложных умозаключений
и могут быть запрограммированы
на вычислительной машине. Номен-
клатура товарных запасов фирмы
иногда насчитывает тысячи наиме-
нований. Количество каждого това-
ра изменяется во времени, вследст-
вие чего можно анализировать
соответствующий ему временной
ряд. Однако такой анализ слишком
трудоемок. Таким образом, следует
1 Katona George. The Powerful Consu-
mer (1964); Justar Thomas F. Anticipations
and Purchases: An Analysis of Consumer
Behaviour (1964),
найти .методы механического про-
гнозирования, не требующие де-
тального индивидуального анализа.
Одним из широко используемых ме-
тодов такого рода является метод
экспоненциального сглаживания.
Методы экспоненциального сгла-
живания можно разделить на не-
сколько видов, описываемых разны-
ми математическими моделями-
наиболее полезный — прямая ли
ния. Он часто эффективен и npi
прогнозе временных рядов с цикли
ческими колебаниями, но без сезон
ности и сильных случайных колеба
ннй. Экспоненциальное сглажива
ние по прямолинейной модели назы-
вается двойным экспоненциальным
сглаживанием.
В основе метода экспоненциаль-
ного сглаживания лежит скользя-
щая средняя. Для иллюстрации
метода рассмотрим ряд отношений
из табл. 15.5. Вычислим значение
скользящей средней tMx,t центри-
руемое на пятом значении ряда.
Имеем
= (7,5+$.2 -|- 9,6 +10,4 +
4-10,4)/5^ 46,1/5 = 9,22.
Следующее значение будет	;
= (7,5 4-8,2 4 9,6 + 10,4+
4- 10,4 - 7,54-12,4)/5 = 9.224-
+ (12,4-7,5)/5= 10,2.
Для вычисления скользящей сред-
ней р=20 мы должны хранить в па-
мяти машины 20 значений. Следо-
вательно, РМХ аппроксимируется
sA?x. Используя введенные символы,
перепишем выражение для sM5
в виде
Л = Л + (Г.-Г.);5.
Для получения 5Л?5 заменим Ко
на 5М4:
Л = М + О'» “	— 9.22 +
+ (12,4-9,22)/5 = 9.86.
Это значение ненамного отлича-
ется от значения 5М5, но зато в па-
мяти теперь должно храниться все-
го два числа: предыдущее значение
pMx-i и последнее значение ря-
да Yx.
359
Последнюю формулу можно пере-
писать в виде
Л = 5 (,м.)15 + (Г, - ,Л4,)/5=
- Н (Л>+УJ/5=(1Ж+4/5.Л1.
или в общей форме
A=(Wx + (I -_1/р)рМх->-
Заменив 5Х(У) на РМХ и приняв
а=1/р, а р=1—1/р,	получим
5х(У)=аУх+р5ж_1 (У). Это и будет
формулой экспоненциального сгла-
живания с постоянным параметром.
Заметим, что а связано с р в рМх.
В основе формулы двойного экспо-
ненциального сглаживания по пря-
мой лежат эти же соображения.
Формулу можно переписать в виде
S'" = (2 + «да s, - (1 + «МЛ
Таблица 15.11. Двойное экспоненциальное
и прогноза для ряда затрат на новзе
где
S'x=aSx Ц- £S'X _ t
и
Значение т равно числу периодов,
на которые делается прогноз. Ре-
зультаты вычислений по этой моде-
ли наряду с несколькими прогноза-
ми приведены в табл. 15.11. Прогноз
зы в табл. 15.11,6 делятся на Ух,
чтобы показать, насколько прогноз-
ные значения отличаются от исто-
рических Ух. Если эти процентные
отношения в среднем меньше, чем
отношения, полученные по какому-
либо другому методу, то для про-
гнозирования следует воспользо-
ваться методом экспоненциального
сглаживания.
сглаживание (модель вычисления
строительство и оборудование; а— 0,25, т = 2)
Л Лг		— аУх + ₽5д. _ t *'ж	S'* 5'x 	S"x+S = (2	S'	) Sjf“( \+ 2	+т)	^'x
0	у.	„ s»=y*	s%-=y0					
I	У|	— a^i +	S't =	4-’jS'Q		2a \		/	2a\	
2		Sj =	-j- (jSj	— aSj + jS'j	S"a = ^2 +	Т/	•So	|	Ы	
3	г.			S",= ^2 +			/ 2a У	
	- 3				s J	I	V+t,	Is'1
4	У«			„ /	2« x		(	2°^	
				S'\=k2 +	3 J	1 |	(1+ъ	ls'«
б)
X		Sx	s'x	'x+2	
0	13,33	13,33	13,33		-
1	16,05	14,01	13,5		
2	15,92	14.49	13,75	13,33	
3	- 18,22	15,42	14,17	14,86	0,82
4	14,46	15,18	14,42	15,72	1,09
5	16,69	15,56	14-7	17,5	1.05
6	16,2	15,72	14.96	16,45	1,01
7	18,12			16.45	0,94
8	15,10			16,99	1.12
Примечание. Значения У* взяты к> табл. 15-9.
’ 360
Мы уже говорили, что а связано
с порядком р скользящей средней.
Можно показать, что «=2/(р-|-1)
при р=1 для а=0,25. Это значение
а используется в табл. 15.11. Оно не
является оптимальным (в том смыс-
ле, что лает лучший прогноз).Фор-
мулы для определения такого опти-
мума нет. Следовательно, а подби-
рают с помощью метода проб и
ошибок.
Более подробное изложение мето-
дов экспоненциального сглажива-
ния можно найти в книге Брауна
«Сглаживание, прогноз и предска-
зания дискретных временных ря-
дов»1.
Автором настоящей книги был
предложен другой метод прогноза,
аналогичный только что изложен-
ному2. Этот метод состоит в под-
гонке прямой к У©, Уь У2 и У3 мето-
дом наименьших квадратов. Обо-
значим прогнозное значение У'х.
Для получения его подставим Х=5
в это уравнение прямой. Теперь
предположим, что имеем значенйе
У4 и хотим спрогнозировать У'з.'
Снова найдем прямую, аппрокси-
мирующую значения У|, У2, Уз, Уч,
и подставим А'—5 в полученное
уравнение.
Прогнозы по этой модели сравни-
мы с прогнозами, полученными по
методу двойного экспоненциального
сглаживания, поскольку последняя
модель также описывается прямой.
Однако этот метод имеет некоторые
преимущества, поскольку можно
наложить ограничение на параметр
Ь из уравнения Ух=й-г&Х. Эти
ограничения обеспечивают возмож-
ность дополнительного улучшения
прогноза, которые оказываются
иногда лучше прогноза по двойно-
му экспоненциальному сглажива-
нию. Можно накладывать на b еще
более тонкие ограничения, что ведет
к дальнейшему улучшению прогно-
1 Brown Robert Godeli. Smoothing, Fo-
recasting and Prediction of Discrete Time
Series. — Прим. ped.
2 Melnyk M. Experiments in Forecasting
with a Straight-Line, 1972» Proceedings of
прямой линией с помощью метода наи-
меньших квадратов.
за. Число точек, к которым, следо-
вательно, подгоняется прямая, так-
же выбирается методом проб и
ошибок.
15.7.	ВОПРОСЫ И ЗАДАЧИ
Временные ряды» приведенные ниже»
дополняют временные ряды, приведенные
в тексте главы. Они должны сравнивать-
ся не только друг с другом, но и с ука-
занными в тексте.
Оценка душевого производственного
потребления шерсти, хлопка»
искусственного шелка и ацетата
и других искусственных волокон
(потребление делится на численность
населения континентальной территории,
США, фунт)
Год	Шерсть •	Хлсоок	АцегятньА и иску ест- пенный гпеля	Прочие искусст- волокна
1950	4.18	30,87	8,9	0,93
1951	3,14	31,55	8,26	1.27
1952	2,97	28,48	7,74	1,59
1953	3.1	27,92	7.66	1.75
1954	2,36	25,41	7.11	2,02
1955	2.5	26,51	8.58	2,61
1956	2,62	25,94	7,13	2.88
1957	2,15	23,7	6,87 '	3,31
1958	1.9	22,21	6.47	3.3
1959	2 46	24,47	7,07	4,19
I960	2.27	23, (9	5,84	4,22
1961	2,2-1	22,21	6,14	4,69
1962	2.3	22.43	6,77	5.76
1963	2,17	21.33	7,6	6.67
1964	1,86	22,09	7.89	8,11
1965	1.99	23,01	7.97	10,05
1966	1,88	23,52	8,08	11,62
1967	1.57	22,21	7,53	13,06
1968	1.64	20,61	8,39	17,09
1969	1,54	19,32	7,95	18,51
15.1.	Изобразите на графике все четыре
ряда. Чтобы уместить на том же графике
ряд для хлопка, используйте справа до-
полнительную вертикальную шкалу с раз-
рывом. Если кривые пересекаются, приме-
ните различные линии для их изображения
(пунктирную или из точек).
а.	Глядя на график» скажите» какие
ряды растут и какие убывают с постоян-
ной возрастающей и убывающей годичной
скоростью.
6.	Попытайтесь для каждого ряда по-
добрать подходящую модель из серии мо-
делей» приведенных в табл, 15.L Если не-
обходимо, используйте комбинацию двух
моделей.
15.2.	Аппроксимируйте ряд для шерсти
прямой линией с помощью метода наи-
меньших квадратов.
361
а.	Объясните смысл коэффициента Ь,
б.	Найдите среднее значение прироста
относительно первого н последнего членов
ряда по формуле (Ух—У0)/(^— 1) и к
сравните со значением Ь. Можно ли для
оценки средней скорости использовать
этот метод?
в,	Нгйдите значение на прямой, cooi-
ьетствуюшее 1974 г. Можно ли его при-
нять в качестве прогноза?
15.3.	Найдите среднюю скорость изме-
нений относительно первого и последнего
членов ряда для искусственного и ацетат-
ного шелка. Имеет ли смысл так вычис-
лять среднюю скорость изменений?
' 15.4. С помощью метода наименьших
квадратов аппроксимируйте ряд для аце-
татного н искусственного шелка параболой
« найдите ее значение для 1974 г. Будет
чли это значение близко к действитель-
ному?
15.5.	Найдите среднюю скорость изме-
нений ряда для ацетатного и искусствен-
ного шелка на периодах 1958—1966 гг. и
1959—1967 гг. Отметим, что оба периода
отстоят друг от друга всего на год. Что
говорят результаты о применимости мето-
да «средней скорости изменений»?
15.6.	Изобразите все четыре ряда на
полулогарифмическом графике.
а.	Какой из рядов лучше всего опи-
сывается прямой в логарифмах,
б.	Опишите рост рядов с помощью мо-
делей нз табл. 15.1, используя формулы
роста в процентах.
15.7.	Аппроксимируйте ряд для хлопка
с помощью модели сУх,=й6л\ используя
формулу lgcyx=lgG4-(lgb)X ИЛИ сУ'х^
±=a'-f-b X.
а.	ИЕггерпретируйте Ъ и г—Ь—1.
б.	Изобразите еУх с помощью полулога-
рифмической и арифметической шкал. Сде-
лайте замечание относительно пригодности
Функции.
в.	Вычислите средний темп изменения
в ряде для хлопка из формулы УХ=УО5Х.
Как его сравнить с г^Ь—1, полученным
в задаче 15.7,а?
15.8.	Аппроксимируйте кривой еУх=
ряд для прочих искусственных во-
локон с помощью lgcy«—Iga+(lgft)X
или сУ/х=а'+УХ.
а.	Найдите сУх—з<. Будет ли это зна-
чение хорошим прогнозом?
б.	Интерпретируйте b и г=Ь—1.
в.	Вычислите средний теми изменений
ряда для прочих искусственных волокон нз
формулы Ух—УоЬх.
15.9.	Банк насчитывает поквартально
5% годовых на сумму 500 долл., положен-
ную в январе J962 г. Сколько денег будет
на счету спустя 10 лет? Индекс потреби-
тельских цен в 1962 г. был 90.6» а в
1972 г—125,3. Какова будет реальная стои-
мость вашего вклада спустя 10 лет, если
веса в индексе правильно отражают струк-
туру ваших затрат?
15.10.	Найдите поворотные точки в ря-
де для хлопка н сравните их с опорными
362
Поворотными точками экономического цик-
ла, приводимыми в главе Будут ли эти
специфические точки опережающими, за-
паздывающими или совпадающими?
15.11.	Сравните амплитуды циклических
колебаний в рядах для хлопка и для ис-
кусственного шелка. Сначала сравните чх
по арифметической шкале, а затем по от-
носительной.
15.12.	Нам нужно сравнить циклические
колебания индекса промышленного произ-
водства (ИПП) н ряда для хлопка.
а Аппроксимируйте ряд ИПП подхо-
дящей скользящей средней.
б Аппроксимируйте ряд для хлопка
скользящей средней.
в.	Вычислите YXIPMX, для обоих рядов
м изобразите отношения на графике.
г.	Как сравнить оба ряда по их пово-
ротным точкам?
д.	Как сравнить оба ряда по амплиту-
дам циклических колебаний?
е.	Как сравнить динамику обоих рядов?
15.13.	Ниже приведены значения квар-
тальных выручек (в тыс. долл.) авиаком-
пании, специализирующейся на зарубеж-
ных рейсах.
1966 Ill	1037	1969	I	555	1972 1 771
VI	495		11	875	
1967 1 11	468 866		III IV	1382 595	
111	1327	1970	1	622	
jv	•546		II	1035	
1968 1 II	508 753		HI IV	1629 687	
III	1239	1971	I	693	
IV	530		11	1138	
			III	1690	
			IV	773	
а.	Изобразите данные на графике.
б.	Вычислите взвешенную РЛ1*, для р=;
=5 и Wj^(L 2, 2, 2» 1).
в.	Вычислите отношение Ух/sAk,.
г.	Найдите среднее арифметическое от-
ношений из задачи 15.13,в для каждого
квартала. Нужно ли в данном случае вы-
числять преобразованное среднее?
д.	Если необходимо, измените среднее
в задаче 15.13 так, чтобы получить индекс
сезонности.
е.	Изобразите полученный индекс сезон-
ности на одном графике с индексом се-
зонности из табл. 15.10 и сравните их. Что
означает S/n?
ж. Очистите ряд выручки от сезонных
колебаний и нарисуйте полученный ряд на
том же графике, где вы изобразили ис-
ходные данные (см. задачу 15.13,а).
з.	Изобразите на шкале отношений ряд
ИПП на периоде 1966—1971 гг. и очищен-
ный от сезонности ряд выручки. Сравните
их темпы роста и динамику.
и.	Доход авиакомпании увеличивается
с первого по второй кварталы в 1967 я
1968 гг. Однако доход во втором квартале
1968 Г. быЛ Мен),ine, чем во втором квар-
тале 1967 г. Что это означает?
15.14.	Индекс производства автомоби-
лей (одна нз компонент ИПП; 1957—
1959 гг.=100) характеризуется следующими
данными:
Месяц	1368	i960	1970
Январь	179,5	187.7	146,2
Февраль	173,8	181.5	140,4
Март	193,4	184,8	152,2
Апрель	183,5	164,6	162,4
Май	202,4	165.3	173,2
Июнь	208,3	191,0	185,0
Июль	134,1	94,7	98.3
Август	45,6	91,9	68,9
Сентябрь	165,0	175,0	108.5
Октябрь	207,4	186 0	88,0
Ноябрь	212,2	172.3	87,5
Декабрь	192,0	155,3	137.6
а. Для изображения этих данных раз-
метьте горизонтальную ось точками ян-
варь, февраль,.. .1 декабрь. В результате
вы сможете сравнить сезонные колебания
трех рядов.
б- Посмотрим на график ИПП нз зада-
чи 15.4. Отметьте то чки 1968- 1969, 1970 гг.
Отражается ли динамика ИПП иа пове-
дении месячных данных по выпуску авто-
мобилей?
в. Какие р и ft7/ в рМт. надо взять для
вычисления индекса сезонности?
г. Каковы причины сезонных явлений?
15.15. Даны следующие два ряда: Ду-
шевое производственное потребление шер-
сти м средняя деъа за фунт стриженой
шерсти, выплачиваемая фермерам США
в 1950—1969 гг.
Год	Количест- ве, фунт	Цена» цент	Год	Количест- во. фгнт	Цене, цент
1950	4,18	62.1	I960	2,27	42,0
1951	3,14	97,1	1961	2,24	42 9
1952	2,97	54,1	1962	2,3	47,7
1953	3,1	54,9	1963	2.17	48,5
1954	2,36	53.2	1964	1,86	53,2
1955	2,5	42а8	’965	1,99	47.1
1956	2,62	44,3	1966	1,88	52,1
1957	2,15	53.7	1967	1.57	39,8
1958	1.9	36,4	1968	1,64	40,5
1959	2,46	43,3	1969	1,54	41,8
а.	Аппроксимируйте ряды прямой или
параболой, вычислите разности У—СУ и
Ху—СХ2» где Xs — количество шерсти, У —
цены.
б.	Нарисуйте диаграмму рассеяния и
найдите регрессионную функцию для р аз-
ностей V-—«У и Xs—cXs- Вычислите
Как цены реагируют на изменение коли-
чества шерсти?
в.	Подгоняя регрессионную линию к ис-
ходным данным, сравните результаты с ре-
зультатами задачи 15.15.
г.	Введите в регрессию ряд Xs—0, 1. ....
...» 19 и выполните множественный регрес- .
снонный анализ. Сравните результаты с ре-
зультатами задачи 15.15„в
15.16. Применяя регрессионный анализг
можно прогнозировать продажи, ^тот ме-
тод дает особенно хорошие результаты,
если определены запаздывания между
объясняемой и объясняющей переменными
Предположим следующее. Компания про
изводит глушители для некоторой марки
автомобилей. Глушители меняют каждые-
три гола. Важно принять во внимание, что
динамика рынка сбыта этих запасных ча-
стей относительно постоянна.
а.	Вы имеете ряды данных производ-
ства автомобилей и глушителей в 1965—
1973 гг. Что надо сделать с рядами, чтобы
применить регрессионный анализ?
б.	Предположим, что у вас есть ряд
производства автомобилей в 1974 г. Вычис-
лите по регрессионной линии прогноз на
1974 г. и пределы его интервала. Что вы
можете сказать о прогнозе?
1517, Чтобы изучить связь между кур-
сами облигаций и акций, курсы облигаций
класса ААА сравнивались с индексами:
курсов акций Нью-Йоркской биржи «Стан.-
дард энд Пур».
Год	Курс облигаций (процент номинала)	Индекс ю рса акций 1941—ЖЗ гг.=10
1963	96,8	73,4
1964	95,1	86,2
1965	93,9	93,5
1966	86,1	91,1
1967	81,8	99,2
1968	76,4	107,5
1969	68,5	107,1
1970	61,6	91,3
1971	65,0	108,4
1972	65,9	121,8
Нарисуйте диаграмму рассеяния. Аппрок
симируйте прямой, вычислите о₽я и г, ин-
терпретируйте результаты.
363
ГЛАВА 16
НЕКОТОРЫЕ ДРУГИЕ СТАТИСТИЧЕСКИЕ ПРОБЛЕМЫ
При отборе материала, приведен-
ного в этой главе, не было никако-
го единого принципа. Обсуждаемые
ниже методы, по мнению автора,
полезны и помогут читателю озна-
комиться еще с несколькими сфера-
ми применения статистического ана-
лиза.
16.1.	РАНГОВАЯ КОРРЕЛЯЦИЯ
помощью парного (двумерно-
го) корреляционного анализа, опи-
санного в гл. 13, измеряют связь
между двумя переменными. При
этом мы предполагаем, что гене-
ральные совокупности, характери-
зуемые двумя факторами, измеримы
и выражаются кардинальными ве-
личинами *. В примерах, приведен-
ных в гл. 13, рассмотрены следую-
щие распределения; претенденты на
работу, получившие оценки по
интеллектуальному тесту и за про-
изводственную деятельность, коли-
чество товаров в соотношении с це-
нами, процент химического вещест-
ва и твердость некоторого мате-
риала.
В некоторых задачах либо один,
либо оба признака совокупности не
могут быть измерены. Предполо-
жим, что некоторый предпринима-
тель не может найти подходящего
теста. Он имеет 20 претендентов на
работу. Опросив претендентов, ко-
миссия ранжирует их. Через неко-
торое время ранги, установленные
комиссией, сопоставляются с произ-
водственной деятельностью претен-
дентов. Была ли хорошей оценка
комиссии? Если да, то занявший
пятое место претендент после собе-
седования должен быть на пятом
месте по своей производственной
1 На шкале определены расстояния, и
можно сказать, насколько одна величина
отличается от другой. В противополож-
ность этому ранги выражают только по-
рядок следования, но не расстояния. Такие
шкалы и величины называют порядковы-
ми — Прим. ред.
364
деятельности. В то же время если
начальное упорядочение очень отли-
чается от ранжирования на базе
производственной деятельности, то
от такого способа отбора кадров
следует отказаться.
Существует ли связь между зар-
платой и качеством преподавания
в высших учебных заведениях?
Если это так, то качество универ-
ситета можно оценить на основе
средней заработной платы профес-
сорско-преподавательского состава
(данные легко получить). Вообще
говоря, трудно установить оценки,
описывающие качество учебного
заведения. Следовательно, ряд учеб-
ных заведений нужно было бы ран-
жировать комитету, состоящему из
квалифицированных людей. Однако
эти ранги нельзя сравнивать с зар-
платой. Чтобы сравнить эти оба
фактора распределения, надо ряд
средних зарплат также заменить
рангами.
Некоторое время учебные заведе-
ния, присуждающие ученые степе-
ни, ранжировали на основе выбо-
рочных опросов учащихся. Этп же
учебные заведения ранжировали по
выплачиваемой зарплате, данные
о которой ежегодно публикуются
в бюллетене Американской ассоциа-
ции университетских профессоров.
Обозначив через X, ранг качества,
а через У* ранг зарплат для 15
высших университетов США, пред-
ставим связь между двумя этими
переменными в виде табл. 16.1. По-
скольку университеты выбирались
не случайным образом, распреде-
ление не является выборочным. Сле-
довательно, результаты нельзя рас-
пространить на все университеты
страны.
Корреляция между двумя пере-
менными определяется разностью
между рангами |&|, где d,-=Xi—У,-.
Эти разности можно осреднить, вы-
числяя среднее отклонение рангов:
RMD = 2 |rf,| W=54/15 =-'3,6.
Таблица 16.1. Ранги качества
и зарплаты для 15 университетов США
Исходные ранги					ПреУ5раэ(ванные раягя		
Качество		Зарплата					
		dl \	И1	*1	Ai		ltf,l
1	11	— 10	10	100			
2	1	1	I	1	1	1	0
3	4	— 1	1	1	2	4	2
4	5	— 1	1	I	3	5	2
о	12	—7	7	49	4	11	7
6	2	4	4	16	5	2	3
7	7	0	0	0	6	7	1
8	3	5	5	25	7	3	4
9	14	—5	5	25	8	13	' 5
10	10	0	0	0	9	10	1
11	6	5	5	25	10	6	4
12	15	—3	3	9	11	14	3
13	8	5	5	25	12	8	4
14	13	1	1	1	13	12	I
15	9	6	6	36	14	9	5
			54	3-4			42
Примечание. Данные взяты из М= Melnyk,
М. Ferrari- .Measuring the QlibIHv of Universities’.
1970. Soc, Stat.. Sect. Proceedings of the Amcric.
Stat. Assoc.
Если ранги для обоих рядов со-
впадают, то Xi= Yit 2|<Л|=0 и
ЯЛ1Р=0. Если Х/=1, 2, ...» N,
a Yi=N, N—1, .1, то для четного
N max2|d,-|=№/2, а для нечетного
max2|d(| = (№—1)/2. Поскольку в
нашем примере #=15, то
max RMD = |(№ - 1)./2]/ЛГ=
= (((15)*—1)/2]-15=7,5.
Итак, среднее отклонение рангов
RMD=3,6 здесь больше 0 и немного
меньше половины maxRMD.
На значение RMD может влиять
несколько выбросов. Например,
в рассматриваемой задаче #1=1.
а У|=11, так что |d<|=10. Такие
выбросы иногда следует исключать
из рассмотрения. Итак, вычеркнем
•их из табл. 16.1. Снова ранжируем
ряды. Тогда для преобразованной
задачи получим
RMD21<-1 '# = 42; 14 = 3;
В то время как 3,6 составляло 48%
ст 7,5, 3 составляет 43% от 7.
Ранжирование элементов распре-
деления делается в предположении,
что разность между Xt и Х<+1
в среднем остается постоянной.
Если это не так, то ранжирование
может привести к неверным выво-
дам. Например, рассматривая
задачу со 100 университетами, пог
лучим, что разница между высоко-
стоящими (соответствуют низким
рангам) университетами очень ве-
лика. Она уменьшается с возраста-
нием рангов.
Связь между X, и описывается
коэффициентом ранговой корреля-
ции гт. Этот коэффициент можно
получить прямо из .соотношения
(13.25). Имеем
г_ £№ - Л) (Г, - У) _
Ks (Xj-lyso'j — У)1
- •
Мы уже определили, что
Для рангов	следовательно,
получим
2rf\ = 2(xi-^)’-2< +
+ 2^; - 22хг^.-,
откуда X>xty~ 1/2 ((п“— /г)/6—
Можно показать, что
2аЛ = 2^ = (1/12)(Я*-п).
Подставив эти значения в формулу
для г, получим
r,= l-(6S4-,)/(«•-»).
Для нашей задачи
rr = 1 - 6-314/(3375 - 15)=0,561.
Регрессионное уравнение Ух=а+ЬХ
получим, вычислив
а - {п 4- 1) (1 - rf)/2= (15+ 1) (1 -
-0.561)'2 =7,02.
Значение &=гг=0,561. Значения гт,
а следовательно, и Ъ изменяются
в пределах от —1 до 1. Если Х{=
= Yt, 2dZi=0, то |г>| = 1, если
= 1, 2, ..., п и Yi=n, л—1, ...» 1,
то Г/ = 0.
Если данные представляют вы-
борку и п>10, то для проверки’
значимости гг вычисляют статисти-
ку /* и сравнивают ее с теоретиче-'
365
ским t при v=n—2 степенях свобо-
ды. Формула для вычисления t*
имеет вид:
/* = ггГ(Л-2)/(1-Л).
Предположим, что данные нашего
примера — выборка. Тогда
Г = 0,561 у (15—2) '(1 -0,315)=2,4,
что больше /=2,16 при v=13 и а=
=0,025. Заметим, что ранговый кор-
реляционный анализ не требует
нормальности распределения.
Приведенные выше рассуждения
основаны на предположении, что
каждое место может занять только
один элемент выборки, т. е. двум
или нескольким элементам выборки
не может присваиваться одинако-
вый ранг. Обычно такого повторе-
ния можно избежать. Однако, если
это невозможно, ранги для связан-
ных элементов усредняют. Напри-
мер, если трем элементам присвои-
ли ранг, равный 12, то получим
(12+13-j-14)/3=13. Если два члена
получили ранг 12, то (12+13)/2=
=12,5. В первом случае мы имеем
ранги 1, 2, И; 13, 13, 13, 15, .... N,
во втором —1,2, ..., 11,  12,5, 12,5,
14,.:.,лг
16.2.	ЗНАКОВЫЙ КРИТЕРИЙ
В разд. 9.3 мы сопоставляли щ и
рг, сравнивая Xt с X?. Другими сло-
вами, два множества данных срав-
ниваются, так сказать, с точки зре-
ния их параметров щ и р2- При
этом предполагается, что распре-
деление либо нормально, так что
можно использовать выборки мало-
го размера п\ и л2, либо не нор-
мально, и тогда размеры выборок
должны быть достаточно большими;
oj=o2; выборки независимы. Если
о не известно, то для проверки раз-
ницы между pi и ц2 используют /-»
статистику.
Для сравнения тех же данных
можно применить знаковый крите-
рий. Однако, поскольку мы имеем
тогда дело со сравнением отдель-
ных пар выборочных значений, а не
средних, знаковый тест (подобно
366
критерию х2) является непараме-
трическим. Единственное требова-
ние, которое выдвигается при
использовании знакового крите-
рия,— это требование непрерывно-
сти распределения. Вид же рас-
пределения роли не играет.
Рассмотрим две выборки из за-
дачи 9.9. Данные для этой задачи
приведены в табл. 16.2. Применяя
знаковый критерий, вычисляем раз-
ности Xi—К-, но интерес для нас
представляют не сами значения
разностей, а лишь их знаки: плюс
или минус.
Таблица 16.2. Массы стальных
заготовок, покупаемых у сталелитейных
компаний X н У, г
Х1	Yl	Знак (А-—У-)
41,6	40,5	
41.7	41,1	
41.8	40.9	—
42.2	41,4	—
42.3	42,3	0
41.2	41.7	—
40,9	41.8	—
41,3	41,1	"1“
41,5	40,7	
41.7	4J.2	
41.8	41.4	
Если взять две выборки из одного
и того же распределения и вычис-
лить Xi—Yi, то представляется, что
число знаков плюс и минус должно
быть приблизительно равным неза-
висимо от формы распределения.
Если же число плюсов намного
больше или меньше числа минусов,
то следует признать, что обе выбор-
ки отобраны не из одного и того же
распределения. Заметим, что, если
наименьшее значение У больше
максимального значения X, все раз-
ности —Yi будут отрицательны.
Особенностями критерия являют-
ся его широкая применимость и
простота. Рассмотрим пример из
табл. 16.2. Объем выборок здесь
л=11. Однако разность одной пары
чисёл, которая равна нулю, исклю-
чим из рассмотрения. В результате
объем выборок станет равным деся-
ти. Число минусов равно двум, так
что только два значения У, больше
соответствующих Xi.
Ожидаемое число минусов 0,5 п=
=0,5* 10=5. Какова вероятность по-
лучения двух успешных испытаний,
если ожидаемое их число равно пя-
ти? Поскольку опыты независимы,
то вероятность определяется бино-
миальным распределением при п=
=10, л—0,5 и Х=2. Эта вероят-
ность равна 0,0439. Ее можно счи-
. тать малой и сделать вывод, что та-
кое небольшое число минусов не
случайно, а свидетельствует о том,
что элементы генеральной совокуп-
ности X существенно больше эле-
ментов генеральной совокупно-
сти У.
Если закупается много партий,то
можно разработать правило, позво-
ляющее на основе выборки прове-
рять разницу между двумя партия-
ми. Зададимся критическим значе-
нием с, например с=2, и обозначим
число минусов г. Тогда при г^2
элементы генеральной совокупности
X существенно больше элементов
генеральной совокупности У. При
г>2 нельзя сказать, что X несуще-
ственно больше или меньше У, пото-
му что знаковый критерий является
-односторонним. Для него Р(г^
^2 л=0,5, /1=10) =0,0547, что и
определяет уровень значимости.
В нашем примере, конечно, одно-
сторонний критерий является не-
адекватным. Маловероятно, что про-
изводитель, покупающий заготовки
от двух сталелитейных компаний,
интересуется только тем, больше ли
.заготовки у фирмы X, чем У. Следо-
вательно, здесь надо было бы при-
менить двусторонний критерий, при
котором г являлось бы не числом
знаков минус, а числом менее ча-
стых знаков. Примем опять л=10 и
•с=2. Теперь если г^с, то X сущест-
венно отличается от У; это означа-
ет, что (в зависимости от знака)
элементы X могут быть и сущест-
венно меньше и существенно боль-
ше элементов У. Уровень значимо-
сти в этом критерии составляет а=
=0,1094, что соответствует удвоен-
ному значению одностороннего кри-
терия.
Повторим: чтобы применить зна-
ковый критерий к задаче, приведен-
ной выше, определяют размер вы-
борки п, уровень значимости а и
критическое значение с. Затем вы-
бирают произвольно пары элемен-
тов из генеральной совокупности
(или в действительности из пары
совокупностей). Вычисляют разно-
сти (Xi—У,); если оказывается, что
Xi—Yt=O, то это значение из вы-
борки исключается, и выборку по-
полняют другой парой значений из
совокупностей. Значение г сравни-
вают с с.
В рассматриваемом нами примере
можно применить как /-критерий,
так и знаковый критерий, поскольку
выполняются предпосылки обоих
тестов. Какой же из критериев
предпочтительнее? В некоторых
случаях оказывается более мощным
/-критерий. Он не требует для уста-
новления разницы между р.| и Цг
выборок большого объема. Однако
знаковый критерий очень прост и
потому удобен, несмотря на то, что
для обеспечения такой же мощности
ему требуется большее значение п.
В случаях, когда генеральные
совокупности распределены ненор-
мально, а стандартные отклонения
велики и неодинаковы, /-критерий
может оказаться менее мощным и
непригодным. Предположим, что
имеется выборка учащихся, прослу-
шавших курсы английского языка и
статистики. Будут ли их оценки по
английскому выше, чем по статисти-
ке? Знаковый критерий будет
в этом случае предпочтительнее /-
критерия, поскольку две выборки
не независимы, а обе сигмы значи-
тельно различаются.
Каков должен быть объем выбо-
рок, чтобы определить разницу
между элементами Хи У? На этот
счет имеются следующие соображе-
ния. Предположим, что мы получи-
ли 50% минусов (или плюсов) для
Xi—Yi и 55% минусов для X'i—Y'i.
Предполагая приближенную нор-
мальность распределения г и пере-
ходя к процентам, определим пре-
дел интервала принятия при а=0,Г,
50 ±1,64»,.
367
При л'=55 и 0=0,025 нижний пре- •
дел выборочного распределения бу-
дет составлять 55—1,9бор. Чтобы
найти п, составим уравнение
50+1,64 <тР=55—1,96 о,,.
Приняв л=52,5, вычислим оР. По-
лучим
50+1,64 /(52,5.'47„5)/п> 55 -
- 1.96J/(52.5.47.5)//».
откуда /»^1293.
Конечно, такое п необходимо для
обнаружения очень маленькой раз-
ницы. Это означает, что имеется
очень большая группа пересекаю-
щихся оценок X и У. Если (это уже
отмечалось) наименьшее У больше
максимального X, то все разности
Xi—У, будут отрицательны, и это
Ьгожно обнаружить на очень неболь-
ших выборках. Однако выборка не
должна быть меньше /»=6, при п=
=6 вероятности биномиального рас-
пределения для выбросов Р(г) ста-
новятся достаточно большими. Это
означает, что для выборок такого
объема легко получить все минусы,
хотя ожидаемое значение процента
минусов составляет л=50.
16.3.	ЗНАКОВЫЙ КРИТЕРИЙ
ВИЛЬКОКСОНА
Этот критерий напоминает крите-
рий, описываемый в предыдущем
параграфе, за исключением того,
что во внимание принимают разно-
сти Xi—У;=|(/{|. Следовательно,
если вид распределений обеих гене-
ральных совокупностей различен,
этот тест даст лучшие*результаты,
чем обычный.
Проиллюстрируем процедуру про-
верки на следующем примере. Про-
водятся два экзамена по одному и
тому же курсу в классе, состоящем
из 20 учащихся. Будут ли результа-
ты экзаменов одинаковыми?
Порядок вычислений приведен
в табл. 16.3. Оценки первого экза-
мена X,. Оценки второго — У/.
У< представляется исходным рядом
У1=78, У2=67, У3=27 ... Причина
368
Т а б л и ц а 16.3. Оценки двух экзаменов
20 учащихся
х,	Yi	Л-. >7 1 и	Ранги d-	Ранги со зпзками	
				И/	1
32	68	—36	19	-19	
71	57	14	' 8		8
35	17	18	12,5		12,5
31	52	—21	16	—16	
42	47	—5	2	-2	
101	81	20	15		15
76	62	14	8		8
44	43		1		1
102	118	-16	10	— 10	
67	70	-6	3,5	—3,5	
21	40	— 19	14	—14	
48	30	18	12,5		12,5
45	39	6	3,5		3,5
57	80	—23	17	— 17	
72	79	—7	5	 5	
35	64	—29	18	-18	
87	77	10	6 1		6
50	36	14	8		8
72	89	— 17	11 '	— II	
38	38	0		—	—
				—115.5	74,5
этого заключается в том, что второй
экзамен был полнее и его баллы
в среднем на 10 баллов выше оце-
нок первого. В таком виде оценки
не сравнимы. Поэтому надо вычесть
10 баллов из каждого значения У<.
Затем вычислим разности d,=
—Xi—Yi. Так как последняя раз-
ность равна нулю, то размер выбор-
ки уменьшится до /1=19.
Разности ранжируем по абсолют-
ному значению |//i|. Несколько зна-
чений |rfil совпадают. Например,
|«Go|=|“»l- Они получают места
3 и 4. Мы присваиваем им ранг3,5,
что равняется среднему между тре-
мя и четырьмя. Аналогично при-
сваиваем |d7l, |d2| и |//18| ранг 8,.
а Из| и |</12|-12,5.
Два последних столбца таблицы
содержат ранги со знаками. Их
итоговые суммы Т равны соответст-
венно 115,5 и 74,5. При двусторон-
нем критерии мы можем использо-
вать только одну из них (например,
7=74,5), поскольку результаты бу-
дут одинаковы. Если Т велико или
мало, то мы приходим к выводу, что
результаты экзаменов существенно
различны.
Чтобы установить, будет ли Т су-
щественно велико или мало, срав-
ним вычисленное г* с теоретиче-
ским Z. Другими словами, предпо-
ложим, что распределение Т аппро-
ксимируется нормальным распреде-
лением. Это предположение выпол-
няется, если выборки не слишком
малы (например, я>10). Значе-
ние z* вычислим по формуле
z*=|(7'—mT) IsTI,
где
mT=n (л-f-1 )/4;
sT=/(л (« + 1) (2n -|-1 )/24.
Формулы ДЛЯ Шт И Sr. являются
приближениями для математическо-
го ожидания и среднего квадратиче-
ского отклонения Т соответственно
В нашей *задаче при /=1,96 и а—
=0,05
mT — 19 (20) /4 = 95;
sT = /19 (20)-39/24 = 24,8,
а
г*=(74,5 - 95);24,8 = 0.83.
Поскольку г* <г, можно заклю-
чить, что результаты экзаменов от-
личаются несущественно.
16.4.	ПАРЫ НАБЛЮДЕНИЙ
Сравнение ц-i и р,2 с помощью вы-
борочных средних в разд. 9.3 произ-
водилось без учета причин, порож-
дающих разницу. Мы работали,
предполагая, что «при прочих рав-
ных» pi или существенно, или несу-
щественно отличается от рг. Но
предположение «при прочих рав-
ных» выполняется далеко не всегда,
и разница между pt и рг может за-
висеть от многих факторов Если
наблюдения комбинируются в виде
нар, то все другие факторы можно
исключить. Создавать пары в этом
случае надо достаточно осторожно.
Рассмотрим пример из промыш-
ленного производства. Имеются два
процесса плавки. Будут ли при
одном процессе производиться бо-
24-232
лее тяжелые в среднем металличе-.
ские бруски, чем при другом. Други-
ми словами, будет ли pi существен-
но отличаться от р2. В этом случае-
сырье поступает партиями, которые
могут качественно различаться. Мы
не в состоянии определить, в какой
степени разность масс обусловлена
одним лишь различием технологи-
ческих процессов плавки, если мы
не будем брать одинаковое сырье-
для каждой пары выплавляемых
брусков. Таким образом, должны
сравниваться не просто массы брус-
ков, полученных при разных мето-
дах плавки, но и массы брусков,
сделанных из одного и того же
сырья.
Метод требует вычисления d,-=
=(Хц—У/s). Его целью, однако^
является не сравнение двух масси-
вов данных с точки зрения вида их
распределения частот, что было су-
щественно в знаковом критерии.
Нам нужно лишь сравнить щ
И Ц2.
Таблица 16.4. Массы пары
металлических брусков при двух
технологических процессах плавки
Пара		xi.				ъ 1
1	2,95	3,16	—0,21	—0,081	•- i 0.006561	
2	3,01	3,17	—0,16	—0,031	0,000961	
3	2,99	3,18	—0,19	—0,061	0,003721	
4	3,04	3,22	—0,18	—0,051	0,002601	
5	3,07	3,12	—0,05	0.124	0,015376.	
6	3.08	3,09	—0,01	0.128	0.016384	1
7	3,01	3J3	—0,i2	0,009	0,001М®1	
8	2,97	3,15	—0,18	—0,051	0.002601	
9	3,-02	3,17	—0,15	—0.021	0,000441	к
10	3,04	3,08	—0,04	0,125	0,015625	1
			— 1.29		0,064352	1 и
Выборки масс пар металлических
брусков, полученных двумя различ-
ными способами плавки, приведены
в табл. 16.4.
Несмотря на то, что имеется
20 наблюдений, размер выборки ра-
вен л=10. Нам понадобятся сле-
дующие величины:
среднее всех di
d=Zdiln,
*369
стандартное отклонение
стандартная ошибка
s_=sd'Vn.
а
Если процессы плавки не разли-
чаются, то |Х|=|1г и среднее разно-
стей для генеральной совокупности
Л—О Следовательно, при заданном
« выборочное й должно отличаться
ют /3=0 не больше, чем на t стан-
дартных ошибок s~. Таким обра-
зом, для проверки различия между
Pi и ц2 сравниваем t* с t, гор
f=(d-0)/s •
а
При этом делаются те же, что
в разд. 9.3, предположения относи-
тельно нормальности распределения
и равенства стандартных отклоне-
ний.
Для задачи из табл. 16.4
d=~ 1,29/10=-0.129;
sd = КО,064352/9 = 0,0846;
s_ = 0,0846'/1(5=0,0267;
/* = —0,129/0,0267=4,8.
При а=0,05 и о=9 /=2,262.
Следовательно, мы приходим к вы-
воду, что ps существенно больше ць
Очевидно, что второй процесс плав-
ки дает результаты, отличные от
первого.
Не следует считать, что метод
спаренных наблюдений эквивален-
тен вычислению
мз разд. 9.3. Число степеней свобо-
ды в методе спаренных наблюдений
равняется v=nt+n<i—2. Это дает
возможность установить очень ма-
ленькую разницу между pi и р,2-
Существуют и другие задачи,
в которых применяется метод пар-
ных наблюдений. Так, например,
в сельском хозяйстве часто надо
установить разницу между двумя
видами семян или смеси. Поскольку
на результаты влияют качество поч-
вы и погода, то оба. вида семян на-
370
до посеять на одинаковых участках.
Тогда сравнение будет возможным.
При сравнении трудовой деятельно-
сти следует брать пары рабочих
одинаковой квалификации. Если
'способ лечения или качество неко-
торого лекарства зависят от массы
людей, то надо брать пары людей
с одинаковой массой.
16.5.	НЕРАВЕНСТВО ЧЕБЫШЕВА
Неравенство Чебышева часто
применяется в практических и тео-
ретических исследованиях. Его
можно переписать в виде
- 1/А».
Приняв р=50, о=4 и k=2, полу-
чим
Р (50-2-4< А'<50 4-2-4)>1 - 1/4.
Это вероятностное утверждение
справедливо для распределений лю-
бого вида. Следовательно, вероят-
йость того, что значение попадет
в интервал ц±2о, по крайней мере
равна 1—1/4=0,75. Для нормаль-
ного распределения
Р(50- 2.4<ХС5О+2 4)=О,955,
что, конечно, больше 0,75
Неравенство можно переписать
в виде
Ilk*.
В нашем примере получим
Р[(|Х-50|)^2.4]<1/4.
Теперь вероятность того, что раз-
ность между наблюдением и сред-
ним равна или больше двух стан-
дартных отклонений, не больше
1 /4=0,25.
Теоретическое значение неравен-
ства состоит в том, что оно справед-
ливо для всех видов распределений
и, в частности, для выборочных
средних. В связи с этим мы перепи-
шем неравенство в виде
Pff* —Aa_<X<n + feu)>l — l/k1
и
P(|X-p.pb_)<l/fe«.
Итак, вероятность того, что выбо-
рочное среднее попадает в интер-
вал pztfe— , не меньше, чем 1—
—(1/А1), каков бы ни был вид рас-
пределения. Эквивалентное утверж-
дение гласит: вероятность того, что
разность между 7 и g равна или
больше k стандартных отклонений,
будет не больше, чем 1/А2.
Закон больших чисел. Запишем
р = Аа_ — ka/VП.
Найдем из этого соотношения
k = pVnfa-,
k* = p'nld*',
откуда
1/А2=а2/р2п.
Таким образом, первое вероятно-
стное соотношение для выборочных
средних примет вид:
Р (и — Ад- < X < ц Аз—) >
> 1 — а*;(р*п).
Из последнего неравенства видно,
что при возрастании п второе сла->
гаемое в правой части неравенства
аг1ргп становится как угодно ма-
лым, следовательно, с увеличением
выборки вероятность попадания
X в указанные границы стремится
к единице.
Подставляя 1/А2 во второе соот-
ношение для выборочных средних,
получаем
Р (| Я” - р | > Ь_) < о7(р'/0.
Теперь мы можем сказать, что при
росте п вероятность того, что X от-
личается от р на фиксированное
значение, стремится к нулю. Это if
есть закон больших чисел.
г
СПИСОК ЛИТЕРАТУРЫ
Acton, Forman S- Analysis of Straight-Line Data (regression analysis). New York: Dover Publi-
cations, ]959.
Box, George E. P. and Jenkins, Gwilym M Time Series Analysis (sophisticated methods of
time series analysis and forecasting) San Francisco, California: Holden-Day, 1970.
Brown, Robert Goodell. Smoothing, Forecasting and Prediction (g<x>d preserttation of exponen-
tial smoothing). Englewood Cliffs, NJ.: Prentice-Hall, 1963.
Butler; Wiiliam F. and Kavcsh, Robert A, (Eds.) How Business Economists Forecast. Fnglcwcxxl
Cliffs, NJ.: Prentice-Hall 1966
Conover, W. J. Practical iVon^aramttnc Statistics (veiy good introductory presentation of
applications and theory) New York: Wiley, 1971.
Croxton, Frederick E., Cowden, Dudley J., and Klein, Sidney. Applied General Statistics (es-
pecially descriptive statistics, regression and time sei ies analysis). Englewood Cliffs. NJ.:-
Prentice-Hall, 1967.
Deming, W. Edwards. Sample Design in Business Research. New York: Wiley, 1960.
Dixon, Wilfrid and Massey, Frank J„ Jr. Introduction to Statistical Analysis (considerably wider
coverage of statistical methods). New York: McGraw-Hill, 1969.
Duncan, A J. Quality Control and Industrial Statistics. Homewood. Ill.: R D. Irwin, 1965.
Ezekiel, Mordecai and Fox, Karl A. Methods of Correlation and Regression Analysis. New York:
Wiley, 1959.
Ferber, R. and Verdoorn. P. J. Research Methods in Economics and Business. New York: Macmil-
lan, 1962.
Freund, J. E. Mathematical Statistics (introductory text). Englewood Cliffs, NJ.: Prentice-Hall,
197k
Goldberg, Samuel. Probability (very clear intnwluctory presentation). Englewood Cliffs, NJ.:
Prentice-Hall, 1960.
Hansen, M. H., Hurwitz, W. N„ and Madow, W C. Sample Survey Methods and Theory. New
York: Wiley. 1953.
Hicks, C. R. Fundamental Concepts in the Design of Experiments. New York: Holt, Rinehart, and
Winston, 1964-
Hodges, J. L., and Lehmann, E. L. Elements of Finite Probability. San Francisco, California:
Holden-Day, 1965.
Hoel. P. Introduction to Mathematical Statistics (a clear semi-mathematical presentation). New
York: Wiley. 1962O
Johnson, Norman L. and Smith Harry, Jr. (Eds.) New Developments in Survey Sampling, New
York: Wiley-Interscience, 1969
Kraft, Charles H. and van Ecdcn( Constance A Nonparametric Introduction to Statistics. New
York: Macmillan, 1968.
Kukkonen Pertti. Analysis of Seasonal and Other Short-Term Variations with Abdications to
Finnish Economic Time Series. Helsinki, Finland* Bank of Finland Institute for Economic
Research, 1968.
la, С- C- Introduaion to Experimental Statistics. New York: McGraw-Hill, 1964.
Mincer, Jacob. (Ed.) Economic Forecasts and Expectations. New York: National Bureau of
Economic Research, 1969.
Mood, Alexander M., Graybill, Franklin A., and Boes. Duane C. Introduction to the Theory о/
Statistics (very good intermediate mathematical treatment) New York: McGraw-РКП. 1974.
Mmtcllcr, F.t Rourke, R. E. K„ and Thomas, G. B. ProWtlity with Statistical Applications. Read-
ing, Mass.: Addison-Wesley, 1961.
372
Noether, G. E. Elements о/	Statistics. New York: Wiley. 1967,
Pratt. John W., Raiffa, Howard, and Schlaifer, Robert. fntroduction to Statistical Decision Theory
(a more sophisticated Bayesian approach). New York: McGraw-Hill, 1965.
Reichmann, W J, [Ле and Abuse of Statistics. New York; Oxford University Press, 1962.
Sasaki, Kyohei. Statistics for Modem Business Decision Making (Bayesian statistics). Belmont,
California: Wadsworth, 1968
Scheffe, H, The Analysis of Variance, New York: Wiley. 1959.
Schlaifer, Robert Pretabitity end Statistics for Business Decisions (Bayesian statistics and statis-
tical Applications of probability). New York: McGraw-Hill. 1959.
Schlaifer, Robert, Zntroductitm to Statistics for Business Decisions. (a detailed elementary treat-
ment of Bayesian statistics). New York: McGraw-Hill, 1961.
Thtil. Henri. Applied Econontk Forecasting. Amsterdam, Holland: North-Holland, 1966.
Co., 1966.
Tuttle, Alva M. Elementary Business and Economic Statistics (especially descriptive statistics).
New York McGraw-Hill, 19Л.
Yule, G- Udny and Kendall, M. G. An fTUroductiun to the Theory of Statistics (especially descrip-
tive statistics, correlation, and sampling). New York: Hafner, 1950.
ПРИЛОЖЕНИЕ
<
СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ
T>5mw L Случайные разряды
10097	32533	76520	13586	34673	54876	80959	09117	39292	74945
37542	04805	64894	74296	24805	24037	20636	10402	00822	91665
08422	68953	19645	09303	23209	02560	15953	34764	35080	33606
99019	02529	09876	70715	38311	31165	88676	74397	04486	27659
12807	99970	80157	36147	64032	36653	98951	16877	12171	76833
66065	74717	34072	76850	36697	36170	65813	39885	11199	29170
31060	10805	45571	82406	35303	42614	86799	07439	23403	09732
85269	77602	02051	65692	68665	74818	78053	85247	18623	88579
63573	32135	05325	47048	90553	57548	28468	28709	88491	25624
73796	45753	03529	04778	358118	34282	60935	20344	35273	88435
98520	17767	14905	68607	22109	40558	6097Q	93433	50500	78998
11805	05431	39808	27732	50725	68248	29405	24201	52775	67851
83452	99634	06288	98083	13746	70078	18475	40610	68711	77817
88685	40200	86507	58401	36766	67951	90364	76493	29609	11062
99594	67348	87517	64969	91826	08928	93785	61368	23478	34113
65481	17674	17468	50950	58047	76974	73039	57186	40218	16544
80124	35635	17727	08015	45318	22374	21115	78253	14385	53763
74350	99817	77402	77214	43236	оо2;о	45521	64237	96286	02655
69916	26803	66252	29148	36936	«7203	76621	13990	94400	56418
09893	20?05	14225	68514	46427	5678S	96297	78822	54882	14598
373
Продолжение табл. 1
91499 80336. 44104 12550 63606	14523 94598 81949 73742 49329	68479 26940 85157 11100 16505	27686 36858 47954 02040 34484	46162 70297 32979 12860 40219	83554 34135 26575 74697 52563	94750 53140 57600 9f‘>644 43651	89923 33340 40881 89439 77082	37089 42050 22222 28707 07207	20048 82341 06413 25815 31790	1
61196	90446	26457	47774	51924	33729	65394	59593	42582	60527	
15474	45266	95270	79953	59367	83848	82396	10118	33211	59466	
94557	28573	67897	54387	54622	44431	91190	42592	92927	45973	
42481	16213	97344	08721	16868	48767	03071	12059	25701	46670	
23523	78317	73208	89837	68935	91416	26252	29663	05522	82562	
04493	52494	75246	33824	45862	51025	61962	79335	65337	12472	
00549	97654	64051	88159	96119	63896	54692	82391	23287	29529	
35963	15307	26898	09354	33351	35462	77974	50024	90103	39333	
59608	08391	45427	26842	83609	49700	13021	24892	78565	20106	
46058	85236	01390	92286	77281	44077	93910	83647	70617	42941	
32179	00597	87379	25241	05567	07007	86743	17157	85394	11838	
69284	61406	20117	45204	15956	60000	18743	92423	97118	96338	
19565	41430	01758	75379	40419	21585	66674	36806	84962	85207	
45155	14938	19476	07246	48667	94543	59047	90033	20826	69541	
94864	31994	36168	10851	34888	81558	01540	35456	05014	51176	
98086	24826	45240	28404	44999	08896	39094	73407	35441	31880	
33185	16232	41941	50949	89435	48581	88695	41994	37548	73043	
80951	00406	96382	70774	20151	23387	25016	25298	94624	61171	
79752	49140	71961	28296	69861	02591	74852	20539	00387	59579	
18633	32537	98145	06571	31010	24674	05455	61427	77938	91936	
74029	43902	77557	32270	97790	17119	52527	58021	80814	51748	
54178	45611	80993	37143	05335	12969	56127	19255	36040	90324	
11664	49883	52079	84827	59381	71539	09973	38440	88461	23356	
48324	77928	31249	64710	02295	36870	32307	57546	15020	09994	
69074	94188	87637	91976	35584	04401	10518	21615	01848	76988	
09188	20097	32825	39527	04220	86304	83389	87374	64278	58044	
90045	85497	51981	50654	*94938	81997	91870	76150	68476	64659	
73189	50207	47677	26269	62290	64464	27124	67018	41361	82760	
75768	76490	20971	87749	90429	12272	95375	05871	93823	43178	
54016	44056	66281	31003	00682	27398	20714	53295	07706	17813	
68358	69910	78542	42785	13661	58873 	04618	97553	31223	08420	
28306	03264	81333	10591	40510	07893	32604	60475	94119	01840	
53840	86233	81594	13628	51215	90290	28466	68795	77762	20791	
91757	53741	61613	62269	50263	90212	55781	76514	83483	47055	
89415	92694	00397	58391	12607	17646	48949	72306	94541	37408	
77513	08820	86864	29901	68414	82774	51908	13980	72893	55507	
19502	37174	69979	20288	55210	29773	74287	75251	65344	67415	
21818	59313	93278	81757	05686	73156	07682	85046	31853	88452	
51474	66499	68107	23621	94049	91345	42836	09191	08007	45449	
99559	68331	62535	24170	69777	12830	74819	78142	43860	72834	
33713	48007	93584	72869	51926	64721	58803	29822	93174	93972	
85274	86893	11303	22970	28834	34137	73515	90400	71148	43648	
84133	89640	44035	52166	73852	70091	61222	60561	62327	18423	
56732	16234	17395	96131	10123	91622	85496	57560	81604	188S0	
65138	56806	87648	85261	34313	65861	45875	21069	85644	47277	
374
Продолжение табл, 1
38001	02176	Й1719	11711	71602	92937	74219	64049	65584	49698
37402	96397	01304	77586	56271	10086	47321	62605	40030	37438
97125	40348	87083	31417	21815	39250	75237	62047	15501	29578
21826	41134	47143	34072	64638	85902	49139	06441	03856	54552
73135	42742	95719	09035	85794	74296	08789	88156	64691	19202
07638	77929	03061	18072	96207	44156	23821	99538	04713	66994
60528	-A3441	07954	19814	59175	20695	05533	52139	61212	06455
83596	35655	06958	92983	05128	09719	77433	53783	92301	50498
10850	62746	99599	10537	13499	06319	53075	71889	06410	19362
39820	96952	43622	63147	64421	808U	43800	09351	31024	73167
59580	06478	75569	78800	88835	54486	23768	06156	04111	08408
3850ft	07341	23798	48763	90822	97022	17719	04207	95954	49953
3oew	70668	94688	16127	56196	89091	82067	63400	05462	69200
65443	95659	28288	27437	49632	24041	08337	65676	96299	90836
27267	50264	13192	72294	07477	44606	17985	48911	97341	30858
91307	06991	19072	24210	36699	53728	28825	35793	28976	66252
68434	94588	84473	13622	62126	98408	12843	82590	09815	93146
48908	15877	54745	24591	35700	04754	83824	52692	54130	55160
06913	45197	42672	78601	11883	09528	63011	98901	14974	40344
10455	16019	14210	33712	91342	37821	88325	80851	43667	70883
12883	97343	65027	61184	04285	01392	17974	15077	90712	26769
21778	30976	38807	36961	31649	42096	63281	02023	08816	47449
19523	59515	65122	59659	86288	68258	69572	13798	16436	91529
67245	52670	35583	16563	79246	86686	76463	. 34222	26655	90802
60584	47377	07500	37992	45134	26529	26760	83637	41326	44344
53853	41377	36066	94850	58838	73859	49364	73331	96240	43642
24637	38736	74384	89342	52623	07992	12369	18601	03742	83873
83080	12451	38992	22815	07759	51777	97377	27585	51972	37867
26444	24334	36151	99073	27493	70939	85130	32552	54846	54759
60790	18157	57178	65762	11161	78576	45819	52979	65130	04860
Примечание.
Данные взяты из источника The RAND Corporation. A Million Random Digits with 500 000 Normal
Deviates. Glencol, Illinois. The Free Press, p. 1-2. Воспроизводится с разрешения The RAND Corpo-
ration.
Таблица П. Биномиальное распределение
n	X	.05	.10	.15	.20	p		.35	.40	.45	.50
						.25	.30				
1	$	.9500	.9000	.8500	.8000	.7500	7000	.6500	.6000	.5500	.5000
	1	,0500	.1000	,1500	.2000	.2500	3000	3500	.4000	.4500	.5000
2	0	.9025	,8100	.7225	6400	.5625	.4900	.4225	.3600	.3025	2500
	1	.0950	.1800	.2550	.3200	.3750	.4200	.4550	4800	.4950	,5000
	2	.0025	.0100	.0225	.0400	.0625	.0900	1225	.1600	.2025	.2500
3	0	8574	.7290	.6141	.5120	4219	3430	2746	.2160	.1664	.1250
	1	.1354	.2430	.3251	.3840	.4219	н i0	.4436	.4320	.4084	.3750
	2	.0071	.0270	0574	.0960	.1406		.2389	2880	.3341	.3750
	3	0001	.0010	.0034	0080	.0156	0270	.0429	.0640	.0911	.1250
375
Продолжение табл. 11
п	X	.05	.10	.15	.20	.25	.80	'.35	.40	.45	.50
4	0	.8145	.6561	.5220	.4096	.3164	2401	.1785	1296	.0915	.0625
	1	.1715	.2916	.3685	.4096	.4219	.4116	.3845	.8456	.2995	.2500
	2	.0135	.0486	.0975	.1536	.2109	.2646	.3105	.3456	-3675	.3750
	3	.0005	.0036	.0115	-0256	.0469	.0756	.1115	.1536	.2005	.2500
	4	,0000	.0001	.0005	.0016	.0039	.0081	.0150	.0256	.0410	.0625
5	0	.7738	.5905	.4437	.8277	.2378	.1681	.1160	.0778	.0503	.0312
	1	.2036	.3280	.3915	.4096	.3955	.3602	.3124	.2592	.2059	Л 562
	2	.0214	.0729	.1382	.2048	.2637	.3087	.3364	.3456	.3369	.3125
	3	ООН	.0081	.0244	.0512	.0879	.1823	.1811	-2304	.2757	.3125
	4	0000	.0004	0022	.0064	.0146	.0284	.0488	.0768	.1128	.1562
	5	000м	ОООО	.0001	0003	.0010	.0024	.0053	.0102	.0185	,03)2
6	0	.7351	.5314	.3771	2621	.1780	.1176	.0754	.0467	.0277	0156
	1	.2321	.8543	.8993	.3932	.3560	.3025	.2437	.1366	.1359	.0938
	2	.0805	.0984	.1762	-2458	2966	.3241	.3280	.3110	.2780	.2344
	3	.0021	0146	.0415	.0819	1318	.1852	.2355	.2765	,3032	.3125
	4	.0001	0012	.0055	.0154	.0330	.0595	.0951	-1382	Л 861	.2344
	5	0000	.0001	.0004	0015	0044	.0102	.0205	-0369	.0609	.0938
	6	.0000	(XXX)	.0000	.0001	.0002	0007	.0018	.0041	.0088	.0516-
7	0	.6983	.4783	.3206	.2097	.1335	.0824	.0490	.0280	.0152	.0078
	. 1	2573	.3720	.3960	.8670	.3115	.2471	-1848	.1306	.0872	.054-7
	2	.0406	.1240	.2097	.2753	.3115	.3177	.2985	.2613	.2140	.1641
	3	.0036,	.0230	.0617	.1147	.1730	.2269	.2679	.2903	.2918	.2734
	4	.0002	.0026	.0109	.0287	.0577	.0972	.1442	.1935	.2388	.2734
	5	.0009	.0002	.0012	.0043	.0115	.0250	.0466	.0774	.1172	.1641
	6	.0000	ОООО	.0001	.0004	.0013	.0036	,0084	.0172	.0320	.0547
	7	.0000	.0000	люоо	ОООО	.0001	(Ю02	0006	0016	.0037	.0078
8	0	.6634	.4305	.2725	1678	.1001	.0576	.0319	.0168	,0084	.0039
	1	.2793	3826	.3847	.3355	.2670	.1977	.1373	.0896	.0548	.0312
	2	.0515	.1488	.2376	.2936	.3115	.2965	.2587	.2090	1569	Л 094
	3	.0054	.0331	.0839	.1468	.2076	.2541	,2786	.2787	.2568	.2188
1	4	.0004	.0046	0815	0459	.0865	.1361	.1875	.2322	-.2627	.2734
	5	.0000	.0004	.0026	.0092	0231	0467	.0808	.1239	Л719	,2188
	6	0000	.(XXX)	.0002	.ООП	0038	.0100	.0217	.0413	.0703	Л094
*	7	0000	.(ХХЮ	.0000	0001	.0004	.0012	-0083	.0079	-0164	.0312
	8	оооо	.0000	.0000	оооо	ОООО	.0001	.0002	.0007	.0017	0039
9	0	.6302	.3R74	.2316	,1342	0751	.0404	.0207	.0101	.0046	.0020
	1	.2985	.3874	.3679	.3020	.2253	.1556	.1004	.0605	.0839	.0176
	2	.0629	Л 722	.2597	.3020	.3003	.2668	.2162	.1612	,1110	.0703
	3	.0077	.0446	.1069	.1762	.2336	.2668	.2716	.2508	.2119	Л 641
	4	.0006	.0074	.0283	.0661	.1168	.1715	.2194	.2508	.2600	.2461
	5	.оооо	.0008	.0050	.0165	.0389	.0735	.1181	.1672	.2128	.2461
	6	0000	0001	.0006	.0028	а0087	.0210	.0424	.0743	.1160	.1611
	7	.0000	.0000	-ОООО	.0003	.0012	.0039	.0098	.0212	.0407'	.0703
	• 8	.оооо	.0000	оооо	.0000	.0001	.(ХКИ	.0013	.0035	.0083	.0716
	9	0000	.0000	.0000	-ОООО	.0000	.0000	.0001	.0003	.0008	.0020
376
Продолжение табл. II
71					.20	р		,35	.40	.45	.50	* « .	1
	X	.05	.10	.15		25	.30					
10	0	-SO87	3487	.1969	.1074	.0563	.0282	.0135	0060	.0025	.0010	к
	1	.3151	.3874	.3474	.2684	1877	,1211	.0725	.0403	0207	0098	£
	2	.0746	.1937	.2759	.3020	.2816	2335	.1757	.1209	.0763	.0439	
	3	.0105	.0574	Л 298	.2013	.2503	.2668	.2522	.2150	.1665	.1172	•J
	4	,0010	.0112	.0401	.0881	.1460	-2001	,2377	.2508	.2384	,2051	й
	5	.0001	.0015	.0085	.0264	.0584	.1029	Л 536	.2007	.2340	.2461	i
		.0000	ЛМЮ1	.0012	.0055	.0162	.0368	0689	,1115	.1596	.2051	ч fl
	7	.0000	.0000	.0001	0008	,0031	.0090	.0212	,0425	.0746	.1172	1
	8	.0000	0000	.0000	.0001	.0004	.0014	.0043	.0106	.0229	.0439	
	9	.0000	..0000	.0000	1 .0000	.0090	.0001	.0005	-0016	.0042	.0098	
	10	.0000	0000	0000	.0000	0000	.0000	.0000	0001	-0008	.0010	я н
							%				<*	X
11	0	.5688	.3138	.1673	.0859	0422	0198	0088	,0036	.0014	.0005	л
	1	.8293	-3835	.3248	2862	.1549	.0932	,0518	.0266	,012-5	.0054	Hi
	2	.0867	.2131	.2866	.2953	.2581	.1998	.1395	,0887	.0513	.0269	-
	3	.0137	.0710	.1517	.2215	.2581	.2568	.2254	.1774	.1259	.0806	г
	4	.0014	.0158	.0536	.1107	.1721	.2201	.2428	.2365	.2060	.1611	ч*.
	5	.0001	0025	.0182	.0388	.0803	.1321	.1830	.2207	.2360	.2256	г
	6	.0000	.0003	.0023	.0097	.0268	.0566	.0985	1471	.1931	.2256	i
	7	.0000	0000	.0003	.0017	0064	.0173	.0379	0701	1J28	.1611	
	8	.0000	.0000	.0000	.0002	ООП	.0037	.0102	-0231	.0462	.080(5	
	9	.0000	.0000	.0000	.0000	.0001	,0005	.0018	.0052	.0126	.0269	к
	10	,0000	.0000	.0000	.0000	.0000.	.0000	.0002	.0007	.0021	.0054	<
	И	.0000	.0000	.0000	.0000	-0000	.0000	.0000	.0000	.0002	.0005	ч
12 •*	0	5404	.2824	.1422	.0687	.0817	.0138	.0057	,0022	.0008	.0002	л.
	1	.8413	.3766	,3012	.2062	Л 267	.0712	.0368	0174	.0075	.0029	
	2	.0988	.2301	.2924	.2835	.2328	.1678	Л 088	0639	.0339	.0161	X
	.3	.0173	.0852	.1720	.2362	.2581	.2397	.1954	1419	.0923	.0537	?
	4	.0021	.0213	.*683	1329	.1936	.2311	.2367	.2128	.1700	Л 208	
	5	.0002	.0038	.0193	.0532	.1032	.1585	.2039	,2270	.2225	.1934	
	6	..(МММ)	.0005	.0040	.0155	.0401	.0792	.1281	.1766	?2124	2256	
	7	.0000	.0000	.0006	.0033	.0115	0291	.0591	.1009	.1489	.1934	
	В	.0000	.0000	.0001	.0005	.0024	.0078	.0199	.0420	.0762	.1208	-
	9	.0000	юоо	.0000	.(ММ)1	.0004	0015	.0048	,0125	.0277	.0537	
	10	.0000	.0000	-0000	.(МММ)	0000	.0002	.0008	.0025	.0068	.0161	*
	11	.0000	.(МММ)	.0000	(ХММ)	оооо	0000	.0001	.0003	0010	.0029	
	12	.0000	.0000	.(МММ)	.0000	.(МММ)	-0000	,0000	.0006	0001	.0002	
13	0.	.5183	.2542	.1209	.0550	.0288	.0097	.0037	.0013	.0004	0001	-
	1	.3512	,3672	.2774	.1787	.1029	.0540	.0259	.0113	,0045	,0016	»
	2-	.1109	.2448	.2937	2680	.2059	.1888	,0836	.0453	.0220	.0095	
	3	.0214	.0997	.1900	.2457	.2517	.2181	.1651	-.1107	0660	0349	
	4	.0028	.0277	.0838	.1535	•097	.2337	.2222	.1845	1350	0873	
	5	.0003	0055	.0266	.0691	.1258	.1803	.2154	.2214	.1989	.1671	jp
	6	.0000	МОЯ	.0063	.0230	.0559	ЛОЗО	.1546	.1968	.2169	.2095	
	7	.0000	0001	.ООП	.0058	.0186	.0442	.0833	1312	1775	.2095	
	8	.(МММ)	ото	.ООО]	.ООП	.0047	.0142	.0336	0656	.1089	Л571	
	9	.0000	.0000	.0000	.0001	.0009	0034	.0101	.0243	,0495	.0873	
377
Продолжение табл. II
Р
п	X	05	до	.15	20	.25	.30	.35	.40	.45	,50
	10	.0000	0000	.0000	.0000	.0001	.0006	.0022	.0065	.0162	.0349
	11	.0000	0000	.0000	.0000	оиоо	.0001	.0008	0012	.0036	0095
	12	.0000	.0000	0000	.0000	.0000	.0000	.0000	.0001	. .0005	.0016
	13	.0000	.0000	.0000	.0000	<4)00	.0000	.0000	.0000	.0000	,0001
14	й	.4877	.2288	.1028	.0440	.0178	.0068	.0024	.0008	.0002	ообт
	1	.3593	.3559	.2539	.1539	.0882	.0407	.0131	.0073	.0027	0009
	2	.1229	.2570	.2912	.2501	.1802	,1134	.0634	.0317	0141	.0056
	3	0259	.1142	.2056	2501	2402	.1943	.1366	0845	.0462	.0222
•	4	.0037	.0348	.0998	Я 720	.2202	.2290	.2022	.1549	.1040	.0611
	5	0004	.0078	.0352	.0860	1468	.1963	,2178	,2066	Л701	Л 222
	6	0000	.0013	.0093	.0322	.0734	.1262	.1759	,2066	.2088	1833
	7	.0000	.0002	.0019	.0092	.0280	0618	ЛО82	.1574	.1952	.2095
	8	.0000	.0000	.0003	.0020	,0082	.0232	.0510	0918	.1398	.1833
	9	.0000	.0000	.0000	0003	.0018	0066	,0183	.0408	.0762	.1222
	10	.0000	.0000	.0000	0000	.0003	.0014	.0049	0136	,0312	.0611
	11	.0000	.0000	.0000	.0000	.0000	0002	.0016	.0033	.9093	.0222
	12	.0000	.0000	0000	.0000	.0000	' .0000	.0001	.0005	.0019	.6056
	13	.0000	.0000	.0000	0000	.0000	.0000	.0000	.0001	.0002	.0009
	14	.0000	0000	,0000	.0000	.0000	.0000	.0000	.0000	,0000	.ООО!
15	0	.4633	.2059	.0874	.0352	.0134	.0047	.0016	.0005	.0001	0000.
	1	.3658	,3432	.2812	1319	,0668	.0305	.0126	.0047	.0016	.0005
	2	.1348	2669	..2856	2309	.1559	.0916	.0476	.0219	,0090	(ю32
	3	.0307	.1285	-2184	2501	.2252	.1700	1110	0634	.0318	0139
	4	.0049	0428	,1156	.1876	.2252	.2186	,1792	.1268	.0780	.0417
	5	.0006	.0105	.0449	Л 032	1651	.2061	.2123	.1859	.1404	,0916
	6	.0000	.0019	.0132	.0430	0917	.1472	.1906	.2066	Л914	Л527
	7	.0000	.0003	.0030.	0138	.03^3	0811	-1319	.1771	.2013	1964
	8	.0000	.0000	0005	.0035	.0131	.0348	.0710	.1181	-1647	-1964
	9	.0000	.0000	.0001	0007	.0034	.0116	л)298	.0612	.1048	1527
	10	.0000	.0000	.0000	.0001	.0007	.0030	.0096	.0245	.0515	.0916
	11	.0000	.0000	.0000	.0000	.000!	.0006	.0024	.0074	.0191	.0417
	12	.0000	.0000	.0000	.0000	.0000	.0001	.0004	.0016	.0052	,0139
	13	:оооо	.0000	.0000	.0000	.0000	.0000	.0001	,0003	.0010	.0032
	14	.0000	0000	.0000	.0000	.0000	.0000	.0000	,0000	.0001	,0005
	15	.0000	.0000	.0000	.0000	,0000	0000	.0000	,0000	.0000	.0000
* 16	0	.4401	.1853	.0743	.0281	.0100	.0033	.0010	.0003	0001	.0000
	1	.3706	.3294	.2097	1126	.0535	.0228	.0087	.0030	.0009	0002 -
	2	.1463	.2745	.2775	2111	.1336	.0732	.0353	.0150	-0056	.0018
	3	.0359	.1423	.2285	2463	.2079	1465	.0888	.0468	.0215	.0085
	4	.0061	.0514	.1311	2001	.2252	2040	.1553	.1014	0572	0278
-	5	0008	.0137	.0555	.1201	.1802	.2099	2008	.1623	Л128	,0667
	6	0001	.0028	.0180	0550	.1101	Л 649	1982	Л 983	,1684	1222
	7	.0000	.0004	.0045	.0197	0524	-1010	.1524	-1889	1969	.1746
	8	.0000	.0001	.0009	.0055	.0197	.0487	.0923	Л417	.1812	1964
	9	.0000	0000	,0001	.0012	.0058	0185	0442	.0840	.1318	1746
-	10	.0000	.0000	,0000	.0002	.0014	.0056	.0167	.0392	0755	.1222
	11	.0000	.0000	.0000	.0000	0002	.0013	.0049	.0142	.0337	.0667
378
Продолжение табл. П
Р
	п	X	.05	* .10	.15	.20	.25	.30	.35	.40	45	.50	1
		12	.0000	<хюо	.0000	.0000	.0000	0002	-ООП	0040	,0115	.0278	1
		13	.0000	оооо	.0000	.0000	оооо	(ХМЮ	0002	0008	.0029	0085	
		14	.0000	.0000	.0000	.0000	.0000	.оооо	.0000	.0001	.0005	0018	V 7
		15	.0000	.0000	.0000	.ОООО	оооо	.0000	оооо	.0000	.0001	.0002	i
		16	.0000 И"	оооо	.0000	-(МХМ>	„оооо	оооо	.0000	.0000	ОООО	ОООО	
	17	0	.4181	.1668	.0631	.0225	.0075	.0023	♦0007	.0002	ОООО	.0000	
		I	.3741	.3150	.1893	.0957	.0426	.0169	.0060	.0019	.0005	.0001	
		2	.1575	.2800	.2673	.1914	.1136	.0581	.0260	.0102	.0035	.0010	1
	V .	х	3	.0415	.1556	.2359	.2393	.1893	Л 245	.0701	.0341	.0144	.0052	J"
		4	.0076	.0605	Л457	.2093	.2209	Л868	Л 820	.0796	-0411	.0182	f
		5	0010	.0175	.0668	.1361	.1914	,2081	1849	.1379	0875	0472	
		6	.0001	.0039	.0236	.0680	.1276	Л 784	.1991	Л 839	,1432	0944	
		7	.0000	0007	.0065	.0267	.0668	.1201	Л685	.1927	.1841	.1484	4 Ж»
		b	.0000	.0001	.0014	.0084	.0279	.0644	.1134	Л606	.1883	.1855	
	" -	9	.0000	.0000	.0003	.0021	.0093	.0276	.0611	Л070	-1540	.1855	
	-	10	.0000	.0000	.0000	.0004	.0025	00%	.0263	.0571	.1008	1484 ,	V
		н	.0000	.0000	.0000	.0001	.0005	0026	.0090	0242	.0525	.0944 	
		12	.0000	,0000	9000	.0000	.0001	.0006	.0024	.0021	.0215	.0472	
		13	.0000	оооо	.0000	.0000	.оооо	.0001	.0005	.0021	.0068	.0182	4
		14	.0000	(ХХЮ	.0000	.ОООО	.0000	.0000	,0001	.0004	.0016	0052	л
		15	.0000	.0000	.оооо	.0000	.0000	.0000	.0000	.0001	0003	.0010	
		16	,0000	.0000	.0000	.0000	.0000	.0000	.0000	.ОоОО	.0000	.0001	
		17	.0000	оооо	люоо	(XXX)	оооо	.0000	.0000	.0000	.0000	ОООО	j-
			г									<	/
	18	0	.3972	.1501	.0586	.0180	.0056	.0016	.0004	0001	оооо	.0000	
		1	.3763	.3002	.1704	.0811	.0338	.0126	.0042	.0012	,0003	.0001	
		2	.1683	.2835	.2556	.1723	,0958	.0458	.0190	.0069	.0022	0006	
		3	.0473	1680	.2406	.2297	Л 704	Л046	0547	.0246	.0095	.0031	
	'	4	.0093	0700	.1592	.2153	.2130	Л681	.1104	.0614	.0291	.0117	
		5	.0014	.0218	.0787	.1507	,1988	-2017	Л 664	.1146	0666	.3327	4
		 6	.0002	.0052	.0301	.0816	-1436	Л873	Л 941	Л655	1181	.0708	
		7	.0000	0010	.0091	.0350	.0820	Л 876	1792	Л892	1657	.1214	
	«	8.	.0000	0002	.0022	.0120	.0376	.0811	Л 327	.1734	Л 864	.1669	
		9	9000	.0000	.0004	.0033	.0139	.0386	.0794	.1284	.1694	.1855	
		10	-0000	оооо	.0001	.0008	0042	.0149	.0385	.0771	.1248	.1669	
		11	ЛЧЮО	.оооо'	.0000	.0001	.0010	.0046	.0151	.0374	.0742	.1214	
	-	12	обоо	.0000	оооо	ОООО	.0002	.0012	.0047	.0145	.0354	.0708	
		13	,0000	.0000	.0000	_0<МЮ	.0000	.0002	.0012	0044	♦0184	.0327	
		14	оооо	.0000	.0000	-ОООО	.0000	ОООО	♦0002	ООП	.0039	.0117	
		15	оооо	.0000	.0000	.0000	.0000	ОООО	.0000	0002	.0009	.0031	
		16	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0001	.0006	
		17	.0000	.0000	.0000	ЛЮОО	.0000	.0000	ОООО	.ОООО	ОООО	0001	
		18	.0000	.оооо	.0000	.0000	.0000	.0000	-ОООО	.0000	оооо	.0000	1
	19	0	.3774	.1351	.0456	.0144	,0042	.ООП	.0003	.0001	оооо	.0000	
		1	.3774	.2852	.1529	.0685	.0268	0093	.0029	.0008	.0002	.0000	
	Г	2	.1787	,2852	2428	.1540	0803	.0358	.0188	.0046	.0013	.0003 •	
379
Продолжение табл. П
/>
л X	„05	.10	.15	.20	.25	.30	.35	.40	.45	50
3	.0533	.1796	.2428	.2182	.1517	.0869	0422	.0175	,0062	0018
4	.0112	.0798	.1714	.2182	.2023	.1491	0909	'.0467	.0203	.0074
5	.0018	.0266	.0907	.1636	.2023	.1916	1468	.0933	.0497	0222
6	.0002	.0069	.0374	.0955	.1574	.1916	1844	.1451	.0949	.0518
7	.oooo	.0014	.0122	-0443	.0974	. 1525	.1844	.1797	.1448	.9961
8	.0000	.0002	.0032	.0166	.0487	.0981	'.1489	.1797	.1771	.1442
9	.0000	.0000	.0007	-00K1	.0198	.0514	.0980	.1464	.1771	.1762
10	.0000	.0000	.0001	.0013	.0066	,0220	.0528	.0976	.1449	.1762
11	.0000 ь	.0000	.0000	0008	.0018	.0077	.0233	,0532	.0970	.1442
12	,0000.	.0000	.0000	.0000	,0004	.0022	.0083	.0237	.0529	.0961
13	.0000	.0000	.0000	9000	.0001	.0005	.0024	.0085	.0233	.051»
14	.0000	.0000	.0000	.0000	.0000	.0001	.0006	.0024	,0082	,022г
15	.0000	.0000	.0000	.0000	.0000	.0000	.0001	.0005	.0022	,0074
16	.0000	0000	.0000	.0000	.0000	.0000	oooo	.0001	.0005	.0018
17	0000	.0000 .	-0000	.0000	.0000	oooo	.0000	.0000	.0001	.0003
18	0000	.0000	.0000	.0000	.0000	oooo	.0000	.0000	.0000	0000
19	0000	.0000	.0000	.oooo	.0000	oooo	.0000	.0000	.0000	oooo
20	0	3585	1216	.0388	.0115	.0032	0008	.0002	oooo	.0000	OOOO
I	,3774	.2702	.1368	.0576	-0211	.0068	.0020	0005	0001	.0000
2	1887	.2852	.2293	.1369	.0669	.0278	.0100	0031	0008	.0002
8	.0596	.1901	.2428	.2054	.1339	.0716	.0323	.0123	0040	.6011
4	.0133	.0898	.1821	.2182	.1897	.1304	.0738	.0350	.0139	6046
5	.0022	.0319	.1028	.1746	.2023	.1789	.1272	0746	0365	.0148
6	.0003	.0089	0454	.1091	.1686	.1916	.1712	.1244	.0746	.0370
7	.0000	.0020	.0160	.0545	.1124	.1643	.1844	1659	.1221	.0739
8	.0000	.0004	0046	.0222	.0609	.1144	.1614	1797	.1623	.1201
9	.0000	0001	.0011	.0074	.0271	.0654	.1158	.1597	.1771	.1602
10	.0000	oooo	0002	.0020	.0099	.0308	.0686	1171	.1593	,1762
11	(XjOO	.0000	0000	.0005	.0030	.0120	.0336	.0710	.1185	.1602
12	.0000	.0000	.0000	.0001	.0008	.0039	.0136	.0355	.0727	.1201
13	.0000	.0000	OOOO	.0000	.0002	0010	.0045	-0146	.0366	.0739
14	,0000	.0000	.0000	.0000	.ООО)	-0002	.0012	.0049	.0150	.0370
15	.0000	.0000	.0000	.0000	.0000	.0000	/ЮОЗ	.0013	.0049	.0148
16	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0003	.0013	.0046
17	.0000	.0000	.0000	.0000	.0000	.0000	/XXX)	9000	.0002	.0011
18	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0000	,0000	.0002
19	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0000
20	-O000	.0000	,0000	.0000	.0000	.0000	.0000	.0000	oooo	.6000
1«
------------------------------------------_----------------------------------------------------------------- :
П( имечашме.
Данные взяты из источника Tables of the Binomial Distribution, National Bureau of Standards,
Applied Mathematics Series 6, U.S. Department of Commerce, 1952.
380
к Таблица Ш Ординаты и площади нормальной кривой ч									1 	
Z	/(х)	А,’	Z	/(х)	А/	Z	/(X)	Ап*		i
.00	-39894	.00000	.20	.39104	.07926	,40	.36827	.15542		
.01	.39892	.00899	.21	.39024	.08317	,41	.36678	.15910		
.02	.39886	00798	.22	.38940	.08706	-42	,36526	.16276		\
.03	.39876	.01197	.23	.38853	.09095	.43	.86371	.16640		
.04	39862	.01595	.24	38762	.09483	.44	.36213	.17003		
.05	.39844	01994	.25	.38667	.09871	.45	.86053	.17364		
.06	.39822	.02392	.26	.38568	.10257	.46	.35889	.17724		
.07	.39797	.02790	.27	.38466	,10642	47	.35723	.18082		
.08	.39767	.03188	.28	,38361	.11026	.48	.35553	.18439		1
.09	.39733	.03586	.29 а	.38251	.11409	.46	.35881	.18793		S
.10	.39695	03988	.30	38139	.11791	.50	35207	.19146		ж
.11	.39654	.04380	31	.38023	.12172	.51	.35029	.19497		
.12	.39608	.04776	.32	.37903	.12552	.52	.84849	.19847		
.13	.39559	.05172	.33	.37780	.12930	.53	.34667	.20194		
.14	.39505	.05567	.34	37654	.13307	34	.31482	.20540		
.15	59448	.05962	35	.37524	.13688	.55	.84294	.20884		>
.16	.39387	.06356	.36	.37391	.14058	.56	.84105	.21226		
.17	.39322	.06749	.87	.37255	.14431	57	.33912	.21566		
18	.39253	.07142	.38	.37115	.14803	.58	.33718	.21904		
Л9	.39181	.07535	.39	.36973	.15173	.59	.33521	.22240		
.60	.33322	.22575	1.05	.22988	.35814	1.50	,12952	.43319		<
.61	.33121	.22907	1.06	.22747	.35543	1.51	.12758	.43448		
.62	-32918	.23237	1.07	22506	.35769	1.52	Л2566	.43574		
.68	32713	.23565	1.08	.22265	'35993	1-53	.12376	.43699		ж
.64	.32506	.23891	1.09	.22025	.36214	1.54	.12188	.43822		
.65	.32297	.24215	1.10	.21785	.36433	1.55	.12001	43943		
.66	32086	.24537'	1.11	,21546	.36650	1.56	.11816	.44062		
.67	.31874	.24857	1.12	.21307	.36864	1.57	11632	.44179		1
.68	31659	.25175	1.13	.21069	.37076	L58	Л1450	.44295		
.69	,31443	.25490	1.14	.20831	.37286	1.59	11270	.44408		
.70	31225	.25804	1.15	.20594	.37493	1.60	Л1092	.44520	-	Г
.71	.31006	.26115	1.16	.20357	.37698	1.61	Л0915	.44630		1
.72	.30785	.26424	1.17	.20121	.37900	L62	Л0741	.44738		
-78	30563	.26730	1.18	.19886	.38100	1.63	.10567	.44845		
.74	.30339	.27035	1.19	.19652	.38298	1,64	.10396	.44950		
.75	.30114	.27337	1.20	,19419	.38493	1.65	Л0226	.45053		
.76	29887	.27637	1.21	.19186	.38686	1 66	.10059	.45154		
.77	.29659	.27935	1.22	Л 8954	.38877	1.67	.09893	.45254		
.78	.29431	.28230	1.23	Л 8724	39065	168	.09728	.45352		
.79	.29206	.28524	1.24	Л8494	.39251	1.69	.09566	.45449		
.80	.28969	.28814	1.25	.18265	.39435	1.70	.09405	.45543		
.81	,28737	29103	L26	.18037	.39617	1.71	09246	.45637		1
.82	.28504	.29389	1.27	.17810	.39796	1-72	.09089	.45728		
.83	.28269	.29673	1.28	.17585	.39973	L73	.08933	.45818	*	
.84	.28034	29955	1.29	Л7360	.40147	1.74	.08780	.45907		
381
Продолжение табл- III
z	fw	А»	z	f(l)	Ao	z	f(z)	An*
.85	.27798	30234	1.80	.17137	.40320	1.75	.08628	.45994
86	.27562	.30511	1.31	.16915	.40490	1.76	.08478	.46080
.87	.27324	.30785	1.32	16694	40658	1.77	.08329	.46164
88	.27086	.31057	1.33	16474	.40824	1.78	.08183	.46246
.89	.26848	.31327	1.34	.16256	40988	1.79	.08038	.46327
.90	.26609	.31594	1.35	.16038	.41149	1.80	.07895	.46407
.91	.26369	.31859	136	.15822	.41309	1.81	.07754	.46485
.92	.26129	. .32121	' 1.37	.15608	.41466	1.82	.07614	.46562
.93	.25888	.32381	1.38	.15395	41621	1.83	.07477	.46638
94	.25647	.32639	L39	.15183	.41774	1.84	.07341	.46712
.95	.25406	.32894	‘1.40	.14973	.41924	1.85	.07206	.46784
.96	25164	.33147	1.41	.14764	.42073	1.86	07074-	.46856
.97	24923	.33398	1.42	.14556	.42220	1.87	06943	.46926
.98	.24681	.33646	143	.14350	.42364	1.88	.06814	.46995
.99	24439	.33891	144	.14146	.42507	1.89	.06687	47062
1.00	.24197	.34134	1.45	.13943	.42647	1.90	.06562	.47128
L01	.23955	.34375	1.46	.13742	.42786	1.91	.06439	.47193
1.02	.23713	.34614	1.47	.13542	.42922	*1.92	.06316	.47257
1.03	.23471	.34850	1.48	.13344	.43056	1.93	.06195	.47320
1.04	.23230	.35083	1 49	.13147	.43189	1.94	.06077	.47881
1.95	.05959	.47441	2.40	.02239	.49180	2.85	.00687	.49781
196	05844	.47500	2.41	.02186	49202	286	.00668	.49788
197	.05730	47558	2.42	.02134	.49224	2.87	.00649	.49795
1 98	.05618	.47615	2.43	.02683	.49245	2.88	00631	.49801
1.99	.05508	47670	2.44	.02033	.49266	2.89	.00613	.49807
2.00	.05399	.47725	2A5	.01984	.49286	290	.00595	.49813
2.01	.05292	4777S	2.46	.01936	.49305	291 .	.00578	.49819
2.02	.05186	47831	2.47	.01889	.49324	2.92	.00562	.49825
2.03	05082	.47882	2 48	.01842	.49343	2.93	.00545	.49831
2.M	.04980	.47932	2.49	.01797	49361	2.94	.00530	.49836
205	.04879	.47982	2.50	.01753	.49379	2.95	.00514	.49841
2.06	.04780	.48030	2.51	.01709	.49396	2.96	.00499	.49846
2.07	.04682	.48077	2.52	.01667	.49413	2.97	.00485	.49851
2.08	04586	-48124	2.53	.01625	.49430	2.98	.00471	.49856
2.09	.04491	.48169	2.54	.01585	49446	2.99	.00457	-.49861
2.10	.04398	.48214	2-55	.01545	.49461	3.00	.00443	.49865
2.11	.04307	.48257	2.56	.01506	.49477	3.01	.00430	.49869
2.12	.04217	.48300	2.57	.01468	.49492	3.02	.00417	.49874
2.13	.04128	.48341	2.58	.01431	.49506	3.03	.00405	.49878
2.14	.04041 •	.48382	2.59	.01394	.49520	3.04	.00393	.49882
2.15	.03955	48422	2.60	.01358	.49534	3.05	.00381	.49886
2.16	.03871	.48461	2.61	01323	.49547	3.06	.00370	.49889
2.17	.03788	.48500	2.62	.01289	.49560	3.07	.00358	.49893
2.18	.03706	.48537	2.63	.01256	.49573	3.08	.00348	.49897
2.19	.03626	.48574	2.64	.01223	.49585	3.09	00337	.49900
382
Продолжение табл. Ill
JU	fM	A,.’	z	Z(i)	A.*	*	/U)	A..1 	 1	
								t	
2-20	,03547	.48610	2.65	.01191	49598	3.10	.00327	.49903	-
2.21	.03470	Л8645	2 66	.01160	.49609	3.11	00317	49906	•
2.22	.03894	.48679	2.67	.01130	49621	3.12	00307	.49910	
2.23	.08319	.48718	2.68	.01100	49632	3.13	00298	49913	,	
2.24	.03246	.48745	2.69	.01071	49643	3.14	.00288	.49916	1 1
2.25	.03174	.48778	2.70	.01042	49653	3.15	.00279	49918	"r
2.26	03103	.48809	2.7!	01014	.49664	3.16	.00271	49921	
2.27	.03034	.48840	2.72	.00987	.49674	3.17	.00262	49924	I
2.28	.02965	.48870	2.73	.00961	-49683	3.18	.00254	49926	T «
2.29	.02898	.48899	2.74	.00935	49693	3.19	.002-16	49929	u /
2.ЗД	02833	.48928	2.75	.00909	49702	3.20	.00238	.49931	
2.31	.02768	.48056	2.76	.00885	.49711	3.21	.00231	.49934	
2.32	.02705	.48983	2.77	.OObtil	49720	3.22	.00224	.49936-	
2.38	.02643	.49010	2.78	.00837	.49728	3.23	.00216	.49938	л
2-34	.02582	.49036	2.79	.00814	49736	3.24	.00210-	.49940	
2.35	.02522	. .49061	2.80	.00792	49744	3.25	.00203	.49942	e
2.36	.02463	49086	2.81	.00770	.49752	3.26	.00196	49944	
2.37	.02406	.49111	2.82	.00748	.49760	3,27	00190	49946	
2.38	.02349	.49134	2.83	.00727	.49767	3.28	.00184	.49948*	k
2.39	.02294	.49158	2.84	.00707	,49774	3.29	(Ю178	.49950	
3.30	.00172	.49952	3.55	.00073	49981	3.80	.00029	.49993	
3.31	.00167	.49953	3.56	.00071	49981	3.81	.00028	.49993	
3.32	00161	.49955	3.57	,00068	.49982	3.82	00027	.49993	
3.33	.00156	.49957	3.58	„00066	.49983	3.83	00026	.49994	
3.34	.00151	49958	3.59	.00063	,49983	3.84	.00025	.49994	
3.85	.00146	.49960	3:60	00061	49984	3.85	00024	.49994	
3.36	.00141	.49961	3.61	.00059	49985	3.86	.00023	.49994	
3.37	.00136	.49962	3.62	00057	.49985	3.87	.00022	.49995	
3.38	.00132	.49964	3.63	.00055	.49986	3.88	.00021	.49995	
3.39	.00127	49965	3.64	.00058	49986	3.89	.00021	.49995	X
340	.00123	49966	3.65	-00051	49987	3.90	.00020	.49996	
3.41	00119	.49968	3.66	.00049	,49987	3.91	.00019	49995	-
3.42	.00115	.49969	3.67	.00047	.49988	392	.00018	;49996	
3.43	.00111	,49970	3.68	.00046	49988	3.93	00018	.49996	
3.44	.00107	.49971	3.69	.00044	49989	3.94	00017	.49996	
*	3.45	,00104	.49972	3.70	.00042	.49989	3.95	.00016	49996	
3-46	.00100	,49973	3.71	.00041	49990	3.96	.00016	49996	
3.47	.00097	.49974	8.72	.00039	49990	3.97	00015	49996	
3.48	.00094	.49975	3.73	.00038	49990	3,98	00014	.49997	a
3.49	.00090	.49976	3.74	.00037	.49991	3.99	.00014	.49997	л
3.50	.00087	49977	3.75	.00035	.49991				
3.51	,00084	.49978	8.76	00084	49992				i
3.52	00081	.49978	3.77	.00033	49992			•	
3.53	.00079	49979	8.78	.00031	.49992				
I	3.54	.00076	49980	8.79	.00030	.49992				
Примечание.									I
i	Данные взяты	из источника Mathematic!, al Statistics by TF. Kenney and E.S. Keromc © 1954								C
Litton Educational Publishing, Inc.			Воспроизводится		с разрешения Van Nostrand			Reinhold Com-	
1	pauy.									
i								383	
'r J Таблица IV. Площади под нормальной кривой									
	Z	А*_»	Z	Ai-	г	А’_	Z	Аж-	
	.00	-5000	.10	.5398	-20	,5793	-30	,6179	
	.01	5040	.11	.5438	.21	.5832	.31	.6217	
	.02	.5080	.12	.5478	.22	.5871	.32	.6255	
	.03	.5120	.18	.5517	.23	.5910	.33	6298	
	ЛИ	.5160	-14	.5557	.24	.5948	34	.6331	
	.05	.5199	.15	.5596	.25	.5987	,35	.6368	
	.06	.5239	.16	.5636	26	.6026	.36	.6406	
	.07	.5279	.17	.5675	.27	.6064	.37	.6443	
	.08	.5319	.18	.5714	.28	.6103	.38	6480	
	.09	.5359	,19	.5758	.29	.6141	.39	„6517	
	.40	6554	.85	.8023	1.30	.9032	1.75	„9599	
	.41	.6591	.86	.8051	1.31	9049	1.76	.9608	•
	.42	-6628	.87	8079	L32	.9066	1,77	.9616	
	.48	.6664	.88	.8106	1,33	,9082	1,78	.9625	
	.44	.6700	.89	-8133	1.34	.9099	1,79	.9633	
	.45	.6736	90	.8159	1.35	.9115	1.80	.9641	
	.46	.6772	,91	.8186	1,36	.9131	1.81	.9649	
	.47	6808	.92	.8212	1.37	.9147	1.82	,9656	
	.48	6844	.93	.8238	L38	.9162	1.83	.9664	
	.49	.6879	.94	.8264	1.39	.9177	1.84	9671	
	.50	.6915 	.95	.8289	1 40	.9192	1.85	„9678	
	.51	.6950	.96	.8315	1.41	,‘>207	1.86	9686	
	.52	.6985	.97	.8340	1.42	.9222	1.87	.9693	
	.53	.7019	.98	.8365	1.43	.9236	1,88	.9699	
	.54	.7054	.99	8389	1.44	,9251	1.89	9706	
	.55	.7088	1.00	.8418	1.45	.9265	1.90	.9713	
	.56	7123	1.01	.8438	1.46	.9279	1.91	,9719	
	.57	.7157	1.02	.8461	1.47	9292	1.92	,9726	
	.58	.7190	1.03	.8485	1.48	,9306	1.93	.9732	
Ч	.59	.7224	1,04	.8508	1.49	.9319	1,94	.9738	
	.60	.7257	L05	,8531	1.50	.9332	1.95	.9744	
	,61	.7291	1.06	8554	1-51	.9345	1 96	.9750	
	.62	.7324	1.07	8577	1 52	.9357	197	.9756	
	.63	.7357	1.08	8599	1.53	.9370	1,98	9761	
	-64	7389	1.09	.8621	1.54	.9382	1.99	9767	
-	.65	.7422	1.10	.8648	1.55	.9394	2.00	.9773	
	.66	.7454	1.11	.8665	1.56	.9406	2,01	.9778	
	.67	.7486	1.12	8686	1.57	.9418	2.02	.9783	
	,68	-7517	1.13	.8708	1.58	.9429	2.03	.9788	
	.69	.7549	114	,8729	1.59	,9441	2.04	,9793	
	.70	.7580	1.15	.8749	1.60	.9452	2.05	,9798	
*	.71	.761]	1.16	-8770	1.61	.9463	2.06	.9803	
	.72	.7642	1.17	.8790	1-62	9474	2.07	.9808	
	.73	.7673	1,18	.8810	1 63	.9484	2 08	9812	
	.74	.7704	1.19	.8830	1.64	9495	2 09	.9817	
	.75	.7734	I 20	.8849	1.65	.9505	2.10	.9821	
	.76	.7764	1.21	.8869	1,66	.9515	2.11	.9826	
	.77	.7794	1.22	-8888	1.67	.9525	2.12	.9830	
	.78	.7823	1-23	.8907	1.68	,9535	2.13	.9834	
	.79	.7852	1 24	.8925	1-69	.9545	2.14	.9888	
	f .80	.7881	1.25	.8944	1.70	.9554	2,15	.9842	
	.81	.7910	1.26	.8962	1.71	.9564	2.16	9846	
1
*
I
:<
I
384
Продолжение таЬл IV							1					
		z	AL-	X	al.	X	AL. .	x	A‘-	t		i
।		.82	.7939	1.27	.8980	1.72	.9573	2.17	9850			
		.83	.7967	1,28	.8997	1.73	.9582	2Л8	.9854			
		.84	.7995	L29	9015	1.74	.9591	2.19	.9857			
		2.20	.9861	2.65	.9960	3.10	.9990	3.55	.9998	L		-
		2.21	9864	2.66	.9961	3.11	.9991	3.56	.9998			•
		2.22	.9868	2 67	.9962	3.12	.9991	3 57	.9998			-
1 1		2.23	.9871	2.68	.9963	3.13	.9991	3.58	.9998			r
i		2.24	9875	2.69	.9964	3.14	.9992	3.59	.9998			X
		2.25	.9878	2.70	.9965	3.15	,9992	360	9998			i
		.2.26	.9881	2.71	.9966	3.16	.9992	3.61	9998			jC
		2.27	.9884	2.72	.9967	3.17	.9992	3.62	.9999			f
		2 28	.9887	2.73	9968	3.18	0993	3.63	.9999		•	
		2.29	.9890	2.74	,9969	3.19	.9993	3.64	9990			fl
		2.30	.9893	2.75	.9970	3.20	.9993	3.65	.9999			*
	V	231	.9896	2.76	.9971	8 21	.9998	3.66	9999			*
		2.32	.9898	2.77	.9972	3.22	9994	8.67	.9999			Л
		2.83	.9901	2.78	.9973	3.23	.9994	3.68	.9999			4.
	4	2.34	9904	2.79	.9974	3.24	.9991	3.69	,9999			
		2.35	.9906	2.80	.9974	3.25	„9994	3.70	.9999			
		2.36	.9909	2.81	«9975	3.26	9994	3.71	.9999			* V
		2.37	.9911	2.82	.9976	3.27	.9995	3.72	.9999			<
		2.38	.9913	2.83	.9977	3.28	.9995	3.78	.9999			
		2.39	.9916	2.84	«9977	3.29	9995	3.74	9999			
		2.40	9918	2.85	.9978	3.30	.9995	3.75	.9999			ай
		2.41	.9920	2.86	9979	8.31	9995	8.76	9999		1	
		2.42	.9922	2.87	.9979	3.82	.9996	3-77	.9999			
		2.43	.9925	288	.9980	3.33	.9996	3.78	.9999			
		2.44	9927	2.89	.9981	8 34	9996	8 79	9999			J
		2.45	9929	2.90	.9981	8.35	.9996	3-80	.9999			
		2 46	.9931	2.91	.9982	3.86	.9996	3.81	.9999			V 1
		2.47	9932	2.92	.9983	3.37	.9996	3.82	.9999			
		2 48	.9934	2.93	.9983	3.38	.9996	8.83	.9999			1
		2.49	.9936	2.94	.9984	3.39	.9997	3.84	.9999			
		2.50	.9988	2.95	.9984	3.40	.9997	3,85	.9999			
		2.51	.9940	2.96	.9985	3.41	.9997	3.86	.9999			
		2.52	.9941	297	.9985	8.42	.9997	3.87	.9999			
		2.53	.9943	2.98	.9986	3.48	.9997	8.88	.9999			
		2.54	.9945	2.99	.9986	3.44	.9997	3.89	1.0000			-
		2.55	.9946	3.00	.9987	3.45	,9997	3.90	1,0000			•
		2.56	.9948	3.01	.9987	8.46	9997	3.9L	1 0000			
		2.57	.9949	3.02	.9987	3-47	.9997	3.92	1.0000			
		2.58	.9951	3.03	.9988	348	.9997	3.98	I 0000			5
		2Л9	.9952	3.0*1	.9988	3.49	9998	3 94	I 0000			
		2.60	.9953	3.05	.9989	8.50	«9998	8.95	1.0000			
		261	.9955	3.06	.9989	8.51	9998	8.96	1 0000		-	
		2.62	9956	3.07	.9989	3.52	.9998	3.97	10000		,	К	1.
		263	S957	3.08	.9990	3.58	.9998	3.98	1.0000			
		2.64	.9959	8.09	.9990	3.54	.9998	399	1.0000			
Примечание.
Данные взяты из источника W.H. Beyer (Ed У Handbook of Tables for Probability and Siatisncs.
Cleveland, Ohio. The Chemical Rubber Co., 1966. Воспроизводится с табл. IL 1 с разрешения The
Chemical Rubber Co.
25—232
385
Таблица V, Нормальные случайные числа (д = 0, а = ])
01	02	03	04	05	06	07	08	09	10
"0.464 0.137	2.455	- 0.323	-0.068	0.296	-0.288	1.298	0.241 -0.957
0.060 - 2.526	-0.531	-0 194	0.543	- 1.558	0 187	-1.190	0.022 0.525
1.486 — 0.354	-0.634	0.697	0.926	1,375	0,785	-0.963	—0.853 -1.865
1.022 - 0.472 1	1.279	3.521	0.571	-1.851	0.194	1.192	-0.501 -0.273
1.394 - 0.555	0.046	0.321	2.945	1.974	— 0.258	0.412	0.439 -0.035
0.906 -0.513	-0.525	0.595	0.881	-0.934	1.579	0.161	-1.885 0.371
1.179 -1.055	0.007	0.769	0.971	0.712	1.090	-0.631	-0.255 - 0.702
-1.501 -0.488	-0.162	-0.136	1.033	0.203	0.448	0.748	- 0.423 - 0.432
-0.690 0.756	- 1.618	-0.345	— 0.511	— 2051	-0.457	— 0.218	0.857 - 0.465
1.372 0.225	0.378	0.761	0.181	-0.736	0.960	-1.530	-0.260 0.120
-0.482	1.678	— 0.057	-1 229	-0 486	0.856	-0.491	-1.983	-2 830 - 0.238
-1.376 - 0 150	1.356	— 0,561	-0.256	-0,212	0.219	0.779	0.953 -0.86!»
-1.010 0-598	-0918	1 598	0.065	0.415	-0.169	0.313	-0.973 -1.016
-0.005 -0.899	0.012	-0.725	1,147	-0.121	1.096	0.481	-1.691 0.417
1.393 -I.J63	-0.911	1.231	-0.199	-0.246	L239	-2.574	-0.558 0.056
-1.787 -0.261	1.237	1.046	-0.508	-1.630	-0.146	-0.392	-0.627 0.561
-0.105 - 0.357	-1.384	0.360	-0.992	-0.II6	-1.698	-2.832	-1.108 -2.357
-1-339 1.827	-0.959	0.424	0.969	-1.141	-1.04 Г	0.362	-1.726	1.95ft
1.041	0.535	0.731	1.377	0.988	-1.330	1.620	-1.040	0.524 -0.281
0.279 - 2.056	0.717	-0.873	-1.096	— 1-396	1.047	0.089	-0.573 0.932
— 1.805 - 2.008	-1.633	0.542	0.250	- 0.166	0.032	0,079	0.471 —1.029"
-1.186	1.180	1.114	0.882	1.265	-0.202	0.151	— 0.376	-0.310 0.479
(1658 -1.141	1.151	-1.210	-0.927	0.425	0.290	-0 902	0.610 2.709
-0.439 0.358	-1939	0.891	-0.227	0.602	0.873	-0.437	-0220 -0.057
-1.399 -0.230	0.385	-0.649	-0.577	0.237	-0.289	0.513	0.738 -0.300
0.199 0.208	-1.083	-0.219	-0.291	1.221	1.119	0,004	-2.015 -0.594
0.159 0.272	-0.313	0.084	-2.828	-0.489	-0.792	-1.275	-0.623 -4.047
2.273 0.606	0.606	-0.747	0.247	1,291	0063	-1.793	-0.699 -1.347
0.041 -0.307	0.121	0.790	-0.584	0.541	0.484	-0.986	0.481	0.996
-1.132 - 2.098	0.921	0.145	0.446	-1.661	1.045	-1363	-0.586 -1.023
0768 0.079	-1.473	0.034	-2.127	0.665	0.084	-0.880	-0.579 0.551
0.375 -1.658	-0.851	0.234	—0.656	0.340	-0,086	-0.158	-0.120 0.418
-0.513 —0.344	0.210	-0 735	1.041	0.008	0.427	-0,831	0.191 0.074
0.292 - 0.521	1.266	-1.206	-0.899	0.110	-0.528	-0.813	0.071 0.524
1.026 2.990	-0.574	— 0.491	-1.114	1.297	-1.433	-1545	-3.001	0.479
-1.334 1.278	—0.568	-0.109	-0.515	-0.566	2.923	0.500	0.359 0.3*16
-0.287 - 0.144	-0 254	0.574	-0.451	-1.181	-1.190	-0,318	-0.094	1.114
0.161 -0.886	-0.921	-0.509	1.410	-0.518	0,192	-0.432	1.501	1.068
-1.346 0.193	-1.202	0.394	-1.045	0.843	0.942	1.045	0.031 0.772
1.250 - 0.199	—0.288	1.810	1.378	0.584	L216 .	0,733	0.402 0.226
0.630 -0.537	. 0.782	0.060	0.499	-0.431	1.705	1.164	0.884 -0.298
0.375 -1.941	0.247	-0.491	-0.665	-0.135	-0.145	— 0-498	0.457	1.064
-1.420 0.489	-1.711	-1.186	0.754	-0.732	-0.066	1.006	-0.798 0.162
— р.151 -0.243	-0.430	-0 762	0.298	1.049	1.810	2.885	-0.768 - 0.129
- 0309 0.531	0.416	-1.541	1.456	2.040	-0.124	0.196	0.023 -1.204
386
Продолжение табл. V
01	02	03	04	05	06	07	08	09	10
0.424 -0.444	0.593	0.993	-0.106	0.116	0.484	-1.272	1.066	1.097
0.593 0.658	-1.127	-1.407	-i.579	- 1.616	1.458	1.262	0.736 -0.916	
0.862 -0.885	-0.142	-0.504	0.532	1.381	0.022	-0.281	-0,342	1.222
0.235 -0.628	-0.023	-0.463	-0.899	-0.394	—0.538	1.707	-0.188 —1.153	
-0.853 0,402	0.777	0.833	0.410	-0.349	-1.094	0.580	1.S95	1.298
-1.329 -0.238	-0.838	-0,988	-0.445	0964	-0.266	-0.322	-1.726	2.252
1.284 - 0.229	1.058	0.090	0 050	0528	0.016	0.277	1.639	0.554
0.619 0.628	0.005	0.973	-0.058	0 150	-0.635	-0.917	0.313 -1203	
0.699 -0.269	0.722	-0.994	-0.807	- 1 208	1.163	1.244	L306 — 1*210	
0.101	0.202	-0.150	0.731	0.420	0.116	-0.496	-0.037	-2.466	0 794
		•						
-1.381	0.301	0,522	0,233	0.791	-1.017	-0.182	0.926	-1.096	1.001
-0.574	1.366	— 1.843	0.746	0890	0.824	-1.249	-0.806	-0.240	0.217
0.096 0.210	1,091	0.990	0.900	-0.837	-1.097	-1.238	0,030 -0.311	
1.389 -0.236	0,094	3.282	0.295	-0.416	0.313	0.720	0.007	0.354
1.249 0.706	1.453	0.366	2.654	-1.400	0.212	0.307	-1.145	0.639
0.756 -0.397	-1.772	-0.257	1.120	1.188	—0.527	0.709	0.479	0.317
-0.860 0.412	-0.327	0.178	0.524	-0.672	-0.831	0.758	0.131	0.771
-0.778 - 0.979	0.236	-1.033	L497	-0,661	0.906	1.169	— 1.582	1.303
0.037 0.062	0.426	1.220	0.471	0.784	-0.719	0.465	1.559 -1.326	
2.619 - 0 440	0.477.	1.063	0.320	1.406	-0.701	-0.128	0.518 -0.676	
-0.420 - 0.287	— 0.050	-0.481	1.521	-1.367	0.609	0.292	0048	0.592
1.048 0.220	1.121	-1.789	-1.211	-0.871	-0.740	0.513	-0.558 - 0-395	
1.000 - 0.638	1,261	0 510	-0.150	0.034	0.054	-0.055	0.639 -0825	
0.170 -1.131	-0.985	0.102	-0.939	-1.457	1.766	1.087	-1.275	2.362
0.389 - 0.435	0.171	0.891	1.158	J ,041	1.048	-0.324	-0.404	1.060
- 0.305 0.838	-2.019	— 0.540	0.905	1.195	-1.190	0.106	0.571	0.298
-0.321 -0.039	1.799	- 1.032	-2.225	-0.148	0.758	-0.862	0.158 -0.726	
1.900 1.572	-0.244	-1.721	1.130	0.495	-0.484	0.014	-0.778 -1.483	
-0.778 - 0.288	-0.224	-1.324	- 0 072	0.890	-0.410	0.752	0.376 - 0.224	
0.617 -1.718	-0.183	-0.100	1.719	0.696	-1.389	-0.614	1.071 -0.386	
-1.430 - 0.953	0.770.	- 0007	-1.872	1.075	-0.913	-1.168	1.775	0.238
0.267 — 0.048	0.972	0.734	-1408	— 1.955	-0.848	2.002	0.232 -1273	
0.978 -0.520	-0.368	L690	-1.479	0.985	1.475	-0.098	-1.633	2.399
-1.235 —1.168	0.325	1421	2652	-0.486	-1.253	0.270	-1.103	0.118
-0.258 0.638	2.809	0.741	-0.161	-0.679	0.336	1.973	0.370 - 2.277	
0.243 0.629	-1.516	-0.157	0693	1 710	0.800	-0.265	1.218	0655
-0.292 -1.455	-1.451	1-492	-0.713	0321	-0.031	-0.780	1 330	0977
-0.505 0.389	0.544	-0.042	1.615	-1.440	-0.989	-0.580	.0.156	0.052
0.397 - 0.287	1.712	0.289	-0.904	0.259	-0.600	-1.635	-0.009 - 0.799	
-0.605 -0.470	0.007	0,721	-1.117	0.635	0.592	-1.362	-1.441	0.672
*25*
387
Продолжение табл. V
* 11	12	13	14	15	16	17	18	19	20
1.860	0.182	-1 476	— 0.599	-0.875	0.292	-0,700	0058	-0Л40	-0.639
0.480	-0.699	1.615	-0.225	1.014	-1.370	-1.097	0.294	0.309	-1.389
-0.027	-0487	-1 000	-0.015	0.119	-1.990	-0.687	-1.964	-0.366	1.759
- 1.482	-0815	-0.121	1.884	-0.185	0.601	0 793	0480	-1.181	0.426
-1.256	-0567	- 0.994	1.011	-1.071	- 0.623	-0.420	-0.309	1.362	0.863
-1.132	2.039	1.934	-0.222	0.386	1.100	0-284	1.597	-1.718	-0.560
-0.780	— 0.289	-0.497	— 0.434	-0.284	-0.241	-0.333	L848	-0.478	-0*169
-0.859	-0.215	0.241	1.471	0.889	-0.952	0.245	0.781	1.093	-0.240
0 447	1.479	0.067	0.426	-0.370	-0.675	-0.972	0.225	0.815	0.389
0.269	0.735	-0066	-0.271	— 1.439	1036	-0.306	-1.439	-0 122	-0-336
0.097	-1.883	-0.218	0.202	-0.357	0.019	1 631	1.400	0.223	-0.793
• 0Ъ86	1596	-0 286	0722	0.655	— 0.275	1.245	-1.504	0 066	-1.280
0.957	0.057	-1.153	0.701	-0.280	1.747	-0.745	1.338	-1.421	0.386
-0,976	— 1-789	-0.696	-1.799	-0Л54	0.071	2.355	0.135	-0.598	1.883
0.274	0.226	-0.909	-0.572	0.181	1.115	0.406	0.458	-1.218	-0.115
Примечание.
Данные нзяты нз источника W.H. Beyer (Ed,). Handbook of Tables for Probability and Statistics.
Cleveland, Ohio. The Chemical Rubber Co., 1966. Воспроизводятся с табл. XII. 4 с разрешения
The Chemical Rubber Co.
Габлнца VI. Распределение Пуассона i											
	X	0.1	0.2	0.3	0.4	m 05	0.6	0.7	0.8	0.9	1.0
	0	.9048	.8187	.7408	.6703	.6065	.5488	4966	.4493	.4066	.3679
	I	.0905	.1637	'2222	.2681	.3033	.3293	.3476	.3595	.3659	.3679
	2	.0045	0164	,0333	.0536	.0758	0988	.1217	1438	.1647	.1839
	Л	0002	ООП	,0033	.0072	.0126	0198	.0284	.0383	.0494	0613 -
	4 1	.0000	0001	0002	.0007	0016	0030	.0050	.0077	.0111	.0153
	5	JOOOO	.0000	.0000	.0001	.0002	.0004	.0007	.0012	0020	.0031
	6	оооо	.0000	.0000	.0000	.0000	.9000	.0001	.0002	.0003	.0005
	7	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0000	.0001
											
						m					
	X	1,Г.	1.2	1.3	1.4	15	1.6	1.7	1.8	1.9	2.0
	1 '										
	0	.3329	.3012	.2725	.2466	.2231	.2019	.1827	J 658	1496	J358
-	1	.3662	.3614	.3543	*8452	.3347	.3230	.3106	.2975	.2842	.2707
	2	.2014	.2169	2303	.2417	.2510	2584	2640	.2678	.2700	.2707
	3	.0738	.0867	0998	.1128	.1255	.1878	1496	.1607	.1710	.1804
	4	.0203	0260	-0324	0395	.0471	.0551	0636	.0723	.0812	.0902
	5	.0045	.0062	0084	.0111	.0141	0176	0216	.0260	.0309	,0361
	6	.0008	0012	.0018	0026	.0035	0047	.0061	.0078	0098	.0120
38»
Продолжение табл. VI
					тп					
-Vi	LI	1.2	1.3	1.4	1.5	16	1.7	L8	1.9	2.0
7	0001	.0002	.0003	.0005	.0008	ООП	.0015	.0020	0027	0034
8	.0000	.0000	.0001	,0001	.0001	.0002	,0003	.0005	0006	.0009
9	.0000	.0000	оооо	оооо	ОООО	ОООО	.0001	.0001	0001	.0002
										
					m					
X	2,1	2.2	2.3	2.4	2.5	2.6	2.7	2.8	2.9	8.0
0	Л 225	.1108	.1003	.0907	0821	.0743	.0672	.0608	0550	.0498
1	.2572	.2438	.2306	.2177	.2052	.1931	.1815	.1703	.1596	.1494
2	2700	.2681	.2652	.2618	.2565	.2510	.2450	.2884	.2314	.2240
3	.1890	1966	.2033	.2090	.2138	.2176	.2205	.2225	.2237	.2240
4	.0992	.1082	1169	.1254	.1336	.1414	.1488	.1557	,1622	1680
5	.0417	.0476	.0588	.0602	0668	.0735	.0804	.0872	.0940	.1008
6	.0146	.0174	0206	.0241	.0278	.0819	.0362	.0407	.0455	.0504
7	0044	.0055	,0068	.0083	.0099	.0118	.0139	.0163	.0188	.0216
8	.0011	.0015	.0019	,0025	.0031	.0038	.0047	.0057	.0068	.0081	.
9	.0008	.0004	.0005	.0007	.0009	.ООП	.0014	.0018	.0022	.0027
10	.0001	.0001	.0001	.0002	.0002	0003	0004	.0005	.0006	.0008
11	оооо	.0000	.0000	.0000	.0000	.0001	.0001	.0001	.0002	0002
12	.0000	.0000	оооо	.0000	,0000	.0000	.0000	.0000	.ОООО	.0001
X	3.1									4.0
		3,2	3.3	8.4	3.5	3.6	3.7	3.8	3.9	
0	.0450	.0408	.0369	.0334	.0302	.0273	.0247	.0224	.0202	0183
... 1	1397	.1304	.1217	.1185	Л 057	.0984	.0915	.0850	Ю789	0733
0	.2165	2087	.2008	Л 929	.1850	.1771	Л 692	Л615	1539	Л 465
3	.2237	.2226	.2209	,2186	.2158	.2125	.2087	2046	.2001	1954
4	.1734	.1781	1823	.1858	1888	Л912	.1931	.1944	1951	Л954 i '
. 5	.1075	1140	.1203	1264	.1322	.1377	.1429	.1477	.1522	.1563
6	.0555	.0608	.0662	.0716	.0771	.0826	.0881	.0936	.0989	Л 042
7	.0246	,0278	.0312	.0848	.0385	.0425	.0466	.0508	.0551	J0595 ‘
Я	.0095	.0111	.0129	.0148	.0169	.0191	,0215	-0241	.0269	.0298
9	,0038	.0040	.0047	.0056	.0066	0076	0089	.0102	.0116	.0132
10	.0010	.0018	.0016	.0019	.0023	.0028	.0033	,0039	,0045	.0053
И	.0003	0004	.0005	.0006	.0007	.0009	ООП	0013	.0016	.0019
12	.0001	.0001	.0001	.0002	.0002	.0003	,0003	0004	,0005	0006 ? -
13	.0000	.0000	ОООО	.0000	.0001	.0001	.0001	,0001	.0002	0002
14 । ।	.0000	.9000	.0000	.0000	.0000	.0000	.0000 	ОООО	.0000	.0001
X	4.1	42	4.8	44	ш 4.5	4.6	4.7	4.8	4.9	5.0
0	.0166	.0150	.0136	.0123	.0111	.0101	.0091	.0082	.0074	.0067
I	.0679	.0630	0588	.0540	.0500	.0462	,0427	0395	.0365	.0337
2	.1893	.1323	1254	.1188	.1125	.1063	1005	.0948	.0894	.0842
389
Продолжение табл, VI
					m					
X	4.1	4.2	4,3	4.4	4.5	4.6	4.7	4.8	4.9	5.0
3	1904	.1852	.1798	.1743	.1687	.1631	.1574	.1517	.1460	1404
4	.1951	.1944	.1933	.1917	.1898	.1875	.1849	.1820	.1789	.1755
5	.1600	1633	.1662	1687	.1708	1725	.1788	Л747	.1758	Л755 .
6	.1093	.1143	.1191	Л237	Л281	Л323	.1362	.1398	.1432	.1462
7	0640	.0686	.0752	.0778	.0824	,0869	0914	.0959	.1002	.1044
8	.0328	.0360	.0393	.0428	0463	.0500	.0587	.0575	.0614	.0653
9	.0150	.0168	.0188	.0209	,0232	-0255	.0280	.0307	.0334	.0363
10	0061	.0071	.0081	.0092	* -0104	-0118	.0132	.0147	.0164	.0181
11	.0023	.0027	.0032	,0037	0043	0049	.0056	.0064	.0073	.0082
12	.0008	.0009	.0011	.0014	.0016	.00)9	.0022 1	.0026	.0030	.0034
13	<J002	.0003	.0004	.0005	.0006	.0007	.0008	0009	.0011	.0013
14	.0001	.0001	0001	.0001	.0002	.0002	.0003	.0003	.0004	.0005
15	,0000	.0000	.0000	.oooo	.0001	0001	0001	.0001	.0001	.0002
											 r
					m					
X	5.1	5.2	5.3	5.4	5.5	5.6	5.7	5.8	5.9	6.0
0	.0061	.0055	.0030	.0045	.0041	.0037	.0033	.0030	,0027	.0025
1	.0311	.0287	.0265	.0244	.0225	.0207	,0191	.0176	.0162	.0149
2	.0793	.0746	.0701	.0659	.0618	.0580	.0544	.0509	.0477	.0446
3	-1348	.1293	.1239	.1185	.1133	Л082	Л033	.0985	.0938	.0892
4	.1719	,1681	-1641	.1600	.1558	.1515	.1472	,1428	.1383	.1339
5	.1753	.1748	-1740	.1728	.1714	.1697	,1678	.1656	.1632	.1606
ft 4	*	.1490	.1515	.1537	.1555	.1571	.1584	.159-4	1601	1605	.1606
7	1086	.1125	.1163	.1200	.1234	1267	.1298	.1826	.1353	Л377
8	,0692	.0731	.0771	.0810	.0849	,0887	.0925	.0962	.0998	.1033
9	.0392	.0423	0454	.0486	Д519	,0552	.0586	.0620	.0654	0688
. 10	.0200	.0220	.0241	.0262	,0285	.0309	.0384	.0359	.0386	.0413
11	.0093	.OHM	.0116	.0129	.0143	-0157	.0173	.0190	.0207	.0225
12	-0039	.0045	.0051	.0058	.0065	’ .0073	.0082	009?	.0102	.0113
13	.0015	.0018	.0021	.1X124	0028	.0032	,0036	.0041	.0046	.0052
14	.0006	.0007	.0008	.0009	0011	.0013	.0015	,0017	,0019	.0022
15	.0002	.0002	.0003	.0003	.0004	.0005	0006	.0007	0008	.0009
16	.0001	.0001	.0001	.0001	-<MM>i	.0002	.0002	.0002	.0003	.0003-
17	.0000	.0000	oooo	oooo	.0000	-OOOO	.0001	.0001	.0001	.0001
										
Примечание.
Данные взяты из источника W.H. Beyer (Ed.). Handbook of Tables for Probability and Statistics.
Cleveland Ohio. The Chemical Rubber Co,, 1966. Воспроизводится с табл. Ill. 3 с разрешения
The Chemical Rubber Co.
390
Таблица VII. лРаспредетение Стъкщсзта (при-ю/упся значения t для aL „ = с при р степеней обо
(юди)
X. € V X.	.95	.975	99	.995	.9995
1	6.314	12.706	31.821	63.657	636.619
2	2.920	4.303	6.965	9.925	31.598
3	2.353	ЗЛ82	4.541	5,841	12,941
4	2 Л 32	2.776	3.747	4,604	8.610
5	2.015	2.571	3.365	4.032	6.859
6	1.943	2.447	3 143	3.707	5.959
7	1.895	2.365	2.998	3.499	5.405
• 8	1.860	2.306	2.896	3.355	5.041
9	1.833	> 2.262	2.821	3.250	4-781
10	1.812	2.228	2.764	3-169	4.587
11	1.79»	2.201	2.718	3.106	4.437
12	1.782	2.179	2.681	3.055	4.318
13	1.771	2.160	2.650	3.012	4.221
14	1.761	2 145	2.624	2.977	4.140
15	1.753	2 131	2.602	2-947	4.073
16	1.746	2 120	2.583	2.921	4015
17	1.740	2 Л10	2.567	2,898	3.965
IB	1.784	2Л01	2.552	2.878	3.922
19	1.729	2.093	2.539	2.861	3.888
20	1.725	2.086	2.528	2.845	3.850
21	1.721	2.080	2.518	2.831	3.819
22	1.717	2.074	2508	2.819	3.792
23	1.714	2,069	2.500	2,807	3.767
24	1.711	2,064	2 492	2,797	3.745
25	1.708	2.060	2.485	2.787	3.725
26	1.706	2.056	2.479	2.779	3.707
27	1.703	2.052	2.473	2.771	3.690
26	1.701	2.048	2.467	2.763	3.674
29	1.699	2.045	2.462	2.756	8.659
80	1.697	2.042	2.457	2.750	3.646
40	1.684	2.021	25423	2,704	3.551
Й>	1.671	2.000	2.390	2.660	3.460
120	1.658	1.980	2.358	2.617	3.373
оо	1.645	1.960	2.326	2.576	3.291
Примечание.
Данные взяты из табл, III источника Fisher and Yates: Statistical' Tables for Biological, Agricul-
tural and Medical Research. Oliver and Boyd (Ed.). Воспроизводится с разрешения авторов и из-
дателей- .
391
Таблвда УЛЕ Доверительные пределы для долевых характеристик
Пример. В выборке объемом п = 60. NS - X = 24» р - 24/60 = 0,4, или 40%, отметьте точку
0,4 на горизонтально^ оси- .Восстановленный из этой точки перпендикуляр пересечет две дове-
рительные кривые, соответствующие л = 60. Ордмтанты этих точек определяются по левой
вертикальной шкале. Имеем: C.L.» 0,275 4-О»535, или C.L. « 27,54-53,5%.
392
Продолжение табл. V111
Примечание
Панине взяты нз источника Biometrika Tables for Statisticians. V.L Great Britain: Cambridge Uni
versity Press. 1966. 3rd ed., v. 1, p. 228 -229, Воспроизводится с разрешения профессора EC. Пир-
»на по доверенности Biometrika.
Тябянца fX. Распределение хи-квадрат (приводятся значения х3 для = € при v степенен
свободы)
\ € х\	.900	950	.975	.990	.995
1	2.71	3.84	5.02	6.63	7.88
2	4 61	5.99	7-38	9,21	10.6
5	625	7.81	9.85	11.3	12.8
4	7.78	9.49	ПЛ _	13.3	14.9
5	9,24	ИЛ	12-8	15.1	16.7
6	10.6	12.6	14.4	16.8	18.5
7	12.0	14.1	16.0	18.5	20.3
8	13 4	15.5	17.5	20.1	22.0
9	14.7	16.9	19.0	21 7	23.6
10	160	18.3	20.5	23.2	25.2
11	17 3	19.7	21.9	24 7	26.8
12	18.5	21.0	23.8	26.2	28.3
13	19.8	22.4	24.7	27.7	29.8
14	21,1	237	26 Л	29Л	31.8
15	223	25.0	27.5	80.6	32.8
16	23.5	26.3	28.8	32.0	34.3
17	24 8	27.6	30.2	33.4	35.7
18	26.0	289	81.5	84.8	37.2
19	272	зол	32.9	36.2	38.6
20	28.4	31.4	34.2	37.6	40.0
21	296	82.7	85.5	38.9	41.4
22	808	83.9	36.8	40.3	42.8
23	32.0	35.2	381	41.6	44,2
24	33 2	364	39.4	43,0	45.6
25	34.4	37.7	40.6	44.3	46.9
26	35.6	389	4L9	45.6	48.3
27	36.7	40 1	43.2	47.0	49-6
28	37.9	41 3	44.5	48.8	51.0
29	39.1	426	45.7	49.6	52,3
30	40.3	43.8	47.0	50.9	53.7
11рнмечанве.
Тонные взяты из табл. IV источника Fisher and Yates. Statistical Tahjcs for Biological, Agricultu-
ral and Medical Research. Oliver and Boyd (Ed.). Воскроиэво/штся с разрешения авторов я изда-
телей.
394
Таблица X. Распределение хи-квадрат по степеням свободы (приводятся процентили Р, при v
степеней свободы)
Пример. Дано у - 5, г- 5,0. Р5 0 = 0,2290-
\ г	0.05	0.1	0.5	1.0	2.5	5.0	95.0	97.5	990	99.5	99.9	99.95
V\												
1	.0000	.0000	0000	.0002	.0010	0039	3.84 10	5.0240	6.6350	7.8790	10.8280	12.1160
2	.0005	.0010	.0050	.0100	,0253	.0515	2.9955	3.6890	4.6050	5.2985	6.9080	7.6010
3	.0051	.0081	.0239	.0383	.0720	.1173	2.6050	3.1160	3.7817	4 2793	5.4220	5.9100
4	.0160	.0227	.0518	.0742	.1210	.1778	2.3720	2.7858	3.3192	3.7150	4.6168	4.9995
5	.0316	.0420	.0824	.1108	.1662	.2290	2.2140	2.5664	3.0172	3.3500	4.1030	4.4210
6	.0499	.0635	.1127	.1453	.2062	-2725	2.0987	2.4082	2.8020	30913	3,7430	4.0172
7	.0693	.ti854	.1413	.1770	.2414	.3096	2.0096	2.2876	2.6393	2.8969	3.4746	3,7169
8	,0888	.1071	.1680	.2058	.2725	.3416	1.9384	2.1919	2.5112	2.7444	3.2656	3.4H35
9	.1(180	.1281	.192»	.2320	.3000	,3694	1,8799	2,1137	2.4073	26210	3.0974	3.2962
10	.1265	.1479	.2156	.255»	.3247	3940	1.8307	2,0483	2.3209	23188	2.95^8	3.1419
11	-1443	.1667	-2366	.2775	.3469	.4159	1.7886	1.9927	2.2477	2Л325	2.8422	3.0124
12	.1612	.1845	.2562	.2976	.3670	.4355	1.7522	1,9447	2.1848	2 3583	2.7424	2.9018
13	.1773	.2013	.2742	.3159	.3853	4532	1.7202	1.9028	2.129»	2.2938	2.6fi60	2,8060
И	.1926	.2172	.2911	.3329	.4021	.4694	1.6918	1.8656	2.0815	2.2371	2.5&)2	2.7221
15	.2072	.2322	.3067	3486	.4175	.4841	1.6664	1.8325	2.0385	2.1867	2.5131	2.6479
ifi	.2210	.2464	.3214	.3632	.431»	,4976	1,6435	1.8028	2.0000	2.1417	2.4532	2.5818
17	.2341	.2598	.8351	.3769	.4449	5101	1.6228	1.7759	1.9652	2.1011	23994	2.5223
18	.2466	.2725	.8481	.3897	.4578	.5217	1.6038	3.7514	1.9336	2.0642	2.3507	2.4686
19	.2585	.2846	.3602	.4017	.4688	.5325	1.5865	1.7291	1.9048	2 0306	2.3063	2.4196
20	.2699	.2961	.3717	.1130	.4796	.5426	1.5705	1.7085	1.8783	1 9998	2.265ft	2.3749
21	.2808	.3070	.3826	.4237	.4897	.5520	1.5558	1.6895	1.8539	1.9715	2.2284	2.3338
22	.2911	.3174	.3929	.4837	.4992	.5608	1.5420	1.6719	1.8313	1.9453	2.1940	2.2960
23	.3010	.3273	.4026	.4433	.5082	.5692	1.5292	1.6555	18103	19209	2.1621	2.2609
24	.3105	.3869	4119	.4523	.5167	,5770	1.5173	1.6402	1,7908	1.8982	2.1325	2.2283
25	.3196	-3460	.420»	.4610	-524»	.5844	1.5061	1.6258	1.7726	1.8771	2.1048	2.1979
26	.3284	.3547	.4292	.4692	.5325	.5915	1.4956	1.6124	1.7555	1,8573	2.0789	2,1695
27	.3368	.3631	.4378	.4770	.5397	.5982	1,4857	1,5998	1.7394	1.8387	2.0547	2.1429
28	.3449	.3711	.4450	.4845	.5467	6046	1.4763	1,5879	1.7242	1.8212	2.0319	2.1179
29	.3527	.3788	4524	.4916	.5533.	.6106	1.4675	1.5766	L7099	18017	2.0104	2.0943
30	.3601	3863	.4596	-1984	.5597	.6164	1.4591	1.5660	1.6964	1,7891	1.9901	2.0720
31	.3674	.3934	.4664-	.5050	,5658	,6220	1.4511	15559	1.6836	1.7743	1.9709	2.0510
32	.3743	.4003	.4729	,5113	,5716	.6272	1.4436	1.5462	1.6714	1.7602	1.9527	2.0311
33	.3811	.4070	.4792	.5174	.5772	.6823	1.4364	1.5371	1 6599	1,7469	1,9355	2.0122
34	.3876	.4134	-4853	.5232	-5825	.6372	1-4295	1.5284	1.6489	1.7342	1.9190	1.9942
35	.3939	.4197	.4912	.5288	.5877	.6419	1.4229	1.5201	1.6383	1.7221	1.9034	1.9771
36	.4000	.4257	.4969	.5842	.5927	.6464	1.4166	1.5121	1.6283	1.7106	1.8885	J 9608
37	.4059	.4315	.5023	.5395	.5975	.6507	1.4106	1.5045	1.6187	1.6995	1.8742	1.9452
38	,4117	.4371	.5076	.5445	.6021	.6548	1.4048	1.4972	1.6095	1.6890	1.8606	1,9303
39	4173	4426	.5127	,5494	.6065	.6588	1 3993	1.4903	1,6007	1.6789	1.8476	1.9160
40	.4226	.4479	.5177	,55-11	.6108	.6627	1.3940	1-4836	1.5923	1.6692	1.8350	1.9024
41	.4279	-4530	.-5225	Л587	.6150	.6665	1.3888	1.4771	1.5841	1.6598	1.8230	1.8892
42	.1330	.4580	.5271	'.5631	.6190	.6701	1.3839	1,4709	1.5763	1.6509	1.8115	1.8767
13	.4380	.4629	.5316	.5674	.6229	',6736	1,3792	1.4649	1.5688	1.6422	1.8004	1.8646
44	.4428	.4676	.5360	-.5715	,6267	.6770	13746	1.4591	1.5616	1-6339	1.7898	1 8529
45	.4475	-4722	.5402	.5756	6304	,6803	1.3701	1.4536	13546	1.6259	1.7795	L8417
46	.4520	,4767	5444	.5795	,6339	6К35	1.3659	1.4482	1.5478	1.6182	17696	1.8309
47	.4565	.4811	.5484	,5833	.6374	_6866	1.3617	1.4430	1.5413	L6107	1.7600	1,8204
48	.4(>09	.4853	.5529	.5870	.6407	.6895	1.3577	1 4380	L5351	1.6635	1.7508	1.8104
49	.4651	.4894	.5561	3906	.6440	-6924	1.3539	1.4331	1.5290	1.5966	1.7418	1.8005
50	.4692	.4935	.5598	.5941	.6171	.6953	1.3501	1.4284	1.5231	J-5898	1.7332	J,79t2
395
1роцолженне пВл. X
\ г	0.05	0.1	0.5	1.0	2.5	5.0	95.0	97.5	•99.0	99.5'	99.9	99.95
51	.4733	4974	.5634	.5975	-6502	,6980	13465	14238	1.5174	1.5833	1.7249	1.7821
52	-4772	.5012	.5669	6009	.6532	.7007	1.3429	1,4194	1,5118	1.5769	L7168	1.7733
53	.4810	.5050	.5704	.6041	.6562	-7033	1.3395	1.4151	1,5065	1-5708	1=7089	1,7648
54	.4848	5087	.5737	.6073	.6590	.7059	1-3362	1 4110	1.5013	1.56*19-	1.7018	1.7565
55	.4885	.5122	.5770	.6104	.6618	.7083	1.3329	1.4069	1.4962	1.5591	1.6939	1.7484
56	.4921	.5157	.5802	.6184	.6645	,7107	1.3298	14030	1.4913	1.5535	1.6868	1.7406
57	-4956	.5191	.5833	£163	.6671	-7131	1.3267	1 3992	1.4865	1.5480	1.6798	1.7331.
58	.4990	.5225	.5863	.6192	.6697	>7154	1 3238	1.3954	1,4819	1.5427	1.6731	1.7257
59	.5024	.5258	.5893	.6220	.6722	.7176	1.3209	13918	I 4774	1.5375	1.6665	1.7185
ко	.5057	.5290	.5922	.6248	J6747	.7198	1.3180	13883	1.4730	1.5325	1.6601	1.7116
€1	Л089	.5321	.5951	.6274	,6771	.7219	1.3153	1.3849	1.4687	1.5276	1.6539	1-7048
62	.5121	.5352	.5979	.6300	.6795	7240	1.3126	1.3815	14645	1.5229	1.6478	1.6982 
КЗ	.5152	.5382	.60»	.6326	.6817	,.7260	1.3100	1.3783	1.4605	1.5182	1.6419	1.6918
64	.5182	.5411	.6033	.6851	,684.0	,7280	L3074	1.3751	1,4565	1.5137	1.6362	1.6855
65	.5212	.5440	.6059	.6376	.6862	.7300	1,3049	1,3720	1,4526	1.5093	1.6306	1.6794
Кб	.5241	.5469	.6085	.6400	.6883	.7319	1.3025	1.3689	1.4489	1.5050	1.6251	1.6735 '
«7	.5270	5496	.6110	6-124	,6905	.7338	1.3001	13660	1.4452	1.5008	1.6198	1.6677
кя	.5298	.5524	.6134	.6447	,6925	.7356	1.2978	1.3631	1.4416	1.4967	1.6146	1.6620
69	.5325	.5550	.6159	.6469	,6946	.7374	1.2955	I.S6O2	1.4381	1.1927	1.6095	1.6565
70	.5352	.5577	.6182	.6492	.6965	.739!	1.2933	1.3575	1.4346	1.4888	1.6045	1.6511	'
71	.5379	.5602	.6205	,6514	.6985	.7408	1.2911	1.3548	1,4313	1.4850	1.5997	1.6458
72	5405	.5628	.6228	Z6535	.7004	,7425	1.2890	1.3521	1.4280	1.4812	1.5049	1.6407
73	5481	.5653	.6251	6556	.7023	.7442	L2869	1,3495	1.4248	1.4776	1,5903	1.6856 -
74	.5456	.5677	.6273	.6576	,7041	.7458	1.2849	1.3470	1.4216	1.4740	1.5858	1-630?
75	.5481	.5701	-6294	,6597	.7059	,7474	1.2829	1.3445	1.4186	1.4705	1.5813	1,6259 *
76	^505'	.5724	.6316	.6617	.7077	7489	1 2809	1.3421	1.4156	1.4670	1.5770	1.6212 *
77	,5529	.5748	.6336	.6686	-7094	.7505	1 2790	1.3397	1.4126	1.4637	1.5727	1.6166
78	.5553	.5771	.6357	.6655	.7111	7520	1.2771	1£374	1.4097	1.4604	1.5686	1.6120 -
79	.5576	.5793	.6377	,6674	-7128	.7534	1,2753	1,3351	1.4069	1.4572	1.5645	1.6076	'
гм	.5599	.5815	.6396	..6692	,7144	.7549	1.2735	1.3329	1.4041	1.4540	1.5605	1.6033
*1	.5621	.5837	.6416	.6711	.7160	.7563	1.2717	1.3307	1.4С 14	1.4509	1.5566	1 5990
82	.5643	-5858	.6435	.6729	.7176	.7577	1.2700	1.8285	1.5987	1,4479	1.5527	1.5948 '
S3	.5665	.5879	.6454	.6746	.7192	,7591	1.2683	13264	1.3961	L4449	1.5490	1 5908
84	.5687	.5900	.6472	.6763	.7207	7604	12666	I 3243	1.3935	1.4420	1.5453	1.5868
Н5	.5708	-5920	.6491	.6780	.7222	.7618	1.2650	1.3223	1.3910	1.4391	1.5417	1.5828
86	.5728	.5940	.6508	.6797	.7237	.7631	1.2633	1.3203	1,3885	1.4363	1.53Н1	1.5790
87	.5749	.5960	.6526	.6814	.7252	7643	1.2618	1.3183	1.8861	1.4335	1.5346	1 5752
88	.5769	.5979	.6543	.6830	.7266	.7656	1.2602	1 3164	1.3837	1.4308	1.5312	1.5715
89	.5789	,5998	.6561-	„6846	,7280	.706R	1.2587	1.3145	1.3814	1.4282	1.5278	1.5678	|
•0 .	.5808	.6017	.6577	-6862	.7294	.7681	1.2572	1.3126	1.3791	1.4255	1.5245	1.5643
91	.5828	6036	.6594	п6877	.7308	.7693	1.2557	1.3108	1.3768	1.4230	1.5213	1.3607
<Й	.5847	-6054	.6610	.6892	.7321	.7705	1,2542	13090	1.3746	1.4204	1 5181	1.5573	j
93	.5865	.6072	.6626	.6907	.7335	.7716	1.2528	1.3072	1.3724	1.4180	1.5150	1.5539 '	|
94	.5884	.6090	.6642	.6922	.7348	.7728	1.2514	1.3055	1.3702	1.4155	1.5119	1,5505
	.5902	.6108	6658	.6937	7361	.7739	1.2500	I 8038	1.3681	1.4131	1.5089	1.5473	i
96 '	5920	.6!25	.6673	.6951	.7373	.7750	L2487	1.3021	1.8661	1.4108	1.5059	1.5440
97	.5938	.6142.	.6688	.6965	7386	.7761	1.2473	1.3004	1 8640	1.4084	Г 5030	1.5409
9Я	.5955	.6159	.6703	.6974	.7.398	.7772	1.2460	1.2988	13620	1.4062	1.5001	1.5377
99	.5973	.6175	,6718	.6993	.7410	.7782	1.2447	1,2972	13600	1.4039	1.4973	1.5347
100	5990	.6192	.6733	.7007	.7422	-7793	1.2434	1.2956	1.3581	1 44)17	1.4945	1.5317	• : ч
396
Продолжение табл. X
\ T	0.05	0.1	0.5	1.0	2.5	5.0	95.0	97.5	99.0	да. 5		•W.95
105	.6072	.6271	J6802	.7071	.7480	5843	1.2373	1.2881	1.3488	1.3911	1.4812	1,5173
110	1.6148	.6344	.6868	.7132	.7534	.7890	1,2316	1,2811	1.3401	1.3K1S	1.4699	L5O40
115 1	.6221	.6414	.6930	.7190	.7584	.7934	1.2263	1.2746	1.3321	1.3722	1.4575	1.4916
120	.6289	.6480	.6988	.7243	.7632	.7975	1.2214	1.2685	1.3246	1.3637	L4468	1.4801
125	.6353	.6542	.7042	.7294	.7676	.8014	1.2167	1.2627	1.3175	1,3557	1,4368	1.4692
130	.6414	.6600	.7094	.7342	.7718	.8051	1.2124	1,2574	1.3109	1.3484	1.4275	1.4592
135	.6473	.6656	.7143	.7388	.7757	.3085	1.2083	1.2523	1.3047	1.3413	1.4187	14496
140 j	.6528	.6709	.7190	.7431	.7795	.8119	1.2043	1.2475	12988	L3346	14104	1.4406
145	-6581	.6760	.7234	.7472	.7831	.8150	1.2007	1JS430	1.2933	1.3284	1.4026	1.4321
150	.6631	6808	.7276	-7511	,7865	.8180	1.1972	1.2887	1.2880	1.3224	1 3951	1,4241
155	.6679	.6854	7316	.7549	.7898	.821)8	1.1939	1.2346	1,2830	1.3(68	1.3881	1.4166.
160	-6725	.6898	.7355	.7584	.7930	.8235	1.1907	L2308	1.2783	1.3114	1.3Я13	1.4093
165	6769	,6939	.7392	,7618	.7959	.8260	1.1877	1.2270	1.2737	1.3063	1.3751	1.4024
170	6811	.6980	.7427	.7651	.7987	.8285	1-1848	1.2235	1.26(M	1.3014	1.3690	1.3958
175	6852	.7019	,7461	7682	.8015	.3309	1.1821	1.2201	1.2653	1.2968	1.3632	1.389*5
180	6891	.7056	7494	7712	.8041-	-8332	1.1795	1.2170	1.2614	1.2924-	1.3577	1 3836
185	.6929	.7092	.7525	.7741	.8066	.8353	1.1769	1.2138	1.2576	1.2881	.1.3523	1,5779
190	.6964	.7127	.7555	.7768	4090	.8374	1.1745	1.2109	1.2541	1.2840	1.3472	1.3725
195	6999	.7160	.7584	.7795	.8114	.8394	1.1722	1.2081	1.2506	1.2801	1 3424 •	1,3672
200	7033	.7192	,7612	.7821	.8136	.8414	L1700	1.2053	1.2473	1.2763	1.3377	I 3622
210	7097,	.7254	.7665	.7870	.8179	.8451	1.1657	1.2001	1.2409	12692	1.3288	1.3526
220	.7157*	.7311	«7715	.7916	.8219	.8485	L1618	1.1953	.1.235)	1.2626	1.8207	1.3438
230	.7213.	.7365	.7762	.7959	.8256	.8517	1.1582	1.1908	1.2297	1.2564	1.3131	1.3356
240	7266	.7415	.7805	.7999	-8291	„8547	1.1547	1.1867	1.2246	1.2507	1.3060	1.3279
250	7317	.7463	.7847	.8037	.8324	-8576	L1515	1.1828	1.2198	L2453	1.2994	1.3207
260	7364	.7507	.7886	8073	.8355	.8602	1 1485	1.1791	1.2153	1.2403	1.2931	T1.3140
270	.7408	.7550	.7923	.8107	.8384	.8628	L1457	1.1756	1-2111	1.2356	1.2872	1.3077
280	.7450	.7590	.7958	.8139	.8412	8652	1.1430	1,1723	1.2071	I 2312	I 2817	1.3017
290	.7491	.7629	.7991	.8170	.8438	,8674	1 1404	11692	1.2033	1 2269	1.2764	12961
300	7529	.7665	8023	.8199	.8463	.8696	1.1380	1.1663	1 1997	1-2229	L2714	1.2907
350	.7698	.7826	.8160	.8826	.8573	.8790	1.1275	1.1535	1.1843	1.2055	1.2500	1.2676
400	.7836	.7957	8272	8429	,8662	8866	1.1191	1 1183	1.1718	1 1915	1.2378	1.2491
450	.7951	uLMX)	.8366	.8515	«736	.8929	1J121	1,1349	1.1616	1 1801	1.2187	1.2340
500	.8050	.8160	.8446		-8799	.8983	1.1063	1.1277	1.1530	1 1704	L2070	1.2214
550	.8185	.8239	.8515	8651	.8853	.9029	1.1012	1.1216	L1456	I 1622	1 1968	1-2105
600	.8208	.8310	.8575	.8706	.8900	.9070	1 0968	1.1163	11392	1.1550	1.1*880	1.2(00
'650	.8275	.8373	8629	,8755	.8942	.9106	1.0929	1.П16	1.1335	1 1487	1.1803	1 1927
700	.8334	.8429	.8677	.8799	.8980	9137	1.0895	1.1074	1.1285	1.1430	1.1734	1.1853
750	.8387	.8480	.8720	.8838	.9013	.9166	1.0864	1.1037	1.1240	1 1380	1.1672	1.1787
800	.8436	.8526	-8759	.8871	9044-	.9192	10836	1.1004	L1200	1 1335	1.1617	1.1728
Я50	.8480	«568	.8795	.8906	9072	.9216	1 0811	1.0973	LI 163	1.1294	1.1567	1.1674
900	.8521	8606	.8827	.8936	.9097	.9237	1 0788	1.0945	1.J129	1.1256	1.1520	1,1624
950	.8559	.8642	.8858	.8964	.9121	,9257	1,0767	1.0919	1.1096	1.1221	1.1478	1.1579
1000	.8504	.8675'	8886	,8989	.9143	.9276	1 0747	1.0895	1.1070	1.1190	1,1440	1.1538
2000	.8992	.9051	.9204	.9279	.9890	.94Я6	1.0526	1.0629	1.0750	1.0838	i :ооб	1.1074
3001)	.9172	.9221	.9348	9409	9500	.9579	1.0429	10513	1.0611	1.0676	1 0817	1.ОЯ72
4000	.9280	.9323	.9433-	.9487	9566	.9635	1.0370	LO443	1.0527	1,0585	1,0705	1.0752
5000	.9355	.1*393	,9493	9541	.9612	9673	1.0331	1.0396	1.0471	1.0523	1.O630	L067’
10000	.9541	.9569	.9640	.9674	.9725	.9769	1.0234	1.0279	1.0332	1.0868	1.0443	1.0472
Примечание
Данные взяты из источника Statistical Tables and Formulas. A- Bald. © 1952, John Wiley and Sons,
Inc. Воспроизводится с разрешения
СлЗ
о
DO
Таблица XI. /"’-Распределение (приводятся значения Fo,? <t для площадей под кривой А^ - 0,95 при заданных У; н v- степенях свободы)
Пример. Пусть я1 = 5, >>2 = 6. FOi,5 » 4,39. Это значит, что при допущении нормального распределения 95% отношения т?/г а меньше 439.
х' vo\	1	2	Я	4	5	6	7	8	9	10	12	15 *	20	24	30	40	60	120	се
1	161.4	199.5	215.7	224.6	230.2	234.0	2368	238.9	24С.5	241.9	243.9	245.9	248.0	249.1	250.1	251.1	252.2	253.3	254.3
*	18.51	1900	19.16	19.25	19.30	19-35	19.35	19.37	1938	19.40	19.41	1943	19.45	19.45	19.46	19.47	19.48	19.49	19.50
5	10.15	9.55	9.28	9.12	9.01	8.94	8.89	8.85	8.81	8.79	R.74	8.70	8.66	8.64	8 62	8.59	8.57	6.55	8 53
4	7.71	6.94	659	6.39	6.26	6.16	6.09	6.04	6.00	5.96	591	5.86	5.80	5.77	5.75	5.72	5JW	5.66	5.63
5	6.61	5.79	5.41	5.19	5.05	4 95	4.88	4.82	4.77	4.74	4.68	4.62	4.56	4.53	4.50	4.46	4.43	4.40	4.36
6	599	5.14	4.76	4ЛЗ	4.39	4.28	4.21	4Л5	4.10	4.06	400	3.94	3.87	3.84	3.RI	3.77	3.74	3.70	3.67
7	5.59	4.74	435	4.12	3.97	3.87	3.79	3.73	3.68	 3.64	3 57	3.51	3.44	3.41	3.38	3.34	3.30	3.27	3.23
3	5.32	4.46	407	3.84	3.69	3.58	ЗЛО	3.44	ЗЛ9	3J5	3.28	3.22	3.15	3.12	3.38	3.04	3.01	297	2.93
9	5.12	4.26	3.86	3.63	3.48	3.37	3.29	3.23	3.18	3.14	3AI7	3.01	2.94	2.90	2.86	2-83	2.79	2.75	2.71
10	496	4.10	3.71	3.18	3.33	3.22	3.14	3.07	3.02	298	2.91	2.85	2.77	2.74	2.70	2.66	2.62	2.58	2.54
11	4.84	3.98	3.59	3.36	3.20	3.09	3.01	2.95	2.90	2.85	2.79	2.72	2.65	2.61	2.57	2.53	2.49	2.45	2.40
12	4.75	3.89	3.49	3.26	3.11	3.00	2.91	2.85	2.80	2.75	2.69	2.62	2-М	2.51	2.47	2.43	2.38	254	2.30
13	4.67	3.81	3.41	3.18	3.03	2.92	2.83	2.77	2.71	2j67	2.60	2.53	2.46	2.42	2.38	2.34	2.30	2.25	2.21
14	4.60	3.74	3.34	3.11	2.96	2.85	2.76	2.70	2.65	2.60	233	2Л6	2.39	2.35	2.31	2.27	2.22	2.18	2.13
15	454	3.68	5-2*>	5.06	2.90	2.79	2.71	2.64	2.59	2.54	2.48	2.40	2ЛЗ	2.29	2.25	2.20	2.16	2.11	2.07
16	4.49	3.63	3.24	3.01	2.85	2.74	2.66	2-59	 2.М	2.49	2.42	2.35	2.28	2.24	2.19	2.15	2.11	2.06	2.01
1?	4.45	339	3.20	2.96	2.81	2.70	2.61	255	2.49	2.45	238	2.31	2.23	2.19	2 15	2.10	2.06	2.01	1.96
18	4.41	3.55	3.16	2.93	2.77	2.66	2.58	2.51	2.46	2.41	2.34	2.27	2.19	2.15	2 11	2.06	202	1.97	1.92
19	4.38	3.52	3.13	2=90	‘ 2.74	5163	2.54	2.48	2.42	2.38	2.31	2.23	2.16	2.11	2.07	2.03	1.98	1.93	1.88
20	4.35	3.49	3.10	2.87	2.71	2.60	2-51	2.45	2.39	2.35	2.28	2.20	2.12	2=08	2.04	1.99	1.95	1.90	1-84
21	4-32	3.47	3.07	2.84	2.68	2.57	2.49	2 42	2,37	2.32	2.25	2.18	2.10	205	201	1.96	1.92	1.87	1443
22-	4.30	3.44	9.06	2-82	2.66	2.55	2.46	2.40	2.34	2.30	2.23	2.15	2.07	2.03	1.98	1.94	1.89	1.84	1.78
23	4.28	3.42	3.03	2Л1	2.64	253	2.44	2.37	2.32	2.27	2-2Q	. 2.13	2.05	2.01	1.96	1.91	1.86	1.81	1.76
24	4.26	3.40	3.01	2.78	2.62	2.51	2.42	2.36	2.30	2.25	2.18	2.11	2.03	1.98	1 94	1.89	1.84	1.79	1.73
25	4.24	3.39	2.99	2.76	2.60	2.49	2.40	234	2.28	2.24	2.16	2.09	2.01	1.96	1.92	1.87	1.82	1.77	1.71
26	4.23	3.37	2.98	2.74	2.59	2.47	2.39	2.32	2.27	2.22	2 15	2-07	1.99	1.95	1.90	1.85	LRO	1.75	1.69
27	4.21	3.35	2.96	2.73	2.57	2.46	2.37	2.31	2.25	2.20	2.13	2.06	1.97	L93	1.88	1Л1	1.79	1.73	L67
28	4.20	3.34	2.95	2.71	2.56	245	236	2.29	2.24	2 19	2.12	2.04	1.96	191	187	182	1.77	1.71	1.65
29	4.18	3.33	2.98	2.70	2.55	2.43	2.95	2.28	2.22	2.18	2.10	2.03	1.94	1 90	1.83	1 81	1.75	1.70	1.64
30	4.17	3.32	2.92	2.69	2.53	2.42	2.33	2.27	2.21	2.1G	2.09	2.01	1.93	189	184	1 79	1.74	1.68	1.62
40	4 08	3.23	2.84	2.61	2.45	2.34	2.25	2.18	2.12	2.08	2.00	1.92	1.84	1 79	1.74	1.60	1.64	1.58	1.51
би	4.00	3.15	2.76	2.53	2.37	2.25	2.17	2.10	2.04	199	1.92	1.84	1.75	1.70	1.65	1-W	1-53	1-47	1-Я9
120	3.92	3.07	2.68	2.45	2,29	2.17	2.09	2.02	1.96	1.91	1.83	1.75	1 66	1.61	1.55	1.50	1-43	1.55	1.25
<х	3.64	3.00	?W	2.37	2.21	2.10	2.01	1.94	1Л8	1.$3	1.75	1.67	1.57	1.52	146	1.39	1.3?	1.22	100
Продолжение таил. XI
\vi и5\	1	2	3	4	5	6	7	8	9	10	12	15	20	24	30	40	60	120	в
1	4052	4999.5	5403	5625	5764	5859	5928	5962	6022	6056	6106	6157	6209	6235	S26I	6287	6311	6339	6366
2	98.50	99.00	99.17	99.25	99.30	99.33	99.36	90.57	©9 39	99.40	99.42	99.43	99.45	99.46	99.17	99.47	9t 4ft	99.49	09.50
3	34 12	30 82	29.46	28 71	28.24	27.91	2767	27.49	27.35	27.23	27 05	26.87	26.60	26.60	26.50	26-41	26.32	26.22	26. U
4	21 20	18.00	16.69	15.98	15.52	15.21	14.98	14.80	14.66	14.55	14-37	14.20	14.02	13.93	13.S4	13.75	13^5	13.56	1146
5	16:26	13-27	12 06	11.39	10.97	I0.fi?	10.46	10.29	10.16	10.05	9.89	9-72	9.55	9.47	9Л8	9.29	9.20	9.11	902
6	13.75	10.92	9.78	9.15	8.75	8.47	8.26	Я10	7.98	7.87	7.72	7.56	7.40	7.3!	7.23	7.14	7.06	6.97	6.88
7	12.25	9.55	8.45	7 85	7.46	7.19	6J9	6.М	6.72	6.62	6.47	6.31	6.16	6.07	5.99	5.91	5.82	5.74	5.65
8	11.26	8.65	7,59	7.01	6.63	6.37	6.18	6.03	5.91	5.81	5.67	5-52	5.36	5.28	5.20	5.12	5.03	4.95	4.86
	10.56	802	6.99	6.42	6.06	5J0	5.61	5.47	5.35	5J6	5.11	4.96	4.81	4.73	4.65	4.57	4-.4R	440	4 31
10	10(М	7.56	6.35	5.99	5.64	559	5 ЛЮ	5Л6	4.94	4.85	4.71	4.56	4.41	4.33	4.25	4.17	4.08	4.00	391
11	9 65	7.21	6.22	5Ж7	5.32	5.07	4Л9	4.74	4.63	454	4.40	4.25	4.10	4.02	3.94	З.Я6	3.78	3.69	3.60
12	9.39	6.93	5.95	5.41	5.06	4.82	4.Я	4 50	4.39	4.»	4.16	4.0!	3.86	3.78	3.70	3.62	3.54	3.45	3.36
13	9.07	6. ТО	.5.74	5.21	4.86	4.62	4.44	4.30	4.19	4.10	3.96	382	3.66	ЗЛ9	3.31	3.43	3.34	3.25	3.17
14	8.86	6 51	5.56	5.04	4 69	4.46	4.28	4.14	4.03	•3.94	3.80	3.66	3.51	3.43	ЗЛ5	3.27	3.L8	3.09	3.00
15	8,66	&36	5.42	4.89	4.56	4.32	4.14	4.ПО	3.89	W	3.67	3.52	3.37	3.29	3.21	3.13	’ 3.05	2.96	2.87
16	8 53	6.23	5.29	4.77	4.44	4.20	4-03	3.89	3.78	3.69	355	3.41	3.26	5.18	3.10	3.02	2.93	2.84	2.75
17	8.40	6.11	5.18	4.67	454	4.10	3.93	3.79	3.68	3.59	3.46	3.31	3.16	3.08	3.00	, 292	2.83	2.75	2.65
18	8.29	6.01	5.09	4.5В	4.25	4.01	3.84	171	3.60	3.51	«.37	3.23	З.СЙ	3.00	2.92	2.84	2.75	2.66	2.57
19	8.18	5.93	5.01	4.50	4.17	3.94	3.77	3.63	352	3.43	3.30	3.15	3.00	2.92	2.84	2.76	2.67	2.58	2.49
ао	8.10	5Л5	4.94	4.43	4.10	3.87	3.70	3.56	9.46	3.37	3.23	3.09	2.94	2Л6	2.78	2.69	2.61	2.52	2.42
21	8.02	5-78	4.87	4.37	4.04	3.81	S.64	3.51	3.40	3J1	3.17	3.03	2.Я8	2.80	2.72	2.64	2.55	2.46	2.36
22	7.95	5.72	4-82	4.31	3.99	3.76	3.59	3.45	3.35	3.26	3.12	2.9Й	283	2.75	2 57	2.38	2.50	2.40	251
23	7.Я8	5 66	4.76	4L26	3.94	171	3.54	3.41	3,sd	3.21	3.07	2.93	2.78	2.70	2.62	2.54	2.45	2.35	2.26
24	7.82	5.61	Л72	4.22	3J0	3.67	ЗЛО	3J6	3.26	3.17	3.03	2.89	2.74	266	2.58	2.49	‘ 2.40	231	2.21
25	7.77	5.57	4 68	4.18	3.85	З.’бЗ	346	8.32	3.22	3.13	2.99	2.Н5	2.70	2.G2	2.54	2.45	2.36	2.27	2.17
26	7.72	5.53	4.64	4.14	ЗЛ2	3.59	3.42	3.29	3.18	3.09	2.96	2.81	2.66	2.58	2Л0	2.42	2 33	2.23	, 2.13
27	7.66	5Л9	4.60	4.11	3.78	ЗЛ6	3.39	3.26	3.15	3.06	2.93	2.78	2.63	2.55	2.47	2.3Й	2.29	2.20	'2Л0
2ft	7.М	5.45	4-57	4.07	3.75	3.53	3.36	SJ3	3.12	3.03	2.90	2.75	2.60	2.52	2.44	2 35	2.26	2.17	2.06
29	7.60	5.42	4.54	4.04	3.73	3.50	353	3.20	ЗЛ9	3.00	2.87	2.73	2.57	2.49	2.41	2.33	2.23	2.14	2.03
90	7.56	5.39	4.51	4.02	3.70	3.47	3.30	3,17	3.07	2.98	2.84	2.70	2.55	2.47	2.39	230	2.21	2.11	2 01
40	7.31	5.1В	4.31	3.83	3.51	3.29	S.I2	2.99	2.89	2.80	2.66	2-52	2.37	2.29	2.20	211	2.02	1.92	1 80
60	7.06	498	4.13	3 65	354	 3.12	2.95	2.82	2.72	2.63	ЗЛО	2.35	2.20	2.12	2.03	1.94	1.84	1 73	1.60
120	6.85	4.79	3.95	3.48	3.17	2.96	2.79	2.66	2.56	2.47	2,34	249	2.03	1.95	1.86	1.76	1.66	1.53	1.38
	6.63	4.61	3.7В	3.32	3.02	2.80	2.64	251	2.41	2.32	218	2.04	1.88	1.79	1.70	1.59	147	1.32	1.00
Примечание. Данные взяты из источника Biornenika Tables for Statisticians. Great Britain: Cambridge University Press, 1966, 3rd ed. v. l;Tabl. 18
Воспроизводится с разрешения профессора E.C. Пирсона по доверенности Biometrika.
CUI4 ,'_Ь	1*. _ L!
I
Таблиц* XIL Четырехзначные логарифмы
	N	0	I	2	3	4	5	6	7	8	9
	10	оооо	0043	0086	0128	0170	0212	0253	0294	0384	0374
	11	0414	0453	0492	0531	0569	0607	0645	0682	0719	0755
	12	0792	0828	0864	0899	0934	0969	1004	1038	1072	1106
	13	1139	1173	1206	1239	12?!	1303	1335	1367	1399	1430
	14	1461	1492	1523	1553	1584	1614	1644	1673	1703	1732
	15	1761	1790	1818	1847	1875	1903	1931	1959	1987	2014
	16	2041	2068	2095	2122	2148	2175	2201	2227	2253	2279
	17	23ГЦ	2330	2855	2380	2405	2430	2455	2480	2504	2529
	18	2553	2577	2601	2625	2648	2672	2695	2718	2742	2765
	19	2788	2810	2838	2856	2878	2900	2923	2945	2967	2989
	20	ЗОЮ	3032	3054	3075	3096	3118	3139	3160	3181	3201
	21	3222	3243	3263	3284	3304	8324	3345	8365	3385	3404
	22	3424	4444	3464	3483	3502	3522	3541	3560	3579	3598
	23	3617	3636	3655	3674	3692	3711	3729	3747	3766	3784
	24	3802	3820	3838	8856	3874	3892	3909	3927	3945	3962
	25	3979	8997	4014	4031	4048	4065	4082	4099	4116	4133
	26	4150	4166	4183	4200	4216	4232	4249	4265	4281	4298
	27	4314	4330	4346	4362	4378	4393	4409	4425	4440	4456
	28	4472	4487	4502	4518	4533	4548	4564	4579	4594	4609
	29	4624	4639	4654	4669	4683	4698	4713	4728	4742	4757
	30	4771	4786	4800	4814	4829	4843	4857	4871	4886	4900
	31	4914	4928	4942	4955	4969	4983	4997	5011	5024	5038
	32	5051	5065	5079	5092	5105	5119	5132	5145	5159	5172
	33	5185	5198	5211	5224	5237	5250	5263	5276	5289	5302
	34	5315	5828	5340	5358	5366	5378	5391	5403	5416	5428
	35	5441	5453	5465	5478	5490	5502	5514	5527	5539	5551
	36	5563	5575	5587	5599	5611	5623	5635	5647	5658	5670
	37	5682	5694	5705	5717	5729	5740	5752	5763	5775	5786
	38	5798	5809	5821	5832	5843.	5855	5866	5877	5888	5*99
	39	5911	5922	5933	5941	5955	5966	5977	5988	5999	6010
	40	6021	6031	6042	6053	6064	6075	6085	6096	6107	6117
		6128	6138	6149	6160	6170	6180	6191	6201	6212	6222
	42	6232	6248	6253	6268	6274	6284	6294	6304	6314	6325
	43	6336	6345	6355	6365	6375	6385	6395	6405	«415	6425
	44	6435	6444	6454	6464	6474	6484	6493	6503	6513	6522
	45	6532	6542	6551	6561	6571	6580	6590	6599	6609	6618
	46	6628	6687	6646	6656	6665	6675	6684	6693	6702	6712
	47	6721	6730	6739	6749	6758	6767	6776	6785	6794	6803
	48	6812	6821	6830	6839	6848	6857	6866	6875	6884	6893
	49	6902	6911	6920	6928	6937	6946	6955	6964	6972	6981
	50	6990	6998	7007	7016	7024	7033	7042	7050	7059	7067
	51	7076	7084	7093	7101	7110	7118:	7126	7135	7143	7152
	52	7160	7168	7177	7185	7193	7202	7210	7218	7226	7235
	53	7243	7251	7259	7267	7275	7284	7292	7300	7308	7316
	54	7324	7332	7340	7348	7356	7364	7372	7380	7388	7396
	55	7404	7412	7419	7427	7435	7443	7451	7459	7466	7474
	56	7482	7490	7497	7505	7513	7520	7528	7536	7543	7551
	57	7559	7566	7574	7582	7589	7597	7604	7612	7619	7627
	58	7634	7642	7649	7657	7664	7672	7679	7686	7694	7701
	59	7709	7716	7723	7731	7738	7745 а.	7752	7760	7767	7774
400
1
Продолжение табл. ХП
N	0	I	2	3	4	5	„ 6	7	8	9
60	7782	7789	7796	7803	7810	7818	7825	7RS2	7839	7846
61	7853	7860	7868	7875	7882	7889	7896	7903	7910	7917
62	7924	7931	7938	7945	7952	7959	7966	7973	7980	7987
63	7993	8000	8007	8014	8021	8028	8035	8041	8048	8055
64	8062	8069	8075	8082	8089	8096	8102	8109	8116	8122
>5	8129	8136	8142	8149	8156	8162	8169	8176	8182	8189
56	8195	8202	8209	8215	8222	8228	8235	8241	8248	8254
67	8261	8267	8274	8280	8287	8293	8299	8306	8312	8319
68	8825	8331	8338	8344	8351	8357	8363	8370	8376	8382
69	«388	8395	8401	8407	8414	8420	8426	8482	8439	8445
70	8451	8457	8463	8470	8476	8482	8488	8494	8500	8506
71	8513	8519	8525	8531	8537	8543	8549	8555	8561	8567
72	8573	8579	8585	8591	8597	8603	8609	8615	8621	8627
73	8633	8639	8645	8651	8657	8668	8669	8675	8681	8686
74	8692	8698	8704	8710	8716	8722	8727	8738	8739	8745
75	8751	8756	8762	8768	8774	8779	8785	8791	8797	8802
76	8808	8814	8820	8825	8831	8887	8842	8848	8854	8859
77	8865	8871	8876	8882	8887	8893	8899	8904	8910	8915
78	8921	8927	8932	8938	8943	8949	8954	8960	8965	8971
79	8976	8982	8987	8993	8998	9004	9009	9015	9020	9025
80	9031	9036	9042	9047	9053	9058	9063	9069	9074	9079
81	9085	9090	9096	9101	9106	9112	9117	9122	9128	9133
82	9138	9143	9149	9154	9159	9165	9170	9175	9180	9186
83	9191	9196	9201	9206	9212	9217	9222	9227	9232	9238
84	9243	9248	9253	9258	9263	9269	9274	9279	9284	9289
85	9294	9299	9304	9309	9315	9320	9325	9330	9335	9340
86	9345	9350	9355	9360	9365	9370	9375	9380	9385	9390
87	9395	9400	9405	9410	9415	9420	9425	9430	9435	9440
88	9445	9450	9455	9460	9465	9469	9474	9479	9484	9489
89	9494	9499	9504	9509-	9513	9518	9523	9528	9533	9538
90	9542	9547	9552	9557	9562	9566	9571	9576	9581	9586
91	9590	9595	9600	9605	•609	9614	9619	9624	9628	9633
92	9638	9643	9647	9652	9657	9661	9666	9671	9675	9680
98	9685	9689	9694	9699	9703	9708	9713	9717	9722	9727
94	9731	9736	9741	9745	9750	9754	9759	9763	9768	9773
95	9777	9782	9786	9791	9795	9800	9805	9809	9814	9818
96	9823	9827	9832	9836	9841	9845	9850	9854	9859	9863
97	9868	9872	9877	9881	9886	9890	9894	9899	9903	9908
98	9912	9917	9921	9926	9930	9934	9939	9943	9948	9952
99	9956	9961	9965	9969	9974	9978	9983	99b7	9991	9996
Примечание.
Воспроизводится с разрешения Laebo. Basic Statistics (4th. ed.). Homewood, Ill.: Richard D Ir-
win, be., p. 649- 650.
26-232
401
Таблица ХИ!. Квадраты, квадратные корни и обратные числа 1 - ЮОО
Лт	jV*	X-'N	V10.V	1.W	Л'	Л”	VrN	VJOiV	1/N .0
•					50	2 500	7.071 068	22.36068	2000000
1	1	1.000 ООО	3.162 278	гооооооо	Ь1	2 601	7.141 428	22.58318	1960784
2	4	1.414 214	4 472 136	.5000000	52	2 704	7.211 103	22.80351	1923077
3	9	1.732 051	5.477 226	.3333333	53	2 809	7.280 ПО	23.02173	1886792
4	16	2.1ХЮ ООО	6.324 555	.2500000	54	2 916	7.348 469	23.23790	1851852
5	25	2.236 068	7.071 068	.2000000	55	3 025	7.416 198	23.45208	1818182
6	36	2.449 490	7.745 967	.1666667	56	3 136	7.483 315	23.66482	1785714
7	49	2.645 751	8 366 600	.1428571	57	3 249	7.549 «34	2387467	1754886
Н	64	2.828 427	8.944 272	.1250000	58	3 364	7.615 773	24 08319	1724138
9	81	3.000 000	9.486 833	.1111111	59	3 481	7.681 146	24.28992	169*1915
10	160	3J62 278	10 00000	.1000000	60	3 600	7.745 967	24 49490	1ООТСЮ/
11	121	3.316 625	10.48809	.09090909	61	3 721	7.810 250	24.69818	1689344
12	144	3.464 102	10.95445	.06333333	62	3 844	7.874 008	24.89980	1612903
13	169	3.605 551	11.40175	.О76923Й8	63	3 969	7.987 254	25.09980	1587302
14		3.741 657	11.83216	.07142857	64	4 096	8.000 000	25.29822	1562500
15	225	3.872 983	1224745	.06666667	65	^225	8.062 258	25.49510	1588462
16	256	4.СНЮ ООО	12.64911	.06250000	66	4 356	8 124 038	25.69047	1515152
17	289	4.123 106	13.03840	.05882353	67	4 489	8.185 853	25.88436	1492537
18	324	4.242 641	13.41641	.05555556	68	4 624	8.246 2П	2607681	1470588
19	361	4.358 899	13.78405	.05263158	69	4 761	8.306 624	26.26785	1449275
20	400	4.472 136	14.14214	.05000000	70	4 900	8.366 600	26.45751	1428571
21	441	4.582 576	14.49138	.04761905	71	5 041	8.426 150	26.64583	1408451
22	484	4.690 416	14.83240	.04545455	72	5 184	8.485 281	26.83282	1388889
23	529	4.795 832	15.16575	.04347826	73	5 329	8.544 004	27.01851	1369863
24	576	4.898 979	15.49193	.04106667	74	5 476	8.602 325	27 20294	1351351
25	625	5.000 000	15.81139	.04000000	75	5 625	8.660 254	27.38613	1383333
26	676	5.099 020	16.12452	.03846154	76	5 776	8.717 798	27.56Ы0	1315789
27	729	5.196 152	16.43168 -	.03703704	77	5 929	8.774 964	27.74887	1298701
28	784	5.291 503	16.73320	.03571429	78	6 084	8.831 761	27.92848	1282051
29	841	5.385 165	17.02939	.03448276	79	6 241	8 888 194	28.10694	1265823
50	900	5 477 226	17 32051	.03833333	80	6 400	8.944 272	28.28427	1250000
31	961	5.567 764	17.60682	.03225806	81	6 561	9.000 000	28.46050	1234568
32	1 024	5.656 854	17.88854	.03125000	' 82	6 724	9.055 38,5	28.63564	1219512
33	I 089	5.744 563	18.16590	.03030803	83	6 889	9.110 434	"28'80972	1204Я19
34	1 156	5.830 952	18.43909	.02941176	84	7 056	9.165 151	28.98275	1190476
35	1 225	5.916 080	18.70829	.02857113	85	7 225	9.219 544	29.15476	1176471
36	1 296	6.000 000	18.97367	.02777778	86	7 396	9.273 618	29.32576	1162791
37	1 369	6 082 763	19.23538	.02702703	87	7 569.	9.327 379	29.49576	1И9М25
38	1 444	6 .164 414	19.49359	,02631579	88	7 744	9.380 832	29.66479	1136364
39	1 521	6.244 998	19.74842	.02564103	8У	7 921	9.433 981	29.83287	1123596 1
40	I 600	6.324 555	20.00000	.02500000	90	8 100	9.486 833	30.00000	шип
41	1 681	6.403 124	20.24846	.02439024	91	8 281	9.539 392	30.16621	1098901
42	1 764	6.480 741	20.49390	.02380952	92	Я 464	9.591 663	30.33150	1086957
43	1 849	6.557 439-	20.73644	.02325581	93	8 649	9.643 651	3049590	1075269
44	1 936	6.633 250	20.97618	.02272727	94	8 836	9.695 360	30.65942	1063880
45	2 025	6.70R 204	21.21320	.02222222	95	9 025	9 746 794	30.82207	1052632
46	2 116	6.782 330	21.44761	.02173913	96	9 216	9.797 959	30.98387	1041657
47	2 209	6.855 655	21.67948	.02127660. .	97	9 409	9.848 858	31.14482	1030928
4Я	2 304	6.928 203	21.90890	.02083333	98	9 604	9.899 495	31.30495	1020408
49	2 401	7-000 (ХЮ	22.13594	.020*10816	99	9 801	9.949 874	31.46427	1010101
50	2 500	7.071 068	22.56663		100	10 000	10.00000	31.62278	1000030
402
Я
I
i
z
Продолжение табл- ХП1
j
 	.	-	-	-	_	J
1V № VN ViftN	n	N ЛГ* v’N V10N *'*	t
100	10 000	10.00000.	31.622781	МЮООООО	150	22 500	12.24745	38.72983	iMJOOOO/	i 5
101	10 .201	10 04988	31.78050	09900990	151	22 801	12.28821	38.85872	6622517	1
102	10 404	10.09950	31.93744	.09803922	152	23 104	12.32883	38.9R71R	6578947	-»
103	10 609	10.11889	3209361	09708738	158	23 409	12.36932	39.11521	6535048	
104	10 R16	10.19804	32.24903	09615385	IM	23 716	12.40967	39 24283	6493506	» L
105	11 025	10.24695	32.40370	09523810	155	24 025	12.44990	39.37(KM	6451613	I
106	H 236	10.29563	32.55764	09-183962	156	24 336	12.49000	39.49684	6410256	.	r
107	11 449	10.34408	32.71085	09345794	157	24 649	12.52996	39.62323	6369427	il
1(W	11 664	10.39230	32.86335	09259259	158	24 964	12.56981	39 74921	6329114	*
109	11 881	10.44031	33.01515	09174.412	159	25 281	12.60952	39.87480	6289308	i •
no	12 100	10.48809 ,	S3.16625	09090909	160	25 600	12.64911	40.00000	6250000	>
111	12 321	10.53565	33.31666	09009009	161	25 921	12.68858	40 12481	6211 ISO	F 4
112	12 544	10.58301	33.46640	08928571	162	26 244	12.72792	40.24922	6172840	< 1
113	12 769	10.63015	33.61547	08849558	. 163	26 569	12.76715	40.37326	6134969	i
114	.12 996	10.67708	33.76389	08771930	164	26 896	12.80625	40.49691	6097561	i j
115	13 225	10.72381	83.91165	08695652	165	27 225	12.84523	4062019	6060606	4
116	13 456	10.77038	34.05877	08620600	166	27 556	12.88410	40.74310	6024096	
117	13 689	10.81665	34-20526	08547009	167	27 889	12.92285	40.86563	5986024	r Ij
118	13 924	10.86278	34 35118	08474576	168	28 224	12.96148	40.98780	5952381	»
119	14 161	10.90871	34.49638	08403361	169	28 561	13.00000	41.10961	5917160	
,120	14 400	10.95445	34.64102	08833333	170	28 900	13.03840	41.23106	5882.853	-
121	14 641	11.00000	34.78505	08264463	171	29 241	13.07670	41.85215	5847953	
122	14 884	11.04536	34.92850	08Й96721	172	29 584	13.11488	11.47288	5813953	t
12?	15 129	11.09054	35.07136	08130081	173	29 929	13.15295	41.59327	5780347	1 1
124	15 376	11.13553	35.21363	08064516	174	30 276	13.19091	41.71331	5747126	I
125	15 625	11.18D34	35.35534	08000000	175	30 625	13.22876	41.83300	5714286	
126	15 876	11'22497	35.49648	07936508	176	30 976	1326650	41.95235	56RI818	
127	16 129	11.26943	85.63706	07874016	177	31 329	13.30413	42.07137	564971ft	
128	16 38-1	11.31371	35.77709	07812500	178	31 684	13.34166	42 19005	5617978	
129	16 641	11.35782	35.91657	07751938	179	32 (Ml	13.37909	42.30839	5586592	
130	16 900	11.40175	36.05551	(17692308	ISO	32 400	13.41641	42.42641	5555556	
131	17 161	11.44552	36.19392	07633588	181	32 761	13.45^62	42.54409	5524862	
132	17 424	11.48913	3633180	07575758	182	33 124	13.49074	42.66146	54JM505	
133	17 689	11.53256	36.46917	0751R797	183	33 489	13.52775	42.77850	54644ft1	।
134	17 956	11.57584	36 b0601	07462687	184	33 856	13.56466	42.89522	5434783	
135	18 225	11.61895	36.74235	07407407	185	34 225	13.60147	43.01163	5405405	V
136	18 496	11.66190	36.87818	07352941	186	34 596	13.63818	43.12772	5376344	
137	18 769	11.7(m7O	37.01351	07299270	187	34 969	13.67479	43.24350	5347594	1
13ft	19 044	11.74734	37.14835	07246377	188	35 344	ft.71131	43.35897	5319149	f
139	1R 321	11.78983	37.28270	07194245	1Я9	35 721	13.74773	43.47413	5291005	
140	19 600	11.83216	37.41657	07142857	190	36 100.	13.7Й405	43.58899	5263158	4
141	19 881	11.87434	37.54997	07092199	191	36 48.	1 J.82027	43.70355	5235602	•
142	20 161	11.9163ft	37.68289	07042254	192	36 864	I3.R5641	43.Я178О	5208333	
143	20 449	11.95826	87.81534	06993007	193	37 249	13.89244	43.93177	51Я1347	4
144	20 736	12.00000	37.94733	06944444	194	37 636	13.92839	44.04543	5154639	1
145	21 025	12.04159	ЗЯ.07Я87	06896552	195	38 025	13.96424	44.15880	51‘28?O>	4
146	*21 316	12.08305	38.20995	06849315	196	38 416	14.00000	44.27189	51€e€Hl	J i
147	21 609	12.12436	38J4058	06802721	197	38 809	14.03567	44.38468	5076142	i
14ft	21 904	12.16553	38.47077	06756757	198	39 204	14.07125	44.49719	5050505	«	1
149	22 201	12 20656	38.60052	06711409	199	39 601	1110674	44.60fM2	5025126	
150	22 500	12.24745	38.72983	06666667	200	40 000	14.14214	44.72136	5000000	
26*
40»
Продолжение табл. XIII
	N*		VKW	1/N 00	N	№	V,*v	VI ON	1/N .00-
200	40 000	14.11214	44.72136	5000000	250	62 500	15.81139	50.00000	4000000
201	40 401	14.17745	44.83302	4975124	2-51	63 001	15 84298	50 09990	3984064
202	40 004	14.21267	44.94441	4950495	252	63 504	15.87451	50.19960	3968254
203	41 209	14.24781	45.05552	49261(18	253	64 009	15.90597	50.29911	3952569
2Ш	41 616	14.28286	45.16636	4901961	254	64 516	15.93738	50.39841	3937008
205	42 025	14.31782	45.27693	4878049	255	65 025	15.96872	50.49752	3921569 *
206	42 436	14.35270	45.38722	4854869	256	65 536	16.0001X1	50.59644	3906250
207	42 849	14.38749	45.49725	4830910	257	66 049	16.03122	50.69517	3891051
208	43 264	14.42221	45.60702	4807692	258	66 564	16.06238	50.79370	3875969
209	4S 681	14.45683	45.71652	4784689	259	67 081	16 09348	50-89204	3861004
210	44 100	14-49138	45.82576	4761905	260	67 600	16.12452	50.99020	3846154
211	44 521	14.52584	4593474	4730386	261	68 121	16.15549	51.08816	3831418
212	44 944	14,56022	46.0'1346	4716981	262	68 644	16.18641	51.18594	8816794
213	45 369	14.59452	46.15192	4694836	263	69 169	16.21727	51.28353	3802281
214	45 796	14.62874	46.26013	4672897	264	69 696	16.24808	51.38093	3787879
215	46 225	14.66288	46,36809	4651163	265	70 225	16-27882	51.47815	3773585
216	46 656	14.69694	46.47580	4629630	266	70 756	16.30951	51.57519	3759398
217	47 069	14.73092	46.58326	4608295	267	71 289	16.34013	51.67204	3745318
218	47 524	14.76482	46.69047	4587156	268	71 824	16.37071	51.76872	8731343
21»	47 961	14.76865	46.79744	4566210	269	72 361	16.40122	5L86521	3717472
220	48 400	14.83240	46.90416	4545455	270	72 900	16.43168	51.96152	3703704
221	48 841	14.86607 ‘	47.01064	4524887	271	73 441	16.46208	52.05766	8690037
222	49 284	14.89966	47 11688	4504505	272	73 984	16.49242	52.15362	8676471
223	49 729	14.93318	47.22288	4484305	273	74 529	16.52271	52.24940	3663064
224	50 176	14.96663	47 32864	4464286	274	75 076	16.5529(5	52.34501	3649635
225	50 625	15.00000	47.43416	4444444	275	75 625	16.58312	52.44044	3636364
226	51 076	15.03330	47.53946	4424779	276	76 176	16.61325	52.53570	3623188
227	51 529	15.06652	47.64452	4405286	277	76 729	16.64332	52.63079	3610108
228	51 984	15.09967	47.74935	4385965	278	77 284	16.67333	52,72571	3597122
229	52 441	15.13275	47.85394	4366812	279	77 841	. 16.70392	52.R2045	3584229
230	52 $00	15.16575	47.95832	4347826	280	78 400	16.73320	52.91503	3571429
231	53 361	15.19868	48.06246	4329004	281	78 961	16.76305	53.00943	3558719
232	53 824	15.23155	48.16638	4310345	282	79 524	16.79286	53,10367	3546099
233	54 289	15.26434	48.27007	4291845	283	80 089	16.82260	53.19774	3538569
234	54 756	15.29706	48.37355	4273.W4	284	80 656	16.85230	53.29165	352H27
235	55 225	15.32971	48.47680	4255319	285	81 225	16.88194	53.38539	3508772
236	55 696	15.56229	48.57983	4237288	286	81 796	16.91153	53.47897	3496503
237	56 169	15.39480	48.68265	4219109	287	82 369	16.94107	53.57238	3484321
238	56 644	15.42725	48.78524	4201681	288	82 944	16.97056	53.66563	3472222
239	57 121	15.45962	48.88763	4184100	289	83 521	17.00000	53.75872	3460208
240	57 600	15.49193	48.98979	4166667	290	84 100	17.02939	53.85165	3448276
241	58 081	15.52417	49-09175	4149378	291	84 681	17.05872	58.94442	3436426
242	58 564	15.55635	49.19350	4132231	292	85 264	17.08801	54.03702	3424658
243	59 049	15.58846	49.29503	4115226	293	85 849	17.11724	М. 12947	3412969
244	59 535	15,62050	49.39636	4098361	294	86 436	17.14643	54.22177	3401361
245	60 025	15.65248	49.49747	4081633	295	87 025	17.17556	54.31390	^389831
246	60 516	15.68439	49.59839	4065011	29*	87 616	17.20465	54.40588	ЗУ78378
247	61 009	15.71623	49.69909	4048583*	297	88 209	17.23369	54.49771	8367003
248	61 504	1574802	49.79960	4032258	298	88 804	17.26268	54.5Я938	8355705
249	62 001	15.77973	49.89990	4016064	299	89 401	17.29162	54.68089	3344482
250	62 500	15.8! 139	50.70000	4000000	зоо	90 000	17.32051	54.77226	ззззззз
404
^Продолжение табл- ХШ
										} a 4
			VI0N	1/Л'			VN		IjW	1
Л'	№	V’N		.00	N	№		V1ON	.00	r
300	90 ООО	17.32051	54.77226	3333333	350	122 500	18.70829	59.16080	2857143	
301	90 601	17.34935	54.86347	3322259	351	123 201	18 73499	59.24525	2849003	
.302	91 204	17.37815	54.95453	'.3311258	352	123 904	I8.76S66	59.32959	2840909	•
803	91 809	17 40690	55.04544	3300330	353	124 609	18.78829	59.41380	2832861	r
31Н	92 416	17 13560	55.13620	3289474	854	125 316	18.81489	59.49790	2824859	i
					%					i
805	93 025	17.46425	55.22681	3278689	«55	126 025	18.84144	59.58188	2816901	4
306	93 636	17.49286	55.31727	3267974	356	126 736	18.86796	59.66574	2808989	J'
307	94 249	17.52142	55.40758	3257329	357	127 449	18.89444	59.74948	2801120	
308	94 «64	17.54993	55-49773	3246753	358	128 164	18.92089	59.83310	2798296	
309	95 481	17.57840	55.58777	3236246	359	128 881	18.94730	59.91661	2785515	1
810	96 100	17.60682	55.67764	3225806	*60	129 600	18.97367	60.00000	2777778	
311	96 721	17.63519	55.76737	3215434	861	180 321	1WOOO	60.0832ft	2770083	s
312	97 344	17.66352	55.85696	3205128	. 362	131 044	19.02630	60 16644	2762431	X
313	97 969	17.69181	55.94640	3194888	363	131 769	19.05256	60.24948	27MH21	ь J J
314	96 596	17.72005	56.03570	3184713	364	132 496	19.07878	60.33241	2747253	
315	99 225	17.74824	56.12486	3174603	365	133 225	19.10497	60.41523	2739726	T
316	99 856	17.77639	56.21388	8164557	566	133 956	19.13113	60.49793	2732240 .	-
317	100 489	17.80449	56.30275	3154574	367	134 689	19.15724	60.58052	2724706	v
318	101 124	17.83255	56.39149	3144654	368	135 424	19.18333	60.66300	2717391	
319	lOh 761	17.86057	56.48008	3134796	369	136 161	19.20937	60 74537	2710027	
.320	102 400	17.88854	56.56854	3125000 	370	136 900	19.23538	60.82763	2702703 .	4
321	103 (MJ	17.91647	56.65686	3115265	371	137 641	19.26136	60.90977	2695418	л.
322	103 684	17.94436	56.74504	3105590	372	138 364	19.28730	60,99180	2688172	A
323	104 ЗЭ9	17.97220	56.83309	3095975	373	139 129	19.31321	61.07373	2680965	r
- 324	104 976	1ЯООООО	5692100	3086420	374	139 876	19-33908	6115554	2673797 - *	
										b
325	105 625	1802776	57.00877	3076923	375	140 625	19.36492	®1 23724	2666667	
326	106 276	18.05547	57.09641	3067485	376	141 376	19-39072	61 31384	2659574	
327	106 929	18.08314	57.18391	3058104	377	142 129	19-41649	61-40033	2652520	•
328	107 584	18 11077	57.27128	3048780	378	142 884	19.44222	61.48170	2645503	
.329	108 241	18.13R36	57.35852	3039514	879	143 641	19.46792	61.56298	2638522	
330	108 900	18.16590	57.44563	8030303	380	144 400	19.49359	61.54414	2631579	
' 331	109 561	18.19341	57.53260	3021148	381	145 161	19.51922	61 V2520	2624672	
332	HO 224	18.22087	57.61944	3012048	382	145 924	19.54483	61Л0615	2617801	
333	110 889	18.24829	57.70615	3003003	*83	146 689	19-57039	61 88699	2610966	
334	111 556	18.27567	57.79273	2994012	384	147 456	19.59592	61.96773	2604167	
335	112 225	18.30301	57.87918	2985075	385	148 225	19.62142	62.04837	2597403	<	j
336	112 896	18.33030	57.96551	2976190	386	148 996	19.64688	62.12890	2590674	
337	113 569	18 35756	58.05170	2967359	387	149 769	19.67232	62.20932	2583979	
338	114 244	18.38478	58.13777	2958580	388	150 544	19=69772	62.28965	2577320	
339	114 921	18.41195	58.22371	2949853	389	151 321	19.72308	62.86986	2570694 L	
Я40	115 GOO	18.13909	58.30952	2941176	390	152 100	19.74842	62.44098	2564103 .	
341	116 281	>8.46619	58.39521	2932551	391	152 881	19.77372	62.52999	2557545	\
342	116 964	18-49324	58.48077	2923977	392	153 664	19-79899	62.60990	2551020	
' 348	117 649	18.52026	58.56620	2915452	393	154 449	19.82423	62.68971	2544529	
344	118 336	18.54724	5816515!	2906977	394	155 236	19.84948	62.76942	2538071	•
345	119 025	18.57418	58.73670	2898551	395	156 025	19.87461	62.84903	2531646	f
в 346	119 716	18.60108	58.82176	2890rfe	396	156 816	19.89975	62.92853	2525253 *	s
347	120 409	18,62794	58-90671	2881844	397	157 609	19-92486	63-00794	2518892	
Я4Я ’ЭТО	121 104	18.65476	58.99152	2873563	398	158 404	19.94994	63.08724	2512563	4i
349	121 801	18.68154	59.07622	2865330	399	159 201	19.97498	65.16645	2506266	.1
350	122 500	18.70829	59.16080	285714*	400 1-	160 000	20.00000	63 24555	2500000	r 1 j
								-	405	
i										;i
Продолжение габл. XIII
N	№	VN	V'ltljV	U.v 00	N		v'.v	Vw.v	1.Л’	i .00
400	160 000	20 00000	63-24555	2500000	450	202 500	21.21320	67.08204	2222222
401	160 801	20.02498	63.32456	2493766	451	203 401	21,23676	67.15653	2217295
402	161 604	20.04994	63.40347	2487562	452	204 УМ	21.26029	67.23095	2212389
403	162 409	20.074X6	63.48228	2481390	458	205 209	21.28380	6730527	2207506
404	163 216	20.09975	63.56099	2475248‘	454	206 116	21.30728	67.37952	2202643
405	164 025	20.12461	63.63961	2469136-	455	207 025	21.33073	67.^5369	2197802
406	164 836	20.14944	63:71813	2463054	456	207 936	2L35416	67.52777	2192982-
407	165 649	20.17424	63.79655	2457002	457	208 849	21.37756	67:60178	2188184	1
408	166 464	20.19901	63.87488	2450980	458	209’764	21.40093	67.67570	2183406
409	167 281	20.22375	63.95311	2444988	459	210 681	21.42429	67.74954	2178649s
410	168 100	20.24Я46	64.03124	2439024	460	211 600	21.44761	67.82338	2173913
411	168 921	20.27313	64.10928	2433090	461	212 521	21.47091	67.89698	2169197’
412	169 744	20,29778	64.18723	2427184	462	213 444	21.49419	67.97058	2164502й
413	170 569	20.32240	64 2630Н	2421308	463	214 369	21.51743	68.04410	2159827
414	171 396	20.34699	64.34283	2415459	464	215 296	21.54066	68.11755	2155172
415	172 225	20.37155	64.42049	2409639	465	216 225	21.56386	68.19091	2150538-
416	173 056	20 39608	64.49806	2403846	466	217 156	21.58703	68.26419	2145923
417	173 889	20-42058	64.57554	2398082	467	218 089	21.61018	68.33740	2141328
-	418	174 724	20.44506	64.65292	2392344	468	219 024	21.63331	68.41053	2136752
419	175 561	20.46949	64.73021	2386635	469	219 961	21.65641	68.18857	2132196.
420	176 400	2049390	64.80741	23809*2	470	220 900	21.67948	68.55655	2127660
421	177 241	20.51Н28	64.88451	2375297	471	221 841	21.70253	68.62944	2123142
422	178 084	20.54264	64.96153	2369668	472	222 784	21.72556	68.70226	21186-14
423	178 929	20.56696	65.03815	2364066	473	223 729	21.74856	68.77500	2114165
424	179 776	2059126	65.11528	2358491	474	224 676	21.77154	68.84766	2109705
|	425	180 625	20.61553	.65.19202	2352941	475	225 625	21.79449	68.92024	2105263
1	426	181 476	20.63977	55.26868	2347418	476	226 576	21.81742	68.99275	2100840
427	182 329	20.66398	6554524	2341920	477	227 529	21.84033	69.065J9	2096436
128	183 184	20.68816	65.42171	2336449	478	228 484	21,86321	69.13754	2092050
429	184 041	20.71232	65.49809	2331002	479	229 441	21.88607	69.20983	2087683
430	184 900	20.73644	65.57439	2325581	480	230 400	21.90890	69.28203	2083333
431	185 761	20.76054	65.65059	2320186	481	231 361	21.93171	69.35416	2079002
432	186 624	20.78461	65.72671	2314815	482	232 324	21.9.5450	69.42622	2074689
433	187 489	20.80865	65.80274	2309469	483	233 289	21 97726	69.49820	2070393 ь
454	188 356	20.83267	65.87868	2304147	484	234 256	22 00000	69.57Q11	2066116
435	189 225	20.85665	65,95453	2298851	485	235 225	22.02272	69.641л4	2061856
436	]90 096	20.88061	66.03030	229357Н	486	236 196	22.04541	69.71370	2057613
437	190 969	20.90454	6610598	2288330	4Н7	237 169	22.06808	69.78539	2053388
	138	191 844	20.92845	66.18157	2283105	488	238 144	22.09072	69.85700	2049180-
439	192 721	20.95233	66.25708	2277904	489	239 121	22.11334	60.92853	2044990 -
440	193 600	20.97618	66.33250	2272727	490	240 100	22.13594	70.00000	2040816 2036660
441	194 481	21.00000	66.40783	2267574	491 .	241 081	22.15852	70.07139	
442	195 364	21.02380	66.48308	2262443	492	242 064	22.18107	70.14271	2032520
443	196 249	21,04757	66.55825	2257336	493	243 049	22.20860	70.21396	2028398	<	| 2024291
444	197 136	21.07131	66.63332	2252252	494	244 036	22.22611	70.28513	
145	198 025	21.09502	66.70832	2247191	495	245 025	22-24860	70.35624	3020202
’ 146	198 916	2L11871	66,78323	2242152 ,	496	246 016	22.27106	70.42727	2016129
447	199 809	21Л 4237	66.85806	2237136	497	247 009	22-29350	70.49823	2012072 ,
Ш	200 704	21.16601	66.93280	2232143	498	248 004	22.31591	70.56912	200R032
449	201 601	21.18962	67.00746	2227171	499	^9 001	22.33831	70-63993	2004008
450	202 500	21.21320	67.08204	2222222	500	250 000	22.36068	70.7 «068	2000000 «
406
т
Продолжение табл, ХШ
											
	N		\'N	VlOA'	1W .00	N	№	VN	V10N	l/N	S .00	I	
	500	250 000	22.36068	•70.71068	2000000	550	302 500	23.45208	74.16198	1818I82	
	501	251 001	22.38303	70.78135	1996008	551	303 601	23.17339	74.22937	1814832	
	502	252 <КИ	22.40556	70.85196	1992032	552	304 704	23,49468	74.29070	1811594	
	503	253 009	22.42766	70.92249	'1988072	553	305 809	23.51595	74.36397	I80831R	
	504-	254 016	22.44994	70.99296	19В4127	554	306 916	23.53720	74 43118	iao.5tiM	
	505	255 025	22.47221	71.06335	1960196	555	308 025	23.55844	74.49832	1801802	.	
	Г1О6	256 036	22.49444	71.13368	1976285	556	309 136	23.57965-	74.56541	1798561	
	507	257 049	22.51666	71.20393	1972887	557	310 249	23.60085	74.63243	1795332	
	508	258 <164	22.53886	71.27412	1968504	558	311 364	23.62202	74 69940	1792115	л
	509	259 081	22.56103	71.34424	1964637	559	312 481	23.64318	74.76630	1788909	
• «	510	260 100	22.58318	71,41428	1960784	560	313 600	23.66482	74.83315	1785714	
	511	261 121	22.60531	71.48426	1956947	561	314 721	23.68544	74.89993	I782531	
	512	262 144	22.62742	71.55418	1953125	562	315 844	23.70654	74.96666	1779359	
	513	263 169	22 64950	71.62402	1949318	563	316 969	23.72762	75.03333	1776199	
	514	2М 196	22.6715"	71.69379	1945525	564	318 096	23.74868	75.09993	1773050	
	515	265 225	22.69361	71.76350	1941748 .	565	319 225	23.76973	75.16648	1769912	
	516	266 256	22.71563	71.83314	1937984	566	320 356	23.79075	75.23297	1766784	
	517	267 289	22 73763	71.90271	1934236	567	321 489	23.81176	75.29940	1763668	
	.518	268 324	22.75961	71.97222	1930502	568	*22 624	23.88275	75.36577	1760563	
	519	269 361	22.78157	72.04165	1926782	569	323 761	23.85372	75-43209	1757469	
-	620	270 400	22.80351	72.11103	1923077	570	324 900	23.87467	75.49834	175-1386	
	521	271 441	22.82542	72.18033	1919386	571	326 041	23 89561	75.56454	1751313	
	Г.22	272 484	22.84732	72.24957	1915709	572	327 184	23 91652	75.63068	1748252	
	.-523	273 529	22.86919	72.31874	1912046	573	328 329	23.93742	75.69676	1745201	
	524	274 576	22.89105	72.38784	1908397	574.	329 476	28.95830	76.76279	1742160	
	525	275 625	22.91288	72.45688	1904762	575	330 625	23.97916	75.82875	1739130	
	526	276 676	22.93469	72.52586	1901141	576	331 776	24.00000	75.89466	17361H	
	527	277 729	22.95648	72.59477	1897-533	577	332 929	24.02082	75.96052	1733102	
	528	278 784	22.97825	72.66361	1893939	578	334 084	24.04163	76.02631	1730104	
	529	279 841	23.00000	72.73239	1890359	579	335 241	24,ОЬ242	76.09205	1727116	
	530	280 900	23.02173	72.80110	1886792	580	336 400	24.08319	76.15773	1724188	
	531	281 961	23ХМ344	72.86975	1885239	5R1	337 561	24.10394	76.22336	1721170	
	532	283 024	23.06513	72.93833	1879699	582	338 724	24.12468	76.28892	1718213	
	538	284 089	23 08679	73.00685	1876173	583	339 889	24.14539	76.35444	1715266	
	534	285 156	23.10844	73.07580	1872659	584	341 056	24.16609	76.41989	1712329	
	535	286 225	23.13007	73 14369	1869159	585	342 225	24.18677	76.48529	1709402	
	536	287 296	23.15167	73.21202	1865672	586	343 396	24.20744	76.55064	1706485	
	537	288 369	23.17326	73.28028	1862197	587	344 569	24.22808	76.61593	1703578	
	538	289 444	23.19483	73.34848	1858736	588	345 744	24.24871	7 b. 68116	1700680	•
	539.	290 521	23.21637	73.41662	1855288	589	346 921	24.26932	76.74634	1697793	
-	540	291 600	23 23790	73.48469	1851852	590	348 100	24.28992	76-81146	1694915	
	541	292 681	23.25941	73.55270	1848429	591	.349 281	24.31049	76.87652	1692947	
	542	293 764	23.28089	73.62065	1845018	592	350 464	24.33105	76.94154	1689^89	
	543	294 849	23.30236	73.68853	1841621	593	351 649	24.35159	77.00649	1686341	
	544	295 936	23.32381	73.75636	1838235	594	352 836	24.37212	77.07140	1683502	
	545	297 025	23.34524	73.82412	1834862	595	354 025	24.39262	77 13621	1680672	
	546	298 116	23.56664	73.89181	1831502	596	355 216	24.41311	77.20КИ	1677Я52	
	547	299 ?П9	23.38803	78.95945	1828154	597	356 409	24.43358	77.26578	1675042	
	□48	300 304	23.40940	74.02702	1824818	598	357 604	24.45404	77.33046	1672241 -	
	549	301 401	23.43075	74 09458	1821494	599	358 801	24Л7448	77.39509	1569449	
	‘ L55O	302 300	23.45208	74.16198	1818182	'	600	360 000	24.49490	77.45967	16666Г7 -	
407
Продолжение табл. ХШ
	N	№	Vn	VToN	UN .00	N	N’	V'lV	V10N	MN oo
	600	360 000	24.49490	77.45967	1666667	650	422 500	25.49510	80.62258	1.538462
	601	361 201	24.51530	77.52419	1663894	651	423 801	25.51470	80.68457	i536098
	 602	362 404	24.535159	77.58866	1661130	652	425 104	25.53429	80.71652	1533742
	» 603	363 609	24.55606	77.65307	1658375	653	426 409	25.55386	80.80842	1531394
t	604	864 816	24 57641	77.71744	1655629	654 *	427 716	25.57342	80.87027	1529052
	605	366 025	24.59675	77.78175	1652893	655	429 025	25.59297	80.93207	1526718
	606	.167 236	24.61707	77 84600	1650165	656	430 336	25.61250	80.99383	1524390
	607	368 449	24.63737	77.91020	1647446	657	431 649	25.63201	81.0555-1	1522070
	608	369 664	24.65766	77.97435-	1644737	658	432 964	25.65151	81.11720	1519757
	609	370 881	24.67793	78.03845	1642036	659	434 281	25.67100	81.17881	1517451
	610	372 100	24.69818	78.10250	1639344	060	435 600	25.69047	81.24038	1515152
	61!	373 321	24.71841^	78.16649	1636661	661	436 921	25.70992	81,30191	1512859
	612	374 544	24 73863	78.28043	1633087	062	438 244	25.72936	81.36338	1510574
	613	375 769	24.75684	78.29432	1631321	668	439 569	25.74879	81.42481	1508296-
	614	376 996	24.77902	78.35815	1628664	664	440 896	25.76820	81.48620	1506024
	6J5	378 225	24 79919	78.42194	1626016	665	442 225	25.78759	81.5-1753	1503759
	516	379 456	24.81935	78.48567	1623377	666	443 556	25.80698	81.60882	1501502
	617'	380 689	24.83948	78.54935	1620746	667	444 889	25.82634	81.67007	1499250
	618	381 924	24.85961	78.61298	1618123	668	446 224	25.84570	81.73127	1497006
	619	383 161	24.87971	78.67655	1615509	669	447 661	25.86503	81.79242	1494768
	620	384 400	24.49980	78.74008	1612903	670	448 900	25.88436	81.85353	1492587
	621	385 641	24.91987	78 80355	1610306	671	450 241	25.90367	81.91459	1490313
	622	386 884	24.03993	78.86698	1607717	672	451 584	25.92296	81.97561	1488095
	623	388 129	24.95997	78.93035	1605136	678	452 929	25.94224	82 03668	1485884
	624	389 576	24.97999	78.99367	1602564	674	454 276	25.96151	82.09750	1483680-
	625	390 625	25.00000	79.05694	1600000	675	455 625	25.98076	82-15838	1481481
	626	391 876	25.01999	79.12016	1597444	676	456 976	26.00000	82.21922	1479290-
	627	393 129	25.03997	79.18333	1594896	677	458 329	26-01922	82.28001	1477105
	62«	394 384	25.05993	79.24645	1592357	678	459 684	26.03843	‘ 82.34076	1474926
	629	395 641	25,07987	79.30952	1589825	679	461 041	26.05763	82.40146	1472754
	630	896 900	25.09980	79.37254	1587366	680	462 400	26.07681	8246211	147058&
	631	398 161	25.11971	79.43551	1584786	681	463 761	26.09598	82.52272	1468129
	632	399 424	25.13961	79.49843	1582278	682	465 124	26.11513	82.58329	1466276
	633	400 689	25.15949	79.56130	1579779	683	466 489	26.13427	82.64381	i464m
	634	401 956	25.17936	79-62412	1577287	684	467 856	26.15339	82.70429	1461988
	635	403 225	25.19921	79.68689	1574803	685	469 225	26.17250	82.76473	1459854
	536	404 496	25.21904	79.74961	1572327	686	470 596	26.19160	82.82512	1457726
	637	405 769	25.28886	79.81228	1569859	687	471 969	26.21068	82.88546	1455604
•	638	407 044	25.25866	79.87190	1367398	688	473 344	26.22975	82.94577	1453486
	639	408 321	25.27845	79.93748	1564945	689	474 721	26.24881	83.00602	1451379»
	640	409 600	25,29822	80.00000	1562500	690	476 100	26.26785	83.06624	1449275-
	641	410 881	25.31798	80.06248	1560062	691	477 481	26.28688	83.12641	1447178-
	642	412 164	25.33772	80.12490	1557632	692	478 864	26.30589	83.18654	1145087
	643	413 449	25 85744	80.18728	1555210	693	480 249	26.324H9	83.24662	1443001
	644	414 736	25.37716	80.24961	1552795	694	481 636	26.34388	83 30666	1440922
	645	416 025	96.39685	80.31189	1550388	695	483 025	26.36285	83.36666	1438849-
	646	417 316	25.11653	80.37413	1547988	696	484 416	26.38181	83-42661	1436782
	647	418 609	25.43619	80.43631	1545595	697	485 809	26.40076	83.48653	1434720
	648	419 904	25.45584	80.49845	1543210	698	487 204	2641969	83.54639	1432665
	649	421 201	25.47548	80.56054	1540832	СГТУ	488 601	26.43861	83.60622	1430615'
	660	422 500	25.49510	80.62258	1538462	700	490 000	26 45751	83.66600	1428571
408
Продолжение габл. XIII
X		Vx	VJ0N	.00	к	N1	Vw	VlfW	-00
700	490 000	26.45751	83.66600	1428571	$50	562 500	27.38613	86.60254	1533333
701	491 401	26 47640	83.72574	1426534	751	564 001	27 4043Н	Я6.66026	1831558
702	492 804	26.49526	83.78544	1424501	$52	565 504	27,42262	86.71793	1329787
703	494 209	26.51415	83.84510	1422475	$53	567 009	27.44085	86.77557	1328021
704	495 616	26.53300	83.90471	1420455	754	568 516	27 45906	86.83317	1326260
705	497 025	26.55184	83.96428	]418440	$55	570 025	27.47726	86.89074	1324503
706	498 436	26.57066	84.02381	1416431.	756	57] 536	27.49545	86.94826	1322751
707	499 849	26.58947	84.08329	1414427	757	573 049	27.51363	87,00575	1321004
70Я	501 264	26.60827	84.14274	1412429	758	574 564	27.53180	87.06320	1319261
709	502 681	26.62705	84.20214	14IIM37	759	576 081	27.54995	87.12061	1317523
710	504 100	26.64583	84.26150	1408451	760	577 600	27.56810	87.17798	1315789
711	505 521	26.66456	84.32082	1406470	$61	579 121	27.58623	87.23531	1314060
712	506 944	26.68333	84.38009	1404494	762	580 644	27 60435	87 29261	1312336
713	508 369	26.70206	84.43933	1402525	763	582 169	27.62245	87,34987	1310616
711	509 796	26.72078	84.49852	1400560	764	583 696	27 64055	87.40709	1308901
715	511 225	26 73948	84.55767	1398601	$65	585 225	27 65863	87.46428	1307190
716	512 656	26.75818	84.61678	1396648	$66	586 756	27.67671	87.52143	1305483
717	514 089	26.77686	84.67565	1394700	767	588 289	27.69476	87.57854	1303781
718	515 524	26.79.552	84.73488	1392758	768	589 824	27.71281	87.63561	1302083
719	516 961	26.81418	Ы .79387	1390821	769	591 361	27.73085	8769265	1300390
720	□ 18 400	26.83282	84.85281	1388889	$70	592 900	27.74887	87.74964	1298701
721	519 841	26 85144	84.91172	1386963	$71	594 441	27.76689	87.80661	1297017
722	521 284	26.871 Ю6	84.97058	1385042	$72	595 984	27.78489	87.86353	1295337
723	522 729	26.88866	85.02941	1383126	ПЗ	597 529	27.80288	87.92042	1293661
724	524 176	26 90725	85.08819	1381215	974	599 076	27.82086	87.97727	1291990
$25	525 625	26.92582	85.14693	1379310	975	600 625	27.83862	88,03408	1290323
726	527 076	26.94439	85.20563	1377410	$76	602 176	27.85678	88.09086	12К866О
727	528 529	26 96294	85.26429	1375516	$77	603 729	27.87472	88.14760	1287001
72Я	529 984	26.98148	85,32292	1373626	$78	605 284	27.89265	88.20431	1285347
729 * 531 441		27.00000	85,38150	1371742	$79	60€ 841	27.91057	88.26098	J283697
730	532 900	27.01851	85.44004	1369863	$80	608 400	27.92848	88.31761	1282051
$31	534 361	27.03701	85.49854	1367989	$81	609 961	27.94638	88.37420	1280410
$32	535 824	27.05550	85.55700	1366120	$82	611 524	27 96426	88.43076	1278772
733	537 289	27.07397	85.61542	1364256	$83	613 089	27.98214	88.48729	1277139
734	538 756	27.09243	85.67380	1362398	784	614 656	28.00000	88,54377	1275510-
735	540 225	27.11088	85.73214	1360544	$85	616 225	28.01785	«8.60023	1273885
736	541 696	27.12932	85,79044'	1358696	$86	617 796	28,03569	88.65664	1272265
737	543 109	27.14774	85.84870	1456852	$87	619 369	28.05352	88.71302	1270648
$М	544 644	27.16616	85.90693	1355014	788	620 944	28.07134	88.76936	1269036
739	546 121	27.18455	85.96511	1353180	789	622 521	28089М	88.82567	1267427
740	547 600	27.2029*	86.02325	1351351	790	624 100	28.10694	88.88194	1265823
741	549 081	27.22132	86,08136	1349528	79]	625 681	28.12472	88.93818	1264223
742	550 564	27.23968	86.13942	13477Q9	792	627 26-1	28.14249	88 09438,	1262626
743	552 €М9	27.25803	86.19745	1345895	$93	628 849	28.16026	89.05055	1261034
744	553 536	27.27636	86.25545	1344086	$94	630 436	28.17801	89.10668	1259446
745	555 025	27.29469	86.31338	1342282	$95	632 025	28» 19574	в9_1<6277	1257862
746	556 516	27.31300	86.37129	1340483	796	633 616	28.21347	89.21883	1256281
747	558 009	27.33130	86.42916	1338688	797	635 209	28.23119	89.27486	1254705
748	£59 504	27.34959	86.48699	1336898	798	636 804	28.24889	89-33085	1258133
749_Ш 001		27.36786	86,54479	1335113	799	638 401	28.26659	89.38680	1251564
750 «62 500		27.38613	86.60254	1333333	ew	640 000	28.28427	89 44272	1250000
4С9
Продолжение табл. XIII
N	№	VN	V10N	1/N ,00	N	N*	V14	View	1/N .00
800	640 000	28.28427	«9.44272	1250000	850	722 500	29.15476	92Л9544	1176471
801	641 601	28.30194	89.49860	1248^39	851	724 201	29.17190	92.24966	1175Ш
802	643 204	28.31960	89 55445	1246883	R52	725 904	29.JS904	92.30385	1173709
805	644 809	28.33725	«9.61027	I24583O	858	727 609	29,20616	92.358ОП	1172335
804	646 416	28.35489	89.66605	1243781	854	729 316	29.22328	92.41212	1170960
805	648 025	28.37252	89.72179	1242236	855	731 025	29.24038	92.46621	1169591
806	649 636	28.39014-	89.77750	1240695	856	732 736	29.25748	92.52027	1168224
807	651 249	28.40775	89.83318	1239157	857	734 449	29.27456	92.57429	1166861
808	652 864	28-42534	89.888R2	1237624	858	736 161	29.29164	92.62829	1165501
809	654 481	28.44293	89.94443	1236094	859	737 881	29.30870	92.68225	1164144
810	656 100	28.46050	90.00OU0	1234568	860	739 600	29.32576	92.73618	1162791
811	657 721	28.47806	90.05554	1233046	861	741 321	29,34280	92.79009	1161440
812	659 344	28.49561	90.11104	1231527	862	743 044	29.35984	92.81396	1160093
818	660 969	28.51315	90.16651	1230012	863	744 769	29.37686	92.89779	1158749
814	662 596	28.53069	90.22195	1228501	8M	746 496	29.39388	92.95160	1157407
815	664 225	28.54820	90.27735	1226994	865	748 225	29.41088	93.00538	1156069
816	665 856	28.56571	90.33272	1225490	866	749 956	29.42788	93.05912	1154734
 817	667 489	28.58321	90.38805	1223990	R67	75! 689	29,44486	93.11283	1153403
818	669 124	28.60070	90.44335	1222494	868	753 424	29.46184	93.16652	1152074
819	670 761	28 61818	90.49862	1221001	869	755 161	29.47881	93.22017	1150748
820	672 400	28-63564	90.55385	1219512	870	756 900	29.49576	98.27379	114942.»
«21	674 041	28.65310	90.60905	1218027	871	758 641	29.51271	93,32738	1148106
822	675 684	28.67054	90.66422	1216М5	872	760 384	29.52965	93.38094	1146789
823	677 329	28.68798	90.71935	1215067	873	762 129	29.54657	93.43447	1145475
824	678 976	28.70540	90.77445	1213592	874	763 876	29.56349	93.48797	1144165
825	680 625	28.72281	90.8^951	1212121	875	765 625	29.58040	98.54143	1142857
826	682 276	28.74022	90.88454	1210654	876	767 376	29.59730	93.59487	1141553
827	683 929	28.75761	90.93954	1209190	877	769 129	29.61419	93.64828	1140251
828	685 584	28.77499	90.99451	1207729	878	770 884	29.66106	93.70165	1138952
829	687 241	28.79236	91.04944	1206273	879	772 641	296479.3	93.75500	1137656
830	688 900	28.80972	91.10434	1204819	880	774 400	2966479	93.80832	1136364
831	690 561	28.82707	91.15920	1203369	881	776 161	29.68164	93.86160	1135074
832	692 224	28.84441	91.21403	1201923	882	777 924	29 69848	.93.91486	1133787
833	693 889	28.86174	91-26883	1200480	883	779 689	29.71532	93.96808	1132503
834	695 556	28,87906	91.32360	1199041	884	781 456	29.73214	94.02127	1131222
835	697 225	28.89637	91.37833	1197605	885	783 225	29 74895	94.07444	1129944
836	698 896	28.91366	91.43304	1196172	886	784 996	29.76575	94.12757	1128668
837	700 569	28.93095	91.48770	1194743	887	786 769	29.78255	94Л8068	1127396
838	702 244	28.04823	91.54234	1193317	888	788 544	29.79983	94.28375	1126126
839	703 921	28.96550	91.59694	1191895	889	790 321	29.81610	94.28680	1124859
840	705 600	28.08275	91,65151	1190476	890	792 100	29.83287	94.38981	1128596
841	707 281	29.00000	91.70605	1189061	891	793 881	29.84962	94 39280	1122334
842	708 964	29.01724	91.76056	1187648	892	795 664	29.86637	94.44575	1121076
843	710 649	29.03446	91,81503	1186240	893	797 449	29.88311	94.49868	1119821
844	712 336	29.05168	91.86947	1184834	894	799 236	29 89983	94.55157	1118568
845	714 025	29-06888	91.92388	1183432	895	801 025	29.91655	94.60444	1117318
846	715 716	29.08608	91.97826	1182033	896	802 816	29.93326	94.65728	1116071
847	717 409	29.10326	92.03260	118O63S	897	804 609	29.94996	94.71008	1114827
848	719 104	29.12044	92.08692	1179245	898	806 404	29.96665	94.76286	Hli.586
849	720 801	29.13760	92.I4I2O	1177856	899	808 201	29.98333	94.81561	1112347
850	722 500	29.15476	92.19544	1176471'	900	810 000	30.00000	94.86833	num
410
Продолжение табл. ХШ
Л'	№	Vn	VhW	1/лг .00	N	№	Vn	V10N	UN .00
900	810 000	30-ОЮОО	94.86833	1111111	950	902 500	30:82207	97.46794	1052632
901	811 801	30.01666	94.92102	1109878	951	904 401	30.83829	97.51923	1051525
902	813 604	30.03331	94.97368	1108647	952	906 304	30.85450	97.57049	1050420 1
90S	815 409	30.04996	95.02631	1107420	953	908 209	30.87070	97.62172	1049318
W4	817 216	ЗОлкхйЭ	95.07891	1106195	954	910 116	30.88689	97.67292	1СИ8218
9иб	819 025	30.08322	95.13149	1104972	955	912 025	30 90307	97.72410	1047120
906	820 836	30.09983	95.18403	Г1О3753	956	913 936	- 30.91925	97.77525	1046025
907	«22 649	30.11644	95.23655	I102536	\ 957	915 849	30 93542	97.82638	1044932
ООН	824 464	30.13304	95.2Н903	1101322	958	917 764	30.95158	97.87747	1043841
909	826 281	30.14963	95.34149	1100110	959	919 681	30.96773	97.92855	1042753
910	828 100	30.16621	95.39392	1098901	960	921 600	30.9R387	97.97959	1041667
911	829 921	30.18278	95.44632	1097695	961	923 521	31.00000	98.03061 ,	1040583
912	831 744	30.19934	95 49869	5096491	962	925 444	31.01612	98.08160	1039501
913	833 569	30.21589	95.55103	1)95290	963	927 369	31.03224	98.13256	1038422
914	835 396	30.23243	95.60335	1094092	964	929 296	31.04835	98.18350	1037344
915	837 225	30.24897	95.65563	1092896	965	931 225	31.06445	98.23441	1036269
916	839 056	30.26549	95.70789	1091703	966	933 156	31.08054	98.28530	1035197
917	840 889	30.28201	95.76012	1090513	967	935 089	31.09662	98.33616	1034126
918	842 724	30.29851	95.81232	1089325	968	937 024	31 11270	98.38699	1033058
919	844 561	30.3150V	95.86449	1088139	969	938 961	31.12876	98Л3780	1031992
920	846 400	5033150	95.91663	1086957	970	М 900	31.14482	98.18858	1030928 '
921	Й48 241	30.34798	95.96874	1085776	971	942 841	31.16087	98.53933	1029866
У22	850 084	30.36445	96.02083	1084599	972	944 784	31.17691	98.59006	1028807
923	851 929	30.38092	96.07289	1083424	973	946 729	31.19295	£«.64076	1027749
924	853 776	30.39737	96.12492	1082251	974	948 676	31.20897	98.69144	1026694
925	855 625	30.41381	96.17692	1093081	975	950 625	31.22499	98.74209	1025641
926	857 476	30.43025	96.22889	1079914	976	952 576	31.24100	98.79271	1024590
927	859 329	30.44667	96.28084	1078749	977	954 529	31.25700	98.84331	1023541
Ж	861 184	30.46309	96.33276	1077586	978	956 484	31.27299	98.89338	1022495
929	.863 (Ц1	30.47950	96.38465	1076426	979	958 441	31.28898	98.94443	1021450
930	864 900	30.49590	96.43651	1075269	980	'960 400	31.30495	98.99495	1020408
931	866 761	30.51229	96.48834	1074114	981	962	31.32092	99.04544	1019368
932	868 624	30.52868	96 54015	1072961	982	964 324	31 33688	99.09591	1018330
933	870 489	30.54505	96.59193	1071811	983	966 289	31.35283	99.14636	1017294
934	872 356	30.56141	96.64368	1070664	984	968 256	31.36877	99.19677	1016200
935	874 225	30.57777	96.69540	1069519	985	970 225	31.38471	99.24717	1015228
936	876 096	30.59412	96.74709	1068376	986	972 196	31.40064	99.29753	1014199
937	877 969	30.6КИ6	96.79876	1067236	987	974 169	31 41656	99.34787	1013171
938	879 844	30.62679	96.85040	1066098	988	976 144	31.43247	99.39819	1012146
939	881 721	зо.мзн	96.90201	1064963	989	978 121	31.44837	99.44848	1011122
940	883 600	30.65942	96.95360	1063830	990	980 100	31.46427	99.49874 .	1010101
941	885 481	30.67572	97.00515	062699	991	982 081	81.48015	99.54898	1009082
942	887 364	30.69202	97.05668	1061571	992	984 064	81.49603	99.59920	1008065
943	889 249	30.70831	97.10819	1060445	993	986 049	31.51190	99.64939	1007049
944	891 136	30 72458	97.15966	1059322	994	988 036	31.52777	99.69955	1006036
945	893 025	30.74085	97.21111	1058201	995	990 025	31.54362	99.749Й9	1OO5O?5
946	894 916	30,75711	97.26253	1057082	996	992 016	31 55947	99.79*80	10СИ016
947	896 809	30.77337	97.31393	1055966	997	994 009	31.57531	99.84989	1003009
948	898 704	30.78961	97.36529	1054852	998	996 004	31.59114	09.89995	1002004
949	900 601	30.80584	97.41663	1058741	999	998 001	31.60696	99-94999	1001001
950	902 500	30.82207	97.46794	1052632	1000	1 000 000	31,62278	100.00000	1000000
Примечание
Данные взяты из источника ЕЕ. Croxton and DJ. Cowden. Practical Business Statistics, 2nd cd.
i © 1934, 1948, Prentice-Hall, Inc., Englewood Cliffs, N.J.t p. 524 533. Воспроизводится с разре-.
тебпмя нздателей-
411
ОГЛАВЛЕНИЕ
Предисловие к русскому изданию 3
Предисловие................	6
Предисловие для преподавателей, ис-
пользующих курс <Основы при-
кладной статистики» .	7
Глава I. ВВОДНАЯ.................... 9
I 1. Как получают данные в эко-
номике? ................... 9
1.2, Как сделать данные более
полезны ми	для контроля,
анализа и принятия решений 10
Глава 2. РАСПРЕДЕЛЕНИЕ ЧА-
СТОТ	12
2.1.	Анализ числовой информации	12
2.2.	Построение распределения
частот ......	15
2,2.1.	Пределы группировок и
внутригрупповые средние
точки. Число группировок	17
2.2.2.	Другие виды распреде-
лений .......	19
2.3.	Полигон и гистограмма ча-
стот ..........................19
2.3.1.	Дискретные и непре-
рывные данные ....	20
2.3.2,	Графическое изобра-
жение частот.................21
2.3.3.	Разметка горизонталь-
ной шкалы....................25
2.3.4.	Масштабирование вер-
тикальной и горизонтальной
осей ........................26
2.3.5.	Относительные частоты
(частости)	......	26
2,3.6.	Графическая оценка
генеральной	совокупности	27
2,4.	Кумулятивные распределения
частот ......................  28
2.4.1.	Построение и интер-
претация кумулятивных рас-
пределений частот ...	28
2.4.2.	Графическое изображе-
ние кумулятивного распреде-
ления частот.................30
2.4.3.	Кумулятивные распре-
деления частот для дискрет-
ных данных.............31
2.5.	Вопросы и задачи	...	32
Глава 3. СРЕДНИЕ И	ДРУГИЕ
ХАРАКТЕРИСТИКИ РАСПРЕ-
ДЕЛЕНИИ ........................34
3.1	Сложение и умножение ди-
скретных переменных >	.	34
412
3.2.	Среднее арифметическое .	.	35-
3.3.	Медиана, квартили и про-
центили ........................37
3,3.1.	Процентили, получае-
мые для вариационного ряда
несгруппированных данных Зв
31.3.2. Процентили, вычисляе-
мые для ряда сгруппирован-
ных данных ....	40
3.4.	Мода.......................  43
3.S.	Сопоставление средних .	.	44
3.6.	Вопросы и задачи ...	47
Глава 4. ХАРАКТЕРИСТИКИ ВА-
РИАЦ	ИИ ДАННЫХ ....	49
4.1.	Вариация данных и ее изме-
рение ..........................49
4.2.	Вариационный и межквар-
тильный размах ....	50
4.3.	Среднее и среднее квадрати-
ческое отклонения	54
4.3.1,	Среднее отклонение	54
4.3.2.	Среднее квадратиче-
ское отклонение ....	55
4-4. Стандартизация данных .	.	60
4.5. Вопросы и задачи .	66
Глава 5. ВЕРОЯТНОСТЬ И РАС-
ПРЕДЕЛЕНИЯ ВЕРОЯТНО-
СТЕЙ .........................68
5.1.	Понятие вероятности, взаим-
но несовместимых событий и
условной вероятности , .	68-
5,1.1.	Что такое вероятность	68
5.1.2.	Непосредственное вы-
числение вероятностей	70
5,1.3.	Описание более слож-
* ных событий .....	77
5J.4. Условная вероятность	79
5.1.5,	Разбиение пространст-
ва элементарных событий и
формула Байеса ....	80
5.2.	Независимые события, бино-
миальное распределение ,	83
5.2.	L Независимые событиям
испытания...................83
5/Z2. Зависимые события и
испытания....................88
5.2.3.	Совместные	вероятности	90
5.2,4,	Вывод биномиального
распределения	....	95
3.2.5,	Свойства биномиально-
го распределения	...	97
5.2.6.	Гипергеометрич е с к о е
распределение ,	. .	1W
5.3	Распределение Пуассона	101
5,4.	Нормальное распределение	104
5.4.1.	Подгонка нормальной
кривой к опытным данным	105
5.4.2.	Площадь иод нормаль-
ной кривой .	.	.	.	.	НО
5.5.	Некоторые приложения .	.	114
5.6.	Вопросы и задачи .	.	.	121
Глава 6. ОТБОР ВЫБОРКИ . .	125
6.L Введение ...... 125
6,2.	Простой случайный отбор
выборки.......................128
6.2.1. Генеральная совокуп-
ность и выборка .	.	.	128
6.2j2, Случайная выборка	129
6 2.3, Случайный отбор .	.	130
6.3.	Другие методы отбора вы*
борки.........................131
6.3.1,	Систематический отбор	132
6.3.2,	Экспертный отбор .	.	133
6.3.3.	Районированный отбор	133
6.3.4.	Прочие методы отбора
выборки......................134
6.4.	Вопросы и задачи .	.	.	135
Глава 7. ВЫБОРОЧНЫЕ РАСПРЕ-
ДЕЛЕНИЯ .........................138
7.1.	Перечисление всех возмож-
ных выборок	138
7,1.1,	Распределение выбо-
рочных средних .	.	.	,	138
7.1.2,	Распределение выбо-
рочных дисперсий .	.	.	152
7.2.	Экспериментальные распреде-
ления выборочных средних	153
7.2.1.	Теоретические и экспе-
риментальные выборочные
распределения ,	.	.	.	153
7.2.2.	Распределение выбо-
рочных средних .	.	154
7j2l3. Доверительные	пределы	159
7 3, Экспериментальные распреде-
ления процентных	характе-
ристик выборки .	.	,	.	164
7.4. Вопросы и задачи	.	.	*	174
Глава Л. ОЦЕНИВАНИЕ ИСТИН-
НЫХ ПАРАМЕТРОВ ПО ВЫ-
БОРКЕ .........................175
8.1.	Введение ................175
8.2.	Оценивание истинного сред-
него ........................ 177
8.3.	Оценивание истинных про-
центных	характеристик .	.	185
8.4.	Оценивание истинной дис-
персии и истинного среднего
квадратического отклонения 188
8.5.	Вопросы и задачи .	.	190
Глава 9 ИСПОЛЬЗОВАНИЕ ВЫ-
БОРОЧНЫХ ХАРАКТЕРИСТИК
ДЛЯ СОПОСТАВЛЕНИЯ ИС-
ТИННЫХ ПАРАМЕТРОВ ГЕ-
НЕРАЛЬНЫХ СОВОКУПНО-
СТЕЙ .........................192
9.1 Введение..................192
9.2. Сопоставление р с ро .	*	193
9,2.1. Проверка гипотез с по- мощью п редело в и нтервала	
принятия ......	1У?
9.2.2. Принятие решений и определение объема выборки с учетом ошибок первого и второго рода .....	197
9.2.3. Проверка гипотез сопо- ставлением г* с г или t* с t	204
9,3. Разница между pi и рг .	207
9 4. Сопоставление л с По .	212
9.5. Сопоставление тц с л?	214
9.6. Сопоставление	дисперсий	2I&
9.6Л, Сопоставление о2 с О2о	216
9.6.2. Сопоставление o*i с <72г	217
9.7. Вопросы и задачи	219
Глава 10. НЕКОТОРЫЕ ВОПРОСЫ ТЕОРИИ ПРИНЯТИЯ РЕШЕ- НИИ					222
ЮЛ- Отношение человека к риску ,			222*
10.2. Ожидаемая прибыль «ожи- даемые потери .	.	.	,	225-
10.3. Издержки, связанные е ошибками <1 и Р (первого и второго рода), и объем выборки 		232
10,3.1. Доверительные пре- делы 		232
10.3.2, Проверка	гипотез	234
10.4. Элементы байесовской ста- тистики ......	238
10.4.L Априорное распреде- ление величины л .	• 238
10.4 2. Априорное распреде- ление			243
10 4.3. Апостериорное нор- мальное распределение и апостериорное р-распреде- ление ,	.....	244
10.5. Вопросы и задачи .	246
Глава 1L КРИТЕРИЙ ХИ-КВАД- РАТ	248
11.1. Критерий согласия .	248*
11.2. Таблицы	сопряженности	253
11.3. Вопросы и задачи .	257
Глава 12. ДИСПЕРСИОННЫЙ АНАЛИЗ 		2591
12.1, Классификация по одному признаку 		260
12.2. Классификация по двум признакам		265
12.2.1. Классификация по двум признакам: одно на- блюдение в ячейке .	266-
12,2.2. Классификация по двум признакам: несколько наблюдений в ячейке	269-
12.3. Ортогональные контрасты	273-
12.4. Вопросы и задачи .	276
Глава 13. РЕГРЕССИЯ И КОРРЕ- ЛЯЦИЯ 		27fr
13 1. Основы регрессионного и коррелялионного	анализа	278-
413
13.2.	Линейный регрессионный
, анализ .......................
13.2.1.	Подгонка прямой ли-
нии с помощью метода на-
именьших квадратов
13.2.2,	Пределы доверитель-
ного интервала для р и а
13.2.3, Проверка различия
между р и ро .	.	.	.
132.4.	Пределы доверитель-
ного интервала прогноза
для У и ................
13.3.	Двумерный (парный) кор-
реляционный анализ
13.4.	Нелинейная регрессия .
13.5	Множественная регрессия и
корреляция .
13,6.	Вопросы и задачи .
Глава 14 ИНДЕКСЫ .	.	.	/
14.1.	Индивидуальные индексы
14.2. Общие индексы .
1<3. Среднее из индивидуальных
индексов ...................
14.4. Некоторые применения ин-
дексов цен и физических
объемов ....................
14.5. Вопросы и задачи ,
Глава 15. АНАЛИЗ ВРЕМЕННЫХ
РЯДОВ...........................
15.1.	Модели временных рядов
285
285
238
289
290
292
296
300
305
308
308
315
319
321
325
326
326
15.2.	Анализ трендов временных
рядов.............................331
15.2.1.	Прямая линия .	.	333
15.2.2,	Парабола .	.	. 336
15.2.3.	Логарифми ч е с к а я
прямая ...... 338
' 15.3	Статистический анализ эко-
номических циклов .	.	.	343
15,3.1	, Колебания вокруг
тренда без точек перегиба	344
15.3.2	. Скользящая средняя	346
15.3.3	. Методы процента
средней и средних циклов 350
15.4.	Сезонные колебания и ин-
дексы сезонности .	.	351
15.5,	Корреляционный и регрес-
сионный анализ временных
рядов .	.	354
15.6.	Методы прогнозирования 357
15.7.	Вопросы и задачи .	.	.	361
Глава 16. НЕКОТОРЫЕ ДРУГИЕ
СТА! ИСТИЧЕСКИЕ ПРОБЛЕ-
МЫ ..........................364
16.1.	Ранговая корреляция . . 364
16.2.	Знаковый критерий .	.	. 366
* 16.3. Знаковый критерий Виль-
кексона....................368
16.4. Пары наблюдений	.	.	,	369
16.5. Неравенство Чебышева	.	.	370
Список литературы .	373
Приложение. СТАТИСТИЧЕСКИЕ
ТАБЛИЦЫ......................373