Текст
                    м.мелник ОСНОВЫ
ПРИКЛАДНОЙ
СТАТИСТИКИ
ЭНЕРГОАТОМИЗДАТ

М. Мелник основы ПРИКЛАДНОЙ СТАТИСТИКИ I Перевод с английского Л. А. КЛИМЕНКО, В. В. МИНАХИНА Под редакцией Г. Г. ПИРОГОВА МОСКВА ЭНЕРГО АТОМИЗДАТ • 1983
ББК 22.172 И 48 УДК 519.2 Рецензент: Г. Г. Пирогов Мелник М. М 48 Основы прикладной статистики: Пер. с англ,— М.: Энергоатомиздат, 1983. — 416 с., ил. 2 р. 90 к. В книге изложен широкий и подробный курс прикладной стати стики. Рассмотрены средние величины и другие статистические харак- теристики. описан рад важных вероятностных распределений, исполь- зуемых в статистической практике. Изложены проблемы проверки статистических гипотез» принятия решений, критериев качества сгла- живания, построения таблиц сопряженности, а также элементы дис- персионного и регрессионного анализа и теории ранговой корреля- ЦИ!1. Для инженеров и экономистов, интересующихся методами ir. применением математической статистики. 1702060000-63 ББК 22.172 М051(01)-83 251-82 517.» Principles of Applied Statistics M. Melnyk College of Business Administration, Kent State University FERGAMON PRESS JNC. New York - Toronto Oxford • Sydney © Pergamon Press, Inc.. 1974 ©Перевод на русский язык, Энергоатомиддат, 1983s
ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ Статистика возникла как наука общественная. Ее первые ростки появились в глубокой древности и были связаны с такими функциями государства, как землеустройство, налогообложение и организация армии. В древнейших цивилизациях осуществлялись переписи и велись земельные кадастры. Эти операции . были связаны с наблюдениями и вычислениями. Поэтому вычисления сопровождают статистику с момен- та ее зарождения. На протяжении веков статистика искала свой математический аппа- рат и нашла его в теории вероят- ностей, первыми создателями ко- торой были Я Бернулли и П. Лап- лас. Интересно, что истоки этого формального аппарата также ле- жат в общественных явлениях. Случилось так, что формальный аппарат статистики стал исполь- зоваться и в естественных науках, в первую очередь в астрономии (ме- тод наименьших квадратов разра- батывался К. Гауссом уже приме- нительно к астрономическим наблю- дениям), затем в физике. Таким образом, в отличие о г других ви- дов формально-математического ап- парата, которые зародились в об- ласти естественных наук, а затем (к началу XX века) стали приме- няться и в общественных науках, статистические методы перешли из общественных наук в естественные. При изучении статистики в ее приложениях нельзя допускать от- рыва от содержательной основы. Статистика здесь не может быть сведена к сумме формальных прие- мов. пе должна излагаться просто как математическая дисциплина, где теоремы строятся на основе некоторых допущений. Особенно важно это в курсах статистики, предназначенных для исследова- телей, работающих в области об- щественных наук или связанных с практическими задачами в эконо- мике иди на производстве. В связи с распространением ста- тистических методов на естествен- ные науки в настоящее время су- ществуют два понимания этой дис- циплины: широкое и узкое. В широ- ком смысле статистика—это нау- ка, изучающая массовые явления. Какие же явления следует считать массовыми? Опыт человечества по- казывает, что существует большое число процессов, закономерности ко- торых «пробивают себе дорогу» че- рез массу случайных отклонений. Классики марксизма-ленинизма придавали огромное значение мас- совым явлениям в общественной жизни. К. Маркс среди массы слу- чайных явлений общественной жиз- ни искал внутреннюю закономер- ность. Он писал: «Внутренний за- кон, прокладывающий себе дорогу через эти случайности и регулирую- щий их, становится видимым лишь тогда, когда они охватываются в больших массах»'. Раскрывая вза- имосвязь между сущностью и фор- мой проявления социально-экономи- ческих отношений капитализма, К. Маркс широко пользуется для характеристики массовых явлений методом средних величин. В своей 1 Маркс К. и Энгельс ф. Соч., изд. 2-е. т. 25. с. 396. 3
формулировке закона стоимости он фактически опирается на понятие средней величины, используя его при определении понятия общест- венно необходимого времени. Поня- тие средней величины применяется для выражения общей закономер- ности и при формулировании зако- на тенденции средней нормы при- были к понижению. В. И. Ленин уделял большое вни- мание использованию статистичес- ких методов при изучении социаль- но-экономических явлений. В его трудах применительно к обществен- ным явлениям получил дальнейшее развитие метод средних величин. Особое значение В. И. Ленин при- давал однородности, с социально- экономической точки зрения, сово- купности, для которой вычисляется средняя. С помощью метода сред- них величин он получил далеко идущие выводы относительно сущ- ности социально-экономических про- цессов, происходивших в России в конце XIX — начале XX века1. Следуя классикам марксизма- ленинизма, советская статистичес- кая наука рассматривает массовое явление, протекающее на множест- ве единичных элементов, как обра- зующее некоторое единство, без ко- торого не было бы смысла делать его объектом исследования. Это единство может состоять в общно- сти происхождения всех единичных объектов, из которых составляется множество, в общности их дейст- вия в некотором процессе, в нали- чии взаимодействия между ними. В социально-экономической области одним из важнейших признаков та- кого единства элементов является социально-экономическая однород- ность элементов. Именно поэтому массовое явле- ' ние не может протекать на мно- жестве, механически, произвольно образованном исследователем путем объединения не имеющих никакого 1 Огромный интерес представляет в этом отношении работа В, И Ленина «Развитие капитализма в России» (Полное собр. соч.» изд. 5-е» т. 3). 4 отношения друг к другу объектов, сходство которых является лишь поверхностным. Но установить внут- реннее единство элементов множе- ства можно в конечном счете лишь путем неформального, качествен- ного анализа, опирающегося на тео- рию, описывающую физическую (в общественной области — социаль- но-экономическую) сущность иссле- дуемого объекта. Применительно к общественным явлениям статистика может рас- сматриваться как дисциплина в уз- ком ее понимании. Однако и здесь сохраняется универсализм статисти- ки как науки. Он имеет положи- тельное значение, но при условии, что статистика опирается на теорию общественных явлений, хотя прин- цип примата качественного анали- за нельзя понимать как наличие 1олько односторонней зависимости «теоретический анализ — статисти- ка». Правильнее понимать этот принцип как систему с обратной связью '«теория — статистика — теория», в которой теория играет ведущую роль. Буржуазная статистическая наука имеет тенденцию к чисто формаль- но-логическому подходу. Вместе с тем на Западе существует ряд ра- бот, которые обращены непосредст- венно к практике. Цель этих книг заключается в том, чтобы снабдить бизнесмена удобным инструментом, помогающим ему решать повсед- невные задачи планирования ком- мерческой деятельности фирмы и производства. Естественно, что, по- скольку речь идет о достижении максимума прибыли, в этих работах должны излагаться надежные ме- тоды, а изложение должно быть простым и доступным, связанным с практической деятельностью лиц, к которым обращаются авторы. Это, разумеется, требует и качественно- го анализа явлений и множества конкретных примеров. И хотя от буржуазных ученых нельзя ожидать глубокого социально-экономичес- кого анализа и широких обобще- ний, именно те работы, в которых
излагаются методы для повседнев- ного практического применения, могут представлять интерес для со- ветского читателя. В то время как теория математи- ческой статистики у нас достаточно хорошо представлена как в отече- ственной, так и в переводной лите- ратуре, в книгах с широким охва- том проблематики прикладной статистики ощущается определен- ный дефицит, в особенности если речь идет о работах, которые мож- но было бы использовать в качест- ве дополнительного учебного мате- риала. Что касается переводной ли- тературы подобного рода, то еще в 1958 году была выпущена работа С. Р. Миллса «Статистические ме- тоды» (М.: «Госстатиздат», 799 с.), которая на сегодняшний день мо- жет считаться в значительной сте- пени устаревшей. Книга Дж. Вайн- берга, Дж, Шумекера «Статисти- ка», М.: «Статистика», 1979, 389 с., хотя и написана на хорошем методи- ческом уровне, однако носит слиш- ком упрощенный и популяризатор- ский характер. Работа М. Мелника выгодно отличается отсутствием из- лишнего упрощенчества, широтой тематического Охвата и прикладной направленностью, при сохранении, однако, доступности изложения. В книге нет строгих математических доказательств, все изложение ве- дется не «от метода», а от харак- тера исследуемого объекта и от по- ставленной практической задачи. Подробно излагаются «рецепты» использования основных статисти- ческих методов, они иллюстрируют- ся множеством «сквозных» прик- ладных примеров, следующих через всю книгу, а также графически. Почти каждая глава начинается с изложения какой-либо практической задачи, решаемой с помощью изла- гаемых в ней статистических мето- дов. Наибольшее внимание в книге уделяется прикладным методам выборочных исследований (гл. 6— 9). Изложение ведется в традици- онных для таких работ рамках, но отличается высоким методическим уровнем, заботой о том, чтобы чи- татель усвоил предлагаемые ему ме- тоды на уровне, обеспечивающем их применение в повседневной практи- ке. Особенностью методики автора является тщательное «поэлемент- ное» и «поэтапное» изложение ма- териала. В книге обсуждаются и некото- рые более сложные современные проблемы статистической науки: вопросы теории принятия решений (излагаемые с использованием байе- совского подхода), критерий согпа- сия хи-квадрат, построение и ана- лиз таблиц сопряженности, элемен- ты дисперсионного анализа (в том числе метод ортогональных конт- растов), элементы теории ранговой корреляции. Особенно хорошо из- ложены достаточно сложные проб- лемы из области дисперсионного анализа. Несколько более слабыми явля- ются главы, посвященные индексам и анализу динамических рядов. На наш взгляд, изложение здесь все- таки является чрезмерно упрощен- ным; хотелось бы найти рассмотре- ние более сложных вопросов. Одна- ко и эти главы содержат весьма полезный материал. Именно этот широкий охват и полнота проблематики наряду с удачной методикой изложения по- зволяют использовать ее в качестве дополнительного учебного пособия для студентов-экономистов, причем с этой точки зрения особенно важ- ное значение имеет методическое единство изложения широкого кру- га разнообразных статистических проблем. Вместе с тем книга весь- ма полезна и как учебный, и как справочный материал для исследо- вателей (преимущественно в соци- ально-экономической области), не имеющих специальной подготовки в области статистики, ни по роду сво- ей работы постоянно сталкиваю- щихся с задачами статистического анализа массовых явлений. Г. Г. Пирогов
Эта книга появилась в результа- те длительного опыта преподава- ния, ' научно-исследовательской ра- боты и обсуждений. Ее основная за- дача — соединить теорию с опытом. Мне представляется, что такой под- ход с самого начала вызовет инте- рес к предмету студента и поможет ему в процессе обучения. Некоторые аналогичные книги часто начинаются с разъяснений понятий вероятности и вероятност- ных распределений. В них мало вни- мания уделяется статистическим концепциям, объясняющим способы изучения числовой информации. Та- кой подход типичен для работ по математической статистике и тео- рии вероятностей. Однако опыт по- казал, что для неспециалистов по- добное изложение слишком абст- рактно. С другой стороны, если книга начинается с описания конк- ретных задач, на примере которых показана польза статистических ме- тодов, это может вызвать желание изучить методы глубже. Руководствуясь этими соображе- ниями,. мы начинаем книгу с опи- сания- основных способов анализа данных, а не с определения вероят- ностей, так как именно анализ дан- ных составляет содержание статис- тики. Это поможет студенту усвоить понятие «выборка». Рассмотрение выборочных мето- дов не должно предшествовать из- ложению теории вероятностей, но ие должно быть отнесено и в ко- нец книги. Следовательно, оно дол- . жно занимать промежуточное мес- то между разделами по теории ве- роятностей и по статистическим ме- тодам. 6 ПРЕДИСЛОВИЕ Байесовские методы имеют дело с малыми выборками. Посвященный им раздел можно было бы выделить особо и поместить в конце книги. Однако нам представляется, что место байесовских методов рядом с разделами по доверительным ин- тервалам и проверке гипотез, так как именно здесь учащийся впервые задумывается об эффективности вы- борочных статистик, объеме выбор- ки и величине ошибок аир (пер- вого и второго рода). Критерий х2 является неларамет- рическим. Однако с его помощью сравниваются две и более генераль- ные совокупности, распределения признаков которых выражены в процентах. Он играет в прикладной статистике очень важную роль, поэ- тому глава, где он описан, следует сразу за главой, посвященной дис- персионному анализу. Анализ вре- менных рядов не должен предшест- вовать регрессионному анализу, а индексы не могут изучаться до то- го, пока учащийся не познакомится • с этими двумя разделами. Студенты обычно испытывают значительные трудности, пытаясь связать теорию вероятностей с вы- борочными методами, выборочными распределениями и заключениями, сделанными на основе выборок. Понимание этой связи является стержнем курса. Не почувствовав этой связи, учащийся никогда не увидит возможности и ограничен- ности выборок. Опыт преподава- тельской работы, убедил меня, что эксперименты с выборками такого рода, как это делали Диксон и Ма- си, приводят к отличным резуль- татам. Объяснение выборочных
распределений, рассмотренных в гл. 7, ведется с помощью таких экс- периментов. Некоторые подходы к излагаемым в этой книге проблемам не явля- ются ни новостью, ни редкостью в аналогичной литературе. Это под- ходы к таким проблемам, как связь между частотами и площадями, сравнение распределений частот, подгонка нормальной кривой к эм- пирическим данным, выведение фор- мулы Байеса, объяснение распреде- ления Пуассона, связь между ошиб- ками а и 0 и объемом выборки при вычислении доверительных границ и проверке гипотез,, байесовские статистики, критерий %2, коэффици- ент корреляции, индексы, прогноз трендов, применение скользящих средних для элиминирования цик- лических составляющих. Материал книги рассчитан на три квартала или два семестра препо- давания студентам младших кур- сов. Однако он достаточно глубок и с некоторыми дополнениями мо- жет использоваться аспирантами. Последовательность глав с 1 по 9 существенна для понимания пред- мета. Другие главы содержат ма- териал. исследуемый во многих ра- ботах, так что может быть исполь- зован любой порядок его изучения. Детальность изложения материала имеет особенное значение, посколь- ку учащиеся предпочитают методы обучения, которые не требуют под- робного конспектирования на лек- циях. Именно поэтому я стараюсь не скупиться на подробности. Во время работы над книгой моя преподавательская загрузка была не слишком велика: за это я бла- годарен прежде всего Школе биз- неса Кентского университета. Моя особенная благодарность проф. Р. Кхану, прочитавшему гл. 5— 13 и сделавшему массу ценных заме- чаний. Я очень обязан проф. Л. Ко- ну за его критику. Полезны были замечания моих студентов, на кото- рых я проверял излагаемый мате- риал. Приношу благодарности распоря- дителю литературного наследия по- койного сэра Д. Фишера и фирме «Фр. Пейте и О. Бойд», разрешив- шим перепечатку табл. VIII и IX из их книги «Статистические таблицы для исследований по биологии, сель- скому хозяйству и медицине». В книге использовались также мате- риалы и таблицы других авторов. М. Мелник ПРЕДИСЛОВИЕ ДЛЯ ПРЕПОДАВАТЕЛЕЙ, ИСПОЛЬЗУЮЩИХ КУРС «ОСНОВЫ ПРИКЛАДНОЙ СТАТИСТИКИ» В моей книге много новых момен- тов. Чтобы облегчить работу препо- давателя, отметим некоторые из них. 1. Описание статистик и других положений в книге таково, что сту- дент может изучать их без помощи или с очень незначительной помо- щью преподавателя. В частности, вся необходимая для пользования многочисленными таблицами инфор- мация в очень компактной форме приводится после таблиц. Такой метод представляется удачным при обзорах и при получении выводов. 2. Связь между наблюдаемыми распределениями частот ХД- и пло- щадями под кривыми в прикладной статистике является основной. Эта связь (особенно нормальная кри- вая) обсуждается довольно подроб- но. Я не думаю, что в других кни- гах вы найдете аналогичную трак- товку. 3. Подробно обсуждаются процен- тили и их связь с площадями под кривыми. 4. Формула Байеса является кон- цептуальной основой байесовской статистики. Однако, как показал мой опыт, большинство студентов не понимают ее. В книге формула выводится с помощью прямоуголь- ников, площади которых принима- ются за единицу. Это позволяет легко вычислить площади (и ве- 7
роятности), используя такие прос- тые отношения, как «половина од- ной третьей равна одной шестой». 5. Для многих студентов, вероят- но, трудно понимание связи меж- ду распределениями генеральной совокупности и выборочных дан- ных, связи между дихотомным вы- борочным пространством и биноми- альным распределением. Я убеж- ден, что рассмотрение эксперимен- тальных выборочных распределений очень полезно для понимания этих проблем Например, вы найдете в книге три множества выборочных средних (для выборок трех объе- мов) и три множества процентных характеристик. Тогда возникает проблема; нужно выбрать одно из этих средних. Из какого множест- ва-первого, второго или третьего— вы предпочли бы получить выбороч- ное среднее? Почему? 6. Подробно обсуждаются связь между пуассоновским й биномиаль- ным распределениями и примене- ние распределения Пуассона к рас- сматриваемым данным. 7. Многие авторы не уделяют дол- жного внимания проверке гипотезы связи между p-ошибкой и объемом выборки. В прикладной статистике эта связь имеет важное значение и потому обсуждается в книге. 8. Каждый исследователь-статис- тик знает: первое, что он должен сделать, — это найти выборку под- ходящего объема. Это положение постоянно иллюстрируется одним или двумя примерами на протяже- нии всей книги. 9. Я надеюсь, что читатель гл. 10 получит ясное представление о раз- личии между ценой удачи и байе- совскими статистиками, а также между байесовскими и классичес- кими статистиками. 10. Я полагаю, что трудно найти книгу, в которой понятие «коэффи- циент корреляции» объясняется так, как это сделано в настоящей рабо- те. Сначала он поясняется с помо- щью общих определений, а уже затем (в главе по временным ря- дам) в связи с использованием его во временных рядах. 11. Вы должны согласиться, что проблемам прогноза трендов и взве- шенных скользящих средних сле- дует уделить больше внимания Наконец, я надеюсь, что не толь- ко эти нововведения вызовут инте- рес к книге. М. Мелник
ГЛАВА 1 ВВОДНАЯ 1.1. КАК ПОЛУЧАЮТ ДАННЫЕ В ЭКОНОМИКЕ? Статистика — это совокупность методов, в основе которых лежат математика и теория вероятностей. Основная цель статистики — облег- чить сбор и анализ числовых- дан- ных, сделать более четкой их ин- терпретацию и выводы. Современная экономика имеет де- ло с массой числовой информации. Эта информация должна помочь глубже понять проблему и облег- чить принятие решений в сложных ситуациях. Информацию для экономической статистики дают государственные органы.. Государственные учрежде- ния, а именно Министерство тор- говли и сельского хозяйства и Бюро статистики рабочей силы, публику- ют, например, данные по националь- ному доходу, ценам, занятости, объему международной торговли. Эти данные редко представляют со- бой сведения о коммерческой дея- тельности отдельных фирм. Обычно они показывают агрегированную динамику производства и цен како- го-либо сектора экономики (напри- мер, сельского хозяйства) или всей экономики в целом. Информация собирается и обра- батывается также Федеральной ре- зервной системой. Эти данные, по- лучаемые как на местном, так и на национальном уровне, чаше всего характеризуют денежные и банков- ские операции, промышленное про- изводство. Сбором и агрегировани- ем необходимой информации зани- маются и другие государственные учреждения и отдельные фирмы. В то время как государственные органы интересует информация за достаточно длинный промежуток времени, для фирм более важен анализ последних данных. Истори- ческому анализу данных особое внимание начало уделяться во вре- мя Второй мировой войны Приме- нение различных статистических ме- тодов показало, что они являются существенным фактором снижения затрат. В экономике, основанной на конкуренции, такими методами нельзя пренебрегать. В результате фирмы начинают собирать п анали- зировать данные самого разнооб- разного характера, а именно инфор- • мацию о прошлом развитии, конку- рентах, привычках, вкусах и жела- ниях заказчиков. Как в органах управления, так и в промышленности информацию по- лучают в основном путем полного охвата или с помощью выборки. Собранные данные используют не- посредственно или рассматривают как основу для получения дополни- тельно обработанной информа- ции, прогноза или интерполяций. Существует множество примеров изучения генеральной совокупности путем полного охвата или перепи- си. Каждые 10 лет, например, про- водится подсчет всех или почти всех жителей в стране — перепись населения. При переписи населения государственные органы получают такую дополнительную информа- цию, как возрастной состав насе- ления. доход, обеспеченность жили- щем. Данные о производстве товаров и услуг получают либо методом пол- 9
него охвата, либо выборочным ме- тодом. В крупных отраслях производст- ва, таких как автомобильная про- мышленность, гражданское авиа- строение, добыча золота, паровозо- строение, судостроение, производст- венные показатели получают прос- тым объединением показателей всех рассматриваемых фирм, т. е. полным охватом. Однако физически невозможно, например, ежемесячно проводить подсчет безработных. Трудно также или почти невозможно получить точную информацию о потреблении в стоимостном или натуральном вы- ражении одежды, жилья, овощей и продуктов питания. Эту информа- цию, необходимую. для вычисления занятости рабочей силы, безрабо- тицы или других компонентов ва- лового национального продукта, получают с помощью метода пол- ного охвата или выборочного ме- тода. Государственные органы и отдель- ные фирмы собирают и обрабаты- вают необходимую им информацию, используя оба метода. Ежемесячные данные о продажах получаются сравнительно легко. Однако на больших предприятиях, производя- щих товары различного вида, ассор- тимент готовой продукции и сырых материалов на складах огромен (тысячи наименований). Руководи- тель, желающий оценить уровень запасов чаще, чем раз в год, может получить необходимую информацию путем выборки. Оценить, насколько хорошо товар идет на рынке, мож- но также этим методом. Информа- ция о таких количественных харак- теристиках продукта, как например, диаметр стальной болванки, обра- батываемой на токарном станке, масса упаковки, вместимость буты- ли, химический состав или проч- ность материала на разрыв, полу- чается либо соответствующим из- мерением всех единиц продукта, либо на основании измерения вы- борки, состоящей из малого числа единиц. Точно так же при оценке К) данных по безработице менеджеры иногда вынуждены использовать выборочную информацию, посколь- ку из-за ограниченности времени и средств они не могут получить точ- ную информацию методом пол- ного охвата. Опросы потребителей, с помощью которых учитываются мнения настоящих или будущих по- купателей о качествах продукта, от- носятся к этой же категории. Методы полного охвата (или пе- репись) и выборки не всегда исклю- чают друг друга. Например, пуб- ликуемые государственными орга- нами данные о строительстве ба- зируются на результатах использо- вания метода полного охва га и выборочного метода. 1.2. КАК СДЕЛАТЬ ДАННЫЕ БОЛЕЕ ПОЛЕЗНЫМИ ДЛЯ КОНТРОЛЯ, АНАЛИЗА И ПРИНЯТИЯ РЕШЕНИЙ Статистические методы приобре- тают особенное значение, если они улучшают собранные данные или существенно облегчают их анализ. Для того, чтобы нагляднее пред- ставить связи определенного вида, например распределение студентов по полу и возрасту, используют специальные таблицы. Пусть какая-нибудь компания ’хо- чет изучить динамику продажи сво- их товаров за прошедшие 10 лет. Проблем в получении данных нет. Однако прямое сравнение несколь- ких таких рядов чисел представ- ляет собой трудоемкую работу. Кар- тина становится яснее, если пред- ставить данные в виде графика. С его помощью можно определить, какие ряды испытывают сезонные колебания, какие — нет, на какие продажи влияет циклическое дви- жение производства и какие про- дукты пользуются наибольшим спросом Таблицы и графики не всегда адекватно отражают сложные связи между группами данных. Например, сравнение оценок учащихся двух школ требует рассмотрения двух
пачек бумаг, заполненных цифрами. Все эти данные • сначала надо сде- лать сопоставимыми. Например, можно вычисл ить средние значения. Сравнение средних даст более на- глядное, чем сравнение отдельных оценок, представление о том, у ка- кой из школ успеваемость выше. В промышленности постоянно проводят измерения, например, мас- сы, размера и других характерис- тик. Эти характеристики должны соответствовать определенным нор- мам. Статистические методы могут применяться и для целей контроля. Историческое движение показате- лей часто искусственно реконструи- руется с помощью экстраполяций и интерполяций. Числовую инфор- мацию о будущем получают с по- мощью различных методов прог- ноза. Применяя статистические методы, следует различать два понятия — генеральная совокупность и выбор- ка. Генеральную совокупность об- разуют все люди, животные, расте- ния или все объекты, анализируе- мые с некоторой точки зрения. Сло- во «все» понимается, конечно, не в абсолютном смысле. Оно скорее подчеркивает отличие генеральной совокупности от выборки. Совокуп- ность определяется и описывается статистиками так, чтобы удовле- творить цели исследования. Цели же исследования могут быть раз- личными для одного и того же мас- сива данных, так что одни и те же данные могут рассматриваться иногда как выборка, а иногда как генеральная совокупность. Приведенные выше определения лучше иллюстрировать примерами. Чтобы подсчитать, сколько сту- дентов университетских городков имеют собственные автомобили, можно провести опрос всех студен- тов, выяснить, сколько из них яв- ляются владельцами автомобилей, и вычислить их процентное отноше- ние к общему числу. Если нет не- обходимости в получении точного числа или процента, то можно обой- тись без полного охвата. Например, можно провести оп- рос только 300 студентов из общего числа 12 000. Если 180 студентов из 300 являются владельцами автомо- билей, то, выражая отношение их к общему числу опрошенных в про- центах, мы можем сказать, что при- близительно 60 % всех студентов имеют автомобили Таким образом выборочный процент используется для оценки процентного отношения в генеральной совокупности. . Пока нам этого достаточно, но необходимо сделать два замечания в связи с приведенным примером. Очевидно, что выборка есть часть целого, но она не всегда хорошо отражает это целое. Если все бед- ные студенты живут в определен- ной части городка и исследователь опрашивает 300 студентов именно из этой части, то вместо 180 он мо- жет найти лишь 15 владельцев ав- томобилей. В результате он придет к совершенно неправильному за- ключению, что лишь 5% всех уча- щихся имеет собственные автомо- били, поскольку его выборка не представляет всех студентов. Второе замечание состоит в том, что необходимо понимать различие между процентными отношениями, полученными из всей генеральной совокупности и из выборки Первое представляет собой конечный н не- изменяемый результат, второе яв- ляется лишь приближенной оценкой первого, так как отражает выбороч- ные вариации. Если два или три человека будут подсчитывать всех владельцев ав- томобилей, то они в идеале полу- чат одни и те же результаты. Од- нако если они будут использовать выборки, то результаты, по всей вероятности, будут различны, даже если выборки берутся из одной и той же совокупности и имеют оди- наковый объем — в каждом случае равный, например, 300. Так как со- став учащихся, представляющих каждую выборку, не одинаков, то результат не представляется не- ожиданным. Таким же образом можно найти 11
средний доход жителей некоторого города, опрашивая все семьи или некоторую выборку из них. Сред- июю массу багажа можно получить, усреднив массу всего багажа или определив среднюю некоторой его части. Если мастер или контролер хочет оценить, сколько отходов по- лучается при производстве, то он может подсчитать либо все отходы, либо взять какую-либо выборку. Соответственно в первом случае он получит точный ответ, во-втором — приблизительную оценку первого. В конечном итоге интерес для ис- следователя представляют не выбо- рочные данные, а генеральная со- вокупность. Количественные харак- ' теристики выборок исследуются в предположении, что они являются аналогами соответствующих харак- теристик генеральной совокупности. Предполагается, например, что средняя для выборочных данных не слишком отличается от средней для генеральной совокупности, так что ’ в полном перечислении количест- венных характеристик всей совокуп- ности нет необходимости. Другой пример: желательно, чтобы числен- ные отношения в выборке между теми, кто голосует за X, и теми, кто не отдает за него голоса, не слиш- ком отличались от аналогичного отношения среди всех возможных избирателей. Цель этой книги состоит не толь- ко в том, чтобы проиллюстрировать и объяснить статистические мето- ды, используемые для анализа ге- неральных совокупностей, но и в том, чтобы читатель понял, как эти совокупности могут быть изучены с помощью выборочных данных. Эго значит, что часто нет необходимос- ти в обследовании всей генераль- ной совокупности для изучения ее характеристик. Исследование мож- но провести, анализируя лишь вы- борочные данные, что экономит время и деньги. Необходимо сде- лать еще несколько замечаний, ка- сающихся применения статистичес- ких методов. 1. Результаты статистического анализа могут противоречить дей- ствительности. Это происходит обы- чно тогда, когда исследователь не понимает либо проблемы, либо при- меняемых статистических методов (или имеют место оба момента). 2. Существует возможность умы- шленно вводить в заблуждение с помощью статистики. Примеры та- кого рода читатель может найти в книге Хаффа «Как обманывать с помощью статистики» 3. В последнее время специалис- ты стараются применять все более тонкие статистические методы. Та- кой практики следует избегать. Ведь цель анализа — не показать знание сложных статистических ме- тодов, а решить задачу. Очень ча- сто именно простейшие методы при- водят к желаемому результату. 2.1. АНАЛИЗ ЧИСЛОВОЙ ИНФОРМАЦИИ В табл. 2 1 приведены длины 300 стальных булавок. Разница в дли- нах булавок незначительна. Уло- вить такую разницу нельзя с по- мощью обычной измерительной ру- летки. Используя рулетку, мы мог- ли бы установить, что длина каждой булавки приблизительно равна од- ГЛАВА 2 РАСПРЕДЕЛЕНИЕ ЧАСТОТ ной четвертой доли дюйма *. Для выявления малых различий нужно применить более тонкий измеритель- ный прибор — микрометр. В табл. 2.2 приведены значения почасовой зарплаты 303 рабочих в промышленности, переписанные с расчетных карточек одной промыш- ленной компании. 1 1 дюйм=2,54 см. 12 I
Таблица 2.1. Длина 3)0 стальных булавок, 10-* дюйм 25) 253 250 249 248 247 251 2Я0 253 248 249 24S 254 253 250 256 252 249 253 248 248 254 255 254 243 251 247 248 253 250 245 253 250 249 255 248 248 251 249 252 251 253 253 245 251 255 2Я1 248 248 250 252 254 249 251 254 248 251 249 251 251 250 249 247 245 252 248 249 252 251 256 256 250 255 249 249 248 247 250 248 248 252 253 250 250 247 252 1 * * * * * * В 249 250 251 249 248 250 246 249 248 248 2ЯО 251 246 252 252 250 254 253 250 255 254 254 253 251 251 245 250 232 249 251 247 256 25) 249 251 2W 252 251 251 252 247 250 252 252 250 252 247 249 248 250 253 250 248 249 250 250 247 251 250 249 247 252 244 240 250 252 250 245 252 252 249 250 J252 255 250 250 252 249 253 248 255 252 253 251 26Г 251 248 247 250 256 248 250 252 255 252 245 2^6 249 252 249 24S 251 255 252 246 249 246 249 250 252 250 249 251 244 249 247 252 250 24» 24В 255 246 251 2£Э 254 250 256 250 255 250 252 249 250 251 250 252 251 249 248 249 250 250 247 254 248 252 248 263 251 248 252 255 248 248 245 255 252 240 250 249 247 250 2М 249 251 250 248 251 247 250 252 249 249 249 252 254 248 252 249 250 252 248 246 254 252 243 250 253 252 254 230 247 248 244 248 248 251 244 252 253 246 254 240 249 250 252 249 251 249 244 250 249 249 Таблица 2.2. Распределение частот и почасовая зарплата 3)3 рабочих в промышленности >1 *1 h Х1 2,49 1 2,77 2 3,05 4 2,50 4 2.78 9 3,06 2 2,51 1 2.79 5 3,07 0 2.52 1 2.80 22 3,08 2 2,53 0 2,81 '3 3,09 0 2,54 3 2,82 11 З.Ю 7 2,55 2 2,83 3 3,11 0 2,56 0 2.84 4 3,12 0 2,57 3 2,85 7 3,13 0 2,58 о 2,86 5 3,14 2 2.59 1 2.87 3 3,15 4 2,60 8 2,88 8 3.16 2 2,61 1 2,89 4 3,17 - 0 2,62 3 2,90 16 3.18 2 2.63 0 2,91 3 3,19 1 2,64 5 2.92 6 3,20 4 2,65 7 2.93 2 3,21 0 2.G6 3 2,94 4 3,22 1 2,67 2 2,95 8 3,23 0 2.68 3 2,96 5 3,24 0 2,69 2 2,97 2 3,25 3 2,70 14 2.98 3 3,26 1 2,71 4 2,99 1 3,27 0 2,72 9 3,00 9 3.28 0 2,73 3 3,01 I 3.29 0 2,74 10 3,02 2 з.зо 4 2,75 11 3,03 0 3,31 0 2.76 4 3.04 3 3.32 1 Продояжение табл. 2.2 х< fl xi xi fl 3,33 3,34 0 2 3.35 3,36 2 0 3,37 1 Наконец, табл. 2.3 представляет собой список оценок 126 студентов по курсу статистики (по балльной системе). Каждое из трех множеств чисел, приведенных в табл. 2.1 —2.3, мож- но рассматривать либо как выбор- ку, либо как генеральную совокуп- ность *. Если на заводе работает ровно 303 рабочих, то числа в табл. 2.2 можно рассматривать как генераль- ную совокупность, элементами ко- торой являются показатели зарпла- ты. Если же на предприятии за- Таблица 2.3. Оценки по курсу „Статистика", балл 128 131 100 136 130 43 58 104 74 82 83 142 106 143 125 123 136 118 127 77 122 122 129 91 50 138 129 92 130 109 104 101 135 86 134 145 108 97 133 44 115 132 86 130 77 109 127 118 120 81 109 49 126 139 85 100 140 118 122 137 130 47 78 132 114 123 125 138 129 126 110 113 119 119 132 138 105 129 80 136 75 82 96 129 115 131 135 107 111 100 77 100 56 130 70 141 123 125 106 A HO 112 131 122 I 108 86 106 117 61 130 141 130 1 -f 1 Как известно из курса высшей ал- гебры, термин «множество» понимается как совокупность различных объектов или чи- сел. Каждый отдельный объект, относя- щийся к множеству, называется «элемен- том». Множество, не содержащее элемен- тов, называется «пустым» или «нулевым» множеством. Если заданы два множе- ства — Д и В. причем каждый • элемент нэ В является элементом из А, то "говорят, что В является подмножеством А. 13 р
нято больше 303 рабочих и учетные карточки выбраны случайным об- разом (или каким-нибудь другим выборочным методом), то приве- денный список зарплат представля- ет собой выборку. Таким же обра- зом (как генеральную совокупность либо как выборку) можно интер- претировать данные из двух других таблиц. Предположим, что мы имеем де- ло не с тремя выборками, а с тре- мя генеральными совокупностями. Тогда возникает вопрос: для каких целей были собраны данные? Дан- ные собирают и анализируют, как правило, для того, чтобы потом сделать некоторые сопоставления. Показатели зарплаты можно изу- чать с разных точек зрения. Нап- ример, можно сравнивать среднюю заработную плату наших рабочих со средней заработной платой ра- бочих на других заводах. Иногда нас может интересовать «модаль- ная» (наиболее распространенная) зарплата. В других случаях важно знать разность между максималь- ной и минимальной зарплатой, на- зываемую размахом (или вариаци- онным размахом). На заводе, производящем сталь- ные булавки, инженерные работни- ки контролируют как длину була- вок, так и другие измерения и ха- рактеристики. Станки налаживают- ся таким образом, чтобы длина бу- лавки составляла 0,25 дюйма. Бо- лее того, каждый инженер знает, что ни одна машина не может про- изводить совершенно равные булав- ки. Следовательно, должны быть определены допустимые границы изменений длины, например ± 0,003 дюйма. Булавки, длина которых соответ- ствует установленным границам, принимаются для дальнейшей обра- ботки, остальные булавки счита- ются отходом. Булавки, не соответ- ствующие стандартам или изготов- ленные из дефектного материала, либо идут в переплавку, либо рас- продаются по сниженным ценам, ли- 14 бо используются каким-нибудь дру- гим образом. Итак, независимо от того, пред- приятие само производит булавки или получает их от смежников, оно должно знать, соответствуют ли бу- лавки требованиям заказчика. Ча- сто для этого нужно найти среднюю длину (или по статистической тер- минологии — среднее арифмети- ческое); иногда необходимо знать, отклоняется ли и насколько длина булавок от допустимых границ. Большинство студентов хорошо знают, какой род информации они могут извлечь из табл. 2.3. Пред- ставляют интерес среднее, мода (наиболее типичная или часто встречающаяся оценка) или медиана (верхняя граница оценок для 50% студентов). Можно также опреде- лить, какая из оценок высшая, а какая низшая, и распределить уча- щихся соответственно категориям оценок. Короче говоря, если возникает какая-нибудь проблема, для реше- ния которой необходима детализи- рованная и точная информация, то следует собрать необходимые дан- ные и проанализировать их. Как уже отмечалось, до Второй мировой войны специалисты опирались в ос- новном на опыт, интуицию, обоб- щенные рассмотрения, грубую оцен- ку, Вместо того чтобы сказать, что средняя зарплата на другом пред- приятии была на 23 цента больше, просто отмечали, что она там выше. Что касается длины булавок, то часто говорили, что машину надо остановить, потому что она произ- водит брак. Теперь контролер или оператор может очень рано заме- тить изменение длины и остановить машину до того, как она начнет производить брак. Несколько лет назад экономические прогнозы де- лались, как правило, на основе опы- та и интуиции. Теперь для этой цели применя- ются тщательно разработанные статистические (и эконометричес- кие) методы. Широкий круг лиц — управляющий фирмы, администра-
тор и полицейский — часто прини- мает решение, основываясь на зна- ниях, полученных с помощью раз- личных статистических методов. Элементарным, но очень важным методом при этом является метод, использующий распределения ча- стот и их графическое изображе- ние. Изучением этого метода пренеб- регать не следует. Распределение частот и его графическое представ- ление являются основой анализа совокупности данных. Более слож- ные методы анализа часто требуют сопоставления распределений и графиков рассматриваемых данных с математическими кривыми. Опыт показал, что многие начинающие изучение статистики испытывают трудности при попытке найти соот- ветствие между математическими функциями и эмпирическими дан- ными. Детальное рассмотрение свя-- зи между распределением частот и площадью многоугольника (этот термин будет объяснен) поможет преодолеть это затруднение. 2.2. ПОСТРОЕНИЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ Распределение частот относится к категории , «сгруппированных дан- ных». Все числа, приведенные в табл. 2.1 (длины булавок), пред- ставляют собой множество «не- сгруппированных данных». Распре- деление частот строят, чтобы облег- чить анализ данных, оценить часто- ты неизвестного распределения ге- неральной совокупности, основыва- ясь па. данных выборки, облегчить Таблица 2.4. Длины S09 стальных булавок, 10_ж дюйм xi fl xi h xi fl 244 4 249 42 253 17 245 5 250 56 254 14 246 11 251 33 255 11 247 16 252 41 256 8 248 42 300 взяты нз табл. 2.1. Примечание. Данные вычисление различных статистичес-* ких характеристик. В результате все большего распространения вы- числительной техники последнее со- ображение потеряло свое значение. Распределения частот приводятся в следующих формах: 1) группиро- вок, средних точек и частот; 2) группировок и только частот; ' 3) средних точек и только частот (табл. 2.4) *. Чтобы построить распределение частот, необходимо либо сначала вычислить средние точки, а затем (если это необходимо) добавить к ним группировки, либо сначала по- строить группировки, а затем вы- числить для них средние точки В обоих случаях на следующем шаге подсчитывают, сколько исходных данных входит в каждую группи- ровку или как часто встречается каждая средняя точка. Термины, в которых описывается распределение частот, поясняются в примечании к табл. 2.5. Однако следует дополнить ее некоторой ин- формацией. Например, число груп- пировок распределения частот рав- но 10. Очевидно, что если из тех же данных образовать больше груп- пировок, то интервал будет мень- ше. В рассматриваемом распределе- нии группировка определяется сво- ими нижним и верхним пределами, которые отличаются от границ груп- пировки (последние будут исполь- зованы ниже при графическом представлении распределений и при выведении некоторых формул). Но обычно при выведении формул поль- зуются пределами. Поэтому, как правило, нет необходимости пока- 1 Прежде чем продолжить чтение, чи- татель должен внимательно рассмотреть табл. 2.5 и попытаться ответить на сле- дующие вопросы: какая разница между шириной и интервалом группировки, пре- делами и границами групп; как вычисля- ются средние точки и т. д. Читатель также должен уметь пользоваться математически- ми символами. Опыт показал, что, несмотря на сложившееся предубеждение, правиль- ное использование математических симво- лов скорее облегчает, чем затрудняет по- нимание предмета исследования. 1л i
*Та блица 2,5. РасгреГе^екже частот и почассвгя ставка заработной платы 303 промышленных рабочих, долл. U®{- ili xi h 2.445 2,545 2.45 2,54 INI IHI 2,495 10 2 545 2,645 2,55 . 2,64 Ml IHI IHI MI Ml 2,595 25 2,645 2,745 2,65 2,74 HI IHI Ml Ml INI HI Ml INI Ml IHI Nil 2.695 57 2,745 2,845 2,75 2,84 nu mi пи rw mi mi mi x nii mi гш iw mi в 2,795 74 2,845 2,945 2,85 2,94 INI Ml IHI INI ffll IHI NJIHI-Н1ГН11Н1II 2,895 58 2,945 3,045 2.95 3,04 MINI IHI Ml MINI III 2,995 34 3.045 3,145 3,05 3.14 NIIHUHIU 3,095 17 3,145 3,245 3,15 3,24 IHIIMIIII 3,195 14 3,245 3,345 3,25 3,34 I III (Nil 3,295 11 3,345 3,445 3.33 3,44 III 3,395 3 • 303 Примечания; ]. ДлHFbte взяты на табл. 2.2. 2. Пары чисел, например 2,45—2,54 или 2.В5—3»<А. обозначают классы группирования или груптровли, в сами числа называются пределами группировки. (Ми говорим, например: .имеется 1С группироввх вариа- ционного ряда* или „пределы группировок добраны удач но* Л Числа 2,46 н 2.95 иьлмю^ся нижними пре- делами группировок- Обозначим sth пределы через j Тогда для 1 рассмятривдехых rpyi’TZEpoBoK jli = 2,45 я 1Д»=2,95- Два другие числа" являются верхними пре- делами группировок и обозначаются через uLj- L Таким образом, u£i=2i54 и иД<=3»(М. Числа 2,445—2.545 представляют собой границы гругпировкн в обоэна* чаются через jJk и В{ соответственно; величины Х^ яв- ляются средними точками» а величины f -— частот мн. Разность . J называется «rw/шной группировки. В рассматриваемом распределении частот ширина груп- пировки составляет 0.G9. Чаше используется понятие «интервал группировки*. Последний есть разность меж ду верхней и нижней границами !руппнровок. между Нижним hzh верхним пределом или между средними точками соседки* f рупшровск: с=цВ.— |Bfr намр«м< р. с= jLr— jf-t=0,10, или C^UI8—uf 1 или с^Хд—Ха = 5=0.10. ес-К расгреде.-ен1е имеет равнее интервалы гружтпровок. Е. гн пределы 1руппирояок имеют еВД 2,45—2,55 и 2.55—2,65, ТО различие между границами и пределами группировок исчезает; ice различаются в этом случае также ширина и ишервал группировки- зывать в одной таблице и пределы и границы группировок. В распределении частот, предста- вленном в табл. 2.5, интервал отли- чается от ширины группировки. Ши- рину определяют, вычитая iLi из и£(, а интервал с вычисляют как разность между границами или ме- жду двумя соседними средними точ- ками. Внутригрупповые средние точки, обычно обозначаемые буквами X и У, лежат точно по середине груп- пировки или (что то же самое) на равном расстоянии от ее границ независимо от того, равны или нет между собой интервалы и ширины группировок; средние точки Xi вы- числяются по формуле/£<+(и£<— —i£f) /2. Для упрощения вычисле- ний можно использовать формулу X _ — j_ t+ + i^l 1 2 г 2 2 Из табл. 2.5 находим Х3=(2,65+ +2,74)/2 =2,695. В распределении частот с равными интервалами для 16 вычисления всех средних точек до- статочно определить только одну среднюю точку и затем прибавлять (или вычитать) интервал (но не ширину). Если средняя точка пер- вого класса A'i—20, а с=2, то А2=22, Аэ=24 и т. д. Распределение частот можно счи- тать очень полезным статистичес- ким инструментом, так как с его помощью из собранных статистика- ми данных мы немедленно получа- ем обширную информацию. Мало что можно сказать о зарплате слу- жащих двух разных фирм, если в распоряжении исследователя лишь две пачки карточек, заполненных цифрами. Но даже беглый про- смотр двух распределений частот делает возможным их подробное сопоставление. Можно сразу ска- зать. какая зарплата наиболее ти- пична (мода), сколько людей по- лучают зарплату ниже и выше моды и какова вариация зарплаты. Когда такие сопоставления про- водятся для двух или более распре-
делений частот, необходимо разли- чать, в каких случаях распределе- ние представляет выборку, а в ка- ких генеральную совокупность. В то время как сопоставление двух или нескольких генеральных сово- купностей дает точную информа- цию, сравнение выборочных данных дает приближенную информацию о связи между распределениями ча- стот, из которых берутся выборки. Для примера предположим, что средняя зарплата в фирме А рав- на 2,5 долл., а в фирме В — 2.8 долл. Если эти средние значе- ния вычислены из генеральных со- вокупностей, то мы можем сказать, что разность зарплат составляет ровно 0,3 долл. Если же средние получены на основе выборочных данных, то нельзя быть уверенным, что разность между всеми зарпла- тами служащих фирмы А и фирмы В точно равна 0,3. Мы можем ска- зать только, что эта разность приб- лизительно равна 0,3 долл. Другими словами, распределение частот, представляющее все зар- платы и оценки всех студентов или длины всех булавок, дает точную информацию о той или иной гене- ральной совокупности. Распределе- ние частот выборочных данных представляет собой более или ме- нее точную аппроксимацию распре- деления, из которого берутся вы- борки. И, конечно, одна из задач книги — сделать интуитивный тер- мин «приблизительно» более стро- гим и понятным. 2.2.1. Пределы группировок и внутригрупповые средние точки. Число группировок Приведенные выше замечания касались интерпретации данных. В общем же построение распреде- лений частот не зависит от того, рассматриваются ли выборочные данные или генеральная совокуп- ность, Степень того, насколько хо- рошо распределение частот описы- вает исходные данные (выборки или генеральной совокупности), оп- 2—232 ределяется числом группировок и» выбором внутригрупповых средних точек. Здесь следует напомнить,, что распределение частот может быть сконструировано одним из двух способов: 1) сначала выбира- ют средние точки, а затем строят относительно них (если это необ- ходимо) пределы; 2) сначала строят группировки, а затем по» приведенной выше формуле вычис- ляют для них средние точки. Про- иллюстрируем оба метода на при- мерах. Рассмотрим данные табл. 2.1' (длины булавок) и предположим,, что мы можем выбрать между двумя видами распределений. Одна имеет интервал группировки, рав- ный 2.' Разность между наиболь- шим и наименьшим значением дли- ны (вариационный размах) состав- ляет 12. Если 12 разделить на 2, получим 6: для данного случая это- будет приблизительно 6 группиро- вок. Следовательно, пределы могут быть такими (10-3 дюйм): 244— 245, 246—247, 248—249 со средни- ми точками 244,5; 246,5; 248.5 Те- перь заметим, что наименьшая раз- ность между длинами равна едини- це. Это означает, что если мы вы- берем интервал, равный единице, то должно .быть 13 группировок. Поэтому представляется, что в дан- ном случае следует начинать не с группировок, а со средних точек (таких, как 244, 245.,.), а потом (если это необходимо) достроить к ним группировки (например, 243,5—244,4; 244,5—245,4...). Тог- да получим распределение, приве- денное в табл. 2.4. Но какое распределение лучше: с 6 (здесь не приводится) или с 13 группировками? Распределение- с 13. группировками кажется более подходящим по двум причинам. Во-первых, но числу группировок. В первом распределении слишком мало группировок, так что часть информации, содержащейся в дан- ных. остается не раскрытой. Второе распределение дает более полную информацию о данных. Другая при- IT
чина заключается в том, что неко- торые статистические значения (такие, как среднее арифметиче- ское или среднее квадратическое отклонение), полученные из второ- го распределения, точно равны тем, которые можно получить из всего ряда данных. В общем, не слишком хорошо, если интервал больше наи- меньшей разности двух значений из ряда чисел, на основе которого •строится распределение частот. Оба замечания не исключают возмож- ности построения хорошего распре- деления частот с 6 группировками. Если бы, например, длина була- вок 1 колебалась в интервале (247—253) -10~3 дюйма, то 6 груп- пировок было бы вполне доста- точно. Во втором примере распределе- ние частот строится для списка зарплат, приведенных в табл. 2.2. Так как в основе этого распределе- ния лежат средние точки, а не группировки и, следовательно, ин- тервал равен наименьшей разности двух значений исходных данных, то статистические характеристики, вычисленные из этого распределе- ния, будут равны аналогичным ха- рактеристикам, полученным из ис- ходных данных. Но, несмотря на это преимущество, построенное таким образом распределение не будет «хорошим» распределением частот. Число группировок здесь окажется слишком большим, а это так же плохо, как и если бы оно было мало. В данном случае сле- дует выбрать распределение с мень- шим числом группировок. В табл. 2.2 такие значения, как 2,5; 2,6; 2,7, встречаются чаще, чем другие. Следовательно, целе- сообразно рассматривать эти зна- чения как внутригрупповые сред- ние точки. Средние точки служат характеристиками данных, входя- щих в те или иные группировки. Идеальная средняя точка должна быть средней из этих данных. Чем 1 Здесь и дальше длина булавок из- меряется в тысячных долях дюйма. 18 Таблица 2.6. Распределение частот (оценки по курсу „Статистика") ъ» г* £1 xi h 42—5] 46,5 5 0.5 52—61 56.5 3 0,3 62—7) 66,5 I o.l 72-81 76,5 8 0,8 82—91 86.5 8 0,8 92—101 96,5 8 0,8 102—111 106,5 15 1,5 112—121 1)6,5 12 1,2 122—131 126,5 зо 3 132—141 136,5 18 1,° 0,3 142—151 146,5 3 В III Прммечднн е. Данные взягщ не тя-лл. 2.3. ближе выбранная средняя точка к идеальной, тем меньше разность между статистическими значения- ми, полученными из исходных дан- ных, и значениями, полученными из распределения частот. Третий и наиболее распростра- ненный случай иллюстрируется данными табл. 2.6. Чтобы получить этот вариант распределения, вы- числяют вариационный размах и делят на число группировок. Раз- мах здесь равен 145—43=102. Ес- ли разделить его, скажем, на 10 (значение интервала), то число группировок приблизительно равно 10 с интервалом группировок 10. Нижний предел IL} первого класса может быть меньше минимального значения, например равен 42. Что- бы получить ]£г, надо суммировать интервал и \Ц. Значение иЕ2 полу- чают, суммируя 51 и интервал (оно равно 61) ит. д. Распределение частот можно сконструировать за несколько ми- нут. Однако, если это будут делать два человека, весьма вероятно, что они получат разное число груп- пировок и разные пределы Для одинаково хороших распре- делений число группировок можно варьировать в различных преде- лах. Эта «разумность» определяет- ся 10—15 группировками. Редки случаи, когда требуется больше
25 группировок и меньше 8. Суще- ствуют формулы для построения «оптимального» распределения ча- стот, но они используются редко Одна из причин этого заключается в том. что не всегда легко ответить на вопрос: оптимально относитель- но чего — среднего, моды, интер- вала. 2.2.2. Другие виды распределений Если исходные данные содержат больше трех значений, может быть использован следующий вид рас- пределения частот: 2010 и менее 2025 2025 и менее 2040 2040 и менее 2055 Здесь uLj равно 2025, а не 2024. Однако эта разница для большин- ства случаев не играет большой роли, и, например, выраженная в процентах разность между средни- ми, вычисленными из этого и «пра- вильного» распределения, также бу- дет незначительной Разумеется, границы, и пределы в таких распре- делениях не различаются. Другой вариант открытого свер- ху и снизу распределения имеет вид: менее 25 25—29 30—34 45—49 50 и более Это распределение используется, в частности, тогда, когда в начале или в конце (или в начале и в кон- це) упорядоченных по значению данных (вариационного ряда) имеются резко выделяющиеся зна- чения — очень маленькие или очень большие относительно большинства значений — так называемые выбро- сы. Наконец, может быть построено распределение частот с неравными интервалами группировок. Рассмот- рим, например, числа, упорядочен- ные по возрастанию, причем внут- ригрупповые средние возрастают с нарастающей скоростью: 2, 3, 3, 2* 5. 6, 8, 8, 8. 15, 17, 25, 25, 36. 37,. 48, 61. 62. 67, 80, 80, 130, 135, 179,. 185, 186, 271, 275, 280. Разность между наименьшим и наибольшим числом равна 278. Если выбрать небольшой интервал, например с= = 2, то будем иметь 278/2=139 группировок. С другой стороны, при с=50 число группировок будет равно 6. В последнем случае рас- пределение частот имеет вид: h к h 0—49 !5 150— J 99 3 50- 99 5 200—249 0 100-149 3 250—299 3 Однако если мы используем вмес- то равных возрастающие интерва- лы, то- получим более удобный вид. распределения. Меняя размер ин- тервала, можно получить практиче- ски любой вид распределения. Сле- довательно, можно сделать вывод, что, если предварительно не выбран удачный критерий, при построении распределений с неравными интер- валами будет очень велик элемент произвольности. 2.3. ПОЛИГОН И ГИСТОГРАММА ЧАСТОТ К графическому изображению распределения частот прибегают, чтобы прядать данным наглядность и тем самым облегчить необходи- мые сопоставления или оценку ви- .да распределения, построенного на основе генеральной совокупности или выборочных данных. Придание наглядности данным позволяет делать как вполне обос- нованные, так и интуитивные сопо- ставления, В связи с этим необхо- димо иметь в виду следующий мо- мент. Как уже отмечалось, в ко- нечном итоге все статистические вычисления и графики необходимы для сопоставлений. Очень часто до- статочно одного графика или од- ного среднего значения. По это бы- вает только тогда, когда предмет 19> t i 4 t Г Г
исследования настолько ясен, что лет необходимости в дополнитель- ной информации. Например, мы в •США хорошо представляем себе, что такое доход 25 000 долл Одна- ко мало людей в США понимают, насколько велики доходы 25 000 фунтов стерлингов и 25 000 лир в других странах. Таким образом, в последних двух случаях недостаточ- но одного значения или одного гра- фика. 2.3.1. Дискретные и непрерывные данные Другой важный момент с точки зрения рассматриваемого здесь ма- -териала — это различие между дискретными и непрерывными дан- ными или просто между дискретны- ми и непрерывными переменными. Результаты, полученные с помощью всякого рода измерений, обычно не- прерывны, а результаты подсчетов дискретны. Это не значит, что дис- кретные данные получаются лишь в результате счета целых чисел. Дискретные данные — это фикси- рованные числа, обозначающие, например, число людей, зверей или отношения вида 2/3, 2/4, 2/5. Вообще говоря, данные, получен- ные в результате измерения или подсчета, будут считаться дискрет- ными, если получение значений, лежащих между двумя соседними измерениями, невозможно или бес- смысленно. Если ботинки делают размером 8. 8*/s. 9 и т. д., то лю- бое значение между указанными, бессмысленно. Если в магазине работают 5 человек, то продолжить ряд влево и вправо можно лишь числами 4 и G, а не 4,9 и 5,1, так как нельзя сказать, что в магази- не работают 5,1 человека. Конечно, при вычислении средних могут ис- пользоваться числа вида 5,1, и они -будут иметь смысл. Непрерывные данные получают -тогда, когда разность между двумя измерениями как угодно мала. При- мерами такого рода служат высота .деревьев, масса человека и живот- 20 кого, длина гвоздей, давление в шинах автомобилей и непрерывные математические функции. Однако, . чтобы обнаружить очень малень- кую разницу, нужны сверхчувстви- тельные инструменты. Для измере- ния бесконечно малых различий инструментов не существует. При использовании выборочного метода, когда проводится конеч- ное число измерений объекта, для которого можно бесконечным чис- лом измерений получить бесконеч- но малые различия в измеряемых значениях, обращаются с результа- тами, как с дискретными данными. Число значений длины всех изго- товленных булавок бесконечно. Здесь можно говорить о бесконечно малых различиях длин булавок. Однако если измеряется конечное число булавок, например 300, как показано в табл. 2.1, то длины этих булавок представляют собой дис- кретные данные. Изложенное выше ведет к сле- дующим общим определениям и обозначениям. Предположим, что объект имеет характеристики, опи- сываемые некоторыми числами. Обозначим совокупность этих чи- сел буквой X (или У или Z), назо- вем ее переменной и примем, что эта переменная непрерывна, если она может принимать любое дей- ствительное значение из некоторого интервала. Дискретную перемен- ную обозначим Х{. В примере с ботинками Х]=8, X*— 8‘/г, Х3= —9... Для обозначения суммы чи- сел используем знак 2. Непрерыв- ная переменная обозначается бук- вой без индекса. Если определены пределы изменения этой перемен- ной а и Ь, то a<_X<Zb. Для сум- мирования непрерывных величин используется интеграл. Итак, еще раз: Xi и с/ (с индексом) обознача- ют дискретную переменную; X (без индекса) интерпретируется как не- прерывная переменная, а символ с (без индекса) используется для обозначения постоянной величины. Пытаясь представить распределе- ние частот графически, мы долж-
«ы прежде решить, как представить частоты, как упорядочить горизон- тальную шкалу, каковы должны быть соотношения между верти- кальной и горизонтальной шкала- ми. Рассмотрим эти проблемы по очереди. 2.3.2. Графическое изображение частот Частоты характеризуются либо высотами, либо площадями, либо и тем и другим. Для интервала с=1 высота и площадь имеют оди- наковые значения. Методы графи- ческого изображения частот лучше всего иллюстрировать на примерах. Вертикальные линии. На рис. 2.1 приведены оценки по курсу «Стати- стика». По оси абсцисс откладыва- ются средние точки распределения частот из табл. 2.6; частоты изо- -бражаются соответствующими вер- тикальными линиями. Горизонталь- ная шкала не маркируется средни- ми точками. Здесь интерпретация вертикальных линий аналогична интерпретации частот в распределе- нии частот: показано, сколько раз данная средняя точка встречается в распределении. Напомним, что средняя точка является усреднен- ной характеристикой группы дан- ных, входящих в некоторую груп- пировку. Гистограмма. То же распределе- ние частот может быть изображе- но в виде прямоугольников, или, зи АЪ 5*1 В Ю $ о Рис. 2.1. Оценки по курсу «Статистика» (частота представлена высотой линии; дан- ные взяты из табл. 2.6) Рис. 2.2. Гистограмма для оценок по ста- тистике (частота пре дета плетя высотой прямоугольников; данные взяты из табл. 2.6) как обычно говорят, гистограммы (рис. 2.2). Здесь значения границ откладываются по оси абсцисс и на нее накладываются прямоуголь- ники. Ось абсцисс — это шкала, по которой можно откладывать что угодно, т. е. ее не обязательно мар- кировать границами. Важно отме- тить также, что в рассматриваемом случае частоты изображаются вы- сотами прямоугольников, но не их площадями. Для представления частот в ви- де площадей прямоугольников на- до, чтобы ch{—fi. Для неравных интервалов формула имеет вид dhi=fi. Неизвестные значения Л, можно найти из равенств hi=fi/c или ht—fi/Ci. Вместо Л/ удобнее ис- пользовать обозначение f'it тогда формулы примут ВИД f'i = filc или f'isszfi/d. Отметим, чт<Т если с,-< 1, то а если с«>1, то Полезно отметить, что в гисто- граммах, где частоты изображают- ся высотами прямоугольников, (кроме случая, когда с=1). Если изображаются преоб- разованные частоты f'i, то на соот- ветствующей им гистограмме 2 cvf'i=^ fi. Если интервалы распределения частот одинаковы, то гистограммы для ft и if'( сходны. Для перемен- * Величины f't соответствуют тому, что в теории вероятностей и статистике принято называть плотностью распределе- ния. — Прим. ред. 21
Оценка, балл Рис. 2.3. Оценки по курсу «Статистика» (частота изображается ординатами средней точки интервала)< Полигон для с—lC пред- ставляет распределение из табл. 2.6; поли- гон для с^5 — из табл. 2.3 (соответствую- щее ему распределение частот в книге не приводится) кого интервала закономерность другая. Например, в табл. 2.6 приводятся три границы: 71.5 — 81,5; 81,5—91,5; 91,5—101,5 с f4= =s/s—f6=8. Но предположим, что вместо соответствующих им трем группировкам рассматривается од- на группировка с границами 71,5— 101,5 и частотой f^—S. Эго значит, что предполагаем, будто не 8+8+8=24, а всего 8 студен- тов получили оценки в диапазоне 71,5—101,5 баллов. Однако график fi для этого рас- пределения будет аналогичен гра- фику рис. 2.2 за исключением того, что в нем будут отсутствовать две вертикальные линии между 75,5 и 101,5. Конечно, такой график не от- ражает особенности последнего распределения. Поэтому при пост- роении гистограмм для частотных распределений с переменными должны использоваться f'i. В распределениях с постоянным интервалом с также следует разли- чать fi и f'i, но так как гистограм- мы для них имеют одинаковый вид, достаточно рассмотрения одной, использующей значение Полигон. Распределение оценок по курсу «Статистика» с интерва- лом с—10 изображено на рис. 2.3. Эта кривая называется полигоном. Горизонтальная ось но маркирует- ся ни средними точками, ни грани- 22 цами. По оси абсцисс откладываются средние точки, а по осн ординат.— соответствующие им частоты, а за- тем все точки соединяются прямы- ми линиями. Площадь под этой ломаной не равна сумме частот. График можно иллюстрировать следующим примером. Вторая груп- пировка в рассматриваемом рас- пределении 52—61 имеет границы 51,5—61,5, Х=56,6 и частоту /а= =3. Чтобы найти точку f2=3 на графике (т. е. чтобы найти число* студентов, попавших в эту группи- ровку), надо отметить среднюю точ- ку группировки на оси абсцисс и отмерить высоту, ординаты полиго- на в этой точке. Можно также ут- верждать, что полигон показывает, сколько раз та или иная средняя' точка встречается в распределении. Однако было бы неверным отме- тить на горизонтальной оси какую- либо другую произвольную точку" (например, 61),’ отмерить соответ- ствующую ей ординату кривой по- лигона и сказать, что это значе- ние показывает, сколько раз эта1 точка встречается в-распределении. Итак, если с+1, то график полиго- на, построенный для ненриведен- ных частот, имеет смысл интерпре- тировать лишь для средних точек. Сравнение графических представ- лений с помощью ординат и пло- щадей. Разница между графическн- «7 60 80 1OD 120 140 Оценка,Оаял Рис. 2.4. Оценки по курсу «Статистика» (частоты изображаются площадями плд участком кривой, ограниченным соответст- вующим интервалом). Частоты f'i для по- лигона с с--=10 взяты на табл. 2.6; f'i для полигона с с=5 в книге не приводятся
ми представлениями распределения частот с помощью ординат и пло- щадей видна из рис. 2.3 и 2.4. На рис. 2.3 изображены два полигона двух распределений частот, по- строенных на основе одних и тех же данных, но с разными с: 10 (см. табл. 2.6) и 5 (таблица не приводится). На графике ясно видна разница. Несмотря на то, что суммы частот для обоих распределений равны, площадь, ограниченная кривой для с=10, больше площади, ограни- ченной кривой для с=5. Таким об- разом, графические ' изображения одних и тех же данных могуг внес тн нас в заблуждение. Кривые на рис. 2.4 получены для частот, вычисленных по формуле f'i=fifci. В этом случае площади, ограниченные обеими кривыми, рав- ны и, следовательно, визуально отражают тот факт, что суммы ча- стот в обоих распределениях рав- ны. Интерпретация графика на рис. 2.4 с приведенными частотами (плотностями распределения) су- щественно отличается от интерпре- тации графика на рис. 2.3. В пер- вом случае мы не можем, отметив среднюю точку на оси абсцисс и измерив соответствующую ей орди- нату полигона, сказать, что имен- но эта ордината показывает, как часто в распределении встречается данная средняя точка. Здесь следу- ет выбрать обязательно две точки на горизонтальной оси и вычис- лить площадь, ограниченную поли- гоном и вертикальными линиями, проходящими через эти две точки. Только тогда можно сказать, что оценки между 69—72,3 повторяют- ся, например, «столько-то раз», где величина «столько» равна указан- ной площади. Дальше мы будем иметь дело с различными непрерывными кривы- ми. Интерпретация таких кривых (например, нормальной кривой) аналогична приведенной выше. Рассматриваться будут либо орди- ната кривой в некоторой точке X, либо площадь, ограниченная этой кривой и вертикальными линиями, проведенными через две точки. Площадь сравнивается с частотой попадания исходных данных в ин- тервал между этими двумя точка- ми. Если распределение частот стро- ится на основе дискретных данных и хотят из графика найти число объектов между 12 и 15 (или пло- щадь под кривой между точками 12 и 15), то следует вычислить площадь, ограниченную кривой и вертикалями в точках 11,5 и 15,5, т. е. вертикалями, проходящими через точки, лежащие на половин-* ном расстоянии между 12 и сле- дующим значением слева и между 15 и следующим значением справа. Позднее будет показано, почему необходимо поступать именно та- ким образом. Следует отметить еще один мо- мент. Сравнивая графики полиго- нов для с=10 на рис. 2.3 и 2.4, мы видим, что они совершенно иден- тичны. Как и в случае гистограмм, это объясняется тем, что переход от fj к f'i при постоянном интерва- ле не отражается на динамике кривой. Очевидно, что для пере- менных интервалов с,- полигоны различны. Гистограмма и полигон для е=1. При построении гистограммы на рис. 2.5 для распределения длин Рнс. 2.5. Гистограмма распределения длин стальных булавок с с=1 (частота пред- ставлена и высотами, и площадями; дан- ные взяты из табл. 2.4) 23
Рис. 2.6. Полигон распределения длин стальных булавок (частоты изображаются ординатами" средних точек и площадями; данные взяты из табл. 2.6) булавок на горизонтальной оси от- кладывали средние точки, взятые из табл. 2.4. Ширина ступенек ги- стограммы равна границам. Так как с=1, то высота каждой сту- пеньки равна ее площади и сумма всех площадей равна сумме всех частот. На рис. 2.6 приведен график по- лигона для тех же данных. Как и на рис. 2.4, здесь площадь под кривой приблизительно равна сум- ме частот. График на рис. 2.6 можно ис- пользовать двояко: если по горизон- тальной оси откладываются сред- ние точки, то измеряются ордина- ты кривой, если же такие значе- ния, как 245,5 -246,5 или 252,5— 254,5, то вычисляется соответст- вующая часть площади под кривой. В этой связи при графическом изображении частот можно следо- вать такому упрощенному правилу. При с=1 могут быть использова- ны и полигон, н вертикальные ли- нии, и гистограмма. При график вертикальных линий строится лишь для исходных частот. Для плотностей распреде- ления удобнее использовать поли- гон, чем гистограмму. При пост- роении гистограмм предполагает- ся, что все значения внутри груп- пировки, изображаемой одной сту- 24 пенькой гистограммы, имеют оди- наковую частоту. Это, конечно, очень редкий случай. Наконец, для распределений с неравными интервалами следует строить графики вертикальных ли- ний, или полигоны для приведен- ных частот (плотностей распреде- ления) В случае распределения с равны- ми интервалами, когда целью гра- фического изображения является лишь наглядность вне связи с дру- гими распределениями, можно не переходить к .плотностям распреде- ления. Как было показано выше, переход к плотностям для распре- делений с равными интервалами не меняет вида кривой. Во всех других случаях и осо- бенно если требуется сравнить два или более распределений (рис. 2.7), следует перейти к плотностям рас- пределения. Итак, сформулируем: 1) с=1, используем графики гистограмм, вертикальных линий и полигона; 2) с#=1, hq константа (распре- деления с равными интервалами): а) в случае одного распределе- ния на графике нет необходимости переходить к плотностям распреде- ления Используем графики верти- кальных линий и полигона (но не гистограмму); б) при сравнении двух -и более распределений с постоянными и равными интервалами также нет Оценка,б алл Рис. 2.7. Оценки по курсам «Статистика» (У) и «Исследование операций» (2)‘ I— сведения об оценках взяты из табл 2.6; 2 — сведения об оценках в книге не приводятся
необходимости переходить к плот- ностям распределения; в) при сравнении двух и более, распределений с постоянными, но разными значениями интервалов с (рис. 2.7) следует перейти к плот- ностям распределения и изобразить их на одном графике; 3) неравные интервалы: в слу- чае одного распределения исполь- зуем графики вертикальных линий или полигонов для плотностей рас- пределения; при сравнении двух или нескольких распределений ис- пользуем только полигоны для плотностей; 4) основное правило: при графи- ческом изображении выборочных распределений, порождаемых с по- мощью непрерывных измерений, всегда удобно использовать пати- гоны. Дополнительное замечание о площадях. Под кривой полезно еще раз коротко описать способ интер- претации графиков с плотностями распределения Как уже говорилось, если часто- ты изображаются высотами, то можно, выбирая границы (или пре- делы), установить, сколько элемен- тов вариационного ряда попадает в •ограничиваемую ими группировку, либо, фиксируя средние точки, оп- ределить, сколько раз они повто- ряются в распределении. Никакие другие показатели не могут откла- дываться по горизонтальной шкале, и никакие другие способы интер- претации не могут использоваться. Если же частоты пересчитаны в плотности распределения и площа- ди под кривыми, то таких ограни- чений не существует. Кроме того, ордината (и это особенно следует подчеркнуть) над каждой точкой горизонтальной шкалы представля- ет собой лишь ординату кривой, но не частоту. Эти ординаты исполь- зуются следующим образом: пред- положим, что мы хотим получить приблизительную оценку из рис. 2.6 (а это может быть единст- венная доступная нам информация о распределении) того, сколько студентов получили оценки в ин- тервале от 100 до 120 баллов. (За- метим, что эти два значения не яв- ляются ни средними точками, ни границами.) Чтобы получить та- кую опенку, надо разделить интер- вал между этими двумя точками на малые равные отрезки. Обозна- чим длину каждого отрезка через ЛХ. Измерим ординаты средней точки каждого из отрезков, умно- жим их на ДХ, сложим и получим 2ДХЛ{. Сумма этих прямоугольни- ков приблизительно равна площади, ограниченной кривой и двумя вер- тикалями: Х'е=100 и Х"=120. Эта площадь приблизительно соответ- ствует числу студентов, получив- ших оценки в интервале 100—120 баллов. 2.3.3. Разметка горизонтальной шкалы Разметка горизонтальной шкалы осуществляется в соответствии с некоторыми принципами. Если ча- стоты представляются вертикаль- ными линиями или ординатами, то по горизонтальной шкале можно откладывать либо средние точки, либо границы группировок. Обыч- но, если с=1 (см. рис. 2.5 и 2.6), лучше брать средние точки. Однако на рис. 2.1 и 2.2 мы не следуем этой рекомендации. На обоих рисунках используется универсальная шкала Она не противоречит методу, одна- ко очевидно, что использование средних точек или границ облегчи- ло бы интерпретацию обоих гра- фиков. Такая универсальная шкала удобна, если на одном графике изображается несколько распреде- лений, границы группировок у ко- торых различны (см. рис. 2.3 и 2.7). Для одиночных полигонов следует использовать средние точки, если только это не полигоны с плотно- стями распределения, для которых исходные частоты представляются площадями. В последнем случае не имеет существенного значения, как размечать горизонтальную шкалу. 25
2.3.4. Масштабирование вертикальной и горизонтальной осей Соотношение между вертикаль- ной и горизонтальной осями может носить и не носить информативно- го характера. При разном соотно- шении между ними одно и то же распределение частот может иметь более или менее острые пики. Не существует строгого крите- рия, определяющего выбор соотно- шения между масштабами двух осей. Можно сказать только следую- щее: иногда удобно рассматривае- мые данные изображать таким обра- зом, как изображают некоторые математические функции или теоре- тические распределения (например, нормальное распределение). Ио, с другой стороны, решение о масш- табировании осей должно опирать- ся на знание задачи. Каждый ис- следователь должен задаться воп- росом: является ли, с точки зре- ния данной задачи, характер пиков информативным. Это может быть проиллюстриро- вано на примере изменения двух показателей — индекса промыш- ленного производства и учетной ставки ценных бумаг. Например, 2%-ное изменение учетной ставки (рост от 4 до 6%) является суще- ственным скачком. Такое же изме- нение в ряду индекса промышлен- ного производства (рост от 120 до 122%) менее значимо. Следователь- но, изображать оба графика в од- ном масштабе вряд- ли имеет смысл. 2.3 5. Относительные частоты (частости)1 Иногда сравнение двух полиго- нов облегчается, если разделить каждую частоту на сумму частот, т. е. получить относительные часто- ты (частости) для первого (J* = 1 В советской статистической литера- туре относительные частоты называются частостям». — Прим. ред. 26 = и второго (г/".= = iftSift) распределений. Проил- люстрируем задачу на искусствен- ном примере распределений из табл. 2 7, в которых средние точки совпадают2. Если же на одном графике изобразить исходные ча- стоты обоих распределений, то все ift будут выше, чем Ji- Какие-либа сравнения в этом случае сделать трудно. Конечно, можно было бы использовать две вертикальные шкалы и таким образом сделать графики частот сопоставимыми. Однако такой способ слишком про- изволен. Вычисление частостей удобнее проводить по формулам, приведенным выше. Таблица 2.7. Представление частостей в форме отношений (числовой пример) •Ъ 10 2 19 0,167 0,134 12 4 55 о.ззз 0,387 14 47 0,417 0,331 16 1 21 0,033 0,148 — — 12 142 .1.00 1 1.00 Все знамечаиня, касающиеся гра- фических представлений распреде- лений частот и их интерпретаций, переносятся на распределения ча- стостей. Так, при с=1 возможно представление как ординатами, так и площадями. При этом сумма ор- динат и соответствующих площадей равна единице. При изобра- жение и интерпретация графиков аналогичны приведенным выше, но- не всегда необходимо вычислять плотности частостей Од- нако в этом случае лишь для плот- ностей частостей сумма площадей равна единице. 2 Читатель должен помнить, что рас- пределения с таким малым числом, как в данном примере, искусственны и исполь- зуются лишь из стремления сэкономить пе- чатное пространство и уменьшить число вычислений.
В связи с частостями следует от- метить еще один важный случай графического сопоставления распре- делений, Что делать с распределе- ниями частот при постоянных, но не равных с, если для одного из распределений существенно от- личается от Sft другого? В этом случае сначала надо получить час- тости затем найти плот- ности частостей а потом уже изобразить их на графике. Выше мы рассмотрели основные идеи, касающиеся графического изображения распределений частот. Это очень важный элемент стати- стического анализа, и не следует отказываться от его использования. Другими словами, это наиболее удобный метод, который следует принять на вооружение вместо бо- лее сложных или аналитических методов. Еще один важный случай ис- пользования частостей будет рас- смотрен в дальнейшем. Это задачи, в которых наблюдаемые или полу- ленные экспериментально распреде- ления рассматриваются для широ- кого круга исследований как рас- пределения вероятностей. 2.3.6. Графическая оценка генеральной совокупности . Очень важно использовать поли- гоны в случаях, когда характер генеральной совокупности оцени- вается на основе выборочных дан- ных. На рис. 2.8 показано, как мож- Рис. 2.8. Подгонка сглаживающей кривой к эмпирическим выборочным данным (дан- ные взяты из табл. 2.4) но от руки провести сглаживаю- j щую кривую, которая будет ап- проксимировать распределение . . длин булавок. На следующем ша- , ге считываются значения частот с этой сглаживающей кривой. Сгла- живающая кривая не должна про- ходить через точки максимальной ' и минимальной частот, а скорее где-то между ними. При такой оценке генеральной совокупности на основе выборочных данных следует принимать во внимание объем выборки. В дальнейшем мы подробнее остановимся на этом воп- росе. Еще раз напомним, что, осу- ществляя сглаживание, мы рассмат- риваем длины булавок как выбо- рочные данные. Получить оценку частот гене- ральной совокупности (индекс е — «опенка»)1 можно следующим образом. 1. Если частоты исходного рас- пределения задаются не в форме плотностей т. е. если ча- стоты изображаются ординатами,- как на рис. 2.8, то просто считыва- ются ординаты в средних точках сглаживающей кривой. Например: х< 244 I 245 3 246 5 й Затем подсчитывают и если то подправляют соответ- ствующим образом каждое с/ь При каждое значение Уве- личиваем, а при каждое efi уменьшаем пропорционально с ПОМОЩЬЮ множителя ni—hfifSefi. 2. Если частоты исходного рас- пределения задаются в форме плот- ностей, то горизонтальную ось сле- дует разделить на маленькие отрез-, ки АХ (где границы АХ. могут сов- падать со значениями границ груп- пировок и, следовательно, длина ’ Первая буква английского слова es- timate. — Прим. ред. 27
АХ равняется интервалу с); затем считываем ординаты сглаживаю- щей кривой в средних точках от- резков. Обозначая эти ординаты через f(Xi), получаем оценки ча- стот по формуле cfi=AX f(Xt). В случае несовпадения соответст- вующих сумм подправляем каждое значение е/< с помощью множите- ля т. В обоих случаях оцененные частоты могут быть заменены час- тостями которые ин- терпретируются как вероятности. Эта процедура часто используется, когда характер распределения оце- нивается на основе выборочных данных. 2.4. КУМУЛЯТИВНЫЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ Кумулятивные распределения ча- стот (КРЧ) полезны при составле- нии и изучении статистических таб- лиц, при оценивании вида распре- деления генеральной совокупности на основе выборочных данных, при вычислениях таких статистических характеристик, как квартили, меди- аны, процентили. В определенных случаях они дают оценку средней и средней квадратической погреш- ности. В настоящем разделе чита- тель познакомится с построением, графическим изображением и ин- терпретацией КРЧ. Другие момен- ты, касающиеся этих распределе- ний, будут обсуждаться по мере необходимости. 2.4.1. Построение и интерпретация кумулятивных распределений частот Построение КРЧ можно проиллю- стрировать примерами из табл. 2.8 и 2.9. В табл. 2 8 приведены значения частот ft, а также значения частостей вычисленные по формуле f"i= Значения границ X'i ис- пользуются для построения кумуля- тивных частот, таких, что X<ZX'{. Интерпретация К,- и F"t очевидна. Для Х/5=81,5, например, Л=17. Это значит, что 17 учащихся из всей 28 Таблица 2.8. Кумулятивное распределение частот (оценки по курсу „Статистика") Оценка, балл Х1 Fi X'i Меньше. чем х'< F'i 1 1 . 42-51 4*3,5 5 0.0450 41,5 51.5 0 0.0000 52-61 56,5 3 0,0270 5 0,0450 62—71 63,5 1 0,0090 61,5 6 0,0720 72—81 76,5 8 0,0721 71,5 9 0,0819 R2—91 86.5 В 0,0721 81.5 17 0.1531 92—101 96,5 8 0,0721 91.5 25 0,2252 102—111 106,5 15 0.1351 101,5 33 0,2973 112—121 1>6 5 12 0.1O3I 111,5 4Я 0.4324 122—131 126,5 30 0.2703 121.5 60 0,5*05 132—141 136, > 1В 0.1622 131.5 90 0.810В 142—151 161,5 3 0,0270 141,5 105 0.9730 Hi 1,0030 151.5 lit 1.0000 Примечание. Данные взяты из табл. 2-3- ' исследуемой группы (111 учащих- ся) получили оценки меньше 81,5 балла. Значения F", более инфор- мативны. Для того же значения Го=81.5 F"5=0,1531, т. е. 15,3% всех учащихся получили оценки ни- же 81,5 балла. Аналогичный вид имеют много- численные публикуемые вероятност- ные таблицы. Используются они. так, как это было только что пока- зано. Рассмотрим еще один случай применения такой таблицы. Иссле- дователь, имея в своем распоряже- нии только значения кумулятивных частостей должен уметь нахо- Т а блин а 2.9. Кумулятивное распределение частот (оценки по курсу „Исследование операций") Оценка, балл xi h f'i X'i Меньше, чем X'i Fi 71—76 73,5 1 0,0154 70,5 0 0,0300 77-В2 79.5 3 0,0461 76.5 1 0.0154 83— 85.5 [ 0,0154 82>> 4 0,0615 89-94 91,5 8 0,1231 88.5 э 0,0769 95—100 97.5 7 0,1077 94.5 13 0,2030 101—136 103,5 7 0.1077 103.5 20 0,3077 107—112 109,5 6 0,0923 106.5 27 0,4154 И .3—118 115,5 2 0.0J08 112.5 33 0.5077 119—124 121,5 9 0,1385 [ 18.5 35 0.5385 125—130 127,5 11 0.1692 124,5 44 0.6770 131—136 133.5 6 0,0923 1-50,5 55 0,8462 137—142 139,5 4 Э.0И5 136,5 61 0.93Й 65 1 .ои» 142.5 65 1,00!» Примечание. Исходные данные длн этого рас - пре деления в книге не пригодятся.
b дить значения f", или суммы f=rt по крайней мере для двух группи- ровок. Например, очевидно, что /"в, обозначающее долю учащихся, получивших оценки в диапазоне 91—101 балл (это пределы группи- ровки для данных из табл. 2.8), можно найти вычислением разности F"7—F"6=0,2973—0,2252=0.0721 = =f"e- Долю студентов, получивших оценки в диапазоне 71—] 11 баллов (в этом случае iLt—72 и UI7=111), находим, вычисляя разность F"&— —F”i = 0,4324—0,081 = 0,3514 = . 7 2 0.3514. i=4 Если нужно вычислить долю студентов, получивших, например, оценки, меньшие 77 баллов, или оценки между 77 и 95 баллами, то распределение необходимо интерпо- лировать. Удобнее всего произво- дить интерполяции по графику. Если задачу решают с помощью довольно подробных статистических таблиц, то необходимость в интер- поляции возникает редко. Однако знать, как интерполируют с по- мощью вычислений, нужно. Чтобы оценить долю студентов, получивших оценки ниже 77 бал- лов, проводят вычисления в следую- щем порядке: поскольку значение Х=77 находится между Х'4 и Xs', возьмем F"i=0,081 и добавим к не- му k-ю часть разности F"s—F"i, т. е. 0,081+^(0,1531 -0,081) =0,081+АХ X (0,721). Значение k можно полу- чить из равенства k = (X ~Х\)/(Х'5— —Х'<) = (77—71,5)/(81,5— 71.5) = =5,5/10=0,55. Таким образом, вычисляемая доля равна 0,081+ 4-0,55 (0,072) =0,1207, т. е. 12,1% всех учащихся получили оценки ни- же 77 баллов. (Если рассматривать оценки в виде совокупности ди- скретных чисел, то выражение «ни- же 77 баллов» следует понимать как «ниже 77,5 баллов»). Итак,при условии X't<ZX<X'i+i общая интер- поляционная формула имеет вид: где ^(Х-Х^ЦХ'^-Х1^ Если доля учащихся, получивших оценки ниже 95 баллов, вычисляет- ся с помощью интерполяционной формулы и составляет 0,2504, то до- ля студентов, получивших оценки между 77 и 95 баллами, составит 0,2504—0,1207=0,1297, или прибли- зительно 13%. Верхние граничные значения X, например, такие, как Х'5=81,5 баллов, относительно кото- рого известно, что 15,3% студентов получили оценки ниже его, или Х= =77 баллов, ниже которого полу- чили 12,1% учащихся, называются процентилями и обозначаются Рг. Итак, Р15,з=81,5 и Pu>,i=77, и наши кумулятивные частости «меньше чем» равны индексу в выражении Рг. Интерпретация процентилей аналогична интерпретации значений X для частостей F",- КРЧ. Более подробно процентили рассматрива- ются в следующей главе. Будет об- сужден метод вычисления процен- тилей Рг на основе исходного рас- пределения (т. е. без построения ча- стостей F"t КРЧ) Формула вычис- ления процентилей выводится из графика огивы 1. Рассмотренные выше кумулятив- ные распределения часто интерпре- тируются как вероятностные. В на- шем примере вероятность того, что выбранный случайным образом сту- дент получит оценку ниже 77 бал- лов, равна 0,121. Вероятность полу- чения оценки между 77 и 95 балла- ми равна 0,13. Оба утверждения- могут быть формализованы следую- щим образом: Р(Х<77) и Р(77< <Х<95). Кумулятивные доли, вы- численные из различных теоретиче- ских распределений вероятностей и опубликованных таблиц, также мо- гут быть использованы в виде ча- стостей и вероятностей. 1 В советской статистической литерату- ре соответствующая кривая называется^ кумулятон. Ошвой называется кривея, ко- торая получается из кумуляты при пере- мене местами координатных осей. — Прим, ред. 29*
2.4.2. Графическое изображение кумулятивного распределения частот Кумулятивные распределения мо- гут изображаться в виде графиков, представленных на рис. 2.9—2.11. Такие кривые называются кумуля- тами. Если изображается лишь одна кумулята, то нет смысла пе- ресчитывать частоты в частости. Можно просто разметить вертикаль- ную шкалу точками либо от 0 до 1, либо от 0 до 100. Однако необходи- мо помнить, что 1 или 100 соответ- ствуют S/,- исходной шкалы. Чтобы найти, например, оценку, ниже которой получили 25% уча- щихся, т. е. найти Р25, надо на вер- тикальной шкале отметить точку 25 (или 0,25), провести горизонталь- ную линию до пересечения с куму- лятой и опустить из точки пересе- чения ес с кумулятой перпендику- ляр на ось абсцисс (см. рис. 2.9). бцеяла, балл ‘Рис. 2.9. Кум у ля гы для распределения оце- нок по курсу «Статистика» (данные взяты из табл. 2.8) Рис. 2.10. Кумуляты для распределения оценок по курсу «Исследование операций» (данные взяты из табл. 2.9} 4’5 51,5 81,5 101,5 121,5 W.5 Оцснга, балл Рис. 2.11. Кумуляты для распределений оценок по курсам «Статистика» (/) и «Исследование операций» (2) (данные взяты из табл. 2.8 и 2.9) Искомая оценка равна приблизи- тельно />25=88,5. Позднее мы вве- дем для нее еще одно определе- ние — первый квартиль, который обозначим через Qi. Любой другой процентиль или фрактиль может быть найден из графика. Если надо сравнить две кумуля- ты, то по вертикальной шкале сле- дует откладывать только проценты или отношения (частости). Никогда не следует проводить аналогии меж- ду интерпретациями полиюна и ку- муляты. Ордината кумуляты в не- которой точке оси абсцисс не то же самое, что ордината полигона в той же точке оси. Это различие иллюстрируется рис. 2.12 На рис. 2.12,а изображе- ны графики кумуляты и жирных вертикальных линий для распреде- ления оценок по курсу «Статисти- ка». В точке Х=иВ9=131,5 прове- дена вертикальная линия, высота которой равна 90 и соответствует Fio из табл. 2.8. Если сложить вы- соты всех вертикальных линий сле- ва от Х=131,5, то их сумма также равна 90. Если вместо графика вер- тикальных линий изобразить поли- гон, построенный для значений ис- ходных частот, то его интерпрета- ция аналогична, т. е. чтобы полу- чить значение 90, надо сложить все ординаты полигона в средних точ- ках, лежащих левее Х=131,5. Рисунок 2.12,5 представляет со- бой растянутый по вертикали рис. 2.12,а. Это сделано для того, чтобы 30
W,5 51,5 b\5 W.5 121,5 W,5 йцснга, бела Рис. 2.12. Кумуляты и графики распреде- лений частот (данные взяты аз табл. 2.8) представить оба графика на одном рисунке. Полигон выглядит неболь- шим, потому что построен для плот- ностей Вертикальная ли- ния, как и в предыдущем случае, проведена в точке X—131,5. Ее вы- сота, как и раньше, равна 90, но ее соотношение с полигоном другое. Высота этой линии (для математи- ческих функций это ордината) при- близительно равна площади части полигона, лежащей левее ее. Соот- ношение между площадью и высо- той иллюстрируется с помощью тем- ного прямоугольника в середине рисунка. Интерпретация обоих графиков аналогична: 90 студентов получили оценки ниже 131,5 балла; разделив 90 на 111, получим число 0,8108. Теперь можно сказать, что Рвм= =131,5, или 81,1% студентов полу- чили оценки ниже 131,5 баллов. Используя значения f"i и Р"< из табл. 2.8, можно построить еще два графика. Вертикальная шкала в этом случае будет иметь область значений от 0 до 1; высота вертика- ли в точке Х=131,5 составит 0.818. Процентили Рг тогда будут считы- ваться прямо с графика. Можно построить также статисти- ческую таблицу этого распределе- ния. Для этого следует выбрать 20, 50 или 100 значений X с постоян- ным ЛХ и вычислить F"i для каж- дого из них. Статистические табли- цы для любых других математиче- ских функций строятся аналогич- ным образом. 2.4.3. Кумулятивные распределения частот для дискретных данных В дополнение к сказанному выше следует упомянуть'специальную ка- тегорию данных — дискретные дан- ные. Это обычно данные (например, длины булавок из табл. 2.1), рас- пределение частот для которых кон- струируется без построения группи- ровок и пределов (см. табл. 2.4). Примером другого такого распреде- ления частот может быть распреде- ление, средние точки которого при- нимают значения I; 5,2; 5,3. Если исследователь не ставит целью ин- терполировать, то КРЧ и его гра- фик могут быть построены несколь- ко другим способом. Как видно из табл. 2.10, вместо выражения «меньше, чем X» ис- пользуется формула «X или мень- ше» (хотя кумулятивное распреде- ление строится по принципу «мень- ше, чем X»). График на рис. 2.13 построен так, что при считывании невозможна интерполяция. Напри- мер, отметив на вертикальной оси точку 0,25 и опустив из точки пере- сечения кумуляты и прямой, парал- лельной оси абсцисс и проходящей через точку 0,25 перпендикуляр- на ось абсцисс получим значение 2, 31
Число золотых частей Рнс. 2.13. Кумуляты для распределения дискретных данных (число запасных ча- стей, используемых за весь срок службы по 59 электромоторам; данные взяты из табл. 2.10) Таблица 2J0. Распределение числа запасных частей, использованных за время работы 59 электромоторов Х1 fi f'i Xj или меньше ъ ' f^i 0 3' 0,050847 3 0,050847 I 7 0,118645 10 0,169492 2 12 0, .203389 22 0,372881 3 18 0,305085 40 0,677966 4 11 0,186440 51 0,864406 Г> 6 0,101695 57 0,966101 6 2 0,033899 59 1,000000 59 l.o Примечание. Исходные данные в книге нс при •водятся. т. е. 25% всех электромоторов ис- пользуют 2 или меньше (итак Х< или меньше, а не «меньше, чем X.») запасных частей. Однако если, ча- пример, на вертикальной оси отме- тить точку 0,3, то результат будет тот же. Это, конечно, естественный способ работы с дискретными данными. Однако можно было бы использо- вать и методику, рассмотренную выше. Другими словами, можно бы- ло бы получить КРЧ, отвечающие принципу «меньше, чем». В этом случае необходимо использовать категории границ для значений Х\. Однако понадобится только допол- нительный шаг, необходимый для соблюдения условий дискретности и состоящий в округлении проценти- лей с определенной степенью точ- ности. Результаты будут те же. -32 2.5. ВОПРОСЫ И ЗАДАЧИ 2.1. Приведенные ляют собой затраты каждая из которых (в долл.): 48 44 40 51 44 45 46 39 41 39 38 43 29 45 33 40 45 40 55 45 32 53 42 38 49 46 42 41 32 50 46 41 43 40 55 ниже числа представ- ка питание 66 семей» состоит из 4 человек 57 57 34 38 47 48 52 54 38 28 48 28 47 52 32 56 41 52 36 50 37 51 39 47 37 35 44 39 44 53 46 а. Постройте распределение частот с 10 группировками. Чтобы это сделать, найдите разность (размах) между мак- симальными и минимальными значениями: 57—28=29, Разделив 29 на 10, примите интервал равным 3. Выбрав число» несколь- ко меньшее минимального значения, накри- мер 26 или 27, сделайте его нижней гра- ницей первой группировки. Например, при- мем rL]=27t тогда uLi = 29, ]L2=30, 1X2— = 32 и т. д. б. Постройте с теми же данными дру- гое распределение частот с интервалом I руппировок» равным 2. в. Изобразите оба распределения в ви- де полигонов частот на одном листе бу- маги. Горизонтальные оси должны быть универсальными. Их можно разметить чис- лами 20, 30...70. Отметьте на горизон- тальной оси средние точки Сделайте не- обходимые разметки шкал, полигонов, По- пытайтесь сделать графики как можно более наглядными и информативными. Другими словами, попытайтесь сделать так» чтобы при первом взгляде на график был ясен характер распределения. г. Посмотрите на графики. Какое из распределений лучше отражает специфику данных? Почему? д. Чтобы сделать полигоны сопоста- вимыми. перейдите к плотностям распре- делений по формуле и изобрази- те оба полигона на одном графике. е. Итак» мы имеем теперь четыре по- лигона, построенные на основании одной выборки. В двух из них использованы ис- ходные частоты ft, в двух — плотности /'*. Для дальнейшего прохождения курса по- лезно сделать следующие упражнения: ис- пользуя оба графика» реконструируйте рас- пределения частот из графиков, найдите определите число семей, тративших еженедельно от 35 до 45 долл. Сделайте все это дважды, используя полигоны с ft и Гь 2.2. Используя данные предыдущей за- дачи и принимая интервал группировок равным 3. постройте КРЧ по принципу «меньше» чем». Чтобы получить средние точки, используйте границы группировок следующим образом: iBf=X'El uBi=X'k xlB2—XfZr uBg=XZ4. Вычислите F't и Для получения F"i вычислите сначала ча- стости ft по формуле
а Изобразите кумуляты. Наибольшая отметка на вертикальной оси слева пусть равняется 27<. Разметьте вертикальную ось справа числами от 0 до 1. б. Найдите несколько значений Ft и F"i из графиков и сравните их с исходны- ми частотами. - в. Определите по графикам число се- мей, тративших на пнтанйе еженедельно от 35 до 45 долл.» и сравните этот ре- зультат с аналогичным числом» получен- ным в задаче 2.1,д. г Найдите долю (в %) семей с рас- ходами от 35 до 45 долл. д. Будет ли эта доля больше 50% ? Или именно 50% семей тратят меньше, чем эта сумма? е. Какое количество (в %) семей тра- тит меньше 38,5 долл.» больше 38,5, боль- ше 41,5 долл.? ж, 20% семей тратят меньше указан- ной суммы? з. Предположим, что при построении КРЧ мы используем вместо границ кате- горию пределов. В этом случае 0Li = X'2> vL2=X\ и т. д. Будет лн тогда КРЧ строиться по принципу «меньше, чем»? 2.3. Постройте по принципу «меньше, чем® КРЧ для данных табл. 2.4. Имеем -V1—243,5, X'j=244»5 и т. д. Ответьте на ьопросы из задачи 2.2 применительно к это- му распределению. 2 4. В приведенной ниже таблице по- казаны два распределения частот в 1940 и 1964 гг. ферм в США, сгруппированные по величине занимаемых площадей. Г руппа по площади, ааннмаемой фермой, акр (1 акрлО.4 га) Число ферм, 10* 1940 г. | 1 1364 Г. . <10 506 183 10—49 1780 637 50-99 1291 542 100—179 1310 633 180-259 486 355 260—499 459 451 500—999 164 210 >1000 101 145 6097 3156 Примечание. Данные изяты из U. S. Bureau of the Census. Statistical Abstract of the United States; Washington, D. C., 1969, p. Б92. а. Чтобы выяснить, какие изменения произошли в фермерском хозяйстве США» перейдем от частот и к частостям. Проанализируйте и сравните оба распреде- ления. б. Исключите из рассмотрения две группировки: первую и последнюю. По- стройте гистограмму для Перейдите к плотностям распределения и постройте другую гистограмму. Сравните сбе гистограммы. Нарисуйте теперь два 3-232 полигона. Как говорилось выше, для рас- пределений с переменными интервалами информативен лишь полигон, построенный для плотностей распределения f'<* Объяс- ните. почему это так. Замечщие. Поскольку открытые груп- пировки (им соответствуют интервал, от- крывающий распределение, и интервал в конце его) изобразить на графике невоз- можно, их необходимо учитывать в снос- ках. Только в том случае, если соответ- ствующие им частоты очень малы, ими можно пренебречь. Интерпретация очень «малых частот» зависит от задачи. Напри- мер. в рассматриваемой нами задаче 2.4 мы не принимаем во внимание начальный и конечный, интервалы лишь при графи- ческом изображении распределения. Соот- ветствующие им частоты слишком велики, чтобы можно было ими пренебречь. в. При построении КРЧ по принципу «меньше, чем» нельзя брать X f=—0,5. Вместо этого возьмите 2l]=9,5 и “995,5. а характеристики начального и конечного интервалов ^айте в сноске. г. Почему иногда возникает необходи- мость построения распределений с пере- менными интервалами, хотя ясно, что ве- личину интервала можно всегда выбрать достаточно малой? Пояснение. Сколько группировок будет содержать рассматриваемое распределение, ьсли выбрать для него наименьший воз- можный интервал <72=40 акров. 2.5. В следующем примере иллюстри- руется вычисление кумулятивных процен- тов, с помощью которых строится кривая Лоренца. Первый столбец совпадает со столбцом распределения частот для 1964 г. в предыдущей задаче Во втором столбце приводится информация о величине общей площади ферм для каждой из рассматри- ваемых группировок Таким образом, об- щая площадь земли, занимаемая 183 000 (bepMs составляет 778 000 акров. Группа ла пло- щади. шннмэе- ыой фермой, акр Число ферм. |0> а Общая пло- щадь данн- ый сиэй земли, акр Прпцеяпюе рагщжделевде числа ферм площа- ди земля 1 А1 f”, 1 И'/ . <10 183 778 5,8 0.1 10—49 637 J7 325 20,2 1.6 50—99 542 39 589 17,2 3,6 100—179 633 86 592 20 7.8 180—259 355 76 857 11,2 6.9 260—499 451 159 598 14,3 14,4 500—999 210 144 600 6.6 13,0 >1000 145 584 848 4.6 52,6 3156 1 ПО 189 99,9 100 Лрим.чян не. См- з< >дачу 2.4. Заметим, что /"<=(f</2f«) • 100, = (Ai/SAf) 100. 33
а. Вычислите кумулятивные проценты, проверьте данные для f"< и Л"*. б. Начертите вертикальную и горизон- тальную оси одинаковой длины. Разметьте горизонтальную ось числами от 0 до 100 н отложите на ней процент ферм. Анало- гично разметьте вертикальную шкалу, от- ложите на ней процентное отношение зе- мельных участков. Соедините точки с по- мощью лекала. Полученная кривая назы- вается кривой Лоренца. в. Попытайтесь интерпретировать эгу кривую, ответив на следующие вопросы, площадь земли, занимаемая 20% ферм, меньше какой площади в процентах, или меньше какой площади в процентах со- ставляет площадь земли, занимаемая 70% ферм? г. Предположим, что значения, приве- денные для и А % равны Как тогда будет выглядеть кривая Лоренца? Как можно интерпретировать ее график? д. Как будет выглядеть кривая Ло- ренца для некоторой другой страны, в ко- торой распределение земли будет более равномерным, чем в США? е. Придумайте задачу, в которой мож- но было бы построй 1ь кривую Лоренца. ГЛАВА 3 СРЕДНИЕ И ДРУГИЕ ХАРАКТЕРИСТИКИ РАСПРЕДЕЛЕНИЙ 3.1. СЛОЖЕНИЕ И УМНОЖЕНИЕ ДИСКРЕТНЫХ ПЕРЕМЕННЫХ Теперь мы подошли к такому моменту, когда необходимо прово- дить различные операции и вычис- ления над дискретными переменны- ми. В этой связи представляется полезным умение работать с ма- тематическими символами, описы- вающими операции сложения и умножения дискретных переменных Определение дискретных пере- менных было дано в разд. 2.3. В настоящей главе мы рассмотрим ди- скретные переменные как ряды чи- сел, нац которыми можно прово- дить операции сложения и умноже- ния. В качестве примеров дискрет- ных переменных можно указать следующие ряды: 1) несгруппиро- ванные данные: например, длина булавок (см. табл. 2.1), почасовая заработная плата (см. табл. 2.2) и т. д.; 2) средние точки для сгруп- пированных данных; 3) частоты ря- да сгруппированных данных (см. табл. 2.4 и 2.5). Переменные в табл. 2.1 (не- сгруппированные данные) можно обозначить Xt, или Zt. Тогда каж- дой точке ряда соответствует опре- деленный индекс; например, Xi= =250, Х>=249, Х3=248, ..., ^299= =249, Х«ю=249. Индекс каждого элемента ряда должен оставаться неизменным при всех операциях над этим элементом. 34 Распределение частот из табл. 2 6 (сгруппированные данные) содер- жит 5 переменных, из которых над X,, fi, f'i чаще всего проводят опе- рации сложения и умножения. Эти переменные можно представить сле- дующими рядами: Х\=46,5, Xi— =56,5, .... Хц== 146,5, /,=5, f2= —3, —, /ц=3. Число значений в табл. 2.1 (не- сгруппированные данные) равно ЗОЮ. Если это вся генеральная сово- купность, то, обозначив число ее элементов буквой N, имеем jV=300. Если это выборка, то будем обозна- • чать число элементов в ней п, и тогда л=300. Число элементов ря- да, для,которого строится распреде- ление, приведенное в табл. 2.6, рав- но сумме всех fi. Для генеральной совокупности эта сумма равна Л’= =111. Если ряд представлен вы- боркой, то Sfi=n=lll Часто бывает необходимо отве- тить на следующий вопрос: со сколькими оценками мы имеем де- ло? Ответ таков: 111, из них сред- няя оценка 46,5 встречается 5 раз, 56,5 встречается 3 раза и т. д. Одна- ко ответ на этот вопрос мы ие мо- жем получить, складывая плотно- сти распределения или частости, т. е. вычисляя Zft или Sf',. Не по- лучим мы ответа также, подсчиты- вая число средних точек и полагая N=l1 илн n=] 1. Однако если f'i (плотности) умножить на длину интервала с,- (постоянная) и ело-
жить, то сумма этих произведений равна сумме всех частот, а значит, общему числу оценок в рассматри- ваемой задаче. (Операцию сложения и умноже- ния дискретных .переменных и ря- дов можно проиллюстрировать на | следующих коротких рядах: xi . fl с 4 0,2 2 2 3 0,3 5 2 7 0,2 3 2 5 0.4 3 2 2 0,2 1 2 В результате сложения или умно- жения получаем дискретную перс- ! менную, содержащую то же число ! значений, что и исходные ряды, т. е. ; Л/1=Л,2=Л/з=- - .—Nk- Сумма двух или более дискретных переменных является новой дискретной перемен- ной, каждое значение которой пред- ставляет собой сумму соответствую- щих значений переменных-слагае- мых. Произведение двух или более переменных является новой ди- скретной переменной, каждое значе- ние которой представляет собой произведение соответствующих зна- чений переменных-сомножителей. Запись вида Х/+У/ означает, что мы получаем новую переменную Z,, каждое значение которой равно . сумме Xi и Y, с одинаковыми индек- сами. Запись вида X,f,- означает, что получаем новую переменную U7,, каждое значение которой равно про- изведению Yi и Л с одинаковыми индексами. Однако, не вводя новых обозначений Z,- или Wi, следует пользоваться выражениями или Xifi, так как они дают инфор- мацию о том, какие преобразования производятся с рядами. Приведем несколько примеров: Xi+Yt 4,2 3.3 7.2 5,4 2,2 Yifi 0.4 1,5 0,6 1,2 0,2 cXt 8 6 14 10 4 Вычисление X*;fi можно провести двумя способами: x*i xtih 16 32 9 45 49 147 25 75 4 4 Vi x*ifi 8 32 15 45 21 147 15 75 2 4 Знак суммы 2 используется, когда надо сложить несколько пере- 4 менных. Например, g означает, что складываются Л,, Xt и Xt т. е. имеем 2 Xi = \5. Если надо сло- «=2 жигЬ все члены ряда, то для гене- N ральной совокупности имеем S 1=1 п а для выборки 2 Х{. Складывая все i=I значения из табл. 2.1, мы запишем J оо 2 Далее мы будем иногда для i=i простоты при суммировании всех значений переменной использовать обозначение 2, т. е. не писать пре- делов суммирования под и над зна- ком суммы. Если требуется затем сложить все новые переменные, обозначен- ные Xj, и cXf, X* 2jt, то запи- шем 2 (Xi + Yi), 2 Yifb 2cX,-, ZX^ifi со- ответственно. Выражения такого ро- да означают, что сначала формиру- юся ряды Xi + Vi или Yifi, а затем производится операция сложения. Итак, 2 (Х{ + У,) =22,3, 2 У«£=39 и т. д. Читатель может легко прове- рить сам следующие формулы: 2(X.- + yz + Zi) = 2Xi+2y/ + 4-2Z,-; 2сХ,=с2Х£; 2c=Afc, где с — постоянная. 3.2. СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ Вычисление среднего для не- сгруппированных данных илюстри- 35 3*
Таблица 3.1. Вычисление среднего для весгруппированных данных xi 2,92 3,05 2,75 3,25 2,59 3,17 2,85 2,72 2,89 26J9 руется данными в табл. 3.1. Сред- ние вычисляются по формулам g= =ZXi/N или X=2Xifn. Эти две формулы отличаются только обо- значениями. Результаты же вычис- лений будут одинаковы. При вычислении среднего из ге- неральной совокупности использует- ся обозначение ц, а для обозначе- ния числа элементов совокупности ДО; при вычислении среднего из вы- борочных данных используют X, для обозначения числа элементов выборки — л. Как видно из табл. 3.1, здесь среднее арифметическое упот- ребляется в обычном смысле слова. В статистической науке термин «среднее» часто имеет более общее значение, а именно: три величины, называемые центральными момен- тами: среднее арифметическое, ме- диана и мода — относятся к поня- тию среднего. В связи с вычислением среднего арифметического будет полезно за- метить следующее. Очень часто ста- тистики приводят лишь среднее и значение ДО, при помощи которого это среднее вычисляется. Примера- ми такого рода являются недельная заработная плата и число рабочих, средний доход и число семей, сред- няя масса и число мест багажа. Чтобы получить (т. е. суммар- ное значение заработной платы, об- щий доход или общую массу бага- жа), следует вычислить произведе- ние цДО, так как р,=2Х7ДО. Способы вычисления среднего арифметического из распределения частот (сгруппированные данные) иллюстрируются данными табл. 3.2. Первые две формулы, как и раньше (см. табл. 3.1), отличаются только обозначениями и отражают разли- чие между генеральной совокупно- стью и выборкой. Для вычисления среднего по одной из этих формул мы должны иметь значения Xt, и /<, Х{. Процедура вычислений станет понятнее, если найти ответ на во- прос: можно ли вычислить среднее для распределения частот, исполь- зуя формулу для несгрулпирован- ных данных X=SXifnt Ответ бу- дет, конечно, положительный. Дан- ные о распределении частот можно представить в виде длинного столб- ца цифр, в котором значение 2,495 будет повторяться 10 раз, 2,595— 25 раз, 2,695—57 раз и т. д Скла- дывая затем все эти числа и деля сумму на 303, получаем искомое значение среднего. Две альтернативные формулы на- зываются формулами для быстрых вычислений. Они могут быть полу- чены, если принять X,=Xo4-cdf, где Таблица 3.2. Вычисление среднего для распределения частот почасовой зарплаты 393 рабочих» запятых в промышленности Средние touch X - h fixl di 2,495 10 24,95 —3 —30 2,595 25 64,875 —2 —50 2,695 . 57 153,615 —1 —57 —А; = 2,795 74 206,83 0 0 2,895 58 161,91 1 58 2,995 34 101,83 2 68 3,095 17 52,615 3 51 3,195 14 44,73 4 56 3,295 11 36.245 5 55 3,395 3 10,185 6 18 303 863.785 169 Примечания: I, Таблица построена по данным табл. 2.5- 2. р = j = Е/^X./iV» поскольку ж N для генеральной совокупности: X = = “ 17{X -/в, поскольку Lff = п дли fttjCopoqrtjx данных; Н « Хе 4- Г Е/ . = Х« +/ Ef .rf ./.V; X = X. 4- + Г = X, + Н = s^X^/s^ =863,785/303 ж= 2,8507 * 2>85; j* = Х,+ c If.d^f^ «=2.79* + 0.1-169/303 и 2,795-M.l (0.5577F) = 2,7950 + + 0,0558 = 2.B5OR *
в качестве Хо можно взять любую среднюю точку Xi, a d, равно цело- му числу единиц, на которое теку- щий индекс отклоняется от началь- ного. Таким образом, если Х4=Х0= =2,795, то любое другое значение Xi может быть представлено в виде Xb+cdi. Например, *2=2,795+0,1 X X (—2) =2,595, *7=2,795 + 0,1-3= =3,095, *4=2,795+0,1 -0=2,795. Подставляя эти выражения в пра- вую часть формулы среднего, полу- чаем х______о ~Е __________________ Sfi — zfi ~ Sf,*, + Zftcdi Xj^i cSfjdj ’ sfi Sfi "r Последняя формула используется при вычислении среднего для рас- пределений с равными интервала- ми. Хотя теоретически любая вну- тригрупповая средняя точка может быть выбрана в качестве Хп, пред- почтение следует отдавать модаль- ной средней точке (точке наиболь- шей частоты). Если принять во вни- мание ошибки округления, то ре- зультаты по этой формуле совпада- ют с результатами, полученными по первой формуле Обычно среднее, вычисленное из распределения частот (сгруппиро- ванных данных), несколько отлича- ется от среднего, полученного из исходных данных. Если распределе- ние частот строится по правилам, приведенным в разд. 2.2, то разни- ца будет не слишком велика. Сред- нее часовых заработков, по данным табл 3.2, составляет 2,8508; сред- нее, вычисленное из исходных дан- ных табл. 2.2, равно 2,8491. Оба чис- ла округляются до 2,85. Как уже отмечалось, если нет необходимости переформировывать исходные дан- ные в средине точки (если построе- ние распределения частот возможно без образования группировок), то значение среднего, вычисленное из исходных данных, совпадает со значением среднего, полученного из распределения частот. 3-3. МЕДИАНА, КВАРТИЛИ И ПРОЦЕНТИЛИ Еще одна, часто используемая в статистике величина называется медианой и обозначается Md. Так как она аналогично среднему ха- рактеризует объект исследования в целом, используя всю информацию данных о нем, то она относится к категории средних. Но строго го- воря, это не средняя в обычном смысле, а скорее характеристика размещения Другими словами, ме- диана есть исходное или интерпо- лированное значение для ряда дан- ных, упорядоченных по величине, меньше которого (или больше) бу- дут 50% значений совокупности. Та- ким образом, 50% всех элементов совокупности меньше медианы, а 50%—больше ее. Следует отме- тить, что иногда значение медианы совпадает с одним из значений ва- риационного ряда, а иногда вычис- ляется интерполированием двух со- седних значений. Сейчас мы обсудим разницу между двумя средними — медианой и средним арифметическим. В то время как на среднее арифметиче- ское влияют все члены исходного ряда (или распределения частот), медиана является характерисшкой размещения. Например, два корот- ких ряда, упорядоченных по возрас- танию чисел 2, 5, 6 и 4, 5, 6, имеют одну и ту же медиану — 5, но раз- ные средние арифметические, /две другие характеристики размеще- ния— квартиль и дециль. Обе они имеют общее название—процен- тиль. Вообще говоря, и медиана, и квартиль, и дециль являются неко- торыми процентилями Медиана — это пятидесятый процентиль. Первый, второй и третий кварти- ли обозначаются <2i, Q2, Q-з- Вместо Qz обычно используют Md. Первый квартиль Q} определяет такое зна- чение исходного ряда (или интерпо- лированное), меньше которого бу- дут 25%’ значений распределения. Величины Qz=Md и Q3 определя- ются аналогично. 37
Второй дециль обозначают обыч- но Рао. Это исходное или интерполи- рованное значение ряда упорядо- ченных по возрастанию данных, меньше которого будут 20% значе- ний ряда. Очевидно, что Pw=Qz= =Md. В отличие от приведенных характеристик процентили могут иметь любые индексы: например, можно записать Рп, Р50 нли Рээ. Чтобы лучше понять введенные определения, обратимся к табл. 3.3. В ней иллюстрируется на примере ряда исходных данных процедура интерполяции процентиля и дается его геометрическая интерпретация. После того как читатель хорошо усвоит это, мы рассмотрим задачи интерполяции и геометрической ин- терпретации процентилей в распре- делениях частот (сгруппированных данных). 3.3.1. Процентили, получаемые для вариационного ряда несгруппированных данных Рассмотрим ряды данных на III и IV шкалах в табл. 3.3. На обеих шкалах ряды одинаковы и упорядо- чены по возрастанию. Число членов в рядах нечетное. Значения Ры= =Q2=Md приходятся ровно на се- редину рядов. Не глядя на шкалу, можно сказать, что это будет вось- мой элемент ряда, который равен 12, и, следовательно, Md—12. Ряды, размешенные на I и II шка- лах, совпадают с только что рас- смотренными рядами, кроме послед- него элемента, и, следовательно, со- держат четное число членов. Не глядя на шкалу, мы можем сказать, что медиана должна совпадать с числом в середине ряда. Это чис- ло должно располагаться между восьмым и девятым элементами ря- да и, следовательно, равно 12,5. Вернемся к III и IV шкалам. За- метим, что шкалы построены ана- логично, но размещены по-разному: IV шкала (и II) сдвинута па 0,5 влево по сравнению с Ш шкалой (и I). Чтобы определить процентиль с помощью любой из шкал, надо найти соответствующую точку на шкале и считать в ней исходное или интерполированное значение ряда. Таким образом, чтобы найти Md= =Рх, на III шкале отмечают точку гАГ, где г равно индексу Р, записан- ному в виде дроби, a N — число всех элементов ряда. Для II1 шкалы (с нечетным числом элементов в ря- ду) nV=0,5-15=7,5; отмечаем эту точку и считываем над ней значение Afd=PM=12. Если над точкой нет числа, его можно получить интер- поляцией. Однако можно найти тот же процентиль, используя IV шкалу и полагая no=rN+0,5. Символ п0 называется порядковым числом. Для Afd=PS0 имеем ло=О,5*15+ +0,5=8. Значения члена вариаци- онного ряда в этой точке равно ЛМ=Р50=12. Чтобы получить процентиль с по- мощью I и III шкал, следует по- строить шкалу как таковую. (Такие шкалы, в качестве начальной точки которых берется 0, использовались при построении кумулят) При нахождении того же процен- тиля того же вариационного ряда методом, представленным с по- мощью II и IV шкал (т. е. с вычис- лением порядкового числа Ло= =nV+0,5), фактическое построение шкалы необязательно. Как только установлено значение процен- тиль находят путем подсчета. Рас- смотрим снова нечетный ряд чисел в- IV шкале, но не будем принимать во внимание саму шкалу. Медиану получаем путем подсчета n^=rN+ +0,5=0,5-15+0,5=8 (как и рань- ше), тогда восьмой член ряда есть Чтобы получить Рю в ряду чисел па II шкале, не используя ее, вы- числяют no=r.V+0,5=0,1 • 16+0,5= =2,1. Второй член ряда равен 6, а 0,1 разности между вторым и третьим числом- равна 0,1, следова- тельно, Рю—-6,1. Чтобы получить Рзз в этом же ря- ду чисел без использования шкалы, вычисляют л0=гЛ'+ 0,5=0,33 -16+ + 0,5=5,78. Сумма пятого члена ря- да и 0,78 разности чисел, стоящих
Таблица 3.3. Определение процентилей в ряду исходных данных (исходные данные: 10, 7, 16, 13, 6, 13. 10, 14, 15, 18, 11, 12, 9. 16, 13, 6) В ряду четное число чисел (N = 16) Считывание процентилей со шкалы 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Определение процентилей с помощью подсчета „ l?l8l7l»PPi'PPM‘?l1.:4l?ll?l'Pl1PllPllPll8l I 2 8 4 5 6 7 8 9 10 II 12 13 14 15 16 В ряду нечетное число чисел (N = 15) Считывание процентилей со шкалы .6 .6 । 7 I 9 10<10|11 |12|I3113|13i14115116116i HI I । I । I i I t I I । I । I । | । | । I « 1 2 3 4 5 6 7, 8 9 Ю II 12 13 14 15 Определение процентилей с помощью подсчета < IV 1?1?1 I 2 3 4 5 6 7 8 9 10 II 12 13 14 .15 В ряду четное число чисел {N = 16) / шкала Н подсчет nV Pr По рг Определение Q,: rN=0,25-16=4 <?1=9,50 лп=0,25 •164-0,5=4,5 (?.=9,50 Определение Q2: nV=0F5-16=8 <2г=ЛИ=12,50 «„=0,5-164-0,5=8,5 Q.=;WJ=12,50 Вычисление Plt: riV=<), 1 * 16=^=1,6 P(.=6,10 п„=0,1-164-0,5=2,1 Р,о=6.1О , Вычисление P7t: rN—0,7- IS^l I >2 p„=13,70 «„=0,7-164'0,5=11,7 Р7„=13,70 В ряду нечетное число чисел ^=15) HI писала IV подсчет Вычисление Qv rN—fi,25-15=3,75 Q,=9,25 Вычисление Q?: riV=0,5-15=7,5 Qt^=Md= 12,00 Вычисление Д„: rN=0,1 • 15=1,5 P14=6,00 Вычисление Pia: /7^=0,7-15=10,5 /\4=13,00 «„=0,25 154-0,5=—4,25 n4=0;5-154-0,5=8 n,=0.1- 15-f-O., 5=2 «„=0,7-154-0,5=11 <2=9,25 Qt=Mf=12.00 P,„=6.00 P„—13.00 39
на пятом и шестом мс; -ах, дает Рзз=10+0,78-0=10. Наконец, вы- числяя Рад, имеем По—0,95-16+ 4-0,5=15,7. Сумма пятнадцатого члена ряда и 0,7 разности между пятнадцатым и шестнадцатым чле- нами дает Рэз= 164-0,7-2= 17,4. Итак, процентили могут быть найдены либо по шкале, либо путем подсчета. В первом случае шкала существует реально, во втором— шкалы строятся по II или IV прин- ципу лишь для облегчения понима- ния задачи. Например, несложно вычислить какой-либо процентиль для ряда данных из табл. 2.1 (дли- на булавок). Построение шкал при этом было бы пустой тратой вре- мени. С другой стороны, неважно, каким методом получены проценти- ли — результаты будут одинаковы. Этот момент иллюстрируется дан- ными табл. 3.3.= Все процентили в I и II столбцах совпадают. Иногда процентили должны быть выражены в форме дискретных зна- чений. Подробное описание этой за- дачи можно найти в книге по веро- ятности и статистике Шлайфера *. На практике обычно применяют следующее простое правило: вычис- ляют процентиль точно с помощью приведенных выше формул, а за- тем округляют его до требуемого значения. Аналогичным образом по- ступают при вычислении проценти- лей из распределения частот, г- 3.3.2. Процентили, вычисляемые для ряда сгруппированных данных Вычисление процентилей для распределения частот иллюстриру- ется данными табл. 2.8 и рис. 3.1. Любой процентиль может быть найден быстро с помощью аккурат- но нарисованной кумуляты. Изо- бразив кумуляту, маркируют про- центными отношениями вертикаль- ную ось, фиксируют требуемый про- цент, опускают перпендикуляр из точки пересечения кумуляты с пря- 1 Schlaifer R. Probability and Statis- tics for Business Decisions. N. Y.: McGraw- Hill, 1959. h н ff WO 0,754 80 dOr 401- I UZ5 61,5 81,5 101,5 X* Nd 151,5 Оценка, балл Рис. 3.1. Получение медианы интерполя- цией (оценки по курсу «Статистика»; дан- ные взяты из табл. 2.8): медианная группировка — это группировка, и ко- торую попадает значение медианы X. Обозначим меянанпую группировку qepes J* — Чтобы ИАЙти Ь. вычислим порядковый номер До—г2/^ + +0,5. В рассматриваемом случае г -0,5 и —0.5. Ш-1-0,5—56. Из табл. 2.8 (или 3-4) находим, что 5б е значение попадает в группировку Л-8 или — u/-e—l 12-:-121. Следовательно, значение Nd находится в интервале 121,5. Имеем ^/<«=1/2.2^0,5 2^-55.5. Далее /*-/*-12 (частота медианной группировки). Определяем А—1 7 fj= 2^«=3+3+1+8+й+8+15“48 i=l Zwl (значение F* может быть также найдено прямо из кумулятивного распределения частот, приве- денного в табл. 2.8). Тогда jB*-^—111,5 (гра- ницы Медианной группировки), вВ*™иВ£-!21.5 н X* — ХВ-1Ю (средняя точка медианной групни- роькм) мой, параллельной горизонтальной оси и проходящей через фиксируе- мую точку процента, на гори- зонтальную шкалу. Точка пере- сечения этого перпендикуляра с осью абсцисс дает значение про- центиля. В основе метода лежит способ нахождения процентилей с помощью I и III шкал из табл. 3.3. Метод нахождения процентилей с помощью аккуратно нарисован- ных кумулят с большим числом то- чек обладает достаточной точно- стью, и не следует отказываться от него в пользу других способов. Процентили можно найти и непо- средственно из распределения ча- стот, т. е. не вычисляя кумулятив-’ ные частости и нс строя кумулят. Общая интерполяционная формула вычисления процентилей для ряда сгруппированных данных имеет вид: Pr ~ + с — Рk)iik* Л-1 где = 1=1 40
Формула для медианы переписыва- ется следующим образом: M/=^,+c(0.5Sh- На рис. 3.1 показано, как это фор- мула может быть выведена из гра- фика кумуляты. Прежде чем перейти к выводу формулы, рассмотрим индекс k. Он обозначает ту группировку распре- деления частот, в которую попадает искомый процентиль. Возникает во- прос: в какую группировку должна попасть медиана?'Используя фор- мулу подсчета процентилей, введен- ную в табл. 3.3, определим поряд- ковый номер zio=rSh+0,5=0,5Sf( + +0,5, поскольку г для медианы рав- но 0,5. Для распределения, пред- ставленного в табл. 2.6, имеем пе= =0,5-111+0,5=56. Складывая ча- стоты начиная с первой группиров- ки, находим, что 56-й член ряда по- падает в восьмую группировку, обозначаемую через 112—121. Сле- довательно, А=8 и медиана будет равняться числу, лежащему в ин- тервале 1В8—иВв= 111,5-«-121,5. Дру- гие символы в формуле понятны из рис. 3.1. Вывод формулы. Формула медиа- ны выводится из уравнения, со- ставленного с помощью отношения, связывающего два подобных тре- угольника. В большем треугольнике катет, параллельный оси абсцисс, равен мВк—[Bk, а сторона, парал- лельная оси ординат, — fh. В мень- шем треугольнике горизонтальный катет равен Md—iBk, а вертикаль- ный — 0,52/j—Fh. Из соотношения для подобных треугольников имеем = (Md - ^/(O.oSf, - Fk). Так как uBa—jSa=c, to последнее соотношение принимает вид: с/7л^(Ш-Д)/(0,52/,-Гл). Отсюда получаем Рсл = Md =,Bk + с (0,5Sf, - F„)lfb. Для заданного /го=56 k=8. Под- ставляя значения из рис, 3.1, имеем Md = 111,5 + Ю-0’51]' —= =117,75. ♦ Если данные являются целыми чис- лами, то Md=l 18. Это и будет оцен- ка, ниже которой (или выше) по- лучат 50% студентов. Отметим, что значение F& можно взять непосред- ственно из кумулятивного распре- деления частот, приведенного в табл. 2.8. Все другие процентили могут быть получены аналогичным * образом. Площадь под кривой. Медиане, может быть найдена также из гра- фика полигона. Полигон при этом строится для плотностей распределения if',- (табл. 3.4). Как показано на рис. 3.2, сначала изображают график по- лигона для значений частот из табл. 3.4. Затем, выбирая АА’—4, строят' прямоугольники. Площадь каждого прямоугольника равна /<=AA/?(, где АХ — константа, a hi — соответст- вующие ординаты графика. Прямо- угольники суммируются до тех пор, пока 2Л;5к0,52/,. Правая граница последнего прямоугольника опреде- ляет медиану. Заметим, что Д*Х Таблица 3.4. Оценки го курсу „Статистика" х,- h f'i !f’ i 46,5 5 0.50 0,0450 0,00450 56.5 3 0,30 . 0,0270 0,00270 66,5 1 0,10 O.OOSO 0, ОС 090 76,5 8 0,80 0.072! 0,00721 86,5 8 0.80 0,0721 0,00721 96,5 8 0.80 0,0721 0,00721 166,5 J5 1,50 0.1351 0,01351 Н6»5 12 1,20 0,1081 0.01081 126,5 30 3,00 0,270В 0,02703 136.5 18 1,80 0,1622 0.01622 145,5 3 0,30 0.0270 0,00270 111 1,0000 Примечания. 1. Данные взяты из табл. 2.6 и 2.8, исключая значения ,ff.. р>. = f.fff, = f" ,/С. 41
Рис. 3.2. Графическая оценка медианы (оценивание значения абсциссы для точки кривой, соответствующей значению ординаты 0,5 Е/, =55,5). Полигон изображен для данных из табл. 3.4. Значения hi оцениваются графически: А| » 0.50 Дх • ht ±= 2,00 Ли = 0,80 Дх - йц 3,20 At — 0.42 Дх - ftj — 1,68 Ли = 0.80 Дх * Л1в — 3.20 Л» = 0,34 Дх - йэ =1.36 Я1В = 0,80 дх - Я1В = 3.20 л. 0.2? Дх - Л* = 1 »0В Л|4— 0,93 Дх Лц == 3.72 А* = 0.18 Дх • й» — и.72 Л1В = 1.20 Лх . Лав = 4,80 Л, _ 0.14 Дх Лв = 0.56 Л,#= 1,44 Дх - Я1в = 5.76 Лу — 0.36 йх - Л, = 1.44 ftt, — 1 .39 Дх • Ла, = 5,56 Л# ZT О.'Х> Дх - йи — 2.64 Ли = 1,27 Дх - = 5.08 л* = O.R0 Дх • Ля = 3,20 Al* = 1,45 Д*Х Й1В = зло Л» — 0.83 Дх Л>о = 3.20 55.60 Д‘х - 2.14 Рис. 3.3. Графическая оценка медианы (оценивание области 0,5 2/,-= 0,5 под кри- вой) . Полигон изображен для данных из табл. 3.4. Значения оцениваются графи- чески: - At = 0,0045 Дх * h± — 0.0180 Л и = 0.0)72 Дх ’ Л„ = 0,^238 йа = 0,0038 Дх ’ й* = 0,0152 Ли = 0.0072 Дх - й1а - 0,0288 лв » 0,0031 Дх • Я8 ==0,0124 А и = 0,0.172 Дх ‘ = 0,0288 я< - 0,0024 Дх * й4 -0,0096 Лц = 0,0084 Дх Лц - 0,0336 Лв — 0,0016 Дх • Лв = 0ДЮ64 Л|В — 0,0(09 Дх • Й1В ±= 0,043-i л* — 0,0012 Дх й* = 0.0048 Ли = 0,0130 Дх * Л1* = 0.0529 Л? “ 0,0033 ДХ . йт = 0,0132 Лц = 0,0125 Дх Я17 = 0.0500 Ав - о.оо«о Дх • hf = 0,0240 л,а = 0,0Н5 Ах йм — 0.0460 л* = 0.0072 Дх • й| - 0,0288 А** = 0,0130 Дх А|* = 0,0297 Л15 - 0,0072 Дх * ftlQ. - 0.02В8 • 0.5025 = 2.29 для последнего .многоугольника мо- жет быть меньше ДХ Площадь под полигоном на рис. 3.3 равна единице. Для построения этого полигона вычислялись часто- сти Если с=#1, то необ- ходимо перейти к f'i—f''i/с. Прини- мая, как и в предыдущем случае, ДХ=4, построим прямоугольники и будем суммировать их, пока якг«®0,5. Последний прямоугольник определяет на горизонтальной оси медиану, т. е. то значение, меньше которого будет половина всех чле- нов распределения Другими слова- ми, медиана — это та точка, с по- 42 мощью которой площадь под поли- гоном делится пополам. Следует отметить, что, поскольку формула для процентилей Рг -= xBk + с (rift - Fk)ifk была выведена из графика кумуля- ты, ее нельзя применять к плотно- стям распределения вида или f'i==>f"tic. В формулу можно подставлять только f, или f"i. Медиана, определенная из рис. 3.2, равна 119; медиана, вычислен- ная из рис. 3 3, равна 118. Сба значения следует сравнить со зна-
чением ЛМ=118, полученным по ин- терполяционной формуле. Этот при- мер убедительно показывает, что графики должны строиться аккурат- но и что площади вычисляются по ним с определенной степенью точ- ности. Легче было бы применять операцию интегрирования, но это требует точного знания вида функ- ции, аппроксимирующей рассматри- ваемые данные. На практике это встречается редко. Некоторые другие процентили. Полезно вычислить из распределе- ния частот (см. табл. 2.6 — не из кумулятивного распределения) не- которые другие процентили, исполь- зуя формулу Для Рад или Qj порядковый номер л<»=0,25-1114- 0,5=28,25. Следова- тельно, Qi попадает в шестую груп- пировку и k—б. Поскольку iLe—и£в=92-*-101 и ^e—иЯв=91,5-*- 5 101,5, fe=8, имеем Ft = 5» =25 и /=| P25=Qi=95. Таким образом, 25% учащихся получили оценки ниже 95 баллов. Для Рео порядковый номер по= =0,9-111 +0,5=100,4. Следователь- но, Рэо попадает в десятую группи- ровку, и А=10. Поскольку ]£1о— —u£io=132 ь-141, iPio—цРю== = 131,5-^141,5. н Ао=1О, то Г,.=3/,=90 " Р„=131.54- 1=1 + 10 • (0,9 111 — 90)/18 = 137. Итак, 10% учащихся получили оценки выше 137 баллов. 1 3.4. МОДА Мода — еще одна средняя величи- на, используемая при анализе дан- ных. Если мы имеем дело с дискрет- ными данными, то мода представ- ляет собой наиболее часто встречаю- щееся значение. Как найти моду? 1. В распределении частот с ин- тервалом с, равным наименьшей разности между двумя числами ис- ходного ряда (с может быть равно и больше единицы), моду можно найти, просто просматривая распре- деление. Данные о длине булавок из табл. 2.4 и почасовой заработной плате из табл. 2.2 (но не из табл. 2.5) являются именно такими рас- пределениями. Из табл. 2.4 видно, t что мода для длин стальных була- вок равна Мо=250. Мода из табл. 2.2 равна 2,80; однако мода для тех же данных из табл. 2.5 может быт» получена только по иптерполяцион» ной формуле. 2. В других распределениях ча- стот для получения моды нужна применять интерполяционную фор- мулу. 3. Если существует сглаживаю- щая кривая, аппроксимирующая ди- скретные данные (см. рис. 2.8), то моду можно найти из графика. Если график достаточно точен, то, опу- стив перпендикуляр из его наивыс- шей точки на горизонтальную ось, получим в точке его пересечения с ней значение моды. 4. Чтобы найти молу в нспрерыв*] ной математической или вероятно! стной функции, можно вычислить первую производную (d/dx)[(x) и приравнять ее нулю. Решение этого уравнения даст значение моды. Тот, кто не знаком с дифференциальным исчислением, может просто нарисо- вать функцию и найти моду графи- феским способом, описанным в п. 3. Как уже отмечалось, если распре- деление частот таково, что интервал не равен Наименьшей разности мсж- ,.ду. двумя числами из исходного ря- да данных (случай, описанный в я. 2), то моду можно найти интер- поляцией. Часто используется сле- дующая интерполяционная фор- мула: Mo^fik + cdM + d'). Эта формула может быть выведена геометрически так, как это показа- но на рис. 3.4. 43
Рис. 3.4. Получение моды интер- поляцией (оценки по курсу «Ста- тистика»: данные взяты из табл, 2.6): »/в (модальная частота), fk .j-f^-12, Is*-12*1*5 (нижняя Ipаница группировки), иВй— uBe-131,5 верхняя граница группировки), с—(О, d-/A-/*_1-/e-f8-30-J2-l8, «T-f*- —ff, । —/|0™ЭО-16-12, Л ft'- цЯ*— Afo-jB^+o-Afo, так нак иВЛ“1ВД+С Высота прямоугольника в центре графика соответствует наибольшей частоте ffe=f8-=30 распределения, представленного в табл. 2.6. Если fk-i=fh+i, юв интерполяции нет не- обходимости и средняя точка мо- дальной группировки Хь может быть выбрана в качестве моды. В этом случае Мо=Хк- Если /*+!>• >fk-t, то Мо>Хк, или Хк<Мо< а если fh-i>fk+l, то Mq<Xk и iBh<Mo<Xh. Сама формула мо- жет быть выведена из подобия двух треугольников, для которых, как из- вестно, отношение высот равно от- ношению оснований: did' =hjh’. Заменяя h на Мо—tBk, а й' на uBk— — Мо, получаем d/d' = (Мо - - Мо), откуда Мо — (d\Bk-f-duBk)’(d +<?'). Поскольку uBh=iBh+c, то форму- ла может быть переписана в виде Mo=iBh+cdf (d+df). Подставив в нее соответствующие значения • из рис. 3.4, получим Мо= 121,5+ 10-18/30= 127,5. Как мы и ожидали, значение моды больше средней точки модальной группировки: Л$=126,5. В нашей за- даче целесообразно округлить полу- ченное значение. Тогда мы сможем сказать, что наиболее часто встре- чающаяся оценка—128 3.5. СОПОСТАВЛЕНИЕ СРЕДНИХ Симметрия и асимметрия. Преж- де чем приступить к сопоставлению средних, обсудим понятия «симме- трия» и «асимметрия» (скошен- ность). Представим себе кривую в двумерном пространстве, такую, как на рис. 3.5,а. Проведем линию / и перпендикуляры к этой линии. Если расстояния по перпендикуля- рам от / до пересечения с кривой равны, то кривая называется сим- метричной относительно /. Очевид- но, что кривая не симметрична от- носительно линии 2, Кривые на рис. 3.5,6, в симме- тричны относительно перпендикуля- ров к горизонтальной оси, которые пересекают кривые в точках макси- мума и минимума соответственно. Рис. 3.5- Примеры симметрии 44 лу ^z~^s %з
Рис. 3.6. Примеры скошенности Для обеих кривых высота кривой в точке равна таковой в точке Х3, если X.—Xi=Xe—Х3. Итак, сим- метричные распределения частот могут быть представлены, напри- мер, в следующем виде: xi h xi fl to 3 10 3 12 5 12 5 14 5 14 9 16 3 16 5 18 3 Если распределение частот имеет более или менее выраженный мак- симум и левый ряд относительно него несколько длиннее правого (рис. 3.6,а), то говорят, что распре- деление имеет скошенность влево. Распределение, изображенное на рис. 3.6,6, имеет скошенность впра- во. Итак, для случая, изображенно- го на рис. 3.6,a, X<_Md<Mo, а на рис. 3.6,5 — Mo<Md<X. Если ско- шенность не слишком велика, то, зная X и Md, можно оценить Мо. Из рис. 3.6,а имеем мо (№?;-*)• Из рис. 3.6,5 получаем Мо^&Х—ЗХ X (X—Md). В симметричном рас- пределении частот X—Md=Mo. Символ X используется здесь без- относительно от того, представляет ли распределение генеральную со- вокупность, выборку, данные экспе- римента или математическую функ- цию. Примеры сопоставления средних. Рассмотрим распределение частот длин стальных булавок, приведен- ное в табл. 2.4. Как мы уже знаем, оно построено по данным табл. 2.1, в которой каждое значение измере- но с точностью до одной тысячной дюйма. Следовательно, каждый ре- зультат должен быть округлен до трех значащих цифр ’. Промежуточ- ные результаты можно не округ- лять. Наименьшая разность между двумя числами равна с. Средняя точка Х=250,2 округляется до 250. Порядковый номер для медианы Ма равен 0,5-300+0,5=150,5. Таким образом, медиана попадает в седьмую группировку, и в качест- ве медианы можно взять среднюю точку Х7=250, так что Л(</=250. Применять в этом случае интерпо- ляционную формулу вряд ли имеет смысл, так как лл всегда округля- ется. Седьмая группировка является также модальной, и для нахожде- ния моды также нет необходимости в использовании интерполяционной формулы. Итак, после округления мы имеем X=Md=Mo. Располагая этим равенством, мы можем, не глядя на распределение, сказать, что распределение длин булавок симметрично. Конечно, распределе- ние выборочных данных никогда не будет абсолютно симметричным, можно говорить, что оно симме- трично приближенно. В распределении оценок по ста- тистике из табл. 2 6 имеем Х=110, Afd=118, Afo=128. Предположим на минуту, что вся информация о распределении сводится лишь к двум величинам — X и Md. Так как X<Md, то можно предположить, что распределение скошено влево. Предположим, что график поли- гона не слишком беспорядочен или не бимодален, и зададимся вопро- сом: можно ли считать скошенность умеренной? Другими словами, мож- но ли подсчитать моду по формуле Mo^X+3(Md—X)? Вычислим Х+ + 3(Md—X) =110+ 24=134. Если сравнить значение 134 с действи- тельным значением моды 128, то следует признать, что скошенность значительна. В распределении зарплат имеем Х=2,85, Afd=2,83. Поскольку Х> 1 Одна из лучших работ по методам округления — книга А. М. Tuttle. Elemen- tary Business and Economic Statistics. N. Y.: McGraw-Hill, ISTO. 45
Рис. 3.7. Сопоставление средних >Afd, то распределение скошено вправо. Оценивая моду по формуле X—3(Х— Md), получаем Мо= =2,85—3 (2,85—2,83) =2,79. Срав- нивая это значение моды с действи- тельным (2.8), приходим к выводу, что "распределение имеет неболь- шую скошенность вправо. С помощью рис. 3.7 рассмотрим другие моменты, касающиеся срав- нения средних. Частоты здесь рас- сматриваются в качестве грузов, размещенных на планке, на кото- рой нанесена шкала распределений. Эта планка имеет одну точку опо- ры. Если точку опоры поместить точно под средним арифметическим, то распределение сбалансировано. График на рис. 3.7,а симметричен. Добавим к этому распределению справа еще один грузик. Точка опо- ры сместится вправо, как это пока- зано на рис. 3.7,6. Мода па рис. 3.7,6 останется прежней. Медиана сдвинется вправо, но не так, как среднее. На рис. 3.7,в точка опоры также сдвигается вправо. Разновес добавлен здесь такой же, как на предыдущем рнсунке, но его распо- ложение таково, что лишь удлиня- ется существующая -п рис. 3.7,о вертикальная линия, а не добавля- ется новая. Из приведенных выше рассужде- ний ясно, что сравнение средних дает определенную информацию о неизвестном распределении. Ищу- щему работу лицу наниматель мо- жет предложить цифру, равную средней заработной плате, которая может показаться претенденту оп- тимистичной. Однако опытный че- ловек должен поинтересоваться другими средними. Когда студент спрашивает преподавателя о сред- ней оценке, то более полной будет его информация, если он наряду с средним арифметическим будет знать значение моды и медианы. При сравнении национальных дохо- дов двух стран цифры, показываю- щие доход на душу населения, ма- ло говорят о соотношении между бедными и богатыми. Более инфор- мативно сравнение трех средних. Мода и процентили часто исполь- зуются в социальных науках. При- менение среднего арифметического доминирует в промышленном про-. изводстве. Это не случайно. Боль- шинство данных, собираемых непре- рывно в промышленных фирмах для анализа или качественного кон- троля, например длины булавок, симметрично распределены. Поэто- му проблема скошенности здесь не рассматривается. Если все же стал- киваются со скошенностью, то эго не значит, что речь идет о возникно- вении социальной проблемы. Ско- шенность будет просто сигналом о нарушении производственного про- цесса. Однако проявление такого нарушения лучше измерять сдвигом среднего арифметического, чем сравнением медианы и среднего или моды и среднего. Информация о распределении, по- лучаемая из трех средних, часто бы- вает недостаточна. Необходимо иногда также вычислять значе- ние статистических характеристик, являющихся показателями рассея- ния (вариации) данных. Обычно это характеристики, компактно опи- сывающие величину вариации: ва- риационный размах, квартильные размахи (или размахи других про- центилей) , среднее отклонение, среднее квадратическое отклонение и дисперсия. Эти величины рассма- триваются в следующей главе.
3.6. ВОПРОСЫ И ЗАДАЧИ 3.3. Дано распределение частот Теперь учащийся умеет применять к наблюдаемым им эмпирически рядам различные статистические методы. Но в связи с этим возникает и много про- блем. Вероятно» наиболее серьезной из,них является неопределенность, которую Мож- но выразить двумя вопросами: правильно I ли я выбрал метод и корректны ли мои вычисления. К сожалению, единственный способ преодоления этих трудностей — накопление в многочисленных экспериментах собствен- ного опыта. Поэтому не следует отказы- ьаться . от упражнений» приводимых в книге. 3.1. Приведенные ниже распределения содержат небольшое число группировок, что упрощает вычисления: 1Ч—иЧ / •h 2 3 12—14 2 7 2 15—17 4 4 4 18—20 7 3 6 21—23 4 4 4 24—26 2 7 3 ULi h 0,0025—0,0039 21 0,0040—0,0054 42 0,0055—0,0084 57 0,0085—0,0134 54 а. Вычислите среднее, б. Можно ли упростить вычисление, умножая интервал группировок X* на 10 000, а затем полученное среднее раз- делив на 10 000? в. Покажите, что SfcX</jV=£p, где k — константа (например, 10 000). 3.4. Приведенное ниже биномиальное вероятностное распределение подробно рассматривается в гл. 5. Распределение име- ет два множества средних точек — одно, представленное Xt значениями» другое, вы- раженное в процентах р<» где =(Х</Хт) *100, а т —последнее значение Х< для f=L 2,...» m: Pi xi *"i а. Просмотрев распределение /, найди- те для него на глаз среднее арифметиче- ское» медиану и моду, б. Вычислите среднее, медиану и мо- ду для распределения вида 3 и сравните их с соответствующими значениями из рас- пределения 1. ' в. На сколько отличаются средние, ме- дианы и моды распределений / н 2? г. Какие из рассматриваемых распре- делений симметричны? Заметим, что аб- солютной симметрии в экспериментальных данных никогда не бывает. Однако ста- тистики могут использовать выгоды, вы* текающие нз знания факта симметрии, да- же тогда, когда распределение симметрич- но лишь приближенно, д Что нужно сделать, чтобы найги среднее распределение (3) с помощью формулы среднего для нес группированных данных ц=лХ i/Ar? е. Предположим, что распределение / представляет собой массу багажа (в фун- тах). Какова общая масса багажа? Сколь- ко мест насчитывает багаж? 3.2. Предположим, что имеется 5000 упаковок, средняя масса каждой нз ко- торых составляет 2,5 унаии. а. Какова суммарная масса? б. Рели на каждой упаковке указа ta масса 2,5 унции» то можно ли быть уве- ренным, что средняя всех масс равна точ- но 2,5 унции? в. Подставьте в формулу £Х<—.Vp данные нз рассматриваемой задачи. г. Зная, что X/i=5000? а р=2,5, най- дите Е/Л. 0 25 50 75 JOO 0,1296 0,3456 0,3456 0,1536 0,0256 1,0000 а. Вычислите Ux и б. Умножив на 100, определите f*. Округляя ft до одной десятой» снова вы- числите цх. Сравните результаты. в. Покажите, что W'iXi/Wi = для где k — константа (например, 100). Не отражается ли на значении сред- него переход от f< к f'\? 3.5* С помощью вычислений или на глаз найдите средние арифметические сле- дующих распределений. 1 2 3 x_i fi xl 1 fi _Zi_ h —2,4 4 —2 2 1,25 5 — 1,8 5 — 1 5 1,35 0 — 1,2 5 0 8 1,45 8 —0,6 3 I 5 1,55 4 0 J 2 2 1,65 1 0,6 I 1,2 1 47
Какие эмпирические данные могут со- ответствовать частотным распределениям вида / и 2? 3.6. Автомобильная компания закупи- ла у двух сталелитейных фирм металличе- ские заготовки для производства обойм подшипников. (Обойма подшипника имеет форму чашечки, в которую вставляются иголки для подшипников.) Масса заготов- ки имеет решающее значение при произ- водстве подшипниковых обойм. Ниже при- водятся две выборки масс стальных заго- товок (в г): сталелитейная фирма А 41,6 41,7 41,8 42,2 41.2 40,9 41,3 41,5 41,7 41,8 41,4 41,1 4L4 41,5 42,0 42,3 41,6 41,5 41,3 41,4 41,3 41,2 41,1 41,6 41,9 41,2 42,0 41,6 41.7 41.5 О-в Сам я США возраст, лет Числен ность 10» чел. Возраст, лет Числен- ность, 10»чел. <5 37С9 5 16 243 5-9 3244 5—14 24 429 10—14 2993 15—24 22220 15—19 2182 25 -34 23878 20—24 1444 35—44 21 535 25—34 2261 45—54 17 398 35—44 1844 55—64 13 327 45-54 1162 65-74 8432 55—64 672 75 и выше 3862 65 и выше 540 • 151 326 20051 г Примечание. Данные мнты кз источника tJS Bu- reeti of the Census. Stat 1stkfil Abstract of the United States, 1969. Wash. D. C., I9R9, p. 816. сталелитейная фирма Б 40,5 41,1 40,9 41,4 41,7 41,8 41Л 40,7 41>2 41,4 40,9 41.0 41,4 41,3 41,5 41.6 42,2 41,2 41.0 40.9 40,7 40.6 41,3 41.6 40,7 40,9 41,2 41,7 41.8 41.3 а. Вычтите из каждого числа 40,9, умножьте разность на 10 и постройте рас- пределения частот для двух выборок. б. Чтобы получить Ха и Хд, умножь- те обе средних на 0.1 н прибавьте 40,0. в. Покажите, что —Л)/л=Х—k, где п — размер выборки, a k — константа, равная, например, 40. г. Почему были использованы выбо- рочные средние? Замечание. Символы X. F. 2 исполь- зуются для обозначения как выборочных средних, так и средних теоретических н экспериментальных распределений. Интер- претация символа всегда очевидна из кон- текста. 3.7. Даны следующие два распределе- ния — возрастные группы населения США и острова Само'а в 1960 г. (см. ниже) а. Найдите две медианы. Почему ме- дианы столь различны? б. Определите долю (в %) населения возрастом старше 55 лет в обеих странах. в. Найдите Рг$ и для обоих рас- пределений. Попытайтесь интерпретировать результаты. г. Используя Fffi, начертите на одном и том же графике кумуляты вида сменыие чем». Найдите те же, что н в предыдущем пункте, процентили с помощью графика. Сравните результаты. 48 3.8. Ниже приводятся два следующих распределения- Денежный доход окончивших’школу (лица старше 25 лет после марта 1968 г.) Доход, долл. Средняя школа (4 гада) Колледж {4 года) I—1999 5,6 3.8 2000—3999 9.2 4.9 4000-6999 31,8 15,5 7000—9999 32,6 25.1 10 000—14999 16,2 29.4 >15000 4,6 21.1 100 100 а. Найдите медианы и моды для обо- их распределений и попытайтесь интерпре- тировать их. Что можно сказать о сим- метричности обоих распределений? б. Найдите Р25 и и попытайтесь интерпретировать результаты. Сможете ли вы найти для обоих распределений? 3-9. Читатель, наверное, заметил, что невозможно вычислить среднее для откры- тых с начадя или с конца распределений. Однако, если имеется дополнительная ин- формация в виде Ai из задачи 5 (см. гл. 2), то среднее найти можно. Используя эту информацию, вычислите среднее. ЗЛО. Средняя заработная плата в од- ном из отделений компании X— ^12 670 долл., а ЛП=11900 долл. Скоше- но лн распределение зарплат? Предполо- жив. что распределение умеренно скоше- но, вычислите моду.
ГЛАВА 4 ХАРАКТЕРИСТИКИ ВАРИАЦИИ ДАННЫХ 4.1. ВАРИАЦИЯ ДАННЫХ И ЕЕ ИЗМЕРЕНИЕ Конечной целью статистических расчетов является сопоставление по- лучаемых характеристик. Чтобы иметь возможность сопоставлять, необходимо располагать по мень- шей мере двумя наборами значений. Иногда, правда, анализу подверга- ется лишь одна совокупность дан- ных, после чего остается лишь один набор статистических характери- стик. Тем не менее в этом случае подразумевается, что для сопостав- ления есть некоторая базовая сово- купность, которая всем хорошо из- вестна. Результатами таких расче- тов оказываются только одна ме- диана, одно среднее арифметиче- ское, одна мода. Как правило, сопоставления про- водятся во времени или в простран- стве. Доход на душу населения в этом году можно сопоставить со средним доходом несколько лет на- зад, модальные расходы на поездки и путешествия э настоящее время можно сопоставлять с модальными расходами на то же самое в пред- шествующий период, сегодняшние оценки можно сопоставлять с оцен- ками, полученными студентами не- сколько месяцев или лет тому назад. Примером «пространственных» сопоставлений может служить срав- нение дохода на душу населения в одной стране с доходом на душу населения в другой стране; сравне- ненне оценок, получаемых учащими- ся в разных школах, или сравнение оценок, получаемых в какой-нибудь одной школе со средним по стране. В особенно широких масштабах пространственные сопоставления ис- пользуются в промышленности. При этом чаще всего приходится сравнивать средние арифметиче- ские, а также различные характе- ристики разброса и других величин, описывающих реальный процесс 4—232 производства, с техническими усло- виями. При этом возникают сред- ние длины, диаметры, массы, объе- мы, давления, всевозможные напря- жения, плотности и многое другое. Возникает важный вопрос: нужно ли для таких сопоставлений вычис- лять несколько характеристик на- бора данных или достаточно только одной? Часто ограничиваются вы- числением лишь одной статистиче- ской характеристики рассматривае- мого набора (или наборов) данных. Такой одной характеристикой мо- жет быть среднее арифметическое, мода или какой-нибудь процентиль. Иногда строят график или выписы- вают распределение частот. В других случаях набор данных описывают, используя несколько ме- тодов и несколько статистических характеристик одновременно. Гра- фики и распределения частот мож- но тогда вообще не использовать. При этом распределение частот можно описать, указав три его ха- рактеристики: 1) форму полигона; 2) одно или несколько средних зна- чений; 3) значение какой-нибудь характеристики вариации, или рас- сеяния, данных. 1. С учетом формы полигона рас- пределение можно классифициро- вать на колоколообразное, U-образ- ное, J-образное, прямоугольное ’ и др. Распределение может быть симметричным или скошенным. Однако специалист, который лучше знаком с математикой и статисти- кой, опишем форму графика в бо- лее точных терминах. Этого можно добиться, сравнивая полигон, обра- зованный данными наблюдении или экспериментов, с какой-нибудь из- вестной математической кривой или с кривой распределения веро- ятностей. Сделать это можно, на- 1 Прямоугольным распределением на- зывается распределение с равными часто- тами. т. е. распределение, для которого f l=fs==——f т- 49
пример, проведя несколько матема- тических кривых, приблизительно соответствующих данным, и выбрав затем из них ту, которая дает нз- * илучшее приближение. Как мы уви- дим ниже, такой подход имеет пре- имущества. 2. Когда распределение частот сим.метрично, вычисляют только одно среднее — обычно это среднее арифметическое (или же иногда медиана). Если же распределение частот скошено, то для того, чтобы учесть в процессе сравнения эту скошенность, приходится вычислять два или три средних. 3. Величина вариации данных является еще одной важной харак- теристикой, и для адекватного опи- сания набора данных результат ее вычисления следует добавить к пер- вой и второй характеристикам. Отметим еще раз, что, сравнивая два или несколько наборов данных, полученных в одинаковых ситуа- циях, но различающихся по време- ни наблюдения или по размещению, можно сравнивать между собой только средние арифметические или только характеристики вариации данных, или только формы кривых. Можно также проводить все эти сравнения одновременно. В таком случае обязательно приходится сталкиваться с характеристиками вариации. 4.2. ВАРИАЦИОННЫЙ И МЕЖКВАРТИЛЬНЫЙ РАЗМАХ Сначала мы обсудим проблему вариации, или рассеяния, или рав- номерности данных, не делая раз- личия между выборкой, генераль- ной совокупностью и эксперимен- тальными данными. Проблему рассеяния данных про- ще всего изучить на нескольких при- мерах. Пусть две машины — одна старая, другая новая—режут сталь- ную проволоку. Обе машины могут производить булавки, длина кото- рых в среднем равна 250-10-3 дюй- ма. Однако более старая машина работает с меньшей степенью точно- го стн, чем новая, и вариация значе- ний длин булавок, производимых ею, будет больше. Если распреде- ление частот О (длина булавок, производимых старой машиной) на- рисовать на одном графике с рас- пределением N (длин булавок, про- изводимых новой машиной), то оба они будут иметь одинаковую форму и одинаковое среднее значение. Почти единственным отличием бу- дет разница расстояний между хво- стами обоих распределений. Хвосты О будут находиться друг от друга на большем расстоянии, чем хвос- ты А/. Задачей инженера на производст- ве является, в частности, определе- ние тех границ, в рамках которых допустимо изменение характеристик тех деталей, из которых произво- дится сборка изделия. При сборке они должны подойти друг к другу. Детали, которые не подходят, при- дется переделать или выкинуть. Однако зачастую реальные возмож- ности производственного процесса не соответствуют техническим усло- виям. Именно поэтому инженер, мастер, браковщик, работник ОТК заинтересованы в измерении и срав- нении нормативом не только сред- них значений, но и величины вариа- ции соответствующих данных. Другой пример. Страховые ком- пании А и В выплачивают своим сотрудникам одинаковую среднюю зарплату, однако у работников компании В зарплаты более близ- кие по величине, чем у сотрудников компании А. Другими словами, ва- риация илн рассеяние размеров зарплаты в А больше, чем в В. Отметим, что как число служащих, так н фонд заработной платы в обе- их компаниях могут быть одинако- выми. При этом кадровая полити- ка, проводимая компанией А, мо- жет оказаться более успешной. Ис- пользуя дешевую рабочую силу для выполнения простых операций, она может позволить себе платить более высокую зарплату за выпол- нение более сложных заданий. Точно так же преподавателя
интересуют не только средние спо- собности учащихся, но и тот диапа- зон, в пределах которого они из- меняются. Вариация данных на- блюдается и в торговле. Конечно, объем продажи за один день в том или ином магазине молочных про- дуктов более или менее стабилен, но, например, число проданных в определенном магазине автомо- билей (за один день) может сильно варьировать. Цены на бензин в одном и том’ же городе могут быть одинаковыми на всех бензоколон- ках, в то время как стоимость холо- дильника одной и той же марки мо- жет сильно зависеть от места про- дажи. Две страны могут иметь оди- наковый средний доход на душу населения, но в одной из них раз- ница между очень богатыми и очень бедными может оказаться очень большой, тогда как в другой дохо- ды богатых и бедных будут более близки к некоторому среднему зна- чению. Как и в случае средних значений, проблема измерения вариации (рассеяния) данных требует реше- ния двух вопросов — о выборе под- ходящей характеристики величины вариации и о том, следует ли при получении этой характеристики ис- пользовать весь имеющийся набор данных (генеральную совокуп- ность) или стоит оценить эту харак- теристику вариации всей генераль- ной совокупности на материале той или иной выборки. Как и в преды- дущем случае, мы обсудим только первый вопрос; проблемы выбороч- ных оценок будут затронуты лишь с вычислительной точки зрения. Методика вычисления различных характеристик дисперсии данных будет рассмотрена на примере не- скольких небольших выборов экспе- риментальных данных. При этом мы не будем делать различия между выборкой и генеральной совокупно- стью. Такое различие будет сделано нами позднее. Простой, но часто используемой характеристикой диапазона измене- ния (вариации) данных является 4* разность между наибольшим и на- именьшим значениями (вариацион- ный размах) выборки. Если име- ются два или более набора данных, полученных в результате одинако- вых наблюдений, то можно для каждого из этих наборов вычесть наименьшее его значение из наи- большего и сравнить полученные разности. Например, размах длин булавок в табл. 2.1 равен /?= =Хп—Xi=256—244=12. Это значе- ние мы уже можем сопоставить с техническими условиями. Если эти булавки были приобретены у кого- то еще, то определение такой харак- теристики явится проверкой качест- ва полученного товара. Размах значений почасовых зара- ботков в табл. 2.2 равен R=Xn— —Xi=3,37—2,49=0,88, т. е. 88 цен- тов. Это значение можно сравнить с размахом почасовых заработ- ков в другом отделе, другой форме или со средним по стране. Размах оценок, по данным табл. 2.3, равен /?=145—43=102. Это значение вряд ли нужно с чем-нибудь сравнивать, поскольку каждый студент по свое- му собственному опыту знает, что разница в 102 единицы очень вели- ка. Тем не менее специалисту, ко- торый проводит более подробные исследования, может быть полезен и этот результат. Если задано распределение ча- стот, то величину размаха можно вычислить двумя способами. В том случае, когда наименьшая разность между парами значений, входящих в исходной список данных, равна интервалу группирования с, вели- чина размаха равна разности меж- ду последней и первой средними точками, т. е. R—Xm—Xi. Получен- ное таким образом по распределе- нию частот значение равно R, вычисленному по самим данным. Во всех прочих случаях наиболее ра- зумная оценка для R дается вели- чиной R=aLm—iLi, т. е. разностью между верхним пределом группиро- вания последнего класса и нижиим пределом группирования первого класса. Таким образом, значение R 51
Таблица 4.1. Вариационный и межквартвдьный размах для]случая несгруппированных данных Вариационный размах Х.=-4> -3 0, 2, 2, 4, 7 о I Ф-Э I I СН-ОКО-1.......1 э I ' —5—4-3—2-1 012345678 У, = 5, 6, 8, 9, 12, 12, 12, 13, 14 ® —I I I I I I ОФ I ОСИ—НФСХЭ+- -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 —----5----—=- R> = 14 - 5 = 9- -------------14-------------► Z. = 125. 126, 128, 129, 132, 132, 132, 133, 134 I I II } hv I I I t I I I -I I i ! <- -1 0 1 2 3 124 125 126 134135 125 —----------Й2 = 134 - 125 = 9—*- -*-------------134---------------*- Межкеартильный размах Для Xt N = 7 Для Q. п. =0,25-7 + 0,5= 1,75-RO.5=2,25, Q, = —3 + 0,25-10—(—3)] = —3 + 0,75= —2.25. Для Q3 «„ = 0,75-74-0,3 = 5,25'4-0,5 = 5,75, Q, = 2+0,75-(4—2) = 2 + 1,5 = 3,5. _ ' © I------------------Qt —I (DOj i l Ф i (D p(D i i CD I I— -5-4-3J-2-I 0 1 2 3 4 5 6 7 IRx = Q, - Q, = 3,5 -(- 2/25) = 5,75 F(=7I, 125, 126, 128, 129, 132, 132, 132, 133, 134, 221 Для (Г,- N = 11 Для Qt n0 = 0,25-11 4-0,5= 3,25, Q, = 126 + 0.25-(128—126) = 126.5. Для Q, n* = 0.75-11 +0.5 = 8,75, Q, = 132 + 0,75-(133 — 132)= 132,75, 7/?F = 6,25. Для Zi N = 9 Для Qi ne = 0.25-9 + 0,5 = 2,75, Q, = 126+ 0,75-(128—126) = 127,5. Д>я Q, n. = 0,75-9 + 0,5 = 7,25, Q. = 132 + 0,25.(133—132) = 132,25, 7R,= I32,25 — — 127,5 = 4,75, 52
для почасовых заработков, получен- ное по табл. 2.2, равно 0,88, а вы- численное этим способом по табл, 2.5 равно 0,99. Отметим, что не только размах,- но и все другие характеристики вариации данных имеют смысл только в том случае, когда значе- ния, по которым они получены, со- поставимы друг с другом, т. е. при- мерно одинаковы по величине, точ- нее, данные сопоставимы, если их средние значения не очень сильно отстоят друг от друга. Пусть, на- пример, в системе оценок, которой пользуется другой преподаватель, высшее число баллов — 350. Вполне возможно, что размах значений его оценок тоже равен примерно 100 единицам, так что в обоих случаях числовые значения /? приблизитель- но одинаковы. Тем не менее вряд ли можно утверждать, что вариация оценок в обоих случаях будет одной и той же. Если данные не сопоставимы, можно сделать следующее; 1) вместо вариационного или межквартильного размаха можно вычислять среднее отклонение или среднее квадратическое отклонение, которое затем преобразуется в ко- эффициенты вариации. Эти характе- ристики будут отвлеченными числа- ми, не зависящими от того, в каких единицах измерялись исходные дан- ные. Обычно их получают, деля зна- чение среднего отклонения или среднего квадратического отклоне- ния на среднее арифметическое сравниваемых данных; • 2) данные можно сначала под- вергнуть стандартизации и сделать таким образом сравнимыми. Один из способов стандартизации мы об- судим позднее в этой же главе. Межквэртильный размах опреде- ляется выражением IR—Q3—Qt Та- кая характеристика вариации дает разумные результаты в том случае, 'когда сопоставляемые данные, если их упорядочить по величине, имеют в нижнем или верхнем конце полу- ченного вариационного ряда или в обоих его концах так называемые выбросы. Распределение частот можно считать имеющим выбросы, если оно сильно скошено или имеет длинные и зигзагообразные хвосты. При этом выбросами считается от- носительно небольшое число значе- ний, которые выпадают из общего массива данных (т. е. слишком ве- лики или слишком малы по сравне- нию с подавляющим большинством чисел). В табл. 4.1 графически проиллю- стрированы эти две характеристики вариации в случае несгруппирован- ных данных и на рис. 4.1 для сгруп- пированных данных. Следует обра- тить внимание, например, на вычис- ление размаха для величин Xi и сравнить вариационный и межквар- тильный размах для наборов велй- чин Zi и Wi в табл. 4.1. Ряд W, да- ет пример набора данных, имеюще- го выбросы относительно основной массы значений. Ка к правило, межквартильный размах чаще используется в зада- чах, касающихся экономических и Рис. 4.1 Вариационный (в) и межквартильный (б) размахи (данные взяты из табл. 2.4) 53
социальных проблем. Размах как характеристика вариации данных применяется преимущественно в за- дачах, связанных с измерением тех или иных величин в процессе про- мышленного производства, а также в задачах теоретического характе- ра. .Главная причина этого заклю- чается в том, что величины, с кото- рыми приходится сталкиваться в процессе промышленного производ- ства, изменяются от измерения к из- мерению постепенно и равномерно, а распределения частот обычно являются симметричными. 4.3. СРЕДНЕЕ И СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЯ По сути дела, между средним и средним квадратическим отклоне- ниями нет большой разницы, по- скольку они характеризуют рассея- ние данных через отклонения от- , дельных значений имеющегося ряда от среднего. Мы будем вводить эти понятия, иллюстрируя их на приме- ре экспериментальных данных, при- веденных в табл. 4.2. Мы включили в нее три набора дискретных пере- менных— Xi, Yi, Zi и ряд постоян- ных величин, причем по порядку значения все они сопоставимы друг с другом. Более того, во всех четы- рех случаях среднее значение оди- наково, а именно X=Y' = Z —А = 12. Заметим, что величину вариации данных в каждом из рядов можно в некотором смысле просто «уви- деть». Действительно, наши ряды содержат мало членов, а разница между ними, с точки зрения вариа- ции данных, довольно значительна. Наибольшую вариацию имеют дан- ные Х(, а для А она равна нулю. Это наблюдение подтверждается и значениями размахов, приведенны- ми в табл. 4.2. Отметим, что исполь- зовать в данном случае размах в ка- честве характеристики вариации вполне уместно, поскольку ни одни из рядов не имеет выбросов. 4.3.1. Среднее отклонение Как вариационный, так и меж- квартильный размах измеряют ве- личину вариации данных через раз- ность всего лишь двух чисел ряда или распределения частот. Чтобы получить характеристику, которая будет учитывать все значения пере- менной, можно из каждого числа вычесть некоторую постоянную. Эту постоянную можно выбрать произ- вольно или использовать в качестве нее одно из средних значений (обычно берут среднее арифметиче- ское). Таким образом, мы получим столбцы (Хё—X), (У/—F) и (Zi—Z). Разумеется, (Л—А)=0. Таблица 4,2. Вычисление среднего значения и среднего квадратического отклонения xi i/r31 lXf— A) Yi Ir.-Pi (У-Г). 2. IZ^-Zl (Z-Z)* A 7 5 —5 25 12 0 0 0 11,4 0,6 -0.6 0,36 12 3 9 ' -9 81 14 2 .2 2 12.3 • 0.3 0,3 0,09 12 11 1 —1 1 13 , I 1 1 11,8 0,2 —0,2 0,04 12 8 4 —4 16 11 1 1 — 1 12.8 0.8 0.8 0.64 12 20 8 8 64 8 4 4 —4 12.3 o,3 .0,3 0,09 12 21 9 9 81 17 5 5 5 11.9 0,1 —0.1 0,01 12 14 2 2 4 9 3 3 —3 11.5 0,5 —0.5 0,25 12 Примечание. R^ — 18. Ry = 9. R^ = 1,4. RA = 0; MD— £ J % — X |/1V;' — 5,4, MDy — 2.3. MD? — = 0,400, MDa = 0; = Z(Xt- XYIN; = 38.9. « 8>o. = 0.2Ц4. a* = 0; i Ojf = 6,2. = 2,8. = 0,460. a, = 0. 54
Величину вариации, или рассея- ния, данных можно после этого оце- нить, сравнивая абсолютные значе- ния полученных разностей. Другими словами, сравним друг с другом но- вые переменные: (X,—X), (Т;—У) и (Z,—Z). Легко видеть, что пере- менная (X;—X) принимает самые большие, а переменная (Z,—2} — самые маленькие значения. Отсюда можно сделать вывод, что решение X,, выраженное набором величин (X;—X), больше, чем в двух других случаях. Чтобы получить в качестве харак- теристики вариации одно число, можно вычислить среднее арифме- тическое каждою из наборов новых переменных: (X,—X), (У1—F) и (Z,—2). Эти величины называются средними отклонениями от средне- го значения соответствующего типа. Возникает лишь одно осложнение. Если буквально вычислить среднее арифметическое по формуле М£)= =Е(Х.—X) /.V, то независимо от то- го, каковы значения X/, получится нулевой результат. Действительно, 2(Х,-—Х)=0, так как 2 (Л\ - X) = SXf ~2Х — 2Х< — - 2 (2X.-/X) = 2Xt - N {2.XJN} = Поэтому, чтобы избежать такой си- туации и получить содержательную характеристику среднего отклоне- ния, следует вместо разностей меж- ду отдельными величинами и неко- торой постоянной использовать аб- солютные значения этих разностей. Абсолютные значения обозначаются вертикальными линиями. Тем са- мым формула для среднего откло- нения от некоторого среднего при- обретает вид; МД = 21 Xf - X | В качестве постоянной, которая вычитается из значений X,. можно использовать и медиану. В этом случае среднее отклонение от ме- дианы равно iWD'=^2|X,--AM|W. Следует иметь в виду, что эта и другие подобные статистические ха- рактеристики называются также характеристиками рассеяния, или вариации, относительно выбранной постоянной величины, или отклоне- ниями от этой величины. Для распределения частот сред- нее отклонение можно вычислить, вычитая выбранную постоянную из значений средних точек интерва- лов— |Х;—Х|, умножая затем эти разности на соответствующие им частоты — f,|X*—Х|, складывая все полученные произведения — 2/t X X |Х,-Х] и деля эту сумму на пол- ное число всех наблюдений Zf». В результате получим AfD=2fi|Xf-X|?2fi. 4.3'2. Среднее квадратическое отклонение Если вычесть постоянную из зна- чений переменной (X;—X), возвести полученные разности в квадрат — (Xi—X)2, сложить — 2 (X,—X)2 и разделить на число значений этой переменной, то получится иная ха- рактеристика вариации данных, ко- • торая носит название дисперсии: ^--=2{Xi-X)i;:N. Квадратный корень нз дисперсии о=/* 2(Х,-Х)*/Х называется средним квадратическим отклонением (или стандартным от- клонением). Обе эти характеристи- ки широко используются в теоре- тической и прикладной статистике. В теоретической (что обычно явля- ется синонимом математической) статистике величинам о2 и о отдают предпочтение перед характеристи- кой MD, поскольку ими удобнее пользоваться при алгебраических действиях, а также в связи с тем, что они подобны некоторым мате- матическим понятиям, разработан- ным в ряде технических наук. На- пример, в математической статисти- ке среднее арифметическое называ- 55
ется первым моментом относитель- но начала координат, а дисперсия— моментом второго порядка относи- тельно среднего арифметического. Дисперсия вычисляется по задан- ному распределению частот следую- щим образом, вычтем среднее ариф- метическое из значений средних то- чек интервалов—(X,—X), возве- дем эти разности в квадрат — (X,—X)2, умножим на соответст- вующие частоты—//(Х/—Х)2, сло- жим все полученные величины — —X)2 и разделим сумму на полное число элементов распределе- ния частот: Sn (Хх -’*)• _ Efi (X, - X)» и В результате получаем для диспер- сии следующую формулу: _ SMX< -7)» _sfl (X, -Т)« * - — Ef/ ~ N где Zft—N. Тогда среднее квадра- тическое отклонение равно % (Хг— X)» Коэффициент вариации. В том случае, когда приходится сравни- вать (во времени и пространстве) данные двух или более наборов пе- ременных с точки зрения вариации, они, как правило, сопоставимы на большей части рассматриваемого периода. Напомним, что с сопоста- вимыми данными приходится иметь дело чаще в промышленности, чем в общественных науках. В промыш- ленности данные, описывающие те или иные результаты измерений, ла- ются обычно в сопоставимых едини- цах. Если компания приобретает какой-нибудь продукт у нескольких поставщиков, то его спецификации, как правило, почти одинаковы. С другой стороны, системы оценок, зарплата, оклады, доходы, цены и другие величины очень часто выра- жаются в различных единицах из- 56 мерения и поэтому не сопоставимы друг с другом В наших курсах «Статистика» и «Исследования опе- раций» оценки сравнимы, поскольку их среднее не очень сильно отлича- ются друг от друга и, следователь- но, нет необходимости вычислять коэффициенты вариации. Если име- ются два или три набора стальных болтов и требуется сравнить раз- брос их длин, то для этого не пона- добится вычислять коэффициент ва- риации. В то же время нетрудно найти двух преподавателей или две школы, системы оценок которых различны. В этом случае сравни- вать одного преподавателя с другим (или одну школу с другой) можно лишь после того, как их системы оценок будут сделаны сопостави- мыми. Коэффициент вариации и служит для сравнения двух или более на- боров данных, отличающихся по по- рядку значения величины. Этот ко- эффициент вычисляется очень про- сто: достаточно разделить среднее квадратическое или среднее откло- нение на среднее значение соответ- ствующего набора данных. Генеральная совокупность и вы- борка. Может оказаться, что содер- Таблица 4.3. Вычисление среднего кНадратического отклонения (случай весгруппированных данных) X/-V X-X (Л-(. - |ЛГ - Л')* 2,92 0,01 0.0001 3/’5 0,14 0.0196 2,75 —0,16 0,0256 3.25 0,34 0.1156 2.59 0,32 0,1024 3J7 0,26 0,0676 2,85 —0.06 0,0036 2,72 —0,19 0,0351 2,89 —0,02 0.0002 26,19 0,3710 Примечание. * (Х£ - р)> У ^0.04122 — 0.203; $ = Fo.(H6375 =0-2||>-
Та'блица 4.4. Вычисление среднего квадратического отклонения (почасовые ставки заработной платы 303 промышленных рабочих) xl h * 1 -| (Xj-X)* Iff (X-X)' ai Ml I 2 3 4 5 6 7 S 2.495 10 — 0,356 0,126736 1,2674 — 3 — 30 90 2,595 25 — 0,256 0,065536 1,6384 — 2 — 50 100 2,695 1 57 — 0,156 0,024336 1,3872 — 1 — 57 57 Xt = X. = 2,795 74 — 0,056 0,003136 0,2321 0 0 0 2,895 58 0,044 0,001936 ’ 0,1123 i 58 58 I 2,995 34 0,144 0,020736 0,7050 2 68 i36 3,095 17 0,244 0,059536 1,0121 3 51 153 3,195 14 0,344 0,118336 1,6567 4 56 224 3,295 11 0,444 0,197136 2,1685 6 6 275 3,395 3 0,544 O-, 295936 0,8878 6 18 108 ’303 • 1i,0675 169 1201 V N <з (генеральная совокупность) II 111 Ef; (X/ - X)» -1 (X, - X)’ Ef( = zi (выборка) (Sf,) (£M%-) - (£/,<)« (£Л) (Sfi - 1) WEf,-d\- - n (n — i) n— J IV — 0,1 ,059.’ 303/ = 0,1/3,9637 — 0,3111 = ='0,1 /з,6526 =ь 0, i (l,9i 12) = 0, >911 Zh № - X)» n— 1 /11,0675 Г 302 = "/0.036664735 = 0,1914 V -* = c п£[^ - o . n(n-l) "0J /(303) 1 201 — 28 561 _/335 342 _ 303.(303—>) -°-1/ 91506 = 0,1 /3,664669 = 0,1.1,91434 = 0,1914 Примечание Данный взггы из табл . 2.5, 57
жащиеся в табл. 2.1 и 2.4 данные о длйнах 300 болтов выбраны из значительно большей генеральной совокупности (насчитывающей, на- пример, 10 000 значений). Точно так же 303 значения, приведенные в табл. 2.2 и 2.5 и представляющие собой значения почасовых ставок заработной платы, могут быть всего лишь выборкой из некоторой более обширной платежной ведомости. В таком случае полученные нами на материале этих выборок средние квадратические отклонения могут рассматриваться только как оценки «истинных» средних квадратических, отклонений, характеризующих обе генеральные совокупности. Как мы уже знаем, среднее арифметическое как для произвольной выборки, так и для полной генеральной совокуп- ности вычисляется по одной и той же формуле. В случае дисперсии или среднего квадратического от- клонения это не так. Если нужно вычислить дисперсию для всей гене- ральной совокупности, то сумму квадратов отклонений надо разде- лить на а при вычислении дисперсии набора выборочных дан- ных— на п—\=£fi—I. Эта разнйца хорошо видна в табл. 4.3 (для случая несгруппиро- ванных данных) и в табл. 4.4 (для распределения частот). В II части табл. 4 4 а — среднее квадратиче- ское отклонение для всей генераль- ной совокупности, s — среднее квад- ратическое отклонение для выбор- ки. С помощью двух формул из II части табл. 4.4 в IV и V частях вычислены (для о и $ соответствен- но) средние квадратические откло- нения данных о почасовых ставках заработной платы из I части. При этом одни и те же данные частот- ного распределения I части в пер- вом случае считаются генеральной совокупностью, а во втором — вы- боркой из нее. Отметим, что в обо- их случаях (и для о, и для $) чис- лители вычисляются одинаково. В связи с тем, что в формуле, соответствующей выборочным дан- ным, знаменатель на единицу мсиь- 58 ше, значение s несколько больше значения о. В том случае, когда п велико, эта разница не очень су- щественна (сравните значения 4 и о в табл. 4.4). Если, однако, п мало (например, около 10), разница бу- дет довольно заметной. Поэтому, вычисляя s и $2 по выборочным данным, не следует забывать, что в знаменателе должна стоять вели- чина п—1, а не п. Причины такого различия между выборкой и гене- ральной совокупностью станут по- нятны несколько ниже. Можно ли использовать формулу, соответствующую несгруппирован- ным данным (т. е. формулу о = = У 2 (Х] — р-)*/М- ДЛЯ вычисления среднего квадратического отклоне- ния в случае сгруппированных дан- ных? Ответ на этот вопрос положи- телен. Достаточно лишь переписать в виде числового ряда средние точ- ки частотного распределения, при- веденного в табл. 4.4. При этом чис- ло 2,495 надо повторить 10 раз, число 2,595—25 раз и т. д., после чего уже можно использовать на«пу формулу для несгруппировачных данных. Формулы для быстрого счета. В III части табл. 4.4 приведены формулы для быстрого вычисления о и s. Их можно получить так же, как показано в разд. 3.2 при выво- де формулы для быстрого вычисле- ния среднего арифметического. За- метим прежде всего, что величины с, fi и нам известны. Чтобы по- лучить остальные члены, обозначим через Хс- какую-нибудь из средних точек Xi (лучше всего — среднюю точку модального класса Л\). Вве- дем новую дискретную переменную di, описывающую число единиц от- клонения от Хь=Х0. При этом dk==0 (см. столбец 6 табл. 4.4). Вычислим теперь величины fidt и fid2/, просум- мируем их и подставим полученные суммы в формулу из III части табл. 4.4. Формулу для ускоренного вычис- ления дисперсии о2 (или з2) получа- ют возведением в квадрат соответ-
ствующей формулы из III части, а именно: Второе вычисление IV части дает 3»= = 0,01 -3,652 = —0,03652. Разумеется, ту же вели- чину можно получить, и возводя в квадрат величину о=0,1911. Формулы быстрого счета особен- но полезны в том случае, когда у нас нет счетной машинки и необ- ходимо быстро, но «вручную» вы- числить соответствующие характе- ристики. Они еще более удобны тогда, когда для какого-нибудь на- бора данных необходимо вычислить одновременно и среднее арифмети- ческое, и дисперсию (пли среднее квадратическое, отклонение). С та- кой ситуацией приходится сталки- ваться довольно часто, и очень важ- но, что для получения обеих харак- теристик по данным табл. 4.4 до- статочно использовать только три ее столбца, а именно: 6, 7 и 8, по- скольку где "Zfidi — просуммированная по i дискретная переменная /Д из столбца 7. Еще одна формула, полезная для вычисления дисперсии, выглядит так: В математической статистике эту формулу выводят с помощью (п в терминах) моментов. Здесь мы докажем ее, пользуясь непосредст- венно определением дисперсии. Обозначая для удобства р через X, имеем Sfi Eff Efz . OySf,Z,- । y, Eft “ sf.- “ "гл Sf' = “ Sfi _ yt MM \« Л — £f, — Eh ) • Учитывая, что %fi=N, эту формулу можно переписать в виде Соответствующая формула для среднего квадратического отклоне- ния будет иметь вид: Чтобы получить формулу для дис- персии выборки, необходимо заме- нить Л' на п и умножить всю фор- мулу на п/(п—1). Таким образом, г _ Г №Ll VI n L « V n J J <«— 0 “ _ nEfjX^ _ n /SfjXf у _ n(n — 1) (л — 1) n J _ tXfiXb _ n 8 _ n(n—1) {n— 1) n* _ (Eft*.)8 n(n— 1) П(Л— I) fnShA8,' - (£h-Xt-)*| л(«—1) И s= (л - 1). Заметим, что по своей структуре эта формула и формула для бы- строго счета (выражающая диспер- сию через величину di) похожи друг на друга. В обоих случаях величи- ны X, являются средними точками частотного распределения. Отметим, кроме того, что как исходные, так и только что полученные формулы применимы к распределениям ча- стот как с равными, так и с нерав- ными интервалами группирования. В то же время формулы, в которые входит величина di, годятся только для распределений с равными ин- тервами группирования. Приведен- 59
ные выше формулы удобны также для расчетов с помощью простых настольных калькуляторов. Для удобства сведем формулы в табличку: нить друг с другом. Тем не менее» взятые вместе с другими статисти- ческими характеристиками среднее квадратическое отклонение и ди- сперсия дают возможность описать. Для генеральной совокупности Для »ь#5орки Несгруппированные данные Сгругширова иные данные ; (Хг-X) п (п — I) с n£[iX*i - (£ЬХ,.)а (Ef,) lEfi - .) — с л (л — I) Чтобы получить дисперсию (гене- ральной совокупности нлн выбор- ки), следует возвести правую часть соответствующей формулы в квад- рат. Очевидно, что для этого доста- точно опустить знак радикала (в каждой из формул, кроме послед- ней, где следует, помимо того, воз- вести в квадрат величину с). Дополнительные сведения о сред- них и о характеристиках вариации данных можно найти в книгах Юла и Кендалла, Крокстона, Каудена п Клейна * и др. Как показано выше, среднее ква- дратическое отклонение и диспер- сия используются для описания ва- риации двух или более наборов данных, которые необходимо срав- 1 Udny Yule G, Kendall M. G. Al In- troduction to the Theory of Statistics. f'. Y.: Hafner Publishing Co., 1950. Croxton I. E., Cowden D. J., Klein S. Applied General Statistics, Englewood Cliffs. N. Y.: Prenti :e- Hall, 1967. 60 свойства и какого-нибудь одного частотного распределения. В следующем разделе будет рас- смотрено еще одно важное приме- нение характеристики среднего квадратического отклонения, а именно — методика стандартизации данных. 4.4. СТАНДАРТИЗАЦИЯ ДАННЫХ Стандартизация несгруппирован- ных данных. Рассмотрим следую- щую ситуацию. Имеются три препо- давателя: X, У и №. Число студен- тов у них одинаково, но они ис- пользуют разные системы оценок. В связи с тем, что эти оценки отно- сятся к трем частям одного и того же курса, хотелось бы иметь воз- можность "сравнивать их друг с дру- гом. Как это можно сделать, пока- зано в табл. 4.5. В I части таблицы приведены исходные оценки, в II ча- сти — их отклонения от среднего
Таблица 4.5. Стандартизация несгруппнрованных данных I II III IV ’ Х1 V. Х1~^х XZi 1 1*1 V*l loo-j-io^l ioo+iOj.Z/1 ioo+io^z. 69' 168 36 1.8 —0.4 —3 0.27 —0,03 — 1,1 102.7 99,7 • 89 70 190 44 2,8 21.6 5 0.42 1,43 1,8 104,2 114,3 118 77 147 37 9.8 —21j4 —2 L48 — 1,41 —0,7 114,8 85,9 93 62 158 38 —5,2 — 10,4 — 1 —0.79 —0,69 —0.4 92,1 93,1 96 58 179 40 —9.2 10,6 1 — 1,39 0,70 0.4 86,1 107,0 104 Пртшечаяне. VjfS=57.2 . |»г=168.4. ji,r=39.0; ML Я},- 15.13» A2 i = >'ex. ^i^y' (соответствующего набора оценок). В III части величина z показывает, какую долю эти отклонения состав- ляют от средних квадратических отклонений каждого из трех набо- ров оценок. Эти данные можно счи- тать сопоставимыми Следует иметь в виду, что в при- ложениях вместо, например, z=l,48 часто пишут 2=1,48а. Это означает, что значение X., которое соответст- вует значению вычисленному по общей формуле zi=(Xi—ц) /о, боль- ше среднего на величину, в 1,48 ра- за большую среднего квадратиче- ского отклонения. В том случае, когда z=—0,79 (или z=—0.79о), соответствующее значение X мень- ше среднего на величину, равную 0,79 среднего квадратического от- клонения. Поскольку ни один из трех набо- ров данных не содержит выбросов, разумно вычислить вариационные размахи, что даст возможность еще лучше представить, насколько су- щественно указанные наборы отли- чаются друг от друга. Легко ви- деть, что J?zx=l,48— (—1,39) =2,87 средних квадратических отклоне- ний; /?zr=l,43— (— 1,41)=2,84о, Rzw=1,8—(—1,1)=2,9о. Теперь уже вполне очевидно, что в дейст- вительности разница между тремя системами оценок не так велика, как это может показаться на пер- вый взгляд. Предположим, что человек, мало знакомый со статистикой, будет сравнивать вариации оценок с по- мощью характеристики среднего квадратического отклонения. Он получит следующие значения: аА= =6,6, оу=15,1 и aw—2,8, и если он не вычислит после этого коэффи- циенты вариации, его выводы будут сильно отличаться от наших и ока- жутся совершенно неверными. Если результаты процедуры стан- дартизации нужно представить ли- цам, незнающим, что такое среднее квадратическое отклонение, можно сделать еще одно преобразование (см. IV часть табл. 4,5), где значе- ния приводятся к одной общей для всех трех преподавателей стандарт- ной системе оценок. Стандартизация сгруппированных данных. Пример стандартизации сгруппированных данных приведен в- Т э_б л и п а 4.6. Стандартизация сгруппированных данных (длины стальных булавок) 1 xl г 3 X^p. — l а 4 h 5 - J«_ 4 - 244 —Г>,2 —2,445 4 0.0133 245 —5,2 —2,050 5 0,01667 246 -4,2 — 1,655 11 0,03667 247 -3.2 — 1,260 16 0,05333 248 —2,2 —0,865 42 0,14000 249 —1,2 -0,470 42 0,14000 250 —0,2 —0,075 56 0,18667 251 0,8 0,320 33 0,11000 252 1,8 0,715 41 0,13667 253 2,8 1,110 17 0,05667 254 3,8 1.505 14 0.04666 255 4,8 1,900 11 0,03667 256 5,8 2,295 8 0,02666 300 1.00000 Пряшечавме. Данные взяты нвтзбл. 2.4; > = 2Ю,2^ а — 2^3. 61
Таблица [4.7. Стандартизация сгруппированных данных (почасовые ставки заработной платы) I 14 ~ и4 2 3 (14 —1*1 (и4 — •*) 1 4 1*7 — у. . а 5 — ~~ Н II 1 X Q п 1 т 7 fi о 2,45—2,54 2,495 (—0,40) —(—0,31) —0,35 (—2,093) — 1.622) —1,858 10 2.5Б--2.64 2.595 (—0,30) — (-0,21) —0,25 (—1,570) —(—1,099) 1,334 25 2,65—2,74 2,695 (—0,20) —(—0,11) —0,15 (-1.047) — (—0.576) 0,811 57 2,75—2,84 2,795 (—0,10)—(—0,01) —0,05 (—0,523 1—(—0,052) 0,288 74 2,85—2,94 2,895 (0,00)— 0,09) 0,04 (0,000 — (0,471) 0,235 58 2.95—3,04 2,995 (0,10) —(0,19) 0,14 (0,523) — (0,994) 0,759 34 3,05—3,14 3,095 (0,20) — (0.29) 0,24 (1,047) -(1,518) 1,282 17 3,15—3,24 3,195 (0,30) —(0,39) 0,34 (1,570 1 —(2,041) 1,805 14 3,25—3,34 3.295 (0,40)—(0,49) 0,44 (2,093 1—(2,564) 2,229 И 3,35—3,44 3,395 j (0,50)—(0,59) 0,54 (2,616) — (3,087) 2,852 3 Прямечакае. Данные взяты из табл. 2.5 И 3.2; и = 2.85. я = 0,1911. 303 табл. 4.6 и 4.7. С помощью анало- гичной процедуры можно преобра- зовывать и другие наборы данных. Все, что для этого необходимо,— это вычислить величины zt= = (Xt—ji)/о и затем построить рас- пределение частот для значений г. Но поскольку в любом случае все равно необходимо построение рас- пределения частот, то лучше преоб- разовывать распределение, чем са- ми исходные данные, ввиду того, что это менее трудоемко. Значения z приведены в столбце 3 табл. 4.6 и в столбце 6 табл 4.7. Как и ранее, значения z можно рассматривать как метки на гори- зонтальной оси. При этом любое значение z можно интерпретировать как число единиц среднего квадра- тического отклонения, на 'которое соответствующее значение X отли- чается от среднего. Например, чис- ла £7=1,282 и f?=17 в распределе- ниях, представленных в табл. 4.7, можно интерпретировать как 17 чи- сел, каждое из которых больше среднего на величину, в 1,282 раза превышающую среднее квадратиче- ское отклонение. Точно так же пару чисел г4=—0,288 и f4=74 следует понимать как то, что 74 числа из нашего набора меньше среднего на величину, составляющую 0,288 среднего квадратического отклоне- ния. Последовательные этапы процес- са стандартизации наглядно проил- люстрированы на рис. 4.2—4.4. На рис. 4.4 кривые тоже недостаточно хорошо накладываются друг на друга, несмотря на то, что суммы Отклонение игл т Длина бу лайки, средней длины, Ю дюйм дюйм Рис. 4.2. Стандартизация данных (длины булавок) 0 3.295 -&J5 OJ* 0№ Z.595 ЗД95 Птклпнение от Почаеодая средней стадии, долл, стайка. долл. Рис, 4.3. Стандартизация данных (почасо- вые ставки заработной платы; данные взя- ты из табл. 47) €2
-z -1 О 1 Z 3 Отклонение от среднего* средние квадратические отклонения Рнс. 4.4. Стандартизация сгруппированных данных (длины булавок н почасовые став- ки заработной платы; данные взяты нз табл. 4.6 н 4.7): / — 303 ставки заработной платы промышленных рабочих; 2— 300 длин стальных булавок частот этих двух распределений практически одинаковы (300 и 303). Дело в том, что рассматриваемые распределения различаются по чис- лу группировок (содержат 13 и 10 группировок соответственно). По- этому частоты нз табл. 4.6 и 4.7 при- ходится преобразовывать — сначала в величины f"i, а затем — в величи- ны f'i, в результате чего получают- ся графики, построенные на рис. 4.5. Вообще в подобных случаях (когда два набора данных содержат прак- тически одинаковое число наблюде- ний) проще сначала провести стан- дартизацию исходных данных, а за- тем построить два распределения частот с одинаковым числом груп- пировок. В этом случае уже нет -Z 1.5 -I -0.5 О О.5 / 1,5 2 2,5 Отклонение от среднего* средние квадратические отклонения Рнс. 4.5. Стаадартизацня сгруппированных данных (длины булавок н почасовые став- ки заработной оплаты; данные взяты из табл. 4.5 и 4.7; расчеты значений \fi— *=f”t/c не приводятся): / — 300 длин стальных булавок: 2 — ЭОЗ ставки заработной платы промышленных рабочих необходимости пересчитывать ча- стоты. С учетом этих и других проблем, возникающих в процессе стандарти- зации, можно сформулировать не- сколько упрощенных правил: 1) стандартизацию данных имеет смысл проводить в том случае, ког- да сопоставляемые данные разли- чаются по порядку значения; 2) если все сравниваемые наборы данных содержат примерно одина- ковое число элементов, лучше стан- дартизировать сами исходные дан- ные, а не распределения частот. Стандартизация исходных данных обеспечивает возможность построе- ния распределений частот с одина- ковым числом группировок, что исключает необходимость дополни- тельного пересчета частот; 3) при рассмотрении процедуры стандартизации было показано, что стандартизация средних точек и границ группировок еще не гаран- тирует нам сопоставимости частот:. а) в том случае, когда числа группировок (или средних точек) одинаковы, а суммы частот различ- ны, достаточно перевести эти ча- стоты в частости; б) если число группировок не- одинаково, частоты подлежат пере- счету независимо от того, равны их суммы между собой или нет. В частности, если необходимо постро- ить графики распределений, часто- ты следует сначала перевести в ча- стости, а затем вычислить значения f'i. Тогда частоты будут представ- лены не высотами, а площадями соответствующих прямоугольников. Если график нам не нужен, доста- точно провести стандартизацию средних точек и границ группиро- вок. Этими правилами мы воспользу- емся в гл. 5, когда будем подбирать нормальную кривую, лучше всего описывающую опытные данные, а также в гл. 7 при сопоставлении данных эксперимента. В связи с изложенным читателю, по-видимому, будет полезно вычис- лить средние и средние квадратиче- 63
ские отклонения распределений, приведенных в столбцах 3 и 4 табл. 4.6 и 6 и 7 табл. 4.7. При этом сред- ние значения должны получиться равными нулю, поскольку в форму- лу входит член 2(Х;—р), а как мы уже знаем, 2(Хг—ц)=0. Кроме то- го, как уже известно, среднее квад- ратическое отклонение должно ока- заться равным единице. С помощью известного нам прие- ма все содержащиеся в этом разде- ле данные распределений частот можно привести к оценкам по еди- ной стандартной шкале. При этом новые средние точки Xi вычисляют- ся по формуле *(=100+ 10й. На- пример, для распределения, приве- денного в столбцах 3 и 4 табл. 4.6, мы имеем: *i=100-|-10-(—2,455) = =76, *2=100+10- (—2,050)=80 и т. д. Разумеется, определяющие новую шкалу значения 100 и 10 можно заменить любыми подходя- щими числами. Вычисление процентилей по стан- дартизированному дискретному рас- пределению вероятностей. Стандар- тизированные распределения часто- стей (для которых'2/"/= 1) можно использовать как распределения ве- роятностей. Они могут быть и ди- скретными, и непрерывными. Важ- ным примером непрерывного рас- пределения вероятностей, когда на горизонтальной оси откладываются значения г, является нормальное распределение. Позднее мы изучим его подробно, а сейчас рассмотрим лишь несколько упражнений, имею- щих отношение к вычислению пло- щадей под нормальной кривой. Рассмотрим дискретное распреде- ление, приведенное в табл. 4.6 (столбцы 3 и 5), и будем считать, что исходное распределение нам не известно. Известно только, что р= =250,2, о=2,53 и *=300. Попыта- емся ответить на несколько во- просов. Каково значение X (длина булав- ки), при котором 25% булавок бу- дут иметь длины, меньшие X? Чтобы найти Р25, формулу для По надо заменить следующей: €4 п./2/,=г^/2Ь+0,5/2Ь- = =г + 0,5/2//. Мы приняли По^«еО,25. Складывая частоты из столбца 5, находим, что Ра попадает в 5-ю группировку, Поскольку 2f"i=l, то рп= Л+ с (г - р" ,)//",==—1.064+ +0,395.(0,25- 0,12)^0,14 =- 0.700. Как видно, 35% длин булавок мень- ше среднего на 0,7 среднего квадра- тического отклонения. Остается вы- числить величину р—0,7а=250,2— -0,7-2,53=250,2—1,77=248,43; это позволяет утверждать, что 25% бу- лавок имеют длину меньше 248,43 X ХЮ-3 дюйма. Если для последую- щих расчетов такая большая точ- ность не нужна, это число можно округлить до 248. Каково значение X, для которого 75%' булавок будут иметь длину меньше X? При По=0,75 Р75 попадает в 9-ю группировку и Р7Б=0,516+0,395- (0,75 — —0,70) /0,14=0,657. Другими словами, если мы найдем значение X больше среднего на 0,657 среднего квадратического от- клонения, то 75% булавок будут иметь длину меньше X. Это значе- ние равно X=|i+0,6570=250,2+ + 0,657-2,53=251,86. Чтобы найти межквартильный размах длин булавок, также доста- точно вычислить .межквартильный размах значений z. Вновь находим, что Р7Б=0,657 и Ра=—0,700, откуда /Р=0,657— (—0,700)=1,357 средне- го квадратического отклонения. Учитывая, что а=2,53, получаем: 1,357О=1,357-2,53=3,43 • 10~3 дюйма и равно разности между двумя про- центилями, найденными выше, т. е. 251,86—248,43=3,43. Если процен- тили предварительно округлить до 248 и 252, то /Р=252—248 и /Р= =1,357-2,53 будут несколько отли- чаться друг от друга.
Кроме того, можно утверждать, что 50 % ил и 0,5Лг = 0,5 • 300 =150 булавок имеют длину больше 248,43-Ю-3 и меньше 251,86-10'3 дюйма. С расчетами такого типа в ста- тистике приходится сталкиваться очень часто. Тем не менее при пер- вом знакомстве с ними у студента нередко возникает чувство раздра- жения, поскольку такие расчеты требуют проведения более громозд- ких арифметических операций. По- этому следует сразу подчеркнуть, что такие вычисления являются ос- новой применения теоретических распределений к опытным данным и требуют тщательного и всесторон- него продумывания и глубокого по- нимания. Итак, для анализа и сопоставле- ния экспериментальных данных ис- пользуется один или несколько ти- пов средних значений, одна или не- сколько характеристик вариации данных, причем исследователю всег- да хочется вычислить эти характе- ристики по всем данным, относя- щимся к рассматриваемому вопро- су, т. е. по генеральной совокупно- сти. Если такой возможности (или необходимости) нет, то в качестве оценок соответствующих характе- ристик генеральной совокупности используют те же самые характе- ристики, но вычисленные по данным той или иной выборки. В этом слу- чае принципиальное значение име- ют объем выборки и ее свойства. В этой книге мы подробно рас- смотрим задачу оценивания средне- го значения и дисперсии (или сред- него квадратического отклонения) генеральной совокупности с помо- щью выборочного среднего и выбо- рочной дисперсии (или выборочно- го среднего квадратического откло- нения). Чтобы научиться обращать- ся с выборочными процентилями, читателю следует обратиться к спе- циальной литературе. При первой же попытке оценить ту или иную характеристику гене- ральной совокупности по статисти- ческим свойствам какой-нибудь вы- 5-232 борки мы попадаем в сферу неопре- деленности. Рассмотрим простой пример. Студентам университета было предложено ответить на во- прос: сколько денег они истратили за прошлый учебный год на приоб- ретение одежды в местных магази- нах. По полученным данным можно вычислить их среднее арифметиче- ское. Оно будет средним по всей генеральной совокупности. Это со- вершенно определенное значение, и здесь нет ничего неоднозначного и неясного. Представим себе теперь, что нам необходимо сэкономить время, и поэтому мы хотим оценить среднее всей генеральной совокуп- ности по некоторой выборке. При этом возникает целый ряд вопро- сов. Можно ли быть уверенным в том, что выборочное среднее окажется равным среднему по всей генераль- ной совокупности? Ясно, что нет. Можно ли утверждать, что сущест- вует некоторая величина (сколько- то долларов и центов), такая^ что разница между X и ц не может ее превышать? Пока трудно ответить на этот вопрос, но, как мы увидим ниже, ответ на него можно дать в следующей форме: величина X бу- дет лежать между р и некоторым значением X, но только с опреде- ленной вероятностью. Это утверж- дение можно в некотором смысле интерпретировать и так, что X от- личается от р не более чем на дан- ную величину. Итак, подчеркнем еще раз, что вычисление среднего, среднего ква- дратического отклонения и процен- тилей по генеральной совокупности есть совершенно однозначная, не содержащая никаких неопределен- ностей процедура. Оценивая же эти статистические характеристики по некоторой выборке, мы сталкиваем- ся с такими понятиями, как вероят- ность и случай. Действительно, при формирова- нии выборки из нашей генеральной совокупности студенты отбираются случайным образом. Тем самым и значение выборочного среднего за- 65
i висит (с точки зрения максимума возможной разности между X и ц) от случая. Понятию случайности можно придать точный смысл с по- мощью исчисления вероятностей, так что знание этого предмета аб- солютно необходимо для понимания процесса оценивания характеристик генеральной совокупности по вы- борке. Исчисление вероятностей имеет и много других приложений. Оно при- меняется не только в задачах оцени- вания, но.и в задачах анализа ре- шений. Приведем еще несколько примеров. Руководителю предприятия необ- ходимо принять решение: сколько запасных частей приобрести вместе с новой машиной? Ясно, что его бу- дет интересовать прежде всего ве- роятность того, что в течение неко- торого срока в машине будет то или иное число неисправностей. Поэто- му, принимая решение, он должен будет использовать вероятностные методы. Они обязательно окупятся, если он будет использовать их по- следовательно и систематически. Другой пример. Банкиру необхо- димо сделать выбор между различ- ными вариантами вложения капи- тала. Его, несомненно, будет инте- ресовать вероятность заработать (или потерять) некоторую сумму. В таком же положении окажется и работник торговли, которому надо сделать выбор между альтернатив- ными типами одного и того же про- дукта. Какова вероятность того, что продукт А лучше продукта В или С? С понятием вероятности связана и проблема отношения человека к риску. Сомнительно, например, чтобы президент банка с консерва- тивными взглядами с такой же лег- костью представлял займы, как президент другого банка, который любит рисковать. Страховые компа- нии интересует не только вероят- ность смерти или несчастного слу- чая (для вычисления размеров страховых ставок), но и (в послед- нее время) отношение реальных и 66 . перспективных клиентов к риску. Должны ли они считать, что про- фессор колледжа скорее согласится застраховать себя, чем представи- тель какой-нибудь другой профес- сиональной или социальной группы. Если это так, то компания сможет обоснованно планировать большую активность своих сотрудников среди членов именно этого контингента. Так что прежде чем вернуться к проблемам формирования выборки и связанным с ними вопросам, не- обходимо ознакомиться с основны- ми понятиями теории вероятностей. В следующей главе мы и рассмо- трим понятие вероятности и три распределения вероятностей — би- номиальное, гипергеометрическое и нормальное. Именно эти три рас- пределения чаще всего применяют- ся в задачах, связанных с выборка- ми, как и во многих других. Они будут часто использоваться в по- следующих главах, поэтому мы изу- чим их довольно подробно. 4.5. ВОПРОСЫ И ЗАДАЧИ 4.1. Даны следующие распределения: а. Найдите из размахи. б. Не производя вычислений, иа глаз, сравните следующие пары распределений (столбцов) с точки зрения значений их средних квадратических отклонений: 1 и 3. 2 и 3. 1 и 4. 4 и 5. 6 и /. 6 и 7, 6 и 2. в. В тех случаях, когда вы не можете дать уверенного ответа на вопрос задачи 4.1,6, вычислите с помощью формулы бы- строго счета средние квадратические от- клонения и сравните полученные значения, с вашими ответами. г. Есть ли необходимость (для сравне- ния вариации данных указанных распре- делений) в вычислении коэффициента ва- риации (о/ц)? Почему? д Предположим, что наши распреде- ления содержат данные о ценах, массах ИЛИ оценках. Какие из наборов цен, масс
« оценок будут наиболее равномерны? Ка- кие дают *наибольшую вариацию данных? е Предположим, что распределения / tf 4 представляют собой оценки» выставлен- ные двумя различными преподавателями. Вы получили у каждого из них одну и ту же оценку, а именно Й5 единиц. Озна- чает ли это, что ваши успехи в каждом из предметов одинаковы? ж. Стандартизируйте свои 25 единиц, соответствующие распределениям 1 и 4. Подтверждают ли два полученных значе- ния z ваш ответ на задачу 4.1,е? Что означает более высокое значение z? 4.2. Рассмотрим среднее отклонение, среднее квадратическое отклонение и дис- персию. Какая из трех этих характери- стик показывает истинную величину от- клонения данных от среднего? Можно ли использовать каждую из них для сравне- ния вариации данных? 4.3. Нарисуйте два колоколообразных распределения с одинаковыми размахами и средними, но с различными средними квадратическими отклонениями. Какие из распределений задачи 41 дают похожие графики? 4.4. Нарисуйте два колоколообразных распределения с одинаковыми средними квадратическими отклонениями, но разны- ми средними. Отдельно нарисуйте два рас- пределения с одинаковыми средними, но разными размахами. Какие распределения задачи 4 j дают похожие графики? 4.5. Что нужно сделать ‘для того, что- бы найти о по распределению / из за- дачи 4.1» используя при этом формулу для несгруппированных данных « == Ке (АГ,- — 4.6. Даны следующие пять значений, 25. 21, 22, 25. 27. а. Уменьшите каждое из них на 20 и вычислите р/ и о. б. Прибавьте 20 к р', а значение а оставьте без изменения; 20-^р'=р. в. Докажите, что прибавление и вы- читание константы из а* не отражаются на величине о. Другими словами, дока- жите, что — d)*/N = = VЕ ((%,- —ft) — S |(X,— K)/N\*lN - = /s(Xi->Yjs/W. 47. Даны следующие пять значений: 2,5; 2,1; 2,2; 2,5; 2,7. ’ а. Вычтите из каждой из этих вели- чин 2. умножьте полученные разности на 10 и вычислите ц' и а\ б. Разделите ц' на 10 и прибавьте к результату 2. Вы получите величину р. {Следите за тем, чтобы вышеперечислен- ные операции деления и сложения выпол- нялись именно в таком порядке.) в. Умножьте о' на 10. Получите и. г. Докажите, что величина* о, вычйс-! ленная по набору данных (где А — 5* константа), будет в k раз больше значе- ния о» вычисленного по данным Xi. Дру- гими словами, докажите, что /S (X,ft—ftA)7AT= k V Е(АГГ — Сформулируем теперь упрощенные правила» облегчающие процедуру вычис- ления р. и о: 1. Если данные, не сгруппированы Гили если длины интервалов отдельных группи- ровок различны). то из самих данных (или из средних точек) следует вычесть подходящую константу, после чего все чи- сла станут меньше. 2. Если есть необходимость, все вели- чины Xi (в случае несгруппированных дан- ных или средние точки распределения с различными значениями с<) можно умно- жить на 10*. чтобы избежать вычислений с десятичными дробями. 3. Если длины интервалов группирова- ния постоянны и если мы применяем ме- тоды быстрого счета, то проводить все эти преобразования ие нужно. 4.8. Рассмотрим еще раз распределение из задачи 3.3: 4 г KJ fi 0,0025—0,0039 21 О’, (1040—0,0054 42 0,0055—0,0084 57 0,0085—0,0134 54 а. Учитывая, что к этому распределе- нию не применимы методы быстрого сче- та. полезно умножить средние точки на 10000. б. Чтобы вычислить оЛ используйте значение среднего из задачи 3.3. в. Чтобы получить о, разделите о' на 10 000. 4.9. Прочитайте еще раз условие за- дачи 3.6. Рассмотрим следующую выборку масс стальных заготовок, приобретенных у компании С (в г): 41,0 41,3 41,4 41,3 41,7 41,9 41,3 41.2 41,0 41,1 41,С 41,4 41,4 41.5 41,7 42,1 41,8 41,6 41,4 41,5 41,2 41,0 41.5 41,5 41,5 41,4 41,3 41.4 41я4 41,5 а. Составьте из этих данных распре- деление частот. Оно будет иметь одина- ковые интервалы группировок, что позво лит применить метода быстрого счета. По- этому (в отличие от того, что пришлось делать в задаче 3.6) нет необходимости вычитать нз Xi постоянную и умножать полученную разность на 10. б. Вычислите X и S, Не забудьте, что формула для э отличается от формулы для о. _ в. Вычислите X и s для двух распре- делений из задачи 3,6. 67
г. Какие заготовки тяжелее? Какие дают наибольшую вариацию данных? Как, 1 по вашему мнению» отражаются соотно- шения между тремя парами ц и о на со- отношениях между соответствующими па- рами X и s? д. По техническим условиям» предъ- являемым к заготовкам автомобильной компанией, их масса должна составлять 415+0»5 г. Вычислите процент заготовок» масса которых лежит в допустимых пре делах. Будет ли процент забракованных заготовок’ единым для всех трех генераль- ных совокупностей? 4.10. Рассмотрим пять значений из за- дачи 4.6: 25, 21» 22» 25» 27. а. Стандартизируйте эти данные. б. Вычислите среднее и среднее квад- ратическое отклонение величин z. в. Докажите, что г=0 н о*—]. Указание, Заметим, что z — 2te47.V н то зг = ]/£ (z£ — Подставьте вмес- сто Z, ВЕ»тражение (Х«—Х)/о и восполь- зуйтесь тем, что Х)-=0. 4.11. Найдите межквартильные рахма- хи для двух распределений из задачи 3.8. Какой процент значений лежит между Qi и фз? С учетом ответа на этот вопрос сравните межквартильные размахи этих двух распределений. Всегда ли можно не посредственно сравнивать межквартильные размахи? Можно ли в этой задаче исполь- зовать вместо меж квартильных размахов средние квадратические отклонения? 4.12. Сделайте попытку сформулиро- вать разумную гипотезу, в каком из слу- чаев вариация данных больше: цены на бензин и цепы па автомобили; очень про- стой экзамен и экзамен средней трудно- сти; доходы на одну семью в США и в Индии; масса мешка с пшеницей, напол- няемого на новом н старом оборудовании; ставки заработной платы в сталелитейной и легкой промышленности; ставки заработ- ной платы рабом их на сборочном кон- вейере и чертежников из отдела техни- ческой документации; диаметры десяти ка- рандашей, измеренные обычным сантимет- ром и микрометром. ГЛАВА 5 ВЕРОЯТНОСТЬ И РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ 5.1. ПОНЯТИЕ ВЕРОЯТНОСТИ, ВЗАИМНО НЕСОВМЕСТИМЫХ СОБЫТИЙ И УСЛОВНОЙ ВЕРОЯТНОСТИ 5.1. Что такое вероятность Теория вероятностей занимается оцениванием правдоподобия, веро- ятности или шансов на то, что то или иное событие из некоторого множества возможных событий дей- ствительно произойдет. Что мы по- нимаем под словом «событие»? Каждому вопросу или проблеме соответствует некоторое множество возможных ответов. В теории ве- роятностей событием называется произвольное подмножество всего этого множества. Рассмотрим несколько примеров. На вопрос о том, какая завтра бу- дет погода, обычно дают четыре ответа — дождь, солнечно, облач- ность, переменная облачность, на заявление о приеме на работу — принять или отказать, на вопрос о целесообразности вложения капи- 68 тала — приредет к убытку, окупится и даст прибыль, на вопрос о том, как упадет монета, — «орел» или «решка», на вопрос о том, сколько лошадей участвует сегодня в скач- ках,— некоторое конкретное число, как упадет игральная кость — одно из шести чисел и т. д. В теории вероятностей любое конечное рассуждение предполагает возможность полного перечисления всех возможных исходов в каждой рассматриваемой задаче. После то- го как такое перечисление прове- дено, каждому из возможных ис- ходов приписывается некоторая ве- роятность. Эта вероятность может быть описана словесно или некото- рым числом. Пример словесного описания: «Завтра почти наверняка будет солнечно, в крайнем случае будет переменная облачность. Я почти уверен, что дождя не будет». Пусть буква Т означает «орел», а Н — «решка»1. Тогда можно ска- 1 От английского head •— лицевая сто- роиа монеты («решка*), tail — обратная сторона монеты («орел»), — Прим. ред.
зать, что при подбрасывании моне- ты исход Т столь же вероятен, как и исход Н. Однако в каждом из этих примеров вероятность можно выразить и в числовой форме. В самом общем виде задачи тео- рии вероятностей можно раз- бить на три категории: 1) най- ти вероятность того, что реа- лизуется хотя бы один из воз- можных исходов: 2) найти ве- роятность того, что будут иметь ме- сто лишь некоторые из возможных исходов; 3) найти вероятность того, что произойдет событие, не принад- лежащее ко множеству возможных исходов. Вариант 1. В вероятностных рас- суждениях рассматривается мно- жество возможных исходов. Поэто- му ясно, что вероятность того, что будет иметь место хотя бы один из них, в действительности превраща- ется в достоверность: некоторое со- бытие обязательно произойдет. Та- кая достоверность всегда обознача- ется одним и тем же числом. На- пример, мы можем совершенно уве- ренно предсказать, что завтра будет либо солнечно, либо переменная об- лачность, либо облачность, либо дождь. Точно так же в результате подбрасывания монеты выпадет ли- бо Т, либо Н. В исчислении вероятностей при- нято таким полностью детермини- рованным событиям приписывать число 1 Вместо того, чтобы говорить, что завтрашняя погода будет обяза- тельно одного из четырех типов или что при подбрасывании монеты обя- зательно выпадет Т или Н, можно сказать, что вероятность события S (солнечно) или PS (переменная об- лачность) или С (облачность) или R (дождь) равна единице и что ве- роятность события Т и Н также равна единице. Вариант 2. Неопределенность на- чинается тогда, когда мы пытаемся оценить вероятность некоторого конкретного исхода, принадлежаще- го множеству всех возможных ис- ходов. Если вероятность, равная единице, введена так, как мы это сделали выше (т. е. полностью со- ответствует достоверному событию), ю отдельным исходам должны быть поставлены в соответствие вероят- ности, меньшие единицы. При этом все вместе взятые они должны в сумме давать единицу. Разумеет- i ся, в существе дела ничего не из- менится, если вместо единицы взять, например, 5. Единственное различие будет заключаться в требовании, что вероятности всех возможных исходов должны давать в сумме не 1, а 5. Вариант 3. Событиям, нс рассма- триваемым в данной задаче, при- писывается нулевая вероятность. Так, вероятность того, что завтра будет —100°С, равна 0. Вероятность того, что монета станет на ребро, также равна нулю. Как же определяются вероятно- сти отдельных событий? По-разно- му. Иногда это делают на основа- нии предыдущего опыта или запи- сей (например, так поступают при прогнозировании погоды), с помо- щью логических рассуждений (в за- даче о подбрасывании игральной кости), интуиции (при решении во- проса о том, в какое предприятие вложить капитал). Зачастую приме- няют сразу несколько подходов. На- пример, в страховом деле решения могут основываться как на интуи- ции, гак и на опыте. Задача представления вероятно- сти в числовом виде может оказать- ся и очень простой и очень ело ие- ной. Однако в связи с тем, что мно- жество возможных исходов всегда конечно, основной метод вычисле- ния всегда один и тот же. Необхо- димо определить и сосчитать все возможные исходы, определить, ка- кие именно исходы составляют то или иное событие, и найти, сколь- кими способами оно может прои- зойти. Вероятностью этого события будет число способов, которыми оно может произойти, деленное на час- > ло всех возможных исходов. Рас- смотрим несколько примеров, ил- люстрирующих этот общий ме- тод. 69
5.1.2. Непосредственное вычисление вероятностей Отметим, что параллельно с при- мерами мы рассмотрим и некоторые понятия исчисления вероятностей. Пространство элементарных со- бытий. В задачах теории вероятно- стей множество всех возможных ис- ходов называется пространством элементарных событий. Пусть на восьми шарах одинакового‘размера и цвета написаны восемь букв — от а до Л, Это множество букв мы на- зовем пространством элементарных событий и будем обозначать через Si = {a, с, rf, е, f. g, h}. В задачах о подбрасывании монеты и играль- ной кости множества возможных исходов обозначим через S2={T, Н} и S3={1, 2, 3, 4, 5, 6} соответственно. При желании мы можем экспери- ментировать с двумя белыми и тре- мя черными шарами или с 200 бе- лыми и 300 черными шарами. Тог- да пространствами элементарных событий будут множества П7, В, В, В] и S5={200 раз W, 300 раз В}. В группе 20 студентов: из 14 мужчин 4 первокурсника и 10 вто- рокурсников; из 6 женщин 2 пер- вокурсницы и 4 второкурсницы. Про- странством элементарных событий будет множество Se={Afy, Mit Afj. Af.$, Als, Afs. Af4o Мй, Afj, AT5, AE, Мй, M3, Fj, Fjt Fn, Ft, Ft, Fs}. Мож- но ввести и другие обозначения. Например, большой буквой можно обозначать курс, а маленькой — пол студента. Колоду из 52 карт также можно рассматривать как пространство элементарных событий, хотя его не- посредственное перечисление и за- няло бы слишком много места. По- этому обозначим «пики» (hearts) буквой В и т. д., после чего про- странство элементарных событий запишется следующим образом: , Нк, Нц, Н}, Нг, Од, ..., Dz, Sa, ..., S2, Сц, ..Сг}. Очень существенным является тот факт, что распределения частот и площади под различными матема- 70 тическими кривыми тоже можно рассматривать как пространства элементарных событий. Они часто используются в вероятностных рас- четах и бывают дискретными и не- прерывными. При этом к дискрет- ным распределениям применимы все рассмотренные нами выше на примерах методы. Описание события и вычисление его вероятности. Чтобы упростить процедуру вычисления вероятно- стей, удобно отождествить события с наборами элементарных испыта- ний. В случае пространства S( та- ким элементарным испытанием мо- жет считаться взятие наугад одно- го или нескольких шаров. Попы- таемся понять, какое именно значе- ние следует приписать вероятности, например, следующего- события: на выбранном шаре написана бук- ва а. Событие £={а} является под- множеством St. Число способов в нашем пространстве элементарных событий, которыми это событие мо- жет произойти, равно л(£)=1 Чис- ло всех возможных исходов равно n(SI)=8. Отсюда вероятность со- бытия Е, т. е. Р(Е) или Р(а) рав- на п(Е) /n(Si)=l/8=0,125. Заме- тим, что собственно вычисление оказалось .очень простым: фигур- ные скобки понадобились нам лишь для обозначения множества как со- вокупности своих элементов. Рассмотрим теперь множество S2 и вычислим вероятность того, что при одном подбрасывании монеты выпадет «орел». В наших обозначе- ниях это событие записывается так: Е={Т}. При этом n(E)=I, n(S2) = =2 и Р(Р)=Р(Т)=1/2=0,5. Определим на .множестве S4 со- бытие «выбор белого шара». Ему соответствует подмножество Е= ={WZ, П7}, откуда п(£)=2 и Р(Р) = =2/5=0,4. Точно так же вероят- ность выбора белого шара в случае, если пространством элементарных событий является множество S5, равна Р(Е) =200/500=0,4. Вероятность того, что выбранный наугад из множества Se студент окажется мужчиной, равна Р(Л1) =
=14/20=0,7, а вероятность выбрать мужчину-первокурсника равна Р(М3) =4}20=0,2. Событие «выбор первокурсника» (независимо от по- ла) есть E={Mj, Mj, Mj, Mjt Fj, Fj}, n(E)=6 и P (E) =6/20=0,3. Анало-' гичные события можно определить и на множестве S?. Дискретные распределения ве- роятностей. Пространствами эле- ментарных событий можно считать и частотные распределения, а также математические функции, описы- вающие такие распределения При этом, как мы уже указывали, очень важно четко представлять себе раз- ницу между дискретной и непре- рывной переменными. Например, пространством элемен- тарных событий можно считать рас- пределение частот из табл. 2.10. Это распределение дает число за- пасных частей, понадобившихся в процессе эксплуатации для 59 элек- тромоторов. Используем это распре- деление в качестве материала, на основе которого руководитель пред- приятия, которому надо купить один электромотор, должен принять решение, сколько приобрести к это- му электромотору запасных частей. Наше распределение можно пере- писать в виде множества S={3 ра- за 0, 7 раз 1, 12 раз 2, 18 раз 3, 11 раз 4, 6 раз 5, 2 раза 6). Пусть нас интересует событие Х6=5, или (в виде множества) £={5, 5, 5, 5, 5, 5}. Тогда n(S)=59, n(£)=6=/6 и Р(£)=6/59. Хотелось бы, конечно, • уметь вычислять эту вероятность непосредственно по распределению частот, не переписывая его в виде множества. Оказывается, что это не только возможно, но и более удобно. Прежде всего в исчислении ве- роятностей величины fi пересчиты- ваются в частости f", (как пока- зано в табл. 2.10). Поскольку для таких частостей по определению распределение после этого превращается в распределение ве- роятностей. Обычно такое распреде- ление называют распределением вероятностей случайной перемен- ной Xi. Термин «случайная переменная» используют, когда речь идет о не- котором множестве чисел в той или иной задаче исчисления вероятно- стей. Например, в простейшем слу- чае такими числами являются все возможные результаты подбрасыва- ния игральной кости, которые обра- зуют множество S3. Любое другое пространство элементарных собы- тий также можно превратить в слу- чайную переменную, поставив в со- ответствие отдельным объектам те или иные числа. Например, множе- ство букв Si можно сделать случай- ной переменной, переписав его сле- дующим образом: S*i={1, 2, 3, 4, 5, 6, 7, 8). При этом предполагается, что соответствующие каждому из чисел вероятности составляют в в сумме единицу. После такого пре- образования мы получаем случай- ную переменную (с соответствую- щими каждому значению вероятно- стями), и с ней можно обращаться так же, как с обычным распреде- лением частостей. В несколько более общем виде можно сказать так: пусть имеется некоторое множество возможных исходов. Требуется поставить с по- мощью некоторого определенного правила в соответствие каждому исходу одно и только одно действи- тельное число. Полученное таким образом множество действительных чисел в теории вероятностей назы- вается случайной переменной. Мож- но дать и еще более формальное . определение: случайной переменной называется действительнозначная функция, определенная на простран- стве элементарных событий. Все приведенные выше примеры были примерами дискретных слу- чайных переменных, Непрерывные распределения вероятностей мы рассмотрим в следующем разделе. Между пространством элементар- ных событий и распределением ве- роятностей дискретной или непре- рывной переменной, связанной с этим пространством, имеется кон- 71
цептуальное различие. Пространст- вом элементарных событий считает- ся совокупность объектов, описы- вающих в нашей задаче все воз- можные исходы. Но как только этим объектам поставлены в соответст- вие числа и вероятности, оно пре- вращается в распределение вероят- ностей некоторой случайной пере- менной (статистик скажет, что слу- чайная переменная определена на данном пространстве). Это обстоя- тельство было уже проиллюстриро- вано нами на примере преобразова- ния S, в S*i. Ниже мы познакомим- ся и с другими способами преобра- зования пространства элементарных событий в распределение вероятно- стей. Вернемся теперь к дискретному распределению вероятностей (или, иначе, к распределению вероятно- стей дискретной случайной перемен- ной X.) из табл. 2.10. В рассматриваемом примере Р(Х6 = 5) =0,‘101695 = /"е = 6/59. Если руководитель предприятия по- купает один электромотор (что эквивалентно выбору одного шара из 59), то величина Р(Х=5) имеет для него следующий смысл: вероят- ность того, что в процессе эксплуа- тации мотора понадобится 5 запас- ных частей, равна f"e=0,101695. Другое событие имеет вид: Е— ={0, 0, 0). В этом случае п(Е) = =/1=3 и Р(Е)—3/59. Воспользо- вавшись распределением вероятно- стей с частостями f"i вместо Д-, эту вероятность можно переписать так. P(Xt =0) =0,050847 =/", =3/59. Та- ‘ кова вероятность того, что при по- купке одного мотора не понадобит- ся ни одной запасной части. Рассмотрим еще несколько полез- ных примеров: Ei={12 раз 2, 18 раз 3. 11 раз 4); £2=г{3 раза 0, 7 раз 1); Е.ч={11 газ 4, 6 раз 5, 2 раза 6). Со- ответствующие вероятности равны: I 5 п(£,) = 2Ь = 41- (=3 откуда P(£i)=41/59; 72 »(£,)=2Р,= 10. откуда Р(Ег) =10/ 59; i=5 откуда Р(Ез) =19/59. В терминах «распределений веро- ятностей» эти результаты могут быть получены несколько иным способом Р (X, < X,- < Х5) = 2 Гi = 0.69 = г=3 5 =-^- =41/59; Р(Х,-<Хг)=2Г,-0.17 = «ЛГ I = 2/f/S/(= Ю/59; P(Xi>X$)=2/''1- = 0.32 = i=3 ^=2/^= 19/59. i=5 •Таковы вероятности того, что для одного электромотора понадобится «от 2 до 4», «1 или менее» и «4 или , более» запасных частей Вероят- ность Р(Х/)=2А/2/;=2Н=1. Это есть вероятность того, что X, при- нимает одно из значений из множе- ства 0, 1,2, 3, 4, 5 или 6. Она, разу- ’ меется, равна единице. Вероятность Р(ХА=13)=0 также превращается в достоверность, поскольку на осно- вании предыдущего опыта нам из- вестно, что ни один из моторов нс выходил из строя 13 раз. Очень часто приходится вычис- лять среднее арифметическое рас- пределение вероятностей. Оно назы- вается математическим ожиданием и обозначается Л1(Х) Процедура вычисления М(Х} совпадает с по- рядком вычисления ц, и для одного
и того же распределения ц=Л1(Х). Более подробно Отсюда, учитывая, что Sf",=l, по- лучаем £(Х)=2/"Л=2,9. При этом мы получили> дополнительную ин- формацию. Л именно, при покупке одного мотора можно ожидать, что он выйдет из строя 2,9 раза и что ожидаемое число необходимых зап- частей будет равно Л4(Х)=2,9. Так как покупатель не может приобре- сти 2,9 запасной части, он скорее всего округлит это число и купит 3 штуки. Ниже мы рассмотрим и дру- гие случаи применения величины М(Х). Вполне может оказаться, что зна- ния лишь этих вероятностей еще недостаточно для того, чтобы при- нять обоснованное решение. Поку- пателю необходимо учесть не толь- ко стоимость запчастей, но и сум- му, в которую ему обойдется ожи- дание поставки дополнительных запчастей (в том случае, если он не сразу закажет достаточное чис- ло). Решение такой задачи мы рас- смотрим ниже. Вычислим теперь, сколько запча- стей было приобретено к этим £/,=59 моторам. Простое вычисле- ние дает (X) = =] 71=59«2,9. Предположим теперь, что мы хотим купить не один, а 150 моторов, причем нам известно толь- ко распределение вероятностен, т. е. только f"i, но не fi. Сколько запча- стей нам следует купить? Считая, что распределение вероятностей действительно является надежным показателем потребности в запча- стях, мы будем рассуждать следую- щим образом: нуль запасных частей понадобятся для f"i-150=0,0508X X 150=7,6=fi моторов, где /1 — со- ответствующая частость, 1 запчасть (%2=1) понадобится для /"г 150= =0,1186-150= 17,8=f2 моторов; 2 части (Х3=2) понадобятся для fs 150=0,2034 150=30,5=^з моторов и т. д. Отсюда общее число подле- жащих покупке запчастей равно: 2ЛЛ,- = (X) = 150-2,9 = 435. Непрерывные распределения ве- роятностей. Непрерывные распреде- ления вероятностей строятся по тем же правилам, что и непрерывные распределения, не являющиеся рас- пределениями вероятностей. Эти правила были рассмотрены в гл. 2, сейчас следует лишь напомнить (в несколько иной формулировке) некоторые из них. 1. С непрерывными распределе- ниями вообще и непрерывными рас- пределениями вероятностей в част- ности приходится сталкиваться всю- ду, где речь идет о непрерывно из- меняющихся значениях. Примером может служить длина булавки. Вполне разумно считать, что в неко- торых пределах (например, от 247,34-Ю-3 до 251,10-10~3 дюйма) длина булавки, производимой на имеющемся оборудовании, может принимать любое значение. Для дискретных данных это не так: за- пасных частей может быть либо 2, либо 3, заработать можно 2 долла- ра 21 цент или 2 доллара 22 цента и т. д. Любое промежуточное значе- ние не имеет смысла. 2. Согласно распределению длин булавок, приведенному в табл.'2.4, «имеется II булавок длиной 246Х Х10-3 дюйма». Строго говоря, это утверждение неверно. Ясно, что бо- лее точный измерительный прибор покажет, что все 11 булавок имеют различную длину. Более того, даже само выражение «длина одной бу- лавки» не имеет абсолютно четкого смысла, так как. применяя все бо- лее точные измерительные приборы, мы каждый раз в качестве длины булавки будем получать новые, бо- лее точные значения Поэтому, стро- го говоря, утверждение: «имеется столько-то булавок некоторой дли- ны», неверно. Гораздо правильнее указать, какое число булавок имеет длины, попадающие в определенный интервал. Так, в нашем примеое II булавок имеют длину от 245,5'10-а до 246,5-10-3 дюйма. Непрерывным распределением ве- роятностей называется распределе- 73
ние, для которого площадь под со- ответствующи м полигоном или кри- вой равна 1 и Р(Л'=А')—О, где X' есть некоторое фиксированное зна- , чение на горизонтальной оси. По- следнее требование связано с тем, что переменная X изменяется непре- рывно и может тем самым прини- мать бесконечное число значе- ний, вследствие чего выражения вида Р(Л\=5)=0,17 или Р(Х() = =f(Xi)[A ff(Х<) — ордината точки кривой с абсциссой Xir а А—полная площадь под кривой] становятся бессмысленными. Вместо них следует писать: P(X'<X<Xf')=A*':iA (где площадь под той частью кривой или полигоном, которая лежит над ин- тервалом (X’, X”) горизонтальной оси Р(Х<Х‘)=Ах_^1А или Р(Х> Учитывая вышеизложенное, уместно спросить, не допустили ли мы ошибку, считая распределение табл. 2.4 (длины булавок) дискрет- ным? Вовсе нет. Наоборот, в ре- альных задачах обычно так и дела- ют При этом частоты /( пересчиты- вают в частости, откуда и получа- ют вероятности: например, Р(Х3= =246) =11 /300 или Р (Х,<245) = =9/300. Однако это распределение (в от- личие от других распределений с дискретными данными) можно опи- сать иначе, а именно с помощью графика, имеющего форму полиго- на, площадь под которым равна единице. Далее этот полигон можно аппроксимировать некоторой сгла- живающей кривой, построенной от руки или выбранной с помощью той или иной математической процеду- ры. После этого мы можем для лю- бого интервала (например, между точками 247,033 и 249,289) вычис- лить площадь под участком кривой, расположенным над ним. • Так, Р (247,033<Х<249,289) =Д^’^ /А. Учитывая, что Д=1, знаменатель можно опустить. Важно иметь в виду, что вели- чине в}случас дискретного рас- пределения ’вероятностей соответст- р вует выражение ^1",-. Если кривая t=k представляет собой график какой- нибудь известной математической функции,^ то величину А%',' можно х>» получить, вычислив интеграл f . У X' Площади под графиками непрерыв- ных функций часто вычисляют гра- фически, как показано на рис. 3.3. Процедуру анализа непрерывного распределения вероятностей полез- но продумать на следующем сильно •упрощенном примере. Пусть имеет- ся выборка, включающая 312 сталь- ных булавок. Измерим их длину и составим распределение частот (табл. 5.1). На рис. 5.1,а построен график этого распределения. Чита- тель, разумеется, сразу же возразит; длины булавок должны иметь коло- колообразное, а не прямолинейное распределение. Это действительно Длина булавок, 10~3ВюЦы Рнс. 5.1. Кумулятивные распределения длин 312 стальных булавок (см. табл. 51) 74
Таблица 5.1. Длина 312 стальных булавок, 10-’ дюйм (опытные данные) х, h xi h xi fi 244 12 i 249 22 254 31 245 14 । 250 26 255 34 246 17 251 24 256 36 247 17 252 28 248 20 . 253 31 312 так, но мы использовали искусст- венные данные, чтобы облегчить вычисления. Наш полигон можно аппроксими- ровать прямой f(x) =—476+-2х, ко- торая построена на рис. 5.1,6. Рас- смотрим отрезок этой прямой, на- чинающийся над точкой Х=Х'= =243,5 и кончающийся над точкой Х=Х'=256,5, причем f (Л'=243,5) = =11 и f(X"=256,5)=37, где f(x)~ как обычно, ордината точки прямой с абсциссой х. Попытаемся найти общую форму- лу для вычисления площади над произвольным интервалом (х'< <Х<.х"), лежащим между точка- ми 243,5 и 256,5. Отметим на оси абсцисс пару точек Х=х' и Х=х" и найдем соответствующие им орди- наты [(х7) и f(x") (рис. 5 1,6) Пло- щадь под графиком между этими двумя точками равна: .|-4-(x"-x')U(x")-/(x')L где f(x')=a+2x', a f(x")=a+2x". Подставляя эти значения, полу- чаем ’ -L -у- (Л-" - л') (2х" - 2х') = = а (х" — х') ( х" 1 — х' *. Поскольку а=—476 [уравнение нашей прямой f(x) =—476 +2х], в окончательном виде формулу для 1 Проше, конечно» вычислить инте- грал. вычисления ‘площади под ней мож- но записать так: А*'' = - 476 (л-” - х') + х" 8 - х' *. Воспользуемся ею для вычисления конкретных площадей. Мы уже зна- ем, что площадь под полигоном, по- строенным по экспериментальным данным, 2f,=312, поскольку в этом случае с=1. Для сравнения вы- числим соответствующую площадь под прямой. Имеем А^^ =—476Х X (256,5 — 243,5) + (256,5)2 — —(243,5)2=312, что равно По- видимому, выбранная нами прямая оказалась хорошим приближением к данным эксперимента. Вместо х' и х" в формулу можно подставлять и любые другие значения. Так, на- пример, Л2445 = 14, и мы можем утверждать, что имеется 14 булавок длиной от 244,5-Ю-3 до 245,5-Ю-3 дюйма. Итак, мы получили непрерывное распределение, график которого хо- рошо аппроксимируется отрезком прямой на том участке, где значе- ния Х=х' и Х=х" имеют смысл (напомним, что 243,5<^-<256,5). Уравнение прямой имеет очень про- стой вид, что дает нам возможность вычислять любую площадь под ней с помощью простой формулы Ана- логичные формулы имеются и для колоколообразных функций, кото- рые часто применяются в математи- ческой статистике. Вывод их, одна- ко, несколько сложнее. Рассматриваемое распределение можно превратить и в распределе- ние вероятностей, причем с помо- щью такой процедуры, которая име- ет общий характер и применима во многих других случаях. Некоторое исходное распределение станет рас- пределением вероятностей, если площадь под кривой равна единице. Добиться этого можно, вычислив площадь под исходной кривой (ве- личину А) и умножив затем f(x) на 1/Л. При этом формула для вычис- ленияА*," также умножится на 1/А. В случае рассматриваемой нами 75
прямой линии А'^“ = I А |а (а" - х') 4-х" 2 - х' ’] и г (х) = \!А(а-\-Ьх). Подставляя вместо известных па- раметров их значения (Л—312 и а=—476), получаем Л"х" = 1/3121—476 (х" —xr) -L 4-х"* и f" (х) = 1/312 (- 476 -|-2х). График f"(x) приведен на рис. 5.1,в. В нашем случае его можно построить по двум точкам (напри- мер, по точкам с. ординатами Г-243,5 = 1 /312(—476 + 487) = =0,0352 и Г’256,5= 1/312 (—476+ +513)=0,1186. Если графиком яв- ляется некоторая кривая, двух то- чек, конечно, недостаточно. Теперь уже можно вычислять различные вероятности. Все, что для этого требуется, эго подставить вместо х' и х" соответствующие значения. При этом считается, что Р(х<243,5) = Р(х>256,5) = 0. На- пример, Р (245,2 < х < 247,8) = =-Л 1 /312- 476 (247,8-245,2)+ + (247,8)2 - (245,2)‘ = 0.142; Р (х < < 248.2) = = 0.237; Р (X > > 253,9) = 5 =0.376 и т. д. Эти значения имеют следующий смысл. Если из всей генеральной совокуп- ности стальных булавок выбрать одну, то с вероятностью 0,142 ее длина будет заключена между 245,2-10-3 и 247,8-10~3 дюйма, с ве- роятностью 0,237 ее длина будет меньше 248,2-10-3 дюйма и с веро- ятностью 0,376—больше 253,0-10-3 дюйма. Кроме того, как и следовало ожидать, Р (243,5 о <256,5)=1, что означает достоверность соответ- ствующего события. Площадями под кривой можно пользоваться и в качестве часто- стей. Например, если в коробке 76 имеется 5000 стальных булавок и у нас есть основания полагать, что графиком их распределения являет- ся прямая, то вычисленные нами вероятности дают возможность под- считать число булавок, удовлетво- ряющих тем или иным требованиям. Так, из 5000 булавок 0,142-5000= =710 будут иметь длину от 245,2X ХЮ3 до 247,8-10-3 дюйма; 0,237х X 5000= И 85 будут короче, чем 248,2 • 10 3 дюй и а; 0,376• 5000= 1880 будут длиннее, чем 253,0- Ifr3 дюйма. Площади под кривой можно на- ходить и с помощью кумулятивной функции распределения* F(x). На- помним, что в общем виде формула для площади под прямой имеет вид 4*''— fa(x"—х') +х"2—х'2]. Что- бы получить отсюда выражение для функции распределения вида «мень- ше, чем», нужно вместо х' подста- вить нижнюю границу области до- пустимых значений л. Получим F (х) = [- 476 (х" - 243.5) 4- 4-х"*-(243,о)2|. Штрихи теперь можно опустить и после упрощения функция принима- ет вид: F (х) = 56613,75 — 47бх х*. Соответствующей кумулятивной функцией распределения вероятно- сти будет F (х) = 1/312 (56613,75 - 476х х2). Функция распределения вида «боль- ше, чем» получается подстановкой в формулу дляД*/ верхней грани- цы области допустимых значений для X. Однако в статистике, как правило, пользуются только функ- цией вида «меньше, чем». Теперь с помощью полученной кумулятивной функции распределе- ния Е(х) можно без труда вычис- ’ В советской математической литера- туре принято для непрерывного случая называть функцию вида функцией распределения плотное гн вероятностей, а функцию вида л (х) — функцией распре- деления вероятностей. — Прим. ред.
лять площади иод кривой (в част- ности, прямой). При этом достаточ- но знать, что при любом допусти- мом значении аргумента X число F (х) есть площадь под кривой меж- ду нижней границей области допу- стимых значений (если таковая имеется, — в нашем примере это 243,5) и данным значением аргу- мента X. Так, чтобы еще одним способом .' '247,3 вычислить Д245.2 • следует сначала найти F (247,8) (площадь между нижней границей и точкой 247,8), а затем вычесть отсюда F (245,2) (площадь между нижней границей и 245,2). Получаем, как и ранее, 0,142. Чтобы найти Р(Х<2248,2) до- статочно просто подставить 248,2, в F(x). Чуть сложнее найти Р(Х> 253,0). Здесь тоже надо под- ставить значение 253,0 в Р(х), но, поскольку мы пользуемся функцией распределения вида «меньше, чем», полученную величину следует вы- честь из единицы. Чтобы избежать громоздких вы- числений, на практике обычно поль- зуются статистическими справочни- ками и таблицами, в которых даны раз и навсегда вычисленные значе- ния площадей под кривыми для весьма большого числа функций и большого набора значений X. Эти площади вычисляются как по фор- мулам для А*” .так и по формулам для кумулятивной функции распре- деления F(x) вида «меньше, чем». Чаще пользуются кумулятивной функцией распределения . Мы по- знакомим читателя с такими табли- цами, когда будем рассматривать биномиальное и нормальное распре- деления. В следующем разделе мы будем, как правило, рассматривать ди- скретные пространства элементар- ных событий и дискретные распре- деления вероятностей. Тем не ме- нее наши результаты будут приме- нимы и к непрерывным пространст- вам элементарных событий. 5 1.3. Описание более сложных 4 событий На множестве Si можно опреде- лить и более сложные события. По- ложим £t=(a, Ь, с, d], Е2={с, d, е), E3~{g, h}. Пространство элементар- ных событий St содержит 4 элемен- та, которые принадлежат подмно- жеству Еь Отсюда n(fi)=4 и P(EI)=4/8=0,5, Р(Е2)=3/8 и P(Es)=2/8. Выше мы поставили каждому элементу S5 в соответст- вие некоторое число. Поэтому со- бытия можно описывать, вводя пе- ременную Xi. Например, событие Е=(Х^З) совпадает с событием Е={1, 2, 3}, откуда Р(£)=Р(Х<^ <СЗ)=3/6. Точно так же Е=(2^ ^Х^4)={2, 3, 4}, Р(Е)=Р(2< <Х,<4) =3/6. Все возможные исходы (для про- странства S3) и соответствующие им вероятности можно записать в виде дискретного распределения вероят- ностей : Р (Хр I 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6 1/6 1 Если Et=[a, b, с, dj, то через E'i обозначают дополнение к Е\, т. е. подмножество исходов, «не принад- лежащее к Е1». Другими словами, 2?'i={e, f, g, й), откуда n(Ei) + + n(E'l)=n(Si) и Р(ЕЛ+Р(Е',)= =1. Если мы рассматриваем собы- тие £={!}, то Е'={2, 3, 4, 5, 6} и Р(Е')=5/6, что есть вероятность того, что при одном подбрасывании игральной кости не выпадает еди- ница. Вероятность события (или Еи ИЛИ Р2) И вероятность события (Е| и Е2). Зачастую при определении того или иного события приходится использовать союзы «и» и «или». Рассмотрим определенные на Sico- 77
бытия Ei, Ez и E3. Событие Е= = (или £{, или £z) .есть подмножест- во букв ИЗ S1 (и ТОЛЬКО ИЗ S1), принадлежащих либо £ъ либо Ег, либо им обоим одновременно. Это- му условию удовлетворяют следую- щие буквы из множества Si: Е= = (или £i, или Ez)={a, b, с, d, е], откуда п(Е)=п (или £i, или £2) =5 и Р (или Ei, или Ez)=P(E)==5f8. Другими словами, если из множест- ва Si наугад выбрать какой-нибудь шар, то вероятность того, что на нем будет написана буква, соответ- ствующая событию £=(или £1, или £2), равна 5/8. Событие (£1 и Ег) — обычно пи- шут (£i, £2) — есть подмножество букв из Si, принадлежащих одно- временно и £1, и Ez. В рассматри- ваемом случае £=(£i, £з)={с, </}, л(£)=п(£1, £2) =2 и £(£) = =Р(£Ь £2)=2/8. Событию Е=(£ь £а) соответствует пустое множество, поскольку ие существует ни одной буквы, принадлежащей одновремен- но и £i, и £3. Отсюда P(£i, £3)= —0/8=0. Если буквам из Si поставить, в со- ответствие числа 1, ..., 8 и припи- сать каждому из этих чисел вероят- ность 1/8, то нашу задачу можно переформулировать в терминах ди- скретного распределения вероятно- стей, которое будет аналогично рас- пределению вероятностей из задачи о подбрасывании игральной кости. События £i, £2, £3 можно теперь записать следующим образом: £1= =(1<Х<4), £г=(З^Х/^5) и £3= =(7<сХ,<<8). После этого вероят- ность Р(1^.Х^4) можно вычислить не путем подсчета числа элементов простра нства элементарных собы- Рис. 5.2. Диаграмма Венна (Р(£|, Еа) — отношение площади заштрихованной обла- сти ко всей плошади] 78 тий, принадлежащих событию, а складывая друг с другом вероятно- сти, соответствующие числам от 1 . .. 11 до 4. Их сумма равна -g- -|- -g- -|- 1 1 1 Точно так же собы- тия £1 и £3 можно записать в виде (Х,-^4) или (Х/^7). Вероятность Р (или Еь или £2) равна Р (или <4, или 3<Х,<5)=Р(1^Х1<5) = =Р(Х,^5) =5/8, а вероятность P(£i, £г)=Р(Х,-^4 и 3<XS<5) = =Р(З^Х<<4)=2/8. Взаимосвязь событий £ь Е2 и £3 можно графически представить с помощью диаграмм Венна (рис. 5.2). Все множество буке St услов- но представлено площадью прямо- угольника, а три наши события — площадями трех кругов При этом если круги не пересекаются, соот- ветствующие вероятности совмест- ных событий, например Р(£ь £3) или Р(Ег, £3), будут равны нулю. Несовместимые события и неко- торые вычислительные формулы. Оказывается, что вероятность Р (или £tl или £2) можно вычислить, ие прибегая к перечислению всех элементов Si, принадлежащих со- бытию (или Et, или £2). Для этого достаточно знать величины P(£i), Р(Е2) и Р(£|, £2). В этом случае Р(или £,, или £г) = Р(£,)-]- + Р(£г)-Р(Е.. £s). Подставляя в эту формулу соответ- ствующие значения, получаем Р (или Elt или £2) =4/8-|-3/8—2/8 = =5/8. Другой пример: Р (или Elt. или £3) =4/8-|-2/8—0/8=6/8. За- метим, что в этом случае Р(£,)-1- 4-Р(£3)-Р(£ь £3) =£(£,) 4- 4-Р(£з) и, следовательно, Р (или £ь или £3) =Р(£1)4-Р(£з)- Тем самым мы получили пример несовместимых (или взаимоисклю- чающих) событий. Термин «несов- местимые события» означает, что пересечение подмножеств Л и £ пу- сто, откуда Р(Л, В)=0. В против-
ном случае события называются совместимыми. Так, в задаче о подбрасывании игральной кости Р (или 1, или 2, или 3)=Р(Г)+Р(2)+Р(3) (несов- местимые события), так как Р(1, 2)=0, £(!, 3)=0 и Р(2, 3)=0. Ве- роятность того, что наугад выбран- ная карта окажется королем или будет червовой масти, равна Р (или К, или Н) = Р (К) Р (Н) — - р == 4/52 + 13/52 - 1/52 = =16/52. Вероятность того, что студент из множества Se окажется либо муж- чиной, либо женщиной, равна Р (или М, или F)=P(M) +P(F)= =14/20+6/20=1, так как Р(М, F) —0 (последнее соотношение озна- чает, что студент не может быть одновременно и мужчиной, и жен- щиной). Точно так же равна нулю и вероятность того, что при подбра- сывании игральной кости одновре- менно выпадает и единица, и трой- ка, поскольку верхней может отка- заться лишь одна грань. Более сложной задачей является вычисление вероятности Р(илн £,, или Ег, или £j = = P(E,) + P(Es) + P(Et)- — Р(Е1. Et) —P(Et. Б,)— — Р(Е3, Р (£..£,.£,)• Проиллюстрируем ее на примере. Определим на множестве Si три события: £i={a, b, с, d}, Ez={c, d, е} и Ez={d, е, f} и рассмотрим соот- ветствующее им событие £=(или £i, или £?, или £3). Событию £ во множестве Si принадлежит 6 букв, откуда Р(Е)=Р (или £t, или £2, или £я)=6/8. Тот же результат можно получить и с использованием общей форму- лы. В нее входит, во-первых, сумма вероятностей Р (£i) + Р (£2) + Р (£з), соответствующая множеству {а, Ь, с, с, d, d, d, е, е, /}, которое не явля- ется подмножеством Si. Вычитание fonfzn£j) Рис. 5.3. Диаграмма Венна [P(£i, F3) — отношение площади заштрихованной области ко всей площади] из этой суммы величин P(£i, £2), P(£i, £s) и Р(£г, £з) соответствует удалению из него элементов {с, d), {d}, {d, е}, что дает {о, b, с, е, f). Последнее множество уже явля- ется подмножеством S(, и мы можем вычислить его вероятность. Однако оно еще не соответству- ет определению события (или £|, или £2, или £3), так как ему не принадлежит элемент {d}. Только после того, как мы добавим к нему (£1, £2, £3)={d), получится подмно- жество букв, полностью соответст- вующее определению нашего собы- тия £. Эту ситуацию иллюстрирует диаграмма Венна (рис. 5.3). Для взаимно несовместимых со- бытий справедливо соотношение Р(или £,, или или £,) = = Р(£1) + Р(Р,) + Р(Р.) и вообще Р(или Et, или £s, или .... или Еп) = = Р(£,)4-Р(£,) + ...+Р(£л). 5.1.4. Условная вероятность Еще одним важным понятием ис- числения вероятностей является по- нятие условной вероятности. Пред- ставим себе, что из множества S? наугад выбрана одна карта, и нам сообщили, что ее масть красного цвета. Какова вероятность того, что выбранная карта есть король? Такую ситуацию сокращенно можно записать так: Р(£|д) веро- ятность события £ при условии К. Посмотрим, как можно решить та- кую задачу. После того, как мы вы- тянули карту и получили информа- 79
цию о том, что она красного цвета, мы уже не находимся в исходном пространстве элементарных собы- тий. Найим новым пространством элементарных событий будет мно- жество, содержащее только 26 карт. Так как средн этих 26 карт имеют- ся ровно два «красных» короля, то Р(£| К) =2/26. В этом рассуждении нам понадо- билось перейти к новому простран- ству элементарных событий. Су- ществует, однако, формула, с по- мощью которой искомую вероятность можно получить, не выходя за рам- ки множества 5?. А именно: Р(Е2\Е1)=Р(Е1, £2)/Р(£!), если Р(£,)>0; Р(Е{\Е2) = Р(ЕЬ Е2)1 Р(Е2), если Р(£2)>0. Отсюда видно, что если Р(Е}) =Р(Е2), то P(E2\Ei)=P(E\\E2). В рассматри- ваемом примере с колодой карт Р(Я|А)=Р(£, К)/Р(К). Так как всего в колоде имеются два крас- ных короля (мы снова рассматри- ваем все исходное пространство эле- ментарных событий), то Р(К, Р) = = 4 „ ₽(К|К) = 4/>=2/26. С другой стороны. P(RlK) — P(Kt R\/P(K) = ^I -^=214. В этом случае после вытягивания карты нам сообщили, что выбранная кар- та — король. Новое пространство элементарных событий содержит четыре короля, два из которых — красные, откуда P(R\K) =2/4. . Предположим тенерь, что грани игральной кости с номерами 1, 2, 3 имеют белый цвет. Нам известно, что выпавшая грань — белого цве- та. При этом условии вероятность того, что выпала единица, равна 1/3. Возвращаясь к исходному пространству элементарных собы- тий S={№i, Wz, ^з, Вь Bs. В6}, тот же результат можно получить и по формуле условной вероятно- сти: Р {единица | W}=P (единица, 1Г)/р(ю=4-/4=,/з- Рассмотрим события £i={a, b, с}, Е2={с, d, е) и £з={/, g), определен- ные на множестве Выберем на- угад одну букву и предположим, что она принадлежит Е2. Тогда но- вым пространством элементарных событий становится множество Е2 и Л/(£2)=3. Вероятность того, что ка- кая-нибудь буква из Ег принадле- жит также и Et, равна 1/3, так как в Е2 имеется ровно одна буква, ко- торая принадлежит и £ь Тот же ре- зультат можно получить и по форму- ле Р(£||£2) = Р(£1, £2)/Р(£2) = = 4-/4 = 1/3=P(£2|£i)- В то же время Р(£||£3)=Р(£Ь £3)/Р(£3) = =0/4 = 0. Вероятность того, что студент, о котором известно, что он перво- курсник, окажется мужчиной, равна P(A4|J) = P(A1, J)!P(J)=.±/± = •=4> а pVfM)-=P(M, J)fP (М) = =4 / — =4/14. 20 / 20 1 Поскольку определенная на 5i ве- роятность P(Ei, £2) равна 1/3, то Р(£ь £2)=Р(£2)Р(£1|£2)=3/8х X 1/3= 1/8. Этому событию соответ- ствует подмножество {с}, состоящее из одной буквы, которая принадле- жит как £t, гак и £2. Аналогично, пользуясь тем, что Р (R| К) =2 /26, получаем: Р (R, K)=P(R)-P{R\K) = 1/2-2/26= =2/52. Действительно, в колоде из. 52 карт имеются ровно два короля красного цвета. Итак, справедливы следующие формулы. Р(А|Р) =Р(К, R)IP(R) и P(R\K)=P(R)P(K\R), причем, хотя Р(Et | Ez)^= Р(£21 £1), вероят- ность Р(£ь £2) всегда удовлетво- ряет соотношению Р(£ь £2) = =Р(£!)Р(£2|£1)=Р(£2)-Р(£||£2). 5.1.5. Разбиения пространства элементарных событий и формула Байеса Ряд очень полезных формул мож- но вывести, разбивая некоторое ис-
ходкое пространство элементарных событий на несколько частей и под- разделяя затем каждую из этих ча- стей еще на несколько подмно- жеств. Предположим, что имеется 9 шаров, каждый из которых покра- шен в один из двух цветов — чер- ный или белый, и на этих шарах на- писаны буквы от а до к Обозначим это пространство элементарных со- бытий и его элементы следующим образом. 5—bb, ^ь, Cw, fw, gb, hv, i’b}, где индексы w и b обо- значают соответственно белый и чер- ный цвет. Разбиением пространства S- будет, например, набор событий Et={a, b, с, d}, Ей={е, f, g) и Е3= —{ft, i}. Каждое из этих событий можно в свою очередь разбить на события: £iw={o} и Ец>={Ь, с, d}; E2V.={e, f} и E2b={g}; E3w={h} и £at)={t}. Термин «разбиение» озна- чает, что любая пара этих событий имеет нулевое пересечение. В этом случае P(Ei, £з)=0, P{Et, £3)=0 и P(ES, Е2)=0. То лее самое долж- но быть справедливо и для событий, полученных после повторного раз- биения £i, Е2 и £3, так что P(Eiv>, Etb)=d, P(E2w, Е2Ь)=0 и P(E3w, Езь)=£. Все эти соотношения про- иллюстрированы на рис. 5.4,а. Рассмотрим пространство S (рис. 5.4,а) и событие £lw={a}. Оно со- стоит в том, что на шарике белого цвета написана буква а. Вероят- ность выбрать эту букву из множе- ства S можно записать как P(Eiw)=P(Ei, £w)=l/9. Если о вы- бранной букве известно, что она принадлежит £i, то соответствую- щая условная вероятность равна P(£w|Ei)=1/4. Если известно, что выбранная буква написана на ша- рике белого цвета, то P(Ei\Ew) = =1 /4, так как из четырех имеющих- ся белых шаров только один при- надлежит Et. Та же самая задача проиллю- стрирована и на рнс. 5.4,6 с той лишь разницей, что полная площадь прямоугольника на нем считается равной единице (на рис. 5.4,а она равна 9). Соответственно площади трех столбцов на рис. 5.4,6 равны 4(9, 3/9 и 2/9. Площадь верхнего^ правого прямоугольника, отвечаю- щего букве а, равна 1/4 только в том смысле, что она составляет 1/4 площади первого столбца. От- носительно всей площади большого прямоугольника эта площадь со- ставляет 1/4 от 4/9, т. е. 1/4-4/9= = 1/9. Аналогично площадь прямоуголь- ника с буквами е и f внутри состав- ляет 2/3 площади столбца Е?„ До- ля этой площади во всей площади есть 2/3 от 3/9, т. е. 2/3-3/9=2/9. Таким образом, числа 4/9, 3/9 и 2/9 есть вероятности событий Elt Е2 и Е3 Числа 1/4, 3/4, 2/3 и осталь- ные представляют собой условные- вероятности, смысл которых сразу виден из рисунка и которые не тре- буют никаких вычислений. Напри- мер, Р(£„|£1)=]/4, Р(£ь|£3) = 1/2’ и т. д. Вероятность выбрать белый шар с буквой а на нем, т. е. вели- чина P(EW, £i), равна отношению площади верхнего прямоугольника- первого столбца ко всей площади. Мы уже знаем, что он составляет 1/4 от 4/9, т. е. 1/4 4/9=1/9. От- сюда P(£u,, £i) = (1 /9)/1, так как полная площадь всего прямоуголь- ника равна единице, и эту единицу в знаменателе можно опустить. Та- ким образом, чтобы получить Р(Е1е, Ei), достаточно вычислить произведение 1/4-4/9. В используе- мых обозначениях P(EW, £i)= = P(£u,|£1).P(£1)=l/4-4/9= 1/9. Плошадь верхнего прямоугольника второго столбца составляет 2/3 от 3/9, т. е. 2/3-3/9=2/9, откуда £(£«., £2)=Р(£ю|£2)-Р(£2)=2/9,
Если о выбранной букве известно, что она написана на белом шаре, то вероятность того, что она при- надлежит Ei, равна P(Ei |£„) =1/4. В верхних прямоугольниках всех трех колонок на рис. 5.4,о содер- жатся ровно 4 белых шара, н толь- ко один из них принадлежит Et. Эту вероятность можно найти и с помощью рис. 5.4. Составим сле- дующее отношение: площадь перво- го верхнего прямоугольника, делен- ная на сумму площадей трех верх- них прямоугольников, т. е. />(£.[£„) = ____________£ю)___________________ £t-)4-P(E±. £а,) + Р(£г> £ц1)] — — 1Р{£Ш| £,)-Р(£1)+Р(£И1/£',)Р(Ея)+ — + P(£W|£3)P(£3)J I 4 / 7 1 4 2 3 ~ 4 " 9 / \ 4 ' 9 г 2 " 9 + ^29 J 4 * Это отношение называется фор- мулой Байеса; оно всегда примени- мо к разбиениям пространств эле- ментарных событий, подобных рас- смотренному на рис. 5.4. Отметим, что если бы события, вероятности которых суммируются в знаменате- ле, не были бы взаимно несовме- стимы, то эти вероятности нельзя было бы складывать. Пространство элементарных со- бытий Se также можно рассматри- вать как разбиение-—сначала на множество мужчин и множество женщин, а затем — на множество первокурсников и второкурсников. При этом «(Se)=20, Р(М) — = 14/20, Р (F) = 6/20, Р (J I М) = = 4/14. P(J, Р) = 2/Ъ, Р(М. ]) = =Р(М;) = 4Г20. P(F, J) = P(Fj)^ = 2/20 и РШ|/) = Р(Лф)/]Р(М, J)4-P(F, ЛИРСВДР^Н-Р^Н = Р (J | М) • Р (М)/[Р и \М)-Р (Л!) + + P(/|F).P(F)] = 4/6 Формула Байеса особенно полез- на в тех случаях, когда мы не зна- 82 ем ни n(S), ни «(ЕД, т, е. когда в условиях задачи даны лишь ве- роятности тех или иных событий. Предположим, например, что име- ются три урны, в которых лежат белые и черные шары. Число шаров в каждой из урн таково, что Р(1) = =0,2, Р(Н)=0,5 и Р(Ш)=0,3. Та- ким образом, вероятность того, что некоторый шар (независимо от его цвета) происходит из первой урны, равна Р(1)=0,2. В первой урне до- дя белых шаров равна 0.4, во вто- рой— 0,7, а в третьей — 0,1. Эти значения представляют собой услов- ные вероятности, и в используемых обозначениях их можно записать в виде P(IF|I), Р(№|П), P(IF|III) и т. д Далее, P(I, 1Г)=Р(1) X ХР(МП I)—0,08, откуда Р(1|1Г) = Р(1)-Р(Г]1)ДР(1)Х ХР(^|1) + Я(П)-Р(1Г|П) + 4- Р (III) - Р (WIIII)] = 0.08/9,46 = =4/23. Эту дробь можно также представ- лять себе как отношение площади верхнего прямоугольника первого столбца к сумме площадей трех верхних прямоугольников. Этот пример можно переформули- ровать как задачу из анализа ре- шений. Представим себе, что фирма А собирается объявить конкурс на заключение выгодного контракта. Фирма В располагает достаточной информацией о фирме А для того, чтобы оценить минимально возмож- ный, максимально возможный и промежуточный объем контракта. Обозначим их цифрами I, II и III соответственно. По оценкам фирмы В, вероятность того, что Л предло- жит минимально возможный кон- тракт, равна Р(1)=0,2, а две дру- гие вероятности равны Р (II) =0,5 и Р (III) =0,3. Со своей стороны фир- ма В может в данный момент уча- ствовать только в этом конкур- се, поэтому она может в каждом из трех случаев легко оценить ве- роятность того, что ей удастся полу- чить зтот заказ. Л именно, по ее
? (SffPGfffTtMCCffH rfc w)=8j$ r&wtyjs ffo w)-mj f(ftL)-D,lZ f(E9L)=Q,?7 Рис. 5-5. Вероятности (достоверности) сложных событий оценкам. Р(F11) =0,4, P(W|II)= =0,7 и Р (IF| III)=0,1. Располагая всеми этими данными, фирма В мо- жет теперь вычислить вероятности событий типа «А объявляет конкурс на контракт типа I, и наша фирма его получает», т. е. вероятности P(I, 1F), Р(П, IF) и Р(Ш, IF). Пер- вая из них, например равна Р(1, IF) = Р(1) .р(Г|I) =0,2(0,4) = =0,08. Вероятности типа P(I, IF) назы- вают иногда сложными вероятно- стями. На рис. 5.5 для нашей за- дачи приведен полный набор таких вероятностей. Мы построили это де- рево с единственной целью пока- зать, что все сложные вероятности последнего уровня дают в сумме единицу. Другой способ наглядно представить себе эту ситуацию—это воспользоваться рассмотренной на- ми выше системой прямоугольников (см. рис. 5.4). 5.2. НЕЗАВИСИМЫЕ СОБЫТИЯ, БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 5.2.1. Независимые события 4 и испытания Еще одним важным понятием ис- числения вероятностей является по- нятие «независимые события» (как и понятие «зависимые события»). Оно находит применение для вычис- ления вероятностей вида P(Eit Ez, Еп). Поясним его на примере всего двух событий. Как мы уже видели выше, справедлива формула» P(El,Et) = P(El).P(El\Ey Однако в некоторых типах задач ' P(£JE,) = P(Et); в этом случае Р (£..£,) = £(£,)£(£,). В то время как формулу P(£i, £г)= =P(Ei) ’P(Ei\Ei) можно применять, к зависимым и независимым со- бытиям, формулой P(Ei, Е?) = =Р(Е1) -Р(£2) можно пользовать- ся только для вычисления вероят- ностей независимых событий. Во всех рассмотренных выше за- дачах мы имели дело с эксперимен- тами, которые предполагали прове- дение испытания. Таким испытани- ем могло быть одно подбрасывание .монеты или игральной кости, выбор наугад одной буквы или одной кар- ты и т. п. Понятие зависимых и не- зависимых событий используется в гораздо большем числе приложений,, и его проще всего пояснить на при- мере задачи, условие которой тре- бует проведения не одного, а не- скольких испытаний. Предположим, что имеются три одинаковых шара, на которых напи- саны буквы а, Ь, с. Они образуют' пространство элементарных собы- тий S={a, b, с). Испытание заклю- чается в последовательном выборе двух шаров. Посмотрим, какие при- этом возможны события. Мы будем обозначать их следующим образом: (а, а) —это значит: «а и а» или «за а следует а»; (Ь, а), (а, b или а., с) — событие заключается в том^. что на первом выбранном шаре на- писана буква а, и т. д. Наша зада- ча — вычислить вероятности Р(а, я), Р(Ъ, а), Р(а, b или а, с) и др. Перечисление всех возможных ис- ходов. Стандартный способ вычис- ления вероятностей требует пере- числения всех возможных исходов (теперь уже при выборе двух ша- ров). Условимся, что каждый вы- бранный шар возвращается на свое 83-
а Ъ с /|\ /|\ /|\ ab cab cab с S^{aa,ab,au3ba,bb,bcfca,cb,c£} а) а b с , /|\ /|\ /|\ abcabcabc /|\/\/|\/|\/|\/|\/|\/|\/|\ a b cabcabcabcabcabcabcab cab £ S^-faaa, aabt aac, aba, abb, abc, аса, acbt accr baa, bab, bact bba, bbbt bbc, bca, bGb, bcc, R caa, cab, cac, cba, ebb, ebe, ccaf ueb, ccc} ° Рис. 5.6. Перечисление всех возможных исходов с помощью дерева исходов (5= {a. bt с}); а— независимые испытания, п«*2; б — зависимые испытания, п—2; а— независимые испытания; л=3; г — ааййскмыв испытания, л-3 место *. Множество всех возможных исходов (новое пространство эле- ментарных событий) будет некото- рым множеством пар букв. Проце- дура его перечисления наглядно по- казана на рис. 5.6,а. С помощью этого дерева немедленно получаем пространство элементарных собы- тий S*—{аа, ub, ас, ba, bb, Ьс. са, cb, сс). Как и ранее, на этом пространст- ве можно определить много различ- ных событий. Событие (а, а), «а и я» или «за а следует а» (слово «следует» означает здесь то же са- мое, что и союз «и») является, как и следовало ожидать, подмножест- вом £={п.д} множества 5*. Это со- бытие встречается во множестве S* только один раз, откуда л(£)=1, и, учитывая, что л(5<')=9, получа- ем Р(а, а)=Р(Е) = 1/9 Событие «а на первом месте» (т. е. на первом из выбранных ша- ров написана буква а) содержит три элемента из множества S* (см. рис. 5.6,а). Его можно записать в виде Е—{аа, ab, ас}, и, таким об- разом, Р(а на первом месте)= =Р(Е)=3/9. Вывод биномиального распреде- ления с помощью пространства эле- ментарных событий S *. Биноми- альное (как и гипергеометрнческое) 1 В статистике такой вид испытаний называется выборкой с повторным отбо- ром. — При ч. ред. 84 распределение получается при ана- лизе событий следующего типа: «число шаров, на которых оказалась написанной буква а, равно некото- рому фиксированному числу». При этом 'полное число проведенных ис- пытаний мы обозначим буквой п. Для нас существенно лишь то, сколько раз в этих испытаниях мы вынули букву а, и совершенно не важно, в каком порядке это про- изошло. Число шаров с буквой а мы обозначим X,. Тогда при'л=2 X; может принимать следующие значе- ния; Xi=0, Хг=1, Хз=2. Это зна- чит: буква не была написана ни на одном из выбранных шаров; она была написана на одном шаре из двух; она была написана на обоих выбранных шарах. Достаточно взглянуть на множе- ство S*, чтобы заметить, что собы- тие £’1=(Х1=0) встречается в нем четыре раза, откуда д(Е1)=4 и Р(%! =0) =4/9. Далее, Е2=(Х2= =1), л(Е2)=4 и Р(Хг=1) = =4/9, а Ез=(Х3=2), п(Е3}=\ и Р(Хз=2)=1/9, причем SP (%,-) = =57"= 1. Тем самым величины X,- вместе с соответствующими вероят- ностями P{Xi) образуют распреде- ление вероятностей случайной пере- менной X,. Оно называется бино- миальным распределением и приве- дено в табл. 5.2 (при и=2). Биномиальное распределение име- ет свойства, которые делают его
Табл и ц а п.2. Биномиальные распределения п = 1/3» ч — 2 и п = 3 п — 2 л — ' 3 1 [ pvrz> Х1 А^О 4 9 = 0,444... А',=0 8/27 А\^=1 4 •9 = 0.444... 12/27 л 1/9 = 0.111... А',=2 6/27 Х,=3 1/27 I 1.000 — I ПрП.Чгчлиие Соответствующее ирострэкспю эле° менгарных. событий: 3 = |а, t>. cj мчи 5 = {а, п*, a' J, или S — {IF, В» В}, исключительно полезным в задачах, связанных с выборками из гене-' ральных совокупностей, которые естественным образом распадаются на две части (дихотомные генераль- ные совокупности). Как мы вскоре убедимся, при одном и том же числе испытаний (например, при л-2) и при условии, что доля отме- ченных объектов (в нашем случае— буквой а) фиксирована, биномиаль- ное распределение не зависит ог числа элементов в пространстве элементарных событий. Так, при л=2 биномиальное распределение одинаково в для S={a, b, с), и для S—{а, а, Ь, Ь, с, с}, и для S={200 раз а, 400 раз не а}. Другая характерная черта би- номиального распределения заклю- чается в том, что соответствующее ему пространство элементарных со- бытий естественным образом рас- падается на две части (является дихотомным). Нас интересуют лишь элементы, помеченные буквой а, и нам безразлично, будут ли два прочих элемента (или 400 прочих элементов) помечены буквой Ь, буквой с или и той, и другой впе- ремешку. Кроме того, для нас не существен порядок выбора элемен- тов: неважно, «следует за а эле- мент, помеченный иначе», или наобо- рот. Все, что мы должны сделать,— это выбрать один элемент, возвра- тить его на место, еще раз выбрать какой-нибудь элемент и записать, сколько раз нам попались элемен- ты, помеченные буквой а. Ясно, что при п— 2 это число может равняться 0, 1 или 2. При п=3 мы должны выбрать друг за другом три элемента (с воз- вратом каждого на место) и сосчи- тать, сколько раз нам попадется буква а. Возможные исходы — 0, 1, 2 или 3 раза. В последнем случае буквой а будет помечен каждый из выбранных элементов. Таким обра- зом, при условии, что буквой а по- мечена одна треть элементов S, т. е. что Р(а)=1/3, мы можем пол- ностью перечислить все варианты того, сколько раз при проведении трех испытаний может встретиться буква а. Имеем A't=0, Хг=1, Xs=2, А\=3, и остается вычислить веро- ятности P(Xi), P(Xi}, ..Р(Хп+1). Как и ранее, Р(Х2=1) означает ве- роятность того, что при выборе трех элементов буквой а окажется поме- чен ровно один из них. Читатель, наверное, уже заме- тил, что процедура построения би- номиального распределения совпа- дает с процедурой взятия выборки из дихотомнон (состоящей из двух частей) генеральной совокупности. Вопрос о том, какую долю составля- ют в пространстве элементарных событий элементы, помеченные бук- вой а, аналогичен вопросу о том, какая часть студентов университета имеет голубые глаза, или какая часть избирателей будет голосовать за кандидата Я, или какая доля только что произведенных деталей. оказалась бракованной. Для'эконо- мии времени и средств естественно попытаться оценить каждую из этих величин по некоторой выбор- ке. Возьмем какую-нибудь выборку, определим, сколько элементов из нее помечено буквой а, обозначим это число X/, и разделим на наше число независимых испытаний (на объем выборки). Отношение Хк к общему числу проведенных испыта- ний п (к объему выборки) можно считать оценкой доли элементов, помеченных буквой а во всей гене ральной совокупности. Предположим, что буквой а по- мечено 40% элементов генеральной 85
совокупности. Возьмем выборку, со- стоящую, например, из 10 элемен- тов (т. е. проведем 10 испытаний с возвратом каждого шара на ме- сто) . Сосчитаем, сколько раз в этой выборке нам встретится буква а. Если окажется, что Х5=4, то отно- шение Х5 к п (т. е. 4/10) в точности совпадает с долей таких элементов во всей генеральной совокупности. Если в этих 10 испытаниях мы по- лучим значение Х<=3, то дробь 3/10 даст уже менее точную оценку доли элементов с буквой а в рассматри- ваемой генеральной совокупности. Попытаемся получить лучшее при- ближение и возьмем для этого вы- борку, содержащую 100 шаров (по- прежнему с возвратом), Если ока- жется, что 40 шаров из них помече- ны буквой а, то наша оценка вновь будет точной, поскольку величина p4i—Х41 /л=0,4 есть отношение пол- ного числа шаров с буквой а к объе- му генеральной совокупности. Если в нашей выборке из 100 элементов буква а встретится Х40=39 раз, то полученная нами оценка уже не бу- дет абсолютно точной, но достаточ- но близкой к действительности. Однако если мы насчитаем Х3|=ЗО шаров с буквой а, то наша оценка будет столь же плохой, как и для %4=3 в выборке с «=10. Чему же равна вероятность Р (Х4=3) при «=10 и Р (Х31=ЗО) при п= 100? Если Р (Х31==ЗО) ока- жется меньше, чем Р (Х4=3), то нам целесообразнее взять выборку объемом «=100. Если значение Р (Х31=ЗО) мало, то выборка из 100 элементов даст нам больше шансов получить значение Хь, близ- кое к действительному, выборка л=10. Эти вероятности задаются соот- ветствующими биномиальными рас- пределениями, и именно поэтому эти распределения так важны в стати- стике. Точно так же можно с помощью выборки оценивать и долю студен- тов с голубыми глазами, избирате- лей, голосующих за кандидата А, или бракованных деталей. 86 Каким же образом можно в об- щем виде получить значения вероят- ностей, соответствующих бино- миальному распределению? В рас- сморенном нами примере (при п=2 и при условии, что буквой а была помечена одна треть элементов S) мы делали это, построив сначала множество S*, а затем пересчитав число его элементов, содержащих О, 1 и 2 буквы а. Теперь наша цель в том, чтобы вывести Формулу, с по- мощью которой Р(Х.) для бино- миального распределения можно вы- числять непосредственно по харак- теристикам множества S, не перехо- дя к вспомогательному множест- ву S*. Независимые события и правило умножения вероятностей. Вероят- ность любого события вида Е= (EiT Ег. .... Еп) можно найти также с помощью так называемого прави- ла умножения ьероятностей. Это правило требует обращения лишь к исходному пространству элемен- тарных событий, что избавляет от необходимости перечисления всех возможных исходов (т. е. элементов множества S*). Например, вероят- ность Р(а, а), т. е. вероятность со- бытия «за а следует а», можно вы- числить следующим образом: Р(а, а) = Р(я)-Р(а|о) = Р(а)Х хР(а, если на первом выбран- ном шаре была буква а) = 1/3х X 1/3=1/9. Мы получили тот же ре- зультат, что и при перечислении элементов множества S*. Так как каждый элемент, будучи выбран, возвращается после этого на свое место, результат первого испытания не уменьшает пространство элемен- тарных событий и, следовательно, не отражается на вероятности получить при втором испытании тот же эле- мент а. Таким образом, эти два со- бытия являются независимыми, сле- довательно, Р(ц|а)=Р(а) и Р(а,а)==Р(а)'Р(а). Аналогично Р(а, с) = Р{а)-Р{с\а) = Р(а)х ХР(с)=1/3-1/3=1/9. Список всех возможных исходов в задаче о последовательном выборе трех шаров (с возвратом каждого
на место) приведен на рис. 5.6,в. Па множестве 3* можно определить це- лый ряд событий, включая события вида £=(£|, £2, .... Еп). Напри- мер, вероятность того, что «за а сле- дует буква а, за которой снова сле- дует а», равна Р(а)-Р(а)‘Р(а) = =(1/3)3=1/27, Тот же результат дает и вспомогательное множество 3*. в котором событие Е={ааа} встречается всего один раз, откуда «(£) = !, n(S*)=27 и Р(а, а, а) = =1/27. События типа «число элементов с буквой а при трех последователь- ' ных испытаниях (независимо от их порядка) равно фиксированному числу (т. е. или 0, или 1, или 2, или 3)» вместе с соответствующими вероятностями (которые можно вы- числить с помощью множества S*) также образуют биномиальное рас- пределение (см. табл. 5.2 при п= =3). Оно вполне аналогично бино- миальному распределению с п=2.' В частности, если случайная пере- менная приняла значение Xi=0, то это можно интерпретировать как «в трех испытаниях буква а не встретилась ни одного раза»; Хз= =2 — «буква а встретилась два ра- за» и т. д. Поскольку после каждого испыта- ния выбранный шар возвращается на место, задача имеет смысл и при л>п(3), т. е. для более чем трех испытаний. Ее можно решать теми же двумя способами: путем пе- речисления всех возможных исхо- дов и с помощью правила умноже- ния вероятностей. Например, если на множестве S={a, b, с} определе- но событие E-s=(a, а, Ъ, с, а), то Р(Е) = Р(а) • Р(а) • Р(Ь) • Р(с) X ХР(а) = (1/3)5=1/243. Заметим, что вероятность того, что «е следует за а», равна вероятности того, что «а следует за с». Действительно, от перемены .мест сомножителей произведение не меняется, откуда Р(а, с)=Р(с, а)=Р(а)-Р(с) = =Р(с)‘Р(а). Дихотомное пространство элемен. тарных событий Еще один способ описать событие на множество 3 (например, событие 3 = (а, 6, с)) за- ключается в следующем. Рассмо- трим события £i=(a) и Е2—(а'), где а' означает событие, включаю- щее элементы, отличные от а, так что при этом Р(а) -j-P(a')=l- Обо- значение Е2=(а') заменяет обо- значение £2={&, с), после чего мно- жество S можно записать в виде S={a, а', а'}. Такая форма записи указывает на то, что нам безразлич- но, какие буквы, кроме а, имеются во множестве 3. И в том, и в другом варианте л(£2)=2 и P(£2)=P(h или с) = Р(а') =2/3. Точно так же Р(£ь £2)=Р(а, а') = 1/3-2/3=2/9. Этот пример типичен для задач, связанных с дихотомными простран- ствами элементарных событий. Как правило, в таких случаях использу- ются следующие обозначения. Ве- роятность Р(а), определенную на пространстве S (а не на S*), обыч- но обозначают буквой р, а Р(а') — буквой q Другими словами, полага- ют Р(а)=р и P(u')=q, где q=\—р и p-]~q=]. Однако в связи с тем, что мы в этой книге будем обозначать через р процентные характеристики выборки, для обозначения Р(а) бу- дем пользоваться греческой бук- вой я. В нашем примере P(aj= =л=1/3 и Р(п')=1—л=2/3. Выра- жения вида Р(а, а')=Р(а) *Р(а') теперь можно переписать следую- щим образом: Р(а, а')=л(1—л) = =1/3-2/3=2/9; Р(а, а, а')=_Р(а)Х XP(a)-P(a') = л2(1—л) = (1/3)2Х Х2/3 = 2/27; P(a, а', а')=Р(а)Х X P(a')-P(a') = л(1— л)2=1/3 X X (2/3)2=4/27. Отметим еще раз, что во всех этих примерах мы имели дело с независимыми событиями (выбор элемента с возвратом его на место). Каждое из них включало несколько испытаний, проводивших- ся на множестве S={a,b, с} (или в новых обозначениях S={a, а', а'}) • Приведенные в табл. 5.2 бино- миальные распределения и дают ве- роятности того, что буквой а будут помечены Xi элементов (при прове- дении двух и трех испытаний). Эти вероятности получены путем перебо- ра элементов вспомогательных про- ст
странств элементарных событий S* на рис. 5.6,а. При этом интересую- щие нас события были определены таким образом, что единственным существенным для нас параметром является число элементов с бук- вой а, полученных в п испытаниях, и для нас неважно, какими буквами были помечены все прочие элемен- ты. Именно в этом смысле наше про- странство элементарных событий распадается на две части и называ- ется дихотомным. Результат совер- шенно не зависит от того, строим ли мы пространство элементарных со- бытий S* по множеству S={a, а', а'} или по множеству 5’={U7a В, В}, где W— белый шар, а В — черный. 5.2.2. Зависимые события и испытания Рассмотрим теперь задачу о про- ведении двух или трех испытаний в том ее варианте, когда выбранный шар не возвращается на свое ме- сто1. В этом случае мы встречаемся с простым примером зависимых со- бытий. Как и ранее, перебором всех возможных исходов строится мно- жество S*, на котором можно опре- делить целый ряд различных собы- тий. Вероятности этих событий, на- пример события вида E=(Elt Ец), можно получить пересчетом соответ- ствующих элементов из S*. Другой способ — воспользоваться формулой произведения вероятностей. При этом, однако, следует иметь в виду, что P(£2|^i) ¥=Р(Е*), так как вы- бранный элемент не возвращается на место, указанную формулу необ- ходимо использовать в общем виде: P(Elt Е^Р^-Р^Е^. Таким образом, вероятность полу- чить в первом из двух испытаний букву а (см. рис. 5.6,6) рацна 2/6 (сравните с 3/9, как это было в том варианте задачи, когда шары после каждого испытания возвращались на свое место). Вероятность собы- тия а и Ь, или, другими словами, 1 В статистике такой вид испытаний называется выборкой с бесповторным от- бором.— Прим, ред. 88 «за а следует Ь», равна 1 /6, что ' можно получить и по формуле Р(а, &) =Р(а)-Р(6|я) = 1/3-1/2 = =1/6. Очевидно, что Р(а, а} = = Р(а) -Р(а|п)=1 /3-0=0. Вероят- ность Р(а, Ь, с), вычисленная для трех испытаний с помощью множе- ства S* (рис. 5.6,г), равна 1/6, что- согласуется с вычислением по фор- муле Р(а. Ь, с)=Р(а)-Р(Ь\а)Х ХР.(с\а, 6)=1/3-1/2-1=1/6. Ясно, что вероятность Р(а, а, 6)=0. Вероятность вытянуть из колоды карт два короля подряд равна Р(К, /С)=4/52-4/52 (в задаче с воз- вратом) и 4/52-3/51 (без возврата); вероятность вытянуть короля, а за- тем туз или даму равна Р(Л', Л или Q) =4/52-8/52 (свозвратом) и4'52х Х8/51 (без возврата). Далее, Р (К. К') = л (1 —л) = 4 /52 - 48 /52 (с возвратом) и л-48/51 (без воз- врата). В последнем случае мы уже не можем писать в качестве второго сомножителя 1—л (вероятности ме- няются от испытания к испытанию). Вероятность того, что при двух подбрасываниях игральной кости оба раза выпадает 1, равна Р(1, 1)=1/6-1/6; Р(1, !')= . =л(1—я)=1/6-5/6. При пяти под- брасываниях Р(1, 1, Г, Г, Г) = =я2(1—я)3=(1/6)2(5/6)3. Все эти испытания обязательно будут неза- висимыми «по определению», так как в эксперименте с игральной' костью результат предшествующего испытания никак не может оказать влияния на следующий за ним, Независимые испытания вида P(l, I, 1)=л3=(1/6)3, когда каждое испытание проводится на одном и том же пространстве элементарных событий, иногда называют повторны- ми испытаниями. Если мы имеем дело с повторными испытаниями на дихотомном пространстве элемен- тарных событий, то в этом случае всегда можно пользоваться обозна- чениями л и 1—л (или, как это де- лается во многих других книгах, р и <?) Сравнение независимых испыта- ний с зависимыми. Различия меж- ду зависимыми и независимыми
испытаниями (между испытаниями с возвратом и без возврата) весьма существенны для процедуры отбора выборки. Рассмотрим пример. Пусть имеются три шара с бук- вами а, b и с на них. Чтобы полу- чить днхотомное пространство эле- ментарных событий (дихотомную генеральную совокупность), запи- шем наше множество в виде S= ={а, а', а'} или, еще лучше, S= ={№, В,'В}, где V/ — белый шар, а В — черный. Обозначим это про- странство элементарных событий че- рез Si и рассмотрим еще 52={117, И7, В, В, В), Ss={10 раз 20 раз В} и S4={50 раз W7, 100 раз В}. Число элементов в этих простран- ствах равно: n(S|)=3, n(S2)=6, л($з)=30 и rt(S<j = 150. Считая эти пространства генеральными сово- купностями, можно записать Лч=3, ЛГ2=6, Л/3=ЗО и Л?4==150. Пусть п есть число испытаний, каждое из которых состоит в выбо- ре одного элемента из множест- ва 5,-. При п=2 для каждого из этих пространств элементарных событий вероятность того, что мы дважды выберем белый шар (при условии, что первый возвращается на место), равна Р(Г, 1Г)=]/3-1/3=1/9= =0,111. Кроме того, несмотря на то, что n(S|)=3, соответствующие ве- роятности будут иметь смысл и для п>3; например, /’(TV, U7, W, IV') = = (1/3)*. Если выбранный шар не возвра- щается на место, вероятность P(Et, £2, Вп) будет зависеть и от n(Si) (илщ что то же самое, от Л'.), а при n>n(Si) (т. е. при n>N,) бу- дет равняться нулю [что вовсе не значит, что мы не можем получить нулевую вероятность при «<n(Si)J. Действительно, для пространства $,Р(Г. IV')=1/3-0=0, для' прост- ранства S2 P(W, №) = 1 /3-1/5= =1/15=0,067, для пространства 53Р(Г, Г) =1/3-2/29=9/87=0,103 и для S4 P(W, W) = 1/3-49/149 = =49/447=0,109. Интересно отметить, что если от- ношение п к >V стремится к нулю, то вероятность P(W, IV') быстро приближается к 1/9=0,111, т. е. к значению соответствующей ве- роятности в задаче с независимыми, испытаниями. Это обстоятельство лежит в основе взаимосвязи между биномиальным и гипергеометриче- скими распределениями. Сравнение биномиального распре- деления с гипергеометрическим. При л=2 биномиальное распределение для Si=(W', В, В) в точности совпа- дает с распределениями для S|= ={а, Ь, с} и Si={a, а', а'} В каж- дом из этих случаев значения слу- чайной переменной определяются как число элементов, помеченных буквой а и полученных в двух испы- таниях с возвратом (см. табл. 5.2). Точно так же можно получить и би- номиальное распределение для мно- жества .$2={№', П7 В, В, В}. Доста- точно построить ветвящуюся диа- грамму, подобную построенной на рис. 5.6,а, переписать все возмож- ные (их будет 36) исходы и сосчи- тать, сколько элементов S*2 вклю- чают 0, 1 и 2 белых шара. Соответ- ствующие вероятности будут иметь значения 16/36, 16/36 и 4/36, т. е. 4/9, 4/9 и 1/9. Они совпадают с ве- роятностями биномиального распре- деления, определенного на множест- ве S( (табл. 5.2, п=2). Те же значе- ния будут получены и для множест- ва 5*3 и 5*4. V Все эти примеры говорят о том, что вид биномиального распределе- ния не зависит от числа элементов в S (другими словами, от объема генеральной совокупности Л'). По- этому, если для двух пространств элементарных событий значений л и п одинаковы, соответствующие им биномиальные распределения также будут совпадать и не будут зависеть от величины n(S) (или .V). Рассмотрим теперь задачу о вы- боре двух шаров из множества \= ={а, Ь, с} без возврата выбранного шара на место. Множество возмож- ных исходов изображено на рис.5.6,6. На нем можно определить также события, состоящие в том, что число выбранных элементов, по- меченных буквой а, равно (незавн- 89
Таблица 5.3. Гипергеометрическке распределения для я-=>1/3®/,> п = 2> JV. = 3. 2V. = 6, /У, = 30, Л\ = 150 я) = Ь, с} или £, = {<7, а', а'} или S. = {U7, В, В) G) St^{W, В, В, В, В} х< С- Х1 Р(Х.) 0 2/6=0,333 » 0 12/30 = 0.400 1 4/6=0,667 ] 16/30=0.533 2 0 =0,0 I 1,000 2 2/30^0,067 ’ 1 1,000 в) £,= {10 раз «?', 20 раз В} Xi 0 380/870 = 0.437 1 400/870 = 0,460 2 90/870 = 0,103 J 1.0С0 г) S4 = {50 раз IT, 1С0 раз В) xi Р [X.} 0 9900/22 350 =*0.443 1 10 000/22 350 = 0,445 2 2450/22350=0,100 1 1,000 симо от их порядка) некоторому фиксированному числу. Обозначая это число через Xi, построим новое распределение (табл. 5.3,а), кото- рое называется гипергеометриче- ским. Точно такое же распределение получится и для множеств Si={a, а', а'} и S1=={^, В, В}. В табл. 5.3 приведены и другие гипергеометрические распределения для л=1/3 и л=2, но при 7^2=6, Л’з=30 и при Л\=150. Хорошо вид- но, что с уменьшением отношения п к N вероятности P(Xi) быстро при- ближаются к соответствующим ве- роятностям биномиального распре- деления из табл. 5.2,а. Уменьшить Отношение п к Лг можно, например, увеличивая N (как мы и делаем в рассматриваемом примере) и со- храняя при этом величину п по- стоянной или, наоборот, сохраняя постоянным значение N и уменьшая величину п. Разумеется, если значе- ния п и N достаточно велики, пере- бор всех возможных исходов с по- мощью построения ветвящейся диаграммы быстро становится непо- сильной задачей. Именно поэтому важно иметь в виду, что для пост- роения биномиального распределе- ния достаточно знать лишь значения п и л, в то время как для построе- 90 ния гипергеометрического распреде- ления требуется и значение IV. 5.2.3. Совместные вероятности С теоретической точки зрения, важно уметь объяснить свойства би- номиального и гипергеометрического распределений в терминах совмест- ных вероятностей. Тем не менее эти понятия имеют смысл и во многих других задачах, поэтому мы начнем с рассмотрения некоторых общих положений. Понятие совместных вероятно- стей используется в тех случаях, когда при фиксированном простран- стве элементарных событий и для проведения конкретного эксперимен- та нас интересует несколько харак- теристик исхода. Приведем несколь- ко примеров. Пример 1. В группе 10 студентов: а именно £={!/, Im» Im» II/» Пт> Пт» III/. Шт, IV/, IVfn}» где римской цифрой обозначен курс, на котором учится сту- дент, а индексы ш и f обозначают пол — соответственно мужской и женский. Опре- делим случайные переменные X и У сле- дующим образом: Х=0 для f, Х=1 для ш, У=0 для I, У=1 для И» У=2 для III и У=3 для IV. Таким образом, случайная переменная X принимает значения от 0 до 1, а случайная переменная У —от 0 до 3-
Таблица 5Л. Таблицы совместных вероятностей а) X Y Р{Х = ж) 0 1 , 2 1 I 3 0 1 0,1 0,2 0.1 0,2 о,1 0,1 0.1 0.1 0.4 0.6 Р(У=у) 0,3 0,3 0.2 0,2 1.0 б) х> Ха = Xt) 0 1 1 2 0 0.09 0.06 0,15 0,30 1 0,06 0,04 0,10 0,20 2 0,15 0,10 0,25 0,50 Р (ХЕ = х2) 0.30 0,20 0,50 1,00 Х1 Р <Xt - ж*) 0 1 2 0 _3 2 _6 10' 9" 90 3 2 6 Ю’ 9=90 _3 5 15 Ю’“9”90 27 Л 90“0.30 1 _2 3 _6 10‘ 9=90 _2 1 _2 10* 9=90 2 5 10 10 9~90 18 ^=0,-20 2 5 3 15 10 *9—90 _5 2 10 Ю’ 9=90 5 4 20 Ю’ 9~90 45 90°°-ТО Р (X, = X.) 27 уц=0,30 18 90~0,20 45 Л gg=0.50 1.00 Нас интересуют совместные вероятно- сти зида Р(Х=х и У=г/), например веро- ятность Р(Л=1 и У=0). Все варианты возможных исходов перечислены в табл. 3.4,а. Одного взгляда на пространство эле- ментарных событий S достаточно, чтобы заметить, что Р(1ж)=2/10, так как из 10 студентов имеются равно два первокурс- ника мужского пола. Поскольку в наших обозначениях событие (Im) записывается в виде (Х=1 и У=0), вероятность Р (Х= «=1. У=0)=0,2. Именно это значение сто- ит в клетке с21 табл. 54 а. Аналогично P(IV/)=l/10=P(X=0, У=3). Прпжр 2. Рассмотрим пространство элементарных событий» состоящее из бе- лых. красных и зеленых шаров: §={№, W', Я. Я, 6, G, G, G, G). Определим случайную переменную X, равную О, 1 и 2 для V, Я и G соответственное Тогда Р( №)=Р(Х=0)=0,3. Выберем теперь два шара (с возвратом) и обозначим результат первого испытания через Хь а второго — через Х2. Наша задача — вычислить веро- ятность того, что (Xi«=x1 и На- пример. вероятность P(Xi=l) при первом испытании равна Р(ХТ = 1) *=0,2, а веро- ятность Р(Х2=0), соответствующая второ- му испытанию, равна Р(Х2=0)=0,3. Отсю- да Р(Х]=1, Х2=-0)=Р(Х1=»1)Р(Х2=-О)- =0.2(0,3) >=0,06- Именно это число стоит в клетке c2i табл. 5.4,6. Пример 3. Рассмотрим задачу из при- мера 2» но будем считать, что после каж- дого испытания выбранный шар не воз- вращается на место. В этом случае Р (Х! = 0. Х5-0)=Р (Х1«0)Р(Х2=0|Х1 = «0)—3/10-2/9 6/90, что н стоит в клетке с21 табл. 5.4,в. Подобным образом можно получить (см. клетки c2i) Р(Х-И» Х2—0)™ =Р(Х1)Р(Х2=0|Х1«=1)=2/10-3/9=6/90. Каждая часть табл. 5.4 содержит и гак называемые маргинальные вероятности. Так, в части а даны вероятности Р(/)== =Р(Х=0)=0,4 и гР(П)=Р(У=1)-0А в частях б и я— вероятности P(Xj=0) = =Р(Х3=0)=Р(Б)=0,30. Тем не менее часть б описывает независимые события, а часть в — зависимые. Иначе можно сказать, что случайные переменные Xi и Х2 неза- висимы в части б и зависимы в в. Опре- 9!
Таблица 5.5. Табличное перечисление всех возможных исходов для S~--{at bt с} и S-{6. 4, 8}. п^2 Независимые события f а) Все возможные исходы б) Р (£, = е|(. Ег = г>г) а ь С 1 0 0 а аа db ас I 1 1 з* з 1 1 з”з j 2 з‘ 3 Ъ Ъа bb be 0 j 2 з' 3 j 2 Т з 2 2 з’з с са cb сс 0 2 2 з' 3 1 2 3* 3 2 2 3*3 в) Все возможные исходы г) Средние значения исходов b ь 4 СП - * Се » 6 5 7 6 6; 6 6; 4 4 4; 6 4; 1 4: 8 5 4 6 8 8; 6 8; 4 8; 8 7 6 8 Зависимые события д) Все возможные исходы е) Р а ь С 1 ° 1 ) 0 а . 1 ab ас 1 1 3° 2 2 3* 2 - |М - jrt & Ьа — Ьс 0 1 I 3’2 -3° 2 i 3‘ 2 с са cb 0 1 1 3’ 2 wl — K>i- wl « л Примечание. Чьста а н б содержат те же данные, что и рнс. 5-6.а и 6, делить, являются лн случайные перемен- ные в табл. 5.4,д зависимыми или незави- симыми. можно, вычислив Р(Х=0) и Р(У=1) н Р(Х=0, У=1). Поскольку Р(Х= -О, У=1)^Р(Х=0)Р(У=1). эти случай- ные переменные зависимы. Набор чисел, образующих- каждую из трех таблиц (без маргинальных вероятно- стей), называется также двумерным ди- скретным распределением вероятностей. Каждое из них можно изобразить в виде графика в трехмерном пространстве. Вы- берем три координатные оси и обозначим их для данных табл. 5.4,а буквами X, У и /(X, У), а для данных табл. 5,4,6 — Хь Х2 и f(X}., Х2). Если число рассматри- ваемых характеристик больше 2, то соот- ветствующее распределение называют мно- гомерным распределением вероятностей. 92 Отметим, что здесь индексы 1 и 2 ис- пользуются для обозначения случайных пе- ременных № I м 2. С гем же успехом можно использовать и обозначения Xt—X и Х£=аУ. В то же время в случае одно- мерного -распределения (напрнмер, для величины А\ в табл. 5.3) мы обозначали индексом i значения случайной переменной. Во многих случаях, когда, например, Х= —(0. 1. 2,..), индексы можно не исполь- зовать. Однако если учитывать, что зна- чения А биномиального распределения ча- сто выражаются в процентах и -сравни- ваются с данными экспериментов н наблю- дений, использование индексов типа X» не- сколько облегчает процедуру сравнения. Рассмотрим снова набор экспе- риментальных распределений. Вме-
сто ветвящейся диаграммы рис. 5.6,а можно использовать данные табл. 5.5,а. Точно так же табл. 5.5,6 дает те же значения, что и диаграм- ма на рис. 5.6,6. Это важное обстоя тельство; оно справедливо и в об- щем.случае. А именно, всегда, когда мы имеем дело с днхотомным прост- ранством элементарных событий, например с пространствами вида S=(a, а', а'} или S={IV7, В, 5}, для перебора всех возможных исходов достаточно составить соответствую- щую таблицу. Биномиальное распределение табл. 5.2,а можно получить двумя способами — из табл. 5.5,а или б В табл. 5 5,6 приведены значения вероятностей Р(£1=е1, Е2=е2). Можно считать, что табл. 5.5,6 по- строена по пространству элементар- ных событий S={1, 0, 0}, где 1 озна- чает наличие буквы а, а 0 — ее от- сутствие. Если учитывать, что эти испыта- ния независимы, число, стоящее на пересечении первой строки и перво- го столбца Си, равно Р(Е(=1, Е2= —1)=1 /3.1/3= 1 /9. Это есть ве- роятность того, что при проведении двух испытаний с возвратом мы оба раза получим единицу. Число, стоя- щее на пересечении второй строки и первого столбца (c2i), равно P(Ei= =0, Е2=1)—1 /3-1 /3=1 /9, так как вероятность Р(0, 1)=Р(0)Р(1) = =1/3-1/3=1/9. Аналогичным обра- зом вычисляются и все остальные вероятности. Теперь мы можем по данным табл. 5.5,6 получить биномиальное распределение табл. 5.2,а. Вероят- ность P(Xi=0) есть вероятность1 того, что ни в первом, ни во втором испытании нам не попадется эле- мент, помеченный буквой а. Соот- ветствующие вероятности стоят в клетках С22, с23, С32 и с33, откуда £>(А|=0) =022+023-1-032+^33. Далее, вероятность P(X2=1) в табл. 5.5,а есть вероятность того, что при про- ’ Отметим, что в табл. 5.2,а мы име- ем дело только с одной случайной пере- менной, поэтому индекс « описывает ее значение. ведении двух испытаний нам по- падется ровно одна буква а (при этом неважно, на каком месте). Это- му событию соответствует либо клетка с12, либо C13, либо с2ь либо Сзь откуда Р(Х2=1)=С12 + С1з+с2|+ 4-Сзь Величина Р(Х$=2) может быть получена лишь одним спосо- бом, вероятность которого есть сц= = 1/9. Другими словами, при й=2 биномиальное распределение име- ет вид: х. 0 4- G? + СJ2 + Csa 1 “F с1а 4" С21 4“ 2 гп Тот же самый результат можно получить и иначе, а именно: опре- делим на 5={1, 0, 0} случайную пе- ременную: тг 0 I Тогда таблица, аналогичная табл. 5.5,6, будет выглядеть сле- дующим образом: о 1 0 2 2 3‘ 3 2 J з‘ 3 i 1 2 з’ 3 ! 1 3 3 Мы вновь получили двумерное рас- пределение. Стоящие й клетках табл. 5.5,6’ (или в последней таблице) вероят- ности можно в некотором смысле считать результатом умножения двух одномерных распределений ве- роятностей. В статистике понятие умножения двух независимых слу- чайных переменных имеет очень- 93
•большое значение и прежде всего в тех многочисленных случаях, ког- да (как и в нашем примере) для описания непрерывного процесса используются дискретные величины, Гипергеометрическое распределе- ние из табл.-5.3,а может быть полу- чено подобным же методом из табл. 5.5,д и е. Различие состоит в том, что в этом случае испытания не являются «повторными», посколь- ку наше пространство элементарных событий меняется после каждого очередного испытания. В табл. 5.6 приведены пример •случайной переменной, которая определена на недихотомном прост- ранстве элементарных событий, а также соответствующее распреде- ление вероятностей Оно получено из табл 5.5,в и а, н его можно интер- претировать следующим образом. Представим себе, что на трех одина- ковых шарах вместо букв а, b и с написаны цифры 6, 4 и 8. Они мо- гут представлять собой массу, длину Таблица 5.6. Распределение выборочного среднего Примечание Данные взяты из тмбл. 5.5,г. или какие-нибудь другие характе- ристики, т. е. для нас существенна •более подробная информация, а не просто утверждения типа а и не а. Выберем (с возвратом) два ка- ких-нибудь шара. Все возможные исходы этого эксперимента перечис- лены в табл. 5.5,о. По этим данным для каждой пары чисел можно вы- числить их средние арифметические (см. табл 5.5,г), дисперсии и другие характеристики. Эти средние назы- ваются выборочными средними,, а их «4 распределения вероятностей — вели- чины X и Р(Х) (см. табл. 5.6) — называются выборочными распреде- лениями или распределениями вы- борочного среднего. Переменная X является дискретной случайной переменной. Вероятности Р(Х) можно найти, сосчитав число клеток табл. 5.5,г, содержащих одинаковые числа. Например, соотношение f4= =2 в табл. 5.6 означает, что величи- на Х=7 встречается в табл 5.5,г дважды. Распределение вероятно- стей табл. 5.6 можно получить ина- че, а именно, построив таблицу, ана- логичную табл. 5.5,6, и затем про- суммировав соответствующие совме- стные вероятности. Таблицами такого рода можно пользоваться и в задачах с двумя испытаниями (при л=2). При п>2 наглядно представить себе геоме- трическую картину многомерного распределения значительно сложнее, и такие распределения приходится рассматривать как чисто математи- ческие конструкции. Распределение выборочного сред- него X нормально распределенной генеральной совокупности также бу- дет нормальным. Похожую ситуа- цию мы рассматриваем, когда гово- рим о множестве S={6, 4, 8} или о дискретном распределении данных о массе индеек (см. табл. 7.1). По- скольку нормальное распределение непрерывно, мГы, конечно, не можем за конечное число шагов перебрать все возможные исходы. Тем не ме- нее в этой ситуации также можно перемножать распределения, но уже в виде функций плотности распре- деления вероятностей (впрочем, эта операция основывается на понятии умножения дискретных пространств элементарных событий). Именно таким образом и доказывается, что распределение выборочного средне- го нормально распределенной гене- ральной совокупности также будет нормальным. На этом фундамен- тальном факте основывается целый ряд математических теорем о свой- ствах выборочных распределений (непрерывных и дискретных).
5.2.4. Вывод биномиального распределения На примере биномиального рас- пределения мы рассмотрим некото- рый метод общего характера, кото- рый применим и для получения дру- гих выборочных распределений. Пусть некоторая генеральная со- вокупность содержит 1/3 белых и 2/3 черных шаров. Пусть /’($’’)== =л=1/3 и P(IF')=P(5)=1—л= =2/3, где V7—белый шар, а В — черный. Можно считать, что вместо черных шаров имеются шары раз- личных цветов — главное, что нас будет интересовать, какова доля шаров белого цвета. Так что нам безразлично, состоит ли генеральная совокупность из белых и черных или из белых и не белых шаров Однако испытание состоит в выборе произ- вольного шара (с возвратом), так что вероятность выбрать белый шар не зависит от номера испытания и остается всегда одной и той же. Та- кие испытания называются испыта- ниями по схеме Бернулли (по имени Якова Бернулли, 1654—1705 гг.). Возьмем некоторую выборку с л=3 и сосчитаем в ней белые ша- ры. Нас интересует лишь число бе- лых шаров, и нам несущественно, когда этот шар появился — в пер- вом, втором или третьем испытании. Если л=3, то число белых шаров может равняться 0, 1, 2 или 3 Обо- значим эту случайную переменную через Xi. Наша задача — найти общую формулу для вычисления P(Xi), которая в общем случае (для произвольных лип) дала бы нам возможность избавиться от необхо- димости полностью перебирать все возможные исходы, как это приходи- лось делать в табл. 5.5 и на рис 5.6. При л=3 перебрать все возмож- ные комбинации (а не исходы), в которых имеется Xi белых шаров, не представляет большого труда. Если Xj=O, то соответствующим со- бытием будет E=(W', W', JF') = = (В, В, В), откуда следует, что подходит лишь одна комбинация с вероятностью P(W', W', W') = =Р(£) = (!— л)?=(2/3)3=8/27. Для Х2=1 существуют три возможные комбинации, а именно: E1=.(W, В, В). Е2=(В, W, В) и Е3=(В, В, W), которые имеют вероятности Р(Е1) = = Р(Е2) = Р(Е3) = л(1-л)2 = = 1/3-(2/3)2=4/27. Для Х3= —2 возможны комбинации Е\-= = (№, IF, В), Е2=(Г, В, IF) и £з= = (В, W. W) и />(£•!)== Р(Е2) = = Р(Е3) = л2(1—л) = (1 /3)22/3 = =2/27, Наконец, для Х4=3 вновь имеется лишь одна возможность: F=(U7, W, W) и Р(Е)=л3= = (1/3)3=1/27. Поскольку мы определили вели- чину X,- как число белых шаров не- зависимо от порядка, то для значе- ний Xi, соответствующих комбина- ции нескольких событий, вероятно- сти можно получить в виде P(Ej или Е2, или Ея). Так, P(Xi=0) = =Р(£) = (1-я.)3=8/27, но Р(Х2= = l)=P(Ej или Е-2, или Ез) = =л(1—л)2-?-л(1—л)2 + л(1—л)а'= =3л(1—л)2=3(4/27)=12/27. Ана- логично Р (Х8=2) = Зл2 (I —л) = =3(2/27) =6/27 и Р(Х4=3)=л3= = 1/27. Это и есть значения вероят- ностей для биномиального распре- деления с параметрами л=1 /3 и л= =3 (табл. 5.2,6). В общем случае вероятность лю- бого события Е типа «за W следу- ет В, за которым следует Р» можно1 получить по правилу умножения ве- роятностей для повторных испыта- ний. Вероятность какой-нибудь, одной комбинации, в которой чис- ло белых шаров Xi, согласно этому правилу равна it '(1 —-т) Чтобы получить полную вероятность (неза- висимо от порядка), это выражение следует умножить на общее число комбинаций, соответствующих этому значению Xt. Это число комбинаций можно найти по хорошо известной формуле С*‘ =л!/(л—X,)! XJ, где л! читается «л-факторнал» и опре- деляется по формуле л! = 1-2 ... ... п, причем считается, что 01=1. Итак, при фиксированных лил ве- роятности Р(Х,) могут быть вычис- 95.
.лены по формуле Величине P(Xj=0) соответствует только одна комбинация Е=(В, В, В). Следовательно, в этом случае должно получиться п!/(л—X()!Aj!= =1, что и подтверждается вычис- лением: 31 / (3—0) 10! = I -2 -3/1 - 2X ХЗ-1=1, так что Р(Х,=0) = Продолжение табл. 5.7 0,4, или 40% в) л — 3 г) л = 5 Pi xi P(.vp Pi xi P(Xf.) 0 0 0,216 0 0 0.078 33,3... 1 0,432 20 ! 0,259 66,6... 2 0.288 40 2 0,346 100,0 3 0.064 60 3 0,230 80 4 0,077 1,000 100 5 0,010 1.000 я = 0,5, пли 50% d) л — 3 е) л = 5 Pi xi P (X p Pi xi P(X-) 0 0 0.125 0 0 0.031 33.3... 1 0.375 20 1 0,156 66,6... 2 0.375 40 2 0.313 100,0 3 0.125 60 3 0.313 80 4 0,156 1,000 100 5 0.031 LOOP Р (У ох 3! / । Д* f 2 \ 6 _ Г1 » ' 2!П\3 7\.37 — 27’ В виде биномиального распреде- ления случайная переменная А, с со- ответствующими вероятностями при- ведена в табл. 5.7,а. Это распреде- ление совпадает с распределением табл. 5.2,6 с той лишь разницей, что включает новый набор средних то- Таблица 5.7. Некоторые биномиальные распределения я = 1/3 о) п — 3 б) п — 5 * Pi Р (Х--> Pi xi P(Xr) 0 0 8 — 0,296 0 0 0,132 !2 20 1 0,329 33,3.., 1 5= -г 0,445 £ г 60 3 0.165 66,6... 2 6 ^ = 0.222 80 4 0,041 100,0 3 27 ~ 0,0°7 100 5 0,004 1,000 1 1,000 чек р>. В процессе отбора выборки средние точки р< можно использо- вать вместо А,- и наоборот. Напри- мер, вероятность выбрать два белых шара, т. е. 66,6... % выборки, при условии, что п=3, а л=1/3, равна 6/27=0,222. Если взять 1000 таких выборок, то в идеальном случае 222 из них должны содержать два бе- лых шара (66,6 ... %). По приведенной выше формуле можно вычислить и приведенные в табл. 5.7 вероятности для других биномиальных распределений. До- статочно знать значения параметров п и л. (Параметром мы здесь назы- ваем постоянную, значение которой может равняться некоторому дейст- вительному числу.) Графики распределений из табл. 5.7 построены на рис. 7.9. Каждому из распределений на рис. 7.9 соответствуют два масшта- ба на горизонтальной оси: один из них даст долю в процентах и одина- ков для всех четырех распределе- ний, другой выражен в единицах А', и каждому распределению соответ-
ствует свой собственный масштаб. На рис. 7.10 построен график бино- миального распределения при л= =0,4 и п=3200. Приведем некоторые вероятности этого распределения: Р(^,'=0) = = (32001/3200! 0|) (0,4)* (0,6)"*’; Р(ЛС„.= 1000) = = (32001/2200! 1000!) (ОЛ)100* (0,6)”*°; Р(Х„„=3200)= =(32001/0! 32001)(0,4)”**(0,6)* и т. д. Отметим, что вероятности определены для всех значений X от 0 до 3200 на горизонтальной оси, но 0,997 площади под графиком сосре- доточены на очень небольшом участ- ке вокруг значения Xi28i=1280 на осн X или, другими словами, около значения Pi28i=40% на оси р. Термин «биномиальное распре- деление» происходит от слов «бино- миальное разложение», с помощью которого также можно вычислять все эти вероятности. Рассмотрим, например, выражения (а-Н>)п и (b+а)3. Биномиальное разложение последнего имеет вид &3+3/>2а + +36а2-|-а3. Подставим л вместо а и (1—л) вместо Ь; (0,6)3-{-3* (0,6)2Х X (0,4)+3-(0,6)-(0,4)2 + (0,4)3= = 0,216 + 0,432 + 0,288+ 0,064 = 1,000. При этом последовательные члены биномиального разложения совпа- дают со значениями P(Xi) из табл. 5.7,в. Чтобы получить бино- миальное разложение (и соответст- венно распределение) для я=0,6, достаточно расписать выражение (а-г-5)3 или, как легко видеть, пере- вернуть столбец P(Xi) из табл. 5.7,б. 5.2.5. Свойства биномиального распределения Форма графика. Биномиальное распре- деление широко применяется в задачах, связанных с отбором выборки, поэтому важно знать три его свойства: форму его графика, связь между средним значением распределения Л1(Х<) и параметром гене- ральной совокупности л, характеристики вариации (дисперсию или среднее квадра- тическое отклонение). 7-232 График биномиального распределения симметричен при п=0,5 и скошен при ^fc0.5. При одном и том же значении п чем больше л отличается от 0,5, тем сильнее скошенность. Это хорошо иллюстрируют данные табл. 5.7. С увеличением п график биномиального распределения приближает- ся к нормальной кривой. При этом биноми- альное распределение с л—0,5 быстрее, стремится к нормальному, чем распределе- ние с л=#0,5. В задачах об отборе выборки в случае, когда биномиальное распределе- ние достаточно близко к нормальной кри- вой, суммы частей биномиального распре- деления можно аппроксимировать значе- ниями площадей соответствующих участ- ков под нормальной кривой. Хорошее при- ближение достигается, когда пл>5, для 0,5 и, когда п(1—я)>5, для л>0.5. Разумеется, условия /ш>5 и п(1—я) >5 выбраны в значительной мере произвольно; в качестве критических можно брать и дру- гие значения. Тот факт, что биномиальное распределение так быстро сходится к нор- мальному, избавляет нас от необходимости составлять и использовать громоздкие таб- лицы его значений. Если значение л мало, то часто удоб- нее пользовагься распределением вероятно- стей Пуассона. В последнее время оно при- меняется все чаще и чаще, особенно в за- дачах об очередях. Свойства распределе- ния Пуассона и его характеристики мы рассмотрим ниже. Среднее значение биномиального распределения. Биномиальное рас- пределение является распределени- ем вероятностей. Поэтому его сред- нее значение называется математи- ческим ожиданием и обозначается Л1(А5)- Поскольку это распределе- ние дискретно, можно использовать и обозначения Л4(Я»=Я и М(рг) = (здесь хорошо видна связь с по- нятием среднего и с выборкой). Ча- ще, однако, используют обозначение Л1(Х|)=Цж, особенно когда среднее значение выражают в терминах мо- ментов. Среднее (или ожидаемое) значе- ние биномиального распределения равно М (Х<) =p«=nn, если средние точки выражены в абсолютных зна- чениях л<» и Л1(р<) = рр=л, если средние точки выражены в значени- ях р<. Среднее квадратическое от- клонение равно Ox=V пл(1—л) и Ор = Ул(100—л)М ИЛИ Gp^V л(1— * 97 —л) /п. 97
где индексы х и р вновь означают, что значения на горизонтальной оси измеряются в абсолютных величи- нах и в процентах (или долях) соот- ветственно. Очевидно, что примене- ние к любому из биномиальных рас- пределений табл 5.7 общих формул для вычисления среднего и среднего квадратического отклонения даст тот же самый результат, а именно: =^”iXl = от, так как х ~~ V w =/sr, <p,-^r= У . Для любознательного читателя мы приведем доказательство этих формул. Воспользуемся определением ма- тематического ожидания распреде- ления частот: ц=2/Л/2/л Пере- считаем частоты ft в f't (так что площадь под нашим полигоном бу- дет равна 2/<) и построим под гра- фиком распределения узкие прямо- угольники, подобные построенным на рис. 3.2 и 3.3. Площадь каждого из них равна Д<Л==Л4-=ДХЛ/, откуда 2А=Ляй52Л{. Подставим теперь Л^ вместо f, в формулу для ц: и=2ЛгХ//2Лг. Устремляя ДХ к нулю, перейдем к непрерывно меняющейся величи- не X. При этом знак суммирования 2 надо будет заменить на знак инте- грала /, Д,-Л заменить на dA, а ве- личину AXhi заменить на f(x)dx, после чего математическое ожида- ние оказывается равным СО оо J XdA J Xf(x.)dx __ —00 —ср со 00 • [ dA [ f(x)dx Эту формулу уже нельзя применять к опытным данным: она имеет смысл лишь для непрерывных кри- вых, являющихся графиками тех или иных математических функций, причем Л есть площадь под кривой, a dA — первый дифференциал пло- щади. Если мы вычисляем математи- ческое ожидание распределения ве- роятностей, то соответствующие ча- стоты будут вероятностями (в ди- скретном случае соответствуют ча- стостям) f"t, и будут выполняться соотношения 2/"/=2Л1-=Л=1. Отпу- ская в знаменателе единицу, полу- чаем в случае дискретных данных М(^,) = !А = 2ГЛ,. для непрерывного распределения М(Х) = ^= J XdA = ^ Xf(x)dx. —СО —00 Поскольку биномиальное распре- деление является дискретным рас- пределением вероятностей, его ма- тематическое ожидание можно запи- сать в виде ^(^=^=3 гл /=1 где Подставляя C^'V^X _Y X(l—it) 1 вместо f"/, получаем A1(XZ) = ^ = i=i Заменяя для удобства л на р и (1—я) на 9, имеем л+1 SV ”1 пХ‘лП~Х{______________ t=l _ V ______пх'оп~х! _ -Д (n-X^XiiP * - i=l л+1 Ел! х. *-Х(_ /=1 98
n+l _____________nnx^an~xi (п —X/)| (X/ —I)! ”” q n -ад V И-W nX~lan-Xl /=1 (мы вынесли пр за скобку). Примем т=п—1, тогда М(Л.)^Р* = m F1 = ПР S (т - (Х£-”!))! (X, -!)! X ЛГ—1 m-(X.-I) ХР q Наконец, обозначая X,— 1 через Zif получаем М(Х{) = ^ = m+1 Smi «. гп—«. *=! — пр = ПК, так как ni + 1 ____________ (m-z,)U(! р q t»l как полная сумма вероятностей би- номиального распределения Это и завершает доказательство формулы ЛТ(Х,-)=Цх==лл для бино- миального распределения. Осталось отметить, что ц/п=цр=л, посколь- ку Xi}n=pi. Среднее квадратическое отклоне- ние биномиального распределения. Формулу а = Уnpq для среднего квадратического отклонения бино- миального распределения можно вы- , вести точно так же. Начнем с опре- деления дисперсии дискретной слу- чайной величины Xi получим Л = 2ГЛ\-(2Г'Л,)«. Как мы только что показали, WiX^p.^ п + 1 *11 л! х, п-Х{ *(л — X,)tX£! q = Lf=l = (пр)\ откуда п + 1 Л = J] x*t (n-JaiXiiр lq 1~ /»1 - (пр)*. Записывая Х\ в виде ХДХ<—1) + +Х/, имеем п+1 ’’-=$] (Х,(Х,-1) + f=l {пр}* = S-1 п{Х£(Х, —I) X. л-х,- (n^-XJlX,! Р q ' i=\ п+1 + S Xi Р lq i=l Поскольку в правой части второе слагаемое равно р,х=пр, а первое обращается в нуль для Xi = O и для Хз=1 получаем, что л+ 1 = S (л-хлцх.-г)! Р iq 1 + i=3 -i-np— (пр)*. Чтобы упростить первое слагаемое, вынесем п(п—1)р2 за скобку: а\ = п(п~ Ьр’Х Как было показано в гл. 4, эту фор- мулу можно переписать в следую- щем виде: (n-2)t /,-2 (л-Л/)1 (Xf-2)! Р 4 -^пр — (пр)*. Если перейти от частот f,- к часто- стям f для которых 2f"=l, то Полагая в этом выражении /и== =п—2, имеем 99
o'*==n(re —1)р*Х /лi V V V X JJj (ffi—(zYj — 2))!(X, — 2)1 * 1=1 X -2 m—{X-—2} , . XP Q +np-(np)a. Снова примем zi=Xi—2, откуда ;Л = П(« — !)P*X m+1 x yU-zU-i 1=1 Поскольку m-H Swl nV~*i = 1 (m—z,)|z;! »±=1 o\ = n [n — 1) p9 + ПР — {nP? = = (пр? — прг + np — (npy= = np — np* = np(\ — p) = ripq и ___ ax=Vnpq. Выраженное в долях среднее квад- ратическое отклонение принимает вид: __ о/п = ЯР=Vnpq/n = V^q(n. Вновь заменяя р на я, получаем ах = — я). так что вр=У«(1 — «)/». или (в процентах) ср = (1(Х) — «)/п. Этот способ доказательства весь- ма поучителен, но он не является единственным. Те же самые резуль- таты можно получить и с помощью производящих функций моментов. Этот способ несколько проще, и он применим в более общих ситуациях (например, для нахождения сред- них, дисперсии и прочих моментов различных выборочных распреде- лений). 5.2.6. Гипергеометрическое распределение Выше было показано, как можно получить гипергеометрическое рас- пределение опытным путем. Некото- 100 рые простые примеры приведены в табл. 5.3. Все содержащиеся в ней вероятности можно получить и по следующей формуле: pm=f(x,)=c^r>/cj. где X — число элементов простран- ства элементарных событий или ге- неральной совокупности; р (мы сно- ва пользуемся этим обозначением вместо буквы л) — доля положи- тельных исходов в пространстве эле- ментарных событий (в генеральной совокупности); q=l—р\ п—число зависимых испытаний (объем вы- борки). Мы предполагаем также, что число X конечно, а выбранные элементы на место не возвраща- ются. Как мы видим, гипергеометриче- ское распределение зависит от трех параметров, которыми являются числа р (или л), п и N. Напомним, что биномиальное распределение определяется только двумя параме- трами— п и р (или л). Вооружившись указанной выше формулой, вычислим вероятности гипергеометрического распределения из табл 5.3 Чтобы найти, например, вероятности табл. 5.3,а, подставим в нее 77=3 (число шаров в Si), п= =2 и р=л=1 /3, тогда сГ'/с?= “3 т8 — С1 и2 I (3 — 2)12!’"Н с2. №• Для Х,=0 Р(Х1 = 0) = С\С95/3=1/3; для Хг = 1 p(z,= i)=cp^-'/3.=2/3 и для Хз=2 Р (X, — 2) = С2 С2~2/3 =0 С° /3 s= 0. Чтобы получить вероятности, со- ответствующие распределению- из табл. 5.3,6, подставим в нашу фор- мулу р=л=1/3 п=2 и N—6. Тогда
Для Xj=O 715=1-6/15 = . =0.4; । для = 1 Р(Ха^1)=С\С\!\5=^ = 2-4/15=0,533 и для %з=2 Р (X, = 2)=С’,С\/15 = 1-1/15= =0,067, й Формулы для математического ожидания и для среднего квадрати- ческого отклонения (т. е. для wo- ментов) гипергеометрического рас- пределения можно вывести так Же, как соответствующие формулы для биномиального распределения. Ока- зывается, как и в случае биномиаль- ного распределения, Л4(Х<)=цх= ' =пп. Это означает, что математиче- ское ожидание гипергеометрическо- го распределения не зависит от объема генеральной совокупности. В то же время его среднее квадра- тическое отклонение зависит от N (см. табл. 5.3 и др.). Соответствую- щая формула, как мы уже знаем, имеет вид: аж = )'ГЛ'к(1 — n)(N — n)l(N— 1) = =У л* (1 - ж) У (ЛГ - n)/(N - 1). Это выражение совпадает со сред- ним квадратическим отклонением для биномиального распределения с точностью до конечного множите- . ля FM. В приложениях величину FM =У (N — n)[(N — 1) часто заме- няют более простым выражением — FM =У 1 — (n/N). В такой форме особенно наглядно видна зависи- мость между отношением п к N н абсолютным значением среднего квадратического отклонения. Чтобы проверить, как согласуют- ся эти формулы с нашими опытны- ми данными, вычислим ожидаемые значения гипергеометрических рас- пределений из табл. 5.3. Имеем 4/6 = 20/30 = 580/870 = = 14 900/22 350 = ^ = 2 -1 /3 = 2/3. То же значение даст и обычное оп- ределение математического ожида- дания: p=sr\xz/sn=sr\-A> поскольку S//'=1. Соответствующая данным табл. 5,3,6 дисперсия равна о%=ЛВ(1 — = С 7 - I £ Г =2 • I /3 2/3. (6 - 2)15= 16/45. Тот же результат дает и вычисле- ние по формуле Л = 2/'\.(Х,.-р,)*/2П = = 2Г/(Х,-^)1. В гл. 7 мы рассмотрим еще несколь- ко подобных примеров и сравним результаты расчетов по вышеприве- денным формулам с опытными дан- ными. I Л 4 i 9 С V / I 5 1 г* S » > 5.3. РАСПРЕДЕЛЕНИЕ ПУАССОНА Еще одним важным примером дискретного распределения вероят- ностей является распределение Пу- ассона. Оно им^ет вид: P(X/)=f(Ari) = e-WXI-!; Л( = =0,1.2... i 1 г (где Х1=0,' X2=l, Xs=2 ...). Рас- пределение Пуассона определяется с помощью условий, похожих на те, с которыми мы сталкивались при описании биномиального распреде- ления. А именно, рассматриваются испытания, каждое из которых мо- жет иметь лишь два исхода («ус- пех» и «неудача»). Исходы не зави- сят друг от друга, и вероятность успешного исхода остается постоян- ной в течение всего эксперимента (как и повторные испытания по схеме Бернулли, которые приводят к биномиальному распределению). Различие состоит в том, что в пуассоновском процессе число ис- пытаний п не является фиксиро- ванным, и тем самым размер вы- 101 1 г N I п А 3 I * I 4 й 1 * * е Е
борки бесконечен. При выводе это- го распределения п по существу устремляется к бесконечности, а р— к нулю, но при этом величина пр=ц должна оставаться постоян- ной. Последнее обстоятельство, а именно, что величину ц можно рас- сматривать как произведение пр, дает возможность установить связь распределения Пуассона с биноми- альным, несмотря на то, что п не является параметром первого из них. При фиксированном значении ц, например при р—0,6, биномиаль- ное распределение с достаточно большим п и малым р (пр=0,6) дает очень хорошее приближение к распределению Пуассона с пара- метром р=0,6. Вообще при фикси- рованном значении пр=р, чем боль- ше п и чем меньше р, тем лучше распределение Пуассона аппрокси- мируется биномиальным. Мы очень рекомендуем читате- лю выписать из табл. VI (см при- ложение) значения распределения Пуассона с параметром р,—1, а из табл. П — значения двух биноми- альных распределений — сначала с параметрами р—0,1 и л=10, а за- тем с параметрами р=0,05 и п = = 20. Заметим, что в обоих случаях (0,1) • 10= (0,05) 20=1 =ц. При этом график второго биномиально- го распределения ближе к графику распределения Пуассона, чем гра- фик первого. Отсюда следуют важные выводы для приложений. Любое биноми- альное распределение с малым р и большим п можно заменить рас- пределением Пуассона. Это очень удобно с точки зрения вычислитель- ной практики, поскольку воспользо- ваться распределением Пуассона намного проще, чем вычислять зна- чения вероятностей биномиального распределения. Рассмотрим биномиальное рас- пределение с параметрами р=0,005 и п=400. Поскольку пр=2<5, нам не удастся аппроксимировать его с помощью нормального распре- деления. Вычислять, его значения с 102 помощью биномиального разложе- ния (0,005+0,995)400 — также очень громоздкое и длительное занятие. В то же время значения распреде- ления Пуассона с параметром р= -=(0,005)-400=2 можно легко най- ти в любой книге, содержащей ста- тистические таблицы. Математическое ожидание рас- пределения Пуассона равно Л1(х,)=ц, а биномиального распре- деления М(х()=пр, так что оба ожидаемых значения совпадают. Дисперсия распределения Пуассона равна р.. Очевидно, что и дисперсия биномиального распределения, т. е. величина c2=npq, стремится к ц, когда п растет, а р уменьшается. Отметим, что в аналогичных обстоя- тельствах распределение Пуассона можно использовать и вместо гипер- геометрического распределения, ес- ли N значительно больше л1. Тот факт, что распределение Пу- ассона довольно часто заменяют би- номиальное и гипергеометрическое распределения, далеко не исчерпы- вает всех возможностей его исполь- зования в практических задачах. Основная область его применения несколько иная. Наиболее полезным оно оказывается в тех задачах, где требуется определить лишь число положительных исходов («успе- хов»). Подобная ситуация возника- ет довольно часто — например, если мы хотим определить число повреж- дений в изоляции электропроводки, число слабых звеньев в различного рода цепях, число слабых мест струны, нити, проволоки и т. п Ес- ли считать, что по дороге движется «бесконечное» чцело автомашин, то в качестве, условно говоря, «ус- пешных» исходов (в действительно- сти «повреждений») можно рас- сматривать число машин, стоящих в очереди перед пунктом «Автосер- вис» (это пример задачи об очере- дях из исследования операций). Другой пример дают телефонная сеть и набор расстояний между або- 1 Имеются в виду параметры гипер- геометрического распределения. — Прим, ред.
нентами, которые в некоторый мо- мент разговаривают друг с другом, или число абонентов, получивших при вызове сигнал «занято». Это примеры «неполадок» на «линии». Задачи такого рода могут быть и двумерными: рассмотрим, напри- мер, куски ткани или металлические листы и число дефектов на каждом из них. Распределение Пуассона используется и в трехмерных за- дачах— например, когда нас инте- ресует число бактерий или тех или иных частиц в жидкости или число дефектов в некотором объемном предмете. Во всех подобных случаях мож- .но сосчитать число исходов одного фиксированного типа (условно го- воря, «успешных» исходов), тогда как число «неудачных» исходов оп- ределить нельзя. Задачи такого рода можно ре- шать путем взятия выборок по схе- ме Бернулли. Для этого разобьем область изменения длин, площадей или объемов иа небольшие участки. Добьемся того, чтобы на каждом участке было не более одного де- фекта. Тем самым мы получим не- которую генеральную совокупность, из которой уже можно взять слу- чайную выборку. Перебор ее эле- ментов будет последовательностью независимых испытаний с двумя возможными исходами («успех» или «неудача») для каждого. Сле- довательно, полученное выборочное распределение будет биномиаль- ным. Возьмем, например, кусок про- волоки и разрежем его на доста- точно небольшие части (так, чтобы каждая содержала не более одного дефекта). Обозначим число полу- ченных сегментов через /ц. Сосчи- таем число сегментов, имеющих де- фекты, н разделим его на общее число сегментов: NS/n\=p\. Этому числу можно придать вполне опре- деленный смысл с точки зрения не- которого биномиального распреде- ления. Чтобы получить это распре- деление, нам понадобится уже не один, а много, например 200, кус- ков проволоки, каждый из которых разрезан на сегментов (объем выборки). Запишем теперь на ли- сте бумаги друг под другом числа Х<=(0, 1, 2, ...). Они будут сред- ними точками нашего распределе- ния частот и будут представлять собой возможное число дефектных сегментов из общего числа П\, на которое разрезан каждый из 200 кусков проволоки. Начнем теперь подсчитывать частоты нашего рас- пределения. Возьмем первый кусок проволоки. Может оказаться, что из П] его сегментов только один имеет дефект (Х2=1), Поставим в нашей таблице рядом со значением Х2^1 одну черточку. Если среди частей, на которые разрезан второй кусок проволоки, окажется три дефектных, мы поста- вим следующую черточку у значе- ния Х4=3. Третий кусок, возмож- но, вообще окажется без дефектов. Это значит, что черточка появится у значения Xi=0 Обработав таким образом все 200 кусков проволоки, пересчитаем черточки у каждого из значений Эти числа и будут частотами fi нашего эксперимен- тального выборочного распределе- ления. Наконец, по формуле f"= =fi!20G переведем абсолютные ча- стоты числа в частости, после чего их уже можно сравнивать с подхо- дящим биномиальным распределе- нием. Предположим теперь, что каж- дый из 200 кусков проволоки разре- зан не на а на большее число (обозначим его л2 сегментов). При этом л2>П1 и p2<Zpi, но произведе- ния Pirtj и р2п2 равны друг другу. Таким образом, разрезая каждый из 200 кусков проволоки на все бо- лее мелкие сегменты, мы добьемся того, что п (число сегментов, на ко- торое разрезан каждый из кускоз) будет стремиться к бесконечности, ар — к нулю. Это значит, что в пределе наш эксперимент приводит к распределению Пуассона. Но са- мое интересное то, что процедура разрезания каждого из 200 кусков проволоки на маленькие сегменты 103
оказалась в конечном счете излиш- ней. В самом деле, достаточно про- сто пересчитать число дефектов каждого куска проволоки, и мы не- медленно получим нужное распре- деление частот: h r't 0 ft 1 f ftf 1 It I 2 2 h f". й» • • • * Здесь /<— число кусков проволоки, каждый из которых имеет ровно дефектов. Величины /, можно те- перь пересчитать в частности f"— —/</200 После вычисления средне- го значения это распределение мож- но сравнить с некоторым пуассонов- ским распределением. При этом мы будет сравнивать опытное распре- деление с теоретическим. Еще раз подчеркнем, что разни- ца между этим методом и преды- дущим состоит в том, что в послед- нем случае нет необходимости раз- резать проволоку на отдельные сегменты. В качестве оценки пара- метра г. процесса Пуассона можно взять величину X и считать, что п стремится к бесконечности, ар — к нулю. Какой размер должны иметь куски проволоки? С одной стороны, они не должны быть слишком ко- роткими, иначе на каждом из них будет не более одного дефекта. С другой стороны, они могут оказать- ся столь длинными, что не будет ни одного, на котором дефектов не бы- ло бы вообще. Иногда длина куска (или площадь, или объем, или вре- мя) определяется не зависящими от нас факторами — такими, как усло- вия производства, технология про- цесса и т. п. Так, в текстильном производстве обычно изготовляют- ся полосы тканей, длины которых практически бесконечны. Однако на следующей стадии эти полосы раз- резаются на некоторый стандартные куски. Сосуды с жидкостями, кото- 104 рые подлежат анализу на количест- во содержащихся в них бактерий и- других частиц, также имеют стан- дартные размеры и т. д. В задаче о длине очереди (напри- мер, автомобилей перед бензоко- лонкой) мы сами можем выбрать отрезок времени (аналог куска про- волоки), для которого нас интере- сует число автомобилей, стоявших перед бензоколонкой. Если мы хо- тим при этом найти вероятности ти- па P(Xi=0), то промежуток време- ни следует выбрать достаточно ко- ротким. Читателю, по-видимому, будет полезно еще раз вернуться к этому разделу после изучения материала, гл. 7. 5.4. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Нормальное распределение зада- ется математической функцией ви- да f (х)=(Ь/о/Й . Она называется функцией плотно- сти нормального распределения ве- роятностей, и площадь под ее гра- фиком равна единице. Функция эта самая важная в статистике: она постоянно используется при анали- зе опытных данных и решении за- дач, связанных с отбором выборки. График плотности нормального распределения имеет хвосты беско- нечной длины, чего не бывает в слу- чае опытных данных. Поэтому ут- верждения типа «полученные дан- ные наблюдений нормально распре- делены» обычно относятся к вели- чинам, не выходящим за пределы ц±3о. Нормальные распределения встре- чаются в статистике чрезвычайно часто. Практически всегда, когда значения данных наблюдений опре- деляются случайным образом (т. е. большим числом мелких обстоя- тельств, которые не поддаются точ- ному анализу), любой специалист по статистике прежде всего выска- жет гипотезу, что они имеют нор-
мальное распределение. В частно- сти, всевозможные измерения (дли- ны, диаметра, массы, напряжения, плотности, объема и т. д.), с кото- рыми приходится иметь дело в про- мышленном производстве, имеют распределения, близкие к нормаль- ному. В природе громадное число характеристик также распределено по законам, близким к нормально- му. К этим характеристикам отно- сятся способности человека (опре- деляемые, например, по результа- тами тех или иных экзаменов), раз- мер и масса живых существ и-мно- гое другое. Однако данные, с которыми при- ходится иметь дело в экономике, например ставки заработной платы, цены, товарооборот, уже значитель- но реже подчиняются законам нор- мального распределения. В задачах, связанных с отбором выборки, нормальная кривая при определенных условиях описывает распределение выборочных средних и является предельным случаем би- номиального распределения, гипер- геометричсского распределения, распределения Стьюдента (f-pac- пределения). Сказанного уже, по- видимому, достаточно, чтобы по- нять, насколько важно подробно познакомиться с функцией нормаль- ной плотности и с методами ее ис- пользования для анализа данных наблюдений и выборочных исследо- ваний. 1 5.4.1Подгонка нормальной кривой к опытным данным В самом общем виде функция плотности нормального распределе- ния имеет вид: f(x)=(A/c) (l//2^)e-uL*W2”_ (5.1) Упростим это выражение, введя новую переменную z—(x—р)/о. Тогда показатель степени уравне- ния (5.1) превращается в — za/2 и все соотношение приобретает вид: f (з)=(Л/ч) 1//2^) е-*'2. (5.2) При Д = 1 имеем f(z) = (l/a)(l//^-^2. (5.3) Площадь под графиком этой функции равна единице, вследствие чего она действительно может счи- таться плотностью распределения вероятностей. Заметим, что уравне- ние (5.3) получено путем умноже- ния равенства (5.2) на 1/А, т. е. тем же способом, с помощью кото- рого мы ранее привели к единице площадь под отрезком прямой. Наконец, если <т=1, мы получа- ем так называемую стандартную функцию нормальной плотности ве- роятностей f(z)=(l//S)e—'2- (5.4) Значения этой функции в довольно большом числе точек приведены в табл. III (см. приложение). Они по- лучены подстановкой соответствую- щих значений в уравнение (5.4) и проведением, необходимых опера- ций. (Числа лиг есть известные константы.) Точно так же мы вы- числяли и значения линейной функ- ции, например функции /(х)=24- 4-0,8х. Помимо функции плотности, принято табулировать и значения соответствующей кумулятивной функции распределения F(z) вида «меньше, чем» Эти значения приве- дены в табл. IV (см. приложение). Таким же образом мы строили и функцию распределения F{x) в слу- чае прямой. Из уравнения (5.1) видно, что функция плотности зависит только от у, и о, так как е=2,71828... и /й? =2,50663... суть известные константы, а от величины А не за- висит ни форма кривой, ни ее поло- жение на горизонтальной оси. Далее, график нормальной плот- ности симметричен относительно у, так как из уравнения (5.2) сразу видно, что / (г) =f (—г). При любом —оо<г<оо значе- ние f(z) положительно, так что гра- фик нормальной плотности 4 лежит в верхней полуплоскости. Хвосты его уходят в бесконечность и асимп- 105
тотйчески приближаются к оси абс- цисс, т. е., как принято говорить, ось х является асимптотой для нор- мальной кривой. Если в выражении (5.1) менять значения параметра ]л, то график будет перемещаться параллельно самому себе вдоль оси х. Если фик- сировать ц, то с увеличением о кри- вая будет становиться все более плоской, а с уменьшением а все бо- лее пикообразной. Рассмотрим теперь стандартную функцию плотности нормального распределения. Ее график уже нельзя построить по двум точкам, как это было в случае отрезка пря- мой, и нам придется подставить в уравнение (5.4) ряд значений аргу- мента. Например, удобно выбрать значения 2=(—3; —2,5; —2,0; ... .... 2,5; 3,0). Может возникнуть во- прос: а почему бы не взять значения 2= (5,0; 5,5; ...; 15,0)? Ответ очень простой. Величина г имеет вид (х-*-р)/а, и с точки.зрения зависи- мости от г функция плотности сим- метрична относительно оси р=0. Читатель может самостоятельно вычислить одно-два значения f(z), пользуясь приведенными выше зна- чениями и е. Однако проще воспользоваться значениями, приве- денными в табл. III (см. приложе- ние). Например, f[— 3)=/(3) = = 0,0044; f(-2,5) =f(2,5) =0,0175; f(0) = 0,3989 и т. д. Из’ уравнения (5.4) имеем f(0) = (l//2^)e-₽,2 = = (1/2,50663) • 1 =0,3989, что совпадает со значением /(0), взятым из табл. III. Построим та- Рнс. 5.7. Стандартное нормальное распре деление 105 ким образом несколько точек, со- единим их с помощью лекала, (рис. 5.7). Полученная кривая и будет графиком стандартной плот- ности нормального распределения с параметрами ц=0 и а=1, причем по горизонтальной оси откладыва- ются значения г. Посмотрим теперь, как выглядит график нормальной плотности с па- раметрами, отличающимися от 0 и 1. Возьмем для этого приведен- ные в табл. 4.7 значения почасовых ставок заработной платы 303 про- мышленных рабочих. Этим данным соответствуют значения р=2,85 и а= 0,1911. Обычно наша задача со- стоит в том, чтобы установить, ло- жатся ли опытные данные на «хо- рошую» кривую, являющуюся гра- фиком той или иной известной ма- тематической функции. Если это так, обработка данных существенно упрощается. В том случае, когда наш процесс дает значения, распре- деленные, например, по нормально- му заколу, то его легче сравнивать с другими процессами такого же типа. Кроме того, нетрудно вычис- лить площади под кривой, так как соответствующие значения имеются в таблицах. Попробуем теперь построить нор- мальную кривую с- параметрами р=2,85 и о=0,1911. Выберем опять несколько точек на оси абсцисс, причем сделаем это так, чтобы по ним можно было проследить ход всей кривой. Ясно, что эти точки следует взять симметрично относи- тельно значения ц=2,85. Обычно в качестве самой правой точки бе- рут значение X=p-J-3a=2,85+ 4-0,5733=3,42, а в качестве самой левой —Х=|л—За=2,85—0,5733= =2,28. Выбор значения За обус- ловлен тем, что большая часть (0,997) площади под нормальной кривой заключена между значения- ми —3<z<3 (это видно на рис. 5.7). Учитывая определение переменной z= (х—ц)/а, можно считать, что z=3 соответствует точ- ке на оси х, отстоящей от точки р на За.
Обозначим выбранные нами зна- чения буквой X/, а именно: Х/— =р—За=2,28; Х/=р—2а=2,37 и т. д. Полный набор точек X' приве- ден в 3-м столбце табл, 5.8. -При этом их число вовсе не обязательно совпадает с числом средних точек Xi нашего набора данных. Более того, в большинстве случаев удобно выбирать точки X/ и X'i+1 так, что- бы они отстояли друг от друга на расстояние 1/2о. В общей сложно- сти мы получим 13 точек. Таблица 5.8. Подгонка нормальной кривой к данным о почасовых ставках заработной платы 303 промышленных рабочих i 1 2 h 9 X'i 4 Zl 5 f <Z.) 6 n? i. 7 f'i s J" I 2.496 10 2,23 —3.0 0,0044 0.7 0.0330 0.002 2.595 25 2,37 -2,5 0,0175 2.6 0.0625 0.009 2,696 57 2.47 —2.0 0.0540 6.6 0.1681 0.028 2.795 74 2.57 —1.5 0.1296 20,5 0.2443 0,068 2.895 58 2.66 -1.0 0.2420 38,4 0.1914 0,127 2,995 34 2.76 —0,5 0.3521 55,8 0.1E22 0.184 3.096 17 2.85 0 0,3969 63.2 0.0561 0.209 3.195 14 2.95 0.Б 0.352] 55.8 0,0462 0.184 3.295 11 3.04 1,0 0,2423 38,4 0.0363 9.127 3.395 3 3.14 1.5 0,1296 20,5 0.0099 0 068 303 3,24 2,0 0,0450 8.6 1ДХЮ0 0 028 3,33 2.5 0.0175 2.8 0.009 1 3.43 3.0 0,0044 0*7 0,002 Прямечжвия; 1. Данные столбцов J н 2 взяты из табл- 4-7, оста.7ьныс значения вычислю ы с учетом сле- дующих значений: с=0.19П (см, табл. 4?Ч ц=2^В5 <см. табл. 3.2К 4=€£//=(0.1)-303=30.3-. Л/з= =30.3/0.1911=158.56; Х"=сЕ/.=(0,1)-1=0.]; Л"/с>= =0, I/O .1911=0.5233. 2. Столбцы: Arj- средние точки распредглекняча- стог данных о почасовых ставках зараСотноЙ платы; f соответствующие данным столбца I частоты; [например, Х'в=2.85-Н—2.5)-0,1911=2.37]; Z^=(Ar'ц)/э [например, Zi=(2.37—235) /0.1911= = —2.5]; взяты из табл. HI (ем. приложение); ^=(Л/в)/ (2^=158,56 f вероятности из нереаль- ного распределения: частости, вычисленные из частот, соответствующих столбцу /;nf"j=|d"/ar>/(Zp= =0,5233 f(Zp— вероятности нз нормального распределе- ния, соответствующие Подставим эти значения X/ в уравнение (5.1) и вычислим соот- ветствующие значения функции. Проще всего, конечно, воспользо- ваться готовыми значениями f(z) из табл. III (см. приложение). А именно, запишем друг под другом значения Z<=—3; —2,5; ..2,5; 3). Далее запишем рядом с математи- ческим ожиданием стандартного нормального распределения ц— =Х/=2,85 величину p = Z7=0. Вычислим все остальные значения 1 X/, последовательно вычитая (или прибавляя) величину 1/2а=0,1911/2 из р=Х/=2,85. Затем справа от i столбца Zi перепишем значения f(z) из табл. III (см. приложение). ? Получим столбец 5 табл. 5.8. Ум- I ножим, наконец, значения [(Z,) из ? столбца 5 на A/а, что и даст нам требуемое нормальное распределе- ние частот (см. столбец 6). Эти ча- стоты уже можно сравнивать с рас- • пределением частот опытных дан- ных. Необходимость последнего ша- га станет совсем очевидной, если сравнить стандартную функцию нор- мальной плотности [уравнение (5.4)] с уравнением (5.2). Таким образом, в столбце 6 приведены нормальные частоты, вычисленные по формуле Z = (A/a)f(z). ’ ? Осталось вычислить величину А. Разумнее и проще всего сделать это следующим образом: A = 2c(-h. Если все интервалы группировок одинаковы, то A=Scf{—(с уже не нуждается в индексе). а при с=1. А =2/,-. Первая из этих фор- мул является самой общей: она справедлива для всех распределе- ний частот, а именно, для распреде- лений, описываемых величинами /й /< 1 fi , С, Ci И С 1. Для рассматриваемых почасовых ставок зарплаты А=с£/1=о,1Х Х303=30,3, а А/а=30,3/0,1911 = = 158,56. Тогда частоты соответст- вующего нормального распределен ния примут вид nfi= (A/o)l(Zi) = = 158,56/(Z.). Итак, процедура подгонки нор- мальной кривой состоит в следую- щем. Выберем удобный набор зна- чений X/ (симметричных относи- тельно р), подставим эти значения в уравнение (5.1), что даст непо- средственно величины nf{. Другой способ (который намного проще) 107
заключается в том, что выбирают некоторый набор значений, лежа- щих между точками —3 и 3, нахо- дят в табл. Ill (см. приложение) соответствующие им значения /(г) и умножают их на Л/а. Результа- том будут те же частоты п/,. На рис. 5.8,а приведены два гра- фика — экспериментального распре- деления и соответствующего нор- мального распределения. При этом данные наблюдений (на горизон- тальной оси) можно откладывать в реальных единицах, а частоты 'Нор- мального распределения можно строить над той же осью х и над параллельной осью значений z (в зависимости от того, пользуемся мы данными столбца 3 или 4 табл. 5.8). Взаимное расположение этих двух графиков, возможно, напом- нит читателю о существующей, по мнению многих экономистов, связи между размерами дохода в рамках всей национальной экономики и нормальным распределением. Наши почасовые ставки заработной пла- ты ведут себя аналогично общему распределению дохода: а именно, в обоих случаях наблюдается скошен- ность вправо и отсутствие левого хвоста графика. Последнее обстоя- тельство обусловлено существовани- ем во всех этих задачах некоторого минимального уровня дохода. Распределение почасовых ставок заработной платы имеет колоколо- образную форму, но существенно отличается от нормальной кривой. Это’ замечание справедливо, конеч- но, лишь в том случае, когда поча- совые ставки представляют собой всю генеральную совокупность, а не являются только выборкой из нее. Для экономиста важно отметить, что если бы левый хвост экспери- ментального распределения был длиннее, то это отразилось бы на значении р, которое сдвинулось бы влево, и наша нормальная кривая гораздо лучше соответствовала бы опытным данным. Разумеется, если бы распределение опытных данных имело U-образную форму, то не помог бы никакой сдвиг вдоль оси х. В столбце 8 табл. 5.8 приведены вероятности, соответствующие нор- мальному распределению, а в 7— частости распределения опытных данных. Величины nf" вычисляются так же, как и выше, с той лишь разницей, что значение Л будет другим. Тем не менее оно также вычисляется по уже известной фор- муле Л=с2//г=0,1-1=0,1. Заме- тим, что, несмотря на то, что £/«"= — 1, площадь под полигоном Д=£1, поскольку с=^1. Обе эти кривые построены на рис. 5.8,6. Нормальную кривую можно по- догнать и к набору данных о дли- нах 303 стальных булавок. Все не- обходимые вычисления и графики приведены в табл. 5.9 и на рис. 5.9. То, что число значений X? оказа- лось равным числу значений Xi,— случайность. Все другие вычисле- ния проводятся так же, как и в пре- дыдущем случае. При этом, по- скольку с=1, Л=1*2Д-=300 и Рис. 5.8. Подгонка нормальной кривой к данным о почасовых ставках заработной платы 303 промышленных рабочих (данные взяты из табл. 5.8): I — из столбцов / и 2; 2 — из столбцов 3, 4 Кб; 3 из сюлбцов / я 7; 4 — из столбцов 3, 4 и 8 108
Та блица 5.9, Псдгонка нормальной кривой к данным о длинах 3)0 стальных булавок 1 xi 3 ft s 4 Zt 5 6 r!i 7 f”l 8 244 4 242,6 -3.0 0.0044 0,5 0.0133 0.3D2 245 5 243,9 —2.5 0,0175 2.1 0.0167 U.0U7 246 11 245,1 —2.0 0,5540 6.4 0.0367 0.021 247 16 246,4 -1.5 0.1295 15.3 0.0533 0,051 248 42 247,7 —1.0 0.2420 28.7 0.1400 0.100 249 42 245,9 —0,5 0.3521 41.7 0.1100 0.139 259 56 259,2 0 0.3989 47,3 0,1867 0,158 251 33 251.6 0.5 0,3521 41.7 0,1100 0,139 252 41 252,7 L0 0,2420 28,7 0,1367 0,100 253 17 254,0 1.5 0.1295 15,3 0,0567 0,051 254 14 255.2 2.0 0,0450 6.4 0.0467 0.02! S55 n 256,5 2,5 0.0175 2.1 0,0387 0t007 256 6 257,8 3,0 0.0044 0.5 0.0267 0.003 300 ч 1,0000 Примечание: I. Данные амты н» столбцов /, 3 в 7 табл 4.6; данные столбцов 4 и 5 совпадают с дан- KhQfH столбцов 4 я 5 геол. 5.6; остъ-ъаде дшше ш> числены с учетом следующих значений; р=250.2; а= =2.53; A=clfi=i -300=300=Ef £; Д/о= 300/2.63= =11838; 4"=£/". =Ь1=Е/"-; 4"/7=1/2,53= -0.3849. 2. САределение величай приведенных в каждом из столбцов, см. в табл. 5.8. Л"=1«2//*=1. Отметим, что вме- сто того, чтобы строить четыре кри- вые на двух координатных плоско- стях, мы взяли два разных масш- таба по вертикальной оси. Рис. 5.9. Подгонка нормальной кривой к распределению 300 стальных булавок (данные взяты из табл. 5.9) Видно, что экспериментальное распределение длин булавок до- вольно точно следует нормальному закону, хотя его хвосты по-прежне- му имеют небольшую длину. Озна- чает ли это, что наша машина в принципе не может производить бо- лее короткие и более длинные бу- лавки? Вовсе нет. Может оказать- ся, что данные выборки не вполне адекватно представляют всю гене- ральную совокупность и что боль- шая выборка содержит более зна- чительные выбросы — это делало бы хвосты распределения более длинными. Несколько иной способ подгонки кривой приведен в табл. 5,10 Раз- ница состоит в юм, что значения Zt вычисляются по опытным дан- ным Xf. Тем самым число значений Zt в точности совпадает с числом значений Xi, и интервал, на кото- ром строится нормальное распреде- ление, будет равен размаху набора опытных данных. Кроме того, сум- ма Snfi будет примерно равна сум- ме частот, частостей или плот- ностей (2fa, Sft", Sfi'), к которым подгонялась нормальная кривая. Таблица 5.10. Подгонка нормальной кривой к данным о почасовых ставках заработной платы 303 промышленных рабочих 7 3 ft 3 zl Hzp 8 nh 2,495 10 —1.86 0,0707 И.2 2,595 25 —1,33 0,1647 26,1 . 2,695 57 —0,81 0,2874 45,6 2,795 74 —0,29 0,3825 60,6 2,895 58 0,24 0,3876 61,5 2,995 34 0.76 0,2989 I 47,4 3.095 17 1.28 0,1758 27,9 3.195 14 1.81 0,0775 12,3 3.295 11 2.33 0,0264 4,2 3.395 _3 2.85 0,0069 1,1 303 297.9 Прямечяхямх 1. Данные столбцов 1 я 2 мяты ив табл 4-7. осталыде иьнислеад с учетом следующих амэтеяяй* р.=2.85 (см табл, 3.2); с=0,1911 (см. табл* 4.4); А и Ala (ем табл. 5.8) 2. Столбцы; Хр распределение частот опытных Дат»; 2^={Х^—р.)/а ^например, Z»=(2^595— —2^5)70.1911=—1,331; f(Zj) взяты нз табл. Ш (см, преложеште); f (zp= 158,58. Если Zj вычислены по значениям Х^ исходного рас- пределения частот, то сумма nf{ будьт приблизитель- но совпадать с суммой f Рассмотренные нами процедуры особенно полезны в тех случаях, когда используются численные ме- тоды сопоставления (например,кри- 109
терий хи-квадрат). Отметим, что с помощью этих методов нельзя об- наружить отсутствующие хвосты распределения, и их следует приме- нять с осторожностью, чтобы избе- жать неверных выводов. 5.4.2. Площадь под нормальной кривой При подгонке1 нормальной кри- вой к опытным данным мы прежде всего сравниваем форму полигона, описывающего распределение опыт- ных данных, с формой некоторой нормальной кривой. Если опытные данные хорошо ложатся на нор- мальную кривую, то это существен- но упрощает вычисление площадей под графиком экспериментального распределения. Площади А*',' под нормальной кри- вой, как, впрочем, и под графиками других теоретических распределений, 1 На самом деле речь идет не о «под- юнке» как выборе из определенного клас- са кривых некоторой кривой, нанлучшнм образом соответствующей эксперименталь- ным данным с точки зрения заданного критерия. Под термином «подгонка» здесь подразумевается нечто другое: в предпо- ложении, что экспериментальные данные хорошо ложатся на нормальную кривую, площадь под экспериментальной кривой аппроксимируют площадью ' под нормаль- ной кривой. Автор указывает и а два спо- соба такой аппроксимации. Во-первых, можно начать со стандартизации графика экспериментальных данных, для чего сдви- гают среднее в нуль и приводят площадь под кривой и дисперсию к единице Затем строят график нормальной кривой по таб- личным значениям и, убедившись, что он не очень сильно отличается от стандарти- зованной экспериментальной кривой, полу- чают интересующие нас площади допол- нительным умножением табличных значе- ний площадей и я соответствующие коэф- фициенты. Во-вторых, можно поступить наоборот: стандартизовать только интер- валы группировок экспериментальных дан- ных, подобрать соответствующие им пло- щади по таблицам нормального распреде- ления и построить несгандартизованный (рафик путем дополнительного умножения этих площадей на соответствующие коэф- фициенты. Тогда интересующие нас площа- ди вычисляются но этому графику с ин- терполяцией между известными значения- ми. — При и. ред. ПО ' вычисляются с помощью кумулятив ных функций распределения F (z) ви- да „меньше, чем“ которые, в свою очередь, могут быть получены по функциям плотности ['(г). Вывод фор- мулы для А*,' принципиально ничем не отличается от вывода соответст- вующей формулы в случае, если кривая представляет график линей- ной зависимости. Поскольку нор- мальная кривая применяется в очень большом числе задач, величи- ны площадей под ней можно найти в большом числе таблиц. Использо- вание этих таблиц заменяет под- становку значений z или х в общие формулы и тем самым избавляет нас от необходимости проводить сложные арифметические операции. Площади под кривой стандарт- ной плотности нормального распре- деления содержит и табл. III (см. приложение). При этом в нее вклю- чены лишь площади, имеющие вид Л (а не л"£)- Этого вполне до- статочно, так как нормальное рас- пределение симметрично и До"*= =Д_/Ч Как пользоваться этой таблицей» мы рассмотрим на нескольких простых примерах. Для интервала 0<z< 1,2 Д''1'2= 0,38493 (так как значению 1,2 в первом столбце соответствует значение 0,38493 во втором); для интервала —0,8<z< < I.2 = До"12 + ло"°18 = =0,38493+0,28814 = 0,67307; для интервала —l,2<z<0,8 Д"1?’| = = Д 0"0.8 = 0,38493— —0,28814 = 0,09679; для интервала z<—1,2 Д_<в"-’-2=Д0/,«—До',’>2= =0,50000—0,38493=0,11507; для интервала z>l,2 Д1,2,'°°=До"“— —Д0"«.2 = 0,50000-0,38493- = =0,11507, что совпадает с пло- щадью над интервалом z>l,2. Три из этих площадей показаны на рис. 5.10 Значения кумулятивной функции распределения F(z) вида «меньше, чем» нормального распределения можно найти по табл. IV (см. при-
Рис. ».1О. Площади под нормальной кривой ложение). Воспользуемся теперь этой возможностью и еще раз вы- числим площади, рассмотренные в предыдущих примерах: А"1*= F (1.2) - F (0) = 0,8849 - -0,3000=0,3849; Д"^8 = Г(1,2)-Г(-0,8) = =0,8849 - 0.2119 = 0.6730; A'f^=F (- 0.8) - F (- 1.2) = =0,2119 - 0.1151 =0,0968; 1,2) =0,1151; Д"« = 1 F (1 2) = 1 - 0,8849= =0,1151. Второй способ [с использованием кумулятивной функции распределе- ния F(z) вида «меньше, чем»] го- раздо удобнее в том случае, когда график распределения является скошенным относительно ц. Именно поэтому в большинстве статистиче- ских таблиц приводятся значения этой функции распределения. Однако можно поступать и в об- ратном порядке и подгонять нор- мальную кривую путем сравнения площадей. Для этого следует по обычным формулам \Zt= (iB,— —ц)/о и и2>-= (цВ<—ц)/ст стандар- тизовать границы группировок и vFi, найти площади под нормаль- ной кривой и умножить их на Sfi, после чего мы получим равенст- ва Вся процедура вычисления приве- дена в табл. 5.11. Использованные в ней экспериментальные данные касаются статистики школьных оценок, распределение которых спе- циалисты любят сравнивать с нор- Таблица 5.11. Подгонка нормальной кривой к распределению оценок по статистике (путем сравнения площадей) ив. *1 fl uZ( A'^Zl \zl Jl 41,5—51,5 46,5 5 (—2,71)—(—2.32) 0,0068 0,8 51,5—61,5 56,5 3 (—2,32) —(-1,92) 0,0172 1.9 61,5—71.5 66,5 1 (—1.92) —(—1,53) 0,0356 4,0 71,5—81.5 76,5 8 (—1.53)-(-l,13) 0,0662 7,3 81,5—91,5 86,5 8 (—1,13)-(-0,74) 0,1004 11,1 91,5—101,5 96,5 8 (—0,74)—(—0,34) 0,1373 15,2 101,5—111,5 106,5 15 (—0,34)—0,05 0,1530 17,0 111,5—121,5 Н6,5 12 0,05—0,45 0,1537 17,1 121,5-131,5 126,5 30 0,45—0,84 0,1259 14,0 131,5—141.5 136,5 18 0,84—1,24 0,0930 10,3 141,5—151,5 146,5 3 1,24-1,63 O',0559 ‘ 6,2 111 104,6 Примечание. Данные исходного распределения пяяты из табл. 2.6; а=25.29. р-тт I !0.19. Чтобы получить £^-=111. у множим на fe=l 11/104,9=з1.058. II 1
мальвой кривой. Мы рекомендуем читателю начертить обе кривые и попытаться понять их смысл. Сле- дует отметить существенный факт: экспериментальная кривая не имеет правого хвоста, и обе кривые вооб- ще мало похожи друг на друга. В чем дело? Может быть, плохих студентов было больше, чем хоро- ших? Или виновата программа эк- замена? Сравнение площадей под нор- мальной кривой и полигоном. Име- ется еще один полезный метод, с помощью которого можно прове- рить, насколько хорошо некоторое распределение следует нормально- му закону. Можно взять три-четы- ре значения площади под нормаль- ной кривой и сравнить их с значе- ниями соответствующих площадей под полигоном, являющимся графи- ком распределения опытных дан- ных. Предположим, например, что мы выбрали три площади под нор- мальной кривой:пЛ^=0>683,пЛ2з= =0,955 и „Aj=0,997, где индекс п означает нормальное распределение. Анализируя графики на рис. 5.9, мы уже отмечали, что распределе- ние длин булавок довольно хорошо ложится на нормальную кривую. Проверим теперь это наблюдение, вычислив значения 0A_J,0A_2 и «ДД. где индекс о означает опытные дан- ные, а правые верхний и нижний индексы — значения z, которые ог- раничивают рассматриваемый ин- тервал. Для опытных данных каж- дое значение z, например z=2, on- ч ределяет некоторое значение пере- менной х, а именно такое, при кото- ром (х—р)/о=2. Проще говоря, значению z=2 отвечает число х, лежащее на два средних квадрати- ческих отклонения правее р, т. е. х=ц-}-2о. Вычислим величину оА2,{ , чтобы сравнить ее с • Для этого най- дем сначала ОА*',' , где дг'=ц — о, а х" — р-|-з. В других обозначе- ниях мы найдем . Это есть пло- щадь, под рассматриваемым отрез- ком полигона, и ее можно вычис- лить, складывая отвечающие точки этого отрезка частоты. П ри этом, как правило, ряд промежуточных зна- чений приходится интерполировать. Чтобы величину ОА^ можно было сравнивать с rtA"]_], ее следует пре- образовать к следующему виду: А Л"‘-и£:/ЗГ<=2м?г< или в более общей форме X', = „А^/А. В рассматриваемом примере р= =250,2, ст=2,53. Мы хотим найти А Д* " ДН+» «252,7 VI с О*' «/^-о </*247,7 Zl II- l-P В подобных случаях площади следует выражать через границы интервалов группировок (плюс ин- терполированные значения в тех случаях, когда х" и х7 не совпада- ют с границами интервалов группи- ровок). В рассматриваемом случае границы интервалов группировок равны uB9=252,5 и jB6=248;5, от- куда 9 </S= S Л = 172. 7=G К этому следует прибавить некото- рую долю /5=42 и некоторую долю /10=17. Первая из них равна (jBe—247,7)/с= = (248,5—247,7)/1 =0,8, так что (0,8)-42=33,6, а вторая (252,7—А)/с= =.(252,7—252,5)/1=0,2, поэтому 0,2-17=3,4. В результате И' = 172 + 33,6 + 3,4 = 209. В относительных величинах (часто- тах) эта площадь равна Л'Х7 =<Л” ! = 209/300 = 0,697, X'A4rJ > v 1 112
и именно ее .мы хотим сравнить с =0,683. Разность между дву- мя этими значениями составляет 0,014, т. е. 1,4%. Для многих задач такая разница будет несуществен- ной. Что би получить ^2/ • вычислим ДН+2’_______ дйз.з о'р.-й» — o'be.l • Как и в предыдущем случае, на- чнем с площади между границами интервалов группировок иВц = =254,5 и ^з=245,5. Площадь под полигоном между этими двумя точ- ками равна o^=Sf.=272. 7=3 Прибавляя к ней 0,4 -Ь=0,4 -5= =2,0 и 0,8-fi2= 0,8-11=8,8, полу- чаем j == 272 + 2,0 + 8.8 = 282,8, и окончательно имеем И(,=282.8/300= =0,943. Вспомним, что „д"22=0.955; значит, эти две величины различаются на 0,012, т.е. на1,2%. Наконец, ХХ=о^1=300- Отсюда ОД_Э|=1, и именно эту ве- личину необходимо сравнивать с йД2/= 0,997. Сравнение нормального распре- деления с биномиальным. Сравним теперь нормальное распределение с биномиальным. Оба они очень важны с теоретической точки зре- ния и часто Используются в выбо- рочных исследованиях. Вместо того чтобы вычислять площадь над ин- тервалом р—мы возьмем три пары границ интерва- лов группировок и найдем соответ- ствующие значения z. В результате отпадает необходимость в интерпо- ляции частот, и попутно мы позна- комимся еще с одним способом вы- числения площадей под кривой. 8—232 Выше мы уже отмечали, что, если лп>5 [когда л<(1—л)] или если (1— л)п>5 [когда (1—л)<л], би- номиальное распределение близко к нормальному. В качестве примера возьмем биномиальное распределе- ние из табл. II (см. приложение) с параметрами п=20 и л=0,3. Для этого распределения л<(1—л), так как 0,3<0,7, и ля=6. Если на- ше упрощенное правило справедли- во, это распределение по своей фор- ме будет похоже на нормальную кривую. Так как математическое ожида- ние этого биномиального распреде- ления р.х=ля=6, выберем удоб- ные границы интервалов группиро- вок симметрично относительно это- го математического ожидания. Возьмем, например, 1В5=3,5 и иВэ=8,5, т. е. рассмотрим значения Х, из интервала 9 И« = 2 f", =0.7796. 35 7=Б Строго говоря, мы должны были бы вместо А написать А", но в дан- ной ситуации никакого недоразуме- ния возникнуть не может, поэтому мы штрихи опустили. Чтобы найти соответствующую площадь под нормальной кривой, вычислим сна- чала величины р)/ст и 2/= (1В,—р)/(Т. Для рассматриваемого нами би- номиального распределения 0=’|/д7г(1 —чг)=^ул 20-0,3-0,7 = =2.05. z"= (8,5— 6) /2,05=1,22 и У= = (3,5—6)/2,05=—1,22. Отметим, что в нашем примере z'=—z", од- нако это вовсе не означает, что иВ< и надо всегда выбирать так, чтобы соответствующие значения z были симметричны относительно |х. Далее, „А*','= „Д^22=0>7775, что очень хорошо выдерживает сравне- ние с величиной ьД!’г =0,7796. 113
Для интервала 2<Xi<10 ifi3= = 1,5, u6i! = 10,5 и п ьД’0* = 2 Г г —0,9754. ’ 4=3 Найдем теперь площадь под нор- мальной кривой на интервале z'<Z <z<z": г"= (10,5—6)/2,05= 2,20; z'=(l,5—6)/2,05=—2,20. Имеем X" =«^20=0.9722. что также очень мало отличается от ьД’0.-3 =0,9754. I iO Наконец, приведем еще одну па- ру соответствующих величин—Х"’5= = 0,9942 и = 0,9926, кото- рые тоже очень близки друг к другу. В случае, когда я = 0,3, но л=10 (здесь уже /ги: = 3<5), биномиаль- ное и нормальное распределения бу- дут менее сходны. Для этих распре- делений = /гя = 3, о = = /10 - 0,3.0,7 = 1,45, Х.1 = =0,7004, а ХТоз=0’6970- Г,ло‘ щадь XW.9244, а =0.9146. Отметим еще одно обстоятельст- во. Пусть на оси х выбраны две точки. Чтобы сделать их сравнимы- ми и не зависящими от распределе- ния, приведем соответствующие ин- тервалы к виду ц— Мы уже знаем, что для биномиаль- ного распределения величины меняются с изменением пил, хотя эта разница и стремится к ну- лю с увеличением п (при постоян- ном л). Именно поэтому биноми- альное распределение является по существу семейством распределе- ний. В случае нормального распреде- ления величина пА^^1А=аА,,*1’ име- ет всегда одно и то же значение. Другими словами, вполне может ока- заться, что несколько распределений, имеющих разные ц и а, будут подчи- нягься нормальному закону. В этом случае, все площади Л^^/Д будут одинаковы, хотя графики этих рас- пределений могут сильно отличать- ся друг от друга. Если, однако, стандартизировать их по общей формуле г=(х—ц)/с, то новые графики будут совпадать (в отли- чие от графиков биномиального рас- пределения). Теперь мы может дать более разумный ответ на вопрос: зачем вообще нужно искать некоторую математическую кривую, на кото- рую хорошо ложатся 'опытные дан- ные? Основные причины состоят в следующем: 1) если два (или бо- лее) распределения описываются одинаковыми математическими кривыми, то иногда на основании этого можно предположить, что форма их определяется одними и теми же причинами; 2) значительно упрощается Процедура вычисления площади под графиком распределе- ния опытных данных (полигоном). Ее можно оценить по известным формулам или с помощью стандарт- ных таблиц, причем при вычислении по формулам используются не все данные (например, в случае нор- мального распределения достаточ- но знать ц ио); 3) два распределе- ния можно сопоставить, подогнав к ним одну и ту же математическую функцию, вместо того чтобы стро- ить их графики и вычислять целый ряд статистических характеристик. Такая процедура особенно полезна в тех случаях, когда сопоставляе- мые значения существенно отлича- ются по порядку — как, например, зарплата промышленных рабочих и оклады конторских служащих, с од- ной стороны, и доходы квалифици- рованных специалистов — с другой. 5.5. НЕКОТОРЫЕ ПРИЛОЖЕНИЯ Площади под нормальной кривой. Заказчику необходимо 5000 сталь- ных булавок. Он определяет нуж- ные ему свойства материала, диа- метр булавки и ее длину. Длина 114
должна составлять 0,250±0,005 дюйма, т. е. (250±5) ♦ Ю-3 дюйма. Производитель, чтобы установить, позволяет ли имеющееся у него оборудование удовлетворить требо- вания покупателя, может взять до- статочно большую выборку, напри- мер 300 булавок, и вычислить ее характеристиюн. Предположим, что он получит Х=р/=250,2, т. е. ок- ругленно 250-10~3 дюйма и s=o/= =2,54. . Среднее арифметическое выборки совпадает с требованиями покупате- ля к длине булавок; производствен- ные возможности соответствуют ус- ловиям заказчика (250-Ю-3 дюй- ма) . Как теперь быть с максимально допустимым отклонением ±5-10_3 дюйма? В предположении, что зна- чения длины булавок распределены по нормальному закону, в процессе производства будет получен раз- брос 250±3о, т. е. 250±3-2,54= =250 ±7,6. Разброс слишком ве- лик, и некоторое число булавок не будет удовлетворять условиям за- казчика Что же делать изготови- телю? Он может внести изменения в процесс производства, но это обой- дется ему в 18 долл., поэтому, преж- де чем сделать это, он постарается определить, сколько булавок будут иметь длину, выходящую за допу- стимые пределы, и сравнить их стоимость с суммой в 18 долл. Определить число булавок, дли- на которых попадает в допустимые пределы (245 255) • 10-3 дюйма, — значит найти число значений X*, таких, что (Х'<Х,-<Х") = (245< СХ(С255). В предположении, что длины распределены по нормально- му закону, это число можно найти, умножив 5000 на размер площади под нормальной кривой , где промежуток z'<Zz<Zz" должен со- ответствовать интервалу (245^Х<^ С255). Эти границы изменения перемен- ной г равны: / X' — р/ . X" —р' \ __ . /245 — 250 . . = ( 2,54- <г< <2552^425°) = (- 1.97< Z < 1,97), <Ь * где р/ и s' есть оценки значений и и о, полученные по взятой выборке (т. е. просто значений X и s). Пло- щадь под нормальной кривой над интервалом —1,97<г<1,97 равна XS = F- 1.97-F( - 1,98) = =0,9756—0,0244=0,9512. Это зна- чит, что около 0,9512-5000=4756 булавок будут удовлетворять усло- виям заказчика. Остальные булав- ки (5000—4756= 244) придется от- править в брак. Если одна булавка стоит 2 цента, то 244 булавки обой- дутся в 4 доллара 88 центов — сумму, существенно меньшую, чем та, которая потребуется для изме- нения производственного процесса, так что изготовитель вполне, может сохранить имеющееся у него обо- рудование. Еще один пример. В воинской части офицеру-снабженцу необхо- димо заказать 2000 пар ботинок для новобранцев. Ботинки бывают следующих размеров: 9; 9,5; 10; 10,5 и т. д. На основании своего опыта снабженец знает средний размер и средиеквадратическое от- клонение. А именно (данные име- ют, конечно, искусственный харак- тер): (1=10,3 и а=1,2. Кроме то- го, ему известно, что размеры рас- пределены по нормальному закону. Сколько пар ботинок размером 9,5 он должен заказать? Прежде чем воспользоваться свойствами нормального распреде- ления, необходимо числу Х=9,5 поставить в соответствие неко- торый интервал. Возьмем для это- го промежуток 9,25 <х< 9,75. Как и в предыдущем примере, эти пре- делы следует привести к стандарт- ному виду (к переменной z): 9,25—10,3 1.2 8* 115
<----------W“ 0,88 <z< — 0,55). Над этим промежутком площадь под нормальной кривой равна „4"®/ = =F(-0.55)-Р(-0,88)= =0,2912-0,1894=0.1018. Это зна- чит, что нашему снабженцу следу- ет заказать 0,1018 • 2000=203,6, т. е. 204 пары ботинок размером 9,5. Точно также можно определить и необходимое число ботинок всех остальных размеров. Аналогичные соображения должен учитывать и руководитель торгового отдела универмага. В противном случае он быстро распродаст ботинки некото- рых, размеров и окажется не в со- стоянии удовлетворять спрос поку- пателей, в то время как ботинки других размеров будут лежать не- проданными. Нормальная вероятностная бума- га. Нормальная вероятностная бу- ОДОО У’одпо ^0,300 1^ 0.050 f^'ojbzO ^6,ОДО5 . ,O.OOZ Пз)—- F& F(3)^ .L'&WS. одво F(f,5)^~ ОДОО F(t)---- 0,000 Длина булавки, 10 3ВюйП if) i'} чъ Рис. 5.11. Нормальная вероятностная бума- га (распределение длин 300 стальных бу- лавок; данные взяты из табл. 5.12) 116 мага — очень полезное средство, с помощью которого можно прове- рить, следует ли некоторое распре- деление частот нормальному зако- ну. Если ответ на этот вопрос ока- зывается положительным, то с ее помощью можно графически оце- нить среднее арифметическое и среднее квадратическое отклонения нашего распределения. Кроме того', по графику можно найти и значе- ния nfi, но этим вопросом мы здесь заниматься не будем. Вертикальная ось на нормальной вероятностной бумаге (рис. 5.11) размечена так, чтобы по\ней отсчи- тывались значения F(z), а не f(z). Возьмем из табл. IV (см. при- ложение) несколько значений ^(z)—например, для набора то- чек z=’(—3, —2,5,...). Отметим значения z на горизонтальной оси и построим над ними точки с орди- натами F(z). Все они будут лежать на одной прямой. Чтобы построить на нормальной вероятностной бумаге распределе- ние частот опытных данных, вычис- лим частости f"t, найдем кумулятив- ную функцию распределения F"t, отложим на горизонтальной оси значения Х\ и построим точки с координатами X'it F"i. На рис. 5.11 построен график распределения длин 300 стальных булавок из табл. 5.12. Полученный полигон будет почти совпадать с прямой — это подтверждает наш вывод о том, что длины булавок распреде- лены по нормальному закону. Од- нако мы не построили точки, имею- щие координаты F"i=0 и X'i= =243,5, а также F"u=1,000 и Х'и= =256,5. Дело в том, что наимень- шая возможная длина, которую мо- гут иметь булавки, изготовляемые на нашем оборудовании, вряд ли равна 244, а наибольшая — 256. Не исключено, что машина может оши- биться и на большую величину. Чтобы оценить среднее значение, найдем точку на абсциссе, соответ- ствующую F(0)=0,50. Полученная величина g'=250,l очень хорошо согласуется.с вычисленным значе-
Таблица 5.12. Распределение частот длин 300 стальных булавок, 10** дюйм Х1 h x’i Меньше, чем X'., F"i 244 4 0,0133 243,5 0,0000 245 5 0,0167 244.5 0,0133 246 11 0.0367 245,5 0,0300 247 16 0.0533 246,5 0 0667 248 42 0J4O0 247,5 0,1200 249 42 0,1400 248,5 0.2600 250 56 0,1867 249,5 0,4000 251 33 0,1100 250,5 0,5867 252 41 0,1367 251,5 0,6967 253 17 0,0567 252,5 0,8334 254 14 0,0467 253,5 0,8901 255 Ь 0,0367 254,5 0,9368 256 8 0,0267 255,5 0,9735 300 1,000 256,5 1,000 Пряь 1еч>вие, . Данные взя ты и» табл. : 2.4. нием 250,2. Чтобы оценить а, най- дем точки на оси абсцисс, соответ- ствующие ординатам F(l) и /(—1). Получим значения 252,8 и 247,8, которые можно записать в виде ц-}-<7= 250,1-Нт=252,8 и р— —а=250,1—о=247,8. Отсюда по- лучаем две оценки для а:«У1 = =252,8—250,1=2,7 и с/2=250,1 — —247,8=2,3. Взяв среднее от этих двух оценок, получаем а'—2,5, что хорошо согласуется со значением <т=2,53. Если выборка относительно не- велика, то, хотя построенные точки и будут лежать близко от некото- рой прямой, график может иметь зигзагообразную форму. В этом случае нормальная вероятностная бумага очень удобна: можно прове- сти прямую от руки и сразу полу- чить оценки среднего и среднего квадратического отклонения. Моделирование с помощью нор- мально распределенных случайных чисел. Нормально распределенные случайные числа используются во многих задачах, связанных с моделированием случайных процес- сов. Прежде всего выясним, что такое нормально распределенные случайные числа. Лучше всего сделать это, сравнивая их с обыч- ными случайными числами. Таблица обычных случайных чи- сел приведена в приложении (см. табл. I). Таблицу такого рода мож- но'получить следующим образом. На десяти одинаковых шарах на- пишем числа от нуля до девяти. Будет брать из этой совокупности наугад по одному шару (с возвра- том) и каждый раз записывать но- мер выбранного шара. Если из табл. I выбрать 500 (или любое другое достаточно большое число) однозначных чисел и составить их распределение частот, то мы убе- димся в том, что все числа будут иметь примерно одинаковые часто- ты. Другими словами, это распре- деление частот будет прямоуголь- ным. Нормально распределенные слу- чайные числа приведены в табл. IV (см. приложение). Это есть значе- ния величины z, причем z=0 (и близкие к нему) встречается в ней гораздо чаще, чем, например, г= =—2,825. Если из табл. IV выпи- сать 500 нормально распределен- ных случайных чисел, то это рас- пределение частот уже не будет прямоугольным, а будет напоми- нать нормальную кривую. Рассмотрим конкретный пример. В электромоторе имеются детали А и В, причем выход из строя лю- бой из них приводит к остановке двигателя. Только что началось производство новой модели этого электромотора, и фирма-изготови- тель хочет определить распределе- ние частоты ее срока службы. Анализ имеющихся данных по- казал, что срок службы детали А гораздо короче, чем срок службы Детали В, так что большая долго- вечность детали В совершенно бес- полезна. Графики соответствую- щих распределений частот оказа- лись похожими на кривые, приве- денные на рис. 5.12,а. Убедившись в этом, фирма-изго- товитель решила сделать так, что- бы долговечность обеих деталей стала примерно одинаковой. По- скольку деталь А уже является лучшей на мировом рынке и увели- 117
Рис. 5.12. Срок службы запасных частей: I — деталь Л; 2 — деталь Б Продолжительность,103ч чить ее долговечность до уровня долговечности детали В практиче- ски невозможно, фирма-изготови- тель решила использовать менее долговечные детали В. Такая за- мена даст значительную экономию в связи с тем, что стоимость дета- ли зависит также и от ее долго- вечности. Графики распределений частот стали теперь похожи на кри- вые, построенные на рис. 5.12,6. Далее, по некоторой выборке были определены средние значения срока службы каждой детали и со- ответствующие средние квадрати- ческие отклонения. Но поскольку двигатель был новой модели, вы- борка была взята из данных уско- ренных лабораторных испытаний. Были получены следующие значе- ния: ц'А=52,3, о'а=4,38, |а'в= = 55,1, с?в=5,85-103 ч. Подгонкой кривой было установлено, что оба распределения можно считать нор- мальными. Представим теперь, что сборщик на конвейере собирает электродви- гатель, Он устанавливает детали А и В. Сколько часов проработает конкретная деталь А? Возможный вариа нт ответа: AL = р'+za'A= =52,3-|-z-4,38, где AL—-срок служ- бы детали А. Мы, конечно, не зна- ем, какое значение z соответствует той или иной конкретной детали А, поэтому берем ее из таблицы нор- мально распределенных случайных - чисел и получаем оценку срока службы одной детали. Разумеется, для одной детали эта оценка почти заведомо окажется неправильной, но для большего числа таких де- талей эти оценки дадут хорошую модель распределения реальных значений срока службы детали А. 118 Срок службы детали В также оценивается по формуле вЬ=ц'в+ -|-ов= 55,14-2-5,85, где z берут из таблицы нормально распределен- ных случайных чисел. Срок службы всего двигателя mL равен мЬ=л1. сели AL<B£, и м£=вЬ. если uL<aL. Порядок вы- числений в этой задаче приведен в табл. 5.13. После того как некото- рое число значений мЬ уже полу- чено, можно составить распределе- ние частот. Его можно использо- вать при организаций рекламы но- вых двигателей и при выработке гарантийных условий его эксплуа- тации. Проведенный нами анализ дает фирме возможность организо- вать рекламу и (или) гарантийное обслуживание, а также точно оце- нить издержки гарантийного обслу- живания. При этом следует иметь в виду, что результаты моделирова- ния можно применять уже в са- мом начале производства новой мо- дели, поэтому фирме-изготовителю не придется ждать 2—3 года, пока накопятся экспериментальные дан- ные и достаточный опыт эксплуа- тации. Распределения вероятностей в задачах об управлении запасами. Шеф-повар некоторого ресторана заказывает продукты на воскрес- ный день. Сколько килограммов определенного продукта он сможет использовать? Если бы каждое вос- кресенье его ресторан посещало од- но и то же число людей, то ника- кой проблемы не было. Однако в городских условиях число посети- телей зависит от многих факторов, в частности от того, какие блюда и развлечения предлагают своим гос- тям другие рестораны. В прошлом
Таблица 5.13. Распределение частот, полученное путем моделирования срока службы электродвигателей zi X ьГ т + о СП «— С4 ~А <х zl В/(- (65,1 + zp< Х5.85), НЯ ч - ф» - < * •J О' * < Д 2 —0,257 51,2 —1,789 44,6 44,6 0,178 53, J 0,510 58,1 53,1 —1,033 47.8 0.102 55,7 47,8 1,220 57,6 0.89! 60,3 57,6 1,063 57.0 —0,510 51,9 51,9 —0,481 50,2 —1;О32 49,1 49,1 наш шеф-повар иногда заказывал больше продуктов, чем оказыва- лось необходимым; случалось ему заказывать и меньше, чем требова- лось, и лишь очень редко количе- ство продуктов в точности соответ- ствовало спросу. Чтобы тщательнее изучить этот вопрос, шеф-повар поступил сле- дующим образом. Он начал зака- зывать продукты с некоторым за- пасом — с тем, чтобы гарантиро- вать себя от нехватки. Далее, в течение длительного периода он каждое воскресенье записывал ко- личество действительно использо- ванного продукта, а затем составил распределение частот этих дан- ных. Будем считать, что это рас- пределение оказалось похожим на распределение длин 312 стальных булавок из табл. 5.1. Таким обра- зом, шеф-повар 12 раз использо- вал 244 кг продукта, 14 раз — 245 кг и т. д. Отметим, что скорее всего он собирал данные, соответ- ствующие воскресным дням некото- рого сезона, а не брал данные за весь год подряд. Правильно ли будет вычислить теперь среднее арифметическое это- го распределения и закупать на каждое воскресенье именно такое количество продуктов? Верно ли, что в перспективе это .будет са- мой разумной политикой? Да, это будет верно, но только в том слу- чае, если стоимость излишков, ко- торые ему придется выбрасывать в некоторые из воскресных дней, бу- дет равна потерям, связанным с нехваткой продукта в другие вос- кресные дни. Пусть Се=0,80 долл.— стои- мость 1 кг продукта, который при- ходится выбрасывать, a Cs= = 1,20 долл, представляет собой потерянную в связи с нехвдткой 1 кг продукта прибыль. Так как в этом случае C<.=/=CS, необходим дальнейший анализ проблемы. Данные табл. 5.1 ложатся напря- мую линию (этот пример, конечно, искусствен, поскольку на практике распределение будет иметь колоко- лообразный вид). Подберем неко- торую прямую, соответствующую нашим данным, и составим ее урав- нение. Эту операцию мы продела- ли выше, так что воспользуемся го- товым результатом Уравнение пря- мой, площадь под которой равна единице (над соответствующим интервалом), имеет вид f"(x) = = 1/312(—476-f-2x). График ее по- строен на рис. 5.1,в. Шеф-повара интересует некото- рая оптимальная величина х, при- чем 243,5<х<256,5. Если спрос окажется меньше х, то потери бу- дут определяться величиной Се, ес- ли . больше х, — то величиной Cs. Для фиксированного значения х вероятность того, что £><х (где буквой D обозначена величина спроса), равна площади под графи- ком слева от точки х. Вероятность того, что D>x, равна площади справа от х. Каково же оптимальное значе- ние х? Оно должно быть таким, чтобы СР, умноженное на P(D<.x), равнялось Са, умноженному на P(D>x). Причем для того, чтобы решить задачу, достаточно найти P(D<x), так как Р(О2>х)=1— —P(D<x). Для того чтобы найти P(D<x), достаточно решить урав- нение СеР (О< х) = CJ> (D > х) = = СД1 -P(D<x))=Cs~ -CSP(D< л). 119
т. е. CeP(D<x)4-CsP(D<x)=Cs, что можно записать в виде P(D<x)(Ce+Q=Cs, откуда P(D<x) = C,'(Ce + Q = = 1.20/(0,804; 1,20)= 0,6. в Точку х можно найти и графиче- ски. Для этого проведем на рис. 5.1,в с помощью метода, проиллю- стрированного иа рис. 3.2 и 3.3, та- кой перпендикуляр, чтобы слева от него лежало 0,6 площади под гра- фиком. Основание этого перпенди- куляра и даст требуемую величину х (в кг). Такого рода графический способ решения очень удобен на практике, и его часто применяют в тех случаях, когда трудно по- строить хорошую математическую кривую, аппроксимирующую опыт- ные данные. Величину х можно найти и с по- мощью вычислений, используя для этого кумулятивную функцию рас- пределения вида «меньше, чем» F"(x) = 1/312(56-613,75 — 476х + 4-х2). Нам известно, что она равна 0,6. Поэтому все, что необходимо сделать, — это решить' квадратное уравнение 0.6 = 1/312-(56613,75.— —476х-|-х2) относительно х. Полу- чаем 0.6-312=56 613,75—476x4-х2, откуда л’ - 47бх + 56 426,55 = 0 и х=476 ± 1/(476)’-4-56 426.55/2. Следовательно, х=223.2 или х= =252,8. Первое* решение (х=223,2) не подходит, так как в нашей задаче количество использованных продук- тов в прошлом никогда не выходило за пределы интервала 243,5<х< <256,5. Таким образом, шеф-повару следует заказывать 252,8 кг продук- тов на каждый воскресный день. Для каждого конкретного воскре- сенья (например, для следующего) это количество скорее всего окажет- 120 ся или чрезмерным, или недоста- точным. Поэтому при определении количества продуктов для одного, воскресного, дня проведенный ана- лиз даст мало пользы. В этом слу- чае решение шеф-повара в значи- тельной мере будет зависеть от то- го, насколько он любит рисковать: если он осторожный человек, он за- кажет больше, если нет—меньше. Тем не менее для длительного про- межутка времени наш метод анали- за даст самое лучшее решение. В этом примере речь шла о не- прерывном распределении, но тот же метод применим и к дискретным данным. Для иллюстрации вернем- ся к рассмотренной в гл. 2 зада >е о запасных частях. Основанные на прошлом опыте данные о необходи- мом числе запасных частей приве- дены в табл. 2.10. Если нам необходимо купить много электродвигателей (или в ->е- ченис длительного времени много раз приобретать по одному двига- телю) и нас интересует только сто- имость запчастей, то достаточно вы- числить математическое ожидание распределения. Оно равно 2.9. Та- ким образом, при покупке 20 элек- тродвигателей нам следует приобре- сти к ним 59 запасных частей. Более разумно, однако, учесть не только стоимость запчастей, но и стоимость Простоя оборудования. Предположим, что стоимость про- стоя равна С4=400 долл., а стои- мость лишних запасных частей рав- на Се=20 долл. Применяя то же рассуждение, что и в случае с шеф- поваром, получаем G/(Ce |-СД =400/420=0,952. Это значение и должна принимать функция Е"=0,952. Из табл. 2.10 видно, что оно лежит между F"sf= =0,864 и /’"б=0,966. Точно посере- дине между F"s и F"e лежит точка (0,8644-0,966)/2=0,915. Поскольку 0,952>0,915, нам следует приобре- сти 5 запасных частей. Еще раз подчеркнем, что наши выводы имеют очень небольшую ценность, если речь идет о покупке
только одного электродвигателя Они вряд ли произведут впечатле- ние на осторожного человека, кото- рый скорее всего купит больше за- пасных частей, тогда как любитель рисковать может купить и меньше, чем 5. Целый ряд рассмотренных нами в этой главе вероятностных понятий используется и в задачах, связан- ных с выборками и с выборочными распределениями. Прежде чем пе- рейти к их рассмотрению, мы в гл. 6 обсудим различные методы отбора выборки. 5.6. ВОПРОСЫ И ЗАДАЧИ 5.1. Рассмотрим эксперимент, в кото- ром монета подбрасывается только один раз. Перечислите все элементы соответ- ствующего пространства элементарных со- бытий, состоящего из всех возможных ис- ходов. Найдите Р(Н), Р (или Н иди 7), Р(Н, 7) н Р(Г'), где Н означает «орел», а Г —«решка». 5.2. Перечислите все элементы про- странства элементарных событий, состоя- щего из всёх возможных исходов одного подбрасывания игральной кости. Найдите Р (вероятность того, что выпадает грань <_ одной точкой) =Р(1). Р(или 1, нли 2, или 3), Р(3), Р(1, 2), Р(или 1, нлн 2, «ли 3, нли 4, или 5, или 6) и Р(Г). 5.3. Рассмотрим эксперимент, заклю- чающийся в случайном выборе нз колоды ’какой-нибудь одной карты (всего в ко- лоде 52 карты). Найдите Р(К), Р (или К, «ли А). Р (или К, или S), Р(К')> Р<К, А) и Р(Л\ S), где К— король, А,—туз, aS — пики. 5.4. При некотором условии на собы- тия Е[ и Р2 справедливо соотношение P(Ei или E2)«^P(tt)-!-P(E2). Каково это условие? 5.5. Из 500 деталей 50 оказались бра- кованными. Чему равна вероятность вы- брать бракованную деталь? 5.6. При некотором условии на собы- тия Е] н Е2 справедливо соотношение Р(Е\. Р2)=0. Каково это условие? 57. Игральная кость такова, что одна» две и три точки находятся па гранях бе- лого цвета, а все остальные — черного. Найдите Р (вероятность того» что выпа- дет белая грань)=Р(№), Р(1 JB7), Р(1 |В), Р (или h или IF), Р (I, W)a Р(№л В) н Р (или или В) при одном подбрасы- вании. 5.8. Рассмотрим колоду из 52 карг, лак в задаче 5.3. Найдите P(K|S), P(S|K), Р (или К. или Q|S) и P(tf|Q); Q — дама. 5.9* В группе 20 человек —12 студен- тов н 8 студенток, 5 студентов женаты» а 4 студентки замужем. Вы разговаривае- те с одной из студенток. Какова верояг- ность» что она замужем? Кроме того» най- дите Р (имеет семью или мужского пола), Р (не имеет семьи и мужского пола), Р (имеет семью), Р (мужского нли жен- ского пола), Р (мужского и женского пола) 5.10. Имеются три одинаковые короб- ки с деталями. Назовем их А, В и С. До- ля деталей с некоторым дефектом, обозна- чаемых через d, составляет 0,2 в А9 0,08 в В и 0.06 в С Найдите Р(Л. d), P(d[A), P(A[d) и Р(Л Id')1- Какой смысл имеют эти вероятности? Вы берете наугад одну нз дефектных деталей. Чему равна веро- ятность того, что она лежала в короб- ке А? 5.11. Вытянем из колоды, содержащей 52 карты» одну за другой две карты (с возвратом). Найдите Р(К, Q), Р(К, К), Р(2К), Р(К при втором вытягивании). Найдите те же вероятности в эксперимен- те с вытягиванием двух карт без воз- врата. 5.12. Игральная кость подбрасывается три раза. Найдите Р(1. 1, 1), Р(1, Г. 1'), Р[(1, 1', 1') нли (Г. I, Г)» или (!'. 1'. I)]» а также вероятность того, что единица выпадет только один раз. 5.13. Рассмотрим дихотомное простран- ство элементарных событий, соответствую- щее возможным исходам 1 и I' при двух подбрасываниях игральной кости. Напри- мер, если первый раз выпала единица, а второй раз — не единица, то этому собы- тию отвечает элемент пространства элемен- тарных событий 1 Г. Определим на этом пространстве случайную переменную Х]«= =G, 1, Хз=^2 так, что, например на элементе Е=(1' Г} Л\=0. Найдите Р(Х,= =0), Р(Х3=2), Р(Х<^1). Р(Х<) и Р(Х5«= =4) . 5.14. Имеется 40 коробок с деталями, изготовленными на станке А, и 60 коробок с деталями, изготовленными на станке В. Станок А дает 12% брака, а станок В — 5%. Все коробки случайно перепутали. а. Заполните следующую таблицу ве- роятностями типа Р(Л)» P(d)A) н т. до Оценка годности в с 1 I » » У f т * Брак Норма б Предположим, что, выбрав из неко- торой коробки деталь, мы обнаружили, что она дефектна Чему равна вероятность P(A|d)? Найдите также P(A|g), P(B|d)» P(B|g) и заполните еще одну (g —нор- 1 Очевидно, символом dr азтор обо- значает событие «отбор бездефектной де- тали».— Прим, ред. 121 v
маль— от good) таблицу. Заметьте, что мы пользуемся новыми терминами, апри- орная и апостериорная вероятность. А при >рная вероят-, ность Апостериорная вероятность прн условии d при условии f А 0,4 В 0,6 Представим себе теперь» что вы вы- брали одну деталь и обнаружили, что она нормальная. Что можно сказать о том. сделана ли она на станке А или на станке В? Другими словами, содержит ли короб- ка, откуда мы ее взяли, 12% нлн только 5% брака? в. С помощью процедуры, описанной в задаче 5.14,6 (т. е. выбирая только одну деталь из коробки), мы не смогли устано- вить, какие именно коробки содержат де- тали. изготовленные на станке А. Попро- буем теперь выбрать из коробки две де- тали. Определите вероятности того, что О, 1 или 2 из них окажутся дефектными,— ГФИ условии, что в коробке находятся де- тали. изготовленные на станке Л, и при условии, что в ней находятся детали, из- готовленные на станке В. Заполните за- чем следующую таблицу: Число бракованных деталей А 0,4 В 0.6 0 1 2 г. Выберем пз некоторой коробки две детали, проверим нх н сосчитаем число дефектных. С помощью таблицы, состав- ленной Вами в задаче 5.14,в, найдите Р(Л|0Д), Р(Л|М), P(d|2d). Заполните этими значениями следующую таблицу: Апрюрчая вероятность Апостериорная вероятность прн усло- вия 0d Прн vCAO- вди !d Прн усло- вии 2d А 0.4 В 0,6 Предположим, что мы на самом деле выбрали две детали и обнаружили, что обе они соответствуют норме/На каком станке изготовлены детали, находящиеся в этой коробке? Какова будет ваша гипо- теза, если одна деталь оказалась хорошей» а другая — бракованной? д. Что изменится, если перепугаются коробки с деталями, изготовленными на трех станках? 122 5.15. Дано пространство элементарных событий, состоящее из трех белых и двух черных шаров S={U^r R7, В, В}. а. Рассмотрим случайную переменную: *1 0 1 Считая, что Х< есть число белых ша- ров, полученных прн одном испытании, найдите все вероятности Р(Х<). б. С помощью соответствующей табли- цы и ветвящейся диаграммы (дерева исхо- дов) перечислите все возможные исходы ' t случае проведения двух независимых испытаний. Опишите полученное вспомо! а- тельное пространство элементарных собы- тий S* и найдите tt7')» P(U7, В), Р[или (№. В), или (W7, В)]. в. Рассмотрим случайные переменные Xi и рс Р(Х.)=Р (F/) 0 0 50 1 100 2 [здесь Xi — количество, а р, — число белых шаров» полученных при проведении двух независимых испытаний (в %)]. Вероят- ность Р(Х2=1) мы уже вычислили в зада- че 5.15,6. В каком именно месте? Найдите Р(Х1=О), Р(Х3=2ь Р(Х<^0). Кроме того, по обычным формулам найдите о* и gp. Сравните полученные зна- чения с величинами ря = лк, = (1 — и ор— = (100 —п)/л, т. е. со значениями этих характеристик» выведенными для биномиального распре- деления. г. Имеется еще один способ найти ве- роятности Р(Х<) в задаче 5.15»в. Восполь- зуйтесь распределением вероятностей иэ задачи 5.15,а в виде таблицы 0 1 0 • 1 и найдите: вероятность того, что за 0 бе лых шаров будет следовать 0 белых ша- ров, т. е. Р(0,0)— 0,40.4, и вероятности Р(0» 1)=0.4-0,6. Р(1, 0)=0Л-0.4 и Р(1, I) =0,6-0,6 С помощью этих вероятностей найдите значения Р(Х») из задачи 5.15,в_ д. С помощью дерева исходов пере-
числите все возможные исходы трех неза- висимых испытаний и выпишите получен- ное пространство элементарных событий S*. Можно ли провести это перечисление исходов с помощью таблицы? Найдите p(wt в, B)t Р(В, if. В), p(w, if; m. P(W, IF, IF) и P[(IF, В, В) или (Bt IF, B), или (/3, В. IF)]. Как и в задаче 5.15.в. определим слу- чайные переменные X, н ре Pi xi 0 0 33,3 1 66,6 2 100 3 Р (XZ)-_P (р.) Вероятности Р(Х<=3) и P(Xj=l) мы уже нашли в задаче 5.15,д. Найдите те- перь остальные вероятности. С помощью «формул, выведенных специально для би- номиального распределения, найдите Цр, а ж и Ср. С помощью формулы для ’биномиального распределения найдите еще раз P(XS=1). ж. Предположим» что проведено 10» 100» 1000 и 10000 независимых испытаний. В каждом из этих случаев найдите р,р» |ikr? о« и Ор. Для значений и» найдите соответствующие коэффициенты вариации. Чем эти два параметра отличаются друг от другЯ? з. С помощью дерева исходов перечне лите все возможные исходы двух зависи- мых испытаний (выбор шара без возврата на место). Выпишите полученное простран- ство элементарных событий S* и найдите все вероятности Р(Х,) Для соответствую- щего гипергеоыетрического распределения: Pi P(Xz)=P(Pi) 0 0 50 I 100 2 Найдите также цж. Цг? Ох И 0р, Пусть из генеральной совокупности 5= {300 раз IF, 200 раз В} выбраны без возврата три шара. Найдите ох и сР соответствующего этому эксперименту гипергеометрического распределения. 5.16, Найдите следующие площади пЛ*7 сод нормальной кривой. ni42^J, п^В’ л—2.2 д 1,96 Х1Л—ОТ н пЛ—1.96" 5.17. Рассмотрим распределение 300 стальных булавок, приведенное в столбцах 1 и 7 табл. 5.9. а. Найдите следующие площади под полигоном опытных данных: и После этого найдите значения г, соответ- ствующие абсциссам 252. 248. 256 и 244, и вычислите соответствующие площади под нормальной кривой. Насколько велика раз- ница между этими значениями? б. Найдите площади под нормальной кривой n^Li и В табл. 5.9 найдите значения X, соответствующие 1, —I, 2 и -—2, после чего найдите площади под по- лигоном опытных данных (в случае необ- ходимости интерполируйте значения) и сравните их с площадями под нормальной кривой. в. Вы выбираете одну булавку из ко- робки. в которой содержится 300 булавок. Найдите Р(Х4=247), P(X4<X£<Xfl),Р(Х£< *£247) и Р (247^X^252). г. Выберем (с возвратом) три булавки. Найдите Р(245, 245, 245) сначала с по- мощью данных нз столбца 2, табл. 5.9» а затем нз столбца 7. С помощью дан- ных из столбца 2 найдите ту же вероят- ность в случае зависимых испытаний. 5.18. Заказчику необходимо 5000 сталь- ных стержней диаметром 0,750±0,005 дюй- ма. Имеющееся оборудование дает про- дукцию. которой соответствуют величины р—0.750 и о=0,0021. а. Сколько стержней окажутся непри- емлемыми для заказчика в случае, если диаметры распределены по нормальному закону? б. У Вас есть следующие возможности: 1) проверять каждый стержень и прода- вать заказчику только стержни, удовлет- воряющие его требованиям; 2) внести не- обходимые изменения в имеющееся обо- рудование, чтобы выпускаемая продукция уже соответствовала условиям заказчика; 3) снизить цену на плохие стержни. Ка- кой путь вы выберете? Обоснуйте. в. Можно ли в качестве характеристи- ки разброса данных ь этой задаче ис- пользовать не среднее квадратическое отклонение, а размах? 5.19. В двух магазинах продаются жен- ские блузки. В одном из них остались только очень большие и очень маленькие размеры. В другом имеются блузки всех размеров. Оба магазина принадлежат од- ной компании; блузки одинаковы и посту- пили в продажу одновременно. Чем мож- но объяснить такую разницу в наличии блузок некоторых размеров? 5.20. При изготовлении стального ли- ста для автомобильных корпусов некото- рые места, подверженные ржавчине и кор- розии. следует подвергнуть процедуре гальванизации. Она состоит в том, что обычный стальной лист целиком покрыва- ют тонким ровным слоем цинка. Заказчику необходимо найти металлургический завод» который имеет возможность провести гальванизацию таким образом» чтобы плот- ность слоя покрытия была не меньше 0,3 унция/фут2. На одном заводе собраны 123
следующие данные о цинковом покрытии стальных листов: Платность покре^тня унцня/Фут1 Чжсло стальных листов/. Плотно? ть покрытия */• унцда/фут* Число стальных ластов 0,275 4 0,475 10 0,325 10 0.525 4 0,375 18 0,575 1 0,425 18 0,625 1 а Вычислите X и s. б. Подгоните к этим данным нормаль- ную кривую. в. Если подогнанная кривая хорошо описывает опытные данные, найдите, ка- кая доля стальных листов не будет удов- летворять требованиям возможного за- казчика? 5.21. Магазин хочет заказать 1000 муж- ских рубашек, размеры которых 14,0; 14,5; 15.0 и т. д. На основании опыта известно, что g-14,8 и о=0,8. Сколько рубашек размером 15,5 следует заказать, если эти размеры распределены по нормальному за- кону? Что можно сделать, если размеры не распределены по нормальному закону? 5.22. На рис. 5.8 приведен пример нор- мальной кривой, подогнанной к опытным данным. Распределение этих данных (став- ки заработной платы) похоже на нормаль- ную кривую, если не считать отсутствия левого хвоста. Это может отразиться как на среднем значении, так и на среднем квадратическом отклонении. Некоторые по- правки можно внести следующим образом. а. Возьмите значения f"i из столбца? табл. 5.8 и найдите по ним значения Постройте на нормальной вероятностной бумаге точки, соответствующие значени- ям F"\. б. В предположении, что F"i лягут на некоторую прямую, найдите с помощью табл. 4.7 моду Мо. Отметьте* моду на со- ответствующей оси координат нашей ве- роятностной бумаги и найдите значение X", которое на 34% больше моды, и зна- чение Л, которое на 34% меньше моды. Вычислите [(X — ЛТо) + (Л1о— Xz)]/2. Это и будет вашей оценкой величины с. Процедура получения этой оценки 'совпа- дает с использованной в тексте с той лишь разницей, что вместо X мы использовали величину Мо. в. Воспользуйтесь найденными в зада- че 5-22,6 значениями Мо н с' и еще раз подгоните к данным о почасовых ставках заработной платы нормальную кривую (данные табл. 5.8). Постройте обе кривые ь сравните их с рис. 5.8. Если вы полу- чите лучшее соответствие (отсутствие хво- ста было случайностью) и будете исполь- зовать в качестве оценок ц н о значения Мо и о', новая процедура даст несколько лучшие' результаты. 124 5.23. Отбор выборки часто обходится очень дорого, поэтому форму распределе- ния генеральной совокупности приходится оценивать по небольшим выборкам. Приведенные в табл. 7.6 выборки с п=6 и я—20 отобраны из некоторой ге- неральной совокупности, о которой изве- стно. что она распределена по нормаль- ному закону. Найдите для этих двух рас- пределений значения F"<, постройте нэ нормальной вероятностной бумаге соответ- ствующие точки, оцените У и s' и сравни- те полученные вами результаты со значе- ниями S’ н з из табл. 7.6 я со значениях!и р и о из табл. 4.6. Можно ли по графи- кам сделать вывод, что выборки отобраны из нормально распределенной генеральной совокупности? 5.24. Газета, выпускаемая некоторым издательством, продается по 10 центов за штуку. Производство одной газеты обхо- дится издательству в 7 центов. Данные о продаже газеты за 52 воскресных дня имеют следующий вид: Число проданных гэдст. 10s Число воскрес- ных дней 23 6 24 12 25 16 26 11 27 7 а Какое число газет должно каждый раз выпускать издательство, если оно хо- чет максимизировать свою прибыль в те- чение довольно большого промежутка вре- мени и не боится потерять покупателей из-за того, что иногда газет не будет хва- тать. Воспользуйтесь методикой, изложен- ной в тексте. б. Получив это значение, определите, какая доля воскресных дней не будет обес- печена газетами для всех желающих. в. Будем считать, что вышеприведен- ное распределение близко к симметрично- му Предположим, что стоимость произ- водства одной газеты 5 центов. Оцените» не проводя вычислений, сколько газет сле- дует выпускать. 5.25. В двух различных населенных пунктах продаются три типа газонокоси- лок, Ниже приведены данные о числе про- данных газонокосилок в течение года: Населен ню й тг,ихт Тип габонок этитт Всего А В С а 90 102 108 300 Ь 60 68 72 200 150 170 180 500 а Рассмотрим какую-нибудь одну про- данную газонокосилку. Найдите следую*
щне вероятности: Р(а, Лк P(atB), Р(а.С), Р(А), Р(«), Р(й|Л), Р(л|а). Верно ли»что объем продажи каждого из трех типов га- зонокосилок по-разному зависит от того» в каком населенном пункте они продают- ся? Можно воспользоваться этим обстоя- тельством для того, чтобы отличить один населенный пункт от другого? б. Предположим, что на следующий год в количествах проданных газонокоси- u лок произошли следующие изменения: НассЛсишЙ пункт Тип газонокосилки Всего А в 1 1 с а 80 120 100' 300 Ь 70 50 80 200 150 170 180 500 Найдите Р(а|Л) и Р(Д|а). Сравните те- перь обе таблицы: какая из них показы- вает большую зависимость объема прода- жи от места продажи? Как вы можете обосновать ваш ответ с помощью вероят- ностей? Отличаются ли эти таблицы свои- ми маргинальными вероятностями? вп Составьте по таблице из задачи 5,25»б таблицу совместных вероятностей- г. Составьте по таблице из задачи 5.26,6 таблицу с вероятностями Р(о Д), Р(Ь|Д)»..., P(ft|C) и найдите Р(Д|а). 5.26. Руководитель некоторой организа- ции решил проверить работу своего маши- нописного бюро и дал указание сообщать ему каждый день, сколько заказов в этот день не было выполнено вовремя. Через 120 дней он обнаружил^ что в среднем ежедневно не выполнялось 6 заказов. Обо- значим через X число не законченных в срок печатных материалов и будем счи- тать» что Х=$, 1» 2... Предположим так- же» что X является случайной переменной, распределенной по закону Пуассона. а. Постройте распределение частот» на которое должно быть похоже распре- деление частот» построенное руководителем этой организации. б. Какова вероятность того, что в ка- кой-то день не будет выполнено 6 или бо- лее заказов? в. Руководитель организации хочет уменьшить вероятность задачи 5.26.6 до значения Р (Л ^6)=0,20. Найдите, при ка- ком среднем числе невыполненных заказов получится такая вероятность. 5.27. Отдыхающие на некотором ку- рорте являются, как правило» бизнесмена- ми или людьми свободных профессий (ад- вокатами, художниками, врачами и т. п.). Директор курорта хочет установить, не выгоднее ли ему будет выпускать рекла- му двух типов» а не одного. Для этого он поручил своему рекламному отделу подготовить рекламу двух типов — одну для бизнесменов (тип I). другую — для лю- дей свободных профессий (тип П). Рекла- ма была подготовлена, материалы разосла- ны возможным клиентам, и было получено 800 заявок. Они распределились следую- щнм образом:_____________________________ • I II Всего Специалисты Бизнесмены 120 280 80 320 200 600 Всего 400 400 . .800 а. Найдите вероятности Р(Р, I); Р(Р» II); Р(Р, II); Р(1|Р) (Р —специалисты). б* Зависят ли заявки представителей каждой из двух групп от типа рекламы? Чем вы можете это обосновать? в. Постройте таблицу, согласно данным которой оба типа рекламы отражались бы на заявках одинаково Найдите соответ- ствующие вероятности Р(Р, I) и Р(Р, II). 6.1. ВВЕДЕНИЕ Прежде чем перейти к дальней- шему изложению, следует напом- нить читателю некоторые общие принципы, определяющие методику сбора численной информации. Ког- да мы собираем данные такого ро- да по некоторому вопросу» надо иметь в виду следующее: 1) прежде всего необходимо чет- ГЛАВА 6 ОТБОР ВЫБОРКИ ко описать рассматриваемую гене- ральную совокупность; 2) необходимо отдавать себе от- • чет в том, что описание генеральной совокупности становится более сложным, когда исследование каса- ется более чем одного вопроса; 3) необходимо принять решение о том, будем ли мы собирать ин- формацию с помощью полного охвата (переписи) генеральной со- 125
еокупности или выборочным путем; 4) необходимо решить, в каком виде результаты исследования бу- дут представлены возможному поль- зователю. Описание генеральной совокупно- сти. Описать предмет статистиче- ского анализа иногда очень просто, а иногда чрезвычайно сложно. Рас- смотрим несколько примеров. Нужно найти среднее арифмети- . ческое и среднее квадратическое от- клонение для 5000 деталей, находя- щихся в некоторой коробке. Нашей генеральной совокупностью явля- ются именно эти 5000 деталей в этой коробке. Здесь нет ничего неопре- деленного и неясного. Мы можем либо измерить все детали подряд, либо же оценить требуемые стати- стические характеристики (среднее арифметическое и среднее квадра- тическое отклонение) по некоторой выборке. Несколько сложнее описать ге- неральную совокупность в том слу- чае, если требуется узнать, сколько студентов некоторого университета имеют машину. Следует ли учиты- вать и студентов данного отделения и студентов-заочников? Включать ли сюда лишь студентов, которые имеют свои собственные машины, • или уже учитывать и тех, которые пользуются машинами своих родст- венников? Что делать с теми, кото- рые ездят на машине лишь часть учебного года, и с теми, к го приез- жает на занятия в ’машинах своих друзей? Еще больше проблем возникнет при изучении структуры доходов жителей некоторого города. Вот лишь некоторые из вопросов, на ко- торые необходимо ответить: имеет- ся ли в виду доход до уплаты на- * догов или после; будем ли мы учи- тывать лишь суммы, зарабатывае- мые жителями в своем городе или вне его; что нас интересует—доход каждой семьи, доход каждого чело- века или доход главы семьи; следу- ет ли учитывать заработок работа- ющих неполный рабочий день. Приведенные примеры прказыва- 126 ют, что эти вопросы лучше решить до проведения исследования, а не после него, особенно если процеду- ра исследования стоит дорого. Оче- видно также, что никакие статисти- ческие методы, сколь бы хорош-.) вы ими ни владели, не могут улучшить результатов, еСли генеральная со- вокупность выбрана неправильно. Задачи, связанные с изучением нескольких вопросов в задаче. Во многих задачах нас интересует только одна характеристика рас- сматриваемой генеральной совокуп- ности. На производстве нас может интересовать средний срок службы станка или детали, средняя масса, средняя длина, прочность, диаметр, процент отходов или вариация ка- кой-нибудь из этих характеристик. Иногда нам понадобится сразу не- сколько характеристик этой величи- ны (например, и среднее арифмети- ческое и среднее квадратическое от- клонение) одновременно. Кроме то- го, нас может заинтересовать фор- ма распределения частот. В ряде исследований (касающих- ся тех или иных контингентов лю- дей, деловых операций, проводимых теми или иными фирмами, и т. п.) изучается только какой-нибудь один вопрос и ответ дается в виде неко- торого среднего значения, доли в процентах, характеристики вариа- ции или графика распределения ча- стот. В других случаях принято изучать сразу несколько вопросов (или собирать информацию сразу по нескольким вопросам) при реше- нии одной задачи. Если в некото- ром городе мы собираем информа- цию только о размерах доходов его жителей, то мы занимаемся иссле- дованием одного вопроса. Ситуация . аналогична возникающей при полу- чении численной информации о диа- метрах некоторого набора стальных стержней. В обоих случаях эту ин- формацию можно выразить s форме среднего значения или одновремен- но и среднего значения, и некото- рой характеристики вариации дан- ных. Иногда собирают данные не толь-
ко о размере дохода, но и, напри- мер, об образовании, намерении купить тот или иной товар, о воз- расте, о наличии вклада в банке и т. д. Проведение даже одного опроса фактически дает сразу не- сколько генеральных совокупностей. При этом генеральные совокупности могут отличаться друг от друга по численности. Например, вопрос об образовании может быть задан всем людям, включенным в список. В то же время вопрос о том, како- го сорта губную помаду предпочи- тают опрашиваемые, имеет смысл задавать только женщинам. Таким образом, сбор данных сразу по не- скольким вопросам часто (но не всегда) предполагает одновремен- ное изучение нескольких генераль- ных совокупностей, причем все они строятся при опросе людей из одно- го и того же списка. Подобная ситуация возникает и на производстве, когда необходима информация не только о длине де- тали, но также о ее диаметре, мас- се, прочности, цвете или числе слу- чаев, когда все эти характеристики не соответствуют техническим усло- виям. В обследованиях, связанных с изучением сразу нескольких проб- лем, обычно пользуются анкетами. Иногда они строятся по принципу «один вопрос на каждую исследуе- мую характеристику», но гораздо чаще удовлетворительную инфор- мацию трудно получить с помощью только одного вопроса. В таких случаях задают два или несколько косвенных вопросов. Наконец, мож- но включить в анкету несколько специальных вопросов, целью кото- рых является проверка того, на- сколько правильно понял смысл предыдущих вопросов, или разо- браться в том, сказал ли он прав- ду. Так, в одном из вопросов анке- ты женщину можно прямо спросить о ее возрасте, а несколько дальше— задать вопрос, сколько лет назад она окончила институт. Независимо от того, пользуемся мы анкетой или нет, следует всегда иметь в виду, что изучение в рам- ках одного и того же исследования сразу нескольких проблем надо рассматривать как одновременное исследование нескольких генераль- ных совокупностей. Если по какому- то вопросу список обследуемых нельзя считать полным, то этот во- прос лучше исключить. Проводя, например, обследование среди воз- можных покупателей новой модели автомобиля, не следует включать в него вопрос о том, собираются ли они купить мотоцикл. Однако во- прос о том, собираются ли они ку- пить новый холодильник, вполне допустим. Как получать численную инфор- мацию — с помощью полного охва- та или выборки? После описания генеральной совокупности и выбора подлежащих изучению вопросов ис- следователю необходимо принять еще одно важное решение: будет ли он измерять, опрашивать или пере- считывать все элементы генераль- ной совокупности или только неко- торую выборку таких элементов. Вот основные критерии решения этого вопроса. 1. Пусть в контейнере находятся 5000 стальных булавок, и нам не- обходимо найти их среднюю длину (среднее арифметическое) и, воз- можно, вариацию длин (размах). Если эти параметры (особенно вращения длин) имеют ключевое значение (например, потому что при *выходе параметров за пределы допусков имеется опасность полом- ки дорогостоящего оборудования), придется осуществить полный ох- ват. Но даже этого иногда недоста- точно, поскольку никто из проводя- щих обследование не застрахован от ошибки. В таких случаях обследование приходится повторять 2—3 раза. Ограничиваться выборкой в таких случаях недопустимо. 2. Если достаточно приблизи- тельной оценки одной или несколь- ких характеристик (среднего значе- ния, дисперсии и т. п.), то такую оценку можно вычислить по неко- 127
торой выборке. Это обойдется го- раздо дешевле, чем измерение, оп- рос или пересчет всех элементов генеральной совокупности. 3. Предположим, что мы хотим определить, какова максимальная масса продуктов, которую можно переносить в бумажных пакетах, взятых из некоторой вновь закуп- ленной партии. Для этого будем за- гружать пакет до тех пор, пока он не порвется. Ясно, что информацию о прочности партии пакетов можно получить только с помощью выбор- ки, поскольку проведение опытов со всеми пакетами невозможно (не осталось бы ни одного целого). 4. Когда генеральная совокуп- ность очень велика или бесконечна, перечислить все элементы невоз- можно. Информацию о характеристиках такой генеральной совокупности также можно получить только с по- мощью выборки. 5. Бывает и так, что генеральная -совокупность уже не существует. Такая ситуация имеет место в зада- чах, связанных с анализом времен- ных рядов, описывающих доходы, уровень производства, занятость за прошлый период. Все эти данные можно восстановить лишь выбороч- ным путем. В этом случае выборка- ми будут являться записи, имею- щиеся лишь в ограниченном числе городов и по ограниченному числу вопросов. Конечно, чаще -всего решение о том, воспользоваться выборкой или обследовать всю генеральную совокупность, приходится прини- мать, руководствуясь соображения- ми экономии (п. 1 и 2). Представление результатов. Ис- следователь должен заранее ре- шить, в каком виде он будет пред- ставлять результаты своего анали- за предполагаемому пользователю. Дело в том, что это решение иног- да отражается на самой процедуре сбора информации. Это станет оче- видным при дальнейшем обсужде- нии различных статистических ме- тодов. 1 28 6.2. ПРОСТОЙ СЛУЧАЙНЫЙ ОТБОР ВЫБОРКИ 6.2.1. Генеральная совокупность и выборка Рассмотрим следующий пример. Приемщик взвешивает все поступа- ющие к нему мешки с зерном и вы- числяет среднее арифметическое полученных значений. Он делает это для того, чтобы сравнить среднюю массу мешков этой партии со сред- ней массой мешков предыдущей пар- тии или чтобы установить, соответ- ствует ли она стандарту. Вполне возможно, что он будет сравнивать также медианы, дисперсии, средние квадратические отклонения и т. д. Отметим лишь, что в каждом из этих случаев сравниваются величи- ны, вычисленные по всей генераль- ной совокупности. Все эти сопоставления можно также проделать, пользуясь лишь выборочными данными. Приемщик может отобрать некоторую выбор- ку и взвесить лишь мешки -из этой выборки. После этого он вычислит выборочное среднее, выборочную дисперсию, выборочное среднее квадратическое отклонение и т. д. Таким образом, чтобы сравнить средние значения двух партий, он возьмет некоторую выборку из каж- дой из них, вычислит два выбороч- ных средних и постарается сделать выводы по полученным результа- там. Другими словами, его задача будет заключаться в том, чтобы по двум выборочным средним устано- вить, совпадают ли средние значе- ния по всем генеральным совокуп- - ностям (точных значений которых он не знает). Если приемщик решил никогда не пользоваться выборками, все, что ему потребуется, — это изучить пер- вые четыре главы этой книги. Но если он хочет уметь сравнивать те или иные характеристики с помо- щью выборок, ему надо знать го- раздо больше. Еще один пример. Администра- ция некоторого университета со- гласна на создание нового студен-
ческого-союза только в том случае, если студенты согласятся на уве- личение плазы за обучение на 5 долл. Поскольку это увеличение коснется всех студентов, необходи- мо, чтобы по крайней мере 75% их числа выразили сбое согласие. Ад- министрация может разослать письма всем студентам или опро- сить студентов во время регистра- ции, или получить оценку выбороч- ным путем. Если сравнить рассыл- ку писем всем студентам со взяти- ем выборки, то выборочное исследо- вание, вероятно, обойдется гораздо дешевле. Однако человек, проводя- щий такое исследование, должен знать, как отбирать выборку и как интерпретировать результаты вы- борочного анализа. Действительно, опрос всех студентов дал бы окон- чательный и недвусмысленный от- вет. При выборочном исследовании положительные ответы дадут лишь приблизительную оценку количест- ва студентов (в %), согласных с предложением администрации. Отметим еще одно обстоятельст- во. В первом примере, чтобы вычис- лить среднее арифметическое, при- емщику следовало сложить резуль- таты многих измерений. Во втором примере мы вообще не имеем дела с какими бы то ни было измерения- ми. Генеральная совокупность или выборка разбиваются на два кате- гории: те; кто отвечают «да», и те, кто дают иной ответ. После этого остается лишь сосчитать число по- ложительных ответов и выразить результат в процентах. Если мы решили оценить те или иные статистические характеристи- ки выборочным путем, нам необхо- димо знать, как отбирать выборку, каким должен быть объем выборки и как интерпретировать результаты выборочных исследований. В насто- ящей главе мы обсудим только ме- тоды отбора выборки. 6.2.2. Случайная выборка Если отбор элементов проводит- ся более или менее произвольно, то 9—232 полученная выборка носит назва- ние случайной В математической статистике это понятие имеет спе- циальное определение: выборка на- зывается случайной, если все эле- менты генеральной совокупности имеют одинаковые вероятности быть отобранными в состав этой выборки, т. е. если Р(а) ~Р(Ь) — ... ... -Р(г). Это соответствует про- цедуре взятия выборки с воз- вратом, когда любой элемент гене- ральной совокупности может по- пасть в выборку более одного раза. Если выбранный элемент не воз- вращается на место, то различные элементы генеральной совокупности будут иметь разные вероятности быть отобранными — в зависимости от номера шага процедуры. В этом случае уже нельзя пользоваться понятием «случайная выборка». Определение случайной выборки явно предполагает проведение не- зависимых испытаний. Если ото- бранный в состав выборки элемент возвращается на место, вероятность получить при втором испытании, например, белый шар остается той же самой (повторные испытания). В случае, когда объем генераль- ной совокупности невелик, например когда £=={№, IT, В, В, В}, вероят- ность получить на втором шаге не- который элемент в повторном экс- перименте существенно отличается от вероятности получить тот же элемент в бесповторном экспери- менте. В первом случае (для дихо- томной генеральной совокупности) выборочное распределение будет биномиальным, а во втором — ги- пергеометрическим. В том случае, однако, когда генеральная совокуп- ность велика, а объем выборки (или число испытаний) мал, между по- вторным и бесповторным отбором нет большой разницы. Мы уже от- мечали, что если выбрать из гене- ральной совокупности 5={200 000 раз U7, 300 000 раз В} один шар и не вернуть его на место, то вероят- ность получить во втором испыта- нии шар того же цвета практически не отличается от вероятности полу- 129
чить этот шар в повторном экспери- менте. На основе этого можно сделать вывод, что, если генеральная сово- купность велика, а объем выборки (число испытаний) относительно мал, между повторным и беспо- вторным отбором нет разницы. Од- нако если генеральная совокуп- ность мала, а объем мер. выборки относительно велик (например, ког- да n//V>0,05), бесповторный отбор выборки приведет к существенно иным результатам. В частности, ес- ли наша выборка отобрана из дихо- томной совокупности, выборочное распределение даст меньшую дис- персию, что легко усмотреть из фор- мулы для среднего квадратического отклонения гипергеометрического распределения ор = 7/1: (100—®)/л j/" 1—n!N. Меньшая дисперсия выборочного распределения означает, что наша выборка дает более эффективную оценку рассматриваемого парамет- ра генеральной совокупности. Это говорит о том, что исследователю выгодно прибегать к зависимым ис- пытаниям, т. е отбирать в выборку элементы без возврата- выбранного элемента на место. Некоторые авторы пользуются понятием «случайная выборка» и для описания зависимых испытаний: многие, говоря эти слова, имеют в виду процедуру случайного отбора (см. подразд. 6.2.3). Вероятность того, что при прове- дении одного испытания нам попа- дется белый шар, можно построить с помощью чисто логического рас- суждения. Точно так же логическим путем можно получить и вид вы- борочного распределения. Поэтому, строго говоря, реальная выборка представляет собой не что иное, как вероятностный эксперимент. Если она хорошо аппроксимирует резуль- таты, полученные путем логических рассуждений, это значит, что наши теоретические выводы в приложе- но нии к рассматриваемой задаче име- ют силу. В противном случае это не так. Именно поэтому исследователь должен следить за тем. чтобы его методика отбора выборки соответ- ствовала вероятностным понятиям зависимых или независимых собы- тий. Эти понятия представляют со- бой математическую модель дейст- вия случайных факторов, и отбор выборки не должен осуществляться на основании каких-либо критериев, противоречащих принципу случай- ного выбора. 6.2.3. Случайный отбор* Учитывая изложенные соображе- ния, можно сделать вывод, что вы- борочные статистические характери- стики (или просто выборочные ха- рактеристики) можно считать на- дежными оценками соответствую- щих параметров генеральной сово- купности лишь в тех случаях, когда отбор выборки проводился путем случайного выбора. Например, про- водя обследование некоторого кон- тингента людей, мы должны иметь список всех обследуемых. После это- го необходимо решить, каким дол- жен быть объем выборки, и ото- брать п людей из этого списка. При этом выбор того или иного липа из нашего списка должен быть случай- ным. Ситуация должна быть такой, чтобы каждый попавший в выборку человек оказался там без особой на то причины. Исследователь не мо- жет включать туда лишь тех людей, которые ему нравятся, или тех, ко- торые хорошо одеваются, или тех, которые каждое воскресенье ходят в церковь. В противном случае его методику уже нельзя будет считать случайным отбором, и, следователь- но, он уже не сможет пользоваться правилами, применимыми к случай- ным выборкам. Очень хороший способ обеспечить случайность выборки состоит в том, чтобы записать имена всех членов 1 В советской статистической литера- туре используется термин «собственно слу- чайный отбор».—Прим. ред.
генеральной совокупности на от- дельных листках бумаги, а затем наугад выбрать нужное число лис- тов. Случайный отбор можно прово- дить и с помощью случайных чисел из табл. I (см. приложение). Пред- положим, что в некоторой учебной группе 46 студентов и нам необхо- димо отобрать выборку, включаю- щую 8 из них. Поставим в соответ- ствие каждой фамилии в списке студентов двузначное число — 01, 02. ..., 45, 46. Выберем наугад чис- ло: например, можно взять число, стоящее на пересечении второго столбца и третьей строки. Двигаясь далее направо (можно идти и нале- во, и вверх, и вниз), будем выписы- вать из таблицы пары цифр. Полу- чив 8 двузначных чисел (например, 17, 05, 21, 09, 40, 43, 35, 18), выбе- рем фамилии соответствующих им студентов и включим их в нашу вы- борку. Если студентов не 46, а 250. то из таблицы случайных чисел на- до выбрать 8 трехзначных чисел. В тех случаях, когда генеральная совокупность очень велика, соста- вить полный список ее членов почти невозможно. В такой ситуации при- меняются другие методы, но все они должны соответствовать элементар- ным методам случайного отбора. Государственные органы, организа- ции по изучению общественного мнения, торговые организации по- стоянно экспериментируют с такими процедурами. Большое число мето- дов описано, например, в книгах Деминга1, а также Хансена, Гурви- ца и Мэдоу2. На производстве осуществлять случайный отбор значительно про- ще. Как правило, изучаемая гене- ральная совокупность используется в одном месте, и обеспечить непред- взятый отбор элементов в выборку не сложно. 1 Deming W., Edwards W. Sample De- sign in Business Research. N. Y.: Wiley, 1960. » Hansen M. Hurvltz W. N-, Ma- dow W. C. Sample Survey Methods and Theory. N. Y - Wiley, 1953. Очень часто коробки, металличе- ские листы, доски, ящики или меш- ки складывают друг на друга. Мо- жет ли исследователь выбрать не- сколько предметов сверху (чтобы не перекладывать все предметы) и считать такую выборку случайной? Да, но только в том случае, если предметы складывались случайным образом. Если же они складирова- лись по некоторому принципу (на- пример, в зависимости от массы),то полученная выборка уже не будет случайной и мы не сможем приме- нить к ней правила обращения с вы- борочными статистическими харак- теристиками. 6.3. ДРУГИЕ МЕТОДЫ ОТБОРА ВЫБОРКИ При собственно случайном отбо- ре элементов в выборку каждый «элемент генеральной совокупности имеет одну и ту же вероятность по- пасть в выборку. Существуют, од- нако, и другие методы взятия вы- борки, когда этот принцип равной вероятности применяется в некото- ром ограниченном смысле или не применяется вообще. Речь идет О методах систематического1 и экс- пертного отбора. Вообще говоря, процедуры случайного, системати- ческого и экспертного отбора мож- но считать составными частями лю- бого выборочного метода. Другими словами, любой способ взятия вы- борки можно рассматривать как не- которую комбинацию всех трех. Какой же из них лучше? Может быть тот. который лучше всего ап- проксимирует процедуру случайного отбора? Вовсе не обязательно. Це- лью выборочного исследования яв- ляется оценка некоторой характе- ристики генеральной совокупности с помощью выборки, а не просто применение определенного метода отбора выборки. Исследователь 1 Описанному здесь методу в совет- ской статистической литературе в опреде- ленной степени соответствует тернии «ме- ханический отбор». — Прим. ред. 9* 131
всегда стремится к тому, чтобы вы- борочная статистика даже в худшем случае максимально соответствова- ла характеристикам генеральной со- вокупности. Заранее нельзя сказать, что такой результат может быть по- лучен лишь с помощью случайного отбора. В целом ряде случаев го- раздо лучше применить метод экс- пертного отбора. Однако лишь в случае случайного отбора стати- стик располагает теорией и прави- лами, которые точно предписывают ему, что он должен делать. Никакой из других методов не подчиняется таким общим правилам. * 6.3.1. Систематический отбор Систематический отбор предпола- гает отбор, выборки согласно неко- торому плану. Приведем несколько примеров, иллюстрирующих это по- нятие. Пусть каждому элементу гене- ральной совокупности приписан по- рядковый номер и пусть в выборку попадает каждый десятый или пят- надцатый элемент. Например, при Л/=500 и , п=50 следует выбрать каждый десятый элемент. В группе 40 студентов. Чтобы по- лучить выборку, включающую 10 из них, возьмем из списка каждую чет- вертую фамилию. При этом первую фамилию мы можем выбрать вооб- ще наугад, а вслед за ней брать каждую четвертую из списка или же просто брать каждого четверто- го студента из сидящих в аудито- рии. Важно отметить, что в послед- нем варианте нам вообще не пона- добится список студентов. Директор библиотеки хочет уста- новить, как много •студентов поль- зуются читальным залом от 9 до 12 ч в летние месяцы. Для этого он может дать указание своему сотруд- нику пересчитывать каждую пятни- цу число студентов в этом читаль- ном зале. В некотором городе мы хотим со- брать некую информацию среди те- лефонных абонентов. Возьмем теле- 132 фонный справочник, будем откры- вать его на каждой десятой страни- це и выбирать первое попавшееся имя. Отметим, насколько проще эта процедура процедуры взятия слу- чайной выборки. По поводу систематического от- бора необходимо отметить два об- стоятельства. Во-первых, система- тический отбор может дать резуль- таты, совпадающие с результатами, полученными по случайной выбор- ке, а может и не дать. Чтобы яснее представить себе, в чем именно состоит уменьшение расходов, вспомним механику слу- чайного отбора. Имеется лишь два способа получить случайную выбор- ку. При первом из них каждому эле- менту генеральной совокупности да- ется название или порядковый но- мер, а при втором они должны быть все доступны исследователю. Они все доступны, если вся генеральная совокупность локализуется в одном, относительно небольшом месте. В первом случае названия или но- мера элементов можно поместить в некоторый контейнер, а затем, вы- брать из пего наугад необходимое их число. Во втором случае можно всю генеральную совокупность, на- пример, деталей поместить в одну коробку и взять случайную выбор- ку непосредственно из нее. При си- стематическом отборе, как правило, нет необходимости давать название или номер каждому элементу' гене- ральной совокупности, и это может уменьшить издержки, связанные с исследованием. Систематический отбор не всегда приводит к тем же результатам, что и случайный. Если элементы гене- ральной совокупности хорошо пере- мешаны, между этими двумя вы- борками не будет большой разни- цы. Если же систематический отбор применяется к генеральной совокуп- ности, элементы которой располо- жены в определенном порядке (как, например, в нашем примере с биб- лиотекой: пятница не обязательно, отражает привычки читателей в.
другие дни недели), случайность уже не будет главным фактором, определяющим взятие выборки. В таких случаях систематического отбора следует избегать. В действи- тельности трудно представить себе ситуацию, когда систематический отбор, не будучи эквивалентен слу- чайному, даст лучшие выборочные оценки. Поэтому разумно пользо- ваться только таким систематиче- ским отбором, который близок к случайному. 6.3.2. Экспертный отбор Когда мы отбираем некоторый элемент генеральной совокупности в случайную выборку, всегда мож- но спросить: почему был взят имен- но этот, а не какой-нибудь другой элемент? Как мы уже указывали, стандартный ответ на этот вопрос следующий: причина выбора имен- но этого элемента настолько несу- щественна и неопределенна, что мы даже не можем ее описать. Однако, когда мы отбираем выборку путем экспертного отбора, именно иссле- дователь (его оценка) определяет, какой элемент генеральной сово- купности должен попасть в выбор- ку. Исследователь решает: если он отберет такой-то и такой-то элемент в свою выборку, то полученные по ней выборочные характеристики да- дут наилучшую оценку параметра генеральной совокупности. При таком определении процеду- ры экспертного отбора ясно, что его можно применять лишь при отборе небольших выборок и из небольших генеральных совокупностей. Чтобы иметь возможность пользоваться экспертным отбором, исследователь должен знать свойства отдельных элементов своей генеральной сово- купности. В противном случае он не сможет сказать, какие именно эле- менты лучше всего ее представ- ляют. По-видимому, чаще всего с экс- пертным отбором можно встретить- ся при покупке и продаже различ- ных товаров. Покупатели фруктов, кофе, скота, текстиля и многих дру- гих товаров постоянно основывают свои решения па экспертном отборе. Экспертный отбор требует знаний и опыта. Если исследователь распо- лагает и тем, и другим, он сможет получить очень хорошие оценки по ' очень маленьким выборкам. Эти оценки будут лучше тех, которые могут быть получены по случайной выборке. Несмотря на это, исследо- ватель не сможет сказать по поводу результатов, полученных с помощью экспертного отбора, что они с та- кой-то вероятностью лежат в таких- то пределах, содержащих истинное > значение. t Еще раз подчеркнем, что эксперт- ный отбор не следует применять к большим генеральным совокупно- стям и к генеральным совокупно- стям, в которых исследователю трудно отличить один элемент от другого (например, детали в короб- ке). I 6.3.3. Районированный отбор Такие выборки отбираются слу- чайным образом, но не из всей ге- неральной совокупности как цело- го, а из двух или нескольких «райо- нов», на которые исследователь де- лит всю генеральную совокупность. Такое деление позволяет получить лучшие оценки и поэтому обходится дешевле. Процедура районирования осно- вана на двух вариантах подхода, каждый из которых можно описать на примере. Пусть наша задача со- стоит в том, чтобы с помощью вы- борочного исследования оценить средний доход на семью в некото- ром городе. Предположим, что бо- гатые и бедные в этом городе так перемешаны, что в нем нет богатых кварталов, бедных кварталов и кварталов, где живут люди со сред- ним достатком. Если весь город разделить на две части, то средний доход и среднее квадратическое от- клонение в одной половине будут равными среднему доходу и средне- му квадратическому отклонению 1зЗ
в другой половине. С точки зрения статистика это означает, что от раз- биения города на районы выбороч- ное исследование вовсе не выигры- вает. Возможен, однако, и другой ва- риант, а именно, когда люди с вы- соким и низким доходом живут в двух различных районах города, для которых но oi=02- Если город разделить на две равные ча- сти, то (р.1-Ьц2)/2=и» но <014- 4-О2)/2<о. Это можно проиллюст- рировать на следующем примере. Пусть районы А и В включают только по три семьи. Доходы их та- ковы : 6 7 8 2 3 4 Соответствующие средние значе- ния равны цА=3 и рв=7. Пользуясь для упрощения вычислений средни- ми отклонениями вместо средних квадратических, получаем MDA= =2/3 и AfD3=2/3. Отсюда (цА+ -Ьв)/2= (3+7)/2=5 и (МОА+ +АШВ) /2= (2/3+2/3) /2=2/3. Если данные для А и В объеди- нить, то их среднее будет равно ц= =30/6=5= (рА+рв)/2, но MD= =12/6=2>(AWa+/WDb)/2. Отме- тим, что если районы отличаются друг от друга по числу элементов, то среднее от средних вычисляется по формуле ц=(Л'1ЦА+^21гв)/^. Это есть взвешенное среднее, и оно будет равно среднему, вычисленно- му по всем данным одновременно. Взвешенное среднее от средних ква- дратических отклонений вычисляет- ся так же, и оно всегда будет мень- ше среднего квадратического откло- нения, вычисленного по всем дан- ным. Иными словами, если мы можем разбить нашу генеральную совокуп- ность на районы, для которых сред- ние значения различны, а средние квадратические отклонения одина- ковы, целесообразно отобрать вы- 134 борки отдельно по районам и, объ- единив выборочные средние, полу- чить опенку среднего для всей гене- ральной совокупности. Это объяс- няется тем, что оценка ц является функцией не только объема выбор- ки п, но и ст, а о, полученное по районированной генеральной сово- купности с разными средними, бу- дет меньше, чем ст, полученное для всей генеральной совокупности. Если районы отличаются по числу элементов, то выборки следует брать пропорционально объемам районов, т. е. так, чтобы 2— ... —rtfc/JVjk. Другой вариант подхода к раз- биению генеральной совокупности на районы применяется в тех случа- ях, когда районы дают не только различные средние, но и различные средние квадратические отклонения. Для достижения большей равно- мерности из районов с большей дис- персией следует выбирать большие по объему выборки. 6.3.4. Прочие методы отбора выборки Существуют еще два важных ме- тода отбора выборки. Это ступенча- тый отбор и множественный отбор. Последний относится скорее к обла- сти статистических выводов, а не к методологии выборочных иссле- дований, поэтому будет рассмотрен в соответствующем месте. Методика ступенчатого выбороч- ного обследования заключается в разделении генеральной совокуп- ности на удобные для обследования группы. Такими группами могут быть графства того или иного шта- та или всей страны, кварталы того или иного города или они могут быть получены разделением гене- ральной совокупности по некоторо- му другому удобному или уже су- ществующему критерию. Затем от- бирается некоторая выборка, Для этого сначала выбирается совокуп- ность (выборка) исходных групп — например, графств в штате или кварталов в городе, после чего либо каждая группа обследуется с пол-
ным охватом элементов, либо из каждой группы отбирают одну или более подвыборок. Этот метод не увеличивает точ- ность оценки. Наоборот, по сравне- нию с обычной случайной выборкой он дает худшие результаты. Причи- на его использования состоит в том, что он дает возможность существен- но уменьшить издержки обследова- ния. Если генеральная совокупность велика или разбросана по большой территории, как правило, практиче- ски невозможно оприходовать вес ее элементы, а затем провести случай- ный отбор выборки. В то же время выборочное обследование по груп- пам существенно упрощает задачу. Существует и еще несколько ме- тодов отбора выборки, но в боль- шинстве своем каждый из них явля- ется комбинацией описанных нами выше основных процедур. Переходя к обсуждению вопро- сов, касающихся анализа результа- тов выборочного исследования, мы будем далее считать, что выборка получена собственно случайным по- вторным или бесповторным отбо- ром. Именно такой смысл будет вкладываться в слово «выборка». В гл. 6 мы введем и рассмотрим понятие выборочного распределите- ля. С его помощью читатель сможет понять связь между статистически- ми характеристиками одной выбор- ки и соответствующими параметра- ми всей генеральной совокупности. Это даст возможность решить зада- чу о том, при каком именно объеме выборки выборочная характеристи- ка будет иметь нужную точность. 6.4. ВОПРОСЫ И ЗАДАЧИ 6Л. Рассмотрим данные о массе вось- ми индеек (в фунтах) из табл. 7.1: 5 1 6 4 7 2 8 J а. Запишите эти массы на восьми ли- сточках бумаги. Сложите эти листочки и отберите три выборки с л=2 (с возвратом и без возврата). Вычислите значения X и 5 и сравните их со значениями и о из табл. 7.1. б. Припишем каждой массе номер (1, 2, .... 8). Пользуясь таблицей случайных чисел, возьмите три повторные выборки с п=2 (с возвратом) и три бесповторные выборки (без возврата). При повторном отборе случайные числа могут повторяться. При бесповторном отборе случайные числа не должны повторяться. Эта процедура дублирует методику отбора выборки из задачи 6.1 А в. Пользуясь таблицей случайных чи- сел, возьмите три повторные выборки с л= =7 и три бесповториые. Вычислите все значения X и s. Сравните полученные зна- чения для выборок обоих типов. Срав- ните также эти результаты с значениями ц и о Какой тип выборки даст лучшие результаты? Почему? г. Можно ли взять выборку л=20 по- вторно и бесповторно? д. Для двух независимых событий кай- лите: Р(5.5) н Р(Х-5); Р(5.6), Р(6,5) и Р[(5.6) или (6,5)], проанализируйте гипо- тезу Р[(5,6) или (6,5)]-Р(Х«=5.5)_ 6.2. Предположим, что нас интересует число индеек Массой меньше 7 футов. Тем самым мы получаем дихотомную генераль- ную совокупность. Отбор выборки из этой генеральной совокупности равносилен отбо- ру выборки из -множества S={№, U5 6 7 8. IP, IP, IP. В, В, В}. Следовательно, при одном испытании Р(5 или 6)==Р( IP)=5/8= -0,625 «л; Р(7 нли 8)-Р(В)=318= =0,375= (1 —я). а. Возьмите лист бумаги и напишите слева букву S, а справа — Г. Возьмите те- перь выборку с л=4, Сделаем эго следую- щим образом: выберите наугад один из наших восьми листочков и откройте его. Это равносильно тому, что мы выбрали одну из нцдеек «и взвесили ее. Если полу- ченн<^ значение, равно пяти или шести, сделайте отметку под буквой S. В про- тивном случае поставим черточку под бук- вой F. Верните выбранный листок на ме- сто, выберите еще один, откройте его и скова поставьте черточку под S или F. Проделав еще два испытания, вычислите NS—X н разделите эту величину на л, что даст p=NS/4*=X/4. Отберите еще две такие выборки и вычислите значения р. Отберите три бесповторные выборки объемом л=4 и тоже вычислите значения р. Какие из них дадут лучшие оценки для л? б. Отберите три повторные и три Ссс- повторлые выборки л=7 и тоже вычислите значения р. Какие выборки дают лучшую оценку для я? е. Определите случайную переменную следующим образом. Если при дроведе- 135
ннн четырех испытаний нам попадутся только индейки массой 7 или 8 фунтов, то примите Х]==0. Если одна из индеек будет меньше 7 фунтов* то примите Х$=1. Ана- логично определим Х3—2, Х4=3 н Х5=4. Точно так же можно определить случай- ную переменную X, н в случае семи испы- таний, При этом последним значением пе- ременной будет Х8=7. Вероятность Р(Х|= “=0) будет больше при л=4 или при п-7? г. Выберите одну индейку, т. е. прими- те л=1. Найдите вероятности Р(Х|«=0) и Какой смысл имеют выражения Л1==0 н Х2=1? Замечание. Мы взяли такую неболь- шую генеральную совокупность только для . того, чтобы упростить все рассуждения. В действительности, конечно, нецелесообраз- но брать выборку нз такой небольшой ге- неральной совокупности. 6.3. Результата ми этого упражнения мы будем пользоваться в упражнениях к гл. 7. Пусть перед вами стоит коробка с 300 булавками. Чтобы получить выборку п=6 (бесповторную), можно взять 6 булавок, измерить их длину н записать результаты измерения. Затем го этим шести числам можно вычислить X нлн X И 5. Эту процедуру можно смоделировать с помощью приведенных в табл. 2.1 дан- ных о дл-инах 300 остальных булавок. При- пишем каждой булавке порядковый номер от 001 до 300. С помощью таблицы слу- чайных чисел найдите одно случайное чис- ло, лежашее между 001 н 300. В табл, 2.1 найдите булавку, длина которой соответ- ствует этому числу. Выпишите длину еще 5 булавок (уже не пользуясь случайными числами), беря их подряд из того же столбца (или из той же строки), откуда было выбрано первое значение. С помощью этой процедуры возьмите одну выборку объемом л—20 н одну вы- борку га=60 Сравните выборочные средние друг с другом, а также с значениями р. и о из табл. 4.6. 6Л. Вновь предположим, что *!еред вами коробка, содержащая 300 стальных булавок. Однако вместо того, чтобы изме- рять каждую из них. вы пропускаете нх через некоторое калибровочное устройство. Это устройство показывает только, заклю- чена ли длина булавки в пределах (246— 254)-10“3 дюйма. Тем самым ваш набор булавок превращается в днхотомшую гене- ральную совокупность. Измерив таким об- разом булавки, вы установили, что 30 из jinx либо короче 246-10”’ дюйма, либо длиннее 254-10“’ дюйма. Эти булавки при- шлось забраковать. Такны образом, коли- чество бракованных булавок составило 10% общего числа. Теперь будем считать, что мы не про- пускали паши булавки через калибровоч- ное* устройство, поэтому не знаем значения л. Мы хотим оцегить значение л по выбо- рочной характеристике л. Для этого мы Кб решили взять бесповторную выборку р= Смоделируйте (как и и задаче 6.3) процедуру отбора выборки—найдите слу- чайное число между 001 и 300 и отметьте в табл. 2.4 соответствующую длину булав- ки. Выпишите начиная с этого места еще 120 значений, двигаясь по строкам или по столбцам. На чистом листе бумаги напи- шите буквы S и F и проанализируйте по- лученные 120 значении. Если некоторое число заключено в интервале от 246 до 254 включительно, поставьте черточку под буквой F, если нет — то под буквой S Сосчитав число отметок под буквой S, по- лучим jVS=X. Разделив это число на 120, получите значение р, которое н следует сравнить с величиной л =40. Выберите еще одно случайное число, отберите другую вы- борку л=120, снова найдите р и сравните его с истинным значением. Каким методом отбора выборки сле- довало бы воспользоваться, если бы зна- чения длины всех булавок были располо- жены в порядке возрастания? 6.5. Результатами этого упражнения мы также воспользуемся в гл. 7. Перед вами коробка, в которой лежат 300 шариков: 120 — белого цвета, а 180 — черного. Нас интересуют белые шарики, так что л—120/300 =0,4. т. е. 40%. Этой генеральной совокупности соответствует пространство элементарных событий S» ={120 раз 180 раз о}. Чтобы получить выборку п=5, снова напишите на листе бумаги буквы S и /\ выньте один за другим шарики и поставь- те черточку под буквой S, если шарик оказался белого цвета, я под буквой г — если черного Сосчитав черточки под бук- вой S и разделив полученное число на и=5, определите значение р. При этом раз выбранный шарик на место не возвраща- ется (мы хотим получить бесповторную выборку). Эту процедуру можно снова смодели- ровать с помощью случайных чисел. В таб- лице случайных чисел произвольно выбе- рите цифру и начиная с нее выпишите не- сколько случайных трехзначных чисел. Это следует делать до тех пор, пока не полу- чите 5 чисел, заключенных между 001 и 300, причем ни одно из них не должно повторяться (мы моделируем процесс отбо- ра бесповторной выборки). Поставьте столько черточек под буквой 5, сколько чисел вашей выборки будут лежать в пре- делах от 001 до 120. Для всех остальных элементов выборки поставьте черточки под буквой F. Отберите еще две выборки объемом л=5, три выборки п—20 и три выборки п=80. ь каждом случае вычислите NS— =Х и р. Сравните полученные значения р с величиной л=40. 6.6. В табл. 2.2 приведено распределе- ние частот почасовых ставок заработной платы. Мы хотим превратить его в дихо- томную генеральную совокупность и вы-
числить Qi. Чему может быть равно л? Чему будет равно л, если вместо Q( вы- числить Q2? 6.7. Вам предложено отобрать выбор- ки из следующих генеральных совокупно- стей: все семьи некоторого города, все семьи США, студенты некоторого универ- ситета, врачи, рестораны некоторого горо- да. преподаватели высшей школы, строи- тельные фирмы, избиратели на выборах. а. Какую информацию по этим гене- ральным совокупностям вы хотели бы со- брать? Какую информацию вы хотели бы получить о самих этих генераторных сово- купностях? Какие из трех характеристик л, s и р вы стали бы вычислять? б. Как вы будете отбирать ваши вы- борки? в. В каких случаях вам понадобится список адресов? На основании чего вы бу- дете принимать решение о том, составлять его или нет? г. С какими проблемами вам придется столкнуться, если вы захотите не ограни- чиваться выборкой, а обследовать эти ге- неральные совокупности методом полного охвата? 6.8. На некотором предприятии рабо- тает 303 рабочих. Вы хотите выяснить, чему в среднем равна их почасовая ставка заработной платы. Поскольку бухгалтерия отказалась дать вам такую информацию, вы отберете бссповторную выборку п *25. . Будем считать, что данные из табл. 2.2 описывают эти ставки заработной платы. Упорядочьте их и возьмите 25 случайных чисел от 001 до 303. Выпишите соответст- вующие ставки заработной платы, найди- те Я и $ и сравните их с величинами р и о из табл. 4.7. Когда мы отобрали выборку из табл. 2.1, нам хватило лишь одного случайного числа. Здесь придется найти 25 случайных чисел. Почему? Замечание, Пусть мы знаем р и а. ио, как часто случается,, (нам не известно, является ли распределение нормальным или колоколообразным, или U-образным, или еще каким-нибудь. В случае нормального распределения 95,5% значений попадает в пределы ц±2а. Если графиком распре- деления является более пологая кривая, то это значение будет меньше 95,5%. Можно поставить следующий вопрос: чему равно наименьшее возможное количество (в %) значений, лежащих в пределах pdt ±2(7» или в более общем виде в пределах ц+fco? Ответ на этот вопрос дал П. JI. Че* бышев (1821—1904 гг,), который показал, что эта величина (вероятность) равна 1— — 1/fc2, Таким образом, при А=2 1—1/Л2— =0,75. Это означает, что по меньшей мере 75% значений лежит в пределах Для нормальной кривой в пределах р±3и лежит 0,997 всей площади под кри- вой. Но и для любой другой кривой доля площади, лежащей в этих пределах, равна по крайней мере 1—1/9=0,778. Прн это утверждение выполняет- ся тривиальным образом. 6.9. В некотором городе ваша компа- ния продает какой-нибудь товар. Вы хоти- те установить, пользуется ли он одинако- вым спросом среди групп покупателей с разным доходом. Местная газета* регу- лярно публикует цветную карту города, где различными цветами обозначены районы с различным доходом жителей. а. Предположим» что вы уже выбрали 4 требуемый объем выборки л и теперь хо- тите приписать отдельные значения лг, «2» -.Пк (где 2л4«=п) каждому из райо- нов. Как вы это сделаете? Как в статисти- ке называются отдельные группы с различ- ным доходом? б. .Вы хотите провести выборочное обследование, посылая своих агентов в от- дельные семьи или к отдельным людям. К кому именно вы их пошлете? Иными словами, какие именно семьи или люди войдут в вашу выборку? в. Предположим, что необходимая ин- формация не настолько ценна, чтобы поль- зоваться услугами агентов. Поэтому вы решили провести опрос по почте. Каким образом вы будете составлять список адре- сатов? 6Л0. Несмотря на то, что вы получили достаточное число ответов, результаты обследования могут оказаться смещены. С чем связана такая возможность? 6.11. В следующих примерах попытай- тесь с достаточной степенью точности опи- сать вашу генеральную совокупность. а. Требуется установить, располагает ли некоторый кандидат на пост мэра под- держкой большинства. б. Требуется определить процент без- работных в некотором городе. в. Требуется сравнить средние расходы жителей двух городов на продовольствие. г. Требуется сравнить цены на холо- дильники в различных магазинах одного ’ города. 6.12. Компания по производству- ле- карственных средств хочет направить свое- го торгового агента к врачам, практикую- щим в некотором городе, изучив их предва- рительно с помощью случайной выборки. Как можно получить такую выборку? 6.13. Ваше упаковочное оборудование наполняет ящики некоторым материалом. С помощью повторной выборки вы хотите проверить, нормально ли оно работает. Как вы будете брать эти выборки? 6.14. Директор некоторой крупной ор- ганизации хочет с помощью выборочного обследования определить число служащих» которые в некоторый момент рабочего дня не занимаются выполнением рабочих зада- ний. Как ему это сделать? 137
ГЛАВА 7 ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 7.1. ПЕРЕЧИСЛЕНИЕ ВСЕХ ВОЗМОЖНЫХ ВЫБОРОК Связь между некоторой выбороч- ной характеристикой и соответству- ющим параметром всей генеральной совокупности лучше всего понять, изучая выборочное распределение этой характеристики. Такое распре- деление полезнее всего построить экспериментальным путем. Л имен- но, фиксируем объем выборки и возьмем из нашей генеральной со- вокупности все возможные выбор- ки, имеющие этот объем. Затем для каждой из этих выборок вычислим интересующую нас выборочную ха- рактеристику (например, выбороч- ное среднее) и составим распреде- ление частот. Далее полученные распределения частот обычно ана- лизируются с точки зрения средних арифметических (например, средне- го арифметического выборочных средних или выборочных дисперсий средних выборочных процентных характеристик и т. п.) и связи вы- борочной характеристики с соответ- ствующим параметром генеральной совокупности (т. е. с ц, о2, п или др.), его дисперсии и формы ею графика. Ниже мы рассмотрим три типа выборочных распределений: распре- деление выборочных средних, рас- пределение выборочных дисперсий и распределение выборочных про- центных характеристик. 7.1.1. Распределение выборочных средних Приведенная в табл. 7.1 гене- ральная совокупность состоит из 8 индеек. Нас интересует их средняя масса. Мы рассматриваем столь ма- лую генеральную совокупность лишь для того, чтобы сделать ре- зультаты обсуждения обозримыми. Проще всего взять из этой гене- ральной совокупности все возмож- Та(блица 7.1. Массы восьми индеек 1 4 2 8 I* =, LfiXll^fl = 6,375; о* = Sf; (Xt — |*) Wi = 0,734375. ные выборки объемом п=2. Выбор- ки п=3 можно наглядно предста- вить себе лишь в трехмерном про- странстве или с помощью бол её сложной системы таблиц. Перечис- ление всех возможных выборок п— =2 проведено в табл. 7.2. Перечень таких выборок выглядел бы при- Та блица 7.2. Все возможные выборки п=2 из генеральной совокупности табл. 7.1 xi Х1 б 1 1 8 I 1 5 1 1 6 | 1 8 | 1 7 | 1 ? 6 6 6,0 7,0 5,5 6,0 6,0 6,5 6.5 6,0 8 7.0 8,0 6,5 7,0 7,0 7,5 7,5 7,0 5 5,5 6,5 5.0 5.5 5.5 6,0 6.0 5,5 6 6,0 7,0 5,5 6,0 6,0 6.5 6,5 6,0 6 6,0 7.0 5.5 6,0 6,0 6.5 6,5 6.0 7 6,5 7,5 6,0 6,5 6,5 7,0 7,0 6,5 7 6,5 7,5 6.0 6,5 6,5 7,0 7,0 6,5 6 6,0 7,0 5,5 6,0 6,0 6,5 6,5 6,0 Прамечшше. Выборочные средние X.. = (Xt + мерно так: 6,6; 6,8; 6,5; 6,6; ...; 8,6, 8,8; 8,5 ... Средние по этим выбор- кам равны ^11=6,0,^12=7,0, Х]з= =5,5, Хц=6,0, ..., Xzi=7,0, Хгг= =8,0, ^23=6,5 ... Распределение частот выбороч- ных средних и будет выборочным распределением £табл. 7.3,о). Связь между X и ц. Среднее по- лученного распределения является средним средних, а не средним из отдельных масс. Чтобы подчеркнуть * илО
Таблица 7.3. Эксйернментальные выборочные распределения (распределения выборочных средних) 43) л — 2 1в/ — lA xi h 4.75—5,25 s.o 1 0,0156 5,25—5,75 5,5 8 0.1250 5,75—6,25 6,0 20 0,3125 6,25—6,75 6,5 18 0,2812 6,75—7.25 7,0 12 0,1875 7,25—7,75 7.5 4 0,0625 7,75—8,25 8,0 I 0,0156 64 1,0000 Примечания* 1. Данные взяты нэ табл. 72. 2, Среднее средних Y= ЪЦХ.рЦ = 6,375. 3. Днеперсня средних в среднее квадратическое 9 __ — отклонение = If (X { — Х)/Х/^ = 03371875= з*/л= = 0.734375/2 = 03671875; °- = У If, (Aj- X)»/£f ( = 0fVn -= V0.3671675 = = 0,6060. (У) л = 3 f"^P(X{) 4,83—5,17 5 1 0,0020 5,17—5,50 16/3 12 0,0234 5,50—5,83 17/3 54 0,1054 5,83—6,17 6 115 0,2246 6,17—6,50 19/3 132 0,2578 6,50—6,83 20/3 "08 0,2109 6,83—7,17 7 59 0,1152 7,17—7,50 22/3 24 0,0469 7.50-7,83 23/3 6 0,0117 7.83—8,17 8/512 1 0,0020 1.0000 Примечании- 1. Данные взяты на табл. 7.1. = 2 _ = 2 X - 6.375; э- = If. {Х^- X)-/if{ =: 03W9 = = ^/Л = 0^375/3 = 0,24479; э- = = Р Ef. (7i—‘xF/EJi - а/К7Г = /054474 = 0,4948, в) п = 5 ]Bf — vBi xi 4,9—5,1 5,0 0 0 5,1—5,3 5,2 0 0 5,3—5,5 5,4 0 0 5,5—5,7 5,6 0 0 5,7—5,9 5.8 6 0,0800 5,9—6,1 6,0 6 0,0800 6,1—6,3 6,2 13 0,1733 Продолжение табл. 7.3 lBi — uBl xi fi ff’ = p 6,3—6.5 6.4 19 0,2533 6,5—6,7 6,6 13 0,1733 6,7—6,9 6,8 11 0,1467 6,9-7,1 7,0 4 0,0533 7,1—7,3 7.2 2 0,0267 7,3-7,5 7,4 1 1 0,0133 7.5—7,7 7,6 0 0 7,7—7,9 7,8 0 1 0 7,9-8,1 8,0 0 0 *75 ' 1,0000 Примечания: 1 Истсгинж — якперкмеитальвде данные^ _ 2. Г= 6.445; e'J = If - (X- - X)*/If- 0.1265; х 1 1 1 < = V ~х. — xy/xf= 0,3556; oL •= o*/n = х > X = 0.734375/5 = 0,14665; о— = /0.14688 = и 0.3832. этот факт, используют обозначение X Каковы же соотношения между средним средних X и средним всей генеральной совокупности р? Здесь есть три возможности. Среднее вы- борочного распределения может быть равным соответствующему па- раметру генеральной совокупности; среднее выборочного распределения может не быть равным истинному параметру генеральной совокупно- сти, но связь между ними можно предсказать, и, наконец, среднее выборочного распределения может быть не равным среднему по всей генеральной совокупности, но о воз- можной величине разности между ними ничего сказать нельзя. Среднее выборочных средних дей- ствительно равно среднему всей ге- неральной совокупности. Причем очень существенно, что это справед- ливо независимо от вида распреде- ления всей генеральной совокупно- сти. Другими словами, график рас- пределения рассматриваемой гене- ральной совокупности может быть колоколообразным, U-образным или прямоугольным—в каждом из этих случаев среднее выборочных сред- них равно среднему генеральной со- вокупности. Если выборочное рас- 139
пределение используется в качестве распределения вероятностей, то его среднее называется математическим ожиданием случайной переменной. Так. величина Х=ц есть математи- ческое ожидание _случайной пере- менной X, т. е. М(Х)=ц. Мы проверили равенство Х=ц опытным путем и только на двух примерах. Оно, однако, справедли- во во всех случаях и может быть формально доказано. По определе- нию среднего значения для дискрет- ного распределения выборочных средних X=2fIXi/2fi. Если площадь род графиком равна единице, то х = 2/"ЛТ=Л1 (Х^М^ zxt у =Д- М (2Х,) 2 М( х,). Здесь Af(Xi) есть то же самое, что и pi, откуда п _____ 2 Af(Xi)=W /-1 и, следовательно, М (X) = = р. Более подробный вывод можно найти, например, в книге Муда и Грейбилла *. Этот вывод подтверж- дает тот факт, что равенство Х= =М(Х)=р совершенно не зависит от формы распределения генераль- ной совокупности. Кроме того, оно выполняется для выборки любого объема. Этот вывод подтверждают и два других выборочных распределения из табл. 7.3. Для получения распре- деления выборочных средних были перечислены все возможные выбор- ки п=3. Число этих выборок равно 83=512=2fi, что, конечно, намного больше, чем 2f<=64 в случае рас- 1 Mood Alexander Graybill Frank- lin A. Introduction to ttye Theory of Sta- tistics. N. ¥.: McGraw-Hill, 1963, p. 145. 140 пределения для n—2. Распределе- ние для п=3 снова дает значение X, совпадающее с р. Третье распре- деление есть’ распределение выбо- рочных средних, вычисленное для всех выборок п=5. На этот раз мы не стали перебирать все возможные выборки этого объема, так как их число довольно велико: 85=32 768. Вместо этого мы аппроксимировали выборочное распределение с помо- щью 75 случайных выборок п=5, которые и были отобраны фактиче- ски из генеральной совокупности (8 индеек) табл. 7.1. Полученное приближение дает_очень хорошие результаты. Хотя Х=6,445 не сов- падает с значением р=6,375, как в в случае полных выборочных рас- пределений для п=2 и п—3, оно очень близко к истинному значению. Чтобы далее проиллюстрировать взаимосвязь между средним значе- нием распределения некоторой вы- борочной характеристики и соответ- ствующим параметром генеральной совокупности, отметим, что среднее значение распределения выбороч- ных дисперсий s1 2 также равно дис- персии всей генеральной совокупно- сти а2. Однако среднее значение вы- борочных средних квадратических отклонений s не равно среднему квадратическому отклонению гене- ральной совокупности <г. В том слу- чае, когда генеральная совокуп- ность распределена по нормально- му закону, связь между ними изве- стна. Благодаря этому при фикси- рованном объеме выборки можно вычислить некоторый коэффициент, такой, что, умножив на этот коэф- фициент среднее значение $ выбо- рочных средних квадратических от- клонений, мы получим значение, равное среднему квадратическому отклонению по всей генеральной со- вокупности а. Что касается тех случаев, когда нельзя ничего сказать о связи меж- ду средним значением некоторой выборочной характеристики и соот- ветствующим параметром генераль- ной совокупности, важным приме- ром является случай смещенной
выборки. Если отбор выборки не яв- лялся беспристрастным, то опреде- лить или предсказать разницу меж- ду выборочным средним (или выбо- рочной дисперсией) и средним по всей генеральной совокупности (или дисперсией всей генеральной сово- купности) невозможно. Иными сло- вами, мы не сможем оценить ошиб- ку выборочного обследования сколько-нибудь эффективным обра- зом. Поэтому нельзя вычислить пределы, в которых должна быть заключена ошибка, а если такие пределы все-таки будут вычислены по тем или иным формулам, то им нельзя будет верить. В большинстве случаев для того, чтобы оценить некоторый параметр генеральной совокупности, исследо- ватель пользуется лишь одной вы- боркой. Чем же ему в таком случае может помочь знание взаимосвязи между X, F и (среднее выбороч- ных характеристик, %) и р, а2 и л? Кто даст ему возможность устано- вить связь между значениями X, s2 или р для одной выборки и величи- нами ц, а2 и л? Сразу можно предположить, что если предсказуемой величиной яв- ляется среднее значение выбороч- ного распределения, то связь меж- ду характеристикой одной выборки я соответствующим параметром всей генеральной совокупности также будет предсказуемой. Конечно, ха- рактеристика, вычисленная по од- ной выборке (например, среднее значение), не всегда равна средне- му значению всей генеральной со- вокупности. Она может совпадать или не совпадать с ним. Но зная связь между X и р., все (или почти все), что нам останется сделать,— это найти какой-нибудь способ вы числения ошибки выборочного ис- следования, которая и будет^ описы- вать связь между средним X по од- ной выборке и значением ц Еще раз подчеркнем, что мы должны быть полностью уверены в том, что среднее значение рассма- триваемой выборочной характери- стики (например, среднее от сред- них) равно (или может быть сдела- но равным с помощью тех или иных коэффициентов или статистической таблицы) соответствующему пара- метру всей генеральной совокупно- сти. Только убедившись, что это так, мы можем начать анализиро- вать связь между величинами X, s2 и р для одной выборки и величина- ми рц о2 и л. Тот факт, что среднее значение всех возможных выборочных сред- них равно среднему всей генераль- ной совокупности, еще не дает пол- ной картины взаимосвязи между средним значением одной выборки и средним генеральной совокупно- сти. Если мы сможем также выве- сти формулу, описывающую вели- чину возможной ошибки выборочно- го исследования или величину от- клонения выборочного среднего от среднего всей генеральной совокуп- ности, то это даст возможность по- лучить надежные пределы, с опре- деленной степенью достоверности ограничивающие возможную ошиб- ку. Эти пределы называют «довери- тельными». Другими словами, мы будем в состоянии получать надеж- ные оценки среднего по всей гене- ральной совокупности с помощью всего лишь одной выборки. Имеется, конечно, существенная разница между теми случаями, когда среднее значение распределе- ния некоторой выборочной характе- ристики просто равно соответству- ющему параметру генеральной со- вокупности, и теми случаями, когда оно может быть сделано таковым с помощью некоторого коэффициента. При прочих равных условиях в по- следнем случае ошибка выборочно- го исследования будет больше. Ста- тистики пользуются для описания этих различий следующей термино- логией. В первом случае выбороч- ная характеристика называется не- смещенной, во втором — смещенной оценкой рассматриваемого парамет- ра генеральной совокупности (не путать со смещенными процедурами отбора выборки). В обоих случаях 141
отбор элементов в выборку должен проводиться случайным образом. Таким образом, выборочное среднее является несмещенной оценкой среднего по генеральной совокупно- сти (истинного среднего). Выбороч- ная дисперсия также является не- смещенной оценкой истинной дис- персии. Однако, как это ни странно, выборочное среднее квадратическое отклонение является смещенной оценкой истинного среднего квадра- тического отклонения. Ни один из этих терминов (смещенная или не- смещенная оценка) нельзя приме- нять к выборкам, которые не были получены случайным отбором эле- ментов. Результаты таких выбороч- ных исследований в некотором смысле вообще не являются пред- сказуемыми. Абсолютная величина ошибки вы- борочного исследования. Слова «ошибка выборочного исследова- ния» нуждаются в уточнении. Что- бы сделать это, необходимо решить две проблемы. Во-первых, необхо- димо найти статистическую харак- теристику этой ошибки. Этого, од- нако, недостаточно. Как мы уже подчеркивали, выборочная характе- ристика может совпасть или не со- впасть с соответствующим парамет- ром всей генеральной совокупности. Поэтому мы должны уметь отвечать на следующие вопросы: с какой ве- роятностью эта характеристика бу- дет на некоторое фиксированное значение отличаться от истинного параметра генеральной совокупно- сти; какова наибольшая возможная ошибка выборочного исследования (наибольшая разница между этой характеристикой и истинным пара- метром). Чтобы ответить на эти во- просы, недостаточно лишь найти подходящую меру ошибки выбороч- ного исследования, необходимо знать и вид выборочного распреде- ления, в некоторых случаях вид распределения данных генеральной совокупности. Таким образом, три самых важ- ных вопроса, возникающих при ана- лизе результатов выборочного ис- 142 следования с помощью одной вы- борки, таковы: 1) равно ли среднее выборочного распределения соот- ветствующему параметру генераль- ной совокупности (даст ли эта ха- рактеристика смещенную или не- смещенную оценку); 2) какова ошибка выборочного исследования для этой характеристики и можно ли найти подходящую меру этой ошибки; 3) какой вид имеет то или иное выборочное распределение и можно ли выразить это в матема- тической форме Стандартная ошибка среднего. Ошибка выборочного исследования в случае выборочного среднего из- меряется с помощью стандартной ошибки среднего. Меру ошибки вы- борочных процентных характери- стик мы рассмотрим несколько по- зднее. Стандартная ошибка среднего фа- ктически совпадает со средним ква- дратическим отклонением выбороч- ного распределения среднего. Для трех приведенных в табл. 7.3 рас- пределений выборочного среднего это среднее квадратическое откло- нение (стандартная ошибка средне- го, обозначаемая о?) вычислено по обычной формуле для среднего ква- дратического отклонения. Всегда, когда мы можем получить выбороч- ное распределение, а это возможно, только когда объем генеральной со- вокупности и объем выборки явля- ются обозримыми величинами, зна- чение стандартной ошибки среднего можно вычислять этим путем — по обычной формуле для среднего ква- дратического. отклонения. Однако наиболее интересное и важное об- стоятельство, касающееся стандарт- ной ошибки среднего, состоит в том, что ее можно вычислять и по фор- муле о-= о/т. е. просто разде- лив среднее квадратическое откло- нение генеральной совокупности на квадратный корень из объема вы- борки п. Чтобы получить стандартную ошибку среднего по обычной фор- муле для среднего квадратического
1 । отклонения, мы должны знать пол- ное выборочное распределение. С * помощью формулы о_ = о/)/Г/г ошибка выборочного исследования в случае выборочного среднего мо- жет быть представлена как функ- ция среднего квадратического от- клонения всей генеральной сово- купности и объема выборки. Как мы уже отмечали, Х=р не- зависимо от вида распределения данных генеральной совокупности. Точно так же и = п незави- х сим о от вида распределения гене- ральной совокупности. Именно та- ким образом эта формула для а- выводится в математической стати- стике. Тем самым вид распределе- ния генеральной совокупности вли- яет только на вид распределения выборочных средних и то лишь при определенных условиях (например, если объем выборки мал). ' В этом виде формула для стан- дартной ошибки среднего подтверж- дает наше интуитивное представле- ние о зависимости ошибки выбороч- ного исследования от объема выбор- ки Если брать все выборки из одной генеральной совокупности, то значение о в числителе будет по- стоянным, а стандартная ошибка среднего (наша характеристика ошибки выборочного исследования) будет уменьшаться с ростом п. Ра- зумеется, для выборок из различных генеральных совокупностей стан- дартная ошибка будет зависеть (как показывает формула) не толь- ко от объема выборки, но и от а со- ответствующей генеральной сово- купности. Тем не менее, когда о ко- нечно, на значении стандартной ошибки среднего гораздо сильнее отражается объем выборки, чем о. Все эти моменты хорошо видны на примере трех выборочных рас- пределений из табл. 7.3. Поскольку распределения при я=2 и л=3 явля- ются полными выборочными распре- делениями, их средние квадратиче- ские отклонения, вычисленные по обычным формулам, совпадают со средними квадратическими отклоне- ниями, вычисленными по формуле б_=о/угл.Распределение при л=5 есть лишь аппроксимация полного выборочного распределения. В связи с этим величина oj-=0,3556, полу- ченная по обычной формуле, не рав- на с_ — я/Уп=0,3832. Тем не менее, учитывая ограниченный характер нашего эксперимента (всего 75 вы- борок), результаты можно считать удовлетворительными. Стандартная ошибка среднего является третьей из рассмотренных нами характеристик типа среднего квадратического отклонения. Двумя другими были о (среднее квадрати- ческое отклонение всей генеральной совокупности) из (среднееквадрати- ческое отклонение значений, относя- щихся к одной выборке). В каждом случае следует четко представлять себе, о какой именно характеристи- ке идет речь, и не путать их между собой. Выборочные распределения как распределения вероятностей. Теперь мы уже можем на примере трех вы- борочных распределений из табл 7.3 изучить взаимосвязь между одним значением X и величиной р. в тер- минах теории вероятностей. С увеличением объема выборки вероятность Р(Х\— 5) уменьшается. Другими словами, с увеличением объема выборки вероятность полу- чить значение выборочного средне- го, которое будет сильно отличаться от р, уменьшается. При п=2 Р(Х\= =5) =0,0156; прнп=3 Р(Я,=5) = =0,0020; при n=5 P(J?j=5)=0. Ко- нечно, если бы распределение (&) было полным выборочным распреде- лением, последняя вероятность не равнялась бы нулю. В этом случае она была бы равна P(Xi=5)= = 1/32768. Смысл каждой из этих вероятно- стей состоит в следующем: если из генеральной совокупности, содержа- щей 8 индеек, взять одну случайную выборку, например, объемом л=3, то вероятность того, что все 3 индей- 143
ки подряд будут весить по 5 фунтов (только в этом случае выборочное среднее оказывается равным Xi= =5), равняется 0,0020. Тот факт, что величина P(J1=5) уменьшается с ростом п, полностью соответствует нашему здравому смыслу. Учитывая строение рассматриваемой гене- ральной совокупности (в которой только одна индейка имеет массу 5 фунтов), проще выбрать одну и ту же индейку 2 раза подряд (л=2), чем 5 раз подряд (л=5). Фактиче- ски соотношение P(Ji = 5), или Р(5,5,5,5,5) =1 /32768, тоже озна- чает, что если взять 32768 выборок л=5, то выборка, которая состояла бы из одной и той же индейки (мас- сой 5 фунтов), выбранной 5 раз под- ряд, встретилась бы среди всех этих выборок в идеальном случае только один раз. В то время как вероятность по- лучить в качестве среднего значе- ние, сильно отличающееся от ц, с ростом п уменьшается, вероят- ность получить среднее значение, близкое к значению р, увеличивает- ся. Как это отражается на величине 0_so/)/n? Лучше всего проана- лизировать это на примере. Возьмем некоторое прямоугольное распреде- ление и построим другое распреде- ление, имеющее те же средние точки и ту же сумму частот, но иное рас- пределение частот по средним точ- кам. А именно, перераспределим частоты таким образом, чтобы рас- пределение стало колоколообраз- ным. Размахи обоих распределений будут совпадать, так как средние точки не изменились, но среднее квадратическое отклонение вто- рого распределения будет мень- ше. Таким образом, если взять некоторый фиксированный интервал вокруг точки р, то расположенная над ним площадь под графиком рас- пределения будет для колоколооб- разного распределения больше, чем соответствующая площадь в случае прямоугольного или другого, более пологого распределения. Это дает основание предполо- жить, что если на одном и том же 144 графике построить все три распре- деления из табл. 7.3, пользуясь для этого частостями (вероятностями), то соответствующее л=5 распреде- ление будет более островершин- ным *, чем два других. Более остро- вершинное распределение имеет меньший разброс данных и, следо- вательно, меньшее среднее квадра- тическое отклонение, а значит, и меньшую стандартную ошибку (в применении к выборочным рас- пределениям). Графически эта связь между выборочными распределения- ми показана на рис. 7.10. Сравним теперь вероятности />(6^A’s^7) для этих трех выбороч- ных распределений. Отметим, что пределы 6 и 7 выбраны нами в зна- чительной мере произвольно. При л==2 Р(6<^7) =0,7812; при л= =3 Р(6<^<7) =0,8085 и при л=5 Р(6^<7) =0,8799. Это снова означает, что если отобрать одну выборку л=3, то вероятность того, что ее среднее значение будет за- ключено между 6 и 7 включительно, равняется 0,8085. В этом примере границы рассма- триваемого интервала (6<^Х’1^7) не менялись, поэтому площадь под гра- фиком, выраженная в относитель- ных единицах, увеличивается. Это связано с тем, что график становит- ся все более островершинным, уменьшается о— или растет объем выборки п. Все три объяснения эк- вивалентны. Чтобы еще яснее представить се- бе, как связаны среднее по одной выборке и среднее по всей генераль- ной совокупности, .постараемся по- нять, что будет происходить с наши- ми пределами, если сохранять пло- щадь под кривой неизменной. Фик- сируем для этого некоторую долю общей площади, например число 0,6, и найдем такие X' и X", чтобы P(X/<JF<X,')=0,6. Эти значения X найдем для трех случаев: л=2, л=3 и л=5. Из предшествующих 1 В советской статистической литера- туре наряду с термином «островершин- ность» употребляется термин «эксцесс». — Прим ред.
рассуждений ясно, что прн л=2 гра- фик распределения будет иметь бо- лее пологую форму, и, следователь- но, расстояние между X' и X" при п=2 будет больше, чем при п=3. Теперь заменим X1 на у.—&с_, а X” на т. е. укажем, на сколько единиц среднего квадрати- ческого отклонения наши средние отличаются от р. Другими словами, примем X' — у- — и А"' = р+ + А»_. и вычислим некоторые ве- роятности вида Р(Х' <X<X") — = Р[(р — А»_) < X < (у. + Ла_)] для п—2, п=3 и п=5 при постоянном значении k. Можно показать, что в случае нормально распределенных генеральных совокупностей или для больших по объему выборок рас- пределение выборочных средних также будет нормальным, В резуль- тате расстояние между X' и X" бу- дет уменьшаться с ростом п, но при постоянном k площадь под графи- ком не будет меняться независимо от объема выборки. Для наших вы- борочных распределений это не вполне верно, так как генеральная совокупность индеек не является нормально распределенной, а раз- меры выборок малы. Итак, задача состоит в следую- щем: 1) сравнить площади под гра- фиком (убедиться в том, будут ли они приблизительно равны друг дру- гу) при п=2, п=3 и п=5 и 6=1; 2) сравнить площади под графиком при п=2, п=3 и л=5 и 6=2; 3) понять, насколько эти площади отличаются от площадей под нор- мальной кривой для значений z, соответствующих выбранным значе- ниям k, т. е. для 2=1 и z=2. Прн k = 1 и п = 2 Р (р — с_ < < X < и + <з_)=Р [(6,375—0,6060)< <Х<(6.375 +0,6060)1=Р(5.769 < < X < 6,981) = Р (5,77 < X < 6,98). Для этого интервала интерполиро- ванная сумма частот равна 42,6. Это значит, что 43 из 64 выборочных 10—232 средних значений из табл. 7.3,а по- падают в интервал от 5,77 до 6,98 фунта. Интерполированная сум- ма частей для того же интервала равна 0,666, откуда Р(5,77<Х<| <6,98) =0,666. Площадь под нор- мальной кривой над тем же интер- валом равна =„Л_| =0,683. При 6=1 и п=3 рассматривае- мый интервал имеет вид (6,375— —0,4948) < Х< (6,375 + 0,4984) = =5,88< j<6,87. Интерполированное число выборочных средних, попа- дающих в этот интервал, равно 345, а интерполированная сумма относи- тельных частостей — 0,674. Вероят- ность Р(5,88<Я<6,87)=О,674 еще ближе к значению 0,683 площади под нормальной кривой и ненамно- го отличается от значения 0,666, со- ответствующего случаю п=2. Таким образом, доля выборочных средних, лежащих в пределах р±а_ , для п = 2 и п = 3 примерно одина- кова. Однако при п — 3 интервал у z±z о_ меньше интервала р zlr. а_ для п = 2 из-за соответствующей раз- ницы между средними квадратиче- скими отклонениями (или стандарт- ными ошибками). Наконец, при п = 5 (р' — а'_ < < X < р' + а'_) = (6,445—0,3556) < < X < (6,445 +0,3556) = 6,09<Х< <6,80 Чцсло выборочных средних, попадающих в эти пределы, равно 50,8, округленно -- 51 (67,7®/0). Ины- ми словами, Р[(р-о_)<^<(р + +<>_)] яз 0,677. Можно сделать вы- вод, что если из генеральной сово- купности 8 индеек взять одну слу- чайную выборку л=5, то с вероят- ностью около 0,667 среднее по этой выборке будет заключено между 6,09 и 6,80 фунтами. Величина Р Кр' — 3'-) < Л” < (р' + о' ){снова Л Л очень близка к двум предыдущим значениям и к площади под соответ- ствующим участком нормальной кривой, однако сам интервал имеет меньшую длину. 145
Будут ли площади под графиком распределения выборочных средних близки к площадям под нормальной кривой и в том случае, когда рас- пределение генеральной совокупно- сти будет, например, U-образным или прямоугольным? Для выборок малого объема—нет, а для несколь- ко больших выборок — да. На са- мом деле даже для случая равно- мерно распределенной генеральной совокупности распределение выбо- рочных средних будет очень близко к нормальному уже при л=15. Подобная же связь имеет место и для интервала (р. — 2а_) < X < <(р-ф2а_). Он имеет в 2 раза большую длину (4о_ по сравнению с 2а_ при k=l). Однако вследст- вие того, что выборочные распреде- ления имеют колоколообразную фор- му. доля выборочных средних, ле- жащих в пределах р,д±2с_, вовсе не будет в 2 раза больше, чем соот- ветствующая величина для проме- жутка [х±с__. Эта доля будет равна 0,95 по сравнению с 0,68 в случае и ± а_ . X Так, при й=2 и л=2 (р—2о_) < + 2о_) = (6,375 - 1,212) < <Х<(6.375+1,212)=5,16<Х<7,59. Число выборочных средних, попада- ющих в этот интервал, равно 60,9 (т. е. после округления 61). аР[(ц— — 2о_) < X< (р.2о_)] =0,952, что хорошо согласуется со значением =0,955. При д=3 (р- -2а_) < X < ((р + 2а_) = (6,375 - — 0,9896) < X < (6,375 + 0,9896) = = 5,39<Х<7,36; число выбороч- ных средних, попадающих в эти пределы, равно 486, что составляет 0,949 всех 512 выборочных средних. Другими словами, Р (5.39 <Х < <7,36) = 0,949. Наконец, при п=?5 (р' - 2о'_) < X < (р' + 2о'_) = = (6,445- 0,71 !)<*< < (6,445 4- 0,711)=5,73 < <У<7,16. Число выборочных средних, лежа- щих в этих пределах, равно 72. Это составляет 0,956 от полного чис- ла 75 выборочных средних, так что Р Кр - 2а_.)< X < (р4-2о_)]^0,956. Напомним^ что при k = 1 пределы (р — йо_) < X < (р 4~ ) имеют вид 5,77—6,98 для распределения а табл. 7.3, 5,88 — 6,87 для распреде- ления б (при л=3) и 6,09—6,80 для распределения в (при л=5), при- чем в каждом из этих случаев дли- на интервала равна 2а_. Числа вы- борочных средних, попадающих в эти пределы, равны соответствен- но 43, 345 и 51. Они составляют следующие доли полного числа вы- борочных средних (в каждом слу- чае— своего): 0,666; 0,674 и 0,677. Именно эти последние значения сле- дует сравнивать с n/l’-i =0,683. Для Л=2 эти пределы таковы: 5,16—7,59 для распределения при п=2; 5,39—7,36 для распределения при п=3 и 5,73—7,16 для распреде- ления в при п=5. В каждом случае длина интервала равна 4с_. В эти интервалы попадают 61,486 и 72 вы- борочных средних Соответствующие доли полного числа выборочных средних составляют 0,952; 0,949 и 0,956, которые и надо сравнить с значением пЛ2-2=0,955. Теперь .мы можем сформулиро- вать следующие правила. Если гене- ральная совокупность распределена по нормальному закону, то распре- деление выборочных средних будет нормальным уже при наименьшем возможном объеме выборки п=1 Если распределение генеральной со- вокупности не является нормаль- ным, но имеет колоколообразную форму, то распределение выбороч- ных средних будет приближаться к нормальному уже при л=5. Для равномерно распределенной гене- 146
I ральной совокупности понадобятся уже несколько большие объемы вы- борки (например, л=)5). Лишь при таких значениях п распределение выборочных средних будет близко к нормальному. Одно из характерных свойств нормального распределения состоит в том, что значение пА*'' будет одним и тем же для любого нор- мального распределения (другими словами, не будет зависеть от сред- них значений и средних квадратиче- ских отклонений рассматриваемых распределений). То же самое спра- ведливо и для выборочных нормаль- ных распределений, в частности для нормальных распределений выбо- рочных средних. Если взять величи- ны Я' и а", отличающиеся от J на фиксированное число средних квад- ратических отклонений (которые здесь называются стандартными ошибками), то площади под графи- ком над соответствующими отрезка- ми всегда будут иметь одно и то же значение. Это, вообще говоря, не имеет места для биномиального рас- пределения, распределения Стью- дента и для некоторых других рас- пределений. Так, например, 0,68 площади под графиком, или 68% выборочных сред- них, лежит между X' и X", если Х' = 1±-1 о_. a х X где X = ft; 0,955 площади под гра- фиком, или 95,6% выборочных сред- них, лежит между ~Х' =р —2з_ и X"—р.-|-23-; 0,997 площади под графиком, или 99,7% выборочных средних, лежит между Зо_ и Аг" = (*4-3з_ . Разумеется, пло- щадь под кривой можно найти и для любого другого удобного числа стандартных ошибок. Если зафиксировать число стан- дартных ошибок, определяющее пре- делы pztzs—, то расстояние меж- ду X' =р,— га- и Аг"=|л-}-.2»:_ бу- 10* дет уменьшаться с ростом п, но пло- щадь под кривой будет оставаться постоянной. Уменьшение расстояния связано с тем, _ что стандартная ошибка а/У л является функци- ей о и л. Для выборочных распреде- лении, определенных на одной н той же генеральной совокупности, о будет константой, не зависящей от п, а заявляется функцией только» от п. Поскольку в пределах со- держится 0,997 площади под нор- мальной кривой, с помощью значе- ния z=3 легко найти точку, которую можно приближенно считать наи- меньшим значением нормального распределения или наименьшим зна- чением выборочного среднего. Та- кое наименьшее возможное значение X можно_вычислить, найдя величи- ну X' — X — За_ . Точно так же оценкой наибольшего значения бу- дет знйчениеА"' = Х+Зз—. В случае распределения с л=5 (табл. 7.3) наименьшее значение X,. реально полученное в нашем огра- ниченном (всего 75 выборок) экспе- рименте, равно 5,8, а наибольшее — 7,4. Эти значения хорошо согласу- ются с вычисленными по упрощен- ному правилу: —ЗУ 7/д = 6,375- — 3 J<0,734375/5=5,2 и X 4- з V^Iri = 6,375 + + 3 КО,734375/5 = 7,5. Таким же путем мы можем ре- шать и другие задачи подобного ти- па. Пусть из нашей генеральной со- вокупности, содержащей 8 индеек, взята случайная выборка с л=20. Среднее по этой выборке может быть равно, больше, или меньше ц. Однако, пользуясь нашим упрощен- ным правилом, можно считать наи- меньшим возможным значением 147
число Х = -3e_ = 6,375- х - 3 У 0,734375/20 = 5,8. Если из той же генеральной сово- купности 8 индеек взять выборку Л=50, то выборочное среднее вновь может оказаться равным ц, боль- шим р. или меньшим р.. Однако мы вряд ли получим выборочное сред- нее, которое меньше 6.375— - 3 К0734375/50 =6,011 и боль- ше 6,739. Как же обстоит дело с такими крайними значениями выборочных средних, как 7=5 и 7=8? Конечно, каждое из этих выборочных распре- делений содержит некоторую ве- §оятность того, что 7=5 и 7=8. тими вероятностями, однако, мож- но смело пренебречь. Действитель- но, например, при п=50 вероятность Р(7=5)=(1/8)Б0 (очень маленькое значение). Именно это значение да- ет вероятность 50 раз подряд вы- брать индейку массой 5 фунтов. Ддже если читатель возьмет 100 или 200 выборок п=50, ему скорее всего не попадется выборочное среднее меньше X = ц — За_ =6,011. Как показывают выборочные данные из табл. 7.3,в, он не получит в качестве выборочного среднего и само значе- ние 7=6,011. Интервал 6,011—6,739 уже до- вольно мал. Это говорит о том, что случайная выборка л=50 даст даже в худшем случае (т. е. если иметь в виду значения р — Зз_ и р.-|-Зо_) очень хорошую оценку для ц. С дру- гой стороны, как мы уже отмечали, при п—2 худшее выборочное сред- нее с заметной вероятностью может оказаться равным 7=5. Поскольку такое значение может получиться в реальном выборочном эксперимен- те, величину р. вряд ли стоит оцени- вать с помощью выборки столь ма- лого объема. Оценивание р с помощью одной выборки. Рассмотренные выше свой- ства распределения выборочных средних дают возможность оцени- 148 вать р, по 7, соответствующему одной выборке, более формальным путем. Это можно делать с помощью так называемых «доверительных пределов». Они обозначаются бук- вами С. L. (от английского Confi- dence Limits) и равны C.L. =Х±&_. X причем Р(Х-Ь_<р-Х + Ь_) = А г, . Широко распространена точка зрения, что после того, как некото- рое значение 7 по той или иной вы- борке найдено, делать вероятност- ные утверждения типа Р(5<ц< <7)=е уже неправильно. Это мне- ние хорошо сформулировано в книге Хамбурга: «Нельзя делать вероят- ностные утверждения о данном фик- сированном интервале. Среднее по всей генеральной совокупности не является случайной переменной» *. Автор предлагает следующее истол- кование «Неизвестное нам среднее по генеральной совокупности может либо принадлежать рассматривае- мому интервалу, либо не принадле- жать ему ... Точное утверждение состоит в том, что если из рассма- триваемой генеральной совокупное-, ти взять много случайных выборок одного или того же объема и по каждой из них построить интервал 7±1,96а_, то 95% утверждений, что этот интервал содержит истинное среднее по всей генеральной сово- купности |хх, будут правильными*. В настоящее время почти все со- гласны с тем, что доверительный интервал (но не р, которое, очевид- но, является константой) есть слу- чайная переменная2, а следователь- но, вероятностные утверждения типа Р[(7—Л) <р< (74-£)]=8 имеют ' Hamburg Morris. Statistical Analysis for Decision Making. N. Y.: Harcourt, Brace and World, 1970, p. 379. s См., например, Samuel S. Wilks. Ma- thematical Statistics. N. Y.: Wiley, 1962, p. 366. Mood Alexander M., Graybill Frank- lyn A., op. cit,» p, 251.
смысл. Например, можно сказать, j что 95 интервалов из 100 будут со- держать р. После того как значение X найдено и получен интервал, на- пример 5<р<7, величина X (или соответствующий интервал) пере- стает быть случайной переменной и вероятностных утверждений вида Р(5<р<7)=в делать нельзя. Дисскуссия по этому вопросу бы- ла начата Р. Фишером и Дж. Ней- маном, причем первый поддерживал позицию, соответствующую проци- тированному отрывку из книги Хамбурга, а второй выступал про- тив нее1. Поскольку преобладает точка зрения, что фиксированный интервал не может быть предметом вероятностного утверждения, чита- тель может пренебречь подобными утверждениями на последующих страницах этой книги. Тем не менее в пользу вероятностных утвержде- ний можно привести следующую аргументацию. Во-первых, надо иметь в виду, что, истолковывая выборочный экспери- мент в том смысле, что «95 интерва- лов из 100 будут содержать р», мы всегда основываемся на вероятност- ном утверждении. Во-вторых, между выражениями X—k<p.<X-]-k и 5< <р<7 нет разницы с точки зрения информации о том, содержит этот интервал р или нет. Поэтому во вто- ром случае вполне законно задать вопрос: с какой вероятностью р по- 1 падает в интервал от 5 до 7? Эта проблема довольно запутана и, следовательно, допускает несколь- ко истолкований в зависимости от определения. Но основная причина этого состоит, по-видимому, в сме- шении двух разных понятий — ве- роятности того, что некоторое X (или соотве гствующие доверитель- ные пределы) будет получено, и ве- роятности того, что значение р по- 1 Fisher R. Statistical Methods and Sci- entific Index. — Journal of the Royal Sta- tistical Society, ser. B, v. 17, N 1, 1955, p.‘69—78; Neymann J. Note on an Article by Sir Ronald Fisher. — Journal of the Roy- al Statistical Society, 1956, ser. B, v. 18, № 2, p. 288. падает в некоторый' интервал/ Про- иллюстрируем это различие на при- мере. Рассмотрим выборочное распре- деление из табл. 7.3 при п=2 и р= =6,375. Будем четко отличать дове- рительные пределы (С. L.— Confi- dence Limits) от доверительных интервалов (С. I. — Confidence Intervals). Примем, например, С. I.i=l,0 и С. 1.3=2,0. Наше дис- кретное выборочное распределение содержит 64 возможных выбороч- ных средних. При этом Р(Х=5,5)= =0,1250, Р[С. L —(5,0—6,0)] = =0,1250 для С. I.i = 1,0 и P[C.L.= = (4,5—6,5) ] =0,1250 для С. 1.2=2,0; кроме того, Р (^=7,0) =0,1875, РГС. L.=(4,5—6,5)]=0,1875 для C.I.i=l,0 и P[C.L.=(6,0—8,0)] = =0,1875 для С. 1.2=2,0. В этом смысле как Xi, так и С. L.y (но не С. 1.<) являются случайными пере- менными с равными вероятностями. Теперь мы можем перейти к воп- росу о том, какие доверительные интервалы (C.I.) содержат р. Наша цель —найти Р(СД. содержит р). т. е. в других обозначениях Р (^С.1.). При С.1., = 1,0 имеется 38 довери- тельных интервалов, содержащих р, откуда Р((1С.1.,)=38/64. Для С.1.,= =2.0 имеется 58 интервалов C.I.,, откуда Р (ИС1.,) == 58/64. ДляСЛ.,= =4 вес доверительные интервалы содержат р и РСС.1.1) = 1. Таким образом, вероятность Р (А')=РС.1.= = (X' — X") не следует смешивать с вероятностью Р(иС.1.). Тот факт, что значения X' и X" указаны, ни- коим образом не влияет на наши сведения о том, содержит ли ‘неко- торый доверительный интервал С. I. величину р. Рассмотрим аналогичный при- мер, а именно: пусть имеется 100 шаров десяти различных цветов и пусть для простоты имеется 10 ша- ров каждого цвета. Цвет в этом случае эквивалентен выбору довери- тельных пределов С. 1.<, и вероят- ность выбрать шар некоторого цвета равна Р(£с)=1/10. Если, помимо 149
цвета, на 95 шарах написана буква р. то Р(£ц) =95/100. Если выбрать наугад какой-нибудь один шар и определить только его цвет (но не наличие или отсутствие буквы р), то вероятность Р (Е^ относительно этого конкретного шара останется равной Р(Е^) — 0,95. Этот результат ничего не говорит нам о связи меж- ду цветом и наличием р. Проиллюстрируем это вероят- ностное утверждение еще на одном примере. Во дворе находятся 8 индеек. Мы хотим оценить их среднюю массу, не взвешивая каж- дую из них. Для этого выберем трех (л=3) индеек одну за другой с воз- вратом, взвесим их, вычислим сред- нюю массу X, а затем попытаемся получить доверительные пределы С.L.=X±£n— Чтобы сделать это, JC нам необходимо знать значение а-* X Поскольку а__1=а/)/’3, нам надо иметь либо само значение а, либо некоторую его оценку. Читателю может показаться странным, что величина р неизвест- на, и мы хотим оценить ее по выбор- ке, тогда как значение о известно. Как может р быть неизвестно, когда а известно? На практике часто бывает так, что среднее меняется, а дисперсия остается постоянной. Поэтому при- ходится оценивать величину р (установить, насколько она измени- лась), используя для этого извест- ное из предыдущего опыта значе- ние о. Предположим, например, что некоторое устройство обрезает стальные булавки, доводя длину каждой из них до некоторого тре- буемого значения. Разброс получае- мых длин (пусть даже очень незна- чительный) может быть связан с вибрацией мотора и недостаточной подгонкой отдельных его деталей. В то же время изменение средней длины может быть обусловлено из- носом (затуплением) режущего ме- ханизма. При этом средняя длина может меняться, тогда как среднее 150 квадратическое отклонение будет оставаться одним и тем же (вибра- ция машины остается постоянной). Поэтому раз оцененным значением о можно пользоваться и в других случаях. Когда величина о неизвестна, вычисляют среднее квадратическое отклонение s рассматриваемой вы- борки (масса трех индеек), которое И используется в качестве оценки величины а в формуле s_ = s/]/3. Будем считать, что в рассмат- риваемом примере значение <з изве- стно из предыдущего опыта и, сле- довательно. а_ = рС, 734375/3 == —0,4948. Именно этим значением мы пользовались при вычислении PKn-feJ<S<(H+fe Я- Пусть наша случайная выборка дала следующие значения массы: 6, 8 и 6 фунтов, откуда Я=20/3=6,67. Соответствующие доверительные пределы имеют вид X ztz = =6,67±Jfe-0,4948. При k — l дове- рительные пределы равны 6,17—7,16, при k—2 равны 5,68—7,66. Им соот- ветствуют вероятности Р(6,17<р< <7,16) и Р(5,68<р<7,66). Что это за вероятности? Как можно их получить, если выбороч- ное распределение неизвестно? Если есть основания считать, что при не- которых условиях (большой объем выборки в случае произвольной генеральной совокупности или лю- бая выборка из нормально распре- деленной генеральной совокупности) распределение выборочных средних следует нормальному закону, то можно воспользоваться нашим уме- нием вычислять площади под нор- мальной кривой. В частности, мы можем сказать, что эти вероятности таковы: Р(6,17<р<7,16)^0,68 и Р(5,68<ц<7,66)«к0,955. Гак как при вычислении этих пределов мы приняли k=l и k=2, длины соот- ветствующих интервалов равны 2а_ и 4з_ . После этого мы можем X X заключить, что с вероятностью 0,68
величина р является числом, лежа- щим между 6,17 и 7,16 фунта, а с вероятностью примерно 0,955 р лежит между 5,68 и 7,66 фунта. Однако значение р нам известно. Попадает ли р=6,375 фунта в эти доверительные интервалы? Да, по- падает. Будет ли она всегда лежать в пределах X ztz 3—(Л = 1)? Нет, не обязательно. Выборочное распреде- ление из табл. 7.3,6 показывает, что можно выбрать такие три индейки, что Л'=17/3=5,67, соответствующие доверительные пределы будут иметь вид С. L.=5,67±0,4948=5,18+-6.16, и среднее по всей генеральной сово- купности не попадет в эти гра- ницы. Эту проблему можно понять еще лучше, если сравнить интервал (р— — <Ь_) < X < (р k<3_.) с интерва- лом (X — Jb_)<p<(JV-|- Ла_). Вспом- ним, что Л=1 и п=3, первый из этих интервалов имеет вид (X’ < <^<Х") = (р-Ь_)<Х<(р + -Р £х_) = (5,88 < X < 6,87) и что в эти пределы попадает 345 выбороч- ных средних. Если мы теперь возь- мем любую выборку с л=3, вычис- лим X и построим вокруг X довери- тельные пределы, ограничивающие интервал той же самой длины (За- при 6=1), то р попадает в эти пре- делы во всех тех случаях, когда X будет лежать внутри промежутка 5,88—6,87. Если окажется, что Х< <5,88 или Я>6,87, то р не будет лежать в доверительных пределах Х±е~. X Тот, кто не знает статистику, возможно, захочет действовать на- верняка и возьмет в качестве дове- рительных пределов С. L.=A" zt7а_. В этом случае наш исследова- тель может быть уверен в том, что р попадет в его доверительные пре- делы. Однако эти пределы будут избыточно широкими (14а_), поэтому оценка будет слишком грубой. Ана- лиз приведенных выборочных рас- пределений показывает, что 95% всех выборочных средних попадает в пределы pz*z2a_. Поэтому обычно нет нужды брать доверительные пре- делы, ограничивающие интервал большебз— Иными словами, нет не- обходимости выходить за пределы С L.=Xzlz3a_.. X Связь _мвжду интервалами (р — - Аа_) < X < (р + feu.) и (Х-Ь_)< <Cp<C(^ + ^-) ДЛЯ некоторых дру- гих выборочных распределений гра- фически показана на рис. 7.5—7.8 и др. Ошибка выборочного исследова- ния для бесповторной выборки. Среднее квадратическое отклонение распределения выборочных средних имеет вид = а/Уп в тех случаях, когда выборки отбираются с воз- вратом или когда генеральная сово- купность бесконечно велика. Это среднее квадратическое отклонение (стандартная ошибка) является функцией они. Для постоянного о (например, когда все выборки бе- рутся из одной и той же генераль- ной совокупности) величина0— зави- сит только от п, В случае бесповторных выборок о_ = V(tf—л)/(АГ—1) (что можно получить с помощью ги- пергеометрического распределения из гл. 5). При л=2 полное выбороч- ное распределение для нашей гене- ральной совокупности восьми индеек можно получить, исключив главную диагональ из табл. 7.2. Теперь при отборе выборки мы уже не можем 2 раза получить индейку массой 5 фунтов, так как во всей генеральной совокупности есть только одна такая индейка. Далее, вероятность того, что нам дважды попадается индей- ка массой 6 фунтов, равна (4/8) X X (3/7)=12/56, а не (4/8)-(4/8) = =16/64, как это было в случае, когда выбранная индейка затем 151
возвращалась на место (испытания были независимыми). Чтобы перечислить полное выбо- рочное распределение с п=3, можно воспользоваться деревом исходов, таким как было построено на рис. 5.6,г. При этом число возмож- ных исходов будет равно 336, а не 512, как в случае выборочного рас- пределения, основанного на повтор- ных выборках. Для этого выборочного распреде- ления вреднее значение равно ц (т. е. Л=ц), но его среднее квадра- тическое отклонение зависит от N, а не только от о и п. В гл. 5 конечный множитель ]/(jV — n)l(N— 1) обозначен через FM. Было указано, что величина FM не изменится, если ее перепи- сать в виде FM=V{N - п)/л = У1 - л/ЛГ. Отсюда следует, что FM всегда меньше единицы, а если отношение п к N очень мало, то FM настолько близко к единице, что вообще не от- ражается на величине стандартной ошибки. При вычислении доверительных пределов С. L. для бесповторных вы- борок всегда следует умножать на FM. Однако, если отношение п к N мало, вычислять коэффициент FM бессмысленно, так как он не меняет величину стандартной ошибки. Это дает ответ на вопрос: каки- ми выборками следует пользовать- ся: повторными или бесповторными? Если п составляет лишь небольшую часть N (например, если n<0,05JV), это не имеет значения. Но когда N равно, например, 500, а п—300, луч- ше использовать бесповторную вы- борку. Стандартная ошибка средне- го будет заметно меньше, чем для повторной, и исследователь получит более узкий доверительный интер- вал и лучшую оценку величины ц. 7.1.2. Распределение выборочных дисперсий Как уже отмечалось, среднюю длину стальных булавок р в одной 152 партии вычисляют, например, для того, чтобы сравнить ее с техниче- скими условиями. Иногда ее оцени- вают по данным той или иной вы- борки. Точно так же, чтобы срав- нить среднюю длину булавок одной партии со средней длиной булавок другой партии, величины щ и рг можно либо вычислить непосредст- венно, либо взять их оценки, полу- ченные путем выборочного иссле- дования. Мы отмечали уже и то, что две или более генеральные совокупности можно сопоставлять с точки зрения различия или совпадения не только их средних, но и их дисперсий. Это можно делагь, вычисляя дисперсии или средние квадратические откло- нения по всем данным каждой гене- ральной совокупности. Дешевле, однако, проводить такие сравнения, пользуясь соответствующими выбо- рочными характеристиками. Для того чтобы оценить диспер- сию генеральной совокупности по Одной выборке, необходимо знать свойства выборочного распределе- ния выборочных дисперсий Как и в случае выборочного среднего, к этим свойствам относятся форма графика выборочного распределе- ния, величина ошибки выборочного исследования и связь между $2 и о2. В следующем примере мы рассмо- трим лишь последний из этих во- просов. Для той же генеральной сово- купности, состоящей из восьми индеек, возьмем все возможные вы- борки л=2 и вычислим их выбо- рочные дисперсии. Как мы уже зна- ем, формула для вычисления выбо- рочных дисперсий отличается от формулы для дисперсии генераль- ной совокупности множителем в зна- менателе. В формуле для выбороч- ной дисперсии этот множитель на единицу меньше: s* = S(X;-X)B/(n-l). При л=2 эту формулу можно пере- писать в виде з*=[(Х,_-Х)‘ + -Н*,-АУ1/(2-1)
Если записать все возможные вы- борки объемом п=2 в виде таблицы (табл. 7.4), то все индексы в по- Та блица 7.4. Все возможные выборки л=2 из генеральной совокупности табл. 7.1 Х1 Xl 6 1 8 | 1 5 8 1 Is 7 I 1 7 | 1 6 fi 0,00 2.00 0.50 0.00 0,00 0.50 0,50 0.00 8 2,ОЭ 0.00 4,50 2,00 2,00 0.50 0.50 2.00 5 0,50 4,50 0,00 0,50 3,50 2.00 2,00 0.50 fi 0.00 2.00 0,50 0,00 0,4» 0.50 0.50 0,00 6 0,00 2.00 0,50 0,00 0.00 0,50 0,50 0.00 7 0,50 0,50 2,00 0,50 0,50 0,00 0,00 0,50 7 0.50 0,5u 0/2) 3,50 0.50 0,00 0,00 0.50 6 0,00 2.03 0,50 0,00 0.00 0,50 0,50 0,00 Прммечлмме. Выборочные днсперсвш рассчитывают- ся по формуле 1>. следней формуле следует изменить следующим образом: - - *,7)’]/(« -1). Например, в одну из выборок вхо- дят две индейки, массы которых JC3=5 и А'г=8. Среднее по этой вы- борке можно либо вычислить, либо взять из табл. 7.2. Подставляя эти значения в формулу, получаем = 1(5 - 6.5)’ + (8 - 6.5)1 /(2 “ - 1) = 4,50. Выборочное распределение всех выборочных дисперсий приведено в табл. 7.5. Важным его свойством является то, что среднее значение Таблица 7.S. Экспе- риментально* выбороч- ное распределение (рас- пределение выборочных дисперсий) s’i 'г 0,00 0,50 2,00 4,50 22 28 12 2 64 распределения выборочных диспер- сий равно дисперсии всей генераль- ной совокупности s2=a2. Причем это равенство справедливо лишь в том случае, если при вычислении диспер- сий отдельных выборок мы будем пользоваться формулой с п—1 в знаменателе. Как и равенство X=p, оно выполняется независимо от вида распределения генеральной совокупности В связи с тем, что s2=o2, каждая отдельная выбороч- ная дисперсия s2 называется несме- щенной оценкой истинной дисперсии всей генеральной совокупности. Форма распределения выборочных дисперсий заметно отличается от распределения выборочных средних. Видна сильная скошенность, тогда как распределение выборочных средних практически симметрично. Однако с увеличением объема вы- « борки величина ошибки выборочно- го исследования уменьшается и фор- ' ма распределения быстро становит- ся симметричной. Мы не будем здесь приводить пример получения интервальной оценки а2 с помощью s2. Для полу- чения такой оценки необходимо не только знать более точно вид вы- * борочного распределения, но и уметь пользоваться характеристи- ками этого распределения. В последующих разделах мы рассмотрим несколько примеров вы- / борочиых распределений выборочно- го среднего и выборочных процен- тов характеристик. I 7.2. ЭКСПЕРИМЕНТАЛЬНЫЕ РАСПРЕДЕЛЕНИЯ ВЫБОРОЧНЫХ СРЕДНИХ 7.2.1. Теоретические и экспериментальные выборочные распределения Когда генеральная совокупность содержит дискретные данные и не- велика по объему и когда объем выборки тоже очень мал, нетрудно перечислить все возможные выбор- ки. Когда же генеральная совокуп- на Примечания: I. Данные взяты нз табл. 7.4, 2. Среднее значение s»^=7»= =E/i.s*./J//=0.734375=o».
ность велика или когда данные ее элементы могут принимать непре- рывно меняющиеся значения, един- ственный способ получить выбороч- ное распределение состоит в том, чтобы воспользоваться теми или иными общими математическими методами. При этом выборочные распределения описывают с по- мощью непрерывных математиче- ских кривых или дискретных функ- ций. В задачах такого рода чаще всего встречают следующие назва- ния математических функций: функ- ции нормального распределения, биномиального распределения, рас- пределения Стьюдента, Пуассона, хи-квадрат, гипергеометрического распределения и т д. Некоторые из этих функций широ- ко используются не только в зада- чах, связанных с отбором выборки, но и для описания распределений генеральной совокупности данных. Такой функцией является, например, функция нормального распреде- ления. Математическая функция, исполь- зуемая в выборочных исследова- ниях, должна удовлетворять некото- рым условиям, налагаемым на функции распределения вероятно- стей, или ее необходимо преобразо- вать к такому виду. Как было по- казано в гл. 5, это преобразование состоит в приведении площади под кривой к единице. Некоторые функ- ции, например функция бино- миального распределения, уже име- ют такой вид. Их можно называть функциями распределения случай- ной переменной х, р или других. Таким образом, самым общим явля- ется понятие . «математическая функция»; термины «функция ве- роятностей», «функция распределе- ния случайной переменной х» имеют более узкий смысл и используются в задачах, связанных с выборочны- ми и вероятностными исследования- ми. Например, распределение выбо- рочных средних описывается при определенных условиях нормальной кривой, распределение выборочных процентных характеристик — функ- 154 цией биномиального распределения; выборочные дисперсии распределе- ны по закону хи-квадрат с соответ- ствующим числом степеней свободы и т. д. В ряде случаев, когда рас- пределение генеральной совокупно- сти имеет конкретный вид, соответ- ствующее выборочное распределе- ние обладает теми или иными хоро- шими свойствами. Так, если гене- ральная совокупность распределена по нормальному закону, некоторые выборочные распределения будут иметь некоторую вполне определен- ную форму. Графики многих из этих мате- матических функций и функций рас- пределения вероятностей можно по- строить обычными методами высшей математики. Многие из них мы уже приводили выше. Иногда, однако» полезно проверить, соответствует ли наша теория опытным данным, по- лученным на практике, а- именно» интересно сравнить свойства мате- матических функций распределения вероятностей со свойствами экспери- ментальных распределений. 7.2.2. Распределение выборочных средних Читатель уже знаком с основными свойствами распределения выбороч- ных средних. Как мы показали» Х=|а, а разброс значений выбороч- ных средних около ц (ошибка выбо- рочного исследования) измеряете» величиной независимо от вида распределения генеральной со- вокупности. С увеличением п ошиб- ка выборочного исследования умень- шается. Взяв выборку достаточно' большого объема, ее можно сделать настолько незначительной, что вы- , борочным средним можно пользо- ваться как точечной оценкой, т. е. как истинным значением среднего- по всей генеральной совокупности. Если генеральная совокупность- распределеца по нормальному зако- ну (или если ее распределение близ- ко к нормальному), распределение- выборочных средних будет нормаль-
иым независимо от объема выборки. Если генеральная совокупность не является нормально распределен- ной, распределение выборочных средних не будет нормальным для выборок малого объема. Однако с увеличением размеров выборки распределение выборочных средних •быстро приближается к нормально- му. Это явление описывается хоро- шо известной математической тео- ремой, которая называется цен- тральной предельной теоремой. Единственное ее требование состоит в том, чтобы дисперсия генеральной совокупности была конечной. Сравним теперь теоретические распределения с экспериментальны- ми для генеральной совокупности, объем которой значительно больше, чем в рассмотренном выше примере < 8 индейками. А именно, будем счи- тать генеральной совокупностью на- ' бор длин 300 стальных булавок из табл. 2.1 и рассмотрим различные выборки из нее. Распределение этой генеральной •совокупности очень близко к нор- мальному. Число элементов в ней .настолько велико, что полностью перебрать все возможные выборки практически невозможно. Поэтому, чтобы проиллюстрировать распреде- ление выборочных средних, мы бу- дем отбирать не все возможные вы- борки некоторого фиксированного объема, а лишь достаточно большое их число. Под словами «достаточно большое» обычно понимают по крайней мере несколько сотен выбо- рок. Однако основные свойства рас- пределения выборочных средних видны уже на меньшем материале (60—70 выборочных средних). Разу- меется, соответствующие кривые не будут гладкими (как им положено), и вычисленные по этим распределе- ниям статистические характеристики будут несколько отличаться от тео- ретических значений. Тем не менее такие ограниченного характера экс- перименты очень полезны в учебном процессе, и их можно без большого ‘ труда проводить в условиях семи- нарских занятий. Мы рассматриваем бесповторные выборки, отобранные из нашей гене- ральной совокупности стальных бу- лавок без возврата. Среди них 66 выборок объемом п=6, 63 выбор- ки п=20 и 68 выборок л=60. Для каждой из этих выборок вычислено среднее арифметическое. Примеры таких вычислений приведены в табл. 7.6 Значения выборочных средних для выборок каждого объема пере- числены в табл. 7.7—7.9. Поданным этих таблиц обычным способом были построены распределения частот (табл. 7.10—7.12). Таким образом, три распределения из табл. 7.6 пред- ставляют собой распределения ча- стот данных трех выборок, а распре- деления из табл. 7.10—7.12 являют- ся экспериментальными распределе- ниями выборочных средних. Таблица 7.6. Распределения частот выборочных средних значений (по давным табл. 2.1) «1; = 6 =з 20 = 60 iXf | '1 .х/ | h 1 G 248 2 244 1 244 1 249 0 245 0 245 4 250 1 246 0 246 2 251 0 247 1 247 5 252 1 248 1 248 6 253 1 249 3 249 6 254 0 250 7 250 15 255 0 251 1 251 7 256 1 252 2 252 5 253 3 253 2 6 254 1 254 4 — 255 2 20 256 1 1 60 Принечжяж к; I tT- = 251,17. в, = 3.12521 = = 250.20. =2.3308: JC '= 249,80 , в, = 2,7172. 2- Средние квадратические отклонения $ рассчн/а- ны по формуле s = У tf. (Xj-XH/ifEf,-1) = = \Xt—XW (я—1). так как здесь If. = п. Сравнение отдельных выборок с генеральной совокупностью. На рис 7.1 построены графики трех вы- борочных распределений и график распределения генеральной совокуп- ности. Напомним, что среднее по всей генеральной совокупности рав- но ц=250,2. Средние значения трех 155
f 50 50 20 iU 0 ZW z<rt 250 255 255 r Длина б у ладна, 10 3 дюйм Рис. 7.L Сопоставление генеральной сово- купности и трех выборок. Данные взяты из табл- 2.4 (для генеральной совокупно- сти) н из табл. 7.6 (для выборок) Таблица 7.7. Выборочные средние значения при л = 6 (выборки отобраны из данных табл. 2.1) 251,17 249,17 248.50 250,00 250,67 251.00 250,17 248,83 250,83 249,33 250,00 251,17 249,33 251,17 250,17 251,17 249,83 250,67 251.00 250,33 249,67 250,00 249,00 250,67 250.50 251,17 250,83 252,17 249,50 249,33 249,00 250,50 250,17 251,17 249,33 251,67 249,67 249,17 250,67 249,67 250,17 219,83 252.50 249,50 249.67 250,00 250,50 251,17 249,17 248,67 250,67 249,67 249,67 250,17 250,50 251,00 250,00 249,33 249,67 250,50 24S,33 249,17 249,33 249,33 250,50 249,83 выборок, приведенных в табл. 7.6, равны X] =251,2; Я2=250,2 и Я3= =249,8. Поскольку мы знаем, что все три выборки взяты из одной и той же генеральной совокупности, различие между Х3 и р обуслов- лено случайным характером отбора Таблица 7,8. Выборочные средние значения при л = 20 (выборки отобраны нз данных табл. 2.1) 250,20 249,70 250.65 249,35 249,40 250,25 250,15 250.20 249,85 251,00 250,05 249,15 250,20 250,25 250,05 250,05 249,40 250,00 250,75 250,95 251,15 250,50 249,85 250,50 250,20 249,60 250,20 250,45 250,80 249,30 250,20 249,45 250,40 250,05 251,00 249,95 250,15 249,75 250,05 249,80 250,90 250,50 249,80 249,20 249,90 249,20 250,35 •250,70 250,75 249.80 249,55 250,20 250.25 249,80 250,50 249,80 240,95 249,65 249,75 251,10 250,70 250,55 250,20 Таблица 7.9в Выборочные средние значения при ч = 60 (выборки отобраны из данных табл. 2.1) 249,80 249,53 250,30 250,22 249,93 249,90 250,50 249,87 249,93 250.02 249,92 219,72 250,10 250,45 249,63 249,97 249,87 250,10 250,20 250,32 249,37 249.67 249.90 250,50- 250,47 250,17 249,83 249,25 250,25 250.03 250,03 250,62 249,90 250.63 250,00 249,30 250,38 250,28 250,27 250,53 250,02 250,57 250,32 250,43 250,53 250,07 249,98 249,95 250,33 250,05 249,87 250,05 249.90 250,37 250,05 250,22 250,17 250.58 250,07 250,02 249,90 250,57 250,12 249.83 250,15 250,63 250,03 250,03 выборки. Это и есть ошибка выбо- рочного исследования. Выборочное среднее Я2 не дает такой ошибки. Таблица 7.10. Выборочное распределение средних значений (66 выборочных средних значений л — 6} Д-шна булавки, 10’® дюйм, 1 h f''{=1.1^1 248,0 < X <248,5 1 0,015 248,5 <Л< 249,0 3 0.045 249,0 < X < 249,5 13 0,197 249,5 <Д< 250,0 12 0,182 250,0 <Л< 250.5 11 0,167 250,0< X <251,0 13 0,197 251,0<Х< 251,5 10 0,152 251,5<ЛГ <252,0 1 0,015 252,0<Х <252,5 1 0,015 252,5 <Х< 253,0 1 0,015 — - » 66 1,000 Примечание. 1. Дачял: изЯТЫ ИЗ табл. 7.7. 2. X=A0+crf Л./1Ь = 250.254-0.5(-6)/66=- = 250,2045 - 250.2; «•'- = с Кf = ==O,5V21O/66 — (—6/65)» = 0.89074 = 0.89Г. о—= »/НГ = 2.53/^б"= 1,03. Сравним теперь вид графика и дисперсию каждой из трех выборок (но не выборочные распределения) с видом графика и дисперсией рас- пределения генеральной совокупно- сти. Что касается формы распреде- ления выборочных данных прн п=6> ее трудно описать и сравнить с тре- 156
Таблица 7.IL ВыЗорочнсе распределение средних значений (63 выборочных средних значения» л = 20) Длина булавки. -10“» дшйм h 249,0<Х< 249.2 1 0,016 249,2< Х< 249,4 4 0,064 249,4< Л< 249,6 4 0,064 249,6<Т < 249,8 5 0,079 249.8<Л< 250,0 10 0,159 250,0 < Л <250,2 8 0,126 250,2 <Х< 250,4 12 0,190 250,4<Х< 250.6 7 0,111 250,6sS X <250,8 5 0,079 250,8<Х< 25! ,0 3 0,048 25!.0<Х< 251,2 4 0.064 ™ 1— 63 1,000 Примечаний: Данные взяпы вз табл. 7.6. 2. Т"= Х0 + сГ/^Ш. = 250,1 4- 0.2-20/63 = = 2&0J634 -250.2; О'- = с = = 0,2 V M3/63—(20/63>> = 0,49228 = 0,492; о— — ~^= У 1 — n/N — 2.53/^20 V 1—20/300=0,547, х Vn мя прочими графиками. В таких слу- чаях хорошие результаты дает срав- нение кумулят выборочного рас- пределения и распределения гене- ральной совокупности. Другие два распределения (особенно выбороч- ное распределение л=60) довольно хорошо повторяют форму графика распределения генеральной сово- купности. Это сходство станет еще более отчетливым, если перевести частоты обоих распределений в ча- стости. Соответствующие графики построены на рис. 7.2: они хорошо согласуются с нашим предположе- нием о том, что по достаточно боль- шой выборке можно с большой сте- пенью точности определить свойст- ва всей генеральной совокупности. Средние квадратические отклоне- ния каждой из трех выборок (не пу- тать со стандартной ошибкой рас- пределений выборочных средних) 244 247 250 253 256 ^Цлина булавки, 10~3дюйм Рис. 7.2. Сопоставление генеральной сово- купности с выборкой объемом л=60. Дан- ные взяты из табл. 2.4 (для генеральной совокупности) и табл. 7.6 (для выборки). Вычисления величин здесь не приводятся равны соответственно «|=3,13, s2= =2.33 и «з=2,72. Эти значения необ- ходимо сравнить с значением о= =2,53. Отметим, что значение « для п=6 оказалось (по воле случая) больше значения а. Таблица 7.12. Выборочное распределение средних значений (68 выборочных средних значений, л=60) Длина бупанкн. 10"« дюйм h Г,.=Л 249.2 < X < С 249,4 2 0.029 249,4 <Х< С 249,6 I 0,015 249,6 ; 249,8 3 0,044 249,8 Л < с 250,0 18 0,265 250,0^Л < с 250,2 19 0,270 250,2 < У <250,4 12 0,177 250,4 <.Y< с 250,6 10 0,147' 250,6< с 250,8 3 0,044 • 68 1,000. Примечания: 1. Данные взяты нз табл. 7.9 _ 2. Т"= Хо4- = 250.1 + 0.2 6/68 = = 250,1176 = 250,1; = с ] - (E/^./Efp. = = 0,2 F 150/68-(6/68)« = 0,29652 = 0,297; V1 — л/Л- = (2,53//бОЖ X L1 63/300= 0,292. 157
Разница (или отсутствие таковой) ’между величинами s и о имеет в теории и практике выборочных исследований особое значение. Как мы уже знаем, выборочная ошибка •среднего измеряется с помощью спе- циальной характеристики, которая называется стандартной ошибкой среднего и вычисляется по формуле з- = а/’И«. Эта характеристика ва- риации используется, в частности, для вычисления доверительных пре- делов. Как мы отмечали, иногда значение о известно нам из преды- дущего опыта. Если это не так, то в качестве оценки о используют ве- личину s и берут в качестве оценки стандартной ошибки среднего S—Однако величина s мо- жет довольно существенно отличать- ся от о, особенно когда ее значение получено по небольшой выборке. В случае одной выборки из трех, рассмотренных нами в качестве при- мера, s на самом деле оказалось больше а. Чтобы учесть это обстоя- тельство, следует, используя при вы- числении доверительных пределов s_ вместо а_ , принимать во вни- мание объем выборки. Для выборок небольшого объема стоит несколько расширить эти пределы В соответ- ствующем месте мы рассмотрим этот вопрос более подробно. Свойства распределения выбороч- ных средних. Три распределения вы- борочных средних, приведенные в табл. 7.10—7.12 (которые не сле- дует путать с распределениями са- мих выборок в табл. 7.6), можно использовать для проверки теорети- ческих выводов, касающихся формы графика распределения, совпадения значений I и р. и формулы стан- дартной ошибки среднего о_=а/Ул. Графики этих трех распределений построены на рис. 7.3. Число выбо- рок в каждом из трех случаев (60— 70) слишком мало для того, чтобы эти графики были гладкими кривы- ми, поэтому на глаз нельзя опреде- лить, насколько хорошо они при- 458 ближаются к нормальной кривой. Единственное, что можно уверенно сказать, — это то, что все они имеют более или менее колоколообразную форму и что график, соответствую- щий п=60, является более островер- шинным, чем два других. ТЫ. 267 250 Z53 256 Длина булабки, 10 }дюйм Рис. 7.3. Сопоставление генеральной сово- купности и три распределения выборочных средних (данные взяты из табл. 2.4 для генеральной совокупн<хггн и нз табл 7 10— 7.12 для распределений выборочных сред- них) Каким же образом три выбороч- ных распределения могут иметь раз- личные графики и следовать нор- мальному закону? Как мы уже зна- ем, это можно понять, стандартизи- ровав данные по формулам zf = (Xt — A')/g_ и fi^f''t/с (см. гл. 4, рис. 4.4 и 4.5). Если стандар- тизированные распределения дают примерно одинаковые графики, это означает, что их можно описать одной математической кривой. Кро- ме того, будут совпадать и площади под графиками, соответствующие одним и тем же интервалам гори- зонтальной оси. Именно этот факт имеет особое значение для рассма- триваемых нами вопросов. Стандартизованные распределе- ния выборочных средних дают три графика, построенных на рис. 7.4. Они очень похожи друг на друга, поэтому нет причины сомневаться в том, что они распределены по нор- мальному закону, несмотря на то,
что до проведения стандартизации их графики выглядели по-разному. Если три (или более) распределе- ния выборочных средних следуют нормальному закону, то в пределах ц ± гз_ будет лежать одна и та же доля значений г независимо от раз- мера соответствующих интервалов Если, однако, одно распределение Ряс. 7.4. Сопоставление трех стандартизо- ванных экспериментальных распределений выборочных средних (данные взяты из табл. 7.10—7.12; частоты вычислены по формуле f'i=f"i/c) является нормальным, а другое бу- дет, например, распределением Стьюдента, то выборочные средние (в %), попадающие в эти пределы, будут различными. Теория утверждает, что Х=ц. Три значения X, вычисленных по трем нашим экспериментальным распределениям, подтверждают этот вывод. Как видно из табл. 7.10— 7.12, эти значения равны 250,2; 250,2 и 250,1. Для эксперимента ограни- ченного характера эти результаты можно считать вполне удовлетвори- тельными. Вариация элементов распределен ния выборочных средних характери- стик определяется величиной о_ = X ~с1Уп, а если я неизвестно, то величиной s_ = s/yn. Если отбор элементов в выборку проводится бесповторно, то 3_ = (3//й) /1 - n/N. Однако этой формулой пользуются только при л>0,05Лг, поскольку при n<0,05.W значение стандартной ошибки очень мало меняется при умножении на FM == У1 — (n/AZ). Для п = 6 з_ = 3///г, так как X 6 <<0,05 (300). Другими словами, я_ = 2,53//6 = 1,03. Для п = 20 з_ = (я//й) ]/ i -n.W = X = (2.53//20) /1 -20/300 = 0,547; для п — 60 я_ = (2.53//6С) X JC х /1-60/300 = 0,292. Соответствующие значения средних квадратических ошибок, вычислен- ные по обычным /формулам непо- средственно по экспериментальным распределениям выборочных сред- них, приведенным в табл. 7.10, 7.11 и 7.12, равны соответственно 0,891; 0,492 и 0,297. Таким образом, теоре- тические и экспериментальные ха- рактеристики вариации выборочных средних довольно хорошо согласу- ются друг с другом. 7.2.3. Доверительные пределы Доверительные пределы, соответ- ствующие стандартной ошибке, вы- численной по экспериментальным распределениям. Возьмем среднее значение всей генеральной совокуп- ности р=250,2, прибавим и отнимем: от него одну стандартную ошибку и рассмотрим для данных табл. 7.10' (п=6) пределы 250,2 ±0,891 = =249,31—251,09 (если округлять, 249,3—251,1). Сколько выборочных средних значений из табл. 6.10 бу- дет лежать в этих пределах? Интер- полируя, получаем, что частоты, соответствующие выборочным сред- ним, попадающим в этот интервал,, равны 5,2; 12; 11; 13; 2. В сумме они составляют 43,2. Деля 43,2 на сумму всех частот 2/<=66, получаем1 0,654. , Теперь мы можем сделать не- сколько выводов довольно общего* характера. Если из генеральной совокупно- сти, содержащей 300 значений дли- ны булавок, взять одну бесповтор- 159 ,
ную выборку объемом л=6 и вычис- лить среднее по этой выборке, то с вероятностью 0,654 это среднее по- падет в интервал 249,3—251,1, Дли- на этого интервала равна 2 в' . Эту информацию можно следующим образом использовать при вычисле- нии доверительных пределов. Возь- мем одну выборку с л=6, вычислим выборочное среднее X и вспомним, что доверительные пределы имеют вид т. е. X — Аа'_ < и. <* Д' + k<3'_. X Л Когда мы вместо k подставляем «единицу, значения р. попадают в эти пределы с вероятностью 0,654. Для п = 6. но при k — 2 рас" сматриваемый интервал имеет вид H±z2c'_, т. е. 250,2 zt 2 (0,891) или 248,2 — 252,0, Его длина равна 4я'_ . Число выборочных средних, попа- дающих в эти пределы, равно (пос- ле интерполяции) 63,2, что состав- ляет 0,95 всей суммы частот. Ве- роятность того, что одно выборочное «среднее попадает в эти пределы, равна примерно 0,95. Если взять одну выборку__и вычислить по фор- муле C.L.—X ±:2а'— доверитель- ные пределы, то с вероятностью Ю.95 среднее по всей генеральной со- вокупности будет лежать в этих границах. Наконец, при Л=3 интервал имеет вид pzt3a'_, т. е. 250,2 ± f ±3-0,891 или 247,5—252,9, Доля выборочных средних, попадающих в эти пределы, равна 0,997. Таким •образом, если из генеральной сово- купности, содержащей 300 булавок, взять одну выборку п=6, то с ве- роятностью 0,997 ее среднее попадет в эти пределы. Если вычислить дове- рительные пределы, соответствую- щие £=3, то они почти наверняка будут лежать по разные стороны ют р. ' 160 % Точно так же вычисляются грани- цы интервалов и соответствующие вероятности и для л=20. Используя значение стандартной ошибки из табл. 7.11, получаем, что р.±1а'~= =250,2± 1 -0,492, т. е. рассматривае- мый интервал имеет вид 249,7— 250,7. Число выборочных средних, попадающих в эти пределы, рав- но 42, т. е. 0,67 от 2/i=63. Эта доля (при fc=l) почти совпадает с соот- ветствующей долей выборочных средних для п=6. Но поскольку стандартная ошибка теперь меньше, интервал 249,7—250,7 короче интер- вала 249,3—251,1, соответствующего п=6. При k=2 требуемый интервал имеет вид ц 2з'_ , т. е. 249,2— X 251,2. Доля выборочных средних, попадающих в эти пределы, равна примерно 0,98, что не очень сильнр отличается от значения 0,95 для п= =6. (Теоретически они должны со- впадать.) Интервал 249,2—251,2 вновь меньше соответствующего интервала 248,4—252,0 для л=6. Значению k—З соответствует интервал 248,7—251,7, На этот раз *он содержит все выборочные сред- ние. Если бы эксперимент проводил- ся нами более обстоятельно, мы вряд ли получили бы такой резуль- тат Если бы наше обследование включало большее число выборок, то интервал, отвечающий значению й=3, содержал примерно 99,7% вы- борочных средних. Значениям я =60 и £=1 соот- ветствует интервал pzhlo'_ = =250,2± 1-0,297, т.е. 249,9—250,5 по сравнению с 249,7—250,7 для п= =20 и 249,3—251,1 для п=6. Число выборочных средних из табл 7.12, попадающих в эти пределы, равно 45, что составляет 0.66 полного чис- ла выборочных средних. Это значе- ние близко к соответствующим зна- чениям для л=6 и п=20. Заметим, что в идеале все эти доли для одно- го и того же значения k должны со- впадать. При k=2 предел имеет вид 249,6—250,8 против 249,2—251,2 при
й=20 и 248,4—252,0 при n=6t и чис- ло выборочных средних, попадаю- щих в эти пределы, равно 65, т. е. 0,95 общего числа.. В случае двух других распределений соответствую- щие значения долей равны 0,98 и 0,95. При k—З интервал имеет вид 249,3—241,1, и в нем лежат 67 вы- борочных средних, что в относитель-1 ных единицах составляет приблизи- тельно 0,99. Получение доверительных интер- валов с помощью нормального рас- пределения. Вычисленные по рас- . сматривасмым нами в качестве при- мера экспериментальным выбороч- ным распределениям относительные величины (используемые как веро- ятности) следует сопоставить с со- ответствующими площадями под нормальной кривой. Как мы уже знаем, площади под нормальной кривой, отвечающие рассмотренным выше значениям k. равны: ^*-1= =0,68, „Д 2_о=0,955 и ЯД’„3=0,997 Следовательно, в идеальном случае (когда распределение выборочных средних следует нормальному зако- ну) вероятность того, что одно вы- борочное среднее значение будет ле- жать в пределах р_!=1з_, равна 0,68; вероятность того, чго одно вы- борочное среднее попадает в преде- лы (12л2с_, равна 0,955, и вероят- ность того, что одно выборочное среднее попадает в пределы р±3а_, равна 0,997. Эти вероятности хоро- шо согласуются с соответствующи- ми вероятностями, вычисленными по нашим экспериментальным распре- делениям, которые равны: 0,654; 0,67 и 0,66 для Jfe==l, 0,95; 0,98 и 0,95 для k=2, 0,997; 1,00 и 0,99 для k— =3. Значения вероятностей, соот- ветствующие другим значениям k, могут быть найдены таким же спо- собом. Если распределение выборочных средних нс является нормальным (например, в случае малых выбо- рок из равномерно распределенной генеральной совокупности), то зна- 11-232 чения вероятностей будут другими и придется использовать иные мате- матические кривые. Отобрав из генеральной совокуп- ности, содержащей 300 стальных булавок, какую-нибудь выборку п= =6, мы можем получить любое из значений, перечисленных в табл. 7.7. Предположим, что мы получили первое из них, а именно А'=251,17. Если из предыдущего опы,та нам из- вестно среднее квадратическое от- клонение генеральной совокупности, мы можем вычислить доверитель- ные пределы Ь-. которые дадут интервал 251,17±2,53/)/б, т. е. 250,1—252,2 Обозначив число стан- ’дартных ошибок буквой z вместо k, мы будем говорить, что при z=l величина р с вероятностью 0,68 по- падает в интервал 250,1—252,2. При z=2 доверительные пределы имеют вид С. L.=X’±2-1,03, т. е. 249.1— 253,2, и с. вероятностью 0.955 зна- чение р будет заключено между эти- ми значениями. При z=3 довери- тельными пределами будет 248,1— 254,3, которым соответствует веро- ятность Р (248,р <254,3) =0,997. Как мы видим, для каждого из этих трех значений г соответ- ствующие доверительные пределы на самом деле содержат р Возьмем еще какое-нибудь выбо- рочное среднее значение из табл. 7 7, например X—248,50. Доверительные пределы для значений z, равных 1, 2 и 3, имеют вид 248,50z£zZ-1,03, т. с. 247,5—249,5 для z—1, 246,4— —250,6 для z=2 и 245,4—251,6 для z=3. Это выборочное среднее нахо- дится уже довольно далеко от ис- тинного значения р и не попадает в самый маленький нз рассматри- ваемых трех интервалов — Х±1о_- Два других интервала содержат р. Точно так же можно вычислить доверительные пределы при л=20 и п=60, беря выборочные средние из табл. 7.8 и 7.9. Для п=20 C.L. = X ± z (2,53/1/20) X X V1—20/300, 161
т. e.'Xztz (0,547), а для п = 60 C.L =Xd= z(2.53//60) X XVI- 60/300, т. е. Х±г (0,292). Изображение доверительных пре- делов на графике. Все указанное графически проиллюстрировано на рис. 7.5—7.8. На рис. 7.5 показаны распределение длин 300 стальных Рис. 7.5. Выборочные распределения сред- них (данные для генеральной совокупно- сти взяты из табл. 2,4; графики выбороч- ных распределений нарисованы от руки, причем их размах равен шести стандарт- ным ошибкам среднего) Рис. 7.7. Доверительные пределы для —20 (выборочное распределение средних для ц—250,2, а=2,оЗ и л=20). Горизонта чья а я ось та же, что и на рис. 7.6. Конвая построена над интервалом н ± 3?— = 250.2 ± 1,64 — = 246,6 4- 251.8, длина которого R = 251,8 — 248.6 = = 6?— <* 3,28. Для каждого Л построены три домре- Тельных интервала длиной 6з—= 3.38, 4;—= 2,19 н 2s-= 1.0& .—= (?//-; /]—/.V = (2,53/Kfti) X X У'Г—21)/300=0.547 л — 5=250,2 п=б 253,3 л-~24в,5 I----- Рис 7.6. Доверительные пределы для п—6 (выборочное распределение средних для р=250,2, о=2,53 н л=6). Кривая построена над ннт- риалом н * За—^2S0>2± ±3,09 = 247,2 — 253.3, длина которого /? = 253,3 — — 247,2 = 6з— - 6,13. Для каждого Х~ построены Три доверительных интервала длиной 6а—=6,18. 4а—= X X = 4,12 п 21— = 2,01. Величина с— = VrT=2t53/V^~s3 х х = 1.03 162 X=Z51,17 J---------I— 251 Z5Z \ Z59- Z97,Z , Длина ОулаВки, Х=25ОД # _ Z99t3 t XjZ99y80 X=Z50,22 „-6О Г Х=2Щ53 1---1--- 2V7 29 д 5=250,2 X=Z50J 251,1 длина ЛулаОка, Рис. 7.8. Доверительные пределы для п= — 60 (выборочное распределение средних для р=250,2, о=2,53 и п=€0). 1 сджаонталысая ось 1Д же, что н на рнс. 7,6 и 7.7. Кркрся 1ххт;оеия над интервалом и £ 3-— = 250 2 ± *0,876=249.34-251.1, Длина которого R=251.1 — 249,3= ж= 6т— ** *1 1.75. Для каждого X построены три довери- тельных интервала дчнной 6т^= 1»75, 4з^ = 1,17 в 2;^s=0.58:>—= (o/V^) V'l—л/JV = (2.53/V60) х Л j X X V Г—60/300.= 0,292
булавок и три выборочных распре- деления выборочного среднего. Гра- фики построены так же, как на рис. 7.3, с той лишь разницей, что взяты теоретические (а не эксперимен- тальные) выборочные распределе- ния. Эти графики строились следу- ющим образом. Наибольшими и наименьшими значениями были Р — Зс_ и р -f- За-., между которыми были построены гладкие кривые. Так, для п=6 наименьшим значени- ем распределения считалось значе- ние 250,2—3-1,03=247.2, а наиболь- шим — 250.24-3-1,03 = 253,3. Для «=20 наименьшее и наибольшее значения равны соответственно 250,2—3-0,547=248,6 и 250,2+ЗХ X0,547=251,8, а для «=60—250,2— -3-0,292=249,3 и 250,2+3-0,292= =251,1. Смысл этих пределов состоит в том, что если из генеральной сово- купности, содержащей 300 стальных булавок, взять какуЬ-нибудь выбор- ку л=6, то вычисленное по ней вы- борочное среднее будет не меньше 247,2 и не больше 253,2. Выбор именно трех стандартных ошибок (почему бы не взять, например, 3,2 иля 2,9) до некоторой степени про- изволен, но, как показывает практи- ка, за наименьшее значение нор- мального распределения удобно принимать*значение, которое натри среднестандартные ошибки меньше среднего значения. На рис. 7.6—7.8 выборочные рас- пределения рис. 7.5 построены еще раз, но в более крупном масштабе, что облегчит построение довери- тельных интервалов. Чтобы построить примеры дове- рительных интервалов, мы взяли из первых строк табл. 7.7—7.9 четыре выборочных средних значения. Для каждого из них вычислены три па- ры доверительных пределов, соот- ветствующих одной, двум и трем стандартным ошибкам Как видно из рис. 7.6, во всех случаях, когда от- резок, представляющий доверитель- ный интервал, отвечающий некото- рому фиксированному значению z, И* пересекает вертикальную ось, пред- ставляющую р, и соответствующие доверительные пределы содержат между собой величину р. Однако в тех случаях, когда выборочное среднее лежит слишком далеко от р и когда доверительный интервал слишком мал, соответствующий ему отрезок не будет пересекать верти- кальную ось, проходящую через точ- ку р на оси абсцисс. Длины этих отрезков ра-вны 2, 4 и 6 стандартным ошибкам соответ- ственно. Если построить такие от- резки для всех выборочных средних значений табл. 7.7—7.9, то 68% от- резков длиной в 2 стандартные ошибки будут пересекать, а 32% от- резков не будут пересекать верти- кальну/b ось, проведенную в точке р. Далее, 95,5% отрезков длиной в 4 стандартные ошибки будут пересе- кать, а 4,5% не будут пересекать эту ось; практически все отрезки длиной в 6 стандартных ошибок’ будут пе- ресекаться с ней. Это значит, что если вычислить доверительные пре- делы вида С. Ь.=У±1о_, например, для 1000 выборочных средних (со- ответствующих выборкам одного и того же объема и взятых из одной и той же генеральной совокупно- сти), то 680 из них будут содержать р, а 320 —не будут; если для той же совокупности из 1000 выбороч- ных средних вычислить доверитель- ные пределы вида С. L.= X zt 2я_ , X то 955 из них будут, а 45 не будут содержать р, и, наконец, из довери- тельных пределов вида С. L.=X+ 4-Зз_997 будут и только 3 не будут содержать р. , Далее, если взять’одну выборку и вычислить доверительные пределы C.L.J=Xzb 1о_ , то с вероятностью 0,68'значение р попадет в эти пре делы. Две другие вероятности рав ны Р (X - 2о_ <р<Х+ 2а_) =0.955 и Р (X - Зо_ < р < Z-pa _)=0,997. В заключение отметим, что мы бе- . ’ 163
рем округленные значения числа стандартных ошибок только для удобства. Ниже мы будем пользо- ваться для вычисления доверитель- ных пределов другими значениями z, например 1,64; 1,96 и 2,58. Пример точечной оценки. Рас- смотрим еще один пример. Допу- - стим, что набор длин булавок из табл. 2.4 представляет собой не ге- неральную совокупность, а некото- рую выборку объемом л=300, эле- менты которой были отобраны бес- повторно из некоторой большей ге- неральной совокупности. Среднее значение по этой выборке равно Л'=250,2. Если из прошлого опыта известно, что о=2,30, то мы можем для того, чтобы оценить* ц, вычис- лить соответствующие доверитель- ные пределы. При z=2 имеем Х^_ 2з_ У1 - X Поскольку мы знаем, что наша гнеральная совокупность очень ве- лика, нет необходимости умножать на FM. Следовательно, дове- рительный интервал ограничивается значениями X 2е_. т. е. числами 250,2z!i2-2,30/j/300, и имеет вид 219,94—'250,46. Этот промежуток на- столько мал, что величину Х=250,2 можно просто округлить до 250 и использовать в качестве точечной оценки. Другими словами, мы мо- жем утверждать, что р^250. 7.3. ЭКСПЕРИМЕНТАЛЬНЫЕ / РАСПРЕДЕЛЕНИЯ ПРОЦЕНТНЫХ ХАРАКТЕРИСТИК ВЫБОРКИ Предположим, что в коробке име- ется 300 шариков и что часть из них белого цвета. Возможно, что другие шары тоже окрашены в различные цвета. Нас будет интересовать лишь вопрос о том, сколько белых шаров находится в коробке. Поэтому бу- дем считать, что шары бывают толь- ко двух сортов — белые и небелые. Аналогично в выборах на тот или иной пост могут участвовать более 164 двух кандидатов и зубная паста мо- жет быть более двух сортов, но в процессе исследования каждую из этих генеральных совокупностей можно разбить на две части — тех, кто будет поддерживать нашего кандидата и всех остальных в пер- вом случае, и на тех, кго предпочи- тает наш сорт зубной пасты и всех остальных — во втором. Разумеется, каждую из этих ге- . неральных совокупностей можно разбить на большее число частей, но тогда придется пользоваться со- всем другими методами анализа вы- борочных данных. Всюду в этом раз- деле мы будем заниматься лишь анализом дихотомных генеральных совокупностей. Для того, чтобы установить, сколько белых шаров имеется в ко- робке, можно просто перебрать всю генеральную совокупность, делая при каждом появлении белого шара отметку из листе бумаги. Пересчи- тав затем все отметки, мы получим число успешных исходов NS. В на- шем эксперименте эго число равно 120, а число неудач (выбор небело- го шара) Л'Г=180, так что iVS-f- +NF=3Q(). Результаты такого об- следования лихотомной генеральной совокупности обычно записывают одним из двух способов: «число бе- лых шаров равно 120 из 300» или «процент белых шаров равен (NS/N) 100=40», в наших обозна- чениях л=40 %. Иногда результаты выражают в долях,.тогда (NS/N)= =0,4. Равенство NS-\-XF=N пере- ходит в jr—|—(100—л) = 100 или л+ -г(1—л)=1 в зависимости от того, выражаем ли мы данные результа- ты обследования в процентах или долях. Если нет необходимости знать точное значение л или NS для всей генеральной совокупности, то л можно оценить по некоторой вы- борке. Эту выборку можно отобрать как повторно; так и бесповторно, хотя чаше пользуются бесповторны- ми выборками. Перебор выборки проводится так же, как и перебор всей генеральной совокупности
с тем-лишь отличием, что 1VS-|- 4 NF=n, a NS/n—p. Предположим, что некоторая вы- борка /1=20 дала NS=7: Этот ре- зультат можно сформулировать сле- дующим образом: «в некоторой вы- борке из 20 шаров 7 шаров белого цвета». Можно предположить, что результат этого выборочного экспе- римента аппроксимирует связь меж- ду число,м белых и небелых шаров во всей генеральной совокупности. В рассматриваемом случае NS{n= =р=7/20=(0.35) • 100=35%. В этом виде характеристика выборки р яв- ляется непосредственной оценкой параметра л. Как и в других выборочных ис- следованиях, значение р может со- впадать или не совпадать с л. Если выборка мала (например, п=3), то вполне возможно, что мы получим в ее составе 3 белых или 3 небелых шара. Доля белых и небелых шаров в выборке большого объема будет даже в худшем случае довольно близка к доле белых и небелых ша- ров во всей генеральной совокупно- сти. Другими словами, наибольшая возможная разница между рил (наибольшая возможная ошибка выборочного исследования) будет в случае большой выборки весьма незначительна. Взаимосвязь между величинами р и л для выборок различного объе- ма и ошибку выборочного исследо- вания можно оценить, анализируя выборочные распределения соответ- ствующих выборкам значений NS и р. Здесь возникают следующие очень важные вопросы. Предполо- жим, что мы взяли все возможные выборки объемом п, вычислили все значения р и построили их выбороч- ные распределения. Будет ли сред- нее всех выборочных р (обозначае- мое pj>) равно я? Существует ли «простая» формула для среднего квадратического отклонения этого выборочного распределения? Мож- но ли описать распределение выбо- рочных значений р некоторой мате- матической функцией, что сущест- венно облегчило бы вычисление ве- роятностей того, что значение р. полученное по какой-нибудь одной выборке, будет отличаться от л не более чем на некоторую заданную величину. Приближением к теоретическому выборочному распределению явля- ется экспериментальное распределе- ние выборочных значений р или NS для п, равного 5, 20 и 80. Эти вы- борки были взяты из генеральной совокупности, содержащей 300 бе- лых и черных шаров, причем число белых шаров во всей генеральной совокупности было равно Лг5=120, т. е. 40%. Среди этих выборок име- ются 64 выборки п=5, 68 выборок л=20 и 65 выборок п=80. Все они отбирались бесповторно. Конечно, , чтобы получить лучшее приближе- ние соответствующих выборочных распределений, следовало бы рас- смотреть большее число выборок. Однако по тем же причинам, а именно, чтобы показать, что да- же такие ограниченные эксперимен- ты могут быть полезны и убедитель- ны, мы взяли такое число выборок, с которым можно работать 'В усло- виях семинарских занятий. В табл. 7.13 перечислены 64 вы- борки с /1=5, приведено число ус- пешных исходов NS—X и их доля Р (в %) Ниже мы будем пользо- ваться как обозначением .VS, так и X. Первое значение Xi=0 означает, что в некоторой выборке н=5 вооб- ще нет белых шаров, т. е. что все 5 шаров черные. Второе значение Х-2=2 означает, что вторая из на- ших выборок п=5 содержала 2 бе- лых шара. В третьей выборке с п= =5 имелся один белый шар и т д. Во второй части табл. 7.13 все эти значения приведены в процентах. Таблицы 7.14 и 7.15 устроены ана- логично. Построенные по этим данным распределения частот приведены в табл. 7.16—7.18. В каждой из них имеются два набора средних то- чек—Х-. и pi. Важно отметить, что длины соответствующих точкам Xi интервалов группировок всегда рав- 165
Tja блица 7.13. Выбэрэчное исследование днхотомной генеральной совокупности, п = 5 (число успешных исходов NS и процент успешных исходов р для 64 выборок п =5 из генеральной совокупности с я^49»/,) NS = х 0„2. 1. 3, 1, 2, 3, 1. 2, О. 3, 1. 1. 3. 1. 1. 2, 3. 3, 3, 2. 4, 2, О, I, 3, 2, 3, 2, 1, 1, 2. О, 3, 3 2. 2, 2, 2. 3. 3, 1, 3. 3. 2, 2. О, 3, 3. 3, 1, 1, 1, 2, 0, 2, 2, 2, 3, 1, 0, 4, 1, 3 A'S/rt = р СО, 40, 20. 60, 20. 40. 60, 20. 40, 00, 60. 20, 20, 60, 20, 20, 40. 60. 60, 60, 40, 80, 40, 00. 20, 60,* 40, 60. 40, 20, 20, 40, 00. 60. 60, 40, 40, 40. 40, G9, 60, 20, 60, 60, 40. 40, 00, 60 60. 60,-20, 20, 20, 40. 00, 40, 40. 40, GO, 20, 00, 80, 20, 60 Га б л ни а 7.14. Выборочное исслед>вание днхотомной генеральной совокупности, ж= 20 (число успешных исходов NS и процент успешных исходов р для 68 выборок л 20 из генеральной совокупности с п = 40%) NS«= X 4. 5, 10. 6, 6. 6, 6. 6, 7, 7. 6,”9, 9, 9, 10, 10, 9, 9, 8. 5. 10. 8, 9, 7, 7, 8, S. 7, 10, 9, 6, 10, 8, 5, 6, 7. 10 12, 3. 7, 7, 6, 9. 7-9, 10, 5, 11, 6. 9. 7. 8, 6. И, 9. 12, 12, 6. 7. 5, 7. 6, 8, 7. 9. 6, 9, 7 NS/n — р 20, 25. 50, 30, 30, 30, 30, 30, 35, 35. 30, 45, 45, 45, 50, 50, 45, 45, 40, 25. 50, 40, 45, 35, 35. 40, 25, 35, 50. 45, 30, 50, 40, 25. 30, 35, 50. 60, 15, 35, 35, 30, 45, 35. 45 , 50, 25, 55, 30, 45, 35, 40, 30. 55, 45, 60, 60, 30, 35. 25, 35, 30. 40, 35, 45, 30, 45. 35 Таблица 7.15. Выборочное исследование днхотомной генеральной совокупности, л—80 (число успешных исходов NS и процент успешных исходов р для 65 выборок объемом л = 80 из генеральной совокупности с я = 40%) ns = x 41, 36. 27. 31, 34, 36. 33. 28, 32, 33, 40, 32i 28. 38, 30. 38, 30, 33. 33. 33, 30, 29, 28, 31, 24, 25. 40. 30. 27, 37, 37, 41, 26, 33, 34, 26, 34, 25. 28, 31. 32, 27, 36, 32, 33, 34. 34. 27, 37. 29. 29. 29, 32. 35, 35, 28, 34, 34. 27. 37. 33, 28, 39, 29, 30' NSjn = р 51,25, 45,00, 33,75, .38,75, 42,50, 45,00, 41,25, 35,00. 40,00, 41,25, 50,00, 40,00, 35,00, 47,50, 37,50. 47,50. 37,50, 41,25, 41,25. 41,25, 37,50. 36,25. 35.00, 38.75. 30,00, 31,25. 50.00, 37,50, 33,75, 46.25, 46.25, 51,25, 32,50. 41,25, 42,50, 32,50, 42,50, 31,25, 35,00, 38,75, 40,00, 33.75, 45,60. 40,00. 41,25, 42,50, 42,50, 33,75. 46,25. 36,25, 36,25, 36,25, 40,00, 43,75. 43,75, 35.00, 42,50, 42,50, 33,75, 46,25 , 41,25, 35,00. 48,75, 35,25, 37,50 166
Таблица 7.16. Эксперименталыое выборочное распределением = 5 (распределение выборочных процентов р и числа успешных исходов X; я = 40%, л = 5, ArS = Xt NS/n — р) pi Х1 fi Р1 = 0 х.=о Г = 6 /", = 0,0^4 Рг = 20 Xt= 1 к = 16 /".— 0,250 Рз = 40 Х, = 2 /,= 19 J", =x 0.297 А = 60 х4=з /< = 20 f''4x=0,3J3 Ре = 80 Xs=4 fs=2 /", = 0,031 А = 100 X. = 5 f. = J 64 f"t = 0,015 1,000 Прныечхнн* р'р = 40 -f- 20(—1/«И)=39,7%. = 24-1(^1/64);= 1.96» Ир = ж = 40%. р.х = пж = ~ 5*0,4 = 2; о'х = I /77/64 —(0.31Р = 1.03. о'₽ = = 2Э V77/64 - (Э.ЗП* = 21.0%, ор = V « (100—п)/л = = V40,60/5 = 21,9%, з = Fn« (I — к) = V5-0,4-0.6= = 1,09. Таблица 7.17. Экспериментальное выборочное распределение л = 20 (распределение выборочных процентов р и числа успешных исходов X; « = 40%, п = 20, ATS = Л, NS/n = р) pi xi fi p' 0 0 0 0.000 5 1 0 0.000 10 2 0 0,000 15 3 I 0,015 20 4 I 0,015 25 5 6 Op 088 30 6 14 0,206 35 7 14 0.206 40 8 6 0.088 45 9 13 0,191 50 10 9 0,133 55 11 2 0.029 60 12 2 0,029 65 13 0 • 0.000 95 19 0 0,000 100 20 0 0,000 68 1,000 Примечание. = 35ч5-(44/68) — 38,?%, ц'х = = 7+1-(44/б8) = 7,5$, 1*р=« = 40%, Цх=п« = — 20-0,4 = 8; о'р = 5 У 284/68(44/68)» = 9.69%, «'х = = I У264/6Й(44/Й8Р - 1,94, ср •= ¥«U00-K)/n X у Fl — n/S = F 40-60/ЭД Ff — 20/303 = 10.6%. ax = Fnn (1 — «) Fl — n/tf = F20-0,4*6,6 X X У I — 20/300 — 2.12. Таблица 7,18. Экспериментальное выборочное распределение п — 8 (распределение выборочных процентов р и числа успешных исходоз л; я = 40%, п = t0, NS Х9 NS/n = /?) Pi xl fi p‘ <•'<> = 57 = '"/ a 00.00 0 0 0,000 5 ъ * 01,25 1 0 0,000 02,50 2 0 o.coo % f J 28,75 23 b O.OGO 4 30,00 24 i 0,015 31,25 25 2 0,031 S 32,50 26 2 0,031 a 33,75 27 5 0,077 35,00 28 6 0,092 4g 36,25 29 5 0,077 v 37,50 30 5 0.077 38,75 31 3 0.046 t 40. CO 32 5 0.077 41,25 33 8 0,123 42,50 34 7 0,107 43,75 35 2 0,031 45,00 36 3 0,046 46,25 37 4 0,062 47,50 38 2 0,031 - 48.75 39 1 0,015 L 50,00 40 2 0,031 51.25 41 2 0,031 52,50 42 0 o.ooo k • • 0 > j 98,75 79 0 0.000 J 100.00 80 .0 0.000 M J 65 1,000 Примечание. Н?р= 41,25+ 1,25-(—63/65)=40.0. 1*'х = 33 + 1 -(-63/65) = 32.0. Нр = * = -»0%- Р-х» = ли = 80-0,4 = 32; ofp = 1.25 V+227/65-(—63/65^= = 5.29%, »'х= 1 /17227/05 — (—63/65)» =4.24. ор = = /х(1£Ю-«)/п /1 — л/Л = /40-60/80 /1 — 8/300 = = 4.7%, ах = /лх (1 — в) /1 = /80-0,4-0,6Х X /I — &)/30О = 3,75. ны единице. Величины интервалов группировок, соответствующих сред- ним точкам Pit не имеют особого значения. В идеале все средние точ- ки Х{ должны принимать целые зна- чения — от 0 до л. т. е. число сред- них точек должно быть на единицу больше объема выборки. Средние точки pi всегда начинаются нулем и заканчиваются величиной' 100% не- зависимо от объема выборки. В во- 167
просах, связанных с выборочными и вероятностными исследованиями, величины Xj и называются дис- кретными случайными переменны- ми. Частоты каждого из трех выбо-. рочных распределений были затем вереведены в частости, после чего их можно было использовать как вероятности. Так, в табл. 7.16 зна- чение частоты fi=6, соответствую- щее Л|=0, означает, что из 64 вы- борок объемом /1=5 ровно 6 выбо- рок будут содержать только черные шары. Шестнадцать выборок (f2= =16) будут содержать один белый шар (Х2=1), т. е. 20% (р2=20). В 19 выборках (/з=19) белыми бу- дут 2 шара (Х3=2), т. е. 40% (р3= =40) и т. д. Распределение из табл. 7.17 (п= =20) вообще не содержит выборок с 0. 1, 2, а также с 13, 14, 19 и 20 белыми шарами. Имеются толь- ко одна выборка с тремя (что со- ставляет 15%) белыми шарами и только 2 выборки с 12 (60%) белы- ми шарами. Это говорит о том, что для выборок большего объема вы- борочные проценты даже в худшем случае {,15 и 60%) ближе к истин- ному значению л=40%, чем для вы- борок с п=5. При л=80 из 65 выборок такого объема только одна содержала 24 белых шара. Это составляет 30,00%. Наибольшее число белых шаров в выборках /1=80 равно 41, т. е. 51,25%, Эти значения еше бли- же к л=40%, чем приведенные вы- ше крайние значения для /1=20. Если все частоты перевести в ча- стости, то ими можно будет пользо- ваться как вероятностями. Напри- мер, в табл. 7.18 Р2н=35,00, т. е. Х2й=28 и /2Э=6. В частостной фор- ме /"23=0,092. Эту величину можно интерпретировать следующим обра- зом: если взять одну выборку л= =80, то с вероятностью 0,092 белых шаров в ней будет 28, т. е. белые шары будут составлять 35,00% об- щего числа шаров. Другими слова- ми. Р(р2д=35,00)=Р(Х29=28) = =0,092. Складывая первые 30 час- 168 тостей друг с другом, получаем . зо £ Г/= 0.323. <=i ' Это значит, что если взять одну вы- борку п=80, то вероятность того, что она будет содержать 29 или ме- нее белых шаров, равна 0,323. Дру- гими словами, вероятность получить выборку, содержащую 36,25% или менее белых шаров, равна (при п= =80) 0,323. Это можно записать в следующей форме: Р(Х,^29)= = Р(р,гС36,25) = 0,323. Далее 37 2 Г (=0,676, т. е. P(28^Xi<36) = 7=29 =Р (Зо.ОО^р^б.ОО) =0,676. Теперь сравним еще раз эти три выборочных распределения друг с другом. Как видно из табл. 7.16, если объем выборки мал (напри- мер, /1=5), некоторые из выборок будут содержать крайние значе- ния — 5 или 0 белых шаров. Если мы хотим оценить истинное значе- ние л с помощью выборочных про- центов р, нам придется сказать, что «процент белых шаров в генераль- ной совокупности может быть за- ключен в пределах от 0 до 100%». Таким образом, пользоваться столь маленькими выборками нет смысла. Отметим, однако, что этот вывод справедлив лишь для дихотомных генеральных совокупностей. На про- изводстве в процессе контроля ка- чества изделий очень часто прихо- дится иметь дело с выборками объ- емом п=5 и даже меньше. Выборочное распределение из табл 7.17 показывает, что при п= =20 наименьшее значение р равно 15%, а наибольшее — 60%. Нако- нец, при /г=80, как видно из табл. 7.18, наименьшее значение р равно 30%, а наибольшее — 51,25%- Эти и другие интересные обстоя- тельства проиллюстрированы на рис. 7.9 и 7.10. На рис. 7.9 построе- ны как графики экспериментальных распределений для п, равного 5, 20 и 80, так и графики соответствую- щих теоретических распределений.
Вообще говоря, эксперименталь- ные распределения выборочных про- центных характеристик (или выбо- рочных величин jVS) описываются биномиальным и гипергеометриче- ским распределениями. Если л от- личается от 50%, то для выборок небольшого объема оба распределе- ния скошены, но с увеличением объ- ема выборки они приближаются к нормальной кривой. •, i_i______।----1—।----------1-------л 0 1 5 В Ю 15 X I---1-----1---U---1—2------1----1——। о ю го зозг м so so гог" Рис. 7.9. Биномиальные и эксперименталь- ные выберочные раслрсделения при л= —40% и п, равном 3, 5, 20 и 80 (экспери- ментальные данные взяты из табл. 7.16— 7.18): J — экспериментальное рзсггрсд&зение; ? — бино- миальное распределение Несколько различных биномиаль- ных распределений приведено в табл. II (см. приложение). Чтобы получить биномиальное распределе- ние с параметрами п=20 и л—40%, найдем в первом столбце значения равные 0, 1, ..., 20, и возьмем частости из того столбца, над кото- рым написано значение 0,40. В сум- ме эти частости равны единице, по- этому ими можно пользоваться как вероятностями. Чтобы эксперимен- тальные распределения можно было сравнивать с биномиальным, их частоты также следует перевести в частости. Многие выборочные процентные характеристики для л=3 дадут точ- ки, аналогичные полигону, постро- енному на рис. 7.9 для П]=3. Отме- тим, что полигон, соответствующий П2=5, все еще скошен, но биноми- альное распределение, отвечающее л3=20, уже очень близко к симмет- ричному. Это соответствует тому, что мы уже знаем, а именно, что при малых п биномиальное и гипергео- метрическое распределения снимет-' ричны при л=50% и скошены при Лт^50%, с увеличением объема вы- борки оба они приближаются к нор- мальной кривой. Но когда выборочные процентные, характеристики описываются бино- миальным распределением, а ког- да — гипергеомегрическим? Бино- миальным распределением пользу- ются в тех случаях, когда выборки отбираются повторно или когда для бесповторной выборки n<0,05 N. Если выборка берется бесповторно и н>0,05 N, то выборочные проценты имеют гипергсометрическое распре- деление. На рис. 7.9 экспериментальное распределение для п2—Б должно Рис. 7.10 Биномиальные распределения при л=40% и л, равном 8. 20 и 3200 169
описываться биномиальным распре- делением, так как 5< 0,05-300. Рас- пределение выборочных процентов при п3=20 представляет собой пере- ходный случай, поэтому нет боль- шой разницы, пользоваться ли би- номиальным или гипергеометриче- еким распределением. Однако при я3=80 (80> 0,05-300) наше распре- деление следует определенно срав- нивать с гипергеомегрическим. Как биномиальное, так и гипергеометри- ческое распределения для л=40% и л=20 уже очень близки к нормаль- ному. В то же время различие меж- ду биномиальным и гипергебметри- ческим распределениями и нормаль- ной кривой в случае л=40 % и п=3 очень заметно. Будет ли среднее распределения выборочных процентов равняться л? Как было показано в гл. 5, цР=л и р,х=«л. Три рассмотренных экспе- риментальных распределения под- тверждают этот теоретический вы- вод. Так, вычисленное по формуле быстрого счета среднее выборочных процентных характеристик из табл. 7.16 равно у,'р=39,7. Оно хорошо со- гласуется с значением •ц.р=л=40%- В терминах X, величина p'x=l,98 также очень близка к цх=лл=2. Соответствующие величины, вычис- ленные по данным табл. 7.17 и 7.18, равны: для л=20 р,'р—38,2 по срав- нению с рр=л=40°/о, при этом ц'х= =7,65, а р,х=ля=8; для п=80 ц'р= =40,0 и точно так же рр=л=40%, при этом ц'х=32, а Цх=/1л==32. Все эти величины можно сравнить с помощью графиков на рис. 7.9; чтобы сделать сравнение более на- глядным, мы построили несколько горизонтальных осей с разными масштабами. В табл. 7.16—7 18 каждое из выборочных распределе- ний имеет два набора средних то- чек— pi и NS=Xi. Средние точки р,- всегда изменяются от 0 до 100. Поэтому на рис. 7.9—7.11 имеется только одна горизонтальная ось, на которой складываются значения pi. Значения средних точек А',- изменя- ются от 0 до п, в связи с чем для каждого выборочного распределе- но ния приходится пользоваться своей осью X. Если по средним точкам pi вы- числить значения цр, то рр-=л не- зависимо от объема выборки. Зна- чения будут, конечно, разными для разных л, но все они будут ле- жать точно' под соответствующим значением л на оси р. Равенство значений рр и л позволяет сделать вывод, аналогичный сделанному на- ми в связи с совпадением X и ц. Это равенство дает нам возмож- ность оценивать значение л по вы- борочной характеристике р с боль- шей степенью точности, чем это можно было делать при цР^=л. Как и для выборочных средних, если из дихотомнон генеральной со- вокупности взять одну выборку, то вычисленный по ней выборочный процент р может как равняться, так и нс быть равным л. Разность меж- ду р и л, которая определяется слу- чайными факторами, а именно эле- ментами, которые попали в данную выборку, называется ошибкой вы- борочного исследования (или выбо- рочной ошибкой). Точнее говоря,ве- личина этой ошибки определяется характеристикой вариации выбороч- ного распределения. Если выборки отбирались повторно или если для бесповторных выборок л<0,05 А/, то в качестве характеристики вариации данных выборочного распределения pi или Xi можно использовать сред- нее квадратическое отклонение би- номиального распределения, кото- рое можно вычислить по форму- лам = (100 К (для того случая, когда средние точки выражены в процентах) и - ах =^1'rnn (1 — it) (когда средние точки выражены в единицах М5=Х<). Величину <тР на- зывают также стандартной ошибкой выборочного процента. Если одно из этих средних квадратических откло- нений известно, то второе легко по-
лучается из него умножением на п, а именно: 1 Г ъ (I — к) ож = Я3р = «У- >- = — j/«,Я(1 _ = ]/дц (1 _ т). Если выборки берутся без воз- врата и распределение выборочных процентов задается гипергеометри- ческим распределением, то аппро- ксимация среднего квадратического отклонения будет иметь вид: ор = уп (100 — ъ)/п /1 — n/N или оЛ = ]/nit (1 — я) /1 — n/N. Стандартная ошибка выборочных процентов хорошо согласуется со средними квадратическими откло- нениями экспериментальных рас- пределений, приведенных в табл. 7.16—7,18. Для п=6 о/Р=21,0, а ар=21,9%; для п—20 о/Р=9,69%, а Ор=Ю,6% и для л—80 0^=5,29%, а ор=4,7%. Биномиальное распре- деление для «=3200 построено на рис. 7.10. Его среднее квадратиче- ское отклонение, т. е. стандартная ошибка выборочного процента (в используемой нами терминологии), равна ор = /40-60/3200 --= 0,87%. Это показывает, как уменьшается выборочная ошибка с увеличением объема выборки. Средние квадратические отклоне- ния, выраженные в абсолютных значениях X (число успешных исхо- дов), увеличиваются с ростом п, но их нельзя непосредственно сравни- вать друг с другом. Как мы уже от- мечали, средние квадратические от- клонения можно сравнивать друг с другом лишь в тех случаях, когда средние значения соответствующих распределений одинаковы или мало отличаются друг от друга Если рас- пределения не сопоставимы, то можно вычислить соответствующие коэффициенты вариации. В случае наших биномиальных распределе- ний они также будут уменьшаться с ростом п. Например, для л=6 Ох/цх=1,09/2=0,545 [где ож= = У (1 — и) и Цх=лл], для «=20 ^/1*^=2,12/8=0,265, для л=80 ^/^==3,75/32=0,117 и т. д. Рассмотрим теперь вопрос о том, как можно использовать знание распределения выборочных про- центных характеристик для получе- ния оценки по одной выборке. Для этого мы снова воспользуемся по- нятием интервальной оценки и до- верительных пределов. Будем рас- сматривать лишь распределения, соответствующие достаточно боль- шим значениям п (т. е. те, графики которых близки к симметричным). Поведение скошенных распределе- ний мы рассмотрим несколько ниже. Начнем с биномиального распре- деления выборочных процентных характеристик, соответствующих ге- неральной совокупности с парамет- рами л=40%, Af=300, и пусть п= =20. Тогда f Зр = /й (100 - Т)/2О = = /40-60/20 = 10,95 и Од = (1 -тг) = 20-0,4 0,6 =2.19. Это биномиальное распределение приведено в табл. II (см. приложе- ние), а его график построек на рис. 7.10. Оно описывает распределение выборочных процентов в тех случа- ях, когда выборки отбираются по- вторно или когда беспов горные вы- борки отбираются из относительно большой по объему генеральной со- вокупности. Интервал Цр±1ор имеет вид 40± ±10,95, т. е. 29,1—51,0, а р.х±1ох дает 8±20-0,4-0,6, т. е. 5,8—10,2. Сумма частостей, соответствующих точкам, лежащим в этих пределах, для биномиального распределения табл. II (см. приложение) совпада- ет с. суммой частостей, отвечающих средним точкам А>=7, Х9=8 и Х10=9, т. е. интервалу 6,5—9,5. Она равна 1Л
\о 2 f" , = 0,1659 + 0,1797 + 0,1597 = »=8 = 0,5053 плюс некоторая доля (мы интерпо- лируем) 6,5—5,8=0,7 частости, со- ответствующей точке ,¥-=6, или плюс 0,7-0.1244=0,08708 и плюс еще доля 10,2—9,5=0,7 частости, соответствующей точке Лц=10. т. е. плюс 0,7 0,1171=0,08197. Таким об- разом, интерполированная сумма частостей, отвечающих интервалу 5,8—10,2" (в абсолютных значениях) или 29,1—51,0 (в %) равна 0,5053 + 0,08708 + 0;08197 = 0,674. От- метим, 4то каждой средней точке Л",- соответствует интервал горизон- тальной оси Xi—0,5, Xi-j-0,5. Имен- но поэтому мы сначала сложили все частости, соответствующие интерва- лу 6,5—9,5, а затем интерполирова- ли эту сумму частостей на весь ин- тересующий нас интервал 5,8—10,2, Смысл этой суммы частостей та- кой же, как и в предыдущем случае. Если из генеральной совокупности с параметром л=40% взять одну вы- борку п=20, то с вероятностью 0,674 она будет содержать от 5,8 до 10,2, или от 6 до 10, белых шаров. Выраженная в процентах та же вы- борка с той же вероятностью будет включать от 29,1 до 51,0% белых шаров. В вероятностных обозначе- ниях Р (6<^Л',<1 10) ^0,674 или Р(29,1 <р<51,0) ^0,674 Отсюда по- лучаем доверительные пределы C.L. =р± la., = pifr 7t/*(10U —я)/д. Поскольку в реальной ситуации ве- личина л неизвестна (нашей целью и является получение ее оценки), обычно вычисляют следующие дове- рительные пределы: Р — lSP — Р — У ц > где неизвестное значение л замене- но выборочным процентом р. Эти доверительные пределы интерпрети- . ру юте я так же, как и в предыду- 172 щих случаях. Если же рассматри- ваемой генеральной совокупности взя гь одну выборку с п=20, то P(p — ksp < Я <p + Asp) = Р(р — —1 sp < л < р-|-1 $р) ^.0,674. Доверительным пределам цр±2ор соответствует интервал 18,1—61,9, а доверительным пределам цх± ±2ох—интервал 3,6—12,4. Интер- полированная сумма частостей, от- вечающих этому интервалу, равна 0,956. Пределам р.р±1ор соответст- вует вероятность 0,674, а пределам |лр±2ар — вероятность 0,956. Эти вероятности почти совпадают с пло- щадями соответствующих участков под нормальной кривой. Для п = 80 Зр = /40-60/80=5.5, а -зх — /80-0.4-0,6 = 4,4. Интервал Рр±1ор теперь имеет вид 34,5— 45,5, т. е. существенно короче ин- тервала 29,1—51,0, соответствую- щего л=20. Интервал рх±1ох име- ет вид 27,6—36,4, но его нельзя не- посредственно сравнивать с интер- валом 5,8—10,2, соответствующим п=20. Сумма частостей, отвечаю- щих интервалу 27,6—36,4, может быть заменена площадью под соот- ветствующим участком нормальной кривой. Эта площадь равна и-4'_]= =0,683. Следовательно, если из ге- неральной совокупности с парамет- ром л=40% взять одну выборку, то с вероятностью 0,68 число белых шаров в пей будет заключено в ин- тервале 28—36, а число белых ша- ров будет лежать между значения- ми 34,5 и 45,5%. Это означает, что Р(28<Х<36)^0,68, а Р(34,5<р< <45,5)^0,68. Для того чтобы полу- чить по одной выборке величину л с помощью доверительных преде- лов, вычислим С. L.=p±lsp. отку- да Р [ (р—sp} <л< (р-Ьхр)] ^0,68. Интервалы, соответствующие двум стандартным ошибкам, zt2op и цх±2ох, имеют вид 29,0— 51,0% (по сравнению с интервалом 19,8—60,2% для л=20) и 23,2—40,2 в абсолютных значениях (которые нельзя сравнивать непосредствен- но). Соответствующая сумма часто- стей, аппроксимированная пло- I - '-ЧГП м
щадыо под нормальной кривой, рав- на пД2-2=0.955.' Отсюда' Р(29,0< <р<51,0)=Р (23<Х,<40) 0,955. Если из рассматриваемой генераль- ной совокупности взять 1000 выбо- рок п=80, то в идеальном случае для 955 из этих выборок число бе- лых шаров будет заключено в ин- тервале 23—40. или составит 29,0— 51,0%. Только примерно в пяти вы- борках число белых шаров будет меньше 23 или больше 40. Если взять одну выборку л =80, то с ве- роятностью приблизительно 0,955 значение я попадает в пределы Р±2$р, т. е. Р [(р— 2sp) <л< (р-Ь 4 2зР) ]^0,955. Приведем пример. Предположим, что для некоторой выборки л=80, взятой из большой по объему гене- ральной совокупности. A'S=38, что дает р=47,5%. Тогда доверитель- ные пределы равны 47,5±2х XV 47,5-52.5'80, т. е. 36,3—58,7%, откуда Р(36,3<л<58,7) ^0,955. Ес- ли вместо двух взять три стандарт- ные ошибки, то вероятность того, что л попадет в пределы р±3$р бу- дет равна 0,997. что близко к едини- це, но при этом соответствующий интервал имеет значительно боль- шую длину. Приблизительный график бино- миального распределения для л= —40% и п=3200 построен на рис, 7.10. Среднее квадратическое от- клонение этого распределения рав- но — j/40- 60/3200 — J.87 (менее 1%), а ох=3200-0,4-0,6=27,7. Ин- тервал рр±2ор имеет вид 38,3— 41,7%, а интервал pxztOx имеет вид 1,280+2.27,7, или 1225—1335 NS. Следовательно, если из генеральной совокупности с л.=40% взять одну выборку с объемом л=3200. то чис- ло белых шаров в ней будет заклю- чено в интервале 1225—1335. При этом белых шаров будет не менее 38.3% и не более 41,7%. Довери- тельный интервал вида p±2sp бу- дет теперь настолько малым, что если взять какую-нибудь одну вы- борку такого объема и вычислить величину p=A'S/3200, то ею можно будет пользоваться как точечной оценкой, не указывая значение вы- борочной ошибки. Аналогично рассматриваются и графики рис. 7.11, которые отлича- ются от графиков рис. 7.10 только значением л. Рис. 7.11. Биномиальные распределения при л-70 % И п, равном 3, 20 и 3200 В случае бесповторных выборок, когда их обьем превышает 5% объ- ема всей генеральной совокупности, следует пользоваться формулой для среднего квадратического- отклоне- ния гипергеометрического распреде- ления. Это означает, что соответст- вующее значение среднего квадра- тического отклонения биномиально- го распределения необходимо умно- жить на некоторый конечный мно- житель. Никаких других изменений в порядке вычисления доверитель- ных интервалов не произойдет. Таковы основы теории выбороч- ных распределений. Мы подробно рассмотрели два из них — распре- деление выборочных средних и рас- пределение выборочных процентов. В последующих главах мы рассмот- рим и другие выборочные распре- деления, но принципы их использо- вания останутся прежними. В гл. 8 мы еще раз вернемся к задачам оценивания, однако нас 173
будут больше интересовать прило- жения, а не теория. 7.4. ВОПРОСЫ И ЗАДАЧИ 7.1. Рассмотрим не одну и не две* и не три, а все возможные бесповторные вы- борки, содержащие п=2 элементов из ге- неральной совокупности табл. 7.1. а. С помощью табл. 7.2 постройте рас- пределение выборочных средних. б. Вычислите х и сравните его значе- ние с и в. Вычислите о- = ]/ £f/ Й,- а затем = (о/У^д) К— п)/(М — 1). JC Сравните эти величины. г. Предположим, что мы хотим взять только одну бесповторную выборку л=2. Из выборочного распределения найдите ве- роятность Р Чему равна ве- роятность Р (6<Л\<7), если ее вычислить по табл 7.3? Какого рода выборка дают лучшие результаты — повторные или бес- повторные? Почему? Замечание. Для того чтобы уловить разницу, соответствующие вероятности сле- дует вычислить с точностью до третьего знака после запятой. д. Сравните значение а-, вычисленное в задаче 7.1,в, со значением <77 из табл. 7.3. Будет ли разница между ними в об- щем случае определять разницу между ве- роятностями, рассмотренными в задаче 7.2. С помощью данных табл. 7.4 по- стройте распределение выборочных диспер- сий для бесловторных выборок л=2. Вы- числите s%=3(Sf«s2f)/Sf< и сравните эту ве- личину с о2 из табл. 7.1. Найдите Р (s2s= —0,50) н сравните ее с вероятностью Р , ($2э=0,50) из табл. 7.5. 7,3. Постройте график распределения длин 300 стальных булавок. На том же рисунке постройте три распределения (по одному для каждого объема выборки) вы- борочных значений, полученных в задаче 6.3. Сравните их с графиками на рис. 7.1. 7.4. Постройте график распределения длин 300 стальных булавок из табл. 4.6, пользуясь для этого столбцами 1 и 5. Вы- числите частости для выборочных данных, соответствующих л=60 и рассмотренных в задаче 6.3. Постройте по этим относи- тельным частостям соответствующий гра- фик и сравните его с построенным на рис. 7.2. Отражает ли распределение вы- борочных данных распределение самой ге- неральной совокупности? 7.5 Добавьте полученные в задаче 6.3 выборочные средние к данным табл. 7.7— 174 7.9 и постройте три новых распределения частот. а. Вычислите значения X и сравните их с значениями ц из табл. 4.6, б. С помошью формул для быстрого счета вычислите значения а'-- и сравните их с соответствующими значениями о—= = с/К п. в. Найдите долю выборочных средних» попадающих в пределы для л. рав- ною 6, 20 и 60. г. Для л, равного 6, 20 и 60, найдите Р (249,5^X^250,5). д. Для трех значений п (6, 20 и 60) найдите Р (Х,-г^249,0). 7.6. Предположим, что вы взяли все возможные выборки, содержащие п, рав- ное 6, 20 и 60 элементам, из генеральной совокупности табл. 2.1* вычисляли их вы- борочные средине и построили три распре- деления частэт. а. Как будет называться каждое из этих распределений? б, С графиком какой математической кривой они будут почти точно совладать? в. Чему будут равны три значения г. Вычислите с—, соответствующее рас- пределению п — 6. Найдите Р р, — 1,2 з_< <Х<р4-1,2а-), Р (Х< 250,2), Р(Х< <246) и Р (248,5 < X < 251,5). д. Какой график будет иметь распре- деление выборочных средних л=2? Что изменится, если взять все выборки с л»2 из генеральной совокупности, график рас- пределения которой имеет U-образную форму? 7,7. Массы некоторой партии мешков распределены по нормальному закону с р=200 фунтов. Отберите выборки с л, ратным 4, 25, 100 и 400 элементов. а. В каждом из четырех случаев най- дите Р (199,5<Х<200,5) для сг=2 и о=5. б. В случае о=2 найдите примерную массу самого легкого мешка, в. В случае л=2 -найдите приблизи- тельно наименьшее значение X для л» рав- ного 4, 25, 100 и 400. Для каждого значе- ния X определите выборочную ошибку (в фунтах). 7.8. Возьмите выборочные средние из задач 6.3 к 6.6 н вычислите доверительные пределы C.L. = X -Ъа— и С. L = X 4-2о_. X X Проверьте, содержат ли эти пределы р. Запишите соответствующие утверждения в вероятностном виде и объясните нх смысл. 7.9. Добавьте результаты задачи 6.S к данным табл. 7.13—7.15.
а. Составьте три распределения частот, подобные приведенным в табл. 7.16—7.18. б. Вычистите частости и постройте графики этих трех .распределений (как на рис. 7.9). На том же графике достройте биномиальные распределения для п, рав- ного 5 и 20 элементам. в. Какое теоретическое распределение лучше всего соответствует вашему экспери- ментальному распределению л «80? г. Для каждого из трех эксперимен- тальных распределений вычислите р'х и сравните эти значения со значениями р* теоретических распределений. Кроме того, вычислите о'р для экспериментальных рас- пределений и сравните нх с значениями <Тр. соответствующими теоретическим рас- пределениям. 7.10. Рассмотрим достаточно большую генеральную совокупность, для которой не- существенно, отбираются повторные или бесиовторные выборки. Генеральная сово- купность содержит 60% белых шаров. Рас- смотрим биномиальные распределения, со- ответствующие п, равному 10. 500 и 2000 элементов, а. Вычислите значения аР для каждо- го нз этих значений л б. С помощью нормального распреде- ления и нашего упрощенного правила най- дите наименьшее значение выборочного процента р для каждого из трех значений п. Выразите выборочную ошибку в про- центах. «в. Найдите Р (50<р<70) для каждо- го из трех значений л. г. Сделайте набросок графика бино- миального распределения для я = 60 и «2000. 7Л1- Согласно упрощенному правилу наименьшее и наибольшее значения нор- мального распределения вычисляются по формулам Х'=р,—За и Возьми- те их наименьшее и наибольшее значения из табл. 7.7—7.9, 7.14, 7.15 и 2.1, вычисли- те соответствующие им значения г н срав- ните нх со значением z=3. Для <всех таб- лиц, кроме табл. 2.1, используйте значения |А—250,2, л=40%, возьмите "значения о— из рис. 7.6—7.8 и воспользуйтесь значения- ми ар, вычисленными в предыдущих зада- чах. Для данных табл. 2.1 ц —250,2 и «=2,53. 7.12. Вычислите доверительные преде- лы для трех выборочных процентов р из задачи 6.5, соответствующие C.L.=p±Oj> и CL=p±2oP. Какие из них содержат л? 7.13. Вычислите C.L.==pdbo₽ для зна- чения .р, тюлучекпого в задаче 6.4. Запи- шите соответствующее вероятностное ут- верждение. Лежит ли л в этих пределах? Объясните смысл получеппых результатов. 7-14. Вычислите C.L.=p±2a₽ для зна- чения р из задачи 6.6. Запишите резуль- тат в вероятностной форме и объясните его смысл. 715. Чему равно значение as если а-^8, а п=16? X 7Л6. Фирма, торгующая оптом, про- дает каждый день большое количество не- которого товара, объем которого, однако, сильно колеблется в связи с наличием большого числа конкурентов н изменением спроса. Для фирмы очень важно иметь ин- формацию об объеме продажи ее товара как можно скорее. Ее получают путем , отбора выборки из набора заказов, посту- пивших к фиксированному моменту каж- дого дня. а. Как можно использовать одно зна- чение X? б. Можно ли считать, что ц не зависит от даты и дня недели? ®. Пусть Х2 оказалось несколько боль- ше, чем X]. Означает ли это, что общий объем продажи во второй день был боль- ше, чем в первый день? 7.17. Станок-автомат разрезает чугун- ные плиты на заготовки определенной тол- щины. С помощью выборочного исследо- вания периодически проверяется, правиль- но ли отрегулирован станок. а. Можем лн мы считать, что значение р. остается постоянным? б. Пусть X» «несколько больше, чем Хь Означает ли это, что станок разрегулиро- ван? в В каком случае можно заключить, что станок разрегулирован? Как записать этот вопрос, используя «символ ц? г. Вычислим по значениям X, получен- ным за 2 дня, значение XI Каков его смысл? 7Л8. Приведите пример, аналогичный рассмотренному в задаче 7.17, «но с заме- ной величины л на р. ГЛАВА 8 ОЦЕНИВАНИЕ ИСТИННЫХ ПАРАМЕТРОВ ПО ВЫБОРКЕ 8.1. ВВЕДЕНИЕ Анализу общих принципов, опи- сывающих взаимосвязь между ис- тинными параметрами генеральной совокупности и выборочными ха- рактеристиками, была посвящена гл. 7. Главным инструментом тако- кого анализа были доверительные пределы Теперь, пользуясь этими общими принципами, мы рассмот- рим, как выборочные данные при- меняются в конкретных задачах. В вопросах, связанных с выбороч- 175
ными исследованиями, и при истол- ковании результатов таких исследо- ваний часто приходится встречать- ся с такими выражениями, как «вы- борочное среднее А’ является оцен- кой р.» или «для того чтобы оценить л, вычислим выборочный процент р», или «№ есть оценка о2». Эту тер- минологию можно использовать при изучении основных принципов ста- тистики. Однако, когда выпускник- статистик переходит к применению полученных знаний, он должен осо- знавать главные цели проводимого исследования. .Мало сказать, что значение X является оценкой вели- чины р. Важно разобраться в том, почему вообще необходимо оцени- вать величину р, только тогда по- нимание им статистики будет доста- точно полным, поскольку он сгложет выбирать наиболее адекватные кон- кретные статистические методы или планы исследования. Конечной це- лью изучения статистики вовсе не является ознакомление с соответст- вующим математическим аппара- том; владение статистическими ме- тодами и понятиями необходимо для того, чтобы облегчить анализ конкретных данных в конкретных задачах. Причины, по которым статистику приходится вычислять или оцени- вать параметры р, о2, л и др., были рассмотрены в гл. 1—4. Отметим еще раз некоторые аспекты этого вопроса и свяжем их с понятиями доверительных пределов и проверки гипотез (последнее из которых бу- дет рассмотрено в гл. 9). Зачем вычислять р? Обычно это . делают по двум причинам. Полу- ченное значение р используется ли- бо в последующих вычислениях, ли- бо для сопоставления с некоторым стандартом или с другими значени- ями р. Выборочные характеристики вычисляются с теми же целями. Бессмысленно определять X, если мы далее не будем пользоваться этой величиной вместо р в последу- ющих расчетах или для целей со- поставления. Это обстоятельство имеет очень большое значение. 176 Имея его в виду, мы сможем лучше понять, как пользоваться довери- тельными пределами (которые яв- ляются предметом настоящей гла- вы) и правилами проверки гипотез (которые мы рассмотрим в гл. 9) в задачах, требующих статистическо- го анализа. Что касается «последующих вы- числений», для которых может по- надобиться знание среднего ариф- метического, то они бывают самы- ми разнообразными. Зная, напри- мер, среднюю массу индейки р или оценку р по некоторой выборке (т. е. величину X), фермер может вычислить общую массу всех имею- щихся у него индеек и определить ожидаемый доход. Если этот фер- мер захочет к тому же сопоставить оценку р с соответствующей величи- ной за прошлый год или со средней массой индеек своего соседа, то ему придется изучить материал гл. 9. В этой главе нас будут интересо- вать лишь последующие вычисле- ния, а не сопоставление выборочных характеристик. Другой пример.. Директор систе- мы супермаркетов (универсальных магазинов) хочет с помощью выбо- рочного исследования определить средний доход жителей некоторого города. При этом его целью не яв- ляется сравнение этого дохода с до- ходом жителей какого-нибудь дру- гого региона. Он хочет, найдя эго среднее значение пли его оценку, умножить его на общее число семей или жителей, проживающих в этом городе, и тем самым определить их общий доход. После этого он будет в состоянии примерно оценить, ка- кую долю своего дохода жители го- рода могут выделить на его товары. Владелец ресторана может и даже должен вычислить среднее количе- ство продуктов питания, потребляе- мых его посетителями. Зная это, он сможет правильно установить цены на приготовляемые в его ресторане блюда. Он даже может сделать так, чтобы стоимость обеда или ужина в его ресторане нс зависела от то- го, какое количество еды сможет
съесть посетитель. Кроме того, ум- ножив это среднее на общее число посетителей, он сможет вычислить необходимое количество продуктов на каждый день. Во всех этих примерах среднее значение используется в последую- щих расчетах. Если значение р, не известно, то вместо него можно пользоваться величиной X (в фор- ме как точечной, так и интерваль- ной оценки). Аналогично можно пользоваться доверительными пределами для ве- личины я. Например, торговая ор- ганизация может провести выбороч- ное исследование, взять в качестве оценки величины л значение р и найти с его помощью число вероят- ных покупателей. Для этого доста- точно умножить р на N. Отметим, что в этом случае никакого сопо- ставления с другой генеральной со- вокупностью не проводится В отли- чие от этого контролер ОТК зани- мается тем, что оценивает с помо- щью выборочной характеристики р общий процент брака л,* а затем со- поставляет его с допустимым зна- чением. Обычно его не интересует абсолютное число всех бракованных деталей, хотя иногда ему может по- надобиться и это число. В гл. 7 мы рассмотрели пример вычисления доверительных преде- лов для среднего значения длин бу- лавок с чисто иллюстративными це- лями. Контролеру ОТК доверитель- ные пределы не нужны, так как единственное, для чего он вычисля- ет л или его оценку, — это сопо- ставление полученной величины с некоторым стандартом. Такой стан дарт может быть некоторым черте- жом пли тем или иным техническим • условием В этом случае контроле- ру придется использовать методику «проверки гипотез». Поэтому, вы- числяя доверительные пределы, он будет пользоваться ими скорее для сопоставления, чем для последую- щих вычислений. Приведенные выше примеры по- казывают, что часто (но ни в коем случае не всегда), когда довери- 12—232 тельные пределы вычисляются не для сопоставления, их используют вместе с числом элементов всей ге- неральной совокупности Л'. В этом клане доверительные пределы очень часто применяются для того, чтобы получить оценку pi для конечных ге- неральных совокупностей. 8.2. ОЦЕНИВАНИЕ ИСТИННОГО СРЕДНЕГО Прежде чем приступить к оцени- ванию у с помощью X, необходимо принять целый ряд решений и учесть обстоятельства, которые гмы не можем изменить. Это называют . составлением «плана выборочного исследования». Конкретно речь идет о том, чтобы учесть следующие фак- торы: длину интервалов группиро- вок и объем выборки; факты, что значение о известно или значение о не известно и поэтому должно быть, оценено величиной s; взаимосвязь между доверительным интервалом и уровнем значимости а или довери- тельным коэффициентом е. Начнем с такого плана выбороч- ного исследования, в котором зна- чение а известно п объем выборки п установлен. Вопрос о том, как оп- ределить этот объем, мы рассмот- рим позже. Случай, когда значение ст извест- но. Анализируя числовые данные, довольно часто приходится сталки- ваться с ситуацией, когда величину у приходится оценивать много раз поряд. Если при этом значение ст было вычислено заранее и есть ос- нования полагать, что оно не изме- няется, то исследователю удобнее, конечно, использовать это значение ст вместо того, чтобы оценивать его по каждой новой выборке заново. Если объем выборки п установлен, то остается только решить, каким должно быть значение «. Как было показано в гл. 7, до- верительные пределы вычисляются по формуле C.L. [здесь k= — za_ — z (а/ У п) J, откуда C.L. — __X = . По.эюй формуле до- 177
верительные пределы можно вычис- лять тогда, когда выполнены сле- дующие предположения: 1) гене- ральная совокупность распределена по нормальному закону; 2) осуще- ствляется повторный отбор; 3) из- вестно истинное значение среднего, квадратического отклонения всей генеральной совокупности. При по- вторном отборе объем генеральной совокупности не имеет значения: он , может быть и очень мал, и беско- нечно велик. Как уже указывалось в гл. 7, до- верительные пределы можно запи- сать в виде вероятностного утверж- дения P[(^-Z3_)O< X <(А'4-И )]=.. Л в котором переменной считается до- верительный интервал, а не величи- на ц. Доверительный коэффициент е, или уровень значимости <х=1—е, определяют, сравнивая вероятность того, что р. не попадет в эти дове- рительные пределы с издержками, которые мбжет вызвать ошибка. При а=0,05 для 5 из 100 довери- тельных пределов р. будет лежать вне их. Другими словами, в 5 из 100 случаев наша интервальная оценка будет ошибочной (такая ошибка на- зывается ошибкой I типа). Если из- держки слишком велики, то вместо <х=0,05 следует взять а=0,01 или даже а=0,003. Пусть из ящика, содержащего JV=300 булавок, выбраны наугад 6 (л=6) из них. Предположим, что длины этих булавок равны приве- денным в табл. 7-0- Соответствую- щее выборочное среднее Х= =251,17-10-3 дюйма. Будем счи- тать, что среднее квадратическое отклонение генеральной совокупно- сти имеет то же значение, что и ра- нее (ст=2,53-КН дюйма). Выберем а=0,05 и найдем С. L.=251,17± ± 1,96-2,53/ /6 = (249,2-^253,2) X ХЮ-3 дюйма. Конечно, мы не зна- ем, попадет ли р. в эти пределы. В этом случае имеет смысл лишь 178 рероятностное утверждение вида Р (249,2 < р < 253,2) =0,95. Дальнейший анализ этих преде- лов есть дело уже не статистика, а специалиста по производству була- вок. Если пределы слишком далеко отстоят друг от друга (если они да- ют слишком грубую оценку для р). то следует по возможности увели- чить объем выборки, что улучшит требуемую точность оценки, Для приведенной выше оценки доверительный интервал равен 253,2—249,2=4-10"3 дюйма. Пред- положим, что мы хотим получить интервал длиной 3-10-3 дюйма. Вы- борка какого объема даст такой ин- тервал? Интервал длиной 3-10“3 дюйма соответствует доверитель- ным пределам С. L.=X±1,5. Это значит, что га/ /4=1.5; 1,96Х X 2,53/ /Л = 1,5; 5,0 = 1,5 /4; п= (5,0/1,5)2=11. Итак, требуемый доверительный интервал можно по- лучить при л=11. Если нужно отобрать выборку такого объема, чтобы Х=^р, то ве- личина аз_ должна быть мала. По- X нятие «мала» относительно. Оно оз- начает, что после округления дове- рительные пределы должны ока- заться равными X. Предположим, что полученное нами значение А= =250,2. При?а_=2 доверительные пределы имеют вид С. L.=248,2-^ 252,2. Но когда za_=0,2, довери- тельные пределы становятся равны- ми С. L.=250,0->-250,4 Округлив X до 250, нижний предел 250,0 до 250 и верхний предел 250,4 до 250, мы видим, что все три значения совпа- дают друг с другом, и, следователь- но, интервальная оценка ц превра- щается в точечную Это будет верно тогда, когда объем выборки удовлетворяет сле- дующим соотношениям: .го//4=0,2; 1,96-2,53//4=0,2; 4,96 = 0,2/4; п= (4,96/0,2) 2=615. Значение 0,2 было выбрано по следующей при- чине. Проводя вычисления с точно- стью до 1-10-3 дюйма и полагая,
например, ц=251-10-3 дюйма, по- лучаем наименьшее _ выборочное среднее с а=0,05 Л'=250,8 10-3 дюйма. Доверительные пределы для этого выборочного среднего имеют ид С. L.=250,6-^251,0 дюйма. По- сле округления получаем 251 -10~® дюйма. Этот метод очень важен для при- ложений. Если в коробке имеется 50000 булавок и необходимо полу- чить точную оценку для р. то до- статочно измерить только 600’ из них. На практике, однако, статистик получает точечные опенки, пользу- ясь выборками значительно мень- шего объема. Отметим, что длину доверитель- ного интервала не следует смеши- вать с надежностью оценки. Если мы добьемся того, чтобы обе вы- борки— и большая, и маленькая — были случайными, и если вычисле- ния проведены без ошибок, то до- верительные пределы, полученные для каждой из этих выборок, будут одинаково надежными. Разной бу- дет только длина доверительного интервала. Читатель должен понять, что рас- смотренный нами пример является до некоторой степени искусствен- ным Как мы уже указывали, вы- борки из генеральных совокупно- стей, подобных генеральной сово- купности стальных булавок, берут- ся обычно с целями сопоставления, т. е. для того, чтобы установить, соответствует ли средняя длина бу- лавки некоторому стандарту. Более реальные примеры, показывающие, как использовать доверительные пределы в дальнейших расчетах, будут приведены ниже. В случае бесповторного отбора и конечной генеральной совокупности порядок вычисления доверительных пределов несколько меняется. Вновь предположим, что генеральная со- вокупность нормально распределе- на и что о известно. При выполне- нии этих условий __ < а \ 1 /У - Л 1/~1 п Зг у п ) V Л'— 1 ** г 1 У Если генеральная совокупность бесконечна, то не важно, является ли выборка повторной или беспов- торной. В обоих случаях Когда же генеральная совокуп- ность конечна, правильная формула имеет вид: 1 ~ Ж* * х V п J • Л Если, однако, п мало по сравнению- с N, значение конечного множителя FM —njN будет близко к единице и он не повлияет на стан- дартную ошибку. Хотя для конеч- ных генеральных совокупностей формула включает множитель FM, во всех случаях, когда л<0,05ЛГ, его вычисление будет только поте- рей времени. При n>0,Q5N умно- жение на FM несколько уменьшает стандартную ошибку среднего. По- этому в интересах исследователя отбирать в этих случаях бесповтор- ные выборки. На практике почти всегда пользу- ются бесповторными выборками. Поэтому ниже мы предполагаем, что берутся именно такие выборки. Это дает следующее упрощенное правило вычисления стандартной ошибки среднего и стандартной ошибки выборочного процента: при «>0,05jV конечный множитель FM «=« V1 — n.W используется, а при л<0,05ЛГ—не используется. В рассмотренном выше примере предполагалось, что 6 булавок от- бираются случайным образом и с возвратом. На самом деле длины б булавок, приведенные в табл. 7.6, представляют собой бесповторную выборку. Поэтому, строго говоря, следует вычислить новые довери- тельные пределы: C.L. = |(251,17 tL- 196)-2,53//я) X х V1 - 6/300 • 10 - * дюйма. Учитывая, однако, что 6<0,05*300, множитель FM можно отбросить. 12» 179
Для приведенной в табл. 7.6 вы- борки л=20 20>0,05 «300, поэтому C.L.= £(250,2—1,96) X X У1 - 6/300 = (249.1 н- 251,3) X X дюйма. Чтобы определить, при каком объе- ме выборки C.L.=J±0,2 (известно, что Лг=300, отбор — бесповторный), решим уравнение '(1.96-2,53/ УЛ) У Г «/300 = 0,2. Умножив обе части этого уравнения •на УЛ, получим: 4,96 У1 - п '300 = 0,2 Уп. п = 202. 1Три п <f 0,05Лг з_ ~ з/Уп, так X что з_ уже нс является функцией от /V. Поэтому при фиксированных а и п доверительные пределы C.L. = = Л'± гз_ будут одинаковы как для W = 50000, так и для У=10000000. . Средн тех, кто не знаком со ста- тистикой, широко распространено мнение, что для того, чтобы добить- ся одной и той же точности, выбор- ка из большей по объему генераль- ной совокупности должна быть больше, чем выборка из меньшей генеральной совокупности. Это справедливо лишь тогда, когда в обоих случаях п>0,05Лг. В про- тивном случае эта точка зрения неправильна. Случай, когда значение а неиз- вестно. Предположим теперь, что рассматриваемая генеральная сово- купность распределена по нормаль- ному закону, что отбор бесповтор- иый, но значение о не известно. В этом случае C.L. — X zt ts_. — X zt ts/ Уп для бесконечной генеральной сово- купности и C.L. = Xzt/s~ = Xtz X zt (fs/K«) У1 — П/Х для конечной генеральной совокуп- ности. Если я <^0,05Л\ то множи- телем FJ\4 У Г— ЛТХ можно пре- небречь В этих формулах э используется как точечная оценка для а. Смысл величины t. можно понять, сравни- вая ее с величиной г. Пусть у нас имеется некоторое распределение выборочных средних, и пусть все эти выборки отбирались из нор- мально распределенной генеральной совокупности. Тогда для любого п величина Xi будет тоже распреде- лена по нормальному закону. Если преобразовать Xi в относительные величины Zi по формуле г,- — — (X, — • то соответствующие значения Zj также будут распределе- ны по нормальному закону. Однако если величины _Х/ преобразовать по формуле ti = (Х( — j*)-s_, где = = 5;'Уп, то значения будут сле- довать другому закону, а именно: они будут иметь так называемое распределение Стьюдента. Формула для плотности ^распре- деления Стьюдента имеет вид: ( —2)/2]1 j (v-D/2 — оо t </ оо где v есть число степеней свободы. Поскольку' в нашем случае значение v=n—1, где п — объем вы- борки. Чтобы подобрать функцию такого типа к рассматриваемым экспери- ментальным данным, все 66 выбороч- ных средних из табл. 7.7 (для п— =6) следует привести к виду t,— =(JP<—p)/s—, а затем построить график распределения частот зна- чений ti. Мы получим некоторый полигон. Чтобы подобрать к нему кривую /-распределения, подставим в формулу, по которой вычисляются значения этого распределения, ве- 180
'личину v=n—1=5. Найдем теперь несколько значений f(t) в некото- рых удобных точках, например в точках /=(—3,0; —2,5; ..2,5, 3,0). Построим эти точки и проведем че- рез них сглаживающую кривую. Аналогично можно построить и /- распределение прн л=20. Единст- венное различие будет состоять в том. что теперь нужно в формулу подставить о=20—1—19. Как видно из .этих примеров, t- распределение зависит от одного параметра о, изменение которого меняет форму кривой. Тём не менее юна всегда остается колоколообраз- ной, симметричной со средним зна- чением (ожидаемой величиной) t, равным Л1(/)=0 из(= 2). При небольших значениях Ot су- щественно больше единицы, но с ростом v величина приближа- ется к единице. Кроме того, с рос- том n t-распределение приближа-- етсч к нормальному. На самом деле при с»>30 /-распределение настоль- ко близко к нормальному, что уже отпадает необходимость в состав- лении для него специальных таб- лиц, поскольку начиная с этого зна- . чения v можно пользоваться табли- цами нормального распределения. Для малых значений v (напри- мер, us$30) /-распределение имеет большую вариацию, чем нормаль- ное распределение. Так, для нор- мального распределения 0,95 пло- щади под кривой лежит между зна- чениями z"=l,96 и z'=—1,96. Для небольших значений v (например, о=2) 0,95 площади под кривой /- распределения лежит между значе- ниями /"=4,30 и /'=—4,30. Но для г’=30 эта доля площади ограничи- вается значениями /"=2,04 и t'= =—2,04. Эти значения уже очень близки К 2=±1,96. Сформулируем теперь несколько правил вычисления доверительных пределов для ц. 1. Пусть: а) проводится беспов- торный отбор; б) генеральная сово- купность распределена по нормаль- ному закону; в) генеральная сово- купность бесконечна или генераль- ная совокупность конечна, но <0,05Х; г) о известно. Тогда дове- рительные пределы вычисляются по формуле C.L. = X zL гз_ = X го/]/ п- 2. Пусть: а) проводится беспов- торный отбор; б) генеральная сово- купность распределена по нормаль- ному закону; в)' генеральная сово- купность конечна и л>0,05Х; г) о известно. Тогда доверительные пре- делы вычисляются по формуле С. L. = X ~ zi- = X (zjfy nj X • X X К1 -- л/Х- 3. Пусть: а) проводится беспов- торный отбор; б) генеральная сово- купность распределена по нормаль- ному закону; в) генеральная сово- купность бесконечна или генераль- ная совокупность конечна, но п< <0,05Х; г) о неизвестно. Тогда доверительные пределы вычисляют- ся по формуле C.L. = X zt Is- = X zt tsjV n. X Чтобы найти значение /, следует пользоваться при о^ЗО таблицами /-распределения и при и>30 табли- цами нормального распределения. 4. Пусть: а) проводится беспов- торный отбор; б) генеральная со- вокупность распределена по нор- мальному закону; в) генеральная совокупность конечна и rt>0,05Ar; г) о неизвестно. Тогда доверитель- ные пределы находят по формуле C.L. =Х ±/s_ = Xzt X zt (М/— n(N. При этом, чтобы найти значение /, следует пользоваться при о^ЗОтаб- лицами /-распределения, а при v> >30—таблицами нормального рас- пределения. 5. Если распределение генераль- ной совокупности довольно близко к нормальному, также применимы первые четыре правила. Если рас- пределение генеральной совокупно- сти сильно асимметрично, прямо- угольно или имеет U-образную фор’-- 181
му, то нельзя пользоваться выбор- ками малого объема. Например, когда распределение генеральной совокупности имеет прямоугольную форму, объем выборки п должен быть не меньше 15. Напомним, что в этой главе мы занимаемся оцениванием у, с по- мощью Л не с целью сопоставить эту оценку с некоторым стандар- том, а для того чтобы использовать ее в последующих вычислениях. Имея это в виду, мы можем вос- пользова гься методом доверитель- ных интервалов для достижения одной из следующих целей, 1. Нам нужно найти точную ве- личину у. Для этого следует взять достаточно маленький доверитель-' ный интервал и найти соответст- вующий ему объем выборки п. По- сле этого величину X можно счи- тать точечной оценкой у.. 2. Нужно получить приближен- ную оценку у,. Для этого следует выбрать доверительный интервал требуемой ширины и вычислить со- ответствующие доверительные пре- делы. Результатом будет интерваль- ная оценка вида Р [(X - < р. < (У + Zs_)J = е. 3. Предположим, что мы не мо- жем менять объем выборки по свое- му усмотрению, например, из-за то- го, что генеральная совокупность уже не существует, или выборочное обследование проводил кто-то дру- гой (например, данные собраны ми- нистерством труда). В этом случае следует вычислить доверительные пределы п только после вычисления, сравнив их, понять, дают ли они требуемую точность. Пример 1. Среди студентов, изучавших в некотором колледже курс статистики, был сын фермера. На занятиях преподава- тели говорили ему» что в задачах, связан- ных с .промышленным производством, раз- личные оценки делаются на основании очень небольших выборок. Он решил оце- нить общую массу 50и0 индеек на ферме своего отца с помощью небольшой случай- ной выборки и, взвесив вошедших в эту выборку индеек, он получил следующие значения масс (в фунтах): 12, 7, 9, 5, 4, 8, 17, 2, 11, 14, 13» 9. После этот» он вос- 182 пользовался следующей формулой для вы- числения доверительных пределов: C.L, = X ± ts- = _Yj± t&jVп. Эту формулу он взял потому, что распре- деление индеек по массе было близким к нормальному, величина а неизвестна, а п=12<0.05-5000. Приняв и=0»05, он получил довери- тельные пределы C.L.=J±2^01 ($/И 12), где 2.201 есть значение t, соответствующее о=11. Наконец» определив значение Я и $» он получил C.L, = (9.25 ± 2,201)-4,39/К 12 == = 9,25 ± 2»80. Последнее соотношение он переписал в ве- роятностной форме: Р (6,5 <р<! 2,0) =0,95, Разумеется, отец только посмеялся» по- смотрев на такой результат, и сказал сы- ну, что он может без всяких выборок го- раздо точнее оценить ц. для чего ему до- статочно просто взглянуть на СВОИХ ПТИЦ- Тем не менее ему очень хотелось получить доверительный интервал шириной 1 фунт, поскольку тогда он был бы в состоянии точнее оценить свой доход. Сын заметил, что интервалу шириной 1 фунт соответствуют доверительные преде- лы C.L. = -V_tO,5, и составил уравнение fs—0,5. Он решил, что не сюит полагать f=2,20l, так как даже при своем ограни- ченном опыте выборочных исследований он понимал, что объем его выборки будет больше 30. Поэтому Он подставил^в урав- нение tel,96 и получил 1,96 (s/Уп) = 0,5. После этого он стал думать над тем. по какой формуле вычислять $— : воспользо- ваться формулой = S/KfT или S— =5= (s/Уп ) КI — л/Л', Второй формулой сле- дует пользоваться в toM случае, когда п> >0,05 -5000, т, е. когда л>250. Сын ре- шил, что в сомнительном случае лучше по- тратить больше (времени па вычисления„ чем получить неправильный ответ. Непра- вильный ответ будет означать, что ему при дется обследовать большую выборку, на что понадобится гораздо больше времени,, чем на решение уравнения, включающего коэффициент FAf^eKl — (n/N)- Таким об- разом. уравнение «приобрело вид: (Г ,96s//Л ) Ki — /1/5000 = 0,5. Тогда ему стало ясно» что придется использовать значение $=4,39, вычисленное по уже отобранной мм выборке из 12 ин- деек. Он понял, что это обстоятельство имеет более общее значение. Нельзя найти л. -не зная ст или» по крайней мере, $. Во всех последующих выборочных исследова- ниях. в которых ему придется искать пг он должен будет сначала отобрать иекото-
рую небольшую выборку, ио -не для того, чтобы вычислить ио ней доверительные пределы, а для того, чтобы найти $» без чего он вообще -не сможет определить объ- ем выборки. Теперь уже его уравнение стало урав- нением с одним неизвестным. 0,5= {tsiVп ) V1 — n/Л' = = (1.96-4,39/Кп) V1 — л/5000. Умножая“оЛе части на он получил 0,5167 = в.бКТ^л/ЙЖ После возведения в квадрат уравнение приобрело вид: ’ 0.25^=73,96—73,96^/5000. Умножение обеих частей на 5000 дает 1250л = 369 800—74л, откуда л=279или280. К счастью, наш студент еще не выпу- стил 12 индеек, которых он взвешивал, обследуя свою первую «выборку, так что ему пришлось взвесить еще «только* 268 индеек. Он получил X—10,6 и $—4.2. откуда С. L. = [(10.6 ± 1,96).4,2/K2§6j X X/1—283/5000= 10,6±0.5=(10.|—11,1). Общая масса 5000 индеек будет заклю- чена между 5000-10,1 и 5000-11.1, т, е. между 50 500 и 55 500 фунтами. В это вре- мя фунт индейки стоил 6,38 долл., так что доход фермера от продажи всех индеек составил бы от 19 190 до 21 090 долл. Ве- роятность ошибки I типа, т. е. вероятность того, что это значение окажется меньше 19 190 долл, или больше 21 090 долл., рав- на 0.05. Однако наш фермер счел такую вероятность пренебрежимо малой. Пример 2. В ведении некоторой компа- нии находятся 2000 магазинов, разбросан- ных по всей стране. До последнего време- ни компания ежемесячно получала заказы на производимые ею товары от каждого магазина в отдельности. Сложив все эти заявки, компания определяла SX — общее число единиц товара» подлежащего от- правке. Оказалось, однако» что спрос на товар сильно колеблется от месяца к месяцу. Компания -просила директоров своих мага- зинов делать свои прогнозы с особой тща- тельностью. iho после исчерпывающего ана- лиза полученных цифр руководство фирмы пришло к выводу, что директора магази- нов не справились со своей задачей. Не- удачные прогнозы создавали трудности в управлении запасами товаров, н компа- ния решила перевести всю работу по прог- нозированию в свое центральное управ- ление. Для того чтобы делать прогноз, ком- пании было необходимо быстро и дешево получать сведения о числе непроданных единиц товара. Было решено делать это ежемесячно, проводя выборочные исследо- вания с- помощью случайных выборок. Так как' магазины не очень сильно отличаются друг от друга, работники ком- пании решили пренебречь некоторыми де- талями выборочного исследования (напри- мер, группировкой магазинов в зависимо- сти от их размерив) и использовать ^для получения оценки ц обычные случайные выборки. Обозначим число единиц товара, имею- щихся в каком-нибудь магазине, через А\. Тогда общее число единиц непроданного товара будет равно SX;. Среднее число единиц непроданного товара для каждого магазина будет равно EX.72000, где i= ' =1, 2, .... 2000. Компания ’решила каж- дый раз запрашивать 400 магазинов о ко- личестве имеющегося у них в наличии то- вара. Соответствующее выборочное среднее равно X=EXi/40C, а C.L. = [(Л ± 1,96) C/400J КI — 400/2000 = = [(АГ± 1,96)-60/4001 V1 — 400/2000. Г Было проверено, что .величина О=60 не претерпевает значительных изменений с те- чением времени, поэтому се использовали для получения целого ряда оценок. При одном нз обследований X оказа- лось равным 250,0. Отсюда C.L. = [(250,0 ± l,96).60/V400J X х у 1 — 410/2000 = 244,7 -Н 255.3. Это значит, что общее число единиц непроданного товара лежит между 244.7Х Х2000 и 255,3-2000, т. е между 489 400 и 510 600. На основе этой информации ра- ботники компании могут сделать прогноз спроса на следующий месяц. После этого полученное число единиц товара можно но некоторой формуле распределить между всеми 2000 магдзгинами. Еще раз отметим, что величина р, оце- нивалась вовсе не для того, чтобы срав- нить ее значения со значением за другой месяц или с величиной, описывающей коли- чество какого-нибудь другого товара, а с единственной целью — улучшить проце- дуру прогнозирования. Пример 3. В книготорговом деле часто приходится иметь дело с продажей тех или иных собраний книг, причем объем такого собрания может колебаться от нескольких томов до нескольких сотен тысяч книг. Директору некоторой библиотеки пред- ложили купить собрание, насчитываю- щее 80 000 томов, н предложили -назвать свою цену. По мнению советников дирек- тора. некоторые книги ничего не стоцди, в то время как другие были весьма цен- ными. Они посоветовали директору пред- ложить 0,5 долл, за книгу, т. е. 40 000 долл, за все собрание- Директор не последовал этому совету. Речь шла о большой сумме, н он решил истратить некоторые средства для прове- дения более научного анализа всего собра- 183
ния. Прн этом он, конечно, «понимал, что если его стоимость окажется достаточно низкой, то все средства, затраченные на проведение анализа, будут потеряны. Он решил взять некоторую выборку книг <из собрания, оценить каждую из них и получить затем доверительные пределы вместе с оценкой общей Стоимости, Попав- шие в выборку книги он мог просто срав- нить с каталогом своей библиотеки. Двойные экземпляры «можно было либо продать, либо выбросить. В последнем случае счи- талось, что стоимость книги равна нулю. Директор хотел получить доверитель- ные -пределы вида ЛХ’6,06 долл., где X есть средняя цена книги. Это дало бы ему t доверительный интервал шириной 0,12 долл. Для всех 80 000 книг этот интервал озна- чал бы разницу в 9600 долл. Более точная оценка обошлась бы ему слишком дорого. Чтобы определить, выборка какого объема даст такой интервал, он должен был сна- чала получить оценку для о по относи- тельно небольшой выборке. Зная, что ва- риация цен для книг этого собрания будет очень большой и что распределение частот цен будет сильно скошенным, он понимал, что объем выборки будет заведомо больше л — 100. Поэтому он взял предварительную выборку н-=100 (для того чтобы оценить а и найти л, но не для того, чтобы вычис- лить доверительные пределы). После того как все 100 книг выборки были оценены, оказалось, что $=0.82 долл. Чтобы найти затем л, он решил следующее простое уравнение: й/Кл =0,06. Взяв а— ОД 0, он-получил 1.64 -0,82/Ул = 0,06, п 502. При этом нс было необходимости исполь- зовать формулу 1 (/э//п) Ki—ft/W —0.06, так как и<0.05-80000, т. с. п<4000. После этого осталось выбрать наугад еще 402 книги, оценить их н вновь вычис- лить X и $. Эти два значения оказались равными Х=0,72 долл, н $—0,85 долл. Отсюда C.L.=(X± 0 s. Vrt"«= (0,72 ± 1,64) X Х0,85/Г4502== (0,66 — 0,78 долл.), так что Р (0.06<н<0.78 долл.) =&0,90. Из этого следует, что стоимость всего собрания заключена в интервале 52 800— 62 400 долл. Директор предложил за него 53 000 долл, но попросил «продавца сооб- щить ему, если кю-ннбудь предложит больше. Он был готов дать гораздо боль- ше—до 63 000 долл. Если бы он -последо- вал оекомендации своих советников, он ни- когда не приобрел бы это собрание, по- скольку предложенная цена за одну книгу (0.5 долл.) была бы слишком низкой для его приобретения. 184 Оценивание ц с помощью Л1</. Если генеральная совокупность рас- пределена по нормальному закону, величину р можно оценить с по- мощью Md (для любого значения п). Если распределение генеральной совокупности не является нормаль ным, но симметрично, то полученное по некоторой выборке значение можно использовать в качестве оценки р, когда объем выборки и достаточно велик. Такой дополни- тельный метод оценивания может оказаться полезным на практике. Кроме того, на его примере можно проиллюстрировать одну из задач определения эффективности оценки в статистике. Проблема эффективности возни- кает всегда, когда тот или иной па- раметр можно оценивать разными способами (с помощью разных вы- борочных характеристик). Если для некоторой генеральной совокупно- сти и фиксированного объема вы- борки п доверительные интервалы, соответствующие двум различным выборочным характеристикам, раз- личны, то это значит, что эффектив- ности этих оценок тоже различны. Поэтому, когда у нас есть выбор, следует пользоваться наиболее эф- фективной оценкой, т. е. той, кото- рой соответствует меньший довери- тельный интервал. Величина Md является ме^ее эф- фективной оценкой ц, чем X. Для больших выборок (например, для п>30) выборочная дисперсия Md может быть записана в виде 3’ли = и’/2« Поскольку л/2=1,57, а о2/л есть дисперсия выборочного среднего, доверительные пределы C.L.=Afd± rbzcfMd будут шире, ч-ем пределы X±za~. Чтобы несколько упростить про- цедуру сравнения Md и X, перепи- шем сРма в следующем виде: ' а*АИ=з*/л(2^)=<0.637«,
откуда сш=3//0.637л. Поэтому, для того чтобы сделать величины ajMrf = o;',yr0.637/i1 и в-?= —з/у/ТЦ равными друг другу (зИ4 = * ”dr)’ необходимо, чтобы Отсюда 0,637П]=и2 и п,=п2/0,637. Например, для па=637 величина «1=637/0.637=1000. Выборочной медианой пользуют- ся в тех случаях, когда нельзя не- посредственно определить значение X. Такая ситуация может возник- нуть, например, в тех случаях, ког- да мы располагаем усеченным рас- пределением частот. Иногда нельзя вычислить и э, и ее приходится оце- нивать с помощью межквартильно- го размаха, точнее, с помощью квартильного отклонения Q=(Q3— —Q2) /2. Для нормальной кривой над отрез- ком, соответствующим межквартиль- ному размаху, лежит лД*/'=гО,5 всей площади под кривой, где z"=Q3= =0,675 и z'=Qt=—0,675. Таким об- разом, Q=(Q3—Q2)/2=[0,675— — (—0,675)] /2=0,675, и, учитывая, что о=1, получаем kQ=u, где k— —o/Q=l /0,675=1,48. Другими сло- вами, получить оценку s, использо- вав Q, можно, умножив Q на 1,48. Однако этой оценкой можно поль- зоваться лишь в тех случаях, когда распределение генеральной совокуп- ности близко к нормальному. Если о известно, то единственное требо- вание, предъявляемое к генераль- j ной совокупности, заключается в том, чтобы она была симметрична^ Оценивание ц с помощью Л? I Иногда мы располагаем лишь зна- ; чениями X, но нет данных, по ко- торым эти значения X были вычис- лены. В этом случае доверительные пределы можно получить по фор- муле C.L. = (Л - b'iVkn\ X Н - ta'IVkn). При этом предполагается, что вы- борки отбираются из одной и той же генеральной совокупности, объе- мы всех выборок одинаковы, число выборок равно k, kn>3\, Х= —XtXjf k, а a* = «2(Xz-X)7(^- 1). Последняя формула основана на том, что •s’-=a’/nt и, следовательно, ,о^-=яа*-. Величина о*- здесь аппро- ксимируется числом S(X~Х)2/(Л— —1), откуда с'*^Я2(Х;-Х//(Л-1). а (X, - X )7(£ - 1). Проиллюстрируем порядок вычис- ления таких доверительных преде- лов’ на примере. Возьмем значения X из первой и второй строк табл. 7.7. В этом случае количество выборок равно 6=12, а объем выборки ц=6. Среднее от средних равно X = = 250,1; с'-= — Х*)/(Л-1 )= = }/9,2424/11 = 0.92, что не очень сильно отличается от а- =2.536= = 1,03. Отсюда </= 6 -9.2424/1 Г= w '= 2,24, что следует сравнить с о ==2,53. При а.— 0,045 получаем / * ° 94 C.L. = [250,1-2- 1Z ; V 12-6 ’ 250,1 Л-2 .A2--- V (249.5; 250,7). г V 12-6 ) Такими доверительными предела- ми часто пользуются в задачах, свя- занных с контролем качества. Оце- нивание (/ с помощьюя'- является основой дисперсионного анализа, с которым мы познакомимся несколь- ко позднее. 8,3. ОЦЕНИВАНИЕ ИСТИННЫХ ПРОЦЕНТНЫХ ХАРАКТЕРИСТИК Когда выборки берутся из дихо- томией генеральной совокупности, 185
в качестве оценки истинного значе- ния л можно использовать выбороч- ный процент р. Как-и в предыду- щем разделе, мы считаем, что до- верительные пределы вычисляются для того, чтобы с их помощью опи- сать степень точности оценки или по заданной точности найти соот- ветствующий ей объем выборки (или с обеими этими целями). Еще раз подчеркнем, что получаемые оценки используются не с целью со- поставления, а для дальнейших рас- четов. Существуют три способа вычисле- ния доверительных пределов. 1. При определении доверитель- ных пределов можно использовать доверительные интервалы из табл. VIII (см. приложение). При этом требуется, чтобы генеральная сово- купность была дихотомной и отбор был повторным или бесповторным, но из достаточно большой генераль- ной совокупности, для которой < 0,05V. 2. Доверительные пределы можно вычислять по следующей формуле: C.L. = p^_zs„ — = р±а)Лр(100 — р)‘п. При этом необходимо, чтобы гене- ральная совокупность была дихо- томной, отбор был повторным или бесповторным по достаточно боль- шой генеральной совокупности, для которой л < 0,05V, и чтобы соответ- ствующее биномиальное распреде- ление было близко к нормальному, т. е. выборочное значение NS или NF (в зависимости от того, какое из них меньше) должно быть боль- ше 5. 3. Наконец, формулу для довери- тельных пределов можно перепи- сать в виде C.L. —p±zsp~ = р ± z]/~р (100— р)1пУ 1 — nlN. Предполагается, что генеральная - совокупность дихотомна, отбор осу- ществляется бесповторно из относи- тельно небольшой генеральной со- вокупности, для которой л > 0,05 V, 186 и что соответствующее биномиаль- ное распределение близко к нор- мальному. В табл. VIII,а и VIII,б (см. при- ложение) представлены номограм- мы доверительных пределов, кото- рымр можно пользоваться при а, равном 0,05 или 0,01. В некоторых учебниках подобные номограммы • приведены для большего числа уровней значимости. Для того что- бы найти доверительные пределы, возьмем выборку объемом п (на- пример, п=20), сосчитаем число успешных исходов (пусть MS =4). вычислим p=VS/n=0,2 и найдем эту точку на горизонтальной оси табл. VIII,а. Из этой точки восста- новим перпендикуляр и найдем две точки пересечения этого перпенди- куляра с границами полосы, поме- ченной цифрой 20. Ординаты этих точек и дадут доверительные преде- лы. В нашем примере С.Е.= (6; 44). Поскольку в этом случае NS <5, ве- личину Р (6^л^44) следует взять из таблицы биномиального (а не нормального) распределения с па- раметрами /г=20 и р=0,2. В этом случае доверительные пределы нельзя записать в виде C,L‘.=p±k, поскольку соответс гвующее бино- миальное распределение сильно скошено. Поэтому в этом случае их следует записать в виде C.L.= =(р—k; р+т). На самом деле /?= =14 для точки 20—k и т=24 для точки 20+ т. Поэтому эти довери- тельные пределы можно записать в виде C.L.= (p—k\ p+m)=(20—14; 20+24). Такой номограммой особенно удобно пользоваться в тех случаях, когда min(VS, VF)<5, т. е. когда соответствующее биномиальное рас- пределение недостаточно хорошо аппроксимируется нормальной кри- вой и когда, следовательно, довери- тельные пределы приходится вычис- лять по формулам, соответствую- щим биномиальному распределе- нию. Однако, поскольку в этом слу- чае п довольно мало, a sp довольно велико, такая ситуация на практике встречается редко.
Вообще говоря, при исследовании атрибутивных рядов приходится пользоваться выборками большего объема, чем при исследований ва- риационных рядов. В последнем случае — особенно в вопросах, воз- никающих при промышленном про- изводстве,— значения о очень м^- лы, поэтому достаточно взять вы- борку небольшого объема. Выбо- рочное обследование дихотомной генеральной совокупности, с другой стороны, может дать довольно боль- шое значение ор. Например, для Р—20 и п=400 Ср—2, и доверитель- ный интервал 0,955 имеет ширину 8%, Чтобы получить интервал ши- риной 1%, для которого C.L.=p± zh0,5, потребуется выборка, объем которой удовлетворяет следующему условию: 2р 20-80/7: =0,5, 1600/п= =0,125, п —12800. Поэтому номо- граммы используются довольно ред- ко. Обычно, когда можно получить доверительные пределы с помощью и номограммы, и формулы С.L.=p± ±zsp, предпочтение отдают послед- ней. Номограмма к тому же часто требует графической интерполяции, что снижает точность результатов по сравнению с вычислениями по формуле. Пример I. Руководство некоторой ком- пании, в которой работает 2000 человек, решило организовать пикник для своих со- трудников. Чтобы установить, какое коли- чество продуктов следует заказать, орга- низаторы пикника решили не запрашивать руководителей отдельных подразделений, а провести выборочное обследование. На предприятии есть только одни ворота, и все рабочие кончают работать в одно и то же время. Поэтому организаторы направи- ли к окончанию рабочего дня своего со- трудника к воротам и поручили ему задать 400 рабочим вопрос, хотят ли оии принять участие в пикнике. Обследование дало следующий резуль- тат: WS=100, откуда р~25%. Доверн тельные прадеды для а=0,045 равны С. L. = (25 ± 2) 1^25-75/400 X X УI — 400/2000 -= 25 ± 2.2,05 = (21—29). Основываясь на этом результате, орга- низаторы должны были бы заготовить про- дукты для участников пикника, число ко- торых заключено в интервале 420—580 че- ловек. Поскольку разница в 160 человек ока- залась слишком большой, организаторы ре- шили обследовать ббльшую выборку. Точ- нее, они поставили себе «елью получить доверительный интервал шириной 4%, или в абсолютных величинах 0,04-2000—80 че- ловек Чтобы узнать, какой объем выбор- ки обеспечивает требуемую точность, не- обходимо решить следующее уравнение: 2 V25-75/п V1 — п/2СОО = 2, К 1875/n (1 —п/2000) = 1; 1875/л — 1875/2000 = 1. п = 938. Пример 2. В одном городе некоторая организация решила ежемесячно атублнко- вать сведения о числе безработных в этом городе. Эти сведения было решено полу- чать, проводя каждый месяц выборочное исследование. Затруднительным оказался выбор методики выборочного исследования. Наконец, было решено разбить город на участки, затем были исключены участки, занятые парками, промышленными пред- приятиями и другими нежилыми районами. Всем остальным участкам для облегчения процедуры взятия случайной выборки бы- ли присвоены номера. Далее, на каждый участок, лопавший в выборку, был послан представитель этой организации. Его задачей было отобрать из числа семей, проживающих иа этом уча- стке, определенную долю и задать им со- ответствующие вопросы. Отбор опрел елей- ной доли семей на -каждом участке был оставлен на усмотрение агента. Следующий раз (через месяц) прово- дить обследование семей из той же выбор- ки будет уже легче, поскольку выборка будет обеспечиваться практически та же самая, и каждую из семей можно будет проинтервьюировать просто по телефону. Следующей проблемой было определе- ние объема выборки. Для того чтобы уло- вить небольшие колебания числа безра- ботных от месяца к месяцу, было решено взять доверительный интервал шириной не более 1%. Был выбран уровень значимо- сти 0,045. для которого в среднем лишь 45 интервалов из J ОСЮ не ’содержат истин- ного значения я (доля, безработных, %). Для того чтобы получить интервал ши- риной 1%, объем выборки должен удов- летворять следующему условию: 4 Иб-94/n = I; 16-564,/п = 1; л = 9024. Первая выборка дала ArS==587, следо- вательно, р^6,5%. В городе 400 000 рабо- тающих. Организация опубликовала сле- дующие результаты: безработица в февра- ле (без поправки на сезонные колебания) составила 6,5%, или 26 000 человек. После того как этот результат стал известен, было высказано мнение о том, 187
что хорошо бы иметь сведения отдельно о безработице среди мужчин и средн жен- щин. Однако один из статистиков возра- зил: если уже взятую выборку просто раз- делить на мужчин и женщин, то получен- ные цифры окажутся недостаточно точны- ми и могут ввести в заблуждение. Его до- воды состояли в следующем. Из общего числа работающих около 40% составляют женщины. Следовательно, объем ‘выборки) ' соответствующей женской части населения, будет равен 0.4-9024=3610. Если доля без- работных в этой выборке окажется той же (р=6,5%)г то мы получим доверительные пределы C.L. =- 6,5 £ 2 Уб,~5-93»5/3610 — —6,5 zr 0,82. Следовательно, соответствую- щий доверительный интервал будет иметь ширину 1,64%, а нс 1%. Эти выводы оказались убедительными, н организация решила увеличить объем выборки, с тем чтобы доверительный ин- тервал для женщин тоже стал равным 1%. В результате доверительный интервал, со- ответствующий общей доле безработных, будет меньше 1%. Пример 3. Директор по кадрам неко- торой компа-нии ведет переговоры с проф- союзом о заключении нового коллективно- го договора. Представители профсоюза тре- буют увеличения длительности оплачивае- мого отпуска для рабочих, проработавших на предприятии более 10 лет. Директор но кадрам хочет определить, в какую сумму обойдется компании удовлетворение этого требования. Он попросил заведующего от- делам обработки данных дать ему сведе- ния о числе рабочих, чей стаж работы на предприятии превышает 10 лет. Заведующий отделом обработки дан- ных поручил одному из своих программи- стов написать программу для получения такой информации. Вскоре он, однако, за- метил, что подобного рода запросы посту* нают очень часто. Его неоднократно проси- ли дать сведения о ставках заработной платы, возрастных группах, объемах про- дажи различных товаров, производимых компанией» и т. д. При этом было не обя- зательно использовать для получения такой информации всю генеральную совокупность, что требовало больших затрат машинного времени. В результате были написаны опё- ииальные программы для взятия вы- борок. Наиболее удобной для машины явля- ется систематический отбор (например, можно брать каждую десятую перфокар- ту). Ои дал очень хорошие результаты* Экономия машинного времени в некоторых случаях была довольно значительной, осо- бенно когда необходимую степень точности удавалось получить но небольшой выбор- ке. Очень часто информация, полученная по выборке л = 50 или «==100, вполне мог- ла заменить информацию, для получения которой ранее требовалось обследовать ге- неральную совокупность» включавшую не- сколько тысяч перфокарт, 188 8.4. ОЦЕНИВАНИЕ ИСТИННОЙ ДИСПЕРСИИ И ИСТИННОГО СРЕДНЕГО КВАДРАТИЧЕСКОГО ОТКЛОНЕНИЯ Чтобы вычислить доверительные пределы для р в случае, когда о неизвестно, мы пользовались стан- дартной ошибкой 5/ — 5 1 V л . 11ри этом мы пользовались выборочным средним квадратическим отклонени- ем s как точечной оценкой для о. Ясно, однако, что величинами s2 и 5 можно воспользоваться и для по- лучения интервальных оценок— а2 и о соответственно. Вспомним, что s2 есть несмещен- ная оценка для а2, так как среднее выборочного распределения s2=o2» т. е. М (в2)=&=<Л Мы уже проил- люстрировали это обстоятельство на примере экспериментального распределения величин s2 для л=2 (см. табл. 7.5). Поэтому» пользуясь s2 как точечной оценкой для о2, не следует вводить поправочный мно- житель. Выборочное среднее квадратиче- ское отклонение s является смещен- ной оценкой величины о. Пользуясь значениями s как точечной оценкой а (кроме тех случаев, когда целью является вычисление доверительных пределов С. L'.), его можно умно- жить на некоторый поправочный ко- эффициент. Примером такого по- правочного множителя может слу- жить величина C.F.=l + l/4(n—1)» но он годится лишь для нормально распределенных генеральных сово- купностей. Таким образом, величи- на s2 дает несмещенную оценку для о2 для любой генеральной совокуп- ности, а [I + 1/4(л—1 )]$ будет не- смещенной оценкой для о при усло- вии» что генеральная совокупность распределена по нормальному зако- ну. При я=10 имеем C.F.=1 + + (п—1)/4=1,028, что увеличивает значение s на 2,8%. Отметим» что для выборок меньшего объема фор- мула для поправочного коэффици- ента имеет несколько иной вид, но разница между ними не очень су- ществен на.
Вычисление доверительных преде- лов для о2 основано на выборочном распределении величины з2/о2. Экс- периментальное распределение з2/о2 может быть получено обычным пу- тем. Возьмем из табл. 2.1 100 выбо- рок /1=6, вычислим 100 величин з2, разделим каждую из них на о2, со- ставим распределение частот и преоб- разуем величины f.- в 1"( по форму- ле /",•=/</Sfг. После этого можно найти Рг15 и Рй7.ь и записать, напри- мер, следующее вероятностное утверждение: W,.6<s!V<P»J = 0.95. Разумеется, в тех случаях, когда s2==d2,.s2/d2=\, при s2<a2 з2/а2<1 и при з2>а2 s2/n2>l. Поэтому в об- щем случае, пользуясь обозначения- ми P(Pr<s2/a2<Pi_r), мы всегда имеем в виду, что Prd, a Pi_r>l. Когда генеральная совокупность распределена по нормальному зако- ну, величина з2/о2 имеет распреде- ление «хи-квадрат» с соответствую- ; щим числом степеней свободы (рас- пределение rfjdf или х2/и)- Некото- рые процентили для этого распре- деления приведены в табл. X (см. приложение). Их значения получе- ны делением частостей из табл. IX на значения о, приведенные в пер- вом столбце. При получении этих оценок использована лишь одна вы- борочная характеристика, величина v=n— 1, и требуемые процентили можно найти из табл. X. Таким об- разом, для л=6 наше вероятност- ное утверждение принимает вид: Р (/>,.. < Л1** < Л, .»> = Р (0.166 < s*/o* < 2.566) = 0,95. Эта вероятность имеет очень про- стой смысл. При л=6 отношение । з2/о2 будет с вероятностью 0,95 ле- жать между 0,166 и 2,566. Послед- ний процентиль означает, что з2 может быть более чем в 2 раза больше о2. Если взять 1000 выборок п=6 и разделить соответствующие значения на а2, то 950 из получен- ных отношений должны лежать между 0,166 и 2,566. Для /1=2000" имеем Р (Р, < з>‘ < = Р (0.949 < <з2/аг< 1.053) = 0,90, \ а для п = 10 000 Р (0.964 < з7з‘ < 1,023) = 0,90. ‘ Другими словами, для больших вы- • борок, например /1=10000, s2 явля- ется почти точной оценкой а2. . Эти примеры показывают, что распределение х2/о скошено вправо, • « но эта скошенность уменьшается с ростом v.. Для /1=5 мы имеем. ? 1— Р5=0,771, а 1—Рм=—1,214, но для п=10000 мы имеем уже 1—Р5= =0,036, а 1—Рэь=—0,023. Таким1 t образом, при /г=5 скошенность го- г раздо больше, чем при /1=10 000. Это обстоятельство имеет важное значение для определения объема выборки. Пусть требуется, чтобы з2 составляло не менее 50% о2 и не более 150% а2, т. е. чтобы з2 не бо- лее чем на 50% превышало о2. Для выполнения первого условия (Р5= =0,500) требуется выборка объе- мом л=17, а для выполнения вто- рого условия (P«s=l,500)—выборка объемом п=26. Для того чтобы s2 составляло не менее 80% а2 и не в более 120% а2, необходимо, чтобы • л=126 (для Р5=0,800) и п=146 (для Р95= 1,200). Доверительные пределы для о2 можно вывести непосредственно из этих вероятностных утверждений. Вероятность Р (Рт <С з2/сг2 < Pt_r) =е можно переписать в виде Р(\/Рг> ^>ст2/з2>-1/Pi_r)=e или в виде' P(l/Pf_r<o2/s2<l/Pr) =е. Умножая все три величины, стоящие в скоб- ках, на s2, получаем Р(з2/Р1_г<о®<з2/Рг)=е, откуда Отсюда получаем доверительные' пределы для о в следующем виде: c.l.-(/?7p^7 Рассмотрим, например, выборку объемом /г=6 из табл. 7.6. Для нее* 18»
$2=9,766 и 5=3,125. Доверительные пределы для а2 при а=0Д0 имеют вид C-L'.= (9,766/2,214— —9,766/0,299)=(4,1 —42,6). Квад- ратные корни из этих двух чисел дают доверительные пределы для п: C.LJ.= (2,1—6,5). Эти доверитель- , ные пределы содержат как о2=6,42, так и 0=2,53. Предположим, что для нас дове- рительные пределы C.L*.= (4,1— —42,6) слишком широки. Найдем такое п. что разность между верх- ним доверительным пределом UC.L.=42,6 и $2=9,766 была равна не 32,8, а, например, «С.Е.—$2=3. Иными словами, мы хотим, чтобы *9,766/ Рг=9,766+3= 12,766. Отсюда Рг=9,766/12,766=0,765, так что при <1=0,10 значение п, соответствую- щее этому процентилю, примерно равно 89. Размах как оцениватель а. В за- дачах, связанных с контролем ка- чества, в качестве точечного оцени- ла тел я о часто используется раз- мах. Например, для того чтобы вы- числить значение s^—sl^n- не обязательно вычислять $. Ее можно аппроксимировать значением /?. С увеличением объема выборки (при л>15) лучше пользоваться $, а не /?. Кроме того, величину а не • следует оценивать с помощью /? в тех случаях, когда генеральная со- вокупность имеет скошенное рас- пределение. В противном случае крайние значения (большие или ма- ленькие) сильно исказят значение стандартной ошибки. 8.5. ВОПРОСЫ И ЗАДАЧИ 8.1. Некоторая организация хочет еже- месячно устанавливать цену на мясо раз- ных сортов, продаваемое в 512 магазинах города. Она не может узнать цены по те- лефону и должна поэтому воспользоваться услугами своих агентов. Чтобы уменьшить расходы (агентам приходится много пла- тить), организация решает проводить вы- борочные .исследования. Одному из агентов поручили посетить /20 магазинов, случайным образом выбран- * ных из общего списка. Он получил сле- дующий перечень цен: 1,95; 2,00; 1,70; 1.65. 2,00; 1,30; 2,05; L55; 2.30; 1.50; 1.55; 1,30; 2,45; 1,90; 2,25; 1,45; 2,05; 1,75 долл. а. Вычислите доверительные пределы, соответствующие уровню значимости et= ^0,045. . б. Поскольку средние цены на мясо будут публиковаться в форме индексных показателей, они должны быть представ- лены точечными огхенками. Кроме того, они должны отражать даже небольшие месячные колебания. Следовательно, доверительней интервал должен быть как можно короче. Определите, выборка какого объема тре- буется для того, чтобы €±.=,¥±0,04 долл. а. Если бы вы отвечали за вычисление индекса цен. представляющего, например, 200 типов товаров, стали бы вы получать ежемесячные значения средних цен для этих 200 типов товаров выборочным путем или с помощью полного охвата? 8.2. Предположим, что вы взяли 1000 выборок того же объема из той же гене- ральной совокупности и для каждой нз них вычислили C.L—¥± zc— для г=3 и г=1. JC а. Сколько раз в идеале доверитель- ные интервалы обоих типов не будут со- держать И- б. Примем Р (ошибка 1-го вида)--а, где а есть некоторый заданный уровень значимости. Сколько раз в идеальном слу- чае мы совершим ошибку 1-го вида, когда 2=1? 8.3. В каких случаях мы пользуемся .формулами э- = сКп, ст—(а/Иг:) X X V1 -л/Л', = З/Уп И ($/И п) X X / 1 8.4. Имеются две генеральные сово- купности. Для первой из -них формулой C.L. = X — za— можно пользоваться для X выборок любого объема. Во втором случае доверительные пределы имеют такой внд, когда п достаточно велико, В чем причина этого различия? 8.5. Почему в одних случаях довери- тельные пределы вычисляются при а*« —0,003, а в других—при а—0,1? 8.6. Вычислите доверительные пределы в следующих случаях (прн а=0,05 и -¥= =20); ‘ о = 2, п= 25, W велико; в = 2, n ==25, = 50; s = 2, л = 25, У велико; s=2, л =25, N =*50; s — 2» n — 400, Д’ велико; s = 2, n = 400, N = 800; о = Ю, п = 25. N велико. Тщательно проанализируйте результа- ты н объясните, почему они отличаются друг от друга. '190
8.7. Решите уравнение 2/V 25— 4/V’i и объясните его смысл. 8.8. а. Если известно, что о — -0,4 и X л=25, то известна н величина а. Чему она ра-вна? б. Если вам известно, что 5— =0,4 и X л=25, то известна н точечная оценка не- которого параметра, Какого именно? 8.9 8.10. Сотруднику некоторого универси- тета поручено каждые три года давать оценку средних расходов студентов на пи- тание. Эта оценка публикуется в универ- ситетском бюллетене н используется для определения размера стипендий и дотаций нуждающимся студентам. Сотрудник ре- шил взять некоторую выборку из общего числа студентов и попросить студентов, во- шедших р. выборку, отмечать свои расходы на питание в течение 2 недель осеннего ' семестра. Затем он решил собрать данные об общих расходах от каждого из студен- тов и вычислить X и C.L. а. Выборку какого объема следует ' взять для получения доверительного интер- вала шириной 0,4 долл, с уровнем значи- мости 0,045? Из предыдущего опыта изве- стно» что s=2 долл. б. Оказалось, что выборочное среднее равно 28 долл. Вычислите доверительные пределы. в. Сколько в среднем расходует сту- дент па питание в течение академического года (35 недель)? г. Сведения о расходах иа питание должны быть опубликованы в виде точеч- ной оценки. Считаете ли вы, что получен- ный доверительный интервал мал для того, чтобы можно было считать X точечной оценкой ф1? 8.11. Рассмотрим следующие выборки: л i=50, Ar^j=10; «2=200, jVS^=40; Пз= =2000, /VSa=400. а. Постройте доверительные пределы для £=0,90- б. Примем ЛГ^ЮО, Л^в400 и Ng= =4000. Вычислите доверительные пределы для в=0.90. в. Заметим, что в каждом случае jV< в 2 раза больше п>-. Сравните все три задачи друг с другом, 8.12. Для л—400 вычислите довери- тельные пределы при а=0»045 для р=10 и р=50. 8.13. Для с=0,045 найдите, при каком объеме выборки получаются следующие доверительные пределы: р± 10? если р«^10; р±10, если р=о0; р±2, если /*=10; р±2, если р=50, Проанализируйте результаты. 8.14. При и=0,045 и л «>400 вычислите доверительные пределы для /*=40 и =50 00С и для р—40 и Л==5 000 000 1 Ввиду того что в оригинале вопрос 8.9,а перепутан с вопросом 8.10.Э, задача 8-9 из текста перевода исключена,—При*, ред. 8J5. Будем считать, что данные из табл. 2.4—2.6 представляют собой некото- рые выборки. Для а—0,05 оцените три зна- чения ц и три значения о. Разделите все три пары доверительных пределов для р на X и сравните друг с другом. Затем раз- делите все три пары доверительных преде- лов для а на X и также сравните друг а другом. 8.16. Вы . хотите получить оценку для и1 2. Выборку какого объема следует взять, чтобы при a—0,005s2 было не менее 80% 8.17. Известно, что .^=4. Найдите та- кое п, чтобы при а=0,05 нижний довери- тельный предел отличался от $2 на 0,8. 8.18. После изменения состава кормов из 500 поросят была взята выборка, вклю- чающая 60 поросят. Их массы оказались- следующимм: Мясса. Фунт Чнс.-.О, <1ГГ. 60—64,9 3 65—69,9 40 70—74,9 14 75—79,9 3 а. Дайте оценку (с уровнем значимо- сти а—0,05) средней массы всех поросят. б. Предположим, что фермер хочет не- медленно продать всех 500 поросят. Чему равна их общая масса? в. Оцепите о Будет ли интересовать фермера эта оценка? 8.19. На некотором предприятии рабо- тает 2000 человек. Дирекция хочет оценить долю рабочих, которые в понедельник опоздали на работу более чем на 5 мин. Положим и—0,045. а. Выборку какого объема следует взять, чтобы доверительный интерпал имел ширину ие более 4%. (Дирекции известно, что количество опоздавших не больше 30%). б. Была взята случайная выборка того объема, который вы нашли в задаче 8.19.3, и было установлено, что р=*18%. Каково общее число рабочих, опоздавших на работу в понедельник? 8.20. В некотором банке число сроч- ных счетов равно 20 000. Дирекция банка хочет предоставить вкладчикам, имеющим на срочных счетах более ЮОО долл., спе- циальные льготы. Для этого ей необходимо знать как число таких счетов, так и общий* объем сбережений. а. Как вы определите объем выборки для получения оценки общего объема сбе- режений? Не будет ли такая выборка слишком малой? б. Сколько выборок придется отобрать- (две или одну), чтобы получить обе- оценки? в. Была отобрана предварительная вы- борка объемом п“50,' она дала значение s=1200 долл. Какую выборку следует ото- брать, чтобы получить доверительный ин- тервал для ц шириной 200 долл. Возьмите- 0=0,045. 191
г. Выборку какого объема следует ото- Ярать, чтобы получить для л доверитель- ный интервал шириной 4%. Примите и^= = 0.045. д. Выборка объемом п— 600 дала сле- дующие результаты: число срочных вкла- дов выше 1000 долл. ArSs=120. Соответст- вующие значения выборочного среднего и выборочного среднего квадратического от- клонения равны Х=4500*долл. -и s= = 1180 долл. Получите (с уровнем значи- мости «—0,045) оценку общего числа сроч- ных вкладов и оценку числа срочных вкла- дов более 1000 долл.' 8.21. 800 студентам был задан следую- щий вопрос: купили ли зы в период с сен- тября по июнь в магазинах нашего универ- ситетского городка хотя бы одну пару обу- ви? Число положительных ответов оказа- .лось равным NS ^-100. а. Вычислите доверительные пределы для и—0,05. б. Сколько всего было покупателей- студентов, если в университете учится в общей сложности 20 000 студентов? в. Предположим, что студентам, гкжав- зшим в эту выборку, задавался такжё во прос о том, сколько пар обуви они купили и за какую цену. 100 студентов, каждый из которых купил хотя бы одну пару обуви, купили в общей сложности 120 пар" по средней цене А'^-18 долл, за пару, причем s — 2,50 долл. 1. Вычислите соответствующие уровню значимости 0.05 доверительные пределы для средней стоимости пары обу^и, при- обретенной всеми студентами. 2. Воспользуйтесь значением р как то- чечной оценкой и оцените общую сумму денег, истраченных и а обувь студентами ч магазинах этого городка. 8,22. Рабочий у конвейера выполняет некоторую простую операцию. В течение 5 рабочих дней одной недели были несколько раз проведены замеры времени..необходимо- го для проведения этой операции. Время за- мера выбиралось случайным образом, и по- лученные значения оказались равными (вс): 53. 49, 51. 58, 52, 48, 51, 50, 56, 53, 54, 55. При е—0,99 вычислите доверительные пределы для ц. Сколько деталей пройдет через руки рабочего в течение недели, если продолжительность рабочей недели раз- на 35 ГЛАВА 9 ИСПОЛЬЗОВАНИЕ ВЫБОРОЧНЫХ ХАРАКТЕРИСТИК ДЛЯ СОПОСТАВЛЕНИЯ ИСТИННЫХ ПАРАМЕТРОВ ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ 9.1. ВВЕДЕНИЕ В предыдущей главе доверитель- ные пределы использовались в тех случаях, когда значения ц, л, а2 или с оценивались с помощью X, р, № или s, причем получение оценок нужно было для последующих рас- четов, а не для сопоставления с дру- гими величинами этого рода. Мы познакомились с методикой нахож- дения объема выборки, дающей тре- буемую степень точности. Настоящая глава посвящена во- просам сопоставления истинных значений' тех или иных параметров с помощью выборочных характери- стик. Например, непосредственное вычисление |Д[ и по полным ге- неральным совокупностям может быть нецелесообразным, и поэтому важно уметь делать выводы о воз- можной разнице между p.t и р2 при сравнении рассчитанных .по. выбор- кам значений X, и Ха. 192 С вычислительной точки зрения сравнить истинные значения пара- метров для двух генеральных сово- купностей (если они уже определе- ны) не представляет труда. Это со- вершенно однозначная и полностью определенная процедура. Однако в тех случаях, когда нам приходится делать выводы о разнице между ц, и Ц2, сопоставляя выборочные сред- ние, следует учитывать зависящие от выборки колебания этих двух ха- рактеристик. При этом возникает необходимость использовать веро- ятностные понятия. Мы снова стал- киваемся с неопределенностью, и именно поэтому предмет настоящей главы называют также «теорией статистических выводов», «решения- ми в условиях неопределенности», «стохастическими и вероятностными процедурами принятия решений» и т. д. Как уже указывалось, если мы располагаем данными по полным
генеральным совокупностям, то их сопоставление не вызывает про- блем. Если, например, имеются два ящика со стальными булавками и длины всех булавок уже измерены, то каждый, кто умеет складывать и умножать, может вычислить и р2. Процедура сравнения чрезвы- чайно очевидна, Если pi—251, а ц2=250, то первое значение на одну тысячную дюйма больше вто- рого, и этот вывод можно использо- вать для принятия соответствующих решений. Однако процедура сопоставления щ с ц2 с помощью Xi и Я2 совсем не так проста. То, что одно значе- ние Я отличается от другого, еще пе обязательно указывает на то, что соответствующие ц также отлича- ются друг от друга на значение то- го же порядка. Разность между и Я2 может быть вызвана в большей степени погрешностью вы- борочного исследования и в мень- шей степени разницей между Ц1 И Ц2- В этой главе мы и рассмотрим методы анализа данных выбороч- ных исследований, с помощью кото- рых мы сможем отвечать на сле- дующие вопросы. Имеется ли разница (или сущест- венная разница) между значениями Pj И Ц2, J4 И Л2, Цо И Ц, По и Jt, О1 И 02 ИЛИ Оо И О? 2. Если такая существенная раз- ница имеется, то чему она равна? Предположим, что имеются две нормально распределенные гене- ральные совокупности с параметра- ми |Xi=80, oi=5, ц2=130 и о2=5- Наибольшим значением первой ге- неральной совокупности Pi можно приближенно считать Ц1 + За=804- 4-15=95, а наименьшим значением второй генеральной совокупности Р2—Ц2~Зо=130— 15= 115. Это озна- чает, что наши генеральные сово- купности практически не пересека- ются. Поэтому разницу между pi и ц2 можно обнаружить при сопостав- лении Ji и Я2, даже если последние получены по очень маленьким вы- боркам; А'г будет всегда больше Я\. 13-232 Если Ц1=8О и 01=5, но р2=82 и 02=5, то графики обоих распределе- ний будут в значительной мере пе- рекрывать друг друга. Наибольшее значение Pi^95, а наименьшее зна- чение Р2=77. Если объемы выбо- рок, взятых из каждой из этих ге- неральных совокупностей, будут слишком малы, то может иметь ме- сто любое из трех соотношений: = и По- этому разницу между щ и р2 нель- зя обнаружить, сравнивая такие значения и Я2. Объемы обеих выборок должны быть достаточно велики, чтобы соответствующие вы- борочные распределения не пересе- кались. Часто спрашивают, зачем вообще тратить время на обнаружение та- ких небольших расхождений, как разница между щ=80 и ц2=82? Но ведь даже если эти числа ха- рактеризуют массу некоторого ма- териала в граммах после его рас- фасовки, то разница между массой 10 миллионов таких упаковок в пер- вом и во втором случае вполне за- служивает серьезного анализа. Если изготовляемые на станке стержни всего на 0,0002 дюйма ко- роче стандарта, но из-за этой раз- ницы может выйти из строя двига- тель другого дорогого устройства, это расхождение стоит того, чтобы его обнаружить. То же самое мож- но сказать и об отдельных компо- нентах тех или иных лекарств. 9.2. СОПОСТАВЛЕНИЕ р, С р0 Заголовок этого раздела кратко характеризует эксперимент, цель ко- торого— сопоставление истинного значения р, с некоторым стандар- том, обозначенным буквой цо. Зна- чение этого стандарта определяет- ся, как правило, одним из двух спо- собов. Его либо просто предписы- вают извне, исходя из тех или иных технических или организационных соображений, или же оно на самом деле представляет собой среднее по некоторой стандартной генераль- ной совокупности, с которой сопо- 193
ставляют одну или несколько дру- гих совокупностей. Можно привести сколь угодно много примеров стандартов в про- мышленном производстве. Почти любая деталь станка, прибора, авто- мЪбиля, самолета, судна и др. про- изводится со степенью точности, определенной техническими усло- виями. Такие условия могут требо- вать, чтобы длина стальной булав- ки равнялась 0,250±0,005-10-3 дюй- ма. К диаметру отверстия предъяв- ляются более жесткие требования например, 2,250±0,002-10-3 дюй- ма. Ось двигателя с большим сро- ком службы должна быть особо тщательно зачищена и отполирова- на, при этом требуется, чтобы ее диаметр был равен 1,0000zc0,0002 дюйма. В такой же форме даются технические условия на прочность материалов (напряжение сжатия, растяжения, разрыва и т. д.), масса, объем и прочие характеристики. Есть два способа проверить, со- ответствуют ли реально выпускае- мые детали техническим условиям, например условию, что диаметр не- которого отверстия должен быть ра- вен 2,250±0,002. Во-первых, можно просто измерить диаметр каждого отверстия. Если некоторые отвер- стия будут иметь диаметр, меньший, чем 2,248, то это еще можно будет исправить. Однако детали с отвер- стиями, диаметр которых больше 2,252, скорее всего придется отпра- вить в брак. Иногда проводится не только про- верка отдельных деталей, но и за- пись результатов измерений. После этого можно составить распределе- ние частот этих данных и вычис- лить его среднее и среднее квадра- тическое отклонение. Это среднее будет средним по соответствующей генеральной совокупности р, а сред- нее квадратическое отклонение даст значения о. Затем это значение среднего можно сравнить с ро= =2,250, а о использовать, чтобы установить, например, какой про- цент деталей лежит в пределах ро± ±0,002. 194 Такой сплошной контроль приме- няют в тех случаях, когда издержки ошибки очень значительны. Если это не так, то сравнение реального значения р с рю, требуемой техниче- скими условиями, можно проводить не путем сплошного контроля, а пу- тем взятия выборки (т. е. не вычис- ляя значение р). Ко второй группе сопоставлений относятся случаи, когда значение рю само является средним арифметиче- ским, вычисленным по некоторой1 стандартной генеральной совокуп- ности. Примерами могут служить такие показатели, как заработная плата рабочих некоторой компании и средняя заработная плата по- стране, средний уровень знаний школьников вообще и уровень в данной школе, средняя производи- тельность одного предприятия и всей отрасли и т. д. Из этих примеров видно, что сфе- ра приложений методики сопостав- ления р с рю действительно очень широка. В данном разделе мы рассмот- рим порядок сопоставления р с р<> с помощью X. Как сравнивать <т с Оо с помощью выборочного зна- чения s, мы рассмотрим в разд. 9.6. 9.2.1. Проверка гипотез с помощью пределов интервала принятия Рассмотрим, какие выводы о свя- зи между р и рю можно сделать, сравнивая X и ро. Пусть техниче- ские условия требуют, чтобы ро= =250-10~3 дюйма. Предположим далее, что наш станок может нахо- диться только в двух состояниях— отрегулированном и разрегулиро- ванном. В первом случае он произ- водит булавки с pi=250, во вто- ром— с р2=255. Других значений р быть не может. Предположим так- же, что <Т1=ав=<г=2,50. Работник ОТК хочет выработать методику, которая даст ему возмож- ность установить с помощью X, вер- но ли, что po=pi, или же p«^pt- Так как ему никогда еще не прихо- дилось этого делать, и он не знает,
как определить требуемый объем выборки, он принимает п=25. Для п=25 0- = 2,50/ У25= 0,5. Интересующие исследователя взаи- мосвязи графически показаны на рис. 9.1. На горизонтальной оси отмечено значение ро=25О. Обе ге- неральные совокупности, графики которых построены внизу, распреде- Рис. 9.1. Проверка гипотез, п=25, °—— =0,5) (две возможности для р.) лены по нормальному закону и име- ют одинаковые дисперсии. Строя эти графики, мы считали, что наи- большее и наименьшее значения каждого из распределений равны соответственно 250±3-2,50 и 255± ±3-2,50. Аналогичным образом построены и распределения выбо- рочных средних, т. е. в предполо- жении, что их наибольшие и наи- меньшие значения равны 250± ±3-0,5 и 255±3-0,5 соответственно. На всех последующих графиках мы будем строить только распределе- ния выборочных средних. Контролер заметил, что Р(Х,< < Н.+-Ч-) = Р (X, < 251,5) = 0,999- Поэтому он мог спокойно считать, что практически наибольшим воз- можным значением выборочного среднего, которое можно получить из генеральной совокупности с щ== =250, будет J?i=251,5. Затем он отметил, что Р(Х2> >р2—Зсг)=Р(Х2>253,5)=0,999, и отсюда заключил, что наименьшим возможным значением Х2, которое можно получить из генеральной со- 13* вокупности с р2=255, является 253,5. Таким образом, наибольшее выборочное среднее из первой ге- неральной совокупности не пере- крывается с наименьшим выбороч- ным средним второй генеральной совокупности. Пользуясь этим, кон- тролер сформулировал следующее правило: гипотеза Н: ц=р.о спра- ведлива, если Х<251,5; альтерна- тивная гипотеза р#=ро справед- лива, если Я>251,5. С учетом того, что крайние значения и Х2 далеко отстоят друг от друга, мож- но сформулировать и другое прави- ло: р=ро, когда Х<252,5, и р#=ро. когда .£>252,5, где точка 252,5 взя- та потому, что она находится в се- редине отрезка между точками pi и р2. Главное предположение в этом правиле называется «нулевой гипо- тезой». Если нулевая гипотеза спра- ведлива, это означает, что р=ро. Если она отвергается, то р#=ро. До тех пор, пока выборочные средние удовлетворяют условию л<252,5, мы принимаем нулевую гипотезу. Это значит, что наш ста- нок отрегулирован правильно. Одна- ко, как только мы получим Х> >252,5, станок следует остановить и отрегулировать. Такое решающее правило оказа- лось очень хорошим со статистиче- ской точки зрения, но наш контро- лер попытался уменьшить расходы на выборочное обследование и взять выборку меньшего объема. Он выбрал л=4. Выборочные распределения для Ji и Xz при п—4 показаны на рис. 9.2. Генеральные совокупности на f(X) 255 Hq-250 2*t5 Рис. 9.2. Проверка гипотез, п=4,о—= — 1,25 (две возможности для р) 195
рисунке отсутствуют, так как они в точности повторяют показанные на рис. 9.1. В этот момент контролер заме- тил, что эти два выборочных рас- пределения перекрываются. Это усложнило принятие решения по сравнению с предыдущим случаем. Все, что он знает, это что при Х< <251,25 истинное значение средне- го удовлетворяет соотношению р= = ро- Число 251,25 равно р?—За-, и, следовательно, выборочное среднее, удовлетворяющее неравенству Х< <251,25, не может принадлежать Ра. Кроме того, понятно, что если X больше, чем 253,75, т. е. X боль- ше величины р, -{- Зс-, то это выбо- рочное среднее не может получить- ся из генеральной совокупности с ра=255, и в этом случае наш ста- нок следует остановить и отрегули- ровать. Контролер, однако, не знал, как быть, если X лежит в пределах 251,25<Я<253,75. Такое выбороч- ное среднее могло получиться из любой из этих генеральных сово- купностей. Немного подумав, он решил по- смотреть, что получится, если сфор- мулировать следующее правило. Так как выборочные исследования проводятся регулярно (через фик- сированные промежутки времени), он вычислил предел интервала при- нятия pi +1,96а -у=Цо +1 .®6а —= =252,45. Если выборочное среднее таково, что Я<252,45, то нет необ- ходимости останавливать станок, и это значение X происходит из гене- ральной совокупности с Ц1=250= =цо. При Я>252,45 станок следует отрегули ювать, так как в этом слу- чае можно считать, что он произ- водит булавки с (12=255. Оставим теперь нашего контролера и про- должим анализ задачи самостоя- тельно. Ошибка первого рода. Для преде- ла интервала принятия (i0+ 1,96с-= = 252,45 площадь, под нормальной J96 кривой справа от этой точки равна Л^2,45 —0,025. Это значит, что в идеале из 1000 случаев, в которых (i=(io, гипотеза (1=(ю будет приня- та 975 раз, и, следовательно, реше- ние не останавливать станок будет правильным. Однако в 25 случаях гипотеза будет отвергнута. Это произойдет потому, что предел ин- тервала принятия равен Р-, 4~ 1,96с-, а не рь0—За—. В результате ста- нок будет остановлен, но, как бы- стро выяснится, зря, поскольку о» был отрегулирован правильно и вы- пускал булавки с (i=(io=25O. Когда предел интервала принятия равен (1<,-т-Зз-=253,7о, площадь под нормальной кривой справа от этой точки равна Д“25?.75=0,0013. Таким образом, вероятность отвергнуть ги- потезу (1=(ю=25О при условии, что- на самом деле ро=25О, равна 0,0013. Такой вероятностью можно спокой- но пренебречь. Это значит, что пре- дел интервала принятия устраняет возможность ошибки такого рода. Когда предел имеет вид -|“ -4-1,96о-, вероятность того, что с ганок будет остановлен напрасно, равна Р(Х > |i0 -| • 1 ,96о-) —0,025. Она сов- падает с уровнем значимости « и называется вероятностью ошибки первого рода. Этот термин мы уже использовали в связи с вычислени- ем доверительных пределов в гл. 8. В нашем примере стоимость ошиб- ки первого рода определяется стои- мостью неоправданной остановки и обследования станка. Отметим, что значению 2=1,96 соответствует а= =0,025, а не а=0,05, как в преды- дущих случаях. Причина состоит в том, что теперь нас интересует лишь один (односторонний) пре- дел, соответствующий только одно- му хвосту графика. В тех много- численных случаях, когда нас инте- ресуют оба хвоста, значению z= =1,96 должен соответствовать уро- вень значимости а=0,05. Ошибка второго рода. Еще одна I I 1 i
трудность, возникающая при ис- пользовании двух перекрывающих- ся (вследствие того, что объем рас- сматриваемых выборок мал) выбо- рочных распределений, заключает- ся в возможности совершить так называемую ошибку второго рода или fl-ошибку. Мы говорим, что со- вершаем такую ошибку во всех слу- чаях, когда принимается неправиль- ная гипотеза. Для предела интерва- ла принятия ро+1,96 а-= 252.45 может оказаться, что выборочное среднее, меньшее этого предела, все-таки происходит из генеральной совокупности с параметром ц2, а не |М. Согласно нашему правилу, если .¥<252,45, следует принять нуле- вую гипотезу и станок останавли- вать не следует. Если при этом X происходит из Pt, то это решение будет правильным. Однако если .¥<252,45, но происходит из Р2, то станок нельзя не останавливать, так как на нем будут производить- ся булавки неправильной длины. Эти булавки придется забраковать или (если возможно) переделать, а соответствующие расходы опреде- лят стоимость ошибки второго рода. Вероятность ошибки второго ро- да относительно ps — 255 равна fl = . что представляет собой пло- щадь под кривой слева от точки р, -|- -J- 1,96о-. Другими словами, вероят- ность Р(Х < 252,45|ps = 255, с^- = = 0,5) = fl =0.021 (это читается так: вероятность того, что 252,45 при условии, что =255 и = 0,5) 9.2.2. Принятие решений и определение объема выборки с учетом ошибок первого и второго рода В случаях, подобных только что рассмотренному, т. е. когда станок может производить булавки либо с |ц=250, либо (если он разрегу- лирован) с Ц2=255, очень просто устранить ошибки как первого, так и второго рода (или и тех и других одновременно). Чтобы сделать пренебрежимо ма- лой ошибку первого рода, можно взять допустимый предел в точке Pi -J- Зо-=253,75. Это, однако, уве- личит ошибку второго рода до зна- чения fl = Р (У|< 253,751; р, = 255) = Чтобы сделать пренебрежимо ма- лой ошибку второго рода, достаточ- но взять в качестве допустимого предела точку р1 — За-=251,25. В этом случае вероятность ошибки второго рода пренебрежимо мала, но вероятность ошибки первого ро- да равна а=Р(У>251,25|ц1= =250)=Л*(25=0,159. Оба эти допу- стимых предела показаны на рис. 9.2. Добиться того, чтобы обе ошибки были одновременно пренебрежимо малыми, можно, взяв выборку до- статочно большого объема (в на- шем примере больше, чем л=4). Объем выборки должен быть таким, чтобы два выборочных распределе- ния практически не перекрывались. Точнее, начиная с точки р2—Зо—. хвост_ выборочного распределения для Л'2 не должен лежать слева от предела интервала принятия. Кроме того, сам предел должен, в свою очередь, иметь вид pe-|~ 3sЧтобы это выполнялось, необходимо, что- бы ^Ч-Зз-=!г5 — Зс-. Подставляя известные значения, получаем 250 -и (3 -2,50) '//Г= 255 - - (3-2,50);//? откуда п — 9. Для выборок такого объема предел интервала принятия имеет вид ^-f-За* = 252=р2—За-. Если мы принимаем ошибку первого рода с вероятностью а=0,05, но хо- 197
тим устранить ошибку второго рода, то нам следует решить уравнение ^+1,96зг =1^-30-. Объем выборки п=9 может пока- заться небольшим, если сравнить его с объемами выборок, которые мы рассматривали в гл. 8. Но уже было отмечено, что в промышлен- ном производстве вариация данных обычно невелика. Отсюда и неболь- шой объем выборок. Если 1*0=250, р 1=250, но р,2=253, то объем выборки, при котором ошибки первого и второго рода бу- дут практически исключены, равен п=25 и может быть получен из ана- логичного уравнения 250 4-(3 2,5Э)//п = = 253 - (3-2,50)//л. Однако, чтобы практически исклю- чить ошибки обоих ТИПОВ при р,о= =250, р(=250 и р,2=251, следует взять выборку уже с п=225. Это показывает, что с помощью малых выборок нельзя обнаружить различие между цэ и pi в тех слу- чаях, когда это различие невелико. Это обстоятельство имеет общее значение и справедливо для всех критериев проверки гипотез. Теория статистических выводов в тех случаях, когда р может прини- мать бесконечное множество значе- ний. Все сказанное выше основыва- лось на предположении, что на на- шем станке можно производить бу- лавки, соответствующие только двум значениям р. Такие случаи редко встречаются на практике. В частности, рассмотренный нами пример был явно искусственным. Конечно, он был полезен тем, что с его помощью мы смогли йроиллю- стрировать целый ряд важных ста- тистических понятий. Теперь мы не- сколько изменим его, сделав более реалистичным. Предположим, что согласно тех- ническим условиям длины булавок должны примерно составлять р0= =250, но на нашем станке можно производить продукцию с любым 19S значением р. В этом случае уже нет необходимости помечать р тем или иным индексом. Достаточно запи- сать соотношение между р и ро, на- пример р,=ро, р^ро, р>ро и т. д. Так как мы рассматриваем один и тот же станок, разумно предполо- жить, что о не зависит от р и име- ет постоянное значение. Рис. 9.3. Проверка гипотез, п—4.,о-,= = 1,25 (может принимать бесконечное чис- ло значений) Для нас среди бесконечного чис- ла возможных значений р идеаль- ной является генеральная совокуп- ность с р=ро=25О, поскольку она в точности соответствует техниче- ским условиям. Распределение вы- борочных средних, соответствующих этой генеральной совокупности для п=4, показано на рис. 9.3. Теперь уже контролер может счесть необходимым установить пределы интервала принятия не с одной, а с обеих сторон точки р=ро (рис. 9.3). Например, уровню зна- чимости (или вероятности ошибки первого рода) а=0,05 будут соот- ветствовать точки р нн 1,96а-= =(247,55—252,45). Как и ранее, мы можем сделать эту вероятность пре- небрежимо малой, расширив преде- лы до интервала принятия рг±3з-. Однако, поскольку р может теперь принимать любое значение, вычис- лить вероятность ошибки второго рода р и выработать правило при- нятия гипотезы или отказа от нее в этом случае гораздо сложнее.
Если Х>252,45 или Х<247,55, то можно считать, что р=/=ро, и, следо- вательно, наш станок необходимо отрегулировать. Однако если 247,55<Х <252,45, то уже нельзя сказать, что р=ро. На рис. 9.3 вид- но, что такие выборочные средние вполне могут происходить из боль- шого числа генеральных совокупно- стей, значения р для которых отли- чаются от значений ро- Возьмем, например, значение X— =251,1 (которое попадает в преде- лы интервала принятия) и найдем р, для которого р—Зз-=251,1 (иная форма записи доверительных преде- лов): р=251,1+3-1,25=254,85. Это означает, что Х=251,1 может про- исходить из генеральной совокуп- ности с р, равным 250, 251, 252 или даже^254,85. Но вероятность то- го, что X происходит из генераль- ной совокупности с р, большим, чем 254,85, очень мала. Точно так же можно решить уравнение р-|~3о^ = =251,1 (откуда р=251,1—3-1,25= = 247,35) и сделать вывод, что Х= =251,1 может происходить из гене- ральной совокупности с р, равным 250, 249, 248 или даже 247,35. Одна- ко маловероятно, что это значение X соответствует генеральной сово- купности с р<247,35. Другими сло- вами (как это и показано _на рис. 9.3), выборочное среднее Х=251,1 может происходить из любой гене- ральной совокупности, которой со- ответствует значение р, лежащее в промежутке от 247,35 до 254,85. Таким образом, если р может принимать не два, а произвольное число значений, и если пределы ин- тервала принятия имеют вид ро± — гох»то нулевая гипотеза р=ро может быть принята, но это вовсе не значит, что_р=ро. Нельзя ска- зать, что если X попадает в преде- лы интервала принятия, то обяза- тельно выполняется соотношение р=ро- Эю происходит в том и толь- ко в том случае, когда объем вы- борки достаточно велик, чтобы можно было суверенностью пред- полагать, что Х=р=ро. Чтобы избежать недоразумений, мы в этой книге будем формулиро- вать наше правило следующим об- разом: гипотеза Н: р несуществен- но отличается от ро и альтернатив- ная гипотеза — р существенно от- личается от ро. В этом случае, при- нимая гипотезу Н, контролер дол- жен сказать, что различие между р и ро несущественно, а не р=ро- Отсюда ясно, что смысл ошибки первого рода в случае, когда Н мо- жет принимать произвольное значе- ние, точно такой, как и в случае двух значений. Однако ошибку вто- рого рода (значение 0) теперь уже следует вычислять для каждого из значений р, представляющего инте- рес для исследователя С учетом до- пустимых пределов (247,55—252,45) можно, сказать, что вероятность ошибки второго рода для, напри- мер, pi=251,00 равна 0,=^^^— .247.55 о, —А_ед . Эта площадь равна доле выборочного распределения X при условии pj=251,00, попадающей в интервал (247,55—252,45). Соответ- ствующие значения z равны: zx= (252,45—251,00)/1,25= 1,16: z2=(247,55—251,00)/1,25=—2,76, ' откуда 0, = A^ -ТГ*7 = 0,8770- —0,0029=0,874. Аналогично можно вычислить вероятность ошибки вто- рого рода и для р2=252,00, р3 = =255,00 и р«=256,20. Они равны со- ответственно 02=О,64О, р3=0,021 и 04=0,001. Среднее р4 мы выбрали так, чтобы выполнялось соотноше- ние р4—За—=252,45. Таким образом, наименьшее значение X, которое можно получить по Р4, совпадает с верхним допустимым пределом. Все эти соотношения показаны на рис. 9 4,а. Аналогичные величины можно вычислить и для нижнего допусти- мого предела р0 — 1,96с—= 247,55. Эти числа говорят о том, что если разница между р и р0 невелика, то значение ошибки второго рода 0 близко к значению площади под нормальной кривой между допусти- мыми пределами, т. е. к ^^0= 199
Рис. 9.4. Ошибка второго рода для некоторых фиксированных значений ц; допустимые пределы для а=0,05 и п=4 , а— *-1,25 (а) и п-9, с_ = 0,833 (б) JC X 250 Z55 260ц = 0,95. С увеличением разности между р и цо ошибка р уменьша- ется. Когда ц станет больше верх- него предела интервала принятия, так что расстояние от ц до этого до- пустимого предела будет больше трех стандартных ошибок среднего (т. е. р — За->252,45), ошибка § бу- дет пренебрежимо малой. Таким предельным значением будет сред- нее значение ц4. и на практике ста- тистик, рассматривая наш пример, будем считать, что для р>р4== 256,20 ошибка второго рода невозможна. Вернемся еще раз к постановке задачи. Для п=4, с-=1,25 и а=0,5 пределы интервала принятия имеют вид цо± 1,96 (1,25)=(247,55— —252,45). Решающее правило пред- полагает выбор одной из двух гипо- тез: гипотезы Н\ разница между у и цо несущественна и альтернатив- ной гипотезы: у, существенно отли- чается от Щ). Если X происходит из генеральной совокупности с р=цо= =250, то вероятность принятия этой гипотезы равна 0,950. Другими сло- вами, Р (247,55 <Х< 252,45 |ц=цо= =250) =0,950, а Р(Х>252,45 или X <247,551 ц=цо=250) =0,05. В этом случае нет ошибки второго рода, а вероятность ошибки первого рода равна а=0,05. Когда р,У=рю, ошибки а уже не будет. Имеется только ве- роятность ошибки второго рода, или, в более общих терминах, веро- ятность принять или отвергнуть рас- сматриваемую гипотезу относитель- но некоторого значения ц. Для щ=251,00 р,=Р(247,55<Х< <252,45|jij=251,00) =0,874, а веро- ятность отвергнуть _эту гипотезу равна 71=1—Pi=P(X>252,45 или Х<247,551 ц,=251,00) =O,1J6. Веро- ятность р2=Р (247,55 <Х< 252,451 112=252,00) =0,640, а_ у2=1—р2= =Р(Х>252,45 или X<247,55|р,2= =252,00) =0,360. _ Наконец, р4= = Р (247,55 < X < 252,45 |у4 = =256/20) =0,001, а _ у4= 1 —₽4= =Р (X > 252,45 или X<247,551 ц4= =256,20) =0,999. Если, например, значение у.2=252,00 на самом деле встречается 1000 раз, то мы 640 раз не останавливаем станок, 360 оста- навливаем его для отладки. Если контролер хочет устранить ошибку второго рода для значений р, которые находятся ближе к 250, чем Ц4=256,2О, то ему следует вы- брать новое предельное значение у и найти соответствующее значение л. Например, для ц=254,2 ему надо будет составить и решить следую- щее уравнение: + 1,96сь = у — 3s-, • -V А 250 4- (1,96- 2,50)/|/« = =254,2 — (3-2,50)/
Отсюда н—9, c7=2,50/j/9 =0,83 и пределы интервала принятия при а—0,05 будут равны 248,37—251,67. Для р^=251, Ц2=252 и р3=255 ве- роятность ошибки второго рода рав- на соответственно 3]-=0,787 (для п—4—0,874), £2=0.345 (по сравне- нию с 0,640 для п=4), и £3 после округления будет равно нулю. Соот- ветствующие площади показаны на рис. 9.4,6. Решающее правило останется тем же самым. Гипотезу следует при- нять (что означает, что станок не нуждается в отладке, поскольку р. не существенно отличается от ро), если X лежит в пределах 248,37— 251,67, и гипотезу следует отверг- нуть (станок отладить), если Х< <248,37 или если Х>252,67. При этом возможны следующие вари- анты: 1. Гипотеза будет отвергнута, и решение отладить станок будет пра- вильным, поскольку р, существенно отличается от pfl. Когда р очень близко к ро, вероятность отвергнуть гипотезу почти не отличается от а. С увеличением расстояния между р и ро эга вероятность возрастает. Когда р становится настолько боль- шим, что величина р— За- будет больше или равна верхнему преде- лу интервала принятия, вероятность принять гипотезу становится прене- брежимо малой. Аналогичные рас- суждения справедливы и для ниж- него предела интервала принятия. 2. Гипотеза будет отвергнута, но решение отладить станок будет не- правильным, поскольку на самом деле р=ро. Вероятность такой ошиб- ки равна а. Доводя предел интерва- ла принятия до значений pQ-|-3o-, вероятность ошибки первого рода делают пренебрежимо малой. 3. Гипотеза принимается, и реше- ние не отлаживать станок оказыва- ется правильным. 4. Гипотеза принимается, но ре- шение не отлаживать станок оказы- вается неправильным. Ошибку первого рода можно ус- транить, чего нельзя сказать об ошибке второго рода. Однако кон- тролер ОТК (или кто-либо другой) всегда может установить некоторые предельные значения для ц' и \i", относительно которых значения £ должны быть пренебрежимо малы или совпадать с некоторым уровнем значимости, а после этого опреде- лить, выборку какого объема следу- ет взять, чтобы получить это значе- ние £. Р 0,5 0 2<f8 250 252 д Рис. 9.5. Кривая ошибок второго' рода для' И(Я=250, 0=2,50, а=0,05, п=4 и п=9 На рис. 9.5 показана вероятность ошибок второго рода для рассмот- ренных выше пределов интервала принятия при <1=0,05, п=4 и п=9. Интересующие нас значения р, рас- положены на горизонтальной оси. Соответствующие значения £ отло- жены по вертикальной оси. Графи- ки позволяют находить р.' и р," по- значению £. При составлении плана выбороч- ного исследования в задачах, свя- занных с проверкой гипотез, глав- ное— понять связь между объемом выборки и значением £. Если отно- сительно некоторого значения р'за- дана £, то п можно найти из урав- нения l*o + za-=p' — z'o-. Например, при р0=250, о=2,50 а= =0,045 (и. следовательно, при z= =2), р'=253, £=0,003 (и, следова- тельно, z'=3) 250 + (2-2,50)//^ = = 253-(3-2,50)//л, откуда л=17. При таком неболь- шом значении £ мы можем быть практически уверены в том. что ни 291
одно X, происходящее из генераль- ной совокупности с р,=253, не по- падет в пределы интервала приня- тия. Если дано п и необходимо для некоторого р найти р/, то эту фор- мулу следует преобразовать к сле- дующему виду: Р-'=Ь, + «Г — (*+*')• Из всего сказанного выше ясно, что наша гипотеза может быть от- вергнута, даже когда на самом де- ле разность между ро и р очень ма- ла. В то же время гипотеза может оказаться принятой несмотря на то, что на самом деле р. заключено между р' и р", где ц' и ц" опреде- лены по вероятности р. Следует подчеркнуть, что в при- кладной статистике большое значе- ние имеет не только интерпретация результатов выборочного исследо- вания, но и искусство составления плана выборочного исследования, или выборочного плана. В процессе составления такого плана одной из основных задач яляется определение подходящего объема выборки Этот объем определяют сравнением стои- мости выборочного исследования со стоимостью принятия неправильно- го решения. Решение каждой задачи, связан- ной с проверкой гипотез, можно раз- бить на два этапа. Первая заклю- чается в выработке плана выбороч- ного исследования, а вторая — в ин- терпретации полученных результа- тов. Окончательный план должен учитывать связь между издержками принятия неверного решения и сто- имостью самого выборочного иссле- дования Эти издержки, в свою оче- редь, зависят от а и 0 и от объема выборки. После того, как выборка уже отобрана, величина 0 более не нужна, поскольку более точная ин- терпретация результатов может быть получена с помощью довери- тельных пределов, причем они по- могают истолковать связь между X и р как в том случае, когда X ле- жит внутри пределов интервала 202 ' ; принятия, так и тогда, когда X не попадает в них. При определении объема выбор- ки имеются две возможности. Стои- мость выборочного исследования может быть 1уала по сравнению со стоимостью неправильного решения, | и в этом случае мы можем взять до- статочно большую выборку, с помо- щью которой можно обнаружить даже очень небольшое расхождение между р и ро- Во втором варианте речь идет о тех случаях, когда сто- имость выборочного исследования может оказаться равной стоимости неверного решения, причем еще до достижения объема выборки, гаран- тирующего обнаружение некоторой «минимальной разницы» между р, и р0. Тогда максимальным значением п будет то, для которого стоимость выборочного исследования будет равна стоимости неправильного ре- шения. Разумеется, есть много за- дач, в которых не требуется очень большой точности и в которых до- статочно взять выборку меньшего объема. Если мы согласны на то, чтобы отобрать выборку достаточно боль- шого объема (т. е. расходы на от- бор выборки относительно невели- ки), с помощью которой можно бы- ло бы обнаружить даже очень не- большую разницу между ро и р, то возможен либо однократный отбор одной выборки, либо последователь- ный отбор нескольких выборок. В любом случае необходимо преж- де всего установить, что именно мы примем за «минимальную разницу» между р и р0 Этот вопрос анало- гичен вопросу, рассмотренному на- ми в гл. 8. Например, для стальных булазок эта величина равна одной тысячной дюйма. Выборка, объем которой гарантирует, что»-=0,2» может считаться удовлетворитель- ной. В других задачах вполне мо- жет быть, что р может равняться р,о=1200 фунтов с точностью до 10 фунтов. В этом случае все выбороч- ные средние будут округляться до десятков фунтов, и соответствую- щий объем выборки можно найти из
соотношения zs- = 2,5. При Х=ро нулевую гипотезу следует принять, а при — отвергнуть. Зачастую, однако, можно сэконо- мить время и средства, если начать с выборки относительно небольшого объема в надежде на то, что нам удастся отвергнуть гипотезу преж- де, чем мы дойдем до значения п, соответствующего «минимальной разнице». Можно предложить це- лый ряд процедур проведения вы- борочного исследования. Одной из самых простых будет следующая: выберем подходящее значение р', относительно которого мы можем позволить себе совершить ошибку второго рода с вероятностью 0. За- тем с помощью приведенной выше формулы найдем значение л и от- берем выборку этого объема. Если то нашу гипотезу сле- дует отвергнуть, и решение задачи на этом заканчивается. Если окажется, что X <+ +гс-, то необходимо выбрать еще одно значение р' (которое будет распо- ложено ближе к go), найти новое п и продолжить отбор выборки, лока число элементов в ней не станет равным л. Если окажется, что Х> >р0-|-гс-, то задача решена. В про- тивном случае можно выбрать еще одно р' или просто взять значение п, соответствующее «минимальной разнице». Если стоимость проведения выбо- рочных исследований настолько ве- лика, что расходы на отбор выбор- ки будут равны стоимости принятия неправильного решения еще до до- стижения значения п, соответствую- щего минимальной разнице, то сле- дует прежде всего найти именно это значение п. Если окажется, что от- бор такой выборки является слиш- ком дорогим, то необходимо найти объем выборки, отбор которой мы можем себе позволить. Пусть, например, /г=25. Теперь уже нужно вычислить не только пределы интервала принятия, но также найти pz, относительно кото- рого вероятность совершить ошибку второго рода будет равна 0. Если ро=25О, ог==2,50, п=25, а=0,045 (и, следовательно, z=2), 0=0,0225 (и, следовательно, zz=2,00), то значе- ние можно найти из соотноше- ния 250+ (2,00-2,50)1 25 = =р' - (2,00-2,50)//25, ' р'=252. В других случаях бывает целесо- образно найти несколько значений п и р', соответствующих различной вероятности а и 0, и только после этого выбрать оптимальное значе- ние п. После того, как значение п опре- делено, необходимо отобрать соот- ветствующую выборку. Если окажет- ся, что ?С> pD-j-zo-, то гипотеза о том, что между р0 и р нет сущест- венной разницы, отвергается, и ре- шение задачи на этом закончено. Ес- ли X попадет в интервал р0 — — го- < X < P# + 2о-, то решение необходимо принять, основываясь на этом факте. Будет иметься неко- торая вероятность того, что р, оцен- кой которого является полученное значение X, попадет в интервал р'<р<р". Однако интервал (pz, р) может оказаться в два раза шире интервала принятия (р0—zoj-, щг|- -J-ZO-). Следовательно, принятию решения существенно поможет вы- числение доверительных пределов. Кроме того, мы можем указать зна- чение р, которое по тем или иным причинам представляет для нас осо- бый интерес и лежит в промежутке р'<р<р", и вычислить вероятность того, что рассматриваемое значение X происходит из генеральной сово- купности с этим р. Еще раз подчеркнем, что, отбирая сначала небольшую выборку, мы можем сэкономить некоторую сум- му. Если гипотезу удастся отверг- нуть, то на этом решение задачи бу- дет закончено. Если ее придется прв- 203
пять, то мы можем вычислить дове- рительные пределы и постараться принять решение на основе этой ин- формации. Если это не удастся, то следует отобрать большую выборку и т. д., пока мы не дойдем до опти- мального значения п. 9.2.3. Проверка гипотез сопоставлением 2* с z или /* с t В рассмотренных выше задачах проверку гипотез можно проводить и несколько иным путем. В место то- го, чтобы строить пределы интерва- лов принятия, вычисляют значение 2*, которое затем сравнивают с тео- ретическим значением 2. Аналогич- но вычисленные значения срав- нивают с теоретическими значения- ми t. При этом как процедуры срав- нения, так и анализ результатов ос- нованы на рассмотренных выше принципах. Поэтому разница меж- ду этим разделом и предыдущим за- ключается скорее в форме проведе- ния исследования, но не в его со- держании. Все рассмотренные вы- ше примеры можно переформулиро- вать в терминах сравнения величин 2* И Z. Еще раз предположим, что наш станок может производить продук- цию либо с pi==po=250, либо с Ц2= =255. Мы отбираем выборку с п= =25 и хотим определить по ней, из генеральной совокупности с каким именно параметром происходят ее элементы. В этом случае нулевая гипотеза имеет вид: //: р=ро, а аль- тернативная— р^ро- Чтобы прове- рить эту гипотезу, сравним z*= = |Х — с 2- При «=0,025 z=l,96. Так как в таблицах обычно приводятся толь- ко положительные значения теоре- тических г и t, величины z* и t* также можно сделать положитель- ным, вычисляя модуль |Х—p]/ff£ или |Х— у, |/$-. Если окажется, что z* будет меньше z=l,96. то нашу гипотезу следует принять. При 2*> >z гипотезу следует отвергнуть. 204 Для п =25 имеем с-=2,50/)/25 = = 0,5. Предел интервала принятия, соответствующий этому уровню зна- чимости, равен 1,96 о-=250,98. Если выборочное среднее X состав- ляет 250,2, то гипотезу необходимо принять. В этом разделе мы сфор- мулируем соответствующие решаю- щие правила: «Если разность меж- ду выборочным средним и ро мень- ше, чем 1,96 от стандартной ошиб- ки, т. е. если 2* <2, то гипотезу сле- дует принять». Пользуясь допусти- мыми пределами, мы сравниваем абсолютные значения в дюймах, фунтах или других единицах изме- рения. В этом варианте все величи- ны измеряются в «единицах стан- дартных ошибок». Результаты от этого не меняются. В рассмотрен- ном примере г*=(250,2—250)/0,5= =0,4. Поскольку 0.4<1,96, гипотеза принимается. Разница между значением ро= =250 и пределом интервала приня- тия 250,98 в дюймах равна 0,98; в единицах стандартных ошибок она равна 1,96. Разница в дюймах между ро—250 и Х=250,2 равна 0,2; выраженная в единицах стандарт- ных ошибок она равна 0,4. Если р может принимать произ- вольное число значений, то неравен- ство р<ро ничем не лучше, чем не- равенство р>ро В этом случае про- верка гипотезы является двусторон- ней процедурой (нас интересуют оба хвоста распределения). Теперь для z=l,96 а=0,05, но не 0,025. Те- перь наши гипотезы будут форму- лироваться следующим образом: ги- потеза И: р несущественно отлича- ется от ро, альтернативная гипоте- за—р существенно отличается отро. Если выбрать а=0,05, то 2=1,96. Для ро=25О и п=4 с-=1,25. Если мы получили выборочное среднее, равное Х=249,1, то 2*=| 249,1— —2501/1,25=0,7. Таким образом, 2*<г, и гипотеза принимается. Для Х’=501,1 г*= (501,1—250)/1,25= =200,9. Поскольку 200,9>1,96, ги- потеза отвергается. Когда выбороч-
woe среднее сильно отличается от .go, даже при слабом знакомстве с правилами анализа результатов вы- борочных исследований нашу гипо- тезу можно немедленно отвергнуть, т. е. не производя дальнейших рас- четов и сопоставлений. Что касается значения Х=249,1, .для которого наша гипотеза была принята, на вопрос: «Каково при- близительно наименьшее возможное значение ц, соответствующее гене- ральной совокупности, из которой может происходить это значение X?» можно ответить так же, как и выше (а именно, решая уравнение За—=249,1). Соответствующее значение g равно 245,35. Этот во- прос можно теперь перефразировать следующим образом: «При каком наименьшем значении g соответст- вующая генеральная совокупность может дать выборочное среднее Х=249,1, если считать допустимой вероятность 0=0,05?» Это значение можно найти из уравнения g-|- —1,96с-=249,1, откуда р=246,65. .Если взять п=9, то эти два значе- ния g будут еще ближе к g<j. Вооб- ще, отобрав выборку достаточно .большого объема, оба эти значения ji можно сделать настолько близки- ми к go, насколько это необходимо. Подобные задачи удобно рассмат- ривать в терминах доверительных «интервалов X zt: га- =249,1 га—. Проводя проверку гипотез с по- мощью пределов интервалов приня- тия или же путем сравнения z* с г или /* с t, мы основываемся на тех .же принципах, что и в гл. 8. Считая, что генеральная совокупность рас- пределена по нормальному закону и что выборки отбираются бесповтор- но, можно сформулировать следую- щие правила: 1. Если значение о известно нес- ли генеральная совокупность беско- нечна или достаточно велика, чтобы •было справедливо неравенство п< <0,05 N, то — а!Уп и необходи- мо сравнивать величины z* и г. 2. Если значение ст известно, но генеральная совокупность относи- тельно мала, так что «>0,05 N, то о- (a.-V п)У 1 — n/N и необходи- мо сравнивать величины z* и г. 3. Если значение ст неизвестно, а генеральная совокупность беско- нечна или настолько велика, что я<0,05 N. то следует сравнивать величины t* и t Если при этом ^30, то I берут из таблицы /-рас- пределения. При с>30 i аппрокси- мируется величиной г. 4 Если значение ст неизвестно, но генеральная совокупность относи- тельно мала, так что n>0,05 N, то s - ($ /У n)V 1 — n/N и следует сравнивать величины t* и t. При гл^ЗО значение t берут из таблицы /-распределения. При и>30 t ап- проксимируется величиной z. 5. Если распределение генераль- ной совокупности не является нор- мальным, объем выборки должен быть достаточно большим. Пример 1. Фермер каждый год выра- щивает около 5000 индеек. Однажды ему предложили купить корм нового типа. Этот корм будет стоить дороже, но, как пред- полагается, даст возможность увеличить среднюю массу индеек на 1 фунт. Такоч увеличение средней массы было бы ферме- ру очень выгодно, и он решил испробовать новый сорт корма, но не на всех сразу индейках, а на некоторой случайной вы- борке. Каким должен быть объем этой вы- борки? Средняя масса индеек, выращенных фермером за последние три года, равна ц=14.8 фунта. Поэтому он решил, что его стандартом будет щ=15,8 фунта. Так как нас интересует лишь то, будет ли ц су- щественно больше, чем ро. то нам будет необходимо воспользоваться односторон- ним критерием с пределом интервала при- нятия 15,8—ts—. Соответствующая гипоте- за формулируется Следующим образом: ги- потеза Н'. ц несущественно отличается от Цо или ц больше go- Альтернативная гипо- теза имеет вид: ц существенно меньше go. Если в результате своего выборочного исследования наш фермер получит Х> >15.8— is—, то он примет сформулиро- ванную гипотезу и закупит количество но- вого корл1а, необходимое для всех индеек. В противном случае гипотеза будет отвер- гнута. Чтобы найти подходящий объем вы- борки, необходимо знать либо значение ст, либо значение $. Поскольку значение ст 205
фермеру было не известно, его необходимо было оценить величиной s. Эту оценку можно было получить, взвесив необходи- мое число индеек, откармливающихся ста- рым способом. Фермер считал, что новый корм мог бы изменить среднюю массу ин- деек, но не отразился бы на разбросе масс. Выборка с л =15 дала следующие ре- зультаты (в фунтах): 11,5; 15,7; 16,8; 15,0; 17,4; 11,6; 14,2; 15,2; 15,6; 15,7; 14,7; 16.8; 17,1; 13,0; 11,2. Среднее квадратическое отклонение этих значений равно s = Fe (X, —X)7(n - I) = 2.07. В этот момент фермер подумал о том, что неплохо бы сравнить расходы на про- ведение .выборочного исследования с из- держками, связанными с ошибками а и ₽ Издержки выборочного исследования рав- ны стоимости нового корма в количестве, необходимом для выборки из п индеек, минус стоимость корма старого типа. Из- держки ошибки первого рода равны сум- ме, в которую обойдется фермеру принятие решения, что ц меньше ро, тогда как на самом деле ц несущественно отличается от р®. При этом фермер решит «не покупать корм нового типа» и тем самым потеряет возможность получить большую прибыль. Издержки ошибки второго рода будут определяться тем, что фермер примет свою гипотезу (и закупит большое количество нового корма), тогда как на самом деле р существенно меньше рю- При этом допол- нительные расходы на новый тип корма окажутся нескомпенсированнымн увеличе- । нием дохода от продажи птицы. В связи с этим фермер решил прове- сти более подробный анализ соответствую- щих затрат. К своему удивлению он обна- ружил. что увеличение его дохода вслед- ствие использования нового корма может оказаться гораздо больше, чем расходы на выборочное обследование (т. е. стоимость корма в количестве, необходимом для вы- борки из л индеек). Кроме того, он обна- ружил, что окажется в выигрыше даже в том случае, если средняя масса его индеек увеличится только на 0,5 фунта» т. е. до м=15.3 фунта. Поэтому он решил проверить гипотезу с уровнем значимости а=0,005 и с р-» 0,025 относительно ц'— =15.3 фунта. Объем требуемой выборки был найден из уравнения + 1 »96$- = н-о — 2.58s—, 15.3 + X X + (1,96-2,07)/Кп = 15,8 —(2,58'2,07)/Кп. Решением будет л—353. Это означает, что фермеру следует ку- пить корм нового типа в расчете на 353 индеек Эти индейки будут, конечно, откармливаться отдельно ото всех осталь- ных. Когда они вырастут, фермер опреде- лит их среднюю массу. Если окажется, что Х> 158—2.58 т. е. если /•</, то он примет свою гипотезу и будет считать, что |А, либо несущественно отличается от ро, 206 либо ц>|1о. Если окажется, что /*>/, то он отвергнет свою гипотезу. Тем не ме- нее, прежде чем окончательно принять ре- шение о приобретении нового корма, фер- меру полезно будет проделать еще одно вычисление- Если X будет лежать недалеко от предела интервала принятия ро— ts— с какой бы то ни было стороны (т. е. когда /• близко к 0, то ему стоит вычис- лить доверительные пределы, а также ве- роятность того, что это значение X про- исходит из генеральной совокупности с не- которым фиксированным значением р. Пример 2. Проектный отдел компании, производящей электродвигатели, разрабо- тал некоторые усовершенствования, кото- рые должны существенно увеличить срок службы двигателей. Руководству компании предстоит оешнть два вопроса. Будет ли увеличена? срока службы мотора достаточ- ным, чгобы оправдать возрастание цены на него, необходимое для покрытия новых издержек производства? Если серийное производство нового двигателя все-гаки будет начато, то необходимо будет уста- новить новые условия гарантийного обслу- живания. Каким должен быть гарантийный срок работы нового двигателя? Чтобы собрать некоторые опытные данные, было решено изготовить 12 двига- телей новой модели. Далее, для определе- ния их срока службы все двигатели были приведены в действие и должны были ра- ботать до тех пор, пока ие выйдут из строя. Это заняло бы приблизительно 6 мес. Подобная процедура применяется довольно часто. Однако на этот раз ком- пании было необходимо принять решение гораздо быстрее. Поэтому все двигатели работали только месяц. После этого срок службы каждого из моторов был предска- зан по износу отдельных деталей. Соответ- ствующие значения срока службы в часах оказались равными 6212, 6309, 6181, 6273» 6290. 6222, 6248, 6224, 6249, 6172. 6263, 6195. Среднее но этим данным равно — 6236 ч, a s=43 ч. Средний срок службы двигателя старого типа был равен Ц(г= =5820 ч. Рассматриваемая задача вновь требует применения одностороннего критерия про- верки гипотез. Имеем: гипотеза И: р несу- щественно отличается от рс или р<щ я альтернативная гипотеза — Значе- ние t для а=0.025 и а=11 равно f=2,201, а предел интервала принятия равен 4-As—=5820+ 220!-2.4=5847. В то же время /♦-= (6236—5280) /12,4=77.1. Таким образом, ^>5847, а /*>/« Следовательно, необходимо отвергнуть сформулированную нами гипотезу и заключить, что ц>ро. Как правило, в этом случае даже очень неопытный статистик, увидев такую боль- шую разницу между ро»=5820 и ^—6240, должен будет прийти к тому же выводу без какой бы то ни было проверки ги- потез.
Учитывая этот результат» руководство компании может не только организовать рекламу двигателей с большим сроком службы, но и увеличить гарантийный срок этого двигателя. Чтобы получить более точную информацию, работающий в этой компании специалист по статистике может вычислить доверительные пределы C.L. = = X ± . При уровне знатимости о® X = 0.05 C.L. - 6236±2,201-12,4 = (6,209— —6263). Таблица 9.1. Срок службы электродвигателей, ч Срок службы, «I h x'i F"i 6170 <_Х<6185 2 0,167 6185 0,167 6185 <Х <6200 1 0,083 6200 0,250 62С0<2£<6215 1 О.О&З 6215 0,333 6215 < X < 6230 2 0,167 6230 0,500 6230 <Х< 6245 0 0 6245 0,500 6245 < X < 6260 2 0,167 6260 0,667 6260 < X < 6275 2 0,167 6275 0,834 6275<Х< 6290 0 0 6290 0,834 6290 < X < 6305 1 0,083 6305 0,917 6305 <Х< 6320 1 0,083 6320 1,000 12 Если компания хочет дать гарантию на определенное число часов, а затем опре- делить число (в %) двигателей, которые проработают этот срок, то опа может по- ступить следующим образом. Составим распределение частот выборочных данных и вычислим значения, приведенные в табл. 9.1. Отметим точки F" на нормальной ве- роятностной бумаге и подгоним к ним пря- мую линию, как мы делали в разд. 5.4 (см. рис. 5.11). Если эта прямая хорошо опи- сывает опытные данные, то можно взять на горизонтальной оси точку X*, найти соответствующее значение F" и сообщить эту информацию руководству фирмы. На- пример, при Х=6190 Е"=5Ю,18. Это значит, что примерно 18% всех двигателей будут иметь срок службы меньше 6190 ч. i 9.3. РАЗНИЦА МЕЖДУ щ И ц2 Как мы уже указывали во введе- нии к этой главе, разницу между рц и ц,2 можно обнаружить, сравнивая значения Xi и Х2, вычисленные по малым выборкам, при условии, что распределения Р\ и Р2 не перекры- ваются. Такие случаи встречаются, однако, не часто. Чаще всего при- ходится сравнивать значения рц и р.2, которые не сильно различаются. Мало кто захочет сравнивать ско- рость чтения четвероклассников со скоростью чтения студентов. Одна- ко сравнивать скорость чтения уче- ников различных школ, но одинако- вого возраста уже интересно. Критерии, касающиеся различия межлу_рц и_р2, основаны на срав- нении Х| и Х2 и учитывают ошибку выборочного исследования. Эта ошибка вычисляется в предположе- нии, что pu=pi2. В связи с этим здесь также используется термин «нулевая гипотеза». Имеются две генеральные сово- купности Р\ и Р^, из которых берут- ся выборки объемом П\ и п2 соот- ветственно. Затем вычисляются вы- борочные средние Х! и Х2. Если оказывается, что Xi и Х2 находятся на большом расстоянии друг от дру- га, то без каких бы то ни было кри- териев принимается решение, что p.j и р2 существенно различаются. Ес- ли же два X имеют довольно близ- кие значения, то решение придется принимать с помощью того или ино- го статистического критерия про- верки гипотез. Мы уже знаем, что малая выбор- ка не дает возможности обнаружить небольшое расхождение между зна- чениями gi и ц2. В то же время да- же очень маленькую разницу мож- но обнаружить с помощью выборки достаточно большого объема. Предположим, что у нас имеются две нормально распределенные и боль- шие по объему генеральные совокуп- ности с параметрами ц, и t**, с* и Возьмем выборки, содержащие л, и пг элементов соответственно, и найдем разность dx=Xt—Xt. Выбо- рочное распределение значений dx будет подчиняться нормальному за-' кону, и его среднее будет равной х= =М (dx) = н, — j*s. Дисперсия значе- • ний dx имеет вад о*.-—-Ф-о*— = а среднее квадра- тическое отклонение 207
=V с-’,+4=/л ч+л/«г- Условие нормального распреде- ления Рх и необходимо только для того, чтобы d- было также распре- делено по нормальному закону. Фор- мула -Н*-2 справедлива для значений dx, построенных по любой паре генеральных совокупностей при условии, что отбор выборки произ- водится путем проведения незави- симых испытаний, т. е. если она от- бирается из больших по объему ге- неральных совокупностей или если производится повторный отбор. По- этому, когда Pi и Р% не являются нормально распределенными, фор- мула для ad- сохраняет свой вид, но, чтобы пользоваться таблицами значений нормального распределе- ния при проверке гипотез, следует отбирать выборки достаточно боль- шого объема. Вообще можно показать, что для любых двух независимых случайных переменных Х1 и Xt дисперсия их суммы равна сумме дисперсий, т. е. 0*^=0’,Если в качестве этих случайных величин вз^ть выборочные средние X, и то о®^—о*-, + + °-й == °‘1/л I + a Od- = —Величина od- назы- вается стандартной ошибкой разно- сти. Эти теоретические выводы можно проверить с помощью эксперимен- тального выборочного распределе- ния. Такое распределение можно построить, взяв достаточное количе- ство выборок (например, «1=5 и л2=6) из двух больших по объему и нормально распределенных гене- ральных совокупностей с парамет- рами Hi, PJ, о2| И 0^2- Для каждой пары выборок можно затем вычислить разности соответ- ствующих выборочных средних 4,- = =Xit - X/.- Когда н=Ь. примерив 208 половина значений будут отрица- тельны. Распределение частот значе- ний J убудет аппроксимировать тео- ретическое распределение d—. Среднее значение этого распреде- ления равно d-=2fid'i-/'2fi (где d't- есть средняя точка распределения} и должно аппроксимировать величину р., — Среднее квадратическое от- клонение o'd- = / Х/\ (de- — J-) 'S/ i должно быть приблизительно равно Экспериментальное распределе- ние, с помощью которого можно проиллюстрировать процедуру про- верки нулевой гипотезы, строится точно так же, с той лишь разницей, что наши выборки следует брать из генеральных совокупностей Pt и Р2, для которых Ц1=Ц2- Тем самым зна- чения diX должны быть близки к нулю. Наименьшее возможное значе- ние dt- можно приблизительно счи- тать равным dii~ 3o'd-, где г=3 берется в предположении, что значе- ния d- распределены по нормальному закону. Кроме того, величина 2* = =- а-Wg -I»., X,.} -£| t Q'ax будет примерно равна га= Реально проверка гипотез в этом примере проводится следующим об- разом. Если две выборки, отобран- ные одна из Р], а другая из Р2, да- дут значение d-=Xi—Х2 (выражен- ное в единицах стандартных оши- бок) , которое будет больше двух, то можно считать, что щ существенно отличается от р2. Чтобы узнать, бу- дет ли d- больше двух стандартных, ошибок, достаточно определить. z* = (X, — X,)/ad-. Таким образом, проверка гипотезы сводится к еле-
дующим операциям: вычислить зна- чение z* и сравнить его при некото- ром уровне значимости а со значе- нием г. При z*>z pi>g2, если Х(> >Х2. При z*<z величина щ несущест- венно отличается от ц2. Это означа- ет, что либо эти две генеральные совокупности одинаковы, либо пе- рекрываются настолько, что разни- цу между ними нельзя обнаружить с помощью выборок такого объема. Если это так, то независимо от то- го, будет ли Х]<Х2 или Xi>X2, придется заключить, что может иметь место любое из трех соотно- шений: |JU)=|Al, ИЛИ Щ>Р2 Ошибку второго рода можно практически устранить путем отбо- ра выборок достаточно большого объема. Значение таких выборок можно найти рассмотренными выше методами. Другими словами, объе- мы выборок должны быть таковы, чтобы соответствующие выборочные распределения Xi и Х2 не перекры- вались. Сформулируем несколько правил, с помощью которых можно устано- вить наличие или отсутствие разни- цы_между pi и |л2 по значениям Xi и Х2. 1. Генеральные совокупности Р\ и Р2 нормально распределены и имеют достаточно большой объем. Значения (У]=(т2=о известны. Гипо- теза Н: у,] несущественно отличает- ся от ц2. Альтернативная гипотеза: рч существенно отличается от ц2. Выбрав подходящее а, следует найти по таблице нормального рас- пределения соответствующее значе- ние z. Затем необходимо вычислить |(Х, -Л,) - (ц, - н,)1/оЛ = где od- = / о1/^ 4~о7л,=а>/1/п1Ч- 1/л,. Далее мы будем в выражениях для г* или /* писать в числителе про- сто —Х<2. При z*<z гипотеза принимается. Можно сделать вывод, что pi несу- 14-282 щественно отличается от ji2. В пре- делах, соответствующих ошибке 0, может выполняться любое из трех, соотношений pi=p2, Ц1<Р2 или pi> >|л2. Тот факт, что, например, Xi> >Х2, не имеет огношения к взаим- ному расположению чисел щ и ц2. При z*>z гипотеза отвергается. В этом случае неравенство Xj>X2 имеет вполне определенный смысл. Оно указывает на то, что pi>g2 и наоборот. 2. Генеральные совокупности Pi и Р2 нормально распределены и имеют достаточно большой объем, но значение_ 01=02=0 неизвестно. Тогда/*=(Х2 — X^]sa-имеет /-рас- пределение. Теперь нужно выбрать, уровень значимости а и найти зна- чение t для v=rzi+n2—2 степеней свободы. Далее, следует определить. где $ах — s V “Ь Цп,. а Чтобы оценить неизвестное значе- ние о, используют величину s'. Фор- мулировка гипотез и критерии их проверки сравнением /* с i анало- гичны приведенным в п. 1. Отметим, что когда N конечно и выборки бесповторные, формула для • Sa— имеет такой же вид при усло- вии, что /114-п2<ЛЛ 3. Генеральные совокупности Pi и Р2 нормально распределены и имеют достаточно большой объем. Значения «Л и о22 известны, но *т21=?£:<г22. Тогда определяют °dx' где 4. Генеральные совокупности Pi и Р2 нормально распределены и имеют достаточно большой объем, <J2i¥=o22, и обе эти величины <j*i и g22 неизвестны. Стандартная ошиб- 209-
ка разности равна sd- = /+ Л/л.. «о распределение (^ — Xt)[sd- для выборок небольшого объема не бу- дет ни нормальным, ни распределе- нием Стьюдента. Тем не менее оно близко к /-распределению, и для вы- борок малого объема таблицами Л распределения можно пользоваться при и=П1-|-Я2—2. Лучшее прибли- жение для t можно получить, если вычислять число степеней свободы по формуле1 (Л/Я1 + Л/Д.)1 При я, л« — 2 > 30 величина Of, —XJ/sa- распределена примерно по нормальному закону. Поэтому для проверки гипотезы необходимо •сравнить f = |X,-X,|'sd- < величиной I, аппроксимированной соответствующим значением z. 5. Когда генеральные совокупно- сти Р\ и ₽2 не являются нормально распределенными, объем выборок (п\ и п2) должен быть достаточно большим. Так как с помощью малых выбо- рок нельзя обнаружить небольшое расхождение между щ и |х2, необхо- димо найти такие гц и п2, с помо- щью которых можно обнаружить по крайней мере разницу |щ—g2|=& ПуСТЬ Ц2>Ц1, (Г21=Оа2 и П]—П2=П. Рассмотрим наибольшее значение Х'2 из всех, которые происходят из Pi, и наименьшее значение Х': -.з всех, _которые происходят из Р2. Если Xi и Х2 определены так, что 1*2—Н1=^» можно найти объем вы борки, которая обеспечат выполне- ние соотношения (Х\ — ^\)!adx —=г. В этом случае при |щ—ц2|>Л ги- потеза будет отвергнута. Предположим, что (X't—Л'1)/о<й= =z, где X\ — —z'ch , o-x = c/y?nt a z' может быть как равным, так и не равным г. Подставляя эти величины в уравне- ние, получаем — г'с- — (j*. -J- г'о- ))/od- = г; }xs-p1-2z'0-=20d-. Далее, учитывая, что £=ц2—pt. по- лучаем k = zoj/ 1/я 1 ,'п 4- 2z' п) — —"zayf 2/}/п -f-2z'o/V п\ з(уЛ 2z-|-2z')M; л = [0(K2z4-2z')/Jfe]*. Например, для k=3, и=2,5, z'=l,64 и z=2,00 /г = (2,5[1/2‘(2)4-2(1,64)]/3)\ л=^26 При 01У=о2 значение fii=n2=n мож- но найти следующим образом: [р - - (р, +2,ой)]/(о47)-=г; ==z/(°*i+A)M; k =4z]/s’ -J-o\l -/n 4-/(o, 4- П = + г'(з. + О.Я/Л}*. Оценивание разности |Л1—|х2 с по- мощью доверительных пределов. Когда гипотеза о том, что между ри и и2 нет существенной разницы, от- вергается, это расхождение можно оценить с помощью обычного мето- да доверительных пределов. Они вычисляются по следующим прави- лам: C.L. = (X. - Хг) ± 23/1^,+1/«; когда п21=а22=о2 и величина о из- вестна. C.L. =(Х, - Xt) zt ts'V l/n. 4-Jl/as, когда* *д‘1 = а,х—я*, но величина з* неизвестна* и где 1 Эта формула взята из книги Dixon Wilfrid J.. Massey Frank J., Jr. Introduction to Statistical Analysis, N. Y.: McGraw-Hill, 1969, p. 119. 210 s' =/|S(X,.,-X,A+£(X,-, -* +А — 2)-
Далее где C.L. = (X, - Xt)=b zV^Jn, + * * । ~г 77 когда и обе величины известны. Наконец, сх. = (%, когда Qi =/=02 и обе величины неиз- вестны. Доверительные пределы имеют приблизительно такой вид при ni+n2—2<30. Значения /-рас- пределения берутся со степенями СВОбОДЫ /11+^2—2. Объем выборки, дающей требуе- мую степень точности, можно най- ти из уравнения s’./n+^/n = k, /(Л(Л+Л) (t/ky=n. Пример L Компания, в ведении кото- рой находится большое число магазинов, разбросанных по всей страну решила рас- смотреть вопрос о целесообразности прове- дения общенациональной кампании по рек- ламе некоторого продукта. Выполнение предварительных исследований было пору- чено отделу сбыта готовой продукции. Чтобы добиться максимальной сравнимости результатов, проверка должна была произ- водиться в одно и то же время в двух со- поставимых регионах (а не в одном и там же регионе, во в разное время). Это устра- нило бы возможные эффекты, обусловлен- ные теми или иными сезонными нли цикли- ческими факторами. В регионе Л проводили соответствую- щую рекламную кампанию, тогда как в регионе В работа шла обычно^ Через не- которое время в регионе Л случайно были выбраны 22 магазина и собраны данные о количестве проданного ими товара. Со- ответствующие суммы оказались равными (в долларах): 391, 367, 360, 429, о89, 420, 375, 344, 421, 385, 443, 379, 379, 356, 405, 369, 425, 345, 372, 395, 406, 382. Сведения по 25 магазинам, взятым из региона В, ока- зались следующими (в долларах): 319,302, 311, 279, 317, 344, 333, 326, 290, 348, 245, 323. 332, 302. 300, 286, 309, 338. 334, 293, 285, 310, 312. 325, 291. При а«=0,05 М=1,96. Результаты даль- нейших вычислений следующие: для регио- на Л Я1"-^388, sai" 15 887/21 =757, а для региона В 3^=310 и 13 424/24=559. Будем считать, что и /• = | X, — Xt -== |388 — 310 | /7,55 = tfx — 10,3, з_ ^Уз*л/п, + к%/л4=К757/224-559/25= ОХ = 7,55. Поскольку /*>/, гипотезу о том, что Pi несущественно отличается от Цъ следует отвергнуть. Таким образом0 неравенство указывает на то, что И1>Цз- Теперь можно вычислить доверитель- ные пределы для щ. При уровне значимо- сти а—0,05 они имеют вид: C.L. = 388 ± 2,08^757/22 = (376 — 400). Если необходимо оценить разность то можно вычислить доверительные преде- лы для этой величины C.L. = (X. -Хг) ± i =78±1,96-7.55= (63—93). С помощью этой информации руковод- ство компании может теперь принимать ре- шение о том, следует ли организовывать рекламную кампанию в общенациональном масштабе. Пример 2. Возьмем наибольшее и наи- меньшее выборочные средние из табл. 7.8: Х1ж251Д9 а л2—^249,15. Этот пример, ко- нечно. искусственный, поскольку мы знаем, что обе выборки, соответствующие этим значениям, отбирались из одной и той же генеральной совокупности, т. е. № = №» а о-—о2=а=2,53. Определим Z* = I х, - xt I/O К 1/Л.+ 1/п. = = | 251.10 — 249,151/2.53 К1/20 + 1/20 = = 2,50. При а=0»05 гипотеза о том, что между р, и р2 нет существенного различия, будет отвергнута, и мы совершим ошибку перво- го рода. При а<0,012 (т. е. при z>2,50) гипотеза будет принята. Пример 3. Предприятие должно заку- пить большую партию стальных листов, и, необходимо принять решение о том, про- дукции какой сталелитейной компании от дать предпочтение. Покупателя особенно интересует предел прочности при растяже- ния» поскольку эта характеристика часто не согласуется с техническими условиями. Были проведены испытания, которые далн следующие результаты (в фунтах на квад- ратный дюйм)/Сталелитейная компания Л: 83 542. 85 459, 83 378, 82 575, 84 27!, 82 285, 83 742, 81 238, 83 112, 82 208; сталелитейная компания В 85 483, 96 396. 84 852» 83 965, 85 297, 84 492, 85 930» 88 829, 85 482. 82 908. При о-=0,05 и №=18 /=*2,101. Вычислим теперь значение f = I X. - X» I / (s'KI/и. + l/ns). где формула = s' Кl/nt + 1/л» исполь- зована потому, что разумно предполагать, что а21“а®а=>а. Выборочные данные дают следующую оценку для 14* 211
-s' = fl-xt)*+s (Xia- Xa)«J/(n, 4- •f* fts 2) = = К(12 758 0264-22 435 842)/18 = 1398. Таким образом, <*= |— 21821/1398-0,447= =3,5. Поскольку t*>t, гипотезу о том, что между Ц1 и р-2 нет существенного разли- чия, следует отвергнуть. Разница между jii и цг существенна, и, следовательно, -можно считать, что Ц2>щ. Предприятию «следует закупить стальные листы у стале- „литейноя компании В. 9.4. СОПОСТАВЛЕНИЕ п С л0 Сравнить истинное значение л с некоторым стандартом ло не пред- оставляет никакой проблемы. Пусть, например, рабочий у токарного станка должен высверлить отвер- стия в 1000 деталей. Во время рабо- ты сверлильного устройства рабо- чий свободен, и инспектор ОТК мо- жет попросить его проводить про- верку каждой законченной детали. Контроль проводится с помощью двустороннего калибра. Если один конец калибра входит в отверстие, а другой — нет, то диаметр отвер- стия правилен, и деталь кладется в ящик с готовыми деталями. Если оба конца калибра не входят в от- верстие, то это значит, что оно слишком мало. Если оба конца вхо- дят, то отверстие слишком велико. В каждом из этих случаев детали отправляются в брак. Количество •бракованных деталей оказалось рав- ным WS—55. Число нормальных де- талей равно NF, а общее число У= ==jVS-HVF==1055, откуда n=NS =55/1055= 0,052, т. е. 5,2%. Это совпадает с истинным значе- нием л. Его можно сравнить с обыч- ным процентом брака при этой опе- рации, который равен ло=6,О%. По- видимому, наш рабочий работает лучше других, и мастер может учесть это обстоятельство в буду- щем. С точки зрения статистика, анализ на этом закончен. Все, что для него потребовалось, это сосчи- тать бракованные детали и вычис- лить значение л. Если такой анализ проводить вы- варочным методом, то задача будет 212 похожа на задачу сравнения ц и рю путем сравнения X с цо. В этом слу- чае контролер ОТК должен принять решение о размере выборки, ото- брать такую выборку, проверить во- шедшие в нее детали, сосчитать ко- личество бракованных деталей и рассчитать величину p=NS}n. За- тем сравнением р с л0 можно попы- таться сделать выводы о том, суще- ственно лн л отличается от л0. Методы, рассматриваемые нами ниже, применимы при условии, что отбор бесповторный и что соответст- вующее биномиальное распределе- ние можно аппроксимировать нор- мальным. Последнее условие выпол- няется, когда лло>5 для ло<(1— —по) или когда п(1— л0)>5 для (1—ло) <яо. В этих предположениях процеду- ра проверки гипотез заключается в сравнении 2* с z, соответствующей уровню значимости a. z* вычисляет- ся по одной из двух формул. Пер- вая из них имеет вид: 2*= |/? — «0| = |р — * " - «»)/«• Она применяется в тех случаях, когда генеральная совокупность бес- конечна или когда п<0,05М. Если генеральная совокупность конечна и n>0,05N, то z* следует вычислять по формуле ?*= 1^— — «.I'VXOOO—х.)/л ]<1 —n>N. Заметим, что в формуле для стан- дартной ошибки выборочных про- центов в этом случае лучше пользо- ваться величиной по, а не р. Именно поэтому в ней стоит оР, а нс sp. При z*<z гипотезу о том, что между л и ло нет существенного раз- личия, следует принять. В против- ном случае опа должна быть от- вергнута. Ошибки аир рассматри- ваются так же, как и выше. Пример /. Вернемся к задаче о про- верке размера отверстий в деталях неко- торого типа. Отверстия делаются очень быстро с помощью ручною сверлильного станка или некоторым автоматическим устройством. В проведении 100%-ной про- верки нет необходимости, и качество ра-
Соты оператора можно проверить по неко- торой выборке. Рабочему необходимо обработать 10 000 деталей. В среднем брак при про- ведении этой операции за длительный про- межуток времени составляет Л(Я=6,0%в Для того, чтобы биномиальное распределение можно было аппроксимировать нормаль- ным, объем выборки должен удовлетворять усложняю л>83 [поскольку должно выпол- няться соотношение ц-0,06>5]. Из дихо- томных генеральных совокупностей выбор- ки обычно отбираются достаточно большо- го объема, и это условие, как правило, выполняется, Чтобы найти подходящий объем вы- борки, следует принять во внимание ошиб- ки первого и второго рода. Можно счи- тать, что мастера не интересует случай, когда л<л0. Его беспокоит лишь возмож- ность того, что я>л<>. В этом случае ра- бочий должен быть переведен на более низкооплачиваемую работу’ или вообще уволен. Таким образом, интересующий нас критерий вновь должен быть односто- ронним. Для уровня значимости а = 0,0225 пре- дел интервала принятия имеет вид п0 4- 4-2сг—я,+ 2 Vл, (100— я,)/л К 1=пДб 00% Такой предел эквивалентен сравнению ве- личины z*~|p—л|/оР с 2 = 2. Если окажется, что р<л<г | 2ор (т. е. •если z*<z)» гипотезу о том, что л несу- щественно отличается от До или даже мень- ше Ле, следует принять, и наш рабочий не потеряет свою работу. Если окажется, что />>^04-20» (т. е. что z*>z), его следует перевести или уволить. Однако, когда ему сообщили об этих двух' вариантах, мастер понял, что при -относительно небольшом объеме выборки гипотеза может быть легко отвергнута, когда я всегда на 1% больше Ло=6,0. Он счел неправильным так сурово наказывать рабочего за небольшое расхождение. В то же время с учетом возможности ошибки второго рода гипотеза могла оказаться принятой даже в том случае, когда рабо- чий дает, скажем, 10% брака. Поскольку расходы на проведение вы- борочного исследования по сравнению •с издержками принятия неправильного ре- шения незначительны, мастер оешил посту- пить следующим образом. Во-первых, он выбрал л'>л0 такое, что относительно этого л' ошибка второго рода может быть совершена с некоторой фиксированной ве- роятностью р. В нашем случае он принял л'=8,5 и ₽” 0.0225. С учетом того, что а= «=Р = 0,0225, объем выборки можно полу- чить, решая уравнение «, + z Vйо(100—п0) л V I — n/tf = =п' _ z> (100 — я,), п КI — л/10 000. Так как а=₽, z будет равно zf. Подставив соответствующие величины, получим 6 + 2 Кб“ 94/л V Г^л/; о tco = = 8,5 — 2 Кб -94/л И1 — л/10000 , 4 V КI —л/10 000 -= 2,5, п ~ 1262, Необходимо отобрать выборку с п= = 1262, проверить все ее детали (такое ко- личество деталей можно проверить при- мерно за 1,5 ч), определить количество брака NS и вычислить p=A’S/I262. После это можно получить г*= |р—я0|/Ор, где ор = Кб.94/1262 — 1262/10 С<_0=0,62% Предположим, что мы получил^ р-=7,0. г*— |7»0—6,0 [/0,62=1,61. Таким образом, z*<z; гипотеза принимается, н рабочий сохраняет свое рабочее место. Тот же ре- зультат получаем» определяя предел интер- вала принятия P(rj 20р=6.О-1-2-0,62=7,2 и замечая, что р—7.0 меньше, чем 7.2. При Р=7,5 17.5—6,01/0,62-2,42. Теперь уже z*>z; гипотезу следует от- вергнуть, а рабочего перевести или уво- лить. Однако мастер может заметить, что значение р=7»5 может быть с легкостью получено из генеральной совокупности с л, равным, например, 6,5, что он считает вполне допустимым На этом этале несо- мненную пользу может принести вычисле- ние доверительных пределов. Они равны C.L. = 7,5 ± 2 К7,5-92,5/1262 X х И1 — 12(52/10000 = 7,5 ± 2.0,69 = = 6.1 =8,9. Если доверительные пределы ие помо- гают, мастер может продолжать увеличи- вать объем выборки до тех пор, пока не сможет принять необходимое решение. Пример 2. Кампания разработала но- вый сорт зубной пасты н должна принять решение о том, следует ли производить ее в общенациональном масштабе. Если про- изводство будет начато, но паста не будет пользоваться Спросом, то компания понесет большие убытки. Если производство не бу- дет начато» ио окажется, что паста поль- зовалась бы спросом, то компания упустит возможность получить большую прибыль. Так как издержки принятия неправильного решения очень велики, руководство компа- нии решило провести анализ спроса. Был выбран некоторый регион» новый сорт насты был разослан по магазинам этого региона, начата рекламная камлания, а в каждую семью был бесплатно послан образец новой пасты. Через некоторое вре- мя было проведено выборочное последова- ние с целью установить, какой процент на- селения перешел на использование новой пасты. Если >5% населения пользуется этой пастой, то имело бы смысл начинать производство этого сорта в общенацио- нальном масштабе. В противном случае от него пришлось бы отказаться. Отдел сбыта разработал план выбо- рочного обследования, приняв а—0,045, ?=2Д)0 и р=0»15 относительно величин в 3 213
и 7%. Соответствующий такой ошибке объем выборки равен 5 J- 2 /5-95/л = 7 — 1 ,С4 /5-95/л; п= = 1098, ито дает стандартную ошибку ар = — V 5-95/1098= 0,66%. Пределы интерва- ла принятия имеют вид Яо±г<Тр*=5± ±2»00 (0,66) — (3,7—6,3). Эти результаты дают следующий критерий. Если р>6,3 (г*>2Л0), то следует начинать производ- ство нового сорта зубной пасты. Если ока- жется, что р<3,7 (z*<2,00), то от него придется отказаться. Для значений, лежа- щих в интервале 3,7<р<6,3 (0<г*<2,00), следует вычислить доверительные пределы и рассмотреть весь проект заново. Резуль- татом дополнительного рассмотрения долж- ны быть либо принятие решения, либо от- бор выборки большего объема. Предположим, что результаты первого выборочного обследования уже поступили. Оказалось, что WS—70 и />=70/1098— =6,4%. Это означает, что л несущественно отличается от по. Доверительные пределы имеют видг C.L. = 6,4 ± 2 /6,4.93,6/1098 = 4,9 Ч- 7,9, и их можно представить руководству ком- пании для дальнейшего анализа. Пример 3, Один из кандидатов на не- который пост на данном этапе своей изби- рательной кампании решил, что его шансы очень хороши и что он должен собрать значительно больше 50% голосов. Если это действительно так, то он мог бы умень- шить расходы на свою избирательную камланию. Организация, проводящая опрос общественного мнения, разъяснила ему связь между объемом выборки и издерж- ками проведения выборочного исследова- ния. Кандидат предложил п—200. При а= =0,05 и п=200 оР= /50'50/200 =3,54% и -предел интервала принятия будет равен 50-]-1.64-3,54=55,8. В связи с этим орга- низация по опросу общественного мнения сообщила кандидату, что даже при р= =55,7% число его сторонников составит несущественно больше 50%. В то же вре- мя такая выборка может происходить из генеральной совокупности, которой соот- ветствует л— 61,5 (с вероятностью 0,05). [Поэтому объем выборки должен быть больше, чем п=200. Кандидат решил, что значение р=0,05 при л'=58 вполне доста- точно. В этом случае ему придется опла- тить выборочное исследование (п=420). Это значение п можно получить из урав- нения 50 + 1,64 К50 ‘50/п = = 58— 1,64 /50-50/п. Теперь предел интервала принятия име- Lt вид 50+1,64 /50-50/420=54,0. Это по- будило кандидата спросить; какова веро- 214 ятность, что гипотеза окажется отвергну- той, если л=55? Чтобы ответить на этот вопрос, следует найти Р (р>54,0|л=55%, п—420) =Лтем.о. Соответствующее значение определяется величиной г = (54 — — 55)// 55 • 45/420 = —0,41, откуда 41 w-o.4i=0,84, Такой ответ удовлетворил кандидата, н он решил провести обследо- вание. 9.5. СОПОСТАВЛЕНИЕ л( С л2 Как и во всех предыдущих слу- чаях, рассмотренных в этой главе, значения Л] и л2 можно сравнивать, непосредственно вычисляя каждый из этих параметров. Если это невоз- можно или нецелесообразно, то не- которые выводы все-таки можно сделать, сопоставив значения pi и р2. Проверка того, насколько Л1 отли- чается от л2, проводимая сравнени- ем pi и р2, основана на тех же тео- ретических принципах, что и провер- ка того, насколько различаются зна- чения pi и ц2. Будем считать, что у нас имеется большая дихотомная генеральная совокупность, что отбор осуществляется бесповторно и что объемы выборок позволяет считать распределение величин (pi—р2) приблизительно нормальным. Ожи- даемое значение этого распределе- ния равно M(pi—p2)=nt—n2, а среднее квадратическое откло- нение adp — /^.(lOO—1г)/л.-|--к(100 — т)^,— Эту формулу выводят с учетом того, что дисперсия разности двух независимых случайных величин равна сумме их дисперсий. Диспер- сии pi и р2 равны соответственно О2р1 = л(100— Л) /til И 0^2 = =л (100—л) /п2. = т. (100 — *)/«, (100 — — -r) ;Пг — « (100 — it) (1 lnt + 1 /«,). откуда непосредственно следует фор- мула для cap.
Проверка гипотезы о наличии или отсутствии разницы между Я[ и я2 основана на предположении, что jti—я2=0. Следовательно, для z .можно записать г — [Са — А) — К — = = КА ~ А) - 01/з*г= (А - рМъц,- Прежде чем проводить проверку, следует выбрать уровень значимости и определить объем выборки. После отбора выборки необходимо срав- нить значения z* и г. При z*<z ги- потеза о том, что между Л1 и л2 нет существенной разницы, принимает- ся. Это означает, что в пределах ошибки р может выполняться любое из трех соотношений Л1<лг, Я1=л2 или Л1>Л2. Если окажется, что z*> >z, то гипотезу следует отвергнуть, откуда следует, что при р\<ръ Л1<л2 и наоборот. Z* можно вычислить по формуле 2 = (рх Рг)1$4р» где sdp уpr (100 — р) (1 /л, +1 /п,) Значение р' рассчитывают по дан- ным обеих выборок, так что р'=^5,+ *$,)/(«> +А)- При этом предполагается, что Л1= —я2. Если гипотеза о том, что между Л1 и л2 нет существенной разницы отвергается, то можно вычислить до- верительные пределы для Л1—л2: C.L. = (а - А) ± zsdp = (р, - а)± =t KpJlOO-А)'«1+ аООО - А).'А- Отметим, что здесь стандартную ошибку ВЫЧИСЛЯЮТ С ПОМОЩЬЮ Pl и А, а не р'. Объем выборки, необходимой, чтобы обеспечить требуемую степень точности, можно приблизительно найти следующим образом: ZSdp = Ь\ zVy (100 - X) Yn)=k- y(iW-y)(tyi) = (k№i n =$p' (100 - p’) (z/ky. Для того чтобы определить «>= =л2—А с помощью которого можно найти некоторую минимальную раз- ницу | Л1—л2|=&, можно воспользо- ваться приемом, рассмотренным в разд. 9.3. Считая, что лг>Я1 и л1= ==П2=л, вычислим наибольшее p"i, происходящее из Pi, и наимень- шее p"it происходящее из Р2, такие, что я2—Л(=й. Как и ранее, (р"г—p"i)/SdP==z, где р’\ =*, 100—и р'\ — = — z' У(100 — !п. Конечно, значения Л1 и л2 нам не известны. В качестве некоторого компромиссного варианта можно взять значение рг— (а+а) /2, полу- ченное по предварительным выбор- кам. Тогда р", =«, +»')//(|00-Х)/я И А-/)/«. Подставляя эти величины в наше уравнение, получаем к2 — ж 'V — - (Я, + ж'/^(ЮО-^/Кл)/ К/?'(Ю0-//)К(1/л+1/л) = »; T.t - Т, - 2z'//p00= =^/2/ (100 - У)/Уп; . k = у р'(100 - р') X х (У^-у2У}1Уп\ п = {Ур1 (100 - р1) (У2z -hJ2zf)/Ap. Пример 1. Двое рабочих на одинако- вых станках изготовляют одинаковые де- тали. Есть ли существенная разница в про- центе выпускаемого ими брака? Чтобы вы- яснить это, была собрана следующая ин- формация: Л|=200, /VSia=12, р|=6.0; ла— •=200, NS2-18. ра=9,0. При а=0.05 z= =1.96. Значение z* ра<вно: г* = 16,0 — 9,0 |/К7,5-92,5 (1/200+1/200)= = 1,14»/., где p'=(12-i 18)/400=7,5%. Отсюда мастер, в ведении которого на- ходятся оба рабочих, может заключить, что Л1 н ла различаются несущественно, Следовательно, из того, что р\<р2, еще нс следует, что один рабочий делает больше брака, чем другой. 215
Для того чтобы обнаружить разницу по крайней мере а 4%, мастеру придется отобрать выборку, объем которой должен быть равен л = (К7,5-92,5 У?.1,96+ 2.!.641/4)1 = = 1588. Объем выборок был после этого уве- личен до Л|~п2=!588, и случайно были получены те же самые результаты: nt = =1588, JVS1=^95, pi=6.0; «*=1588. NS2= = 143, р2=9.0. Возьмем 2=1,96 и вычислим г*: z* = |6,0 — — 9,0 |/К7,5-92,5 (1/1588+ 1/1588) = = 3/0.93 = 3,23. Тетерь уже гипотеза должна быть отверг- нута, и мастер может считать, что второй рабочий делает существенно больше брака» чем первый. Пример 2. Издатель газеты хочет про- вести опрос общественного мнения в не- котором регионе, чтобы определить отно- шевие его жителей к обсуждаемому зако- нопроекту об абортах. При этом он хочет не только определить число жителей (в %), поддерживающих законопроект, но и понять, есть ли какая-нибудь разница в отношении к нему мужчин и женщин. Возникают две статистические задачи. Пер- вая заключается в вычислении доверитель- ных пределов, а вторая — в проверке того» насколько существенно Л] отличается отл3. Читатели его газеты будут считать разницу в подходе к этой проблеме между мужчинами и женщинами интересной лишь в том случае, если она будет составлять не менее 5%- Чтобы найти объем выборки, с помощью которой можно обнаружить та кую разницу, следует рассчитать л = (/5б+0[ИГ-1,96 + 2.1.64J/5)» = 3662. Таким образом, nr=/Zjj=3662. Стандартную ошибку выборочного процента (для всего населения, независимо от полз) можно аппроксимировать еще до отбора выборки. Объем выборки, необходимой для вычисле- ния доверительных пределов, равен не п= =3662, а «^=7324. Стандартная ошибка равна sP = К 50-50/7324 = 0,58%. Таким образом» желание понять, на- сколько по-разному подходят к законопро- екту мужчины и женщины, потребовало от издателя отбора гораздо большей выбор- ки, чем было бы необходимо для вычисле- ния одних только доверительных пределов. Обратите также внимание на разницу меж- ду объемом выборки в этом случае и в примере I. Пример 3. В табл, 7.15 приведены 65 значений выборочных процентов, поду- ченных из дихотомной генеральной сово- купности с параметрами Л1«Ла^=я=40%. Все выборки имели объем л=80. Возьмем теперь наибольшее и наименьшее из полу- 216 ченных в этих выборочных исследованиях значений pt и проверим» имеется ли су- щественная разница между m и л2: = 80, р,=31»25; «2=80, р^=53»75. Тогда С. adp = ^40-60(1/80+ 1/80) = 7.75. z*-53,75—31,25/7,75 =2,90. Таким образом, гипотеза будет отверг- нута при а=0.05 и 2=1,96 и принята при а<0,004 и z>2,90 (например, при 9.6. СОПОСТАВЛЕНИЕ ДИСПЕРСИЙ Сначала .мы рассмотрим, как можно сравнить значения о2 с а2о с помощью s2, а затем установим связь зависимости между o2i и о2^ с зависимостью между s2i и ss2. 9.6.1. Сопоставление а2 с а2» Сопоставление значений а2 и о20. с помощью s2 основано на теорети- ческих принципах, рассмотренных нами в разд. 8.4. Предположим, что мы отбираем выборки объема п из большой, нормально распределенной- генеральной совокупности. Отноше- ние s2/о2о будет распределено по за- кону %2/v (т. е. по закону хи-квад- рат с v степенями свободы). Пло- щадь под графиком распределения y2/v можно выразить в терминах процентилей Рт или в виде Л'/*/ — __ар,-'Ь« — 71Р1/,а ' , Некоторые значения процентилеft- для различных значений v и г приве- дены в табл. X (см. приложение). Например, для v — n — 1 = 10 /1-’М _ л₽0.05__ .1ЛЗ %« ^0.05 0,39 ’ где Р0.м. — 0.394 и 1,83 взяты из табл. X при ’/2а=0,05 и 1—]/2а= =0,95. При этом, разумеется, а= =0,10 Наша гипотеза формулируется следующим образом. Гипотеза //.а2 несущественно отличается от о2», альтернативная гипотеза:о2 сущест- венно отличается от о20. После того, как мы отберем выбор- ку и вычислим по ней s2, необходи-
wo сопоставить отношение s /а\ с 11 ^l—v,а • Прн P,fta <^Р}-ч,а гипотеза принимается. В пределах, задаваемых ошибкой р, мы можем’заключить, что любое из трех соотношений может быть справедли- во: а2=а‘о, или з*>а*в. При «7<<Р.,1в или при J/o\> Р^* гипотезу следует отвергнуть. При з* можно считать, что з1 < о\ и наоборот. Когда $г/а*в сравнивает- ся как с Ptf^ так и с Pf_tl в, мы имеем дело с двусторонним крите- рием Рассмотрим выборку л=6, ото- бранную из генеральной совокупно- сти стальных булавок, для которой о2=(2,53)2=6,40. Из табл. 7.6 возь- мем дисперсию этих шести величин s2=9,77. Будем считать, что о20= =6,40. В этом случае <j2=o2n. Сле- довательно, отношение s2/o20 дол- жно попадать в пределы ПРИ а=0»05 и v=n—1= = 5 Ро,о2з=0,166; Ро,975=2,566 ; 52/о20=9.77/6,40 = 1.527. Поскольку 0,166<1,527< 2,566, гипотезу о том, что между о2 и о20 нет существенной разницы, следует принять. Для другой выборки из табл. 7,6 л=20, a s2=5,432. Для а=0,05 и 1) = П—1 = 19 PlJ,025 — 0,469, Pq.975 = = 1,729 отношение s2/o20= ==5,432 /6.40=0,849. Мы вновь имеем 0,469 <0,849<1,729, так что гипотезу о том, что между а2 и о20 нет суще- ственной разницы, вновь следует принять. Можно рассмотреть и несколько иную формулировку: гипотеза Н—о2 несущественно отличается от а2» или о2>о2о; альтернативная гипотеза — <у2 существенно меньше о2о. В этом случае по таблице находится только значение Рв (а не Pj_a или Рч^). При $г1^а^>Ра гипотеза принимает- ся. Например, для а=0,05 и п=20 Р0105=0,533. Этот критерий будет односторонним. Предположим, что мы пользуемся односторонним критерием при о2о=6 и а=0,025, и требуется найти такое п, что относительно сг'2=4 ошибку второго рода можно совершить с ве- роятностью ₽=0,05. Теперь мы имеем два выборочных распределе- ния Одно описывает отношения s'2 [o'2, а другое — з2/о2о- Объем вы- борки п должен быть таким, чтобы обе кривые перекрывались не бо- лее, чем разрешено значениями ве- роятностей а и р. Это перекрытие определяется зна- чениями Hq’'95=0,95 и А/%_о25 =0,975, где P0,95=s'2/4, а Ро.о25=$2/6. Для таких двух распределений очевидно, что з,2/4>1, а s2/6<l. Следователь- но, Рс,95^ Ро,о25, но 8/2=s2. Если это так, то можно записать два уравне- ния: 4P0,9s=s2 и 6Ро,о25=«2- Отсюда 4Po,95=F=6Po,O25 И 6/4=Pq.95/Po,025"=1,5. В результате для a2o>a/2 мы имеем Л1°'г= Далее, можно с помощью табл. X (см. приложение) найти методом проб и ошибок значение п, соответ- ствующее отношению а20/<т'2==1,5. А именно, можно вычислить не- сколько значений Po.%/Po,o25, стре- мясь к тому, чтобы одно из них ока- залось близким к 1,5. Соответствую- щее п равно 160. Отметим, что все, что мы говори- ли о сопоставлении о2 и а20, приме- нимо и для сопоставления о с оо- 9.6.2. Сопоставление o2i с о22 Будем считать, что у нас имеются две большие нормально распреде- ленные генеральные совокупности, для которых o2i=o22. Отберем из каждой по одной выборке объемом П\ и П2 соответственно й вычислим P*=s2i/s22. Они будут иметь так называемое PW1-распределение с Vf=n—1 и о2=п—1 степенями сво- боды. Плотность F-распределения задается формулой f (р\ ((о. 4- о, - 2)/2)? . М ' ((е. - 2)/2)!((1», - 2)/2)! х (Uj \Ч/2 2>/2 Эта функция включает два пара- метра— Di и о2. Если значения и 217
va зафиксировать, то, приняв не- сколько удобных значений F и вы- числив соответствующие значения /(F)» можно построить ее график. При F=0 f(F)=O. Кроме того, для 0<F<oo Aeo0=l. Как обычно, пло- щадь под кривой обозначается через Ар, , а функция распределения есть F(F)=AF0. Значения некоторых функций F-распределеннй приведе- - ны в табл. XI (см. приложение). Чтобы сравнить величины o2i и о22 использовав s2i и $2г, сформулируем соответствующую гипотезу. Гипо- теза Н: а2| несущественно отли- чается от о22- Альтернативная Ги- потеза: o2i существенно отлича- ется от о22. Если наша гипо- теза принимается, то мы считаем, что o2i равно или очень незначи- тельно отличается от <j22. Если она отвергается, то при s2i<s22 и наоборот. Вновь рассмотрим выборки ni=6 и «2=20, отобранные из генераль- ных совокупностей Pi и Р2, для ко- торых G2i=or22=6,40. Эти выборки приведены в табл. 7.6. Их дисперсии равны s2j=9,77 и s22=5,43. Посколь- ку нам заранее известно, что o2i= =о22, отношение F* должно попасть в пределы Проверим, будет ли это действитель- но так. Возьмем <х=0,05, для которого Fo,o25; (5,19)=0> 158 И F0,975 (5.19)=3,33. Так как F*=s2i/s22=9,77/5,43=1,80, получим, что 0,158<1,80<3.33. Ги- потеза принимается, и мы заключа- ем, что о3] и а2а различаются несу- щественно. Нас может интересовать также и односторонний вариант этого крите- рия. В этом случае гипотеза имеет следующий вид: гипотеза Н: o2i не- существенно отличается от о22 или <Г1 меньше, чем о22. Альтернативная гипотеза: o2t существенно боль- ше о22. Для такой гипотезы следует по таблице найти значение (а не или и сравнить, его с F*. При F*<F гипо- 218 теза принимается, а в противно!* случае — отвергается. Например,, при а=0,025 F0,975; ао,15)=3,О6. Пусть требуется найти объем вы- борки, необходимой для обнаруже- ния некоторой минимальной разни- цы между о2] и о22. Несколько утри- руя (и упрощая) задачу, примем* п51=20о22. Когда значение o2i вели- ко по сравнению с о22, отношения F*=s2i/s22 также будут больше со- ответствующих отношений при a2i= =о22. На самом д^ле для оценки этих отно- шений разумно взять Fa.(ciu>) или И УМНОЖИТЬ ИХ НЭ 20 (ДЛ® случая 20a2i=o22 их необходимо- разделить на 20). Например, при о2! = а2? Fo,o5; ао,ю)=0,336, a Fq.bs; аоло)=2,98. При о21=20а2г эти отношения рав- ны F/o>Q5;(io,i'0)=20'0,336=6,72 и F/o,95;(io,io)=20'2,98=59,6. Таким об- разом, при уровне значимости 0,10 наименьшее значение s2j будет в 6,72 раза больше наибольшего значения s2a, а наибольшее значение s2i будет в 59,6 раза больше наи- меньшего значения $*2. Эти вычисле- ния показывают, что при a2i=20a22 разницу между o2i и о22 можно всегда обнаружить с помощью вы- борки Л1=Л2=Ц. Предположим теперь, что o2i= =2о22. Имеем F/o,o5;(io,io)= 2-0,336= =0,672 и F,o>95;(io>io)=2 2,98= 5,96. Поскольку F'o,о5=0,672<Fo,95=2,98, гипотеза о том, что между о2! и о®» нет существенной разницы, довольно часто окажется принятой, несмотря на то, что на самом деле a2i=2o22. Это будет ошибкой второго рода, ве- роятность которой равна Л).9б; (10.10) __ д2-98 f0,05; (10.10) °-672 = 0,66. Посмотрим теперь, что произойдет» если отобрать выборки m=n2=12L При а21=<^2 Fo,O5; (120,120)=0,740 и Fo,95; (120,120)= 1.35,
Следовательно, F'w, (i2o,i2o)=2 X X0,740=l,48 и F'o.№; (120,120) = =2-1,35=2,70. Мы видим, что Р'ол5>Ро,95, и поэтому в большинст- ве случаев нам удастся с помощью F-критерия обнаружить разницу между o2i и о22, когда o2i=2o22. При условии, когда о21=Ло22, выборка, объем которой обеспечивает выпол- нение равенства ^1_1/2а всегда достаточна, чтобы обнару- жить разницу между этими двумя дисперсиями. 9.7. ВОПРОСЫ И ЗАДАЧИ 9.1. Торговый контролер, в задачу ко- торого входит контроль за правильной массой отдельных товаров, отобрал десять однофунтовых пакетов с кофе и взвесил содержимое каждого из них. Он получил -следующие результаты (в фунтах): 0,94; 0,95; 0,92; 1,02; 0,97; 0,95; 1,02; 0,96; 0,92; 0,97. а. Вычислите X и s - б. Контролер хочет проверить, будет ли р. существенно меньше, чем |Ло=1,00. Есть ли.здесь двусторонний критерий? Сформу- лируйте соответствующую гипотезу. в, Найдите стандартную ошибку сред- него. Приняв а=0,025, найдите теорети- ческие значения / или z. Какое из них по- надобится при проверке нашей гипотезы? Почему? Найдите г* или и, сравнив по- лученное значение с г или Л сделайте вы- вод о- том, примет ли контролер гипотезу или отвергнет ее. г. Вычислите доверительные пределы и объясните смысл результата. д. Если окажется, что 0.95<1,00. то мт азину будет сделано замечание. Од- нако если ц<0,95, то магазин будет оштрафован. Какова вероятность того, что наше значение X происходит нз генераль- ной совокупности с р—0,95? Должен ли контролер, располагая указанной выше ин- формацией, оштрафовать магазин или только сделать ему замечание? е. Контролер хочет отобрать такую вы борку, для которой вероятность ошибки второго рода относится ц'=0,995 была бы равна 0—0,005. Чему должен быть равен объем этой выборки? 9.2. Торговый инспектор отобрал в ма- газине десять однофунтовых пакетов с кофе и взвесил их содержимое. При этом получились следующие результаты (заме- тим, что масса каждого пакета на 0.05 фунта меньше, чем в задаче 9.1): 0,89; 0.90; 0,87; 0,97; 0,92; 0,90; 0.97; 0,91; 0.87; 0,92. а. Проверьте, будет ли ц существенно меньше, чем р0—1,00 при уровне значи- мости 0,025 б. Проверьте, будет ли р существенно меньше, чем ц0"=0,95, при уровне значи- мости 0,025. в. При а—0,05 оцените, сколько фун- тов кофе понадобится владельцу магазина, чтобы наполнить 1000 пакетов, если он бу- дет продолжать это делать так же, как и ранее. 9.3. Вице-президент компании, владею- щей системой супермаркетов, произвел сле- дующие вычисления. Он взял число всех семей в некотором регионе и разделил его на количество уже существующих супер- маркетов плюс один (этот один он пла- нировал вскоре построить). В результате получилось 1800 семей иа магазин. Это ему не очень понравилось, поскольку ком- пания предпочитала иметь не менее 2000 семей па каждый магазин. Однако новый супермаркет предполагалось по- строить в удобном районе, населенном людьми со средним доходом, причем эго население продолжало увеличиваться. По- этому вице-президент решил глубже изу- чить проблему. Он решил ^се-таки открыть Mai азин, если средний расход на продо- вольственные товары в неделю составит нс менее 40 долл, па человека. Возьмите выборочные данные из зада- чи 2.1 и попытайтесь сообщить вице-пре- зиденту, будет ли р существенно больше ДО долл. Выберите уровень значимости, вычислите t* или г* (в зависимости от того, какая величина здесь необходима) и сравните результат с i или г. Кроме того, вычислите доверительные пределы и разберитесь, помогают ли они составить более полную картину. Достаточен ли объем выборки? 9.4. Некоторая компания приобретает ящики с деталями Диаметр детали дол- жен быть равен Цо=2,500, т. е. 2500-10”1 дюйма (мы пишем два нуля после запятой, чтобы показать, что все измерения про- водятся с точностью до одной тысячной дюйма). Из прошлого опыта известно, что вариация диаметров приемлема и является постоянной. Однако поставщику не всегда можно было доверять в том, что касалось величины ц. Несмотря на это, цена дета- лей была настолько низкой, что компания решила закупить некоторое количество де- талей и проверить их, прежде чем искать другого поставщика. Это решение было принято в связи с тем, Что издержки вы- борочного обследования были значительно меньше, чем разница в ценах. Работники ОТК разработали следую- щий план выборочного анализа. Среднее квадратическое отклонение диаметров о— =15. В каждом ящике находится 100 де- талей. Всю проверку было решено прове- сти в два этапа. На первом этапе отби- рают небольшую выборку из каждого ящика (#=100). Если она дает отрица- тельные результаты» то проверяют все со- держимое ящика. В противном случае вы- борочное исследование продолжают до тех пор пока объем выборки не достигнет 219
после чего принимают окончательное ре- шение о том, годится ли этот ящик. а. При а=0,003 и 0=0,003 относитель- но ц'=2502 (или ц'=2498) найдите объем выборки и вычислите доверительные пре- делы, б. При а=0»003 найдите доверительные пределы, которые после округления дадут pi—2500. Для выборки этого объема най- дите ошибку 0 относительно ц'=2501, 9.5. Дано: Цо—50» g=4, л—25 н а= = 0.045. Найдите ₽а и относительно y,'i=54, и ц'3=50,3. 9.6. Дано: Цо=5О» о=0,6, я=25 и а= =0.045, Найдите 0Ь 02 и 6Э относительно ц'1=54, ц'2=52 и ц'з=50,5 и сопоставьте полученные результаты с результатами за- дачи 9.5, 9.7. Дано: ц»—50, с=4, л=100 и « = =0,045. Найдите pi, 02 и 05 относительно p'i=54, ц'г=52 и ц'з=50,5. 9.8. Даны два распределения частот срока службы радиоламп (в тысячах ча- сов), полученные по Двум выборкам: для типа Л и jf, для типа Б. •fi От 17 до 18 8 4 От 18 до 19 21 8 Or 19 до 20 40 14 Ог 20 до 2! 27 17 От 21 до 22 12 12 1 От 22 до 23 6 11 От 23 до 24 3 8 От 24 до 25 2 4 От 25 до 25 1 2 а. Проверьте, есть ли разница между Ц] и ц2 при уровне значимости 0,045, счи- тая, что c2i-oV Какое ц больше? б. Проверьте, есть ли разница между Pi и ц2 при уровне значимости 0,045, счи- тая» что <х=0,045 и сг*[=£а22. в Вычислите доверительные пределы для разности между |i| и Цз в предполо- жении, что <з2|т£=а£2 9.9. Автомобилестроительная компания покупает у двух сталелитейных компаний заготовки обойм для шарикоподшипников. Пользуясь приведенными ниже выбороч- ными данными, проверьте при уровне зна- чимости 0,05, имеется ли существенная раз- ница в массе (в 1) между Ц( и ц2- Счи- тайте, что а<=(У2. Сталелитейная компания А 41,6 ; 41,7; 41.8; 42,2; 41,2; 40.9; 41,3, 41.5; 41,7; 41,8. Сталелитейная компания Б 40.5 ; 41,!; 40,9; 41Л; 41.7; 41,8; 41,1; 40.7; 41,2; 41,4. а. Предположим, что автомобилестрои- тельная компания предпочтитает более гяжелые заготовки. При прочих равных условиях (например, при равных ценах) чьи заготовки она приобретет? Обоснуйте ваше решение результатами проверки. б. Найдите Л1=и2, для которого с ве- роятностью 0,045 будет обнаружена раз- ница по крайней мере в 012 Г» 9Л0. Дано, что X1=50,00, /1г=25, Хг* ^52,00 и п2=25. Проверьте, имеется ли существенная разчица между Ц1 и ц2 прн уровне значимости 0,045. считая, что с/\— =<Т*2- а. $1=4,00 и s2=5,00. б. 5—0,30 и 52=0.28. в. Вычислите доверительные пределы. ja-.l pj—ц2. пользуясь значениями средне- го квадратического отклонения из йадач^ 9.10,а и 9.10,6. Объясните разницу. Указание: <г = ./ S(X<. —X3»+S(A/t-X,)« V п. + п, —2 1 / <п,- 1)^.4-(«,-’) Л Г п,+пг - 2 9.11. В прошлом году среди студентов университета одного штата 15% происхо- дили не из этого штата. Законодательное собрание штата решило, что штату не сле- дует субсидировать эту категорию студен- тов. и значительно увеличило плату за обучение. Чтобы оценить влияние этой меры на состав будущего контингента сту- дентов, университет решил проанализиро- вать выборку из адресов лиц, уже по- давших заявления о приеме, и проверить» будет ли число студентов, проживающих вне штата, составлять существенно мень- ше 15%. а. Каков должен быть размер выборки для 0—0,05 относительно л'=13,0%, если общее число заявлений равно 10 000? б. Один из работников университета решил независимо получить ту же самую информацию. Он принял «=200, выбрал 200 адресов наугад и насчитал среди ник 24 человека» проживающих вне штата. Проверьте прн а—0»0225, будет ли для всех желающих поступить в университет доля проживающих вне данного штага существенно меньше 15%; найдите ошиб- ку 0 относительно ^=13,0; вычислите для л доверительные пределы. На основе всех этих данных как вы ответите на вопрос корреспондента сту- денческой газеты о том. верно ли, чго число студентов из других штатов по сравнению с общим числом студентов су- щественно понизилось, 9.12. Рассмотрим гипотезу: л несуще- ственно отличается от Ло или л больше- го. Будет ли ваш предел интервала при- нятия ИЫСТЬ ВИД ЛQ-J ZOр ИЛИ Л<г—2Ор. Почему? 9.13. Рассмотрим следующие односто^- роиние критерии прн а=0,045: а. Для Ло=50,6 найдите также объемы выборок, для которых 0=0,0225 относи- тельно л'(=600» -<2=^55,0, л'з=52,0, л'4— =51,0 и •б. Для nu=10,0 найдите такие объемы выборок» для которых 0=0,0225 относи- тельно л'1==20,0, л 2=15,0, л'3=12,0, = 11,0 и я,5=10.5. Сравните эти ответы С результатами задачи 9 13»а. 220
9.14. Как вы отнесетесь к следующему рекламному объявлению, сделанному по телевидению: <27 из 50 выбранных наугад врачей прописывают наше обезболивающее средство X. Вы можете быть уверены в средстве, которое предпочитают более половины врачей». Обоснуйте свой ответ не только с помощью проверки соответ- ствующей гипотезы, ио и вычисляя дове- рительные пределы. 9.15. В среднем брак составляет л0= =9%. Необходимо проверить #=5000 де- талей. находящихся в некотором ящике. Нас интересует вопрос» будет ли я су- щественно отличаться от 9%. а. Возьмите а=0.01 и постройте пре- делы интервала принятия для р—0,01 от- носительно л"=10,5 и я'=7,5. Если р по- падает в эти пределы» мы будем продол- жать отбор выборки до тех пор, пока ее объем не будет равен п* для которого ЛоЧ-20р=9±0,5. Найдите л2. Кроме того, найдите ошибку 0 относительно л"=10,5 и л'=7,5 (для этого значения Лг). б. Возьмите а=0,05 и 0=0,05 и повто- рите те же вычисления. Сравните резуль- таты. 9Л6. а. Возьмем Л|=40% и 60%. Каков должен быть объем выборки П(= —л2, при котором 4,5% выборочного рас- пределения Pi будет перекрывать 4,5% выборочного распределения г2 6. Пусть теперь Л1=48% и л2=52%. Каков должен быть объем выборки, П|= =л2, при котором 4,5% выборочного рас- пределения Pi будет перекрывать 4,5% выборочного распределения Р2. 9.17. Имеются две игральные косги. На одной написаны числа 1, 2, 3» 4. 5» 6, причем грани с числами 5 и 6 покрашены в черный цвет. На другой написаны числа 5. 6» 7» 8, 9» 10, причем грани с числами 5 и 6 тоже покрашены в черный цвет. Если при подбрасывании двух игральных костей одновременно выпадуют две черные грани, вы примете некоторую гипотезу. В противном случае вы ее отвергнете. Че- му равна вероятность того, что гипотеза будет принята? 9.18. Вы начинаете брать выборки из дихотомных генеральных совокупностей Pi в Р2. Дойдя до значений л'1=п|Г2=200, вы получили p'i-20% и p's—25%. Поль- зуясь этими предварительными результа- тами, найдите объем выборки Л|=л2» до- статочным для того, чтобы при уровне значимости «=0,045 можно было обнару- жить разницу в 4%, 9Л9. Дано И|=л2=2000. а. Будет ли существенно отличаться от л2, если р1==40%, а Ps=60%? б Будет ли существенно отличаться от Л2, если р|=48%, а Ps=52%? Выберите некоторый уровень значимо- сти и проведите проверку соответствую- щей гипотезы. 9.20. а. Возьмите выборочные данные из задачи 9.1 и проверьте, будет ли о2 существенно меньше, чём а2о=0,00150. Примите <1=0,05. б. При каком значении $2 можно бу- дет считать, что с2 существенно меньше, чем q2o—0,00150? 9.21. Пусть а2о= 10. Каков должен быть объем выборки, чтобы при и2=12 и задан- ном rf=0,05 обеспечить 0=0,05? 9.22. Ниже приведены сведения об оценках по курсам «Статистика» и «Ис- следование операций» у одного и того же преподавателя. Будем считать эти данные выборкой. Оценки по курсу’ ^Статистика" Оценки по курсу „Исслед ванйе операций" Оценка, балл h Оценка, балл h 42—51 5 71—76 1 52—61 3 77- 82 3 62—71 1 83- -88 1 72—81 8 89—94 8 82—91 8 95—100 7 92-101 8 101—106 7 102—И) 15 107—112 6 112—121 12 113—118 2 122—131 30 119—124 9 132—141 18 125—130 11 142-151 3 131—136 6- 137—142 4 а. Дисперсия оценок по курсу «Эконо- мика» равна о2о=325. Будет ли дисперсия оценок по курсу «Статистика» существенно больше? Проверьте соответствующую ги- потезу при а=0,05. б. Проверьте при а=0,05, будет ли дис- персия оценок по курсу «Статистика» су- щественно отличаться от дисперсии опенок по курсу «Исследование операций» (т е. существенна ли разница м^жду cr2i и а22)« в. Поскольку результаты двух преды- дущих проверок справедливы и для соот- ветствующих средних квадратических от- клонений, вычислите а01 н и сравни- те их между собой. 9.23. Рассмотрим генеральные совокуп- ности Рх и Р2. С помощью распределения- Х2А> найдите jPo.bts и аЛмпб для П1=л2=И, П[=Л2=101 и Л|=Л2=1001. Найдите, при каких s2j и s22 получатся эти процентили, если о21=10 и oV==12; о2!=10 и о22=14; а2^ 10 и <у22=20. 9.24. Проверьте, будет ли существенной разница между значениями и о22 из задачи 9.8 (при уровне значимости 0,05). 9.25. Требуется сравнить банковские, счета работников умственного и физиче-. ского труда. Для это! о следует определить, выборочные средние для каждой из групп вкладчиков. а. Достаточно ли, по вашему мнению, взять выборки небольшого объема? По- чему? 221
б. Предположим, что две взятые вы- борки дали следующие результаты. Ра- ботники умственного труда: л?]—400, X}— =180 долл., si=50 долл Работники физи- ческого труда: «2=400, Хг=210, 5S=80. Будут ли эти средние значения су- щественно различаться? Будут ли оба зна- чения а существенно различаться? Прове- дите проверку при а=0,05 9:26. На некотором предприятии днев- ная смена дает в среднем 10% брака. Бу- дет лн в ночную смену брака существенно больше? Выборка «=400 дала WS=48. Проведите проверку при а=0,01. 9. 27. Как относятся рабочие предпртя- тия к предложению о проведении заба- стовки? Директор по кадрам решил осто- рожно провести соответствующее исследо- вание. На его фабрике работает 800 ра- бочих. а. Директор по кадрам хочет обнару- жить по крайней мере разницу 4% между Ло=5О и л при уровне значимости а=₽= =0.045. Какого объема выборки ему сле- дует взять? б. Предположим, что директор по кад- рам попросил старших по участках узнать, что думают люди о предполагаемой заба- стовке. Старшие по участкам собрали ин- формацию о мнении 300 рабочих. 135 тз них сказали, что они будут голосовать за то, чтобы начать забастовку. Проверьте при уровне значимости а=0,045, будет ли я существенно отличаться от ло^50. Мож- но ли считать такую процедуру выбороч- ного опроса случайной? НЕКОТОРЫЕ ВОПРОСЫ 10.1. ОТНОШЕНИЕ ЧЕЛОВЕКА К РИСКУ В конечном итоге все вероятност- ные понятия и расчеты предназначе- ны для использования в реальных ситуациях Всегда имеется некото- рое универсальное пространство 3, на котором определено некоторое событие Е. Задача статистика со- стоит в том, чтобы высказать свое мнение о вероятности того, что в реальных условиях это событие может произойти. Он может соста- вить такое мнение — очень часто с помощью исчисления вероятно- стей— на основе своего опыта, имеющихся у него сведений о прош- лом, логических рассуждений или с помощью интуиции. После этого он должен сформулировать некото- рое утверждение относительно ве- роятности события Е. Для некоторых подобного рода вероятностные утверждения будут лишь приятным развлечением. Одна- ко многим другим они нужны, чтобы на их основе совершить (или не со- вершить) то или иное действие. Если завтра я все равно собираюсь сидеть дома, то вопрос, о том, с ка- кой вероятностью завтра будет идти дождь, является для меня лишь темой для разговора. Но если я со- бираюсь посетить целый ряд мага- 222 ГЛАВА ю ТЕОРИИ ПРИНЯТИЯ РЕШЕНИЙ зинов с целью предложить им това- ры, производимые моей компанией, то мне необходимо решить, брать ли с собой зонтик. Проблема в том, что я не люблю носить с собой зонт, так как он мешает мне работать. Но в то же время мне не хотелось бы промокнуть. Такова в этом случае цена неправильно принятого ре- шения. Вообще говоря, может произойти целый ряд различных событий. Их часто называют возможными состоя- ниями или альтернативами. Каждо- му из этих состояний приписывается некоторая вероятность, и на этой основе принимается решение совер- шить действие 1 или действие 2. После того, как эксперимент прове- ден, событие могло произойти или не произойти, наше решение ока- жется либо правильным, либо не- правильным, и нам придется рас- плачиваться за последствия. Это и есть принятие решений в условиях неопределенности. Такие решения нужно принимать, и их при- нимают в реальной жизни, хотим мы того или нет. Как видно на нашем примере, процедура принятия такого решения состоит из правильного пе- речисления всех возможных альтер- натив, оценки их вероятностей иоп- ределения возможной пользы от принятия правильного решения и
возможных издержек при ошибке. Задачей экспериментатора является как перечисление всех воз- можных альтернатив, так и оценка возможных последствий. Затем, по- лучив всю относящуюся к делу информацию, он должен постарать- ся оценить вероятности и провести необходимый анализ, чтобы облег- чить процедуру принятия решения? Таблица 10.1. Анализ процесса принятия решения в) Имеющаяся информация Альтернатам Дождь И. 0,6 Нет дождя А 0,4 1,0 б) Перечисление всех возможных альтернатив, возможных действий и их последствий Действия: at — взять зонтик а2 — не брать зонтика «1 «• А Решение правильно Решение неправильно А Решение неправилыю Решение правильно Рассмотрим более подробно и си- стематически пример с дождем и зонтиком. Методика анализа пока- зана в табл. 10.1. В ней перечислены главные составные части мыслитель- ного процесса, происходящего в уме человека, который должен принять решение о том, брать ему зонтик или нет. Таблица показывает, что когда эти составные части являются более сложными по своей природе, весь анализ лучше проводить не в уме, а на бумаге. В этом случае -составные части задачи можно бу- дет описать с большей степенью точности. Кроме того, можно будет применить те или иные математиче- ские методы, что позволит еще луч- ше исследовать задачу. Проанализируем теперь всю за- дачу более подробно. Посмотрим сначала, как лицо, принимающее решение, будет интерпретировать вероятности отдельных альтерна- тив А. Эта интерпретация будет за- висеть от того, сколько раз придется принимать решение. Другими слова- ми, будет ли соответствующий экс- перимент состоять из многих испы- таний или только из одного? В случае многих испытаний ве- роятность первой из альтернатив, (дождь) будет играть роль ожидае- мой величины. Это значит, что чело- веку, о котором идет речь в нашем примере, приходится принимать та- кое решение очень часто. Пусть, на- пример, он решил брать зонтик,, только когда Р(Л[)=0,4, Будем счи- тать, что он следовал этому пра- вилу в течение 1000 дней, для кото- рых прогноз погоды предсказывал дождь с вероятностью Р(Л1)=0,4. Следуя своему правилу, он брал с собой зонтик 1000 раз, но тот по- надобился 400 раз, а 600 раз он только мешал. Другой торговый агент, работая в аналогичных условиях, горазда больше не любил носить зонтик, чем его коллега. Его правило фор- мулировалось следующим образом: «Я беру зонтик, когда Р(Л1)=0,6». В его случае из 1000 дней, для каж- дого из которых вероятность того, что пойдет дождь, равнялась 0,6, зонтик оказался бы полезным толь- ко 600 раз. Третий торговый агент настолько боялся промокнуть, что он брал с собой зонтик всякий раз, когда дождь прогнозировали с вероят- ностью 0,2. Был еще и четвертый торговый агент, которому перспектива ока- заться без зонта под дождем не нра- вилась в точности в той же степени, что и первому. Но, несмотря на это, он решил брать зонтик только в те дни, когда P(.4i)=0,5. Просто у не- го было другое отношение к риску. Мы подробно описали процесс принятия решения, чтобы показать разницу между статистиком и ли- 223
щом, принимающим решение. Все дело в том, что одна и та же вероят- ность может быть по-разному истол- кована разными людьми. Современ- -ная теория принятия решений стре- мится к тому, чтобы устранить это различие. Если это удастся, то все специалисты по принятию решений потеряют свою работу, а их место займут отчасти статистики, а отчас- ти технократы, которые будут про- сто выполнять «решения», принятые статистиком по некоторым фор- мальным правилам. Минимум того, что может сделать статистик, — это предоставить неко- торую относящуюся к делу инфор- мацию, на основе которой можно сделать прогноз, выраженный в ви- де тех или иных вероятностей. Да- лее с этими вероятностями уже бу- дет мучиться торговый агент, кото- рый должен правильно истолковать их, а также подумать о последст- виях, к которым может привести не- правилъный вывод. Именно он при- нимает окончательное решение. Кроме того, статистик может не- сколько упростить процесс принятия решения. Помимо того, что он про- сто вычислит вероятности, как это было сделано в табл. 10.1,а, он мо- жет еще представить всю задачу в виде табл. 10.1,6, что может ока- заться очень полезно. Он может и исследовать последствия того, что «торговый агент возьмет зонтик, д дождя не будет», или того, что он •«не возьмет зонтик, но дождь все- таки пойдет». Но даже после того, как такая оценка возможных по- следствий будет произведена, торго- вый агент все-таки должен будет гпринять решение самостоятельно. Чтобы полностью избавить наше- го торгового агента от необходимо- сти принимать решение о том, брать •с собой зонтик или нет, статистику .необходимо было бы сделать еще юдин, последний шаг. Он должен «был бы разобраться в психологии человека, принимающего решение, точнее, в его отношении к риску и к возможным последствиям приня- тия неправильного решения. 224 Такого рода теория была разрабо- тана фон Нейманом и Моргенштер- ном. На уровне настоящей книги ее рассматривают среди прочих У. Дж. Бомол * и Р. Шлайфер1 2 Отношение человека к риску часто связывают с теми или иными объек- тивными факторами. Для нашего торгового агента таким фактором может быть его здоровье. Если оно у него довольно слабое, и он часто простужается, то он будет брать с собой зонтик, даже когда вероят- ность того, что пойдет дождь, неве- лика. Если последствия принятого ре- шения заключаются в том, что вы можете потерять или заработать не- которую сумму денег, то на ваше отношение к риску будет влиять ва- ше общее финансовое положение. Бедный человек, скорее всего, менее охотно будет рисковать своими сбе- режениями, чем богатый. Очевидно, однако, что психологические аспек- ты отношения человека к риску вов- се не исчерпываются этими объек- тивными факторами Вообще говоря, экономические по- следствия принятия решения могут быть одинаковыми, но их психоло- гическое воздействие на различных людей, принимающих решение, мо- жет быть различным. Это возмож- ное психологическое воздействие на- зывается «полезностью»3, и, по крайней мере теоретически, его можно измерить. Соответствующие единицы измерения называются «по- лезностями». После того, как отно- шение того или иного человека к риску оценено, вычисляется соот- ветствующая функция полезности. Когда это сделано, человек факти- чески перестает быть лицом, прини- мающим решение, поскольку все 1 Baumol W. J. Economic Theory and Operations Analysis. Englewood Cliffs. N. Y.: Prcntice-Hall, 1961. 2 Schlaifer R. op. cit. a Данное понятие полезности отличает- ся от понятий предельной и количествен- ной полезности в экономике. Этот вопрос рассматривается Бомолом.
его решения могут быть точно пред- сказаны. Сомнительно, однако, чтобы этот последний шаг в процессе принятия решений (т. е. вычисление функции полезности) нашел применение в обозримом будущем. Этот скепти- цизм основан на опыте, полученном в большом числе реальных задач. Известно, например, что прогности- ческая ценность обследований, про- водимых среди потребителей, дале- ка от идеальной. Точно так же ре- зультаты прогноза исхода выборов часто оказываются неудовлетвори- тельными. По-видимому, причины этого являются по сути своей психо- логическими. Человек может быть вполне уверен в том, что он обяза- тельно купит новую машину через три месяца, но может легко изме- нить свое мнение, как только речь зайдет о том, чтобы заплатить соот- ветствующую сумму. То же самое может быть и с каждым избирате- лем. Условно говоря, для каждого такого решения имеется некоторый «момент истины». Это значит, что в слишком большом числе случаев нельзя оценить отношение человека к рискованному предприятию до тех пор, пока не наступит момент, кото- рый непосредственно предшествует принятию соответствующего реше- ния или совершению того или иного действия. До сих пор мы считали, что наше- му торговому агенту приходится принимать решение о том, брать ли ему зонтик, много раз. Предполо- жим теперь, что он стал заведую- щим отделом сбыта и лишь иногда покидает свой кабинет. Его уже ма- ло интересует, что произойдет с ним в среднем, при проведении большого числа испытаний. В таком же поло- жении находится человек, которому предстоит принять решение о покуп- ке дома или о том, куда вложить свой капитал, или о том, где снять себе квартиру. Во всех этих случаях отношение человека к риску может существенно отличаться от той си- туации, в которой требуется принять большое число однородных решений аналогичного порядка 15—232 10.2. ОЖИДАЕМАЯ ПРИБЫЛЬ И ОЖИДАЕМЫЕ ПОТЕРИ Проблема принятия решений в условиях неопределенности явля- ется одной из самых главных, когда последствия такого решения могут носить финансовый характер. Такие решения приходится принимать по- стоянно — в каждой семье, в каждой фирме или организации. Как и в приведенном выше примере, лицо, принимающее решение, должно по- следовательно пройти через этапы сбора информации по интересующе- му его вопросу, оценки вероятностей и последствий как правильного, так и неправильного решения. Кроме то- го, для него существенно, придет- ся ли ему принимать решение много раз в примерно одинаковых усло- виях или же это решение принадле- жит к разряду тех, которые прини- маются нечасто, а может быть и все- го лишь раз в жизни. Да и само по- нятие финансовой выгоды или убытков относительно. Возможные убытки, например, могут привести к банкротству, а могут составить всего лишь небольшую долю имуще- ства и активов фирмы. Какую же пользу может оказать наш анализ лицу, принимающему решение? Во-первых, с его помощью можно уточнить все рассуждения, сделать их более логичными и кон- кретными. Во-вторых, проведенный анализ может показать, что имею- щаяся информация еще недостаточ- на для принятия решения. Наконец, лицо, принимающее решение, может убедиться в том, что роль статисти- ка в процессе выработки решения довольно существенна и связана с его умением организовать всю имеющуюся по данному вопросу ин- формацию. Анализ имеющихся альтернатив и действий в условиях неопределен- ности с финансовой точки зрения можно проводить в терминах при- былей, убытков или упущенных воз- можностей. Рассмотрим пример за- дачи, в которой идет речь о возмож- ной прибыли. Представим себе 225
инвестора, владеющего облигациями на сумму 20000 долл. Эти облига- ции приносят доход 1200 долл/год. В некоторый момент он полу- чил информацию о том, что курс акций на бирже должен повыситься, и ему предстоит принять решение, сохранить ли свои облигации или перевести их в акции. Таблица 10.2. Условный доход в случае покупки акций Р(Х.) 4000 0,0005 1200 0.1611 3600 0,0054 800 0,0806 3200 0.0269 400 0,0269 2800 0,0806 0 0,0055 2400 2000 0,1611 0,2256 —400 0,0004 1600 0,2256 1,0000 Примечания: 1, Х.=р*-20 000/100» где р^ пред- ставляет собой доход (или убьгки), выражений и про- центах ЕйожевдОго капитала (— 2 вероятность получить доход в X* долл, (ио мнению инвестора)|. Предполагается, что Р (Х(-< < —400) = Р(Х->4О00) = 0. Будучи знаком с фирмой, акции которой он думает купить, наш инвестор считает, что он не может получить больше 20% прибыли со своей суммы 20000 долл, и не может потерпеть убытков боль- ше чем на 2%, Чтобы проанали- зировать всю ситуацию более по- дробно, он перечислил условные зна- чения подхода и приписал каждому из этих значений определенную ве- роятность (табл. 10.2). После этого инвестор вычислил ожидаемую при- быль АОД) = 2Х,Р(Х.) = =1800,4 долл, и сравнил это значе- ние со своим доходом в 1200 долл/год. Означает ли это, что ему стоит пе- реключиться с облигаций на акции? Конечно, ожидаемый доход есть величина, имеющая смысл для боль- шого числа испытаний. По сути дела наша задача эквивалентна задаче о выборе одного шара из набора шаров, на которых написаны числа 4000, 3600, .... — 400. При проведе- нии только одного испытания нам 226 может попасться любой из этих ша-1 ром. Но если при проведении мно- гих испытаний распределение ве- роятностей остается одним и тем же, средний доход будет примерно ра- вен М (Xi)=1800,4 долл. Если весь капитал нашего инвесто- ра состоит из 20 000 долл., то, несмот- ря на то, что P(Xt> 1200) =0,7257, вполне возможно, что он не будет продавать свои облигации. Может случиться и так, что он вообще не любит заниматься покупкой акций, и это тоже может привести к тому, что, несмотря на возможность полу- чить большую прибыль, он все-таки не будет этого делать. В то же вре- мя есть люди, которые любят риско- вать, даже когда вероятность выиг- рыша гораздо меньше. Однако, те, кому приходится принимать такое решение неоднократно, обязательно должны руководствоваться ожидае- мой прибылью. Да и в любом дру- гом случае инвестору следует прове- сти все эти рассуждения. При этом он может изложить свои мысли на бумаге, что сделает процедуру при- нятия им решения более упорядо- ченной. Другой очень большой областью, в которой постоянно приходится принимать решение в условиях неоп- ределенности, является управление запасами. Директор каждого пред- приятия должен все время решать, сколько единиц продукции того или иного типа ему следует произвести, заказать или, вообще говоря, запа- сти, чтобы он мог максимизировать свою прибыль или минимизировать потери. Некоторые примеры такого рода задач мы уже приводили в разд. 5.5. Рассмотрим одну из этих задач еще раз, используя при этом методику перечисления всех возмож- ных альтернатив и действий. Пример основан на задаче 5.24, В некоторый момент директор по сбыту издательства, выпускающего воскресную газету, заметил, что раз за разом значительное число экзем- пляров газеты оказывается непро- данным. Производство каждой лиш- ней газеты обходится в 6 центов.
Таблица 10.3 Задача о продаже газет (число газет, проданных в каждый нз 52 воскресных дней) Число пподан- вых газет X., 10» ' Число воскресных дней fi 1 23 6 1 0,12 24 12 0,23 25 16 0,31 •26 11 0,21 27 7 0,13 52 1,00 'Примечание. Данные взяты ю зддачн5-24. В тех же случаях, когда спрос пре- вышает предложение, издательство теряет возможность заработать на каждой газете 4 цента. Чтобы получить более точные све- дения, директор по сбыту решил ® течение 52 воскресных дней сде- лать так, чтобы предложение всегда •обеспечивало спрос. После этого он •собрал информацию о количестве проданных в каждый из этих дней газет. Эти цифры приведены и табл. 10.3 Частоты ft были пере- ведены в частности которыми уже можно пользоваться как веро- •ятностями (например, при вычисле- нии ожидаемой прибыли или по- терь). Следующий этап заключается в составлении таблицы возможных доходов (табл. 10.4,а). Альтерна- тивами являются различные значе- ния возможного спроса. Возможные для издательства действия — это вы- пуск того или иного числа газет. Так как и те и другие величины вы- ражаются в численной форме, мы используем обозначения Аг=Х< и Oj—Qj. Каждое из чисел, приведен- ных в табл. 10.4,а, представляет со- бой размер условной прибыли. Альтернативы А»=Х; представляют собой величину спроса. Возможные действия aj=Qj представляют собой выпуск того или иного числа газет. Прибыль Р=4 цента на газету. Убы- ток £=6 центов на газету. Общий объем прибыли при некоторых фик- сированных Xi и Qj равен РРц= =4Qj при Xi^Qj и РЯц=4 Xt— —6(Qj—Х<) = 10 Xt—GQf при Х<< <Qj. Например, Р/?2з=10*24—6Х X 25=100. В табл. 10.4,6 показана процеду- ра вычисления ожидаемой прибыли для одного значения Q3-. Ожидаемая прибыль для всех Qj приведена в табл. 10.4,в. Наибольшее значение ожидаемой прибыли равно 0М (PRa) =95,3, которое соответству- ет оРз=25. Это означает, что опти- мальный объем выпуска газет равен 25000. Так как Р(Х{>25) =0,34, сле- дует предполагать, что 34% воск- ресных дней не будут обеспечены газетами полностью. В некоторых районах такая нехватка может по- будить читателей начать покупать какую-нибудь другую газету. Это приведет к дополнительным поте- рям, которые тоже следует оценить, а это не всегда является легкой за- дачей. В настоящем примере мы считаем, что подобного рода нехват- ка не может вызвать снижения общего оборота, и поэтому в расчете Таблица 10.4. Задача об -ожидаемой прибыли) .а) Таблица возможных доходоа <?/ 23 24 | 1 25 | | 26 27 23 92 86 80 74 68 24 92 96 90 84 78 25 92 96 КЮ 94 88 26 92 96 100 104 98 27 92 .96 100 104 108 15* оптимизации числа выпускаемых газет (определение б) Ожидаемая грябьгь при Q»=25 s') Ожидаемая прибыль для всех Q4. xi «/ 23 0,12 80 9,6 23 92,0 24 0,23 90 20,7 24 94,8 25 0,31 100 31,0 25 95,3 26 0,21 100 21.0 26 92,7 27 0,13 100 13,0 27 88,Q 1,00 Al (Р₽и)=95,3 227
Таблица 10.5. Задача об оптимизации числа выпускаемых газет а) Условные потерн от ненспольэо- в^иия благопрентных возможно стей (платежная матрица! б) Ожндаелб» потери Q* в) [Ожидаемые потери для всех Q- xi xi ₽<*,-) oa/s) М. (OI£/> 23 24 | 1 25 I 1 26 | 1 27 23 0 6 12 18 24 23 0,12 6 0,72 23 8.0 Л- 24 4 0 6 12 18 24 0,23 0 0 24 25 26 8 12 4 8 0 4 6 0 12 6 25 26 0,31 0.21 4 8 1,24 1,68 25 26 4,7 7,3- 27 16 12 8 4 0 27 0.13 12 1,56 27 12,0 1,00 Л1 (OL, [8)=5.20 на длительный период можно счи- тать оптимальным объемом выпуска 25 000 экземпляров. В подавляющем большинстве слу- чаев задачу удобно проанализиро- вать в терминах потерь от неисполь- зования благоприятных возможно- стей. Для нашего примера с газета- ми такой анализ проведен в табл. 10.5. Издержки неудовле- творенного спроса равны 4 центам на экземпляр. С ними приходится считаться, если Х4>ф3. При X(-<Qj нам приходится иметь дело с из- держками избыточного предложения Се=6 центов. При X—Q} потеря от неиспользования благоприятных воз- можностей равна, конечно, нулю. В табл. 10.5,а приведены условные потери такого рода, вычисление ко- торых описано ниже и приведено в той же таблице. В табл. 10.5,6 показан пример вычисления ожидае- мых потерь для одного из значений Qi, а в табл. 10.5,в ожидаемые потери приведены для всех Qj. Поскольку наименьшее значение ожидаемых по- терь равно оМъ(ОЬ<з) =4,7, опти- мальным числом выпуска газеты бу- дет оСз=25 000 экземпляров. Альтернативы Ai=X, представляют собой величину спроса. Возможные действия Oj—Qj представляют со- бой выпуск того или иного числа экземпляров. Издержки нехватки Са=4 цента на экземпляр (для Х,-> >Qj). Цена перепроизводства С,= =6 центов на экземпляр (для Х,< <Qj). Условные потери от не- использования благоприятных воз- можностей равны: OLij=Q при Х,= —Qf, — Ce(Xi Q,) при X(>Q} [например, OL42=4(26—24) =8]; OLij=Ce(Qj—Xi) при Xi<Q, [на- пример, O£S(—6-(25—23)—12] Анализ ожидаемой прибыли и по- терь не может быть попным без рассмотрения вопроса об ожидаемой ценности полной информации. Это понятие основано на том, что мы мо- жем получить полную информацию» о спросе. В нашей задаче о продаже газет можно, посмотрев на условные прибыли табл. 10.4,а, задать сле- дующий вопрос: если бы мы знали, что спрос равен А\=23, чему дол- жен равняться в таком случае объем выпуска? Разумеется, следу- ет выпустить Qi=23. Этому соответ- ствует объем прибыли PR^i.=92, т. е. 92000 центов или 920 долл. За- пишите это значение в табл. 10.6,а. Если бы мы знали, что Х2=24, то следовало бы выпустить (?2=24, что дает Р₽*22=96 и т. д. Эти величины, и представляют собой условную при- быль при наличии полной информа- ции. Их ожидаемое значение (ожи- даемая прибыль при наличии пол- ной информации) 100,00, т. е. 100 000 центов или 1000 долл., как это показано в табл. 10.6,6. Вспомним теперь, что оптималь- ное (в нашем случае максимальное} значение ожидаемой прибыли в условиях неопределенности равно- (см. табл. 10.4,в) 0ЛД3(РР*з)=95,3. Вычтем ее из ожидаемой прибыли при наличии полной информации M(PR*ij)=100,00. Полученную раз- ность называют ожидаемой ценой полной информации (сокращенно»
Таблица 10.6, Задача об оптимизация числа выпускаемых газет (условная и ожидаемая прибыль при наличии полной информации) а) Условная пр«бнлъ пр» налжии полной ин- формация. Значения PR*полу, чены из ~вЛл. ЮЛ.о по формуле PR*.y-Majt(/’R‘,[). где 1=1. 2. 3. 4. 5 б) Ожидаемая прибыль прн наличия полной информа- ции EVPI) ’. Она равна 4,7, т. е. 4700 центам или 47 долл. Отметим, что значение EVPI=4,7 совпадает с оптимальным (минимальным) зна- чением ожидаемых потерь от неис- пользования благоприятных возмож- ностей оЛ1з(0£,з)=4,7, т. е. EVPI— =oAf3(OLi3)=4,7. Более подробный анализ этих понятий показывает, что такое совпадение неслучайно. Название «ожидаемая ценность полной информации» говорит само за себя. Эта величина представляет собой максимальную среднюю сум- му, которую директор по сбыту со- гласен заплатить каждое воскре- сенье за точный прогноз спроса на его газету. Конечно, если он запла- тит всю эту сумму, то он не получит никакой прибыли, поскольку, как мы только что видели, EVPI= =М (РЯ*ц)—0М.; (РЯ%). Прибыль появится лишь в том случае, если он заплатит за прогноз сумму, мень- шую, чем ожидаемая ценность пол- ной информации. В нашем примере с газетами трудно представить себе, каким именно образом можно получить полную информацию о том, сколько 1 От английского expected value of per- fect information. — Прим. ped. экземпляров газеты удастся про- дать завтра. Однако во многих дру- гих подобных случаях часто удает- ся получить хорошую информа- цию — с помощью выборки или пользуясь прогнозом эксперта. При этом расходы на выборочное обсле- дование или на оплату услуг экс- перта не должны превышать значе- ния ожидаемой ценности полной информации. Рассмотрим две задачи, в каж- дой из которых имеются две альтер- нативы и два возможных действия. С такими задачами приходится сталкиваться в жизни, хотя и не очень часто. Рассмотрим их по- дробно, поскольку они хорошо ил- люстрируют различия в подходе к проблеме риска. Кроме того, на примере этих задач удобно рассмот- реть процесс принятия решений с помощью выборки (этим вопро- сом мы займемся в следующем раз- деле) . Первая задача касается человека, который может купить лотерейный билет и должен решить, стоить ли ему это сделать. Лотерейные биле- ты продаются по 2 долл, за штуку, и по ним можно выиграть автомо- биль, который стоит 4000 долл. Об- щее число лотерейных билетов рав- но 8000, и предполагается, что все они будут проданы. Распределение вероятностей (вы- играть или проиграть) приведено в табл. 10.7,а. Таблицу условных при- былей можно составить, как это показано в табл. 10 7,6. После это- го можно вычислить ожидаемую прибыль или ожидаемые потери. Таким образом, вся процедура ана- лиза совпадает с рассмотренной на- ми выше с той лишь разницей, что все таблицы будут гораздо меньше. Как видно из этой таблицы, опти- мальное (максимальное) значение ожидаемой прибыли oAl(Pl/?,-2)=0, а минимальная ожидаемая потеря oM(OL ) =0,50. Если бы все перс- пективные покупатели лотерейных билетов рассуждали бы таким обра- зом (в терминах ожидаемой прибы- ли или потерь), то скорее всего все 229
Таблица 10,7. Задача о лотерейных билетах (задача типа ядве альтернативы — два возможных действия») а) Распределение вероятностей Возможный исход 4. Р (А,-) Выигрыш Проигрыш л: 1 8000 7999/8000 1 I 6J Возможный доход (л, — купить лотерейный билет, — не покупать билета) Ai Qi Л1 4000 0 —2 0 Примечание Числа в каждой клетке соответствуют условным значениям прибыли РКц- е) Ожидаемая прибыль Р^ЩРВц) р (V 0.50 0 —1,99975 0 Af (/>/?,-,) =-1,50 Л1(Р₽г-2) = 0 г) Условные потерн от неиспользования благоприятных возможностей '’i а» A, 0 4000 A 2 0 Примечание. Числа з каждой клетке соответствуют условным потеря л от н?п пользования благоприятных ноз- мощностей <?) Ожидаемые потери от неиспользования благоприятных возможностей 8 0,)(ОГ1) P (A,-) <O£/S) 0 0,50 1,99975 0 — Af (O£fl) = 2,00 M(OLit) = Q,50 организаторы таких лотерей пере- стали бы этим заниматься. В дейст- вительности этого не происходит. Большое число людей не интересу- ется вероятностями и/или ожидае- мой прибылью. Они видят разницу между 4000 и 2 долл, и понимают, что они вполне могут позволить се- бе купить лотерейный билет. В то же время целый ряд людей, по-ви- димому, рассуждает в терминах ве- роятностей или возможной прибыли или потерь. В противном случае мы были бы просто завалены всякого рода лотерейными билетами. Заметим, что здесь нет необходи- мости составлять таблицу два на два. Требуемое заключение можно сделать, пользуясь величиной ожи- даемой прибыли M(PPit)=—1,50. 230 Вторая задача касается двух биз- несменов—А и В; В занимается раз- ведкой нефтяных месторождений за границей и просит А предоставить ему заем в 20000 долл. Он предла- гает выплатить этот заем через год плюс еще 25% этой суммы. В насто- ящее время А зарабатывает на этом капитале 1000 долл, в год, так что для него это означало бы условную прибыль в 4000 долл. Кроме того, В согласен передать А в качестве гарантии выплаты займа некоторое имущество, стоимость которого со- ставляет 10 000 долл. Бизнесмен А имеет следующие альтернативы: «одолжить деньги бизнесмену В и считать, что предприятие последне- го окажется успешным» (тогда биз- несмен А заработает 4000 долл.)
Таблица 10.8. Задача о рискованном займе (задача типа,, две альтернативы — два возможных действия0) я) Распределение вероятностей Возможный ИСХОД Л- Р (Л,-) Успех А 0,8 Неудача А 0,2 1,0 tf) Возможные действия (а1—дать заем» а,— не давать заема) А1 С1 А 4000 0 А — 10 000 0 Примечание. Числа в каждой клетке соответствуют условный значениям прибыли. а) Ожидаемая прибыль г) Условные потерн от неиспользования благоприятной возможности Р (А) {РР;^ P^j) (PR^) л» «2 3200 -2000 С 0 0 м сч 0 10 000 4900 0 Л1№) = 1000 (P7?Zs) = 0 Примечание. Числа в каждой клетке соэгветствуют условным потеряла от неиспользования благоприятной воз- можности. d) Ожидаемые потерн от неиспользования благоприятной возможности (ОЛ.р 0 2000 Л1 (OLtl) = 2000 3200 0 М(ОРц) =*3200 или «одолжить деньги и счи- тать, что В потерпит неудачу и ста- нет банкротом» (в этом случае А потеряет 10000 долл.). Необходимые вычисления приве- дены в табл. 10.8. Ожидаемая при- быль составит 1200 долл., и это го- ворит о том, что бизнесмену А стоит серьезно рассмотреть вопрос о том, чтобы одолжить своему другу В сумму в 20000 долл. Скорее всего он решит этот вопрос положительно, если 20000 долл, составляют лишь небольшую долю его капитала или если он любит рисковать. Заметим, что оптимальная потеря от неиспользования благоприятной возможности равна A4(OLn) =2000. Она совпадает с ожидаемой ценно- стью полной информации. Если А хочет получить сведения о шансах В на успех, то он может ориентиро- ваться на эту величину, решая во- прос о том, сколько ему следует ис- тратить средств на получение такой информации. На практике, однако, такая возможность вряд ли заинте- ресует А, если он все равно не лю- бит делать больших и рискованных капиталовложений. В заключение можно сказать, что численный анализ решений в усло- виях неопределенности полезен да- же в тех случаях, когда лицо, при- нимающее решение, не следует ло- гике ожидаемой прибыли или убыт- ков. В тех случаях, когда решения по той или иной проблеме прихо- дится принимать многократно, ра- зумно считать оптимальные значе- 231
вия ожидаемых прибылей и потерь наилучшим ориентиром для своих действий. 10.3. ИЗДЕРЖКИ, СВЯЗАННЫЕ С ОШИБКАМИ а И р (ПЕРВОГО И ВТОРОГО РОДА), И ОБЪЕМ ВЫБОРКИ Когда в гл. 8 и 9 мы вычисляли доверительные пределы и проверя- ли гипотезы, нас прежде всего ин- тересовал вопрос о том, как опре- делить объем выборки, с помощью которой можно обеспечить требуе- мую степень точности. Мы познако- мили читателя с ошибками а и р, но пока только с одной стороны. В ходе анализа задач такого рода возникают и другие вопросы. На- пример: «Почему мы принимаем а—0,05, а не 0,01?» То же самое можно спросить и о значении ошиб- ки р. Кроме того, имеются еще во- просы об объеме выборки, длине доверительных интервалов и ценно- сти информации. В предыдущих главах мы лишь в самых общих чертах отмечали, чго ошибки аир определяются издерж- ками, связанными с этими ошибка- ми. Эти издержки следует также связывать с объемом выборки. Если длина доверительного интервала за- дана заранее (как чаще всего и бы- вает), то для того, чтобы получить меньшее значение а, необходимо отобрать выборку большего объема, и наоборот. Обычно, когда исследователь сталкивается с задачей определения уровня ошибок а, р и объема вы- борки п, он уделяет основное вни- мание издержкам выборочного ис- следования, а издержками, связан- ными с ошибками аир, пренебре- гает. Это значит, что он занимается прежде всего вероятностной сторо- ной задачи и не учитывает, во что обойдется ему совершение ошибки. При таком подходе процесс выбора значений аир становится по суще- ству задачей об отношении каждо- го отдельного человека к риску. 232 Имеется принципиальная разница между теми, кто рассматривает ве- личины аир как вероятности оши- биться или не ошибиться, и теми, кто связывает эти вероятности с из- держками, связанными с такими ошибками. С аналогичной пробле- мой пришлось столкнуться во вре- мена внедрения в практику элек- тронно-вычислительных машин. Многие вычислительные центры брались за решение задачи, лишь убедившись в том, что с помощью ЭВМ они могут решить ее быстрее, чем другими средствами. Только че- рез некоторое время удалось осо- знать, что скорость вовсе не являет- ся единственным фактором, опреде- ляющим целесообразность решения той или иной предлагаемой задачи. Главная цель настоящего раздела заключается в том, чтобы продол- жить рассмотрение конкретных при- меров, показывающих, что в эконо- мических и деловых вопросах риск следует всюду, где это возможно, формулировать в стоимостных тер- минах. Конечно, сделать это можно далеко не всегда. Вполне может оказаться, что точное вычисление издержек на ошибки аир обойдет- ся дороже, чем определение издер- жек выборочного исследования и издержек каждой из этих ошибок, вместе взятых. Но в других случа- ях провести такие вычисления впол- не возможно. В любом варианте по- лезной будет уже сама необходт- мость проводить рассуждения в сто- имостных терминах, хотя большей частью с их помощью можно полу- чить лишь очень грубые оценки. 10.3.1. Доверительные пределы Прежде чем отобрать выборку и вычислить доверительные пределы, нам следует сравнить ценность по- лученной по выборке информации с издержками самой выборки и из- держками на ошибки а. Обозначим ценность выборочной информации через VI (от английского Value of information), издержки иа ошибки а через Се и издержки отбора вы-
борки через лС„, где постоянная ве- личина Сп представляет собой из- держки увеличения объема выборки на единицу. Если V7=0, никакую выборку не стоит брать вообще. Если считать а постоянной, то длина доверительного интервала бу- дет являться функцией от п и а. Величину а можно, конечно, сделать настолько малой, насколько мы это- го пожелаем, но на практике редко используются значения а<0,003. При фиксированном а верхние и нижние границы для п обычно опре- деляются природой рассматривае- мой проблемы. Среди небольших значений п имеется такое, ниже ко- торого доверительный интервал бу- дет слишком широким и совершенно бесполезным; это знает каждый специалист, знакомый с задачей. Примером такой ситуации может служить вычисление доверительных пределов для массы индеек (см. гл. 8). Кроме того, на практике име- ется и некоторая верхняя граница для п, которая дает нижний предел длин доверительных интервалов. Она определяется максимальной степенью точности, требуемой в данной задаче; и это тоже знает каждый специалист в соответствую- щей области. Когда стоимость выборочного ис- следования равна нулю или оче-?ь мала по сравнению с величиной VI. необходимо только указать мини- мальное а или минимальную ожи- даемую стоимость ошибки а (т. е. величину аС€) и минимальный до- верительный интервал. После этого с помощью методов, рассмотренных в гл. 8, найдем требуемый объем вы- борки и можем приступать к отбору элементов в такую выборку. Если значения Сп и Се не так ма- лы, то задача становится более сложной. Если значения Сп и Се даны, то исследователь может вы- брать некоторый доверительный ин- тервал, руководствуясь формули- ровкой задачи, а затем приступить к выбору или нахождению опти- мального значения а. В этом случае фиксированным будет доверитель- ный интервал. Фиксированный доверительный интервал вовсе не только теорети- ческая абстракция. С таким поня- тием приходится очень часто иметь дело на практике. На самом деле почти в каждой задаче, если только объем выборки не определен каки- ми-нибудь внешними обстоятельст- вами (например, если нам прихо- дится пользоваться результатами выборочного исследования, прове- денного кем-нибудь еще, или когда генеральная совокупность была уни- чтожена и существует только вы- борка из нее), каждый исследова- тель знает, какой именно мини- мальный интервал соответствует данной задаче. Взяв такой фиксированный дове- рительный интервал, исследователь может найти оптимальный объем выборки и оптимальное значение ошибки а. Как это сделать, показа- но в табл. 10.9. В ней рассмотрен пример, для которого о==4, С. 1.=5, издержки увеличения объема вы- борки на единицу равны Сп=0,50 долл., издержки на ошибки а равны Се=5 долл., ]V/=6 долл, и гУ1= =60 долл. Издержки отбора выбор- ки пСп плюс ожидаемые издержки на ошибки а (значения аСе) из столбцов 5 и 6 сравниваются с ожи- даемой ценностью информации (1—а) VI из столбца 7 или 8. Опти- мальный объем выборки есть значе- ние л, для которого положительная разность между этими двумя вели- чинами максимальна, т. е. макси- мально значение (1—а) VI— («Сп+ -f-aCe), при условии, что эта раз- ность больше либо равна нулю. Ес- ли она окажется меньше нуля, то следует либо расширить пределы, либо вообще не отбирать выборку. Для рассмотренной в табл. 10.9 задачи эта разность при п=4 равна 1,69 долл., при п=5 она равна 1,74 долл., а при п=6 она составляет 1,57 долл. Следовательно, оптималь- ным объемом выборки будет л=5, а оптимальным уровнем значимости будет а=0,16. То же самое значение 23»
Таблица 10 9 Анализ плана выборочного исследования 1 2 3 4 6 6 7 3 1 4,00 0,63 0,53 2,65 0,50 2,82 28,20 2 2,83 0,88 0,38 1,90 1,00 3,72 37,20 3 2,31 1,08 0,28 1,40 1,50 4,32 43,20 4 2,00 1,25 0,21 1,05 2,00 4,74 47,40 5 1,79 1,40 0,16 0,80 2,50 5,04 50,40 6 1.63 1,53 0,13 0,65 3,00 5,22 52,20 7 1,51 1,65 О.Ю 0,50 3,50 5,40 54,00 Примечания: 1. Предположения и терминология: от = 4; доверительный интервал С Л =5: — условная стоимость ошибки а. равная 5 долл.; Сп — стоимость увеличения объема выборки на единицу, равная 0.50 Долл, 2. Столбцы: /—л-объем выборки; 2 — а-. = »/Ул=4/Кп,гдел=1, 2, 3....; 3—z.=Cr 1./а-^)/2= = б/2з-.; 4 — значения а-, соответствующие 5— a|Ce=sa.-5 — ожидаемые издержки ошибки а при условен а.; 6— пСп =а п-0.60; 7—(1—a)jVZ = (1—а)-6— ожидаемая ценность информации S’—(1 —а)4У7 = — (1— <0-60, п получится, если мы будем исполь- зовать столбец 8. Процедура вычисления чисел, стоящих в столбцах 6, 7 и 8, до- вольно очевидна. Числа из столбца 5 рассчитывают путем умножения значений а из столбца 4 на Се=5 долл. Значения из столбца 4 пред- ставляют собой площади под нор- мальной кривой, отвечающие значе- ниям 1 — Д_/. Значения г; берут из столбца 3. Их, в свою очередь, находят с по- мощью подстановки значений о_ из xl столбца 2 в уравнение 2,5 = z,o_ , откуда z, = 2,5/a_ , где 2,5 — поло- вина длины нашего фиксированного доверительного интервала C.I. = 5. Наконец, числа из столбца 2 вычис- ляют по формуле о_ = б/^'гя = = 4/1Лг, т. е. пут.ем подстановки последовательных значений п. 10.3.2. ПРОВЕРКА ГИПОТЕЗ В задачах, связанных с проверкой гипотез, мы пытаемся установить, 234 будут ли истинные параметры гене- ральной совокупности (у., л, о2) су- щественно отличаться от некоторых стандартных значений (go, По, <т2о). Мы можем поступить тремя различ- ными способами. Во-первых, мы мо- жем найти необходимый параметр генеральной совокупности методом полного охвата, а затем сравнить полученное значение со стандартом. Во-вторых, мы можем оценить этот параметр с помощью вычисления не- которой выборочной характеристи- ки. В-третьих, мы можем оценить его из предыдущего опыта. Выбор одного из этих трех методов зави- сит от сопоставления ценности тре- буемой информации с издержками выборочного исследования. В большинстве случаев вычислить издержки выборочного исследова- ния довольно легко. Однако опре- делить ценность получаемой инфор- мации обычно удается лишь очень грубо* Это объясняется нескольки- ми причинами. Может оказаться, что в принципе ценность этой ин- формации нельзя измерить, или же с первого взгляда станет ясно, что получение точной оценки ценности информации обойдется существенно дороже, чем отбор выборки, или же может случиться,, что лицо, прини- мающее решение, будет вообще не- знакомо со всей проблемой сопо- ставления ценности информации с издержками ее получения. Наша цель заключается в том, чтобы показать, как именно следует систематически проводить сравне- ние потерь вследствие неиспользо- вания благоприятной возможности с издержками выборочного иссле- дования. Мы рассмотрим один при- мер, который, однако, можно рас- пространить на целый ряд подоб- ных ситуаций. Студент некоторого университета решил немного подзаработать, про- давая портфели. В университете учатся W=10 000 студентов. В ме- стных магазинах портфели стоят по 7 долл, за штуку. Однако если он сможет купить минимум 1000 шт., то эти портфели ему продадут со
значительной скидкой. А именно, если он купит не меньше 1000 порт- фелей, то ему они обойдутся но 4,2 долл, за штуку. Он считает, что, ес- ли он установит цену в 5 долл, за штуку (на 2 долл, ниже магазинной цены), то его товар будет пользо- ваться спросом, что даст ему 0,8 долл, чистой прибыли. Однако если он закупит слишком много портфелей, то он не сможет продать их все. В результате ему придется еще снизить цену. Он уверен в том, что если снизить цену до 3,8 долл, за штуку, то ему удастся продать по меньшей мере 1000 портфелей. При этом он потеряет по 0,4 долл, на каждый портфель. Теперь следует найти значение х, для которого издержки будут рав- ны выручке. Стоимость 1000 порт- фелей— 4200 долл. Число портфе- лей, которые необходимо продать, чтобы скомпенсировать эту сумму, находится из условия 5=4200, откуда х=840,что составляет 8,4% общего числа студентов jV=10 000. Итак, ло=8,4%. Пусть л есть истинное значение процента студентов, которые купят его товар по 5 долл. (т. е. л — ис- тинный параметр генеральной сово- купности). При л<8,4% издержки недостаточного спроса можно найти с помощью уравнения Ced= (840 10 000л) • 0,40= =336—4000л. При л=0 C«i=336 долл., что соот- ветствует максимально возможным условным потерям. При л>8,4% имеется условная потеря от неиспользования благо- приятной возможности, связанная с избытком спроса. Ее можно найти из уравнения Ced= (10 000л—840) • 0,80= =—672+8000л. При л=1.00 100%-ная потеря от не- использования благоприятной воз- можности составит 7328 долл. При л=0,084 (8,4%) эта потеря равна C«i=Cec!^0. Графики этих соотношений пока- заны на рис. 10.1. Обе функции ли- нейны, и их часто называют функ- циями потерь. Теперь наш студент, посмотрев на все эти результаты, может немед- ленно принять решение. Если он по- лагает, что он сможет продать боль- ше, чем 840 портфелей, то он купит 1000 портфелей и начнет свою дея- Рис. 10.1. Условные потери вследствие не- использования благоприятной возможности в примере с портфелями тельность. Предположим, однако, что он не уверен в исходе и хочет поэтому получить дополнительную информацию с помощью выборочно- го исследования. Он решил обра- титься к ряду студентов и предло- жить им свой товар. Предположим, что при этом ему удастся продать NS портфелей, что даст p—NSJn. Свое окончательное решение он бу- дет принимать на основе этой ин- формации, т. е. информации о том, чему равно р. Так как п заведомо будет меньше 1000, то в магазине при покупке п портфелей ему дадут меньшую скидку, а именно, каждый портфель обойдется ему в 5,5 долл. Это на 0,5 долл, выше, чем установленная сту- дентом цена в 5 долл, за портфель, и это значит, что издержки его вы- борочного исследования будут рав- ны 0,5 долл, на каждый элемент вы- борки. Прежде чем провести выборочное исследование, будущий торговец ре- шил сформулировать более точное решающее правило. Один из его ва- риантов приведен в табл. 10.10. В этом случае объем выборки п= =200 (ее стоимость будет равна 235.
Таблица 10.10, Взвешенные потери от неиспользования благоприятной возможности в примере с портфелями Ж 1 2 3 5 6 0 0 336 0 0 0 2 0,001 256 0.3 »»— 0 0 4 0,192 176 33,7 0 0 6 0,684 96 65,7 0 0 8 0,928 16 14,8 — 0 0 8.4 — 0 0 0,050 0 0 Ю — 0 0 0.012 128,0 1,64 12 — 0 0 0,002 288,0 0,58 14 — 0 0 0 448,0 0 Примечания; 1, Предположения: п =х2О0. п9 = 8.4%, а = 0,05; гипотеза Hi: ж существенно меньше, чем ж® ™ 8,4; гипотеза К> : « несущественно отличается от х« = 8.4 нли больше этой величины. Ги- потеза Hi принимается при р<5,2; гипотеза Яа при- нимается при р > 5.2, где 5.2 — 8.4 — 1,64 о = 8,4 — —1,64.1,96. Р 2. Столбцы: / — вероятность ошибки 0 Р (jjE)— = Р (р > 5.2 | «. н) при ж < 8,4; 2—условная стои- мость недостаточного спроса Csd = 336—4000» при ж < 8.4: 3—взвешенная стоимость недостаточного спроса С^ —произведение чисел столбцов / н 41— вероятность ошибки а или Р (аЕ) = Р 5,2 j «, п) при ж ^8,4; 5— условная стоимость избыточного спро- са Срд = —572+8000* пря ж > 8.4; 6—взвешенная стоимость избыточного спроса — тхжзведекие чи- сел столбцов 4 л 5. 100 долл.), и мы можем воспользо- ваться односторонним критерием. Принимая а=0,05, получаем предел интервала принятия «,-zep = 8,4- - 1,64)/8 4(91,6)'200 = 5,2. Если р будет меньше, чем 5,2%, то можно сделать вывод, что я суще- ственно меньше до, равного 8,4%. Это будет нашей гипотезой Н\. При р>5,2 будем считать, что л^ло, и это будет гипотезой Н2. Как обычно, при проверке гипо- тезы мы будем иметь дело с ошиб- ками аир, которые называются также риском поставщика и риском потребителя соответственно. Вероятности ошибки ₽ при- ведены в столбце 1. Чтобы пока- зать, как они вычислены, предполо- жим, что некоторая выборка с п= —200 дала р>5,2. В этом случае принимается гипотеза Н2. Если же тем не менее оказалось, что истин- ное значение л равно 2%, то мы 236 совершили ошибку р. вероятность которой равна Р(р£)=0,01. Дейст- вительно, для этого значения л мы имеем г— (5,2—2)/0,99=3,23, и со- ответствующая площадь под нор- мальной кривой равна =0,01. В столбце 2 приведены условные потери для соответствующих значе- < ; ний л<Я0. Они получены из урав- нения Csd=336—4000л. Взвешенные (или ожидаемые) потери даны в столбце 3, величины которого яв- ляются произведениями соответст- вующих чисел из столбцов 1 и 2. В столбце 4 даны вероятности Р(а£) ошибки а. Эта ошибка име- ет место, когда р<5,2, и мы прини- маем гипотезу Hi, в то время как i на самом деле я>ло. Для л=10 г=( 10—5,2)/2,12=2,26 и А^ = ' =0,012. Таблица 10.11. Взвешенные потери от неиспользования благоприятной возможности в примере с портфелями * 1 2 3 4 0 0 0 0 2 0 0 — 0 4 0,085 15,0 . 0 6 0,524 50,3 —— 0 8 0,862 13,8 — 0 8,4 «— 0 0,100 0 10 — 0 0,027 3,4 12 — 0 0,004 1,15 14 — 0 0 0 Прамечянля: 1. Предположения: л = 200 к0 = = 8.4, а е 0,10; гипотеза Hi : х существенно мень- ше, чем «« = 8,4; гипотеза : ж несущественно отли- чается от «о — 8.4 нли существенно Созыве зтой велн- чнжы; гнпспезэ Hi принимаеюи пря р<5»9: гипотеза Ht гчжнямается при р > 5.9 где 5.9 = 8.4—1,28 зр = = 8.4—1.28-1,96. 2. Столбцы: 1—Р ф£) = Р (р > 5.9 | х. л) при ж <8.4; 2—взвешенные значения С^, т. е. прончве- девке чисел из столбцов / и 2 табл, 10.10; 5—Р (аЕ)= = Е (/><: 5.9 | ж. п) при х^гв.4; 4—взвешенные значения С^г т. е. произведение чисел из столбцов J и $ табл. 10.10. Если мы принимаем гипотезу Hi в то время, как на самом деле л> >ло, то это означает, что появляют- ся условные потери вследствие не- использования благоприятной воз- можности. Их можно получить из уравнения С^=—672+8000л. Взве- шенные (или ожидаемые) потери от
неиспользования благоприятной возможности приведены в столбце <б, который является произведением чисел из столбцов 5 и 4. Точно так же построены табл. 10.11 и 10.12. Таблица 10.12. Взвешенные потери от неиспользования благоприятной возможности в примере с портфелями Ж 1 2 3 4 0 0 0 • • 0 2 0 0 — 0 4 0,001 0.2 — 0 6 0,100' 9,6 — 0 8 0,468 7.5 0 8,4 — 0 0,450 0 10 — 0 0,192 24,6 12 0 0.048 13,8 14 1— 0 0,008 3.6 16 •— 0 0,001 0,6 Примечания: I Предположения: п = 200, жо = = 8,4%, а = 0,45; гипотеза Н>:ж существенно мень- ше. чем «с = 8,4; гипотеза На : ж несущественно отли- чается от к® или больше этой величины; гипотеза К> Принимается при ж ^8.15; гипотеза принжмается при />=£8,15, где 8.15 = 8,4 —0»13 о = 8Л — 0,13-1 »9э. 2. Столбцы: 1 — Р (£Е) = Р (р > 8.151 ж. п) при « 8,4; 2 — взвешенные значения С^» т. е. произведе- ния чисел на столбцов / и 2 табл. 10.10; 3 — Р (а£) = = Р (р 8.15 | ж, м) прн ж 8.4; 4 — взвешенные зна- чения С^, т. е. произведения чисел из столбца 3 на «исля на столбца S табл. 10.10. Посмотрим теперь, как будет рас. суждать наш студент. Мы уже от- мечали, что он может просто посмо- треть на столбцы 2 и 5 и постарать- ся принять решение о том, покупать ему или нет 1000 портфелей, не про- водя никакого выборочного исследо- вания. Если он купит такое количе- ство портфелей, но не сможет про- дать по своей цене ни одного из них (п=0), то он потеряет 333 долл, (столбец 2). Если он испугается возможных убытков и решит отка- заться от всей своей затеи и если это решение окажется неправиль- ным, то он потеряет возможность получить прибыль, указанную в столбце 5. Эти рассуждения обязательно приведут его к вопросу: чему равна вероятность Р(л<8,4) или вероят- ность Р(л^8,4)? Если он может по- лучить надежную оценку этой веро- ятности (например, если его прия- тель из другого университета уже проводил такой эксперимент), то это существенно облегчит процедуру принятия решения. В противном случае ему придется подумать о том, как получить информацию о соотношении между л и л0 с по- мощью выборки. В последнем случае ему придется внимательнее изучить числа, нахо- дящиеся в столбцах 1 и 4, а затем числа, находящиеся в столбцах 3 и 6. Если он на самом деле возьмет выборку с п—200 и получит р>5,2, то он примет гипотезу и закупит по меньшей мере 1000 портфелей. При этом максимальная ожидаемая потеря может составить 65,70 долл; Для того чтобы получить более точ- ное значение для этого максимума, ему следовало бы проделать все эти вычисления для л=0, I, 2, ..., 100, а не только для л—0, 2, 4, ..., 100. При р£5,2 максимальная ожидае- мая (взвешенная) потеря от неис- пользования благоприятной воз- можности равна 1,54 долл. Значительное расхождение между этими двумя максимумами заставит студента изменить его решающее правило. Предположим, что он ре- шил сохранить п=200, но увеличить значение а с 0,05 до 0,10 (табл. 10.11). Максимальная ожидаемая потеря вследствие ошибки р равна теперь 50,3 долл, (столбец 2), а ожидаемая потеря вследствие ошиб- ки а равна 3,4 долл, (столбец 4). Резкое увеличение а до значения а=0,45 дает максимум 9,6 долл, в столбце 2 и максимум, равный 24,6 долл, в столбце 4 табл. 10.12. Если наш студент хочет выработать решающее правило, для которого максимум ожидаемой ошибки при- мерно равен максимуму ожидаемой ошибки а, то ему следует составить еще две или три такие таблицы, по- ка он методом проб и ошибок не добьется равенства. Три приведенные нами таблицы показывают, что значение а=0,05, часто используемое на практике (и которым мы пользовались в гл. 8 и 237
9), в этом примере вовсе не явля- ется оптимальным. Данные табл. 10.12 подсказывают, что можно при- нять гораздо большее значение а. Причина такого различия состоит в том, что в предыдущих главах мы придавали больше значения вероят- ностям ошибок аир. Теперь же нам недостаточно знать лишь сами вероятности, а следует сравнить их с условными потерями. Результатом такого сравнения и будут ожидае- мые потери. Из данных табл. 10.12 видно, что ожидаемая потеря вследствие оши- бок аир будет равна максимум 25 долл., если отобрать выборку с п = 200. Однако выборка такого объ- ема обойдется студенту в 100 долл. Это гораздо больше того, что он может потерять в долгосрочной перспективе, даже в наихудшем ва- рианте, если он совершит одну из двух ошибок. Таким образом, если наш студент хочет использовать в качестве ориентира ожидаемые потери, ему следует составить еще несколько таблиц с объемами вы- борки менее 200. В конце концов он получит оптимальное решающее правило. Напомним читателю, что решаю- щие правила, основанные на вычис- лении ожидаемой потери от неис- пользования благоприятной возмож- ности, применимы в тех случаях, когда проводится много экспери- ментов. Ожидаемые значения реа- лизуются лишь в длительных экспе- риментах, а это всегда означает проведение большого числа испыта- ний. Если наш студент хочет полу- чить информацию по выборке толь- ко один раз (или небольшое число раз), то он вполне может уделять больше внимания ошибкам аир, а не ожидаемым потерям. Аналогичной техникой можно пользоваться и для того, чтобы сравнить р с ро с целью выработ- ки решающего правила с оптималь- ным объемом выборки. Читатели, желающие подробнее изучить этот вопрос, могут обратиться к очень 238 i I четкому изложению в книге Шлай- фера 1. Еще одной полезной книгой является книга Сасаки2. 10.4. ЭЛЕМЕНТЫ БАЙЕСОВСКОЙ! СТАТИСТИКИ Байесовской статистикой называ- ется более эффективное использова- ние результатов выборочных иссле- дований путем учета информации о распределении генеральной сово- купности и о его параметрах. Рас- смотренные нами в гл. 8 и 9 про- цедуры оценивания истинных значе- ний параметра и проверки гипотез относятся к так называемой класси- ческой статистике и основываются только на выборочной информации. Байесовская теория дает статисти- ку возможность воспользоваться любой информацией о всей гене- ральной совокупности, .из которой берутся наши выборки. Такой ин- формацией может быть некоторое распределение частот, полученное из. предыдущего опыта. Или же в фор- му вероятностного распределения можно перевести опыт лица, прини- мающего решение. Тогда это веро- ятностное распределение вместе с результатами выборочного исследо- вания можно использовать для того,. чтобы сделать те или иные стати- стические выводы. 10.4.1. Априорное распределение величины л Мы рассмотрим основные поня- тия байесовской статистики на кон- кретном примере. Предположим, ^то • некоторая фирма разработала элек- тродвигатель нового типа и постро- ила его прототип. Специалисты по анализу издержек производства ус- тановили, что производство новой модели окупится, если компании удастся завладеть по крайней мере 20% рынка. (Этот процент заведомо преувеличен, чтобы упростить все 1 Schlaifer R. Introduction to Statistics for Business. N. Y.: McGraw-Hill, 1961. 2 Sasaki K. Statistics for Modern Busi-- ness Decision Making. Belmont, California: Wadsworth Publishing Co., 1968..
рассуждения.) Если руководство компании решит начать серийное производство, но объем продажи •будет меньше 20% рынка, то ком- пания потерпит убытки. Такой си- туации соответствует некоторая ошибка р или риск потребителя1. Если будет принято решение не пу- скать модель в серийное производ- ство, а какая-нибудь конкурирую- щая фирма предложит подобную же модель и будет иметь успех, то компания потерпит убытки от неис- пользования благоприятной воз- можности, которым соответствует ошибка а или оиск поставщика. л Таблица 10.13. Распределение частот объемов продажи 89 электродвигателей сходного типа 1 Ki =P(KZ) 5 1 0,01 35 13 0,16 10 2 0,03 40 9 о.п 15 6 0,07 45 6 0,07 20 10 0,18 50 2 0.03 25 14 0,18 55 1 0,01 30 16 0.20 80 1,00 Компания имеет некоторый опыт продажи двигателей сходного типа. Данные приведены в табл 10.13. Ориентируясь на это распределение, руководство фирмы может оптими- стично смотреть на перспективы за- нять не менее 20% рынка. Вероят- ность Р(л1^20)=0,85 можно счи- тать довольно высокой. Теперь мож- но вычислить ожидаемые значения потерь от неиспользования благо- приятной возможности (как мы это делали в разд. 10.1), а затем ис- пользовать эту информацию в про- цессе принятия решения. Однако руководство фирмы реши- ло объединить сведения, приведен- ные в табл. 10.13, с результатами выборочного исследования. Чтобы 1 Имеется в виду, что модель не удов- летворит потребителя, вследствие чего объ- ем продажи не достигнет желаемого уров- ня Противоположность этому составляет риск поставщика, который связав с его решением не производить модель. — Прим, ред. Таблица 10.14. Таблица условных потерь от неиспользования благоприятной возможности; задача о продаже электродвигателей a. i I 2 I 2 5 150 0 35 0 120 10 100 0 40 0 160 15 50 0 45 0 200 20 0 0 50 0 240 25 0 40 55 0 288 30 0 80 Прямечваке. Столбцы: /—условные потери от не- использования благоприятной возможность вследствие действия 1: начать серийное производство, тогда как на самом деле «<«0=20; 2—условные потерн от певс- пользоеання благоприятной возможности вследствие дей- ствия 2: ие начинать серийного производства, тогда как на самом деле *>а»=20. получить эти выборочные данные, торговому агенту было поручено взять с собой электродвигатель и посетить ряд произвольно выбран- ных перспективных покупателей. Издержки выборочного исследова- ния будут включать в себя заработ- ную плату торгового агента плюс его командировочные расходы. Предположим, что после учета всех этих обстоятельств руководство ре- шило отобрать выборку с л=10. Посетив 10 покупателей, торговый агент смог продать один электромо- тор. Соответствующая информация, касающаяся решения о том, следует ли начинать серийное производство, приведена в табл. 10.15. Она по- строена с помощью табл. 10.14, в ко- торой проиллюстрирован порядок применения байесовского, решаю- щего правила. Однако прежде, чем использовать распределение частот из табл. 10.13, распределение для выработки байесовского решающего правила (табл. 10.15), частоты f, следует перевести в частности f"p, в этой форме оно становится априорным распределением. Вероятности, приведенные в столбце 1 табл. 10.15, будут услов- ными вероятностями. Так как вы- борку отбирали из большой дихо- томией генеральной совокупности, эти вероятности можно вычислить 239
Таблица 10.15. Байесовское решающее правило; задача о продаже электродвигателей (ожидаемые потери для и=10 и <¥й=1; априорное распределение *4 /’(«р 1 2 3 4 5 5 0.01 0.315 0,00315 0,021 3.15 0 10 0,03 0.387 0,01161 0.077 7,70 0 15 0.D7 0,347 0,02429 0.162 8.10 0 20 0,13 0.268 0.03484 0,233 0 0 25 0,18 0,188 0.03384 0.226 0 9.04 30 0,20 0,121 0,02420 0.162 0 12.95 35 0,16 0.073 0.01168 0.078 0 9,36 40 0,11 0.040 0.00440 0,029 0 4,64 45 0.07 0.021 0.00147 0.010 0 2,00 50 0.03 0,010 о.тоозо 0,002 0 0,48 55 0.01 0,004 0.00004 0 0 0 • 0,14982 1,000 18.95 38.48 Примечав не. Столбцы: 7—условные ^биномиаль- ные) врровтности ух правдоподобия Р (Х*=Ип=10. Wj); 9- совместные оероягтности P(Xs=Ib «Х-)=Р («/) -Р(Х®= =!|л=10, «р; 3—апостериорное распределение: пере считанные (апостериорные) вероятности -Р =Р(Х»=1, «р/£Р (Ха±=1, «-); 4—взвешенные потеря от неиспользования благоприятной жиможности в случае действия I: числа кэ столбца 3, умнож^Жные на числа из столбца / табл 10 J4; “—взвешенные потери от неис- пользования благоприятной возможности в случае дей- ствия 2: произведение чисел яз столбцов 3 н 1 табл. 10.14. по формуле для биномиального рас- пределения или взять из таблицы биномиального распределения. Так, для п=10 и лз=15 Р(%2=1) =0,347, т. е. />(Хг=11«3^!5. п=10) =0,347; а при /7=10, но Лд=20 Р(Хг=1) = =0,268, т. е. Р(Х2=1|л4=20, п= =10) =0,268. Эти условные вероят- ности принадлежат к тому же типу, что и приведенные на рис. 5.4,6 и использованные при выводе форму- лы Байеса. Значение вероятности P(fj)=4/9 на этом рисунке соответ- ствует вероятности Р(лз=15)=0,07, a P(Et0|£I)=l/4 соответствует зна- чению Р(%2=11 лз=15, п=10) = =0,347. Отметим, что приведенные в столбце 1 условные вероятности обычно называются величинами правдоподобия. Сумма правдоподо- бий, вообще говоря, не равна еди- нице. Площадь каждого прямоугольни- ка на рис. 5.4,6 находится путем ум- ножения вероятностей, скажем, ве- роятностей P(EW|-EI) и P(£i), кото- рые дают (1/4) 4/9= 1/9. Такие же вычисления проделаны, чтобы полу- чить числа в столбце 2 табл. 10.15. Наконец, числа из столбца 3 по- лучены путем деления каждого из чисел столбца 2 на сумму всех чи- сел этого столбца. Такая процедура называется нормированием. Она эк- вивалентна делению площади пря- моугольника, которому соответству- ет 1/4, на сумму площадей трех верхних прямоугольников на рис. 5.4,6. Величины, данные в столбце 3, вместе с соответствующими значе- ниями л. называются апостериор- ным распределением, а сами веро- ятности называются пересчитанны- ми (апостериорными) вероятностя- ми. Важно иметь в виду, что совме- стные вероятности из столбца 2 пропорциональны апостериорным вероятностям столбца 3. Это значит, что взвешенные потери, приведен- ные в столбцах 4 и 5, можно также вычислить с помощью данных столбца 2. Мы получим величины, пропорциональные тем, которые да- ны в столбцах 4 и 5. Числа столбца 4 говорят о том, что может произойти (в терминах взвешенных потерь от неиспользо- вания благоприятной возможности), если руководство фирмы решит предпринять действие 1 (начать се- рийное производство) в то время, как на самом деле л<ло- Эти числа представляют собой значения стои- мости риска потребителя, а их сум- ма (18,95) составляет значение ожи- даемой потери от неиспользования благоприятной возможности. В то же время ожидаемая потеря от не- использования благоприятной воз- можности, зависящая от риска по- ставщика, равна 38,48. Это значение ожидаемой потери соответствует ре- шению не пускать мотор в серийное производство в то время, как на са- мом деле «>ло- Сопоставляя эти два вида ожидаемых потерь, мы ви- дим, что руководству компании сле- дует меньше опасаться возможной потери от действия 1, чем от дейст- вия 2. Если лицо, принимающее ре- шение, предпримет действие 1, то ожидаемая потеря будет составлять лишь 18,95 долл, по сравнению с 36,48 долл, в случае действия 2. 240
Чтобы лучше понять этот резуль- тат, читателю следует иметь в виду, что А 2=1 соответствует р=10%. Успешный исход в этой выборке значительно менее вероятен (ниже ло=2О). но комбинация апостериор- ных вероятностей из столбца 3 и условных потерь от неиспользова- ния благоприятной возможности из табл. 10.14 обусловила наличие именно таких значений ожидаемых потерь, которые приведены в табл. 10.15. Таблица 10. 16. Байесовское решающее правило; задача о продаже электродвигателей (ожидаемые потери для п^100 и -¥„=10); априорное распределение *1 1 2 3 4 5 5 0,01 0,017 0,00017 0,022 3,30 0 10 0,03 0.132 0,00396 0,521 52,10 0 15 0,07 0,014 0,00308 0,405 20,25 0 20 олз 0,003 0,00039 0,05! 0 0 25 0,18 0 0 0 0 0 30 0,20 0 0 0 0 0 35 0,16 0 0 0 0 0 40 0,11 0 0 0 0 0 45 0,07 0 0 0 0 0 50 0,03 0 0 0 0 0 55 0.01 0 0 0 _0 0 0,00760 76,65 Примечание. Столбцы /—условные (биномиаль- ные) вероятности или праздооодобня Р1Хц=10|п—100, «р; 2—совместные вероятнее™ Р(Хи=1<^^Р{ж.}х ХР (Хи— IOf/1—100, я,); 3— агюстериорное распределе- ние: япостернораде вероятности Р(ж.|Хи»Ю)^Р(ЛГм« =•0, (Лп—Ю. «.); 4—взвешенные потеря от кеТ использования благоприятной вазмоноюстн в случае действия 1: «тела из столбца Я, умножение на числа нз столбца 1 табл. Ю.Н; 5—нзведнеяныс потеря от ненс- пользеввння бпа.ттприитной возможности в случае дей- ствия 2: произведение чисел нз столбца J на числа из столбца 1 твбл. 10,14. Аналогичные вычисления приве- дены и в табл. 10.16. В пей л=100, но Хп=10, так что р=10%, как и в предыдущем случае. Апостериор- ное распределение здесь радикально отличается от предыдущего случая, а ожидаемая потеря от действия 1 равна 76,65 долл, по сравнению с 0 долл, для действия 2. Т аким обра- зом, в этом случае, несмотря на то, что значение р не изменилось, лицо, принимающее решение, скорее всего выберет действие 2. 16—232 Разница между этими двумя слу- чаями очень хорошо показывает, как определяются вид и ожидаемое- значение апостериорного распреде- ления. Вспомним, что апостериор- ная вероятность зависит от априор- ной — Р(л.) — и условной — Р (Xi | п,. л,-) — вероятностей. Когда объем; выборки мал, на апостериорные ве- роятности значительно сильнее вли- яют веса, соответствующие априор- ным вероятностями, чем веса, отве- чающие условным вероятностям, и наоборот. В этом легко убедиться, сравнив ожидаемые значения апри- орного и апостериорного распреде- лений в табл. 10.15 и 10.16. Значе- ние prM(m) (где индекс рг означа- ет априорное распределение) в обе- их таблицах, конечно, совпадает. Оно равно ргЛ4 (л,-)=29,7. Ожидае- мое значение апостериорного рас- пределения при п=10 и р=10% равно роЛ1(л/)=22,9 (где буквы ро означают «апостериорное» распре- деление). Однако в случае, когда п=100, а р=10%, ожидаемое зна- чение апостериорного распределе- ния равно роМ (л1)=12,4. Если бы для выборки п=10 р= =50%, то ожидаемое значение та- кого апостериорного распределения- (которое здесь не показано) равня- лось бы роЛ1(л,-)=36,5. Для р=50% и выборки п=100 ожидаемое значе- ние апостериорного распределения есть роМ (л,) =46,3. Заметим, что такое ожидаемое значение апосте- риорного распределения можно ис- пользовать как точечную оценку для л, если среднее квадратическое отклонение апостериорного распре- деления не очень велико. Эти результаты можно объяснить- следующим образом. При фиксиро- ванном размахе л/, фиксированном значении п и числе успехов X или< проценте успешных исходов р зна- чения правдоподобий (например,, правдоподобий из столбца / табл. 10.15) будут одинаковыми незави- симо от вида кривой Р(л,). Мы зна- ем, что совместные вероятности яв- ляются произведениями Р(л.) » правдоподобий. Напомним также, 241.
что совместные вероятности пропор- циональны апостериорным вероят- ностям, и посмотрим, что происхо- дит с видом апостериорного распре- деления, когда априорное распреде- ление становится плоским или поч- ти плоским, а кривая правдоподо- бия принимает островершинную фор- му и наоборот. Допустим, что апри- орное распределение является на самом деле прямоугольным, так что Р(л;)=Р(л2)= ... =P(.tfc). В этом случае априорное распределение вообще не будет влиять на апосте- риорное. При этом можно совсем не вычислять совместные вероятности и провести только нормирования (перевод в вероятностную форму) правдоподобий. В то же время, если правдоподо- бия распределены довольно равно- мерно, апостериорное распределе- ние будет совпадать с априорным. Итак, в тех случаях, когда априор- ное распределение будет довольно плоским, но график правдоподобий имеет значительный эксцесс, причем этот эксцесс приходится на некото- рое значение л/, апостериорное рас- пределение будет определяться главным образом выборочными дан- ными и не будет зависеть от апри- орного распределения. Обратно, когда график априорного распреде- ления имеет сильно выраженный эксцесс, во правдоподобия распре- делены довольно равномерно, апо- стериорное распределение (и, сле- довательно, исход эксперимента) будет определяться главным обра- зом видом априорного распределе- ния. В каких же случаях графики ап- риорного распределения или прав- доподобий имеют плоскую форму? Прямоугольные или почти плоские распределения редко встречаются в реальной жизни. Распределения правдоподобий могут быть близки к 5тому, когда объем выборки мал. Напомним, что правдоподобия соот- ветствуют величинам P(Xfc|rtj) или Для испытаний по схеме Бернулли вероятность Р(ря|л;) бу- дет принимать наибольшее значе- 242 ние при некотором Рл=лд (где лд— одно из значений л/), как, напри- мер, р2=Л2=Ю в табл. 10.15. Одна- ко в малых выборках значения, су- щественно отличающиеся от рл=лф могут иметь значительные правдо- - подобия. В этОхМ легко убедиться, взглянув на столбец 1 табл. 10.15. Именно поэтому для выборок не- большого объема исход байесовско- го эксперимента определяется глав- ным образом априорным распреде- лением (при условии, что оно не бу- дет плоским), а не результатами выборочного исследования. Когда выборка имеет большой объем, правдоподобия группируют вокруг значения pk=nq. Например, в столбце 1 табл. 10.16 они имеют выраженный максимум около зна- чения Р1|=Л2=1О%. Это объясняет разницу между ожидаемыми значе- ниями апостериорного и априорного распределений для п=10 и л=100, которая имеет место, несмотря на то, что р2=рп=Ю%. Поэтому с увеличением объема выборки апо- стериорное распределение (а с ним и исход байесовского эксперимента) будет во все большей степени опре- деляться результатами выборочного исследования. Как .мы уже отмечали, плоские априорные распределения редко встречаются в реальной жизни. Тем не менее ряд специалистов по ста- тистике рекомендует в1 некоторых случаях прибегать к искусственно- му построению такого априорного распределения. Если лицо, прини- мающее решение, не знает форму априорного распределения, но у не- го есть сведения о наибольшем и наи- меньшем возможном значении л,, то можно предположить, что график априорного распределения имеет прямоугольную форму. Такое апри- орное распределение не будет влиять на форму апостериорного распределения, но определит его размах. Разница между байесовским ана- лизом и классической проверкой ги- потез носит принципиальный харак- тер. В подобных случаях байесов-
ский эксперимент строится с помо- щью априорного распределения, для которого случайной переменной является не выборочное значение а параметр генеральной совокупно- сти я/. Обычная же проверка гипо- тез проводится с помощью, напри- мер, биномиального распределения Рг при условии, что дано только од- но значение л (например, гю). По- этому распределение величин р, ни- когда не следует смешивать с рас- пределением л,-. Пользуясь байесовским методом, статистик предполагает, что ему из- вестно распределение Р(т). На- пример, как видно из табл. 10.15, Р(Л2=1О) =0,077, а Р(л6=30) = =0,162. Таким образом, вероятность (правдоподобие) того, что р* про- исходит из л„ является только од- ной составной частью апостериорно- го распределения вероятностей. В то же время, проводя классическую проверку гипотезы, статистик вовсе не предполагает, что ему известно л. Он может сказать только, что с некоторой вероятностью 0 выбо- рочное значение р, происходящее из генеральной совокупности с некото- рым я, будет больше или меньше допустимого предела ло+& (напри- мер, имеющего вид ло+^сгр). Дру- гими словами, в байесовской стати- стике мы имеем дело с вероятно- стями для значений л, а в классиче- ской проверке гипотез с вероятно- стями того, что р происходит из ге- неральной совокупности, соответст- вующей определенному значению л. По этой причине и в таком именно смысле следует, например, отличать апостериорное распределение из столбца 3 табл. 10.15 от вероятно- стей р и а из столбцов 1 и 4 табл. 10.10. С принципиальной точки зре- ния, мы в обоих случаях имеем де- ло по-прежнему с риском постав- щика и риском потребителя, но по- лучили мы их двумя различными путями. Точную зависимость между ними можно определить лишь в том случае, когда априорное распреде- ление является известной матема- тической функцией, например функ- 16* цией нормальной плотности распре- деления. Применяя оба метода анализа,, лицо, принимающее решение, мо- жет получить несколько советов по- рассматриваемому вопросу. Специа- лист по классическим методам бу- дет утверждать, что в некоторых случаях (когда генеральная сово- купность дихотомна или когда ис- тинное значение о велико) не сле- дует пользоваться малыми выбор- ками. Он укажет, что малая выбор- ка и ненадежное априорное распре- деление могут только ухудшить ка- чество информации. Однако в тех случаях, когда име- ется надежное априорное распреде- ление, скорее всего преобладает мнение специалиста по байесовским методам, поскольку исход экспери- мента будет более эффективным. Такое, однако, встречается не часто, поскольку трудно получить априор- ные распределения, на которые можно полагаться. Наконец, для выборок большого объема специа- лист по классической статистике только с большой неохотой может согласиться учесть свойства апри- орного распределения, в частности, в связи с тем, что оба метода при большом объеме выборки дают ре- зультаты, которые не сильно разли- чаются. 10.4,2. Априорное распределение pt Когда имеется априорное рас- пределение дискретной случайной, переменной р„ методика, описанная в табл. 10.13 и 10.14, применяется практически без изменений. При этом на основе предыдущего опыта предполагается, что каждое истин- ное среднее р, встречается с неко- торой частотой fi. Эти частоты, как. и частоты для щ (см. табл. 10.13), дают нам априорное распределение. Однако каждое р является средним значением некоторой генеральной совокупности, имеющей свое собст- венное распределение с той или иной формой и тем или иным сред- ним квадратическим отклонением от. 243
Рассмотрим априорное распреде- ление, приведенное в табл. 10.17. Средние квадратические отклонения для всех генеральных совокупно- стей распределения одинаковы: п— =4. Из одной из приведенных в таб- лице генеральных совокупностей бе- рется выборка л=4. Она дает вы- борочное среднее Х=84. Если это среднее происходит из генеральной совокупности л=83, то при усло- вии, что выборочные средние рас- Таблица 10.17. Вычисление апостериорного распределения для дискретной случайной переменной р.г- р<р-£) Р (Х=84. *9 83 0,01 0.352 0,00352 0,013 84 0,13 0,500 0,06500 0,232 85 0,25 0,352 0,08800 0,314 86 0.41 0,242 0.09922 0,354 87 0,(8 0,130 0.02340 0,083 88 0,02 0,054 0,00108 0.004 0,28022 1,000 Примечание. Предположения: =«=4. п=4. Х*=84. пределены по нормальному закону, его правдоподобие / (z,=0,5) = =0,352, где Z, = (X — н)/а_ = = (84-83V(4//4)=0,5. Значение 0,352 равно ординате точ- ки графика стандартной плотности нормального распределения, соот- ветствующей z=0,5, и это число стоит на первом месте столбца 2. Все остальные числа в других столбцах вычисляются так же, как и в предыдущем случае. Фиксиро- вав некоторую точку и условные потери от неиспользования благо- приятной возможности, соответству- ющие риску поставщика и потреби- теля, можно вычислить ожидаемые потери от неиспользования благо- приятной возможности. При усло- вии, что среднее квадратическое от- клонение апостериорного распреде- ления не слишком велико, его ожи- даемое значение можно использо- 244 вать также и в качестве точечной оценки для р. Для каждого из априорных рас- пределений (описывающих л, и ц») можно взять вторую и третью вы- борки. При этом апостериорное рас- пределение, полученное по предыду- щей выборке, становится априор- ным распределением относительно новой выборки. Можно поступить и иначе, объединив данные второй вы- борки с данными первой выборки В этом случае апостериорное рас- пределение останется прежним. 10.4.3. Апостериорное нормальное распределение и апостериорное ^-распределение Нормальное распределение. Рас- смотрим прямоугольное априорное распределение ц. Пусть каждое ц является средним значением нор- мального распределения, среднее квадратическое отклонение которо- го равно о. Будем считать, что о известно. Если взять выборку объ- ема п и вычислить X, то можно по- казать, что апостериорное распреде- ление ц будет нормальны^ с пара- метрами р=Х из =о/У«. Послед- ний из этих параметров представля- ет собой хорошо известную нам стандартную ошибку среднего, но вычисленную заново в терминах ап- риорных и апостериорных распреде- лений. Так как апостериорное рас- пределение описывает случайную переменную ц, а не X, мы будем обозначать эту стандартную ошибку через вместо <з_ .В при- ложениях ее можно использовать точно так же, как было описано в гл. 8 и 9. Если у исследователя есть неко- торая информация не только о о, но и о р, то ею можно воспользо- ваться. В этом случае среднее ква- дратическое отклонение апостериор- ного распределения вычисляют по формуле / ’ а ожидаемое значение апостериор-
кого распределения равно 7И(|1) = *>/(«*,/*.)+*,/(Л/л.) 1/(’г|/л.) + !/(<»%/««) Ожидаемое значение р является в некотором смысле видоизмененным выборочным средним, и им можно пользоваться как точечной оценкой для ц. На самом деле в этих формулах считается, что берутся не одна, а две выборки. Другими словами, имеется прямоугольное априорное распределение, для которого взяты две выборки объемом ni и п^. Затем по комбинированному апостериор- ному распределению вычисляются <Тц и Л1(р). В том случае, когда у нас имеется некоторая информация о р. и or из предыдущего опыта и мы взяли только одну выборку, можно считать, что «1=1 и что из- вестное из предыдущего опыта зна- чение р равно Агь Пусть, например, из прошлого опыта нам известно, что ранее ап- риорное распределение было нор- мальным с параметрами р—80 и 0=8. Мы решили, что об этой ге- неральной совокупности необходима дополнительная информация, и отобрали выборку с п2=16, которая дала нам Х2=82. Отсюда получаем М (р) = 80/(61/1) + 82/(64/16) 1/(64/1) + 1/(64/16) =81,9. Для л2=4 Л1(р)=81,6, а для п2=1 получаем в качестве М(р) просто среднее арифметическое от обоих средних. При /г2=16 среднее квад- ратическое отклонение апостериор- ного распределения равно V I/(64/1) + 1/(64/16) = 8//Т7 = 1,94 = а/ |/п++ что почти совпадает с а_ = з/ргл= _ 8/"|/Тб. С помощью доверительных пределов оценку для истинного значения можно получить следую- щим образом: Р {[М (р) - zsj < р < <[M(p) + ^J} = в. При е=0,95 Р [(81,9-1,96-1,94) < <р<(81,9+1,96-1,94)]=0,95, т. е. Р (78,1 <ip <85,7) =0,95. P-Распределение. Когда априорное распределение есть распределение л», целесообразно попытаться подо- брать к нему некоторое 0-распреде- ление. Дело в том, что если априор- ное распределение является р-рас- пределением, то апостериорное рас- пределение также будет р-распреде- лением, ожидаемое значение и среднее квадратическое отклонение для которого можно вычислить по простым формулам. Значения р-рас- пределения можно найти в табли- цах. Его можно записать в виде к(л-1)1 Г(Р)— (s—Т)! (п—s—1)! причем M(p)=s/n, а' oaJ>=s (n—s)/[п2 (п+1) ], где 0<p<J, a 0<s<n. Параметра- ми этого распределения являются величины sun, где s — число ус- пешных исходов при проведении п испытаний по схеме Бернулли. Эта функция похожа на функцию плот- ности биномиального распределе- ния, но с точки зрения зависимости от р она будет непрерывной. Чтобы построить график какой- нибудь из функций f(p), подставьте просто некоторые параметры s и п и постройте несколько точек для удобных значений р, а затем соеди- ните эти точки гладкой кривой. Не- которые из графиков 0-распределе- ний построены на рис. 10.2. Напри- мер, при $=1 и п=2 fM=-^-p°a~py=i и графиком будет прямая, парал- лельная оси абсцисс и проходящая от точки р=0 до точки р=1 на вы- соте 1 при всех 0<р<1. В этом слу- чае мы получаем прямоугольное распределение. При s=l и п=3 Г(/’) = -ЙТГР,(1-р)’ = 2-2р. 245
Это—пряма*} с отрицательным уг- ловым коэффициентом. При n=2s графиком ^-распределения будет, вообще говоря, симметричная коло- колообразная кривая. Таким образом, график ^-распре- деления может принимать самую разнообразную форму, включая прямоугольную, U-образную, J-об- разную, форму прямой линии, и, конечно, бывает колоколообразной кривой. С методикой подгонки 0- распределения к эмпирическим дан- ным можно познакомиться в книге Пратта, Райффы и Шлайфера L Предположим, что на основании предыдущего опыта было построено вероятностное распределение л/. Подгоним к нему некоторое ^-рас- пределение. Допустим, что наилуч- шее приближение дает 0-распреде- лсние с параметрами $1 и Возь- мем теперь выборку объемом ns и подсчитаем в ней число успешных исходов s2. Апостериорным распре- делением для этого эксперимента будет 0-распределение с парамет- рами и n=rti+n2- Далее, как всегда, можно использовать ожидаемое значение этого распре- деления в качестве оценки для л или же вычислить ожидаемые поте- ри для дальнейшего использования их в процессе принятия решения. 1 Pratt J- W., Raiffa Н„ Schlaifer R. Introduction to Statistical Decision Theory. N. Y.: McGraw-Hill, 1%5. 246 10.5. ВОПРОСЫ И ЗАДАЧИ 10.1. Компания должна установить объ- ем производства некоторого товара Qi* где Qj может равняться 20. 30, 40. При- быль на единицу товара равна 5 долл. Ту часть товара, которую не удастся про- дать, придется реализовать с убытком по 2 долл, на штуку. Комиссия экспертов, состоящая из 3 человек приписала воз можним значениям объема спроса 20, 30 и 40 следующие вероятности: xi »/> (X.) 20 0,6 0,7 0,5 30 0,3 0,2 0,3 40 п,1 0.1 0.2 а. Вычислите средние вероятности Р(Л,). Как бы вы поступили в том слу- чае. если мнение первого члена комиссии было бы для вас в два раза авторитетнее мнений второго и третьего членов ко- миссии? б. Постройте платежную матрицу (таб- лицу) условных прибылей PRtj* вычислите для всех Qj значения ожидаемой прибыли и найдите оптимальный объем производ- ства. в. Постройте матрицу (таблицу) услов- ных потерь от неиспользования благопри- ятной возможности, содержащую величи- ны OLijt найдите для всех Q, ожидаемые значения потерь от неиспользования бла- гоприятной возможности. Сравните значе- ние оптимального объема производства, полученное этим методом, со значением оптимального объема производства, полу- ченным в задаче 10.L6. г. Найдите условную и ожидаемую при- быль при наличии полной информации. Че- му равна ожидаемая иенностЕ, полной ин- формации? Как связана эта величина с PR<i и О1.ц? 10.2. Возьмите в задаче 10.1 Х<==0, К 2 и Qj=O. 1, 2 и снова ответьте на все поставленные в ней вопросы. 10.3. Найдите условную и ожидаемую прибыль при наличии полной информации для задачи, рассмотренной в табл. 10.8. Найдите также ожидаемую ценность пол- ной информации. 10.4. Матрицу потерь от неиспользо- вания благоприятной возможности можно получить и с помощью одной только мат- рицы условных прибылен (т. е. без какой бы то ни было дополнительной йнформа- цим). Предположим, что матрица прибы- лей имеет вид: А «1 «4 Л, 50 40 15 5 И, 50 70 60 40 — 10 —8 —4 —6
а. Составьте матрицу потерь от неис- пользования благоприятной возможности. б. Чему равны условные прибыли прн наличии полной информации? 10.5. Некоторая фирма выпускает но- вый продукт и хочет получить оценку то- го, какую долю рынка ей удастся занять Фирма запрашивает организацию, которая специализируется на проведении выбороч- ных исследований, о цене получения такой информации. а. Какие факторы будут определять из- держки этого выборочного исследования? б. Будет ли интересовать фирму длина доверительного интервала? Можно ли счи- тать. что есть некоторый минимальный доверительный интервал, после которого информация теряет ценность? Почему? в. Можно ли считать, что большое зна- чение Сп будет заведомо неприемлемо для фирмы, даже если оно будет оптималь- ным с точки зрения ожидаемых издер- жек? г. Мы определили Сп как издержки увеличения объема выборки на единицу. Можно ли предполагать, что Сп во мно- гих случаях непостоянно? Почему? 10.6. Для оптимального объема выбор- ки «=5 из табл. 10.9 определите влияние снижения условных издержек ошибки а, т. е. Св на «. Для этого возьмите С*= =8 долл, вместо С«=2 долл., пересчитай- те данные столбца 5 и найдите новые зна- чения для оптимальных п и а. 10.7. Чтобы определить влияние уве- личения о на оптимальное значение п, возьмите о=5, пересчитайте столбцы /, 3, 4. 5 и 7 из табл. 10.9 и найдите оптималь- ные значения п и а. 10.8. Чтобы определить влияние умень- шения доверительного интервала на опти- мальное значение п, возьмите С. I.—3, пе- ресчитайте столбцы 3, 4, 5 и 7 табл. 10 9 и найдите оптимальные значения п и а. 10.9. Рассмотрим предположения табл. 10.12 и допустим, что наш студент пред- ложил свои портфели случайной выборке «3 200 студентов. Ему удалось продать 24 портфеля. а. Оцените вероятность того, что jx>12 при условии л=6. Сделайте то же самое для л =8. б. Следуя решающему правилу табл. 10.12, мы принимаем гипотезу так как р>8,4. Следует ли пересмотреть это решающее правило с учетом резуль- тата задачи 10.9,а? 10.10. Возьмите данные табл. 10.10, За исключением п, и пересчитайте таблицу для «=100. а. Чем новая таблица отличается от табл. 10.10? б. Будет ли новый выборочный план лучше выборочного плана табл. 10.10? По- чему? 10.11. Возьмите данные из табл 10.10, за исключением п и а, и пересчитайте таб- лицу для «=400 и а—0,20. а. Чем новая таблица отличается от табл. 10.11? б. Чем эта таблица отличается от таб- лицы, составленной в упражнении 10.10? 10.12. С помощью апостериорных рас- пределений из табл. 10.15 и 10.16 найдите Р(л,>20). Найдите также Р(л»>20) по априорным распределениям, приведенным там же. Сравните эти величины и объяс- ните разницу 10.13. Пусть апрнрорное распределение в табл. 10.15 является равномерным, при- чем Р(л,)=1/Н. а. Найдите апостериорное распределе- ние. Необходимо ли для этого вычислять совместные вероятности? б. Найдите ожидаемое значение апо- стериорного распределения и сравните его с р=10 и с ожидаемым значением апо- стериорного распределения из табл. 10.15. в. Найдите величину Р(л=30) по апо- стериорному распределению задачи 10.13-а и по табл. 10.15. 10.14. Исследователь уверен в том, что наименьшее л( его априорного распреде- ления есть л=15, а наибольшее составляет л=45. Поскольку никакой другой инфор- мации об априорном распределении у него нет, он приписывает равные вероятности значениями л <=15, 20.. 45. а. Найдите апостериорное распределе- ние для п=10 и Хг=1 (воспользуйтесь ре- зультатами табл. 10.15). б. Найдите ожидаемое значение этого апостериорного распределения и сравните его с ожидаемым значением из зада- чи 10.13. в. Найдите по апостериорному распре- делению Р(л=30) и сравните это значе- ние со значением Р(л=30) из задачи 10.13. 10.15. Предположим, что исследователь ь задаче 10.14 оказался прав в том, что касается верхнего и нижнего предела зна- чений л<=15, 20,..., 45, но ошибся в том, что касается разных вероятностей для всех л,. В действительности эти вероятно- сти имеют вид: Р («,) 15 20 25 30 0,75 0,10 0,05 0,03 0,03 0,02 0,02 а. Возьмите «=10 и Xj=l и найдите апостериорное распределение, пользуясь результатами табл. 10.15 б Найдите ожидаемое значение этого распределения и сравните его с ожидае- мым значением из задачи 10.14. 247
в Найдите по апостериорному распре- делению вероятность Р(л=30) и сравните ее с Р(л=30) из задачи 10.14. г. Предположим» что вы знаете преде- ILL КРИТЕРИИ СОГЛАСИЯ В гл. 9 проверка гипотез приме- нялась^ среди прочего и в случае дихотомных генеральных совокуп- ностей. Имелись некоторое стан- дартное значение ж» и дихотомная генеральная совокупность с про- центом успешных исходов, равным л. С помощью процедуры проверки гипотез мы могли сравнить я и по, не .зная при этом самого значения л. Это делается путем отбора вы- борки и сопоставления р с ло. Ре- зультаты такого сопоставления да- ют возможность сделать некоторые выводы о том, имеется ли сущест- венная разница между л и ж». Эту задачу можно решать и ина- че, а именно сравнивая частоты, а не проценты. Пусть ло=5О% (доля белых шаров). Допустим, что из ге- неральной совокупности с неизвест- ным процентом белых шаров мы взяли выборку с п=250, подсчита- ли количество белых шаров в ней, которое оказалось равным 105, и получили тем самым р=42%. Кро- ме процедуры проверки гипотез, для того, чтобы установить, имеет- ся ли существенная разница между я и ло, можно воспользоваться и так называемым критерием хи-ква- драт. Применяя этот критерий, луч- ше пользоваться частотами, а не процентами. Сравним два набора частот: 105 145 250 125 125 250 лы изменения л,, но не имеете представ- ления о форме априорного распределения. Можно ли считать, что в таком случае априорное распределение будет плоским? 2 5 ГЛАВА 11 КРИТЕРИЙ ХИ-КВАДРАТ где — выборочные, a — теоре- тические частоты. Они используют- при применении критерия хи-квад- рат вместо процентов, которые рав- ные соответственно: д = 42 «, = 50 100— р = 58 100 —ко=50 Предположим, что наша генераль- ная совокупность состоит из 50000 шаров и что критерий хи-квадрат показывает, что между л и л« нет существенной разницы. В терминах частот это означает, что количество белых шаров во всей генеральной совокупности несущественно отли- чается от 25000. Если в задаче возможны только два исхода, и, следовательно, име- ются только две частоты, ее всегда можно решить с помощью провер- ки гипотез. Это всегда «выгоднее», чем применять критерий хи-квад- рат. Однако, когда генеральная со- вокупность не является дихотомной (т. е. когда мы имеем дело не с дву- мя, а с большим числом процентов ль яг, ..., Лщ), проверкой гипотез пользоваться уже нельзя. В этом случае все необходимые сопоставле- ния проводят с помощью критерия хи-квадрат. Рассмотрим поэтому генеральную совокупность, элементы которой мо- гут иметь не две, а т характери- стик, например 50000 шаров, кото- рые могут быть белого, черного, зе- леного, желтого и красного цвета. Подмножество шаров одного цвета состоит из некоторого числа элемен- тов, и эти числа, вместе взятые, об- разуют набор истинных частот Д, Ь, /5. которым соответствуют про- центы Допустим, что упа- ковщик должен положить в короб- ку разноцветные шары именно в та- 248
кой пропорции. Как проверить, де- лает ли это он правильно? Если он ошибется, то набор шаров будет воз- вращен компании, и она потерпит значительные убытки. Поэтому от- дел технического контроля хочет предварительно убедиться в том, является ли набор шаров правиль- ным. У компании есть для сравнения некоторый стандарт, а именно проценты 1Л1, m2, .-л.-,. Они называются теоретическими до- лями tn/, с которыми следует срав- нить истинные значения долей л,. Чтобы получить значения л,-, кон- тролеру ОТК необходимо перебрать все 50000 шаров, рассортировать их по цветам, сосчитать число шаров каждого цвета и пересчитать эти истинные частоты f, в частости с по- мощью соотношения ni=f,/50 ООО. Разумеется, вместо того чтобы пере- бирать всю генеральную совокуп- ность, гораздо дешевле было бы сравнить л; с (Л, с помощью выбор- ки. Это и можно сделать с помощью критерия хи-квадрат. Будем считать, что требуемые значения долей равны fnt=0,I5; <Л2=0,Ю; /Лз=0,03; fjt4=0,35 и (Ла= =0,37. Предположим, что выборка с л--600 дала следующие выбороч- ные частоты «fi=108, ./2=48, */з=30, <,/д=228 и в/ь= 186. Соответствующие значения выборочных долей равны pi=0,18; р2=0,08; р3—0,05; р4=0,38 и р5=0,31. Видно, что выборочные процентные характеристики отлича- ются от теоретических in,. Значит ли это, что л( существенно отлича- ется от 1Лг, или же различие между pi и обусловлено ошибкой выбо- рочного исследования, в то время как на самом деле между ж и нет существенной разницы? Чтобы установить это, проводят проверку с помощью критерия хи- квадрат (табл. 11.1,а). Так как этот критерий используют для сравнения частот, а нс процентов, первый шаг состоит в переводе теоретических процентных характеристик (или теоретических частостей tf"i) в тео- ретические абсолютные частоты tfi путем умножения гл, на п, т. е. по формуле ,/<=,Л)П. Если мы по тем или иным причинам предпочитаем пользоваться значениями tf"t вме- сто i.-i, (как, например, рассматри- вая теоретические распределения вероятностей), то tfi=tf",n. Таким образом, Ji=0,15 600=90; J2= =0,10-600=60 и т. д. Сравнение выборочных частот с теоретическими частотами tf,- про- водят с помощью величины хи-квад- рат, которую вычисляют по фор- муле X’*=S(4.f,.-f/;)%-)- Для нашей задачи о шарах значе- ние х2* определено в табл. 11.1. Из формулы видно, что, когда разница между •/,• и tfi невелика, величина X2* также будет маленькой. В на- шем примере значение хн-квадрат равно х2*=21»3. Его следует срав- нить с теоретическим значением хи- квадрат, взятым, например, из табл. IX (см. приложение). Это теорети- ческое значение зависит от уровня значимости а и числа степеней сво- боды v. В нашем примере v равняется числу частот т минус единица, т. е. v=m—1=5—1—4. Принимая а=0,05, находим по таб- лице, что х2о.9-':4=9,49. Поскольку оказалось, что х2*>Х2, то можно сде- лать следующий вывод: разница между pi и л, слишком велика, что- бы ее можно было объяснить только ошибкой выборочного исследова- ния. Следовательно, имеется суще- ственная разница между ж и 1Л,-. Это означает, что упаковщик не вы- полнил требования об ассортименте шаров (или других товаров) в ящике. Посмотрим теперь, что произой- дет, если объем выборки мал, на- пример, если п=200, но значения выборочных процентов р, и теоре- тических процентов <л,- не меняют- ся. Необходимые в этом случае вы- числения приведены в табл. 11.1,6. Хи-квадрат теперь равен х2*=7,13, и он меньше, чем x2o.8s;i9.5. (Заме- тим, что теоретическое значение х такое же, как и в случае п=600. по- 249
1 Таблица 11.1. Спределенке значений ги-ивалрата для проведения • проверки с помощью критерия согласия а) л = 600 1 t*f sh th i i — t hh-thWth 0,18 0,15 108 90 18 324 3,60 в 0,08 0,10 48 60 — 12 144 2,40 G 0,05 0,03 30 18 12 144 8,00 У 0,38 0,35 228 210 18 324 1.54 ‘ R 0,31 0,37 180 222 —36 1296 5,84 > 1.00 1,00 600 600 21,38 | r 6) л = 200 1 Pi t*i sh th hh-th* i ~ t f i __ 1 W 0,18 0,15 36 30 6 36 1,20 В 0,08 0,10 16 20 —4 16 0,80 G 0,05 0,03 10 6 4 16 2,67 Y 0,38 0,35 76 70 6 36 0,51 R 0,31 0,37 62 74 -12 144 1,91 1,00 1,00 200 200 7,13 в) п= 100 sh th Л th hh-fh** Wl-twl 18 15 18 15 3 9 0.60 8 10 13 13 0 0 0 5 3 38 35 3 9 0.26 38 35 31 37 -6 36 0.97 31 37 — 1 " 100 100 1,83 100 100 скольку значения а и v не измени- лись.) В результате мы приходим к противоположному заключению, а именно, что между значениями л,- Имя» нет существенного различия. По-видимому, разница между т и не очень ярко выражена, так как нам удалось обнаружить ее лишь с помощью довольно большой выборки и не удалось обнаружить с помощью меньшей выборки. Если взять еще меньшую выбор- ку, скажем, с п=100, то, как видно из табл. 11.1,в, теоретическая ча- стота ifa—З очень мала. Для таких малых теоретических частот приме- 250 пять критерий хи-квадрат не следу- ет. Поэтому мы объединили эту частоту с еще одной. Получилась новая частота, равная количеству шаров В или G (т. е. черного или зеленого цвета). Если малых частот будет больше, то все их нужно скомбинировать таким образом,, чтобы теоретическая частота каж- дой из групп равнялась по меньшей мере пяти. Заметим, что в табл. 11.1,6 х2*=1,83, несмотря на то, что значения pi не изменились. Что ка- сается теоретического значения хи- квадрата, то в этом случае т—4, а о=3 и х2о,85;з=7,81.
Распределение хи-квадрат для v=4 и для v=6 показано на рис. 11.1. Эти кривые можно построить ло формуле = [(v/2) — I]! X Х-^-(-Лм2,“'«р(-х72). Это есть непрерывная функция одной переменной, зависящая от па- 0 7 Z 3 Ь 5 6 7 В 9 IO X1 Рис. 11.1. Распределения хи-квадрат для №4 и v=6 раметра v Например, при v=4 она имеет вид: f(Zs)=0,25(X*)exp(-X’/2). "Чтобы построить кривую, достаточ- но взять несколько удобных значе- ний х2» например значения х2=0, 1, 2 . . ., и найти соответствующие зна- чения / (х2> - Эту функцию можно получить экспериментальным путем. Возьмем генеральную совокупность, состоя- щую из шаров пяти различных цве- тов, причем доля шаров каждого цвета равна л,. Допустим, что щ совпадают с tni, так что л,—{Л{=0. Возьмем много выборок с п=600 и вычислим х2* Для каждой из этих выборок. Составим распределение частот полученных значений х2*, переведем частоты fi в частости f"i и построим график. Он будет по- хож на кривую, соответствующую л>=4 (рис. 11.1). В этом примере приблизительно 95% всех значений X2* попадут в интервал между 0 и Х2о.95л = 9,49. Это означает, что, хотя на самом деле величины я, совпада- ют с {Ль значение х2*» найденное по выборочным частотам /л», может составлять до 9,49. Для а = 0,05 мы считаем, что если у. >9,49, то это обусловлено не только ошибкой вы- борочного исследования, но и су- щественной разницей между л, И {Л,. Критерий согласия очень часто применяется к распределениям ча- стот. Проиллюстрируем это на двух примерах. Имеется распределение частот неизвестной генеральной со- вокупности. Отбирается выборка подходящего объема и составляется выборочное распределение частот. Затем выборочные частоты *fi срав- ниваются с теоретическими частота- ми tfi с целью установить, будут ли неизвестные частоты генеральной совокупности fi существенно отли- чаться от теоретических частот J/. Проще говоря, мы хотим с помо- щью распределения выборочных данных проверить, будет ли неиз- вестное распределение генеральной совокупности существенно отличать- ся от некоторого теоретического распределения. Разумеется, если бы распределе-. ние генеральной совокупности было известно, мы не стали бы пользо- ваться критерием хи-квадрат, по- скольку он применяется исключи- тельно к выборочным частотам. Когда известны истинные частоты по всей генеральной совокупности, вообще нет никакой ошибки выбо- рочного исследования. Между из- вестными значениями частот гене- ральной совокупности fi и теорети- ческими частотами tfi разница мо- жет либо быть, либо не быть, и здесь нет никакой проблемы. Нормальное распределение. Про- иллюстрируем процедуру сравне- ния истинных частот некоторой ге- неральной совокупности с нормаль- ными частотами на примере выбо- рочных частот из табл. 5.10. В ней приведены данные о почасовых ставках заработной платы для 303 промышленных рабочих. В этой таблице они считаются данными о всей генеральной совокупности. Предположим теперь, что это есть распределение выборочных данных с Я=2,85 и 5=0,1911. 251
Теоретические частоты приведены в столбце 5. Они были получены путем подгонки к распределению почасовых ставок заработной платы некоторого нормального распреде- ления (как описано в разд. 5.4.1). Посмотрев на столбец 5, можно заметить, что Snf<=297,9, а не 303. Поэтому мы увеличим частоты nfi на 1,71 %, что соответствует отноше- нию 303/297,9=1,0171. Заметим да- лее, что две последние теоретиче- ские частоты меньше пяти. Объеди- ним их (а также соответствующие выборочные частоты) в одну. Те- перь уже мы готовы к тому, чтобы определить %2*. Таблица 11.2. 'Использование критерия согласия для сравнения с нормальный распределением sh th t~tf р •Л-^Р* tWi 10 11,4 -1,4 1.96 0J7 25 26,5 — 1,5 2,25 0,04 57 46,4 10,6 112,36 2,42 74 61,6 12,4 153.76 2,50 58 62,6 —4,6 21,16 0,34 34 48.2 —14,2 201.64 4.18 17 28,4 — 11,4 129,96 4.58 14 12,5 1.5 2,25 0,18 14 5,5 8.6 73.96 13.70 303 303,0 28.11 Примечание. Дангаое ьэяты из табл. 5.10. Эти расчеты приведены в табл. 112 (х2*=28,П). Вновь беря уро- вень значимости а=0,05, получаем, что это значение х2* следует срав- нить с х2о.95;6= 12,6. Таким образом, приходится сделать вывод, что рас- пределение почасовых ставок зара- ботной платы для всей генеральной совокупности (т. е. распределение почасовых ставок для всех рабо- чих) существенно отличается от нормального. Читатель, возможно, заметил, что нижний индекс у х2 равен v=6, а не v = 8. Имеется общее правило, ка- сающееся определения числа степе- ней свободы при использовании критерия согласия. Как правило, v=m—1. Однако когда вычисление теоретических частот требует ис- 252 пользования одной или более выбо- рочных характеристик, то значения v следует еще дополнительно умень- шить на это число. В нашем приме- ре для вычисления нормальных ча- стот потребовались величины X и s. Поэтому v=9—1—2=6. Распределение Пуассона. Мы проиллюстрируем процедуру под- гонки распределения Пуассона на примере задачи об очередях. Управление платной автодороги хочет получить информацию о за- висимости длины очереди автомоби- лей перед пунктом оплаты от коли- чества необходимых для обслужи- вания этого пункта сотрудников. Одиому из работников было пору- чено следить за двумя полосами движения одновременно и подсчи- тывать число автомобилей, прибы- вающих в течение 20-секундных промежутков времени. После этого брали наибольшее число прибываю- щих по каждой полосе автомобилей. Общее число 20-секундных перио- дов равнялось 495, а частотное рас- пределение, показывающее количе- ство прибывавших автомашин, при- ведено в табл. 11.3. Например, ча- стота «/«=35 в ней означает, что в течение 35 из 495 20-секундных промежутков не прибыло ни одной машины. Для 11 20-секундных про- межутков количество прибывших машин равнялось двум. Как часто бывает в задачах об очередях, полученное распределение частот напоминает распределение Пуассона. Поэтому исследователь- решил сравнить его с этим теоре- тическим распределением. Для это- го необходимо прежде всего полу- чить пуассоновские частоты, даю- щие в сумме 495. Так как распре- деление Пуассона зависит лишь от одного параметра X, следует вычис- лить среднее от выборочных дан- ных. Оно равно А=2,8, и соответ- ствующие этому среднему частости можно взять из табл. VI (см. при- ложение). Остается умножить их на 495, а затем объединить три послед- ние частоты, поскольку каждая из них меньше пяти.
Таблица 113 Использование критерия согласия для сравнения с распределением Пуассона Х1 sh tf'i th X. 1 th th sh~th hh-th* 0 35 0.061 30 0 35 30 5 25 0,83 1 87 0,170 84 1 87 84 3 9 ‘ 0,11 2 П4 0,238 118 2 114 118 —4 16 0.14 3 106 0,222 НО 3 106 110 —4 16 0,15 4 69 0,156 77 4 69 77 —8 64 0,83 5 34 0,087 43 5 34 43 —9 81 1.88 6 26 0.041 20 6 26 20 6 36 1,80 7 18 0,016 8 7 18 « I 10 100 12,50 8 5 0,006 3 8 _6 5 1 1 0.20 9 10 1 0 0,002 0,001 1 1 495 495 18.44 495 1,000 495 Примечание. -X./iJ-=1Я0/495=2Л а J l t J I Вычислив значение хи-квадрат, получим %2*=18,44; это больше, чем Х2о,95;7=14.1. Поэтому исследовате- лю следует заключить, что распре- деление прибытия всех автомашин (истинное распределение генераль- ной совокупности) существенно от- личается от распределения Пуассо- на. Поэтому пуассоновским распре- делением нельзя пользоваться при' оценивании расходов на обслужива- ние пункта оплаты. Однако, внима- тельнее посмотрев на наши данные, можно заметить, что большое зна- чение %2* вызвано наличием всего лишь одного большого числа в по- следнем столбце. Если для появле- ния одного такого выброса нет ни- каких объяснений, то генеральную совокупность все-таки можно счи- тать распределенной приблизитель- но по закону Пуассона В таких случаях следует проверить, не до- пустили ли мы где-нибудь ошибку. 11.2. ТАБЛИЦЫ СОПРЯЖЕННОСТИ Критерием хи-квадрат можно пользоваться и в тех задачах, где классификация проводится по двум признакам. Приведенные ниже таб- лицы иллюстрируют порядок при- менения этого метода. Предположим, что в некотором университете имеется спецкурс, сда- ча которого требуется от всех сту- дентов, но время посещения этого курса (год обучения) они могут вы- бирать самостоятельно. Как прави- ло, они сдают его на первом году Таблица 11.4. Экспериментальное распределение оценок для генеральной совокупности студентов (классификация по двум признакам) а) Абсолютные частоты Год обучения Оценка I II III и VI A 100 105 95 300 В 150 140 110 400' C 400 335 65 800» Ниже C 350 120 30 500' 1000 1 700 , | 300 2000 (У) Частости Год обучения Оценка I II III и IV A 0,0500 0,0525 0,0475 0,1500 В 0,0750 0,0700 0,0550 0,2000 c 0,2000 0,1675 0,0325 0,4000 Ниже C 0,1750 0,0600 0,0150 0,2500 0,5000 0,3500 0.1500 0,100 Примечание. В табл 11.4, а частоты, стоящие в клетках, обозначаются через сумЯЫ частот по столбцам — через Lj. а суммы по строкам — чере» f[.. В табл. 11.4, б в клетках стоят зяачейня сум- мы по столбцам обозначаются -срез ж,г» а суммы по строкам — через ж/. . Например /23 = “°- f-2 — 700 f-2. = 400, »|2 = 0,0625 и т, д. Сумма всех абсолютных частот равна N> а сумма всех частостей равна единиц 253
обучения, но иногда откладывают яа второй, третий или даже четвер- тый курс. Чтобы проанализировать, как за- висят оценки, получаемые студента- ми, от года обучения, исследователь «собрал информацию у всех студен- тов, сдавших этот курс в прошлом году. Результаты приведены в табл. 11.4. Их следует считать данными по всей генеральной совокупности. Поскольку частоты в табл. П.4,а не очень наглядны, они были пересчи- таны в частости (табл. 11.4,6). Однако и по этой таблице еще не легко понять, зависят ли получен- ные оценки от года обучения. По- этому следует построить некоторую -стандартную таблицу долей и ча- стот, а затем сравнить с ней наше эмпирическое распределение. Таблица 1! .5. Теоретическое распре* деление оценок для генеральной -совокупности студентов (классификация тпо двум признакам) а) Абсолютные частоты Год обучения Оценка I II Ши IV А 150 105 45 300 В 200 140 60 400 С 400 280 120 800 ЗНиже С 250 175 75 500 1000 700 300 2000 б) Частости Год обучения Оценка 1 И Ш и IV А 0,0750 1 0,0525 0,0225 0,1500 В 0,1000 0,0700 0,0300 0,2000 0,2000 0,1400 0,0600 0,4000 1Ниже С 0,1250 0,0875 0,0375 0,2500 0,5000 0,3500 0.1500 1,0000 Примечание В табл. 1L5, л частоты в клетках -обозначаются через в табл. ||.5Г б величины в «летках обозначаются чер< з Такой стандартной таблицей бу- дет табл. 11.5. Она построена сле- дующим образом. Имеется, напри- мер, 300 студентов, которые получи- ли оценку А. Это составляет 15% -общего числа студентов. Если оцен- ка не зависит от года обучения, то 254 для каждого курса число студентов, получивших оценку А, должно со- ставить 15%. Это значит, что нужно взять 15% из 1000 первокурсников, 15% из 700 второкурсников и 15%‘ из 300 студентов третьего и четвер- того курсов. Это дает нам теорети- ческие частоты. Их можно было по- лучить и иначе, взяв 50% от 300, т. е. 150, 35% от 300, т. е. 105, 15% от 300, т. е. 45 и далее. В табл. 11.5,6 приведены часто- сти. Это теоретические доли, или проценты, где, например, значение елн=0,0750 соответствует теоретиче- ской частоте tfu=150, поскольку *Лп=</и/АГ=150/2000. (Эти обозна- чения объясняются в табл. 11.4.) Полученные две таблицы можно использовать в качестве стандарта для сравнения. Если год обучения никак не связан с оценкой (т. е. если студенты третьего и четвертого курса получают ту же долю оценок А, что и первокурсники), то абсо- лютные частоты и частости нашей генеральной совокупности должны напоминать таковые из табл. 11.5,а и 6. Сравнивая истинные зна- чения абсолютных частот и часто- стей со «стандартными», мы видим, что оценка в действительности за- висит от года обучения. Значитель- но большая доля студентов третьего и четвертого курса получает оценку А и значительно меньшая доля этих студентов получает оценки «ниже, чем С» Так как данные', приведен- ные в табл. 11.4, представляют со- бой данные обо всей генеральной совокупности, исследование на этом заканчивается. При этом нам нет необходимости использовать крите- рий хи-квацрат для сопоставления экспериментальных частот с теоре- тическими. На эту задачу можно посмотреть и с вероятностной точки зрения. Предположим, что мы имели бы ге- неральную совокупность с частота- ми, совпадающими с теоретически- ми частотами из табл. 11.5. На этой генеральной совокупности можно было бы определить различные со- бытия и вычислить их вероятность.
В этом случае табл. П.5,6 называ- лась бы таблицей совместных ве- роятностей, а величины <л./ и носили бы название маргинальных вероятностей. Например, Р (1) = <11.1=0,5000, а Р (В) =<л.2=0,2000. Частости в каждой из клеток рав- ны вероятностям того, что одновре- менно произойдут события Ех и Е2. Так, Р(В, 11)=<Л2з=0,3000. При ЭТОМ ВИДНО, ЧТО <Л23 = ?Л. а’/Л2.= =0,15 0,2=0,03 и что вообще <я^= Следовательно, можно заключить, что эти события являют- ся независимыми и что оба призна- ка классификации независимы. В действительности каждая «стан- дартная» таблица с теоретическими абсолютными или относительными частотами строится по двум незави- мым признакам. Тем самым сравне- нение истинных частот и частостей из табл. 11.4 с теоретическими ча- стотами и частостями из табл. 11.5 является по существу про- веркой того, будут ли признаки, по которым проводится классифика- ция частот, зависимыми или неза- висимыми. Поскольку истинные зна- чения относительных частот л,; табл. 11.4 нельзя получить, умно- жая л., на л,-., мы приходим к выво- ду, что в нашей задаче оба призна- ка классификации не являются не- зависимыми. Отсюда и соответст- вующий практический вывод. За- висимость двух признаков класси- фикации означает, что оценки зави- сят от года обучения. Предположим теперь, что полный охват всей генеральной совокупно- сти обошелся бы нам слишком до- рого и что поэтому у нас нет воз- можности составить табл. 11.4. Вме- сто этого мы отобрали выборку с л—600 и составили табл. 11.6. Вы- борочные частоты из табл. 11.6,а можно обозначить уже знакомой буквой Jij, а соответствующие ча- стости из табл. 11.6,6 можно обо- значить буквой юц. Вся информа- ция, которой располагает исследо- ватель, заключена в этой таблице. Он не знает, сколько во всем уни- верситете первокурсников или вто- рокурсников, и поэтому он не мо- жет построить таблицу теоретиче- ских частот, подобную табл. 11.5. Но ему все-таки необходимо соста- вить таблицу, с которой можно бы- ло бы сравнить имеющиеся у него данные. Таблица 11.6. Экспериментальное распределение оценок для выборки студентов а) Абсолютные частоты Год обучения Оценка I II III и IV А 43 37 10 90 В 55 46 13 114 С 118 81 53 252 Ни;ке С 72 52 20 114 288 216 96 600 6} Частости Год обучения Оценка 1 II III и IV А 0,0717 0,0616 0,0167 0,1500 В 0,0916 0,0767 0,0217 0,1900' С 0,1967 0,1350 0,0883 0,4200= Ниже С 0,1200 0,0867 0,0333 0,2400 0.4Я00 0,3600 0,1600 1,0000 Примечание- В табл, П-6, а частоты в клетках, обозначаются через _f-.; в табл- Н-6, б частости в ч клетках обозначаются через Р... Лучшее, что он может сделать,— это воспользоваться полученными па выборке значениями p.j и pi. и вы- числить tpn. Это и сделано в табл.. 11.7, где, например, tpi2=p.2-pr = =0,36-0,15=0,054. Далее значения. tpij умножаются на «=600, а соот- ветствующие результаты заносятся в табл. 11.7,6. Это и будут значе- ния теоретических частот За- метим, что <f,-j можно также полу- чить, умножив суммы по столбцам на суммы по строкал! и разделив 255.
Таблица 11.7. Теоретические ^значения частот и частостей» полученные по выборочным данным (классификация по двум независимым признакам) а) Абсолютные час ости Гол обучения Опенка I И 1П и IV А 43,2 32,4 14,4 90,0 В 54,7 41,1 18,2 114,0 С 121,0 90,7 40,3 252,0 Ниже С 69,1 51,8 23,1 144,0 288,0 216,0 96,0 600,0 б) Частости Год обучения Оценка I П III wlV А 0.0720 0,0540 0,0240 ' 0,1500 В 0,0912 0,0684 0.0304 0.1910 С 0,2016 0,1512 0,0672 0,4200 Н«*же С 0,1152 0,0864 0.0384 0,2400 0,4800 0,3600 0,1600 1,000 это произведение на nt т. е, по фор- муле= п- На' пример, Ju =288-90/600 — 43,2. Теперь можно сравнить значения часто ли, приведенные в табл. 11.6 я 1! .7. Мы видим, что два этих набора частостей различны, однако интерпретация этого факта может отличаться от предыдущего случая. В предыдущем примере мы сравни- вали их истинные значения часто- стей с их теоретическими значения- ми по всей генеральной совокупно- сти. Когда они различались мало, мы говорили, что оценка слабо за- висит от года обучения. Если эта разница была значительной, мы го- ворили, что такая зависимость су- щественна. 256 Значения частостей из табл. 11.6,6 не являются истинными значения- ми по всей генеральной совокупно- сти. Это выборочные частости, кото- рыми мы пользуемся как оценками неизвестных истинных частостей. Поэтому сравнительно небольшая разница может быть обусловлена скорее ошибкой выборочного иссле- дования, чем существенной разни- цей между Щ} и (Лц. Когда значе- ния рц и tPa сильно различаются, то из таблицы видно, что значения лц и tTiij также существенно различ- ны. Это то же самое, что отобрать некоторую выборку и обнаружить, что выборочные данные имеют LJ- образное распределение. Тогда мы без всяких критериев согласия мо- жем заключить, что генеральная со- вокупность, откуда отбирались эти данные, не могла быть распределе- на по нормальному закону. Однако если рц или »f,j не так сильно от- личаются от tPij или tfn, то нам бу- дет не очень ясно, что сказать. Именно в таком случае прийти к не- которому заключению нам и помо- жет критерий хи-квадрат. С помощью этого критерия выбо- рочные частоты „fit сравниваются с теоретическими частотами tf<j (табл. 11 8). Вычисления аналогич- ны тем, которые мы проводили, пользуясь критерием согласия %2*— =9,741. Теоретическое значение хи- квадрат, соответствующее а=0,01, равно x2o,w;6=16,8. Отсюда мы за- ключаем, что л/, несущественно от- личается от <nfj. По всей видимости, студенты различных курсов получа- . ют примерно одинаковые оценки. При этом не следует забывать, что небольшие расхождения между ло- и fjr«j можно обнаружить лишь с по- мощью достаточно большой вы- борки. Когда мы пользуемся таблицами сопряженности, число степеней сво- боды следует принимать равным v — (г— 1) (с— 1), где г—число строк, а с — число столбцов, В на- шей задаче v=(4—I) - (3—1)=6. Это число можно следующим обра- зом связать с процессом построе-
Таблица 11.8. Критерий хн»квадрат 1^ 4^ г ••-и "М Г 43 43,2 1 о ю 0,04 0.001 55 54,7 0,3 0,09 ' о;оо2 118 121,0 — 3,0 9,00 0,074 72 69.1 2,9 8,41 0,122 37 32,4 4,6 21,16 0,653 46 41,1 4.9 24,01 0,584 81 90,7 1 —9,7 94,09 1,037 52 51,8 0.2 0,04 0,001 10 14,4 —4,4 19,36 1,344 13 18,2 —5.2 27,04 1,505 53 40,3 127 161,29 4,002 20 23.1 —3,1 9,61 0,416 600 600.0 9,741 Примечание. Дамм; взяты нз табл, 11.6 к П.7 ния таблицы теоретических частот, таких как приведенные в табл. 11.7,6. Маргинальные суммы 288, 216, .90, ... 144 должны быть такими же, как и в табл. 11.6,а. Следовательно, оценивая значения tfi,, мы можем выбрать только (г—1)(с—1)=6 чисел. Шесть остальных частот затем определя- ются тем условием, что суммы ча- стот по столбцам и по строкам дол- жны равняться заранее известным маргинальным суммам. Это обстоятельство можно уви- деть еще более наглядно, если рас- смотреть таблицу сопряженности, размерность которой 2x2. В этом случае число степеней свободы рав- но v=(2—1) • (2-~!) = 1. Мы «сво- бодны» вставить в такую таблицу только одну теоретическую частоту. Три остальные частоты будут опре- деляться маргинальными суммами. Отметим, что если некоторые из теоретических частот окажутся меньше пяти, то их, как и в пре- дыдущем случае, следует объеди- нить. Так, мы уже объединили оцен- ки D и F в одну общую категорию оценок, «меньших С». Точно так же мы объединили в одну категорию 17—232 ' студентов третьего и четвертого курса. Наконец, для таблиц размерно- стью два на два можно пользовать- ся поправкой Иейста на непрерыв- ность. Эта поправка требует вычис- ления критерия хи-квадрат по фор- муле Причина состоит в том, что часто- ты таблицы сопряженности являют- ся дискретными величинами, тогда как функция f (%2) непрерывна. Ана- логично используют некоторый по- правочный множитель при подборе нормальной кривой к биномиально- му распределению для малых зна- чений п. Знакомясь с порядком использо- вания критерия хи-квадрат, мы со- ставили довольно много таблиц На самом деле процедура применения этого критерия состоит из меньшего числа шагов. А именно: 1. Отберите выборку и составьте таблицу, подобную табл. П.б.а. 2. Постройте таблицу типа табл. 11.7,6. Для этого сначала выпиши- те маргинальные частоты из табл. 11.6,а. Затем выразите маргиналь- ные частоты по столбцам или мар- гинальные частоты по строкам в ви- де долей от л—600. Если вы реши- те пользоваться маргинальными ча- стотами по столбцам, то ваши значе- ния будут равны 0,48; 0,36 и 0,16. Вычислите tfц, где, например, г/ц = =0,48-90, ^2=0,36-90, /fI3=0,16-90, tf21 =0.48-114. J22 = 0,36-114 и т. д. 3. Примените критерий хи-квад- рат, как показано в табл. 11.8. 11.3. ВОПРОСЫ И ЗАДАЧИ 11 1. В прошлом году на 1-й. 2-й, 3-й и 4-й курсы некоторого университета было принято соответственно 32, 25, 23 и 20% новых студентов. В этом году новый кол- ледж в соседнем городе начал набор сту- дентов, и приемная комиссия решила про- верить, не отразится ли этот факт на но- вом наборе этого года. Была отобрана случайная выборка, включающая 1000 за- явлений, которая дала следующие резуль- таты: 240 заявлений на первый курс, 285— на второй, 262—на третий и 213—на чет- вертый. 257
а. Выразите выборочные данные в про- центах н сравните их с набором прошлого года. На что указывает это сравнение? б. Примените критерий хи-квадрат с уровнем значимости 0,05. Подтверждает ли критерий хн-квадрат вывод, к которому вы пришли в задаче 11.1,а? Была ли во- обще в этой задаче необходимость при- менять критерий хи-квадрат? Почему? 11-2. Фирма продает пять различных моделей (ЛЛ В, Сл D, Е) некоторого това- ра. Средние проценты продажи за прош- лый год равны: А В С D Е 15 19 29 26 11 Из соображений, диктуемых прибылью, фирма решила несколько изменить реклам- ную политику для товаров различных мо- делей. После этого объем продаж за один месяц оказался равным: А В С D Е 120 190 330 270 90 а С помощью критерия хи-квадрат и при уровне значимости 0,01 проверьте, от- разилось ли изменение рекламной полити- ки на объеме продажи. б. Предположим, что объем продаж за один месяц равен: А В С D Е 190 120 90 330 270 Стоит ли применять критерий хи-квад- рат в этом случае? Почему? 11.3. Допустим, что распределение оце- нок но курсу «Статистика» из табл. 5.11 представляет собой данные некоторой вы- борки. Тогда частоты Л являются выбо- рочными частотами Мы хотим срав- нить эти частоты с частотами нормального распределения пЦ=чЦ. Имеем л th sh tf i th 5 0.8 8 11.1 30 14,0 3 1.9 8 15,2 18 10,3 1 4.0 15 17,0 3 6.2 8 7.3 12 17.1 iTi 104,9 Преобразуйте нормальные частоты та- ким образом, чтобы они давали в сумме 111. Для этого их следует умножить на значение Л=111/104,9. Воспользуйтесь кри- терием хи-квадрат при а=0,05 и проверь- те, будет ли генеральная совокупность, из которой отобрана эта выборка, распреде- лена по нормальному закону. Сформули- руйте ваше заключение. 11.4. Следовало бы ожидать, что экспе- риментальное распределение, подобное приведенному в табл. 7Д6, не будет су- щественно отличаться от биномиального. 258 Ниже даны частоты, приведенные в этой таблице: h 6 16 19 20 2 1 64 Найдите требуемое биномиальное распре- деление для л=40 и п=5. Постройте тео- ретические частоты и примените критерий хи-квадрат при а=0,01, чтобы проверить, был ли эксперимент проведен надлежащим образом. Как может случиться, что такой эксперимент окажется смещенным? 11*5. Приведенное ниже распределение частот имеет следующий смысл: Х=0 и fi=22 означает, что в некоторой механи- ческой мастерской 22 раза в течение не- которой недели перед инструментальной, кладовой совсем не было очереди ожи- дающих инструмента рабочих. 0 1 2 3 4 fi 22 29 33 9 7 Сравните распределение длин очереди перед кладовой с распределением Пуассо- на. Воспользуйтесь критерием хи-квадрат при уровне значимости а=0»01. 11.6* Газета публикует результаты» опроса общественного мнения, которые го- ворят о том, что наибольшей поддержкой избирателей пользуется кандидат /? (30% избирателен). Затем следует кандидат В (26% голосов), кандидат S (22%) и кан- дидат Р (22%). а. Имеется ли существенная разница между кандидатами с точки зрения под- держки избирателей? Примените критерий» хи-квадрат при уровне значимости а=0Л5> считая сначала, что а затем что» «=□1000. б. В каком случае имеет смысл упоря- дочить всех кандидатов по уровню под- держки избирателей? 11.7. Универмаг решил проанализиро- вать сроки погашения кредита для раз- личных категорий своих клиентов. Выбор- ка, включающая п=1200 платежей, дала следующие результаты: Время Рабочие Свяшен ники Служа- щие Всего 30 cyr. 30 — 90 сут. 380 220 220 200 120 60 720 486 Всего 600 420 180 1200
.Есть ли существенная разница между от- дельными категориями покупателей с точ- ки зрения сроков погашения ими кредита? Проведите проверку с помощью критерия хи-квадрат при уровне значимости а= =0,05. П.8. В двух различных регионах про- годились две различные рекламные кампа- нии, посвященные одному и тому же типу товара. Мы хотим определить» реклама какого типа эффективнее. Для этого были случайным образом выбраны 100 магази- нов. и руководству каждого из них был задан вопрос: увеличился ли объем про- дажи этого товара магазином более чем на 5% или менее чем на 5%? Результаты оказались следующими: Реклама Менее 5% Бо-тсс 5% Всего Тип I 40 10 50 Тип 11 30 20 50 70 30 100 Есть ли существенное различие в эф- фективности этих двух рекламных кампа- ний? Какая из них эффективнее? 11.9. В мастерской имеются три станка шлифовальный станок, револьверный ста- нок и токарный станок. Для компании вы- годно, чтобы на этих трех етанках рабо- тали только двое рабочих. Одинаково ли хорошо работают эти двое рабочих на всех трех станках? Была отобрана случайная ъыборка из 600 деталей, которая дала зна- чения, приведенные ниже. ’Таблица была составлена следующим об- разом. Каждого рабочего попросили пора- ботать на каждом из станков некоторое фиксированное время, после чего детали были проверены и подсчитаны годные (че- бракованныс). а. Имеется ли существенная разница между А и В с точки зрения общего чис- ла произведенных деталей? б Одинаково ли хорошо работают двое рабочих на всех трех станках? Шлифо- ВЭЛЬНзЙ CTdHDK Реводьоер №4° станом Токаояый станок Всего Л 85 153 42 280 В 95 177 48 320 180 330 90 600 1 МО. Результаты опроса общественно- го мнения из задачи Г1.6 были уточнены с точки зрения поддержки кандидатов из- бирателями южных и северных штатов. Получилась следующая таблица1’ R в S р Всего N 200 156 128 116 600 S 100 105 92 104 400 Всего 300 260 220 220 1060 Имеется ли существенное различие между кандидатами с точки зрения под- держки их избирателями каждого из ре- гионов? 1 Сокращения в таблице следует по- нимать N— север (от англ, north), $ — юг (от англ, south). — Прим ред. В гл. 9 приводился метод сопо- ставления Hi И |12 С ПОМОЩЬЮ и -^2. Дисперсионный анализ применя- ется в случаях, когда нужно срав- нить больше, чем два р. В разностном тесте, описанном в гл. 9, оперируют непосредственно •с Xt и В методе, приведенном в данной главе, сравниваются две дисперсии. Сравнивая их, исследо- ватель устанавливает, значимо ли различие между jp- Дисперсию вы- числяют двумя различными спосо- бами. При этом значения могут по- I 7* ГЛАВА 12 ДИСПЕРСИОННЫЙ АНАЛИЗ лучиться равными или одно из них больше другого. Если одно из зна- чений существенно больше, то ц раз- личны. Следовательно, мы можем сказать, что заключения относи- тельно м мы делаем с помощью сравнения двух выборочных значе- ний дисперсий, вычисленных двумя различными методами. Конечно, если ц известны, то в таком анализе необходимости нет. Аналогичным образом анализи- руют ряд рц, Ц2, - • Мл. Однако это только одна из моделей, к которым 259
можно применять дисперсионный анализ. Другая широко применяе- мая модель (обсуждается в разд. 12.2) проиллюстрирована табл. 12.1. В ней представлена генеральная со- вокупность, состоящая из подмно- жеств, которые можно класси- фицировать по двум признакам: по столбцам и по строкам. Другими словами, мы вычисляем в этом слу- чае средние значения не только по столбцам, но и по строкам. 6) Распределение выборочных данных S О к g. Е Таблица 12.1. Модель классификации по двум признакам а) Распределение генеральной сово- купности Категория столбцов Категория столбцов Н1Н2---НС H2LP-22 - • Н2с 5 * ** N Т Кате горня строк *11*12 . . . ЛГ1г *21*22 ‘ * • *2с ХГ\Хг2 * • ХГс *1 х2 хг Н.1М-.2Н-С X.tX.2 X с X. Рассмотрим пять школ (соответ- ственно пять столбцов), обучение в которых проводится четырьмя раз- личными методами (четыре стро- ки). Если бы у исследователя были оценки всех учеников для всех пяти школ, то он мог бы вычислить все у и затем сравнить их. Тем самым задача его была бы решена. Однако если бы он хотел решить ту же за- дачу, используя выборку, то он представил бы результаты в виде табл. 12.1,6. В этом случае было бы целесообразно применить дисперси- онный анализ и сделать заключения относительно различных категорий у на основе имеющейся выборки данных. В статистике, как известно, даже малые различия между у. су- щественны. Однако малые различия между выборочными X вовсе не оз- начают, что у. существенно раз- личны. В этой главе мы рассмотрим только два способа классифика- ции— по одному признаку и по двум признакам. Более сложный дисперсионный анализ описан в книгах Шеффе1, Ли2, Диксона и Масси3 4. 12 1. КЛАССИФИКАЦИЯ ПО ОДНОМУ ПРИЗНАКУ1 В модели классификации по одно- му признаку предполагается выпол- нение гипотезы у.1=у..2=.. .=у.л. Та- ким образом, применяя модель к исходным данным, мы проверяем справедливость этой гипотезы. При- мером являются данные, приведен- ные в табл. 12.2. Интерпретация ги- Т а б л л и а 12.2. Эксперименталтые данные -(классификация го одному признаку) 0} Обозначения Например, - ~ 4 tf) К/ = Р.. и ___________ п2 3 г — 0 р в) -Af.. >' потезы аналогична рассмотренной выше, т. е., если гипотеза отклоня- ется, мы заключаем, что у сущест- венно различны. Однако если гипо- теза не отклоняется, то это не озна- чает ,что у равны. Единственно, что мы можем сказать, это то, что они • Scheffe Н. The Analysis of Variance-. N. Y_: John Wiley, 1959. 2 Li C. Introduction to Experimental Statistics. N. Y.: McGraw-Hill, 1964. 3 Dixon W., Massey F. op. cit. 4 Иногда используется термин одно- или двух-(трех)факторная классификация.
существенно не различаются. При этом мы всегда имеем в виду, что малые выборки не могут вскрыть малые различия Сейчас мы на примере покажем читателю, как исследователь наи- более простым способом может сделать выводы относительно ц, сравнивая дисперсии. Сначала вспомним формулы для нескольких дисперсий. Если мы имеем k сово- купностей объемом Afj, <V2, - Nk со средними pi, р2, •» |ла, то дис- персию распределения генеральной совокупности можно вычислить по формуле 1 _ S (А',.-к.»14-2 (А',2- jy, + Ars + ... _Н.г)г 4~ • •• + E(A\-fe — p.ft)8 |2 jj где цл — средние по столбцам. Если данные, приведенные в табл. 12.2,6 и в, рассматривать как одну генеральную совокупность, то дис- персию последней вычисляют по формуле / i •••+*»). (12.2) где р — среднее генеральной сово- купности, полученное по формуле Дисперсия, из- i *’ меряющая вариацию значений р-.у, оценивается так: . = 2(к.-р.)’/й. (12.3) С учетом того, что дисперсия рас- пределения выборочного среднего при выборке объемом п есть q* —пз*!п, (12.4) получим формулу для дисперсии ге- неральной совокупности 2. са = лз2 *_. (12.5) 1 Назовем о2р «объединенной диспер- сией». — Прим. ред. 2 Назовем o2t «общей дисперсией».— Прим. ред. Подставляя данные из табл. 12.2,6 в формулу (12 1), вычислим объединенную дисперсию генераль- ной совокупности: о2р = (20 4-20+20)/(4 4-4+4) =5. При этом мы, конечно, предполага- ем, что данные получены из гене- ральной совокупности. Пусть р>=4, тогда общая дисперсия, полученная по формуле (12.2), равна i l Итак, очевидно, что обе дисперсии равны, поскольку в рассматривае- мой задаче равны дисперсии и сред- ние для каждого из столбцов. В данном случае [з2 .. и вычис- ляемая по формуле (12.3), равна нулю. Следовательно, сравнение двух дисперсий (о2р и о2{) приво- дит к заключению, что средние по столбцам jij одинаковы. Соотношение между дисперсиями остается тем же самым и в задаче, приведенной в табл. 12.2,в. Дейст- вительно, дисперсии для каждого из столбцов одинаковы и равны и2,= =о22=о2з=5. Следовательно, и зна- чение дисперсии генеральной сово- купности, вычисляемое по формуле (12.1) объединенной дисперсии, остается тем же самым. Однако об- щее среднее здесь равняется =S S -ь -н =14- / i Следовательно, общая дисперсия равна о2, =860/12=71,67, т. е. намного больше объединенной дисперсии генеральной совокупно- сти о2р = 5 из табл. 12.2,5. Итак, еще раз в примере из табл. 12.2.В объединенная дисперсия ге- неральной совокупности равна дис- персии столбцов. Однако общая дисперсия больше, чем объединен- ная дисперсия, а это означает, что средние по столбцам различны. Та- ким образом, если мы знаем две эти дисперсии, то, сравнив их, мы мо- жем сказать, различаются ли сред- 264
ние по столбцам. Следовательно, мы можем получить статистический вывод, не зная значений средних по столбцам. Теперь предположим, что данные в табл. 12.2,в представляют собой выборку, а не генеральную совокуп- ность. Тогда вместо сравнения с мы должны сравнивать (с тем же самым результатом) с - X..y>(k ~ 1). (12.7) где X..— общее среднее по всем выборкам, вычисленное так же, как и |i.В формуле (12.7) предпола- гается, что все выборки имеют оди- наковый объем п. Если это не так, то надо применить следующую фор- мулу: =2л,(X .-X ..)»/(* -1). (12.8) . Две последние формулы нужда- ются в некотором пояснении. Эти формулы были бы похожи на фор- мулу (12.3), если бы мы в числите- ле не использовали множители п для (12.7) и для (12.8). Без этих множителей мы получили бы = 2 (X.{ - А' )7(*~ 1). (12-9) которая уже использовалась в гл. 7 в несколько иных обозначениях: а? □= S (Х< - Формула (12.9) измеряет вариа- цию выборочных средних X, и яв- ляется оценкой а®_, приведенной в соотношении (12.4). Если известны я8_ и объем выборки п\ то □*_ можно использовать для вычисления дисперсии генеральной совокупности Г* = . X ' 1 Имеется в виду истинное значение в—полного выборочного распределения при с бъеме выборки л. — Прим. ред. 262 Если оценка а*_ была сделана на X основе выборочных данных, то дис- персию генеральной совокупности можно оценить по формуле (12.7), которая получается умножением (12.9) на п. Дисперсия, обозначаемая в (12.7) как $2Ь, является оценкой величины . Однако, как мы уже го- ворили, если средние по столбцам равно нулю. В этом р. равны, то 02ц / случае значение $2ь из (12.7) или (12.8) становится оценкой только первого слагаемого о2 и не будет существенно больше объединенной дисперсии 52р из формулы (12.6). Если в то же время средние столб- цов не одинаковы, то s2b становится оценкой u2+n<Js .Эта величина 6v- *4 дет существенно больше объединен- ной дисперсии s2p. Итак, мы имеем в дисперсионном анализе следующее фундаментальное правило: если s2b существенно больше (а не сущест- венно отлично), чем s2p, то средние значения р по столбцам существен- но различны. Если з2ь существенно больше, то дисперсия <г значимо отлична от нуля, а тогда средние значения р существенно различны. Если s2b незначительно больше s2p, то средние столбцов различаются несущественно. Полезно заметить, что существует связь между числителями соотно- шений ,(12.6) — (12.8). Можно пока- зать, что 22<*« -х? =22(*«- i i i‘ В табл. 12.2,в мы имеем 860—60+ + 4-200, а в табл. 12.2,6: 60=60+ 0. Эти числители называются сумма- ми квадратов. Первый, обозначае- мый SS(, представляет собой полную сумму квадратов, второй—SSti.— внутригрупповую сумму квадратов, а третий SSft — межгрупповую сум- му квадратов В дисперсионном анализе s~b на- зывают часто средним межгруппо-
Таблица 12.3. Обобщенная -таблица (классификация оо одному признаку) Источник дисперсии SS V . 1 MS M (AIS) Межгрупповая SS6 = п!(Х.г -X .)* *1 = /г — 1 MS(! = SSb/v1 о2 + Да2 р. ; Внуг ригруп повая SSw=^StXi 1 i i i сумма квадратов; л?- ~k СТ2 Полня я -х..Г *3 = - vs Примечание. SS — — число < степеней свободы; Л (S — средний квадрат: Л! (MS) — мате- матачкксе ожидание среднего квадрата. вым квадратом и обозначают MSb. Итак, мы можем записать A/St>=SSb/vi, где S| — число степеней свободы. Как видно из формулы (12.7), $1 = =fe—1. Дисперсию s2p называют «внут- ригрупповой дисперсией» и обозна- чают MSW. Тогда (12.7) можно переписать следующим образом: MSW= sswfv2. Значение v2 здесь равно знаменате- лю в соотношении (12.6) v2— = ^nj—k. Таким образом, в задаче с клас- сификацией по одному признаку речь идет о сравнении MSb с MSW. Если MSb^>MSw, то исследователь заключает, что средние по столб- цам pi.j существенно различны Са- мо сравнение можно производить с помощью F-статистики, описанной в лодразд. 9.6.2 книги. Вычисляемое F-значение получается из отноше- ния F*=MSt,fMSw и сравнивается с табличными значениями F (a, v2) из табл. XI (см. приложение). Основные соотношения обычно представляют в табличной форме (табл. 12.3). Здесь введен новый символ nt=Znj. Порядок вычислений показан в в табл. 12.4 При этом используют данные табл. 12.2,в. Результаты вычислений сведены в табл. 12 5. Вычисляемое среднее квадратиче- ское отношение равно F* = 400'6,67 = =59,97. Принимая о=0,05, находим теоретическое значение F«185; 2; »= =4,26. Вычисляемое значение F* гораздо больше табличного; следо- вательно, мы можем заключить, что средние существенно (и мы мо- жем добавить, значительно) раз- личны. Просматривая данные, читатель может усомниться в необходимости вычислений, приведенных в табл. 1_2.5._Действительно, определив Х.2, Х.з, он видит, что они настолько различны, что непонятно, зачем нужно для установления этого раз- личия прибегать к дисперсионному анализу. Однако если средние значения не слишком различаются, то исследо- ватель не может прийти к какому- либо заключению лишь на основе визуальных рассмотрений. В этом случае дисперсионный анализ ока- жется полезным. Число категорий k может быть задано априори или может быть случайным. Проиллюстрируем это на примере. Допустим, что студен- там штата предлагается стандарт- ный «юридический» тест1. Некая организация, которой принадлежат колледжи, хочет выяснить, наблю- дается ли разница результатов по штатным, городским, религиозным и светским частным колледжам. Для 1 Этот тест называется pre-law и пред- лагается абитуриентам при поступлении на юридический факультет. — Прим. пер. 263
аблица 12.4. Вычисления для задачи с классификацией по одному признаку (данные взяты из табл. 12.2, Ь) а) б) S5w ssb хп Xi2 ХЬ (Xfn-X 3’’ ъ (X f-X )* г 5 9 1 11 15 9 1 21 25 9 1 4 100 3 7 i‘ о 1 tc — i 13 17 Л’.2 = 14, 1 9 20 Л\3-24, 23 27 = 14 1 9 20 1 14 24 0 100 200 55к .=2Six«7-^./ 1 i г=2^ I й-<>)2 —1” SS6 = n2(XJ-* .P = / +2 ®)г+3(А' 4 4 /з-Х ,)»: = 204-204-20=60 = 4-200 = 800 в) xn <*{t-x.r xi, lxi,-x..v 1 169 11 9 21 49 Э 81 15 I 25 12] 3 121 13 f 13 81 7 49 17 9 27 169 — . —— .. 420 20 420 5S/ -= 2 2 (Д';/ - *..)* = S (*й - 14)* + 2 (Х* - |4)* + 2 (Х'2 ~ 14>* ~ I i I « = 420 + 20 + 420 = 860; SS/ = 2 2 <* *7 “ X- • У = 22 (X‘i — X^' + n^(x> —•*?.)* = 60 + 800 = 8C0. / » каждой из указанных категорий от- бирается выборка объемом п и при- меняется дисперсионный анализ. Теперь предположим, что органи- зацию интересует, аналогичны ли результаты по различным коллед- жам штата. Пусть имеется, напри- мер, 20 колледжей (20 категорий), Таблица 12.5. Результаты дисперсионного а на исследование отведена сумма денег, достаточная лишь на органи- зацию работы в нескольких учебных заведениях. Тогда следует коллед- жи выбрать произвольно и так, что- бы k не было слишком малым. Объ- ем каждой выборки п также дол- жен быть не слишком малым. Не- анализа Источглк диспергин SS vi MS F* Межгрупповая Внутрш рупповая Полная 8с S 00 0 430 ! ii и ;i ОС OS Со я? < ш to М II II li — (О W Л15ь = 400 jW5w = 6,67 59,97 Примечание. Лунные взяты из табл. 12.4. 264
смотря на то, что в данном случае число колледжей выбирается произ- вольно, дисперсионный анализ про- водится по приведенному выше об- разцу. Однако при интерпретации результатов всегда нужно отражать тот факт, представляет ли k все исследуемые категории (колледжи) или только выборку из категорий (колледжей). Примером применения дисперси- онного анализа в бизнесе может быть сравнение инвестиционных компаний. Многие из этих компаний утверждают, что у них высокий до- ход. Исследователь хочет устано- вить, обоснованы ли эти утвержде- ния. Для этого он выбирает k ком- паний, просматривает для них вы- борки объемом п квартальных до- ходов и сравнивает. В промышленном производстве примером использования дисперси- онного анализа может быть задача о сравнении шумового уровня воз- душных кондиционеров. Компания закупает часть ком ди пионеров у k=5 различных предприятий. Инже- неры знают, что шумовой эффект наблюдается именно у этой части кондиционеров. Исследуют и срав- нивают п кондиционеров для каж- дой из пяти различных фирм. В сельском хозяйстве также ши- роко применяют дисперсионный анализ. Ученых может интересовать продуктивность различных пород скота или плантаций с различными характеристиками. Возьмем не- сколько видов рогатого скота. Если они содержатся в одинаковых усло- виях и получают одинаковый корм, то можно сравнивать их по надою молока, по его жирности и т. п. В какой бы форме дисперсионный анализ ни применялся, с его помо- щью можно получить ответ на во- прос: будут ли одновременно разли- чаться все р? Это означает, что, не ставя перед собой задачу упорядо- чения всех значений р, исследова- тель выясняет, существенно ли они различаются между собой. Таким образом, его интересует, ведется ли преподавание во всех школах шта- та по одной системе, так что резуль- таты юридического теста не будут при определенных условиях сильно различаться. Однако он может использовать эти данные и для ин- дивидуальных сравнений. Такое сравнение может быть сделано с по- мощью разностного теста между щ и (12. рассматриваемого в гл. 9. Однако, если ему нужно провести несколько сравнений, он не сможет воспользоваться этим тестом. Ско- рее он остановится па методе кон- трастов, рассматриваемом в разд. 12.3. Дисперсионный анализ обнаружи- вает только, значимо ли различа- ются все р, но не дает способа ран- жировать их по значению. Напри- мер, вычислив доверительные гра- ницы для всех р, мы можем уви- деть, что некоторые из интервалов пересекаются. Только если ни один из интервалов не пересекается, мы можем составить упорядоченный по значениям ряд р. 12.2. КЛАССИФИКАЦИЯ ПО ДВУМ ПРИЗНАКАМ Модель классификации по двум признакам состоит из совокупности элементов, каждый из которых опре- деляется категорией строки и столб- ца. Такая модель описывается табл. 12 1,а. Выборка из генераль- ной совокупности приводится в табл. 12.16. Таким образом, в табл. 12.1,а мы видим значения средних для столбцов (р./), средних для строк (р,-.) и средних для каж- дой ячейки (pi/), а соответствующие выборочные статистики приведены в табл. 12.1,6. Описывая метод классификации по одному признаку, мы привели не- сколько примеров из его применения в области исследования человече- ской деятельности. Во всех этих примерах предполагается,' что k со- вокупностей однородны по всем ха- рактеристикам, кроме одной. Эта характеристика представлена зпаче-. нием p.j. Цель дисперсионного ана- 265
лиза — выяснить, значимо или нет различаются p.j. Теперь несколько изменим наши примеры, чтобы показать полезность применения модели классификации по двум признакам. Другими слова- ми, изменим примеры так, чтобы подвыборки можно было классифи- цировать с помощью двух критери- ев — а именно, с учетом категорий столбца и строки. В примере с юридическим тестом категории столбцов определяют раз- личные университеты штата. Но нас может также интересовать, варьи- руются ли результаты опроса в зави- симости от профилирующей дисцип- лины учащихся. Таким образом, мы будем иметь еще и список профили- рующих дисциплин, который и бу- дет определять категорию строки. Если в результате -дисперсионного анализа окажется, что р., сущест- венно различны, то ректоры уни- верситетов или соответствующие го- сударственные органы управления должны задуматься о причине этого явления. Вывод о том, что р,. суще- ственно различны, должен заинтере- совать консультантов теста. Резуль- таты будут интересны и для соста- вителей теста. Если цель разработ- чиков теста — направлять учащихся на юридический факультет вне за- висимости от профилирующих дис- циплин, то они должны изменить тест таким образом, чтобы между щ. не было существенного раз- личия Когда мы рассматривали задачу об инвестиционных компаниях, то мы интересовались лишь тем, значи- мо ли различаются их средние до- ходы. Теперь мы можем добавить другой критерий — величину компа- нии. Оба фактора представляют интерес как для инвестора, так и для администрации компании. В примере с кондиционерами ин- женеры могли бы предположить, что шум порождается не одним, а дву- мя факторами. Каждая подвыборка тогда классифицируется также в со- ответствии с другими категориями (например, масса, размер), и произ- 266. водится дисперсионный анализ. Та- кой вид анализа часто представляет собой единственный путь обнаруже- ния дефекта в моторах. Наконец, рогатый скот можно классифицировать по породе и по получаемому корму, 12.2.1. Классификация по двум признакам: одно наблюдение в ячейке Выборочные данные, классифи- цированные по двум критериям, мо- гут быть представлены в виде таб- лицы, каждая ячейка которой соот- ветствует одному наблюдению (табл 12.6). Средние по столбцам j.j и средние по строкам Xi. явля- ются оценками соответствующих средних для распределения гене- ральной совокупности и р,_; нас интересует вопрос, значимо ли раз- личаются р для каждой из двух категорий. Дисперсионный анализ начинается с вычисления трех сред- них квадратических характеристик. Это средний квадрат по столбцам MSC = SSJvt = rS (X у - -X У1(с— 1), (12.10) где г равно числу элементов в столб- це; средний квадрат по строкам AlSr = SSf/vtr=c2(X; -X)s,'(r-1), (12.11) где с равно числу элементов в стро- ке; и остаточный средний квадрат (или средний квадрат ошибки) SSe/va =2 2 (*-7 ~ } ~ j i — Xf -|-X )*/[(£—l)(r—I)]- (12.12) Можно показать, что числители этих трех формул связаны соотношением 22r-s^-x.r + +Е(Х(.-Х..)’-ь _ +2S^o-^7-^-+^)a- (12.13)
Та б ли на 12.6. Числовой пример дисперсионного анализа A a) D x< В c a 10 10 10 10 10 b 10 10 10 10 10 c 10 10 10 10 10 *•/ 10 10 10 10 < lx — 10 1 B • ЗЕ(Х..— Х..)*=0; 4Е (X-X. )2U); / * / < б) A в c D X. 1 2 1 —1 —2 0 я 12 11 9 8 10 «»•/ = — 1 1 1 —1 0 b 9 11 11 9 10 —1 —2 0 3 0 c 9 8 10 13 10 0 0 0 0 X. 1 10 10 10 10 Л _ 1 ) ЗЕ(Х j — X _)* = 0; 4Е(Х/.-Х..)®=-=0; / i i I «./ = (3,1, -2, -2) 3S(X./-X..)' = 54; 4S(X,.-X.)’ = 0; (*<,—*./-X., + X..)2 = 28; / I X.)> = 82; 1 • -267
г) А Продолжение табл. /2.6 в C D x,- ^i- = ( 3> \ 1 a b c 1 1 18 11 К) 15 11 7 10 9 8 6 6 9 13 9 8 д1 -/ 13 11 8 8 X.. = Ю A..)a=54; 4Е(ЛГЬ — X„)= 23<*< / < Прим e чание. Обозначения: её . — ошибки, Ге I г /— f 56; 1 i -XJ*= 138. о-1Я«.м* стдэ:<. ее j - -X.}-Xt,+^..) - злиякне столбцов. г _ = 28; Это соотношение в табличной форме приведено в табл. 12.7,а. Предположим, что задача записа- на в виде табл. 12.6,г. Результаты дисперсионного анализа для нее представлены табл. 12.7,6. Средний квадрат по строкам вычисляется по формуле (12.11). Он составляет MSr=4f(13-10/ + (9- 10/+ + (8—10/J-’2^28, Средний квадрат no столбцам вы- числяют с помощью формулы (12 10) MSC-=3|(13- 10/+ (11 - ю/+ + (8 — 10/ + (8 - 10/]-3= 18. Остаточный средний квадрат можно получить по формуле (12.12) AfSe^I(18 - 13- 13+Ю/+ (11 - - 13- 9 + Ю/ + (10 - 13-8 + i J Таблица 12.7. Классификация по двум признакам (одна ячейка) а) Обобщенная таблица I V MS E(MS] 1 1 i Строки Столбцы Оста I ок ssr- ssc= SSe = :C^(Xi_ -X. У rS (X; — Aj2 22^'/ + i l_ . + A'..)» 2 / 11 II II С? » -ч ? 1 1 -1 -1 -1)(г-1) MSr MSe MSe II II II Co to to Co to to i £ £ « “v ** G‘ a' <r 2 4- ^°2r 8 + r^c г 1 1 1 -X,- Всего sst- SSwj—* / ‘ .)* = П/ 1 - б) Вычисление результатов из табл. 12.6,г 5$ MS F* = MS/MS" KJ 1 Строки Столбцы Остаток 56 54 28 2 3 6 28 18 . 4,67 6.0 3,9 • Всего 138 11 268 J
4-Ю)2^-j-(15- ii - i34-io)2+. + (11 - 11 - 9+Ю)!+ .- + (9- — 8 — 8 + 10)*]/6=4,67. Однако легче было бы сначала най- ти суммы квадратов, а затем полу- чить средние квадратов. Из соотно- шения (12.13) SS«=SSt—SSr—S$c,' и легче было бы вычислить SSt, чем 3Se. Полная сумма квадратов равна: SS< = (18-10)4-(11 - - 10)’ +(10- 10)2 + + (15-10)а+...4-(9-10)*=138,. Так как SSr=56, a SSC=54, то SSC получаем нз SS,.=138—56—54=28 и /4^=28/6=4,67. Первое расчетное А* равно F*r= =28/4,67=6. Его надо сравнить е теоретическим F-значением. При- нимая' а=0,05, находим Е'оэ5:2;б= =5,14. Отсюда мы приходим к за- ключению, что значения р для под- множеств, классифицированных по категориям строк (т. е. щ), сущест- венно различны. Итак, используя термин «влияние строк», мы можем утверждать, что «влияния строк» существенно различны и что они по- рождают существенное различие в р-. Чтобы исследовать влияние столб- цов, вычисляют F*C=I 8(4,67=3,9 Теоретическое значение F при том же самом уровне значимости F095; з; с>=4,76. . Значения 14 (или влияние столбцов) несущественно различны. Чтобы лучше понять сущность дисперсионного анализа, следует на- глядно показать, как табл, 12.6,г мо- жет быть построена из начальной таблицы, т. е из табл. 12.6.Л, в ко- торой все значения А\>, Л’./ и Xi. равны,- Следовательно, MSr=MSc— —MSe=6. В табл. 12.6 добавляются остатки или, как нх еще называют, «влияния ошибок» eet}, в результате чего SSe=28. Две другие'суммы квадратов пока остаются нулевыми, так как разности (X./—А..) и (Xt—Х„) равны нулю. Следователь- но, полная сумма квадратов SSt= =SSe=28. В табл. 12.6,в добавляют- ся эффекты столбцов се'}, в резуль- тате чего SSC—54, но SSe остает- ся прежним, так что SSe=28, а SS<=SSc+SSe=82. Наконец, в в табл. 12.6,г добавляются эффекты строк ret_, что дает нам SSr—56 и SSt=SSr+SSe+SSes®l 38. . Совершая обратную .; процедуру, мы можем из'табл. 12.6,г получить . табл. 12.6,а. Однако не все таблицы можно, разложить таким образом. Таблицы,' в которых нельзя выде- лить аддитивные слагаемые в столб- цах и строках, невозможно свести ...к виду табл. 12.6. • ... - Возвращаясь к модели, приведен- ной в табл. 12.1,а,- можно сделать следующее утверждение. Диспер- сионный анализ основан на незави- симости или'аддитивном свойстве эффектов ..столбцов:!! строк, а’также остаточных/эффектов: Это можно записать в виде -' • . I - I - *. » •- й/=Р- В литературе встречается- следую- щая запись этого выражения:’: . . где р, at,. — константы, a et} — нормальйо распределенная случай- ная величина со средней, равной О, И дисперсией, равной о2. . .. . ,.,г Это; аддитивное свойство на прак- тике встречается, редко. Предполо- жим, что .к некоторой смеси,-йз . ко- торой делаются пластиковые палоч- ки, добавляются два химических ве- щества. Добавление вещества. А увеличивает прочность материала на 10%. Добавление вещества В ( увеличиваем прочность на 8%. Одна- ко это не означает, ..что добавление обоих веществ увеличит прочность на 18%. . 1 . г 12.2.2. Классификация гтр двум признакам: несколько' наблюдений . , . , в ячейке Тдблида. 12.8 является-.обобщаю- щей таблицей, иллюстрирующей за- плачу с более чем одним наблюдени- ем. в ячейке. Часто.вместо термина ' .'«наблюдение» в дисперсионном ана- лизе, применяемом к, удучным....экс- ’^269
Таблица 12.8. Классификация по двум признакам (несколько наблюдений в одной ячейке) а) Обобщенная таблица Хщ б) Категория столбцов А Б В А Б В ^11» Категория *** ы м г» «В И М М «9 ммм » w » *** *1 в* о ь> *1*1 м ЛЭ м • » *». х,.. Хг.. строк v Л2>1 *** МММ МММ ММ» *** МММ W м м мм» Хг.. Х ’• *1 ю 1 х.}. Л • • • Таблица 12.9. Классификация по двум признакам для задачи с несколькими наблюдениями в одной ячейке Категория столбцов ЛЕВ периментам в сельском хозяйстве и биологии, используется термин «ре- продукция:». Имеется обычно в виду повторение измерений и эксперимен- тов, чтобы увеличить степень репре- зентативности опыта. Заметим так- же, что случайные переменные в табл 12.8,а имеют дополнитель- ный индекс 4=1, 2 ..., где п — объем выборки или число повторений в каждой ячейке. Как и прежде, общий объем вы- борки обозначается tit и использует- ся для вычисления общей сред- ней X . В любом анализе такого рода всегда вычисляют выборочные сред- ние для ячеек, строк и столбцов (см. табл. 12.8,6). Рассмотрение их дает ценную информацию исследовате- лю. Формулы для вычислений име- ют вид: =2 ДЛЯ г =(1, 2, .... г), / / = (1. 2. с)\ (12.14) 2 2 X‘Wrn для / = i I _ =(1,2......с); (12.15) xt =22 х<н'сп для i= j t = (1.2...г); (12.16) X ^WCijJrcn^S^Xmlnt. (12.17) Числовые значения этих средних для данных из табл. 12.9 приведены в табл. 12.10,6. 270 Катего- рия строк 16 20 17 20 12 13 9 Н 10 12 8 13 10 10 13 6 9 9 Формулы для вычисления всех не- обходимых сумм даны в табл.. 12.10,а н б. Используя эти формулы* получаем: 1 4 5 - 4 ч °’ i % - 4
Таблица 12.10. Классификация по двум признакам (несколько наблюдений в одной ячейке) я) Обобщенная таблица Источник дисперсии SS V £(MS) Главный эффект строки Главный эффект столбца Эффект взаимо- действия ячеек S.Sr = cnS(Xf.. — X'Y SSc = rriE (X y ~Y )S SS^n^iX^-Xi.- -x‘,+x-,. 7 1 1 X II li 1 к v к II > о*-Ьспа‘иЛ »a+"«V/. o2 nv2e Общий межъ- ячейковый эффект Внутрмячейковый эффект (ошибка) SSb^n^^tXa-X.y i i 35ц, = ЕЕЕ(Х,7-Х;/с)* vb — ГС — 1 v = rc(n — 1) <3^ _!=. Дд® . . 9* Полная $$, = ЕЕЕ(Л//в-У)« V/ =ГСП— 1 О) Вычисления для данных из табл. 12.9 a X Лп, — 3 — 45 *>’=- X A,a. — 3 — 128 л,.. — 9 b X л*«- — 3 y yt28. — 3 A«s- — 3 Л*-~ 9 X x * — 6 X A-«- " 6 x -- -Л.*. — 6 V “1® “ 18 в) Таблица конечных результатов Источник Дисперсии 5S > { MS F» ^'о.ЭЗ, v. t Главный эффект страны SSr = 80.22 1 80,22 12,9 4.8 Главный эффект столбца SSC==92.44 2 46,22 7,4 3.9 Эффект взаимодействия ячеек SSe = 16,45 2 8,22 1.3 3,9 Общий межьячейковый эффект SSb = 189,11 5 37,82 6.1 3.1 Общий межьячейковый эффект SS„,= 74.67 12 6,22 Полная SSf=r 263,67 17 -— — — Поскольку SSe=SSb—S5,—SSC, to эту величину можно не рассчиты- вать. Остальные суммы квадратов равны: SSW = (16 - Y 4- /20 - + /33 218 у + ("3 18 ) /24 218 у + 3 ~‘ 18 ) + ... , \ = 189,11; ... +(9—^-¥ = 74,67; 271
sst = 218 V +8/ 218 V 18 I Заметим, что SSi=SSb-|--S>Sw. Таким образом, нужно вычислить либо SSW, либо В общем достаточно знать SS* S5C. SSi и SSW, чтобы получить таблицу конечных резуль- татов. Описываемый метол используют более широко, чем любой другой. С его помощью можно установить разницу между эффектами строк или, что точнее, средними по стро- кам pi.., эффектами столбцов или, что то же самое, средними по столб- цам pj, а также между средними отдельных ячеек pij- Для последнего теста надо вычислить MSt, и MSV. Это можно сделать совершенно не- зависимо,. т. е. без вычисления дру- гих сумм квадратов. Формулы их вычисления такие же, как и в слу- чае классификации по одному при- знаку. Порядок вычислений приве- ден в табл. 12 2—12.5. В рассматри- ваемом примере имеется шесть сред- них для каждой ячейки p/j., что соответствует шести категориям в модели классификации по одному признаку. Расчетное F* получается так же, как и в табл. 12.3. Таким образом, F* — MSb/MSv = =37,82/6,22=6,1. Поскольку теоре- тическое значение F меньше этого значения, то мы заключаем, что раз- ница между средними шести ячеек существенна или что эффекты ячеек существенно различны. Результаты этих и других сравнений приведены в табл. 12.10,в. Все расчетные F*- отношения получаются делением со- ответствующих средних квадратов MS на /145^=6,22. Оказывается, что эффекты строк и столбцов сущест- венно различны, а эффект взаимо- действия ячеек — нет. Это означает, что данные сопоставимы, т. е. что в них отражаются лишь эффекты 272 строк, столбцов и меж'ьячейковые эффекты. Такая ситуация желатель- на для исследователя: ведь если су- ществен эффект взаимодействия, то он накладывается на главные эффек- ты, а это затрудняет интерпретацию последних. Как видно из табл. 12.10,а, с помощью среднего квадра- та взаимодействия ячеек MSe мож- но оценить о2+по2е. Если эффекты взаимодействия несущественны, то о2е несущественно отличается от ну- ля. Следовательно, MSC будет оцен- кой одного слагаемого о2, и MSe и MSW можно объединить *. Это объ- единение более или менее оправда- но, если F* = MSe!MSw меньше, чем 2F, ч v „ - Для нашего случая имеем ve=2, vw=12, Го, 5,2,12=0,735 и, следовательно, 2Г0,5= 1,47 (Го,5 в соответствующей таблице приложения найти нельзя). Расчет- ное Г*-отношение равно 1, 3, что меньше 1,47. Следовательно, обе средние суммы можно объединить. Именно это мы и полагаем, склады- вая SSe и 55^. Их сумма равна 16,45+74,67=91,12; v,=2+12=14. Остаточный средний квадрат вычис- ляется из AfS„=91,12/14=6,51. По- следний и другие результаты сведе- ны в табл. 12.11. В ранее рассмотренных случаях число категорий по строкам могло быть либо максимальным, либо вы- боркой из большего числа катего- рий. То же самое относится к к столбцам. Существует и смешан- ная модель, в которой одна группа категорий представляет всю сово- купность, а другая выборку. Как уже отмечалось, число элементов в ячейке п может быть различным для разных ячеек. Наконец, для на- блюдений в каждой ячейке делают- ся обычные предположения, т. е. это независимо и нормально распреде- ленные величины, с одинаковой дис- персией а2. * Г. Шеффе отрицательно относится к подобному объединению MSt взаимодей- ствия ячеек с внутриячейкового эф- фекта (ощибок), называя его «сомнитель- ной практикой» (см. подробнее Шеффе Г. Дисперсионный анализ).— Прим. ред.
Таблица 12.11. ('бъедкнекие сумм квадратов из табл. 12.10, в ИстотннК ДНС1ИДОНН SS V MS Г» ^0,95, vu Главный эффект строки Главный эффект столица Остаток СЧ ** GS (М чг — OOl — CQ о? Оз 11III г г II 1! II - to - 50,22 16,22 6,51 >2.3 7.1 4,8 3,9 Полная SSj = 263,78 V/ = 17 12.3- ОРТОГОНАЛЬНЫЕ КОНТРАСТЫ С помощью дисперсионного ана- лиза исследователь устанавливает, существенно ли различны р. Инди- видуальные сравнения между парой р можно сделать, используя разно- стный тест, описанный в гл. 9. Одна- ко такой тест не действует в случае, когда необходимо ранжировать р. Как уже отмечалось в разд. 12.1, та- кое ранжирование возможно лишь при условии, если доверительные интервалы не пересекаются. Гораздо больше индивидуальных сравнений к тому же одновременно позволяет делать метод ортогональ- ных контрастов, который будет опи- сан ниже. Контрасты могут быть по- лучены из значений выборки Х{ц и значений средних: средних по строкам и столбцам, средних для каждой ячейки и т. д. Принцип при- менения метода одинаков во всех случаях, здесь мы обсудим вычисле- ние контрастов для средних. Вычисление ортогональных кон- трастов требует вычисления частных средних квадратов (PMS). Послед- ние используются затем при провер- ке разности между отдельными средними или различными группами средних. Эту проверку проводят с помощью сравнения расчетного F* с теоретическим F-значением. Дру- гими словами, процедура проверки аналогична описанной выше. Инте- ресно, что частные средние квадра- ты в сумме дают вычислявшиеся выше средние квадраты. Контрасты — это разности между средними, получаемые с помощью скалярного произведения векторов, 18—232 Читатель знает, что вектор может рассматриваться в двумерном, трех- мерном и л-мерном пространстве. Двумерное пространство — пло- скость; каждая точка на плоскости может быть записана как Р=2, 3, где по общему соглашению 2 откла- дывается по горизонтальной оси, а 3 — по вертикальной оси в ортого- нальной системе координат. Эту точ- ку можно назвать также векто- ром V. В общей форме векторы за- писываются как V=(O|, а2), V=(bit. b2) или V=(%i, х2) и т. п. В трех- мерном пространстве вектор запи- сывается в виде V=(ai, а2, а2), в n-мерном пространстве в виде V = ~ (^1, О2...^п) Из основных определений вектор- ной алгебры нам надо знать только правила сложения и скалярного умножения векторов. Для заданных Vi=(ai, а2, а2) и V2=(blt b2, Ь2), где элементы векторов ti, и Л,— действительные числа, определим V| +V2= (<?i + bi, a2+b2, Пз + &з). Для V,=(—1, 1/2, 3) и V2=(l, 1, -2) имеем V] + V2=(0, 1, 5, 1). Итак, согласно определению суммой век- торов будет вектор. Скалярное произведение двух век- торов определяется так: ViV2= —(aifei-l-а2Ь2+азМ- Для приведен- ного выше примера имеем V1V2= =(—1, 1/2, 3)(1, 1, —2) =6,5. Оче- видно, что скалярным произведени- ем двух векторов будет не вектор,, а действительное число. Ортогональные контрасты в дис- персионном анализе получаю гея с помощью определенного вида ска- лярного умножения. Такое скаляр- ное умножение представляет собой 273-
^некоторый способ нахождения част- ного среднего квадрата или PMS. Этот метод лучше всего пояснить на примере. В случае классификации по одно- му признаку, который был описан с помощью табл. 12.4 и 12.5, име- лись три выборочных средних: ,?i= =4, Х2=14, Я3=24 и М$ь=400. Нам нужно найти два контраста и две суммы РЛ1Х так, чтобы XPMS= =MSft=400. Перепишем три выбо- рочных средних в виде У=4, 14, 24 Этот вектор умножим (скалярно) на векторы контрастов. Для получе- ния М$ь=400 число векторов кон- трастов и скалярных произведений должно быть равно числу степеней •свободы V, использованных при вы- числении AlSb. Для данного случая имеем из табл. 12.5 v=2; следова- тельно. нам нужны два ортогональ- ных вектора определенного вида, на- зываемых векторами контрастов. Если число степеней свободы v=5, то число векторов контрастов также будет равно 5. Векторы контрастов строятся та- ким образом, что Sa,=0, все воз- можные комбинации скалярных про- изведений этих векторов также рав- ны нулю. Если выполняется послед- нее условие, то векторы называются ортогональными. Например, векторы Vt = (--2, 1, 1) и V2=(l, 1, 1) будут ортогональны, так как их скалярное произведение V( V2= (—24-14 1) =0. Если мы изобразим эти векторы в трехмерном пространстве в виде от- резков, исходящих из начала коор- динат, то оба отрезка будут перпен- дикулярны друг к Другу. Это имеет место всегда, когда скалярное про- изведение равно нулю. Два вектора предыдущего приме- ра ортогональны, но не являются векторами контрастов, так как не удовлетворяют другому требова- нию — а именно, сумма элементов должна равняться нулю. Векторы Vi=(-1, 0, 1) и V2=(l, -2, 1) удовлетворяют обоим требованиям: действительно, Sa,- для Vi равна —1-4-04-1=0, а S6{ для V2 равна 1- 2 + 1=0 и V,V2=—1+04-1=0. 274 Ортогональными контрастами для i=(I, 2, ..., v) называют числа, равные скалярному произведению вектора ортогональных контрастов на вектор выборочных средних. Так, например, взяв в качестве векторов ортогональных контрастов векторы из примера выше и умножив их на выборочные средние, получим ^=^^=(-1, 0, 1)(4, 14, 24)=20; C2=V2V=(1, -2, I) (4, 14, 24) =0. Можно взять другую пару векторов ортогональных контрастов: V|=(l. —1,0) и V2=(—1, —1, 2); суммы: 2^-14-1+0=0, 26^-1-14-2= =0, произведение Vr1V2= 1 — 14-0=0. Используя эти векторы, получим другую пару ортогональных кон- трастов: €?! = (!, —1, 0) (4, 14, 24)=—10; С2=(—1, —1, 2) (4, 14, 24) =30. Средний квадрат ALSft=400 может быть теперь представлен в виде сум- мы частных средних квадратов PMSbi для i=l, 2, .... у. Для /= = 1,2 имеем MSb = PMSbl 4- PMSbt = где n — число значений (объем вы- борки), с помощью которых форми- руются компоненты .вектора V. Ве- личина V2! равна скалярному про- изведению вектора V, на себя. На- пример, V»9 = (l, -2, 1)(1, -2, 1) = = 14-44-1 =6. Для первой пары контрастов: = (20)’ ( — 1 0 1) ( —t, о. 1)2 + 4- 0 = 400. Для второй пары: М$ь = (—10) _|t о) о)2 + + -1, 2)(-l, -1. 2) = = 400. Конечные результаты можно пред- ставить в виде таблицы. Таблица 12.12 состоит из двух частей. В табл. 12.12,а первый контраст есть
Таблица J 2.12. Контрасты и частные средние квадраты для данных из табл. 12.5. а) У = (4, 14, 24) Q С* i п P/V PMSbl V, = (-l. 0,1) 20 400 1 400 Vt = (l, -2, 1) 0 0 J/3 0 AfSb= 400 6) V = 4, 14. 24 Ci n Pp PMSbl V, = (l,-l,0) -10 100 1 100 v2 = (-1,-1,2) 30 900 J/3 300 MSb = 400 Прхмечанне. С{. — V.V.например. С,=(1,— I, 0)Х Х(4. 14. 24) = —10; я — объем выборки (л = 4): = = V.V(.. например. V»4 — (I, —2, I) (1. —2, 11 = 6( »— —число степеней «оболы для MSb (» = 2); л/lV’i») = = 4Д6-2) — 1/3. Таблица 12.13. Контрасты и частные- средние квадраты для данных из табл. 12.7 я) Средние по столбцам V- (|3. 11. 8. 8) ci I vt-(l,1,-1, -1) 8 64 1/4 16 Vs=(0, 0, -1, J) 0 0 1/2 0 V1 = (-l, J, 0, 0) ...2 4 1/2 2 MSC = 18 б) Средние по столбцам V= (13, 11, 8, 8> c. t c Ct V,=(—1, —I, 1, 1) —8 64 1/4 16 '.-I, 1) —2 4 1/4 1 V,-=(l,-J, -1, J) 2 4 1/4 1 Л15с = 18 контраст между Ji (ему соответст- вует первый элемент V) и Хз (ему соответствует третий элемент V), поскольку Vi представлен вектором —1, 0, 1. Второй контраст — между Х1 и Хз (положительные элементы V2), с одной стороны, и удвоенным Х2 (отрицательный элемент V2), с другой стороны. В табл. 12.2,6 дан первый контраст между Xt и Х2, а затем Xi и Х2 сравниваются со взвешенным значением .Y3. Каждая частная сумма, вычислен- ная из этих контрастов, всегда име- ет одну степень свободы. При про- верке различия между щ и р-з с по- мощью суммы PMSbl из табл. 12.12,а найдем Г*=PMSbi/MSw=400/6,67 = 60, где MSW можно взять из табл. 12.5. Это значение F* сравнивается с таб- личным Го,95; 1; 9=5,15. Приходим к заключению, что щ и Цз сущест- венно различны. Используя значение PMS^ нз табл. 12.2,6, получаем F*= =100/6,67=15. Сравнение этого зна- чения с табличным Л),9Б; и г>=5,15 по- казывает, что pi и р,2 существенно различны. 18* К Примечание. л=3 и * = 3 для средних по столбцам в частях а и б; п — 4 я v = 2 для средних, по строкам в часта в. В табл. 12.13 приведены некото- рые контрасты для средних по- столбцам и по строкам. Если число степеней свободы для среднего ква- драта MSC по столбцам v=3, то чис- ло векторов контрастов также долж- но быть равно трем. Как и ранее, все возможные скалярные произве- дения векторов контрастов равны нулю. Другими словами, ViV2=. =ViV3=V2V3=0. Все остальные вы- числения аналогичны рассмотрен- ным в предыдущем случае. Для определения значимости разницы вычисляют различные средние квад- раты PMSci или PMSri. Для полу- чения Г*-значений вычислим Г*= = PMS/MSe=PMS/4.67. Например, из табл. 12.13,а находим PMSC|=16; 275-
а.блица 12.14. Контрасты и частные средние квадраты для данных из табл. 12.10 а} Средние по ячейкам Г=(53/3. 33/3, 45.3. 33/3, 30/3, 24/3)=(17. 7, 11, 15. И. 10. 8) ci <>1 ™Sbi 1, 1, -I, -1, _]) V, =(1, 0, —1, —1, 0, 1) V, = (1.0, -1. 1. 0, —1) V4 = (l. —2, 1, 1. —2, 1) Vs = (l, —2, 1. -1, 2. —1) 14.7 —0,3 <5,7 9,6 11,6 216,09 0,09 32,49 92,16 134,56 1/10 3/20 3/20 1/20 1/20 21,61 0,01 4,87 4.61 6.73 (Г) Средние по столбцам • AfSb = 37,83 1^= (86/6* 78/6, 54/6)= =(48/3, 39/3, 27/3) С1 С*1 л/(Р-») ™sci II II 1“ “| 1 ’“<9 кэ 4/3 28/3 16/9 784/9 3/2 1/2 8/3 392/9 MSC^ 46/22 Примечание. п—3 н *=5 для средних ni Я1е1юя d Т15и. 12.14, а; л=6> v=2 для средних по столбцам s табл. 12.14. б. •и, следовательно, Г*=16/4,67=3,43. •Сравнивая это значение с таблич- ным ^0,95; 1; 6=5,99, ПРИХОДИМ К ЗЭ- ключению, что разница между сред- ним для первого столбца и средним для второго столбца несущественна. Контрасты и частные средние квадраты для средних по ячейкам и средних по столбцам, приводимых .в табл. 12.10, показаны в табл 12.14. В части табл. 12.14,а мы видим 5 векторов контрастов; все возмож- ные комбинации скалярных произ- ведений каждой пары этих векторов должны равняться нулю. Чисдо всех нулевых комбинаций определя- ется из v!/[(v—2)!2!]=5!/(3’2!)=10. Все ^-значения определяют из от- шений вида F*—PMS >MSW= =PMSfQ,22. Аналогично вычисляют контрасты для взаимодействия меж- ду ячейками. I 12.4. ВОПРОСЫ И ЗАДАЧИ 12Л. В табл, 7.6 приведены три выбор- ки.. отобранные нз одного и того же рас- пределения. Выборки имеют объемы =6, п2=20 и л3=60. Выборочные средние равны: ^=251,17; У^-250^0; Х3=249,8. Соответствующие стандартные отклонения ровны s 1=3,1252, $г=2,3306, $3=2Л72. 276 Этой информации достаточно для диспер- сионного анализа. Если расчетное F* зна- чительно больше Ft то мы приходим к вы- воду, что процедура отбора выборок яв- ляется смещенной, так как априори мы знаем, что все три выборки отбираются нз одного распределения и, следовательно, Да и № должны быть равны. а. Используя уравнение (12.5), вычис- лите сумму 2(Хн—Xi)2 которая вам по- надобится для определения MSw==s2P из уравнения (12.6). Поскольку s2j==S(Xfj— ^Л)2/(Пэ-1). S(XO-Xj)2=(nj-l)s2j. б. Найдите MSb- Используйте соотно- шение (12.8), а не (12.7), так как выборки отбираются не одинакового объема, в. Найдите с помощью интерполяции ^о.95: n: v» и сДелайте вывод, 12.2. Ниже приведенные данные пред- ставляют собой измерения предела прочно- сти на разрыв, выраженные в тысячах фунтах на квадратный дюйм для низко- углеродистого стального листа. Сталь за- купается у трех сталелитейных компаний. При а=0,0Ь проверьте, одинаковые ли пределы прочности на разрыв у этих трех поставщиков. xh xi2 xh 61,6 51,4 51,5 50.5 50.9 50,7 61.0 51.1 51,5 51,7 5Ы 51.3 51,1 51.0 50.6 51.3 51,0 51.2 51,8 51,4 51.4 50.9 5L4 51.3 51,4 51,4 51.0 52.2 51.5 51,3 51.4 51.3 51,6 51,3 51,4 51.5 SI .2 51,6 51,2 51.7 51.5 50.7 51.7 51,6 51,5 50,9 5Ь7 51,1 51,8 51.6 50,9 51,9 51,7 51.4 61,3 51 5 51,6 51.1 52,2 51.2 51,5 52,1 51,3 51.5 52,0 51,9 50,7 51.2 51.7 51.3 51.8 51,4 51,7 52 >3 51,2 51,2 51.0 51.8 51.2 51,6 51,4 51.8 51 6 52,0 51 Д 5019 о Г .3 51.0 51.4 51Л
12.3. Дисперсионный анализ основы- вается на трех предположениях, касаю- щихся вида, дисперсии и взаимодействия распределений, из которых отбираются вы- борки. Что это за предположения? 12.4. Предположим, что имеются три следующие выборки: Хп хй 10 16 19 8 17 21 9 14 18 12 15 22 11 13 20 я еще три выборки: Yi2 у.-з 10 15 25 8 18 20 9 9 30 12 12 10 11 21 15 где X i=F.j, X.2=F 2Х.з=Кз- а. Изучите приведенные выше данные. Какую вы видите разницу между значе- ниями Xij и Y<j? б. Примените дисперсионный анализ j< Xij и У\; при а=0»01. Проанализируйте полученные результаты. 12.5. Имеются три нормальных распре- деления со средними рх, и р*. Пусть jix=200. Ox^-ov=Ut—10 и п=1б. а. Найдите X' и X" такие, что Р(Х'< <£,<Х")—0,95. б. Найдите У' и У" такие, что Р(У'< <Гг-<У") =0,95 и Х"=1" в. Найдите Z' и Z" такие, что P(Z'< <Z;<Z")==0,95 и Y"=Z'. г. Повторите все только что выполнен- ные задания для л» 100. Обратите внима- ние на разницу результатов для л=16 и л=100. 12.6. На шести участках земли посеян ячмень. Почва на этих участках одинако- ва, сами участки расположены близко друг от друга. Были использованы три вида удобрений. Удобрения представляют собой смесь в различных пропорциях фосфора, калия и азота. Участки орошались двумя способами. Ниже приведены показатели урожайности, выраженные в бушелях на I акр: Удобрения I п III Орошение 1 _ 2 62 65 79 70. 87 84 Применяя дисперсионный анализ» про- верьте» значима ли разница урожайно- сти: а) в зависимости от способа ороше ния; б) в зависимости от разных комби- наций азота, фосфора и калия. 12 7. Пусть вы имеете таксомоторный парк и хотите во всех машинах заменить аккумуляторы (речь может идти о лю- бых запасных частях» таких, например, как шины, свечи или глушители). Так как цены на аккумуляторы одинаковы и качество товара также приблизительно одинаково, то вы предполагаете покупать не у одной какой-нибудь фирмы, а у трех. Выбрав наугад, например» 18 машин (реально сле- довало бы выбрать больше), вы устано- вите на них новые аккумуляторы. Пусть моторы всех машин имеют одинаковую мощность, но половина моторов имеет шесть цилиндров, а другая половина — восемь. (Вместо числа цилиндров вы мог- ли бы классифицировать машины по мар- кам, мощности, сроку службы, массе и т. п.) Время работы аккумуляторов (10 000 ч) приводится ниже: Компания А Б В 8 цилиндров 6,3 8,5 5,5 8,5 8,0 8.3 6.0 5,7 6,3 7,0 7,7 6 6 цилиндров 6,7 8,5 ' 6 5,8 5,6 5„4 1 а. Применяя метод дисперсионного анализа при уровне значимости а=0,05, найдите, существенно ли различается ра- бота аккумуляторов в зависимости от: 1) компаний; 2) 8- и 6-цилиндровых мото- ров; 3) средних по ячейкам. Значимо ли взаимодействие ячеек? Думали ли;вы» что последний результат будет иметь место в данном примере. б. Постройте числовой пример для той же самой задачи, в котором бы было оче- видно на глаз (без применения дисперси- онного анализа), что существует значимая разница аккумуляторов между фирмами» но она не зависит от вида мотора. Вы мо- жете немного преувеличить Каков будет ваш критерий? в. Постройте числовой пример для той же самой задачи, в котором было бы оче- видно с первого взгляда (без применения дисперсионного анализа), что существует значимая разница и в зависимости от вида мотора. , г. Предположим, что автомобили оди- наковы, но аккумуляторы закупаются у трех компаний по разным ценам. Будут ли цены показателями качества? Почему? 277
л. Некоторый материал (сталь, пластик, сплав) испытывается на прочность. Мате- риал получают с помощью технологий, ис- пользующих три различные комбинации химикалнев и два разных температурных режима. Прочность выражается числами предыдущей таблицы. К каким выводам вы придете? Ожидали ли вы, что обнару- жите какое-либо взаимодействие ячеек. 12.8. Примените метод контрастов к вы- борочным данным из задачи 12.2» для сравнения: a) с н.г; б) |АЛ с jis; в) р.2 с ц_3. 12.9. Испод 1>зуйте метод контрастов для проверки разницы между: а) цл и б) р.2 и ц.з в задаче 12.6. 12.10. Используйте метод контрастов для проверки разницы между: а) jij и б) Mij.Pis.Psl и раз. в задаче 12.7. 12.11. Имеется матрица из пяти столб- цов, трех строк, в каждой ячейке которой по одному наблюдению. Найдите vr, vc, vc и vt. 12.12. Пусть теперь в каждой ячейке матрицы из задачи 12.11 по 20 наблюде- ний. Найдите vr, vC1 V&, vw» v«. 12.13. Сеть супермаркетов в крупном городе обвинялись в том, что она продает товары по различным ценам в зависимо- сти от районов проживания граждан с вы- соким или низким уровнем дохода. Чтобы проверить это утверждение, отобрали пробные выборки. Наугад выбирались три магазина А, Б, В в трех различных райо- нах города и фиксировались цены товаров. Общие затраты на эти покупки см. ниже. Наблюдается ли при уровне значимости 0,05 существенная разница: а) по магази- нам; б) по уровням дохода; в) между ячейками. Уровень дохода Район А Б 1 1 в i 27,10 28,7 25,1 Высокий 27.5 27,9 26,8 27,СО 28,2 25.2 22,8 26,1 26,9 Средний 23,2 25,2 25,5 22.6 26,6 25,00 25,1 25,8 26,1 Низкий 2-1,7 26.9 25,1 26,2 25,1 26,9 , 12Л4. Используя данные справочников фирмы «Стандарт энд пур>» сравнивала отношение цены к прибыли для несколь- ких компаний, производящих одни и те же виды продуктов. В нашем примере бра- лись данные для трех компаний. Компа- нии выбирались случайным образом. А Компания Б в 1965 11 12 14 1966 18 16 J5 1967 10 14 14 19(58 24 18 •18 1969 10 12 17 1970 15 24 18 1971 21 31 18 1972 22 38 18 При уровне значимости а=0.05 про- верьте, существенна ли разница между этими отношениями для различных корпо- раций. 13.1. ОСНОВЫ РЕГРЕССИОННОГО И КОРРЕЛЯЦИОННОГО АНАЛИЗА Регрессионные и корреляционные методы анализа рассматривают рас- пределения, элементы которых за- висят от двух или более переменных факторов. Эти методы позволяют исследователю измерить более точно взаимосвязь этих факторов. Мы мо- жем рассматривать совокупность студентов, изучавших сначала мате- матику, а затем статистику. Для сравнимости результатов выбирают- ся учащиеся, прошедшие один и гот же учебный курс по одинаковым учебникам. Эксперимент будет еще 278 ГЛАВА 13 РЕГРЕССИЯ И КОРРЕЛЯЦИЯ чище, если преподавание проводи- лось одними и теми же людьми Каждый студент получил две оценки. Эти данные показаны на рис. 13.1. Обозначим оценки по ма- тематике через X, а по статистике- через У. Исследователь интересует- ся вопросом, существует ли связь- между X и У. Если такая связь существует, то это означает, что в среднем студен- ты, получившие низкие оценки по- математике, получат низкие оценки по статистике, и наоборот. Если между X и У нет корреляции, то сту- дент, получивший низкую оценку по- математике, может получить любую
оценку по статистике. Аналогично учащийся, имеющий высокую оценку по математике, может получить низ- кую, среднюю или высокую оценку по статистике. г I • *4 w - •• • 2ot_J___1_I—i—1---1-—--- M 00 70 BO X Рис. 13.1. Полная корреляция (данные взягы из табл. 13.1) Очень полезны более точные све- дения о таком соотношении. Если установлена хорошая корреляция между изучаемыми переменными, то усвоение студентом курса статистики может быть спрогнозировано с по- мощью оценки по математике. Если будет зафиксировано отсутствие корреляции, то курс статистики мо- жет быть прочитан вне зависимости от того, был ли предварительно про- слушан курс математики. Предположим, что администрация предприятия постоянно берет на ра- боту начинающих чертежников. На- чальное обучение чертежников доро- го, поэтому адиминистрация решает создать (или купить) тест, с по- мощью которого можно было бы проверить квалификацию претен- дентов (такие тесты широко исполь- зуются на практике). Тест помогает предпринимателю решить, брать или нет на работу того или иного пре- тендента, а если брать, то какую предложить ему работу. Предполо- жим, что администрация покупает такой тест у компании, специализи- рующейся на создании тестов. Те- перь она хочет проверить пригод- ность теста. Для этого тест предлагается груп- пе вновь принятых на работу, и ре- гистрируются баллы. Затем в тече- ние некоторого времени наблюдают за производственной деятельностью этих людей и оценивают ее резуль- таты. Если низким результатам те- ста соответствуют в среднем низкие оценки работы, то тест хороший и может быть использован как при найме на работу начинающих чер- тежников, так и при распределении заданий среди них. Пример полной корреляции. Те- ста, с помощью которого можно бы- ло бы сделать абсолютно достовер- ный прогноз, в реальной жизни не существует. Однако, чтобы лучше понять проблему, предположим, что администрации предприятия уда- лось создать такой тест. Результаты этого теста обознача- ются X и приведены в табл. 13.1. Оценки результатов работы показа- ны в этой же таблице в столбце У. Графическое изображение связи между двумя указанными перемен- ными, называемое диаграммой рас- сеяния, мы видим на рис. 13.1. При , рассмотрении рисунка становится' явным, что оценки производственной деятельности связаны с результата- ми теста «механизмом» прямой ли- нии. Это так называемая функцио- нальная связь, причем функция име- ет вид: У=—40+ 1,5Х. Это означает, что значения У из табл. 13.1 полу- чают подстановкой в данное уравне- ние последовательных значений X. Например, 62=—40+1,5-68. Таблица 13.1. Полная корреляция X 68 54 90 64 61 51 79 51 83 48 Y 62 41 95 56 52 36 78 36 84 32 Важно отметить, что У является указанной функцией X лишь в пре- делах (40<Х< 100) и (20<У<120). В регрессионном анализе такие гра- ницы обычно всегда имеют место, т. е. связь, описываемая прямой ли- нией, часто верна лишь в определен- ных пределах. Если кто-нибудь по- лучит по тесту оценку ниже нижней границы, например 10, то оценкой его работы должна быть величина У=—404-1,5-10=—25, что совер- шенно абсурдно, так как наимень- шая используемая оценка производ- ственной деятельности равна 20. Другими словами, зависимость вне границ, определяемых задачей, мо- 279
жет отличаться от линейной или здесь вообще может отсутствовать корреляция. Неполная корреляция. Если бы администрации предприятия уда- лось найти тест, показывающий пол- ную корреляцию между оценками двух видов, то в их распоряжении был бы совершенный инструмент при отборе на работу. Это означает, что, подставляя результаты теста в уравнение, администрация име- ла бы точные сведения о результа- тах работы. Однако, как мы уже го- ворили, такого точного соотношения на практике не существует. Чтобы лучше понять задачу, пред- ставим, что X принимает те же зна- чения, что и в предыдущем примере, но механизм образования У соответ- ствует неполной корреляции. Это происходит тогда, когда между дву- мя переменными существует линей- ная связь, но она имеет вид связи между средними. Таким образом, на линейную связь между оценками практической производственной дея- тельности и теста накладываются ошибки, т. е она не точна. Метод, иллюстрирующий генери- рование таких значений У, поясняет- ся с помощью табл. 13.2, Значения X и 1" совпадают со значениями X и У из табл. 13.1. Предположим те- перь, что на значения, полученные из соотношения для прямой линии значения У', накладываются случай- ные ошибки, в среднем равные 5 единицам. Эти ошибки не сводят- ся к ошибке выборки. Они обуслов- лены тем, что двое или трое людей, получивших одинаковые оценки, вовсе не идентичны со всех точек зрения. Следовательно, оценки их производственной деятельности мо- гут быть больше и меньше значений У', лежащих на прямой линии. Ошибка (в нашем примере 5z) бу- дет огромной, если это не учитывать в тесте, и наоборот. Она не зависит от выборки и потому не является ошибкой выборки. Для генерирования случайной ошибки, накладываемой на У', бра- лись нормально распределенные случайные числа из табл. V (см. 2«0 приложение). Умножали их на 5 и прибавляли к У', получая значения У, соответствующие неполной кор- реляции. Это оценки производствен- ной деятельности, которые можно, получить в реальной жизни. Таблица 13.2, Небсльшсе рассеяние вокруг прямой линии X У' Z 5г У 68 62 —1,381 —7 55 62,6 54 41 —0,574 —3 38 43,7 90 95 0,096 0 95 92,2 64 56 1,389 7 63 57,2 61 52 1,249 6 58 53,1 51 36 0,756 4 40 39.6 79 78 —0,86 —4 74 77,4 51 36 —0,778 —4 32 39,6 83 84 0,037 0 84 82,8 48 32 2,619 13 45 35.6 Примемянне. Значения Y* получаются из соог- нонгеякя ¥^=—29Л+ 1.318 X (4Э < .X < 100), (20<У< <120); Л' и Y' взяты из табл. 13.1. Метод получение* значений Y (из пятого столбца) называется мртодо*г Монте-Карло. Последний столбец таблицы со- держит значения, полученные из со- отношения прямой линии. Эта линия получается, если попытаться аппроксимировать значения У пря- мой линией. Эта аппроксимация осу- ществляется с помощью метода наи- меньших квадратов (см. ниже). Используя метод, получим уравне- ние Уж=—29,14-1,348Х. Имея это соотношение, можно вычислить от- дельные значения Ух. Например, для X—68 получим Ух“бв=—29,1+ + 1,348-68=62,6. Теперь мы имеем два множества точек. Одно из них: (X, У) = {(68,55), (54,38), ... (48,45)}, другое (X, Ух) = {(68,62,5), (54,43,7),... ...» (48,35,6)}. Диаграмма рассеяния показана на рис. 13.2, значения (X, У) отмечены на ней точками, значения (X, Ух) отмечены крестиками. Как уже го- ворилось, точки (X, У) часто называ- ют наблюдениями или эмпирически- ми значениями. Точки (X, Ух) назы-
ваются расчетными или значениями регрессионной линии Так как эти точки лежат на прямой линии, то их называют значениями прямой ли- нии. Наконец, уравнение, получен- ное методом наименьших квадратов, называется регрессионным урав- нением. Рис. 13.2. Умеренное рассеяние вокруг прямой (данные взяты из табл. 13.2) Итак, подведем итог; процедура построения точек (X, У) (эмпириче- ские данные) основана на предпо- ложении о существовании в среднем линейной связи. Значения У откло- няются от Ух на 5z, где г находится случайным образом, а 5 рассматри- вается как средняя сумма отклоне- ний (X, У) от (X, Рх). Для выборок большей размерности (например, л=5000) каждому значению X, ука- занному в табл. 13.2 (или табл. 13.1), соответствует несколько зна- чений У. Например, Х=68 будет соответствовать много значений У. Их стандартное отклонение равно Syx—5, где sназывают стандарт- ной ошибкой УнаХ. Формулы для ее расчета [(13.13), (13.14)] даются ниже. Средняя для всех значений У, соответствующих Х=68, вычисляет- ся из УХ=68 = —29,1 + 1,348Х=62,6. Теперь мы можем заметить сле- дующее. В примере с полной корре- ляцией из табл. 13.1 существует лишь проблема определения вида регрессионной линии, на которой изображаются точки (X, У). О рас- сеянии относительно (X, Рх) речь не идет. Точки (X, У) и (X, Рх) здесь идентичны. Определение вида регрессионной функции сводится лишь к определению угла наклона. Если связь нелинейна (что довольно часто случается), то описание ре- грессии более сложно. Следователь- но, в случае полной корреляции и линейной связи исследователю нуж- но лишь попытаться объяснить, по- чему угол наклона мал или велик, положителен или отрицателен. Во втором примере (табл. 13.2) вид линии (X, Ух) такой же, как и в предыдущем случае. Однако здесь исследователь должен дополнитель- но принять во внимание значения (или среднее значение) отклонений наблюдаемых (X, У) от вычислен- ных (X, Рх). Как уже ранее отмеча- лось, эти значения измеряются стан- дартной ошибкой оценки. Чем оно больше, тем менее полезен тест при прогнозировании результатов рабо- чей деятельности. В примере с полной корреляцией администрация могла сделать совер- шенный прогноз сразу после получе- ния результатов опроса. Во втором случае она лишь в состоянии ска- зать, что при данном X оценка ра- бочей деятельности Y будет лежать в пределах (Ух—k< У< Yx+k). Зна- чение k определяется средним от- клонением (X, У) от (X, Ух), т. е. Отсутствие корреляции. Постро- им теперь такие значения У, при которых отсутствует какая-либо функциональная связь между X и У. Значения X останутся прежни- ми, а значения У теперь не будут случайными отклонениями от пря- мой, а просто случайными числами, изменяющимися в интервале 20< <У<120 [табл. I (см. приложе- ние)]. Данные о значении X и У приведены в табл. 13.3 и на рис 13.3. Таблица 13.3. Корреляция отсутствует X 68 54 90 64 61 51 79 51 83 48 У 95 25 68 54~90 99 56 51 28 21 Примечание. Y выбирается произвольно; 40<Х< <100. £0<У<120- Уравнение прямой линии, аппрок- симирующее эти данные, имеет вид: Ух=52.6+0,094 X. Прямая имеет очень маленький угол наклона. Если 281
взять больше значений У (изменяю- щихся в тех же границах), то угол наклона будет равен нулю или очень близок к нулю. Получив результа- ты, аналогичные представленным в табл. 13.3 и на рис. 13.3, админи- страция предприятия сразу поймет, что предлагаемый тест не может служить индикатором оценок буду- щей производственной деятельности, и исключит его нз применения. г ев во ад 20 ад 50 60 70 ВО Л Рис. 13.3. Значения У, полученные по таб- лице случайных чисел (данные взяты из табл. 13.3) Так как полной корреляции в при- роде не существует, а случаи, пред- ставленные данными табл. 13.3, можно из рассмотрения исключить, то обычно исследователь имеет дело с задачей второго рода, рассмотрен- ной на примере данных табл. 13.2 и рис. 13.2. Он анализирует данные с точки зрения либо вида регрес- сионной линии, либо рассеяния (X, У) вокруг (X, Ух), либо обоих мо- ментов вместе. Анализ такого вида называется регрессионным анали- зом. Данные обычно изображают либо с помощью прямой линии, либо с помощью кривой с одной точкой перегиба Прямая линия может иметь положительный или отрица- тельный наклон. Соответственно связь называется положительной или отрицательной корреляцией. Например, количество продаваемых товаров и цены на них находятся в отрицательной корреляции; если эту связь можно представить пря- мой линией, то тангенс угла наклона ее будет отрицательным. Очевидно, что и положительная и отрицатель- ная корреляции могут быть пол- ными. Рассеяние наблюдений вокруг регрессионной линии. Дисперсия наблюдаемых данных (X, У) вокруг вычисленных точек (X, Рж) или во- круг регрессионной линии приобре- тает особенное значение при оцени- вании качества прогноза. Качество прогнозных методов связано с необ- ходимостью делать несколько прог- нозов. Для чего бы ни делался про- гноз, обычно исследователь не огра- ничивается одним методом. Сущест- вуют различные альтернативные методы. В примере с оценками по тесту и по работе это будут после- дующий опыт работы и личные оценки, полученные из бесед. Следо- вательно, нм один здравомыслящий человек ие будет свои прогнозы ба- зировать только на регрессионном анализе. Если рассеяние точек (X, У) около регрессионной линии слишком велико, то следует исполь- зова гь другие методы. В регрессионном анализе, глав- ной целью которого является прог- ноз, угол наклона прямой может и не иметь существенного значения. Стандартная ошибка иЙХ, измеряю- щая рассеяние точек (X, У) вокруг (X, РЛ), может быть одинаковой при разных углах наклона прямой. Слу- чай вертикальной прямой исключа- ется Например, для У из интервала 20<У<120 (табл. 13.2) получаем коэффициент наклона Ъ—1,34. Для значений У из интервала 0<У< 140' этот коэффициент будет больше. Значения У из интервала 60<У<61 порождают прямую с очень малым углом наклона Но во всех случаях значение оух будет одно и то же. Вид регрессионной функции. Угол наклона (или в общем случае вид регрессионной функции) представ- ляет интерес для исследователя. Если значения У меняются мало для некоторых значений X (что отража- ется в малом угле наклона), то это означает, что значительная разница в оценках по тесту вызывает малую разницу в оценках рабочей деятель- ности. Таким образом, сотрудникам с высокими оценками по тесту, вооб- ' ще говоря, не обязательно платить* очень высокую зарплату. 282
Таблица 13.4. Содержание серы и потери энергии в 77 плавках стали (масса плавки 293 т) 1 2 I 2 / 2 / 9 0,006 2,46 0,012 2,44 0,018 2,52 0.023 2,51 0,007 2,28 0,012 2,43 0,018 2,56 0.023 2,60 0,007 2,31 0,012 2,35 0,018 2,57 0.023 2,79 •0,007 2,39 0,013 2,69 0,018 2,58 0,024 2,63 "0,067 2,43 0,014 2.48 0,018 2,59 0,024 2.64 ’0..007 2,47 0,014 2,58 0,018 2,64 0.024 2,65 Ю,0С8 2,42 0,014 2,55 0,019 2,64 0,024 2,67 0,008 2,54 0,014 2,56 •0,020 2,72 - 0,024 2,73 0,009 2,40 0.014 2,58 0,021 2,56 0,024 2,77 ••0,009 2,42 0,014 2,61 0,021 2,59 0,025 2,63 0,009 2,46 0.01Б 2,42 0,021 2,61 . 0,025 2,64 о.ою 2,30 0,015 2,51 0,02! 2,63 0,025 2.68 0,010 2,35 0,015 2,54 0,022 2,48 0,025 2,71 0,010 2,40 0.016 2.52 0,022 2,53 0,026 2,58 0,011 2,37 0,016 2,57 0,022 2,55 О.<26 2,70 0,011 2,49 0,016 2,68 0,022 2,63 0,028 2,72 0,011 2,56 0,(17 2,48 0,022 2,66 0,030 2,73 0,012 2,61 0,017 2,53 0,022 2,67 0,030 2,69 0,012 2,43 0,017 2,54 0,022 2,73 0,030 2,64 Приме 1 t а н и е Сюл йен /—содержа Нис Серы. %; стозбсц 2—поп ери анергии. 0,030 2,76 В некоторых случаях наклон ре- грессионной линии приобретает бо- лее важное значение, чем uvx. Это бывает при изучении спроса на ка- кой-нибудь продукт. Регрессионная зависимость аппроксимирует в этом случае функцию спроса. Если функ- ция имеет вид прямой линии, то ис- следователь приходит к заключе- нию, что спрос эластичен. Корреляция. Рассмотрим пример связи между курением и заболева- нием раком. Здесь, конечно, иссле- дователя интересует не прогноз, когда умрет некоторый курильщик, и даже не вид регрессионной функ- ции, а степень взаимосвязи. Его исследование будет называться не регрессионным анализом, а корреля- ционным анализом в несколько бо- лее узком смысле слова. Однако нужно отметить, что, вообще говоря, термин «корреляция» часто приме- няется как в регрессионном, так и корреляционном анализе. Пример из производства. Прежде чем мы приступим к описанию мате- матических и вычислительных мето- дов регрессионного анализа, рас- смотрим еще один пример, иллюст- рирующий двумерный вид связи (табл. 13.4, рис. 13.4). Дана выбор- ка из 77 плавок стали (плавка — ко- личество металла, получаемое в ста- леплавильном производстве за один раз), изучаемая с точки зрения со- держания серы и потерь энергии в металле. Этот вид стали использу- ется при производстве трансформа- торов и роторных электромашин. При нагреве агрегата происходит потеря энергии в металле, поэтому 283
величина потерь энергии в металле играет большую роль при конструи- ровании электромашин и трансфор- маторов. Электромашиностроитель- ные компании при закупке стали у сталелитейных компаний ограни- чивают сверху потери энергии в ме- талле. ‘Z.625---- Верхний предел ~ дойеритсльня- _ва интервала принятия 2,481 -—Ра ж над предел дсдерительнаго интерва ла принятия =2,335 _1___1—1__1—1__I.-L-J--L Содержание серы Х„ W3 % Рис. 13.4. Зависимость показателя потерь энергии от содержания серы (данные взя- ты из табл. 13.4) Энергетические потери определя- ются процентным содержанием серы в металле. Связь между количест- вом серы и потерями энергии поло- жительна, т. е. чем меньше процент- ное содержание серы в металле, тем меньше потери энергии. Однако, как это видно из рис. 13.4, связь между этими двумя переменными не очень пропорциональная. Причина этого в том, что на энергетические потери влияют еще и ошибки измерения и сами процессы плавки, прокатки и т. д. Это и будут те факторы, ко- торые определяют оух, т. е. значения рассеяния (X, Y) вокруг (X, Ух). Итак, подведем итог: стандартная ошибка Сух, измеряющая разброс наблюдений вокруг расчетных зна- чений, не определяется объемом вы- борки. Увеличивая объем выборки, мы не уменьшаем значение оух. Единственно, что мы делаем, это бо- лее точно аппроксимируем сух. В предыдущем примере значение оУх определялось качеством теста. Чтобы уменьшить <jyx, надо улуч- шить тест. Такое улучшение состоит в том, чтобы исключить из теста во- 284 проси, не отражающие связи оце- нок. Уменьшить вариацию вокруг прямой для задачи с потерями энер- гии означает усовершенствовать из- мерения и стараться зафиксировать все другие переменные (режим на- гревания, температуру плавки и прочие компоненты стали) на по- стоянном уровне. Две базисные модели двумерного' корреляционного и регрессионного анализа. Диаграмма рассеяния на рис. 13.4 иллюстрирует одну из двух базисных моделей регрессионного анализа. Из диаграммы видно, что каждому X соответствует несколько значений У. Регрессионные модели рассматриваемого вида предполага- ют, что значения X измеряются без ошибок. Однако для каждого X име- ется несколько значений У. Эти зна- чения У нормально распределены со средней рх и стандартным отклоне- нием аУх- Средняя р.х есть та точка регрессионной кривой, для которой р.т—а + рХ. Она оценивается по вы- борке с помощью Ух. В то время как |ix есть точка регрессионной ли- нии, аппроксимирующей совокуп- ность, Ух есть точка регрессионной линии, аппроксимирующей выборку. Предполагается, что стандартная ошибка оУх одинакова для всех X. Распределение У для фиксирован- ного X называется условным рас- пределением, т. е. (К|Х) означает «У для данного X», Другая модель линейного регрес- сионного анализа применяется в за- дачах, касающихся оценок качества учебы и производственной деятель- ности или связи между массой и ро- стом людей иди животных. Во всех этих случаях предполагается нор- мальное распределение не только У, но и X. График диаграммы рассеяния нагляднее строить не на плоскости, а в трехмерном пространстве Если такой график имеет вид симметрич- ной колоколообразной поверхности (а его проекция — вид круга), то угол наклона линии, сглаживающей наблюдения, равен нулю, и в этом случае говорят, что корреляция от- сутствует. Если же проекция поверх-
ности имеет вид эллипса, то следует признать наличие некоторой корре- ляции. Угол наклона линии, сглажи- вающей наблюдение, не будет рав- няться нулю. Этот и другие .моменты хорошо иллюстрируются в книге Эктона1 по анализу линейных рег- рессий. 13.2. ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ Регрессионный анализ включает в себя процедуру подгонки к дан- ным подходящей регрессионной за- висимости и нахождения стандарт- ной ошибки оценок. Так как регрес- сионный анализ часто используется для прогноза, то необходимо рас- смотреть также метод вычисления прогнозных пределов. Анализ про- водят как графически, так и с по- мощью математических вычислений. Здесь мы рассмотрим только второй способ. Остановимся сначала на ли- нейной регрессии. Методы подгонки с помощью нелинейных функций мы обсудим позднее. Рассмотрим данные из табл. 13.4. Обе переменные здесь не обозначе- ны. Какой из рядов следует обозна- чить X? В математике обычно зави- симую переменную обозначают бук- вой У, а независимую X. В регрес- сионном анализе исследователь сам должен принять решение, но ему всегда из контекста задачи ясно, как обозначить исследуемые им пе- ременные. Если цель анализа — прогноз, то обычно прогнозируемую переменную обозначают У. В случае рассмотре- ния связи между ценами и количест- вом товара (эластичность в задаче спроса) цены будут всегда зависи- мой переменной, а количество това- ра — независимой. В примере из табл. 13.4 энергетические потери являются функцией от процентного содержания серы. Такие естествен- ные связи в жизни встречаются ча- сто Если же исследователя интере- 1 Acton F. S. Analysis of Straight — Line Data. N. Y.: Dover Publications, 1959.. сует лишь вопрос одной корреляции, то способ обозначения переменных не играет роли. В приведенных вы- ше примерах мы использовали для обозначения букву У как для оценок,, так и для показателя потери энер- гии. 13.2.1. Подгонка прямой линии с помощью метода наименьших квадратов Уравнение прямой линии обычно записывается в виде Y=a-j-bX или ajXi~l-a2X2=c. Последняя форма является нестандартной. Для приве- дения ее к стандартной разрешим относительно %2: х2=с/а2—(а1/а2)х] и, переобозначив коэффициенты, по- лучим х2 = а Ц-Ьх,, где а = с.'а1 и b— — aja2. Если прямая линия используется для регрессии, то ее обозначения должны отражать тот факт, что точ- ки прямой являются средними для многих значений У. Обозначения должны фиксировать также разли- чие между выборкой и генеральной совокупностью. Следовательно, име- ем для 1енеральиой совокупности уравнение вида = я, (13.1) а для выборочных данных Yx = a~\~bX. (13.2) Таким образом, Fr, п, Ь в том соот- ношении должны рассматриваться’ как выборочные оценки ц,, а, р из уравнения (13.1). Обычно линию регрессии подгоня- ют к рассматриваемым данным с помощью метода наименьших квадратов. Идея метода заключает- ся в следующем. Если на графике изобразить наблюдаемые точки (X, У) и точки линии регрессии (X, Уя), то сумма расстояний по верти- кали между ними равна нулю или сумма квадратов разностей мини- 285.
тмальна. Эти требования записыва- -ются в виде 2(У-Ух) = 0; (13.3) 2 (У — У*)’ —* мин. (13.4) Выражения (13.3) и (13.4) спра- ведливы для любых регрессионных зависимостей. Так как мы сейчас рассматриваем метод наименьших квадратов применительно к прямой, то выражение (13.4) принимает в этом частном случае вид 2 |У - (а + WQ]4 * * * — мин, (13.5) где а + ЬХ заменяет Ух. «Сумму (13.5) обозначим через f(a, 6) = 2[У-(а + «>Х)]‘ (13.6) и будем искать точки минимума f(a, b). Эти точки находятся с по- мощью частных производных1, в ре- зультате чего получим следующую •систему линейных уравнений: I (SX) а + (2АГ4) b = ZXY. 1 ' 'Неизвестные в этой системе а и b являются параметрами уравнения (13.2) (т. е. уравнения Vx=a+bX) и находятся методом наименьших квадратов. Другими словами, если величины а и Ь из выражения (13.2) являются решением системы (13.7), то прямая линия будет прямой наи- меньших квадратов, для которой выполняются условия (13.3) и (13.4). Для примера рассмотрим точки (X, У) из табл. 13.2. Требуется най- ти точки (X, ух) на прямой линии (13.2), которая подгоняется методом 1 Дифференцируя f(a, b) сначала по а, .а затем но 6, получаем Ь)/<?аГг-~ 22(У—о—fcX)=: —2(2У—ла—SJZ>), df(а, d) tdb=—2X2 (У—а—ЬХ) = =х—2(ZXY—SXa—ZX2b). ( Принимая производные равными нулю, т. е. д[(а, b)!'da^df(a, fi)/<?fr=0, имеем —2 (2 У—па—2X6) =0; —2(2ХУ—Х.Ха—ЕА’гЬ)=0. Разделив оба уравнения на —2, полу- чим систему' (13.7). .286 наименьших квадратов к наблюдае- мым точкам (X, У). Параметры уравнения (13.2) находятся из си- стемы (13.7). Как только значения параметров будут вычислены, иско- мые значения (X, Ух) получаются подстановкой последовательных зна- чений X в уравнение регрессии (13.2). Обший метод решения систем уравнений. Чтобы разрешить систе- му (13.7) относительно а и 6, мы должны знать значения п, SX, 2 У, SX2 * i * *, ЕХУ. В табл. 13.5 приведены Таблица 13.5. Оценки на экзамене и результаты деятельности (вычисления, необходимые для линейного регрессионного анализа) X У Л* У8 XY X т-гх 68 55 4624 3025 3740 68 62.6' 1-7,6 54 38 2916 1444 2052 54 43,7 -5,7 90 95 8100 9025 8550 90 92,2 2.8 64 63 4096 3069 4032 64 57,2 5.8 61 58 3721 3364 3538 61 53,1 4.9 51 40 2601 1600 2040 51 39,6 0,4 79 74 6241 5476 5846 79 77,4 -3,4 51 32 2601 1024 1632 51 39,6 —7,6 83 84 6889 7056 6972 83 82.8 1.2 48 45 2304 2025 2160 48 35,6 9.4 649 584 44 093 38008 40562 0,2 Примечания: 1, Данные взяты из таЗл. 13.2, 2. X— оценки теста; У—оценки результатов дея- тельности. эти величины. Подставляя их в си- стему (13.7), получаем i 10а 4-6496 = 584, ( 649а 4- 44 0936— 40 562. Общий метод решения систем ли- нейных уравнений рассматривается в линейной алгебре. Он основан на элементарных линейных преобразо- ваниях матриц. Система линейных уравнений мо- жет быть преобразована в эквива- лентную систему умножением каж- дого уравнения на некоторое число и сложением полученного уравнения с другим Решение преобразованной системы совпадает с решением ис- ходной системы уравнений. В рассматриваемом примере оста- вим первое уравнение без измене-
ния, а второе преобразуем таким образом, чтобы исключить неизвест- ный параметр а. Это можно сде- лать, если умножить первое уравне- ние на —64,9 и сложить результат со вторым. Итак, имеем -649а - 42120,16 = - 37901,6 -649g+ 44 0936 = 40 562 1972 96 =2660,4 Эквивалентная система примет вид 10а + 649 6=584, 1972,96=2660,4, и ее решение совпадает с решением исходной системы уравнений. Из второго уравнения преобразованной системы находим 6=1,348. Подставляя это значение 6 в первое уравнение, получим а=—29,1, Применяя любое другое линейное преобразование к системе, мы полу- чили бы тот же результат. Напри- мер, вместо а мы могли бы исклю- чить из второго уравнения 6. Для этого надо было первое уравнение умножить на —1/649, а второе на 1/44 093. Тогда (—10/649) а—6=—584/649, (649/44 093) а+ 6=40 562/44 093 или после соответствующих деле- ний -0,0154 а - 6 = - 0,8998 0,01471 а+ 6=0.9199 -0,00069а = 0,0201 Эквивалентная система уравнений примет вид 10«+6496=584, —0,00069а=0,0201. Решая ее относительно а, полу- чаем а=—29,1. Это совпадает с ре- зультатом, вычисленным ранее. Под- ставляя значение а в первое урав- нение, находим 6 = 1,348. Методы быстрых вычислений. Параметры а и 6 можно найти быстрее, если ко второму уравнению1 системы (13.7) применить некото- рые преобразования. Эти преобразования основаны на том, что 2л=2#=0, где х=(Х—X) и y=Y—У. Тогда получим [ ™+s«’=si'. (13.8> I Sx%=s.r!l. Решая первое уравнение относитель- но а, находим а = У-Х6. (13.9) Разрешая второе уравнение относи- тельно 6, получаем 6=2ху,/2ха. (13.10) Замена вида х=Х—Я означает, что центр координатной системы пере- носится в соответствующую точку оси У. Этот сдвиг координатной си- стемы не изменяет угла наклона прямой. Значения 2х2, Хху, 2 г/2 (эти вели- чины будут далее использоваться при вычислении syx) находятся нз следующих формул: 2лт/ = 2 АТ - Х2У; 2х4 = 2А'! - АТА’: 2//* = 2У* — У2У. Для нашего примера Zxy = 40562 - 64,9 (584) = 2660,4,. 2х* = 44 093 - 64,9 (649) = 1972,9, 2«/‘ = 38 008 - 58,4 (584) = 3902,4. Подставляя эти значения в (13.9) и: (13.10). получаем 6= 2660,4/1972,9 = 1,348, а = 58.4 - 1.348 (64,9) = - 29,1. Уравнение прямой имеет следующий вид У = -29.l-x-l.348A'. Угол наклона можно интерпрети- ровать следующим образом в то^ время как оценка по тесту увеличи- вается на единицу, оценка произ- водственной деятельности увеличи- вается в 1,348 раза. Если тангенс 28Г
угла наклона отрицателен, то еди- нице увеличения оценки по тесту со- ответствует уменьшение в 1,348 ра- за оценки производственной дея- тельности. Подставляя последовательные значения X в уравнение, получаем значения РА, приведенные в табл. 13.5 и 13.6. Например, Ух=—29,1-f- +1.348 (68) =62,6 при Х=68. Значе- ния разностей У—Ух также приве- дены в табл. 13.5. Сумма этих раз- ностей, если их не округлять, ближе к нулю, чем к приведенному в таб- лице значению 0,2. Таблица 13.6. Процентное содержание серы и показатель потерь энергии (вычисления, необходимые для линейного регрессионного анализа) Аг Y У* XY X 0,006 0,007 о.оо7 2,4-5 2.28 2,31 0,000036 0,000049 0,000049 6,0516 5Л984 5,3361 0,01476 0.01596 0.01617 0,006 0.007 0,007 2,396 2.41 2,41 0,015 2.51 0,000225 6,3001 0.03765 0,015 2,524 0.03 1.346 2,76 197,08 0,0019 0.026826 7.6176 505,5090 О.О82Ч 3.49202 0,03 2,738 Примечания: L Данные из табл. F3.4. 2- X—процентное содержание серы; У—показатель лютеръ энергии. Линия регрессии изображена на рис 13.2. Так как в нашем случае регрессия имеет смысл лишь для X из интервала 40<Х<100, то пря- мая не выходит за соответствующие этому интервалу границы. Это озна- чает, что регрессионная зависимость имеет место лишь для 40<Х<100. Чтобы найти параметры прямой регрессии по методу наименьших квадратов для данных из табл. 13.4, вычисляют значения XX2, ХХУ, ХУ2. Эти величины приведены в табл. 13.6. На следующем шагу находят 2лу = ХЛУ - ХХУ = 3x49202 - -(1,346/77) -197,08= 0,04706, = 0,026826 - (1,346'77) • 1.346 = = 0,003298. Хлу’=505,509 - (197.08/77) 197.08= = 1.083. 288 Подставляя эти суммы в соотно- шения (13.10) и (13.9), получаем 6=0,04706/0,003298 = 14,269, а = 2,5595 - 14,269 (0,01748) = = 2,3101. Уравнение прямой имеет вид: Y~x = 2,3101 -|-14,269 X, и, следовательно, можно сказать, что увеличению содержания серы в .металле на 1 % соответствует уве- личение показателя потерь энергии в 14,269 раза. Теперь можно найти все значения УЛ. Например, чтобы найти точку (0,006, рЛ), вычисляем У*мо,ооб==2,3101-|- + 14,269 -0,006 =2,396. Таким образом, получаем точку (X, Ух) = (0,006, 2,396) Эта точка соответствует наблюдаемой точке (X, У) = (0,006, 2,46). Все вычис- ляемые значения приведены в табл. 13.6. Две экстремальные точки (X, Ух) соответственно (0,006, 2,396) и (0,03, 2,738) отмечены на рис. 13.4, и через них проведена прямая. Конечно, прямую можно было бы провести через две любые другие расчетные точки. 13,2.2. Пределы доверительного интервала для р и а Если целью регрессионного ана- лиза является оценка угла наклона прямой линии (например, измерение эластичности спроса), то необходи- мо принять во внимание выбороч- ные ошибки оценок а и Ь. Парамет- ры а и b являются выборочными оценками а и 0. Следовательно, бы- ло бы хорошо вычислить довери- тельные границы 0 (и а) либо про- верить (используя выборочную оцен- ку коэффициента регрессии 6), зна- чимо ли 0 отличается от 0о. Вероятностное утверждение, ле- жащее в основе определения дове- рительного интервала C.L., для 0 имеет вид P(fr-(sb<0<6 + ^)^e. (13.11)
Стандартная ошибка коэффициента регрессии b вычисляется по формуле a,=3,x//Z(X-X)', (13-12) где Пух, произносимая как «сигма У на X», является стандартной ошиб- кой регрессии. Формула для вычисления стан- дартной ошибки для генеральной совокупности имеет вид (13.13) а для выборочных данных s^=/s(K-FJ7(»-2). (13.14) Таким образом, соотношение (13.12) можно переписать так: s<.=WK2(A'-XC = =s„//SP. (13.15) Поскольку Оь в (13.12) обычно не- известно, то доверительные границы b^ztSb вычисляются с помощью оценки Sb из соотношения (13.15). Для вычисления стандартной ошибки оценки ovx и svx находят значение рЛ или ?х> вычитают его из наблюдаемых значений У и раз- ности возводят в квадрат. Значения разностей приведены в табл. 13.5. Именно потому, что в стандартную ошибку входят разности, мы гово- рим, что стандартная ошибка явля- ется мерой рассеяния наблюдаемых точек (X, У) вокруг вычисляемых точек (X, у*) или (X, рА). Знамена- тель в (13.14) равен п—2. Это озна- чает, что при использовании «ух в качестве оценки ОуЖ мы теряем две степени свободы. Потеря степеней свободы вызвана тем, что входящая в формулу (13.14) переменная Рх зависит от двух неизвестных пара- метров (а, Ь). На практике вместо вычисления по (13.14) применяют следую- щую формулу: svx = V (2^-&ад/(/г-2). (13.16) С помощью вычислений, приведен- ных в табл. 13.5, можно найти урав- нение прямой Ух=—29,1 + 1,348Х. 19—232 Вычислим также величины Ъху= =2660,4; Sx2= 1972,9, 2^=3902,4. Подставляя соответствующие зна- чения в формулу (13.16), получаем =/[3902,4-1,343"(2660,4)]/( 10-2)= = 6,285 И У 2(Х - Х)г = /£? = = /1972,9 = 44,42. Подстановка этих значений в (13.15) дает «*=6,285/44,42=0,1415. При а=0,05 и v=8 имеем /=2,306 и C.L. для Р имеет вид C.L.= = (&—/«*; &+/«*) = ( 1,348—2,306Х X 0,1415; 1,348 + 2,306-0,1415) = = (1,022; 1,674). Пределы довери- тельного интервала для коэффици- ента регрессии а получим из C.L. = (a-/so; a + tsa). (13.17) где sa=(sgxlVn) (X - Ху. (13.18) В рассматриваемой задаче so = (6,285/lT0) X X У44 093/1972,9 = 9,4 и, следовательно, C.L.= (—29,1 — —2,306-9,4; —29,1+2,306-9,4) = = (-50,8; -7,4). 13.2.3. Проверка различия между Р и Ро Тест на различие между р и Ро состоит в нахождении значения t* и сравнении его с теоретическим. Вычисляемое значение /* найдем из соотношения Г = |0-1Ш (13.19) где Sb задается формулой (13.15). Коэффициент регрессии р можно, разумеется, сравнивать с любым Ро- Но особенно полезно это делать тог- да, когда выборка мала, а & не 289
слишком отличается от нуля. В по- следнем случае речь идет о провер- ке того, значимо ли р отличается от Ро=О. Если это отличие несущест- венно, то исследователь может за- ключить, что между Хи У нет кор- реляции. Данные табл. 13.3 иллюстрируют эту задачу. Значения У выбираются случайным образом в интервале 20<У<120; следовательно, мы ожидаем, что тангенс угла наклона линии регрессии равен нулю. Одна- ко расчетный коэффициент b не ра- вен нулю (6=0,274). Поэтому надо проверить, существенно ли 0 отли- чается от нуля. Вычислим /*=] (6—0)/$*|. Поскольку $1/х=30,8, то из фор- мулы (13 15) найдем sb = 30,8/^1972^9 = 0,964, и /*=0,274/0,694=0,39. Это значение t* меньше теоретиче- ского /=2,306. Следовательно, мы приходим к выводу, что р несущест- венно отличается от нуля, и между X и У нет связи. Вспомнив, как бы- ли получены значения У, мы не уди- вимся результату. 13.2.4. Пределы доверительного интервала прогноза для У и Одно из важнейших применений регрессионного анализа — это ис- пользование его для прогноза. Как уже говорилось, предсказания по линии регрессии должны сопостав- ляться с результатами какого-либо другого метода прогноза. Оконча- тельно используется тот метол, ко- торый окажется лучше. Точность прогноза определяется оценкой суммарного рассеяния эм- пирических X, У вокруг расчетных (X, gjc). Эта сумма обозначается aVx. Для данных табл. 13.1 возмо- жен абсолютно точный (совершен- ный) прогноз, поскольку аУх=0. Данные, приведенные в табл. 13.2, более реалистичны. Стандартная ошибка уравнения здесь равна svx= =6,285. Это значение представляет- ся не слишком большим. В то же время мы уже знаем, что данные табл. 13.3 прогнозировать с по- мощью регрессии бессмысленно. Итак, значение иух определяет пригодность данных с точки зрения прогноза. За исключением экстре- мальных случаев (полная корреля- ция или отсутствие ее). Значение Сух задает не статистик, а сам ис- следователь. Именно он решает, го- дятся ли его данные для целей прогноза. Пусть иух составляет 10% от V в двух разных задачах. Вполне возможно, что при этом в одном случае данные пригодны для про- гноза, а в другом —нет. Если дан- ные исследователя охватывают всю генеральную совокупность, из- вестно и доверительного интервала для него вычислять не надо Дове- рительный интервал вычисляют только для У Определение его пре- делов основано на вероятностном утверждении вида Р (У | X) = Р К - < У < + (13.20) Это утверждение задает условную вероятность У по X в предположе- нии нормального распределения то- чек (X, У) вокруг точек линии ре- грессии (X, Ух) для каждого X. Однако в случае выборочных дан- ных доверительный интервал про- гноза надо определять не только для У, но и для и*, поскольку на Ух влияют ошибки выборки. Довери- тельный интервал прогноза для не- которого значения У имеет вид: 1Л=(У1.-^Ж; VHM (13-21) где $еух — = syxV l+l/n+(X-X)s/2(X-Xf; (13.22) syx = / l-f-l/n-HX-xr/Sx8. Для Цх имеет вид: CIP =(Ух-/5_ ; Ух4 is. ).’ В V * еух' * 1 еух' (13.23)
где 5 - — гух = Syx /1/« + (А'-ад2(Х-ад (13.24) С1РИ- syx l/l/« 4-“(X-A)=/Sx\ В обоих случаях при заданном уровне значимости а значение t на- ходится для п—2 степеней свободы. Значение sevx из формулы (13.22) определяется аук и ошибкой выбор- ки. Выражение под знаком корня здесь не может быть меньше едини- цы. Поэтому с ростом объема вы- борки подкоренное выражение стре- мится к единице, и практически для больших выборок подкоренное вы- ражение в формуле (13.22) можно не учитывать, так как оно будет мало влиять на seyx. Однако в вы- ражении (13.24) подкоренное выра- жение стремится с ростом выборки не к единице, а к нулю. В резуль- тате доверительный интервал про- гноза для уменьшаясь, сходится в точку, т. е. С1Р^ = (ря—0; Р*+0). Таким образом, в этом случае ис- следователь говорит, что Ух = Мх- В выражения под корнем [(13.22) и (13.24)] входит член (X—X)2. Следовательно, значения setfX и $_ будут велики, если в выборку по- падают большие выбросы значений X, и малы, если в выборку по- падают значения ХягХ. Для боль- ших п влияние этого члена умень- шается и, как уже отмечалось, seyxxt ^syx, каковы бы ни были значе- ния X. Вычисление пределов довери- тельного интервала для У. Вычис- лим теперь пределы доверительного интервала прогноза для некоторого значения Y, используя сначала дан- ные табл. 13.2, а затем табл. 13.6. После того, как администрация предприятия получит данные из табл. 13.2 и проведет расчеты, ана- логичные приведенным в табл. 13.5, она получит стандартную ошибку уравнения 5^=6,285 (получение этой оценки подробно обсуждалось выше). Если это значение было не 19* слишком велико, то администрация приходит к выводу, что оценки теста являются достаточно хороши- ми предикторами оценок трудовой деятельности. Следовательно, при- нимается решение использовать ре- зультаты теста при приеме на рабо- ту очередных претендентов. Предположим, что тестируемый претендент получил оценку, равную 58 баллам. Каковы пределы довери- тельного интервала прогноза пэ этой оценке. Другими словами, чему равны пределы доверительного ин- тервала прогноза для У. Определе- ние их по выражению (13.21) тре- бует значения Тх=58, /, seyx. Про- гнозное значение равно: ух=6я=—29,1 +1,348 - 58 - 49,1 Из формулы (13.22) найдем = 6,285 X ХУ1 4-1/10 +(58-64,9)71972,9 = =6,285)/ 1,1+0,024 = =6,285-1.06 = 6,66. Таким образом, множитель со зна- ком радикала увеличил стандарт- ную ошибку на 6%. Приняв а=0,05, найдем /-значение для v=8 степе- ней свободы: /=2,306. Подставляя эти значения в формулу (13.21), по- лучим доверительный интервал про- гноза С1Р=[ (49,1-2,306-6,66); (49,1 +2,306 6,66) ] = (33,7; 64,5). Теперь администрация может при- нять решение, брать ли претендента на работу. Предположим, что администрация устанавливает правило: претенден- та следует взять на работу, если Р(У>40/Х) >0,8. Будет ли взят на работу рассматриваемый претен- дент? Так как п мало, то следует использовать площадь под / кривой At00. В приложении нет таблицы /-распределений, поэтому проиллю- стрируем метод с помощью нор- мального распределения. Нам нуж- но найти Ах°°, соответствующее +> При данных Fx=49,l и $vx=6,285 (40—49,1)/6,285=— 1,45 и Л“135= =0,926. Если нет претендента луч- ше, то данное лицо следует принять на работу. 291
Для вычисления границ прогноза У для данных табл. 13 4 и 13.6 сна- чала надо получить стандартную •ошибку уравнения. С помощью вы- ражения (1316) найдем sax = V (1.083- 14,269 • 0,04706)/75 = = 0,0741. Предположим, что имеется ме- таллическая болванка с 0,012%-ным содержанием серы. Каков при этом будет показатель потерь энергии У? Подставим в формулу (13.21) необходимые значения. Поскольку v=75>30, Лстатистику можно ап- проксимировать z-значением. При а=0,05 имеем /~1,96. Таким обра- зом получаем, что при Х=0,012 ?л=о,С12=2,3 1014-14,269 (0,012) = =2,481. Из выражения (13.22) можно найти =0,0741 X Х/1 +1/77+ (0,012- ** * -0,0175)70,003298= = 0,0741 У 1,013+0,00003025. Заметим, что для выборок боль- шого объема подкоренное выраже- ние слабо влияет на значение Следовательно, мы можем просто принять 5^=5^=0,0741. Для за- данного X—0,012 доверительный интервал прогноза составляет С1Р*=1(2,481- 1,96.0.0741); 2,481+ + 1,96(0,0741)] = (2,336^2,523,. Эти границы показаны на рис. 13.4. При проверке данной металличе- ской болванки на энергетические потери было установлено, что с ве- роятностью 0,95 значение показате- ля энергетических потерь попадет в указанный выше интервал. Вычисление пределов довери- тельного интервала прогноза для р*. Пределы доверительного интер- вала прогноза для ц* находят из уравнения (13.23). В примере с оценками мы нашли, что для X— =58 имеет место Р*=58=49,1. Ис- пользуя (13.24), получаем =6,285 X X /1 / Ю + (58 - 64,9)71972/= = 6,285 /ЦД24 = 2,123. При ст =0,05 и .у = 8 доверительный интервал прогноза для ju имеет вид: CIPp- [(49,1—2,306-2,213); (49,14-2,306-2,213)] = (44,0; 54,2).. Итак, мы можем сказать, что с ве- роятностью 0,95 средняя оценка тру- довой деятельности всех претенден- тов, получивших по тесту 58 баллов, попадет в этот интервал. Пределы доверительного интер- вала прогноза для показателя энер- гетических потерь при Х=0,012 вы- числяют аналогичным образом: $_ =0,0741 X XV1/77 +(0,012 *-0,0175)70,003298= = 0,0741 /0,013 = 0,00845, что дает следующий интервал: С1Ри = [(2,481 - 1,96-0,00845); (2,481 + 1.96-0,00845)] = = (2,464; 2,498). Длина интервала прогноза, равная 2,498—23464=0,03, очень мала. Сле- довательно, в этой задаче Р* явля- ется точечной оценкой Это озна- чает, что не для всех оценок есть необходимость в вычислении преде- лов доверительного интервала про- гноза. 13.3. ДВУМЕРНЫЙ (ПАРНЫЙ) КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Иногда имеет смысл изучать связь между двумя переменными,, не ставя перед собой задачу прогно- за или построения линии регрессии. Исследования такого рода называ- ются корреляционным анализом. Наличие связи (или отсутствие ее) определяется некоторыми абстракт- 292
ными числами, называемыми коэф- фициентами или индексами. В слу- чае прямолинейной связи широко используются два коэффициента (часто их путают). Это коэффи- циент корреляции и коэффициент детерминации. Коэффициент корреляции вычис- ляется по формуле r = S(X-X) (У-7) _ "Kzjx — Х)« £ (У— У)2 Яху КЕх2^2 (13.25) Если линией регрессии является прямая, то может быть использова- на другая формула для вычисле- ния г: г=-^~ = /1 - (=>*,ХЛ (13.26) где о_ = У1 (Ух - У)»/ЛГ (13.27) И 2(У-У)’/М (13.28) в из выражения (13.26) задается соотношением (13.13)* Коэффициент детерминации опре- деляется из выражения d=G,_ /а» (13.29) у? v В случае прямолинейной связи d= —г2. Для нелинейных связей J=/=r2, если г2 вычисляют из формулы (13.25), и если г2 определяют из (13.26). Соотношение (13.25) самое про- стое для вычисления. В задаче с оценками из табл. 13.5 коэффи- циент корреляции составляет г = 2660,4//1972,9-3902,4 = = 2660,4/2774,7 = 0,96. Коэффициент детерминации J=0,92. В задаче с показателем энергетиче- ских потерь г = 0,04706/ /0,003298(1,083) = = 0,04706/0,05976 = 0,79 и коэффициент детерминации ра- вен: d=0,62. Соотношение (13.25) не зависит от формы линии регрессии. Это вид- но из самой формулы. В соотноше- нии (13.26) г является функцией следовательно, оба значения г равны только тогда, когда кривая регрессионной зависимости имеет вид прямой. Другими словами, если X и У связаны нелинейной зависи- мостью, но данные аппроксимиру- ются прямой, то значение г из фор- мулы (13.25) равно значению, полу- ченному из выражения (13.26). Од- нако, если аппроксимировать дан- ные не прямой, а некоторой кривой, г из формулы (13.25) может быть равно и больше значения, получен- ного из формулы (13.26). Чтобы сделать эти различия яснее, коэф- фициент г, полученный из выраже- ния (13.26) для нелинейной зависи- мости, называется коэффициентом ассоциации или корреляционным индексом в отличие от коэффициен- та корреляции для линейной связи. Эта терминологическая разница не- обходима и будет использоваться в дальнейшем. В любом случае связи, линейной или нелинейной, простой или мно- жественной, коэффициент корреля- ции или ассоциации принимает зна- чения в диапазоне от 0 до 1. Для линейной связи знак связан с углом наклона прямой. Для нелинейных регрессий и множественной корре- ляции знак не интерпретируется. Почему г принимает значения от 0 до 1, станет ясно, если вспомнить следующее фундаментальное соот- ношение: о*,=о*-+<)’м. (13.30) Поскольку г = а_/з и 0<зг- = а2 ух е «х v для г выполняется 0 < г < 1. В слу- чае полной корреляции o*w=0 и ; следовательно, г = 1. Когда Ух корреляция отсутствует, тангенс угла наклона прямой b равен 0. а потому <з_ =0 и г = 0. Итак, Ух 293
отражает разницу между У и У; о2ух характеризует разницу между эмпи- рическими значениями У и расчет- ными значениями Yx (которая имеет решающее значение при прогнози- ровании); в- измеряет разницу между расчетными значениями и средним F [в случае, когда к эмпи- рическим точкам (X, У) подгоняет- ся методом наименьших квадратов прямая, Y=yx, т. е. средняя эмпи- рических значений совпадает со средней вычисляемых из регрессии значений]. Дисперсию а1— называют „объяс- ух ненной, частью дисперсии", a в* У* по обратной аналогии — «необъяс- ненной частью дисперсии». Сходную терминологию применяют при ин- терпретации d. В примере с оцен- ками профессиональной подготовки d=0,92. Переходя к процентам, можно сказать, что 92% дисперсии в У объясняется уравнением регрес- сии. Многие люди идут на один шаг дальше и говорят, что оценка про- изводственной деятельности почти полностью объясняется оценками ио тесту. Только 1—d=l—0,92=0,08 или 8% дисперсии объясняется дру- гими факторами. Простота такого объяснения очень заманчива, и именно поэтому так часто интерпре- тация корреляционной проблемы с помощью d приводит к большим заблуждениям. Приведенная выше интерпретация справедлива лишь для крайних слу- чаев d=l и d=G. Если d отлично от 0 и 1, то интерпретация не так проста. Коэффициент корреляции исполь- зуется также в теории вероятностей и ее приложениях. В теории вероятностей речь идет о совместном распределении слу- чайных переменных X и У. Для г#=0 случайные переменные зависи- мы. Для г=0 случайные перемен- ные некоррелмрованы, но не обяза- тельно независимы, исключая случай двумерного нормального распреде- ления. Этот момент обсуждается в книге Гольдберга по дискретной вероятности В прикладных задачах г характе- ризует тесноту связи, значение кор- реляции, степень ассоциации и т. д. Часто г используется как абсо- лютная мера корреляции. В этом случае значение г=0,95 должно ин- терпретироваться как высокая кор- реляция во всех условиях и для всех задач. Но, к сожалению, дело об- стоит не так просто. Рис. 13.5. Зависимость между дисперсиями и стандартными отклонениями: а — общие зависимости: б — оуЛ-комстакта; в — V,-ксистанта; г — о— -комет->н та Чтобы лучше понять, что же представляют собой оба коэффици- ента, на рис 13.5 даны графические изображения соотношения (13.30) и связи между uv, avx из_ . На гра- фике рис. 13.5,а показано общее со- отношение между дисперсиями и стандартными отклонениями. Дру- гие графики следует изучать с точ- ки зрения связи между г и aVx, по- скольку г используется как мера 1 Goldberg S. Probability. Prentice — Hall, I960. См. также Вентцель Е. С. Тео- рии вероятностей. — М.: Физматгнз, 1962.— При#, ред. 294
корреляции, а характеризует точность прогноза по регрессии L Из рис. 13.5,6 видно, что г = — а_ возрастает, в то время как иух постоянно. Это положение ил- люстрируется экспериментальными данными табл. 13.7 и рис. 13.6. г в 7 8 !Z3<t567BX Рис. 13.6. Пример постоянной ovx и увели- чивающейся с— * Данные взяты из табл. Ух 13.7 Рис. 13.7. Пример двух задач с различны- ми atfX, но одинаковыми г В трех примерах сух равны, что означает одинаковую точность про- гноза. Однако если Ь увеличивается, г возрастает от 0 до 0,932, и, следо- вательно, а_ (см. рис. 13.5) также возрастает. Итак, могут быть боль- 1 Способ интерпретации г, иллюстри- руемый графиками, аналогичными пока- занным на рис. 13.5—13.7, был предложен автором этой книги в работе: Л Suggested Approach to Teaching of Simple Correla- tion Analysis and the Coefficient of Corre- lation, представленной в 1963 г. на еже- годном собрании американского статисти- ческого сообщества. Таблица 13.7. Экспериментальные данные с постоянной оух (числовая иллюстрация рис. 13.5) а 6 в X У X У X У 1 7,8 1 7,73 1 7.1 2 8,2 2 8,15 2 7,7 3 7,8 3 7,77 3 7,5 4 8,2 4 8,19 4 8.1 5 7,8 5 7.81 5 7.9 6 8.2 6 8,23 6 8,5 7 7,8 7 7.85 7 7,83 8 8,82 8 8,27 8 8,9 шие сух при малых г — основание треугольника на рис. 13.5,6 растет— и малые о^х при больших г. Но важный вывод заключается в том, что большие значения г не гаранти- руют высокую точность прогноза. Действительно, часто прогнозы по кривей регрессии бессмысленны, не- смотря на большое значение г, вви- ду того, что их доверительные ин- тервалы слишком широки. На рис. 13.5,в значение су остает- ся постоянным В этом случае су- ществует прямая связь между суХ и г. Другими словами, г возрастает при уменьшении сух и, следователь- но, большое значение г является индикатором высокой точности про- гноза. На рис. 13.5,г показаны ана- логичные результаты для постоян- ных , т е. г растет с уменьше- нием Сух. Теперь посмотрим, можно ли ис- пользовать г как абсолютную меру корреляции. Коэффициент корреля- ции г — з- /зу равен синусу угла а между Зу и зух, т. е. г — з. !зу = = sina. Следовательно, г, —г3 тогда и только тогда, когда а1 = а2. На рис. 13.7 показаны две задачи с оди- наковыми г. Для этих задач и а_ V Ух различны, а коэффициенты коэреля- ции одинаковы, так как об г тре- угольника имеют общий угол а. Да- лее, меньший треугольник представ- ляет задачу с маленькими значе- ниями (маленький угол наклона Ух 295
прямой) и ^ух. В горой треугольник иллюстрирует задачу с большими значениями (большой угол на- &Х клона прямой) и Итак, задачи совершенно различны, хотя коэффи- циенты корреляции у них одинако- вы. Но если в двух совершенно различных задачах могуг быть оди- наковые г, то трудно, разумеется, интерпретировать, например, г= =0,95 одинаковым образом. Сделаем следующие заключения: 1. Коэффициент корреляции не является индикатором точности прогноза. 2. г бессмысленно использовать как абсолютный показатель корре- ляции. 3. Для сравнимых задач г просто показывает, что корреляция в одной задаче больше, чем в другой. Ис- пользование г для этой цели вполне оправдано. Естественно, что коэффициент де- терминации d обладает теми же не- достатками. Его использование как «процента объясненной дисперсии» нуждается в дополнительном пояс- нении Следует всегда помнить, что дисперсия не является точной мерой вариации. Только такие статистиче- ские величины, как вариационный размах, межквартильный размах и среднее отклонение, обсуждавшиеся в этой книге выше, являются точной мерой вариации (рассеяния). Сред- нее квадратическое отклонение яв- ляется хорошей аппроксимацией ва- риации, но и2 таковой не является. Хотя значения а2 и могут быть ис- пользованы для сопоставления, они не представляют собой точное зна- чение вариации. Эти моменты надо всегда иметь в виду, интерпретируя d-значения. Интересно заметить, что г, вычис- ленное по формуле (13 25) или из условия прямолинейной регрессии, будет одним и гем же, какую бы переменную мы ни обозначили X. Однако Сух в общем случае не рав- но Олу. Связь между двумя этими значениями имеет вид: сух=охуоу/ох. 296 Следовательно, вух=яху только тог- да, когда оч=Ох. Если делать различие между ге- неральной совокупностью и выбор- кой, то следует считать г выбороч- ным коэффициентом, а р коэффи- циентом генеральной совокупности. I Если выборка мала, а г не слишком отличается от нуля, то было бы по- лезно проверить, значимо ли р от- клоняется от р0. Такая проверка делается с помощью /-статистики для п—2 степеней свободы. Расчет- ное /* получаем но формуле < /*=г//(1-г‘)/(л-2). (13.31) Например, читатель помнит, веро- ятно, что значения У из табл. 13.3 функционально не связаны с X зна- чениями. Эти значения Y выбира- лись произвольно, и мы ожидаем, что г=0. Коэффициент корреляции вычисляется по формуле 25 и равен: г = 185,7/К1972.9(7596,1) = 0,048. ! Используя выражение (13.31), нахо- дим /*: /* = 0.048/)/ (1 —0,0023)/8 = 0,43. Л4ожно прийти к выводу, что р не- существенно отличается от ро=0. Результат будет тем же самым, если мы будем проверять гипотезу отно- сительно разницы между b и Ро=0. Вообще говоря, результаты должны быть одинаковыми, что бы мы ни проверяли на значимость: Ь или г. 13.4. НЕЛИНЕЙНАЯ РЕГРЕССИЯ Если функция, связывающая У и X, нелинейна, например является многочленом второго порядка (па- раболой) Yx == а + ЬХ -J- сХ\ (13.32) то она может быть подогнана к дан- ным с помощью метода наименьших квадратов [ Используются также функции са- мого разнообразного вида. Одна из них — экспоненциальная кривая Yx=abx. Аппроксимация данных с помощью этой функции рассмот-
рена в гл. Г5. Другие нелинейные функции подробно обсуждаются в книге Крокстона, Каудена и Клей- на *. Однако многочлен второго по- рядка, приведенный в выражении (13.32), наиболее универсален в применении. Нелинейные зависимости встреча- ются часто. Например, таковой яв- ляется зависимость между ценой и количеством товара. В сельском хо- зяйстве рост урожайности в зависи- мости от внесения дополнительных удобрений подчиняется скорее не- линейному закону. В промышленно- сти часто качество продукта явля- ется функцией пропорций входящих в него химикалиев, температуры плавки и формовочного процесса. В этих случаях маловероятно ожи- дать линейной зависимости. Какова бы ни была цель исследо- вания— анализ вида линий регрес- сии или прогноз, нет смысла всегда ограничиваться прямой линией. Если целью регрессионного ана- лиза является прогноз, то примене- ние нелинейных функций особенно полезно. Когда парабола аппрокси- мирует данные лучше, чем прямая, то это означает, что оух для пара- болы будет меньше, чем для прямой. Но меньшее значение стандартной ошибки эквивалентно уменьшению длины доверительного интервала прогноза. Следует добавить, что сравнивать прямую линию с пара- болой можно с помощью коэффици- ентов корреляции и ассоциации. Более высокий коэффициент ассо- циации для кривой второй степени говорит о том, что подгонка пара- болой имеет преимущества. Часто в формальном сравнении параболы и прямой нет необходи- мости, поскольку наличие нелиней- ной связи очевидно. В этом случае исследователь может не терять вре- мени, аппроксимируя данные пря- мой и сравнивая потом результаты с результатами подгонки параболой. Однако во многих задачах такое 1 Croxton F., Cowden D., Klein S. op. cit. сравнение необходимо. Проиллюст- рируем на примере вычислительный процесс сравнения. Чтобы аппроксимировать данные параболой (13.32) с помощью мето- да наименьших квадратов, надо ре- шить систему из трех линейных уравнений относительно параметров а, Ь, с. Эта система имеет вид: па + (EX) b + (ЕХ4) с = (ЕХ) а 4- (EX1 2) b -И Н- (ЕХ3) с = ЕХУ; (ЕХ4) «4- (EX3) b + к +(EX4)Cz=EXT. (13.33) Вычисления упрощаются, если принять х=(Х—X) и y=Y—Y и подставить их во второе и третье уравнения системы (13.33). Тогда получим систему Г (Ex4) b 4- (Ех3) с = Ех//; 13 зд I (Ex3)64"(E*’Jc==s-*V из которой найдем параметры b и с. Параметр а вычислим из выраже- ния а=Y-Xb— (XX2/п) с. (13 35) С помощью данных табл. 13.8 (ко- личество и стоимость вишни) произ- ведем следующие предварительные вычисления: Ex4 = ЕХ4 — ХЕХ 870 918 - - 228.375 • 3654 = 36 436; Е//4 = ЕУ2 — УЕУ = 918 446 - -232,625-3722 = 52616; Ex// = ЕХУ - XЕУ= - 32 316; Ex5// = ЕХ4У - УЕХ4 = = — 15 376 149; Ex3 = ЕХ* - ХЕХ4 = 17 614 104; Ex4 = ЕХ4 - (ЕХ4)4/« = =-. 8 657 456 930. Подставляя необходимые значения в выражения (13.34), получаем си- 29.7
Г аблица 13.8. Производство и цена (франко-ферма) вишни в США с 1954 по 1969 г. X У Л® У® ХУ № Х’У 204 '2§1 41 616 71 289 54 468 8 489 664 11 111 472 1 731 891 500 260 174 67 600 30 276 45 240 17 576 0С0 11 762 400 4 569760 000 168 228 28 224 51 984 38 304 4 741 632 6 435 072 796 594 180 239 208 57 121 43 264 49712 13 651 919 11 881 168 3 262 808 600 192 225 36 864 50625 43 200 7 077 888 8 294 400 1 358 954 500 218 243 47 524 59 049 52974 10 360232 11 548 332 2 258 530 6С0 185 227 34 225 51 529 41 995 6 331 625 7 769 075 2655 237 800 266 217 70 756 47 089 57722 18821096 15 354 052 5006411 500 276 163 76 176 26 569 44 988 21 024 576 12416688 5802 783СОО 150 345 22 500 119 025 51 750 3 375 000 7 762 500 506 250 000 344 154 118 336 23 716 52976 40 707584 18 223 744 14 003 409 000 248 165 61 504 27 225 40 920 15 252 992 10 148 160 3 782 742 300 200 299 40000 89 401 59800 8 000 000 11 950 000 1 600 000 ОСО 198 325 39 204 105 625 64 350 7 762 392 12 741 300 1 536 953600 228 294 51 984 86 436 67 032 11 852 352 15 283 296 2 702 336300 278 188 77 284 35 344 52 264 21 484 952 14 529 392 5972816700 3654 3722 870918 918 446 817695 216509 904 187221051 56 063592100 Примечания; J. Даяны* вяяты из Agricultural Statistics (Милетерегю срлы:есого хозяйства США). 2- X—в ЮХ)т; У—фермерская цена за 1 т (в ДолЯ.)< скорректированная на индекс потребительских цен. стему: 36 436 £>4-17614 104 с = =--32316; 17614 104^4-8 657 456 930с— ==- 15376 149. Разделив оба уравнения на коэффи- циент при Ь, умножим первое урав- нение на —1 и сложим со вторым. Имеем - b - 483.426 с = 0,886925 b -4- 491.507 с = - 0,872945 8,081 с = 0,01398, надо найти несколько последова- тельных точек. Например, для ряда Х=(140, 180, 220, 260, 300, 340) по- лучим точ!<и (140; 324,7), (180; 277,9), (220; 236,6), (260; 200,9), (300; 170,7), (340; 146,1). Первую точку найдем, подставив в уравне- ние параболы значение Х=140, г. е. Ух=532—1,72324-140+ 4-0,00173-19 600=324,8. Для оценки стандартной ошибки ис- пользуем формулу syx =- V 2 (У - Гх)7(« - 3). (13.36) откуда получаем с=0,00173. Под- ставляя это значение с в первое /равнение, найдем Ь=—] ,72324. Наконец, возвращаясь к (13.35), по- лучаем а = У - A'i- (2Х7л) с= 232.625 -] 228,375-1,72324 - - (870 918/16).0.00173 — 532,002. Таким образом, уравнение паработ лы примет вид: Ух =532- 1.72324Х + 0.00173Х*. Чтобы изобразить параболу на диа- грамме точек рассеяния (рис. 13.8), 298 цена вишни, долл./т Рис. 13-8- Производство и цена (франко- ферма) вишнй в США в 1954—1969 гг. (данные взяты из табл. 13.8)
Знаменатель п—3 показывает, что яри оценивании параметров ot b и с теряются три степени свободы. Са- мый простой способ вычислить svx — это воспользоваться тождеством — ^ух + □*_. .Если его обе части умножить на N, то получим тожде- ство для числителей дисперсий 2(У-У)‘ = 2(У -Ух)‘+ + 2 Эти числители часто называют ва- риациями. Теперь перепишем тож- дество в виде 2 (У -YJ = 2 (Г - У)’ - — 2 (Ух — У)\ так что = /12 (Г - П’ - 2 (Г, - П1/ЛГ (13.37) И *_у)*Р(/г_3). (13.38) Чтобы найти syx, вычислим сна- чала: 2 (У — У)*= 2У8 — У2У = = 918 446 - 232.625 (3722) = 52 616 я 2 (Л - П* = - 2УУ = = 2 (а 4- ЬХ -L сХу - 2УУ = = а2У 4- bZXY 4- с£№У - У2У = =532-3722 — 1,72324-817 695 4- 4-0,00173 -187 221 051 - -232,625-3722 = 29 082. Подставляя эти вариации в уравне- ния (13.37) и (13.38), получаем <зух = у (52 616 — 290^2)/16 = 38.34 и syx = v (52616 - 29 082)/13 = 42,5. Коэффициент ассоциации найдем из выражения (13.26) следующим об- разом: = /2 (Ух - У)£/2 (У - У)1 = = У29 082/52 616 — 0,744. Если все вычисления делать с вы- сокой точностью, то получим коэф- фициент ассоциации г=0,762. Стандартную ошибку иух и коэф- фициент ассоциации г нужно срав- нить со стандартной ошибкой для прямолинейной регрессии и коэффи- циентом корреляции, вычисляемыми из формулы (13.25). Применяя фор- мулы предыдущей главы, получим значения oVx=39,96, г= 0.738. За- метим, что в коэффициенте ассоциа- ции знака минус нет. Итак, мы при- ходим к заключению, что парабола лучше, чем прямая линия, описы- вает связь между количеством и це- ной вишен, поскольку рассеяние то- чек (X, У) вокруг параболы меньше, чем вокруг прямой линии. Сравните коэффициенты ассоциации и корре- ляции, подтверждающие этот ре- зультат. Однако различие между парабо- лой и прямой невелико, на это ука- зывает значение коэффициента г для уравнения параболы. Имеет ли смысл использовать для прогноза параболу, если разница между пря- мой и параболой так мала? Этот вопрос встает острее, если вместо значений ауХ сравнивать оценки svx. Действительно, для параболы s)JX= =42,5, а для прямой syx=42,7. Раз- ность между этими двумя стандарт- ными ошибками становится совсем незначительной, поскольку при вы числении syx для параболы мы те- ряем три степени свободы, а при вычислении для прямой — всего две степени свободы. Следует отметить еще один важ- ный предельный случай. Часто па- рабола хорошо аппроксимирует ис- ходные данные только потому, что их выборка очень мала, т. е. чисто случайно несколько точек отклоня- ются от прямолинейной связи. Эта гипотеза может быть проверена 299
с помощью дисперсионного анализа. Однако еще раз подчеркнем, что во многих задачах нелинейная связь очевидна. В этих случаях целесооб- разнее сравнивать различные кри- вые, чем сравнивать их с прямой. Доверительный интервал прогно- за для параболической регрессии есть С1Р, = [(У Л - tsexy, (Yx + tsy j]. Выборки не должны быть слиш- ком малы, a t можно найти из /-распределения с п—3 степенями свободы. Например, в задаче с виш- нями для Х=220 получим Yx^i0 = 532 - 1.72324 - 220 + + 0,00173-48400 = 236,6. Приняв а=0,05, определим CIP^ [(236,6 - 2.16-42,5); (236,6+ + 2,16 - 42,5)1 = (145 / V 328). Разумеется, ни один человек не будет прогнозировать цены на виш- ню в зависимости от ее урожая по регрессии, поскольку любой фермер это сделает лучше без всякой ре- грессии. Однако, кроме прогноза, вид кривой регрессии и значения представляют для экономиста самостоятельный интерес. 13.5. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ Если Y есть функция только од- ного X, независимо от того, линейна или нелинейна зависимость между Y и X, мы имеем дело с двумерным анализом. Если же У будет функ- цией более чем одного X (скажем, Xi, Х2, ..., Хь), то говорят, что связь множественная, и для ее ана- лиза применяют методы множест- венной регрессии и корреляции. Лучше всего проиллюстрировать эти методы на примере трех пере- менных. Одна из них будет зависи- мой, а две—независимыми. Однако метод легко распространить на лю- бое число переменных Прочность углеродистой стали прямо пропор- ционально зависит от содержания углерода и обратно пропорциональ- но от температуры. Данные, описы- вающие эту зависимость, приведены в табл. 13.9. Характер связи очеви- ден при первом рассмотрении таб- лицы. Значения У увеличиваются с ростом и снижением Х2. Если бы, например, Х2 не был связан Таблица 13.9. Твердость углеродистой стали в зависимости от процентного содержания углерода и температуры отпуска Г х. X» УХ, гха Х,Х. У* XS 555 6 133 3330 73 815 798 308 025 36 17 689 499 10 122 4990 60878 1220 24-9 СО! 100 17 689 588 23 112 13 524 65 856 2576 345 744 529 12544 559 24 103 13416 57 577 2472 312481 576 10 609 608 15 116 9120 70528 1740 369 664 225 13 456 507 24 99 12 163 50 193 2376 257 049 576 9801 603 57 83 34 371 50 049 4731 363 609 3249 6889 653 54 69 35 262 45 057 3726 426 409 2916 4761 661 65 76 42 965 50 236 4940 436 921 4225 5776 678 66 74 44 748 50 172 ‘ 4884 459 684 4356 5476 661 68 61 44 948 40 321 4148 436 921 4624 3721 708 62 38 43 896 26 904 2356 501 261 3884 1444 724 83 40 60 092 28 960 3-320 524 1 76 6889 1600 703 100 47 70 300 33 041 4700 494 209 10 000 2209 749 116 31 86 881 23 219 3596 561 001 13 456 961 9456 773 1204 520 014 726 806 47 583 6 046 158 55 601 111 820 Примечания: I. У—значения показателя прочности; -процентное содержание углерода в стали, 10'*; тем- пература отпуска стали в течение часа (в умноженная ня 10. 2. Эти данные быт получены в качкретлэм эксперименте, и вместе с тем они отражают общую связь между твердостью стали» содержанием углерода и темперзтурой отпуска.
с У, то можно было бы считать, что значения Х2 случайно располагают- ся в интервале 30<Х2<140 (см, табл. 13.3). Предположим, что исследователю неизвестно, имеется ли какая-либо связь между У и Х2. Не применяя множественную регрессию, он мог бы ограничиться анализом связи У и Ль Однако отказываясь от одного или более факторов, влияющих на зависимую переменную, он может прийти к неверным выводам или по- лучить слишком широкие границы прогноза. Если У является функцией более чем одной переменной, но рассматриваются не все из них, то рассеяние эмпирических точек (X, У) вокруг расчетных (X, Ух) будет очень большим. В результате иссле- дователь может решить, что не имеет смысла объяснять с помощью полученной зависимости поведение У. При прогнозе значение syX также будет настолько большим, что он будет вынужден отказаться от при- менения регрессии. Множественная регрессия исполь- зуется по крайней мере по трем соображениям Во-первых, прогноз. Чтобы прогнозировать У с помощью независимых переменных (Л'ь Х2,... Xfe), исследователь должен вы- яснить, имеет ли отношение к зада- че (релевантен ли) тот или иной фактор. Если фактор релевантен, то он включает его в регрессию, и стан- дартная ошибка оценки и довери- тельный интервал прогноза стано- вятся меньше. Другая цель анализа с помощью множественной регрессии — устано- вить, каков вклад каждой независи- мой переменной в поведение У. До- полнительно может интересовать вид связи (аналогично различию линейного и нелинейного случая в двумерной регрессии). Наконец, исследователя может интересовать сопоставление множе- ственных регрессий в разных зада- чах. В этом случае он может огра- ничиться сравнением только коэф- фициентов корреляции Если неизвестно, релевантна ли некоторая переменная, то можно применить ступенчатую процедуру регрессионного анализа. Простей- ший способ — начать с двумерной (парной) регрессии и добавлять на каждом шагу новую переменную. Если переменная релевантна, то при ее введении стандартная ошибка уравнения уменьшается, а коэффи- циент корреляции увеличивается. В противоположном случае происхо- дит обратное. iiiiiiiiiiil О 20 40 60 80 100 120 800 700 ООО 500 400 СоОсрмпиав у г пероОа Хью'°А Рис. 13.9. Зависимость твердости углероди- стой стали от процентного содержания углерода (данные взяты из табл. 13.9) Итак, мы можем начать анализ связи, приведенный в табл. 13.9, с рассмотрения парной зависимости. Диаграмма рассеяния (Хь У) по- казана на рис. 13.9. Уравнение пря- мой имеет вид; УЛ1 = 523,5-г2,075Хь причем <тУ1=36,38; rvi = 0,893. Отметим различия в использова- нии здесь индексов. Такие обозна- чения необходимы, чтобы выделить различные переменные, применяе- мые в множественном регрессионном анализе. Три символа, приведенные только что, соответствуют величи- нам Рх, ОуХ и г из предыдущего па- раграфа. Диаграмма рассеяния (Х2, У) по- казана на рис. 13.10. Соответствую- Рис. 13.10. Зависимость твердости углеро- дистой стали от температуры отпуска (дан- ные взяты из табл. 13.9) 301
щими ей статистиками являются: Гх2==800,65—2,121 Л'2; оу2=35,96; ги2=—0,896. Прежде чем начать обсуждение математических свойств и вычисле- ний для регрессионного анализа с тремя переменными, приведем ре- зультаты такого анализа и сделаем некоторые сравнения Наиболее часто уравнение множественной ре- грессии записывается в такой об- щей форме: ^х. и. Ч" F*- • Л». (13.39) где k — число независимых перемен- ных. Для случая трех переменных имеем (13-40) и в нашей задаче Ух 13 = 669,23 + 1 ,02664л-! - - 1,14292Л,. Стандартная ошибка и коэффи- циент множественной корреляции будут: аУ12=31,317; /?1/|2=0,909. Сравним теперь эти результаты со стандартной ошибкой и коэффици- ентами регрессии в парных регрес- сиях. ПОСКОЛЬКУ Oyijj-COtrt или Ку\2>Гу2, мы заключаем, что пере- менная Х2 релевантна. Доверитель- ный интервал прогноза для множе- ственной регрессии будет меньше, чем соответствующие интервалы для парных регрессий. Уравнение вида (13.40), связыва- ющее три переменные, представляют собой уравнение плоскости в трех- мерном пространстве. Точки трех- мерного пространства записываются так: (Х(, Х2, У), а точки, лежащие на плоскости, можно записать (Х|, Х2, Ух 12). Уравнение имеет три па- раметра, которые называются коэф- фициентами регрессии avl2, 6wi.2, Если их найти и подставить в зависимость (13.40), то можно по- лучить значения (Хь Х2, Рх,12). Все таким образом вычисленные точки размещаются на плоскости, соответ- ствующей данному уравнению. Рассмотрим теперь первую точку из табл. 13.9 (Хь Х2, У) = (6, 133,. 555). Требуется найти расчетную точку (6, 133, Рх.12), соответствую- щую этой эмпирической точке. Под- ставив Х]=6 и Х2=133 в уравнение, получим: Ух. lt = 669.23 + 1,02664 6 - - 1,14292-133 = 523,4. так что вычисляемая из регрессии точка имеет вид (6, 133, 523,4). Обозначим вертикальную ось трех- мерного пространства через У, а две другие оси — через Xi и Х2, тогда обе точки — эмпирическая и расчет- ная — будут находиться на одной вертикальной линии, параллельной оси У. Так как У=555 больше, чем Ух.12=523.4, то мы заключаем, что эмпирическая точка (555, 6, 133). располагается выше плоскости. Вторая эмпирическая точка—(10, 122, 499). Соответствующей расчет- ной точкой является точка (10, 122, 540, 1). Обе эти точки будут лежать на линии, параллельной оси У, но> эмпирическая точка теперь будет ниже плоскости, поскольку У<РХ.12. Этот анализ приводит к следую- щей очевидной интерпретации: в то время как в двумерном анализе с помощью owx измеряют рассеяние эмпирических точек (X, У) вокруг Прямой ИЛИ кривой, с ПОМОЩЬЮ Ор|2 измеряют рассеяние эмпирических значений (Хь Х2, У) вокруг пло- скости. Для нахождения параметров уравнения решают систему трех ли- нейных уравнений. Эта система имеет вид: + (ЕЛ4)^.1 = 1У; + (ЕХЛ,)6„. = £Л-,Г; (ld'41> I +(SX J1 Система решается с большей точ- ностью и с меньшей затратой вре- мени, если сделать замену у= = (У-У), ^(Х.-Х,) и л2=
= (Л2—А'г) во втором й третьем уравнении системы. Тогда мы полу- чим: (Ех,)2 . 8 4- (Ех,хг) Ьу2, = = (Ех,лг) byi , + (Ех%)Ьу2_,= =- Ъ*гУ • После того, как подсистема будет решена, значения b подставить в уравнение (13 42) (13.42) можно = (13.43) которое получают из первого урав- нения системы (13.41). Используя результаты из табл. 13.9, сделаем предварительные вычисле- ния: Е/ = ЕУ* - УЕУ = 6 046 158 - - 630,4 • 94-56 =-- 85095,6; Ех*, = Е№, - J.EX, = 55 601 - - 51,5333 -773=15765,759; Ех1,=ЪХ\ - Х^Хг = 111 820 - - 80,2667-1204= 15178,893; Ех,г/=ЕХ1У - Х,ЕУ = 520014- - 51,5333 - 9456 = 32715.115; Ех,у = ЕХ,У - Х2ЕУ = 726 806 - - 80,2667-9456= -32195,915; Ех.х, =E^,X, - XtEX,=47 583 - — 51,5333-1204= - 14463,093. Система (13.42) примет вид ' 15765,759 £>рь,-14463.093 by21 = =32715,115; ' -14463,093 ^,.,4-15178,893 &,,.,= = -32195,915. Чтобы получить fti/2-i, разделим оба уравнения на коэффициент 6wi.2 и сложим: ^.,-0.9173737 6,,..= = 2,0750738 1.0494914 = - 2,2260739 0,1321177byt'=-0,1510001. Отсюда £>1/2.1=—1,14292. Подставив это значение в первое уравнение подсистемы, получим byi.2= 1,026638. Из уравнения (13.43) найдем 0^12=630,4— 1,026638 - 51,53334- 4-1,14292 • 80,2667=669,2324. Это и будут параметры уравнения плоскости, приведенного выше. Стандартная ошибка в уравнении множественной регрессии показы- вает разницу между эмпирическими и расчетными значениями. В нашем случае она измеряет рассеяние эм- пирических точек вокруг плоскости. Формула стандартной ошибки имеет, за исключением обозначений, тот же вид, что и для парной регрессии: Е(У-Ух.„)’ п — 3 п — 3 » (13.44) где число 3 в знаменателе соответ- ствует числу потерянных степеней свободы. В нашей задаче sfilt=/(85095,6-1,026638 X ‘ "Х 32715,115- 1,14292 X ’* X 32195,915)/12 = 35,01. Вспомним, что ovi2=31,317. Коэффициент множественной де- терминации можно вычислить из выражения -Е(Г-Г,.„)*,'Е(У-1,)>. (13.45) Числитель составляет Е(У—Рх.12)2= = 14711,6646. Знаменатель также известен: Е(У— F)2=Si/2=85095,6. Подставив оба значения в (13.45), получим ' /?2у12=1—14711,6646/85095,6= =0,827. Формула коэффициента множест- 303
венной корреляции имеет вид: = / I - £(У- Г, „)"/Е(Г- Г)Г (13.46) Извлекая квадратный корень из /?2vi2=0,872, получаем /^,2=0,909. Для множественной регрессии тож- дество, связывающее общую, объяс- ненную и необъясненную части дис- персии, имеет тот же вид, что и для парной регрессии, т. е. о2в=о_ 4- Ух.\2..к + o2«i2..ft. Следовательно, интерпре- тация /?хл2..л не отличается от ин- терпретации г. Для выборок большой размерно- сти имеем формулу доверительного интервала прогноза’: С1Р,= [(Ух.12-^12); где i находится при степенях свобо- ды (л—3). Например, приняв а= =0,05, получим для Xi=25 и Х2— = 100: Ух. 1г = 669,23 4-1,02664 - 25 — - 1.14292-10 0 = 580.6; С1Р^Д(580.6-2,179-35,01); (580,6-f- 4-2.179-35.01)1= (504; 657). Другими словами, при содержании углерода 10-2=25* 10-2=0,25% и температуре закалки Х2*10=1(ЮХ XI 0=1000 градусов по Фаренгейту показатель прочности стали по- падает с вероятностью 0,95 в полу- ченный интервал. Уравнение плоскости (13.40) вы- водилось на основе выборочных дан- ных. Для генеральной совокупности его можно переписать в виде Iх*.и== я$>>г 4" Руг. t- (13.47) Таким образом, выборочные коэф- фициенты регрессии <ztf>2, а и bvz.\ являются оценками коэффициентов регрессии для генеральной совокуп- ности 0^12, PU|.2 И 0^21- При ₽vi.2=₽i/2.i=0 плоскость па- раллельна плоскости XjXa коорди- натной системы и /?vi2=0- 304 хМожно также проверить, сущест- венно ли коэффициенты регрессии отличаются от нуля. Однако если выборки малы, то из-за потери боль- шого числа степеней свободы мож- но обнаружить лишь значительную разницу. Следовательно, в множест- венном корреляционном анализе вы- борки нс должны быть слишком малы. Таким образом, чем больше переменных, тем больше должен быть объем выборки. Уравнение регрессии, связываю- щее четыре переменные, имеет вид: + Wr (13-48) Эмпирические точки записываются как (Х|, Х2, Х3, У), а расчетные точ- ки— как (Xi, Х2, Х$, Ух.12з)- Точки из четырехмерного пространства яв- ляются математической абстракцией и не существуют реально. Уравне- ние (13.48) представляет собой уравнение гиперплоскости. Эго так- же абстрактное понятие, которое является простым обобщением соот- ветствующих геометрических поня- тий в случае одного, двух и трех измерений. Для нахождения параметров уравнения (13.48) по методу наи- меньших квадратов надо решить, следующую систему уравнений: 1“ is-|- (2Аа)6уг „4" + (EA,)6l,,.1I=sr; 4- (£X,XS) byt, „ + (SA.A,) byt, I2 = = ЕХ.У; (2At)ai/l2a4-(XA,X2)6sl.224- 4- (^%) V ..+ ОВД) It = =S*2y; (2^Х1гЖ2*ЛЛ1.«4- 4 (2XJQ . 4- (LA/) bUi, I4 = = 2АаУ. (13.49) Процесс вычислений упрощается, если сначала решить систему трех уравнений:
I (^*'^1'^3) byt-12 ^A',1/, (Sx,x2)~F (Sx t) ьуг ti~F “F (^-^S-^з) byt.ii == ^'•^'2^’ (^*^1-^1) bgi .аз + 3) Ьуг.13 ' I + (2^гз)^3.12 = 2^Л (13.50) а затем подставить полученные зна- чения b в соотношение ^yiti Y ^уг.м ^3^у».12’ (13.51) Формула для стандартной ошибки представляет собой обобщение фор- мулы (13.44): с — 1Л (у-п.,,»)» *Р123 — |/ ^4 = f ^У" ^yi.ts^X’iy jjSXj!/— — у п— 4 • (13.52) Коэффициент множественной корре- ляции для четырех переменных вы- числяется по формуле Я₽1И == /1 — «“j, 1 м/<»\ = = ]/”s (У - PX.14S)7S (К - Р? • (13.53) Если исследователю неясно, ка- кие из трех независимых перемен- ных релевантны, то он может при- менить ступенчатую процедуру. Та- ким образом, он может найти стан- дартные ошибки парных регрессий У на X], У на Х2 и У на Х3, т. е. величины svl, 5уг и sv3. Затем он может найти величины svl2, svi3, $у23. Если они меньше ошибок Л ля- парных регрессий, то можно попро- бовать вычислить 5^123. Если эта. ошибка также меньше предыдущих, то надо вычислить пределы довери- тельного интервала прогноза. Аналогичный процесс исключения проводят, используя значения коэф- фициентов корреляции. Коэффици- енты корреляции вычисляют в той же последовательности, т. е. снача- ла рассчитывают rv2, гу3, за- тем— /?У]2, ЯР1з, Ry23 и, наконец, l?vi23- Переменные, включение кото- рых не дает увеличения R, в даль- нейшем из задачи исключатся. Для ЭВМ составляются програм- мы ступенчатой регрессии по алго- ритмам, аналогичным только что рассмотренному, но более сложным. В частности, обычно включение или исключение переменной зависит от результатов Е-теста. Рассматриваются также нелиней- ные множественные регрессии. Бо- лее полное изложение регрессионно- го анализа читатель может найти в книге Эзекиэла и Фокса *. 13.6. ВОПРОСЫ И ЗАДАЧИ Указание, Задачи, приводимые ниже, связаны с большим объемом вычислитель- ной работы. Поэтому советуем либо ис- пользовать вычислительную технику, либо- помочь студентам, представив в их рас- поряжение некоторые промежуточные вы- числения. 13.1. Представителя приемной комиссии' университета интересует, какое значение имеет для прогноза один из национальных вступительных тестов, предлагающийся абитуриентам. Он произвольно выбирает 15 студентов и сравнивает их результаты по тесту, записанные в виде процентилей с кумулятивными средними оценками успе- ваемости: Прсн.ентилв 70.3 80.0 82,1 87.5 65,2 71.3 71,6 73.8 70.7 83,8 76,8 69,3 90.9 74.8 70,6 Залл4 2.21 2.99 3,00 3.19 1,36 2,26 2,46 2.48 2.63 3,35 2.98 1.85 3.24 2,41 2.00 1 Mordecai Ezekiel, Fox К. A. Methods of Correlation and Regression Analysis. N. Y.: Wiley, 1959. 20—232 а. Будет ли эта задача корреляционной или регрессионной? Какой из рядов вы обозначите через X? Какой ряд вы будете считать зависимой переменной? 305'.
б. Нарисуйте диаграмму рассеяния и «изучите ее. Какой из линий — прямой или параболой — вы будете аппроксимировать данные? в. Найдите методом наименьших квад- ратов параметры кривой и нарисуйте ее -на диаграмме рассеяния. Объясните зна- чение b в терминах задачи. г. Вычислите стандартную ошибку урав- нения бу*- Что измеряет эта величина? Мо- жет ли она быть больше оух? Что проис- ходит с sVXf когда п растет? Обозначьте -.первый ряд символом (Pr) Y вместо X и вычислите syx для этого случая: будет ли полученное значение равно предыдущему? Как сравнивать стандартные ошибки двух задач, данные для которых сильно разли- чаются? д. Вычислите Вычислите при е= =0,95 пределы доверительного интервала CIPLV прогноза для студента, результаты вступительного теста которого состави- ли Ръз- е. Формула для оценки sfyX имеет вид: = ViP' + 1 /л + (х — X)1. Значения X берутся из интервала 50< <Х<95. 1) Будет ли достаточно большой раз- ница между (X—X)2 для п=15 и (X—Xs)2 для п—100? Почему? 2) Будет ли достаточно большой разни- ца между S (X—X)2 для п=15 и S (X—Т)2 для п=100? Почему? 3) Сильно ли будет искажено значение Sfyjc? если не принимать во внимание мно- житель при К1 + 1/п + (Х-Х)»/Е(Х—Л)« для п = = 100. 4) Вычислите $ —. Найдите также пре- еУ* ,делы доверительного интервала CIPLy прогноза для оценки успеваемости сту- дента, результаты вступительного теста ко- торого составили Рез- Полагая, что при =100 членом (X—X)2/S (X—X2) можно пренебречь, найдите 5 — , используя то же €Ух значение svx, 13.2. Если вы изучили разд. 8.4, в ко- тором <у2 и о находятся с помощью Рг и Pi-r, то оцените o2vx с помощью $%х, вы- численной в задаче 13.1,г. Примите =0,05. Как вы думаете, будет ли прием- ная комиссия колледжа удовлетворена объемом выборки, для которой мы полу- чили эти оценки о2 и а? Как с помощью этого метода можно было бы определить необходимый объем выборки? 13.3. Вычислите г для данных задачи 13.1. Проверьте при уровне значимости 0*05, существенно ли р отлично от нуля. Что нужно сделать, чтобы применить этот тест? Почему? 13.4. Вычислите при е=0.95 пределы доверительных интервалов прогноза для Р> используя данные задачи 13.1. 306 13,5. Для заданных ниже дисперсий вы- числите Г] и ГД и нарисуйте три пары диа- грамм рассеяния, представляющих эти за- дачи. ,0^=20^*^= 15,3’-= 5 и 4с11,=401з»4Л= = 30,о%х = 10; ,e,irt=20lesilX= ISjB*— = 5 и ,0^ — Ух = 50so syJt - 1 52c®_ = 35; = 20! а tyX = Ух = 01a2— =20 и 2^= 202a2f?x = Ух = 202q2_ =0. Ух 13.6. Значения X, представленные ниже, являются массами металлических слитков, описанных в разд. 13.6. Прежде чем ис- пользовать слитки в производстве, их нуж- но отштамповать до требуемого размера. Будут ли массы определять с достаточной степенью размеры после штамповки? Если это не так, то нет необходимости в конт- роле масс металлических слитков. Итак, через Y обозначены размеры слитков в ты- сячных дюйма после штамповки, но перед шлифовкой- а. Нарисуйте диаграмму рассеяния для этих данных б. Аппроксимируйте данные прямой с помощью метода наименьших квадратов и найдите syx- в. Найдите при е—0.95 нижний предел доверительного интервала прогноза для наименьшего значения X и верхний предел для наибольшего значения X. X У 41,0 41,4 0.665 0,669 41,0 41,5 0,656 0,659 41,1 41,5 0,655 0,663 41,2 41,5 0,659 0,665 41,2 41,5 0,661 0,666 41,3 41,5 0.665 0,668 41,4 41,6 0,660 0,665 41,4 41,6 0,661 0,665 41,4 41,6 0,662 0,666 41,4 41,7 0,662 0,669 41,4 41,9 0.663 0.670 г. Если размер слитка после штампов- ки будет меньше 0,655, то его невозможно обработать на шлифовальном станке, и слиток считается браком. Найдите такую массу» для которой 95% слитков будут иметь размеры больше 0,655. Как можно решить эту задачу графически? Сделайте эскиз. 13.7- Данные, приведенные ниже, пред- ставляют собой объем продажи (в ты- сячах миллионов долларов) и чистый до- ход (в миллионах долларов) 20 фирм
в США. Будет ли объем продажи опре- делять доход? X у 8,9 4,4 441 454 8,4 4,2 278 291 7.4 4,2 456 321 7,2 4,1 934 51 7,0 3.8 89 III 6,1 3,8 611 2 5,9 3.6 770 356 5,8 3,5 53 150 5.5 3,3 234 237 4,8 3,2 217 151 а. Нарисуйте диаграмму рассеяния» б. Постройте методом наименьших квадратов прямолинейную регрессию и вычислите svx. О чем говорят Вам эти данные? Можете ли Вы сказать, что по- лученное является большим или ма- леньким? Если необходимо, то проверьте, существенно ли b млн г отличаются от нуля. 13 .8 На заводе производят некоторый материал с различной твердостью. Чтобы повысить твердость, увеличивают содержа- ние некоторого химического вещества. Ниже приведены выборки из 20 образцов. Переменная X обозначает процентное со- держание химического вещества, a Y — прочность образца.______________________ X Y X Y 18 72,2 19 79.1 18 80,1 14 56,4 18 69,8 22 82,4 6 58,2 8 55,2 20 79,7 22 107,8 9 45,6 И 34,4 11 58.6 24 115,4 85,4 14 73,5 17 80.1 24 99,5 17 66,7 5 56,8 а. Нарисуйте диаграмму рассеяния. Бу- дете Вы аппроксимировать данные пара- болой или прямой? б. С помощью метода наименьших квадратов найдите вид параболы. Опреде- лите. насколько увеличивается твердость, когда содержание химического вещества возрастает с 4 до 5% нс 24 до 25%. Бу- дет ли разница такой же. если аппрокси- мировать данные прямой? в. Вычислите svX- Будет ли значение sVx для прямой таким же? Почему? г. Найдите при е=0.95 пределы дове- рительного интервала прогноза CIPV для Х=15. Будут ли эти пределы такими же для прямой? 20* д. Правильно ли поставить задачу вы- числения пределов доверительного интерва- ла прогноза CIPLy для Х=50? Почему? 13.9. Данные о средней заработной пла- те за год в колледже и университете полу- чить нетрудно. Будет ли зарплата предик- тором качества преподавания? Ниже при- ведены ряды: У — показатели качества* для университетов, дающих ученые степе- ни; Xi—средняя заработная плата,, тыс. долл.; Ха — число доцентов и профес- соров, перечисленных в справочнике «Кто есть кто в Америке^, %. Y А, Хв Y А1 А’а 31,6 13,2 47,1 29,8 13 12 32,6 13,5 23,3 35,6 11.3 12 33,8 13,4 14.9 36 12,3 10,3. 34 12,7 12.7 36,3 12,6 18,8 34,8 14 19 36,5 10,8 12,0 35,1 12,4 10,8 36,5 12,3 23,9' 16,3 >2,4 21.0 36.6 11,1 10.6 16.7 14,4 49,7 36.6 10,8 10.9 22,2 15,4 21.2 36,7 9,8 10,5 28 13.1 6,5 36,8 10.9 15,5 28,6 15.1 32.1 36,9 10,5 8,3 а. Найдите диаграммы рассеяния У на Xj и У на Х2. б. Постройте прямую с помощью ме- тода наименьших квадратов, аппроксими- рующую связь У от Xj. в. Найдите и вычислите пределы CIPy для Х1=И0 и Xj—12 при уровне зна- чимости а=0,05. Как вы думаете, является ли средняя зарплата хорошим показате- лем качества? г. Подгоните уравнение плоскости к на- блюдениям за переменными У, Хь Х2 и вычислите Sy12. Как вы думаете, должны ли справочники колледжей внести допол- нительную информацию о числе профессо- ров, перечисленных в справочнике «Кто есть кто?» д. Вычислите и сравните rv«? rv2 и 13.10. Значения У представляют собой число разводов на 1000 жителей в 20 шта- тах CIIIA. Значения Х|—средний доход на семью» тыс. долл.; X — процент городско’ го населения. У А ? У X, ха 1,2 4,9 38.5 3.6 4,9 75 Ы 6,3 83.6 3,9 5,2 47,5 0.4 6,4 85,4 4.0 5,9 56,8 2,4 6.2 73,4 2,7 5,8 73,7 2,7 5,8 62,4 3,0 5,4 65.7 2,1 6,2 73,4 2,4 5.9 74,9 1.2 4,2 39,3 1.2 4,9 51,3 1,5 4,9 <54,3 3.3 6,2 68,1 1,9 5,0 55,8 3.2 5.9 62,2 4.6 4,6 62.9 3.1 6.7 86,4 307
а. Есть ли какая-нибудь корреляция между числом разводов и процентом го- родского населения? б. Существует ли какая-нибудь корре- ляция между числом разводов н средним доходом? в. Примените множественную корреля- цию, сравните svl2 с svl и sv2r прокоммен- тируйте связь трех факторов и вклад каж- дого из них. . г. Что вы думаете о других факторах» объясняющих разницу в числе разводов? (3.(1. Прогнозы продажи часто делают- ся на основе предварительных данных. Эти предварительные данные обычно пред- ставляют собой прогнозы отдельных тор- говцев. Будут ли такие прогнозы хороши- ми? Регрессионный анализ может дать от- вет на этот вопрос. Для примера рассмот- рим прогнозы продаж 10 торговцев для своего района на 4 мес. вперед. Спустя 4 мес. прогнозы сравнивались с действи- тельными продажами. Были полученр^г сле- дующие данные: Тсрп> вец Прог- нал Дейст- витель- ная прода- жа Торго- вец Прог. НПЗ Дейст- витель- ная прода- жа /?/ 59 46 вс 42 31 45 27 со 70 65 AU 81 86 МА 42 23 zo 55 51 BI 74 83 НА 52 49 YO 39 36 а. Нарисуйте диаграмму рассеяния. Как Вы думаете, удовлетворительны ли прог- нозы торговцев? б. Вычислите и пределы довери- тельного интервала прогноза CIPLV для Х=50„ Удовлетворительны ли эти преде- лы? Как вы думаете, можно ли улучшить работу компаний по прогнозированию? в В каком случае данные будут пред- ставлять генеральную совокупность? 13.12. Некоторый исследователь инвести- ционной деятельности интересуется, будет ли доход больших корпораций устойчивым. Так как множество сравнений трудно про- извести визуально, то он решает приме- нить регрессионный и корреляционный ана- лиз. Для этого он отбирает выборку нз 10 корпораций (выборка в действительно- сти может быть больше) и фиксирует средний доход на акцию пять лет назад и в текущем году. 5 лет назад В текущем году 5 лет назад В текущем году 4,60 1,72 2,30 1,77 2,24 0,94 3,25 2,60 1,15 0J0 3,04 2,33 0,7 0.48 4.29 2,63 2,18 из 3.84 1.97 а. Нарисуйте диаграмму рассеяния и найдите прямую методом наименьших квадратов^ Вычислите и пределы дове- рительного интервала прогноза C!PLy. Бу- дет ли полезным на сегодня прогноз, сде- ланный на основе данных о доходе пять лет назад? б. Вычислите коэффициент корреляции. Можете ли Бы привести еще примеры мно- жественных сравнений» в которых исполь- зуется коэффициент корреляции? 14.1. ИНДИВИДУАЛЬНЫЕ ИНДЕКСЫ1 Индексы представляют собой вы- раженные (по некоторым опреде- ленным правилам) в процентах ве- личины, которые обычно вычисляют с целью облегчить сравнение дан- ных между собой. Такие показатели 1 Автор использует термин «простой индекс» (от. англ. Simple Index number). В созетской статистической литературе та- кого рода показатели носят название ин- дивидуальных индексов. См. «Общая тео- рия статистики», под ред. Л. Я= Боярско- го. М.: Изд-во МГУ, 1977, с. 195.—Прим, пер. 308 ГЛАВА 14 ИНДЕКСЫ вычисляют для данных любого ро- да Однако чаще всего их исполь- зуют в случае временных рядов. Несколько временных рядов при- ведены в табл. 14.1. Каждый из них представляет собой набор данных, расклассифицированных по време- ни. Соответствующие промежутки или моменты времени обычно обо- значают буквами t или X, причем Х==(0, 1, ...), а соответствующие числовые данные — буквами У/ или Yx. Мы будем пользоваться обозна- чениями X и Ух. Значения Y могут представлять
Таблица 14.1. Цены и абсолютные значения производства апельсинов, яблок, персиков и вишни Апрльснны Яблоки Персики Вишня Год 1 2 3 4 5 6 7 8 <1 Р ч Р ч Р Ч Р 1950 39 2.85 4,91 4,84 3.56 3.84 69.4 362 1961 40 3,88 5.63 4,13 3,70 3.95 101,8 323 1952 46 2 .ад 5,68 4.32 3*55 3,87 109,1 2*8 1963 20 3,56 3.72 4 ,21 3,51 4,-15 69.4 359 1964 34 5,01 6,24 4,00 3,43 4,59 J18,1 290 1965 38 3.34 5,99 4,35 3,35 4,54 86.6 330 1966 45 2,42 5,65 4.46 3,38 5,27 111.0 389 1967 50 1.59 5,39 5,56 2,68 6,36 Л0.2 400 4968 45 3.55 5,44 6,11 3,59 5,44 90,9 439 1969 45 3,06 6.72 4*09 3,67 3,35 126,8 342 Примечания: 1. Данные Минкстерстяз сельского хсняЛстбя США. 2. Столбцы: 1—согни тысяч ящиков: 2—долларов за яшьк; & -миллиарды фунтов; 4~центов заф.т; 5— миллиарды фунтов; 6—центов за фунт; 7- -тысячи тонн; Я—долларов за тонну. 3. р—цены: Q—количество. собой некоторые суммарные значе- ния или же средние по тем или иным промежуткам времени (таким, как неделя, месяц, квартал, год) или значения, отмеченные по состо- янию на некоторые моменты време- ни. Соответственно такие данные называются либо периодическими, либо точечными данными. Значения, приведенные в табл. 14.1, являются периодическими. Значения цен в гой же таблице представляют собой го- довые средние. Цифры валового на- ционального продукта обычно вы- числяют ежеквартально, а затем их умножают на четыре, чтобы их мож- но было сравнивать с данными за год. В то же время учетные ставки Федеральной резервной системы яв- ляются точечными данными. Они даются на те или иные определен- ные даты, как, например, на 5 фев- раля некоторого года. Самая основная формула для вы- числения индексов 1Х имеет вид: IX=YX/C, (14.1) где С — константа базового перио- да. Временной ряд /х будет назы- ваться индексным рядом, а каждое отдельное значение /&— индексом. Рассмотрим цены на апельсины, которые приведены в табл. 14.1. Пользуясь в качестве константы ба- зового периода ценой 1960 г. (т. е. принимая С=2,85), получаем /|060= =2,85/2,85=1,000, т. е. 100,0%; /.«,=3,88/2,85=1,361» или 136,1%, и т. д. Чтобы вычислить индексы для цен на яблоки, возьмем в качестве константы базового периода цену 1960 г. (С=4,84), откуда /i960— =4,84/4,84=1.000, или 100,0%; /1961=4,15/4,84=0,857, или 85,7%, Дата Рис. 14.1. Цены на апельсины, яблоки и вишню в США (данные взяты из табл. 14.2) и т. д. Индексы цен на апельсины и вишню приведены в табл. 14.2 и по- казаны на рис. 14 1. Таблица 14.2. Цены на апельсины, яблоки и вишню в США в 1960—1969 гг. (цены I960 г. приняты за 100) Год Апельсины Яблоки Вишня I960 100,0 100,0 100,0 1961 136,1 85,7 89,2 1962 92.3 89,2 79,6 1963 124,9 87,0 99,2 1964 175,8 82,6 80,1 1965 117,2 89,9 91,2 1966 84,9 92,1 107,4 1967 52,6 114,9 110,5 1968 124,6 126.2 121,3 1969 107,4 84,5 94.5 Примечание. Данные взя“ гы из тзбл. 14.1. Когда временной ряд состоит из индексов, недостаточно сказать в за- головке, что именно представляют эти величины и откуда они берутся.
Необходимо также дать информа- цию и о константе базового перио- да. Для индексов из табл. 14.2 та- кие данные приведены в виде соот- ношения (1960—100). Точно так же и на рис. 14.1 около вертикальной оси указано: 1960=100. Индексы имеют следующий смысл: когда мы проводим сравне- ние с некоторым базовым периодом, индексы представляют собой просто соответствующие величины, выра- женные в процентах этого базового периода. Возьмем, .например, индекс цен на апельсины (табл. 14.2). Ин- декс, соответствующий 1963 г., ра- вен 124,9. Это значит, что средняя цена за этот год составляла 124,9% цены базового 1960 г., или. иначе говоря, была на 24,9% выше цены базового периода (1960 г.). В 1962г. средняя цена составляла 92,3% це- ны 1960 г., т. е. была на 7,7% ниже цены 1960 г. Таблица 14.3. Цены на апельсины* персики и оптовые цены на сельскохозяйственные продукты в США в I960—1969 гг. (цены 1967 г. приняты за 100) Год Апельсины Персики Сельскохозяй- ственная ПрОДу'ЖЦНЯ I960 190,0 60.4 97.2 196! 258,7 62,1 96)3 1962 175,3 60,8 98,0 1963 237,3 68.4 96,0 1964 334,0 72 2 94,6 1965 222.7 71,4 98,7 1966 161.3 82,9 105,9 1967 100,0 100.0 1С0.0 1968 236,7 85,5 102,5 1969 204.0 84.1 109,1 Примечание. Данные п ценах на апельсины и персики взяты нз табл. 14.1. Данные об оптовых ценах на сельскохозяйственную продукцию—из Federal Re- serve Bulletin, В табл. 14.3 индексный показа- тель цен на апельсины за 1960 г. равен 190,0. В этом году средняя цена на апельсины составляла 190,0% цены 1967 г., или, другими словами, была на 90% выше цены 1967 г. (базовый период). Индекс- ный показатель цен на персики 310 в 1960 г. равен 60,4. Это означает, что цена на персики в 1967 г. со- ставляла 60,4% цены на персики в 1967 г., т. е. была на 39,6% ниже цены 1967 г. Таким образом, индек- сы представляют значения, выра- женные в процентах от значения некоторого базового периода того или иного временного (или любого другого) ряда В тех случаях, когда сравнение проводится не с базовым, а с ка- ким-нибудь иным периодом, следует отличать разность процентов от процентной разницы. Например, в табл. 14.3 индексы, отвечающие 1960 и 1961 гг., равны соответственно- го,0 и 258,7. Предположим, мы хо- тим установить, на сколько процен- тов выросли цены на апельсины с 1960 по 1961 г. (т. е. найти про- центную разницу). Значение 258,7' уже не является процентом от 190,0. Вычислить рассматриваемое изме- нение в процентах можно следую- щим образом: 258,7/190.0—1= = 1,362—1=0,362, что эквивалентно» увеличению на 36,2%. Значение 190,0 можно просто от- нять от 258,7. Полученная разность, процентов, а именно 68,7, уже не бу- дет совпадать с процентной разни- цей. Когда временной ряд состоит из индексов и необходимо описать, как изменяются его члены, то пользу- ются как процентной разницей, так. разностью процентов. При этом в последнем случае говорят, что про- изошло изменение на столько-то- пунктов. Например, когда Феде- ральное резервное управление уве- личивает учетную ставку с 4,5 до- 5%, говорят, что учетная ставка уве- личилась на 0,5 пункта (а не на 0,5%). Соответствующее процентное- изменение составляет 5,0/4,5—1 = =1,111—1=0,111, т. е. 11,1%. Приведем еще один пример, в ко- тором фигурирует и индексный по- казатель 100,0. Возьмем три числа из табл. 14.3: /1966=82,9, /1Ш= 100.0» и /19б8=-85,5. Об этих трех индексах можно сделать следующие утверж- дения. Рост цен с 1.966 по 1967 г. со-
ставил 17,1 пункта, причем цены вы- росли на 100,0/82,9—1=1,206—1= =0,206, или 20,6%. Цена 1966 г. была на 17,1% меньше цены 1967 г. С 1967 по 1968 г. цена на персики понизилась на 14,5%. Цена 1967 г. была на 14,5 пунктов выше цены 1968 г., т. е. на 100,0/85,5—1 = =1,170—1=0,17, или на 17% боль- ше в 1967 г., чем в 1968- Иначе го- воря, процентные изменения получа- ются только в тех случаях, когда то .или иное значение сравнивается со значением 100,0 Если это не так, то процентная разница не совпадает с разностью процентов. Процентные изменения, вычислен- ные по индексам, равны процент- ным изменениям, вычисленным по исходным данным. Например, поль- зуясь индексными показателями из табл. 14.3, можно получить, что про- центное увеличение цен на апельси- ны с 1963 по 1964 г. равно 175,8/124.9—1=0,408, или 40,8%. Если вместо индексов показателей .использовать исходные данные из табл. 14 1, то процентное изменение -окажется равным 5,01/3,56—1= =1,407—1=0,407, или 40,7%. Не- большая разница в результатах воз- никла в процессе округления. В рассмотренных выше примерах в качестве константы базового пе- риода всегда брали только одно из значений временного ряда. На практике, однако, часто используют «разу несколько значений. В этом случае в качестве константы базо- вого периода берут их среднее. Если мы хотим, например, взять в каче- стве основы для сравнения цен на апельсины из табл. 14,1 1961, 1962 и 1963 гг., примем С= (3,88+2,63+ -)-3,56) /3=3,36. В этом случае 1Х= =Кх/3,36. Приведем несколько ин- дексов, соответствующих этому зна- чению С: I960 84,8 1961 115,5 1962 78,3 1963 106,0 1964 149,1 Базовый период записывается те- перь в виде 1961—1963=100, и все индексы представляют собой вели- чины, выраженные в процентах по отношению к этому базовому перио- ду. Так, цена на апельсины 1962 г. (78,3) на 21,7% была меньше сред- ней цены 1961—1963 г.; с 1962 по 1963 г. цена выросла на 27,7 пункта или на 106,0/78,3—1=1,354—1 = =0,354, т. е. на 35,4%. Индекс цен 1961 г. равен 115,5, что означает, что цена 1961 г. на 15,5% была больше средней цены 1961—1963 гг. С 1961 по 1962 г. цены упали на 37,2 пункта или на 78,3/115,5—1 = =0,678—1=—0,322, т. е. на 32,3%. Если, например, базовым перио- дом является 1967=100, но данные даются за каждый месяц, то кон- станта базового периода будет сред- ней из двенадцати значений за каж- дый из месяцев 1967 г. Если берут- ся ежеквартальные данные, то С будет средним от четырех величин. Если рассматриваются ежемесяч- ные данные, а базовый период есть 1967—1969=100, то константа С со- ставляет среднее из 36 значений. Обобщая, скажем, что у нас име- ется некоторый временной ряд о I 2 о 2 для которого необходимо вычислить простые индексы IX—YJC. Значение € либо имеет вид С=П, (14.2) либо составляет с=2ад</+1;. (14.3) Так, может быть, что с=у\=у2 или с=(Г, + У. + W i У, 1(2 + 1). Х=1 311
Что касается выбора базового пе- риода, то здесь самым важным кри- терием является сопоставимость данных. В случае, когда необходи- мо сравнить два или более времен- ных ряда с помощью индивидуаль- ных индексов, можно взять любой подходящий базовый период. При этом его очень легко менять, пере- ходя таким образом к сравнению иных величин. Совсем иначе обстоит дело со взвешенными агрегатными общими индексами когда с помо- щью одного индекса описывают сотни временных рядов. В этом слу- чае базовый период выбирают го- раздо тщательнее, и он сохраняет- ся в течение многих лет. Основная причина заключается в том, что сбор данных и вычисление весов, приписываемых каждому из отдель- ных рядов, входящих в индекс, ча- сто являются дорогостоящими про- цедурами. Поэтому различные пра- вительственные и неправительствен- ные организации заботятся о том, чтобы базовые периоды для их ин- дексов совпадали. Эту политику проводят, в частности, для таких известных индексов, как индекс объема промышленного производст- ва, индекс потребительских цен, ин- декс оптовых цен и др. Например, приведенный в табл. 14.3 индекс цен на сельскохозяйст- венную продукцию представляет со- бой агрегированный взвешенный индекс с базовым периодом 1967= =100. Для того чтобы добиться сравнимости цен на апельсины и персики с этим индексом, в качестве констант базового периода С сле- дует взять цены 1967 г. Если величины ряда сильно ко- леблются, в качестве константы ба- зового периода целесообразно взять среднее от нескольких величин. Это 1 Автор использует термин «агрегат- ный» или «агрегированный» (индекс or англ, aggregative index number). В совет- ской литературе эта категория индексов называется «общие индексы». Она, в свою очередь, делится на агрегатные индексы и средние из индивидуальных индексов (см ниже) . — Прим. ред. 312 i хорошо видно на примере цен на апельсины из табл. 14.3, график ко- торых показан на рис. 14.2. По- скольку в качестве константы базо- вого периода нужно было взять наи- меньшую из цен, все индексы ока- зались больше 100,0. Рис. 14.2. Цены на апельсины» персики и оптовые цены на сельскохозяйственную продукцию в США (данные взяты на табл. 14.3) Таблица 144 Объем производства апельсинов» яблок и о5щий объем производства продовольствия в США в 1961—1969 гг. (объем 1961 г. принят за 10Э) Год Апельсищ.i Яблоки 11рпнзчодство пролежи ЬСТВИЯ 1961 100,0 100,0 100.0 1962 115.0 100,9 102,9 1963 50,0 101,6 106,0 1964 85,0 110,8 109,3 1965 95,0 106,4 112,1 1966 112,5 100,4 116.4 1967 125,0 95.7 120,2 1968 112,5 96,6 123,0 1969 112,5 119,4 127.6 Примечания: I. Данные о ценах на апельсины и яблоки взяты из табл. 11.L индексы объема производ- ства продпиътъетвия взяты по дянным Federal Reserve- Bulletin. 2. Базовый период для дэшых обобьеме «риязиэд- ства продовольствия был сдвинут с 1957—1659 гг. на 1961 г. Иногда базовый период прихо- дится менять (табл. 14.4). Индекс объема производства продовольст- вия в этой таблице является взве- шенным количественным индексом и I t L I t
составной частью индекса объема •промышленного производства, для которого базовым периодом явля- ется 1957—1959=100. Исходные зна- чения этого индекса 1961 ИО.З 1962 113,5 1963 П6,9 Это значит, что, например, в 1961 г. объем производства продовольствия в США был на 10,3% больше, чем в 1957—1959 гг. Поскольку в табл. 14.1 нет цен на апельсины и яблоки за 1957—1959 гг., мы не можем пользоваться этим базовым перио- дом для данных о производстве продовольствия. Поэтому базовый период следует изменить. Достаточ- но взять в качестве константы базо- вого периода индекс 1961 г. (т. е. принять С=110,3) и пересчитать все остальные индексы. С помощью сдвига базового пери- ода общественности часто объясня- ют, какое количество товаров мож- но было купить за 1 долл, в том или ином году. Обычно для этой цели пользуются индексом потреби- тельских цен. Например, при базо- вом периоде 1967=100 индекс по- требительских цен составлял 51,8 в 1954 г. и 121,3 в 1971 г. Используя эти три значения, можно сделать следующие утверждения: 1 долл. 1967 г. стоил 0,52 долл в 1954 г. и 1,21 долл, в 1971 г. Это означает, что для того чтобы приобрести одно и то же количество товаров и услуг (которое в 1967 г. стоило 1 долл.), в 1954 г. следовало заплатить 0,52 долл., а в 1971 г.— 1,21 долл. За 1 долл. 1971 г. (т. е. если при- нять 1971=100) в 1967 г. можно было купить товаров и услуг стои- мостью 100,0/121,3=0,82 долл. 1967 г., а в 1954 г. — товаров и ус- луг стоимостью 51,8/121,3=0,43 долл. 1954 г. Наконец, за 1 долл. 1954 г. (1954=100) можно было купить на 100,0/51,8=1,93 долл, и на 121,3/ 51,8=2,34 долл, товаров и услуг в 1967 и 1971 гг. соответственно. По- следнее утверждение означает так- же, что в 1967 г. понадобилось бы 1,93 долл., а в 1971 г. — 2,34 долл., чтобы оплатить объем товаров и ус- луг стоимостью в 1 долл. 1954 г. Например, семье, доход которой в 1954 г составлял 10000 долл., не- обходимо было заработать 23400 долл, в 1971 г., чтобы ее уровень жизни не понизился. Процедура сдвига базового пери- ода существенно отличается от его замены. Проводя замену базового периода, мы пользуемся исходными данными. Такая операция доволь.ю проста для простых индексов (в этом случае следует просто взять в каче- стве С какую-нибудь другую вели- чину), но может оказаться доволь- но сложной для взвешенных индек- сов. Чтобы заменить базовый пери- од 1957—1959 гг. на 1967 г., необхо- димо провести большую работу для получения новых весов и несколько изменить набор товаров. В то же время сдвиг базиса применяется не к исходным данным, а к индексам и представляет собой, как мы уже по- казали, не более чем пересчет ин- декса. Когда базис взвешенного ин- декса подвергается сдвигу (в отли- чие от его изменения), целесообраз- но указать и исходный базовый пе- риод, как это сделано в табл. 14.4. Часто приходится состыковать два индексных ряда. Обычно такая необходимость возникает в тех слу- чаях, когда цены или количество одного и того же товара или при- близительно одинаковой группы то- варов представляются двумя индек- сами с различными базовыми пери- одами. Эту проблему можно проил- люстрировать с помощью индексных рядов цен на апельсины из табл. 14.2 и 14.3. Предположим, что ин- дексный ряд цен в табл. 14.2 закан- чивается индексом 7=175,8 для 1964 г., а индексный ряд в табл. 14.3 начинается индексом /=334,0 для 1964 г. Иначе говоря, будем счи- тать, что мы не располагаем в табл. 14.2 данными до 1964 г., а в табл. 14.3 — данными после 1964 г. В этом виде оба индексных ряда не срав- 313
ни мы друг с другом, и их необхо- димо состыковать. Предположим, что базовый период состыкованного ряда целесообразно взять соответ- ствующим 1967 г. (как и в табл. 14.3). В этом случае (1967=100) индексы из табл. 14.2 необходимо изменить. Их нужно умножить на некоторый коэффициент г, такой, чтобы значение 175,8 стало равным 334,0. Этот коэффициент должен удовлетворять условию г= 175,8= = 334,0 или г=334,0/175,8 =1,900= = 1,9. Это значит, что все индексы табл. 14.2 следует увеличить на 90%. Имеем: Год (1961 г,=100) (1967г.= 100) (1967 г,=Ю0) 1962 92.3 175,4 1963 124,9 — 237,3 1964 175,8 334,0 334,0 1965 — 222,7 222,7 1966 — 161,3 161,3 Ясно, что процедура стыковки двух индексных рядов требует, чтобы по крайней мере за один период ин- дексы перекрывались. Хотя чаще всего в виде индексов представляют временные ряды, в этой форме можно представлять и любые другие данные, выраженные в процентах. Например, можно вы- числить индексы цен на апельсины в различных городах, взяв в качест- ве базовой константы данные, ска- жем, по Чикаго. Если индекс, соот- ветствующий Нью-Йорку, равен 116,3, то это значит, что цена на апельсины в Нью-Йорке на 16,3% выше цены на апельсины в Чикаго. Конечно, этот пример является ис- кусственным. Сравнивая цены на один и тот же товар, пет смысла вычислять межгородские индексы. Однако агрегатные индексы весьма полезны, и нам часто приходится пользоваться индексом потребитель- ских цен с базовой константой С, соответствующей некоторому горо- ду, а не году. Подобные сведения о базовом городе указывают следу- ющим образом: «Цены Чикаго= =100». Формула для вычисления простых: индексов (14.1) имеет общий вид. В применении к ценам ее можно за- писать так: /г — Pxl С) а для индекса объема производст- ва того или иного товара /х=<?х/С‘. В этом и заключается разница обозначениях между индексами цен и объемов. Примеры индексов объ- ема производства приведены в табл. 14.4, в которой объем производства апельсинов и яблок сравнивается с агрегированным индексом объема промышленного производства. Индексы существенно упрощают сравнение данных, различающихся по порядку величины (как, напри- мер, цены на апельсины и вишню в табл. 14.1) или по используемым единицам измерения (как цены и объемы производства или объемы производства персиков и вишни в табл. 14.1). Временные ряды, отли- чающиеся по порядку величины, трудно графически сравнивать друг е другом, если не прибегать к отно- сительной шкале (которую мы рас- смотрим несколько ниже). В то же время индексы легко строить на графике и сравнивать друг с другом (см. рис. 14.1—14.3). Рис. 14.3. апельсинов табл. 14.1) Цены и объем производства- в США (данные взяты и»
14.2. ОБЩИЕ ИНДЕКСЫ Возьмем среднее от двух или бо- лее временных рядов и вычислим индексы этих средних значений. По- лученные индексы относятся к ка- тегории общих индексов *. Общие индексы строятся как непосредст- венно по исходным данным, гак и по индивидуальным индексам. Индек- сы первого типа носят название «агрегатных индексов». Индексы второго типа называются «средними из индивидуальных индексов». Сло- во «средние» здесь уже само по се- бе указывает на то, что речь идет об общем индексе. Индексы обоих типов могут быть как взвешенными, так и невзвешенными. Поскольку невзвешенные индексы взвешивают- ся неявно, можно сказать, что каж- дый общий индекс является взве- шенным (явно или неявно). хМ.ы бу- дем говорить далее как о взвешен- ных, так и о невзвешенных индек- сах. В этом разделе мы рассмотрим невзвешенные и взвешенные агре- гатные индексы, а затем познако- мимся со взвешенными и невзве- шенными средними из индивидуаль- ных индексов. Невзвешенные агрегатные индек- сы. Пусть имеются три временных ряда, представляющих цены или объемы производства товаров трех типов. Эти данные могут быть годо- выми, ежемесячными, ежекварталь- ными или недельными. Если взять среднее от цен (или объемов про- изводства), соответствующих каж- дому периоду, то полученный вре- менной ряд будет давать среднюю цену от всех трех рядов.. Индекс, вычисленный по этим средним це- нам с помошью уравнения (14.1), называется невзвешенным агрегат- ным индексом. На самом деле при вычислении этого индекса нет необходимости вычислять средние цены. Процедура вычислений такова, что тот же са- мый индекс можно получить и с по- 1 О терминологии см. в цнт. выше кни- ге «Обшая теория статистики», с. 191-199. Таблица 14.5. Вычисление невзвешенных агрегированных индексов Пргжеча1.ня: 1. X — периоды или моменты време- ня; у — кы ipwro ых рнкст; т — номер времен- ного ряда, / — 1. 2....jt 2. Из выражений (I4.li. — (14.3) Z _ У /С. где С — клк С — у Эти формулы можно X—fe также переписать в виде I = Xi 0. 1.2-... i k-ya г де С = 2 !,ki ,кя с = 3 + ’>* i / мощью сумм значений, соответству- ющих каждому периоду. Хотя наш индекс и является по существу ин- дексом средних цен (или объемов), можно сэкономить много труда и времени, просто складывая цены (или объемы), соответствующие каждому из периодов, а затем вы- числяя индексы по суммам, а не по средним. То же самое верно и для взвешенных агрегатных индексов. В общем виде методика вычисле- ния невзвешенных индексов приве- дена в табл. 14.5. Суммы по стро- кам образуют временной ряд Уя, для которого с помощью уравнения (14.1) вычисляют индивидуальные индексы. Если наш временной ряд представляет собой цены, то буквы yXj можно заменить на pxj. В этом случае SpXJ—Yx. и формулу для 1Х 315
Таблица 14.6. Невзвешенный агрегатный индекс цен (цены на апельсины, яблоки и вишню; все цены даны в долларах) Год Л Р» РЛ2 рхз 3 РХ! i (1960г.=100) (1952—1964гг. = =100) 1х I960 0 2.85 0,0484 362 364.90 100,0 115,4 1961 1 3,86 0,0415 323 326,92 89,6 103.4 1962 2 2,63 0,0432 288 290,67 79,6 92’0 1963 3 3.56 0,0421 359 362,60 99,4 114,7 1964 4 5.0| 0,0400 290 295,05 80,8 93,3 1965 5 3,34 0,0435 330 333,30 91.3 105,4 1966 6 2,42 0.0446 389 391.46 107,3 123.8 1967 7 1,50 0,0556 400 401,56 110,0 127,0 1968 8 3,55 0,0611 439 442.61 121,3 140,0 1969 9 3,06 0,0409 342 345,10 94,6 109,2 Примечания' I. Данные бзтгы из табл. 14.1. 2. Длл базового периода (I960 г.=Ю0} f — Г /364,90. 3. Для базового периода (1962—1964 rr.iiOO) Г^/316.11. где 316.11 = <290,67+362.60+295.05)/3. можно записать в виде Л=Тх/С = 2рх//С, Х=о. 1. 2 .... 1 где k'-d С = ИЛИ С = / x=k j Если нам нужен индекс объема про- изводства, то вместо yXj можно за- писать qXj. Однако в общем виде ча- ще всего пользуются обозначением Ухз- Методика вычисления невзвешен- ных агрегатных индексов, приведен- ная в табл. 14.5, применена для вы- числения невзвешенного агрегатно- го индекса цен на апельсины, ябло- ки и вишню в табл. J4.6. Заметим, что обычно одни цены выражаются в долларах, а другие—в центах (см. табл. 14.1). Однако при вычислении агрегатных индексов все цены дол- жны быть выражены в одинаковых единицах. Поэтому в табл. 14.6 це- ны на яблоки были переведены из центов (4,84 цента) в доллары (0,0484 долл.). Мы уже отмечали, что невзвешенный индекс на самом деле является неявно взвешенным индексом. Это хорошо видно на на- шем примере. В табл. 14.6 агреги- рованный индекс описывает измене- ние средней цены всех трех продук- тов. Однако доминирующую роль в нем играют цены на вишню, кото- рые даются в сотнях долларов (па сравнению с единицами долларов, для апельсинов и единицами центов для яблок). Поэтому агрегатный индекс из табл. 14.6 лишь немного отличается от индивидуального ин- декса цен на вишню в табл. 14 2. Причина того, что один из рядов оказывается доминирующим, состо- ит в том, что данные рядов не со- поставимы друг с другом. Как вид- но из табл. 14.1, цены на апельсины выражаются в долларах за ящик, цены на яблоки — в центах за фунт, а цены на вишню—в долларах за тонну. Поэтому поступать так, как мы это делали в табл. 14.6 (т. е. вычислять индекс средних цен), в данном случае нельзя (цены выра- жены в различных единицах изме- рения). Единственными двумя временны- ми рядами, для которых можно вы- числить агрегатные индексы, явля- ются ряды цен на яблоки и перси- ки. Обе цены выражаются в центах за фунт. То же самое справедливо и для индекса средних объемов про- изводства.. Невзвешенный агрегат- ный индекс объема производства апельсинов, яблок и вишни может только ввести в заблуждение. Одна- ко такой же индекс для объема
Т а блица 14.7 вычисление взвешенных индексных показателей X Я » wm^xm « Ух / 0 1 ®,F„ «Мо» < ♦ ♦ • a ^rnVim ^fP<> j k 1 =Уг 1 2 «’i.V,, u2i/22 ♦ * ЩпУ 2Ш 2 = У? i 3 а'эУ»» ♦ • * am i 4 tt'lV,! » • im ^4 =-- Yt i • > • • * * - Л » в A • • « • в временного ряда (/ = Примечания: k X — периоды или моменты времени; у±- — временные ряды; т — номер = 1,2, , гл); су — веса, на которые умножается ряд # 1 k+<i 2. Из уравнений (14.1) —(14.3) /* = У^/С, где С = У& или С= Fx/(d + 1}- x=k £j“WC’X = °> ’ 2 ГДе C=Se’/^“J,R I 3. Эти формулы можно также переписать в виде / C=S Sv*?w+*»- xrk i производства яблок и персиков бу- дет отражать реальные колебания среднего объема производства этих продуктов. Взвешенные агрегатные индексы. Взвешенные индексы учитывают как средние изменения, так и относи- тельную важность каждого из ря- дов. Процедура вычисления индек- са такого рода приведена в табл. 14.7. Каждый из рядов умножается на некоторый вес, и для каждого периода времени все произведения складываются. Эти суммы образуют новый ряд Ух, для которого и вы- числяется индекс по формулам (14.1) —(14.3). Веса определяются или вычисля- ются многими различными способа- ми. Однако чаще всего в качестве весов для индексов цен пользуются объемами производства или прода- жи, а для индексов объема произ- водства— ценами. При этом обычно веса совпадают со значениями ба- зового периода. Вычисление взвешенного индекса цен, описывающего средние колеба- ния цен на апельсины, яблоки и вишню, приведено в табл. 14.8. Це- ны каждого из трех продуктов ум- ножены на объемы производства & 1960 г., так как именно 1960 г. вы- бран в качестве базового периода индекса. Исходные и приведенные веса несколько отличаются друг от Друга. Для облегчения вычислений, исходные значения был и разделены на 100. Такая операция и возмож- ное последующее округление весов (проведенное правильно) не отра- зятся на индексе. Кроме того, что- бы упростить процедуру вычисления 1Х, суммы взвешенных цен (г. е. значения к) можно округлять до пяти значащих цифр. В то время как невзвешенный ин- декс цен из табл. 14.6 почти не от- личается от индивидуального ин- декса цен на вишню, поведение ин- декса табл. 14.8 определяется преж- де всего ценами на яблоки. В этом 31Г
Таблица 14.8. Взвешенный индекс цен (цены на апельсины, я>локи и в:;шню; все цеиы даны в долларах) Год X Яблоки (ЗЭ 0(Ю₽х1) Апельсина (49 100 000ух2) Вишня (I960 г,=1Л1 Zjw p .—У I X 1960 0 111 150 2376 440 25! 228 2 738 Sift 100,0 1961 1 151 320 2 037 650 224 162 2 1)3 132 88,1 1962 2 102 570 2121120 199872 2 »23 562 88,5 1963 3 138840 2 067 ПО 249 146 2 455 096 89,6 1964 4 195390 1 964 000 201 260 2 360 650 86,2 1965 5 130 260 2 135 850 229 С2П 2 495 130 ' । 91,1 1965 6 94 380 г 189 860 269 966 2.554 206 93.2 1957 7 58 500 2 279 960 277 6С0 3 066 060 Hi,9 1968 8 138 450 3 000 010 304 660 3 443 120 125.7 1959 9 119 340 2 008 190 237 348 2 364 878 86.3 Примечания: I. Данные взяты нз тайл. 14 1. 2. Исходные массы {отъемы произвол тва л 1^0 гЛ: ai|—-3 903 003 ящныэз апельсинов, «>.—4 910 000 030 ф.л юв тйблок. c'8—69 400. 3. Приведенные массы; «^ЗЗПОО. «^=49 100 030, «?з=б£М. легко убедиться, сравнив этот взве- шенный индекс с индивидуальными индексами из табл. 14.2. В период с 1961 по 1962 г. цены как на апель- сины, так и на вишню упали, но це- ны на яблоки поднялись, в резуль- тате чего увеличилось и значение взвешенного индекса цен. Причина этого состоит в том, что вес, при- писанный ценам на яблоки, являет- ся самым большим. Как видно из табл. 14.8, произведения весов и цен на апельсины заключены между 50 и 200 тысячами; для яблок—меж- ду 2 и 3 миллионами, а для виш- ни— между 200 и 300 тысячами. Поэтому влияние колебаний цен на яблоки на поведение индекса при- мерно в десять раз больше влияния колебаний цен на вишню. Вообще говоря, взвешенные ин- дексы цен показывают, как измене- ния цен отражаются на доходах или расходах отдельных лиц или групп лиц, покупающих или продающих товары, включенные в .индекс. На- пример, приведенный выше взве- шенный индекс несомненно являет- ся показателем изменений в дохо- дах американских фермеров, произ- водящих апельсины, яблоки и виш- ню. Однако он имеет слабое отно- шение к изменениям дохода гою .или иного отдельного фермера, если только объемы выращиваемых им в 318 своих садах фруктов не пропорцио- нальны весам, использованным при вычислении индекса. Как мы уже указывали, при вы- числении взвешенных количествен- ных индексов в качестве весов ис- пользуются цены базового периода. Приведенная в табл. 14.7 процедура вычисления индекса применима ив этих случаях. В результате этот ин- декс учитывает не только изменения объемов производства продуктов, соответствующих каждому из вре- менных рядов, но и их относитель- ную важность. Возьмем, например, производство пуговиц и автомобилей и предполо- жим, что производство пуговиц уве- личилось на 5%, а производство ав- томобилей уменьшилось на 5%. Так как число пуговиц гораздо больше числа автомобилей, неизве- шенный агрегатный индекс этих двух товаров покажет увеличение производства. Если оба ряда взве- сить с помощью цен, то взвешенный индекс покажет уменьшение произ- водства. Такой индекс будет отра- жать не только изменения объемов, но и важность каждой из составных частей. Несмотря на то, что индекс объ- ема (формально) взвешивается с по- мощью цен, он не является стоимо- стным индексом, как, например, ва-
левой национальный продукт в те- кущих ценах. Цифры, представляю- щие стоимость производимых това- ров и услуг, зависят не только от изменения объема производства, но и от изменения цен. Выше, при вы- числении взвешенного количест- венного индекса, были использова- ны фиксированные ценовые веса. Тем самым взвешенный индекс фи- зического объема после учета с по- мо1цью процедуры взвешивания важности каждой из составных час- тей показывает только изменения в объеме производства. Точно так же взвешенный индекс цен показывает изменения в цепах, а не стоимости, несмотря на то, что в качестве ве- сов в процессе вычисления индекса используются объемы производства. 14.3. СРЕДНЕЕ ИЗ ИНДИВИДУАЛЬНЫХ ИНДЕКСОВ В настоящее время самые различ- ные правительственные ведомства и другие организации и учреждения генерируют многочисленные времен- ные ряды, многие из них в индекс- ной форме. Пользователям же дан- ных часто необходимы общие ин- дексы, поскольку по той или иной причине их интересует некоторый избранный набор временных рядов. Поскольку они не располагают ис- ходными временными рядами, то им приходится пользоваться индексны- ми рядами и уже по ним вычислять невзвешенные или взвешенные сред- ние из индивидуальных индексов *. Невзвешенное среднее из индиви- дуальных индексов. Порядок вы- числения такого индекса показан в табл. 14.9. Если даны т индивидуальных ин- дексных временных рядов, среднее из индивидуальных индексов пред- ставляет собой просто среднее арифметическое составляющих. Единственное, что требуется, это При этом в число составляющих мо- жет входить и общий индекс, но при вы- числении среднего он будет рассматривать- ся как индивидуальный. — Прим. ред. Таблица 14.9. Вычисление невзвешенного среднего из индивидуальных индексов ьремешых рядов (; = 1,2.т). чтобы базовые периоды у всех со- ставляющих были одинаковыми. Такие средние арифметические от индивидуальных индексов цен на, апельсины, яблоки и вишню, взятых из табл. 14.2, в форме невзвешен- ного среднего нз семейства индек- сов приведены в табл. 14 10. Таблица 14.10. Невзвешеннсе среднее из индивидуальных индексов (цены на апельсины» яблоки и вишню) (1960 г. = Ш0) Год Л 'х ГОД X / X I960 0 100,0 1965 5 99,4 1961 1 ИЗ.7 1966 6 94,8 1962 2 87,0 1957 7 92,7 1963 3 IC3.7 1968 8 124.0 1964 4 112,8 1969 9 95,5 Примечание. Данные взяты из табл. 14.2. Читатель, возможно, помнит, что* невзвешенный индексный ряд цен из табл. 14.6 мало отличался от ин- дексного ряда цен на вишню. В этом случае доминировал неявный вес индексного ряда цен на вишню. Те- перь же каждый 'из рядов берется, с одинаковым весом. Пользовате- 31&'
Таблица 14.1! Вычисление j а) w, — стоимостные веса взвешенного среднего (произведения объемов из индивидуальных индексов и цен для базового периода tJbjPbj) X ®*'xi w*rxi • • ♦ tn хт /• / О 2 3 4 * 9 •Aj «’1Л1 W W2 142 U?2/J2 «Мм • tt'^23 » я 6) w’j = u?j W ♦ fl • • • • • • ♦ • • • • • fl ♦ • /Euy, Stt1' Щп! 41П в 1 ^и’Уо//2 wi ~ i i wi — A 2u,//*//3w’/=/2 7 / 1 i 2 wi2 wl ~ J* 7 / * 9 X W'JX1 w'vl 3 AS №'>'хг • * * / 0 1 2 3 4 nF менного wrlJ 11 ^1^21 • * шысчкнне. X — ряда: J = 1» 2. . W M w W « 33 о — « « * S . s СЧ CM « « *1 - s э з a I . I s Sj r а1>аЛ>> «ЛЛ» • • 1 <енгы временя; , • w • Л 9 ♦ • BA* V • 4 - > Л A Г; — ИНДИЕМ •*/ П14ottt E£',f winJtn vn WrmI 4ГП w ♦ дуальны? илн об л / 2f = / / 2 ^//4/=л j • » шде индексы; m — номер вре- лям таких индексов следует учиты- вать этот факт. Этим методом мо- жет пользоваться и организация, «выпускающая» индексы, в тех слу- чаях, когда исходные временные ря- ды не сопоставимы, но должны быть взвешены одинаково. Взвешенное среднее из индивиду- альных индексов. Методика вычис- ления взвешенных индексов по вре- менным рядам, состоящим из ин- дексов, приведена в табл. 14.11. Ря- :320 ды индексов умножаются на соот- ветствующие веса, а затем сумма этих произведений для каждого из моментов времени X делится на сумму всех весов Sty,. Эти вычис- ления даны в табл. 14.11,а. В табл. 14.11,6 в качестве весов берутся от- носительные величины, для которых So»'/=1. Поэтому в этом случае ин- декс, соответствующий моменту времени X, равен просто сумме про- изведений w'j и /х/.
► к На практике в качестве весов ин- декса такого рода берутся стоимо- стные веса. Они представляют со- бой произведения физических объе- мов и цен (или средних физических объемов и цен), соответствующие базовому периоду. В результате среднее из индивидуальных индек- сов будет совпадать со взвешенным агрегатным индексом. В том слу- чае, когда индексы являются индек- сами цен, а веса, использованные в процессе вычисления этих индек- сов, — соответствующими количест- венными показателями, ZWiPkilC — что можно переписать в виде ^QbjPbj tybjPbj ~ (Pbj1 PbjY^biPbj'f ^bjPkj_ _ bjbjPkj. tybjPbj tybiPbj Таким образом, правая часть пер- вого уравнения является взвешен- ным средним из индивидуальных индексов, а правая часть последне- го уравнения представляет собой взвешенный агрегатный индекс, об- щая формула для вычисления кото- рого дана в табл. 14.7. Вовсе не обязательно, чтобы ве- са, использованные при построении среднего из индивидуальных индек- сов, были стоимостными. Для этой цели пользуются и другими крите- риями. Однако процедура вычисле- ния, приведенная в табл. 14.11, при этом не изменяется. Реальный пример вычисления взвешенного среднего из индивиду- альных индексов приведен в табл. 14.12. Поскольку в этом случае ве- са являются стоимостными весами с • базовым периодом, соответствую- щим 1960 г., индексы из табл. 14.12,а совпадают со взвешенными агрегатными индексами из табл. 14.8. Вычисление того же самого ин- декса с помощью весов, представ- ленных в относительной форме, по- 21—232 Таблица 14.12. Взвешенное среднее из индивидуальных индексов (цены на апельсины/ яблоки и вишню) a) Wj — веса, вычисленные по формуле и>1=дъ>Рь; (оии взяты нз первой строки табл. 14.8) Год 0960 г.=100 к s' м- е в" if I t / i960 0 И 1150» 237 644 000 25 122 1951 I 15 127 515 203660Г03 22 409 538 1932 2 10 259 Н5 211 978 44& 19 997 749 1963 3 13882 635 203 750 230 Z4 92I 818 100,9 88,1 88,5 89,6 tt'y = «j;/£a’p rti'j = 0,04058; х’г9 — 0,86769, = 0.09173. £«?',= 1,00600 i960 0 4.058 86.769 9,173 100,0 1961 1 5,512 71.361 8,182 88J 1962 2 3,746 77,398 7,302 88,4 1963 3 5,068 75t489 9,099 89,6 Примерам не. / . — юикяидуальаде индексы дтя апельсинов, яблок н вкшки, iwrru из табл. 14.2. казано в табл. 14.12,6. Между дву- мя значениями 1Х есть небольшая разница, возникшая в процессе ок- ругления Ixi. 14.4. НЕКОТОРЫЕ ПРИМЕНЕНИЯ ИНДЕКСОВ ЦЕН И ФИЗИЧЕСКИХ ОБЪЕМОВ Дефлятирование стоимостных ве- личин. Одним из самых важных применений индексов цен является дефлятирование стоимостных вели- чин. Стоимостные величины делят- ся на подходящий агрегатный ин- 321
деке цен, в результате чего эффект колебаний цен устраняется и соот- ветствующий ряд показывает лишь изменения абсолютных количествен- .ных показателей. Когда цены рас- тут, временной ряд стоимостных ве- личин (например, валовой нацио- нальный продукт в текущих долла- рах) показывает относительно боль- шие увеличения и меньшие спады. Когда цены падают, ряд показыва- ет относительно меньшие увеличе- ния и более резкие спады. Такой ряд показывает одни только изменения в объеме производства лишь в том случае, когда цены не меняются. Использование индекса цен для дефлятирования имеет особо важ- ное значение для валового нацио- нального продукта, для ставок за- работной платы (которые дефляти- руются с помощью индекса потре- бительских цен) «и для дефлятиро- вания данных о реализации про- дукции крупными фирмами и целы- ми отраслями. Валовой национальный продукт представляет собой стоимость това- ров и услуг, произведенных эконо- микой за некоторый промежуток времени. Эти данные публикуются ежеквартально или раз в год. Что- бы сделать квартальные данные сравнимыми с годовыми, их следу- ет умножить на четыре. Чтобы устранить влияние цен, величины в текущих долларах делятся на ин- декс цен, который называется неяв- ным дефлятором. Результатом яв- ляются цифры валового националь- ного продукта в постоя иных долла- рах (1958 г.). Избранные величины из всех трех рядов показаны в табл. 14.13. Неявный дефлятор представляет собой взвешенный индекс цен, соз- данный специально для дефлятиро- вания величин валового националь- ного продукта. В качестве состав- ных частей в него входит много ин- дексов, с помощью которых можно дефлятировать не только сам вало- вой национальный продукт, но него отдельные компоненты. 232 Таблица 14.13. Валовой национальный продукт и неявный дефлятор (избранные значения) Год Ва^снэоЛ ка - ЦЯО‘ОЛЬИ4Й продукт, те- кущее дол- лары Дефлятор скрьпих цен (!Ы58г-1СЮ1 ВалотюЛ нз* аномальный продукт пост. (1958 г.) доил. 1920 103,1 50т6 203,6 1933 55.6 39,3 141.5 1941 124,5 47,2 263,7 1950 284,8 80,2 355,3 1958 447,3 100.0 447,3 1965 681,2 110.9 614,4 1971 1046,8 141,6 739,4 Примечания: I. Даюие Министерств тор1Ювл» США (The National Income and Product Accounts of the Uni led States, 1929—1965 н Federal Reserve Bulletins). 2. Если читатель разделит дядак? первого стплбщ. на данные второго, то палучсЮЯйе ч&стньгс не всегда бу- дут совпадать с числами из третьего сюпбца, так как третий столбец бы- Ждался с большей го1ностью. Выраженные в постоянных дол- ларах, эти величины показывают так называемые реальные измене- ния валового национального про- дукта. Обычно они выражаются в; долларах 1958 г. Их абсолютные значения имеют смысл только в тех случаях, когда проводят сравнения по времени. Очень полезно сравнить эти величины с валовым националь- ным продуктом других стран или е валовым национальным продуктом в текущих долларах. Например, вследствие падения цен уменьшение валового национального продукта в. текущих долларах с 1929 по 1933 г. было больше, чем соответствующее уменьшение в постоянных долларах. Вследствие роста цен увеличение валового национального продукта с 1941 по 1971 г. составило в теку- щих ценах 741%, а в постоянных ценах только 180%. Иначе гово- ря, валовой национальный про- дукт 1971 г. в текущих долларах был в 8,4 (а не в 7,4) раза больше валового национального продукта 1941 г.; в постоянных же долларах валовой национальный продукт 1971 г. был всего в 2,8 (но не в 1,8) раза больше, чем в 1941 г. Но, как мы уже указывали, пря- мое сопоставление постоянных дол-
ларов с текущими не имеет смысла. Например, для 1929 г. эти цифры равны соответственно 203,6 и 103,1. При этом нельзя сказать, что реаль- ный валовой национальный продукт в 1929 г. был в два раза больше та- кового в текущих долларах. Изме- нение или сдвиг базового периода для неявного дефлятора существен- но изменили бы соответствующие 1929 г. цифры в постоянных долла- рах. Индекс цен на потребительские товары, «выпускаемый» Министер- ством труда США, используется в качестве дефлятора ставок заработ- ной платы, окладов и пенсий. Его •официальное наименова ние — «ин- декс потребительских цен для го- родских рабочих, работающих по найму и конторских служащих». Он представляет собой взвешенный аг- регатный индекс цен, описывающий изменения в ценах на товары и ус- луги, приобретаемые городскими рабочими, работающими по найму и конторскими служащими. Главными компонентами индекса потребительских цен на товары яв- ляются индексы цен на продоволь- ствие, жилье, на одежду и из- держки на ремонт, транспортные расходы, расходы на медицинское обслуживание и отдых'. Индекс сто- имости жилья объединяет квартир- ную плату, издержки на собствен- ные дома, цены на нефть и уголь, газ и электричество, мебель и из- держки на обслуживание жилища. Индекс цен на медицинское обслу- живание и отдых включает индексы стоимости медицинского обслужи- вания, личной гигиены, книг, газет и журналов, отдыха, а также цепы на другие товары и услуги. Индекс потребительских цен строится так- же и для некоторых крупных горо- дов. Весами для этого индекса явля- ются количества товаров и услуг, приобретаемых семьями (состоящи- ми из одного или более лиц) рабо- чих, получающих зарплату, или кон- торских служащих. Эти величины определяются примерно каждые 10 21* лет с помощью выборочных иссле- дований. После проведения такого исследования базовый период меня- ется. В настоящее время использу- ется базовый период 1967=100; пре- дыдущим базовым периодом был 1957—1959=100. Исследование, ко- торое проводилось в 1964 г., охва- тило 66 городских ареалов. В относительной форме веса, обо- значаемые через W'j, равны: про- довольствие—0,2243; жилье—0,3323; одежда и ремонт—0,1063, транс- порт—0,1388; медицинское обслу- живание ц отдых—0,1945. В сумме эти значения" дают единицу. Они представляют собой доли семейного бюджета, затрачиваемые на каж- дую из основных категорий товаров и услуг. Методика дефлятирования окла- дов и ставок зарплаты с помощью индекса цен на потребительские то- вары приведена в табл. 14.14. В ней содержатся данные об окладах пре- подавателей государственных уни- верситетов штата Огайо. Поэтому использовался не общенациональ- ный индекс потребительских цен, а были объединены индексы для го- родов Кливленд и Цинциннати. Ин- дексы представляют собой средние не по 'календарным, а по финансо- вым годам, поскольку оклады про- фессоров вычисляют из расчета на 9 мес, и их увеличение относится к периоду приблизительно с 15 сен- тября по 15 июня. Базовым перио- дом для объединенного индекса яв- ляется 1957—1959—100. Для того чтобы облегчить процедуру сравне- ния, базовый период был сдвинут на 1964—1965 гг. (1964—1965=100). После деления окладов на дефля- тор были получены так называемые реальные оклады. Подобно выра- женному в постоянных долларах валовому национальному продукту реальные оклады представляют со- бой значения окладов с учетом по- правки на изменения цен. Они дают представление о том, какими были бы оклады, если бы цены остава- лись неизменными. 323
Таблица 14.14. Средние оклады университетских профессоров в плате Огайо и индекс потребительских цен (1904—1970 гг.) Годы / <долл/год) 2 4 (долл/год) 1964—1965 9338 106,4 100,00 9338 1965—1966 9478 108,4 101,87 9304 1966—1967 10227 111,5 104,79 9760 1967—1968 10954 116,4 109..39 10014 1968—1969 11 364 122,4 115,03 9879 1969—1970 12 187 129,6 121,80 10 006 Примечания: 1. Данные взят: столбец 1 нз AACJP Bulletins: столбец 2 нз The Consumer Price Index. bS длине Министерства тру Ла СШ£. 2. Столбцы: /—средние оклады: 2—объеличенныН лвлекс потреби-е-льских цен для городе® Кливленд и Цинциннати (данные 1957—1969 гг. приняты аа 100); <? — индекс потребит пьсхтос цен со сдвинутым базовым пе- раодо*' 1964—1965=100; 4—реальные оклады, получен- ные путем деления на столбца / на данные нз столбца 3. Ясно, что индексом потребитель- ских цен нельзя пользоваться для дефлятирования ставок зарплаты или окладов отдельных лиц, если только они не тратят свои доходы на товары и услуги, перечисленные в индексе, причем так, что доля до- хода, затрачиваемая на товары каж- дого вида, не очень значительно от- личается от указанных выше весов. Индекс потребительских цен ис- пользуют и в коллективных догово- рах. В такой договор может быть включен пункт, предусматривающий периодическое изменение ставок за- работной платы в некоторой про- порции к индексу потребительских цен. Такие коллективные договоры, однако, способствуют развитию ин- фляции при росте цен и отрица- тельно влияют на занятость при па- дении цен. Несмотря на это, индек- сом потребительских цен часто поль- зуются в качестве основы при со- ставлении плана регулирования ставок зарплаты, окладов и пенсий. Служащие федерального или штатного правительства, служащие муниципалитетов, правительствен- ные чиновники, составители прави- тельственных и частных планов пенсионного обеспечения использу- ют индекс потребительских цен в качестве ориентира для расчета по- 324 правок к заработной плате и пенси- ям на рост прожиточного минимума. Объем реализации своей продук- ции крупные фирмы или целые от- расли также могут вычислять с уче- том поправки на индекс оптовых цен. Индекс оптовых цен вычисляет Министерство труда США. В нем суммируют изменения пен на това- ры основных рынков. Сюда входят цены на продукцию обрабатываю- щей промышленности, сельского хо- зяйства, лесной промышленности, рыболовной промышленности, до- бывающей промышленности, газ,' электричество, коммунальные услу- ги и т. д. Общее число продуктов превышает S000. В 1965 г. они под- разделялись на 15 основных групп, 90 подгрупп и 314 классов. Это очень широкий ассортимент индек- сов цен, и поэтому почти для любой группы фирм, производящих один и тот же товар, можно найти подхо- дящий индекс. Доходы фермеров дефлятируются с помощью индекса цен, получае- , мых фермерами. Этот индекс вы- числяет Министерство сельского хо- зяйства США, и его можно найти в изданиях Statistical Reporting Service, Agricultural Statistics и др. Индексы как индикаторы колеба- ний временных рядов. Когда индек- сы вычисляются по временным ря- дам, они представляют собой вели- чины, выраженные в процентах от- носительно некоторого базового пе- риода. В табл. 14.2 цены на апель- сины даны в процентах цены на апельсины в 1960 г. В табл. ,14.4 объем производства апельсинов так- же дан в процентах (по сравнению с объемом производства 1961 г.). Мы уже знаем, что не только от- дельные ряды, но и группы рядов могут быть преобразованы в один индекс. Такая форма представления улучшает сопоставимость рядов. Вследствие своей простоты индекс потребительских цен стал хорошо известным индикатором инфляции или дефляции. Индекс оптовых цен также используют в качестве инди- катора общих изменений цен. По
сути дела этот индексный ряд ре- конструирован вплоть до 1720 г. Его применяли в многочисленных экономических исследованиях, ка- сающихся изменений цен в США, так же как и для сравнения цен в международном масштабе. Еще одним подобным индексом является индекс объема промыш- ленного производства. Это индекс физического объема, который стро- ится Федеральной резервной систе- мой. Его компоненты представляют, ся в виде рыночных и отраслевых групп. Основными рыночными груп- пами являются товары личного по- требления, • оборудование, товары производственного потребления, ма- териалы и вспомогательные группы. Отраслевая классификация состоит из отраслей, производящих товары длительного пользования; отраслей, производящих товары кратковре- менного пользования, добывающей промышленности и коммунальных услуг. Компоненты этого индекса ис- пользуют крупные фирмы, если им нужно сравнить колебания и темпы роста своего производства с коле- баниями и темпами, роста всей от- расли. Правительство и экономисты используют этот индекс в качестве индикатора расширения или сокра- щения всей экономики. Индекс объема промышленного производст- ва имеется в каждой промышленно развитой стране, и поэтому им мож- но пользоваться при проведении экономического анализа для срав- нения краткосрочных колебаний и долгосрочных темпов роста разных национальных экономик. Имеются также хорошо известные финансовые индексы, за колебани- ями которых следят очень многие. Это индексы курсов акций и цен- ных бумаг, как, например, индекс Доу-Джонса, касающийся курса ак- ций 30 промышленных компаний, 20 железнодорожных компаний и 15 • компаний коммунального обслужи- вания; индекс нью-йоркской фондо- вой биржи; индекс курса акций про- мышленных компаний,публикуем ый газетой «Нью-Йорк Таймс», и др. Иногда некоторые индексы пред- ставляются в несколько ином виде.. Например, для индекса Стандард энд Пур (Standard and Poor’s in- dex) в качестве базового периода берется 1941—1943=10 (вместо 100), а базой для индекса курса ак- ций нью-йоркской фондовой биржи служит 31 декабря 1965 г.=50. 14.5. ВОПРОСЫ И ЗАДАЧИ 14.1, Вычислите индивидуальный ин- дексный ряд по данным объема производ- ства вишни из табл. 14.1, приняв 1961= . = 100= Сравните этот индексный ряд с ин- дексным рядом цен на яблоки из табл. 14.4. Для каждого из этих индексных рядов найдите: а) процентное изменение объема про- изводства с 1961 по 1969 г.; б) разность процентов (в пунктах) между 1961 и 1969 г.; в) процентное изменение с 1962 по 1963 г. и разность процентов (в пунктах) между 1962 и 1963 гг.; г) на сколько процентов объем произ- водства вишни в 1961 г. был меньше, чем в 1969 г.? д) как следует вычислять. все указан- ные выше проценты: по исходным данным или по индексному ряду? 14.2. Постройте график индексного объема производства вишни, приведенного в задаче 14.1, вместе с графиком индекса цен на вишню из табл. 14 2, Подтверж- дает ли этот график мнение экономиста о том, что при прочих равных условиях, большие объемы производства соответ- ствуют меныпим ценам и наоборот? 14.3. Вычислите индивидуальный ин- дексный ряд по данным об объеме произ- водства персиков нз табл. 14 1 с 1961 - 1963=100- Сдвиньте базовый период ин- декса, вычисленного в задаче 14.1- так> чтобы сделать его сравнимым с получен- ным индексным рядом для персиков. Как согласуются колебания обоих индексов? Можете лн вы указать причину их раз- личия? 144. В среднем ваша семья потребляет 6 батонов хлеба и 2 фунта масла в неде- лю. Средние цены в долларах на эти про дукты составляли: 1970 1971 1972 Хлеб . -.......... 0,42 0,40 0,45 Масло............... 1,00 1,02 1,02 а. Вычислите невзвешеипые агрегатные индексы, приняв 1971^100 б. Вычислите взвешенные агрегатные индексы, приняв 1971=100. в» Объясните причину расхождения между этими двумя индексами. 325 *
г. Допустим, что иены *на все остальные продукты не менялись. Израсходовала ли ваша семья на продовольствие в 1971 г. больше, меньше или столько же. как и в 1970 и в 1972 гг. по сравнению с 1971 г.? Какой из индексов дает возможность отве- тить на этот вопрос? Почему? 14.5. Является ли взвешенный индекс цен из табл. 14.8 хорошим индикатором изменений в доходах американских фер- меров, выращивающих апельсины, яблокп и вншню? Будет ли этот индекс полезным для той же цели в одном только штате Мэн? Почему? 14.6. Вычислите взвешенный индекс объема производства апельсинов, яблок н вишни с 1960=100, пользуясь данными из табл. 14.1. Для экономии времени вычис- лите только индексы, соответствующие I960 и 1961 гг. 14.7. Рассмотрим следующие данные: Год Средний оклад служащих кочпа- гае X Индекс потреби, телъекнх цен <1957 г=100) 1966 10670 97,2 1967 11 060 100,0 1968 II 910 104,2 1969 12 790 109,8 1970 14400 116,3 1971 14720 121,3 а. Сдвиньте базовый период индекса потребительских цен с 1967 на 1966 г. и вычислите реальные оклады. б. Сдвиньте базовый период с 1967 на 1971 г. и вычислите реальные оклады Ка- кой из базовых периодов (1967 нли 1971) лучше? в. Найдите процентное увеличение но- минальных и реальных окладов, а также индекса потребительских цен между 1966 и 1967 гг. и между 1967 и 1968 гг. г. Допустим, что номинальные оклады возросли на 3%, а индекс потребительских цен вырос на 2%. Можно ли сказать, что реальные оклады выросли иа 1%? д. Считаете ли Вы индекс потребитель- ских иен хорошим индикатором изменений реального дохода фермеров? Почему? 14Л С помощью двух прямых линий, обозначенных ВНП в текущих ценах и ЙНП в постоянных иенах, проиллюстри- руйте связь между валовым националь- ным продуктом в текущих и постоянных долларах в следующих ситуациях: а) ВНП растет, но неявный дефлятор падает; б) ВНП растет и неявный дефлятор растет; г) ВНП падает, но неявный дефлятор растёт; д) ВНП падает н неявный дефлятор падает; е) ВНП растет, а неявный дефлятор остается постоянным. 14.». Вы располагаете индексами объ- ема производства электротехнической про- мышленности, текстильной промышленно- сти и целлюлозно-бумажной промышлен- ности для вашего штата. Вы хотите сравнить их с общенациональным индек- сом. Для этого Вы берете следующие ком- поненты индекса объема промышленного производства (с учетом сезонных попра- вок): Год. месяц Электро- технЯче- екяя про «лишен- ность I ~ XI Текстиль* нал про мъгклен- ость Целлюлоз- нобумал нвя промьд '- ленцость 197! декабрь 101,2 112,0 120,0 197?: январь 101.5 108,9 122,4 февраль 102,4 107,0 123,0 март 102.8 110,3 122,8 апрель 105.3 112,0 124,1 а. Сдвиньте базовый период на декабрь 1971 г=100. б. Вычислите взвешенное среднее из индивидуальных индексов, приняв »i= =8,72, Ш5=2,69 и Шз=3,18%. в. Какой смысл имеют величины Zoi, Ав, /оз и /<!» Аз? Какой нз рядов растет быстрее по сравнению с декабрем 1971 г.? Какой нз рядов растет быстрее по сравне- нию с 1967 г.? г. Для каждого из трех рядов найдите процентное изменение с декабря 1971 г. по апрель 1972 г. 15.1. МОДЕЛИ ВРЕМЕННЫХ РЯДОВ Как отмечалось в предыдущей главе, временные ряды представля- ют собой упорядоченные во времени данные. В соответствии с этим опре- делением мы будем впредь обозна- 326 ГЛАВА 15 АНАЛИЗ ВРЕМЕННЫХ РЯДОВ чать период времени (или точку) через X, а соответствующее емузна- • чение временного ряда через У (табл. 15.1). Необходимо отметить, что члены временного ряда являются либо суммами, либо средними, либочис- t
Таблица 15J. Примеры трендов д) Абсолютные величины уровней и скоростей роста X / 2 9 4 5 0 40 40 40 40 40 40 4 4 4 4 4 4 1 44 36 44 36 44 36 4 4 6 6 2 2 2 48 32 50 30 46 34 4 4 8 8 1 1 3 «52 28 58 22 47 33 б) Абсолютные величины уровней и темпы прироста, % X 7 S 9 J0 0 40 40 40 40 10 10 10 10 1 44 36 44 36 10 10 9.1 11,1 2 48,4 32,4 48 32 10 10 8,3 12,5 3 53,2 29,2 52 28 Примечания I. Числа между строками в табл. 15-1. о — скорости, 2. Число между строками в табл. 15,1 • б являются темпами прироста в процентах. 3. Столбцы: / — рост с постоянной споростью, 2— ладегою с постоянной скоростью: 5—рост с ускорением; 4—падение с ускорением; 5 —рост с замедлением; падение с замедлением; 7—рост с постоянным темтюм (или с ьозрастающей скоростью); падевде с посто- янным темпом (или с ухи выдающейся скоростью); 9— рост с убывающим темпом (или с постояжой скоростью); 10—падение с убывающим темпом (идя с пэстоянмой скоростью). ловой информацией, полученной в определенные моменты времени. Если, например, владелец магазина подсчитывает сумму своих недель- ных продаж в течение некоторого периода времени, то полученные числа образуют временной ряд, на- зываемый просто рядом недельных продаж магазина. Цены на опреде- ленные виды товаров также могут представлять собой либо средние данные за некоторый период, либо значения в фиксированный момент времени. Некоторые преимущества имеет сбор информации к опреде- ленному моменту времени: напри- мер, к первому числу каждого ме- сяца, года или к 31 декабря каждо- го года. Демографические данные, например, представляются таким образом. Однако это не всегда воз- можно. Изменения в процентах и учетных ставках не могут быть рав- номерно распределены и, следова- тельно, должны соотноситься с тем моментом времени, в который они были получены. Генерируя временной ряд, необ- ходимо помнить, что члены ряда в различные моменты времени долж- ны быть сравнимыми. Временные ряды строят не только для нужд от- четности. Их используют для широ- кого анализа явлений и различных сравнений. Следовательно, при по- строении ряда его члены необходи- мо предварительно обработать. Февральские продажи не всегда сравнимы с мартовскими. Если в какой-либо месяц предприятие бы- ло закрыто на неделю на ремонт, то производство в этот месяц не может быть сравнимо с производством в другие месяцы. Во всех таких слу- чаях данные нужно скорректиро- вать так, чтобы их можно было сравнивать. Динамику временных рядов изу- чают в долгосрочной (более 10лет), среднесрочной (5—12 лет) и крат- косрочной перспективе. Значитель- ный интерес представляет также изучение характера годовых, не- дельных и даже ежедневных коле- баний временных рядов. Динамика некоторых из наибо- лее важных динамических рядов, характеризующих американскую экономику, показана на рис. 15.1. Тонкими линиями изображены гра- фики исходных данных. Жирные и более гладкие линии, из которых ис- ключены кратковременные колеба- ния исходных временных рядов, яв- ляются взвешенными скользящими средними. Толстые вертикальные линии проведены для облегчения зрительного сравнения верхних и нижних поворотных точек экономи- ческого цикла в обрабатывающей промышленности с аналогичными точками в других временных рядах. Рассмотренные динамические ря- ды построены на основе использо- 327
Silния годовых данных, большинст- во из которых не существовало до 1930 г. Однако они были реконст- руированы при использовании всех доступных источников информации. В первую очередь были использова- ны труды отдельных экономистов- статистиков (часто связанных с Национальным бюро экономических Рис. 15.1. Обрабатывающая промышлен- ность, ВНП, строительство, производство товаров длительного пользования, прокат рельсов в 1869—1960 гг, (вертикальные жирные ливни проведены из некоторых по- воротных точек ряда выпуска обрабаты- вающей промышленности): / — обрабатывающая промышлевность; 2 —стро- ительство; 3 — жилищное строительство (кроме сельского): < —прочие отрасли предприниматель- ского секторе; 5 — производство товаров дли- тельного пользования; £ — прокат рельсов 328 исследований) и также публикации различных государственных ве- домств, таких как Министерство торговли США. Такие ряды приня- то называть историческими времен- ными рядами. Большинство из них помещено в «Исторической стати- стике США», опубликованной Ми- нистерством торговли США (Histo- rical Statistics of the United States). Анализ временных рядов можно проводить различными методами. Существуют разные точки зрения, но большинство специалистов счи- тает, что при анализе необходимо выделять: 1) тренды — долговре- менные или даже вековые движе- ния; 2) краткосрочные тренды; 3) длинные циклы; 4) краткосроч- ные циклы или (в более общем смысле) циклы деловой активности или экономические циклы; 5) сезон- ные колебания. Понятие тренд означает общее направление и динамику временно- го ряда. В этом определении уда- рение делается на понятии «общее направление», так как необходимо основную тенденцию отделить от краткосрочных колебаний. Графи- ческая Или статистическая концеп- ция тренда представляется в виде непрерывной линии, сглаживающей краткосрочные колебания. Эта ли- ния не должна менять направление чаще чем один раз в 10 лет. Други- ми словами, тренд может быть или прямой линией или выпуклой (во- гнутой) линией относительно гори- зонтальной оси. Предполагается, что он не может иметь S-образную форму в пределах менее чем 10-го териода. Если же члены ряда не увеличиваются и не уменьшаются, гак что соответствующий график является горизонтальной прямой линией, то в этом случае тренд от- сутствует. Главное различие между долго- временным 1 и кратковременным трендом заключается в длине рас- сматриваемого промежутка време- ни. Имеется несколько основных временных рядов, таких как ВНП, продукция обрабатывающей про-
мышлснности (и некоторые дру- гие), рост которых можно содержа- тельно интерпретировать на проме- жутках от 10 до 20 лет. На этих промежутках происходят коренные изменения ряда. Они могут выра- жаться в росте и падении или толь- ко в росте или только в падении. Тренд может быть коротким про- сто вследствие отсутствия достаточ- ного количества данных. Этот слу- чай необходимо отличать от концеп- ции кратковременного тренда, вы- деляемого в соответствии с некото- рым критерием динамики. Для описания основной тенденции вре- менных рядов и для сравнения раз- личных трендов используют различ- ные математические функции, сгла- живающие исходные данные. Наи- более широко применяют Прямую линию, параболу, экспоненту. Дополнительно для сглаживания циклической .составляющей и сезон- ных колебаний используют метод скользящей средней. Последнюю также часто называют трендом или линией тренда, но в отличие от пря- мой линии, параболы и экспоненци- альной функции она является менее усредненной и используется не для представления базовой динамики временных рядов и сравнения раз- личных трендов, но для изучения экономического цикла или сезонных колебаний. В этом смысле скользя- щая средняя представляет только «усредненное» поведение временно- го ряда. Такое многозначное использова- ние термина «гренд» может в неко- торых случаях привести к ошибоч- ным представлениям. Чтобы исклю- чить возможные недоразумения, мы будем рассматривать отдельно ана- лиз тренда, с одной стороны, и ци- клических и сезонных колебаний — с другой, и будем использовать термин «линия тренда», а не «тренд». Но провести это различие не всегда возможно. Длинные циклы наблюдаются главным образом в рядах оптовых цен и жилищного строительства в больших городах. Базовая концеп- ция цикла состоит в изучении- аль- тернативных фазовых состояний — фаз роста и падения временного ряда. Следовательно, при анализе циклов любой длины целесообразно использовать такие термины, как «верхняя поворотная точка», «ниж- няя поворотная точка», фазы «подъ- ема» и «спада». Расстояние повре- мени между двумя нижними пово- ротными точками называется дли- ной никла. Например, длина одного цикла ряда оптовых цен США приблизи- тельно составляет 46 лет (между 1842 и 1888 гг.). Длина другого та- кого цикла — около 44 лет (1888— 1932 гг.). Длинные циклы наблюда- ются также в рядах, описывающих жилищное строительство в городах (рис. 15.1). Их длина колеблется от 10 до 15 лет. Экономические (промышленные) циклы имеют существенно мень- шую длину. Начиная с 1834 г. толь- ко один цикл — совсем недавно — длился 10 лет. Только два цикла продолжались 8 лет, но 13 циклов имели длину 3 года; длина шести циклов равнялась 4 годам. С 1854- по 1970 г. наблюдалось 27 циклов, длина которых в среднем была рав- на 51 мес. Сезонные колебания встречаются в большинстве времен- ных рядов, описывающих продажу производство, занятость и др. Наи- более важную роль среди сезонных колебаний играют погодные усло- вия, изменения в моде и стиле, вре- мя массовых отпусков и др. Но име- ются также недельные (продажи в бакалейной торговле) и дневные колебания. Нерегулярные или случайные ко- лебания временных рядов наблю- даются в виде подъемов и спадов в течение короткого периода време- ни— скажем, в течение двух или трех месяцев. Они не подчиняются Никакой закономерности, и не су- ществует теории, способной пред- сказать их поведение. Ряд моделей временных рядов показан на рис. 15.2. Они представ- ляют следующие базовые мидели. 329
1. Гладкий ряд — возрастающий или убывающий в виде прямой ли- нии. Другими словами, это ряд, члены которого увеличиваются (уменьшаются) на постоянное зна- чение. Гладким может быть также ряд с увеличивающимися или уменьшающимися приростами (ус- корением или замедлением) и име- ющий вид двух других кривых на рисунке. Рис. 15.2. Модели, описывающие поведение временных рядов Члены гладкого ряда могут так- же расти с одинаковым процентом от месяца к месяцу (от года к го- ду). Этот рост аналогичен росту вклада в банке при фиксированной процентной ставке. Если приросты первоначального вклада не снима- ются со счетов, то последующие приросты к сумме вклада будут все больше и больше, но процент при- роста в каждый момент времени будет одним и тем же. Такие про- центы называют сложными процен- тами. Члены ряда могут также уве- личиваться с растущим или падаю- щим темпом в процентах или умень- шаться с постоянным, возрастаю- щим или падающим темпом. Характерной чертой поведения этого временного ряда является его гладкость. Это означает отсутствие случайных, сезонных или цикличе- Ззо ских колебаний. Наиболее важны- ми из таких рядов являются демо- графические ряды. Имеются глад- кие ряды в некоторых сферах про- изводства и торговли, но в основном они связаны с проблемой демогра- фического роста. Некоторые продук- ты (такие, как соль, сигареты, зуб- ная паста) покупаются даже в слу- чае потери работы и потребляются независимо от сезона года; ряды, описывающие эти продажи, естест- венно будут гладкими. Они имели бы сезонные циклические колеба- ния только в случае, если бы демо- графический ряд имел сезонную и циклическую составляющие. 2. График на рис. 15.2,6 пред- ставляет временной ряд, построен- ный на основе квартальных данных с сезонными колебаниями. Конечно, структура сезонных колебаний ред- ко может быть представлена в та- ком чистом виде, как в рассматри- ваемом случае. Всегда присутствуют искажения, большие или меньшие, вследствие воздействия всякого рода случайно- стей. Прямая линия, сглаживающая временной ряд, является трендом этого ряда. В то время, как гладкая линия на рис. 15.2,а представляет фактические данные, гладкая линия на рис. 15.2,6 есть подогнанная к данным линиям тренда, проведен- ная от руки или с использованием некоторых математических методов, например метода наименьших квад- ратов. Так как ряд представляет квар- тальные данные, то построение полного графика одного сезонного колебания требует знания 5 квар- тальных точек. Такой график пред- ставлен в увеличенном виде в ниж- ней части рис. 15.2. Для ряда, по- строенного на основе месячных дан- ных, необходимо знание 13 точек. Если квартальные (или месячные) данные сложить, образовав годовые данные, то вновь построенный ряд будет похож на ряд, показанный на рис. 15.2,а. Временные ряды с сезонными (но без циклических) колебаниями
также фундаментально связаны с изменениями доходов. Уровень по- требления жидкого топлива будет зимой выше, чем в летние месяцы, и, следовательно, будет подвержен сезонным изменениям. Но так как удовлетворение потребности в жид- ком топливе является жизненно необходимым, то уровень его по- требления существенно не зависит от изменений в уровне занятости и доходах; следовательно, ряд не бу- дет иметь циклических составляю- щих. 3. График ряда на рис. 15.2,в показывает наличие циклических и отсутствие сезонных колебаний. Этот пример является еще более искусственным, чем график сезон- ных колебаний. Графики сезонных * колебаний часто воспроизводятся от года к году без каких-либо сущест- венных изменений. Циклические ко- лебания ведут себя по-другому. Дей- ствительные экономические циклы описываются моделью, аналогичной представленной на рис. 15.2,в толь- ко в своих основных характеристи- ках. Этот факт может быть отмечен и на рис. 15.1. Ряд выпуска в обра- батывающей промышленности име- ет циклические колебания. Его по- воротные точки часто совпадают с поворотными точками всей эконо- мики в целом. Перечислим некото- рые из нижних поворотных точек экономических циклов американ- ской экономики: декабрь 1867 г.— декабрь 1870 г.; декабрь 1870 г.— март 1879 г.; март '1879 г. — май 1885 г.; май 1885 г.—апрель 1888 г. Читатель может определить на гра- фике эти поворотные точки — через некоторые из них приведены тол- стые вертикальные линии — и уви- деть размещение во времени эконо- мических циклов. Такой визуальный для соответствующего ряда ана- лиз позволяет сделать вывод, что циклы отличаются от других не только своей длиной и формой, но также и амплитудой. Циклы наблюдаются в рядах, описывающих производство, торгов- лю, занятость, так как они связаны с изменениями в доходах и занято- сти. Продажи товаров и услуг рас- тут с увеличением занятости и дохо- дов; в условиях неопределенной экономической ситуации некоторые покупки откладываются. Прямая линия на рис. 15.2,в опять, как и ранее, представляет собой искусственно подогнанную к данным линию тренда. Однако, как можно было заметить из рис. 15.1 и как уже говорилось выше, часто для сглаживания временного ряда с циклическими колебаниями более целесообразно использовать линии тренда с точками перегиба. Наиболее часто используется линия тренда, полученная методом сколь- зящей средней. 4 График на рис. 15.2,г имеет сезонные и циклические колебания. Сезонные колебания сглаживаются. Обычно для этого используют ме- тод скользящей средней или прибе- гают к помощи индексов сезонности. Вычисления по методам скользящей средней и индексам сезонности да- ны ниже. Экономические циклы сглаживаются прямой линией. 5. Последний график рассматри- вается для полноты картины. Он представляет собой временной ряд с длинными циклами, экономически- ми циклами и сезонными колеба- ниями. Экономический цикл сглажи- вается здесь по методу скользящей средней. Как уже отмечалось, длин- ные циклы встречаются во времен- ных рядах, описывающих жилищное строительство в больших городах. Однако эти колебания в данной ра- боте не рассматриваются. 15.2. АНАЛИЗ ТРЕНДОВ ВРЕМЕННЫХ РЯДОВ Как уже отмечалось, тренды вре- менных рядов являются либо пря- мыми и так называемыми линиями «без перегибов», где слово «без пе- регибов» означает, что кривая ли- ния не обнаруживает S-образную форму по крайней мере в течение 10 лет. Такая прямая или кривая линия описывает усредненное пове- 331
дение временного ряда в течение достаточно длительного периода времени. В этом смысле ряд может расти (падать) с постоянной, воз- растающей или убывающей скоро- стью. В.течение длительного перио- да времени многие временные ря- ды вначале растут с ускорением, а затем с замедлением до тех пор, пока они не достигнут своего потол- ка или момента начала падения. «Прокат рельсов» на рис. 15.1 является примером последнего слу- чая. Рис. 15-3. Графические представления трендов из табл. 15.L Вместо описания трендов времен- ных рядов в терминах абсолютных средних приростов, широко исполь- зуют описание в терминах средних приростов в процентах или темпов. Исходные данные часто являются не сопоставимыми, и тогда послед- нее описание трендов становится более целесообразным. Таким обра- зом, временные ряды могут расти (падать) с постоянным, возрастаю- щим или убывающим темпом. Некоторые примеры таких трен- дов приведены в табл. 15.1 и на рис. 15-3. Эти прямые и кривые ли- нии, с помощью которых обычно аппроксимируются временные ряды Если данные из сголбца 1 табл. 15.1 представляют собой тренд в виде прямой для данных о производ- стве некоторого товара, то мы мо- жем сказать, что производство это- го продукта возрастает в каждую единицу времени на четыре изме- ряющие его единицы. В случае тренда из столбца 7 мы заключаем, что производство возрастает в каж- 332 дую единицу времени на 10%. Про- изводство в столбце 5 возрастет с линейным замедлением, а в столб- це 9 возрастает с падающим тем- пом;. Часто ряды аппроксимируют пря- мыми или другими линиями, чтобы проводить сравнения. Эти линии используются также для целей дол- госрочного прогноза, однако приме- няемая при этом техника несовер- шенна в том смысле, что получен- ные прогнозы дают слишком боль- шую ошибку. Прямолинейные и другие тренды полезны ори изуче- нии циклических подъемов и спа- дов. Однако более приемлемо в этих случаях применение скользя- щих средних и других методов. Экономисты строят тренды для ВНП и его компонентов, для изуче- ния экономического роста, провер- ки экономических законов и откры- тия новых. Государственные органы интересуются долговременными трендами роста населения и различ- ных отраслей производства. Такой анализ необходим при долгосроч- ном планировании и в других обла- стях. Еще одна полезная сфера при- менения этого анализа — сравнение трендов рядов экономического рос- та и роста населения. Промышленная фирма также вы- играет, если будет изучать свое раз- витие в течение длительного проме- жутка времени. Собственный рост она может сравнить с компонента- ми индекса промышленного произ- водства и другими агрегатными ин- дексными рядами. Например, про- изводитель электрических приборов может сравнить историю своего раз- вития с движением индекса элек- - тротоваров. Это даст ему более точ- ные сведения о долговременном ха- рактере изменения рынка. Будет ли объем рынка расти, сокращаться или оставаться на прежнем уровне в течение длительного промежутка времени? Как мы уже говорили, среди ма- тематических функций, аппроксими- рующих ряды, чаще всего исполь- зуют прямую, параболу и экспонен-
ту. Методы наименьших квадратов для подгонки к рядам этих функций будут описаны в порядке перечис- ления этих функций. 15.2.1. Прямая линия Метод наименьших квадратов. Прямую линию можно подобрать с помощью метода наименьших квад- ратов. Критерий и последователь- ность вычислений такие же, как описываемые в предыдущей главе. Уравнение прямой запишем в виде cYx^a^-bX. Часто принимают Х=0, 1, 2, ... ..JV—1, а не Х= 1......jV. где Af — число элементов ряду. Итак, значе- ния X Таблица 15.2. Прямолинейный тренд (индекс промышленного производства США в 1947—1963 и 1964—1971 гг.) 1967 г.-100) Год Л Г X» Г» XY сух 1947 0 40.0 0 1600.00 0 39,5 1948 1 41.7 ! 1738,89 41,7 41.6 1949 2 39.6 4 1568,16 79,2 43,8 1950 3 45,7 9 2088,49 137.J 45.9 1951 4 49.8 16 2480,04 199,2 48.0 1952 5 51,4 25 264!,96 257,0 50.2 1953 6 55.8 36 3113,64 334.8 52.3 1954 7 51,9 49 2693,61 363,3 54.4 1955 8 58,5 64 3422,25 468,0 56.6 1956 9 61,1 81 3733,21 549,9 58,7 1957 10 61,9 100 3831.61 619,0 60,8 1958 11 57,9 121 3852,41 636,9 63.0 1959 12 64,8 144 4199,04 777,6 65.1 1960 13 66,2 159 4G82.44 860,6 67.2 1961 14 66,7 196 4448,89 933,8 69.4 1962 15 72.2 225 5212,84 1083,0 71.5 1963 16 76,5 256 5852,25 1224,0 73.6 136 961,7 1496 56359.73 8565.1 Экстраполяция тренда 1964 17 81,7 75.8 1965 18 89,2 77,9 1966 19 97,9 80.1 1967 20 «СО. 0 82.2 1968 21 105,7 84,3 1969 22 110,7 86,5 1970 23 106,7 88.6 1971 24 106,3 907 П1 рнмеч ан не. Денные взяты нз Federal Re serve 'Bulletins. изменяются от 0 до —1 независи- мо от того, представляют ли У го- довые, квартальные или месячные данные. Как и раньше, параметры а и Ь находят решением системы двух ли- нейных уравнений ( JVa + (EX)6 = Sy; ( (EX)a + (SX* *)6=EXy. Проиллюстрируем необходимые вычисления на примере ежегодного индекса промышленного производ- ства, приведенного в табл. 15.2. Подставив в систему соответствую- щие значения, получим | 17а + 1366=961,7; I 136а +14966 = 8565,1. Разделим теперь первое уравнение на —17, а второе на 136 и сложим: -а- 86 = -56,57058 а+П6= 62,97867 36 = 6,40809 6 = 2,15603. Подставляя полученное значение b в первое уравнение, найдем а ’ 17а+136(2,13603) =961,7; • а=39,48235. Уравнение прямой, найденное мето- дом наименьших квадратов, имеет вид: £УХ = 39,48 + 2.136Х. Если в это уравнение подставить последовательные значения X, то получим сУх, представленные’ в по- следнем столбце табл. 15.2. Наклон прямой. Тангенс угла на- клона прямой равен изменению СУЖ в единицу времени. Если тангенс положителен, то изменения приво- дят к росту показателя, а если от- рицателен, то показатель убывает. Вообще принято интерпретиро- вать угол не относительно СУХ, а от- носительно исходных значений У, к которым подбирается прямая. Пря- мая линия представляет собой тренд, а значения СУХ называются 333
трендовыми значениями. В этом случае тангенс наклона равен «среднему» за единицу времени аб- солютному (но не процентному), приросту членов временного ряда. Другими словами, значения членов ряда возрастают за единицу вре- мени в среднем на величину, рав- ную тангенсу утла наклона. В рас- сматриваемом примере мы говорим, что индекс промышленного произ- водства США возрастал в год за период 1947—1963 гг. в среднем на 6=2,1 пункта (но не процента). Если бы ряд представлял собой продажи в тысячах долларов, мы бы сказали, что продажи возраста- ют в среднем за год на 2100 долл. Наконец, когда прямая аппрокси- мирует месячные данные, то тан- генс угла наклона равен скорости роста за месяц. Итак, разница со- стоит в том, что cYx возрастает в каждую единицу времени на б, а У возрастает в среднем на 6. Средняя скорость роста может быть прямо найдена из эмпириче- ских значений Y, т. е. без подгонки к ним прямой Y. Мы просто вычи- таем первое значение из последнего и делим разность на jV—1. Длякна- шего примера имеем (76,5—40) /16= =2,3. Это значение не слишком от- личается от 2,1. Однако интерпрета- ция обоих данных, вообще говоря, различна. Мы не можем сказать, что временной ряд возрастает в среднем каждый год на 2,3. Пра- вильно сказать так: «Средняя ско- рость от первого до последнего чле- на ряда составляет 2,3% ». Это до- статочно тонкая разница иногда су- щественна, иногда нет. Если тренд описывается такой кривой, как, на- пример, на рис. 15.5, или ряды сильно колеблются, или период рассмотре- ния слишком короток, вычисленная таким образом средняя скорость может привести к неверным выво- дам. Средняя скорость обычно ассо- циируется с прямой линией, по- скольку прямая предполагает рост постоянным в единицу времени. Вре- менные ряды, которые аппроксими- руют линиями, отличными от пря- 334 мой, не предполагают постоянной средней скорости. В случае индексов, например ин- декса промышленного производства из табл. 15.2,'тангенс наклона пря- мой для месячных данных получа- ется из тангенса наклона прямой для годовых данных простым деле- нием 6 на 12. Таким образом, Ь'= =2,13603/12=0,178. Мы предпола- гаем здесь, что изменение, напри- мер, с июня 1960 г. до июня 1961 г. было таким же, как изменение го- дового индекса за период с 1960 до 1961 г. Однако если данные пред- ставляют собой, скажем, тонны, то переход к месячной базе происходит по-другому. Возьмем значения СУХ для л=0 и Х=1. Пусть, например, сУо=39,5 и СУ1=41,6 тонн. Эти данные представляют собой объ- емы за год. Трендовые зна- чения месячных данных получают- ся, если разделить с У* на 12. Сле- довательно, при переходе от сУо/12 к сУ1/12 тангенс угла наклона ли- нии тренда для месячных данных должен быть умножен на 12. Дру- гими словами, Л/12+12А'=Х+1/12, откуда имеем *' = (Л+./12-еГх/12)/.12 = =(Лг+1-Л,)/144 = 6/144. Итак, тангенс угла наклона тренда к месячным данным составляет Ь'=2,13603/144 = 0.01483 тонн. Если трендовое значение месячных данных сУх/12 будет в течение 12 периодов возрастать с той же скоро- стью, ТО МЫ получим сУх+1/12. Для квартальных данных cYx/4 + ^=cYx+,/4, откуда 6'-(Л+,/4-Х/4)/4 = = (Л+,-<Ух)/16 = 6/16. Экстраполяционный прогноз трен- довых значений. Иногда трендовые значения продлевают (экстраполи-
руют) на несколько лет вперед. Эти прогнозные значения приведены в табл. 15.2 для Х=17, 18, .... 24. Если кто-нибудь в 1963 г. экстрапо- лировал бы тренд, построенный на данных за эти годы, то спустя 8 лет он захотел бы сравнить полученные значения со значениями тренда, по- догнанного к данным за 1947— 1971 гг. if ^<§ 95 75 55 55 Ch S} дата th Рис. 15.4. Индекс промышленного произ- водства, S. A. (Statistical Abstracts), 1947—1971 гг. (данные взяты из табл. 15.2) Уравнение прямой для всего пе- риода (1947—1971 гг.) имеет вид: сКж=33,83+3,047Л’. Тангенс угла на- клона этой прямой существенно больше, чем для уравнения подпе- риода 1947—1963 гг. Этот факт от- ражен на рис. 15 4. Трендовые зна- чения для всего периода в 1964 г. СГ17=85,6, а в 1971 г. сУ24=107. Раз- ница между этими значениями и значениями, полученными по про- гнозу, составляет 9,8 и 16,3 пунк- тов. В процентах эта разница будет равна 11,4 и 15,2% соответственно, т. е. на столько процентов прогноз- ные значения будут ниже действи- тельного тренда. Это сравнение проясняет несколь- ко моментов. Прогноз трендовых значений всегда основан на предпо- ложении, что ряды будут расти так же. как и в базовом периоде. Сле- довательно, два критерия играют основную роль. Один определяет точность подгонки математической функции к ряду данных. В соответ- ствии со вторым экстраполяция трендовой линии на будущее имеет смысл только тогда, когда можно сделать предположения о характере поведения временного ряда в буду- щем. Аппроксимация данных матема- тической функцией предполагает выбор. Если мы подгоняем к дан- ным прямую, то это означает, что мы делаем допущение о том, что скорость изменения временного ря- да в среднем постоянна. В случае экспоненты мы предполагаем, что скорость изменения ряда логариф- мов эмпирических значений в сред- нем постоянна. Линия тренда, хо- рошо аппроксимирующая данные, дает хорошие прогнозы Следова- тельно, при выборе функции мы даем предпочтение той, которая луч- ше приближает данные. Этот выбор облегчается визуальными сравне- ниями графиков или нахождением абсолютных значений разностей У и сУх и затем осреднением их, т. е. вычислением (S[У—CVX|)/W. В примере с индексом промыш- ленного производства видно, что подгонка прямой к данным дает не слишком хорошие результаты. Позднее мы попробуем подогнать к ним экспоненциальную кривую и сделаем соответствующие сравне- нения. Не следует экстраполировать на будущее тренды, если предполага- ется, что ряд может сильно поме- нять направление движения. Это бывает, если рассматриваемый пе- риод слишком короток. Понятие «слишком короток» относительно. Если ряды гладкие, то 10 лет доста- точно для построения прогноза. Если же ряды содержат длинные циклы, например строительный цикл (см. рис. 15.1), то может оказать- ся, что и 50 лет мало. Временные ряды, описывающие достаточно большую отрасль, не могут резко изменяться. Однако это вполне возможно в случае времен- ных рядов, представляющих дея- тельность отдельной фирмы, пусть даже очень крупной. Экстраполяция трендов относит- ся к категории долгосрочных про- гнозов. Так как тренды обычно 335
сглаживают циклические колеба- ния, их экстраполяцию не исполь- зуют для краткосрочных предсказа- ний, производства или продаж, на- пример, на год вперед. Любой дру- гой метод даст лучшие результаты. Однако экстраполяция тренда со- держит ключ к определению произ- водственных возможностей отдель- ной отрасли или фирмы, скажем, на 10 лет вперед. Так как данный ме- тод не требует детального анализа компонент исследуемого ряда, то его часто называют наивным мето- дом прогнозирования. Однако слож- ность какого-либо метода еще не является показателем его качества. 15.2.2. Парабола Временные ряды могут возрас- тать или убывать не с постоянной скоростью, а с переменной. Такне ряды приведены в столбцах 3, 4, 5 и 6 табл. 15.1. Так как очевидно, что их тренд описывается кривой, прямую линию подгонять к ним не следует. Парабола лучше характе- ризует средний рост этих рядов. Параболу подгоняют уже описан- ным в гл. 13 методом наименьших квадратов. Уравнение параболы или многочлена второй степени имеет вид: сУх = а4-6Х4-сХ*. Параметры а, Ь и с находятся ре- шением системы трех линейных уравнений: ' Na + (EX) b + (ЕХ*) с = ЕУ; (EX) a-REX’) 6 4- 4- (EX’) с == ЕХУ; (EX’) а Н- (EX’) b + + (ЕХ4) с = ЕХ=У. В табл. 15.3 приведены все необ- ходимые вычисления для подгонки параболы к данным индекса вы- * пуска, оборудования 'для частно- предпринимательского сектора. Гра- фик этого показателя можно найти на рис. 15.5. Параболу сначала приближают к 17 первым значени- 336' ям индекса, а затем сравнивают с результатами подгонки параболы ко всем 25 значениям ряда. Подставив в систему соответст- вующие значения, получим: ' 17а 4- 136.54- 1496с= = 988.4; 136а 4- 1496&4-18 496с = = 8078,9; 1496а 4- 18 4966 4-243 848с = •= 90676,3. Систему решим с помощью пре- образования, описанного в преды- дущей главе. Мы можем также сде- лать следующее. Разделим первое уравнение на —17, второе на 136, а третье на 1496; затем, сложив первое со вторым и третьим, мы ис- ключим а. Тогда получим: -а- 86- 88с =-58,141176 а _|_ П6 4- 136с = 59,403676 364- 48с =1.262500 и —а _ 86 - 88с = - 58,141176 а 4- 12.3636366 4- 163с = 60,6125 4,3636366 4- 75с=2,471324. Система примет вид: । а 4- 86 4- 88с = 58,141176; { 36 4- 48с = 1,2625; I 4,3636366 4- 75с = 2,471324. Теперь исключим 6 из третьего уравнения, используя второе урав- нение. Поступаем так же, как и раньше. Второе уравнение делим на —3, а третье на 4,363636 и склады- ваем: -6- 16с =-0.420833 64- 17,187501с = 0,566345 1,187501с = 0,145512 Умножив второе уравнение на — 1, получим систему: । а 4-864- 88с = 58.141176 { 6 4-16с =0,420833 I 1,18750k=0,145512.
Таблица 15.3. Подгонка параболы (индекс выпуска оборудования для частнопредпринимательского сектора — компонента индекса промышленного производства США в 1947—1963 и 1964—1971 гг.) (1967 г.=109) Год X У х* У* XY YX 1 А* :947 0 55,8 0 3113,64 0 0 0 0 59,7 1948 1 57.9 1 3352,41 57,9 1 57,9 1 58.2 1949 2 50,7 4 2570,49 101,4 8 202,8 16 57,1 1950 3 54.2 9 2937,64 162,6 27 487,8 81 56,2 195! 4 66,3 16 4395,69 265,2 64 1060,8 256 55,5 1952 5 75,1 25 5640,01 375,5 125 1877,5 625 55,0 |953 6 52,8 36 2787,84 316,8 216 1900,8 1296 54,8 1954 7 46,5 49 2162,25 325,5 343 2278,5 2401 54.9 1955 8 50,3 64 2530,09 402,4 512 3219,2 4096 55.2 1956 9 57,2 81 3271,84 514 8 729 4633,2 6561 55,7 1957 10 57.6 100 3317,76 576,0 1000 576(1,0 10000 56,5 1958 11 49,1 121 2410,81 540,1 1331 5941,1 14 641 57,6 1959 12 57,4 144 3294,76 688.8 1728 8265,6 20 736 58,8 1960 13 60,3 169 3636,09 783,9 2197 10190,0 28 561 - 60,4 1961 14 60,2 196 3624,04 842,8 2744 11799,2 384J6 62,1 1962- 15 66,8 225 4462,24 1002,0 3375 15030,0 50 625 64, 1 1963 16 70,2 256 4928,04 1123,2 4096 17971,2 65536 66,4 136 988.4 1496 58435,64 8078,9 18496 90676.3 Г 243 848 Экстраполяция тренда 1964 17 76,1 68,9 1965 18 85,7 71,6 1966 19 1 99,1 74,6 1967 20 100,0 77,9 1968 2| 101,0 81,4 1969 22 106,9 85,1 1970 23 102,5 89,1 1971 24 96,1 93,3 Примечание. Данные вэггы нз Federal Reserve Bulletins. Система эквивалентна исходной системе, это означает, что их ре- шения совпадают. Итак, мы нахо- дим с, подставляем полученное зна- чение во второе уравнение, находим Ь, наконец, из первого уравнения получаем а. В качестве окончатель- ного результата вычислений полу- чаем : а=0,122536, b=— 1,539743, с=59,675952. Уравнение параболы, таким обра- зом, имеет вид: г. Ух=59,68— 1,54Х+0,1225Х2, где каждый параметр вычислялся до четырех значащих цифр. Трендовые значения СУЖ, приве- денные в табл. 15.3, находили под- становкой в последнее уравнение па- раболы последовательных значений Х=0, 1, ..., 16 Для получения про- гнозных значений подставляли зна- чения Х=17, .24. Уравнение параболы, аппрокси- мирующей 25 значений ряда, имеет вид: с Гх=59,45— 1,883Л'+0.1703№. Сравним теперь пару прогнозных значений с соответствующими зна- чениями тренда, вычисленными из. последнего соотношения. Возьмем два прогнозных значения СУ17=68,9 и €^24=93,3. Соответствующие им значения последнего тренда сУп= =76,6 и еУа4=Н2,3. Итак, первое значение тренда на 11,2%, а послед- нее на 20,4% будет больше про- гнозных. Разница существенна. На' рис. 15.5 мы видим графики, с по- мощью которых можем провести ви- зуальные сравнения. 22-232 337
Предположим, что теперь вместо параболы будем подгонять к дан- ным индекса производства оборудо- вания для частнопредприниматель- ского сектора на промежутке 1947— 1963 гг. прямую. Тогда прогнозные значения еще больше будут отли- чаться от трендовых значений. На рис. 15.6 это ясно видно. Рис. 15.5. Индекс выпуска оборудования для частнопредпринимательского сектора. NSA (National Stastical Abstracts). 1947— 1971 гг. (данные взяты из табл. 153) ,u,anni Рис. 15.6. Индекс выпуска оборудования для частнопредпринимательского сектора, NSA, 1947—1971 гг. (данные взяты нз табл. 15.3) Тренд индекса оборудования явно описывается кривой линией. Однако для большинства случаев это не очевидно. В таких случаях исследо- ватель не знает, подгонять ли к дан- ным прямую или параболу. В обшем, когда к ряду, тренд которого описы- вается прямой, подгоняют параболу, то параметр с либо равен нулю, ли- бо очень мал. Если с=0. то уравне- ние параболы вырождается в урав- нение прямой. В предыдущем параграфе мы оценивали тренд для индекса про- мышленного производства. Будет ли парабола лучше описывать тренд этого ряда? Да, будет! Значение с 338 в этом случае равно 0,07921. Оно ма- ло. Гораздо меньше, чем с=0,1703 для индекса производства оборудо- вания для частнопредприниматель- ского сектора. Но не достаточно мало, чтобы считать его несущест- венным. Итак, возникает проблема выбора не между прямой и параболой, но между параболой и некоторой дру- гой кривой. Геометрия параболы ясна; теоретически нетрудно уста- новить, будет ли- линия тренда иметь вид параболы. Если тренд па- рабола, то первые разности ряда еУ*—сУх-t располагаются на графи- ке вокруг прямой *. Например, пер- вые разности значений СУХ, приве- денных в табл. 15.3, будут лежать около прямой. Слово «около» мы употребляем, потому что значения вычисляются приближенно, т. е. округляются Аналогичные рассуждения спра- ведливы и для исходных данных. Если первые разности ряда лежат около прямой, то тренц описывает- ся параболой. Однако, как мы уже говорили, временные ряды должны быть достаточно гладкими, иначе трудно понять, будут ли первые раз- ности аппроксимироваться прямой. , Например, первые разности индекса оборудования показывают сильные краткосрочные колебания, и визу- ально трудно понять, хорошо ли прямая приближает разности. 15.2.3. Логарифмическая прямая Логарифмическая прямая получа- ется из экспоненциальной функции вида " (YK=abx. Значения этой функции приведены в табл. 15.1 в столбцах 7 и 8. Лога- рифм этой функции 1g = lg а + (1g &) АГ на графике имеет вид прямой. Скорость изменения. Экспоненци- альная функция отражает матема- 1 Первые разности ведут себя как пря- мая, поскольку первая производная f(x)*= ==а-|-6х-}-сд^ Р(л)=Ь-|-2сх представляет собой уравнение прямой с тангенсом угла наклона, равным 2с.
тически идею сложного процента, другими словами, временные ряды изменяются в каждую единицу вре- мени в среднем с постоянным тем- пом в процентах. Поясним это свой- ство на примере. Предположим, что начальный вклад в банк составля- ет 200 долл., и ежегодно начисляе- мый процент г=0,05 (5%), так что 6=14-7=1+0,05=1,05. Требуется найти СУ* (сумму вклада четыре го- да спустя). Имеем: —Y0)/(N—1), что составляет в на- шем примере (Ум—У0)/16=(76,5— —40)/16=2,281. Эта величина на- зывается средним приростом отно- сительно первого и последнего члена. Используя экспоненциальную’ функцию сУх=а6х, мы-найдем по- стоянный темп изменения в процен- тах относительно первого и послед- него члена, а также темп измене- ния в процентах для тренда,- полу- X л cYx 0 200 cYe=a 1 200-1.05 = 210 рУ। — pl $b лЬ 2 210-1,05 = 220,5 cYt = cY1b = (ab}b = abi 3 220,5-1,05 = 231,52 eYs = cYtb= (ab2)b ab* 4 231,52-1,05 = 243,1 eY<=cYtb = (ib>) b = ab* Эти же вычисления можно провести с помощью функции СУХ=2004(1.05)Х ‘Для Х=4 еУ4 = 200(1,05)*= 101ав1М*Х IQg.HlgM |QO,*g<7E8 _ = 10’’MS7B*=243,1. Если бы значения 200, 210, 220,5, 231,52, 243,1 были не суммами де- нег, а просто представляли собой временной ряд, то мы сказали бы, что значения ряда вырастают на 5% в год. При 6<1 временной ряд уменьшался бы на г=Ь—1 процен- тов в год. Например, если 6=0,95, то г=0,95—1=—0,5 и члены ряда уменьшаются на 5% в год. В разд. 15.2.1 к индексу промыш- ленного производства подгонялась прямая на промежутке 1947— 1963 гг. Тангенс наклона прямой 6=2,136. Этот коэффициент озна- чает, что временной ряд увеличива- ется в единицу времени в среднем на постоянную сумму, равную 2,136. Мы отмечали также, что средний абсолютный прирост может быть получен вычислением (Уд-i— ценного методом наименьших квад- ратов. Для примера снова рассмот- рим индекс промышленного произ- водства. Чтобы найти, темп в процентах относительно первого и последнего- члена, перепишем уравнение в виде Y.N_t = Y^~\ Подставив значения У1в=76,5 » Уо=40, получим 76,5=406” Разделив обе части на 40, имеем 1,9125=6”. С помощью логарифмических таб- лиц перепишем последнее соотно- шение в виде | Q« ____^1«. । q0.2816o2j 1/16 _ (£16^ 1/16. 1,0417=6. Значение г получим из r=b—1=1,0417— 1 =0,0417. Мы можем сказать, что промыш- ленное производство в 'США воз- растало в среднем на 4,2% в год в 1947—1963 гг.
Таблица 15.4. Логарифмическая прямая (индекс промышленного произзодства США В 1947—1963 и 1964—1971 гг., (1967 г.=100) Год X У У' № Х1" уг с л с*х 1947 0 40,0 1,6021 0 2,5667244 | 0,0000 1,6099 40,7 1948 1 41,7 1.6201 . 1 2,6247240 1,6201 1,6267 42,8 1949 2 39,6 1,5977 4 2,5526453 3,1954 1,6436 44,0 ' 1950 ' 3 45,7 1,6599 9 2,7552680 4,9797 1,6604 45,8 1951 4 49,8 1.6972 16 2.8804878 6,7888 1,6773 47,6 1952 5 51,4 1.7110 25 2,9275210 8,5550 1,6941 49,4 1953 6 55,8 1,7466 36 3,0506116 10,4796 1,7110 51,4 1954 7 51.9 1,7152 49 2,9419110 12,0064 1.7278 53,4 «955 8 58.5 1,7672 64 3,1229958' 14,1376 1,7447 55,6 1956 9 61,1 1,7860 81 3.1897960 16,0740 1,7615 57,7 1957 10 61,9 1,7917 100 3,2101889 17,9170 1,7784 60,0 1958 11 57.9 1,7627 121 3.1071113 19,3897 1,7952 62,4 1959 12 64.8 1.8Н6 144 3,2818946 21,7392 1,8121 64,9 1960 13 66.2 1,8241 169 3,3273408 23,7133 1,8289 67,4 '961 14 66,7 1,8241 196 3,3273408 25,5374 1.8458 70,1 19G2 15 72,2 1,8585 225 3,4540223 27,8775 1,8626 72,9 1963 16 76,5 1,8837 256 3,5483257 30,1392 1,8795 75,8 136 29,6594 1496 51,8689093 J 244,1499 ц - Экстраполяция тренда 1964 17 81.7 - । 1,8963 78.8 1965 18 89.2 • 1,9132 81.9 1966 19 97.9 - 1,9300 83.1 1967 20 100,0 1,9469 88.5 1968 21 105.7 1.9637 92.0 ‘ 1969 22 110,7 1,9806 95.6 1970 23 106,7 1,9974 99» 5 1971 24 106,3 л - 2,0143 103.4 Примечания: I. Данные взяты и» табл. 15.2. 2. У' = 1g У. Для периода 1947—1971 гг. 106,3 = 40,Об24; 2,658=624; (io°-423577/24-=(>: 1,0419=6, что дает г=0,0419. Это значение не слишком отли- чается от значения г, полученного для предыдущего периода. Возьмем теперь последнее зна- чение ряда и разделим его на пер- вое: 106,3/40=2,6575. Мы можем сказать, что последнее значение на 165,75% больше первого. Некоторые делят 165,75 на число точек Л'—1 = =24 и, получая 165,75/24 = 6,91. го- 340 ворят,'Что это значение представля- ет собой средний темп изменения в процентах Это неправильно и ни- как не согласуется со значением г=4,19%. Если, начиная с первого значения Уо=40} увеличивать все 24 года индекс на 4,19%, то полу- чим последнее значение У24= 106,3. Однако мы получим совсем другое число, если будем значение каждо- го предыдущего года увеличивать ежегодно на 6,91%. Метод наименьших квадратов. Способ аппроксимации данных функцией cYx=abx в ее логарифми- ческой форме lgcyx=lga-|- (Igfe)X аналогичен методу подгонки пря- мой, описанному в разд. 15.2.1, за исключением того, что исходные данные У заменяются их логариф-
мами. Все вычисления приведены в табл. 15.4. Используя соотношения lgy=>", !ga=a', lg b=b', перепишем урав- нение в виде cY’x = a'+b'X и получим систему линейных урав- нений | Na' + (XX)b' = ЕГ'; ( (LX)a' ^(ZX2)b' = ^ХГ. Подставив в систему необходи- мые значения из табл 15.4, полу- чим | *17а'+ 1366' =29,6594; ( 136а' 4- 14966' = 244.1499. Разделив первое уравнение на —17, а второе на 136 и сложив: -а'- 86'=1,74467 + 116'=1,79522 36'=0.05055, получим 6'= 0,01685; а'= 1.609871. Уравнение логарифмической пря- мой принимает вид: СУ'Х = 1,60987 + 0.01685Х. Подставив Х=0, 1, ..., 16, .получим значения логарифмического тренда <У'в=1,6099, с У',=1,6267, вУ'«= = 1,87947. Прогнозные значения найдем из уравнения, заменив в йем X числами 17, 18, .... 24. Теперь мы можем найти парамет- ры eYx=abx и значения тренда CYX- Параметры будут просто антилога- рифмами а' и 6', так что СУХ—40,72 (1,0396)Л. Антилогарифмы СУХ для ГУ\ приве- дены также в табл. 15.4. Так как параметры функции теперь извест- ны, то значения CYX находятся пря- мо из уравнения тренда подстанов- кой значений Х=0, 1, ..., 16. На- пример, сУо—40,72 (1,0396) =40,72. Этот результат позволяет сделать вывод, что в 1947—1963 гг. промыш- ленное производство в США росло в среднем на 3,96 или 4% в год. (Более точная формулировка тако- ва: значения тренда, полученные ап- проксимацией индекса экспоненци- альной функций cYx=abx, возрас- тали приблизительно на 4% в год). Итак, г=4 сравнимо с г=4,2, полу- ченным ранее. Заметим, что разни- ца мала. В общем, если ряды не слишком колеблются и изменяются в среднем на постоянный процент и рассматриваемый промежуток времени не слишком коротко, то раз- ница между двумя г будет не слиш- ком велика. х Подгоняя логарифмическую кри- вую к данным из всего промежутка 1947—1971 гг., сравним значения тренда с прогнозными значениями из табл. 15.4. Например, трендовые значения в 1964 и 1971 гг. равня- лись сУп=83,3 и СУ24=113,1. Им со- ответствовали прогнозные данные СУ17=78,8 и сУ24==103,3. Разница трендовых и прогнозных значений невелика и составляет 5,7 и 9,4%. Вычисление темпа изменений в процентах за единицу времени ши- роко применяется при анализе и сравнении временных рядов. Итак, повторим: значение средней скоро- сти изменения может привести к ошибочным выводам, если ряды не сопоставимы по порядку величин. Темп изменений в процентах можно вычислить как для индексов, так и для рядов, построенных в любых единицах измерений. Методы под- гонки данных с помощью многочле- нов третьей степени и модифициро- ванных экспонент (кривые роста) описываются в работе Крокстона, Коудена и Клейна «Общая при- кладная статистика». Полулогарифмические графики. Если надо сравнить графически два или более ряда по их темпам изме- нений, то используют координатную систему, по вертикальной оси ко- торой откладывают логарифмы. На рис. 15.7 показан такой график, на котором изображены логарифмы ин- декса промышленного производства и два тренда. 341
Вертикальная шкала такого гра- фика всегда маркируется числами от 1 до 10. Если два графика на- кладываются друг на друга, то гра- фик называется двухциклическим полулогарифмическим, а шкала про- сто повторяет себя, сначала от 1 до 9, а затем от I до 10. Шкала трехциклического графика содер- жит отрезки от 1 до 9, снова от 1 до 9 и, наконец, от 1 до 10. Рис. 15.7. Индекс промышленного произ- водства, SA. 1947—1971 гг. (данные взяты из табл. 15,2) Расстояния между 1 и 2, 2 и 4, 3 и 6 и 4 и 8 одинаковы, поскольку 2 на 100% больше 1, 4 на 100% больше 2 и т. д. Расстояния между 2 и 3 и 4 и 6 также одинаковы, так как 3 на 50% больше 2, а 6 на 50% больше 4. Такое упорядочение вер- тикальной шкалы дает возможность изобразить ряды с постоянным тем- пом изменения в процентах в виде прямых. Ряды из столбцов 7 и 8 табл; 15 1 будут изображаться в ви- де, близком к прямым линиям. Зна- чения логарифмической прямой сУ'х из табл. 15.4 представляют собой прямую и в случае арифметической шкалы. Значения экспоненциально- го тренда из той же самой таблицы будут представляться в виде кривой (ряды возрастают с возрастающей скоростью изменений) в арифмети- ческой координатной системе и в виде ^прямых на полулогарифмиче- ском графике. 342 Техника построения таких графи- ков состоит в умножении значений исходной шкалы на некоторое чис- ло. Это дает возможность сделать вертикальную шкалу совместимой с порядком величин ряда При изо- бражении индекса промышленного' производства исходную шкалу умножали на 20. Кривую можно сдвигать вверх » вниз без изменения ее вида, умно- жая исходную шкалу на соответст- вующее число. Например, если ис- ходную шкалу умножить на 40, то шкала станет 1-40=40, 2-40=80, 3-40=120, и кривая индекса сдви- гается вниз. Используя в качестве множителя 10, получим шкалу, маркированную числами 10, 20, 30, ..., 100. По- скольку индекс промышленного производства варьирует от 40 до 106,3, умножение исходной шкалы на 10 вынуждает использовать двух- циклический график, т. е. макси- мальное значение будет более 100. Следует заметить, что в качестве множителей надо брать такие круг- лые числа, как 10, 20, 50. Числа с множителем 22,5 изобразить было бы трудно, В случае, когда надо изобразить два или более рядов на одном гра- фике, надо использовать несколько шкал. Множители следует выбирать так, чтобы ряды не пересекались и не были слишком далеки друг от друга. Полулогарифмические графики из-за их свойств широко применя- ются. Если надо сравнить тренды рядов не относительно скорости из- менений, а относительно темпов, то следует воспользоваться полулога- рифмическим графиком. Многочис- ленные примеры таких графиков можно найти в справочнике «Анализ экономического положения» Мини- стерства торговли США и в журна- ле графиков Федеральной резерв- ной системы. Публикации ежемесяч- ные '. 1 Business Conditions Digest. US De- partment of Commerce. Federal Reserve Bo- ard's Chart Book.
15.3. СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭКОНОМИЧЕСКИХ ЦИКЛОВ Модель циклических колебаний временного ряда показана на рис. 15.2,в. В модели предполагается, что во временном ряду либо совсем от- сутствуют сезонные колебания, ли- бо они были предварительно ис- ключены. Прямая, сглаживающая ряд, изображает его тренд. В этом случае обычно каждое значение ря- да считают суммой трех компо- нент—а именно, тренда Т, цикли- ческой составляющей С и остатка /, представляющих чисто случайные ' нерегулярные флуктуации. Таким образом, Y=T+C+I, отсюда С+ +/=К—Т, т. е. равно разности меж- ду исходными значениями ряда и его трендом. Экономический цикл состоит из фаз подъема и спада, а следова- тельно, имеет верхнюю и нижнюю поворотные точки, обычно называе- мые пиком и спадом. Большой исто- рический анализ статистики эконо- мических циклов был проведен На- циональным бюро экономических ис- следований. Этот институт устано- вил хронологию экономических цик- лов Для американской экономики, которая везде сейчас принята. Им были даны определения поворотных точек для всей экономики в целом, которые называются опорными по- воротными точками. Используя обо- значения Р для пиков и Т для впа- днн, приведем некоторые из них: Т — август 1954 г., Р— июль 1957 г., Т — апрель 1958 г., Р— май 1960 г., Т—февраль 1961 г., Р — ноябрь 1969 г., Т — ноябрь 1970 г. Цикл, которым определены поворот- ные точки для всей экономики в це- лом, называется опорным циклом. Число месяцев (или лет) от впа- дины до впадины или от пика до пика называют длиной цикла. Итак, длина цикла, определяемая между токами впадин, будет 44, 34 и 117 мес. Длина фаз подъема равна 35, 27 и 105 мес. Соответственно фазы спада длились 9, 7 и 12 мес. Опорные поворотные точки для всей экономики устанавливались на основе поведения индекса промыш- ленного производства, показателя ВНП и показателей занятости. Поворотные точки каждого инди- видуального ряда называются спе- цифическими поворотными точками. Они редко совпадают с опорными поворотными точками. Итак, длина специфического цикла индивидуаль- ного ряда не равна в общем случае длине экономического цикла. Ког- да пики ,и впадины ряда устойчиво t предшествуют соответствующим опорным поворотным точкам, ряд называют опережающим. В случае ' совпадения поворотных точек — сов- падающим. Если поворотные точки индивидуального ряда запаздывают по сравнению с опорными точками, ряд называется запаздывающим. i Конечно, есть некоторые беспоря- дочно колеблющиеся ряды, к кото- рым эта классификация не отно- сится. Национальное бюро экономиче- ских исследований составило так называемый краткий список времен- ных рядов с предшествующими, совпадающими и запаздывающими поворотными точками. К опережаю- щим рядам относятся: средняя ра- бочая неделя, число производствен- ных рабочих, объем выпуска обра- батывающей промышленности, средненедельное число первичных заявлений на пособие по безработи- це, выплаты по штатной системе страхования от безработицы, чи- стые изменения в .организации биз- неса (число основанных новых фирм и банкротств), выпуск товаров дли- тельного пользования, объем кон- трактов и заказов на здания, соору- жения и оборудование, число раз- решений на новое строительство жилья, балансовые изменения запа- сов в обрабатывающей промышлен- ности и торговле, цены на промыш- ленное сырье, курсы акций, доходы корпораций после вычета налогов, отношение цены к издержкам на , труд на единицу продукции в обра- батывающей промышленности, из- 343
менения в задолженности по потре- бительскому кредиту. Совпадающие ряды: ВНП, про- мышленное производство, объем продаж в обрабатывающей про- мышленности и оптовой торговле, объем продаж в розничной торгов- ле, число лиц, работающих по най- му в несельскохозяйственных отрас- лях, процент безработных. Запаздывающие ряды: процент безработных, число лиц, занятых непрерывно свыше 15 недель, затра- ты предпринимательского сектора, балансовая стоимость, новые зда- ния, сооружения и оборудование, за- пасы в обрабатывающей промыш- ленности и торговле, издержки на труд на единицу выпуска продукции в обрабатывающей промышленности, сумма задолженности в торговле и промышленности по еженедельным отчетам коммерческих банков, бан- ковские проценты по краткосроч- ным производственным займам предпринимательскому сектору. • При изучении циклов в экономике рассматриваются не только их дли- ны, запаздывания и опережения, но и амплитуды. Амплитуды циклов изменяются со временем. Напри- мер, перед П мировой войной про- цент безработных доходил до таких цифр: 1908 г. —8,5%, 1915 г. —9,7, 1921 г,— 11,9, 1933 г. —24,9, 1938 г.— 19%. После войны про- цент безработных не превышал 7% (в годовом исчислении). Следова- тельно, амплитуда колебаний в ря- ду безработицы в послевоенное вре- мя уменьшилась. Как уже отмечалось, амплитуда колебаний зависит от того, в какой степени ряд чувствителен к колеба- ниям изменений дохода. С«этой точ- ки зрения очень показательна раз- ница между движением показателя 'выпуска конторского оборудования, выпуска автомобилей и производст- ва зубной пасты. . Статистический анализ экономи- ческого цикла состоит из ряда из- мерений и сопоставлений. Чтобы сделать эти измерения и сравнения более точными, надо изучать циклы 344 в их чистом виде, т. е. удалив из ряда трендовую составляющую н сезонные колебания. Наиболее ча- сто используемые при этом стати- стические методы включают подгон- ку трендов с точками перегиба и без них (скользящие средние), ме- тод Национального бюро экономи- ческих исследований (НБЭИ), ме- тоды элиминирования сезонных ко- лебаний, регрессионный анализ. Мы будем рассматривать эти ме- тоды в том порядке, как они перечислены выше. 15.3.1. Колебания вокруг тренда без точек перегиба Чтобы увидеть цикл в чистом ви- де, следует сначала аппроксимиро- вать данные прямой, параболой или экспонентой, т. е. найти тренд без. перегибов методом наименьших квадратов или каким-либо другим. Затем вычисляют значения тренда и вычитают из исходного ряда (или исходные значения делят на трендо- вые). В первом случае мы имеем разность между У и сУх. Во вто- ром— получаем процентные откло- нения У от СУХ. Метод анализа циклического дви- жения вокруг тренда без перегибов иллюстрируется на ряде, представ- ляющем собой отношения потреби- тельского кредита к располагаемо- му доходу. Ряд приведен в табл. 15.5. Данные аппроксимировались параболой, уравнение которой име- ет вид: с Ух=8,124 + 0.7079Х—0,01622№. ( Графики ряда и параболы показа- ны на рис. 15.8. Разности У—СУХ, приведенные в табл. 15.5 и изображенные на рис. 15.9, представляют собой цикличе- ское движение в чистом виде. Это- будут составляющие С4/ из тож- дества Y=T+C+I. Процесс подгон- ки к ряду трендовой линии, а за- тем вычитания трендовых значений из исходных значений ряда назы- вается очищением ряда от тренда? или его исключением.
Та блица 15.5. Отношение суммы предо- ставленного потребительского кредита к располагаемому доходу в 1947—1971 гг. (Л^. 124+0.7079 X—0.01622 А?) Гол X Г CYX V 4 8 1947 0 7,5 8.12 —0,62 92,3 1948 1 8,2 8,82 -0,62 93,0 1949 2 9,6 9,47 0.12 101,3 1950 3 10,4 10.10 0.30 103,0 1951 4 20,4 10.70 —0.30 97,2 1952 5 12,4 11,26 1,14 110,1 1953 6 12.5 11,79 0,71 106,0 1954 7 12.1 12,28 —0.18 98,5 1955 8 14,2 12,75 1,45 111.4 ' 1956 9 13,6 13.18 0J2 103,5 1957 10 13,6 13,58 0,02 100,1 1958 !1 12,6 13,95 — 1,35 90,3 1959 12 14,2 14,28 —0,08 99,4 1960 13 14.2 14,58 —0.38 97,4 1961 14 13,3 14.86 —1.56 89,5 1962 15 14,3 15,09 -0,79 94,7 1963 16 15,0 15.30 । —0,30 98,0 1904 17 16,1 15.47 0.63 104,1 1965 18 16.6 15.61 0,99 106,3 1966 19 16.1 15.72 0,38 102,4 1967 20 15,5 15.79 —0.29 98,1 1968 21 16.4 15.84 0,56 103,5 1969 22 16.2 15.85 0.35 102,2 1970 23 15,1 15,83 —0.73 95.4 1971 24 15.9 15,77 . 0.13 100,8 Примечания! I. Данные взяты Current Business/ 2. Значения У даны в (фоценгах. 1(3 Survey of слишком крут. Почти очевидно, что в начале роста амплитуда колеба- ний невелика. По мере развития тренда растет и амплитуда циклов. Для того чтобы сделать сравнимы- ми амплитуды циклов, вычисляют процентные отклонения от тренда, т. е. вычисляют (YfcYx)-100. Эти PiiC. 15.8. Отношение суммы представлен- ного потребительского кредита к распола- гаемому доходу (данное взяты нз табл. 15.5) i 1 I - I I » <•» I 1 1 11 1 t I I 1 I I I 1 Теперь исследователю легче уста- новить поворотные точки и опреде- лить длительность и амплитуду цикла и сравнить фазы подъема и спада. Точки становятся еще более очевидными, если сравнить поведе- ние обоих графиков на периодах 1950—1951, 1952—1953, 1956—1957, 1959—1960 гг. На рис. 15.8 эти пе- риоды описаны почти горизонталь- ными линиями. На рис. 15.9 они же представлены резкими спадами. За- метим, что мы используем ежегод- ные данные лишь для экономии ме- ста. Обычно же экономические цик- лы изучаются на месячных и квар- тальных данных, ежегодные же по- казатели используются. только • в случае, если нет других данных. Абсолютные отклонения от трен- да не сопоставимы, если тренд Рис. 15.9. Отклонения от тренда (отноше- ние суммы предоставленного потребитель- ского " кредита к располагаемому доходу; данные взяты из табл. 15.5) Рис, 15.10. Отклонения от тренда (отноше- ние суммы предоставленного потребитель- ского кредита к располагаемому доходу; данные взяты из табл. 15.5) 345
процентные отклонения показаны в табл. 15.5 и на рис. 15.10. Теперь относительная амплитуда первого цикла сопоставима с амплитудой' последнего. 15.3.2. Скользящая средняя Когда данные аппроксимируются трендом, чтобы легче увидеть цик- лическое движение, то необходимо, чтобы тренд сглаживал все циклы, пересекая их. Однако тренд без точек перегиба часто не удовлетво ряет этому условию. Парабола из рассматриваемого примера иллю- стрирует эту проблему. Например, из рис. 15.9 и 15.10 видно, что цикл между 1958 и 1967 гг. лежит ниже трендовой линии (опорные впадины НБЭИ для этого ряда приходятся на апрель 1958 г. и февраль 1961 г). Напротив, впадина 1954 г. (опорная впадина НБЭИ приходится на август 1954 г.) лежит лишь незна- чительно ниже трендовой линии. Сейчас мы покажем, что трендовая линия с точкой перегиба, называе- мая скользящей средней, более при- годна для анализа. Скользящая средняя (обозначим1 ее pMx,t где р — число временных интервалов) представляет собой тренд, сглаживающий цикл любого характера и длины. Наиболее часто Таблица 15.6. Вычисление скользящих средних Р 2 пу, *,= Р^ + (р—1)/2]>0(где р—число временных интервалов)» /^1 _ wt, .... wp) а) Длина цикла р равна нечетному числу временных интервалов Змх, 0 1 2 3 4 (к^У, 4* и^У, 4* — ,Л1, (WjF, + wtYt 4- wsYB)/Yu!j = ,Л12 (WiFj 4- 4- — ,Af, б) Длина цикла p равна четному числу временных интервалов X ух 5м X' 0 I У» у. 4-У3 4-У* + у. .. 4 — 4™1, * — 2 У« 4- 2У, 4- 2У, + 2У, + У« 1 у» “ 8 2 У» У. + У, + У,+ У« .. в + 4/йаг1 4 —• • л,- 2 3 У 1 а У, 4- 2Уа 4- 2У, + 2У« 4- у» 4 у. У, + У,+ У« + У, м 4 — 4JWlf , ” 8 5 У» .Л/4_ 2 6 у. 1 •а + * + -< • II * * У, + 2У, 4- 2У4 4- 2У,+ У. “ 8 346
Таблица 15.7. Вычисление скользящих средних 3МХ,-. »Г,-(1, I. 1); Ett-j = 3 Год X зм*- п 1947 0 7 ,5 7.54-8,2 + 9,6 „ о—1 =8,4 1948 1 8,2 О 1949 2 9,6 8,2 + 9,6+10,4 —г22—=9-4 1950 3 10,4 1951 9.6+10,4+10.4 4 10,4 3 —10,1 Првме 4 а н и е. Полны е ряду для зтнх СЕсользяищх приведены в табл. 15.8. = (1, 2. 2» 2t 1); Еа>; = 1 8 Гад X Yx 6м** 1947 0 7,5 • 1948 1 8,2 7,5 + 2-8,2 + 2-9.6 + 2-10,4 + 10,4 8 .-9.3 1949 2 9,6 8.2+2-9,6+ 2-10,4+ 2-10,4+ 12,4 1950 3 10,4 — — § 1 = 10,2 1951 4 10,4 9,6 + 2.10,4 + 2-10,4 + 2-12,4 + 12.5 о —11,1 1952 5 12.4 о 1.953 6 12,5 в, 5МЖ/; Л/=(1; 1.25; 1,5; 1.25; 1); £0.7 = 6 Год X г* 5М*' 1947 0 7,5 1948 1 8.2 7,5+ 1,25-8,2 + 1,5-9,6+ 1,25-10,4+ 10,4 fi У1 о 1949 2 9,6 О S 1950 3 Ю,4 8,2+ 1,25.9,6+ 1.5-10,4+1.25-10,4+12,4 6 . . — 0,2 1951 4 10,4 9,6+ 1,25-10,4 + 1,5-10,4 + 1,25-12,4+ 12,5 1952 5 12,4 6 1953 6 12.5 ее используют для выделения цик- лических и сезонных колебаний. Способ вычисления tMx, скользя- щих средних третьего порядка при- веден в табл. 15.6,а и 15.7,а. Скользящие средние могут быть взвешенными и простыми. Приве- денная ниже скользящая средняя третьего порядка простая. Ее вы- числяют (это видно из таблицы) по- следовательным осреднением каж- дых трех точек. Простую ЛМХ, вы- числяют аналогично, так как каж- дая ее точка равна средней четырех последовательных точек исходного ряда. Если скользящую среднюю вы- числяют для нечетного числа перио- 347
дов, то индекс р в рМх, — нечетное число. В этом случае индекс х' так- же целое число, и можно сказать, что рМх, центрирована в точках X. Для ,Л1х, и ЛГ = (О. 1, .... А-1) первое значение будет х’ = 1, а пос- леднее x' = N~ 2; для &Afx, первое значение будет л'= 2, а последнее N — 3. Для tMx, первое значение х' — 2, а последнее х' = N — 2. Если р четно, то для 9МХ, первое значение х' будет л' —0,5, а пост леднее N — 1,5; для 4ТИХ, первое значение х'=1,5, а последнее х'= =N-—2,5 и т. д. Итак, х' находим из условия *'=1Х+(₽-1)/2]. т. е. из выражения для медианы по- следовательных значений X. Порядок вычисления ЛМ приве- ден в табл. 15.БД Однако центри- ровать tMx, в промежуточных точ- ках неудобно. В этом случае надо было бы вычислить еще одну сред- нюю 24Afx,. Эти вычисления также приведены в табл. 15.6,6, Откуда видно, что средняя двух скользящих средних является просто весовой скользящей средней пятого порядка ЬМХ, с весами р1Г/ = (1, 2, 2, 2, 1). Следовательно, чтобы центрировать в точках Л' (а не промежуточ- ных), надо вычислить весовую сколь- зящую с весами aUZ.==(l, 2, 1); чтобы центрировать ЛМХ, в точках X. применяют взвешенную скользя- щую 3МХ, с весами 7Wj=;(l, 2, 2, 2, 2, 2, 1) и т. д. Вычисление взве- шенной sAfx, с весами 1WZ/ = (1, 2, 2, 2, 1) дано в табл. 15.7.в. Значения р и веса скользя- щих средних рМх, определяются длиной цикла и условием, чтобы РЛ1Х, сглаживало цикл или циклы, пере- секая их. Несколько моделей цик- лов показано на рис. 15.11. Они построены с помощью знаковой функции так, что амплитуда лрини- 348 мает значения между +1 и —1. Эти циклы, таким образом, разли- чаются только длиной. Число на верху циклов рис. 15.11,0 обозначают длины циклов в единицах временных интервалов. Таким образом, длина первого цик- m ал 7 а} 7 * Ь'! -1 О , . У Wp(f;r,Z5;!,5;r,a5:D О -/ Рис. 15,11. Модели экономических циклов и их скользящие, средние (число Б над третьим циклом показывает, что длина цикла равна 5 единицам времени) ла р=3, второго р=4. Для каж- дого из этих циклов РМХ, должно равняться нулю в любой точке х'. Это условие удовлетворяется, если число р — порядок скользящей сред- ней— равно длине цикла. Если ,7ИХ, вычисляют для данных, для которых первый цикл имел вид кривой, изображенной на рис. 15.11 ,л, то все значения tMx, будут равны нулю. Значения рМх, будут равны нулю для простой скользящей , вычисленной для данных, образую- щих цикл с р=4. Однако нулю бу- дут равны и значения взвешенной скользящей среднего ett7/ = (it 2, 2. 2, 1). Поэтому ее и использовали вместо простой скользящей <A1X, в табл. 15.6,6 и 15.7,6. Все циклы на рис. 15.11,а не име- ют тренда. Если бы мы нашли со- вершенный временной ряд с трен- дом в виде прямой и циклами рав-
ной длительности и амплитуды, то значения тренда, найденного мето- дом наименьших квадратов, совпа- ли бы со значениями рМх, где р равно длине цикла Как мы видели на предыдущих примерах, обычно временной ряд содержит циклы с различными ам- плитудами и длиной. В результате скользящая средняя для р=3 будет сильно отличаться от скользящей Дата Рис 15.12. sMx. и ?МЖ. — скользящие срод- нив (отношение суммы предоставленного потребительского кредита к располагаемо- му доходу; данные взяты из табл. 15.8) Чъ О <1 Чз Су, Ь> th Су. Су Дата Рис. 15.13. Отклонения от скользящей сред ней (отношение суммы предоставленного потребительского кредита к располагаемо- му доходу; даяные взяты нз табл. 15.8) для р=7. Такие простые скользя- щие для разных р представлены в табл. 15.8. Эти же скользящие и процентные отношения их к исход- ному ряду изображены на рис. 15.12 и 15.13. На рис, 15.13 видно, что tMx, образует два цикла между 1954—1958 гг., что не верно, так как ’ Таблица 15.8. Простые скользящие средние и процентные отношения скользящих к исходному ряду (отношения потребительского кредита к доходу) Год X 1947 0 7,5 .1948 1 8,2 8.4 97.3 1949 2 9,6 9.4 102,1 1950 3 10.4 ГО, 1 102,7 10,1 102,6- 1951 4 10.4 11.1 94,0 10,8 96,3 1952 5 12,4 Г1,8 105,4 И.7 106,3 1953 6 12,5 12,3 101,4 12,2 102,2- 1954 7 12.1 12,9 93,6 12,7 95,4 1955 8 14,2 13.3 106,8 13,0 109,г 1956 9 13,6 13.8 98.6 13,3 102,6 1957 Ю 13.6 13,3 102,6 13,5 100,7 1958 11 12,6 13.5 93.6 13,7 92,2 1959 12 14.2 !3»7 104,0 13,7 103,7 I960 13 14.2 13,9 102.2 13,9 102,2 1961 И 13,3 13.9 95.5 14,2 93,4 1962 15 14,3 14,2 100.7 14,8 96,6 1963 16 15.0 15,1 99.1 15,1 99 4 1964 17 16.1 • й.9 101.2 15,3 105,4 1965 18 16.6 16.3 102.1 15,7 103.8 1966 19 16.1 16J 100,2 16,0 100,7 1967 20 15.5 16,0 96,9 16,0 96,9 1968 21 16,4 16.0 102,3 16,0 102,7 1969 22 16.2 15,9 101,9 1970 23 15.1 15,7 96,0 1971 24 15,9 Примечание. Дяы«е вяягы нз табл. 15.5. в этом периоде наблюдался только один цикл. В периоде 1961 — 1970 гг. aAft,. показывает три цикла, а гМх, — два. Это происходит потому, что tMx, имеет меньше точек перегиба, чем (см. рис. 15.7). Связь между значениями сколь- зящих средних и исходными данными видна из рис. 15.11. На рис. 15.11,(7 изображена простая скользящая eAfx,„ Как и следовало ожидать, лМх, равна нулю для всех X, если временной ряд образуют циклы длительности /7 = 5. Если та же простая сколь- зящая 6МХ, считается для рядов, со- держащих циклы другой длины, ТО' ЯМ , имеет вид некоторой кривой. На рис. 15.11,в изображены взве- шенные скользящие с весами 5^= = (1; 1,25; 1,5; 1,25; 1) и Sw,-6. Эти 349
веса получают следующим обра- зом *. Их находят для циклов дли- тельности р=2, р==3, р=4 и р=5 таким образом, чтобы взвешенная сглаживала (пересекала) эти цик- лы. Затем веса осреднили и полу- чили sWj. На графике видно, что для циклов р (3, 4, 5) взвешенная скользящая значительно луч- ше, чем невзвешенная ,МХ,. В то же время она будет хуже для цикла р=7. На рис 15.11 показаны взвешен- ные ,Л4д, для весов ,М.= (1,1 7/6, 9/6, 7/6, 1,1) и Swj=47/6. Ве- са находили так же. Результаты по- лучили гораздо лучше, чем если бы мы подбирали тренд с помощью взвешенных и простых ,МЖ„ Если должна быть вычислена скользящая, эквивалентная tMx„ в годовом сочетании на основе ряда месячных данных, то ее порядок р должен равняться 60. Однако, чтобы центры приходились в точках X, следует взять рг-=61. Конечно, tMx должно быть взвешенной скользя- щей с весами е1Н7,=(1, 2, ..., 2, 1), но для такого большого р разница между взвешенной и простой сколь- зящими будет незначительна. Когда выбирают скользящую среднюю, соответствующую времен- ному ряду, содержащему несколько циклов, то надо прежде всего при- нимать во внимание длину циклов. Если временной ряд не содержит слишком длинных и слишком ко- ротких циклов, то РМХ, должно быть равно длине самого продолжи- тельного цикла. В других случаях оказывается более удобным брать р, немного меньшее длины наиболь- шего цикла. Понятие «немного меньшее» будет различным для ря- дов месячных, квартальных и го- довых данных. 1 Более подробное описание метода см. Melnyli М. Some Statistical Methods in the Study of Long Swings, 1965 ASA Pro- ceedings, op. cit. •350 15.3.3. Методы процента средней и средних циклов Еще сравнительно недавно ана- лиз экономических циклов пред- ставлял исключительную важность для экономистов. Чтобы глубже и детальнее понять циклические про- цессы в экономике, сравнивались ‘ специфические циклы сотен времен- ных рядов. Вероятно, наибольший вклад в этом направлении был сде- лан учеными из НБЭИ. Статистические методы, долгое время используемые НБЭИ в ана- лизе экономических циклов, корот- ко можно охарактеризовать следую- щим образом. Сначала фиксируют поворотные точки. Затем вычисляют средние арифметические месячных или квар- тальных данных для одного цикла и отдельные значения ряда в этом цикле выражают в виде процентно- го отношения к этому среднему. Таким образом производят анализ специфических циклов. Те же са- мые ряды, однако, расчленяют на сегменты, соответствующие опор- ным точкам экономического цикла. Как и ранее, вычисляют арифмети- ческие средние на указанных интер- валах и рассчитывают процентные отношения. С помощью этого метода удается частично освободиться от тренда и сделать сопоставимыми отдельные циклы, сравнивая процентные отно- шения фактических значений к сред- ним. В результате значительно об- легчаются анализ циклов и особен- но детальное сравнение фаз подъе- ма и слада. Подробное описание этого метода с сотней примеров можно найти в хорошо известной книге Бернса и Митчелла «Измере- ние экономического цикла», опуб- ликованной в 1946 г. НБЭИ. Теперь в НБЭИ используется дру- гой метод, позволяющий более кор- ректно сглаживать циклы. Это ме- тод построения трендовой линии «среднего цикла» (рис. 15.14). Что- бы найти эту трендовую кривую, прежде всего фиксируют поворот-
пые точки временного ряда. Затем находят средние арифметические циклов и наносят горизонтальные прямые, соответствующие им. Про- водят вертикали к этим линиям в точках, лежащих посередине между нижними и верхними поворотными точками, и затем соединяют точки пересечения этих вертикалей со средними линиями. Полученная ли- ния и будет искомым трендом В НБЭИ имеется вычислительная про- грамма для этого метода. Рис. 15.14 Построение тренда средних циклов (данные взяты из М. Melnyk. Long Fluctuations an Real Series I American Economy, op. cit., p. 31): /—средняя линия; 2 — исходные данные, 3— ли- ния тренда; 4—средине точки Основная цель метода — выде- лить циклы так, чтобы длина каж- дого цикла просматривалась визу- ально. С помощью скользящей сред- ней нельзя сделать это так хорошо. Однако вычисление скользящих средних не требует фиксации пово- ротных точек и во многих случаях дает результаты, не слишком отли- чающиеся от результатов метода среднего цикла. 15.4. СЕЗОННЫЕ КОЛЕБАНИЯ И ИНДЕКСЫ СЕЗОННОСТИ Временной ряд с сезонными коле- баниями можно представить сле- дующей моделью; У=Т+С+5 + Г. Если ряд содержит сезонные коле- бания, но не содержит циклические, то модель имеет вид У=Г+5+/. Графики таких рядов показаны на рис. 15.2,г и д. Сезонные колебания являются выражением сезонных явлений, ко- торые имеют место ежегодно неза- висимо от фаз экономического цик- ла и движения тренда. Как уже от- мечалось, такие сезонные явления связаны с погодой, праздниками, обычаями. Они отражаются на про- изводстве и продажах товаров и услуг в том смысле, что производ- ство и продажи во время «пиково- го» сезона будут выше средних, а во время «застойного» сезона—ни- же средних. Средние равны либо средним арифметическим по двенад- цатнмесячной продукции или значе- ниям трендовой линии, пересекаю- щей сезонные циклы. Анализ сезонных колебаний в форме отклонений У от годовой средней полезен лишь в случае,, когда во временных рядах отсут- ствуют явно выраженные цикличе- ские колебания, а наблюдаются только умеренные изменения тренда. Во всех других случаях следует аппроксимировать данные трендом и изучать отклонения сезонных ко- лебаний У от тренда. Анализ сезонных колебаний пред- ставляет интерес и для фирм, и для правительства, и для других инсти- тутов по множеству причин. Каж- дый год новогодние продажи во многих отраслях экономики горазда больше, чем, скажем, например,, октябрьские. Сезонный рост, срав- ниваемый с тем же периодом време- ни в прошлом году, может быть и больше, и равен, и меньше прошло- го. Если сезонный рост в этом году будет больше прошлогоднего, то можно считать, что экономика всту- пила в фазу подъема экономическо- го цикла. Противоположное состоя- ние имеет место, если сезонный рост данного года меньше сезонного ро- ста предыдущего. Если показатель объема строи- тельной деятельности падает с ок- тября по декабрь, то это не обяза- тельно означает спад в строительст- ве. Спад наблюдается лишь в том случае, если это падение будет боль- ше, чем в предыдущем году. Рост цен на определенные виды сельскохозяйственной продукции 35Ъ
Таблица 15.9. Затраты на новые здания, сооружения и оборудование в 1966—1971 гг., млрд. долл. Год Квар- тал X I 2 3 1966 I 0 13,33 15,0 II I 16,05 15,8 III 2 15.92 16,02 .99,38 15,9 IV 3 18.22 16,24 112,19 16.6 1967 I 4 1436 16,36 88,39 16,3 II 5 16.69 16.38 101.89 16,5 III 6 16,20 16,45 98.48 16,2 IV 7 18,12 16,55 109,49 16,5 1968 I 8 15,10 16,65 90,69 17,0 II 9 16,85 16,83 100,12 16,6 III 10 16,79 17,06 98,42 16,8 IV И 19,03 17.43 109,18 17,3 1969 I 12 16,04 17,98 89,21 18,0 II 13 18,81 18,59 101,18 18,6 (II 14 19,25 19,07 103,66 19,2 IV 15 21,46 19,44 110,39 19,6 1970 I 16 17,47 19,76 88,41 19,7 II 17 20,33 19,91 102,11 20,1 III 18 20,26 19.96 101.50 20,2 IV 19 21,66 20,02 108,19 19,7 1971 1 20 17,68 20,04 88,22 19,9 (1 21 20,60 20,19 102,03 20,3 III 22 20.И 20,1 IV 23 23,04 21,0 Примечания: 1. Давдые взяты из Survey of Current Business. 2. Столбцы: /—взвешенная 5Л1 , с etF. =0, 2,2, •* < 2. I); 2—процвггмые отклонения от 6Afx/ — — (К 3 — У. очищенный от сезонности ул/3/. весной необязательно означает ин- фляцию. Если цены вырастут мень- ше, чем в прошлом году, то можно •сказать, что средний уровень цен падает. Существование сезонности в про- дажах и производстве создает труд- ности для управления. Новогодняя торговля требует дополнительных рабочих рук и больше денег для поддержания запасов Периоды се- зонных застоев порождают сверх- безработицу. Поэтому очевидно, что любая фирма будет стремиться уменьшить амплитуду сезонных ко- лебаний или по крайней мере знать точно, что они собой представляют. В связи со всем сказанным можно •выделить две основные причины, по которым проводят статистический анализ сезонности. Одна — это необ- ходимость элиминирования сезонных •колебаний, чтобы в чистом виде рас- 52 смотреть циклические движения. Операция исключения сезонности называется «очищением временных рядов от сезонных колебаний» или «сезонным сглаживанием». Буквы S4 (seasonelly adjusted) и ASX (not seasonallyadjusted) использу- ются во многих источниках для обо- значения очищенных и неочищен- ных от сезонных влияний рядов. Другая причина анализа — это желание фирмы изучить подробно само явление сезонности. Для этого вычисляют средние характеристики сезонности для заданного ряда. Один из наиболее простых (и во многих случаях наиболее адекват- ный) методов нахождения средних характеристик сезонности и очище- ния ряда от сезонности состоит в вычислении индексов сезонности. Рассмотрим метод на примере квар- тального ряда расходов на новые здания, сооружения и оборудование, приведенного в табл. 15.9 и на рис. 15.15. Вычисления проводят в следующей последовательности. 1. Поскольку данные квартальные, то ряды имеют период сезонности р=4. Предварительно из ряда нужно исключить тренд. В идеальном случае необходимо вычислить про- стую скользящую 4ТИЛ,. Но поскольку среднюю следует центрировать в точках X, то применяют взвешен- ную скользящую с весами tW-= = (1, 2, 2. 2, 1). Эту скользящую приводят в столбце 1 табл. 15.9 Если ряд представлен месячными данными, то надо рассчитать tiMx, Дета Рис. 15.15. Расходы ла новые здания, со- оружения и оборудование и взвешенные скользящие средние (данные взяты из табл. 15.9)
c ,>, = (!. 2, 2, 2, 2, 2, 2, 2. 2, 2, 2, 2, I). Однако поскольку в этом случае число р велико, можно ис- пользовать простую 2. На следующем этапе выра- жают исходные данные У, в виде процентных отношений к jMx„ т. е. вычисляют (Yx/tMx,)-100. Результаты представлены в столбце 2 табл. 15.9. 3. Далее процентные отношения из столбца 2 классифицируют по кварталам (или месяцам, если дан ряд месячных данных) и по годам (табл. 15.10). Для каждого кварта- ла (или месяца) вычисляют сред- ние. В нашем примере арифметиче- ское среднее для первого квартала равно 89%. Это означает, что расхо- ды на новые здания, сооружения и оборудование в США в первом квартале составляли в среднем 89% скользящей средней, или были на 11% меньше ее. В четвертом квар- тале расходы составляли в среднем 110% скользящей, т. е были выше ее на 10%. Таблица 15.10. Вычисление индекса сезонности Год 1 II Ш IV 1966 99,38 112,19 1967 88,39 101,89 94,48 109,49 1968 90,69 100,12 98,42 109,18 1969 89,21 101,18 103,60 110,39 1970 88,41 I02J1 101,5 108,19 1971 88,22 102,03 444,92 507,33 501,44 549,44 Примечания: I. Данные взяты нз табл. 16.9. 2. Средние арифметические. 88,9?И 101.106 100,268 10X888, сумма средних; 400.62т; вддекс сеэсиности; 83.9 101,3 100,1 I09J. 3. Чтобы получить индекс се юнжктн, арифмети- ческие средние умножают на А — 0,99844. где Л = =<00/400.626. Средние арифметические в нашем случае получали осреднением пяти чисел, соответствующих 5 годам. Если сезонные колебания не одно- родны от года к году, то, чтобы вы- числить индексы сезонности, надо иметь более длинные ряды. Для 6 лет и более следует внимательно 23 -232 изучить таблицу и вычеркнуть наи- большее и наименьшее значения по всем кварталам (или месяцам). Как известно, среднее, вычисленное та- ким образом, называется преобразо- ванным средним. 4. Наконец, вычисляют преобра- зованные средние. Для совместности сумма этих средних должна быть равна 400 (в случае месячных дан- ных она должна равняться 1200). Сумма средних равна 400,626 (табл. 15.10). Следовательно, каж- дую среднюю надо умножить на не- которое значение. Множитель дол- жен удовлетворять условию 400,626 А=400, откуда 6=0,99844. Умножив все средние на k и округлив, полу- чим индексы сезонности S/1=88,9, $/ц=101,3, S/in= 100,1, S/iv=109,7, a 2S/,=400 Согласно этому индексу затраты на здания, сооружения и оборудо- вание в США в I квартале в сред- нем на 11,1% ниже значений трен- довой линии. Для II квартала они на 1,3% в среднем выше трендовых значений. Очистить ряды от сезонных коле- баний означает получить кривую, похожую на кривую скользящей средней. Ряды делятся на индексы сезонности. Результаты приведены в столбце 3 табл. 15.9. Итак, очи- щенное значение Уо=13,33/0,899= =15, У1=16,05/1,013=15,8 и т. п. Очищенные ряды надо сравнить со значениями скользящих средних. Действительно, если сезонные явле- ния одинаковы в каждому году, то не будет разницы между скользя- щими средними и очищенными зна- чениями. Графическое сравнение двух таких рядов—а именно, значений из столбцов 1 и 3 табл. 15.9 — можно увидеть на рис. 15.16. Из рисунка видно, что оба ряда очень близки друг к другу, а имеющиеся отклоне- ния невелики. Это отражает тот такт, что сезонные влияния не изме- няются от года к году. Во многих рядах, однако, явления сезонности не носят регулярный характер В этих случаях разница между очи- 353
шенпыми значениями и скользящей средней резко выражена Таким образом, представляется естествен- ным использовать для очищения от сезонности скользящие средние. Однако мы знаем, что при вычис- лении скользящих мы теряем неко- торые значения. Поэтому иногда приходится очищать с помощью индексов сезонности. Рис. 15.16. Очищенный от сезонности ряа расходов на новые здания, сооружения и оборудование я взвсшсгатая скользящая средняя пятого порядка (данные взяты из табл. 15.9) Циклические колебания анализи- ровать гораздо легче, если предва- рительно исключить из ряда сезон- ные колебания. Это ясно видно, если сравнить рис. 15.15 и 15.16 Во многих случаях ряды, очищенные от сезонности, представляют больше интереса, чем исходные. Лучшими примерами этого являются показа- тели цен, безработицы, промышлен- ного производства. Рассматривая ряд безработицы, любой человек скажет, что этот показатель являет- ся индикатором состояния экономи- ки в целом. Другими словами, лю- дей не интересуют скачки, связан- ные с сезонностью, а представляют интерес лишь процессы, • присущие экономическому циклу. Эти процес- сы нагляднее представляются с по- мощью очищенных рядов, чем исходных. Когда в газетах пишут, что цены в последний месяц выросли, то важно знать, соответствует ли этот рост ряду, очищенному от сезонно- сти, или нет. Если рост цен будет больше, чем это показывает индекс сезонности, то мы имеем дело с ин- фляцией. Если цены относительно этого индекса вырастут меньше, то можно сказать, что общий уровень 354 цен снижается. Аналогичные выво- ды справедливы и относительно индекса промышленного производ- ства и других показателей. Ряды, очищенные -от сезонности, применяют при прогнозировании. Последнее значение ряда также должно быть свободным от сезон- ных воздействий. Предположим, что временной ряд из табл. 15.9 теперь будет представлять продажи неко- торой фирмы; последнее значение ряда (это значение соответствует четвертому кварталу 1971 г.) рав- но 23,04. Очищенный от сезонности, этот член примет значение 21. Он на 4,5% больше, чем в предыдущем квартале 20,1. Однако экономист приходит к выводу, что это возра- стание случайно, потому что в пре- дыдущих двух кварталах наблюда- лось падение продаж на 2 и 3% со- ответственно. Пусть данный прогноз делают для очищенного ряда продаж; та- ким образом, прогноз на I и II квар- талы составит 21 -0,98—20,6 и 20,6X X 0,97=20. Конечно, это прогноз тренда, а не действительных про- даж. Чтобы сделать его прогнозом фактических продаж, надо умно- жить оба значения на индексы се- зонности. Получим 20,6-0,899=18,3 и 20-1,013=20,3. Если известно, что сезонность не- прерывно меняется, то индексы се- зонности надо часто перевычислять. Иногда это делают каждый год. Существует также проблема и нере- гулярных колебаний; если они зна- чительны, то их также следует сгла- дить. Наконец при необходимости используют скользящие средние со сложными весами. 15.5. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ Временные ряды сравнивают с помощью регрессионного и корре- ляционного анализа по трем сооб- ражениям: 1. Чтобы вскрыть причинную связь. Наиболее общая и широко
известная связь существует между выпуском и инвестициями. Так как инвестиции являются фактором, обусловливающим изменение вы- пуска, то для каждого экономиста важно знать как можно более точ- но, какие изменения выпуска дейст- вительно связаны с изменениями инвестиций. Другой пример — связь между из- менениями выпуска и денежной массой. Поскольку колебания коли- чества денег не объясняют пол- ностью изменения выпуска, то в рассмотрение берутся проценты и скорость оборота денежной массы. Вносят ли они что-нибудь в объяс- нение динамики выпуска? Необхо- димость введения дополнительных факторов требует применения мно- жественного корреляционного ана- лиза. Экономические журналы и книги заполнены примерами регрес- сионного анализа, целью которого является установление причинной связи. . 2. Другая причина применения корреляционного анализа — необхо- димость в механическом сравнении колебаний различного вида во вре- менных рядах. Обычно такие срав- нения производят с учетом сезонных колебаний и экономического цикла. При этом сравнивают либо сами временные ряды, либо сезонные компоненты ряда с теоретическими, полученными по математическим формулам. Рассмотрим производство автомо- билей. Оно подчинено циклическим колебаниям. После определенного числа лет службы в автомобиле за- меняют покрышки сидений, глуши- тели, аккумуляторы и другие части. Если производство машин подчиня- ется циклическим колебаниям, то циклические флуктуации будет испытывать и производство запас- ных частей. Однако пики в первом будут предшествовать пикам во вто- ром. Следовательно, временной ряд производства автомашин будет ли- дирующим по отношению к ряду производства запчастей. Для производителя некоторых «3* запчастей важно измерить период опережения или запаздывания с большой точностью. Если он знает время пика в производстве автомо- билей, то ему легче будет сплани- ровать и спрогнозировать движение собственной продукции. Период опережения измеряют с помощью корреляционного анализа. Если два временных ряда сдвинуты относи- тельно друг друга, то сначала X, сравнивают с Х|, затем Xi с Х2, Xi с Х3 и т. д. Значение г находится для каждого момента. Наибольшее г при сравнении Xi с Хц-ь даст зна- чение k, которое называем перио- дом опережения (или запаздыва- ния). Другой пример применения кор- реляционного анализа для сравне- ния колебаний — проверка качества методов прогнозирования. Некото- рые методы прогнозирования (на- пример, экспоненциальное сглажи- вание) требуют определения опти- мальных весов, коэффициентов или параметров. Прогнозные ряды срав- нивают с историческими в каждый момент времени. Чтобы найти опти- мальный коэффициент (вес или па- раметр) k, в формулу подставляют несколько значений k и делают про- гнозы. Коэффициент корреляции вычисляют для каждого значения k, и берется то, которое соответст- вует наибольшему г. Аналогичный метод применяют при отборе двух и более методов прогнозирования. 3. Наконец, еще один вклад, ко- торый делает корреляционный ана- лиз временных рядов в прогнозиро- вание. Предположим, что из регрес- сионного анализа получили, что ВНП=У является функцией Xi — чистых капиталовложений, Х2— де- нежной массы, Х3 — процента. Для нахождения значения ВНП на 6 мес. вперед экономист сначала спрогно- зирует значения Хц Х2, Хз, а затем подставит их в регрессионное урав- нение. Используя некоторый уро- вень значимости, он вычислит гра- ницы прогноза. Между корреляционным и регрес- сионным анализом временных рядов 355
и каких-либо других данных нет ни- какой разницы. Однако один мо- мент, касающийся интерпретации результатов, надо всегда иметь в виду. Очень часто исследователи, особенно при анализе временных рядов, используют г в абсолютном смысле, полагая, что если г в двух задачах одинаковы, то корреляция тоже одинакова. Однако известно, что в общем случае это не верно (см. гл. 13). Эта проблема приобре- тает особенное значение в анализе временных рядов, поскольку коэф- фициенты корреляции здесь обыч- но высоки из-за наличия трендов. Этот момент можно объяснить так. Пусть временные ряды без тренда содержат два или три иден- тичных цикла, аналогичных пока- занным на рис. 15.11. Если эти ряды коррелированы с другими, то г=1. Если ряд перевернуть (т. е. просто' изменить знак на противоположный у данных, по которым был построен один из циклов), то коэффициент корреляции будет г=—1. Пусть теперь мы имеем прямую, аппрок- симирующую квартальные данные ВНП для послевоенного периода, а колебания вокруг этой прямой пе- ревернуты указанным выше обра- зом. У нас есть два ряда: один исходный, а другой с перевернуты- ми циклическими колебаниями. Если из обоих рядов исключить тренд и вычислить коэффициент корреляции для остатков, то, как и ожидали, получим г=—1. Однако коэффициент корреляции для двух рядов, из которых не был исключен тренд, положителен и высок. Он ра- вен 0,935. Причина этого заключа- ется в том, что он отражает доми- нирующую связь, а именно связь между трендами. Лишь в неболь- шой степени он описывает обрат- ную корреляцию, связанную с не- большими по амплитуде цикличе- скими колебаниями Еще один пример представляет интерес для читателя. Индекс про- мышленного производства мы кор- релировали с отношением задол- женности по потребительскому кре- 356 диту к располагаемому доходу (рис. 15.17). Коэффициент корреля- ции был г=0,87, стандартная ошиб- ка уравнения составляла $ух=1,31. Из обоих рядов затем вычитали тренды и изучали корреляцию полу- ченных разностей. Диаграмма рас- сеяния этих данных показана на рис. 15.17 и 15.18. Коэффициент корреляции стал г=0,44, зато стан- дартная ошибка упала до эуж=0,67. Следует заметить, что исключение тренда, конечно, не всегда умень- шает г. Итак, повторим. Коэффициент корреляции всегда можно использо- вать для сравнений, т. е. при опре- titrfexc промышленного лроизЗойстйя (T9&7frtf№) Рис. 15.17. Диаграмма рассеяния для ря- дов отношения суммы предоставленного по- требительского кредита к располагаемому доходу» отнесенного к индексу промыш- ленного производства (данные взяты чз- табл. 15.2 и 15.5) Индекс промышленного произЗоОо^За Рис. 15-18 Диаграмма рассеяния для ря- дов разностей между исходными и трендо- выми значениями отношения суммы предо- ставленного потребительского кредита к располагаемому доходу, отнесенных к индексу промышленного производства (разности для отношений взяты из табл. 15.5; разности для ИПП здесь не приве- дены)
делении длины шага запаздывания или проверке, какой из методов прогнозирования лучше. Однако высокий ко )ффициент корреляции не обязательно доказывает, что су- ществует связь между циклически- ми колебаниями двух временных рядов. Высокий коэффициент кор- реляции, полученный при сравнении прогноза с истинными данными, также не обязательно означает со- вершенство метода прогноза. Прямолинейный тренд можно исключить также с помощью мно- жественной регрессии. При этом в уравнение регрессии следует вве- сти независимую (объясняющую) переменную вида Х=1, 2, N, представляющую время Этот метод применяли к ряду отношений из табл. 15.51 и ряду индексов про- мышленного производства из табл. 15.2. Первый из них был взят за зависимую (объясняемую) пере- менную, второй и время X — за объясняющие переменные. Как уже говорилось, коэффициент корреля- ции между рядом отношений и ИПП был г=0,87, а стандартная ошибка 5ц,х=1,31. После включения в регрессию времени Х=1, 2, ..., Л’ коэффициент множественной корре- ляции стал /?=0,91, а стандартная ошибка уменьшилась до sy.i2=l,08. При использовании регрессии по этим данным для прогноза (рис. 15.17) кривая второго поряд- ка — парабола дала еще меньшую стандартную ошибку. Если для ли- нейной регрессии мы имели syx— =1,31, то для параболы получили $^‘=0,64. 15.6. МЕТОДЫ ПРОГНОЗИРОВАНИЯ Конъюнктурный и экономический прогнозы бывают краткосрочные, среднесрочные и долгосрочные. Краткосрочные обычно охватывают период до 1 года, среднесрочные от 1 до 5 лет, а долгосрочные — свыше 5 лет. 1 Имеется в виду отношение суммы предоставленного потребительского креди- та к располагаемому доходу. — Прим. ред. В современном мире люди пы- таются предсказать все то, что для них важно и более или менее пред- сказуемо. Прогноз в экономике ва-' жен из-за возможного использова- ния его для эффекта стабилизации. Разумные’ прогнозы побуждают лю- дей действовать более рационально и предупреждают их сверхреакцию. «Сверхреакция», в прошлом порож- даемая излишним пессимизмом или оптимизмом, вела к усилению коле- баний в занятости и доходах. Когда начинался спад, люди, боясь худ- шего, резко уменьшали запасы и капиталовложения, что еще больше обостряло положение. «Сверхреак- ция» в сторону оптимизма означала излишние капиталовложения и рас- ширения экономики и делала еще более болезненным последующий спад. Такие резкие колебания слиш- ком дорого обходились экономике, являясь иногда причиной массовых банкротств, недоиспользования ре- сурсов и снижая, таким образом, темпы роста. Эти явления были еще более болезненны для многих людей. Хороший прогноз в промышлен- ной фирме экономит средства на со- держание излишнего количества за- пасов, обеспечивает принятие более рациональных решений относитель- но производимого ассортимента и помогает выбрать политику разви- тия фирмы. Одна из важнейших проблем фирмы — получение крат- косрочного прогноза спроса, кото- рый определяет необходимый уро- вень запасов. Отсутствие прогноза заставляет фирму предпринимать излишние меры предосторожности, делать большие запасы. Конечно, и сокращение запасов может оказать- ся убыточным и привести к поте- рям. Итак, сделаем короткое резю- ме: краткосрочный прогноз исполь- зуется для определения текущего состояния экономики и спроса на интересующие фирму виды товаров. Эконометрические методы. Не- сколько лет назад экономические прогнозы касались только оценок валового продукта. Сейчас делают- ся предсказания не только нацио- 357
налыюго продукта, но и выпуска различных секторов экономики и отдельных предприятий. При этом применяются эконометрические ме- тоды. В частности, национальный продукт представляют в виде функ- ции многочисленных переменных, которые связаны уравнением или системой уравнений. Пусть в тече- ние некоторого периода времени произошли изменения. Например, возросли капиталовложения, спрос на товары и услуги, денежная мас- са, стабилизировался банковский процент, снизился темп роста заня- тости. К чему это приведет через несколько месяцев? Необходимые данные подставляются в соответст- вующее уравнение для получения прогноза. Некоторые из этих про- гнозов настолько надежны, что под- писка на их публикации стоит весь- ма дорого. Большая пионерная ра- бота в этом направлении была про- делана Я. Тинбергеном и Л. Клей- ном Опережающие и запаздывающие временные ряды. Прогноз нацио- нального продукта и некоторых его компонентов можно сделать с по- мощью анализа опережающих ря- дов. Вероятно, наибольший вклад в это направление внесли исследо- ватели из НБЭИ. Много (хороших опережающих и других рядов пуб- ликуется в ежемесячнике Министер- ства торговли, называемом «Анализ экономического положения». Он со- держит и графики, и временные ряды; подписчикам высылаются приложения с дополнительными данными, чтобы сделать информа- цию как можно более доступной. Интересной особенностью журна- ла является публикация так назы- ваемых индексов диффузии. Они классифицируются по индексам опережающих и индексам совпа- дающих рядов. Индекс диффузии рассчитывают для следующих опе- режающих рядов: средняя рабочая неделя в обрабатывающей промыш- 1 Оба лауреаты Нобелевской премии.— При », ред. 358 ленности, новые заказы на товары длительного пользования, утверж- денные увеличения капиталов ком- паний, прибыли, оптовые цены, це- ны на промышленное сырье, первые заявки на выплату страхования по безработице. Индексы диффузии выражаются в процентах числа растущих рядов по отношению к общему числу охва- тываемых индексом рядов. Если индекс составлен для 30 рядов, 24 из которых растут, то индекс диф- фузии будет DI=24/30=80%. Если только 6 рядов будут растущими, то DI=6/30=20%. В журнале публикуются прогнозы множества рядов. Прогнозы дела- ются обычно на 6 мес вперед. По- дробности по этому вопросу вы най- дете в публикациях НБЭИ. Наибо- лее важные из них: Мур. «Индика- торы экономических циклов», 1961; Мур и Шишкин. «Индикаторы подъемов и спадов», 1967'. Выборочные обзоры. Выборочные обзоры делаются для установления уровня спроса потребителя. Этот спрос представляет интерес как для экономиста, так и для производи- теля. Экономист знает, что если на- мерение покупать (склонность к по- треблению) невелико, то увеличение новых капиталовложений дает ма- лый прирост дохода и в экономике не будет наблюдаться подъема, и наоборот. Следовательно, только большой подъем спроса указывает на подъем экономики. Сотрудники отдела, ответственно- го за сбыт в фирме, также интере- суются мнением покупателей отно- сительно товаров фирмы. Такая информация особенно необходима, когда принимается решение о за- пуске в производство нового про- дукта. Часто имеется возможность либо с помощью рекламы довести до потребителя адекватное описание продукта, либо выбросить на рынок небольшую партию его. Реакция 1 Moore Geoffrey Н. Business Cycle Indicators (1961); Moore Geoffrey H-, Shishkin Julius. Indicators of Business Ex- pansions and Contractions (1967).
потребителей помогает решить, на- до ли вкладывать деньги в массо- вое производство. На первый взгляд кажется, что изучение намерений потребителей является абсолютно надежным ме- тодом прогноза. Но иногда оказы- вается, что это не так. Люди, кото- рые изучают прогнозные качества таких обзоров, установили, что не всегда результаты удовлетворитель- ны. Вместе с тем метод обзоров применяется довольно широко. Бо- лее подробно с этим методом мож- но познакомиться из книг Катона «Всесильный потребитель» (1964), Джастера «Ожидание и покупки: анализ повеления потребителей» (1964) ’. Последняя работа легла в основу организации ежекварталь- ного издания «Перспективы потре- бительского спроса» (Consumer Buying Prospects). Прогнозы, при- водимые в этом журнале, основыва- ются на результатах опроса 15000 семей, проводимого каждые три месяца. Опрос проводит Стати- стическое управление Министерства торговли США Прогнозы делаются на три квартала вперед. Они каса- ются автомобилей и запасных ча- стей к ним, бытовых приборов, ме- бели и односемейных домов. Экспоненциальное сглаживание н экстраполяция по прямой. Методы прогноза, описываемые выше, тре- буют больших затрат времени и де- нег. Бизнесмен или какая-либо про- мышленная фирма нуждаются в механических методах, которые не требуют сложных умозаключений и могут быть запрограммированы на вычислительной машине. Номен- клатура товарных запасов фирмы иногда насчитывает тысячи наиме- нований. Количество каждого това- ра изменяется во времени, вследст- вие чего можно анализировать соответствующий ему временной ряд. Однако такой анализ слишком трудоемок. Таким образом, следует 1 Katona George. The Powerful Consu- mer (1964); Justar Thomas F. Anticipations and Purchases: An Analysis of Consumer Behaviour (1964), найти .методы механического про- гнозирования, не требующие де- тального индивидуального анализа. Одним из широко используемых ме- тодов такого рода является метод экспоненциального сглаживания. Методы экспоненциального сгла- живания можно разделить на не- сколько видов, описываемых разны- ми математическими моделями- наиболее полезный — прямая ли ния. Он часто эффективен и npi прогнозе временных рядов с цикли ческими колебаниями, но без сезон ности и сильных случайных колеба ннй. Экспоненциальное сглажива ние по прямолинейной модели назы- вается двойным экспоненциальным сглаживанием. В основе метода экспоненциаль- ного сглаживания лежит скользя- щая средняя. Для иллюстрации метода рассмотрим ряд отношений из табл. 15.5. Вычислим значение скользящей средней tMx,t центри- руемое на пятом значении ряда. Имеем = (7,5+$.2 -|- 9,6 +10,4 + 4-10,4)/5^ 46,1/5 = 9,22. Следующее значение будет ; = (7,5 4-8,2 4 9,6 + 10,4+ 4- 10,4 - 7,54-12,4)/5 = 9.224- + (12,4-7,5)/5= 10,2. Для вычисления скользящей сред- ней р=20 мы должны хранить в па- мяти машины 20 значений. Следо- вательно, РМХ аппроксимируется sA?x. Используя введенные символы, перепишем выражение для sM5 в виде Л = Л + (Г.-Г.);5. Для получения 5Л?5 заменим Ко на 5М4: Л = М + О'» “ — 9.22 + + (12,4-9,22)/5 = 9.86. Это значение ненамного отлича- ется от значения 5М5, но зато в па- мяти теперь должно храниться все- го два числа: предыдущее значение pMx-i и последнее значение ря- да Yx. 359
Последнюю формулу можно пере- писать в виде Л = 5 (,м.)15 + (Г, - ,Л4,)/5= - Н (Л>+УJ/5=(1Ж+4/5.Л1. или в общей форме A=(Wx + (I -_1/р)рМх->- Заменив 5Х(У) на РМХ и приняв а=1/р, а р=1—1/р, получим 5х(У)=аУх+р5ж_1 (У). Это и будет формулой экспоненциального сгла- живания с постоянным параметром. Заметим, что а связано с р в рМх. В основе формулы двойного экспо- ненциального сглаживания по пря- мой лежат эти же соображения. Формулу можно переписать в виде S'" = (2 + «да s, - (1 + «МЛ Таблица 15.11. Двойное экспоненциальное и прогноза для ряда затрат на новзе где S'x=aSx Ц- £S'X _ t и Значение т равно числу периодов, на которые делается прогноз. Ре- зультаты вычислений по этой моде- ли наряду с несколькими прогноза- ми приведены в табл. 15.11. Прогноз зы в табл. 15.11,6 делятся на Ух, чтобы показать, насколько прогноз- ные значения отличаются от исто- рических Ух. Если эти процентные отношения в среднем меньше, чем отношения, полученные по какому- либо другому методу, то для про- гнозирования следует воспользо- ваться методом экспоненциального сглаживания. сглаживание (модель вычисления строительство и оборудование; а— 0,25, т = 2) Л Лг — аУх + ₽5д. _ t *'ж S'* 5'x S"x+S = (2 S' ) Sjf“( \+ 2 +т) ^'x 0 у. „ s»=y* s%-=y0 I У| — a^i + S't = 4-’jS'Q 2a \ / 2a\ 2 Sj = -j- (jSj — aSj + jS'j S"a = ^2 + Т/ •So | Ы 3 г. S",= ^2 + / 2a У - 3 s J I V+t, Is'1 4 У« „ / 2« x ( 2°^ S'\=k2 + 3 J 1 | (1+ъ ls'« б) X Sx s'x 'x+2 0 13,33 13,33 13,33 - 1 16,05 14,01 13,5 2 15,92 14.49 13,75 13,33 3 - 18,22 15,42 14,17 14,86 0,82 4 14,46 15,18 14,42 15,72 1,09 5 16,69 15,56 14-7 17,5 1.05 6 16,2 15,72 14.96 16,45 1,01 7 18,12 16.45 0,94 8 15,10 16,99 1.12 Примечание. Значения У* взяты к> табл. 15-9. ’ 360
Мы уже говорили, что а связано с порядком р скользящей средней. Можно показать, что «=2/(р-|-1) при р=1 для а=0,25. Это значение а используется в табл. 15.11. Оно не является оптимальным (в том смыс- ле, что лает лучший прогноз).Фор- мулы для определения такого опти- мума нет. Следовательно, а подби- рают с помощью метода проб и ошибок. Более подробное изложение мето- дов экспоненциального сглажива- ния можно найти в книге Брауна «Сглаживание, прогноз и предска- зания дискретных временных ря- дов»1. Автором настоящей книги был предложен другой метод прогноза, аналогичный только что изложен- ному2. Этот метод состоит в под- гонке прямой к У©, Уь У2 и У3 мето- дом наименьших квадратов. Обо- значим прогнозное значение У'х. Для получения его подставим Х=5 в это уравнение прямой. Теперь предположим, что имеем значенйе У4 и хотим спрогнозировать У'з.' Снова найдем прямую, аппрокси- мирующую значения У|, У2, Уз, Уч, и подставим А'—5 в полученное уравнение. Прогнозы по этой модели сравни- мы с прогнозами, полученными по методу двойного экспоненциального сглаживания, поскольку последняя модель также описывается прямой. Однако этот метод имеет некоторые преимущества, поскольку можно наложить ограничение на параметр Ь из уравнения Ух=й-г&Х. Эти ограничения обеспечивают возмож- ность дополнительного улучшения прогноза, которые оказываются иногда лучше прогноза по двойно- му экспоненциальному сглажива- нию. Можно накладывать на b еще более тонкие ограничения, что ведет к дальнейшему улучшению прогно- 1 Brown Robert Godeli. Smoothing, Fo- recasting and Prediction of Discrete Time Series. — Прим. ped. 2 Melnyk M. Experiments in Forecasting with a Straight-Line, 1972» Proceedings of прямой линией с помощью метода наи- меньших квадратов. за. Число точек, к которым, следо- вательно, подгоняется прямая, так- же выбирается методом проб и ошибок. 15.7. ВОПРОСЫ И ЗАДАЧИ Временные ряды» приведенные ниже» дополняют временные ряды, приведенные в тексте главы. Они должны сравнивать- ся не только друг с другом, но и с ука- занными в тексте. Оценка душевого производственного потребления шерсти, хлопка» искусственного шелка и ацетата и других искусственных волокон (потребление делится на численность населения континентальной территории, США, фунт) Год Шерсть • Хлсоок АцегятньА и иску ест- пенный гпеля Прочие искусст- волокна 1950 4.18 30,87 8,9 0,93 1951 3,14 31,55 8,26 1.27 1952 2,97 28,48 7,74 1,59 1953 3.1 27,92 7.66 1.75 1954 2,36 25,41 7.11 2,02 1955 2.5 26,51 8.58 2,61 1956 2,62 25,94 7,13 2.88 1957 2,15 23,7 6,87 ' 3,31 1958 1.9 22,21 6.47 3.3 1959 2 46 24,47 7,07 4,19 I960 2.27 23, (9 5,84 4,22 1961 2,2-1 22,21 6,14 4,69 1962 2.3 22.43 6,77 5.76 1963 2,17 21.33 7,6 6.67 1964 1,86 22,09 7.89 8,11 1965 1.99 23,01 7.97 10,05 1966 1,88 23,52 8,08 11,62 1967 1.57 22,21 7,53 13,06 1968 1.64 20,61 8,39 17,09 1969 1,54 19,32 7,95 18,51 15.1. Изобразите на графике все четыре ряда. Чтобы уместить на том же графике ряд для хлопка, используйте справа до- полнительную вертикальную шкалу с раз- рывом. Если кривые пересекаются, приме- ните различные линии для их изображения (пунктирную или из точек). а. Глядя на график» скажите» какие ряды растут и какие убывают с постоян- ной возрастающей и убывающей годичной скоростью. 6. Попытайтесь для каждого ряда по- добрать подходящую модель из серии мо- делей» приведенных в табл, 15.L Если не- обходимо, используйте комбинацию двух моделей. 15.2. Аппроксимируйте ряд для шерсти прямой линией с помощью метода наи- меньших квадратов. 361
а. Объясните смысл коэффициента Ь, б. Найдите среднее значение прироста относительно первого н последнего членов ряда по формуле (Ух—У0)/(^— 1) и к сравните со значением Ь. Можно ли для оценки средней скорости использовать этот метод? в, Нгйдите значение на прямой, cooi- ьетствуюшее 1974 г. Можно ли его при- нять в качестве прогноза? 15.3. Найдите среднюю скорость изме- нений относительно первого и последнего членов ряда для искусственного и ацетат- ного шелка. Имеет ли смысл так вычис- лять среднюю скорость изменений? ' 15.4. С помощью метода наименьших квадратов аппроксимируйте ряд для аце- татного н искусственного шелка параболой « найдите ее значение для 1974 г. Будет чли это значение близко к действитель- ному? 15.5. Найдите среднюю скорость изме- нений ряда для ацетатного и искусствен- ного шелка на периодах 1958—1966 гг. и 1959—1967 гг. Отметим, что оба периода отстоят друг от друга всего на год. Что говорят результаты о применимости мето- да «средней скорости изменений»? 15.6. Изобразите все четыре ряда на полулогарифмическом графике. а. Какой из рядов лучше всего опи- сывается прямой в логарифмах, б. Опишите рост рядов с помощью мо- делей нз табл. 15.1, используя формулы роста в процентах. 15.7. Аппроксимируйте ряд для хлопка с помощью модели сУх,=й6л\ используя формулу lgcyx=lgG4-(lgb)X ИЛИ сУ'х^ ±=a'-f-b X. а. ИЕггерпретируйте Ъ и г—Ь—1. б. Изобразите еУх с помощью полулога- рифмической и арифметической шкал. Сде- лайте замечание относительно пригодности Функции. в. Вычислите средний темп изменения в ряде для хлопка из формулы УХ=УО5Х. Как его сравнить с г^Ь—1, полученным в задаче 15.7,а? 15.8. Аппроксимируйте кривой еУх= ряд для прочих искусственных во- локон с помощью lgcy«—Iga+(lgft)X или сУ/х=а'+УХ. а. Найдите сУх—з<. Будет ли это зна- чение хорошим прогнозом? б. Интерпретируйте b и г=Ь—1. в. Вычислите средний теми изменений ряда для прочих искусственных волокон нз формулы Ух—УоЬх. 15.9. Банк насчитывает поквартально 5% годовых на сумму 500 долл., положен- ную в январе J962 г. Сколько денег будет на счету спустя 10 лет? Индекс потреби- тельских цен в 1962 г. был 90.6» а в 1972 г—125,3. Какова будет реальная стои- мость вашего вклада спустя 10 лет, если веса в индексе правильно отражают струк- туру ваших затрат? 15.10. Найдите поворотные точки в ря- де для хлопка н сравните их с опорными 362 Поворотными точками экономического цик- ла, приводимыми в главе Будут ли эти специфические точки опережающими, за- паздывающими или совпадающими? 15.11. Сравните амплитуды циклических колебаний в рядах для хлопка и для ис- кусственного шелка. Сначала сравните чх по арифметической шкале, а затем по от- носительной. 15.12. Нам нужно сравнить циклические колебания индекса промышленного произ- водства (ИПП) н ряда для хлопка. а Аппроксимируйте ряд ИПП подхо- дящей скользящей средней. б Аппроксимируйте ряд для хлопка скользящей средней. в. Вычислите YXIPMX, для обоих рядов м изобразите отношения на графике. г. Как сравнить оба ряда по их пово- ротным точкам? д. Как сравнить оба ряда по амплиту- дам циклических колебаний? е. Как сравнить динамику обоих рядов? 15.13. Ниже приведены значения квар- тальных выручек (в тыс. долл.) авиаком- пании, специализирующейся на зарубеж- ных рейсах. 1966 Ill 1037 1969 I 555 1972 1 771 VI 495 11 875 1967 1 11 468 866 III IV 1382 595 111 1327 1970 1 622 jv •546 II 1035 1968 1 II 508 753 HI IV 1629 687 III 1239 1971 I 693 IV 530 11 1138 III 1690 IV 773 а. Изобразите данные на графике. б. Вычислите взвешенную РЛ1*, для р=; =5 и Wj^(L 2, 2, 2» 1). в. Вычислите отношение Ух/sAk,. г. Найдите среднее арифметическое от- ношений из задачи 15.13,в для каждого квартала. Нужно ли в данном случае вы- числять преобразованное среднее? д. Если необходимо, измените среднее в задаче 15.13 так, чтобы получить индекс сезонности. е. Изобразите полученный индекс сезон- ности на одном графике с индексом се- зонности из табл. 15.10 и сравните их. Что означает S/n? ж. Очистите ряд выручки от сезонных колебаний и нарисуйте полученный ряд на том же графике, где вы изобразили ис- ходные данные (см. задачу 15.13,а). з. Изобразите на шкале отношений ряд ИПП на периоде 1966—1971 гг. и очищен- ный от сезонности ряд выручки. Сравните их темпы роста и динамику. и. Доход авиакомпании увеличивается с первого по второй кварталы в 1967 я 1968 гг. Однако доход во втором квартале
1968 Г. быЛ Мен),ine, чем во втором квар- тале 1967 г. Что это означает? 15.14. Индекс производства автомоби- лей (одна нз компонент ИПП; 1957— 1959 гг.=100) характеризуется следующими данными: Месяц 1368 i960 1970 Январь 179,5 187.7 146,2 Февраль 173,8 181.5 140,4 Март 193,4 184,8 152,2 Апрель 183,5 164,6 162,4 Май 202,4 165.3 173,2 Июнь 208,3 191,0 185,0 Июль 134,1 94,7 98.3 Август 45,6 91,9 68,9 Сентябрь 165,0 175,0 108.5 Октябрь 207,4 186 0 88,0 Ноябрь 212,2 172.3 87,5 Декабрь 192,0 155,3 137.6 а. Для изображения этих данных раз- метьте горизонтальную ось точками ян- варь, февраль,.. .1 декабрь. В результате вы сможете сравнить сезонные колебания трех рядов. б- Посмотрим на график ИПП нз зада- чи 15.4. Отметьте то чки 1968- 1969, 1970 гг. Отражается ли динамика ИПП иа пове- дении месячных данных по выпуску авто- мобилей? в. Какие р и ft7/ в рМт. надо взять для вычисления индекса сезонности? г. Каковы причины сезонных явлений? 15.15. Даны следующие два ряда: Ду- шевое производственное потребление шер- сти м средняя деъа за фунт стриженой шерсти, выплачиваемая фермерам США в 1950—1969 гг. Год Количест- ве, фунт Цена» цент Год Количест- во. фгнт Цене, цент 1950 4,18 62.1 I960 2,27 42,0 1951 3,14 97,1 1961 2,24 42 9 1952 2,97 54,1 1962 2,3 47,7 1953 3,1 54,9 1963 2.17 48,5 1954 2,36 53.2 1964 1,86 53,2 1955 2,5 42а8 ’965 1,99 47.1 1956 2,62 44,3 1966 1,88 52,1 1957 2,15 53.7 1967 1.57 39,8 1958 1.9 36,4 1968 1,64 40,5 1959 2,46 43,3 1969 1,54 41,8 а. Аппроксимируйте ряды прямой или параболой, вычислите разности У—СУ и Ху—СХ2» где Xs — количество шерсти, У — цены. б. Нарисуйте диаграмму рассеяния и найдите регрессионную функцию для р аз- ностей V-—«У и Xs—cXs- Вычислите Как цены реагируют на изменение коли- чества шерсти? в. Подгоняя регрессионную линию к ис- ходным данным, сравните результаты с ре- зультатами задачи 15.15. г. Введите в регрессию ряд Xs—0, 1. .... ...» 19 и выполните множественный регрес- . снонный анализ. Сравните результаты с ре- зультатами задачи 15.15„в 15.16. Применяя регрессионный анализг можно прогнозировать продажи, ^тот ме- тод дает особенно хорошие результаты, если определены запаздывания между объясняемой и объясняющей переменными Предположим следующее. Компания про изводит глушители для некоторой марки автомобилей. Глушители меняют каждые- три гола. Важно принять во внимание, что динамика рынка сбыта этих запасных ча- стей относительно постоянна. а. Вы имеете ряды данных производ- ства автомобилей и глушителей в 1965— 1973 гг. Что надо сделать с рядами, чтобы применить регрессионный анализ? б. Предположим, что у вас есть ряд производства автомобилей в 1974 г. Вычис- лите по регрессионной линии прогноз на 1974 г. и пределы его интервала. Что вы можете сказать о прогнозе? 1517, Чтобы изучить связь между кур- сами облигаций и акций, курсы облигаций класса ААА сравнивались с индексами: курсов акций Нью-Йоркской биржи «Стан.- дард энд Пур». Год Курс облигаций (процент номинала) Индекс ю рса акций 1941—ЖЗ гг.=10 1963 96,8 73,4 1964 95,1 86,2 1965 93,9 93,5 1966 86,1 91,1 1967 81,8 99,2 1968 76,4 107,5 1969 68,5 107,1 1970 61,6 91,3 1971 65,0 108,4 1972 65,9 121,8 Нарисуйте диаграмму рассеяния. Аппрок симируйте прямой, вычислите о₽я и г, ин- терпретируйте результаты. 363
ГЛАВА 16 НЕКОТОРЫЕ ДРУГИЕ СТАТИСТИЧЕСКИЕ ПРОБЛЕМЫ При отборе материала, приведен- ного в этой главе, не было никако- го единого принципа. Обсуждаемые ниже методы, по мнению автора, полезны и помогут читателю озна- комиться еще с несколькими сфера- ми применения статистического ана- лиза. 16.1. РАНГОВАЯ КОРРЕЛЯЦИЯ помощью парного (двумерно- го) корреляционного анализа, опи- санного в гл. 13, измеряют связь между двумя переменными. При этом мы предполагаем, что гене- ральные совокупности, характери- зуемые двумя факторами, измеримы и выражаются кардинальными ве- личинами *. В примерах, приведен- ных в гл. 13, рассмотрены следую- щие распределения; претенденты на работу, получившие оценки по интеллектуальному тесту и за про- изводственную деятельность, коли- чество товаров в соотношении с це- нами, процент химического вещест- ва и твердость некоторого мате- риала. В некоторых задачах либо один, либо оба признака совокупности не могут быть измерены. Предполо- жим, что некоторый предпринима- тель не может найти подходящего теста. Он имеет 20 претендентов на работу. Опросив претендентов, ко- миссия ранжирует их. Через неко- торое время ранги, установленные комиссией, сопоставляются с произ- водственной деятельностью претен- дентов. Была ли хорошей оценка комиссии? Если да, то занявший пятое место претендент после собе- седования должен быть на пятом месте по своей производственной 1 На шкале определены расстояния, и можно сказать, насколько одна величина отличается от другой. В противополож- ность этому ранги выражают только по- рядок следования, но не расстояния. Такие шкалы и величины называют порядковы- ми — Прим. ред. 364 деятельности. В то же время если начальное упорядочение очень отли- чается от ранжирования на базе производственной деятельности, то от такого способа отбора кадров следует отказаться. Существует ли связь между зар- платой и качеством преподавания в высших учебных заведениях? Если это так, то качество универ- ситета можно оценить на основе средней заработной платы профес- сорско-преподавательского состава (данные легко получить). Вообще говоря, трудно установить оценки, описывающие качество учебного заведения. Следовательно, ряд учеб- ных заведений нужно было бы ран- жировать комитету, состоящему из квалифицированных людей. Однако эти ранги нельзя сравнивать с зар- платой. Чтобы сравнить эти оба фактора распределения, надо ряд средних зарплат также заменить рангами. Некоторое время учебные заведе- ния, присуждающие ученые степе- ни, ранжировали на основе выбо- рочных опросов учащихся. Этп же учебные заведения ранжировали по выплачиваемой зарплате, данные о которой ежегодно публикуются в бюллетене Американской ассоциа- ции университетских профессоров. Обозначив через X, ранг качества, а через У* ранг зарплат для 15 высших университетов США, пред- ставим связь между двумя этими переменными в виде табл. 16.1. По- скольку университеты выбирались не случайным образом, распреде- ление не является выборочным. Сле- довательно, результаты нельзя рас- пространить на все университеты страны. Корреляция между двумя пере- менными определяется разностью между рангами |&|, где d,-=Xi—У,-. Эти разности можно осреднить, вы- числяя среднее отклонение рангов: RMD = 2 |rf,| W=54/15 =-'3,6.
Таблица 16.1. Ранги качества и зарплаты для 15 университетов США Исходные ранги ПреУ5раэ(ванные раягя Качество Зарплата dl \ И1 *1 Ai ltf,l 1 11 — 10 10 100 2 1 1 I 1 1 1 0 3 4 — 1 1 1 2 4 2 4 5 — 1 1 I 3 5 2 о 12 —7 7 49 4 11 7 6 2 4 4 16 5 2 3 7 7 0 0 0 6 7 1 8 3 5 5 25 7 3 4 9 14 —5 5 25 8 13 ' 5 10 10 0 0 0 9 10 1 11 6 5 5 25 10 6 4 12 15 —3 3 9 11 14 3 13 8 5 5 25 12 8 4 14 13 1 1 1 13 12 I 15 9 6 6 36 14 9 5 54 3-4 42 Примечание. Данные взяты из М= Melnyk, М. Ferrari- .Measuring the QlibIHv of Universities’. 1970. Soc, Stat.. Sect. Proceedings of the Amcric. Stat. Assoc. Если ранги для обоих рядов со- впадают, то Xi= Yit 2|<Л|=0 и ЯЛ1Р=0. Если Х/=1, 2, ...» N, a Yi=N, N—1, .1, то для четного N max2|d,-|=№/2, а для нечетного max2|d(| = (№—1)/2. Поскольку в нашем примере #=15, то max RMD = |(№ - 1)./2]/ЛГ= = (((15)*—1)/2]-15=7,5. Итак, среднее отклонение рангов RMD=3,6 здесь больше 0 и немного меньше половины maxRMD. На значение RMD может влиять несколько выбросов. Например, в рассматриваемой задаче #1=1. а У|=11, так что |d<|=10. Такие выбросы иногда следует исключать из рассмотрения. Итак, вычеркнем •их из табл. 16.1. Снова ранжируем ряды. Тогда для преобразованной задачи получим RMD21<-1 '# = 42; 14 = 3; В то время как 3,6 составляло 48% ст 7,5, 3 составляет 43% от 7. Ранжирование элементов распре- деления делается в предположении, что разность между Xt и Х<+1 в среднем остается постоянной. Если это не так, то ранжирование может привести к неверным выво- дам. Например, рассматривая задачу со 100 университетами, пог лучим, что разница между высоко- стоящими (соответствуют низким рангам) университетами очень ве- лика. Она уменьшается с возраста- нием рангов. Связь между X, и описывается коэффициентом ранговой корреля- ции гт. Этот коэффициент можно получить прямо из .соотношения (13.25). Имеем г_ £№ - Л) (Г, - У) _ Ks (Xj-lyso'j — У)1 - • Мы уже определили, что Для рангов следовательно, получим 2rf\ = 2(xi-^)’-2< + + 2^; - 22хг^.-, откуда X>xty~ 1/2 ((п“— /г)/6— Можно показать, что 2аЛ = 2^ = (1/12)(Я*-п). Подставив эти значения в формулу для г, получим r,= l-(6S4-,)/(«•-»). Для нашей задачи rr = 1 - 6-314/(3375 - 15)=0,561. Регрессионное уравнение Ух=а+ЬХ получим, вычислив а - {п 4- 1) (1 - rf)/2= (15+ 1) (1 - -0.561)'2 =7,02. Значение &=гг=0,561. Значения гт, а следовательно, и Ъ изменяются в пределах от —1 до 1. Если Х{= = Yt, 2dZi=0, то |г>| = 1, если = 1, 2, ..., п и Yi=n, л—1, ...» 1, то Г/ = 0. Если данные представляют вы- борку и п>10, то для проверки’ значимости гг вычисляют статисти- ку /* и сравнивают ее с теоретиче-' 365
ским t при v=n—2 степенях свобо- ды. Формула для вычисления t* имеет вид: /* = ггГ(Л-2)/(1-Л). Предположим, что данные нашего примера — выборка. Тогда Г = 0,561 у (15—2) '(1 -0,315)=2,4, что больше /=2,16 при v=13 и а= =0,025. Заметим, что ранговый кор- реляционный анализ не требует нормальности распределения. Приведенные выше рассуждения основаны на предположении, что каждое место может занять только один элемент выборки, т. е. двум или нескольким элементам выборки не может присваиваться одинако- вый ранг. Обычно такого повторе- ния можно избежать. Однако, если это невозможно, ранги для связан- ных элементов усредняют. Напри- мер, если трем элементам присвои- ли ранг, равный 12, то получим (12+13-j-14)/3=13. Если два члена получили ранг 12, то (12+13)/2= =12,5. В первом случае мы имеем ранги 1, 2, И; 13, 13, 13, 15, .... N, во втором —1,2, ..., 11, 12,5, 12,5, 14,.:.,лг 16.2. ЗНАКОВЫЙ КРИТЕРИЙ В разд. 9.3 мы сопоставляли щ и рг, сравнивая Xt с X?. Другими сло- вами, два множества данных срав- ниваются, так сказать, с точки зре- ния их параметров щ и р2- При этом предполагается, что распре- деление либо нормально, так что можно использовать выборки мало- го размера п\ и л2, либо не нор- мально, и тогда размеры выборок должны быть достаточно большими; oj=o2; выборки независимы. Если о не известно, то для проверки раз- ницы между pi и ц2 используют /-» статистику. Для сравнения тех же данных можно применить знаковый крите- рий. Однако, поскольку мы имеем тогда дело со сравнением отдель- ных пар выборочных значений, а не средних, знаковый тест (подобно 366 критерию х2) является непараме- трическим. Единственное требова- ние, которое выдвигается при использовании знакового крите- рия,— это требование непрерывно- сти распределения. Вид же рас- пределения роли не играет. Рассмотрим две выборки из за- дачи 9.9. Данные для этой задачи приведены в табл. 16.2. Применяя знаковый критерий, вычисляем раз- ности Xi—К-, но интерес для нас представляют не сами значения разностей, а лишь их знаки: плюс или минус. Таблица 16.2. Массы стальных заготовок, покупаемых у сталелитейных компаний X н У, г Х1 Yl Знак (А-—У-) 41,6 40,5 41.7 41,1 41.8 40.9 — 42.2 41,4 — 42.3 42,3 0 41.2 41.7 — 40,9 41.8 — 41,3 41,1 "1“ 41,5 40,7 41.7 4J.2 41.8 41.4 Если взять две выборки из одного и того же распределения и вычис- лить Xi—Yi, то представляется, что число знаков плюс и минус должно быть приблизительно равным неза- висимо от формы распределения. Если же число плюсов намного больше или меньше числа минусов, то следует признать, что обе выбор- ки отобраны не из одного и того же распределения. Заметим, что, если наименьшее значение У больше максимального значения X, все раз- ности —Yi будут отрицательны. Особенностями критерия являют- ся его широкая применимость и простота. Рассмотрим пример из табл. 16.2. Объем выборок здесь л=11. Однако разность одной пары чисёл, которая равна нулю, исклю- чим из рассмотрения. В результате объем выборок станет равным деся- ти. Число минусов равно двум, так
что только два значения У, больше соответствующих Xi. Ожидаемое число минусов 0,5 п= =0,5* 10=5. Какова вероятность по- лучения двух успешных испытаний, если ожидаемое их число равно пя- ти? Поскольку опыты независимы, то вероятность определяется бино- миальным распределением при п= =10, л—0,5 и Х=2. Эта вероят- ность равна 0,0439. Ее можно счи- . тать малой и сделать вывод, что та- кое небольшое число минусов не случайно, а свидетельствует о том, что элементы генеральной совокуп- ности X существенно больше эле- ментов генеральной совокупно- сти У. Если закупается много партий,то можно разработать правило, позво- ляющее на основе выборки прове- рять разницу между двумя партия- ми. Зададимся критическим значе- нием с, например с=2, и обозначим число минусов г. Тогда при г^2 элементы генеральной совокупности X существенно больше элементов генеральной совокупности У. При г>2 нельзя сказать, что X несуще- ственно больше или меньше У, пото- му что знаковый критерий является -односторонним. Для него Р(г^ ^2 л=0,5, /1=10) =0,0547, что и определяет уровень значимости. В нашем примере, конечно, одно- сторонний критерий является не- адекватным. Маловероятно, что про- изводитель, покупающий заготовки от двух сталелитейных компаний, интересуется только тем, больше ли .заготовки у фирмы X, чем У. Следо- вательно, здесь надо было бы при- менить двусторонний критерий, при котором г являлось бы не числом знаков минус, а числом менее ча- стых знаков. Примем опять л=10 и •с=2. Теперь если г^с, то X сущест- венно отличается от У; это означа- ет, что (в зависимости от знака) элементы X могут быть и сущест- венно меньше и существенно боль- ше элементов У. Уровень значимо- сти в этом критерии составляет а= =0,1094, что соответствует удвоен- ному значению одностороннего кри- терия. Повторим: чтобы применить зна- ковый критерий к задаче, приведен- ной выше, определяют размер вы- борки п, уровень значимости а и критическое значение с. Затем вы- бирают произвольно пары элемен- тов из генеральной совокупности (или в действительности из пары совокупностей). Вычисляют разно- сти (Xi—У,); если оказывается, что Xi—Yt=O, то это значение из вы- борки исключается, и выборку по- полняют другой парой значений из совокупностей. Значение г сравни- вают с с. В рассматриваемом нами примере можно применить как /-критерий, так и знаковый критерий, поскольку выполняются предпосылки обоих тестов. Какой же из критериев предпочтительнее? В некоторых случаях оказывается более мощным /-критерий. Он не требует для уста- новления разницы между р.| и Цг выборок большого объема. Однако знаковый критерий очень прост и потому удобен, несмотря на то, что для обеспечения такой же мощности ему требуется большее значение п. В случаях, когда генеральные совокупности распределены ненор- мально, а стандартные отклонения велики и неодинаковы, /-критерий может оказаться менее мощным и непригодным. Предположим, что имеется выборка учащихся, прослу- шавших курсы английского языка и статистики. Будут ли их оценки по английскому выше, чем по статисти- ке? Знаковый критерий будет в этом случае предпочтительнее /- критерия, поскольку две выборки не независимы, а обе сигмы значи- тельно различаются. Каков должен быть объем выбо- рок, чтобы определить разницу между элементами Хи У? На этот счет имеются следующие соображе- ния. Предположим, что мы получи- ли 50% минусов (или плюсов) для Xi—Yi и 55% минусов для X'i—Y'i. Предполагая приближенную нор- мальность распределения г и пере- ходя к процентам, определим пре- дел интервала принятия при а=0,Г, 50 ±1,64»,. 367
При л'=55 и 0=0,025 нижний пре- • дел выборочного распределения бу- дет составлять 55—1,9бор. Чтобы найти п, составим уравнение 50+1,64 <тР=55—1,96 о,,. Приняв л=52,5, вычислим оР. По- лучим 50+1,64 /(52,5.'47„5)/п> 55 - - 1.96J/(52.5.47.5)//». откуда /»^1293. Конечно, такое п необходимо для обнаружения очень маленькой раз- ницы. Это означает, что имеется очень большая группа пересекаю- щихся оценок X и У. Если (это уже отмечалось) наименьшее У больше максимального X, то все разности Xi—У, будут отрицательны, и это Ьгожно обнаружить на очень неболь- ших выборках. Однако выборка не должна быть меньше /»=6, при п= =6 вероятности биномиального рас- пределения для выбросов Р(г) ста- новятся достаточно большими. Это означает, что для выборок такого объема легко получить все минусы, хотя ожидаемое значение процента минусов составляет л=50. 16.3. ЗНАКОВЫЙ КРИТЕРИЙ ВИЛЬКОКСОНА Этот критерий напоминает крите- рий, описываемый в предыдущем параграфе, за исключением того, что во внимание принимают разно- сти Xi—У;=|(/{|. Следовательно, если вид распределений обеих гене- ральных совокупностей различен, этот тест даст лучшие*результаты, чем обычный. Проиллюстрируем процедуру про- верки на следующем примере. Про- водятся два экзамена по одному и тому же курсу в классе, состоящем из 20 учащихся. Будут ли результа- ты экзаменов одинаковыми? Порядок вычислений приведен в табл. 16.3. Оценки первого экза- мена X,. Оценки второго — У/. У< представляется исходным рядом У1=78, У2=67, У3=27 ... Причина 368 Т а б л и ц а 16.3. Оценки двух экзаменов 20 учащихся х, Yi Л-. >7 1 и Ранги d- Ранги со зпзками И/ 1 32 68 —36 19 -19 71 57 14 ' 8 8 35 17 18 12,5 12,5 31 52 —21 16 —16 42 47 —5 2 -2 101 81 20 15 15 76 62 14 8 8 44 43 1 1 102 118 -16 10 — 10 67 70 -6 3,5 —3,5 21 40 — 19 14 —14 48 30 18 12,5 12,5 45 39 6 3,5 3,5 57 80 —23 17 — 17 72 79 —7 5 5 35 64 —29 18 -18 87 77 10 6 1 6 50 36 14 8 8 72 89 — 17 11 ' — II 38 38 0 — — —115.5 74,5 этого заключается в том, что второй экзамен был полнее и его баллы в среднем на 10 баллов выше оце- нок первого. В таком виде оценки не сравнимы. Поэтому надо вычесть 10 баллов из каждого значения У<. Затем вычислим разности d,= —Xi—Yi. Так как последняя раз- ность равна нулю, то размер выбор- ки уменьшится до /1=19. Разности ранжируем по абсолют- ному значению |//i|. Несколько зна- чений |rfil совпадают. Например, |«Go|=|“»l- Они получают места 3 и 4. Мы присваиваем им ранг3,5, что равняется среднему между тре- мя и четырьмя. Аналогично при- сваиваем |d7l, |d2| и |//18| ранг 8,. а Из| и |</12|-12,5. Два последних столбца таблицы содержат ранги со знаками. Их итоговые суммы Т равны соответст- венно 115,5 и 74,5. При двусторон- нем критерии мы можем использо- вать только одну из них (например, 7=74,5), поскольку результаты бу- дут одинаковы. Если Т велико или мало, то мы приходим к выводу, что
результаты экзаменов существенно различны. Чтобы установить, будет ли Т су- щественно велико или мало, срав- ним вычисленное г* с теоретиче- ским Z. Другими словами, предпо- ложим, что распределение Т аппро- ксимируется нормальным распреде- лением. Это предположение выпол- няется, если выборки не слишком малы (например, я>10). Значе- ние z* вычислим по формуле z*=|(7'—mT) IsTI, где mT=n (л-f-1 )/4; sT=/(л (« + 1) (2n -|-1 )/24. Формулы ДЛЯ Шт И Sr. являются приближениями для математическо- го ожидания и среднего квадратиче- ского отклонения Т соответственно В нашей *задаче при /=1,96 и а— =0,05 mT — 19 (20) /4 = 95; sT = /19 (20)-39/24 = 24,8, а г*=(74,5 - 95);24,8 = 0.83. Поскольку г* <г, можно заклю- чить, что результаты экзаменов от- личаются несущественно. 16.4. ПАРЫ НАБЛЮДЕНИЙ Сравнение ц-i и р,2 с помощью вы- борочных средних в разд. 9.3 произ- водилось без учета причин, порож- дающих разницу. Мы работали, предполагая, что «при прочих рав- ных» pi или существенно, или несу- щественно отличается от рг. Но предположение «при прочих рав- ных» выполняется далеко не всегда, и разница между pt и рг может за- висеть от многих факторов Если наблюдения комбинируются в виде нар, то все другие факторы можно исключить. Создавать пары в этом случае надо достаточно осторожно. Рассмотрим пример из промыш- ленного производства. Имеются два процесса плавки. Будут ли при одном процессе производиться бо- 24-232 лее тяжелые в среднем металличе-. ские бруски, чем при другом. Други- ми словами, будет ли pi существен- но отличаться от р2. В этом случае- сырье поступает партиями, которые могут качественно различаться. Мы не в состоянии определить, в какой степени разность масс обусловлена одним лишь различием технологи- ческих процессов плавки, если мы не будем брать одинаковое сырье- для каждой пары выплавляемых брусков. Таким образом, должны сравниваться не просто массы брус- ков, полученных при разных мето- дах плавки, но и массы брусков, сделанных из одного и того же сырья. Метод требует вычисления d,-= =(Хц—У/s). Его целью, однако^ является не сравнение двух масси- вов данных с точки зрения вида их распределения частот, что было су- щественно в знаковом критерии. Нам нужно лишь сравнить щ И Ц2. Таблица 16.4. Массы пары металлических брусков при двух технологических процессах плавки Пара xi. ъ 1 1 2,95 3,16 —0,21 —0,081 •- i 0.006561 2 3,01 3,17 —0,16 —0,031 0,000961 3 2,99 3,18 —0,19 —0,061 0,003721 4 3,04 3,22 —0,18 —0,051 0,002601 5 3,07 3,12 —0,05 0.124 0,015376. 6 3.08 3,09 —0,01 0.128 0.016384 1 7 3,01 3J3 —0,i2 0,009 0,001М®1 8 2,97 3,15 —0,18 —0,051 0.002601 9 3,-02 3,17 —0,15 —0.021 0,000441 к 10 3,04 3,08 —0,04 0,125 0,015625 1 — 1.29 0,064352 1 и Выборки масс пар металлических брусков, полученных двумя различ- ными способами плавки, приведены в табл. 16.4. Несмотря на то, что имеется 20 наблюдений, размер выборки ра- вен л=10. Нам понадобятся сле- дующие величины: среднее всех di d=Zdiln, *369
стандартное отклонение стандартная ошибка s_=sd'Vn. а Если процессы плавки не разли- чаются, то |Х|=|1г и среднее разно- стей для генеральной совокупности Л—О Следовательно, при заданном « выборочное й должно отличаться ют /3=0 не больше, чем на t стан- дартных ошибок s~. Таким обра- зом, для проверки различия между Pi и ц2 сравниваем t* с t, гор f=(d-0)/s • а При этом делаются те же, что в разд. 9.3, предположения относи- тельно нормальности распределения и равенства стандартных отклоне- ний. Для задачи из табл. 16.4 d=~ 1,29/10=-0.129; sd = КО,064352/9 = 0,0846; s_ = 0,0846'/1(5=0,0267; /* = —0,129/0,0267=4,8. При а=0,05 и о=9 /=2,262. Следовательно, мы приходим к вы- воду, что ps существенно больше ць Очевидно, что второй процесс плав- ки дает результаты, отличные от первого. Не следует считать, что метод спаренных наблюдений эквивален- тен вычислению мз разд. 9.3. Число степеней свобо- ды в методе спаренных наблюдений равняется v=nt+n<i—2. Это дает возможность установить очень ма- ленькую разницу между pi и р,2- Существуют и другие задачи, в которых применяется метод пар- ных наблюдений. Так, например, в сельском хозяйстве часто надо установить разницу между двумя видами семян или смеси. Поскольку на результаты влияют качество поч- вы и погода, то оба. вида семян на- 370 до посеять на одинаковых участках. Тогда сравнение будет возможным. При сравнении трудовой деятельно- сти следует брать пары рабочих одинаковой квалификации. Если 'способ лечения или качество неко- торого лекарства зависят от массы людей, то надо брать пары людей с одинаковой массой. 16.5. НЕРАВЕНСТВО ЧЕБЫШЕВА Неравенство Чебышева часто применяется в практических и тео- ретических исследованиях. Его можно переписать в виде - 1/А». Приняв р=50, о=4 и k=2, полу- чим Р (50-2-4< А'<50 4-2-4)>1 - 1/4. Это вероятностное утверждение справедливо для распределений лю- бого вида. Следовательно, вероят- йость того, что значение попадет в интервал ц±2о, по крайней мере равна 1—1/4=0,75. Для нормаль- ного распределения Р(50- 2.4<ХС5О+2 4)=О,955, что, конечно, больше 0,75 Неравенство можно переписать в виде Ilk*. В нашем примере получим Р[(|Х-50|)^2.4]<1/4. Теперь вероятность того, что раз- ность между наблюдением и сред- ним равна или больше двух стан- дартных отклонений, не больше 1 /4=0,25. Теоретическое значение неравен- ства состоит в том, что оно справед- ливо для всех видов распределений и, в частности, для выборочных средних. В связи с этим мы перепи- шем неравенство в виде Pff* —Aa_<X<n + feu)>l — l/k1 и P(|X-p.pb_)<l/fe«.
Итак, вероятность того, что выбо- рочное среднее попадает в интер- вал pztfe— , не меньше, чем 1— —(1/А1), каков бы ни был вид рас- пределения. Эквивалентное утверж- дение гласит: вероятность того, что разность между 7 и g равна или больше k стандартных отклонений, будет не больше, чем 1/А2. Закон больших чисел. Запишем р = Аа_ — ka/VП. Найдем из этого соотношения k = pVnfa-, k* = p'nld*', откуда 1/А2=а2/р2п. Таким образом, первое вероятно- стное соотношение для выборочных средних примет вид: Р (и — Ад- < X < ц Аз—) > > 1 — а*;(р*п). Из последнего неравенства видно, что при возрастании п второе сла-> гаемое в правой части неравенства аг1ргп становится как угодно ма- лым, следовательно, с увеличением выборки вероятность попадания X в указанные границы стремится к единице. Подставляя 1/А2 во второе соот- ношение для выборочных средних, получаем Р (| Я” - р | > Ь_) < о7(р'/0. Теперь мы можем сказать, что при росте п вероятность того, что X от- личается от р на фиксированное значение, стремится к нулю. Это if есть закон больших чисел.
г СПИСОК ЛИТЕРАТУРЫ Acton, Forman S- Analysis of Straight-Line Data (regression analysis). New York: Dover Publi- cations, ]959. Box, George E. P. and Jenkins, Gwilym M Time Series Analysis (sophisticated methods of time series analysis and forecasting) San Francisco, California: Holden-Day, 1970. Brown, Robert Goodell. Smoothing, Forecasting and Prediction (g<x>d preserttation of exponen- tial smoothing). Englewood Cliffs, NJ.: Prentice-Hall, 1963. Butler; Wiiliam F. and Kavcsh, Robert A, (Eds.) How Business Economists Forecast. Fnglcwcxxl Cliffs, NJ.: Prentice-Hall 1966 Conover, W. J. Practical iVon^aramttnc Statistics (veiy good introductory presentation of applications and theory) New York: Wiley, 1971. Croxton, Frederick E., Cowden, Dudley J., and Klein, Sidney. Applied General Statistics (es- pecially descriptive statistics, regression and time sei ies analysis). Englewood Cliffs. NJ.:- Prentice-Hall, 1967. Deming, W. Edwards. Sample Design in Business Research. New York: Wiley, 1960. Dixon, Wilfrid and Massey, Frank J„ Jr. Introduction to Statistical Analysis (considerably wider coverage of statistical methods). New York: McGraw-Hill, 1969. Duncan, A J. Quality Control and Industrial Statistics. Homewood. Ill.: R D. Irwin, 1965. Ezekiel, Mordecai and Fox, Karl A. Methods of Correlation and Regression Analysis. New York: Wiley, 1959. Ferber, R. and Verdoorn. P. J. Research Methods in Economics and Business. New York: Macmil- lan, 1962. Freund, J. E. Mathematical Statistics (introductory text). Englewood Cliffs, NJ.: Prentice-Hall, 197k Goldberg, Samuel. Probability (very clear intnwluctory presentation). Englewood Cliffs, NJ.: Prentice-Hall, 1960. Hansen, M. H., Hurwitz, W. N„ and Madow, W C. Sample Survey Methods and Theory. New York: Wiley. 1953. Hicks, C. R. Fundamental Concepts in the Design of Experiments. New York: Holt, Rinehart, and Winston, 1964- Hodges, J. L., and Lehmann, E. L. Elements of Finite Probability. San Francisco, California: Holden-Day, 1965. Hoel. P. Introduction to Mathematical Statistics (a clear semi-mathematical presentation). New York: Wiley. 1962O Johnson, Norman L. and Smith Harry, Jr. (Eds.) New Developments in Survey Sampling, New York: Wiley-Interscience, 1969 Kraft, Charles H. and van Ecdcn( Constance A Nonparametric Introduction to Statistics. New York: Macmillan, 1968. Kukkonen Pertti. Analysis of Seasonal and Other Short-Term Variations with Abdications to Finnish Economic Time Series. Helsinki, Finland* Bank of Finland Institute for Economic Research, 1968. la, С- C- Introduaion to Experimental Statistics. New York: McGraw-Hill, 1964. Mincer, Jacob. (Ed.) Economic Forecasts and Expectations. New York: National Bureau of Economic Research, 1969. Mood, Alexander M., Graybill, Franklin A., and Boes. Duane C. Introduction to the Theory о/ Statistics (very good intermediate mathematical treatment) New York: McGraw-РКП. 1974. Mmtcllcr, F.t Rourke, R. E. K„ and Thomas, G. B. ProWtlity with Statistical Applications. Read- ing, Mass.: Addison-Wesley, 1961. 372
Noether, G. E. Elements о/ Statistics. New York: Wiley. 1967, Pratt. John W., Raiffa, Howard, and Schlaifer, Robert. fntroduction to Statistical Decision Theory (a more sophisticated Bayesian approach). New York: McGraw-Hill, 1965. Reichmann, W J, [Ле and Abuse of Statistics. New York; Oxford University Press, 1962. Sasaki, Kyohei. Statistics for Modem Business Decision Making (Bayesian statistics). Belmont, California: Wadsworth, 1968 Scheffe, H, The Analysis of Variance, New York: Wiley. 1959. Schlaifer, Robert Pretabitity end Statistics for Business Decisions (Bayesian statistics and statis- tical Applications of probability). New York: McGraw-Hill. 1959. Schlaifer, Robert, Zntroductitm to Statistics for Business Decisions. (a detailed elementary treat- ment of Bayesian statistics). New York: McGraw-Hill, 1961. Thtil. Henri. Applied Econontk Forecasting. Amsterdam, Holland: North-Holland, 1966. Co., 1966. Tuttle, Alva M. Elementary Business and Economic Statistics (especially descriptive statistics). New York McGraw-Hill, 19Л. Yule, G- Udny and Kendall, M. G. An fTUroductiun to the Theory of Statistics (especially descrip- tive statistics, correlation, and sampling). New York: Hafner, 1950. ПРИЛОЖЕНИЕ < СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ T>5mw L Случайные разряды 10097 32533 76520 13586 34673 54876 80959 09117 39292 74945 37542 04805 64894 74296 24805 24037 20636 10402 00822 91665 08422 68953 19645 09303 23209 02560 15953 34764 35080 33606 99019 02529 09876 70715 38311 31165 88676 74397 04486 27659 12807 99970 80157 36147 64032 36653 98951 16877 12171 76833 66065 74717 34072 76850 36697 36170 65813 39885 11199 29170 31060 10805 45571 82406 35303 42614 86799 07439 23403 09732 85269 77602 02051 65692 68665 74818 78053 85247 18623 88579 63573 32135 05325 47048 90553 57548 28468 28709 88491 25624 73796 45753 03529 04778 358118 34282 60935 20344 35273 88435 98520 17767 14905 68607 22109 40558 6097Q 93433 50500 78998 11805 05431 39808 27732 50725 68248 29405 24201 52775 67851 83452 99634 06288 98083 13746 70078 18475 40610 68711 77817 88685 40200 86507 58401 36766 67951 90364 76493 29609 11062 99594 67348 87517 64969 91826 08928 93785 61368 23478 34113 65481 17674 17468 50950 58047 76974 73039 57186 40218 16544 80124 35635 17727 08015 45318 22374 21115 78253 14385 53763 74350 99817 77402 77214 43236 оо2;о 45521 64237 96286 02655 69916 26803 66252 29148 36936 «7203 76621 13990 94400 56418 09893 20?05 14225 68514 46427 5678S 96297 78822 54882 14598 373
Продолжение табл. 1 91499 80336. 44104 12550 63606 14523 94598 81949 73742 49329 68479 26940 85157 11100 16505 27686 36858 47954 02040 34484 46162 70297 32979 12860 40219 83554 34135 26575 74697 52563 94750 53140 57600 9f‘>644 43651 89923 33340 40881 89439 77082 37089 42050 22222 28707 07207 20048 82341 06413 25815 31790 1 61196 90446 26457 47774 51924 33729 65394 59593 42582 60527 15474 45266 95270 79953 59367 83848 82396 10118 33211 59466 94557 28573 67897 54387 54622 44431 91190 42592 92927 45973 42481 16213 97344 08721 16868 48767 03071 12059 25701 46670 23523 78317 73208 89837 68935 91416 26252 29663 05522 82562 04493 52494 75246 33824 45862 51025 61962 79335 65337 12472 00549 97654 64051 88159 96119 63896 54692 82391 23287 29529 35963 15307 26898 09354 33351 35462 77974 50024 90103 39333 59608 08391 45427 26842 83609 49700 13021 24892 78565 20106 46058 85236 01390 92286 77281 44077 93910 83647 70617 42941 32179 00597 87379 25241 05567 07007 86743 17157 85394 11838 69284 61406 20117 45204 15956 60000 18743 92423 97118 96338 19565 41430 01758 75379 40419 21585 66674 36806 84962 85207 45155 14938 19476 07246 48667 94543 59047 90033 20826 69541 94864 31994 36168 10851 34888 81558 01540 35456 05014 51176 98086 24826 45240 28404 44999 08896 39094 73407 35441 31880 33185 16232 41941 50949 89435 48581 88695 41994 37548 73043 80951 00406 96382 70774 20151 23387 25016 25298 94624 61171 79752 49140 71961 28296 69861 02591 74852 20539 00387 59579 18633 32537 98145 06571 31010 24674 05455 61427 77938 91936 74029 43902 77557 32270 97790 17119 52527 58021 80814 51748 54178 45611 80993 37143 05335 12969 56127 19255 36040 90324 11664 49883 52079 84827 59381 71539 09973 38440 88461 23356 48324 77928 31249 64710 02295 36870 32307 57546 15020 09994 69074 94188 87637 91976 35584 04401 10518 21615 01848 76988 09188 20097 32825 39527 04220 86304 83389 87374 64278 58044 90045 85497 51981 50654 *94938 81997 91870 76150 68476 64659 73189 50207 47677 26269 62290 64464 27124 67018 41361 82760 75768 76490 20971 87749 90429 12272 95375 05871 93823 43178 54016 44056 66281 31003 00682 27398 20714 53295 07706 17813 68358 69910 78542 42785 13661 58873 04618 97553 31223 08420 28306 03264 81333 10591 40510 07893 32604 60475 94119 01840 53840 86233 81594 13628 51215 90290 28466 68795 77762 20791 91757 53741 61613 62269 50263 90212 55781 76514 83483 47055 89415 92694 00397 58391 12607 17646 48949 72306 94541 37408 77513 08820 86864 29901 68414 82774 51908 13980 72893 55507 19502 37174 69979 20288 55210 29773 74287 75251 65344 67415 21818 59313 93278 81757 05686 73156 07682 85046 31853 88452 51474 66499 68107 23621 94049 91345 42836 09191 08007 45449 99559 68331 62535 24170 69777 12830 74819 78142 43860 72834 33713 48007 93584 72869 51926 64721 58803 29822 93174 93972 85274 86893 11303 22970 28834 34137 73515 90400 71148 43648 84133 89640 44035 52166 73852 70091 61222 60561 62327 18423 56732 16234 17395 96131 10123 91622 85496 57560 81604 188S0 65138 56806 87648 85261 34313 65861 45875 21069 85644 47277 374
Продолжение табл, 1 38001 02176 Й1719 11711 71602 92937 74219 64049 65584 49698 37402 96397 01304 77586 56271 10086 47321 62605 40030 37438 97125 40348 87083 31417 21815 39250 75237 62047 15501 29578 21826 41134 47143 34072 64638 85902 49139 06441 03856 54552 73135 42742 95719 09035 85794 74296 08789 88156 64691 19202 07638 77929 03061 18072 96207 44156 23821 99538 04713 66994 60528 -A3441 07954 19814 59175 20695 05533 52139 61212 06455 83596 35655 06958 92983 05128 09719 77433 53783 92301 50498 10850 62746 99599 10537 13499 06319 53075 71889 06410 19362 39820 96952 43622 63147 64421 808U 43800 09351 31024 73167 59580 06478 75569 78800 88835 54486 23768 06156 04111 08408 3850ft 07341 23798 48763 90822 97022 17719 04207 95954 49953 3oew 70668 94688 16127 56196 89091 82067 63400 05462 69200 65443 95659 28288 27437 49632 24041 08337 65676 96299 90836 27267 50264 13192 72294 07477 44606 17985 48911 97341 30858 91307 06991 19072 24210 36699 53728 28825 35793 28976 66252 68434 94588 84473 13622 62126 98408 12843 82590 09815 93146 48908 15877 54745 24591 35700 04754 83824 52692 54130 55160 06913 45197 42672 78601 11883 09528 63011 98901 14974 40344 10455 16019 14210 33712 91342 37821 88325 80851 43667 70883 12883 97343 65027 61184 04285 01392 17974 15077 90712 26769 21778 30976 38807 36961 31649 42096 63281 02023 08816 47449 19523 59515 65122 59659 86288 68258 69572 13798 16436 91529 67245 52670 35583 16563 79246 86686 76463 . 34222 26655 90802 60584 47377 07500 37992 45134 26529 26760 83637 41326 44344 53853 41377 36066 94850 58838 73859 49364 73331 96240 43642 24637 38736 74384 89342 52623 07992 12369 18601 03742 83873 83080 12451 38992 22815 07759 51777 97377 27585 51972 37867 26444 24334 36151 99073 27493 70939 85130 32552 54846 54759 60790 18157 57178 65762 11161 78576 45819 52979 65130 04860 Примечание. Данные взяты из источника The RAND Corporation. A Million Random Digits with 500 000 Normal Deviates. Glencol, Illinois. The Free Press, p. 1-2. Воспроизводится с разрешения The RAND Corpo- ration. Таблица П. Биномиальное распределение n X .05 .10 .15 .20 p .35 .40 .45 .50 .25 .30 1 $ .9500 .9000 .8500 .8000 .7500 7000 .6500 .6000 .5500 .5000 1 ,0500 .1000 ,1500 .2000 .2500 3000 3500 .4000 .4500 .5000 2 0 .9025 ,8100 .7225 6400 .5625 .4900 .4225 .3600 .3025 2500 1 .0950 .1800 .2550 .3200 .3750 .4200 .4550 4800 .4950 ,5000 2 .0025 .0100 .0225 .0400 .0625 .0900 1225 .1600 .2025 .2500 3 0 8574 .7290 .6141 .5120 4219 3430 2746 .2160 .1664 .1250 1 .1354 .2430 .3251 .3840 .4219 н i0 .4436 .4320 .4084 .3750 2 .0071 .0270 0574 .0960 .1406 .2389 2880 .3341 .3750 3 0001 .0010 .0034 0080 .0156 0270 .0429 .0640 .0911 .1250 375
Продолжение табл. 11 п X .05 .10 .15 .20 .25 .80 '.35 .40 .45 .50 4 0 .8145 .6561 .5220 .4096 .3164 2401 .1785 1296 .0915 .0625 1 .1715 .2916 .3685 .4096 .4219 .4116 .3845 .8456 .2995 .2500 2 .0135 .0486 .0975 .1536 .2109 .2646 .3105 .3456 -3675 .3750 3 .0005 .0036 .0115 -0256 .0469 .0756 .1115 .1536 .2005 .2500 4 ,0000 .0001 .0005 .0016 .0039 .0081 .0150 .0256 .0410 .0625 5 0 .7738 .5905 .4437 .8277 .2378 .1681 .1160 .0778 .0503 .0312 1 .2036 .3280 .3915 .4096 .3955 .3602 .3124 .2592 .2059 Л 562 2 .0214 .0729 .1382 .2048 .2637 .3087 .3364 .3456 .3369 .3125 3 ООН .0081 .0244 .0512 .0879 .1823 .1811 -2304 .2757 .3125 4 0000 .0004 0022 .0064 .0146 .0284 .0488 .0768 .1128 .1562 5 000м ОООО .0001 0003 .0010 .0024 .0053 .0102 .0185 ,03)2 6 0 .7351 .5314 .3771 2621 .1780 .1176 .0754 .0467 .0277 0156 1 .2321 .8543 .8993 .3932 .3560 .3025 .2437 .1366 .1359 .0938 2 .0805 .0984 .1762 -2458 2966 .3241 .3280 .3110 .2780 .2344 3 .0021 0146 .0415 .0819 1318 .1852 .2355 .2765 ,3032 .3125 4 .0001 0012 .0055 .0154 .0330 .0595 .0951 -1382 Л 861 .2344 5 0000 .0001 .0004 0015 0044 .0102 .0205 -0369 .0609 .0938 6 .0000 (XXX) .0000 .0001 .0002 0007 .0018 .0041 .0088 .0516- 7 0 .6983 .4783 .3206 .2097 .1335 .0824 .0490 .0280 .0152 .0078 . 1 2573 .3720 .3960 .8670 .3115 .2471 -1848 .1306 .0872 .054-7 2 .0406 .1240 .2097 .2753 .3115 .3177 .2985 .2613 .2140 .1641 3 .0036, .0230 .0617 .1147 .1730 .2269 .2679 .2903 .2918 .2734 4 .0002 .0026 .0109 .0287 .0577 .0972 .1442 .1935 .2388 .2734 5 .0009 .0002 .0012 .0043 .0115 .0250 .0466 .0774 .1172 .1641 6 .0000 ОООО .0001 .0004 .0013 .0036 ,0084 .0172 .0320 .0547 7 .0000 .0000 люоо ОООО .0001 (Ю02 0006 0016 .0037 .0078 8 0 .6634 .4305 .2725 1678 .1001 .0576 .0319 .0168 ,0084 .0039 1 .2793 3826 .3847 .3355 .2670 .1977 .1373 .0896 .0548 .0312 2 .0515 .1488 .2376 .2936 .3115 .2965 .2587 .2090 1569 Л 094 3 .0054 .0331 .0839 .1468 .2076 .2541 ,2786 .2787 .2568 .2188 1 4 .0004 .0046 0815 0459 .0865 .1361 .1875 .2322 -.2627 .2734 5 .0000 .0004 .0026 .0092 0231 0467 .0808 .1239 Л719 ,2188 6 0000 .(XXX) .0002 .ООП 0038 .0100 .0217 .0413 .0703 Л094 * 7 0000 .(ХХЮ .0000 0001 .0004 .0012 -0083 .0079 -0164 .0312 8 оооо .0000 .0000 оооо ОООО .0001 .0002 .0007 .0017 0039 9 0 .6302 .3R74 .2316 ,1342 0751 .0404 .0207 .0101 .0046 .0020 1 .2985 .3874 .3679 .3020 .2253 .1556 .1004 .0605 .0839 .0176 2 .0629 Л 722 .2597 .3020 .3003 .2668 .2162 .1612 ,1110 .0703 3 .0077 .0446 .1069 .1762 .2336 .2668 .2716 .2508 .2119 Л 641 4 .0006 .0074 .0283 .0661 .1168 .1715 .2194 .2508 .2600 .2461 5 .оооо .0008 .0050 .0165 .0389 .0735 .1181 .1672 .2128 .2461 6 0000 0001 .0006 .0028 а0087 .0210 .0424 .0743 .1160 .1611 7 .0000 .0000 -ОООО .0003 .0012 .0039 .0098 .0212 .0407' .0703 • 8 .оооо .0000 оооо .0000 .0001 .(ХКИ .0013 .0035 .0083 .0716 9 0000 .0000 .0000 -ОООО .0000 .0000 .0001 .0003 .0008 .0020 376
Продолжение табл. II 71 .20 р ,35 .40 .45 .50 * « . 1 X .05 .10 .15 25 .30 10 0 -SO87 3487 .1969 .1074 .0563 .0282 .0135 0060 .0025 .0010 к 1 .3151 .3874 .3474 .2684 1877 ,1211 .0725 .0403 0207 0098 £ 2 .0746 .1937 .2759 .3020 .2816 2335 .1757 .1209 .0763 .0439 3 .0105 .0574 Л 298 .2013 .2503 .2668 .2522 .2150 .1665 .1172 •J 4 ,0010 .0112 .0401 .0881 .1460 -2001 ,2377 .2508 .2384 ,2051 й 5 .0001 .0015 .0085 .0264 .0584 .1029 Л 536 .2007 .2340 .2461 i .0000 ЛМЮ1 .0012 .0055 .0162 .0368 0689 ,1115 .1596 .2051 ч fl 7 .0000 .0000 .0001 0008 ,0031 .0090 .0212 ,0425 .0746 .1172 1 8 .0000 0000 .0000 .0001 .0004 .0014 .0043 .0106 .0229 .0439 9 .0000 ..0000 .0000 1 .0000 .0090 .0001 .0005 -0016 .0042 .0098 10 .0000 0000 0000 .0000 0000 .0000 .0000 0001 -0008 .0010 я н % <* X 11 0 .5688 .3138 .1673 .0859 0422 0198 0088 ,0036 .0014 .0005 л 1 .8293 -3835 .3248 2862 .1549 .0932 ,0518 .0266 ,012-5 .0054 Hi 2 .0867 .2131 .2866 .2953 .2581 .1998 .1395 ,0887 .0513 .0269 - 3 .0137 .0710 .1517 .2215 .2581 .2568 .2254 .1774 .1259 .0806 г 4 .0014 .0158 .0536 .1107 .1721 .2201 .2428 .2365 .2060 .1611 ч*. 5 .0001 0025 .0182 .0388 .0803 .1321 .1830 .2207 .2360 .2256 г 6 .0000 .0003 .0023 .0097 .0268 .0566 .0985 1471 .1931 .2256 i 7 .0000 0000 .0003 .0017 0064 .0173 .0379 0701 1J28 .1611 8 .0000 .0000 .0000 .0002 ООП .0037 .0102 -0231 .0462 .080(5 9 .0000 .0000 .0000 .0000 .0001 ,0005 .0018 .0052 .0126 .0269 к 10 ,0000 .0000 .0000 .0000 .0000. .0000 .0002 .0007 .0021 .0054 < И .0000 .0000 .0000 .0000 -0000 .0000 .0000 .0000 .0002 .0005 ч 12 •* 0 5404 .2824 .1422 .0687 .0817 .0138 .0057 ,0022 .0008 .0002 л. 1 .8413 .3766 ,3012 .2062 Л 267 .0712 .0368 0174 .0075 .0029 2 .0988 .2301 .2924 .2835 .2328 .1678 Л 088 0639 .0339 .0161 X .3 .0173 .0852 .1720 .2362 .2581 .2397 .1954 1419 .0923 .0537 ? 4 .0021 .0213 .*683 1329 .1936 .2311 .2367 .2128 .1700 Л 208 5 .0002 .0038 .0193 .0532 .1032 .1585 .2039 ,2270 .2225 .1934 6 ..(МММ) .0005 .0040 .0155 .0401 .0792 .1281 .1766 ?2124 2256 7 .0000 .0000 .0006 .0033 .0115 0291 .0591 .1009 .1489 .1934 В .0000 .0000 .0001 .0005 .0024 .0078 .0199 .0420 .0762 .1208 - 9 .0000 юоо .0000 .(ММ)1 .0004 0015 .0048 ,0125 .0277 .0537 10 .0000 .0000 -0000 .(МММ) 0000 .0002 .0008 .0025 .0068 .0161 * 11 .0000 .(МММ) .0000 (ХММ) оооо 0000 .0001 .0003 0010 .0029 12 .0000 .0000 .(МММ) .0000 .(МММ) -0000 ,0000 .0006 0001 .0002 13 0. .5183 .2542 .1209 .0550 .0288 .0097 .0037 .0013 .0004 0001 - 1 .3512 ,3672 .2774 .1787 .1029 .0540 .0259 .0113 ,0045 ,0016 » 2- .1109 .2448 .2937 2680 .2059 .1888 ,0836 .0453 .0220 .0095 3 .0214 .0997 .1900 .2457 .2517 .2181 .1651 -.1107 0660 0349 4 .0028 .0277 .0838 .1535 •097 .2337 .2222 .1845 1350 0873 5 .0003 0055 .0266 .0691 .1258 .1803 .2154 .2214 .1989 .1671 jp 6 .0000 МОЯ .0063 .0230 .0559 ЛОЗО .1546 .1968 .2169 .2095 7 .0000 0001 .ООП .0058 .0186 .0442 .0833 1312 1775 .2095 8 .(МММ) ото .ООО] .ООП .0047 .0142 .0336 0656 .1089 Л571 9 .0000 .0000 .0000 .0001 .0009 0034 .0101 .0243 ,0495 .0873 377
Продолжение табл. II Р п X 05 до .15 20 .25 .30 .35 .40 .45 ,50 10 .0000 0000 .0000 .0000 .0001 .0006 .0022 .0065 .0162 .0349 11 .0000 0000 .0000 .0000 оиоо .0001 .0008 0012 .0036 0095 12 .0000 .0000 0000 .0000 .0000 .0000 .0000 .0001 . .0005 .0016 13 .0000 .0000 .0000 .0000 <4)00 .0000 .0000 .0000 .0000 ,0001 14 й .4877 .2288 .1028 .0440 .0178 .0068 .0024 .0008 .0002 ообт 1 .3593 .3559 .2539 .1539 .0882 .0407 .0131 .0073 .0027 0009 2 .1229 .2570 .2912 .2501 .1802 ,1134 .0634 .0317 0141 .0056 3 0259 .1142 .2056 2501 2402 .1943 .1366 0845 .0462 .0222 • 4 .0037 .0348 .0998 Я 720 .2202 .2290 .2022 .1549 .1040 .0611 5 0004 .0078 .0352 .0860 1468 .1963 ,2178 ,2066 Л701 Л 222 6 0000 .0013 .0093 .0322 .0734 .1262 .1759 ,2066 .2088 1833 7 .0000 .0002 .0019 .0092 .0280 0618 ЛО82 .1574 .1952 .2095 8 .0000 .0000 .0003 .0020 ,0082 .0232 .0510 0918 .1398 .1833 9 .0000 .0000 .0000 0003 .0018 0066 ,0183 .0408 .0762 .1222 10 .0000 .0000 .0000 0000 .0003 .0014 .0049 0136 ,0312 .0611 11 .0000 .0000 .0000 .0000 .0000 0002 .0016 .0033 .9093 .0222 12 .0000 .0000 0000 .0000 .0000 ' .0000 .0001 .0005 .0019 .6056 13 .0000 .0000 .0000 0000 .0000 .0000 .0000 .0001 .0002 .0009 14 .0000 0000 ,0000 .0000 .0000 .0000 .0000 .0000 ,0000 .ООО! 15 0 .4633 .2059 .0874 .0352 .0134 .0047 .0016 .0005 .0001 0000. 1 .3658 ,3432 .2812 1319 ,0668 .0305 .0126 .0047 .0016 .0005 2 .1348 2669 ..2856 2309 .1559 .0916 .0476 .0219 ,0090 (ю32 3 .0307 .1285 -2184 2501 .2252 .1700 1110 0634 .0318 0139 4 .0049 0428 ,1156 .1876 .2252 .2186 ,1792 .1268 .0780 .0417 5 .0006 .0105 .0449 Л 032 1651 .2061 .2123 .1859 .1404 ,0916 6 .0000 .0019 .0132 .0430 0917 .1472 .1906 .2066 Л914 Л527 7 .0000 .0003 .0030. 0138 .03^3 0811 -1319 .1771 .2013 1964 8 .0000 .0000 0005 .0035 .0131 .0348 .0710 .1181 -1647 -1964 9 .0000 .0000 .0001 0007 .0034 .0116 л)298 .0612 .1048 1527 10 .0000 .0000 .0000 .0001 .0007 .0030 .0096 .0245 .0515 .0916 11 .0000 .0000 .0000 .0000 .000! .0006 .0024 .0074 .0191 .0417 12 .0000 .0000 .0000 .0000 .0000 .0001 .0004 .0016 .0052 ,0139 13 :оооо .0000 .0000 .0000 .0000 .0000 .0001 ,0003 .0010 .0032 14 .0000 0000 .0000 .0000 .0000 .0000 .0000 ,0000 .0001 ,0005 15 .0000 .0000 .0000 .0000 ,0000 0000 .0000 ,0000 .0000 .0000 * 16 0 .4401 .1853 .0743 .0281 .0100 .0033 .0010 .0003 0001 .0000 1 .3706 .3294 .2097 1126 .0535 .0228 .0087 .0030 .0009 0002 - 2 .1463 .2745 .2775 2111 .1336 .0732 .0353 .0150 -0056 .0018 3 .0359 .1423 .2285 2463 .2079 1465 .0888 .0468 .0215 .0085 4 .0061 .0514 .1311 2001 .2252 2040 .1553 .1014 0572 0278 - 5 0008 .0137 .0555 .1201 .1802 .2099 2008 .1623 Л128 ,0667 6 0001 .0028 .0180 0550 .1101 Л 649 1982 Л 983 ,1684 1222 7 .0000 .0004 .0045 .0197 0524 -1010 .1524 -1889 1969 .1746 8 .0000 .0001 .0009 .0055 .0197 .0487 .0923 Л417 .1812 1964 9 .0000 0000 ,0001 .0012 .0058 0185 0442 .0840 .1318 1746 - 10 .0000 .0000 ,0000 .0002 .0014 .0056 .0167 .0392 0755 .1222 11 .0000 .0000 .0000 .0000 0002 .0013 .0049 .0142 .0337 .0667 378
Продолжение табл. П Р п X .05 * .10 .15 .20 .25 .30 .35 .40 45 .50 1 12 .0000 <хюо .0000 .0000 .0000 0002 -ООП 0040 ,0115 .0278 1 13 .0000 оооо .0000 .0000 оооо (ХМЮ 0002 0008 .0029 0085 14 .0000 .0000 .0000 .0000 .0000 .оооо .0000 .0001 .0005 0018 V 7 15 .0000 .0000 .0000 .ОООО оооо .0000 оооо .0000 .0001 .0002 i 16 .0000 И" оооо .0000 -(МХМ> „оооо оооо .0000 .0000 ОООО ОООО 17 0 .4181 .1668 .0631 .0225 .0075 .0023 ♦0007 .0002 ОООО .0000 I .3741 .3150 .1893 .0957 .0426 .0169 .0060 .0019 .0005 .0001 2 .1575 .2800 .2673 .1914 .1136 .0581 .0260 .0102 .0035 .0010 1 V . х 3 .0415 .1556 .2359 .2393 .1893 Л 245 .0701 .0341 .0144 .0052 J" 4 .0076 .0605 Л457 .2093 .2209 Л868 Л 820 .0796 -0411 .0182 f 5 0010 .0175 .0668 .1361 .1914 ,2081 1849 .1379 0875 0472 6 .0001 .0039 .0236 .0680 .1276 Л 784 .1991 Л 839 ,1432 0944 7 .0000 0007 .0065 .0267 .0668 .1201 Л685 .1927 .1841 .1484 4 Ж» b .0000 .0001 .0014 .0084 .0279 .0644 .1134 Л606 .1883 .1855 " - 9 .0000 .0000 .0003 .0021 .0093 .0276 .0611 Л070 -1540 .1855 - 10 .0000 .0000 .0000 .0004 .0025 00% .0263 .0571 .1008 1484 , V н .0000 .0000 .0000 .0001 .0005 0026 .0090 0242 .0525 .0944 12 .0000 ,0000 9000 .0000 .0001 .0006 .0024 .0021 .0215 .0472 13 .0000 оооо .0000 .0000 .оооо .0001 .0005 .0021 .0068 .0182 4 14 .0000 (ХХЮ .0000 .ОООО .0000 .0000 ,0001 .0004 .0016 0052 л 15 .0000 .0000 .оооо .0000 .0000 .0000 .0000 .0001 0003 .0010 16 ,0000 .0000 .0000 .0000 .0000 .0000 .0000 .ОоОО .0000 .0001 17 .0000 оооо люоо (XXX) оооо .0000 .0000 .0000 .0000 ОООО j- г < / 18 0 .3972 .1501 .0586 .0180 .0056 .0016 .0004 0001 оооо .0000 1 .3763 .3002 .1704 .0811 .0338 .0126 .0042 .0012 ,0003 .0001 2 .1683 .2835 .2556 .1723 ,0958 .0458 .0190 .0069 .0022 0006 3 .0473 1680 .2406 .2297 Л 704 Л046 0547 .0246 .0095 .0031 ' 4 .0093 0700 .1592 .2153 .2130 Л681 .1104 .0614 .0291 .0117 5 .0014 .0218 .0787 .1507 ,1988 -2017 Л 664 .1146 0666 .3327 4 6 .0002 .0052 .0301 .0816 -1436 Л873 Л 941 Л655 1181 .0708 7 .0000 0010 .0091 .0350 .0820 Л 876 1792 Л892 1657 .1214 « 8. .0000 0002 .0022 .0120 .0376 .0811 Л 327 .1734 Л 864 .1669 9 9000 .0000 .0004 .0033 .0139 .0386 .0794 .1284 .1694 .1855 10 -0000 оооо .0001 .0008 0042 .0149 .0385 .0771 .1248 .1669 11 ЛЧЮО .оооо' .0000 .0001 .0010 .0046 .0151 .0374 .0742 .1214 - 12 обоо .0000 оооо ОООО .0002 .0012 .0047 .0145 .0354 .0708 13 ,0000 .0000 .0000 _0<МЮ .0000 .0002 .0012 0044 ♦0184 .0327 14 оооо .0000 .0000 -ОООО .0000 ОООО ♦0002 ООП .0039 .0117 15 оооо .0000 .0000 .0000 .0000 ОООО .0000 0002 .0009 .0031 16 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0006 17 .0000 .0000 .0000 ЛЮОО .0000 .0000 ОООО .ОООО ОООО 0001 18 .0000 .оооо .0000 .0000 .0000 .0000 -ОООО .0000 оооо .0000 1 19 0 .3774 .1351 .0456 .0144 ,0042 .ООП .0003 .0001 оооо .0000 1 .3774 .2852 .1529 .0685 .0268 0093 .0029 .0008 .0002 .0000 Г 2 .1787 ,2852 2428 .1540 0803 .0358 .0188 .0046 .0013 .0003 • 379
Продолжение табл. П /> л X „05 .10 .15 .20 .25 .30 .35 .40 .45 50 3 .0533 .1796 .2428 .2182 .1517 .0869 0422 .0175 ,0062 0018 4 .0112 .0798 .1714 .2182 .2023 .1491 0909 '.0467 .0203 .0074 5 .0018 .0266 .0907 .1636 .2023 .1916 1468 .0933 .0497 0222 6 .0002 .0069 .0374 .0955 .1574 .1916 1844 .1451 .0949 .0518 7 .oooo .0014 .0122 -0443 .0974 . 1525 .1844 .1797 .1448 .9961 8 .0000 .0002 .0032 .0166 .0487 .0981 '.1489 .1797 .1771 .1442 9 .0000 .0000 .0007 -00K1 .0198 .0514 .0980 .1464 .1771 .1762 10 .0000 .0000 .0001 .0013 .0066 ,0220 .0528 .0976 .1449 .1762 11 .0000 ь .0000 .0000 0008 .0018 .0077 .0233 ,0532 .0970 .1442 12 ,0000. .0000 .0000 .0000 ,0004 .0022 .0083 .0237 .0529 .0961 13 .0000 .0000 .0000 9000 .0001 .0005 .0024 .0085 .0233 .051» 14 .0000 .0000 .0000 .0000 .0000 .0001 .0006 .0024 ,0082 ,022г 15 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0005 .0022 ,0074 16 .0000 0000 .0000 .0000 .0000 .0000 oooo .0001 .0005 .0018 17 0000 .0000 . -0000 .0000 .0000 oooo .0000 .0000 .0001 .0003 18 0000 .0000 .0000 .0000 .0000 oooo .0000 .0000 .0000 0000 19 0000 .0000 .0000 .oooo .0000 oooo .0000 .0000 .0000 oooo 20 0 3585 1216 .0388 .0115 .0032 0008 .0002 oooo .0000 OOOO I ,3774 .2702 .1368 .0576 -0211 .0068 .0020 0005 0001 .0000 2 1887 .2852 .2293 .1369 .0669 .0278 .0100 0031 0008 .0002 8 .0596 .1901 .2428 .2054 .1339 .0716 .0323 .0123 0040 .6011 4 .0133 .0898 .1821 .2182 .1897 .1304 .0738 .0350 .0139 6046 5 .0022 .0319 .1028 .1746 .2023 .1789 .1272 0746 0365 .0148 6 .0003 .0089 0454 .1091 .1686 .1916 .1712 .1244 .0746 .0370 7 .0000 .0020 .0160 .0545 .1124 .1643 .1844 1659 .1221 .0739 8 .0000 .0004 0046 .0222 .0609 .1144 .1614 1797 .1623 .1201 9 .0000 0001 .0011 .0074 .0271 .0654 .1158 .1597 .1771 .1602 10 .0000 oooo 0002 .0020 .0099 .0308 .0686 1171 .1593 ,1762 11 (XjOO .0000 0000 .0005 .0030 .0120 .0336 .0710 .1185 .1602 12 .0000 .0000 .0000 .0001 .0008 .0039 .0136 .0355 .0727 .1201 13 .0000 .0000 OOOO .0000 .0002 0010 .0045 -0146 .0366 .0739 14 ,0000 .0000 .0000 .0000 .ООО) -0002 .0012 .0049 .0150 .0370 15 .0000 .0000 .0000 .0000 .0000 .0000 /ЮОЗ .0013 .0049 .0148 16 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0003 .0013 .0046 17 .0000 .0000 .0000 .0000 .0000 .0000 /XXX) 9000 .0002 .0011 18 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 ,0000 .0002 19 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 20 -O000 .0000 ,0000 .0000 .0000 .0000 .0000 .0000 oooo .6000 1« ------------------------------------------_----------------------------------------------------------------- : П( имечашме. Данные взяты из источника Tables of the Binomial Distribution, National Bureau of Standards, Applied Mathematics Series 6, U.S. Department of Commerce, 1952. 380
к Таблица Ш Ординаты и площади нормальной кривой ч 1 Z /(х) А,’ Z /(х) А/ Z /(X) Ап* i .00 -39894 .00000 .20 .39104 .07926 ,40 .36827 .15542 .01 .39892 .00899 .21 .39024 .08317 ,41 .36678 .15910 .02 .39886 00798 .22 .38940 .08706 -42 ,36526 .16276 \ .03 .39876 .01197 .23 .38853 .09095 .43 .86371 .16640 .04 39862 .01595 .24 38762 .09483 .44 .36213 .17003 .05 .39844 01994 .25 .38667 .09871 .45 .86053 .17364 .06 .39822 .02392 .26 .38568 .10257 .46 .35889 .17724 .07 .39797 .02790 .27 .38466 ,10642 47 .35723 .18082 .08 .39767 .03188 .28 ,38361 .11026 .48 .35553 .18439 1 .09 .39733 .03586 .29 а .38251 .11409 .46 .35881 .18793 S .10 .39695 03988 .30 38139 .11791 .50 35207 .19146 ж .11 .39654 .04380 31 .38023 .12172 .51 .35029 .19497 .12 .39608 .04776 .32 .37903 .12552 .52 .84849 .19847 .13 .39559 .05172 .33 .37780 .12930 .53 .34667 .20194 .14 .39505 .05567 .34 37654 .13307 34 .31482 .20540 .15 59448 .05962 35 .37524 .13688 .55 .84294 .20884 > .16 .39387 .06356 .36 .37391 .14058 .56 .84105 .21226 .17 .39322 .06749 .87 .37255 .14431 57 .33912 .21566 18 .39253 .07142 .38 .37115 .14803 .58 .33718 .21904 Л9 .39181 .07535 .39 .36973 .15173 .59 .33521 .22240 .60 .33322 .22575 1.05 .22988 .35814 1.50 ,12952 .43319 < .61 .33121 .22907 1.06 .22747 .35543 1.51 .12758 .43448 .62 -32918 .23237 1.07 22506 .35769 1.52 Л2566 .43574 .68 32713 .23565 1.08 .22265 '35993 1-53 .12376 .43699 ж .64 .32506 .23891 1.09 .22025 .36214 1.54 .12188 .43822 .65 .32297 .24215 1.10 .21785 .36433 1.55 .12001 43943 .66 32086 .24537' 1.11 ,21546 .36650 1.56 .11816 .44062 .67 .31874 .24857 1.12 .21307 .36864 1.57 11632 .44179 1 .68 31659 .25175 1.13 .21069 .37076 L58 Л1450 .44295 .69 ,31443 .25490 1.14 .20831 .37286 1.59 11270 .44408 .70 31225 .25804 1.15 .20594 .37493 1.60 Л1092 .44520 - Г .71 .31006 .26115 1.16 .20357 .37698 1.61 Л0915 .44630 1 .72 .30785 .26424 1.17 .20121 .37900 L62 Л0741 .44738 -78 30563 .26730 1.18 .19886 .38100 1.63 .10567 .44845 .74 .30339 .27035 1.19 .19652 .38298 1,64 .10396 .44950 .75 .30114 .27337 1.20 ,19419 .38493 1.65 Л0226 .45053 .76 29887 .27637 1.21 .19186 .38686 1 66 .10059 .45154 .77 .29659 .27935 1.22 Л 8954 .38877 1.67 .09893 .45254 .78 .29431 .28230 1.23 Л 8724 39065 168 .09728 .45352 .79 .29206 .28524 1.24 Л8494 .39251 1.69 .09566 .45449 .80 .28969 .28814 1.25 .18265 .39435 1.70 .09405 .45543 .81 ,28737 29103 L26 .18037 .39617 1.71 09246 .45637 1 .82 .28504 .29389 1.27 .17810 .39796 1-72 .09089 .45728 .83 .28269 .29673 1.28 .17585 .39973 L73 .08933 .45818 * .84 .28034 29955 1.29 Л7360 .40147 1.74 .08780 .45907 381
Продолжение табл- III z fw А» z f(l) Ao z f(z) An* .85 .27798 30234 1.80 .17137 .40320 1.75 .08628 .45994 86 .27562 .30511 1.31 .16915 .40490 1.76 .08478 .46080 .87 .27324 .30785 1.32 16694 40658 1.77 .08329 .46164 88 .27086 .31057 1.33 16474 .40824 1.78 .08183 .46246 .89 .26848 .31327 1.34 .16256 40988 1.79 .08038 .46327 .90 .26609 .31594 1.35 .16038 .41149 1.80 .07895 .46407 .91 .26369 .31859 136 .15822 .41309 1.81 .07754 .46485 .92 .26129 . .32121 ' 1.37 .15608 .41466 1.82 .07614 .46562 .93 .25888 .32381 1.38 .15395 41621 1.83 .07477 .46638 94 .25647 .32639 L39 .15183 .41774 1.84 .07341 .46712 .95 .25406 .32894 ‘1.40 .14973 .41924 1.85 .07206 .46784 .96 25164 .33147 1.41 .14764 .42073 1.86 07074- .46856 .97 24923 .33398 1.42 .14556 .42220 1.87 06943 .46926 .98 .24681 .33646 143 .14350 .42364 1.88 .06814 .46995 .99 24439 .33891 144 .14146 .42507 1.89 .06687 47062 1.00 .24197 .34134 1.45 .13943 .42647 1.90 .06562 .47128 L01 .23955 .34375 1.46 .13742 .42786 1.91 .06439 .47193 1.02 .23713 .34614 1.47 .13542 .42922 *1.92 .06316 .47257 1.03 .23471 .34850 1.48 .13344 .43056 1.93 .06195 .47320 1.04 .23230 .35083 1 49 .13147 .43189 1.94 .06077 .47881 1.95 .05959 .47441 2.40 .02239 .49180 2.85 .00687 .49781 196 05844 .47500 2.41 .02186 49202 286 .00668 .49788 197 .05730 47558 2.42 .02134 .49224 2.87 .00649 .49795 1 98 .05618 .47615 2.43 .02683 .49245 2.88 00631 .49801 1.99 .05508 47670 2.44 .02033 .49266 2.89 .00613 .49807 2.00 .05399 .47725 2A5 .01984 .49286 290 .00595 .49813 2.01 .05292 4777S 2.46 .01936 .49305 291 . .00578 .49819 2.02 .05186 47831 2.47 .01889 .49324 2.92 .00562 .49825 2.03 05082 .47882 2 48 .01842 .49343 2.93 .00545 .49831 2.M .04980 .47932 2.49 .01797 49361 2.94 .00530 .49836 205 .04879 .47982 2.50 .01753 .49379 2.95 .00514 .49841 2.06 .04780 .48030 2.51 .01709 .49396 2.96 .00499 .49846 2.07 .04682 .48077 2.52 .01667 .49413 2.97 .00485 .49851 2.08 04586 -48124 2.53 .01625 .49430 2.98 .00471 .49856 2.09 .04491 .48169 2.54 .01585 49446 2.99 .00457 -.49861 2.10 .04398 .48214 2-55 .01545 .49461 3.00 .00443 .49865 2.11 .04307 .48257 2.56 .01506 .49477 3.01 .00430 .49869 2.12 .04217 .48300 2.57 .01468 .49492 3.02 .00417 .49874 2.13 .04128 .48341 2.58 .01431 .49506 3.03 .00405 .49878 2.14 .04041 • .48382 2.59 .01394 .49520 3.04 .00393 .49882 2.15 .03955 48422 2.60 .01358 .49534 3.05 .00381 .49886 2.16 .03871 .48461 2.61 01323 .49547 3.06 .00370 .49889 2.17 .03788 .48500 2.62 .01289 .49560 3.07 .00358 .49893 2.18 .03706 .48537 2.63 .01256 .49573 3.08 .00348 .49897 2.19 .03626 .48574 2.64 .01223 .49585 3.09 00337 .49900 382
Продолжение табл. Ill JU fM A,.’ z Z(i) A.* * /U) A..1 1 t 2-20 ,03547 .48610 2.65 .01191 49598 3.10 .00327 .49903 - 2.21 .03470 Л8645 2 66 .01160 .49609 3.11 00317 49906 • 2.22 .03894 .48679 2.67 .01130 49621 3.12 00307 .49910 2.23 .08319 .48718 2.68 .01100 49632 3.13 00298 49913 , 2.24 .03246 .48745 2.69 .01071 49643 3.14 .00288 .49916 1 1 2.25 .03174 .48778 2.70 .01042 49653 3.15 .00279 49918 "r 2.26 03103 .48809 2.7! 01014 .49664 3.16 .00271 49921 2.27 .03034 .48840 2.72 .00987 .49674 3.17 .00262 49924 I 2.28 .02965 .48870 2.73 .00961 -49683 3.18 .00254 49926 T « 2.29 .02898 .48899 2.74 .00935 49693 3.19 .002-16 49929 u / 2.ЗД 02833 .48928 2.75 .00909 49702 3.20 .00238 .49931 2.31 .02768 .48056 2.76 .00885 .49711 3.21 .00231 .49934 2.32 .02705 .48983 2.77 .OObtil 49720 3.22 .00224 .49936- 2.38 .02643 .49010 2.78 .00837 .49728 3.23 .00216 .49938 л 2-34 .02582 .49036 2.79 .00814 49736 3.24 .00210- .49940 2.35 .02522 . .49061 2.80 .00792 49744 3.25 .00203 .49942 e 2.36 .02463 49086 2.81 .00770 .49752 3.26 .00196 49944 2.37 .02406 .49111 2.82 .00748 .49760 3,27 00190 49946 2.38 .02349 .49134 2.83 .00727 .49767 3.28 .00184 .49948* k 2.39 .02294 .49158 2.84 .00707 ,49774 3.29 (Ю178 .49950 3.30 .00172 .49952 3.55 .00073 49981 3.80 .00029 .49993 3.31 .00167 .49953 3.56 .00071 49981 3.81 .00028 .49993 3.32 00161 .49955 3.57 ,00068 .49982 3.82 00027 .49993 3.33 .00156 .49957 3.58 „00066 .49983 3.83 00026 .49994 3.34 .00151 49958 3.59 .00063 ,49983 3.84 .00025 .49994 3.85 .00146 .49960 3:60 00061 49984 3.85 00024 .49994 3.36 .00141 .49961 3.61 .00059 49985 3.86 .00023 .49994 3.37 .00136 .49962 3.62 00057 .49985 3.87 .00022 .49995 3.38 .00132 .49964 3.63 .00055 .49986 3.88 .00021 .49995 3.39 .00127 49965 3.64 .00058 49986 3.89 .00021 .49995 X 340 .00123 49966 3.65 -00051 49987 3.90 .00020 .49996 3.41 00119 .49968 3.66 .00049 ,49987 3.91 .00019 49995 - 3.42 .00115 .49969 3.67 .00047 .49988 392 .00018 ;49996 3.43 .00111 ,49970 3.68 .00046 49988 3.93 00018 .49996 3.44 .00107 .49971 3.69 .00044 49989 3.94 00017 .49996 * 3.45 ,00104 .49972 3.70 .00042 .49989 3.95 .00016 49996 3-46 .00100 ,49973 3.71 .00041 49990 3.96 .00016 49996 3.47 .00097 .49974 8.72 .00039 49990 3.97 00015 49996 3.48 .00094 .49975 3.73 .00038 49990 3,98 00014 .49997 a 3.49 .00090 .49976 3.74 .00037 .49991 3.99 .00014 .49997 л 3.50 .00087 49977 3.75 .00035 .49991 3.51 ,00084 .49978 8.76 00084 49992 i 3.52 00081 .49978 3.77 .00033 49992 • 3.53 .00079 49979 8.78 .00031 .49992 I 3.54 .00076 49980 8.79 .00030 .49992 Примечание. I i Данные взяты из источника Mathematic!, al Statistics by TF. Kenney and E.S. Keromc © 1954 C Litton Educational Publishing, Inc. Воспроизводится с разрешения Van Nostrand Reinhold Com- 1 pauy. i 383
'r J Таблица IV. Площади под нормальной кривой Z А*_» Z Ai- г А’_ Z Аж- .00 -5000 .10 .5398 -20 ,5793 -30 ,6179 .01 5040 .11 .5438 .21 .5832 .31 .6217 .02 .5080 .12 .5478 .22 .5871 .32 .6255 .03 .5120 .18 .5517 .23 .5910 .33 6298 ЛИ .5160 -14 .5557 .24 .5948 34 .6331 .05 .5199 .15 .5596 .25 .5987 ,35 .6368 .06 .5239 .16 .5636 26 .6026 .36 .6406 .07 .5279 .17 .5675 .27 .6064 .37 .6443 .08 .5319 .18 .5714 .28 .6103 .38 6480 .09 .5359 ,19 .5758 .29 .6141 .39 „6517 .40 6554 .85 .8023 1.30 .9032 1.75 „9599 .41 .6591 .86 .8051 1.31 9049 1.76 .9608 • .42 -6628 .87 8079 L32 .9066 1,77 .9616 .48 .6664 .88 .8106 1,33 ,9082 1,78 .9625 .44 .6700 .89 -8133 1.34 .9099 1,79 .9633 .45 .6736 90 .8159 1.35 .9115 1.80 .9641 .46 .6772 ,91 .8186 1,36 .9131 1.81 .9649 .47 6808 .92 .8212 1.37 .9147 1.82 ,9656 .48 6844 .93 .8238 L38 .9162 1.83 .9664 .49 .6879 .94 .8264 1.39 .9177 1.84 9671 .50 .6915 .95 .8289 1 40 .9192 1.85 „9678 .51 .6950 .96 .8315 1.41 ,‘>207 1.86 9686 .52 .6985 .97 .8340 1.42 .9222 1.87 .9693 .53 .7019 .98 .8365 1.43 .9236 1,88 .9699 .54 .7054 .99 8389 1.44 ,9251 1.89 9706 .55 .7088 1.00 .8418 1.45 .9265 1.90 .9713 .56 7123 1.01 .8438 1.46 .9279 1.91 ,9719 .57 .7157 1.02 .8461 1.47 9292 1.92 ,9726 .58 .7190 1.03 .8485 1.48 ,9306 1.93 .9732 Ч .59 .7224 1,04 .8508 1.49 .9319 1,94 .9738 .60 .7257 L05 ,8531 1.50 .9332 1.95 .9744 ,61 .7291 1.06 8554 1-51 .9345 1 96 .9750 .62 .7324 1.07 8577 1 52 .9357 197 .9756 .63 .7357 1.08 8599 1.53 .9370 1,98 9761 -64 7389 1.09 .8621 1.54 .9382 1.99 9767 - .65 .7422 1.10 .8648 1.55 .9394 2.00 .9773 .66 .7454 1.11 .8665 1.56 .9406 2,01 .9778 .67 .7486 1.12 8686 1.57 .9418 2.02 .9783 ,68 -7517 1.13 .8708 1.58 .9429 2.03 .9788 .69 .7549 114 ,8729 1.59 ,9441 2.04 ,9793 .70 .7580 1.15 .8749 1.60 .9452 2.05 ,9798 * .71 .761] 1.16 -8770 1.61 .9463 2.06 .9803 .72 .7642 1.17 .8790 1-62 9474 2.07 .9808 .73 .7673 1,18 .8810 1 63 .9484 2 08 9812 .74 .7704 1.19 .8830 1.64 9495 2 09 .9817 .75 .7734 I 20 .8849 1.65 .9505 2.10 .9821 .76 .7764 1.21 .8869 1,66 .9515 2.11 .9826 .77 .7794 1.22 -8888 1.67 .9525 2.12 .9830 .78 .7823 1-23 .8907 1.68 ,9535 2.13 .9834 .79 .7852 1 24 .8925 1-69 .9545 2.14 .9888 f .80 .7881 1.25 .8944 1.70 .9554 2,15 .9842 .81 .7910 1.26 .8962 1.71 .9564 2.16 9846 1 * I :< I 384
Продолжение таЬл IV 1 z AL- X al. X AL. . x A‘- t i । .82 .7939 1.27 .8980 1.72 .9573 2.17 9850 .83 .7967 1,28 .8997 1.73 .9582 2Л8 .9854 .84 .7995 L29 9015 1.74 .9591 2.19 .9857 2.20 .9861 2.65 .9960 3.10 .9990 3.55 .9998 L - 2.21 9864 2.66 .9961 3.11 .9991 3.56 .9998 • 2.22 .9868 2 67 .9962 3.12 .9991 3 57 .9998 - 1 1 2.23 .9871 2.68 .9963 3.13 .9991 3.58 .9998 r i 2.24 9875 2.69 .9964 3.14 .9992 3.59 .9998 X 2.25 .9878 2.70 .9965 3.15 ,9992 360 9998 i .2.26 .9881 2.71 .9966 3.16 .9992 3.61 9998 jC 2.27 .9884 2.72 .9967 3.17 .9992 3.62 .9999 f 2 28 .9887 2.73 9968 3.18 0993 3.63 .9999 • 2.29 .9890 2.74 ,9969 3.19 .9993 3.64 9990 fl 2.30 .9893 2.75 .9970 3.20 .9993 3.65 .9999 * V 231 .9896 2.76 .9971 8 21 .9998 3.66 9999 * 2.32 .9898 2.77 .9972 3.22 9994 8.67 .9999 Л 2.83 .9901 2.78 .9973 3.23 .9994 3.68 .9999 4. 4 2.34 9904 2.79 .9974 3.24 .9991 3.69 ,9999 2.35 .9906 2.80 .9974 3.25 „9994 3.70 .9999 2.36 .9909 2.81 «9975 3.26 9994 3.71 .9999 * V 2.37 .9911 2.82 .9976 3.27 .9995 3.72 .9999 < 2.38 .9913 2.83 .9977 3.28 .9995 3.78 .9999 2.39 .9916 2.84 «9977 3.29 9995 3.74 9999 2.40 9918 2.85 .9978 3.30 .9995 3.75 .9999 ай 2.41 .9920 2.86 9979 8.31 9995 8.76 9999 1 2.42 .9922 2.87 .9979 3.82 .9996 3-77 .9999 2.43 .9925 288 .9980 3.33 .9996 3.78 .9999 2.44 9927 2.89 .9981 8 34 9996 8 79 9999 J 2.45 9929 2.90 .9981 8.35 .9996 3-80 .9999 2 46 .9931 2.91 .9982 3.86 .9996 3.81 .9999 V 1 2.47 9932 2.92 .9983 3.37 .9996 3.82 .9999 2 48 .9934 2.93 .9983 3.38 .9996 8.83 .9999 1 2.49 .9936 2.94 .9984 3.39 .9997 3.84 .9999 2.50 .9988 2.95 .9984 3.40 .9997 3,85 .9999 2.51 .9940 2.96 .9985 3.41 .9997 3.86 .9999 2.52 .9941 297 .9985 8.42 .9997 3.87 .9999 2.53 .9943 2.98 .9986 3.48 .9997 8.88 .9999 2.54 .9945 2.99 .9986 3.44 .9997 3.89 1.0000 - 2.55 .9946 3.00 .9987 3.45 ,9997 3.90 1,0000 • 2.56 .9948 3.01 .9987 8.46 9997 3.9L 1 0000 2.57 .9949 3.02 .9987 3-47 .9997 3.92 1.0000 2.58 .9951 3.03 .9988 348 .9997 3.98 I 0000 5 2Л9 .9952 3.0*1 .9988 3.49 9998 3 94 I 0000 2.60 .9953 3.05 .9989 8.50 «9998 8.95 1.0000 261 .9955 3.06 .9989 8.51 9998 8.96 1 0000 - 2.62 9956 3.07 .9989 3.52 .9998 3.97 10000 , К 1. 263 S957 3.08 .9990 3.58 .9998 3.98 1.0000 2.64 .9959 8.09 .9990 3.54 .9998 399 1.0000 Примечание. Данные взяты из источника W.H. Beyer (Ed У Handbook of Tables for Probability and Siatisncs. Cleveland, Ohio. The Chemical Rubber Co., 1966. Воспроизводится с табл. IL 1 с разрешения The Chemical Rubber Co. 25—232 385
Таблица V, Нормальные случайные числа (д = 0, а = ]) 01 02 03 04 05 06 07 08 09 10 "0.464 0.137 2.455 - 0.323 -0.068 0.296 -0.288 1.298 0.241 -0.957 0.060 - 2.526 -0.531 -0 194 0.543 - 1.558 0 187 -1.190 0.022 0.525 1.486 — 0.354 -0.634 0.697 0.926 1,375 0,785 -0.963 —0.853 -1.865 1.022 - 0.472 1 1.279 3.521 0.571 -1.851 0.194 1.192 -0.501 -0.273 1.394 - 0.555 0.046 0.321 2.945 1.974 — 0.258 0.412 0.439 -0.035 0.906 -0.513 -0.525 0.595 0.881 -0.934 1.579 0.161 -1.885 0.371 1.179 -1.055 0.007 0.769 0.971 0.712 1.090 -0.631 -0.255 - 0.702 -1.501 -0.488 -0.162 -0.136 1.033 0.203 0.448 0.748 - 0.423 - 0.432 -0.690 0.756 - 1.618 -0.345 — 0.511 — 2051 -0.457 — 0.218 0.857 - 0.465 1.372 0.225 0.378 0.761 0.181 -0.736 0.960 -1.530 -0.260 0.120 -0.482 1.678 — 0.057 -1 229 -0 486 0.856 -0.491 -1.983 -2 830 - 0.238 -1.376 - 0 150 1.356 — 0,561 -0.256 -0,212 0.219 0.779 0.953 -0.86!» -1.010 0-598 -0918 1 598 0.065 0.415 -0.169 0.313 -0.973 -1.016 -0.005 -0.899 0.012 -0.725 1,147 -0.121 1.096 0.481 -1.691 0.417 1.393 -I.J63 -0.911 1.231 -0.199 -0.246 L239 -2.574 -0.558 0.056 -1.787 -0.261 1.237 1.046 -0.508 -1.630 -0.146 -0.392 -0.627 0.561 -0.105 - 0.357 -1.384 0.360 -0.992 -0.II6 -1.698 -2.832 -1.108 -2.357 -1-339 1.827 -0.959 0.424 0.969 -1.141 -1.04 Г 0.362 -1.726 1.95ft 1.041 0.535 0.731 1.377 0.988 -1.330 1.620 -1.040 0.524 -0.281 0.279 - 2.056 0.717 -0.873 -1.096 — 1-396 1.047 0.089 -0.573 0.932 — 1.805 - 2.008 -1.633 0.542 0.250 - 0.166 0.032 0,079 0.471 —1.029" -1.186 1.180 1.114 0.882 1.265 -0.202 0.151 — 0.376 -0.310 0.479 (1658 -1.141 1.151 -1.210 -0.927 0.425 0.290 -0 902 0.610 2.709 -0.439 0.358 -1939 0.891 -0.227 0.602 0.873 -0.437 -0220 -0.057 -1.399 -0.230 0.385 -0.649 -0.577 0.237 -0.289 0.513 0.738 -0.300 0.199 0.208 -1.083 -0.219 -0.291 1.221 1.119 0,004 -2.015 -0.594 0.159 0.272 -0.313 0.084 -2.828 -0.489 -0.792 -1.275 -0.623 -4.047 2.273 0.606 0.606 -0.747 0.247 1,291 0063 -1.793 -0.699 -1.347 0.041 -0.307 0.121 0.790 -0.584 0.541 0.484 -0.986 0.481 0.996 -1.132 - 2.098 0.921 0.145 0.446 -1.661 1.045 -1363 -0.586 -1.023 0768 0.079 -1.473 0.034 -2.127 0.665 0.084 -0.880 -0.579 0.551 0.375 -1.658 -0.851 0.234 —0.656 0.340 -0,086 -0.158 -0.120 0.418 -0.513 —0.344 0.210 -0 735 1.041 0.008 0.427 -0,831 0.191 0.074 0.292 - 0.521 1.266 -1.206 -0.899 0.110 -0.528 -0.813 0.071 0.524 1.026 2.990 -0.574 — 0.491 -1.114 1.297 -1.433 -1545 -3.001 0.479 -1.334 1.278 —0.568 -0.109 -0.515 -0.566 2.923 0.500 0.359 0.3*16 -0.287 - 0.144 -0 254 0.574 -0.451 -1.181 -1.190 -0,318 -0.094 1.114 0.161 -0.886 -0.921 -0.509 1.410 -0.518 0,192 -0.432 1.501 1.068 -1.346 0.193 -1.202 0.394 -1.045 0.843 0.942 1.045 0.031 0.772 1.250 - 0.199 —0.288 1.810 1.378 0.584 L216 . 0,733 0.402 0.226 0.630 -0.537 . 0.782 0.060 0.499 -0.431 1.705 1.164 0.884 -0.298 0.375 -1.941 0.247 -0.491 -0.665 -0.135 -0.145 — 0-498 0.457 1.064 -1.420 0.489 -1.711 -1.186 0.754 -0.732 -0.066 1.006 -0.798 0.162 — р.151 -0.243 -0.430 -0 762 0.298 1.049 1.810 2.885 -0.768 - 0.129 - 0309 0.531 0.416 -1.541 1.456 2.040 -0.124 0.196 0.023 -1.204 386
Продолжение табл. V 01 02 03 04 05 06 07 08 09 10 0.424 -0.444 0.593 0.993 -0.106 0.116 0.484 -1.272 1.066 1.097 0.593 0.658 -1.127 -1.407 -i.579 - 1.616 1.458 1.262 0.736 -0.916 0.862 -0.885 -0.142 -0.504 0.532 1.381 0.022 -0.281 -0,342 1.222 0.235 -0.628 -0.023 -0.463 -0.899 -0.394 —0.538 1.707 -0.188 —1.153 -0.853 0,402 0.777 0.833 0.410 -0.349 -1.094 0.580 1.S95 1.298 -1.329 -0.238 -0.838 -0,988 -0.445 0964 -0.266 -0.322 -1.726 2.252 1.284 - 0.229 1.058 0.090 0 050 0528 0.016 0.277 1.639 0.554 0.619 0.628 0.005 0.973 -0.058 0 150 -0.635 -0.917 0.313 -1203 0.699 -0.269 0.722 -0.994 -0.807 - 1 208 1.163 1.244 L306 — 1*210 0.101 0.202 -0.150 0.731 0.420 0.116 -0.496 -0.037 -2.466 0 794 • -1.381 0.301 0,522 0,233 0.791 -1.017 -0.182 0.926 -1.096 1.001 -0.574 1.366 — 1.843 0.746 0890 0.824 -1.249 -0.806 -0.240 0.217 0.096 0.210 1,091 0.990 0.900 -0.837 -1.097 -1.238 0,030 -0.311 1.389 -0.236 0,094 3.282 0.295 -0.416 0.313 0.720 0.007 0.354 1.249 0.706 1.453 0.366 2.654 -1.400 0.212 0.307 -1.145 0.639 0.756 -0.397 -1.772 -0.257 1.120 1.188 —0.527 0.709 0.479 0.317 -0.860 0.412 -0.327 0.178 0.524 -0.672 -0.831 0.758 0.131 0.771 -0.778 - 0.979 0.236 -1.033 L497 -0,661 0.906 1.169 — 1.582 1.303 0.037 0.062 0.426 1.220 0.471 0.784 -0.719 0.465 1.559 -1.326 2.619 - 0 440 0.477. 1.063 0.320 1.406 -0.701 -0.128 0.518 -0.676 -0.420 - 0.287 — 0.050 -0.481 1.521 -1.367 0.609 0.292 0048 0.592 1.048 0.220 1.121 -1.789 -1.211 -0.871 -0.740 0.513 -0.558 - 0-395 1.000 - 0.638 1,261 0 510 -0.150 0.034 0.054 -0.055 0.639 -0825 0.170 -1.131 -0.985 0.102 -0.939 -1.457 1.766 1.087 -1.275 2.362 0.389 - 0.435 0.171 0.891 1.158 J ,041 1.048 -0.324 -0.404 1.060 - 0.305 0.838 -2.019 — 0.540 0.905 1.195 -1.190 0.106 0.571 0.298 -0.321 -0.039 1.799 - 1.032 -2.225 -0.148 0.758 -0.862 0.158 -0.726 1.900 1.572 -0.244 -1.721 1.130 0.495 -0.484 0.014 -0.778 -1.483 -0.778 - 0.288 -0.224 -1.324 - 0 072 0.890 -0.410 0.752 0.376 - 0.224 0.617 -1.718 -0.183 -0.100 1.719 0.696 -1.389 -0.614 1.071 -0.386 -1.430 - 0.953 0.770. - 0007 -1.872 1.075 -0.913 -1.168 1.775 0.238 0.267 — 0.048 0.972 0.734 -1408 — 1.955 -0.848 2.002 0.232 -1273 0.978 -0.520 -0.368 L690 -1.479 0.985 1.475 -0.098 -1.633 2.399 -1.235 —1.168 0.325 1421 2652 -0.486 -1.253 0.270 -1.103 0.118 -0.258 0.638 2.809 0.741 -0.161 -0.679 0.336 1.973 0.370 - 2.277 0.243 0.629 -1.516 -0.157 0693 1 710 0.800 -0.265 1.218 0655 -0.292 -1.455 -1.451 1-492 -0.713 0321 -0.031 -0.780 1 330 0977 -0.505 0.389 0.544 -0.042 1.615 -1.440 -0.989 -0.580 .0.156 0.052 0.397 - 0.287 1.712 0.289 -0.904 0.259 -0.600 -1.635 -0.009 - 0.799 -0.605 -0.470 0.007 0,721 -1.117 0.635 0.592 -1.362 -1.441 0.672 *25* 387
Продолжение табл. V * 11 12 13 14 15 16 17 18 19 20 1.860 0.182 -1 476 — 0.599 -0.875 0.292 -0,700 0058 -0Л40 -0.639 0.480 -0.699 1.615 -0.225 1.014 -1.370 -1.097 0.294 0.309 -1.389 -0.027 -0487 -1 000 -0.015 0.119 -1.990 -0.687 -1.964 -0.366 1.759 - 1.482 -0815 -0.121 1.884 -0.185 0.601 0 793 0480 -1.181 0.426 -1.256 -0567 - 0.994 1.011 -1.071 - 0.623 -0.420 -0.309 1.362 0.863 -1.132 2.039 1.934 -0.222 0.386 1.100 0-284 1.597 -1.718 -0.560 -0.780 — 0.289 -0.497 — 0.434 -0.284 -0.241 -0.333 L848 -0.478 -0*169 -0.859 -0.215 0.241 1.471 0.889 -0.952 0.245 0.781 1.093 -0.240 0 447 1.479 0.067 0.426 -0.370 -0.675 -0.972 0.225 0.815 0.389 0.269 0.735 -0066 -0.271 — 1.439 1036 -0.306 -1.439 -0 122 -0-336 0.097 -1.883 -0.218 0.202 -0.357 0.019 1 631 1.400 0.223 -0.793 • 0Ъ86 1596 -0 286 0722 0.655 — 0.275 1.245 -1.504 0 066 -1.280 0.957 0.057 -1.153 0.701 -0.280 1.747 -0.745 1.338 -1.421 0.386 -0,976 — 1-789 -0.696 -1.799 -0Л54 0.071 2.355 0.135 -0.598 1.883 0.274 0.226 -0.909 -0.572 0.181 1.115 0.406 0.458 -1.218 -0.115 Примечание. Данные нзяты нз источника W.H. Beyer (Ed,). Handbook of Tables for Probability and Statistics. Cleveland, Ohio. The Chemical Rubber Co., 1966. Воспроизводятся с табл. XII. 4 с разрешения The Chemical Rubber Co. Габлнца VI. Распределение Пуассона i X 0.1 0.2 0.3 0.4 m 05 0.6 0.7 0.8 0.9 1.0 0 .9048 .8187 .7408 .6703 .6065 .5488 4966 .4493 .4066 .3679 I .0905 .1637 '2222 .2681 .3033 .3293 .3476 .3595 .3659 .3679 2 .0045 0164 ,0333 .0536 .0758 0988 .1217 1438 .1647 .1839 Л 0002 ООП ,0033 .0072 .0126 0198 .0284 .0383 .0494 0613 - 4 1 .0000 0001 0002 .0007 0016 0030 .0050 .0077 .0111 .0153 5 JOOOO .0000 .0000 .0001 .0002 .0004 .0007 .0012 0020 .0031 6 оооо .0000 .0000 .0000 .0000 .9000 .0001 .0002 .0003 .0005 7 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 m X 1,Г. 1.2 1.3 1.4 15 1.6 1.7 1.8 1.9 2.0 1 ' 0 .3329 .3012 .2725 .2466 .2231 .2019 .1827 J 658 1496 J358 - 1 .3662 .3614 .3543 *8452 .3347 .3230 .3106 .2975 .2842 .2707 2 .2014 .2169 2303 .2417 .2510 2584 2640 .2678 .2700 .2707 3 .0738 .0867 0998 .1128 .1255 .1878 1496 .1607 .1710 .1804 4 .0203 0260 -0324 0395 .0471 .0551 0636 .0723 .0812 .0902 5 .0045 .0062 0084 .0111 .0141 0176 0216 .0260 .0309 ,0361 6 .0008 0012 .0018 0026 .0035 0047 .0061 .0078 0098 .0120 38»
Продолжение табл. VI тп -Vi LI 1.2 1.3 1.4 1.5 16 1.7 L8 1.9 2.0 7 0001 .0002 .0003 .0005 .0008 ООП .0015 .0020 0027 0034 8 .0000 .0000 .0001 ,0001 .0001 .0002 ,0003 .0005 0006 .0009 9 .0000 .0000 оооо оооо ОООО ОООО .0001 .0001 0001 .0002 m X 2,1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 8.0 0 Л 225 .1108 .1003 .0907 0821 .0743 .0672 .0608 0550 .0498 1 .2572 .2438 .2306 .2177 .2052 .1931 .1815 .1703 .1596 .1494 2 2700 .2681 .2652 .2618 .2565 .2510 .2450 .2884 .2314 .2240 3 .1890 1966 .2033 .2090 .2138 .2176 .2205 .2225 .2237 .2240 4 .0992 .1082 1169 .1254 .1336 .1414 .1488 .1557 ,1622 1680 5 .0417 .0476 .0588 .0602 0668 .0735 .0804 .0872 .0940 .1008 6 .0146 .0174 0206 .0241 .0278 .0819 .0362 .0407 .0455 .0504 7 0044 .0055 ,0068 .0083 .0099 .0118 .0139 .0163 .0188 .0216 8 .0011 .0015 .0019 ,0025 .0031 .0038 .0047 .0057 .0068 .0081 . 9 .0008 .0004 .0005 .0007 .0009 .ООП .0014 .0018 .0022 .0027 10 .0001 .0001 .0001 .0002 .0002 0003 0004 .0005 .0006 .0008 11 оооо .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002 0002 12 .0000 .0000 оооо .0000 ,0000 .0000 .0000 .0000 .ОООО .0001 X 3.1 4.0 3,2 3.3 8.4 3.5 3.6 3.7 3.8 3.9 0 .0450 .0408 .0369 .0334 .0302 .0273 .0247 .0224 .0202 0183 ... 1 1397 .1304 .1217 .1185 Л 057 .0984 .0915 .0850 Ю789 0733 0 .2165 2087 .2008 Л 929 .1850 .1771 Л 692 Л615 1539 Л 465 3 .2237 .2226 .2209 ,2186 .2158 .2125 .2087 2046 .2001 1954 4 .1734 .1781 1823 .1858 1888 Л912 .1931 .1944 1951 Л954 i ' . 5 .1075 1140 .1203 1264 .1322 .1377 .1429 .1477 .1522 .1563 6 .0555 .0608 .0662 .0716 .0771 .0826 .0881 .0936 .0989 Л 042 7 .0246 ,0278 .0312 .0848 .0385 .0425 .0466 .0508 .0551 J0595 ‘ Я .0095 .0111 .0129 .0148 .0169 .0191 ,0215 -0241 .0269 .0298 9 ,0038 .0040 .0047 .0056 .0066 0076 0089 .0102 .0116 .0132 10 .0010 .0018 .0016 .0019 .0023 .0028 .0033 ,0039 ,0045 .0053 И .0003 0004 .0005 .0006 .0007 .0009 ООП 0013 .0016 .0019 12 .0001 .0001 .0001 .0002 .0002 .0003 ,0003 0004 ,0005 0006 ? - 13 .0000 .0000 ОООО .0000 .0001 .0001 .0001 ,0001 .0002 0002 14 । । .0000 .9000 .0000 .0000 .0000 .0000 .0000 ОООО .0000 .0001 X 4.1 42 4.8 44 ш 4.5 4.6 4.7 4.8 4.9 5.0 0 .0166 .0150 .0136 .0123 .0111 .0101 .0091 .0082 .0074 .0067 I .0679 .0630 0588 .0540 .0500 .0462 ,0427 0395 .0365 .0337 2 .1893 .1323 1254 .1188 .1125 .1063 1005 .0948 .0894 .0842 389
Продолжение табл, VI m X 4.1 4.2 4,3 4.4 4.5 4.6 4.7 4.8 4.9 5.0 3 1904 .1852 .1798 .1743 .1687 .1631 .1574 .1517 .1460 1404 4 .1951 .1944 .1933 .1917 .1898 .1875 .1849 .1820 .1789 .1755 5 .1600 1633 .1662 1687 .1708 1725 .1788 Л747 .1758 Л755 . 6 .1093 .1143 .1191 Л237 Л281 Л323 .1362 .1398 .1432 .1462 7 0640 .0686 .0752 .0778 .0824 ,0869 0914 .0959 .1002 .1044 8 .0328 .0360 .0393 .0428 0463 .0500 .0587 .0575 .0614 .0653 9 .0150 .0168 .0188 .0209 ,0232 -0255 .0280 .0307 .0334 .0363 10 0061 .0071 .0081 .0092 * -0104 -0118 .0132 .0147 .0164 .0181 11 .0023 .0027 .0032 ,0037 0043 0049 .0056 .0064 .0073 .0082 12 .0008 .0009 .0011 .0014 .0016 .00)9 .0022 1 .0026 .0030 .0034 13 <J002 .0003 .0004 .0005 .0006 .0007 .0008 0009 .0011 .0013 14 .0001 .0001 0001 .0001 .0002 .0002 .0003 .0003 .0004 .0005 15 ,0000 .0000 .0000 .oooo .0001 0001 0001 .0001 .0001 .0002 r m X 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0 0 .0061 .0055 .0030 .0045 .0041 .0037 .0033 .0030 ,0027 .0025 1 .0311 .0287 .0265 .0244 .0225 .0207 ,0191 .0176 .0162 .0149 2 .0793 .0746 .0701 .0659 .0618 .0580 .0544 .0509 .0477 .0446 3 -1348 .1293 .1239 .1185 .1133 Л082 Л033 .0985 .0938 .0892 4 .1719 ,1681 -1641 .1600 .1558 .1515 .1472 ,1428 .1383 .1339 5 .1753 .1748 -1740 .1728 .1714 .1697 ,1678 .1656 .1632 .1606 ft 4 * .1490 .1515 .1537 .1555 .1571 .1584 .159-4 1601 1605 .1606 7 1086 .1125 .1163 .1200 .1234 1267 .1298 .1826 .1353 Л377 8 ,0692 .0731 .0771 .0810 .0849 ,0887 .0925 .0962 .0998 .1033 9 .0392 .0423 0454 .0486 Д519 ,0552 .0586 .0620 .0654 0688 . 10 .0200 .0220 .0241 .0262 ,0285 .0309 .0384 .0359 .0386 .0413 11 .0093 .OHM .0116 .0129 .0143 -0157 .0173 .0190 .0207 .0225 12 -0039 .0045 .0051 .0058 .0065 ’ .0073 .0082 009? .0102 .0113 13 .0015 .0018 .0021 .1X124 0028 .0032 ,0036 .0041 .0046 .0052 14 .0006 .0007 .0008 .0009 0011 .0013 .0015 ,0017 ,0019 .0022 15 .0002 .0002 .0003 .0003 .0004 .0005 0006 .0007 0008 .0009 16 .0001 .0001 .0001 .0001 -<MM>i .0002 .0002 .0002 .0003 .0003- 17 .0000 .0000 oooo oooo .0000 -OOOO .0001 .0001 .0001 .0001 Примечание. Данные взяты из источника W.H. Beyer (Ed.). Handbook of Tables for Probability and Statistics. Cleveland Ohio. The Chemical Rubber Co,, 1966. Воспроизводится с табл. Ill. 3 с разрешения The Chemical Rubber Co. 390
Таблица VII. лРаспредетение Стъкщсзта (при-ю/упся значения t для aL „ = с при р степеней обо (юди) X. € V X. .95 .975 99 .995 .9995 1 6.314 12.706 31.821 63.657 636.619 2 2.920 4.303 6.965 9.925 31.598 3 2.353 ЗЛ82 4.541 5,841 12,941 4 2 Л 32 2.776 3.747 4,604 8.610 5 2.015 2.571 3.365 4.032 6.859 6 1.943 2.447 3 143 3.707 5.959 7 1.895 2.365 2.998 3.499 5.405 • 8 1.860 2.306 2.896 3.355 5.041 9 1.833 > 2.262 2.821 3.250 4-781 10 1.812 2.228 2.764 3-169 4.587 11 1.79» 2.201 2.718 3.106 4.437 12 1.782 2.179 2.681 3.055 4.318 13 1.771 2.160 2.650 3.012 4.221 14 1.761 2 145 2.624 2.977 4.140 15 1.753 2 131 2.602 2-947 4.073 16 1.746 2 120 2.583 2.921 4015 17 1.740 2 Л10 2.567 2,898 3.965 IB 1.784 2Л01 2.552 2.878 3.922 19 1.729 2.093 2.539 2.861 3.888 20 1.725 2.086 2.528 2.845 3.850 21 1.721 2.080 2.518 2.831 3.819 22 1.717 2.074 2508 2.819 3.792 23 1.714 2,069 2.500 2,807 3.767 24 1.711 2,064 2 492 2,797 3.745 25 1.708 2.060 2.485 2.787 3.725 26 1.706 2.056 2.479 2.779 3.707 27 1.703 2.052 2.473 2.771 3.690 26 1.701 2.048 2.467 2.763 3.674 29 1.699 2.045 2.462 2.756 8.659 80 1.697 2.042 2.457 2.750 3.646 40 1.684 2.021 25423 2,704 3.551 Й> 1.671 2.000 2.390 2.660 3.460 120 1.658 1.980 2.358 2.617 3.373 оо 1.645 1.960 2.326 2.576 3.291 Примечание. Данные взяты из табл, III источника Fisher and Yates: Statistical' Tables for Biological, Agricul- tural and Medical Research. Oliver and Boyd (Ed.). Воспроизводится с разрешения авторов и из- дателей- . 391
Таблвда УЛЕ Доверительные пределы для долевых характеристик Пример. В выборке объемом п = 60. NS - X = 24» р - 24/60 = 0,4, или 40%, отметьте точку 0,4 на горизонтально^ оси- .Восстановленный из этой точки перпендикуляр пересечет две дове- рительные кривые, соответствующие л = 60. Ордмтанты этих точек определяются по левой вертикальной шкале. Имеем: C.L.» 0,275 4-О»535, или C.L. « 27,54-53,5%. 392
Продолжение табл. V111 Примечание Панине взяты нз источника Biometrika Tables for Statisticians. V.L Great Britain: Cambridge Uni versity Press. 1966. 3rd ed., v. 1, p. 228 -229, Воспроизводится с разрешения профессора EC. Пир- »на по доверенности Biometrika.
Тябянца fX. Распределение хи-квадрат (приводятся значения х3 для = € при v степенен свободы) \ € х\ .900 950 .975 .990 .995 1 2.71 3.84 5.02 6.63 7.88 2 4 61 5.99 7-38 9,21 10.6 5 625 7.81 9.85 11.3 12.8 4 7.78 9.49 ПЛ _ 13.3 14.9 5 9,24 ИЛ 12-8 15.1 16.7 6 10.6 12.6 14.4 16.8 18.5 7 12.0 14.1 16.0 18.5 20.3 8 13 4 15.5 17.5 20.1 22.0 9 14.7 16.9 19.0 21 7 23.6 10 160 18.3 20.5 23.2 25.2 11 17 3 19.7 21.9 24 7 26.8 12 18.5 21.0 23.8 26.2 28.3 13 19.8 22.4 24.7 27.7 29.8 14 21,1 237 26 Л 29Л 31.8 15 223 25.0 27.5 80.6 32.8 16 23.5 26.3 28.8 32.0 34.3 17 24 8 27.6 30.2 33.4 35.7 18 26.0 289 81.5 84.8 37.2 19 272 зол 32.9 36.2 38.6 20 28.4 31.4 34.2 37.6 40.0 21 296 82.7 85.5 38.9 41.4 22 808 83.9 36.8 40.3 42.8 23 32.0 35.2 381 41.6 44,2 24 33 2 364 39.4 43,0 45.6 25 34.4 37.7 40.6 44.3 46.9 26 35.6 389 4L9 45.6 48.3 27 36.7 40 1 43.2 47.0 49-6 28 37.9 41 3 44.5 48.8 51.0 29 39.1 426 45.7 49.6 52,3 30 40.3 43.8 47.0 50.9 53.7 11рнмечанве. Тонные взяты из табл. IV источника Fisher and Yates. Statistical Tahjcs for Biological, Agricultu- ral and Medical Research. Oliver and Boyd (Ed.). Воскроиэво/штся с разрешения авторов я изда- телей. 394
Таблица X. Распределение хи-квадрат по степеням свободы (приводятся процентили Р, при v степеней свободы) Пример. Дано у - 5, г- 5,0. Р5 0 = 0,2290- \ г 0.05 0.1 0.5 1.0 2.5 5.0 95.0 97.5 990 99.5 99.9 99.95 V\ 1 .0000 .0000 0000 .0002 .0010 0039 3.84 10 5.0240 6.6350 7.8790 10.8280 12.1160 2 .0005 .0010 .0050 .0100 ,0253 .0515 2.9955 3.6890 4.6050 5.2985 6.9080 7.6010 3 .0051 .0081 .0239 .0383 .0720 .1173 2.6050 3.1160 3.7817 4 2793 5.4220 5.9100 4 .0160 .0227 .0518 .0742 .1210 .1778 2.3720 2.7858 3.3192 3.7150 4.6168 4.9995 5 .0316 .0420 .0824 .1108 .1662 .2290 2.2140 2.5664 3.0172 3.3500 4.1030 4.4210 6 .0499 .0635 .1127 .1453 .2062 -2725 2.0987 2.4082 2.8020 30913 3,7430 4.0172 7 .0693 .ti854 .1413 .1770 .2414 .3096 2.0096 2.2876 2.6393 2.8969 3.4746 3,7169 8 ,0888 .1071 .1680 .2058 .2725 .3416 1.9384 2.1919 2.5112 2.7444 3.2656 3.4H35 9 .1(180 .1281 .192» .2320 .3000 ,3694 1,8799 2,1137 2.4073 26210 3.0974 3.2962 10 .1265 .1479 .2156 .255» .3247 3940 1.8307 2,0483 2.3209 23188 2.95^8 3.1419 11 -1443 .1667 -2366 .2775 .3469 .4159 1.7886 1.9927 2.2477 2Л325 2.8422 3.0124 12 .1612 .1845 .2562 .2976 .3670 .4355 1.7522 1,9447 2.1848 2 3583 2.7424 2.9018 13 .1773 .2013 .2742 .3159 .3853 4532 1.7202 1.9028 2.129» 2.2938 2.6fi60 2,8060 И .1926 .2172 .2911 .3329 .4021 .4694 1.6918 1.8656 2.0815 2.2371 2.5&)2 2.7221 15 .2072 .2322 .3067 3486 .4175 .4841 1.6664 1.8325 2.0385 2.1867 2.5131 2.6479 ifi .2210 .2464 .3214 .3632 .431» ,4976 1,6435 1.8028 2.0000 2.1417 2.4532 2.5818 17 .2341 .2598 .8351 .3769 .4449 5101 1.6228 1.7759 1.9652 2.1011 23994 2.5223 18 .2466 .2725 .8481 .3897 .4578 .5217 1.6038 3.7514 1.9336 2.0642 2.3507 2.4686 19 .2585 .2846 .3602 .4017 .4688 .5325 1.5865 1.7291 1.9048 2 0306 2.3063 2.4196 20 .2699 .2961 .3717 .1130 .4796 .5426 1.5705 1.7085 1.8783 1 9998 2.265ft 2.3749 21 .2808 .3070 .3826 .4237 .4897 .5520 1.5558 1.6895 1.8539 1.9715 2.2284 2.3338 22 .2911 .3174 .3929 .4837 .4992 .5608 1.5420 1.6719 1.8313 1.9453 2.1940 2.2960 23 .3010 .3273 .4026 .4433 .5082 .5692 1.5292 1.6555 18103 19209 2.1621 2.2609 24 .3105 .3869 4119 .4523 .5167 ,5770 1.5173 1.6402 1,7908 1.8982 2.1325 2.2283 25 .3196 -3460 .420» .4610 -524» .5844 1.5061 1.6258 1.7726 1.8771 2.1048 2.1979 26 .3284 .3547 .4292 .4692 .5325 .5915 1.4956 1.6124 1.7555 1,8573 2.0789 2,1695 27 .3368 .3631 .4378 .4770 .5397 .5982 1,4857 1,5998 1.7394 1.8387 2.0547 2.1429 28 .3449 .3711 .4450 .4845 .5467 6046 1.4763 1,5879 1.7242 1.8212 2.0319 2.1179 29 .3527 .3788 4524 .4916 .5533. .6106 1.4675 1.5766 L7099 18017 2.0104 2.0943 30 .3601 3863 .4596 -1984 .5597 .6164 1.4591 1.5660 1.6964 1,7891 1.9901 2.0720 31 .3674 .3934 .4664- .5050 ,5658 ,6220 1.4511 15559 1.6836 1.7743 1.9709 2.0510 32 .3743 .4003 .4729 ,5113 ,5716 .6272 1.4436 1.5462 1.6714 1.7602 1.9527 2.0311 33 .3811 .4070 .4792 .5174 .5772 .6823 1.4364 1.5371 1 6599 1,7469 1,9355 2.0122 34 .3876 .4134 -4853 .5232 -5825 .6372 1-4295 1.5284 1.6489 1.7342 1.9190 1.9942 35 .3939 .4197 .4912 .5288 .5877 .6419 1.4229 1.5201 1.6383 1.7221 1.9034 1.9771 36 .4000 .4257 .4969 .5842 .5927 .6464 1.4166 1.5121 1.6283 1.7106 1.8885 J 9608 37 .4059 .4315 .5023 .5395 .5975 .6507 1.4106 1.5045 1.6187 1.6995 1.8742 1.9452 38 ,4117 .4371 .5076 .5445 .6021 .6548 1.4048 1.4972 1.6095 1.6890 1.8606 1,9303 39 4173 4426 .5127 ,5494 .6065 .6588 1 3993 1.4903 1,6007 1.6789 1.8476 1.9160 40 .4226 .4479 .5177 ,55-11 .6108 .6627 1.3940 1-4836 1.5923 1.6692 1.8350 1.9024 41 .4279 -4530 .-5225 Л587 .6150 .6665 1.3888 1.4771 1.5841 1.6598 1.8230 1.8892 42 .1330 .4580 .5271 '.5631 .6190 .6701 1.3839 1,4709 1.5763 1.6509 1.8115 1.8767 13 .4380 .4629 .5316 .5674 .6229 ',6736 1,3792 1.4649 1.5688 1.6422 1.8004 1.8646 44 .4428 .4676 .5360 -.5715 ,6267 .6770 13746 1.4591 1.5616 1-6339 1.7898 1 8529 45 .4475 -4722 .5402 .5756 6304 ,6803 1.3701 1.4536 13546 1.6259 1.7795 L8417 46 .4520 ,4767 5444 .5795 ,6339 6К35 1.3659 1.4482 1.5478 1.6182 17696 1.8309 47 .4565 .4811 .5484 ,5833 .6374 _6866 1.3617 1.4430 1.5413 L6107 1.7600 1,8204 48 .4(>09 .4853 .5529 .5870 .6407 .6895 1.3577 1 4380 L5351 1.6635 1.7508 1.8104 49 .4651 .4894 .5561 3906 .6440 -6924 1.3539 1.4331 1.5290 1.5966 1.7418 1.8005 50 .4692 .4935 .5598 .5941 .6171 .6953 1.3501 1.4284 1.5231 J-5898 1.7332 J,79t2 395
1роцолженне пВл. X \ г 0.05 0.1 0.5 1.0 2.5 5.0 95.0 97.5 •99.0 99.5' 99.9 99.95 51 .4733 4974 .5634 .5975 -6502 ,6980 13465 14238 1.5174 1.5833 1.7249 1.7821 52 -4772 .5012 .5669 6009 .6532 .7007 1.3429 1,4194 1,5118 1.5769 L7168 1.7733 53 .4810 .5050 .5704 .6041 .6562 -7033 1.3395 1.4151 1,5065 1-5708 1=7089 1,7648 54 .4848 5087 .5737 .6073 .6590 .7059 1-3362 1 4110 1.5013 1.56*19- 1.7018 1.7565 55 .4885 .5122 .5770 .6104 .6618 .7083 1.3329 1.4069 1.4962 1.5591 1.6939 1.7484 56 .4921 .5157 .5802 .6184 .6645 ,7107 1.3298 14030 1.4913 1.5535 1.6868 1.7406 57 -4956 .5191 .5833 £163 .6671 -7131 1.3267 1 3992 1.4865 1.5480 1.6798 1.7331. 58 .4990 .5225 .5863 .6192 .6697 >7154 1 3238 1.3954 1,4819 1.5427 1.6731 1.7257 59 .5024 .5258 .5893 .6220 .6722 .7176 1.3209 13918 I 4774 1.5375 1.6665 1.7185 ко .5057 .5290 .5922 .6248 J6747 .7198 1.3180 13883 1.4730 1.5325 1.6601 1.7116 €1 Л089 .5321 .5951 .6274 ,6771 .7219 1.3153 1.3849 1.4687 1.5276 1.6539 1-7048 62 .5121 .5352 .5979 .6300 .6795 7240 1.3126 1.3815 14645 1.5229 1.6478 1.6982 КЗ .5152 .5382 .60» .6326 .6817 ,.7260 1.3100 1.3783 1.4605 1.5182 1.6419 1.6918 64 .5182 .5411 .6033 .6851 ,684.0 ,7280 L3074 1.3751 1,4565 1.5137 1.6362 1.6855 65 .5212 .5440 .6059 .6376 .6862 .7300 1,3049 1,3720 1,4526 1.5093 1.6306 1.6794 Кб .5241 .5469 .6085 .6400 .6883 .7319 1.3025 1.3689 1.4489 1.5050 1.6251 1.6735 ' «7 .5270 5496 .6110 6-124 ,6905 .7338 1.3001 13660 1.4452 1.5008 1.6198 1.6677 кя .5298 .5524 .6134 .6447 ,6925 .7356 1.2978 1.3631 1.4416 1.4967 1.6146 1.6620 69 .5325 .5550 .6159 .6469 ,6946 .7374 1.2955 I.S6O2 1.4381 1.1927 1.6095 1.6565 70 .5352 .5577 .6182 .6492 .6965 .739! 1.2933 1.3575 1.4346 1.4888 1.6045 1.6511 ' 71 .5379 .5602 .6205 ,6514 .6985 .7408 1.2911 1.3548 1,4313 1.4850 1.5997 1.6458 72 5405 .5628 .6228 Z6535 .7004 ,7425 1.2890 1.3521 1.4280 1.4812 1.5049 1.6407 73 5481 .5653 .6251 6556 .7023 .7442 L2869 1,3495 1.4248 1.4776 1,5903 1.6856 - 74 .5456 .5677 .6273 .6576 ,7041 .7458 1.2849 1.3470 1.4216 1.4740 1.5858 1-630? 75 .5481 .5701 -6294 ,6597 .7059 ,7474 1.2829 1.3445 1.4186 1.4705 1.5813 1,6259 * 76 ^505' .5724 .6316 .6617 .7077 7489 1 2809 1.3421 1.4156 1.4670 1.5770 1.6212 * 77 ,5529 .5748 .6336 .6686 -7094 .7505 1 2790 1.3397 1.4126 1.4637 1.5727 1.6166 78 .5553 .5771 .6357 .6655 .7111 7520 1.2771 1£374 1.4097 1.4604 1.5686 1.6120 - 79 .5576 .5793 .6377 ,6674 -7128 .7534 1,2753 1,3351 1.4069 1.4572 1.5645 1.6076 ' гм .5599 .5815 .6396 ..6692 ,7144 .7549 1.2735 1.3329 1.4041 1.4540 1.5605 1.6033 *1 .5621 .5837 .6416 .6711 .7160 .7563 1.2717 1.3307 1.4С 14 1.4509 1.5566 1 5990 82 .5643 -5858 .6435 .6729 .7176 .7577 1.2700 1.8285 1.5987 1,4479 1.5527 1.5948 ' S3 .5665 .5879 .6454 .6746 .7192 ,7591 1.2683 13264 1.3961 L4449 1.5490 1 5908 84 .5687 .5900 .6472 .6763 .7207 7604 12666 I 3243 1.3935 1.4420 1.5453 1.5868 Н5 .5708 -5920 .6491 .6780 .7222 .7618 1.2650 1.3223 1.3910 1.4391 1.5417 1.5828 86 .5728 .5940 .6508 .6797 .7237 .7631 1.2633 1.3203 1,3885 1.4363 1.53Н1 1.5790 87 .5749 .5960 .6526 .6814 .7252 7643 1.2618 1.3183 1.8861 1.4335 1.5346 1 5752 88 .5769 .5979 .6543 .6830 .7266 .7656 1.2602 1 3164 1.3837 1.4308 1.5312 1.5715 89 .5789 ,5998 .6561- „6846 ,7280 .706R 1.2587 1.3145 1.3814 1.4282 1.5278 1.5678 | •0 . .5808 .6017 .6577 -6862 .7294 .7681 1.2572 1.3126 1.3791 1.4255 1.5245 1.5643 91 .5828 6036 .6594 п6877 .7308 .7693 1.2557 1.3108 1.3768 1.4230 1.5213 1.3607 <Й .5847 -6054 .6610 .6892 .7321 .7705 1,2542 13090 1.3746 1.4204 1 5181 1.5573 j 93 .5865 .6072 .6626 .6907 .7335 .7716 1.2528 1.3072 1.3724 1.4180 1.5150 1.5539 ' | 94 .5884 .6090 .6642 .6922 .7348 .7728 1.2514 1.3055 1.3702 1.4155 1.5119 1,5505 .5902 .6108 6658 .6937 7361 .7739 1.2500 I 8038 1.3681 1.4131 1.5089 1.5473 i 96 ' 5920 .6!25 .6673 .6951 .7373 .7750 L2487 1.3021 1.8661 1.4108 1.5059 1.5440 97 .5938 .6142. .6688 .6965 7386 .7761 1.2473 1.3004 1 8640 1.4084 Г 5030 1.5409 9Я .5955 .6159 .6703 .6974 .7.398 .7772 1.2460 1.2988 13620 1.4062 1.5001 1.5377 99 .5973 .6175 ,6718 .6993 .7410 .7782 1.2447 1,2972 13600 1.4039 1.4973 1.5347 100 5990 .6192 .6733 .7007 .7422 -7793 1.2434 1.2956 1.3581 1 44)17 1.4945 1.5317 • : ч 396
Продолжение табл. X \ T 0.05 0.1 0.5 1.0 2.5 5.0 95.0 97.5 99.0 да. 5 •W.95 105 .6072 .6271 J6802 .7071 .7480 5843 1.2373 1.2881 1.3488 1.3911 1.4812 1,5173 110 1.6148 .6344 .6868 .7132 .7534 .7890 1,2316 1,2811 1.3401 1.3K1S 1.4699 L5O40 115 1 .6221 .6414 .6930 .7190 .7584 .7934 1.2263 1.2746 1.3321 1.3722 1.4575 1.4916 120 .6289 .6480 .6988 .7243 .7632 .7975 1.2214 1.2685 1.3246 1.3637 L4468 1.4801 125 .6353 .6542 .7042 .7294 .7676 .8014 1.2167 1.2627 1.3175 1,3557 1,4368 1.4692 130 .6414 .6600 .7094 .7342 .7718 .8051 1.2124 1,2574 1.3109 1.3484 1.4275 1.4592 135 .6473 .6656 .7143 .7388 .7757 .3085 1.2083 1.2523 1.3047 1.3413 1.4187 14496 140 j .6528 .6709 .7190 .7431 .7795 .8119 1.2043 1.2475 12988 L3346 14104 1.4406 145 -6581 .6760 .7234 .7472 .7831 .8150 1.2007 1JS430 1.2933 1.3284 1.4026 1.4321 150 .6631 6808 .7276 -7511 ,7865 .8180 1.1972 1.2887 1.2880 1.3224 1 3951 1,4241 155 .6679 .6854 7316 .7549 .7898 .821)8 1.1939 1.2346 1,2830 1.3(68 1.3881 1.4166. 160 -6725 .6898 .7355 .7584 .7930 .8235 1.1907 L2308 1.2783 1.3114 1.3Я13 1.4093 165 6769 ,6939 .7392 ,7618 .7959 .8260 1.1877 1.2270 1.2737 1.3063 1.3751 1.4024 170 6811 .6980 .7427 .7651 .7987 .8285 1-1848 1.2235 1.26(M 1.3014 1.3690 1.3958 175 6852 .7019 ,7461 7682 .8015 .3309 1.1821 1.2201 1.2653 1.2968 1.3632 1.389*5 180 6891 .7056 7494 7712 .8041- -8332 1.1795 1.2170 1.2614 1.2924- 1.3577 1 3836 185 .6929 .7092 .7525 .7741 .8066 .8353 1.1769 1.2138 1.2576 1.2881 .1.3523 1,5779 190 .6964 .7127 .7555 .7768 4090 .8374 1.1745 1.2109 1.2541 1.2840 1.3472 1.3725 195 6999 .7160 .7584 .7795 .8114 .8394 1.1722 1.2081 1.2506 1.2801 1 3424 • 1,3672 200 7033 .7192 ,7612 .7821 .8136 .8414 L1700 1.2053 1.2473 1.2763 1.3377 I 3622 210 7097, .7254 .7665 .7870 .8179 .8451 1.1657 1.2001 1.2409 12692 1.3288 1.3526 220 .7157* .7311 «7715 .7916 .8219 .8485 L1618 1.1953 .1.235) 1.2626 1.8207 1.3438 230 .7213. .7365 .7762 .7959 .8256 .8517 1.1582 1.1908 1.2297 1.2564 1.3131 1.3356 240 7266 .7415 .7805 .7999 -8291 „8547 1.1547 1.1867 1.2246 1.2507 1.3060 1.3279 250 7317 .7463 .7847 .8037 .8324 -8576 L1515 1.1828 1.2198 L2453 1.2994 1.3207 260 7364 .7507 .7886 8073 .8355 .8602 1 1485 1.1791 1.2153 1.2403 1.2931 T1.3140 270 .7408 .7550 .7923 .8107 .8384 .8628 L1457 1.1756 1-2111 1.2356 1.2872 1.3077 280 .7450 .7590 .7958 .8139 .8412 8652 1.1430 1,1723 1.2071 I 2312 I 2817 1.3017 290 .7491 .7629 .7991 .8170 .8438 ,8674 1 1404 11692 1.2033 1 2269 1.2764 12961 300 7529 .7665 8023 .8199 .8463 .8696 1.1380 1.1663 1 1997 1-2229 L2714 1.2907 350 .7698 .7826 .8160 .8826 .8573 .8790 1.1275 1.1535 1.1843 1.2055 1.2500 1.2676 400 .7836 .7957 8272 8429 ,8662 8866 1.1191 1 1183 1.1718 1 1915 1.2378 1.2491 450 .7951 uLMX) .8366 .8515 «736 .8929 1J121 1,1349 1.1616 1 1801 1.2187 1.2340 500 .8050 .8160 .8446 -8799 .8983 1.1063 1.1277 1.1530 1 1704 L2070 1.2214 550 .8185 .8239 .8515 8651 .8853 .9029 1.1012 1.1216 L1456 I 1622 1 1968 1-2105 600 .8208 .8310 .8575 .8706 .8900 .9070 1 0968 1.1163 11392 1.1550 1.1*880 1.2(00 '650 .8275 .8373 8629 ,8755 .8942 .9106 1.0929 1.П16 1.1335 1 1487 1.1803 1 1927 700 .8334 .8429 .8677 .8799 .8980 9137 1.0895 1.1074 1.1285 1.1430 1.1734 1.1853 750 .8387 .8480 .8720 .8838 .9013 .9166 1.0864 1.1037 1.1240 1 1380 1.1672 1.1787 800 .8436 .8526 -8759 .8871 9044- .9192 10836 1.1004 L1200 1 1335 1.1617 1.1728 Я50 .8480 «568 .8795 .8906 9072 .9216 1 0811 1.0973 LI 163 1.1294 1.1567 1.1674 900 .8521 8606 .8827 .8936 .9097 .9237 1 0788 1.0945 1.J129 1.1256 1.1520 1,1624 950 .8559 .8642 .8858 .8964 .9121 ,9257 1,0767 1.0919 1.1096 1.1221 1.1478 1.1579 1000 .8504 .8675' 8886 ,8989 .9143 .9276 1 0747 1.0895 1.1070 1.1190 1,1440 1.1538 2000 .8992 .9051 .9204 .9279 .9890 .94Я6 1.0526 1.0629 1.0750 1.0838 i :ооб 1.1074 3001) .9172 .9221 .9348 9409 9500 .9579 1.0429 10513 1.0611 1.0676 1 0817 1.ОЯ72 4000 .9280 .9323 .9433- .9487 9566 .9635 1.0370 LO443 1.0527 1,0585 1,0705 1.0752 5000 .9355 .1*393 ,9493 9541 .9612 9673 1.0331 1.0396 1.0471 1.0523 1.O630 L067’ 10000 .9541 .9569 .9640 .9674 .9725 .9769 1.0234 1.0279 1.0332 1.0868 1.0443 1.0472 Примечание Данные взяты из источника Statistical Tables and Formulas. A- Bald. © 1952, John Wiley and Sons, Inc. Воспроизводится с разрешения
СлЗ о DO Таблица XI. /"’-Распределение (приводятся значения Fo,? <t для площадей под кривой А^ - 0,95 при заданных У; н v- степенях свободы) Пример. Пусть я1 = 5, >>2 = 6. FOi,5 » 4,39. Это значит, что при допущении нормального распределения 95% отношения т?/г а меньше 439. х' vo\ 1 2 Я 4 5 6 7 8 9 10 12 15 * 20 24 30 40 60 120 се 1 161.4 199.5 215.7 224.6 230.2 234.0 2368 238.9 24С.5 241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3 * 18.51 1900 19.16 19.25 19.30 19-35 19.35 19.37 1938 19.40 19.41 1943 19.45 19.45 19.46 19.47 19.48 19.49 19.50 5 10.15 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 R.74 8.70 8.66 8.64 8 62 8.59 8.57 6.55 8 53 4 7.71 6.94 659 6.39 6.26 6.16 6.09 6.04 6.00 5.96 591 5.86 5.80 5.77 5.75 5.72 5JW 5.66 5.63 5 6.61 5.79 5.41 5.19 5.05 4 95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36 6 599 5.14 4.76 4ЛЗ 4.39 4.28 4.21 4Л5 4.10 4.06 400 3.94 3.87 3.84 3.RI 3.77 3.74 3.70 3.67 7 5.59 4.74 435 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3 57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23 3 5.32 4.46 407 3.84 3.69 3.58 ЗЛО 3.44 ЗЛ9 3J5 3.28 3.22 3.15 3.12 3.38 3.04 3.01 297 2.93 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3AI7 3.01 2.94 2.90 2.86 2-83 2.79 2.75 2.71 10 496 4.10 3.71 3.18 3.33 3.22 3.14 3.07 3.02 298 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54 11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40 12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2-М 2.51 2.47 2.43 2.38 254 2.30 13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2j67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21 14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 233 2Л6 2.39 2.35 2.31 2.27 2.22 2.18 2.13 15 454 3.68 5-2*> 5.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2ЛЗ 2.29 2.25 2.20 2.16 2.11 2.07 16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2-59 2.М 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01 1? 4.45 339 3.20 2.96 2.81 2.70 2.61 255 2.49 2.45 238 2.31 2.23 2.19 2 15 2.10 2.06 2.01 1.96 18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2 11 2.06 202 1.97 1.92 19 4.38 3.52 3.13 2=90 ‘ 2.74 5163 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88 20 4.35 3.49 3.10 2.87 2.71 2.60 2-51 2.45 2.39 2.35 2.28 2.20 2.12 2=08 2.04 1.99 1.95 1.90 1-84 21 4-32 3.47 3.07 2.84 2.68 2.57 2.49 2 42 2,37 2.32 2.25 2.18 2.10 205 201 1.96 1.92 1.87 1443 22- 4.30 3.44 9.06 2-82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78 23 4.28 3.42 3.03 2Л1 2.64 253 2.44 2.37 2.32 2.27 2-2Q . 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76 24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1 94 1.89 1.84 1.79 1.73 25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 234 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71 26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2 15 2-07 1.99 1.95 1.90 1.85 LRO 1.75 1.69 27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 L93 1.88 1Л1 1.79 1.73 L67 28 4.20 3.34 2.95 2.71 2.56 245 236 2.29 2.24 2 19 2.12 2.04 1.96 191 187 182 1.77 1.71 1.65 29 4.18 3.33 2.98 2.70 2.55 2.43 2.95 2.28 2.22 2.18 2.10 2.03 1.94 1 90 1.83 1 81 1.75 1.70 1.64 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.1G 2.09 2.01 1.93 189 184 1 79 1.74 1.68 1.62 40 4 08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1 79 1.74 1.60 1.64 1.58 1.51 би 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 199 1.92 1.84 1.75 1.70 1.65 1-W 1-53 1-47 1-Я9 120 3.92 3.07 2.68 2.45 2,29 2.17 2.09 2.02 1.96 1.91 1.83 1.75 1 66 1.61 1.55 1.50 1-43 1.55 1.25 <х 3.64 3.00 ?W 2.37 2.21 2.10 2.01 1.94 1Л8 1.$3 1.75 1.67 1.57 1.52 146 1.39 1.3? 1.22 100
Продолжение таил. XI \vi и5\ 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 в 1 4052 4999.5 5403 5625 5764 5859 5928 5962 6022 6056 6106 6157 6209 6235 S26I 6287 6311 6339 6366 2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 90.57 ©9 39 99.40 99.42 99.43 99.45 99.46 99.17 99.47 9t 4ft 99.49 09.50 3 34 12 30 82 29.46 28 71 28.24 27.91 2767 27.49 27.35 27.23 27 05 26.87 26.60 26.60 26.50 26-41 26.32 26.22 26. U 4 21 20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14-37 14.20 14.02 13.93 13.S4 13.75 13^5 13.56 1146 5 16:26 13-27 12 06 11.39 10.97 I0.fi? 10.46 10.29 10.16 10.05 9.89 9-72 9.55 9.47 9Л8 9.29 9.20 9.11 902 6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 Я10 7.98 7.87 7.72 7.56 7.40 7.3! 7.23 7.14 7.06 6.97 6.88 7 12.25 9.55 8.45 7 85 7.46 7.19 6J9 6.М 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65 8 11.26 8.65 7,59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5-52 5.36 5.28 5.20 5.12 5.03 4.95 4.86 10.56 802 6.99 6.42 6.06 5J0 5.61 5.47 5.35 5J6 5.11 4.96 4.81 4.73 4.65 4.57 4-.4R 440 4 31 10 10(М 7.56 6.35 5.99 5.64 559 5 ЛЮ 5Л6 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 391 11 9 65 7.21 6.22 5Ж7 5.32 5.07 4Л9 4.74 4.63 454 4.40 4.25 4.10 4.02 3.94 З.Я6 3.78 3.69 3.60 12 9.39 6.93 5.95 5.41 5.06 4.82 4.Я 4 50 4.39 4.» 4.16 4.0! 3.86 3.78 3.70 3.62 3.54 3.45 3.36 13 9.07 6. ТО .5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 382 3.66 ЗЛ9 3.31 3.43 3.34 3.25 3.17 14 8.86 6 51 5.56 5.04 4 69 4.46 4.28 4.14 4.03 •3.94 3.80 3.66 3.51 3.43 ЗЛ5 3.27 3.L8 3.09 3.00 15 8,66 &36 5.42 4.89 4.56 4.32 4.14 4.ПО 3.89 W 3.67 3.52 3.37 3.29 3.21 3.13 ’ 3.05 2.96 2.87 16 8 53 6.23 5.29 4.77 4.44 4.20 4-03 3.89 3.78 3.69 355 3.41 3.26 5.18 3.10 3.02 2.93 2.84 2.75 17 8.40 6.11 5.18 4.67 454 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 , 292 2.83 2.75 2.65 18 8.29 6.01 5.09 4.5В 4.25 4.01 3.84 171 3.60 3.51 «.37 3.23 З.СЙ 3.00 2.92 2.84 2.75 2.66 2.57 19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 352 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49 ао 8.10 5Л5 4.94 4.43 4.10 3.87 3.70 3.56 9.46 3.37 3.23 3.09 2.94 2Л6 2.78 2.69 2.61 2.52 2.42 21 8.02 5-78 4.87 4.37 4.04 3.81 S.64 3.51 3.40 3J1 3.17 3.03 2.Я8 2.80 2.72 2.64 2.55 2.46 2.36 22 7.95 5.72 4-82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.9Й 283 2.75 2 57 2.38 2.50 2.40 251 23 7.Я8 5 66 4.76 4L26 3.94 171 3.54 3.41 3,sd 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26 24 7.82 5.61 Л72 4.22 3J0 3.67 ЗЛО 3J6 3.26 3.17 3.03 2.89 2.74 266 2.58 2.49 ‘ 2.40 231 2.21 25 7.77 5.57 4 68 4.18 3.85 З.’бЗ 346 8.32 3.22 3.13 2.99 2.Н5 2.70 2.G2 2.54 2.45 2.36 2.27 2.17 26 7.72 5.53 4.64 4.14 ЗЛ2 3.59 3.42 3.29 3.18 3.09 2.96 2.81 2.66 2.58 2Л0 2.42 2 33 2.23 , 2.13 27 7.66 5Л9 4.60 4.11 3.78 ЗЛ6 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.55 2.47 2.3Й 2.29 2.20 '2Л0 2ft 7.М 5.45 4-57 4.07 3.75 3.53 3.36 SJ3 3.12 3.03 2.90 2.75 2.60 2.52 2.44 2 35 2.26 2.17 2.06 29 7.60 5.42 4.54 4.04 3.73 3.50 353 3.20 ЗЛ9 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03 90 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3,17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 230 2.21 2.11 2 01 40 7.31 5.1В 4.31 3.83 3.51 3.29 S.I2 2.99 2.89 2.80 2.66 2-52 2.37 2.29 2.20 211 2.02 1.92 1 80 60 7.06 498 4.13 3 65 354 3.12 2.95 2.82 2.72 2.63 ЗЛО 2.35 2.20 2.12 2.03 1.94 1.84 1 73 1.60 120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2,34 249 2.03 1.95 1.86 1.76 1.66 1.53 1.38 6.63 4.61 3.7В 3.32 3.02 2.80 2.64 251 2.41 2.32 218 2.04 1.88 1.79 1.70 1.59 147 1.32 1.00 Примечание. Данные взяты из источника Biornenika Tables for Statisticians. Great Britain: Cambridge University Press, 1966, 3rd ed. v. l;Tabl. 18 Воспроизводится с разрешения профессора E.C. Пирсона по доверенности Biometrika. CUI4 ,'_Ь 1*. _ L!
I Таблиц* XIL Четырехзначные логарифмы N 0 I 2 3 4 5 6 7 8 9 10 оооо 0043 0086 0128 0170 0212 0253 0294 0384 0374 11 0414 0453 0492 0531 0569 0607 0645 0682 0719 0755 12 0792 0828 0864 0899 0934 0969 1004 1038 1072 1106 13 1139 1173 1206 1239 12?! 1303 1335 1367 1399 1430 14 1461 1492 1523 1553 1584 1614 1644 1673 1703 1732 15 1761 1790 1818 1847 1875 1903 1931 1959 1987 2014 16 2041 2068 2095 2122 2148 2175 2201 2227 2253 2279 17 23ГЦ 2330 2855 2380 2405 2430 2455 2480 2504 2529 18 2553 2577 2601 2625 2648 2672 2695 2718 2742 2765 19 2788 2810 2838 2856 2878 2900 2923 2945 2967 2989 20 ЗОЮ 3032 3054 3075 3096 3118 3139 3160 3181 3201 21 3222 3243 3263 3284 3304 8324 3345 8365 3385 3404 22 3424 4444 3464 3483 3502 3522 3541 3560 3579 3598 23 3617 3636 3655 3674 3692 3711 3729 3747 3766 3784 24 3802 3820 3838 8856 3874 3892 3909 3927 3945 3962 25 3979 8997 4014 4031 4048 4065 4082 4099 4116 4133 26 4150 4166 4183 4200 4216 4232 4249 4265 4281 4298 27 4314 4330 4346 4362 4378 4393 4409 4425 4440 4456 28 4472 4487 4502 4518 4533 4548 4564 4579 4594 4609 29 4624 4639 4654 4669 4683 4698 4713 4728 4742 4757 30 4771 4786 4800 4814 4829 4843 4857 4871 4886 4900 31 4914 4928 4942 4955 4969 4983 4997 5011 5024 5038 32 5051 5065 5079 5092 5105 5119 5132 5145 5159 5172 33 5185 5198 5211 5224 5237 5250 5263 5276 5289 5302 34 5315 5828 5340 5358 5366 5378 5391 5403 5416 5428 35 5441 5453 5465 5478 5490 5502 5514 5527 5539 5551 36 5563 5575 5587 5599 5611 5623 5635 5647 5658 5670 37 5682 5694 5705 5717 5729 5740 5752 5763 5775 5786 38 5798 5809 5821 5832 5843. 5855 5866 5877 5888 5*99 39 5911 5922 5933 5941 5955 5966 5977 5988 5999 6010 40 6021 6031 6042 6053 6064 6075 6085 6096 6107 6117 6128 6138 6149 6160 6170 6180 6191 6201 6212 6222 42 6232 6248 6253 6268 6274 6284 6294 6304 6314 6325 43 6336 6345 6355 6365 6375 6385 6395 6405 «415 6425 44 6435 6444 6454 6464 6474 6484 6493 6503 6513 6522 45 6532 6542 6551 6561 6571 6580 6590 6599 6609 6618 46 6628 6687 6646 6656 6665 6675 6684 6693 6702 6712 47 6721 6730 6739 6749 6758 6767 6776 6785 6794 6803 48 6812 6821 6830 6839 6848 6857 6866 6875 6884 6893 49 6902 6911 6920 6928 6937 6946 6955 6964 6972 6981 50 6990 6998 7007 7016 7024 7033 7042 7050 7059 7067 51 7076 7084 7093 7101 7110 7118: 7126 7135 7143 7152 52 7160 7168 7177 7185 7193 7202 7210 7218 7226 7235 53 7243 7251 7259 7267 7275 7284 7292 7300 7308 7316 54 7324 7332 7340 7348 7356 7364 7372 7380 7388 7396 55 7404 7412 7419 7427 7435 7443 7451 7459 7466 7474 56 7482 7490 7497 7505 7513 7520 7528 7536 7543 7551 57 7559 7566 7574 7582 7589 7597 7604 7612 7619 7627 58 7634 7642 7649 7657 7664 7672 7679 7686 7694 7701 59 7709 7716 7723 7731 7738 7745 а. 7752 7760 7767 7774 400
1 Продолжение табл. ХП N 0 I 2 3 4 5 „ 6 7 8 9 60 7782 7789 7796 7803 7810 7818 7825 7RS2 7839 7846 61 7853 7860 7868 7875 7882 7889 7896 7903 7910 7917 62 7924 7931 7938 7945 7952 7959 7966 7973 7980 7987 63 7993 8000 8007 8014 8021 8028 8035 8041 8048 8055 64 8062 8069 8075 8082 8089 8096 8102 8109 8116 8122 >5 8129 8136 8142 8149 8156 8162 8169 8176 8182 8189 56 8195 8202 8209 8215 8222 8228 8235 8241 8248 8254 67 8261 8267 8274 8280 8287 8293 8299 8306 8312 8319 68 8825 8331 8338 8344 8351 8357 8363 8370 8376 8382 69 «388 8395 8401 8407 8414 8420 8426 8482 8439 8445 70 8451 8457 8463 8470 8476 8482 8488 8494 8500 8506 71 8513 8519 8525 8531 8537 8543 8549 8555 8561 8567 72 8573 8579 8585 8591 8597 8603 8609 8615 8621 8627 73 8633 8639 8645 8651 8657 8668 8669 8675 8681 8686 74 8692 8698 8704 8710 8716 8722 8727 8738 8739 8745 75 8751 8756 8762 8768 8774 8779 8785 8791 8797 8802 76 8808 8814 8820 8825 8831 8887 8842 8848 8854 8859 77 8865 8871 8876 8882 8887 8893 8899 8904 8910 8915 78 8921 8927 8932 8938 8943 8949 8954 8960 8965 8971 79 8976 8982 8987 8993 8998 9004 9009 9015 9020 9025 80 9031 9036 9042 9047 9053 9058 9063 9069 9074 9079 81 9085 9090 9096 9101 9106 9112 9117 9122 9128 9133 82 9138 9143 9149 9154 9159 9165 9170 9175 9180 9186 83 9191 9196 9201 9206 9212 9217 9222 9227 9232 9238 84 9243 9248 9253 9258 9263 9269 9274 9279 9284 9289 85 9294 9299 9304 9309 9315 9320 9325 9330 9335 9340 86 9345 9350 9355 9360 9365 9370 9375 9380 9385 9390 87 9395 9400 9405 9410 9415 9420 9425 9430 9435 9440 88 9445 9450 9455 9460 9465 9469 9474 9479 9484 9489 89 9494 9499 9504 9509- 9513 9518 9523 9528 9533 9538 90 9542 9547 9552 9557 9562 9566 9571 9576 9581 9586 91 9590 9595 9600 9605 •609 9614 9619 9624 9628 9633 92 9638 9643 9647 9652 9657 9661 9666 9671 9675 9680 98 9685 9689 9694 9699 9703 9708 9713 9717 9722 9727 94 9731 9736 9741 9745 9750 9754 9759 9763 9768 9773 95 9777 9782 9786 9791 9795 9800 9805 9809 9814 9818 96 9823 9827 9832 9836 9841 9845 9850 9854 9859 9863 97 9868 9872 9877 9881 9886 9890 9894 9899 9903 9908 98 9912 9917 9921 9926 9930 9934 9939 9943 9948 9952 99 9956 9961 9965 9969 9974 9978 9983 99b7 9991 9996 Примечание. Воспроизводится с разрешения Laebo. Basic Statistics (4th. ed.). Homewood, Ill.: Richard D Ir- win, be., p. 649- 650. 26-232 401
Таблица ХИ!. Квадраты, квадратные корни и обратные числа 1 - ЮОО Лт jV* X-'N V10.V 1.W Л' Л” VrN VJOiV 1/N .0 • 50 2 500 7.071 068 22.36068 2000000 1 1 1.000 ООО 3.162 278 гооооооо Ь1 2 601 7.141 428 22.58318 1960784 2 4 1.414 214 4 472 136 .5000000 52 2 704 7.211 103 22.80351 1923077 3 9 1.732 051 5.477 226 .3333333 53 2 809 7.280 ПО 23.02173 1886792 4 16 2.1ХЮ ООО 6.324 555 .2500000 54 2 916 7.348 469 23.23790 1851852 5 25 2.236 068 7.071 068 .2000000 55 3 025 7.416 198 23.45208 1818182 6 36 2.449 490 7.745 967 .1666667 56 3 136 7.483 315 23.66482 1785714 7 49 2.645 751 8 366 600 .1428571 57 3 249 7.549 «34 2387467 1754886 Н 64 2.828 427 8.944 272 .1250000 58 3 364 7.615 773 24 08319 1724138 9 81 3.000 000 9.486 833 .1111111 59 3 481 7.681 146 24.28992 169*1915 10 160 3J62 278 10 00000 .1000000 60 3 600 7.745 967 24 49490 1ООТСЮ/ 11 121 3.316 625 10.48809 .09090909 61 3 721 7.810 250 24.69818 1689344 12 144 3.464 102 10.95445 .06333333 62 3 844 7.874 008 24.89980 1612903 13 169 3.605 551 11.40175 .О76923Й8 63 3 969 7.987 254 25.09980 1587302 14 3.741 657 11.83216 .07142857 64 4 096 8.000 000 25.29822 1562500 15 225 3.872 983 1224745 .06666667 65 ^225 8.062 258 25.49510 1588462 16 256 4.СНЮ ООО 12.64911 .06250000 66 4 356 8 124 038 25.69047 1515152 17 289 4.123 106 13.03840 .05882353 67 4 489 8.185 853 25.88436 1492537 18 324 4.242 641 13.41641 .05555556 68 4 624 8.246 2П 2607681 1470588 19 361 4.358 899 13.78405 .05263158 69 4 761 8.306 624 26.26785 1449275 20 400 4.472 136 14.14214 .05000000 70 4 900 8.366 600 26.45751 1428571 21 441 4.582 576 14.49138 .04761905 71 5 041 8.426 150 26.64583 1408451 22 484 4.690 416 14.83240 .04545455 72 5 184 8.485 281 26.83282 1388889 23 529 4.795 832 15.16575 .04347826 73 5 329 8.544 004 27.01851 1369863 24 576 4.898 979 15.49193 .04106667 74 5 476 8.602 325 27 20294 1351351 25 625 5.000 000 15.81139 .04000000 75 5 625 8.660 254 27.38613 1383333 26 676 5.099 020 16.12452 .03846154 76 5 776 8.717 798 27.56Ы0 1315789 27 729 5.196 152 16.43168 - .03703704 77 5 929 8.774 964 27.74887 1298701 28 784 5.291 503 16.73320 .03571429 78 6 084 8.831 761 27.92848 1282051 29 841 5.385 165 17.02939 .03448276 79 6 241 8 888 194 28.10694 1265823 50 900 5 477 226 17 32051 .03833333 80 6 400 8.944 272 28.28427 1250000 31 961 5.567 764 17.60682 .03225806 81 6 561 9.000 000 28.46050 1234568 32 1 024 5.656 854 17.88854 .03125000 ' 82 6 724 9.055 38,5 28.63564 1219512 33 I 089 5.744 563 18.16590 .03030803 83 6 889 9.110 434 "28'80972 1204Я19 34 1 156 5.830 952 18.43909 .02941176 84 7 056 9.165 151 28.98275 1190476 35 1 225 5.916 080 18.70829 .02857113 85 7 225 9.219 544 29.15476 1176471 36 1 296 6.000 000 18.97367 .02777778 86 7 396 9.273 618 29.32576 1162791 37 1 369 6 082 763 19.23538 .02702703 87 7 569. 9.327 379 29.49576 1И9М25 38 1 444 6 .164 414 19.49359 ,02631579 88 7 744 9.380 832 29.66479 1136364 39 1 521 6.244 998 19.74842 .02564103 8У 7 921 9.433 981 29.83287 1123596 1 40 I 600 6.324 555 20.00000 .02500000 90 8 100 9.486 833 30.00000 шип 41 1 681 6.403 124 20.24846 .02439024 91 8 281 9.539 392 30.16621 1098901 42 1 764 6.480 741 20.49390 .02380952 92 Я 464 9.591 663 30.33150 1086957 43 1 849 6.557 439- 20.73644 .02325581 93 8 649 9.643 651 3049590 1075269 44 1 936 6.633 250 20.97618 .02272727 94 8 836 9.695 360 30.65942 1063880 45 2 025 6.70R 204 21.21320 .02222222 95 9 025 9 746 794 30.82207 1052632 46 2 116 6.782 330 21.44761 .02173913 96 9 216 9.797 959 30.98387 1041657 47 2 209 6.855 655 21.67948 .02127660. . 97 9 409 9.848 858 31.14482 1030928 4Я 2 304 6.928 203 21.90890 .02083333 98 9 604 9.899 495 31.30495 1020408 49 2 401 7-000 (ХЮ 22.13594 .020*10816 99 9 801 9.949 874 31.46427 1010101 50 2 500 7.071 068 22.56663 100 10 000 10.00000 31.62278 1000030 402 Я
I i z Продолжение табл- ХП1 j . - - - _ J 1V № VN ViftN n N ЛГ* v’N V10N *'* t 100 10 000 10.00000. 31.622781 МЮООООО 150 22 500 12.24745 38.72983 iMJOOOO/ i 5 101 10 .201 10 04988 31.78050 09900990 151 22 801 12.28821 38.85872 6622517 1 102 10 404 10.09950 31.93744 .09803922 152 23 104 12.32883 38.9R71R 6578947 -» 103 10 609 10.11889 3209361 09708738 158 23 409 12.36932 39.11521 6535048 104 10 R16 10.19804 32.24903 09615385 IM 23 716 12.40967 39 24283 6493506 » L 105 11 025 10.24695 32.40370 09523810 155 24 025 12.44990 39.37(KM 6451613 I 106 H 236 10.29563 32.55764 09-183962 156 24 336 12.49000 39.49684 6410256 . r 107 11 449 10.34408 32.71085 09345794 157 24 649 12.52996 39.62323 6369427 il 1(W 11 664 10.39230 32.86335 09259259 158 24 964 12.56981 39 74921 6329114 * 109 11 881 10.44031 33.01515 09174.412 159 25 281 12.60952 39.87480 6289308 i • no 12 100 10.48809 , S3.16625 09090909 160 25 600 12.64911 40.00000 6250000 > 111 12 321 10.53565 33.31666 09009009 161 25 921 12.68858 40 12481 6211 ISO F 4 112 12 544 10.58301 33.46640 08928571 162 26 244 12.72792 40.24922 6172840 < 1 113 12 769 10.63015 33.61547 08849558 . 163 26 569 12.76715 40.37326 6134969 i 114 .12 996 10.67708 33.76389 08771930 164 26 896 12.80625 40.49691 6097561 i j 115 13 225 10.72381 83.91165 08695652 165 27 225 12.84523 4062019 6060606 4 116 13 456 10.77038 34.05877 08620600 166 27 556 12.88410 40.74310 6024096 117 13 689 10.81665 34-20526 08547009 167 27 889 12.92285 40.86563 5986024 r Ij 118 13 924 10.86278 34 35118 08474576 168 28 224 12.96148 40.98780 5952381 » 119 14 161 10.90871 34.49638 08403361 169 28 561 13.00000 41.10961 5917160 ,120 14 400 10.95445 34.64102 08833333 170 28 900 13.03840 41.23106 5882.853 - 121 14 641 11.00000 34.78505 08264463 171 29 241 13.07670 41.85215 5847953 122 14 884 11.04536 34.92850 08Й96721 172 29 584 13.11488 11.47288 5813953 t 12? 15 129 11.09054 35.07136 08130081 173 29 929 13.15295 41.59327 5780347 1 1 124 15 376 11.13553 35.21363 08064516 174 30 276 13.19091 41.71331 5747126 I 125 15 625 11.18D34 35.35534 08000000 175 30 625 13.22876 41.83300 5714286 126 15 876 11'22497 35.49648 07936508 176 30 976 1326650 41.95235 56RI818 127 16 129 11.26943 85.63706 07874016 177 31 329 13.30413 42.07137 564971ft 128 16 38-1 11.31371 35.77709 07812500 178 31 684 13.34166 42 19005 5617978 129 16 641 11.35782 35.91657 07751938 179 32 (Ml 13.37909 42.30839 5586592 130 16 900 11.40175 36.05551 (17692308 ISO 32 400 13.41641 42.42641 5555556 131 17 161 11.44552 36.19392 07633588 181 32 761 13.45^62 42.54409 5524862 132 17 424 11.48913 3633180 07575758 182 33 124 13.49074 42.66146 54JM505 133 17 689 11.53256 36.46917 0751R797 183 33 489 13.52775 42.77850 54644ft1 । 134 17 956 11.57584 36 b0601 07462687 184 33 856 13.56466 42.89522 5434783 135 18 225 11.61895 36.74235 07407407 185 34 225 13.60147 43.01163 5405405 V 136 18 496 11.66190 36.87818 07352941 186 34 596 13.63818 43.12772 5376344 137 18 769 11.7(m7O 37.01351 07299270 187 34 969 13.67479 43.24350 5347594 1 13ft 19 044 11.74734 37.14835 07246377 188 35 344 ft.71131 43.35897 5319149 f 139 1R 321 11.78983 37.28270 07194245 1Я9 35 721 13.74773 43.47413 5291005 140 19 600 11.83216 37.41657 07142857 190 36 100. 13.7Й405 43.58899 5263158 4 141 19 881 11.87434 37.54997 07092199 191 36 48. 1 J.82027 43.70355 5235602 • 142 20 161 11.9163ft 37.68289 07042254 192 36 864 I3.R5641 43.Я178О 5208333 143 20 449 11.95826 87.81534 06993007 193 37 249 13.89244 43.93177 51Я1347 4 144 20 736 12.00000 37.94733 06944444 194 37 636 13.92839 44.04543 5154639 1 145 21 025 12.04159 ЗЯ.07Я87 06896552 195 38 025 13.96424 44.15880 51‘28?O> 4 146 *21 316 12.08305 38.20995 06849315 196 38 416 14.00000 44.27189 51€e€Hl J i 147 21 609 12.12436 38J4058 06802721 197 38 809 14.03567 44.38468 5076142 i 14ft 21 904 12.16553 38.47077 06756757 198 39 204 14.07125 44.49719 5050505 « 1 149 22 201 12 20656 38.60052 06711409 199 39 601 1110674 44.60fM2 5025126 150 22 500 12.24745 38.72983 06666667 200 40 000 14.14214 44.72136 5000000 26* 40»
Продолжение табл. XIII N* VKW 1/N 00 N № V,*v VI ON 1/N .00- 200 40 000 14.11214 44.72136 5000000 250 62 500 15.81139 50.00000 4000000 201 40 401 14.17745 44.83302 4975124 2-51 63 001 15 84298 50 09990 3984064 202 40 004 14.21267 44.94441 4950495 252 63 504 15.87451 50.19960 3968254 203 41 209 14.24781 45.05552 49261(18 253 64 009 15.90597 50.29911 3952569 2Ш 41 616 14.28286 45.16636 4901961 254 64 516 15.93738 50.39841 3937008 205 42 025 14.31782 45.27693 4878049 255 65 025 15.96872 50.49752 3921569 * 206 42 436 14.35270 45.38722 4854869 256 65 536 16.0001X1 50.59644 3906250 207 42 849 14.38749 45.49725 4830910 257 66 049 16.03122 50.69517 3891051 208 43 264 14.42221 45.60702 4807692 258 66 564 16.06238 50.79370 3875969 209 4S 681 14.45683 45.71652 4784689 259 67 081 16 09348 50-89204 3861004 210 44 100 14-49138 45.82576 4761905 260 67 600 16.12452 50.99020 3846154 211 44 521 14.52584 4593474 4730386 261 68 121 16.15549 51.08816 3831418 212 44 944 14,56022 46.0'1346 4716981 262 68 644 16.18641 51.18594 8816794 213 45 369 14.59452 46.15192 4694836 263 69 169 16.21727 51.28353 3802281 214 45 796 14.62874 46.26013 4672897 264 69 696 16.24808 51.38093 3787879 215 46 225 14.66288 46,36809 4651163 265 70 225 16-27882 51.47815 3773585 216 46 656 14.69694 46.47580 4629630 266 70 756 16.30951 51.57519 3759398 217 47 069 14.73092 46.58326 4608295 267 71 289 16.34013 51.67204 3745318 218 47 524 14.76482 46.69047 4587156 268 71 824 16.37071 51.76872 8731343 21» 47 961 14.76865 46.79744 4566210 269 72 361 16.40122 5L86521 3717472 220 48 400 14.83240 46.90416 4545455 270 72 900 16.43168 51.96152 3703704 221 48 841 14.86607 ‘ 47.01064 4524887 271 73 441 16.46208 52.05766 8690037 222 49 284 14.89966 47 11688 4504505 272 73 984 16.49242 52.15362 8676471 223 49 729 14.93318 47.22288 4484305 273 74 529 16.52271 52.24940 3663064 224 50 176 14.96663 47 32864 4464286 274 75 076 16.5529(5 52.34501 3649635 225 50 625 15.00000 47.43416 4444444 275 75 625 16.58312 52.44044 3636364 226 51 076 15.03330 47.53946 4424779 276 76 176 16.61325 52.53570 3623188 227 51 529 15.06652 47.64452 4405286 277 76 729 16.64332 52.63079 3610108 228 51 984 15.09967 47.74935 4385965 278 77 284 16.67333 52,72571 3597122 229 52 441 15.13275 47.85394 4366812 279 77 841 . 16.70392 52.R2045 3584229 230 52 $00 15.16575 47.95832 4347826 280 78 400 16.73320 52.91503 3571429 231 53 361 15.19868 48.06246 4329004 281 78 961 16.76305 53.00943 3558719 232 53 824 15.23155 48.16638 4310345 282 79 524 16.79286 53,10367 3546099 233 54 289 15.26434 48.27007 4291845 283 80 089 16.82260 53.19774 3538569 234 54 756 15.29706 48.37355 4273.W4 284 80 656 16.85230 53.29165 352H27 235 55 225 15.32971 48.47680 4255319 285 81 225 16.88194 53.38539 3508772 236 55 696 15.56229 48.57983 4237288 286 81 796 16.91153 53.47897 3496503 237 56 169 15.39480 48.68265 4219109 287 82 369 16.94107 53.57238 3484321 238 56 644 15.42725 48.78524 4201681 288 82 944 16.97056 53.66563 3472222 239 57 121 15.45962 48.88763 4184100 289 83 521 17.00000 53.75872 3460208 240 57 600 15.49193 48.98979 4166667 290 84 100 17.02939 53.85165 3448276 241 58 081 15.52417 49-09175 4149378 291 84 681 17.05872 58.94442 3436426 242 58 564 15.55635 49.19350 4132231 292 85 264 17.08801 54.03702 3424658 243 59 049 15.58846 49.29503 4115226 293 85 849 17.11724 М. 12947 3412969 244 59 535 15,62050 49.39636 4098361 294 86 436 17.14643 54.22177 3401361 245 60 025 15.65248 49.49747 4081633 295 87 025 17.17556 54.31390 ^389831 246 60 516 15.68439 49.59839 4065011 29* 87 616 17.20465 54.40588 ЗУ78378 247 61 009 15.71623 49.69909 4048583* 297 88 209 17.23369 54.49771 8367003 248 61 504 1574802 49.79960 4032258 298 88 804 17.26268 54.5Я938 8355705 249 62 001 15.77973 49.89990 4016064 299 89 401 17.29162 54.68089 3344482 250 62 500 15.8! 139 50.70000 4000000 зоо 90 000 17.32051 54.77226 ззззззз 404
^Продолжение табл- ХШ } a 4 VI0N 1/Л' VN IjW 1 Л' № V’N .00 N № V1ON .00 r 300 90 ООО 17.32051 54.77226 3333333 350 122 500 18.70829 59.16080 2857143 301 90 601 17.34935 54.86347 3322259 351 123 201 18 73499 59.24525 2849003 .302 91 204 17.37815 54.95453 '.3311258 352 123 904 I8.76S66 59.32959 2840909 • 803 91 809 17 40690 55.04544 3300330 353 124 609 18.78829 59.41380 2832861 r 31Н 92 416 17 13560 55.13620 3289474 854 125 316 18.81489 59.49790 2824859 i % i 805 93 025 17.46425 55.22681 3278689 «55 126 025 18.84144 59.58188 2816901 4 306 93 636 17.49286 55.31727 3267974 356 126 736 18.86796 59.66574 2808989 J' 307 94 249 17.52142 55.40758 3257329 357 127 449 18.89444 59.74948 2801120 308 94 «64 17.54993 55-49773 3246753 358 128 164 18.92089 59.83310 2798296 309 95 481 17.57840 55.58777 3236246 359 128 881 18.94730 59.91661 2785515 1 810 96 100 17.60682 55.67764 3225806 *60 129 600 18.97367 60.00000 2777778 311 96 721 17.63519 55.76737 3215434 861 180 321 1WOOO 60.0832ft 2770083 s 312 97 344 17.66352 55.85696 3205128 . 362 131 044 19.02630 60 16644 2762431 X 313 97 969 17.69181 55.94640 3194888 363 131 769 19.05256 60.24948 27MH21 ь J J 314 96 596 17.72005 56.03570 3184713 364 132 496 19.07878 60.33241 2747253 315 99 225 17.74824 56.12486 3174603 365 133 225 19.10497 60.41523 2739726 T 316 99 856 17.77639 56.21388 8164557 566 133 956 19.13113 60.49793 2732240 . - 317 100 489 17.80449 56.30275 3154574 367 134 689 19.15724 60.58052 2724706 v 318 101 124 17.83255 56.39149 3144654 368 135 424 19.18333 60.66300 2717391 319 lOh 761 17.86057 56.48008 3134796 369 136 161 19.20937 60 74537 2710027 .320 102 400 17.88854 56.56854 3125000 370 136 900 19.23538 60.82763 2702703 . 4 321 103 (MJ 17.91647 56.65686 3115265 371 137 641 19.26136 60.90977 2695418 л. 322 103 684 17.94436 56.74504 3105590 372 138 364 19.28730 60,99180 2688172 A 323 104 ЗЭ9 17.97220 56.83309 3095975 373 139 129 19.31321 61.07373 2680965 r - 324 104 976 1ЯООООО 5692100 3086420 374 139 876 19-33908 6115554 2673797 - * b 325 105 625 1802776 57.00877 3076923 375 140 625 19.36492 ®1 23724 2666667 326 106 276 18.05547 57.09641 3067485 376 141 376 19-39072 61 31384 2659574 327 106 929 18.08314 57.18391 3058104 377 142 129 19-41649 61-40033 2652520 • 328 107 584 18 11077 57.27128 3048780 378 142 884 19.44222 61.48170 2645503 .329 108 241 18.13R36 57.35852 3039514 879 143 641 19.46792 61.56298 2638522 330 108 900 18.16590 57.44563 8030303 380 144 400 19.49359 61.54414 2631579 ' 331 109 561 18.19341 57.53260 3021148 381 145 161 19.51922 61 V2520 2624672 332 HO 224 18.22087 57.61944 3012048 382 145 924 19.54483 61Л0615 2617801 333 110 889 18.24829 57.70615 3003003 *83 146 689 19-57039 61 88699 2610966 334 111 556 18.27567 57.79273 2994012 384 147 456 19.59592 61.96773 2604167 335 112 225 18.30301 57.87918 2985075 385 148 225 19.62142 62.04837 2597403 < j 336 112 896 18.33030 57.96551 2976190 386 148 996 19.64688 62.12890 2590674 337 113 569 18 35756 58.05170 2967359 387 149 769 19.67232 62.20932 2583979 338 114 244 18.38478 58.13777 2958580 388 150 544 19=69772 62.28965 2577320 339 114 921 18.41195 58.22371 2949853 389 151 321 19.72308 62.86986 2570694 L Я40 115 GOO 18.13909 58.30952 2941176 390 152 100 19.74842 62.44098 2564103 . 341 116 281 >8.46619 58.39521 2932551 391 152 881 19.77372 62.52999 2557545 \ 342 116 964 18-49324 58.48077 2923977 392 153 664 19-79899 62.60990 2551020 ' 348 117 649 18.52026 58.56620 2915452 393 154 449 19.82423 62.68971 2544529 344 118 336 18.54724 5816515! 2906977 394 155 236 19.84948 62.76942 2538071 • 345 119 025 18.57418 58.73670 2898551 395 156 025 19.87461 62.84903 2531646 f в 346 119 716 18.60108 58.82176 2890rfe 396 156 816 19.89975 62.92853 2525253 * s 347 120 409 18,62794 58-90671 2881844 397 157 609 19-92486 63-00794 2518892 Я4Я ’ЭТО 121 104 18.65476 58.99152 2873563 398 158 404 19.94994 63.08724 2512563 4i 349 121 801 18.68154 59.07622 2865330 399 159 201 19.97498 65.16645 2506266 .1 350 122 500 18.70829 59.16080 285714* 400 1- 160 000 20.00000 63 24555 2500000 r 1 j - 405 i ;i
Продолжение габл. XIII N № VN V'ltljV U.v 00 N v'.v Vw.v 1.Л’ i .00 400 160 000 20 00000 63-24555 2500000 450 202 500 21.21320 67.08204 2222222 401 160 801 20.02498 63.32456 2493766 451 203 401 21,23676 67.15653 2217295 402 161 604 20.04994 63.40347 2487562 452 204 УМ 21.26029 67.23095 2212389 403 162 409 20.074X6 63.48228 2481390 458 205 209 21.28380 6730527 2207506 404 163 216 20.09975 63.56099 2475248‘ 454 206 116 21.30728 67.37952 2202643 405 164 025 20.12461 63.63961 2469136- 455 207 025 21.33073 67.^5369 2197802 406 164 836 20.14944 63:71813 2463054 456 207 936 2L35416 67.52777 2192982- 407 165 649 20.17424 63.79655 2457002 457 208 849 21.37756 67:60178 2188184 1 408 166 464 20.19901 63.87488 2450980 458 209’764 21.40093 67.67570 2183406 409 167 281 20.22375 63.95311 2444988 459 210 681 21.42429 67.74954 2178649s 410 168 100 20.24Я46 64.03124 2439024 460 211 600 21.44761 67.82338 2173913 411 168 921 20.27313 64.10928 2433090 461 212 521 21.47091 67.89698 2169197’ 412 169 744 20,29778 64.18723 2427184 462 213 444 21.49419 67.97058 2164502й 413 170 569 20.32240 64 2630Н 2421308 463 214 369 21.51743 68.04410 2159827 414 171 396 20.34699 64.34283 2415459 464 215 296 21.54066 68.11755 2155172 415 172 225 20.37155 64.42049 2409639 465 216 225 21.56386 68.19091 2150538- 416 173 056 20 39608 64.49806 2403846 466 217 156 21.58703 68.26419 2145923 417 173 889 20-42058 64.57554 2398082 467 218 089 21.61018 68.33740 2141328 - 418 174 724 20.44506 64.65292 2392344 468 219 024 21.63331 68.41053 2136752 419 175 561 20.46949 64.73021 2386635 469 219 961 21.65641 68.18857 2132196. 420 176 400 2049390 64.80741 23809*2 470 220 900 21.67948 68.55655 2127660 421 177 241 20.51Н28 64.88451 2375297 471 221 841 21.70253 68.62944 2123142 422 178 084 20.54264 64.96153 2369668 472 222 784 21.72556 68.70226 21186-14 423 178 929 20.56696 65.03815 2364066 473 223 729 21.74856 68.77500 2114165 424 179 776 2059126 65.11528 2358491 474 224 676 21.77154 68.84766 2109705 | 425 180 625 20.61553 .65.19202 2352941 475 225 625 21.79449 68.92024 2105263 1 426 181 476 20.63977 55.26868 2347418 476 226 576 21.81742 68.99275 2100840 427 182 329 20.66398 6554524 2341920 477 227 529 21.84033 69.065J9 2096436 128 183 184 20.68816 65.42171 2336449 478 228 484 21,86321 69.13754 2092050 429 184 041 20.71232 65.49809 2331002 479 229 441 21.88607 69.20983 2087683 430 184 900 20.73644 65.57439 2325581 480 230 400 21.90890 69.28203 2083333 431 185 761 20.76054 65.65059 2320186 481 231 361 21.93171 69.35416 2079002 432 186 624 20.78461 65.72671 2314815 482 232 324 21.9.5450 69.42622 2074689 433 187 489 20.80865 65.80274 2309469 483 233 289 21 97726 69.49820 2070393 ь 454 188 356 20.83267 65.87868 2304147 484 234 256 22 00000 69.57Q11 2066116 435 189 225 20.85665 65,95453 2298851 485 235 225 22.02272 69.641л4 2061856 436 ]90 096 20.88061 66.03030 229357Н 486 236 196 22.04541 69.71370 2057613 437 190 969 20.90454 6610598 2288330 4Н7 237 169 22.06808 69.78539 2053388 138 191 844 20.92845 66.18157 2283105 488 238 144 22.09072 69.85700 2049180- 439 192 721 20.95233 66.25708 2277904 489 239 121 22.11334 60.92853 2044990 - 440 193 600 20.97618 66.33250 2272727 490 240 100 22.13594 70.00000 2040816 2036660 441 194 481 21.00000 66.40783 2267574 491 . 241 081 22.15852 70.07139 442 195 364 21.02380 66.48308 2262443 492 242 064 22.18107 70.14271 2032520 443 196 249 21,04757 66.55825 2257336 493 243 049 22.20860 70.21396 2028398 < | 2024291 444 197 136 21.07131 66.63332 2252252 494 244 036 22.22611 70.28513 145 198 025 21.09502 66.70832 2247191 495 245 025 22-24860 70.35624 3020202 ’ 146 198 916 2L11871 66,78323 2242152 , 496 246 016 22.27106 70.42727 2016129 447 199 809 21Л 4237 66.85806 2237136 497 247 009 22-29350 70.49823 2012072 , Ш 200 704 21.16601 66.93280 2232143 498 248 004 22.31591 70.56912 200R032 449 201 601 21.18962 67.00746 2227171 499 ^9 001 22.33831 70-63993 2004008 450 202 500 21.21320 67.08204 2222222 500 250 000 22.36068 70.7 «068 2000000 « 406
т Продолжение табл, ХШ N \'N VlOA' 1W .00 N № VN V10N l/N S .00 I 500 250 000 22.36068 •70.71068 2000000 550 302 500 23.45208 74.16198 1818I82 501 251 001 22.38303 70.78135 1996008 551 303 601 23.17339 74.22937 1814832 502 252 <КИ 22.40556 70.85196 1992032 552 304 704 23,49468 74.29070 1811594 503 253 009 22.42766 70.92249 '1988072 553 305 809 23.51595 74.36397 I80831R 504- 254 016 22.44994 70.99296 19В4127 554 306 916 23.53720 74 43118 iao.5tiM 505 255 025 22.47221 71.06335 1960196 555 308 025 23.55844 74.49832 1801802 . Г1О6 256 036 22.49444 71.13368 1976285 556 309 136 23.57965- 74.56541 1798561 507 257 049 22.51666 71.20393 1972887 557 310 249 23.60085 74.63243 1795332 508 258 <164 22.53886 71.27412 1968504 558 311 364 23.62202 74 69940 1792115 л 509 259 081 22.56103 71.34424 1964637 559 312 481 23.64318 74.76630 1788909 • « 510 260 100 22.58318 71,41428 1960784 560 313 600 23.66482 74.83315 1785714 511 261 121 22.60531 71.48426 1956947 561 314 721 23.68544 74.89993 I782531 512 262 144 22.62742 71.55418 1953125 562 315 844 23.70654 74.96666 1779359 513 263 169 22 64950 71.62402 1949318 563 316 969 23.72762 75.03333 1776199 514 2М 196 22.6715" 71.69379 1945525 564 318 096 23.74868 75.09993 1773050 515 265 225 22.69361 71.76350 1941748 . 565 319 225 23.76973 75.16648 1769912 516 266 256 22.71563 71.83314 1937984 566 320 356 23.79075 75.23297 1766784 517 267 289 22 73763 71.90271 1934236 567 321 489 23.81176 75.29940 1763668 .518 268 324 22.75961 71.97222 1930502 568 *22 624 23.88275 75.36577 1760563 519 269 361 22.78157 72.04165 1926782 569 323 761 23.85372 75-43209 1757469 - 620 270 400 22.80351 72.11103 1923077 570 324 900 23.87467 75.49834 175-1386 521 271 441 22.82542 72.18033 1919386 571 326 041 23 89561 75.56454 1751313 Г.22 272 484 22.84732 72.24957 1915709 572 327 184 23 91652 75.63068 1748252 .-523 273 529 22.86919 72.31874 1912046 573 328 329 23.93742 75.69676 1745201 524 274 576 22.89105 72.38784 1908397 574. 329 476 28.95830 76.76279 1742160 525 275 625 22.91288 72.45688 1904762 575 330 625 23.97916 75.82875 1739130 526 276 676 22.93469 72.52586 1901141 576 331 776 24.00000 75.89466 17361H 527 277 729 22.95648 72.59477 1897-533 577 332 929 24.02082 75.96052 1733102 528 278 784 22.97825 72.66361 1893939 578 334 084 24.04163 76.02631 1730104 529 279 841 23.00000 72.73239 1890359 579 335 241 24,ОЬ242 76.09205 1727116 530 280 900 23.02173 72.80110 1886792 580 336 400 24.08319 76.15773 1724188 531 281 961 23ХМ344 72.86975 1885239 5R1 337 561 24.10394 76.22336 1721170 532 283 024 23.06513 72.93833 1879699 582 338 724 24.12468 76.28892 1718213 538 284 089 23 08679 73.00685 1876173 583 339 889 24.14539 76.35444 1715266 534 285 156 23.10844 73.07580 1872659 584 341 056 24.16609 76.41989 1712329 535 286 225 23.13007 73 14369 1869159 585 342 225 24.18677 76.48529 1709402 536 287 296 23.15167 73.21202 1865672 586 343 396 24.20744 76.55064 1706485 537 288 369 23.17326 73.28028 1862197 587 344 569 24.22808 76.61593 1703578 538 289 444 23.19483 73.34848 1858736 588 345 744 24.24871 7 b. 68116 1700680 • 539. 290 521 23.21637 73.41662 1855288 589 346 921 24.26932 76.74634 1697793 - 540 291 600 23 23790 73.48469 1851852 590 348 100 24.28992 76-81146 1694915 541 292 681 23.25941 73.55270 1848429 591 .349 281 24.31049 76.87652 1692947 542 293 764 23.28089 73.62065 1845018 592 350 464 24.33105 76.94154 1689^89 543 294 849 23.30236 73.68853 1841621 593 351 649 24.35159 77.00649 1686341 544 295 936 23.32381 73.75636 1838235 594 352 836 24.37212 77.07140 1683502 545 297 025 23.34524 73.82412 1834862 595 354 025 24.39262 77 13621 1680672 546 298 116 23.56664 73.89181 1831502 596 355 216 24.41311 77.20КИ 1677Я52 547 299 ?П9 23.38803 78.95945 1828154 597 356 409 24.43358 77.26578 1675042 □48 300 304 23.40940 74.02702 1824818 598 357 604 24.45404 77.33046 1672241 - 549 301 401 23.43075 74 09458 1821494 599 358 801 24Л7448 77.39509 1569449 ‘ L55O 302 300 23.45208 74.16198 1818182 ' 600 360 000 24.49490 77.45967 16666Г7 - 407
Продолжение табл. ХШ N № Vn VToN UN .00 N N’ V'lV V10N MN oo 600 360 000 24.49490 77.45967 1666667 650 422 500 25.49510 80.62258 1.538462 601 361 201 24.51530 77.52419 1663894 651 423 801 25.51470 80.68457 i536098 602 362 404 24.535159 77.58866 1661130 652 425 104 25.53429 80.71652 1533742 » 603 363 609 24.55606 77.65307 1658375 653 426 409 25.55386 80.80842 1531394 t 604 864 816 24 57641 77.71744 1655629 654 * 427 716 25.57342 80.87027 1529052 605 366 025 24.59675 77.78175 1652893 655 429 025 25.59297 80.93207 1526718 606 .167 236 24.61707 77 84600 1650165 656 430 336 25.61250 80.99383 1524390 607 368 449 24.63737 77.91020 1647446 657 431 649 25.63201 81.0555-1 1522070 608 369 664 24.65766 77.97435- 1644737 658 432 964 25.65151 81.11720 1519757 609 370 881 24.67793 78.03845 1642036 659 434 281 25.67100 81.17881 1517451 610 372 100 24.69818 78.10250 1639344 060 435 600 25.69047 81.24038 1515152 61! 373 321 24.71841^ 78.16649 1636661 661 436 921 25.70992 81,30191 1512859 612 374 544 24 73863 78.28043 1633087 062 438 244 25.72936 81.36338 1510574 613 375 769 24.75684 78.29432 1631321 668 439 569 25.74879 81.42481 1508296- 614 376 996 24.77902 78.35815 1628664 664 440 896 25.76820 81.48620 1506024 6J5 378 225 24 79919 78.42194 1626016 665 442 225 25.78759 81.5-1753 1503759 516 379 456 24.81935 78.48567 1623377 666 443 556 25.80698 81.60882 1501502 617' 380 689 24.83948 78.54935 1620746 667 444 889 25.82634 81.67007 1499250 618 381 924 24.85961 78.61298 1618123 668 446 224 25.84570 81.73127 1497006 619 383 161 24.87971 78.67655 1615509 669 447 661 25.86503 81.79242 1494768 620 384 400 24.49980 78.74008 1612903 670 448 900 25.88436 81.85353 1492587 621 385 641 24.91987 78 80355 1610306 671 450 241 25.90367 81.91459 1490313 622 386 884 24.03993 78.86698 1607717 672 451 584 25.92296 81.97561 1488095 623 388 129 24.95997 78.93035 1605136 678 452 929 25.94224 82 03668 1485884 624 389 576 24.97999 78.99367 1602564 674 454 276 25.96151 82.09750 1483680- 625 390 625 25.00000 79.05694 1600000 675 455 625 25.98076 82-15838 1481481 626 391 876 25.01999 79.12016 1597444 676 456 976 26.00000 82.21922 1479290- 627 393 129 25.03997 79.18333 1594896 677 458 329 26-01922 82.28001 1477105 62« 394 384 25.05993 79.24645 1592357 678 459 684 26.03843 ‘ 82.34076 1474926 629 395 641 25,07987 79.30952 1589825 679 461 041 26.05763 82.40146 1472754 630 896 900 25.09980 79.37254 1587366 680 462 400 26.07681 8246211 147058& 631 398 161 25.11971 79.43551 1584786 681 463 761 26.09598 82.52272 1468129 632 399 424 25.13961 79.49843 1582278 682 465 124 26.11513 82.58329 1466276 633 400 689 25.15949 79.56130 1579779 683 466 489 26.13427 82.64381 i464m 634 401 956 25.17936 79-62412 1577287 684 467 856 26.15339 82.70429 1461988 635 403 225 25.19921 79.68689 1574803 685 469 225 26.17250 82.76473 1459854 536 404 496 25.21904 79.74961 1572327 686 470 596 26.19160 82.82512 1457726 637 405 769 25.28886 79.81228 1569859 687 471 969 26.21068 82.88546 1455604 • 638 407 044 25.25866 79.87190 1367398 688 473 344 26.22975 82.94577 1453486 639 408 321 25.27845 79.93748 1564945 689 474 721 26.24881 83.00602 1451379» 640 409 600 25,29822 80.00000 1562500 690 476 100 26.26785 83.06624 1449275- 641 410 881 25.31798 80.06248 1560062 691 477 481 26.28688 83.12641 1447178- 642 412 164 25.33772 80.12490 1557632 692 478 864 26.30589 83.18654 1145087 643 413 449 25 85744 80.18728 1555210 693 480 249 26.324H9 83.24662 1443001 644 414 736 25.37716 80.24961 1552795 694 481 636 26.34388 83 30666 1440922 645 416 025 96.39685 80.31189 1550388 695 483 025 26.36285 83.36666 1438849- 646 417 316 25.11653 80.37413 1547988 696 484 416 26.38181 83-42661 1436782 647 418 609 25.43619 80.43631 1545595 697 485 809 26.40076 83.48653 1434720 648 419 904 25.45584 80.49845 1543210 698 487 204 2641969 83.54639 1432665 649 421 201 25.47548 80.56054 1540832 СГТУ 488 601 26.43861 83.60622 1430615' 660 422 500 25.49510 80.62258 1538462 700 490 000 26 45751 83.66600 1428571 408
Продолжение габл. XIII X Vx VJ0N .00 к N1 Vw VlfW -00 700 490 000 26.45751 83.66600 1428571 $50 562 500 27.38613 86.60254 1533333 701 491 401 26 47640 83.72574 1426534 751 564 001 27 4043Н Я6.66026 1831558 702 492 804 26.49526 83.78544 1424501 $52 565 504 27,42262 86.71793 1329787 703 494 209 26.51415 83.84510 1422475 $53 567 009 27.44085 86.77557 1328021 704 495 616 26.53300 83.90471 1420455 754 568 516 27 45906 86.83317 1326260 705 497 025 26.55184 83.96428 ]418440 $55 570 025 27.47726 86.89074 1324503 706 498 436 26.57066 84.02381 1416431. 756 57] 536 27.49545 86.94826 1322751 707 499 849 26.58947 84.08329 1414427 757 573 049 27.51363 87,00575 1321004 70Я 501 264 26.60827 84.14274 1412429 758 574 564 27.53180 87.06320 1319261 709 502 681 26.62705 84.20214 14IIM37 759 576 081 27.54995 87.12061 1317523 710 504 100 26.64583 84.26150 1408451 760 577 600 27.56810 87.17798 1315789 711 505 521 26.66456 84.32082 1406470 $61 579 121 27.58623 87.23531 1314060 712 506 944 26.68333 84.38009 1404494 762 580 644 27 60435 87 29261 1312336 713 508 369 26.70206 84.43933 1402525 763 582 169 27.62245 87,34987 1310616 711 509 796 26.72078 84.49852 1400560 764 583 696 27 64055 87.40709 1308901 715 511 225 26 73948 84.55767 1398601 $65 585 225 27 65863 87.46428 1307190 716 512 656 26.75818 84.61678 1396648 $66 586 756 27.67671 87.52143 1305483 717 514 089 26.77686 84.67565 1394700 767 588 289 27.69476 87.57854 1303781 718 515 524 26.79.552 84.73488 1392758 768 589 824 27.71281 87.63561 1302083 719 516 961 26.81418 Ы .79387 1390821 769 591 361 27.73085 8769265 1300390 720 □ 18 400 26.83282 84.85281 1388889 $70 592 900 27.74887 87.74964 1298701 721 519 841 26 85144 84.91172 1386963 $71 594 441 27.76689 87.80661 1297017 722 521 284 26.871 Ю6 84.97058 1385042 $72 595 984 27.78489 87.86353 1295337 723 522 729 26.88866 85.02941 1383126 ПЗ 597 529 27.80288 87.92042 1293661 724 524 176 26 90725 85.08819 1381215 974 599 076 27.82086 87.97727 1291990 $25 525 625 26.92582 85.14693 1379310 975 600 625 27.83862 88,03408 1290323 726 527 076 26.94439 85.20563 1377410 $76 602 176 27.85678 88.09086 12К866О 727 528 529 26 96294 85.26429 1375516 $77 603 729 27.87472 88.14760 1287001 72Я 529 984 26.98148 85,32292 1373626 $78 605 284 27.89265 88.20431 1285347 729 * 531 441 27.00000 85,38150 1371742 $79 60€ 841 27.91057 88.26098 J283697 730 532 900 27.01851 85.44004 1369863 $80 608 400 27.92848 88.31761 1282051 $31 534 361 27.03701 85.49854 1367989 $81 609 961 27.94638 88.37420 1280410 $32 535 824 27.05550 85.55700 1366120 $82 611 524 27 96426 88.43076 1278772 733 537 289 27.07397 85.61542 1364256 $83 613 089 27.98214 88.48729 1277139 734 538 756 27.09243 85.67380 1362398 784 614 656 28.00000 88,54377 1275510- 735 540 225 27.11088 85.73214 1360544 $85 616 225 28.01785 «8.60023 1273885 736 541 696 27.12932 85,79044' 1358696 $86 617 796 28,03569 88.65664 1272265 737 543 109 27.14774 85.84870 1456852 $87 619 369 28.05352 88.71302 1270648 $М 544 644 27.16616 85.90693 1355014 788 620 944 28.07134 88.76936 1269036 739 546 121 27.18455 85.96511 1353180 789 622 521 28089М 88.82567 1267427 740 547 600 27.2029* 86.02325 1351351 790 624 100 28.10694 88.88194 1265823 741 549 081 27.22132 86,08136 1349528 79] 625 681 28.12472 88.93818 1264223 742 550 564 27.23968 86.13942 13477Q9 792 627 26-1 28.14249 88 09438, 1262626 743 552 €М9 27.25803 86.19745 1345895 $93 628 849 28.16026 89.05055 1261034 744 553 536 27.27636 86.25545 1344086 $94 630 436 28.17801 89.10668 1259446 745 555 025 27.29469 86.31338 1342282 $95 632 025 28» 19574 в9_1<6277 1257862 746 556 516 27.31300 86.37129 1340483 796 633 616 28.21347 89.21883 1256281 747 558 009 27.33130 86.42916 1338688 797 635 209 28.23119 89.27486 1254705 748 £59 504 27.34959 86.48699 1336898 798 636 804 28.24889 89-33085 1258133 749_Ш 001 27.36786 86,54479 1335113 799 638 401 28.26659 89.38680 1251564 750 «62 500 27.38613 86.60254 1333333 ew 640 000 28.28427 89 44272 1250000 4С9
Продолжение табл. XIII N № VN V10N 1/N ,00 N N* V14 View 1/N .00 800 640 000 28.28427 «9.44272 1250000 850 722 500 29.15476 92Л9544 1176471 801 641 601 28.30194 89.49860 1248^39 851 724 201 29.17190 92.24966 1175Ш 802 643 204 28.31960 89 55445 1246883 R52 725 904 29.JS904 92.30385 1173709 805 644 809 28.33725 «9.61027 I24583O 858 727 609 29,20616 92.358ОП 1172335 804 646 416 28.35489 89.66605 1243781 854 729 316 29.22328 92.41212 1170960 805 648 025 28.37252 89.72179 1242236 855 731 025 29.24038 92.46621 1169591 806 649 636 28.39014- 89.77750 1240695 856 732 736 29.25748 92.52027 1168224 807 651 249 28.40775 89.83318 1239157 857 734 449 29.27456 92.57429 1166861 808 652 864 28-42534 89.888R2 1237624 858 736 161 29.29164 92.62829 1165501 809 654 481 28.44293 89.94443 1236094 859 737 881 29.30870 92.68225 1164144 810 656 100 28.46050 90.00OU0 1234568 860 739 600 29.32576 92.73618 1162791 811 657 721 28.47806 90.05554 1233046 861 741 321 29,34280 92.79009 1161440 812 659 344 28.49561 90.11104 1231527 862 743 044 29.35984 92.81396 1160093 818 660 969 28.51315 90.16651 1230012 863 744 769 29.37686 92.89779 1158749 814 662 596 28.53069 90.22195 1228501 8M 746 496 29.39388 92.95160 1157407 815 664 225 28.54820 90.27735 1226994 865 748 225 29.41088 93.00538 1156069 816 665 856 28.56571 90.33272 1225490 866 749 956 29.42788 93.05912 1154734 817 667 489 28.58321 90.38805 1223990 R67 75! 689 29,44486 93.11283 1153403 818 669 124 28.60070 90.44335 1222494 868 753 424 29.46184 93.16652 1152074 819 670 761 28 61818 90.49862 1221001 869 755 161 29.47881 93.22017 1150748 820 672 400 28-63564 90.55385 1219512 870 756 900 29.49576 98.27379 114942.» «21 674 041 28.65310 90.60905 1218027 871 758 641 29.51271 93,32738 1148106 822 675 684 28.67054 90.66422 1216М5 872 760 384 29.52965 93.38094 1146789 823 677 329 28.68798 90.71935 1215067 873 762 129 29.54657 93.43447 1145475 824 678 976 28.70540 90.77445 1213592 874 763 876 29.56349 93.48797 1144165 825 680 625 28.72281 90.8^951 1212121 875 765 625 29.58040 98.54143 1142857 826 682 276 28.74022 90.88454 1210654 876 767 376 29.59730 93.59487 1141553 827 683 929 28.75761 90.93954 1209190 877 769 129 29.61419 93.64828 1140251 828 685 584 28.77499 90.99451 1207729 878 770 884 29.66106 93.70165 1138952 829 687 241 28.79236 91.04944 1206273 879 772 641 296479.3 93.75500 1137656 830 688 900 28.80972 91.10434 1204819 880 774 400 2966479 93.80832 1136364 831 690 561 28.82707 91.15920 1203369 881 776 161 29.68164 93.86160 1135074 832 692 224 28.84441 91.21403 1201923 882 777 924 29 69848 .93.91486 1133787 833 693 889 28.86174 91-26883 1200480 883 779 689 29.71532 93.96808 1132503 834 695 556 28,87906 91.32360 1199041 884 781 456 29.73214 94.02127 1131222 835 697 225 28.89637 91.37833 1197605 885 783 225 29 74895 94.07444 1129944 836 698 896 28.91366 91.43304 1196172 886 784 996 29.76575 94.12757 1128668 837 700 569 28.93095 91.48770 1194743 887 786 769 29.78255 94Л8068 1127396 838 702 244 28.04823 91.54234 1193317 888 788 544 29.79983 94.28375 1126126 839 703 921 28.96550 91.59694 1191895 889 790 321 29.81610 94.28680 1124859 840 705 600 28.08275 91,65151 1190476 890 792 100 29.83287 94.38981 1128596 841 707 281 29.00000 91.70605 1189061 891 793 881 29.84962 94 39280 1122334 842 708 964 29.01724 91.76056 1187648 892 795 664 29.86637 94.44575 1121076 843 710 649 29.03446 91,81503 1186240 893 797 449 29.88311 94.49868 1119821 844 712 336 29.05168 91.86947 1184834 894 799 236 29 89983 94.55157 1118568 845 714 025 29-06888 91.92388 1183432 895 801 025 29.91655 94.60444 1117318 846 715 716 29.08608 91.97826 1182033 896 802 816 29.93326 94.65728 1116071 847 717 409 29.10326 92.03260 118O63S 897 804 609 29.94996 94.71008 1114827 848 719 104 29.12044 92.08692 1179245 898 806 404 29.96665 94.76286 Hli.586 849 720 801 29.13760 92.I4I2O 1177856 899 808 201 29.98333 94.81561 1112347 850 722 500 29.15476 92.19544 1176471' 900 810 000 30.00000 94.86833 num 410
Продолжение табл. ХШ Л' № Vn VhW 1/лг .00 N № Vn V10N UN .00 900 810 000 30-ОЮОО 94.86833 1111111 950 902 500 30:82207 97.46794 1052632 901 811 801 30.01666 94.92102 1109878 951 904 401 30.83829 97.51923 1051525 902 813 604 30.03331 94.97368 1108647 952 906 304 30.85450 97.57049 1050420 1 90S 815 409 30.04996 95.02631 1107420 953 908 209 30.87070 97.62172 1049318 W4 817 216 ЗОлкхйЭ 95.07891 1106195 954 910 116 30.88689 97.67292 1СИ8218 9иб 819 025 30.08322 95.13149 1104972 955 912 025 30 90307 97.72410 1047120 906 820 836 30.09983 95.18403 Г1О3753 956 913 936 - 30.91925 97.77525 1046025 907 «22 649 30.11644 95.23655 I102536 \ 957 915 849 30 93542 97.82638 1044932 ООН 824 464 30.13304 95.2Н903 1101322 958 917 764 30.95158 97.87747 1043841 909 826 281 30.14963 95.34149 1100110 959 919 681 30.96773 97.92855 1042753 910 828 100 30.16621 95.39392 1098901 960 921 600 30.9R387 97.97959 1041667 911 829 921 30.18278 95.44632 1097695 961 923 521 31.00000 98.03061 , 1040583 912 831 744 30.19934 95 49869 5096491 962 925 444 31.01612 98.08160 1039501 913 833 569 30.21589 95.55103 1)95290 963 927 369 31.03224 98.13256 1038422 914 835 396 30.23243 95.60335 1094092 964 929 296 31.04835 98.18350 1037344 915 837 225 30.24897 95.65563 1092896 965 931 225 31.06445 98.23441 1036269 916 839 056 30.26549 95.70789 1091703 966 933 156 31.08054 98.28530 1035197 917 840 889 30.28201 95.76012 1090513 967 935 089 31.09662 98.33616 1034126 918 842 724 30.29851 95.81232 1089325 968 937 024 31 11270 98.38699 1033058 919 844 561 30.3150V 95.86449 1088139 969 938 961 31.12876 98Л3780 1031992 920 846 400 5033150 95.91663 1086957 970 М 900 31.14482 98.18858 1030928 ' 921 Й48 241 30.34798 95.96874 1085776 971 942 841 31.16087 98.53933 1029866 У22 850 084 30.36445 96.02083 1084599 972 944 784 31.17691 98.59006 1028807 923 851 929 30.38092 96.07289 1083424 973 946 729 31.19295 £«.64076 1027749 924 853 776 30.39737 96.12492 1082251 974 948 676 31.20897 98.69144 1026694 925 855 625 30.41381 96.17692 1093081 975 950 625 31.22499 98.74209 1025641 926 857 476 30.43025 96.22889 1079914 976 952 576 31.24100 98.79271 1024590 927 859 329 30.44667 96.28084 1078749 977 954 529 31.25700 98.84331 1023541 Ж 861 184 30.46309 96.33276 1077586 978 956 484 31.27299 98.89338 1022495 929 .863 (Ц1 30.47950 96.38465 1076426 979 958 441 31.28898 98.94443 1021450 930 864 900 30.49590 96.43651 1075269 980 '960 400 31.30495 98.99495 1020408 931 866 761 30.51229 96.48834 1074114 981 962 31.32092 99.04544 1019368 932 868 624 30.52868 96 54015 1072961 982 964 324 31 33688 99.09591 1018330 933 870 489 30.54505 96.59193 1071811 983 966 289 31.35283 99.14636 1017294 934 872 356 30.56141 96.64368 1070664 984 968 256 31.36877 99.19677 1016200 935 874 225 30.57777 96.69540 1069519 985 970 225 31.38471 99.24717 1015228 936 876 096 30.59412 96.74709 1068376 986 972 196 31.40064 99.29753 1014199 937 877 969 30.6КИ6 96.79876 1067236 987 974 169 31 41656 99.34787 1013171 938 879 844 30.62679 96.85040 1066098 988 976 144 31.43247 99.39819 1012146 939 881 721 зо.мзн 96.90201 1064963 989 978 121 31.44837 99.44848 1011122 940 883 600 30.65942 96.95360 1063830 990 980 100 31.46427 99.49874 . 1010101 941 885 481 30.67572 97.00515 062699 991 982 081 81.48015 99.54898 1009082 942 887 364 30.69202 97.05668 1061571 992 984 064 81.49603 99.59920 1008065 943 889 249 30.70831 97.10819 1060445 993 986 049 31.51190 99.64939 1007049 944 891 136 30 72458 97.15966 1059322 994 988 036 31.52777 99.69955 1006036 945 893 025 30.74085 97.21111 1058201 995 990 025 31.54362 99.749Й9 1OO5O?5 946 894 916 30,75711 97.26253 1057082 996 992 016 31 55947 99.79*80 10СИ016 947 896 809 30.77337 97.31393 1055966 997 994 009 31.57531 99.84989 1003009 948 898 704 30.78961 97.36529 1054852 998 996 004 31.59114 09.89995 1002004 949 900 601 30.80584 97.41663 1058741 999 998 001 31.60696 99-94999 1001001 950 902 500 30.82207 97.46794 1052632 1000 1 000 000 31,62278 100.00000 1000000 Примечание Данные взяты из источника ЕЕ. Croxton and DJ. Cowden. Practical Business Statistics, 2nd cd. i © 1934, 1948, Prentice-Hall, Inc., Englewood Cliffs, N.J.t p. 524 533. Воспроизводится с разре-. тебпмя нздателей- 411
ОГЛАВЛЕНИЕ Предисловие к русскому изданию 3 Предисловие................ 6 Предисловие для преподавателей, ис- пользующих курс <Основы при- кладной статистики» . 7 Глава I. ВВОДНАЯ.................... 9 I 1. Как получают данные в эко- номике? ................... 9 1.2, Как сделать данные более полезны ми для контроля, анализа и принятия решений 10 Глава 2. РАСПРЕДЕЛЕНИЕ ЧА- СТОТ 12 2.1. Анализ числовой информации 12 2.2. Построение распределения частот ...... 15 2,2.1. Пределы группировок и внутригрупповые средние точки. Число группировок 17 2.2.2. Другие виды распреде- лений ....... 19 2.3. Полигон и гистограмма ча- стот ..........................19 2.3.1. Дискретные и непре- рывные данные .... 20 2.3.2, Графическое изобра- жение частот.................21 2.3.3. Разметка горизонталь- ной шкалы....................25 2.3.4. Масштабирование вер- тикальной и горизонтальной осей ........................26 2.3.5. Относительные частоты (частости) ...... 26 2,3.6. Графическая оценка генеральной совокупности 27 2,4. Кумулятивные распределения частот ...................... 28 2.4.1. Построение и интер- претация кумулятивных рас- пределений частот ... 28 2.4.2. Графическое изображе- ние кумулятивного распреде- ления частот.................30 2.4.3. Кумулятивные распре- деления частот для дискрет- ных данных.............31 2.5. Вопросы и задачи ... 32 Глава 3. СРЕДНИЕ И ДРУГИЕ ХАРАКТЕРИСТИКИ РАСПРЕ- ДЕЛЕНИИ ........................34 3.1 Сложение и умножение ди- скретных переменных > . 34 412 3.2. Среднее арифметическое . . 35- 3.3. Медиана, квартили и про- центили ........................37 3,3.1. Процентили, получае- мые для вариационного ряда несгруппированных данных Зв 31.3.2. Процентили, вычисляе- мые для ряда сгруппирован- ных данных .... 40 3.4. Мода....................... 43 3.S. Сопоставление средних . . 44 3.6. Вопросы и задачи ... 47 Глава 4. ХАРАКТЕРИСТИКИ ВА- РИАЦ ИИ ДАННЫХ .... 49 4.1. Вариация данных и ее изме- рение ..........................49 4.2. Вариационный и межквар- тильный размах .... 50 4.3. Среднее и среднее квадрати- ческое отклонения 54 4.3.1, Среднее отклонение 54 4.3.2. Среднее квадратиче- ское отклонение .... 55 4-4. Стандартизация данных . . 60 4.5. Вопросы и задачи . 66 Глава 5. ВЕРОЯТНОСТЬ И РАС- ПРЕДЕЛЕНИЯ ВЕРОЯТНО- СТЕЙ .........................68 5.1. Понятие вероятности, взаим- но несовместимых событий и условной вероятности , . 68- 5,1.1. Что такое вероятность 68 5.1.2. Непосредственное вы- числение вероятностей 70 5,1.3. Описание более слож- * ных событий ..... 77 5J.4. Условная вероятность 79 5.1.5, Разбиение пространст- ва элементарных событий и формула Байеса .... 80 5.2. Независимые события, бино- миальное распределение , 83 5.2. L Независимые событиям испытания...................83 5/Z2. Зависимые события и испытания....................88 5.2.3. Совместные вероятности 90 5.2,4, Вывод биномиального распределения .... 95 3.2.5, Свойства биномиально- го распределения ... 97 5.2.6. Гипергеометрич е с к о е распределение , . . 1W
5.3 Распределение Пуассона 101 5,4. Нормальное распределение 104 5.4.1. Подгонка нормальной кривой к опытным данным 105 5.4.2. Площадь иод нормаль- ной кривой . . . . . НО 5.5. Некоторые приложения . . 114 5.6. Вопросы и задачи . . . 121 Глава 6. ОТБОР ВЫБОРКИ . . 125 6.L Введение ...... 125 6,2. Простой случайный отбор выборки.......................128 6.2.1. Генеральная совокуп- ность и выборка . . . 128 6.2j2, Случайная выборка 129 6 2.3, Случайный отбор . . 130 6.3. Другие методы отбора вы* борки.........................131 6.3.1, Систематический отбор 132 6.3.2, Экспертный отбор . . 133 6.3.3. Районированный отбор 133 6.3.4. Прочие методы отбора выборки......................134 6.4. Вопросы и задачи . . . 135 Глава 7. ВЫБОРОЧНЫЕ РАСПРЕ- ДЕЛЕНИЯ .........................138 7.1. Перечисление всех возмож- ных выборок 138 7,1.1, Распределение выбо- рочных средних . . . , 138 7.1.2, Распределение выбо- рочных дисперсий . . . 152 7.2. Экспериментальные распреде- ления выборочных средних 153 7.2.1. Теоретические и экспе- риментальные выборочные распределения , . . . 153 7.2.2. Распределение выбо- рочных средних . . 154 7j2l3. Доверительные пределы 159 7 3, Экспериментальные распреде- ления процентных характе- ристик выборки . . , . 164 7.4. Вопросы и задачи . . * 174 Глава Л. ОЦЕНИВАНИЕ ИСТИН- НЫХ ПАРАМЕТРОВ ПО ВЫ- БОРКЕ .........................175 8.1. Введение ................175 8.2. Оценивание истинного сред- него ........................ 177 8.3. Оценивание истинных про- центных характеристик . . 185 8.4. Оценивание истинной дис- персии и истинного среднего квадратического отклонения 188 8.5. Вопросы и задачи . . 190 Глава 9 ИСПОЛЬЗОВАНИЕ ВЫ- БОРОЧНЫХ ХАРАКТЕРИСТИК ДЛЯ СОПОСТАВЛЕНИЯ ИС- ТИННЫХ ПАРАМЕТРОВ ГЕ- НЕРАЛЬНЫХ СОВОКУПНО- СТЕЙ .........................192 9.1 Введение..................192 9.2. Сопоставление р с ро . * 193 9,2.1. Проверка гипотез с по- мощью п редело в и нтервала принятия ...... 1У? 9.2.2. Принятие решений и определение объема выборки с учетом ошибок первого и второго рода ..... 197 9.2.3. Проверка гипотез сопо- ставлением г* с г или t* с t 204 9,3. Разница между pi и рг . 207 9 4. Сопоставление л с По . 212 9.5. Сопоставление тц с л? 214 9.6. Сопоставление дисперсий 2I& 9.6Л, Сопоставление о2 с О2о 216 9.6.2. Сопоставление o*i с <72г 217 9.7. Вопросы и задачи 219 Глава 10. НЕКОТОРЫЕ ВОПРОСЫ ТЕОРИИ ПРИНЯТИЯ РЕШЕ- НИИ 222 ЮЛ- Отношение человека к риску , 222* 10.2. Ожидаемая прибыль «ожи- даемые потери . . . , 225- 10.3. Издержки, связанные е ошибками <1 и Р (первого и второго рода), и объем выборки 232 10,3.1. Доверительные пре- делы 232 10.3.2, Проверка гипотез 234 10.4. Элементы байесовской ста- тистики ...... 238 10.4.L Априорное распреде- ление величины л . • 238 10.4 2. Априорное распреде- ление 243 10 4.3. Апостериорное нор- мальное распределение и апостериорное р-распреде- ление , ..... 244 10.5. Вопросы и задачи . 246 Глава 1L КРИТЕРИЙ ХИ-КВАД- РАТ 248 11.1. Критерий согласия . 248* 11.2. Таблицы сопряженности 253 11.3. Вопросы и задачи . 257 Глава 12. ДИСПЕРСИОННЫЙ АНАЛИЗ 2591 12.1, Классификация по одному признаку 260 12.2. Классификация по двум признакам 265 12.2.1. Классификация по двум признакам: одно на- блюдение в ячейке . 266- 12,2.2. Классификация по двум признакам: несколько наблюдений в ячейке 269- 12.3. Ортогональные контрасты 273- 12.4. Вопросы и задачи . 276 Глава 13. РЕГРЕССИЯ И КОРРЕ- ЛЯЦИЯ 27fr 13 1. Основы регрессионного и коррелялионного анализа 278- 413
13.2. Линейный регрессионный , анализ ....................... 13.2.1. Подгонка прямой ли- нии с помощью метода на- именьших квадратов 13.2.2, Пределы доверитель- ного интервала для р и а 13.2.3, Проверка различия между р и ро . . . . 132.4. Пределы доверитель- ного интервала прогноза для У и ................ 13.3. Двумерный (парный) кор- реляционный анализ 13.4. Нелинейная регрессия . 13.5 Множественная регрессия и корреляция . 13,6. Вопросы и задачи . Глава 14 ИНДЕКСЫ . . . / 14.1. Индивидуальные индексы 14.2. Общие индексы . 1<3. Среднее из индивидуальных индексов ................... 14.4. Некоторые применения ин- дексов цен и физических объемов .................... 14.5. Вопросы и задачи , Глава 15. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ........................... 15.1. Модели временных рядов 285 285 238 289 290 292 296 300 305 308 308 315 319 321 325 326 326 15.2. Анализ трендов временных рядов.............................331 15.2.1. Прямая линия . . 333 15.2.2, Парабола . . . 336 15.2.3. Логарифми ч е с к а я прямая ...... 338 ' 15.3 Статистический анализ эко- номических циклов . . . 343 15,3.1 , Колебания вокруг тренда без точек перегиба 344 15.3.2 . Скользящая средняя 346 15.3.3 . Методы процента средней и средних циклов 350 15.4. Сезонные колебания и ин- дексы сезонности . . 351 15.5, Корреляционный и регрес- сионный анализ временных рядов . . 354 15.6. Методы прогнозирования 357 15.7. Вопросы и задачи . . . 361 Глава 16. НЕКОТОРЫЕ ДРУГИЕ СТА! ИСТИЧЕСКИЕ ПРОБЛЕ- МЫ ..........................364 16.1. Ранговая корреляция . . 364 16.2. Знаковый критерий . . . 366 * 16.3. Знаковый критерий Виль- кексона....................368 16.4. Пары наблюдений . . , 369 16.5. Неравенство Чебышева . . 370 Список литературы . 373 Приложение. СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ......................373