/
Текст
БИБЛИОТЕНКА ИНОСТРАННЫХ КНИГ ДЛЯ ЭКОНОМИСТОВ И СТАТИСТИКОВ
JOHN D. HEY AN INTRODUCTION TO BAYESIAN STATISTICAL INFERENCE FOR ECONOMISTS DATA IN DOUBT MARTIN ROBERTSON
ДЖ. ХЕЙ ВВЕДЕНИЕ В МЕТОДЫ БАЙЕСОВСКОГО СТАТИСТИЧЕСКОГО ВЫВОДА Перевод с английского А. А. РЫБКИНА МОСКВА "ФИНАНСЫ И СТАТИСТИКА" 1987
ББК 22.172 Х35 БИБЛИОТЕЧКА ИНОСТРАННЫХ КНИГ ДЛЯ ЭКОНОМИСТОВ И СТАТИСТИКОВ С 1980 г. вышли из печати книги: Н. Хастингс, Дж. Пикок. Справочник по статистическим распределениям. 1980. А. Гильберт. Как работать с матрицами. 1981. М. Кен дел. Временные ряды. 1981. Ю. К ю н. Описательная и индуктивная статистика. 1981. A. Эренберг. Анализ и интерпретация статистических данных. 1981. П. Мюллер, П. Н о й м а н, Р. Шторм. Таблицы по математической статистике. 1982. Г. К и м б л. Как правильно пользоваться статистикой. 1982. Э. Ф е р с т е р, Б. Р е н ц. Методы корреляционного и регрессионного анализа. 1983, М. Холлендер, Д. Вулф. Непараметрические методы статистики. 1983. И. Л и к е ш, И. Л я г а. Основные таблицы математической статистики. 1985. Р. Джессе н. Методы статистических обследований. 1985. X. Ар е не, Ю. Л ё йте р. Многомерный дисперсионный анализ. 1985. К. Льюис. Методы прогнозирования экономических показателей. 1986. И. Вучков, Л. Бояджиева, Е. Солаков. Прикладной линейный регрессионный анализ. 1987. Подготавливаются к изданию: B. П л ю т а. Многомерный сравнительный анализ в эконометрическом моделировании. П. Б л а г у ш. Факторный анализ с обобщениями. Редколлегия серии: В. И. Данилов-Данильян, Е. 3. Демиденко, В. М. Иванова, А. В. Павлю- ков, Г. Г. Пирогов, А. А. Рыбкин, Е. М. Четыркин, Р. М. Энтоа. 1702060000-053 ^ п © John D' НеУ' 1983 102—87 © Перевод на русский язык, вступительная статья, Ф 1987 10287 © р ру , 010@1)—87 «Финансы и статистика», 1987
О БАЙЕСОВСКОМ ПОДХОДЕ И СУБЪЕКТИВНЫХ ВЕРОЯТНОСТЯХ Перед вами учебное пособие по теории статистического вывода, обладающее тремя отличительными особенностями. Во-первых, оно рассчитано на тех, для кого статистика станет средством при проведении прикладных исследований (главным образом, на экономистов). Во-вторых, оно написано просто, поскольку адресовано читателю, имеющему минимальную предварительную подготовку. В-третьих, методологической основой предлагаемого курса является так называемый байесовский подход, уже давно развиваемый в математической статистике в качестве альтернативы классическому. Число классических руководств по теории статистического вывода измеряется в настоящее время уже многими десятками. В основном это книги, написанные с целью популяризации, в то время как серьезные монографические исследования становятся более специальными и встречаются все реже. Однако такое соотношение нельзя распространить на исследования, ведущиеся в рамках байесовского подхода, где монографические работы, безусловно, преобладают. Казалось бы, напрашивается естественный вывод о большей продуктивности байесовского подхода. Но получаемые с его помощью результаты в принципе переводятся на язык классической статистики, и поэтому многие склонны говорить не о продуктивности байесовского подхода, а о его излишней усложненности. На вопрос слушателя, в чем состоит байесовский подход в статистике, лектор, завершающий свой курс, отвечает примерно следующее: «Это попытка найти другой способ обоснования понятия вероятности, нежели тот частотный, о котором я говорил, или аксиоматический, предложенный А. Н. Колмогоровым и употребляемый при более глубоком изложении предмета. Попытка, вообще говоря, сомнительная, ибо основана она на понятии субъективной вероятности, т. е. ориентирована на изучение не столько объективной реальности, сколько представлений отдельного индивида о ней. К тому же не простого индивида, а мыслящего не иначе как в вероятностных терминах. Подобный подход связан с дополнительными трудностями, на преодоление которых обычно уходят все силы исследователей байесовского направления. Для практика разницы между байесовским и классическим подходами почти нет. Числовые оценки будут получены те же. Но поинте- 5
ресоваться работами байесовского направления при случае полезно. Интерпретация результатов у них иная, иногда более убедительная». Серьезные занятия байесовской статистикой по общему признанию были доступны лишь узкому кругу «посвященных». Байесовские курсы теории статистического вывода были написаны, но они вовсе не предназначались для первоначального чтения. От читателя требовалась некоторая математическая изощренность, да к тому же и хорошая методологическая подготовка — без нее невозможно обрести нужную свободу в искусстве интерпретации. Построить начальный курс теории статистического вывода сразу же на основе байесовского подхода казалось невозможным. Дж. Хей такую задачу решил. Вот почему, обладая тремя перечисленными выше особенностями, эта книга в момент ее выхода в свет была единственной в своем роде. Байесовский подход применяется в математической статистике и в теории принятия решений. Его наименование происходит от одного из базовых утверждений теории вероятностей — правила (или теоремы) Байеса. Формулируется правило чрезвычайно просто (см. гл. 2 данной книги) и позволяет связать между собой условные и безусловные вероятности. Эта связь была установлена английским математиком Томасом Байесом (или Бейесом) в середине XVIII в. и, как впоследствии оказалось, может быть положена в основу ряда базовых процедур математической статистики, в частности теории статистического вывода. Байесовский подход можно рассматривать в рамках аксиоматической теории вероятности. Тогда вычленяется определенный круг задач, для решения которых он оказывается удобным средством. Но можно воспринимать байесовский подход шире и пытаться распространить его на основания математической статистики, вводя в качестве базового понятие субъективной вероятности, как это сделано в книге Дж. Хея. Именно в этом случае и возникают основные противоречия между классическим и байесовским подходами. Как это нередко бывает в науке, противоречия здесь во многом кажущиеся, и объясняются они главным образом несоответствием притязаний, связанных с разработкой теории, с одной стороны, и содержания решаемых с ее помощью задач — с другой. Классический подход сформировался как средство анализа хорошо описанных и повторяющихся ситуаций, максимально приближенных к модельным схемам. Вначале это были разнообразные азартные игры: орлянка, кости, рулетка, карты. В каждой из таких игр (сложные карточные игры при этом не рассматриваются) сам «механизм случайностей» абсолютно ясен. Если, например, нам вручили обычную монету и попросили выяснить, является ли она «правильной», т. е. выпадают ли герб и решетка при ее подбрасывании с одинаковой частотой, то мы можем провести достаточно длинную серию испытаний и по ее результатам с помощью методов теории статистического вывода ответить на поставленный вопрос. В рамках обоих конкурирующих подходов выводы будут получены по сути своей одинаковые и различаются они лишь 6
формой и некоторыми особенностями интерпретации. Принципиальных преимуществ у байесовского подхода при этом обнаружить не удается. Но представьте себе, что игра в орлянку — привычное для некоего индивида занятие и тот овладел определенным навыком распознавать по внешним свойствам монеты ее смещенность «в пользу» герба или решетки. Он все равно проведет с монетой серию испытаний и в своем окончательном выводе, т. е. в своей апостериорной оценке, учтет как априорное суждение, сформулированное до испытаний, так и результаты проведенных экспериментов. Мы сформулировали сейчас простейшую и наиболее типичную задачу, требующую для своего решения байесовского подхода, основанного на понятии субъективной вероятности. До начала экспериментов наш индивид по разнообразным известным ему из предыдущего опыта признакам оценил свойства предложенной монеты и сформулировал свой априорный вывод в вероятностных терминах, т. е. с помощью понятия субъективных вероятностей. Затем он может воспользоваться процедурами байесовского вывода и объединить априорные представления с информацией об испытаниях, чтобы получить оценку своих апостериорных представлений. Итак, байесовский подход, опирающийся на понятие субъективной вероятности, не умозрителен, он необходим для решения вполне конкретных задач, которые решить иначе было бы нелегко. Само понятие субъективной вероятности не таит в себе какого-либо подрыва материалистических идей, а тот, кто им пользуется, совсем не обязательно призывает к научному признанию субъективистских мировоззренческих концепций. Более того, если избегать неоправданных спекуляций и пользоваться понятием субъективной вероятности достаточно строго, мы можем продемонстрировать весьма смелый и заведомо материалистический подход к анализу процессов познания и обучения, в которых непосредственно участвует сознание. В конечном счете речь идет об извечной проблеме адекватности теории и реальности в свете поставленной задачи. Материалист-метафизик пугается слова «субъективный» в сочетании с термином «вероятность», поскольку не до конца освоился с диалектикой процесса познания; поэтому видит свою роль главным образом в твердом проведении в жизнь той линии, которая наиболее естественным образом вытекает из законов, уже открытых теорией. Он забывает при этом, что сами законы — продукт сознания, и элемент субъективизма в любой теории неизбежен. Мировоззренческая робость обычно удивительным образом сочетается с безоглядной научной смелостью, с поиском всеобщих решений и подходов, применимых всегда и повсеместно. Вот почему противник классического подхода вызывает порой большее доверие, нежели сторонник байесовского, несмотря на то, что в обеих этих ролях выступает, как правило, одно и то же лицо. То же самое можно сказать о противниках байесовского подхода и сторонниках классического. Всегда существует такой уровень обобщения, с которого любая эмпирически проверяемая теория воспринимается не как «адекватное» объяснение реальности, а как одно из средств, 7
как более или менее сложный инструмент для ее изучения. И поднявшись на этот уровень, мы должны по-иному взглянуть на те построения и выводы, которыми довольно уверенно пользовались до этого. Придется задуматься об относительности теоретических абсолютов и вспомнить, что теория должна быть адекватна реальности не вообще и не с какой-то точностью, а в контексте конкретно поставленных задач. Сторонники классического подхода, которые не являются при этом непримиримыми противниками байесовского, обычно говорят: байесовский подход хорош при малых выборках. Эту фразу можно произнести и с одобрением, и с некоторым сожалением. В зависимости от интонации она будет нести разную смысловую нагрузку. Можно сказать также, что классический подход хорош при больших выборках, и это тоже будет близким к истине. Байесовский и классический подходы к теории статистического вывода будут развиваться параллельно, ибо реально существуют задачи, для решения которых какой-то из них более приспособлен. В книге Дж. Хея есть методологические издержки, связанные с бе- заговорочной приверженностью автора к байесовскому подходу в качестве «единственно правильной» альтернативы классическому. Это следует иметь в виду при ее чтении. Тем не менее книга является весьма удачным введением в прикладную статистику. Овладев с ее помощью основными понятиями теории статистического вывода, читатель сможет довольно успешно продолжить изучение этой теории с помощью других, более подробных и более глубоких руководств. Нужно выработать при этом привычку воспринимать прикладные теории как инструментарий, имеющий определенную сферу применения. Следует осторожно относиться к ощущению предельной простоты и естественности байесовского подхода, которое возникает при чтении книги. Дж. Хей рассматривает, например, задачу, связанную с выяснением шансов социал-демократической партии на выборах в северовосточном округе Бристоля. С этой целью проводится опрос общественного мнения среди избирателей округа на основе случайной выборки. С увеличением объема выборки растет уверенность в полученных оценках, что вполне отвечает интуитивным представлениям. Но при этом ни разу не упоминается объем всей совокупности, из которой осуществляется выборка, т. е. объем соответствующей генеральной совокупности, как говорят в классической статистике. Ясно, что чем меньшая часть совокупности будет обследована, тем с большей вероятностью мы можем ошибиться в своих ожиданиях и принять за близкую к истинной доле поддерживающих социал-демократов величину, достаточно от нее удаленную. Увлечение субъективной стороной процесса оценивания приводит к тому, что Дж. Хей интересуется объемом совокупности в сопоставлении с объемом выборки лишь в связи с вопросами, далеко не первостепенными. Например, обязательно ли проводить выборку элементов с возвращениями, чтобы сохранить равновероятность при извлечении каждого из них. Есть вопросы гораздо более существенные. 8
Например, если бы речь шла об избирателях во всей Англии, то выборки объемом в 30, 100, 500 человек имели бы такую же информативную ценность, что и для данного округа, или нет? Такие вопросы не обсуждаются, и это не случайно. Они для байесовского подхода менее органичны, чем для классического. Байесовский подход действительно упрощает изложение основных положений теории статистического вывода по сравнению с классическим. Он позволяет развить некоторые оригинальные и весьма полезные направления анализа. Но при этом он создает серьезные препятствия при решении (а нередко и при постановке!) задач, для классической статистики вполне естественных. Как бы ни казалось при первом знакомстве, что интерпретация понятия «доверительного интервала» в классической статистике сложна и трудно воспринимается, для глубокого понимания сути статистических методов она нужна. Часто обращают внимание на то (как это делает в своей книге и Дж. Хей), что байесовский подход более приспособлен к решению задач, возникающих в социальных науках, в то время как классический подход отвечает требованиям естественнонаучных теорий. Это так, потому что элемент субъективности в общественных науках проявляется. Объективно в социальных исследованиях должно быть меньше рутинного, шаблонного, а преобладать то, что обычно обозначают термином ad hoc. Именно для исследования ad hoc, максимально учитывающего специфику данной задачи, байесовский подход может применяться успешнее классического. Это довольно ярко показал в своей книге Э. Лимер (см. : Лимер Э. Статистический анализ неэкспериментальных данных. Выбор формы связи. —М.: Финансы и статистика, 1983). Книга Дж. Хея адресована, как мы уже отмечали, начинающим. Это вводный курс. Предполагается минимум начальных сведений у читателя. Достаточно строг отбор материала — ничего лишнего, по возможности без деталей. Некоторая избыточность текста—существенный психологический прием, активизирующий с помощью повторов материал, изложенный ранее. Таким образом, чтение этой книги превращается в своего рода программированный процесс обучения. Кроме повторения и закрепления пройденного материала, читатель получает возможность воспринимать менее насыщенный информацией текст; мера здесь, как известно, необходима. Нарочитая бедность языка — тоже своего рода средство обучения, поскольку языковое разнообразие обычно вступает в противоречие с точностью и однозначностью формулировок. Местами автор был столь последователен в своих языковых привязанностях, что при переводе оказалось просто невозможным сохранить этот, вероятно, вполне оправданный колорит. Книга в первую очередь адресована преподавателям статистики вузов. Она будет с пользой прочитана и студентами, и теми, кто считает, что уже давно освоил теорию статистического вывода. А. А. Рывкин
ПРЕДИСЛОВИЕ На протяжении ряда лет я читаю вводный курс статистики и эконометрии студентам, изучающим экономику. Для многих преподавателей подобная деятельность связана с постоянным поиском наиболее естественного и потому не требующего чрезмерных усилий от слушателей способа изложения достаточно трудного для восприятия материала. Ради этого перекраивают курсы, комбинируют их на основе имеющихся руководств и пишут новые. Однако улучшения оказываются незначительными, ибо не затрагивают существа этой «фундаментальной проблемы». Тем не менее попытки продолжаются. Я тоже был занят этим малоперспективным делом, пока около трех лет назад не осознал окончательно, в чем кроется причина наших неудач. Основным недостатком большинства курсов эконометрии и статистики является применение в них классического подхода к получению статистического вывода. Студентам такой подход кажется неестественным и интуитивно неоправданным, поскольку не согласуется с тем обычным способом, каким люди (неважно, статистики они или нет) ассимилируют информацию в повседневной жизни. На практике каждый постоянно пользуется (хотя, может быть, и неосознанно) вероятностной трактовкой теорий, гипотез и фактов, которые либо вызывают сомнения, либо являются неоцределенными по своей сути. Тогда возникает необходимость пересматривать свои оценки в свете новой информации. Решить эти задачи позволяет байесовский подход к статистике. Впервые я прочитал байесовский курс статистики два года назад и^ естественно, столкнулся вначале с некоторыми трудностями, хотя надо признать, что они не были слишком серьезными. Зато я убедился, что «фундаментальной проблемы» больше нет. (Правда, остались проблемы со студентами, уже частично знакомыми с классическим курсом, которым было нелегко отказаться от традиционного стиля мышления.) 10
Сейчас исходя из опыта предыдущих лет я могу сказать, что байесовский подход наиболее удобен для восприятия. (Это вовсе не означает, что он позволяет преодолеть все трудности. Однако те из них, которые остаются, как правило, общие для всех подходов.) Единственным реальным препятствием при изучении байесовского курса статистики оказалось отсутствие соответствующего учебного пособия, к которому студенты могли бы обращаться в процессе самостоятельной работы. Вот почему написана эта книга. Первый ее вариант использован при чтении учебных курсов в Йоркском университете в 1981—1983 гг. Затем он был существенно переработан с учетом пожеланий и предложений, полученных от моих студентов и коллег. Им я выражаю свою искреннюю признательность. Джон Д. Хей, Йорк, январь 1983 г.
ГЛАВА I ВВЕДЕНИЕ Статистика разрабатывает инструментарий, помогающий принимать решения в условиях неопределенности. Эта книга посвящена статистике и адресована в первую очередь экономистам. Ее цель — показать, как статистика может помочь экономисту принимать решения в условиях неопределенности. Нет необходимости доказывать, что все экономические теории, отчеты о реальной хозяйственной деятельности и прогнозы, равно как и рекомендации в отношении экономической политики, всегда содержат ту или иную долю неопределенности. Естественно, что уровень неопределенности меняется в зависимости от сферы ее проявления. Например, агрегированные потребительские расходы весьма устойчивы и легко объяснимы. Агрегированным инвестиционным расходам свойственна большая неопределенность и поэтому с достаточной полнотой объяснить их вариабельность не удается. Руководствуясь неким общим правилом, в соответствии с которым приложение больших усилий позволяет получить больше информации, многие экономисты стремятся сузить область своих профессиональных интересов, ограничить ее и тем самым уменьшить величину остаточной неопределенности, избежать которой полностью практически не удается. (Тут экономисты заблуждаются, ибо подобное правило не является общим. Чтобы убедиться в этом достаточно представить себе, например, к каким разрушительным для экономических теорий последствиям приведут структурные изменения в мотивах поведения людей. Тогда экономистам придется переучиваться заново.) Процесс накопления знаний в экономике протекает во многом так же, как и в других научных дисциплинах, с той лишь разницей, что большая роль принадлежит при этом повседневному опыту. Наши взгляды на какую-либо экономическую теорию или явление хозяйственной практики всегда содержат долю неопределенности, и нам приходится их постоянно пересматривать в свете той новой информации, которая оказалась для нас доступной. Можно надеяться, что итогом подобной «ревизии» станет приближение знаний о конкретном явлении 12
к «истине». В конечном счете мы хотели бы уметь объяснять и предсказывать экономическое поведение (агрегированное?) с полной определенностью, правда, в каждый конкретный момент подобный идеал воспринимается как весьма отдаленный. Процесс накопления экономических знаний содержит две ключевые составляющие: описание представлений о некоторой конкретной теории или конкретном явлении, накопленных к определенному моменту времени, и ревизия этих представлений в свете новой информации о данной теории или данном явлении. По существу, наша книга и посвящена обсуждению этих двух составляющих. При описании сформировавшихся представлений о некоторой теории или о некотором явлении естественно воспользоваться вероятностными утверждениями. Например, кто-то, опираясь на доступную информацию и на положения различных экономических теорий, может сказать, что монетаристское объяснение инфляции более правдоподобно, чем ее объяснение растущим давлением со стороны затрат. Или может быть высказано мнение, что неправдоподобно ожидать от простейшей модели акселератора адекватного объяснения поведения инвесторов. Еще пример подобного утверждения: имеется менее 1 шанса из 4, что гипотеза о постоянном доходе позволяет корректно объяснить агрегированное потребление. Могут существовать и более точные высказывания: доступные нам данные свидетельствуют о том, что почти наверняка предельная (маргинальная) агрегированная склонность к потреблению лежит между 0,5 и 0,7; имеются относительно небольшие шансы (скажем, меньшие 20 %), что эластичность спроса на деньги по изменению ставки банковского процента превосходит по величине 1; имеются очень высокие шансы (скажем, более 95%), что кривая предложения рабочей силы в индустриально развитых странах обнаруживает тенденцию к смещению вниз. Таким образом, вероятности принадлежит здесь ключевая роль. Открывает книгу вводная глава. За ней следуют две главы, посвященные основным понятиям теории вероятностей и содержащие факты этой тебрии, нужные нам в дальнейшем; в этих главах показано, как неопределенные представления о теориях, явлениях или переменных величинах можно формализовать, выразив в вероятностных терминах и воспользовавшись закономерностями, которым подчиняется случайность. В гл. 2 обсуждаются основные идеи теории вероятностей для случая простых событий и одной переменной. Большая часть этой главы посвящена характеристике и обобщению вероятностных представлений об одной переменной, поскольку содержащиеся в последующих главах факты излагаются применительно к переменным, а не событиям. Приводятся три основные вероятностные закона, лежащие в основе всего последующего материала книги. Один из них может быть записан в форме теоремы Байеса, которая в свою очередь позволяет нам корректно построить формальные процедуры пересмотра или обновления имеющихся представлений в свете поступившей новой информа- 13
ции. Идеи гл. 2 развиваются и обобщаются в гл. 3, где, в частности, рассмотрены распределения нескольких переменных, строятся их обобщающие характеристики. Если способам описания имеющихся представлений посвящены только две главы, то процедурам их ревизии, пересмотра с учетом новой информации — остальная часть книги. Гл. 4 начинается с относительно простых примеров, при формализации которых затем применяется теорема Байеса (впервые она упоминается в гл. 2). Заканчивается эта глава дополнительными примерами, и два из них подробно анализируются затем в гл. 5 и 6. Понятия, лежащие в основе байесовского подхода, и процедуры, обеспечивающие его реализацию, описаны в гл. 2, 3 и 4. В остальных главах книги эти идеи и методы рассматриваются применительно к различным ситуациям и к решению конкретных задач. Решая последовательно одну техническую проблему за другой, мы продвигаемся к приложениям, все более «реалистическим» по своему характеру и потому теснее связанным с интересами и потребностями экономистов. Гл. 7, 8 и 9 с этой точки зрения особенно важны, ибо в них идет речь об эмпирическом исследовании одного или нескольких экономических соотношений. Однако, как видно из этих глав, более «реалистическая» постановка прикладных задач сопряжена с увеличением алгебраической и технической (но не концептуальной) сложности анализа. Вот почему пришлось включить в книгу гл. 5 и б, материал которых, хотя и не связан непосредственно с экономикой, содержит сравнительно простые иллюстрации применения методов анализа из гл. 2, 3 и 4. Гл. 5 и 6 должны помочь читателю обрести уверенность в применении соответствующих методов и технических средств, в развитии интуитивного понимания основных теоретических положений, что позволяет значительно упростить изложение материала в гл. 7, 8 и 9, опуская алгебраические преобразования и доказательства (частично они перенесены в приложения). Таким образом, важно не столько умение доказать результат, сколько обрести навыки, связанные с его применением. Гл. 5 посвящена одному из наиболее простых приложений байесовского подхода — задаче определения и последующего уточнения неизвестной величины, характеризующей долю элементов совокупности, обладающих некоторым фиксированным свойством. В этой главе показано, как имеющиеся представления о значении такой доли пересматриваются с поступлением новой информации. Обсуждается также вопрос о том, какой смысл следует вкладывать в утверждение об отсутствии априорной информации о значениях интересующей нас величины. В гл. 6 рассматриваются несколько более сложные приложения: задача определения и последующего уточнения значений неизвестной средней и/или неизвестной дисперсии. Подобные приложения есть часть пути (своего рода мост) между простой прикладной задачей из гл. 5 и значительно более сложными (но и более полезными для практика) прикладными задачами из последующих глав. 14
Как уже отмечалось, последние три главы книги содержат наиболее интересные для экономистов приложения — эмпирические исследования экономических соотношений. Основные идеи вводятся в гл. 7, посвященной простейшему из таких соотношений, которое состоит из единственного уравнения, линейно связывающего две переменные величины, причем так, что ему соответствуют нормально распределенные остатки. Показано, как воспользоваться эмпирическими данными о значениях, входящих в соотношение между переменными, чтобы сделать выводы о (экономических) параметрах этого соотношения. Полученную таким образом информацию можно использовать по-разному. Например, для формулировки вероятностных утверждений об экономических параметрах или для предсказания будущих значений экономических переменных. В гл. 8 методы гл. 7 распространяются на более сложные виды соотношений, среди которых и случай многих переменных, и нелинейные связи между переменными. Однако рассматриваются только модели, состоящие из одного уравнения. Обсуждаются различные профессиональные приемы, применяемые в эконометрии (область статистикиг изучающая экономические соотношения) в типичных ситуациях, возникающих при анализе эмпирических данных. В гл. 9 дан краткий обзор результатов, поученных для моделей, состоящих из одновременных уравнений. В конце книги приведены приложения: перечень важнейших понятий и необходимый общематематический инструментарий, краткие доказательства ряда утверждений из гл. 7 и 8, опущенные в основном тексте, описания компьютерных программ, предназначенных для реализации байесовских процедур, а также необходимые таблицы статистических распределений. Наконец, приводится небольшой перечень книг, рекомендуемых тем, кто захочет расширить свои знания о предмете. Я надеясь, что у многих такое желание появится. Каждая глава содержит примеры и заканчивается упражнениями. Завершая изучение очередной главы, читателю следует выполнить все упражнения. Это не только позволит закрепить ее содержание, но дополнит его, поскольку некоторые опущенные по ходу изложения детали перенесены в упражнения. Вместе с тем некоторые упражнения в идейном плане повторяют одно другое, поэтому если вы недостаточно подготовлены, чтобы самостоятельно проводить сложные выкладки, то опустите упражнения (или отдельные задания), отмеченные звездочкой; все остальные упражнения не потребуют трудоемких формальных преобразований. Отметим еще раз, что книга посвящена байесовскому подходу в ста-, тистике, который принципиально отличается от классического подхода (ср., например, с [3]). Именно потому, что в основу данного курса положена байесовская трактовка вероятности, можно надеяться, что материал будет восприниматься легче, а содержание окажется интуитивно более доступным, чем при его «классическом изложении». Тем не ме- 15
нее, поскольку до настоящего времени преобладает классический подход, в гл. 5, 6 и 7 приводятся сопоставления содержащихся в них результатов с соответствующими классическими аналогами. Это необходимо для того, чтобы читатель мог адекватно воспринимать результаты статистического анализа, выполненного в классической манере, и представлять собственные выцоды (полученные, конечно, в рамках байесовского подхода) в виде, доступном для большинства потребителей статистической информации. Из дальнейшего изложения ясно, что классический подход можно интерпретировать как частный случай байесовского подхода; это еще одно преимущество байесовского подхода, который к тому же оказывается существенно более общим по сравнению с классическим. Поэтому читателю не следует опасаться, что он окажется в менее выгодном положении по сравнению с теми, кто изучает статистику по классическому курсу. Наоборот, к концу обучения он должен знать больше, понимать это лучше и сверх того, я надеюсь, получить большее удовлетворение от самого процесса овладения значениями.
ГЛАВА 2 ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ 2.1. ВВЕДЕНИЕ Понятие вероятности играет ключевую роль в статистике. Статистические утверждения об экономических параметрах и экономических гипотезах формулируются в вероятностных терминах. Например, анализ данных о доходе и потреблении проливает свет на значение предельной склонности к потреблению и позволяет сделать вывод в следующей форме: «имеющиеся наблюдения свидетельствуют, что с вероятностью 0,95 значение предельной склонности к потреблению лежит между 0,59 и 0,63»; «вероятность того, что значение предельной склонности к потреблению находится между 0 и 1, равна 0,9995, что вполне соответствует требованиям теории». В этой главе вводятся основные идеи и понятия теории вероятностей, а начинается она с краткого обсуждения самого понятия вероятность. В разделах 2.2 и 2.3 рассматриваются различные способы описания и обобщения вероятностных утверждений. В разделе 2.4 приводится описание нескольких специально отобранных распределений. В разделе 2.5 показано, как основные законы, которым подчиняются вероятности, позволяют выводить следствия из некоторых исходных вероятностных утверждений. Раздел 2.6 содержит краткое резюме настоящей главы, а раздел 2.7 — упражнения к ней. Центральной для данной книги является идея субъективной вероятности, состоящая втом, что вероятностные утверждения трактуют как субъективные ожидания. Так, например, я могу выразить свою точку зрения на исход предстоящих парламентских выборов, сказав: «Я полагаю, что имеется 50 шансов «за» и 50 шансов «против» того, что консервативная партия сформирует очередное правительство». Аналогично вы можете выразить свой взгляд на возможный исход следующего мирового чемпионата по футболу, сказав: «Я думаю, английская команда имеет 1 шанс из 10 стать победительницей». То обстоятельство, что эти вероятности субъективны, конечно, не должно препятствовать согласию между отдельными индивидами по поводу какого-либо конкретного обстоятельства или явления. Например, мы оба можем согла- 17
ситься с тем, что «при подбрасывании монеты имеется 50 шансов из ста появления герба». Вообще можно ожидать, что формируемые людьми вероятностные оценки зависят как от количества имеющейся в их распоряжении информации, так и от способа (или процесса) ее использования. Таким образом, можно ожидать большего согласия между людьми, обладающими большей долей общей для них информации. Пусть теперь ряд индивидов, каждый из которых является «рациональным человеком» (этот термин мы разъясним позже), сталкивается с одним и тем же большим количеством информации. Тогда их оценки после получения этой информации будут обнаруживать тенденцию к сближению независимо от того, какими были субъективные априорные ожидания каждого из них. Индивидуальные вероятностные оценки некоторой неопределенной переменной или события зависят от аккумулированной индивидом информации об этой переменной или об этом событии. Правомерно ожидать изменения таких оценок по мере получения новой информации. Мы отложим до гл. 4 обсуждение того, как эта новая информация объединяется с априорными вероятностными оценками; там же будет рассмотрено понятие начальной, или «априорной», вероятностной оценки. В этой главе мы займемся гораздо более простой задачей и выясним, как некоторая данная вероятностная оценка, существующая в фиксированный момент времени, может быть описана и обобщена. Укажем на важное различие между понятиями «переменные» и «события». Занятия economics*, как правило, предопределяют интерес к переменным, которые предполагаются квантифицированными; в частности, это могут быть доходы, цены, инвестиции. Однако в ряде случаев, в особенности, когда того требует более ясное описание ситуации, приходится обращаться к событиям. Например, «монета выпала гербом», «англичане победили на мировом чемпионате по футболу», «консервативная партия формирует очередное правительство». (На практике различие становится менее явным, если удается «квантифи- цировать» множество событий или описать переменную в терминах событий.) Разделы 2.2—2.4 посвящены рассмотрению переменных, а раздел 2.5 — событий, кроме того, в разделах 2.2—2.4 мы ограничимся простейшим случаем одной переменной, т. е. ситуацией, в которой нас интересует лишь одна переменная величина, изменяющаяся во времени. Общий случай многих переменных будет проанализирован в гл. 3. * Термин economics объединяет определенный круг экономических теорий, в которых выводы об экономической реальности делают на основе изучения формальных соотношений между различными количественными характеристиками. — Примеч. пер. 18
2.2. РАСПРЕДЕЛЕНИЕ, ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ И ФУНКЦИЯ ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Предположим, что перед нами стоит задача описания и обобщения некоторой вероятностной оценки, соответствующей одной случайной переменной. Обозначим эту переменную X. Договоримся теперь о важных для дальнейшего изложения обозначениях и будем пользоваться прописными буквами для обозначения самой переменной величины, а соответствующими строчными буквами для обозначения принимаемых ею значений. Например, если нас интересует предельная склонность к сбережению, то эту переменную величину можно обозначить через Ху а х будет одно из ее конкретных значений, скажем 0,59 или 0,63. Если же речь идет о личном недельном доходе (в фунтах стерлингов), то через X можно обозначить этот доход, а х будет использоваться для обозначения конкретного значения дохода, допустим 120 или 150. Вероятностное утверждение будет сокращенно записываться в виде Р( ), где в скобках должно заключаться некоторое утверждение относительно переменной величины. Так, например, Р( 0,59^ Х< 0,63)= 0,9 есть сокращенная запись того, что «с вероятностью 0,9 значения переменной X лежат на отрезке с концами 0,59 и 0,63» (здесь это утверждение рассматривается, конечно, как субъективная оценка того, кто его сформулировал). Аналогично запись ЯA20< X) ss 0,5 можно расшифровать следующим образом: «имеется 50 шансов из 100, что значения переменной X не меньше 120». В более общем случае выражение Р (хх <; X < х2) в а означает, что «с вероятностью а значения переменной X лежат между хх и jc2». Конечно, параметр а, в силу его смысла, заключен между 0 и 1, т. е. 0< а< 1. Введем теперь понятие функции распределения вероятностей, с помощью которого можно реализовать один из способов описания индивидуальных вероятностных оценок относительно некоторой переменной X. Функция распределения вероятностей переменной X (или просто функция распределения переменной X) обозначается /**(•) и определяется тождеством Fx (х) - Р (X < х). B.1) Таким образом, Fx (x) выражает вероятность того, что значение переменной X не превосходит х. Обычно, когда не возникает неясности, индекс X опускают и вместо Fx (•) пользуются упрощенной записью F (•). Функция FK (•) определена для всех значений х между — с» и 19
+ оо; она принимает значения от 0 до 1 включительно. Более того, следующие свойства функции Fx (•) имеют место независимо от того, о какой переменной X идет речь: б) F* ( + «>) = 1, в) Fx (x)— неубывающая функция х. <2-2) (Мы довольствуемся замечанием о том, что следующие утверждения не вызывают возражений: а) вероятность того, что переменная X принимает значение, не превосходящее — оо, равна нулю; б) вероятность того, что переменная X принимает значение, не превосходящее + оо, равна единице; в) когда значение х увеличилось, вероятность того, что переменная X не превосходит значения х> не может уменьшиться.) Все эти свойства сразу же вытекают из того, что Fx (x) служит мерой вероятности, «накопленной» на всем интервале от — оо до х включительно, т. е. кумулятивной вероятности. Приведем три простых примера, иллюстрирующих понятие функции распределения вероятностей. В первом примере переменная X — число, изображенное на выпавшей грани игральной кости. Возможные значения х — числа 1, 2, 3, 4, 5 и 6. Вообще говоря, вероятностные оценки относительно каждого из этих значений переменной X могут варьироваться от индивида к индивиду. Предположим, однако, что мы имеем дело со случаем, когда некто долгое время наблюдал бросание этой кости и пришел к выводу, что все ее шесть граней совершенно одинаковы. Эту индивидуальную оценку можно выразить так: р^.^М/б. при* = 1,2,3,4,5,6; B.3) | 0, при остальных х. Определим теперь Fx (x) для всех возможных значений х. Очевидно, что Fx (x) ^Одля всех x<Z 1, поскольку переменная X не может принять значение, меньшее 1. К тому же Fx A) ---- 1/6, ибо вероятность того, что переменная X примет значение, не превосходящее 1, в точности совпадает с вероятностью того, что эта переменная будет равна 1; Fx (х) -~ -g- для ху удовлетворяющих ограничениям 1 ^ х <С 2, так как между 1 и 2, если не включать концы этого промежутка, нет ни одного значения, которое может принять переменная X. (Например, Fx(l,8) Р(Х < 1,8) -Р{Х 1)- 1). Далее, Fx B) = |. Это вытекает из того, что вероятность для переменной X оказаться меньшей или равной 2 в точности равна вероятности для этой перемен- 9 ной принять одно из двух значений: 1 или 2, т. е. равна ~. Для всех 2 ху удовлетворяющих ограничениям 2 ^ х < 3, также Fx (x) ¦=- -~-> 20
1. ибо между 2 и 3 (исключая концы интервала) нет чисел, которые могут стать значениями переменной X. Продолжая рассуждать таким образом, мы получим следующее (несколько громоздкое, но исключающее любые недоразумения) выражение для Fx(-)' О, 1/6, 2/6, 3/6, 4/6, 5/6, 1 2 3 4 5 х х ¦ х : X ¦ '. х ¦ 2, 3, 4, 5, 6, B.4) Изображенный на рис 2.1 график проясняет ситуацию. (Правда, пурист заметит, что при построении графика была, видимо, допущена небрежность, состоящая в соединении вертикальными отрезками последовательных горизонтальных ступеней, из-за чего так и не удается установить точное значение функции для соответствующих целых точек оси абсцисс.) 1 - Рис. 2.1. Функция распределения для чисел, выпадающих при бросании кости Построенный нами график функции распределения напоминает лестницу. Функцию, которой он соответствует, называют ступенчатой функцией. Вертикальные отрезки графика в точности отвечают целым числам 1, 2, 3, 4, 5 и 6 — значениям переменной X; в то же время всем остальным точкам оси абсцисс не отвечают значения переменной Ху и над ними располагаются горизонтальные отрезки графика. Кроме того, высота «скачка» в каждой из первых шести натуральных точек равна -^—вероятности, с которой переменная X принимает соответст- 21
вующее значение. Это очень важное общее свойство и к нему мы неоднократно будем обращаться в этой главе. Рассмотрим теперь второй пример, в котором переменная величина X имеет совершенно иную природу. Представим себе горизонтально расположенный диск, в центре его укреплена короткая вертикальная ось и на ней свободно вращается стрелка. Предположим, что диск по окружности равномерно и непрерывно калиброван от 0 до 1 (рис. 2.2, а). Определим теперь переменную X как принимающую значения, на которые указывает стрелка в момент ее останова после вращения. Как и прежде, вероятностные оценки по поводу ожидаемого значения пере- 0,75 0,25 Рис. 2.2. Эксперимент со стрелкой: а) замечание: окружность непрерывно калибрована от 0 до 1, б) функция распределения вероятностей переменной .V менной X могут изменяться от индивида к индивиду (в зависимости от аккумулированной каждым из них информации об эксперименте), но мы вновь будем рассматривать оценки индивида, считающего стрелку несмещенной и потому с одинаковым успехом ожидающего ее останова в любом возможном положении. В этом случае легко вывести вид функции распределения вероятностей. Так, Fx @,5) -= 0,5, поскольку имеется 1 шанс из 2, что стрелка остановится в правом полукруге; аналогично Fx @,25) =• 0,25, ибо есть лишь 1 шанс из 4, что стрелка остановится в первой четверти; аналогично/^ @,75) = 0,75. Здесь обнаруживается закономерность, которую можно описать следующим образом: Fx при 0 1. {Если такое описание представляется вам недостаточно обоснованным, рассмотрите еще несколько примеров.) Завершая описание Fx (•)» заметим, что X не принимает значений, меньших 0, т. е. Fx (х)=* 0 при х < 0, и X не может стать больше 1, т. е. Fx (х) — 1 для х > 1. (Последнее справедиво, так как для любого х > 1 значения X всегда бу- 22
дут меньше х). Объединяя все выводы относительно Fx (x), мы можем записать О, х < О, Fx(x) = х, (рис. 2.2, б). Сравнивая функции распределения из двух рассмотренных примеров, мы обнаружим одно их существенное сходство: графики обеих функций имеют горизонтальные линии. Эти линии указывают на значения х, которые переменная X не принимает (в первом случае это все числа, кроме целых от 1 до 6, во втором— все числа вне отрезка [0;1]). Мы можем также отметить и существенное различие между этими двумя функциями: горизонтальные линии графика первой функции соединяются вертикальными отрезками, т. е. функция совершает в каждой из шести точек скачок, а горизонтальные части графика второй функции соединяются отрезком наклонной прямой, что свидетельствует о непрерывном возрастании функции распределения. Отмеченное различие отражает неодинаковую природу исходных переменных величин: в первом примере переменная X дискретная, а во втором - - непрерывная. (Во втором примере переменная X принимает все значения от 0 до 1, как бы пробегая их непрерывно, в то время как в первом примере значениями X являются только некоторые дискретные точки. Если у вас остались неясности по поводу различий между дискретными и непрерывными переменными, вам придется обратиться к курсу математики, содержащему более подробное изложение соответствующих проблем.) Как мы видели, трактовка основных понятий в дискретном и непрерывном случаях различна. Заметим, что в каждом из двух рассмотренных примеров существует некоторое множество возможных значений переменной X и имеет место неопределенность относительно того, какое конкретное значение переменной можно будет наблюдать в данном частном случае (в результате бросания кости или вращения стрелки). В нашей книге речь идет главным образом о проблемах, постановка которых непременно связана с существованием неопределенности. Когда неопределенность отсутствует, то язык теории вероятностей не нужен. Вместе с тем определен- ность, или детерминированность, есть специальный случай неопределенности, и потому соответствующие методы могут быть применены и в этом вырожденном случае. Рассмотрим переменную X, определенную как мой возраст на 26 сентября 1984 г. При отсутствии какой-либо информации обо мне ваша оценка X окажется неопределенной. (Как будет выглядеть ваша функция распределения?) Если же я скажу вам, что родился во время второй мировой войны, то это значительно сузит рамки неопределенности. (Какой станет ваша функция распределения теперь?) Если же я сообщу вам, что родился 26 сентября 1944 г., то всякая неопределен- 23
ность исчезнет: мы окажемся перед фактом, что X = 40. Ваша функция распределения (в данном случае у каждого она окажется одной и той же) будет иметь вид, как на рис. 2.3, а, с единственным скачком от 0 до 1 в точке х = 40. Когда я прошу кого-то из своих студентов оценить мой возраст (значение переменной X в данном примере), типичный ответ до того, как я поделюсь с ними какой-либо информацией, таков: «Думаю, вы старше 36 лет, но вам не больше 42; в этом промежутке все значения кажутся мне одинаково возможными». Этой оценке соответствует функция распределения, изображенная на рис. 2.3, б. 40 36 42 а.) Рис. 2.3. Две функции распределения возраста автора: а) вырожденная (неопределенность отсутствует); б) невырожденная (неопределенность имеет место) Функция распределения дает нам один из возможных способов представления вероятностных оценок значений некоторой переменной. Эта функция удобна тем, что ею можно пользоваться как в случае дискретных, так и в случае непрерывных переменных. Существует, однако, иное представление вероятностных оценок, интуитивно более оправданное и геометрически лучше интерпретируемое. Некоторое неудобство, правда, связано с тем, что формы этого представления различны для дискретного и непрерывного случаев. Начнем с первой, дискретной, формы. Как уже отмечалось, отличительным свойством функции распределения дискретной переменной является наличие последовательности горизонтальных линий на ее графике, соединенных между собой вертикальными отрезками (скачками, ступенями) Эти скачки соответствуют тем дискретным значениям, которые переменная принимает, а величина скачка в каждой точке равна вероятности, с какой переменная принимает соответствующее значение. Это было ясно еще из рис. 2.1. Чтобы описать скачок формально, предположим, что он происходит в точке X = х\ в основании ступени значение функции распределения равно Р (X < х), а на вершине ступени оно равно Р (X ^ х)\ раз- 24
ность между этими значениями есть Р (X ^ х) — Р (X < х)> т. е. р(Х = х). Теперь мы можем определить новую функцию, обозначаемую fx (•), следующим образом: (О для всех точек, где график Fx (x) fx кх) — \ [ величине скачка, если имеет место скачо Следовательно, fx(x) = P(X = x) для всех х, B.7) что объясняет, почему fx (•) называют функцией вероятностей переменной X. Для первого из наших примеров график функции вероятностей переменной X изображен на рис. 2.4, а. Еще один пример до- горизонтален, B.6) 'хМ /х(х) •Л'- 0 1 2 3 4 5 6 х г б) 1 2 8) Рис. 2.4. Введение функции вероятностей: а) X — число на выпавшей грани игральной кости; б) — в) X — число выпадений герба при двукратном бросании монеты ставляет нам функция вероятностей переменной X, определенная как число благоприятных исходов при двух бросаниях «правильной» монеты (рис. 2.4, б). На рис. 2.4, в изображена соответствующая функция распределения. Следует отметить, что функция вероятностей равна нулю всюду, за исключением тех дискретных значений, которые может принимать переменная (целые числа от 1 до 6 — в первом примере, числа 0,1, 2 — во втором). Если мы попытаемся распространить данное только что определение на случай непрерывной переменной, то столкнемся с серьезными трудностями. Начнем хотя бы с отсутствия скачков у функции распределения непрерывной переменной (см. рис. 2. 2, б и 2.3,6), в силу чего определение B.6) применить непросто. Следует ли стремиться к сохранению свойства B.7)? Обратимся к нашему второму примеру (см. рис. 2.2). Что такое, например, Р (X = 0,1)? Нуль\ (В самом деле, ^@,1<Х< 0,9) = 0,8; Р@,1 < X ^ 0,5) - 0,4; вообще, Р @,1 < X ^ 0,1 + а) = а. Таким образом, положив а = 0, мы получим Р @,1 < Х< 0,1) - 0, т. е. Р (X = 0,1) - 0). Повторим те же рассуждения и покажем, что Р (X = х) = 0 для всех х\ (Это вытекает из общего результата, в силу которого 25
Р (х ^ X <; х + а) = а.) Итак, если мы определим функцию вероятностей по аналогии с B.7), то придется согласиться с тем, что она равна нулю при всех х (т. е. у функции распределения нет скачков). Подобная функция вероятностей вряд ли окажется полезной и ничего не сообщит нам о вероятностных оценках во втором примере. Проблема в том, что во втором примере переменная X является непрерывной. Когда х пробегает значения от 0 до 1, вероятности накапливаются непрерывно; таких крупных «вкладов» в общую сумму, как могла внести точка в случае дискретной переменной, здесь не будет. В непрерывном случае нельзя, указав точку х> спросить, какова вероятность того, что именно она окажется интересующим нас частным значением. Оправданным будет вопрос о скорости аккумуляции вероятностей для каждого значения х. (Здесь может быть полезна аналогия: в какой бы точке ни находился движущийся автомобиль, неправомерно спрашивать, как далеко он уехал в данный момент; правильнее задать вопрос о скорости, с которой автомобиль в данный момент движется.) Скорость, с которой аккумулируется вероятность, задает тангенс угла наклона графика функции распределения к оси абсцисс: чем круче его наклон, тем быстрее идет накопление вероятностей в функции распределения. Теперь мы можем определить новую функцию, которую будем обозначать fx (•)•' fx (x) = Fx (x) se dFx (x)/dx B.8) (=s= тангенсу угла наклона касательной Fx (х) к оси я). Чтобы мы могли пользоваться этими функциями, нам необходимы некоторые элементарные сведения операционального характера. Читатель, не обладающий этими знаниями, может обратиться к приложению или принять соответствующие результаты на веру (по сути, они не столь существенны для понимания дальнейшего). Тот, кто свободно владеет этим аппаратом, легко воспримет следующее определение: h (х) - lim Г Р(Х<х+*х)-Р(Х<х) 11 B 9) которое является следствием B.8) и B.1). Числитель выражения в квадратных скобках есть вероятность того, что X лежит в интервале [х, х + + Дл:], а знаменатель — длина этого интервала — есть плотность распределения вероятностей на интервале [х> х+Ах]. Таким образом, fx (х) — мера плотности вероятностей в точке х. Функцию fx (•) называют функцией плотности вероятностей переменной X или просто функцией плотности вероятностей. (Мы будем пользоваться одной и той же буквой для обозначения функции вероятностей в дискретном случае и функции плотности вероятностей в непрерывном случае, не опасаясь недоразумений, поскольку из контекста всегда ясно, о чем идет речь.) Чтобы получить функцию плотности вероятностей непрерывной переменной из функции распределения вероятностей, нужно последнюю просто продифференцировать (см. B.8)). Так, функция плотности 26
вероятностей для второго из рассмотренных выше примеров (эксперимент со стрелкой, см. рис. 2.2) задается (в силу B.5)) соотношением 0, для остальных х (рис. 2.5, а). Как мы видим, функция плотности вероятностей принимает одно и то же значение в каждой точке отрезка [0,1]; так как одинаково правдоподобен останов стрелки в любой точке данного интервала. 0,5 0,75 1 <L) б) Рис. 2.5. Функция плотности вероятностей для эксперимента со стрелкой. (Площадь заштрихованная на рис. 2.5,6 равна 0,25=Р @,5<Х<0,75).) Поскольку действия дифференцирования и интегрирования взаимно обратны, г fx (-) является производной от Fx (•)> т0 функция Fx (•) в свою очередь должна получаться из /*(•) интегрированием. Если быть абсолютно точным, то можно записать: fx(t)dt. B.11) t= — оо Геометрически такая запись попросту означает, что Fx (x) — площадь под той частью кривой fx (•)> которая расположена левее х. Из B.11) немедленно вытекает, что Fx(x2)-Fx(xt) = f fx(t)dt. B.12) Левая часть B.12) есть не что иное, как разность Р (X < х2) — — Р (X < хх)у т. е. Р (*! < X < х2); таким образом, B.12) можно записать в виде L = [ fx(t)dt. B.13) 27
Геометрический смысл этого выражения весьма прост: вероятность того, что переменная X лежит между хг и х2, задается площадью трапеции, которая образуется под частью кривой функции плотности вероятностей, ограниченной значениями хх и х2. Итак (и это очень важное свойство), площади под кривой функции плотности вероятностей сами являются вероятностями. Отсюда сразу же следует, что общая площадь между графиком функции плотности вероятностей и осью ОХ равна единице^ поскольку во всех случаях общая вероятность равна единице. Чтобы проиллюстрировать этот важный результат, вновь обратимся к рис. 2.5, где изображена функция плотности вероятностей переменной X из эксперимента со стрелкой. Очевидно, что общая площадь под кривой fx(-) равна 1. Более того, площади сами являются вероятностями, что видно на примере рис. 2.5, б: заштрихованная площадь равна 0,25 (прямоугольник высотой 1 и шириной 0,25) и этому же равна вероятность того, что переменная X лежит между 0,5 и 0,75 (другими словами, что стрелка остановится в юго-западном секторе круга). Убедиться в том же, рассматривая другие площади, вы сможете самостоятельно. Возвращаясь к общему случаю, заметим, что для непрерывной переменной различие, скажем, между Р (X ^ х) и Р (X <С х) несущественно, поскольку Р (X = х), как мы уже видели, равна нулю. Если же такого объяснения вам недостаточно, то обдумайте следующий эвристический аргумент: «Поскольку между 0 и 1 имеется бесконечно много равновероятных значений переменной X, то вероятность того, что эта переменная в точности равна одному из них, будет 1/оо, т. е. нуль». Как уже отмечалось, недостаток знаний о вычислительных процедурах не помешает пониманию материала, содержащегося в данном разделе; что действительно необходимо знать, так это связь между функцией плотности вероятностей /х(-) и функцией распределения Fx(-)> первая из которых характеризует тангенс угла наклона (к оси абсцисс) касательной, проведенной к графику второй в точке х, а вторая — площадь части плоскости между графиком первой и осью абсцисс до вертикальной прямой, соответствующей значению х. Пояснить эту взаимосвязь можно с помощью аналогии между предельными и совокупными затратами или предельным и совокупным доходом. (Кривая предельных затрат также характеризует «наклон» кривой 'общих затрат, в то время как вторая характеризует площадь части плоскости между первой кривой и осью абсцисс.) Если угодно, можно представлять себе Fx (x) как суммарную (общую) вероятность появления значений вплоть до х, a fx (x) — как предельную (маргинальную) вероятность значения х. Последний из рассмотренных в этом разделе примеров посвящен случаю непрерывной переменной. Обратимся вновь к эксперименту со стрелкой (см. рис. 2.2, а), но предположим теперь, что выбрана новая 28
система измерений; северо-восточному сектору окружности соответствуют значения от 0 до 2, изменяющиеся непрерывно и равномерно, южной полуокружности — значения от 2 до 3, тоже непрерывно и равномерно меняющиеся, и, наконец, северо-западному сектору — значения от 3 до 5 (рис. 2. 6, а). Пусть переменная X определена как прежде, и мы предположим, что стрелка является «правильной», т. е. одинаково правдоподобно, что она остановится в любом из возможных положений. Прежде всего, построим функцию распределения; это можно осуществить, вычисляя ее значения для специфических значений переменной, "включая точки на границах и внутри соответствующих про- Рис. 2.6. Модифицированный эксперимент со стрелкой: а) описание эксперимента; б) функция распределения; в) функция плотности вероятностей межутков, либо на основе некоторых более общих соображений. (Можно найти значение функции распределения для специфических значений аргумента: Fx A) - 0,125; Fx B) = 0,25; Fx B,25) - = 0,375; Fx B,5) = 0,5; Fx B,75) = 0,625; Fx C) - 0,75; Fx D) -0,875; Fx E) = 1.) Зная функцию распределения, нетрудно получить функцию плотности вероятностей путем дифференцирования. График первой из этих функций, изображенный на рис. 2.6, б, позволяет установить, что /\х(«) имеет тангенс угла наклона к оси абсцисс, равный -g- на промежутке от 0 до 2; равный у на промежутке от 2 до 3; равный -g- на промежутке от 3 до 5 и равный 0 во всех остальных точках. Таким образом, fx (•) принимает значение -g- на промежутке от 0 до 2; значение -j на промежутке от 2 до 3; значение -g- на промежутке от 3 до 5 и значение 0 в остальных точках (рис. 2.6, в). Из рис. 2.6, в видно, что общая площадь между графиком функции /х (•) и осью абсцисс равна 1, что непременно должно иметь место, если функция /*(•) построена правильно. (Это полезный и достаточно надежный способ проверки, которым сле^ 29
дует пользоваться для самоконтроля.) Можно проверить, что площади трапеций под графиком функции fx (•) совпадают с соответствующими величинами вероятностей. Например, площадь между графиком функции fx (•) и осью абсцисс, ограниченная значениями переменной 1 и 2, равна -g-, т. е. вероятности, что стрелка остановится в одной из точек этой дуги. В данном разделе были введены три важные функции, с помощью которых можно описать вероятностные утверждения в случае одной переменной. Первая — функция распределения, применимая как для дискретных, так и для непрерывных переменных и позволяющая измерить кумулятивную вероятность. Вторая — функция вероятностей; она предназначена только для описания случая дискретной переменной и измеряет вероятность появления каждого из ее значений. Третья — функция плотности распределения вероятностей; она определена лишь для непрерывной переменной и служит мерой маргинальной (предельной) вероятности. 2.3. ОБОБЩАЮЩИЕ ХАРАКТЕРИСТИКИ Из определения функции распределения вероятностей (равным образом это относится и к функции вероятностей, и к функции плотности вероятностей) следует, что она содержит всю информацию об индивидуальной вероятностной оценке в случае одной переменной, т. е. является полной характеристикой. Эта полнота может в одних ситуациях оказаться удобной, а в других, когда возникают трудности с сопоставлением различных элементов, она становится препятствием для применения таких обобщающих функций. Наконец, не всегда подобная полнота необходима, поскольку лишь некоторые свойства оценок, построенных с помощью рассматриваемых функций, могут оказаться полезными при решении конкретной проблемы. Нас будет в дальнейшем интересовать случай, когда обобщение ключевых свойств вероятностной оценки оправдано, и целесообразно использование полученных функций в качестве полных характеристик. В данном разделе речь идет о таких обобщающих характеристиках, причем содержание раздела не всегда жестко связано с последующим изложением. Обобщающие характеристики, рассматриваемые в данном разделе, можно разбить на две основные группы: вероятностные интервалы (наименьшей длины) и более распространенные измерители центральной тенденции и разброса. Начнем с первой из этих двух групп. Часто бывает полезным знать промежуток фиксированной длины» в который (в соответствии с индивидуальной точкой зрения) переменная попадает с наибольшей вероятностью, или же минимальный промежуток, в который эта же переменная попадает с фиксированной вероятностью. В частности, нас будет интересовать информация, содержащаяся в индивидуальных оценках типа: «переменная X почти навер- 30
няка (это значит, что с вероятностью 0,95) лежит между 120 и 132». Для достижения указанных целей введем понятие а-процентного вероятностного интервала: в общем случае это некоторый промежуток [Хи х2\ ДЛЯ которого Р (х1^.Х ^ х2) = -^-, т. е. имеется а процентов шансов, что переменная X лежит в этом промежутке. Рассмотрим эксперимент со стрелкой (см. рис. 2.2, а), а вероятностную оценку, содержащуюся в функции распределения, возьмем из рис. 2.2, б. Легко заключить, например, что 80-процентным вероятностным интервалом будет промежуток [0,1; 0,9]; 90-процентным—промежуток [0,05; 0,95], а 100-процентным вероятностным интервалом окажется проме- -1 0 1 Рис. 2.7. Треугольная функция плотности вероятностей жуток [0; 1]. Однако не случайно речь шла о некотором вероятностном интервале, а не о конкретном, ибо существует много вероятностных интервалов, соответствующих одному процентному уровню. Чтобы ограничить число возможных вариантов, можно рассматривать симметричные вероятностные интервалы, как это было сделано в приведенных только что примерах. В более общем случае (в нашем примере это уже не приведет к уменьшению числа возможных интервалов) можно рассматривать а-процентный вероятностный интервал наименьшей длины, который формально определяется так: а-процентный вероятностный интервал наименьшей длины для переменной X есть промежуток [х19 х2], такой, что а Р (хг ^ X ^ х2) = ~, и при этом величина х2 — хх является наименьшей.из возможных. Проиллюстрируем это определение на примере функции плотности вероятностей, график которой изображен на рис. 2.7. Для данного случая 95-процентный вероятностный интервал наименьшей длины будет задан промежутком с концами —0,7764 и + 0,7764 (точнее, от —1 +V0,05 до 1—V0,05). Вы можете проверить этот результат, равно 31 B.14)
как и то, что еще один 95-процентный вероятностный интервал будет задан конечными точками — 1 и +0,6838 (точнее, от —1 до 1 — УоЛ"). Заметим, что этот второй промежуток имеет большую длину (она равна 1,6838) в сравнении с первым, длина которого (она равна 1,5528) является наименьшей. Обратим внимание и на то, что в нашем конкретном примере интервал наименьшей длины симметричен относительно нуля. Это отражает то обстоятельство, что функция плотности вероятностей также симметрична относительно нуля. Полученный результат может быть сформулирован и доказан в более общем виде: любой вероятностный интервал наименьшей длины для симметричной функции плотности вероятностей, имеющей единственную «вершину», имеет ту же ось симметрии. Это утверждение формулируется для непрерывной переменной следующим образом. Пусть Р (*i < X < Х%) = а/100. Промежуток [хг\ х2] будет а-процентным вероятностным интервалом наименьшей длины для переменной X тогда и только тогда, когда fx (#i) = fx (x2). Доказательство мы оставляем читателю в качестве упражнения. В дальнейшем будут рассматриваться только вероятностные интервалы наименьшей длины и поэтому соответствующее уточнение будет опускаться. Для непрерывной переменной всегда существует интересующий нас а-процентный вероятностный интервал. Однако для дискретных переменных его не всегда можно указать, поскольку неизбежно скопление значительных «масс» вероятности в дискретных точках. Рассмотрим в качестве иллюстрации пример с бросанием игральной кости, для которого функция распределения вероятностей изображена на рис. 2.1, а функция вероятностей— на рис. 2.4, а. Мы видим, что промежуток [3; 4] является 33 -^-процентным вероятностным интервалом, промежуток о [2; 5] — 66 ^--процентным вероятностным интервалом, а [1; 6] — 100- процентным вероятностным интервалом. Однако невозможно обнаружить, например, 90-процентный или 80-процентный вероятностные интервалы. Проблема возникает, конечно, из-за того, что вероятности сосредоточены в шести точках, по — в каждой. Вместе с тем из-за этого вряд ли возникнут серьезные трудности при решении практических задач. Обратимся теперь ко второй группе обобщающих характеристик, куда входят более употребительные измерители центральной тенденции и измерители разброса. Начнем с первых. Идея измерения центральной тенденции непосредственно отражается в таких понятиях, как «типичное», «среднее» или «представительное» значение переменной. Существуют различные способы для выражения этих понятий и все зависит от того, как их интерпретировать и какой смысл в них вкладывать. 32
Рассмотрим несколько наиболее распространенных способов измерения. Одной из естественных характеристик служит значение переменной X, которое является наиболее правдоподобным (в соответствии с индивидуальными вероятностными оценками). Это значение X, если оно единственно, называют модальным значением переменной X, или просто модой X. Формально понятие моды можно определить как для дискретного, так и для непрерывного случаев следующим образом: Мл —мода X, если fx (Мх) ^ fx (х) для всех х. B.15) Итак, для дискретной переменной мода — такое значение переменной, которому соответствует наибольшая вероятность, а для непрерывной переменной это значение переменной, которому соответствует наибольшее значение плотности вероятностей. В двух из рассмотренных в этой главе примеров мода единственна: на графике, изображенном на рис. 2.4, б (функция вероятностей числа выпавших гербов при двукратном бросании монеты), мода равна 1; на графике, изображенном на рис. 2.7, мода равна 0. В остальных примерах модальное значение не было единственным: из рис. 2.4, а следует, что все значения переменной одинаково правдоподобны и потому каждое из них является модальным; то же самое можно сказать по поводу ситуации, соответствующей рис. 2.5; на графике, изображенном на рис. 2.6, в, можно указать отрезок модальных значений [2; 3]. Другой «представительной» характеристикой распределения служит значение переменной X, находящееся как бы в середине в том смысле, что большие его значения столь же правдоподобны для X, как и меньшие. Это значение X, если оно существует и единственно, называется медианным значением переменной X, или медианой X. Для непрерывной переменной медиану можно просто определить следующим образом: тх — медиана X, если Fx (пгх) =¦ 0,5. B.16) Итак, Р (X ^ тх) Р (X ^пгх) — 0,5. Другими словами, имеется 50 на 50 шансов, что значение X окажется больше или меньше медианы. На графике, изображенном на рис. 2.5, а, медиана равна 0,5; на графике рис. 2.6, в она равна 2,5; на графике рис. 2.7 она равна 0. Для дискретных переменных определение B.16) не обязательно ведет к получению единственного значения тх: например, как видно из рис. 2.1, уравнению Fx (x) - 0,5 удовлетворяют все значения х такие, что 3 ^ х ^4. В этом случае можно либо договориться, что все значения между 3 и 4 являются медианными, либо считать медианой значение 3,5. В других случаях определение BЛ6) удается применить непосредственно. Например, в ситуации, соответствующей рис. 2.4, медиана, очевидно, равна 1. Третьей характеристикой и последней из тех, которые мы рассматриваем в качестве «претендентов» на «представительное» отражение всех значений переменной X, является обычная арифметическая средняя величина. Для дискретных переменных это просто взвешенная средняя всех возможных значений переменной X, где весами служат со- 2 Зак. 2161 33
ответствующие вероятности. Формально это определение записывают так: ЕХ — арифметическая средняя Х\ EX = Hxfx{x). B.17) Здесь суммирование осуществляется по всем значениям х (можно также сказать, что по всем значениям от — с» до + оо или по всем возможным значениям, поскольку fx (х) обращается в нуль, когда переменная не принимает соответствующих значений х). Объясним теперь выбор обозначения ЕХ для арифметической средней. Воспользуемся двумя иллюстративными примерами. Первый — бросание игральной кости (см. рис. 2.4, а). Здесь X принимает значения 1, 2, 3, 4, 5 и 6, причем каждому соответствует вероятность 1/6. Пользуясь определением B.17), вычислим значение ЕХ: ЕХ=^\ х 4" + 2х -Г + 3х4- + 4х ~- + 5х —+ 6х — = 3,5. о и 6 6 6 6 Второй пример — два бросания монеты (см. рис. 2.4, б). Здесь X — число выпадений герба в двух бросаниях — может принимать значения О, 1 и 2, которым соответствуют вероятности 1/4, 1/2 и 1/4. С помощью определения B.17) получим ?Х = 0х—+ 1х—+ 2х —=1. 4 2 4 Этот последний результат можно интерпретировать так: в среднем число выпадений герба при двух бросаниях монеты равно 1. Такая интерпретация естественна. Однако на полученное в итоге значение 1 можно взглянуть с иной точки зрения — как на ожидаемое число выпадений герба в двух бросаниях монеты. Именно в силу этого рассматриваемая нами средняя величина записывается как EX: E — начальная буква английского слова Expected, и ЕХ означает ожидаемое значение X. Возвращаясь теперь к примеру с бросанием кости, отметим некоторую «экстравагантность» выражения: «ожидаемое число, изображенное на выпавшей грани, равно 3,5» — ведь грани с таким числом не существует! Предположим, однако, что вы принимаете участие в игре в которой каждый поочередно бросает кость и за каждую единицу выпавшего числа платит 1 фунт. Тогда вы можете ожидать, что один круг этой игры обойдется вам (в среднем) в 3,5 фунта. Выражение B.17) определяет ожидаемое значение для дискретной переменной; для непрерывной переменной соответствующее определение имеет вид: ЕХ — арифметическая средняя Х\ЕХ = J xfx (х) dx. B.18) Интегрирование здесь ведется по всем значениям х (безразлично, будем ли мы говорить, что оно ведется по всем значениям от — оо до + оо или утверждать, что рассматриваются все возможные значения х, так как итог будет один и тот же, ибо fx (x) обращается в нуль при всех значе- 34
ниях х, которые не относятся к возможным). Выражение B.18) означает, что ЕХ является взвешенной средней (всех!) различных значений X, причем роль весов выполняют плотности вероятности для соответствующих значений х. Читатель, достаточно искушенный в формальных преобразованиях, легко разглядит в B.18) аналог B.17). Приведем два иллюстративных примера. Первый — эксперимент со срелкой. Соответствующая функция плотности вероятностей приведена в B.10), а ее график — на рис. 2.5, а. С помощью B.18) мы обнаружим, что ЕХ= = J Таким образом, ожидаемое значение X в эксперименте со стрелкой равно 1/2, что вполне согласуется с интуитивными представлениями. Второй пример основан на функции плотности вероятностей, график которой изображен на рис. 2.7. "х+1, — l<x<0, fx(x)= l — Xj 0<jc<1, B.19) 0 при остальных х. Применяя определение B.18), вычислим значение ЕХ: + ОО 0 1 ЕХ - fx/x(x)dx = ^x(x+l)dx+ fx(l— x)dx = +4-4 '=0. Итак, ожидаемое значение (вряд ли это окажется неожиданным) равно нулю! (Прежде чем продолжить, заверим читателя, не очень искушенного в математических выкладках, что многие важные результаты можно получить, опираясь на здравый смысл, а не только путем их формального вывода. Если же некоторые из них читатель просто примет на веру, то это не помешает ему понять основные положения статистики.) Увлечение техническими деталями далеко не всегда оказывается полезным. В этом легко убедятся те читатели, которые сосредоточат внимание на поддающихся обобщению свойствах конкретного примера и благодаря этому получат некоторый весьма важный результат. Если распределение симметрично, то ожидаемое значение переменной определяет ось симметрии. Более того, если у симметричного распределения существуют единственная мода и единственная медиана, то они также совпадают с точкой, через которую проходит ось симметрии. (Распределение называют симметричным, если график функции вероятностей или график функции плотности вероятностей имеет ось симметрии.) Та- 2* 35
ким образом, для симметричного унимодального (т. е. с единственной модой) распределения все три характеристики — мода, медиана и средняя совпадают. Этот результат интуитивно совершенно ясен. Читатель может сам убедиться, что для несимметричных распределений подобное утверждение не имеет места. (Можно рассмотреть, например, переменную Ху определенную как квадрат числа выпавших гербов при двух бросаниях монеты. Значениями X будут числа 0, 1 и 4, а им соответствуют вероятности 1/4, 1/2 и 1/4; ожидаемое значение будет равно 1,5, в то время как и медиана, и мода равны 1.) Помимо сведений о «среднем» или «типичном» значении вероятностной оценки, полезно знать что-то о «разбросе», или «рассеянии», около этой величины. Как и для «средней» можно указать различные числовые меры разброса. Здесь мы рассмотрим лишь некоторые из них. В качестве одной из наиболее очевидных мер рассеяния можно указать длину некоторого а-процентного вероятностного интервала. Так, если 95- процентный вероятностный интервал переменной X имеет длину 10 единиц, а 95-процентный вероятностный интервал переменной Y равен 5 единицам-, то естественно заключить, что у переменной X разброс больше, чем у переменной Y. Конечно, при этом каждому значению а будет соответствовать своя мера разброса, и понятие дисперсии не получит тем самым однозначного числового отражения. Альтернативный подход к измерению разброса основан на измерении рассеяния по отклонению значений переменной от ее средней: если одной переменной соответствуют большие отклонения от ее средней величины, чем другой переменной, то естественно считать первую более «дисперсной» по сравнению со второй. Однако нельзя взять в качестве подобной меры просто взвешенную среднюю всех отклонений (для дискретного случая это будет 2 [(х — EX) fx (x)]), поскольку эта величина окажется тождественно равной нулю. (Чтобы выяснить, почему это так, обратитесь к выражению B.17) и воспользуйтесь равенством 2/л (х) = 1). Преодолеть возникшее препятствие можно, заменив среднюю самих отклонений на среднюю их абсолютных величин или среднюю квадратов отклонений. Последний вариант лучше, ибо полученное в итоге выражение удобнее для математических преобразований. Найденная таким образом мера разброса известна как дисперсия переменной X. Для случая дискретной переменной формальное определение выглядит так: var X — дисперися Х\ var X = 2 l(x — EXf fx (x)\. B.20) Здесь суммирование вновь ведется по всем х. К сожалению, использование квадратов отклонений приводит к тому, что размерность дисперсии оказывается вдвое большей по сравнению с размерностью Х\ так, если переменная X измеряется в дюймах, то ее вариация — — в дюймах в квадрате. Чтобы мера дисперсии обладала такой же размерностью, как исходная переменная, приходится извлечь из вариации квадратный корень; полученную в итоге величину называют стан- 36
дартным отклонением переменной X, Формально это определение записывается так: sd X — стандартное отклонение Х\ sAX = У var X. B.21) Для иллюстрации вновь обратимся к примеру с бросанием игральной кости, функция вероятностей для которого изображена на рис. 2.4. Переменная X принимает значения 1, 2, 3, 4, 5 и 6, причем каждое с вероятностью -g-. Это приводит к тому, что ожидаемое значение X равно 3,5. Поэтому отклонения от средней соответственно составят —2,5; —1,5; —0,5; 0,5; 1,5 и 2,5. (Заметим, что взвешенная средняя этих величин равна нулю, — на это указывалось выше.) Соответствующие значения квадратов отклонений таковы: 6,25; 2,25; 0,25; 0,25; 2,25 и 6,25. Применяя B.20), определим дисперсию переменной X: varX = 6,25 х — + 2,25 х — + 0,25 х — + 0,25 х — + 6 6 6 6 + 2,25 х —+6,25 х — = 2,916. 6 6 Воспользуемся формулой B.21) и найдем стандартное отклонение: sdX="|/var Х= 1,7078. Оба результата интуитивно не очевидны. Формула B.20) позволила получить дисперсию для дискретной переменной. Для случая непрерывной переменной воспользуемся таким определением: var X — дисперсия X; var X = J (х — EXf fx (x) Ax. B.22) Здесь интегрирование, как и в случае других определений, ведется по всем х. Заметим, что соотношения B.20) и B.22) связаны одно с другим так же, как в B.17) и B.18): в случае дискретной переменной используется знак 2, а в случае непрерывной переменной — знак J; когда в выражение для дискретной переменной входит fx (*), в соответствующем выражении для непрерывной переменной участвует fx(x) Ax. Стандартное отклонение для непрерывной переменной будет равно корню квадратному из значения дисперсии, как в формуле B.21). Для иллюстрации вновь обратимся к примеру со стрелкой, функция плотности вероятности для которого имеет вид B.10), а ее график изображен на рис. 2.5, а. Мы уже вычислили ожидаемое значение X; оно 37
оказалось равным 0,5. Воспользуемся определением B.22) и рассчитаем для данного примера дисперсию: + оо 1 varX- Г (х—EXJfx(x)dx= f/jc -Y dx = 12 Таким образом, применяя B.21), мы можем найти величину стандартного отклонения: / = 0,2887. Вновь оба полученные результата нельзя назвать интуитивно ясными. Существует несколько способов измерения разброса, отличных от только что рассмотренных, но мы не будем на них останавливаться поскольку это не потребуется для дальнейшего изложения. Можно характеризовать с помощью числовых выражений не только центральную тенденцию и дисперсию, но и другие свойства вероятностной оценки, скажем ее асимметрию (они также здесь не приводятся). Все обобщающие характеристики, которыми мы будем дальше пользоваться, были выше рассмотрены. Это — вероятностные интервалы, средние и дисперсии (а также стандартные отклонения). 2.4. НЕКОТОРЫЕ ВАЖНЫЕ РАСПРЕДЕЛЕНИЯ (СЛУЧАЙ ОДНОЙ НЕПРЕРЫВНОЙ ПЕРЕМЕННОЙ) Есть ряд стандартных вероятностных распределений, с которыми приходится часто сталкиваться на практике, в частности в экономической статистике. Чтобы упорядочить описание случайной переменной, таким стандартным распределениям дают названия и обозначения, выводят их свойства и наиболее часто встречающиеся числовые характеристики. В этом разделе мы рассмотрим пять стандартных распределений, наиболее часто встречающихся в последующих главах: равномерное (прямоугольное) распределение, бета-распределение, нормальное распределение, гялша-распределение и /-распределение. Их практическое применение описано далее, а в этом разделе рассматриваются их свойства и общие характеристики. Все пять стандартных распределений определяют для непрерывных переменных и поэтому пользуются функциями плотности вероятности, которые применяют и для графического изображения соответствующих распределений. Прежде чем двигаться дальше, напомним основные свойства этих функций: неотрицательность во всех точках; площадь прямоугольной трапеции между графиком или частью графика 38
функции и осью абсцисс интерпретируется как вероятность', вся площадь между графиком функции и осью абсцисс равна 1. Начнем с равномерного {прямоугольного) распределения. С ним мы уже сталкивались, рассматривая (немодифицированный) эксперимент со стрелкой (см. рис. 2.2); соответствующая ему функция плотности вероятностей изображена на рис. 2.5. Заметим, что эта функция постоянна на всем отрезке [0; 1 ]. Поэтому о переменной X из этого примера можно сказать, что она удовлетворяет равномерному распределению на отрезке [0; 1]. Тем самым учтены свойство несмещенности стрелки и то, что шкала от 0 до 1, охватывающая всю окружность, является равно- М*>1 a) 6) Рис. 2.8. Равномерное распределение на отрезке [а; Ь\. а) функция плотности вероятностей; б) функция распределения мерной и непрерывной. Если шкала с такими же свойствами и на этой же окружности имеет начальное значение а, а конечное значение Ьу то переменная X будет удовлетворять равномерному {прямоугольному) распределению на отрезке [а; Ь]. Соответствующая функция плотности вероятностей имеет вид: 1 b—a О при остальных х. B.23) График этой постоянной на отрезке [а; Ь] функции изображен на рис. 2.8, а. Параллельный оси абсцисс отрезок графика отстоит от нее на расстоянии 1/ ф — а), что вытекает из того общего для функций плотности вероятностей факта, что площадь между графиком такой функции и осью абсцисс равна 1 (в данном конкретном случае равна 1 площадь прямоугольника, опирающегося на отрезок [а; &]). 39
о, (х—а) 1, lib -a), X < а ^ Ь< С а, С х, Соответствующая B.24) функция распределения выглядит следующим образом: B.24) а ее график изображен на рис. 2.8, б. Можно проверить (в качестве упражнения), что в данном конкретном случае функции fx (.) и Fx (.) должным образом связаны одна с другой, т. е. значение первой равно тангенсу угла наклона касательной к графику второй в данной точке, в то время как значение второй равно площади, заключенной между графиком первой и частью оси абсцисс (от — оо до вертикальной границы, проходящей через данную точку). Мы уже сталкивались и со вторым примером равномерного распределения (см. рис. 2.3, б); вероятная оценка возраста автора книги оказалась равномерно распределенной на отрезке [36; 42]. Кроме того, на рис. 2.3, а изображена функция распределения вероятностей для вырожденного равномерного распределения — оно равномерно на «отрезке» [40; 40]. Как мы уже отмечали, общая площадь под графиком любой функции плотности вероятностей должна быть равна 1. Начиная с данного момента, мы будем пользоваться этим важным свойством,, чтобы упростить большую часть интересующих нас алгебраических выражений. В частности, с помощью этого свойства мы упростим запись функции плотности вероятностей для равномерного распределения B.23): fx(x)oc\1' «<*<*• B.25) { 0, при других х. Символ ос означает «пропорционально». Например, если у = 2х, или у = 5,3л:, или в более общем случае у = kx, то у пропорционален х, т. е. уос х. Множитель пропорциональности в формуле B.25) определяется из условия, что общая площадь под кривой fx (.) должна быть равна единице. Благодаря этому свойству мы можем не записывать множитель пропорциональности каждый раз, когда нас интересует форма распределения. Анализируя рис. 2.8, б, можно заключить, что распределение симметрично относительно середины отрезка [a, ft], т.е. относительно точки (а + Ь)/2 — средней для этого распределения. Воспользовавшись формулами B.22) и B.23), можно найти его дисперсию; она равна (ft—аJ/12. (Вы легко проверите этот результат интегрированием; но даже если вы примете его на веру, помните, что величина дисперсии зависит от (Ь - а).) 40
Введем теперь для утверждения «переменная X равномерно распределена на отрезке [а\ЬЬ сокращенную запись «X ~ U [a; bh и объединим полученные результаты: Если X~U[a;b], то ЕХ = var X = - {b~a) B.26) Перейдем теперь к бе/тш-распределению, хотя пока его практическая ценность не очевидна. Начнем с определения. Переменная X удовлетворяет бета-распределению с параметрами а и Р (обозначают: X ~ В (а, Р)), если ее функция плотности вероятностей имеет вид: fx (х) ос -« A— хK-> О, при других B.27) а) д - 2, Д « 1 0,5 Здесь а > 1, р > 1, а множитель пропорциональности определяется так, чтобы площадь под кривой fx (.) равнялась 1. Заметим, что переменная X принимает значения только из отрезка [0; 1]; за его пределами функция плотности вероятностей обращается в нуль. Форма графика функции на отрезке [0; 1], очевидно, зависит от значений параметров а и р. Для некоторых значений параметров график функции можно легко построить. Во- первых, при а = р ¦- 1 выражение B.27) принимает вид B.10), т. е. если Х~ В A,1), то одновременно X ~ U [0,1]. Таким образом, равномерное распределение на отрезке [0, 1] представляет собой частный случай бета-распределения. Во-вторых, если а^2 и р-=1, то функция плотности вероятностей выглядит как «правотреуголь- ная» (рис.2.9, а). В-третьих, при а— 1, р^2 функция плотности вероятностей становится «левотреугольной» (график постройте самостоятельно). Можно рассмотреть и другие примеры. Следует обратить внимание на одно важное свойство: если ос больше р, то вершина распределения будет смещена вправо (как на рис. 2.9, в), если же а меньше Р, то вершина будет смещена влево. Когда аир равны, распределение симметрично (рис. 2.9, б). 41 6)а>р Рис. 2.9. Примеры функции плотности вероятностей для бета-распределения
Как только мы вычислим значение средней (оно равно а/(а + Р)), так сможем убедиться формально в справедливости сформулированного свойства функции плотности вероятностей бета-распределения: значение средней окажется меньше, равно или больше 0,5 в зависимости от того, будет а меньше, равно или больше, чем р. Полученное значение средней вы можете проверить с помощью выкладок или же принять на веру. Теперь остается вычислить значение дисперсии. Итак, если X ~ В (а, р), то EX = а+р , var X - . B.28) Можно доказать, что с увеличением а + р величина дисперсии уменьшается: если отношение акр определяет положение средней, то сумма ц-а Рис. 2.10. Два нормальных распределения а + Р характеризует величину дисперсии (другими словами, в первом случае важны относительные значения а и Р, а во втором — абсолютные). Эти свойства потребуются нам в следующей главе. Перейдем теперь к наиболее часто применяемому распределению, которое называют нормальным, и тоже начнем с его определения. Переменная X удовлетворяет нормальному распределению со средней \i и дисперсией о2 (сокращенно записывают X ~ jV (ji, а2)), если функция плотности вероятностей имеет вид: B.29) Здесь коэффициент пропорциональности снова выбирается так, чтобы площадь под кривой fx (.) равнялась 1. График функции плотности вероятностей нормального распределения изображен на рис. 2.10, а. С помощью B.29) и рис. 2.10, а можно вывести ряд свойств нормального распределения. Во-первых, переменная X может принимать любые значения от — оо до + °°, причем плотность вероятностей стремится к 0, когда х стремится к — оо или к + оо. Во-вторых, распределение симметрично относительно своей средней. В-третьих, оно «колоколооб- 42
разно», т. е. имеет форму опрокинутого вниз колокола. В-четвертых, у функции плотности вероятностей две точки перегиба: при х ¦= \л — а и % = |ы -f- а. (В точках перегиба вторая производная fx (.) обращается в нуль, и в этих точках тангенс угла наклона касательной к функции /х(-) достигает своего наибольшего (в точке \i—а) или наименьшего в (в точке \i + а) значения.) Дисперсия, как это можно установить, подставив B.29) в B.22), равна а2, а величина стандартного отклонения равна а. Таким образом, расстояние по оси абсцисс от точек перегиба до средней равно стандартному отклонению. Об этом свойстве полезно помнить, так как оно поможет правильно построить график функции плотности вероятностей нормального распределения B.29). Важен частный случай нормального распределения при \i = 0 и о --= 1. В этом случае говорят, что переменная удовлетворяет единичному (или стандартному) нормальному распределению (ее обозначают буквой Z). Мы можем записать: Z ~ N (О, 1). Функция плотности вероятностей для Z является частным случаем B.29), а графически она изображена на рис. 2.10, б. Заметим, что график этой функции симметричен относительно оси ординат, а ее точки перегиба соответствуют значениям ±1. Обратим внимание и на то, что масштабы графиков, изображенных на рис. 2.10, различны как по горизонтали, так и по вертикали. Вместе с тем площади под каждым из этих графиков одинаковы и равны 1, как и должно быть для функции плотности вероятностей. Более того, поскольку обе функции имеют одинаковый вид, это означает, что площади соответственно равны: площадь между fi—а и |л для fx (•) должна быть равна площади между —1 и 0 для fz (-)'> аналогично площадь под кривой fx (•) вправо от \i + а должна быть равна площади под кривой fz (•) вправо от 1. Так как площади под кривой плотности являются вероятностями, то можно записать, например, что Р (\i — о < X < |х) - Р (— 1 < Z < 0); аналогично Р (|i + а < X) =- Р A < Z). Это соотношение допускает обобщение. Рассмотрев несколько дополнительных примеров, можно убедиться в том, что имеет место следующее общее соотношение: Р(Х < |i f го) = Р (Z < z). Если положить z — (х — \ь)/в> то оно примет вид Р(Х <х) - РA <(*—ц)/а). Поскольку это очень важный результат и мы будем часто пользоваться им при вычислениях, запишем его также с помощью функции распределения: если X - ЛГ (|i, a2), a Z - N @, 1), то Fx=^Fz{—^) • B-3«) 43
(Хотя мы вывели этот результат, в основном опираясь на интуицию, его можно получить и формально.) Воспользовавшись соотношениями B.29) и B.11), запишем X—VL \ ехр ^—Ш—\ dt ос \ ехр/ J L 2а2 J J к \ 2 где при втором преобразовании была заменена переменная: v= (t — \i)/o, а при третьем — использовалось свойство B.29), в силу которого из Z ~ N (О, 1) следует, что fz (г) ос exp (—z2/2). Функцию нормального распределения не удается вывести аналитически (поскольку невозможно проинтегрировать функцию плотности вероятностей B.29)). Поэтому приходится прибегать к численным, а не аналитическим методам нахождения площадей под функцией плотности, которые необходимы при формировании вероятностных утверждений о нормально распределенных переменных. Именно в силу этого результат B.30) приобретает большое значение: он позволяет вероятностное утверждение, относящееся к произвольной нормально распределенной переменной, преобразовать в вероятностное утверждение относительно переменной, удовлетворяющей единичному (стандартному) нормальному распределению. Тем самым для вычисления любых площадей любых трапеций под кривой плотности любого нормального распределения достаточно располагать одним множеством численных результатов, содержащим значения площадей, соответствующих функции плотности единичного нормального распределения. В приложении к этой книге (как и к большинству других руководств по статистике) дана таблица площадей трапеций, образуемых графиком функции плотности единичного нормального распределения и осью абсцисс. В частности, таблица ь приложении 6 содержит величины площадей между 0 (средним значением) и произвольным значением г. Если требуется найти значение площади под кривой плотности единичного нормального распределения между 0 и z = 1,96, то в левом столбце таблицы нужно отыскать строку, содержащую значение 1,9, а затем двигаться по этой строке вправо до пересечения со столбцом, в заголовке которого стоит 0,06; получаем число 0,4750, т. е. величину интересующей нас площади. Аналогично площадь между 0 и 0,62 равна 0,2324. Если нужно узнать площадь не между 0 и другим положительным числом, а между произвольными значениями z, то делают это с помощью таблицы, используя, во-первых, симметрию функции плотности относительно 0 и, во-вторых, равенство общей площади под кривой 1. Так, Р (Z < — 1,96) - Р (Z > 1,96) - 1 — Р (Z < 1,96) = 1 - — \Р (Z< 0) + Я @ < Z < 1,96)] - 1 — @,5 -f 0,4750) - 0,0250. 44
(Были использованы сначала симметрия, затем равенство всей площади единице, на следующем шаге тождество, являющееся свойством как площадей, так и вероятностей, и, наконец, на четвертом шаге найденное выше табличное значение и свойство, в силу которого площадь по обе стороны от 0 равна 1/2.) Чтобы свободно оперировать табличными данными, проверьте правильность ответов в следующих примерах: Р @ < Z < 1) = 0,3413, Р( — 2<^ Z<0) = 0,4772; P(—l <Z< 1) = 0,6426; Р(— 1 <Z<2)-0,8185; Р ( — 2 <Z< 1)-0,8185; Р B <Z)=- 0,0228. Чтобы определить площади, а затем сформировать вероятностные утверждения для произвольных нормальных распределений, пользуются преобразованием B.30). Пусть, например, X ~ N D, 9), т. е. переменная X удовлетворяет нормальному распределению со средней 4 и дисперсией 9 (fx =-= 4, а2 9). Тогда стандартное отклонение этого распределения равно 3, т. е. а =-- 3. Теперь, чтобы найти, например, Р (X < 7), мы прибегнем к преобразованию B.30) и запишем, что р (X С 7) = Р (Z < G—4)/3) = Я (Z < 1) = 0,8413 (на последнем шаге мы воспользовались таблицей из приложения 6). Аналогично для того же распределения X ~ N D, 9) получим Р (_2<Х<7) - - Р (( —2—4)/3 < Z < G—4)/3) = Р (— 2 <Z < 1) = -0,8185. Для закрепления навыка работы с таблицей из приложения 6 проверьте правильность решения следующих задач: если Х~#B4, 16), то Р B4 < X < 28) = 0,3413; если Х- NA0, 100), то Р(-10<Х< 10)-0,4772; если X ~ N (— 1,4), то Я (—3 < Х< 1) = 0.6426; если X ~ ЛГ (9, 9), то Р F < X < 15) = 0,8185; если X - N A0, 25), то Р @ ^ X < 15) = 0,8185; еслиХ~#@, 4), то Р D < X)-0,0228. (Мы уже отмечали, что преобразование (х — \х)/а позволяет установить, сколько раз величина стандартного отклонения укладывается на отрезке между х и средним значением fi, а результат B.30) вытекает из того, что значению г, измеренному в стандартных отклонениях от средней, соответствует определенное значение площади под кривой плотности независимо от вида нормального распределения, т. е. от \i и о2.) 45
Как мы увидим, нормальное распределение широко применяется в экономической статистике; многие вероятностные оценки, непрерывных переменных получены с помощью либо нормального, либо близкого к нему распределения. Например, если X — рост случайно выбранного студента, то наиболее подходящие оценки для X можно получить, считая распределение приблизительно нормальным. Аналогично можно поступить, если X — индекс IQ, характеризующий уровень интеллектуального развития студентов и, возможно, когда X — доход. Более того, нормальное распределение часто выступает в роли приближенной характеристики более сложных распределений. Например, если а и р «достаточно велики» (в смысле, определяемом в курсе статистики), то переменная величина, удовлетворяющая бета-распределению с параметрами аир, может быть аппроксимирована нормальным распределением (в том смысле, что функция плотности бета-распределения и функция плотности нормального распределения с одинаковыми средней и дисперсией почти совпадают). Эти свойства будут более подробно изучены в следующих разделах книги. Рассмотрим теперь галша-распределение и ^-распределение. Как и в случае бета-распределения, о практической ценности этих распределений можно будет судить лишь в дальнейшем. В настоящей главе мы ограничимся определениями и перечислением некоторых основных свойств. Переменная X удовлетворяет гамма-распределению с параметрами аир (сокращенно записывают X ~ G (а, Р)), если функция плотности вероятностей задана в виде /л (х) ос ^ B.31) I 0, при других х. Коэффициент пропорциональности и здесь выбирается так, чтобы площадь под кривой fx (•) равнялась 1. Заметим, что X принимает только неотрицательные значения; для отрицательных х плотность вероятностей равна нулю. Средняя и дисперсия для гамма-распределения вычисляются по общим формулам. Если X ~ G (а, р), то ЕХ = а/р, var X = а/р2. B.32) Обратим внимание на частный случай гамма-распределения при а = k/2 и р = 1/2, где k — натуральное число. В этом случае говорят, что переменная X удовлетворяет распределению хи-квадрат (%2) с k степенями свободы (точный смысл этой фразы станет ясным позднее, когда будет введено понятие степеней свободы). Сокращенно записывают: X ~ х2 (&)• Переменная X удовлетворяет t-распределению с k степенями свободы (сокращенно записывают X ~ / (&)), если функция плотности вероятностей задана в виде fx(x) ос (l+x2/?)-<*+1)/2, -oo<jc< +оо. B.33) 46
Коэффициент пропорциональности снова выбирается так, чтобы обеспечивалось равенство 1 площади под кривой плотности. Заметим, что X может принимать любые значения между — оо и + оо, а плотность вероятностей стремится к нулю, когда х стремится к — оо или к + °° • Вычислив значения средней и дисперсии, запишем: если X ~ t (k), то ЕХ = О, var X = —— . B.34) k— 2 Из B.33) вытекает, что функция плотности вероятностей симметрична относительно нуля и ее график имеет колоколообразную форму. Во многом /-распределение схоже со стандартным нормальным распределением, за исключением того, что оно обладает большим разбросом (дисперсия /-распределения больше дисперсии стандартного нормального распределения, равной 1). Однако при возрастании числа степеней свободы k функция плотности вероятностей /-распределения все теснее приближается к функции плотности стандартного нормального распределения; при этом второе становится предельным случаем первого при неограниченном возрастании k. На этом мы завершаем краткое описание распределений, которые будут нам нужны в дальнейшем. 2.5. ОСНОВНЫЕ ВЕРОЯТНОСТНЫЕ ЗАКОНЫ До сих пор мы говорили о вероятности, ограничиваясь понятием переменной. В этом разделе мы продолжим обсуждение, пользуясь понятием события, которое позволяет существенно упростить изложение. Сначала формально сформулируем два вероятностных закона; мы неявно ими уже неоднократно пользовались. Затем введем особенно важное для нас понятие условной вероятности. После этого сформулируем третий закон, устанавливающий связь между условной и безусловной вероятностями, и применим его к выводу теоремы Байеса — фундаментального положения всего последующего анализа. Сформулируем теперь законы и определения в терминах событий, для обозначения которых воспользуемся буквами Е и F. Под событиями мы будем понимать то, что произошло, происходит или может произойти: «Англия выиграла чемпионат мира по футболу», «консервативная партия формирует очередное правительство», «при бросании игральной кости выпадет 6». Первый закон. Если Е — любое событие, то 0 < Р (Е) < 1. Если Е несомненно должно случиться, то B.35) />(?)= 1. (Мы по-прежнему воспринимаем все эти утверждения как субъективные оценки; поэтому, например, слова «несомненно должно случиться» означают, что индивид, чью оценку мы описываем, считает такое событие неизбежным. Конечно, он может при этом ошибаться в своих оценках, но поскольку он рассматривает событие Е как несомненное 47
или определенное, то приписывает событию Е вероятность 1.) Мы пользовались первым законом в разделах 2.2—2.4; его справедливость, по существу вытекает из определения самого понятия вероятности. Второй закон. Если Е и F — взаимно исключающие события, то Р (Е или F) = Р (Е) + Р (F), где «? или F» обозначает событие, состоя- ~ „~ щее в том, что произошло хотя бы одно из \z-db) событий: либо ?, либо F. Этим законом мы также неявно пользовались в разделах 2.2—2.4. Его очевидный смысл можно пояснить на простом примере. Обратимся к предстоящему чемпионату мира по футболу и пусть Е — событие «Англия станет победительницей», a F — событие «Шотландия станет победительницей». Ясно, что обе команды победить не могут, поэтому события Е и F взаимно исключают друг друга. Пусть теперь ваша оценка состоит в следующем: Р (Е) --- 0,1 и Р (F) 0,2 (шотландцам последнее время больше сопутствовала удача!); тогда второй закон означает, что Р (Е или F) — 0,1 + 0,2 - = 0,3. Другими словами, вы оцениваете общие шансы Англии и Шотландии на выигрыш как 3 из 10. В качестве другого примера рассмотрим извлечение одной карты из хорошо перетасованной колоды; пусть Е обозначает событие «извлечена карта пиковой масти», a F — событие «извлечена карта трефовой масти». Ясно, что события Е и F — взаимно исключают друг друга, поскольку одна карта не может быть и пиковой и трефовой масти. Допустим, мы считаем механизм перемешивания карт и механизм извлечения карты из колоды «честным», т. е. Р (Е) - Р (F) - 1/4. Тогда на основе второго закона получим: Р (Е или F) ------ 1/4 + 1/4 1/2. Другими словами, по вашей оценке имеется 1 шанс из 2, что будет извлечена карта черной масти. Этот результат вполне соответствует ожиданиям. До сих пор мы имели дело только с безусловными вероятностями. Введем теперь очень важное для дальнейшего изложения понятие условной вероятности. Это понятие позволяет установить, как новая информация может быть использована при формировании вероятностных оценок. Начнем с нового обозначения. Запись «Р (F | ?)» будет означать «вероятность события F при условии, что событие Е имеет место». Это условное вероятностное утверждение. Символ | (вертикальная черта) читается «при условии» или «при данном»; следовательно, «|?» означает «при данном ?» или «при условии ?» — это условие, при котором формулируется вероятностное утверждение относительно F. Что означает Р (F\E)? Можно ответить так: вероятность F в свете «информации» Е. Поясним это на примере. Предположим, что игральную кость (мы считаем ее «правильной») бросают дважды. Пусть Е — событие, состоящее в том, что при первом бросании выпало число очков, 48
большее, чем 4, и пусть F — событие, при котором сумма очков, выпавших при двух бросаниях игральной кости, не превосходит 10. Тогда Р (F | Е) — вероятность получить в результате двух бросаний либо 10 очков, либо меньше 10 очков при условии, что первый раз выпало более 4 очков. Для вычисления этой условной вероятности можно поступить следующим образом. Дано, что при первом бросании выпало более 4 очков, т. е. после двух бросаний возможны только следующие пары исходов: E; 1) E; 2) E; 3) E; 4) E; 5) E; 6) F; 1) F; 2) F; 3) F; 4) F; 5) F; 6) Здесь число, стоящее в скобках первым, соответствует исходу первого бросания, а число, стоящее вторым,— исходу второго бросания игральной кости. Для девяти пар из двенадцати число очков не превосходит 10: E; 1) E; 2) E; 3) E; 4) F; 5) F; 1) F; 2) F; 3) F; 4) Если, как мы уже отмечали, игральная кость «правильная», то все двенадцать пар равновероятны и потому вероятность появления одной из 9 девяти пар, для которых сумма очков не превосходит 10, равна у^-. g Таким образом, в нашем примере Р (F \ Е) — -у^-. С помощью аналогичных рассуждений можно установить, что Р (Е \ F) — 9/33; проверьте этот результат самостоятельно. (Существуют тридцать три возможные пары с общей суммой очков, не превышающей 10; в девяти из них на первом месте стоит число, превышающее 4.) Подведем итог: Р (F \ Е) указывает вероятность F при наличии «информации» Е\ утверждение, выступающее в роли условия (т. е. | ?), доставляет информацию, которая может изменить вероятность свершения события F. В рассмотренном выше примере с игральной костью условная вероятность Р (F | Е) отличается от безусловной вероятности Р (F): пер- 9 33 ^ вая равна -рт-, а вторая равна -^г. Поэтому в данном примере «информация» Е изменила оценку вероятности свершения события F. Аналогично условная вероятность Р (Е \ F) отличается от безусловной 9 12 вероятности Р (Е): первая равна -™-, а вторая равна -^f. Здесь вновь «информация» F изменила оценку вероятности свершения события Е, Однако так происходит не всегда. Обратимся к примеру, в котором одна карта извлекается из хорошо перетасованной колоды. Пусть Е в этом примере будет событием извлечения червы, a F — событием извлечения туза. Если мы уверены в том, что колода хорошо перетасована, а карты извлекаются случайным образом, то вероятность появле- 49
ния каждой из содержащихся в колоде карт равна -~-, что позволяет рассчитать остальные вероятности: , p(F) ,P(E\F) ,P(E) . (Проверьте самостоятельно правильность проведенных выкладок.) В этом примере условная вероятность Р (F \ Е) и безусловная вероятность Р (F) равны. Таким образом, «информация» Е не повлияла на вероятностную оценку события F. Точно так же оказались равными условная вероятность Р (Е \ F) и безусловная вероятность Р (?), т. е. «информация» F тоже не влияет на вероятностную оценку Е. Естественно теперь задаться вопросом, почему это происходит. Объяснение может быть следующим. При случайном механизме выбора карт знание масти извлеченной из колоды карты не помогает нам установить ее достоинство, равно как знание достоинства карты не дает дополнительных сведений о ее масти. В этом случае «информация» оказалась неинформативной. Тем не менее в примере с игральной костью «информация» была информативной: если при первом бросании выпало достаточно большое число очков, то шансы для общего количества очков быть малым уменьшились; аналогично если общее количество очков невелико, то уменьшаются шансы того, что при первом бросании выпало большое число очков. Введем теперь специальные термины, чтобы различать эти два случая (когда «информация» информативна и когда она неинформативна). Сделаем это следующим образом. Два события Е и F независимы тогда и только тогда, когда /0 Q7. Р (F | Е) = Р (F) и Р (Е | F) - Р (Е). ^'б/) (Можно показать, что одно из этих условий лишнее, поскольку каждое из них является следствием другого. Это подкрепляется и интуитивным соображением, в силу которого независимость — симметричное свойство; в самом деле, невозможно представить себе ситуацию, в которой Е зависит от F, в то время как F от Е не зависит.) Если условие, сформулированное в B.37), не имеет места, то Е и F называют зависимыми событиями. В примере с игральной костью события Е и F зависимы; в примере с картами Е и F независимы. Пользуясь этой терминологией, мы можем заключить, что «информация» Е неинформативна по отношению к F, если Е и F независимы, и информативна, если Е и F зависимы. Это согласуется с интуитивным представлением о том, что «информация» только тогда значима, когда она касается интересующих нас вещей. Мы выяснили, что означает условная вероятность и привели ряд поясняющих это понятие примеров, но мы до сих пор не дали его общего определения. Изберем для этого не совсем прямой путь, но вначале сформулируем третий вероятностный закон. 50
Третий закон. Р (Е и F) = P (F \ ЕЩЕ) = Р (Е \ F) P (F), где запись «Е и F» обозначает событие, при котором оба события и ?, и F имеют B.38) место. Этот закон содержит два равенства, хотя оба они, вообще говоря, свидетельствуют об одном. Равенство первых двух членов в B.38) означает,, что вероятность совместного осуществления событий Е и F равна произведению вероятности свершения события Е и условной вероятности свершения события F при данном Е. Поясним это на примере. Пусть Р(Е) = 1/2, т. е. имеется 50 шансов из 100, что событие Е произойдет. Предположим также, что Р (F | Е) = 1/4, т. е. если событие Е произойдет, то имеется 1 шанс из 4, что произойдет и событие F. Тогда исходя из B.38) можно сделать вывод о существовании 1 шанса из 8, что оба события, Е и Z7, произойдут вместе. Свяжем эти числовые характеристики с конкретной ситуацией. Допустим, что нужно случайным образом выбрать одного студента среди учащихся университета, где обучается 50 % мужчин, а из них 25 % — экономистов. В таком случае, если процесс выбора организован «справедливо», то окажется 1 шанс из 8, что выбранный студент будет одновременно и мужчиной, и экономистом. (Здесь событие Е состоит в выборе мужчины, а событие F — в выборе экономиста.) Равенство первого и последнего членов в B.38) свидетельствует о том же, но позволяет объяснить связь между событиями по-другому: вероятность того, что произойдут сразу оба события, Е и F, равна произведению вероятности события F на условную вероятность события Е при данном F. Итак, в общем случае из B.38) следует: для того, чтобы произошли два события, должно произойти одно из них и, если это уже случилось, должно произойти второе. Третий закон можно теперь преобразовать так, чтобы получить общий результат относительно условной вероятности. Из B.38) P(F\E) = Р(Е и F) I P (?). B.39) Убедимся в том, что условная вероятность, найденная в двух рассмотренных выше примерах «интуитивно», вычисляется с помощью формулы B.39). Так, для примера с картами Р (Е) = 13/52, а Р (Е и F) = -^ (вероятность того, что из колоды будет извлечен туз червей, равна ¦^•). Из B.39) находим Р (F\ Е) = A/52)/A3/52) = 1/13, что совпадает с полученным ранее значением. Заметим, что последнее равенство в соотношениях третьего вероятностного закона B.38) можно переписать так: По сути, формула B.40) и есть теорема Байеса. Этот важный результат будет нам весьма полезен в дальнейшем. 51
2.6. РЕЗЮМЕ В этой главе было раскрыто содержание понятия вероятность. Вначале речь шла о вероятностных оценках для переменных величин и, в частности, о том, как такие оценки могут быть описаны, как они взаимодействуют друг с другом и каким образом их удается обобщить. В В разделе 2.2 б1ыли введены три наиболее важные функции, применяемые для описания вероятностных оценок в случае одной переменной: первая — функция распределения (ею пользуются как для дискретной, так и для непрерывной переменной); она измеряет кумулятивную вероятность; вторая — функция вероятностей, предназначенная только для дискретной переменной и измеряющая сами вероятности; третья — функция плотности вероятностей (ею пользуются только для непрерывной переменной)—она измеряет предельную (маргинальную) вероятность. Затем в разделе 2.3 было показано, как обобщают вероятностные оценки; при этом было введено очень важное понятие вероятностного интервала (наименьшей длины) и были проанализированы различные способы измерения центральной тенденции и рассеяния, среди которых особую роль играют средняя величина и дисперсия. Раздел 2.4 представляет собой «каталог» стандартных распределений, таких, как равномерное, бета-распределение, нормальное, гамма-распределение и /-распределение. В разделе 2.5 мы снова обратились к вероятностным оценкам, но уже событий, и сформулировали три основных вероятностных закона, с помощью последнего из которых определили понятие условной вероятности. Были также введены понятия зависимости и независимости и установлена их связь с информативностью «информации». Здесь впервые упомянута и сформулирована теорема Байеса. В данной главе неоднократно указывалось, что мы придерживаемся субъективной трактовки понятия вероятности. При этом вероятностные утверждения выглядят как выражение субъективных представлений и ожиданий. Такова методологическая основа байесовского подхода к статистике. 2.7. УПРАЖНЕНИЯ Звездочкой отмечены задачи и вопросы, адресованные читателю, хорошо владеющему формальным математическим аппаратом. 2.1. Изобразите в виде графика функции распределения ваши ответы на следующие вопросы. (а) Сколько лет ? (Заполните пропуск фамилией кого-нибудь из ваших не очень близко знакомых коллег.) (б) Каково значение агрегированной предельной склонности к потреблению в ? (Проставьте название интересующей вас страны, статистические данные об экономике которой вам доступны.) 2.2. Выполните следующие задания. (а) Спросите у вашего коллеги, фамилию которого вы указали в 2.1 (а), в каком десятилетии он родился. (б) Выпишите из статистического справочника агрегированные данные (на годовом уровне) о национальном доходе и потребительских расходах за последние 10 лет в стране, название которой вы проставили в 2.1 (б); постройте диаграм- 52
му рассеяния потребительских расходов относительно национального дохода. Воспользуйтесь дополнительной информацией, полученной в (а) и (б), чтобы внести коррективы в графики функций распределения, построенных в 2.1. 2.3. Постройте функции плотности вероятностей, соответствующие функциям распределения, полученным в упражнениях 2.1 и 2.2. (Заметьте, что обе переменные — число лет и предельная склонность к потреблению — непрерывные.) Если это задание вам покажется трудным, то пропустите его и вернитесь к нему после выполнения упражнений 2.7—2.10. 3568 11 х 012345 *) 6) Рис. 2.11: а) к упражнению 2.8; б) к упражнению 2.9 6 2.4. Пусть X — (дискретная) переменная, которая принимает значения, равные общему количеству очков, выпадающих при одновременном бросании двух (конечно, «правильных») игральных костей. Заметьте, что X принимает целые значения от 2 до 12. Изобразите функцию распределения X и функцию вероятностей X. Установите связь между этими двумя функциями. 2.5. Убедитесь в том, что на рис.2.4, б и 2.4, в изображены соответственно функция рж:пределения и функция вероятностей переменной X, которая определена как число выпадений герба при двух бросаниях монеты (в предположении, что монета «правильная»). 2.6. Дискретная переменная X определена как число выпадений герба при трех бросаниях монеты (в предположении, что монета «правильная»). Изобразите функцию распределения и функцию вероятностей для переменной X. Покажите, как эти Две функции соотносятся одна с другой. 2.7. Стрелка (предполагаемая «правильной») вращается над кругом, на всей окружности которого задана равномерная и непрерывная шкала с начальной точкой 0, а концевой точкой 4. Пусть X — непрерывная переменная, и ее значения соответствуют положению стрелки в момент останова после вращения. Постройте функцию распределения для переменной X. Выведите с ее помощью функцию плотности вероятностей для X. Покажите, что площадь под графиком последней функции между значениями 1 и 3 равна 1/2; между значениями 2 и 3 равна 1/4 Проинтерпретируйте эти величины площадей в терминах вероятностей. 2.8. Дана функция распределения, изображенная на рис. 2.11, а. Постройте соответствующую ей функцию плотности вероятностей. Каким образом следует разметить шкалу по окружности, чтобы переменная X, соответствующая положению («правильной», несмещенной) стрелки в момент ее останова, удовлетворяла такому распределению? 2.9. Выполните упражнение 2.8 для функции распределения, изображенной на рис. 2.11, б. 2.10. Рассмотрите функцию плотности вероятностей, изображенную на рис. 2.7. Рассчитайте с шагом 0,1 значения соответствующей функции распределения для х, принадлежащих отрезку [—1; 1]. Нанесите полученные точки на график (воспользуйтесь для этого миллиметровой бумагой) и соедините их плавной 53
линией.С помощью этого графика рассчитайте тангенс угла наклона функции распределения для точек того же отрезка [—1; 1], взятых с тем же шагом 0,1. Отметьте полученные значения на графике и соедините плавной линией. Будет ли полученный график напоминать исходный (рис. 2.7)? Приведите обоснование вашего ответа. [* Получите функцию распределения F х(х) путем интегрирования функции плотности вероятностей fx (х) (см. рис. 2.7). Продифференцируйте Fx (х) и убедитесь, что вы вновь вернулись к fx(x).\ 2.11. Постройте на листе миллиметровой бумаги функцию распределения для единичного (стандартного) нормального распределения, функция плотности вероятностей которого изображена на рис. 2.10, б. Выполните задание упражнения 2.10 для этой функции плотности вероятностей. 2.12. На рис. 2.3, а изображена функция распределения. Какой переменной, дискретной или непрерывной, она соответствует? 2.13. Перечислите все свойства функции распределения. 2.14. Перечислите все свойства функции вероятностей (для дискретной переменной) и функции плотности вероятностей (для непрерывной переменной). Сопоставьте эти свойства со свойствами соответствующих функций распределения. 2.15. Определите 90-процентный вероятностный интервал (наименьшей длины) для распределений из упражнений 2.1—2.2 и 2.7—2.11. (При решении последней из этих задач воспользуйтесь приложением 6.) 2.16. Определите средние для распределений из упражнений 2.4—2.11. Найдите дисперсии распределений из упражнений 2.4—2.6. С помощью соотношений B.26) вычислите дисперсию распределения из упражнения 2.7. Чему равна дисперсия распределения из упражнения 2.11? 2.17*. Проверьте правильность соотношений B.26). 2.18*. Докажите, что если [д^; х2] — а-процентный вероятностный интервал (наименьшей длины) для непрерывной переменной X, то fx (хх) — fx (дс2). 2.19. Найдите множитель пропорциональности бета-распределения в следующих четырех случаях: (а) а = р = 1; (б) а = 2, р = 1; (в) а = 1, р = 2; (г)* а = Р = 2. 2.20. Для Z ~ N @, 1) найдите с помощью таблицы из приложения 6 вероятность того, что Z (а) лежит между 0 и 1,5; (б) лежит между — 1,5 и 1,5; (в) лежит между —1,5 и 0,5; (г) равно 1,5. 2.21. Для X ~ N B,4) найдите с помощью таблицы из приложения 6 вероятность того, что X (а) лежит между 2 и 5; (б) лежит между—1 и 5; (в) лежит между — 1 и 3; (г) равно 1,5. 2.22. Две урны наполнены шарами, причем в урне 1 содержится 25 % белых и 75 % черных шаров, а в урне 2 содержится 75% белых и 25% черных шаров. Если одна из этих урн выбрана случайно и случайным образом из нее извлечен один шар, то как вы оцените вероятность того, что этот шар белый? (Вам придется уточнить, что вы понимаете под «случайным выбором».) 2.23. Исследователь в связи с проведением эксперимента подсчитал, что если справедлива теория А, то можно наблюдать X с вероятностью около 0,9; если же справедлива теория В, то эта вероятность примерно равна 0,3. Он полагает, что теория А примерно вдвое более правдоподобна, чем теория В. Кроме теорий А и В других способов рационального объяснения наблюдаемых явлений нет. С какой вероятностью исследователь может ожидать появления X в ходе данного эксперимента? 2.24. Предположим, что новый прибор, «анализирующий» выдыхаемый воздух, позволяет с вероятностью 0,95 выявить превышение допустимого уровня содержания алкоголя в организме индивида и с вероятностью 0,95 установить, что этот уровень не превышен. Если в некоторый момент у 5% обследуемых уровень алкоголя в организме выше допустимого, то какова вероятность, что при осмотре случайно выбранного из этой совокупности индивида прибор зарегистрирует превышение уровня, и это будет соответствовать действительности. (Полученный результат может удивить или даже обескуражить вас.) 54
ГЛАВА 3 ВЕРОЯТНОСТНЫЕ РАСПРЕДЕЛЕНИЯ НЕСКОЛЬКИХ ПЕРЕМЕННЫХ 3.1. ВВЕДЕНИЕ В гл. 2 вы познакомились с основными идеями и понятиями теории вероятностей. При этом речь шла только о вероятностных оценках событий и о вероятностных оценках одной переменной. В этой главе мы обобщим материал гл. 2 и рассмотрим случай нескольких переменных. Основное внимание будет уделено вероятностным оценкам двух переменных, поскольку изложение тем самым существенно упрощается, а дальнейшие обобщения, как правило, не требуют введения новых понятий. В разделе 3.2 определяется вероятностное распределение двух переменных. Как мы увидим, сформулировать вероятностное утверждение относительно двух переменных можно, лишь рассмотрев их совместное распределение и предполагая обе переменные равноправными. Вместе с тем часто необходимо располагать сведениями о каждой из них в отдельности, поэтому мы введем в разделе 3.3 понятие маргинального {предельного) распределения вероятностей. В разделе 3.4 речь идет об условном вероятностном распределении — о распределении одной переменной при наличии некоторой информации относительно другой переменной. Мы приходим к этому понятию путем естественного расширения понятия условной вероятности, с которым мы познакомились в разделе 2.5. Все рассмотренные в 3.2—3.4 понятия (совместного, маргинального и условного распределения) для случая многих переменных формулируются в разделе 3.5. В разделе 3.6 даны обобщающие характеристики (подобные тем, с которыми мы встречались в 2.3) для вероятностного распределения нескольких переменных. Раздел 3.7 содержит резюме третьей главы, а раздел 3.8 — упражнения к ней. 3.2. ДВУМЕРНОЕ РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ В данном разделе и разделах 3.3—3.4 мы остановимся на двумерном случае, т. е. нас будут интересовать одновременно две переменные. Мы обозначим эти переменные прописными буквами X и Y, а строч- 55
ными буквами х и у — соответственно конкретные значения этих переменных (см. гл. 2). Предположим теперь, что мы рассматриваем объект или процесс, который описывается двумя представляющими для нас интерес переменными' X и У, каждая из которых может принимать некоторые упо- рядочные (по величине) значения. Как и в случае одной переменной, мы можем представить индивидуальные вероятностные оценки X и Y, воспользовавшись либо функцией распределения, либо функцией вероятностей, либо функцией плотности вероятностей, в зависимости от того, какая-из этих функций окажется подходящей. Определим три указанные функции для двумерного вероятностного распределения по аналогии с тем, как это было сделано в гл. 2 для случая одной переменной. Начнем с функции распределения, которая существует и для дискретных, и для непрерывных переменных. Определение BЛ) для одной переменной* сводилось к тому, что функция распределения измеряет кумулятивную вероятность. Распространение этого определения на двумерный-случай не вызывает затруднений. Мы обозначим двумерную (совместную) функцию распределения переменных X и Y через Fxy (.,•) и определим ее с помощью равенства: FXy (х,у) = Р(Х^х и Y < у). C.1). Как и в случае одной переменной, мы будем опускать подстрочные индексы X и Y, если это не приведет к недоразумениям. Как можно заключить из C.1), Fxy (x> у) измеряет кумулятивную вероятность для всех значений переменных X и К, таких, что X не превосходит хЛ a Y не превосходит у. Таким образом, мы имеем дело с вероятностным утверждением относительно обеих переменных X и Y; вот почему мы говорим о двумерной (совместной) функции распределения. В гл. 2 мы часто пользовались графиками функций. Функция одной переменной допускает непосредственное изображение на двумерном листе бумаги с заданной масштабной сеткой; при этом значения исходной переменной откладывают по горизонтальной оси, а значения функции — по вертикальной оси. Для изображения функции двух переменных «в идеале» хорошо иметь трехмерное пространство: по одной оси для каждой переменной и одну ось для значений функций. Поскольку не так легко изображать трехмерные диаграммы на простом листе бумаги, мы постараемся в этой главе не прибегать к графикам, а чаще обращаться к таблицам и алгебраическим представлениям и только в некоторых случаях к двумерному изображению трехмерных объектов. (Экономистам последний прием хорошо знаком, так как они пользуются кривыми безразличия и изоквантами.) Приведем два примера, иллюстрирующие C.1). В первом примере рассмотрим одновременное бросание двух (конечно, «правильных») монет и предположим, что переменные X и Y определены следующим образом: X принимает значение 1, если при бросании первой монеты выпал герб, и значение 0 — в противном случае; Y принимает значение, равное общему числу гербов, выпавших при бросании двух монет. На 56
(О. 1) A. 2) (О, О) A. 1) Г н d) Рис. 3.1. Два примера, иллюстрирующие случай двумерного распределения: а) по оси абсцисс — исход бросания первой монеты, по оси ординат — исход бросания второй монеты; Т — решетка, Я — герб В скобках около точек указаны соответствующие им значения (х, у) рис, 3.1, а схематически изображены возможные исходы этого эксперимента и для каждого из исходов в скобках указаны соответствующие ему значения X и Y. Если монеты «правильные», каждому из четырех возможных исходов отвечает одинаковый уровень правдоподобия. Поэтому и У= 1) = = Р(Х-=\ и Y = 2)= — . Отсюда мы получаем выражение (правда, несколько громоздкое) непосредственно для Fxy (.,•)•' Fxy (х, у) = О, х < 0 или у < О, 1/4, 0< х, 0<у<1, 1/2 0<*<1, 1 <у, C.2) 3/4, 1, 1<у<2, (Выкладки вы можете проверить самостоятельно.) График C.2) в трехмерном пространстве выглядит как последовательность ступенек. Как и в случае одной переменной, дискретная двумерная функция распределения является ступенчатой функцией. (Построить график этой функции нелегко, но даже если вы добьетесь успеха, то немного добавите к вашему первоначальному представлению о характере распределения.) Второй пример схематически изображен на рис. 3.1, б. Мы рассмотрим квадрат со стороной 1 и предположим, что действует некий механизм, обеспечивающий равновероятный выбор любой точки, лежащей 57
внутри квадрата или на его границе. Поэтому вероятность выбора точки из некоторой области (взятой вместе с ее границей), например А, заштрихованной на рис. 3.1, б, определяется только площадью этой области и не зависит от ее расположения в квадрате. Пусть переменным X и Y соответствуют координаты х и у выбранной точки. Тогда двумерная функция распределения Fxy (.,•) имеет вид: О, х < 0 или у < О, х, 0<*<1, 1<*/, Fxv(x,y) = , C.3) У, 1<* 0<у<1, 1, 1 <х 1 < */. Значения функции в первой и последней строках не требуют комментария. Значение в средней строке объясняется тем, что если точка (х,у) лежит внутри квадрата, то Fxy (ху у) = Р (X ^ х и Y <g: у) = заштрихованной площади на рис. 3.1, Ъ = ху, поскольку площадь прямоугольника равна произведению его ширины х на высоту у. Значения функции во второй и четвертой строках вычисляются непосредственно. Если вы представите C.3) графически в трехмерном пространстве, то обнаружите, что у графика имеются две горизонтальные плоские части (это, во-первых, все области, где одна из переменных отрицательна, во-вторых, область, где обе переменные больше единицы), соединенные наклонной плоскостью. Как и в одномерном случае, двумерная функция распределения непрерывной переменной не имеет скачков. Из двух приведенных примеров ясно, что пользоваться функцией распределения для характеристики двумерного распределения не всегда удобно. Поэтому мы рассмотрим другие способы задания двумерного распределения — функцию вероятностей для дискретного случая и функцию плотности вероятностей для непрерывного. Функция вероятностей для одномерной дискретной переменной была определена равенством B.7) (или эквивалентным ему равенством B.6)). Распространим это понятие на случай двух переменных. Будем обозначать (двумерную) функцию вероятностей дискретных переменных X и Y через fxy (•»•)> (подстрочные индексы можно опустить, если это не вызовет недоразумений) и определим ее равенством: fxY (х, у) =- Р (X = х и К = у). C.4) Таким образом, fXy (х, у) измеряет вероятность того, что X = х и Y = = у. Для первого из двух наших примеров можно показать, что 58 fxY{Xj y)=si 1/4> для (*.у)=(о;о). № 0.0; *)и 0;2)> C.5) I 0, в других точках.
^v X N. У ^\. 0 1 2 0 1/4 1/4 0 l 0 1/4 1/4 Эта ФУНКЦИЯ изображена на рИС. Таблица 3.1. Функция вероятностей 3.2, а. МОЖНО также представить *ля примера с бросанием двух монет эту же функцию в табличной форме (табл. 3.1). «Входами» таблицы являются значения переменных X и У, а на пересечении столбца и строки стоит соответствующее точке (ху у) значение вероятности. Приведем еще один пример с дискретными переменными, прежде чем перейти к непрерывному случаю. Пусть бросают две («правильные») игральные кости. Определим переменную X как число очков, выпавших на первой кости, а переменную Y как абсолютную величину разности между числами, выпавшими на двух костях. Рассмотрев все 36 возможных Х=1, если при бросании первой монеты выпал герб; Х = 0, если выпала решетка; Y=общему числу выпавших гербов на двух монетах. Рис. 3.2. Функция вероятностей и функция плотности вероятностей: а) функция вероятностей в примере с двумя монетами. Функция равна нулю, за исключением 4 отмеченных на рисунке точек; б) функция плотности вероятностей в примере, которому соответствует рис. 3.1, б. Значения функции равны нулю во всех точках, кроме заштрихованной поверхности исходов, вы легко рассчитаете вероятность для каждого из возможных значений (*, у). Эти вероятности, образующие fw (х> у) (они умножены на 36), приведены в табл. 3.2. Если мы хотим найти вероятность, соответствующую х = 3 и у = 2, то заметим, что эти значения неизвестных могут появиться лишь при двух из 36 возможных исходах, а именно C; 1) и C; 5). Следовательно, fxv C; 2) = 2/36, что и указано в табл. 3.2. 59
N. X У ^\^ 0 1 2 3 4 5 Таблица 3.2. Функция вероятностей для примера с бросанием двух игральных костей 1 1 1 1 1 1 1 2 1 2 1 1 1 0 3 1 2 2 1 0 0 4 1 2 2 1 0 0 5 1 2 1 1 1 0 6 1 1 1 1 1 1 X — число очков, выпавшее при бросании первой кости; Y — абсолютная величина разности выпавших чисел. Значения f XY (*, у) умножены на 36. Мы вернемся к этому примеру в разделе 3.3, а сейчас перейдем к непрерывному случаю и введем двумерную функцию плотности вероятностей, которую для переменных X и Y будем также обозначать fw (.,-)» опуская подстрочные индексы, когда это не мешает пониманию. Как и в одномерном случае, fxy (.,.) оправдывает свое название и служит мерой плотности вероятностей, в частности она измеряет плотность вероятностей в точке (х, у). Чтобы прийти к этому, мы сначала вычислим плотность вероятностей в прямоугольной области, примыкающей к точке (х, у)у а затем установим, чему равна плотность, когда эта область «стягивается» к точке (х, у). Итак, рассмотрим прямоугольник, ограниченный сторонами х и х + Аде (перпендикулярными к оси х), а также сторонами у и у + At/ (перпендикулярными к оси у). Площадь этого прямоугольника равна Кхку (его ширина Ал;, а высота Д#). Вероятность того, что значения (X, Y) лежат в данном прямоугольнике, есть Р (х < X < х + Ах и у < Г < г/ + А*/), а плотность вероятности в прямоугольнике равна АхАу Определим* теперь плотность вероятностей в точке (х9 у) как предел этого выражения при Аде и Ау, стремящихся к нулю, т. е. > У)- Um lim Д0 &0 и у<у<у+&у) C.6) * Следовало построить стягивающуюся область так, чтобы точка (х, у) всегда при переходе к пределу оставалась внутри. Иначе переход к пределу может привести к соответствующему результату лишь при условии конкретного способа построения прямоугольника и не совпадать с пределом, полученным при другом способе его построения. — Примеч. пер. 60
Читатель, владеющий математическим аппаратом, и в частности, имеющий представление о частной производной, объединяя C.1) и C.6), увидит, что diF^y) . C.7) дхду По сути, выражение C.7) является естественным обобщением B.8). Применим C.7) к примеру, которому соответствует рис. 3.1, б. Двумерная функция распределения для этого примера была определена соотношениями C.3). Можно непосредственно показать, что соответствующая C.3) двумерная функция плотности вероятностей имеет вид: , при других х и у. Эта функция изображена на рис. 3.2, б. Из рисунка, так же как и из аналитической формы функции, видно, что перед нами равномерное на квадрате 0 ^ х ^ 1, 0 ^ у ^.1 распределение. Это соответствует исходному предположению, в силу которого выбор любой точки данного квадрата (вместе с его границей) равновероятен, поскольку механизм выбора является «справедливым» *. Материал раздела достаточно труден для усвоения. Вместе с тем понятиями фукнции распределения, функции вероятностей и функции плотности вероятностей для двух и нескольких переменных приходится пользоваться достаточно часто. Обозначения в сравнении с одномерным случаем усложняются, а привлечь на помощь геометрическую интерпретацию, как правило, не удается. Если некоторые детали в процессе изложения остались неясными, это не должно вас огорчать, ибо при написании этого раздела мы руководствовались не только необходимостью, но и соображениями полноты. Мы будем весьма редко обращаться к этому материалу в дальнейшем. В частности, нам не представится в этой книге случай обратиться к совместной функции распределения нескольких переменных. Однако ряд положений раздела заслуживает особого внимания, их нужно твердо усвоить. Во-первых, для работы с дискретными переменными нужна информация о функции вероятностей, при этом fxY (х, у) указывает вероятность того, что переменная X принимает значение х, а переменная Y — значение у. Во-вторых, в непрерывном случае нам требуется информация о функции плотности вероятностей fxY (x, у), которая характеризует совместную плотность вероятностей в точке, где переменная X равна ху и переменная Y равна у. Вас не должно удивлять, что мы практически не будем возвращаться к материалу данного раздела, хотя случай двух переменных рассмот- * Нужно помнить и о предположении, в силу которого само попадание точки в квадрат — событие, имеющее вероятность 1. — Примеч. пер. 61
рен далее очень подробно. Объясняется это тем, что, как правило, нас будут интересовать не вероятностные утверждения относительно совместного поведения двух переменных, а вероятностные утверждения, относящиеся к каждой из переменных в отдельности или же относящиеся к одной из переменных при условии наличия некоторой информации о другой переменной. В двух следующих разделах будут изучены обе указанные здесь ситуации. 3.3. МАРГИНАЛЬНЫЕ РАСПРЕДЕЛЕНИЯ Как упоминалось выше, часто встречается ситуация, в которой мы, хотя и имеем дело с двумерным случаем, должны сосредоточить внимание на одной из двух переменных, а другую временно не принимать во внимание. Таким образом, получают вероятностные утверждения относительно X, если не учитывается переменная У, или относительно У, если не учитывается переменная X. Но тогда мы придем к одномерному случаю и сможем описать полученные вероятностные утверждения с помощью аппарата гл. 2, т. е. нам потребуются одномерные функции для описания вероятностных оценок X, когда игнорируется У', и оценок У, когда игнорируется X. Рассмотрим простой (дискретный) пример (см. рис. 3.1, а из предыдущего раздела) с бросанием двух («правильных») монет. Переменная X принимает значение 1, если при бросании первой монеты выпадает герб, и 0 — в противном случае; переменная У определена как число гербов, выпавших при бросании двух монет. Хотя речь идет о двух переменных, мы легко найдем распределение вероятностей для каждой из них в отдельности. Начнем с переменной X, принимающей значения 1 и 0. Поскольку предполагается, что монеты «правильные», оценка вероятности X может быть выражена в терминах функции вероятностей X: fx @) = fx A) = у. C.9) Аналогично оценка вероятности переменной У, принимающей значения 0, 1 и 2, может быть выражена в терминах функции вероятностей этой переменной: МО) = 4~> М0=-Г'Л<2>=т- (З.Ю) (Напомним, что У = 0 соответствует наблюдению на двух монетах решеток; У — 1 — наблюдению решетки на первой монете и герба на второй, а также герба на первой и решетки на второй; У = 2—наблюдению герба и на первой, и на второй монетах.) Все сказанное свидетельствует о том, что каждая из функций fx (•) и /у (•) как функция одной переменной может быть получена отдельно. Но в каком отношении находятся эти две функции с совместной функцией вероятностей, приведенной в табл. 3.1? Сначала обратим внимание на столбцы этой таблицы: в первом указаны вероятности всех возмож- 62
ных исходов, если X принимает значение 0, во втором — всех возможных исходов, если X принимает значение 1. К этому следует добавить, что общая вероятность всех исходов, записанная в первом столбце, равна вероятности того, что X принимает значение 0; аналогично общая вероятность всех исходов, занесенная во второй столбец, равна вероятности того, что X принимает значение 1. Записывая соответствующие преобразования формально, получим: = Р(Х = 0 и Y = O) + P(X = 0 и Y=l) + P(X = 0 и 7 = 2) = = fxr@, 0) + fxy@, l)+fxY@, 2)= 1/4+1/4 + 0= 1/2. Аналогично = Р(Х=1 и Г = 0) + Р(Х=1 и Г=1) + Р(Х = 1 и Г = 2) = = /хуA, 0) + fxr(l, 1) + /ху0, 2) = 0+ 1/4-1-1/4 = 1/2. Общее правило'можно сформулировать так: Ы*)=2/хИ*, У)- C.11) У Суммирование ведется по всем значениям у (или по всем возможным значениям Y — различие несущественно, поскольку fXy (x, у) обращается в нуль для значений у, которые переменная Y принять не может). Точно так же устанавливается, что путем суммирования всех элементов в каждой строке таблицы можно получить функцию вероятностей Y. Таким образом, /у @) = P(Y = 0) = P(X = 0 и Y=^0) + P(X=l и К = 0) = = /ху@, 0)+/АуA, 0) = 1/4 + 0 = 1/4 и т. д. В более общем случае: !у(У)=Ъ!ху{х,У), C.12) X где суммирование ведется по всем значениям х. Иллюстрирует это табл. 3.3. В ней значения функции вероятностей X образуют нижнюю строку, а значения функции вероятностей Y образуют ее правый столбец. Именно в силу такого «крайнего», «предельного» положения распределение переменной X и распределение переменной Y называют предельными, или маргинальными, распределениями X и Y соответственно. Итак, обозначение fxv (.,•) используется для двумерной (совместной) функции вероятностей, а/х(-) и /у (•)— для обозначения маргинальных функций вероятностей переменных X и Y соответственно. Теперь становится ясным соотношение между маргинальной и совместной функциями вероятностей: чтобы получить маргинальную функ- 63
Таблица 3.3. Совместные и маргинальные вероятности для примера с бросанием двух монет 0 1 2 fxM 0 il/4 1/4 0 1/2 l 0 1/4 1/4 1/2 fy(y) 1/4 1/2 1/4 1 Х=1, если при бросании'первой монеты выпал герб, Х=0, если выпала решетка. У = числу гербов, выпавших при бросании двух монет; Графы 0 и 1 содержат значения fxyix> У)* цию вероятностей X, суммируют значения совместной функции вероятностей для каждого значения х по всем значениям у (равенство C.12)). Суммирование по всем у (или по всем х) в конечном счете означает, что нас не интересуют значения, которые принимает переменная Y (или переменная X). Для того чтобы пояснить сказанное, вернемся ко второму из приведенных в начале этой главы дискретных примеров. В нем речь шла о бросании двух («правильных») игральных костей. При этом переменная X была определена как число очков, выпавших при бросании первой кости, а переменная Y как абсолютная величина разности между числами, выпавшими при бросании двух костей. Значения совместной функции вероятностей содержатся в табл. 3.2. Чтобы получить значения маргинальных функций вероятностей для переменных X и F, воспользуемся равенствами C.11) и C.12) соответственно. В первом случае значения табл. 3.2 суммируются по столбцам, а во втором — по строкам, что позволяет получить предельные функции вероятностей. Результаты этих процедур приведены в табл. 3.4 (Как и в табл. 3.2, мы умножили все табличные значения на 36, благодаря чему избежали громоздких выражений. Поэтому каждое из содержащихся в таблице чисел, прежде чем им воспользоваться, следует умножить на -я-г-. Мы думаем, что это не внесет путаницы в результаты.) Из табл. 3.4 мы видим, что маргинальная функция вероятностей X принимает одинаковые значения при всех значениях переменной: Это действительно так, поскольку, как мы уже отмечали, вероятность появления каждой из шести граней при бросании игральной кости, если она «правильная», равна -^~. Значения маргинальной функции ве- 64
Таблица 3.4. Совместные и маргинальные вероятности для примера с бросанием двух игральных костей У ^^\ 0 1 2 3 4 5 /хМХЗб 1 1 1 1 1 1 1 6 2 1 2 1 1 1 0 6 3 1 2 2 1 0 0 6 4 1 2 2 1 0 0 6 5 1 2 1 1 1 0 6 6 1 1 1 1 1 1 6 fyMx36 6 10 8 6 4 2 36 X = число очков, выпавших при бросании первой кости, Y = абсолютная величина разности чисел, выпавших на двух костях. Графы 1—6 содержат значения /xy(x> У)> умноженные на 36. роятностей для переменной Y содержатся в правом «крайнем» столбце таблицы: /у@) = 6/36, Ml) = 10/36, /уB) = 8/36; /yC) = 6/36f /у D) = 4/36, /у E) = 2/36. Вы можете проверить это самостоятельно. (Рассмотрим, например, У = 0. Это значение Y достигается, когда при бросании обеих игральных костей выпадают одинаковые количества очков, что имеет место для 6 из 36 (общего числа) возможных исходов, т. е. интересующая нас вероятность равна 6/36. В свою очередь значение Y = 5 может появиться только в двух случаях: если при бросании первой кости выпала 1, а при бросании второй 6, или наоборот. Вероятность появления данного значения Y равна 2/36). До сих пор речь шла о дискретном случае. Аналогичные аргументы применимы и для непрерывного случая, конечно, с необходимыми моди- фикацими, позволяющими учесть различия между дискретной и непрерывной переменными. Поэтому маргинальные функции плотности вероятностей для переменной X и для переменной Y соответственно получают из двумерной (совместной) функции плотности вероятностей следующим образом: C.13) fx (x) = f fxr (x, у) dy / v (у) =^ , у)А C.14) В C.13) интегрирование ведется по всем значениям у, а в C.14) — по всем значениям х. Формула C.13) является непрерывным аналогом 3 Зак2161 65
C.11), а формула C.14) — непрерывным аналогом C.12). Как мы отмечали в гл. 2, если знак 2 появляется в дискретном случае, то знак J появляется в непрерывном, а когда в выражении для дискретных переменных участвует /, то в соответствующее выражение для непрерывных переменных войдет либо /dx, либо fdy. Проиллюстрируем соотношения C.13) и C.14), связывающие маргинальные функции плотности вероятностей с порождающей их двумерной (совместной) функцией. Обратимся сначала к примеру с непрерывными переменными, уже рассмотренному в этой главе и схематически представленному на рис. 3.1, б. Напомним, что точка в квадрате со стороной 1 выбирается случайным образом, а переменные X и У определены как координаты х и у выбранной точки. Кроме того, совместная функция плотности вероятностей задана выражением C.8) и изображена на рис. 3.1, б; эта функция является постоянной (а распределение — равномерным) на единичном квадрате.Чтобы найти маргинальные функции плотности вероятностей для переменной X и для переменной Y, воспользуемся соотношениями C.13) и C.14). Получим если х лежит на отрезке от 0 до 1; для остальных значений х функция fx (у) равна 0. Аналогично если у лежит на отрезке от 0 до 1; для остальных значений у функция /у (у) равна 0. Заметим, что при выводе функции fx (x)> определенной для 0 < х < 1, совместная плотность принимается равной 1 при 0 < у < 1 и нулю — при остальных у; благодаря этому Кроме того, fx (x) обращается в нуль, когда х находится вне отрезка [0; 11, а /у (у) обращается в нуль, когда у находится вне отрезка [0; 1], поскольку при этих значениях переменных функция fxv (х, у) равна нулю (тем самым обеспечивается выполнение условия, в силу которого мы не можем выбрать точку, лежащую вне квадрата). Объединяя перечисленные результаты, получим /,«-{'• °<*<'- .frW-l!-0*'*1' C-15) @, при остальных л: @, при остальных у. Таким образом, оба предельных распределения (для переменной X и для переменной Y) однородны на отрезке [0; 1]. 66
Рассмотрим теперь второй пример, изображенный схематически (рис. 3.3, а). В нем с помощью уже хорошо известного механизма случайного выбора выбирается точка из заштрихованного треугольника. Переменные X uY определены как координаты хи у полученной таким образом точки. Мы хотим найти совместное распределение и его функцию плотности вероятностей, а также маргинальные функции плотности. Рассмотрим произвольную точку этого треугольника, скажем А. Чтобы рассчитать значение Fxy (x, у) в точке (х, у), мы вычислим долю площади дважды заштрихованной части треугольника (эта часть fx(x) Ж 1 X 1 X 1 У Рис. 3.3. Второй пример непрерывного двумерного распределения: а) условия примера; б) маргинальная функция плотности переменной X; в) маргинальная функция плотности переменной У получается, если провести через точку А вертикальную и горизонтальную линии и взять принадлежащую треугольнику область, которая оказалась в юго-западном по отношению к точке А квадранте) от всей площади треугольника. Тем самым мы найдем вероятность того, что выбранная точка попадет в часть треугольника, отсеченную вертикальной и горизонтальной линиями, проходящими через Л, т. е. Р (X < х и Y < у). Простые выкладки позволяют вычислить обе интересующие нас площади: вся площадь треугольника равна 1/2, а площадь отсеченной его части равна ху — у2/2 (это будет площадь прямоугольника ОхАу за вычетом площади малого треугольника, расположенного над гипотенузой исходного треугольника). Таким образом, Fxy(x, y) = 2xy—y2y если точка (л:, у) лежит в данном треугольнике. Аналогично если точка (х, у) лежит над треугольником (это означает, что одновременно О < х < 1 и х < у), то Fxy(x, У)^х2\ 3* 67
если точка (х, (/), расположена справа от треугольника (т. е. 1 < я и 0 < у < 1), то FXY(x, У) = 2-у*; если точка (х, у) находится северо-восточнее треугольника (т. е. 1 < х, 1 < (/), то Fxy(x, (/)= 1; наконец, если точка (х, у) расположена где-либо еще, то Fxy(x, y) = 0. Объединив все эти результаты, получим О, х < 0 или у < О, х2, 0 < х ^ 1, х < уу 2ху-у\ 0<х<1, 0<*/^х, C.16) Конечно, практического значения такие функции не имеют, но они полезны для иллюстрации основных положений теории. Найдем теперь совместную функцию плотности вероятностей; формально этого можно достичь, применяя C.7) к C.16), что приведет нас к функции fXy(x,yU' C.17) [О, при остальных хну. (Проводя выкладки самостоятельно, заметьте, что, в силу C.7), для получения функции плотности нужно дважды продифференцировать функцию распределения, причем один раз по ху а второй раз по у. После такого дифференцирования каждого из компонентов Fxy {x> у) мы получим 0 для всех строк, кроме средней, а для средней строки результатом последовательного дифференцирования по х и по у будет значение производной, равное 2.) Выражение C.17) означает, что плотность вероятностей постоянна для данного треугольника, а рассматриваемое распределение равномерно на этом треугольнике. Интуитивно этот результат ясен и доказать его легко, так как вероятность попадания в треугольник предполагается равной 1, а площадь треугольника равна 1/2, т. е. плотность распределения, равномерного для данного треугольника, равна 2 в каждой его точке. Кроме того, мы могли бы установить C.17) непосредственно, не строя функции распределения. Поэтому, как уже отмечалось выше, функции распределения нечасто употребляют в двумерном случае. Найдем теперь маргинальные функции плотности вероятностей. Для этого имеются два пути: прямой — можно воспользоваться условиями примера и косвенный — с помощью функции плотности вероят- 68
ностей. Воспользуйтесь прямым путем самостоятельно и проверьте следующие результаты, полученные косвенным методом. Во-первых, вычислим функцию плотности для переменной X. Применяя C.13) к C.17), получим (а) для 0 < х < 1: fx (х) = J fxY (х, у) йу - \ 2dy = 2уЦ = 2х, C.18) у о б) для остальных х: Обратите внимание на третий член в C.18), где интегрирование ведется от у = 0 до у = х. Это объясняется тем, что совместная плотность равна нулю при у <С 0 и у > х, т. е. для точек, лежащих вне треугольника. Аналогично, применяя C.14) к C.17), придем к маргинальной функции плотности вероятностей переменной Y: (а) при 0 < у < 1: j y), C.19) у (б) для у вне отрезка [0; 1]: Здесь снова нужно обратить внимание на третий член в соотношениях C.19), где интегрирование ведется от х = у до х = 1, что соответствует равенству нулю совместной плотности при х <Zy и х > 1, т. е. для точек, лежащих вне треугольника. Объединяя все эти результаты, получим О, при остальных х\ C.20) frwl? @, при остальных (/. Графики этих двух функций приведены на рис. 3.3, б и 3.3, в. Как мы видим, распределение переменной X «правотреугольное», а распределение переменной Y «левотреугольное». Далее, воспользовавшись обозначениями из раздела 2.4, запишем: X ~ В B,1) и Y ~ В A,2). Площадь под графиком каждой из функций плотности равна единице, что свидетельствует о корректности их вывода. Остается убедиться в том, 69
что полученные прямым путем результаты совпадают с C.20). Если это не так, упражнение 3.7 поможет вам обнаружить ошибку. На этом описание маргинальных распределений завершено. Данный раздел также мог показаться трудным; но не стоит огорчаться, если не все детали оказались для вас доступными. Вам придется в основном находить маргинальные распределения интересующих вас переменных непосредственно, т. е. не обращаясь к совместным распределениям. При этом вам потребуется главным образом материал гл. 2. Однако в тех редких случаях, когда необходимо прибегнуть к косвенному методу и привлечь для решения задач совместное распределение, нужно помнить следующее: в случае дискретных переменных маргинальную функцию вероятностей для переменной X (или Y) получают суммированием значений совместной функции вероятностей по всем значениям у (или х) (см. C.11) и C.12)); в случае непрерывных пере- менных маргинальную функцию плотности вероятностей для переменной X (или Y) получают интегрированием совместной функции плотности вероятностей по всем у (или х) (см. C.13) и C.14)). 3.4. УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ В двумерном случае маргинальное распределение — это распределение одной из двух переменных, если другая переменная игнорируется. В отличие от маргинального распределения условное распределение, которому посвящен данный раздел, представляет собой распределение одной переменной при наличии некоторой информации о другой переменной. Условные распределения, изучаемые в данном разделе, есть распределения одной переменной при заданных частных значениях другой переменной. Так, кто-то может утверждать, что значение Y равно 3; мы узнаем в этом разделе, как такая информация повлияет (если влияние будет иметь место) на вероятностную оценку переменной X. Как мы уже убедились, понятие условного распределения является обобщением понятия условной вероятности, введенного в разделе 2.5 для событий. Вспомним общий результат B.39), полученный для условной вероятности события F при наличии информации о том, что произошло событие Е: P(F\E) = Р(Е и F)IP (E). C.21) Рассмотрим числитель и знаменатель правой части C.21): в терминологии данной главы числитель является совместным вероятностным утверждением, а знаменатель — маргинальным вероятностным утверждением. Тем самым мы готовы обобщить формулу C.21), выведенную для событий, на случай переменных, воспользовавшись понятиями и обозначениями данной главы. 70
Обратимся вначале к дискретному случаю и предположим, что Е — «событие», при котором X принимает значение х, a F — «событие», при котором У принимает значение у. Тогда согласно C.21) р (Y = у'\ X = х) = Р (X = х и У = уIР (X = х). C.22) В правой части C.22) стоят хорошо известные нам выражения: в числителе — совместная вероятность fxy (x, у), а в знаменателе — предельная вероятность fx (x). В левой части C.22) находится вероятностное утверждение относительно У при данном конкретном значении X, т. е. условное вероятностное утверждение. Введем для него обозначение gY (у | х), т. е. gY(y\x)w=P(y = y\X = x). C.23) Обратите внимание на три важных момента, связанных с обозначением «gy ( .|jc)»: во-первых, индекс «У» указывает, что это утверждение относится к переменной У; во-вторых, запись «|л:» свидетельствует об условном характере утверждения, причем условием является равенство переменной X ее значению х\ в-третьих, использование строчной (а не прописной) буквы «g» говорит о том, что мы имеем дело с функцией вероятностей (а не с функцией распределения). С помощью нового обозначения соотношение <C.22) можно записать так: gY{y\x) = fxY(x,y)/fx(x). C.24) Этот общий и очень важный результат показывает, как может быть выведено условное вероятностное утверждение. В точности такие же соображения позволяют получить следующий результат, раскрывающий смысл условного вероятностного утверждения относительно X: gx (x\y)= fxv (х, y)lfy (у). C.25) Здесь, конечно, gx Цу) обозначает функцию вероятностей переменной X, когда известно, что У принимает значение у, т. е. условную функцию вероятностей. Чтобы проиллюстрировать понятие условной вероятностной оценки, рассмотрим два двумерных примера с дискретными переменными, уже обсуждавшиеся в этой главе. Первый пример — бросание двух монет; причем X принимает значение 1 (или 0), когда при бросании первой монеты выпадает герб (решетка), а значение Y равно числу гербов, выпавших при бросании двух монет. В табл. 3.3 были приведены значения совместной и маргинальных (для X и Y) функций вероятностей. Рассмотрим теперь различные условные распределения вероятностей для переменной У. Поскольку переменная X принимает лишь два значения @ и 1), существуют два условных распределения У: одно — при условии X = 0 и другое — при условии X = 1. Чтобы найти соответствующие условные функции вероятностей мы воспользуемся соотношением C.24), из которого следует, что получить, например, gy (*|0) можно, разделив значения fxv @, у) на fx @). Мы просто разделим зна- 71
у 0 1 2 Сумма ?У(У|О) 1/2 1/2 0 1 0 1/2 1/2 1 б) Условные распределения X X 0 1 Сумма 1 0 1 ?х(х!О 1/2 1/2 1 2Л'<*|2) 0 1 1 Таблица 3.5. Условные функции чения ИЗ столбца X = О табл. 3.3 вероятностей для примера с бросанием на СуМмарную для ЭТОГО столбца двух монет вероятность fx @). Аналогично а) Условные распределения Y v / и\ * > г н мы Наидем gy(.|l), разделив табличные значения столбца *= 1 на суммарную для этого столбца вероятность fx A). Результаты этих вычислений сведены в табл. 3.5, а. Убедимся в том, что значения из табл. 3.5, а согласуются с нашими интуитивными представлениями. Начнем с распределения при условии X = 0. Как следует из таблицы, когда X = 0, переменная У может с одинаковой вероятностью принимать значения 0 и 1 (но не может принять значение 2). Это означает, что когда при бросании первой монеты выпала решетка (т. е. X = 0), общее число выпавших при бросании двух монет гербов может с одинаковой вероятностью стать равным либо 0, либо 1 (но не может равняться 2). Это не вызывает сомнения. Из этой же таблицы видно, что когда X = 1, переменная У с одинаковой вероятностью принимает значение 1 или 2 (ноне может принять значение 0). Таким образом, если бросают две монеты и при бросании первой выпал герб (т. е. X = 1), то общее число гербов при бросании двух монет может с одинаковой вероятностью равняться 1 или 2 (но не может быть равным 0). Это также соответствует здравому смыслу. Чтобы найти условные распределения для X, мы поступим аналогичным образом со значениями из табл. 3.3. Как записано в C.25), нужно разделить каждую строку табл. 3.3 на соответствующую этой строке сумму вероятностей. Результат этого преобразования приведен в табл. 3.5, б. Вновь проверим, что эти результаты согласуются с нашими интуитивными представлениями. Как следует из таблицы, при У = 0 переменная X непременно принимает значение 0. Это соответствует тому, что если при бросании двух монет не выпало ни одного герба, то при бросании первой моненты обязательно выпала решетка. Аналогично, когда У = 2, переменная X должна быть равна 1. Наконец, когда У = 1, переменная X может с одинаковой вероятностью принимать значения 0 или 1. Проверьте этот последний результат самостоятельно. Перейдем теперь ко второму из двух наших примеров с дискретными переменными, а именно к примеру с бросанием двух игральных костей. 72
В нем X — число очков на первой игральной кости, a Y — абсолютная величина разности между очками, выпавшими при бросании двух костей. В табл. 3.4 приведены значения совместной функции распределения и маргинальных функций распределения для переменных X и Y. Чтобы найти условные распределения Y (или X), мы поступим точно так же, как в предыдущем примере: разделим значения каждого столбца (или строки) из табл. 3.4 на соответствующую этому столбцу (или строке) суммарную вероятность. В табл. 3.6 содержатся результаты такой процедуры для переменной У; читатель имеет возможность самостоятельно провести вычисления для переменной X. Таблица 3.6. Условная функция вероятностей для переменной У для примера с бросанием двух игральных костей у 0 1 2 3 4 5 Сумма gy(y\ О 1/6 1/6 1/6 1/6 1/6 .1/6 1 gy (У 1 2) 1/6 2/6 1/6 1/6 1/6 0 1 gy (У 1 3) 1/6 2/6 2/6 1/6 0 0 1 gy (У 1 4) 1/6 2/6 1/6 1/6 0 0 1 gy (У 1 5) 1/6 2/6 1/6 1/6 1/6 0 1 gy (У 1 6) 1/6 1/6 1/6 1/6 1/6 1/6 1 Из табл. 3.6 видно, например, что когда переменная X принимает значение 1, то переменная Y может с одинаковой вероятностью принять любое из шести значений: 0, 1, 2, 3, 4 и 5. Это вполне соответствует здравому смыслу. Вторая игральная кость при бросании может с одинаковой вероятностью упасть одной из шести своих граней: 1, 2, 3, 4, 5 или 6. После сопоставления с числом 1 на первой кости мы получим возможные и равновероятные значения разностей: 0, 1, 2, 3, 4 и 5 соответственно. Согласно этой же таблице при условии X = 3 переменная Y может принять одно из значений 0, 1, 2 и 3 соответственно с вероятностями 1/6, 2/6, 2/6 и 1/6. И вновь табличные данные подтвердятся результатами содержательного анализа самого примера. В самом деле, при бросании второй кости может выпасть любое количество очков: 1, 2, 3, 4, 5 и 6. Однако мы знаем, что при бросании первой кости выпало 3 очка. Следовательно, абсолютные величины разностей в «показаниях» двух костей будут 2, 1, 0, .1, 2 и 3 соответственно, т. е. значениям 0 и 3 для Y соответствуют вероятности -^-; значениям 1 и 2 — 2 вероятности -тр, а остальным двум значениям — нулевые вероятности. 73
Вы, наверное, обратили внимание на то, что в рассмотренных нами примерах иногда условное распределение вероятностей и соответствующее безусловное распределение совпадают, а иногда они различны. Так, в примере с бросанием двух монет маргинальное распределение для X (см. табл. 3.3) имело значения fx @) = 1/2, fx A) = -L вто время как три условных распределения (см. табл. 3.5) имели значения Ы0|0)=1; gx(l|0) = 0; Таким образом, fx (•) совпадает с gx (-| 1), но отличается и от ёх(' |0)» и от gx (• |2). Аналогичная ситуация уже рассматривалась в разделе 2.5, где отмечалось, что когда условная вероятность P(F\ E) и безусловная вероятность Р (F) различны, то событие Е «информативно» для события F в той мере, в какой последнее с ним связано. Вернемся к примеру с двумя монетами. Если вам сказали, что Y равняется нулю, то «информативно» ли это в отношении X? Конечно, да. Если же вы получили сведения, что Y — 1, то «информативно» ли это для X? Ясно, что, нет. (Знание того, что при бросании одной из двух монет выпал герб, не помогает нам установить результат бросания другой монеты, которая может лечь и гербом, и решеткой; однако сведения о том, что гербом не упала ни одна из двух монет, позволяют немедленно сделать вывод о том, что герб не выпал при бросании первой монеты.) Как видно из приведенных примеров, fx (•) и gx (*\y) совпадают, когда знание о том, что Y принимает значение у, неинформативно в отношении X, и, наоборот, fx (•) и gx (-\y) различны, когда информация о равенстве переменной Y своему значению у информативна в отношении X. В разделе 2.5 два события Е и F были названы независимыми, если Р (Е | F) = Р (Е) и Р (F \ Е) = Р (F), что означает равенство условных и соответствующих безусловных вероятностей. В точности так же мы назовем две переменные X к Y независимыми, если условные и соответствующие им безусловные функции вероятностей будут равны при всех значениях X и Y. Формально это определение записывается так: Переменные X и Y называют независимыми тогда и только тогда, когда ' ,~ с gx(x\y)=fx(x) и gY(y\x) = fY(y) * для всех хну. Ясно, что если X и Y независимы, то сведения относительно значения, принимаемого переменной Y (переменной Х)у всегда неинформа- 74
тивны в отношении значений, принимаемых переменной X (соответственно переменной Y). Если две переменные не являются независимыми (т. е. условия C.26) не удовлетворяются), то их называют зависимыми. В таких случаях сведения о значении переменной Y (переменной X) могут оказаться информативными для вывода о том, какие значения принимает переменная X (переменная Y). В каждом из рассмотренных двух примеров с двумя дискретными переменными X и Y зависимы, и лишь отдельные значения X или Y оказались неинформативными. (Это касается Y = 1 в примере с монетами и Y — 0 в примере с игральными костями. Можете ли вы указать другие значения?) Если объединить условие независимости C.26) с общими результатами для условных вероятностей C.24) и C.25), то получим следующий очень важный результат: Переменные X и Y независимы тогда и только тогда, когда 1 fxY (х, у) = fx (х) /у (у) для всех х и у. } Убг[) Итак, две переменные независимы тогда и только тогда, когда их совместная функция вероятностей равна произведению маргинальных функций вероятностей. Для функций, представленных в табличной форме (см. табл. 3.3. и 3.4), это равносильно равенству каждого табличного значения совместной функции вероятностей произведению суммарных (маргинальных) вероятностей, соответствующих столбцу и строке, на пересечении которых это значение находится. Ясно, что это справедливо не для всех значений из табл. 3.3 и 3.4 и отражает наличие зависимости между X и Y в наших примерах. (Однако для некоторых значений совместной вероятности такое соотношение справедливо; в частности, для тех, которые расположены в строке у = 1 табл. 3.3 и в строке у — 0 табл. 3.4. Говорит ли это о чем-то хорошо вам известном относительно двух данных примеров?) Можно считать, что все необходимое для определения условных вероятностных распределений в случае дискретных переменных мы сказали. Основные результаты содержатся в равенствах C.24) и C.25), выражающих условные функции вероятностей через совместные и маргинальные функции вероятностей. Перейдем теперь к непрерывному случаю. Как это было уже не раз, нужно только дать функциям, входящим в C.24) и C.25), новую интерпретацию, чтобы эти соотношения стали основными результатами и для непрерывного случая. Если соответствующие переменные непрерывны, то fxy (.,.)» fx (•) и /у (•) являются функциями плотности вероятностей. Остается дать такую же интерпретацию функциям gY (-\x) и gx (-|у). Чтобы быть точными, скажем, что gy (-\x) есть условная функция плотности вероятностей переменной Y при данном значении переменной X, которое равно ху а ёх (*\у) — условная функция плотности вероятностей переменной X при данном значении переменной У, которое равно у. Как мы уже отмечали, эти функции определяются, как и в дискретном случае, с по- 75
мощью соотношений C.24) и C.25). Приведем снова эти два соотношения: gv \У\х)= fxY (х, y)/fx (х)9 ) gx{x\y)=fXY{x1 y)lfY(y). } Чтобы получить условную функцию плотности вероятностей для переменной Y (для переменной X) при данном значении х (значении у) другой переменной, нужно разделить совместную функцию плотности вероятностей на маргинальную функцию плотности вероятностей для переменной X (для переменной Y). Проиллюстрируем сказанное двумя уже рассмотренными в данной главе примерами непрерывного двумерного распределения. В первом примере (см. рис. 3.1, б) точка случайным образом выбирается из единичного квадрата, а переменные X и Y определены как значения х я у, принимаемые координатами выбранной точки. Чтобы получить различные условные распределения, нам нужно, в силу C.28), знать совместное и маргинальные распределения. Совместная функция плотности вероятностей приведена в C.8), при этом очевидно, что совместная плотность вероятностей (или, что то же самое, плотность совместной вероятности) равномерна на единичном квадрате. Маргинальные функции плотности вероятностей для переменной X и для переменной Y заданы выражением C.15), причем ясно, что плотность вероятностей переменной X и плотность вероятностей переменной Y являются однородными на отрезке [0; 1]. Подставим C.8) и C.15) в C.28) и придем к следующему выражению для различных условных функций плотности вероятностей: \1 °<y^U (для0<х<1), 0, при других у\ , . . A, 0< х^ 1, @, при других х. (Заметим, что условное распределение Y (X) при данном х (у) за пределами отрезка [0; 1] не определено и лишено смысла. С этого момента мы примем соглашение, в силу которого значения х или у, выступающие в роли условия, могут выбираться только среди допустимых или возможных значений.) Итак, любое условное распределение переменной Y безотносительно данного значения х однородно на отрезке [0; 1]. Аналогично любое условное распределение переменной X однородно на отрезке [0; 1] независимо о того, какое значение у дано в качестве условия. Соответствует ли этот результат вашим интуитивным представлениям? Второй пример непрерывного двумерного распределения был схематично изображен на рис. 3.3, б. В нем случайным образом выбиралась точка из заштрихованного треугольника, а переменные X и Y 76
определялись как значения координат х и у этой выбранной точки. Совместная функция плотности вероятностей для данного примера задана формулой C.17), откуда видно, что эта плотность равномерна на данном треугольнике и равна в каждой его точке 2. Маргинальные функции плотности для переменных X и Y указаны в C.20); при этом распределение X оказалось «правотреугольным» на отрезке [0;1], а распределение Y — «левотреугольным» на отрезке [0;1]. Чтобы получить условные распределения для X и Y, подставим C.17) и C.20) в C.28): J . при других ,; g(\y)\ <& |0, при других х. Проинтерпретируем полученные результаты. Условная плотность для переменной Y (при данном х) не зависит от у. В самом деле, она является константой и равна значению — на всем отрезке [0; х]. Таким образом, условное распределение переменной Y при данном значении X = х однородно на отрезке [0; х]. Если мы вернемся к рис. 3.3, а, то увидим, в чем смысл подобной зависимости: как только в нашем распоряжении оказалась информация X = х> то при наличии информации о применении случайного механизма выбора мы можем сделать вывод о том, что переменная Y с одинаковой вероятностью принимает любые значения между 0 (ось абсцисс) и х (значение переменной Y на пересечении диагонали первого координатного угла и вертикальной прямой X = х). Аналогично C.30) означает, что условное распределение переменной X при данном Y = у равномерно на отрезке [у; 1]. Вновь обращаясь к рис. 3.3, а> мы обнаружим в этом простой геометрический смысл: благодаря информации Y = у и действию случайного механизма выбора мы можем заключить, что X с одинаковой вероятностью принимает любое значение из отрезка между у (значение переменной X на пересечении диагонали первого квадранта с горизонтальной прямой Y = у) и 1 (правая граница треугольника). Важно различие двух рассмотренных примеров. В первом условное распределение переменной Y при данном X = х не зависит от х\ более того, каждое условное распределение в точности совпадает с маргинальным распределением, т. е. gy (у \ х) = /V (у) для всех у и х. Аналогично в этом же примере условное распределение переменной X при данном Y = у не только не зависит от у, но и все условные распределения в точности совпадают с маргинальным распределением, т. е. gx (х | у) = fx (x) для всех х и у. Таким образом, ясно, что в первом примере переменные X и Y независимы (ср. C.26)). Другими словами, знание значения переменной X неинформативно в отношении 77
переменной К, а знание значения переменной Y неинформативно в отношении переменной X. Во втором примере ситуация противоположная — переменные X и Y зависимы. Как следует из C.30), условное распределение переменной Y зависит от ху равно как и условное распределение переменной X зависит от у. Более того, условные распределения и соответствующие им безусловные (т. е. маргинальные) распределения различны. Ясно, что в этом втором примере знание значения X информативно по отношению к К, а знание значения Y информативно по отношению к X. Так, если имеется информация х = 0,5, то мы оценим Y как Y ~ ~ U @; 0,5), если же * = 0,1, то Y ~ U @; 0,1). Из предшествующего обсуждения следует, что условия независимости и зависимости для непрерывного и дискретного случаев имеют одинаковый вид. Так, C.26) служит определением независимости для каждого из этих двух случаев, а C.27) — необходимое и достаточное условие независимости, применимое также в обоих случаях. Проиллюстрируем это на уже рассмотренных примерах с двумя непрерывными переменными. Для первого примера совместная функция плотности вероятностей задана выражением C.8) и маргинальные функции плотности — выражением C.15), что позволяет убедиться в справедливости равенства fXy (*, у) = fx (х) /у (у) для всех х и у. Тем самым в данном примере получила отражение независимость переменных X и Y. В отличие от первого примера во втором fxv (*, у), заданная выражением C.17), не равна произведению функций fx (х) и /у (у), определенных в C.20), что означает зависимость между переменными X и Y во втором примере. Вот, пожалуй, и все, что мы хотели сказать об условном распределении. Отметим еще раз основные моменты: даны определение условной функции вероятностей (для дискретного случая) и определение условной функции плотности вероятностей (для непрерывного случая). Алгебраически эти два определения эквивалентны (см. C.24), C.25), а также C.28)) и позволяют представить условные распределения с помощью совместного распределения и маргинальных распределений. В этом разделе мы обобщили также ключевое понятие независимости (введенное в разделе 2.5 для событий), которое применимо теперь и к переменным. Как было показано, независимость между двумя переменными — синоним их взаимной неинформативности. 3.5. МНОГОМЕРНЫЕ ВЕРОЯТНОСТНЫЕ РАСПРЕДЕЛЕНИЯ В трех предыдущих разделах мы рассмотрели случай двумерного распределения, причем нас интересовали вероятностные оценки в случае двух переменных. В данном разделе мы кратко опишем, как применить понятия, введенные в 3.2—3.4, в случае многомерного распределе- 78
ния, т. е. в ситуации, когда нас интересует одновременно несколько переменных. По целому ряду соображений, среди которых наиболее явное — достижение краткости, в этом разделе мы будем пользоваться векторными обозначениями/ Если вы хорошо знакомы с векторными обозначениями, то должны были обратить внимание ца их своего рода «стенографический» характер: они обеспечивают большое сокращение записи различных алгебраических выражений. Конечно, выигрыш от этого заключается и в достижении большей ясности изложения. Кроме того, появляется возможность проще перенести результаты, соответствующие двумерному случаю, на многомерный. Векторные обозначения потребуются нам исключительно для описания многомерных распределений, которое будет кратким и имеет целью переформулировку уже известных нам результатов. Введем некоторые векторные обозначения. Предположим, нас интересует множество из т переменных, обозначенных соответственно Хъ Х2,..., Хт. Вместо того чтобы писать «Хь Х2,..., Хт», мы можем воспользоваться обозначением X в качестве «стенографического» эквивалента множества (Хь Х2,..., Хт). Итак, вектор X определяется равенством X«(Xlt Х2, .... Хп). C.31) Для обозначения векторов применяют жирный шрифт. Конечно, т может принимать значение, равное 1; это будет означать, что нас интересует только, одна переменная. В этом случае вектор X содержит только один элемент Хх и превращается в величину, называемую скаляром. Таким образом, скаляр — частный (вырожденный) случай вектора. До сих пор (т. е. в гл. 2 и в разделах 3.1—3.4 данной главы) мы имели дело исключительно со скалярами, но, как мы увидим, полученные результаты допускают непосредственное обобщение на случай векторов. Для обозначения значений, принимаемых множеством переменных Хъ Х2,..., Хт, мы воспользуемся соответствующими строчными буквами хъ #2,..., хт\ эти значения также образуют вектор. Обозначим его через х, т. е. х==(хи хъ ..., хт). Далее мы будем записывать уравнения, пользуясь векторными обозначениями. Например, векторное уравнение является «стенограммой» множества из т уравнений: А1 = х1, Х2=х2, ..., Хт — хт. Аналогично выражение Х<х 79
представляет собой сокращенную запись т выражений i, Х2 ^ х2у ..., Х Следовательно, запись «Р (X < х)» обозначает «вероятность того, что значение Хг не превосходит хг\ значение Х2 не превосходит х2\...\ значение Хт не превосходит хт». Теперь ясно, какую огромную экономию в записи обеспечивают векторные обозначения. В двумерном случае мы имели дело с двумя (скалярными) переменными X и Y. Чтобы указать на существование множества параллелей между материалом данного и предыдущих разделов этой главы, мы будем рассматривать здесь две (векторные) переменные X и Y. Предположим, что X содержит т переменных Хъ Х2, ..., Хту a Y — п переменных Yly У2,.••> Уп- Общее число переменных равно т + п. Конечно, тип могут принимать любые натуральные значения, начиная с 1. Когда и т, и п равны 1 одновременно, мы приходим к частному случаю, при котором и X, и Y — скаляры, и все сводится к двумерному случаю, уже рассмотренному в разделах 3.2—3.4. Здесь будет проанализирован наиболее общий случай, когда мы имеем дело c/n-f/i переменными: Хг, Х2,..., Хт и Уь У2,.-, Yn, где т и п — любые натуральные числа, начиная с 1. В данном разделе мы распространим определения из разделов 3.2—3.4 на векторный случай. В частности, мы введем понятия совместного распределения векторов X и Y, маргинальных распределений X и Y, а также условного распределения вектора X при данном Y = у и условного распределения вектора Y при данном X =х. Если в разделе 3.2 речь шла о двух скалярах X и У, то в этом разделе мы будем говорить о двух векторах X и Y. Возникает вопрос: можно ли перенести все результаты, полученные ранее для двух скалярных переменных, на случай двух векторных переменных, заменив лишь скалярные обозначения векторными} Если это возможно, то (поскольку случай многих переменных мы отождествляем со случаем двух векторов) стоящую перед нами задачу можно считать решенной. Ответ на поставленный выше вопрос будет положительным. Рассмотрим вначале дискретный случай и начнем как всегда с совместного распределения. Для двух скалярных переменных совместная (или двумерная) функция вероятностей задана соотношением C.4). Эквивалентное векторное соотношение выглядит так: /xy(x, y) = P(X=x и Y = y). C.32) В подробной записи это означает, что совместная функция вероятностей для т + п переменных Хг, Х2,..., Хт, У1% У2, ..., Уп» принимающих значения хъ х2,..., хт, уъ у2У ..., уПУ определяется как вероятность того, что Хх = х1у Х2 = х2у ..., Хт = хт\ Yx = уъ У2 = */2, ..., Yn = уп. С этого момента мы не будем приводить подробную запись, эквивалентную векторной, с тем, чтобы читатель приобрел навык в применении векторных обозначений. 80
Соотношение C.32) определяет многомерную функцию вероятностей. Оно представляет собой совместное вероятностное утверждение, относительно двух векторов X и Y (или, что эквивалентно, относительно т + п переменных Хл, Х2,..., Хт; Уъ К2, ..., Yn). Как и в случае двух скалярных переменных, можно определить маргинальные распределения для X и Y и показать, как они связаны с совместным распределением. В случае двух скалярных переменных связь между маргинальными распределениями и совместным распределением была задана соотношениями C.11) и C.12); векторные эквиваленты этих равенств имеют вид: /x(x)-2/xy(x, у), | C.33) ЫУ)= 2/xy(x, у). X В первом из этих равенств суммирование ведется по всем значениям вектора у, а во втором — по всем значениям вектора х. Функции /х (х) и /у (у) допускают уже знакомую нам интерпретацию: первая из них измеряет вероятность того, что X = х, а вторая — вероятность того, что Y = у. Аналогично могут быть определены условные распределения и указаны соотношения, связывающие их с совместным распределением и с маргинальными распределениями. В случае двух скалярных переменных эти соотношения заданы формулами C.24) и C.25); им соответствуют следующие векторные эквиваленты: Эти распределения также допускают уже известную нам интерпретацию. Так, gy (у | х) измеряет условную вероятность того, что Y равняется у, если дано, что X равняется х; аналогично gx (x | у) измеряет условную вероятность равенства вектора X его значению х, если дано, что Y равняется у. Как и ранее, мы можем определить понятие независимости векторных переменных. Соответствующее определение для скаляров было дано в C.26); векторный эквивалент этого определения имеет вид: ' векторные переменные X и Y называют независимыми) тогда и только тогда, когда [ C.35) gx (х|у) - /х (х) и gY (у | х) = /Y (у) для всех х и у. J Сформулируем для векторов необходимое и достаточное условие независимости (ср. с C.27)): Векторные переменные X и Y независимы тогда и толь-1 ко тогда, когда \ C.36) /xy (х, у) = /х (х) /Y (у) для всех х и у. J 8i
Для непрерывных переменных переход к многомерному случаю осуществляется также легко. Так, /XY (x, у) обозначает многомерную (или совместную) функцию плотности вероятностей для векторных переменных X и Y, принимающих значения X = х и Y = у. Маргинальные функции плотности /х (•) и /у(-) связаны с этой совместной функцией плотности соотношениями, аналогичными соотношениям C.13) и C.14) для двух скалярных непрерывных переменных: /х (х) = J /XY (x, у) dy, У \ C.37) Ыу)= Vxy(x, y)dx. X В первом из этих соотношений интегрирование ведется по всем значениям вектора у, а во втором — по всем значениям вектора х. В случае двух скалярных переменных соотношение между условным распределением и соответствующим совместным и маргинальным распределениями одинаково как для дискретных, так и для непрерывных переменных. То же справедливо и для многомерного случая: Поэтому C.34) можно рассматривать как соотношение, связывающее условную функцию плотности вероятностей для Y при данном X — х (для X при данном Y = у) с общей функцией плотности и с соответствующей маргинальной функцией плотности. Отсюда следует, что условия независимости сохраняют свой вид и для непрерывного случая, т. е. C.35) и C.36) справедливы как для дискретных, так и для непрерывных переменных. Условие C.36) означает, что для двух (векторных или скалярных) независимых переменных их совместную функцию вероятностей (плотности) можно представить в виде произведения их маргинальных функций вероятностей (плотности). Последовательное применение этого результата позволит показать, что для множества скалярных переменных, независимых между собой, совместная функция вероятностей (плотности) может быть представлена в виде произведения всех индивидуальных маргинальных функций вероятностей (плотности) для рассматриваемых переменных. Поскольку это весьма важный результат и мы неоднократно будем обращаться к нему, запишем его формально. Если Х = (ХХ, Хъ ..., Хт), причем все Хъ Х2, ... ..., Хт независимы между собой, то w.w,wfe,w...fc.w-n/,w C38) для всех ха(х19 х2, ..., хт). (Если вы не привыкли к символу «П», обратитесь к приложению 1.) 82
Предположим, например, что Хъ Х2,..., Хт — независимые между собой переменные, каждая из которых удовлетворяет бета-распределению (см. раздел 2.4), т. е. Xt ~ В (a,, fc), i = 1,2,..., т. Тогда (см. <2'27)) ос x*i-l(\-xt)*i-l, * = 1, 2, ..., m, и, следовательно, совместная функция плотности вероятностей для X 2= (Хь Х2,..., Хт) будет иметь вид (мы воспользовались C.38)): fx(x)oc i= I Итак, благодаря использованию векторных обозначений в многомерном случае мы получаем такие же соотношения, как и в случае двух скалярных переменных. 3.6. ОБОБЩАЮЩИЕ ХАРАКТЕРИСТИКИ До сих пор обсуждались в основном полные характеристики вероятностных оценок. Так, в случае дискретных переменных использовались различные формы функций вероятностей, а для непрерывных переменных — функций плотности вероятностей. Однако, как уже отмечалось в гл. 2, подобные полные характеристики часто оказываются избыточными для достижения стоящих перед нами целей. Поэтому мы предпочитаем иметь дело с небольшим числом обобщающих характеристик, тем более что это ведет обычно к значительному упрощению. В разделе 2.3 мы уже рассматривали обобщающие характеристки для случая одномерного распределения. В частности, мы выяснили свойства вероятностных интервалов (минимальной длины) и различных характеристик центральной тенденции и разброса. Подобные характеристики представляют интерес при изучении свойств любого одномерного распределения. Отсюда следует, что они могут быть использованы для формирования обобщающих характеристик маргинальных и условных распределений в случае двух скалярных переменных, а также в случае двух векторов, если один из них — одномерный. Такие обобщающие характеристики одномерного распределения, вообще говоря, содержат достаточно информации. Нам встретится лишь несколько случаев, когда придется обращаться к обобщающим характеристикам двух (скалярных или векторных) переменных. Именно ради этих нескольких случаев мы введем в данном разделе соответствующие характеристики. Проанализируем обобщающие характеристики совместного распределения двух переменных. Для упрощения изложения мы сосредоточим внимание на случае двух скалярных переменных, однако всем содержащимся здесь материалом можно непосредственно воспользоваться при рассмотрении случая двух векторов. Введем обобщающие характеристики двух типов. К первому относится естественное обобщение 83
понятия вероятностного интервала (минимальной длины), которым мы пользовались в одномерном случае, ко второму — мера связанности (или мера ассоциативности), которая соотносится с основными характеристиками центральной тенденции и разброса для одномерного случая. Напомним, что для одной переменной а-процентный вероятностный интервал (минимальной длины) был определен как такой-отрезок [х19 х2]У для которого Р (*! < X < х2) = а/100, и разность х2 — хг принимает наименьшее из возможных значение. Обобщением этого понятия на случай двух переменных будет а-про- центная вероятностная область (наименьшей площади) — такая область R в пространстве (X, Y)> что Р 1(х, у) принадлежит R] = = а/100, причем R имеет наименьшую (из возможных) площадь. Если двумерное распределение унимодально (его совместная функция А плотности вероятностей имеет Рис. 3.4. Уровни постоянства плотности °ДНУ вершину), ТО МОЖНО ПО- вероятностей (изокванта) казать, что граница области R задается уравнением fxY (x, у) = const. (Здесь нужно вспомнить свойство унимодальных распределений в одномерном случае, когда на концах вероятностного интервала минимальной длины достигалось равенство fx (%i) = fx (х2)- Это равенство обобщается в записанное выше уравнение, определяющее границу области R.) Это уравнение — типичная запись линий безразличия или определения изоквант. В нашем конкретном случае уравнение /лу(*, */)=const определяет уровни постоянства плотности (изокванты) совместного распределения. Если представить себе совместную функцию плотности как поверхность одновершинного холма в трехмерном пространстве, то соответствующие ей уровни поверхности плотности вероятностей будут представлять собой контуры горизонтальных сечений этого холма, проведенных на разных расстояниях от плоскости (X, Y). Если затем контуры сечений спроектировать на плоскость (X, У), то получим «контурную карту» уровней постоянства плотности типа той, которая изображена на рис. 3.4. (точные значения fXy (.,.), соответствующие каждой изо- кванте, на рисунке не отмечены). На этом же рисунке схематично изображены две вероятностные области (минимальной площади): двойной штриховкой отмечена 50-процентная вероятностная область, а один раз заштрихована 90-процентная вероятностная область. 84
Точная форма линий уровня, конечно, существенно зависит от вида совместного распределения. В последующих главах мы будем неоднократно обращаться к двумерному нормальному распределению, которое служит обобщением на двумерный случай одномерного нормального распределения, введенного в разделе 2.4. Общий вид функции плотности вероятностей двумерного нормального распределения приведен в упражнении 3.12; здесь мы рассмотрим частный случай этого распреде- 0,5 S) р = 0,9 Рис. 3.5. Уровни постоянства плотности вероятностей (изокван- ты) для двумерного нормального распределения ления, интересный главным образом как хорошая иллюстрация. Пусть переменные X и Y удовлетворяют совместной функции плотности вероятностей /xy (х, у) ос ехр 2-2рху + у2)/[2 A -р2)]}. C.39) (Вы можете убедиться, что оба маргинальных распределения являются стандартными нормальными распределениями.) Линии постоянства уровней (изокванты) для этой функции определяются уравнением х2 — 2рху + у2 = const. C.40) Форма определяемых этим уравнением кривых зависит от р: если р = 0, то уравнению C.40) соответствует множество концентрических окружностей с центром в начале координат (см. рис. 3.5, а); если р > 0, то этому уравнению соответствует множество концентрических эллипсов, главная диагональ которых имеет положительное направление (т. е. ее угловой коэффициент положителен, см. рис. 3.5, бив). Кроме того, с увеличением р эллипсы становятся более вытянутыми вдоль положительно направленной главной диагонали. Если р < 0, то изокванты, соответствующие уравнению C.40), представляют собой множество концентрических эллипсов, главная ось которых имеет отрицательное 85
направление (т. е. ее угловой коэффициент отрицателен), и с увеличением значений р по абсолютной величине эллипсы становятся все более вытянутыми в этом направлении. ( Случай р < 0 не иллюстрируется.) Линии уровней аккумулируют информацию о взаимосвязи между двумя переменными. Так, на рис. 3.5, а изображен случай, когда такая взаимосвязь между X и У отсутствует, а на рис. 3.5, б и в — случай положительной связи между этими переменными. (Заметим, что при р = 0 совместную плотность C.39) можно записать так, что она будет пропорциональна ехр(—х2/2) ехр (—#2/2), т. е. пропорциональна произведению маргинальных плотностей. Воспользовавшись свойством C.27), мы можем сделать вывод о том, что при р = 0 переменные X и Y независимы.) Совокупность изоквант на рис. 3.5, в свидетельствует о наличии более сильной связи между А" и У, чем в случае, которому соответствует рис. 3.5, б. Существует альтернативный и гораздо более «компактный» способ обобщения формы связи между двумя переменными X и Y\ он предполагает использование характеристики, называемой ковариацией. Ее обозначают cov (X, Y) и определяют для дискретного случая с помощью равенства cov(X, 10 = 22[(*-?Х)(у-ЕУOлу(х, У)Ь C-41) х У которому соответствует очевидный непрерывный эквивалент cov(X, Y) = H(x-EX){y-EY)fXY(x, y)dxdy. C.42) х у С этой характеристикой связана другая, называемая коэффициентом корреляции между X и Y'. Коэффициент корреляции обозначают через гху (или просто через г; указывать переменные не обязательно, если их отсутствие не вызовет недоразумений) и определяют следующим образом: cov(X, К) (sdX)(sdy) V 7 Можно показать, что коэффициент корреляции гху всегда лежит на отрезке между — 1 и + 1 и что он измеряет тесноту линейной связи между переменными. В частности, гХу равен 0, когда линейная зависимость между X и Y отсутствует; он равен — 1, когда между X hY существует точная отрицательная линейная зависимость, и равен + 1, если между переменными имеется точная положительная линейная связь. В случае двумерного нормального распределения, заданного функцией C.39), коэффициент корреляции rXY равен р, что вполне отвечает данной ранее интерпретации зависимости от р вида изоквант. Мы будем пользоваться понятием коэффициента корреляции и в дальнейшем. 86
3.7. РЕЗЮМЕ Данная глава посвящена обобщению базовых характеристик распределения вероятностей, введенных в гл. 2, на случай двух и многих переменных. Мы начали со случая двух переменных и ввели сначала понятие совместного распределения вероятностей, а затем показали, как маргинальные распределения (их определяют для каждой переменной в отдельности) связаны с совместным распределением. Затем было введено исключительно важное понятие условного распределения вероятностей, которое представляет собой распределение одной переменной при наличии конкретной информации о другой переменной. Было показано, как условные, совместные и маргинальные распределения связаны между собой. Мы также сформулировали важное условие независимости переменных. Все эти понятия были затем обобщены на случай многомерного распределения; для упрощения изложения мы воспользовались векторными обозначениями и переписали многие из результатов, ранее полученных для скаляров, в векторной форме. В конце главы мы остановились на некоторых обобщающих характеристиках для двумерного случая. Одним из самых важных понятий, сформулированных в этой главе, является понятие условного распределения. Как будет показано в следующей главе, это понятие необходимо при моделировании процесса объединения новой информации и уже имеющихся вероятностных оценок. 3.8. УПРАЖНЕНИЯ Упражнения отмеченные звездочкой, предназначены для читателей, владеющих техникой вычисления интегралов. 3.1. Рассмотрим эксперимент с двукратным бросанием «правильной» монеты. Пусть X принимает значение 1 @), если при первом бросании выпадает герб (решетка), a Y принимает значение 1 @), если герб (решетка) появляется при втором бросании. Постройте совместную, маргинальные и условные функции вероятностей (в табличной форме). (Должны получиться одно совместное, два маргинальных и четыре условных распределения.) Являются ли X и Y независимыми? 3.2. Рассмотрим эксперимент в ходе которого «правильная» монета подбрасывается четыре раза. Пусть X — число выпавших гербов, a Y — число решеток, выпавших после появления первого герба (если не выпало ни одного герба, то принимают Y = 4). Постройте в табличной форме совместную, маргинальные и условные функции вероятностей. (Должны получиться одно совместное, два маргинальных и десять условных распределений.) Будут ли X и Y независимыми? 3.3. Найдите условную функцию вероятностей (в табличной форме) для примера с бросанием двух игральных костей, который рассматривался в разделах 3.2—3.4 3.4. Покажите, что в примере с бросанием двух игральных костей условие У=3 неинформативно для X. 3.5. Предположим, что совместная функция вероятностей дискретных переменных X и Yзадана в виде "•, *= 1,2,3; 0=1,2. 87
Найдите маргинальные и условные распределения. Будут ли X и Y независимыми? 3.6. Пусть совместная функция вероятностей для дискретных переменных X и Y имеет вид: Найдите маргинальные и условные распределения. Будут ли X и Y независимыми? 3.7. Убедитесь в справедливости формул C.20), непосредственно воспользовавшись определением эксперимента с треугольником. (Указание. Рассмотрите сначала вероятность того, что X лежит между х и х + Аде; вычислив площадь соответствующего треугольника, покажите, что эта вероятность равна Таким образом, плотность вероятности х на отрезке [х, х + Ах] равна 2х + Ах. Следовательно, плотность вероятности х равна 2х.) 3.8. В тексте были приведены два примера непрерывных двумерных распределений: один — для единичного квадрата, другой — для прямоугольного треугольника, Лежащего справа под диагональю этого квадрата. Рассмотрите в качестве третьего примера треугольник, расположенный над этой же диагональю квадрата. Найдите (в алгебраической форме) совместную, маргинальные и условные функции плотности вероятностей. Будут ли X и Y независимыми? 3.9*. Предположим, что механизм выбора точки (х, у) из единичного квадрата таков, что совместная функция плотности вероятностей для этой точки имеет вид: 1— х)(\—у), для других точек. Найдите маргинальные и условные функции плотности. Будут ли X и Y независимыми? 3.10*. Пусть точка (хуу) выбрана из единичного квадрата таким образом, что совместная функция плотности вероятностей для этой точки имеет вид: fj/, 0<л:<1, 0<*/< 1. для других точек. Найдите маргинальные и условные функции плотности. Будут ли X и Y независимыми? 3.П.* Пусть X ~ U @,2) и пусть условное распределение Y при данном X = х есть U @, х2). Найдите совместную функцию плотности и маргинальную функцию плотности для Y. Определите условное распределение X при данном У = у, а затем укажите среднее значение X при условии Y = у. 3.12*. Переменные X и Y удовлетворяют двумерному нормальному распределению, если их совместная функция плотности вероятностей имеет вид: zl—2pzYz где х—У>х ZY = И Zy — 88
Покажите, что маргинальная функция плотности X имеет вид: т. е. X~N([iXi <т?). Покажите также, что У ~ N (цу, ау). Далее, убедитесь в том, что условная функция плотности Y при данном X = х такова: Проинтерпретируйте эти результаты. Каково условное распределение X при данном К = у? 2 3.13.*. Покажите, что для распределения из упражнения 3.10 66—-про- «3 центная вероятностная область (минимальной площади) представляет собой треугольник, прямой угол которого совпадает с северо-восточным углом квадрата, а гипотенуза — с лежащей против этого угла диагональю квадрата. 3.14. Пусть совместная функция плотности X и Y имеет вид: I XY \ ' *" (.0, в других точках. * Найдите маргинальные функции плотности для X и Y. Будут ли X и Y независимыми? 3.15. Дана совместная функция плотности вероятностей переменных X и Y: / 1х </)=Л XY @, в других точках, * Найдите маргинальные и условные функции плотности. Будут ли X и Y зависимыми? 3.16. Совместная функция плотности вероятностей переменных X и Y имеет вид: [0, в других точках. Покажите, что X и Y независимы и каждая из этих переменных удовлетворяет распределению G (а, р) (см. раздел 2.4).
ГЛАВА 4 ИНФОРМАЦИЯ 4.1. ВВЕДЕНИЕ До сих пор мы занимались описанием и обобщением «статических» вероятностных оценок, т. е. в соответствии с некоторым фиксированным объемом информации. Теперь мы выясним, как изменяются вероятностные оценки при появлении новой информации. Таким образом, данная глава посвящена изучению того, как новая информация может быть объединена с уже существующими вероятностными оценками. Нас интересует, каким образом новая информация воздействует на вероятностные оценки. Чтобы отличить оценки, сделанные до поступления информации, от оценок после ее получения и инкорпорирования, будем называть первые априорными ожиданиями (априорными оценками), а вторые — апостериорными ожиданиями (апостериорными оценками). Применение термина «ожидание» позволяет подчеркнуть, что мы продолжаем трактовать вероятностные оценки как субъективные оценки некоего индивида. (К сожалению, прилагательные «априорный» и «апостериорный» используются лишь статистиками байесовского направления; многие специалисты, в частности экономисты, по глубоко укоренившейся традиции применяют вместо этих прилагательных латинские выражения «ex ante» и «ex post».) Ясно, что на апостериорные ожидания влияют как априорные ожидания, так и новая информация. Более того, относительные веса, приписываемые априорным ожиданиям и новой информации при определении апостериорных ожиданий, зависят от сравнительной степени доверия к априорным ожиданиям и к новой информации. Цель данной главы — установить формальные и точные связи между апостериорными ожиданиями, с одной стороны, априорными ожиданиями и новой информацией — с другой. Как мы увидим, подобная формализация достигается при помощи теоремы Байеса, с которой мы впервые встретились в разделе 2.5. Теореме Байеса посвящен раздел 4.3. До этого в разделе 4.2 мы познакомимся с несколькими простыми примерами инкорпорирования новой информации. Возникшие в связи с этим идеи будут формализованы в 4.3 путем применения теоремы Байеса. В разделах 4.4 и 4.5 описаны примеры более существенных приложений этой теоремы, причем 90
в 4.4 эти приложения относятся к случаю, когда рассматриваются события, а в 4.5 — переменные. К этому моменту мы уже выясним, каким образом новая информация воздействует на априорные ожидания. Поэтому в разделе4.6 остановимся на обсуждении того, как относиться к отсутствию априорной информации и можно ли ею полностью пренебречь. Материал этого раздела окажется полезным в ситуации, когда у нас не будет оснований для формирования какого-либо априорного суждения и для получения апостериорных выводов придется полностью опираться на новую информацию. Как обычно, глава содержит резюме (раздел 4.7) и упражнения (раздел 4.8). 4.2. УЧЕТ НОВОЙ ИНФОРМАЦИИ. ПРОСТЫЕ ПРИМЕРЫ Наверное, проще всего проиллюстрировать учет новой информации на примере ситуации, когда эта новая информация полностью исключает всякую неопределенность. Вернемся к примеру из гл. 2 и предположим, что нас интересует переменная X, определенная как возраст автора этой книги на 26 сентября 1984 г. Если вам не известно истинное значение Ху то в вашей оценке X будет содержаться некоторая степень неопределенности. В зависимости от того, что вы обо мне знаете, или от вашей склонности к риску, вашей оценкой переменной X может стать либо U C6, 42), либо V C0, 50), либо V B0, 80), либо N D0, 9), либо N C8,4), либо что-то еще. Но предположим, что я сообщил вам дату своего рождения — 26 сентября 1944 г. Допустим, вы мне доверяете (т. е. считаете информацию точной). Тогда любая неопределенность в отношении X исчезнет: вам известно, что X равняется 40. Итак, каковы бы ни были ваши априорные ожидания по поводу X, ваши апостериорные ожидания есть U D0, 40) (или, что то же самое, N D0, 0) — ив том, и в другом случае распределение вырождается в единственное значение 40). Ясно, что в данном случае, если считать информацию точной, то «рациональным» будет принять ее в качестве апостериорного ожидания: любые апостериорные ожидания, кроме X = 40, неоправданны. Эти представления о «рациональности» могут быть обобщены, что и сделано далее. (Мы оставим пока в стороне весьма интересный вопрос о формировании апостериорного распределения в случае, когда поступившая информация не воспринимается адресатом как точная, и он относится к ней с некоторым подозрением. Подумайте, что бы вы предприняли в такой ситуации.) Рассмотрим еще один пример, когда часть информации полностью исключает неопределенность. Предположим, что весьма подозрительного вида человек обратился к вам в поезде с предложением «сыграть на пятерку» в «орлянку» и при этом извлек из своего кармана монету, которую не разрешил вам осмотреть. По его словам, это совершенно обычная, «правильная» монета. Однако вы, естественно, насторожились 91
и предположили, что монета может оказаться двусторонней, т. е. с обеих сторон иметь герб. Будучи все-таки человеком непредубежденным, вы готовы согласиться на 50 шансов из 100, что ваш попутчик роворит правду. Он в свою очередь высказал готовность вначале трижды опробовать монету, чтобы уменьшить ваши опасения. Предположим, что во время этих трех пробных бросаний появилась решетка. Тогда (по отношению к вашим априорным ожиданиям) всякая неопределенность исчезнет. Монета, очевидно, не имеет гербов с двух сторон и вам остается сделать вывод, что она «правильная». (Обратите внимание на специфический характер этого примера, отражающего ту крайнюю ситуацию, в которой в соответствии с априорными ожиданиями имеются только две возможности — либо монета «правильная», либо у нее два герба. На деле вам следовало бы рассмотреть и другие возможности, например, монета может быть неровной, т. е. иметь смещение, вследствие чего герб выпадает чаще.) Итак, когда поступила новая информация о том, что выпала решетка, неопределенность исчезла. Однако, если бы новая информация состояла в том, что трижды выпал герб, неопределенность осталась бы, но предпочтительнее стала бы гипотеза о наличии у монеты двух гербов. В двух приведенных сейчас примерах часть имеющейся информации полностью исключила всякую неопределенность относительно имевших место подозрений. Это весьма необычная ситуация. Гораздо чаще поступившая информация уменьшает неопределенность, но не исключает ее полностью. Вернемся вновь к переменной X, характеризующей возраст автора на 26 сентября 1984 г. Вообразите, что вам неизвестна дата рождения автора и ваша оценка состоит в том, что X ~ U C6,42), Предположим, я сообщил вам, что родился не ранее 26 сентября 1943 г., т. е. к дате, для которой определяется переменная X, мне исполнилось не более 41 года. Какой станет ваша апостериорная оценка X в свете полученной информации (в предположении, что вы считаете сообщенные мною сведения истинными)? По-видимому, U C6, 41). (До получения информации вы считали одинаково возможными все значения X от 36 до 42; информация состояла в том, что X не превосходит 41; поэтому будет правильным сделать вывод, в силу которого X с одинаковой вероятностью может принимать любые значения от 36 до 41.) Пусть, далее, я сообщил вам, что родился не позднее 26 сентября 1946 г., т. е. к дате, для которой определяется X, прошло не более 38 лет. Какова ваша апостериорная оценка X, учитывающая и эту дополнительную информацию (вновь в предположении ее истинности)? Наверное, U C8, 41). Вы можете обобщить последний пример. Пусть чьи-либо априорные ожидания по поводу X выражаются распределением U (а> Ь), где а меньше Ь. С появлением информации (предполагаемой истинной), что X не превосходит d, где а <С d <C Ь, апостериорные ожидания будут соответствовать распределению U (a, d). После того как поступит дополнительная (тоже предполагаемая истинной) информация о том, 92
что X не меньше с, где а < с < d, новые апостериорные ожидания будут отвечать распределению U (с, d). Этот пример удобен также для иллюстрации явления, описанного в гл. 2 и 3 и названного нами неинформативностью информации. Предположим, чья-то априорная информация о переменной X характеризовалась распределением U (а, Ь). Пусть теперь в распоряжении этого индивида оказалась информация о том, что X больше с, где с меньше а. Такая информация, очевидно, не может повлиять на оценку X, поскольку в силу априорных ожиданий уже предполагалось, что X больше с. Таким образом, апостериорные ожидания будут характеризоваться тем же распределением U (а, Ь). В этом случае и говорят о неинформативности информации. (Это вовсе не означает, что та же самая информация не окажется информативной для кого-либо другого, например, для того, чьим априорным распределением было U (е, /), где е < с < Возвращаясь к обсуждению проблем независимости в разделах 2.5 и 3.4, мы можем добавить, что информация по поводу некоторой переменной (или события) неинформативна, если эта информация и рассматриваемая переменная (или событие) независимы. Например, значение некоторой переменной Y называют неинформативным в отношении переменной Ху если переменные X и Y независимы. Формально это выражается условием независимости между переменными (см. C.26)), а именно gx (х | у) = fx (x) для всех х и у. D.1) В терминах данной главы gx (*\у) аккумулирует апостериорные ожидания о переменной X в свете информации о том, что Y равняется уу в то время как fx (•) обобщает априорные ожидания по поводу X. Уравнение D.1) отражает формально тот очевидный факт, что при независимости X nY апостериорные ожидания (после получения «информации» у) в точности совпадают с априорными ожиданиями. Таким образом, поступившая «информация» не изменила имевшейся оценки. Мы вновь встречаемся с проявлением «рациональной» реакции. Впрочем, вы вряд ли измените точку зрения на возраст автора, узнав, что один из торговых индексов в пятницу, 30 июля 1982 г., находился на отметке 556,5. В данном разделе мы рассмотрели два крайних случая. В первом некоторая часть информации полностью исключала всякую неопределенность. Во втором полученная информация не оказала никакого воздействия на априорные вероятностные оценки. Мы кратко описали и промежуточный случай, когда поступившая информация изменяет априорную оценку, ведет к уменьшению неопределенности, но и не устраняет ее полностью. В следующем разделе мы рассмотрим этот случай более детально. 93
4.3. УЧЕТ НОВОЙ ИНФОРМАЦИИ. ТЕОРЕМА БАЙЕСА Начнем с одного из простейших применений теоремы Байеса. Предположим, что нас интересует, произойдет или нет некоторое событие F. Для иллюстрации возьмем конкретный пример: предположим, F — событие, состоящее в том, что завтра будет дождь. Обозначим через? событие, являющееся отрицанием события F> т. е. в нашем примере F означает, что дождя завтра не будет. Ясно, что может произойти одно и только одно из событий F и F. В статистике такие события называют взаимно исключающими (только одно имеет место) и взаимно дополняющими (одно непременно имеет место). Теперь, опираясь «а ваш опыт и знания, а также выглянув в окно, вы можете сформировать суждение об относительном правдоподобии F и F. Другими словами, вы можете указать некоторые оценки для Р (F) и Р (F). (Это могут быть и не очень «хорошие» оценки, если рассматривать их с «объективных» позиций. Нас интересуют ваши оценки и то, как они изменятся в свете полученной вами новой информации.) Ваши оценки окажутся «рациональными» лишь при условии, что сумма вероятностей будет равна 1, т. е. P(F) + P(F)=1. D.2) Предположим вначале, что обе вероятности отличны от нуля: Р (F) > > 0 и Р (F) > 0. Позднее мы выясним, что произойдет, если одна из двух вероятностей равна нулю. (Таким образом, если вы живете, например, в Сахаре или в Манчестере, где одно из двух событий F или F выглядит вполне определенным, вам придется позаботиться о другом иллюстративном примере.) Предположим теперь, что вы решили послушать прогноз погоды на завтра. Этот прогноз представляет собой информацию по интересующему вас вопросу. Обычные прогнозы, конечно, многоаспектны, а информация* которую можно из них извлечь, многомерна. Однако мы рассмотрим частный и предельно простой вариант прогноза, когда либо говорится, что завтра будет дождь, либо что дождя завтра не будет. Первый из этих прогнозов обозначим через Е> а второй — через Ё. Итак, событие Е (оно служит для нас информацией) состоит в предсказании того, что завтра будет дождь, а событие Е (оно также служит информацией) — в предсказании того, что дождя завтра не будет. Предположим, что на завтра предсказан дождь. (В наших обозначениях: произошло событие Е.) Какова после этого ваша оценка F? По- видимому, она зависит от степени вашего доверия прогнозам погоды и от уверенности в ваших собственных априорных ожиданиях. Это утверждение можно формализовать. Нас интересует величина Р (F \ Е) — вероятность события F при наличии информации о событии ?, т. е. ве- 94
роятность того, что завтра будет дождь, при условии, что бюро погоды предсказало дождь. Воспользуемся третьим законом вероятностей, сформулированным в B.38), и запишем: Р (F\E) = P (EnF)/P (?). Числитель этого выражения можно раскрыть, если воспользоваться третьим законом еще раз. Тогда P(F\E)-= p<EWpW m D.3) Это соотношение — оно является простейшей формой теоремы Байе- са — нам уже встречалось (см. B.40) в разделе 2.5). Его можно интерпретировать по-разному, но нас будет интересовать наименее сложная интерпретация: в силу D.3) апостериорная вероятность F (в свете информации Е) равна произведению априорной вероятности F на отношение Р (Е \ F)IP (E). Остается интерпретировать отношение. В нашем конкретном примере числитель представляет собой вероятность оправданного предсказания дождя, т. е. вероятность того, что бюро погоды предсказало дождь, и дождь на самом деле был; в знаменателе стоит просто вероятность предсказания дождя. Таким образом, частное от деления этих двух вероятностей можно рассматривать как отношение правдоподобия для правильно предсказанного дождя. В более общем случае это частное является отношением правдоподобия поступления «информации» ?*, когда затем происходит событие F. Или, проще, это частное есть отношение правдоподобия Е при данном F. Предположим, что вы пренебрежительно относитесь к прогнозам погоды, поскольку уверены в их бесполезности, хотя и не считаете, что с помощью прогнозов вас преднамеренно вводят в заблуждение. Ваше пренебрежительное отношение можно выразить формально D.4) или, эквивалентно, P(E\F)=P(E\F). D.5) Уравнение D.4) свидетельствует о том, что вероятность предсказания дождя будет такой же, независимо от того, пойдет дождь на самом деле или нет, и в то же время в силу уравнения D.5) вероятность предсказания сухой погоды будет одной и той же как в случае, когда дождь пойдет, так и в случае, когда его не будет. Заметим, что D.4) и D.5) являются следствиями одно другого, поскольку сумма Р (Е \J?) _+ + P(E\F) равняется единице, как и сумма Р (Е\ F) + Р (Ё\ F). Очень важно вытекающее из D.4) следствие, в силу которого каждая из двух вероятностей, Р (Е | F) и Р (Е \ F), равна Р (?). Другими словами, условные вероятности для Е совпадают с безусловной вероят- 95
ностью наступления этого события. В этОм можно убедиться следующим образом. Рассмотрим событие Е. Поскольку оно может произойти при наступлении одного и только одного из событий F и F, с помощью обозначений из раздела 2.5 можно записать Е = (Е и F) или (Е и F). D.6) Это тождество означает, что при наступлении события Е могут произойти либо оба события Е и Fy либо оба события Е и F. Далее, поскольку событие (Е и F) и событие (Е и F) не могут произойти вместе, применим второй закон вероятностей B.36) к тождеству D.6) и получим Р (Е) = Р (Е и F) + Р (Е и F). Воспользуемся теперь третьим законом вероятностей B.38) и раскроем два члена, стоящие в правой части полученного выражения: P(E) = P(E\F)P (F) + Р(Е | F) P (F). D.7) Уравнение D.7) описывает вполне очевидный факт, что событие Е происходит, когда либо F должно произойти и затем при данном F должно произойти ?, либо F не должно произойти и уже при этом условии должно произойти Е. Пусть равенство D.4) имеет место. Воспользуемся им для преобразования D.7) и вспомним, что Р (F) + Р (?) = 1: />(?) = />(? | F) [P (F) + Р (F)] = P(E\ F). Таким образом, если равны условные вероятности Р (Е \ F) и Р (Е | F), то они равны также и безусловной вероятности Р (?), т. е. равенство всех трех субъективных вероятностей является следствием вашей уверенности в бесполезности прогнозов погоды, которая и нашла отражение в соотношении D.4). Точно так же можно вывести из соотношения D.5), эквивалентного D.4), равенство условных вероятностей Р (Е | F) и Р (Е | F) безусловной вероятности Р (Е). Если мы обратимся теперь к теореме Байеса D.3), то увидим, что из D.4) следует P(F\E) = P (F), поскольку отношение взаимного правдоподобия Р (Е \ F)IP (E) обращается в 1. Тем самым мы показали, что из уверенности в бесполезности прогнозов погоды, чему соответствует соотношение D.4), вытекает равенство между апостериорной вероятностью F и априорной вероятностью этого события: «информация» Е не изменяет нашей оценки. После всех приведенных здесь рассуждений придется сообщить читателю, что они, в общем-то, излишни. Единственное, что следовало сделать, это обратить внимание на связь с понятием независимости. Ваша уверенность в бесполезности прогнозов, воплощенная в соотношении D.4), не что иное, как независимость. Поэтому надо было лишь показать, что если «информация» не зависит от интересующего нас со- 96
бытия (или переменной), то эта «информация» неинформативна. Действительно, мы можем установить указанное свойство в самом общем виде: если «информация» не зависит от интересующего нас объекта, то отношение правдоподобия D.3) равно единице, т. е. апостериорная оценка совпадает с априорной оценкой, f Рассмотрим теперь другой крайний случай. Предположим, что прогноз погоды всегда соответствует действительности или, по крайней мере, что вы в это верите. Формально этому соответствуют равенства: P(E\F) = l, P(W\F) = Q, P(E\7) = 0, P(EyF)^\. D.8) Первые два из них (каждое из которых выводится из другого) означают, что дождь идет только тогда, когда он был предсказан. Два последующих (они также являются следствиями одно другого) свидетельствуют о том, что если дождя нет, то это было непременно предсказано. Заметим, что из двух первых не вытекают два оставшихся равенства, поскольку может случиться, что каждый дождливый день был действительно предсказан, однако в некоторых случаях дождь был обещан, но его не было. Если подставить равенства D.8) в D.7), то мы увидим, что Р(Е) = Р (F), а воспользовавшись последним равенством и формулами D.8), подставив их в выражение для теоремы Байеса, получим Р (F\E) = 1. Итак, гипотеза о совершенном (точном) прогнозе означает, что апостериорная оценка вероятности дождливой погоды, если такая погода была предсказана, равна 1, независимо от того, какой была априорная оценка. Заслуживает внимания один крайний случай. Предположим, вы считаете, что посредством прогнозов вас умышленно вводят в заблуждение и что они совершенно не соответствуют действительности; формально это воплощается в уравнения: P(?|F) = 0, P(E\F) = I, P(?|F)- 1, Р(Ё\Т)- 0. D.9) (Проверьте, что это действительно так.) Объединяя D.9) с D.7) и D.3) получим P(F\E) = 0. Таким образом, для совершенно неверных прогнозов апостериорная оценка вероятности дождливой погоды при условии, что она была предсказана, равна нулю, независимо от того, какой была априорная оценка. Теперь мы можем перейти к промежуточному случаю. Между отрицанием пользы прогнозов (этой гипотезе соответствуют соотношения D.4) и D.5)) и уверенностью в их совершенстве (эта гипотеза соответствует соотношениям D.8)) находится «промежуточная позиция» относи- 4 Зак. 2161 97
тельно прогнозов, согласно которой они «лучше, чем ничего, хотя и несовершенны». Эта гипотеза формализуется с помощью цепочки неравенств P(E\F)>P(E)>P(E\F) D.10) или с помощью эквивалентной цепочки неравенств P(F\F)<P(E)<:P(E\7). D.11) (Прежде чем двигаться дальше, отметим ряд связей между D.10) и D11). Во-первых, D.10) и D.11) следуют друг из друга. Во-вторых, из любых двух неравенств D.10) и D.11) вытекают все остальные неравенства этих соотношений. В-третьих, аналогичное предыдущему свойство имеет место для D.11): из любых двух неравенств D.11) вытекает третье.) Если неравенства D.10) и D.11) удовлетворяются, то отношение правдоподобия Р (Е \ F) IP (E) превосходит 1. Следовательно, по теореме Байеса D.3) Р (F | Е) > Р (F). Можно установить также, что в этом случае (см. упражнение 4.4) P(F\E)<P(F). Итак, когда мы имеем дело с прогнозами, которые «лучше, чем ничего, хотя и несовершенны», предсказание дождя увеличивает вероятностную оценку того, что пойдет дождь, и уменьшает вероятностную оценку того, что дождя не будет. Ясно, что подобные аргументы можно привести и по поводу отношения к прогнозам как к «вводящим в заблуждение, хотя и не абсолютно». Обобщим теперь результаты обсуждения: при совершенно надежных прогнозах апостериорная оценка Р (F \ Е) равна 1 независимо от значения Р (F)\ при достаточно хороших прогнозах апостериорная вероятность больше априорной; при бесполезных прогнозах апостериорная вероятность совпадает с априорной; при частично ошибочных прогнозах апостериорная вероятность меньше априорной; при совершенно ошибочных прогнозах апостериорная вероятность равна 0 независимо от значения априорной вероятности. Таким образом, вероятностная оценка пересматривается либо в сторону повышения, либо в сторону понижения в свете поступившей (одинаковой по содержанию) информации, причем направление и характер этого пересмотра зависят от качества прогнозов (в смысле их связи с реальным исходом). Эти выводы из теоремы Байеса D.3) имеют глубокий смысл. Отметим еще одно следствие теоремы Байеса. Из D.7) видно, что Р (Е) — взвешенная средняя величина двух условных вероятностей Р (Е | F) и Р (Е | F), причем весами являются Р (F) и Р (F), сумма которых равна 1. Поэтому для любой данной пары Р (Е \ F) и Р (Е \F), такой, что Р (Е | F) больше Р (Е \ F) (случай отношения к прогнозам, определенного нами как «лучше, чем ничего»), чем больше вероятность 98
P (F), тем больше вероятность Р (?). (Для рассматриваемого нами отношения к прогнозам — чем больше вероятность дождя, тем более вероятно, что будет предсказан дождь.) Теперь с помощью теоремы Байе- са D.3) мы можем убедиться в том, что с увеличением Р (F) уменьшается разность Р (F | Е) — Р (F). Это соответствует принципу, которому все следуют интуитивно: априорные ожидания становятся тем более надежными, чем менее они нуждаются в пересмотре в связи с поступлением новой информации. Проведенный анализ опирался на предположение о том, что и для Fy и для F априорная вероятность отлична от нуля, т. е. Р (F)> О и Р (F) > 0. Для полноты картины рассмотрим теперь случай, когда одна из этих вероятностей равна нулю. (Очевидно, что обе они в нуль не обращаются, поскольку их сумма равна 1.) Пусть, например, Р (F) = 0, и тогда Р (F) =¦ 1. Если взглянуть теперь на теорему Байеса D.3), то можно увидеть, что в нашем случае Р (F | Е) = Р (Е | F)IP (?). Однако из D.7) (с учетом тех же условий) получим: Р (Е) = Р (Е | F). Итак, если Р (F) - 1, то Р (F \Е) = 1. Поступившая информация не изменила нашей оценки. Не изменит она ее и в случае, когда P(F) = 0: при этом Р (F \ Е) обращается в нуль, в силу теоремы Байеса. На этом анализ основных следствий, вытекающих из теоремы Байеса, завершен. Нашей целью было показать в этом разделе применение теоремы Байеса в ее простейшей форме. В частности, мы убедились в том, что модель учета новой информации наряду с существующими вероятностными оценками интуитивно приемлема и что соотношение, связывающее апостериорные и априорные оценки и новую информацию, также соответствует интуитивным представлениям. Конечно, подобные ссылки на интуицию вовсе не обязательны для подтверждения логической корректности теоремы Байеса (поскольку эта теорема выводится логически из трех простых вероятностных законов, сформулированных в гл. 2), они свидетельствуют лишь о том, что логика и интуиция в рассматриваемых вопросах согласованы. 4.4. ПРИМЕНЕНИЕ ТЕОРЕМЫ БАЙЕСА К ОПИСАНИЮ СОБЫТИЙ Хотя с формальной точки зрения формулировка теоремы Байеса для вероятностного описания событий, соответствующая равенству D.3), является общей, и ей можно воспользоваться при решении различных вероятностных задач, она не приспособлена непосредственно для ответов на конкретные вопросы, возникающие на практике. В начале данного раздела мы приведем более удобную для этих целей формулировку, а затем рассмотрим ее применение. В предыдущем разделе мы сосредоточили внимание на ситуации, когда имеется лишь одно, интересующее нас событие F и событие F, 4* 99
состоящее в том, что F не происходит. В данном разделе мы будем предполагать, что в поле нашего зрения находится / событий Fu F2»«••» F/. Пусть эти / событий взаимно исключающие и образуют полное множество событий] другими словами, только одно из этих событий может произойти, но одно происходит обязательно. Формально это означает, что событие (Ft и Fj) невозможно при 1ф \, а событие (Fx или F2 или ... или F/), в записи которого учтены все возможные варианты, обязательно происходит. Обозначим через Р (F,), * = 1,2,..., /, где 2 Р (Fj) =-- 1,— априор- «= 1 ные оценки вероятностей / рассматриваемых событий. Как и прежде, будем обозначать через ? поступившую новую информацию, а апостериорные оценки вероятностей этих событий — через Р (Fi | ?), /' = 1,2, ..., /. Поскольку простейшая форма записи D.3) теоремы Бай- еса является наиболее общей, ею можно воспользоваться для определения Р (Ft | ?): ^l?L^i?A, ( = 1,2,...,/. D.12) Знаменатель можно преобразовать, как мы это делали в разделе 4.3: Е = (? и Fij или (Е и F2) или...или (Е и F/), а поскольку любое событие (? и Ft) и любое событие (? и Fj) взаимно исключают друг друга при i Ф у, то Р (?) = Р (? и Fx) Л Р (? и F2) + ... 4 Р (? и ?/), или Р(?)= 2р(? и ^)- /= i Наконец, воспользуемся B.38), чтобы записать Р (Е и F^) как Я (? | Fj) P (Fj). Получим Возьмем теперь D.13), чтобы преобразовать выражение для апостериорной оценки события Fi'. ^Ё1ЫШйч Ь.1,2,...,/. D.14) 2 [P(E\Fj)P(Fj)] Мы получили обобщенную форму теоремы Байеса для событий. Проведем обычную проверку правильности расчета вероятностей D.14) и подсчитаем их сумму по всем /--- 1, 2, ..., /. Если ошибок в преобразованиях нет, то эта сумма должна равняться 1 .(При проверке воспользуемся тем, что события Fu F2»-> Fi взаимно исключают друг дру- 100
га и образуют полное множество событий.) Суммируя D.14) по i = - 1, 2, ...,/, получим / S IP (E IZ7,) *> (^)) !^ =1, 1 2 что позволяет надеяться на отсутствие ошибок. Заметим, что в процессе суммирования мы вынесли знаменатель за скобки, поскольку он не зависит от индекса, по которому ведется суммирование. Но более важное обстоятельство, на которое мы можем обратить внимание благодаря проведенной проверке, то, что знаменатель в D.14) является просто масштабным множителем, обеспечивающим равенство суммы всех апостериорных вероятностей 1. Мы можем кратко (см. 2.4) записать выражение D.14) в виде P(Fi\E)ocP(E\Fi)P(Fi),i^l,2,...,I, D.15) где множитель пропорциональности выбирается так, чтобы обеспечивалось равенство суммы апостериорных вероятностей 1. Эта запись теоремы Байеса будет часто использоваться в дальнейшем. Соотношение D.15) допускает простую интерпретацию. Вспомним, что Р (Fi) обозначает априорную вероятность события Fb P (Ft \ Е)— апостериорную вероятность, а Р (Е \ Ft) — вероятность поступления информации при условии, что Ft имеет место. Чаще всего Р (Е \ Ft) рассматривают как правдоподобие Е при данном Fiy т. е. меру того, насколько вероятно получить информацию ?, если событие Ft считать свершившимся. Пользуясь этим термином, можно сформулировать теорему Байеса, записанную в виде D.15), следующим образом: апостериорная оценка пропорциональна произведению априорной оценки на правдоподобие полученной информации. D.16) Эта теорема формализует интуитивное представление, в силу которого апостериорная оценка представляет собой сочетание («смесь») новой информации с априорной оценкой. Рассмотрим пример, более привлекательный своей простотой, нежели реалистичностью. Предположим, у вас есть три монеты: одну из них вы считаете «правильной»; вторую — смещенной так, что вероятность выпадения герба втрое больше, чем решетки, и третью — смещенной так, что вероятность выпадения решетки втрое больше, чем герба. Пусть некто случайным образом выбрал одну из трех монет, но не сообщил вам, какую. Затем он дважды ее подбросил, r оба раза выпал герб. Какова ваша апостериорная оценка того, какая монета выбрана, в свете полученной информации о появлении двух гербов при двух ее бросаниях? 101
Введем обозначения и сделаем два ключевых предположения. Пусть Fx обозначает событие, когда выбранная монета чаще выпадает гербом, F2 — выбрана «правильная» монета, F3 — выбранная монета чаще выпадает решеткой. Через Е обозначим информацию о том, что при двух бросаниях дважды появился герб. Чтобы приступить к расчетам, нам придется сделать предположения относительно процедуры выбора и механизма бросания. В силу отсутствия альтернативных соображений мы будем считать их «правильными», вкладывая в это следующий смысл. Во-первых, для процедуры выбора будем считать, что Р (Fi) -"- Р (FJ = Р (Fs) - 1/3, D.17) т. е. имелись одинаковые шансы выбрать любую из трех монет. Во-вторых, относительно механизма бросания предположим, что Р (Я | Fx) = 3/4, Р (Я, F2) = 1/2, Р (Я, Fs) = 1/4, D.18) где через Я обозначено событие, состоящее в появлении герба при одном бросании монеты. В равенствах D.18) отражены и уверенность в «правильности» самого механизма бросания, и ваши представления о свойствах каждой из трех монет. Теперь мы имеем возможность рассчитать апостериорные вероятности. Для наглядности мы сначала применим теорему Байеса в ее развернутой записи D.14), после чего повторим выкладки для случая сокращенной записи D.15). Поскольку Е есть информация о том, что при двух бросаниях выбранной монеты дважды появился герб, с помощью D.18) мы можем найти P(E\F^ — Р{[(Н при первом) и (Я при втором)!|/71} = = Р[(Н при первом) \F^]P [(Я при втором I/7,] — — JL 3 = 9 ~~ 4 ' 4 ~~ 16 Конечно, нам пришлось предположить, что исходы двух бросаний независимы. Аналогично Р (Е | F2) = 4/16 и Р(Е | F3) = 1/16. Теперь (с учетом D.17)) мы располагаем всем необходимым для того, чтобы вычислить знаменатель выражения, стоящего в правой части D.14): -!_X_L+JLX_L+J_X_L=J1. Г6 3 16 3 16 3 48 102
Применяя D.14) последовательно для каждого из событий Faj получим (9,16) X A/3) ^ 14/48 14/48 D/16) X A/3) 4/48 14/48 PIF \Е)= 1 14/48 14/48 1/48 14/48 = 9/14; = 4/14; Итак, апостериорные вероятности Fl9 F2 и F3 в свете информации о появлении двух гербов при двух бросаниях выбранной монеты равны 9/14, 4/14 и 1/14 соответственно. Из сравнения с априорными вероятностями 1/3, 1/3, и 1/3 становится ясно, что благодаря наблюдениям чаша весов существенно склонилась в пользу события F,t означающего выбор монеты, чаще выпадающей гербом. Сокращенная запись теоремы Байеса D.15) позволяет упростить арифметические выкладки. Соответствующие расчеты сведены в табл. 4.1. Столбец B) содержит значение априорной вероятности для каждого *', столбец C) — характеристики правдоподобия «информации» ?, столбец D) получается перемножением значений двух предшествующих столбцов (ср. D.16)). Чтобы найти множитель пропорциональности, определяем сумму значений столбца D) и затем делим на эту величину каждое из содержащихся в столбце значений; тем самым получаем числа столбца E). Для каждого i число, стоящее в столбце E), пропорционально произведению априорной вероятности на правдоподобие информации, но, кроме того, сумма всех чисел этого столбца равна 1. Следовательно, в столбце E) содержатся значения апостериорных вероятностей. Конечно, вычисления можно еще упростить, если избавиться от дробей в столбцах B), C) и D). Тогда в столбце B) будут стоять числа 1, 1 и 1; в столбце C) — числа 9, 4 и 1; в столбце D) — числа 9, 4 и 1. Сумма элементов столбца D) равна 14 и апостериорные вероятности равны соответственно 9/14, 4/14 и 1/14, как в табл. 4.1. Таблица 4.1. Вычисление апостериорных вероятностей для примера с тремя монетами A) 1 2 3 Сумма P(Fi) B) 1/3 1/3 1/3 P(E\Ft) C) 9/16 4/16 1/16 P(E\Fi)P(Fi) D) = B)ХC) 9/48 4/48 1/48 14/48 Р (FJE) E) = D):SD) = «=D) : 14/48 9/14 4/14 1/14 1 103
Безусловно, апостериорные вероятности зависят от полученной информации. Проведенные выше выкладки опираются на информацию о том, что при двух бросаниях выбранной монеты дважды появился герб. Но мы не обратили внимание читателя на то, что при получении различной информации мы придем к различным апостериорным вероятностям. Вы можете самостоятельно проверить правильность вычисления апостериорных вероятностей, приведенных в табл. 4.2, в левой части которой (табл. 4.2 (а)) использована информация о появлении при двух бросаниях одного герба и одной решетки, а в правой части (табл. 4.2 (б)) — двух решеток. Таблица 4.2. Апостериорные вероятности для примера с тремя монетами с учетом вариантов поступившей информации (а) Е= { герб и решетка при двух бросаниях} 1 1 2 3 P(Ft\E) 3/10 4/10 3/10 (б) Е={две решетки при двух бросаниях } i 1 2 3 P(JPi\E) 1/14 4/14 9/14 Мы еще вернемся к этому примеру, а теперь найдем те же значения другим способом. Упростим этот пример: выбранная монета подбрасывается только один раз. Зададимся тем же вопросом, что и прежде: каковы апостериорные оценки того, какая монета выбрана, если при одном ее бросании выпал герб? При тех же предположениях относительно процедуры выбора и механизма подбрасывания, что и раньше, правдоподобие информации Е (появление одного герба при одном подбрасывании монеты) для Flt F2 и F3 будет иметь значения: Р (Е | F,) = 3/4, Р (Е | Ft) = 2/4, Р (E\F3) = 1/4. D.19) Следовательно, если для априорных вероятностей сохраняются оценки D.17), то апостериорные вероятности Fly F2 и Fs пропорциональны 3/12, 2/12 и 1/12 соответственно. После деления на масштабный множитель получим следующие значения апостериорных вероятностей: Р (Л | Е) -= 3/6, Р (F2 | Е) = 2/6, Р (F, | Е) = 1/6. D.20) Пусть теперь монету подбросили второй раз, и исходом снова было появление герба. Каковы по вашим предположениям апостериорные вероятности в свете этой информации? Ясно, что можно прибегнуть к той же процедуре, что и ранее. Соответствующие правдоподобия останутся теми же, что и в D.19), поскольку в нашем конкретном примере мы предположили возможные исходы при втором бросании такими же, как при первом. Априорными вероятностями, соответствующими 104
новой ситуации, будут значения D.20), поскольку именно такими оценками вы располагали к моменту поступления новой порции информации — стал известен исход второго подбрасывания монеты. Итак, произведения соответствующих значений, характеризующих правдоподобие информации и априорные вероятности событий Fu F2 и ?3» будут равны 9/24, 4/24 и 1/24 соответственно. Разделим их на масштабный множитель и получим апостериорные вероятности для ситуации, когда при двух последовательных бросаниях выбранной монеты дважды появлялся герб: Р (Fx | Е) = 9/14, Р (F2 | Е) = 4/14, Р (F3 | Е) = 1/14. Эти выражения в точности совпадают с теми, которые были получены в первоначальном примере, когда исходы двух подбрасываний рассматривались как одна порция информации. Таким образом, мы показали, что независимо от того, рассматриваем ли мы исходы двух бросаний монеты как одну порцию информации или же считаем их двумя порциями информации (пересматривая наши оценки после получения очередной порции), мы приходим в итоге к тем же самым апостериорным оценкам. Это весьма обнадеживающий результат. (В самом деле, благодаря тому, что он имеет место, у нас гораздо меньше трудностей, чем в противном случае.) Возможно, у вас появилось желание убедиться в том, что этот результат справедлив в гораздо более общем случае? Сделаем несколько общих замечаний, прежде чем завершить этот раздел. Во-первых, еще раз укажем на факт, в пользу которого мы успели уже привести множество аргументов: «информация» становится неинформативной, если она и интересующее нас явление независимы. В терминах этого раздела независимость характеризуется условием Р (Е | Ft) = Р (Е) для всех / = 1, 2, ...,/. Очевидно, что при подстановке этого равенства в D.14) — запись одной из форм теоремы Байеса, мы получим Р (Ft | Е) = Р (Ft) для всех i = 1, 2, ...,/. Поступление такой «информации» не вызывает изменения вероятностных оценок. Мы можем также обобщить проведенный ранее анализ на случай, когда априорная вероятность какого-либо из событий равна нулю. Из D.14) тогда вытекает, что если Р (F7) = 0, то Р (Fj\E) также обращается в нуль. Итак, если мы рассматриваем событие, которое изначально считаем невозможным, то никакое число наблюдений не убедит нас в обратном. Укажем не совсем очевидное следствие последнего результата: апостериорная вероятность события зависит также и от множества других событий, которые мы считаем возможными. По сути, это утверждение неявно подразумевается в данном разделе, но было бы полезно убедиться в его справедливости непосредственно. Рассмотрим в чисто иллюстративных целях первоначальный пример с монетами. Пусть вновь в результате двух бросаний выбранной монеты дважды появился герб. Предположим теперь, что имеются только две возможности, которые могут реализоваться в отношении выбранной моненты, допустим Fi и 105
F3. (Следовательно, априорная вероятность F2 равна нулю.) Вы можете убедиться в том, что если каждая из рассматриваемых возможностей равновероятна, то апостериорные вероятности после появления двух гербов при двух бросаниях будут Р (Fx | Е) = 9/10 и Р (F3\E) = 1/10. D.21) Конечно, этот результат отличается от полученного в случае, когда все три возможности предполагались равновероятными; вместе с тем следует отметить, что отношение апостериорных вероятностей осталось тем же (почему?). Заметим также, что если информация Е и какое-либо событие Fj взаимно исключают друг друга (т. е. они не могут произойти одновременно), то появление Е автоматически ведет к невозможности появления Fj. Другими словами, Р (Fj | E) = 0. Это вытекает из D.14), так как Р (Е | Fj) должно обращаться в нуль, если Е и F — взаимно исключающие друг друга события. Выше мы рассмотрели случай, когда Е и одно событие Fj взаимно исключают друг друга. Ситуация существенно усложняется, если появляется информация ?, которая оказывается взаимно исключающей с каждым событием Ft. При этом мы можем встретиться с неожиданностями. К сожалению, теорема Байеса не подсказывает выхода из создавшегося положения. (И числитель, и знаменатель в правой части соотношения D.14) обращаются в нуль, поэтому апостериорную вероятность не удается определить.) Суть происходящего ясна: нужно убедиться в правильности всех построений, начиная с того, что множество Flt F24..., Fi содержит все возможные исходы даже в том случае, когда многим из них соответствуют очень малые априорные вероятности. Нам осталось проиллюстрировать сделанное в начале гл. 2 замечание о том, что апостериорные оценки в свете большого количества поступающей информации сближаются независимо от исходных априорных оценок. Рассмотрим модификацию нашего примера с монетами, в которой все внимание сосредоточено на возможностях Fx и F3> a по поводу оставшейся третьей возможности принято предположение Р С«) = 0- Пусть величина Р (Рг) обозначена через р. Тогда Р (F3) = = 1 — р. Предположим далее, что выбранная монета подбрасывается п раз, причем в т случаях из них появляется герб. Апостериорные оценки вероятностей в свете этой информации будут выглядеть следующим образом (см. упражнение 4.11): от _ P(Ft\E)-. 2_? . 3mp-+3"~m(l— р) D.22) P(F9\E) 3m/4 3" -т{\— 106
Допустим, выбранная монета такова, что герб выпадает в три раза чаще решетки. Тогда при очень длинной серии подбрасываний т будет стремиться к Зя/4. Следовательно, в выражениях для Р (Ft \ E) и Р (F3\ E) мы можем перейти к пределу при неограниченном возрастании п. Для первой из этих вероятностей получим = Иль П-»оо 33"/4р+3Л/4A— р) Аналогично убеждаемся, что Р (F31 E) при неограниченном возрастании п стремится к нулю. Итак, если выбранная монета чаще выпадает гербом, то в пределе вы убедитесь в этом независимо от того, каким будет исходное значение р. Точно так же исследуется случай, когда выбранная монета чаще выпадает решеткой (в силу симметрии ситуации изменится только ее наименование). Этот результат, весьма обнадеживает и допускает обобщение. 4.5. НЕКОТОРЫЕ ПРИЛОЖЕНИЯ ТЕОРЕМЫ БАЙЕСА ДЛЯ ПЕРЕМЕННЫХ Теорема Байеса для переменных выводится так же, как-это было сделано в разделах 4.3 и 4.4 для событий. Поэтому мы опустим формальный вывод и просто дадим для переменных аналог сокращенной формы D.15) записи этой теоремы: gv (y\x)oc gx (х| у) fY (у) для всех х и у. D.23) Чтобы проинтерпретировать это соотношение, будем считать Y некоторой интересующей нас переменной, а X — наблюдением (в форме, присущей переменным), которое потенциально содержит «информацию» о Y. Левая часть соотношения D.23) представляет собой апостериорные ожидания относительно Y в свете «информации» х. Первый сомножитель в правой части есть правдоподобие получения информации х при данном у, а второй сомножитель — априорные ожидания относительно Y. Вновь теорема Байеса, оказывается формализованным отражением интуитивного представления, в силу которого апостериорная оценка связана с новой информацией и априорной оценкой. Следует сопоставить две записи теоремы Байеса (для переменных и для событий), т. е. соотношения D.23) и D.15). Наблюденному значению х в первом соответствует Е во втором, а значениям, принимаемым переменной Y в первом, — события Fu F2, ..., F/ во втором. Соответствуют друг другу так же обозначения апостериорных вероятностей gY (у | х) и Р (Ft | ?), правдоподобий gx (х \ У) и Р (Е \ Ft) и, наконец, априорных вероятностей fY (у) и Р (Ft). 107
"Сделаем несколько замечаний по поводу D.23). Во-первых, это соотношение имеет место как для дискретных, так и для непрерывных переменных. Если X —дискретная переменная, rogx (• \у) — функция условных вероятностей; если же X — непрерывная переменная, то gx (• \ у) — функция плотности условных вероятностей. Точно так же, если Y — дискретная переменная, то gY (-| х) и /у (•) — условная и безусловная функции вероятностей; если же Y — непрерывная переменная, то gy (-| х) и /у (•) —условная и безусловная функции плотности вероятностей. Однако множитель масштаба или множитель пропорциональности будет зависеть от того, дискретна или непрерывна переменная Y. Так, если Y — дискретная переменная, то множитель масштаба (т. е. множитель, который превращает D.23) из соотношения пропорциональности в равенство) равен 2 Igx (х\ у) fy (*/)]• Если перемен- у ная Y непрерывна, то соответствующий масштабный множитель равен I ёх (х\ У) fy (y)dy. И в том и в другом случае суммирование или у интегрирование соответственно ведется по всем х. Соотношение D.23) одинаково справедливо как для скалярных переменных X и К, так и для векторных переменных X и Y. Поэтому мы получаем возможность рассматривать многомерные вероятностные оценки для каждой из этих переменных, а также пользоваться многомерной информацией (которая может содержать данные о нескольких наблюдениях одной переменной, одном наблюдении каждой из нескольких переменных, о нескольких наблюдениях нескольких переменных). Перейдем теперь к применению D.23). Начнем с тривиального примера, так как с его помощью проще получить некоторые результаты из гл. 3. Рассмотрим пример с монетами из гл. 3. Подбрасывались две («правильные») монеты, при этом переменная X принимала значение 1, если при бросании первой монеты выпадал герб, и 0 — в противном случае, а переменная Y определялась как общее число гербов, появившихся при бросании двух монет. Прибегая к обозначениям D.23), мы будем считать Y интересующей нас переменной, а наблюденное значение X будем рассматривать как порцию информации. Априорная оценка Y (в предположении, что монеты «правильные») будет (ср. (ЗЛО)) равна: fY @) = 1/4, fY A) = 1/2, fY B) = 1/4. Чтобы воспользоваться D.23) для какого-либо наблюденного значения х, нам нужно знать значения gx (х | у) для всех (возможных) х и у. Эти значения (см. табл. 3.5) таковы: gx @|0) =-¦ 1, gx <0| 1) = 1/2, gx @ | 2) = 0, = 0, gx(\\l) = 1/2, ? Посредством D.23) мы можем теперь вывести апостериорные распределения Y для каждого из возможных значений «информации» о переменной X. 108
(а) Если наблюденное значение X равно 0, то ?y@|0)ocg.Y@|0)fr@) = 1x1/4 = 1/4, «у A |0) ос ^@|1)/уA) = 1/2x1/2 = 1/4, Ы210) ос gx@|2)/yB) = 0x1/4 = 0. Масштабный множитель, соответствующий трем найденным значениям, равен: 1/4 + 1/4 + 0 = 1/2. Преобразуя с его помощью значения в правых частях соотношений пропорциональности, найдем апостериорные оценки: 0, при других у. Таким образом, получен результат, в силу которого падение первой монеты решеткой (X = 0) означает наличие равных шансов E0 на 50) появления при бросании двух монет либо одного герба, либо ни одного, т. е. значением Y будет либо 0, либо 1. (б) Если наблюденное значение X равно 1, то gv(l\ 1) ос *х(Ф)/уA)= 1/2x1/2 = 1/4, Воспользовавшись масштабным множителем, который вновь равен 1/2 (= 0 + 1/4 + 1/4), получим следующие апостериорные оценки: 0, при других у. Этот результат также легко интерпретировать (читатель может сделать это самостоятельно). Как мы видим, результаты являются условными распределениями переменной Y из гл. 3. Однако сейчас мы ввели эти распределения с помощью теоремы Байеса. Следующие два примера имеют для нас особое значение, поскольку подробному рассмотрению каждого из них посвящена отдельная глава (гл. 5 и 6). Остальные главы книги опираются на основные результаты из гл. 5 и 6. Во втором примере мы проанализируем задачу определения доли элементов некоторой совокупности, обладающих определенным свойством. Это может быть доля женщин в общей численности населения Великобритании; доля появлений герба при бросании некоторой монеты; доля голосов, полученных социал-демократами на выборах в Кросби; доля случаев, в которых при бросании некоторой игральной кости выпадает «6», доля социалистов среди студентов Йоркского университета; доля отставных полковников среди читателей «Дейли Телеграф» и т. д. Каждый раз мы имели в виду «долю А в В», где В — 109
все элементы рассматриваемой нами совокупности (население Великобритании, все подбрасывания некоторой монеты, все голоса избирателей Кросби, все бросания игральной кости и т. д.), А— элементы этой совокупности, характеризуемые определенным интересующим нас свойством («быть женщиной», «падать вверх гербом», «голосовать за социал-демократов», «падать вверх гранью с шестью очками» и т. д.). Во всех подобных ситуациях мы будем говорить о доле элементов совокупности, обладающих определенным свойством. Во втором примере доля элементов совокупности и является объектом нашего интереса. Эту долю элементов совокупности обозначим через Y. Итак, Y — доля элементов совокупности, обладающих определенным свойством. Например, Y— доля женщин в общей численности населения Великобритании или Y — доля появлений герба при бросаниях монеты и т. д. Предположим, что значение Y йам неизвестно (по крайней мере сначала), иначе не будет объекта дальнейших рассмотрений. Вместе с тем на основе предшествующего опыта мы могли сформировать определенные представления относительно Y. Например, мы можем полагать, что доля женского населения Великобритании принимает значение в промежутке от 0,46 до 0,52. В других случаях наши представления о величине Y могут быть очень грубыми и приблизительными, но в любом случае мы должны уметь выразить их в форме априорного распределения вероятностей Y. Так, если они предельно грубы, то придется сказать, что априорное распределение Y имеет вид 0 @; 1) или В A, 1), что эквивалентно (см. раздел 2.4). Значит все значения на отрезке [0; 1] рассматриваются как равновероятные. (Пожалуй, нет необходимости обращать внимание на то, что интересующие нас величины долей не могут выйти за пределы отрезка [0; 1].) В этом разделе мы будем предполагать, что наши априорные взгляды на Y можно описать бета-распределением. Переменная, подчиняющаяся закону бета-распределения, принимает значения на отрезке [0;1], и в зависимости от числовых значений параметров соответствующая ей функция плотности вероятности может принимать различные формы (см. раздел 2.4). Например, если оба параметра аир равны 1, то распределение оказывается равномерным на отрезке [0;11; если а =2 и р = 1, то получим «правотреугольное» распределение; если а = 1 и Р = 2, то получим «левотреугольное» распределение; для больших значений аир распределение окажется унимодальным — его вершина смещена вправо от середины отрезка [0, 1], если а больше р, и влево от середины отрезка [0, 1], если а меньше Р, а дисперсия уменьшается одновременно с увеличением суммы параметров а и р. Это весьма гибкое семейство распределений, заданных на отрезке [0;1]. Поэтому правомерно предположить, что для многих априорных оценок Y в семействе бета-распределений найдется подходящая аппроксимация. Другими словами, выбирая соответствующим образом параметры аир, можно с помощью бета-распределения представить разнообразные априорные оценки У. НО
Детально все эти аспекты обсуждаются в гл. 5. Пока же мы ограничимся рассмотрением случая, когда априорные ожидания, связанные, с Yy могут быть описаны с помощью бета-распределения, параметры аир которого соответствующим образом подобраны. Начиная с этого момента, будем предполагать, что априорное распределение Y удовлетворяет В (а, Р), где аир подходящим образом выбраны. Воспользуемся выражением B.27) и запишем функцию плотности априорной вероятности Y в виде . , ч (у A у)* , 0<*/<1, М</)~{5, при других*/. <4'24) Вернемся теперь к вопросу о преобразовании наших оценок переменной Y в свете поступившей новой информации. Существует очевидный способ получения информации о переменной Y: в рассматриваемом нами примере нужно обследовать соответствующую совокупность. Крайний вариант — обследовать всю совокупность целиком и проверить, обладает каждый из ее элементов интересующим нас свойством или нет. Ясно, что в результате мы придем к точному значению переменной Y. (Апостериорное распределение Y станет вырожденным, и вся вероятность сконцентрируется в истинном значении Y.) Другой крайний вариант — обследовать лишь один элемент совокупности и проверить, обладает он интересующим нас свойством или нет. Ясно, что это ведет к некоторому уменьшению первоначальной неопределенности наших представлений об Г, но, вообще говоря, не исключает эту неопределенность полностью. Между двумя рассмотренными крайними вариантами — возможность обследовать, скажем, п элементов совокупности. Понятно, что чем больше я, тем существеннее уменьшится неопределенность наших представлений об Y. Общий случай определения доли элементов совокупности, обладающих определенным свойством, будет рассмотрен в гл. 5. Здесь мы остановимся на ситуации, когда обследуется один элемент совокупности, и выясняется, обладает ли он интересующим нас свойством. Конечно мы исходим из предположения, что этот единственный элемент выбирается случайным образом (хотя иначе организованная процедура выбора при определенных обстоятельствах может оказаться более подходящей). Таким образом, каждый элемент совокупности обладает равными шансами быть выбранным для обследования. В результате такой процедуры мы получаем информацию о том, обладает ли выбранный соответствующим образом элемент совокупности интересующим нас свойством. Следуя принятым ранее обозначениям, обозначим эту информацию через X. В частности, будем считать, что X принимает значение 1, если выбранный элемент обладает интересующим нас свойством, и значение 0 — в противоположном случае. Чтобы воспользоваться теоремой Байеса D.23), нам потребуется найти условное распреде- 111
ление X для каждого у. Поскольку процедура выбора случайна, то эта функция имеет вид: II—у, * = 0, gx(x\y)=\ У, *=1, D.25) (О, при остальных х. Это выражение свидетельствует о том, что если доля у всех элементов совокупности обладает интересующим нас свойством и если у каждого из ее элементов имеются равные шансы быть выбранным, то вероятность для выбранного элемента обладать данным свойством (т. е. X = 1) равна (/, а вероятность не обладать им (т. е. X = 0) равна 1 —у. (Например, если 50% популяции—женщины, то при случайном выборе имеется 50 шансов из 100, что будет выбрана именно женщина.) Теперь мы можем вывести апостериорную оценку Y при наличии некоторого наблюдения X. Подставляя D.24) и D.25) в D.23), получим: а) если наблюдаемое значение X = 0, то H'7'<1-^0«"«1' D.26) 7 0, при других у; б) если наблюденное значение X = 1, то О, при других т. е. D.27) О, при других у. Эти выражения должны быть вам знакомы. В самом деле, вспомнив B.27), можно заметить, что D.26) — функция плотности вероятностей бета-распределения с параметрами а и р + 1, a D.27) — функция плотности вероятностей бета-распределения с параметрами а + 1 и р. Мы получили следующий весьма важный результат: если априорная оценка состоит в том, что Y ~ В (а, р), то апостериорной оценкой будет Y ~ В (а, р + 1), если х = 0 (т. е. если случайно выбранный элемент совокупности не обладает рассматриваемым свойством) иУ^В (а+ 1, Р), если х= 1 (т. е. случайно выбранный элемент совокупности обладает этим свойством). Или в краткой записи: если априорная оценка Y ~ В (а, Р), то | апостериорная оценка Y ~ В (а + х, Р + 1 —х), \ D.28) где х — наблюденное значение X. J Вспоминая наши рассуждения о том, как изменения параметров бета-распределения влияют на изменение его формы, можно сказать, что выбор для обследования элемента, обладающего рассматриваемым свой- 112
ством, ведет к смещению распределения вправо (т. е. к смещению вправо его вершины), а выбор элемента, не обладающего этим свойством,— к смещению в противоположном направлении. И в том, и в другом случае дисперсия уменьшится, поскольку сумма параметров возрастет на 1, т. е. апостериорные оценки являются более точными, чем априорные. Прежде чем перейти к третьему примеру, следовало бы исходя из D.28) определить воздействие на оценки добавления еще одного обследуемого элемента из рассматриваемой совокупности, т. е. второго выбранного случайно ее элемента. Затем можно перейти к общему случаю п наблюдений. Эти задачи будут детально решены в гл. 5, но вы можете попытаться самостоятельно осуществить процедуру обобщения. (Эта процедура реализуется непосредственно и является более статистической, нежели алгебраической.) Третий, последний, в этом разделе пример также служит своего рода обобщением предыдущего. Если до этого нас интересовало, насколько распространено некоторое свойство среди элементов определенной совокупности, то в третьем примере речь идет о переменной, связанной с совокупностью. Точнее, нас будет интересовать среднее значение некоторой переменной, нормально распределенной на некоторой совокупности. Прежде всего введем обозначения. Следуя уже принятому в данном разделе принципу, обозначим интересующую нас величину через Y, в данном случае — среднее значение переменной. Поскольку наблюдаемые значения самой переменной мы будем воспринимать как информацию о У, то через X мы и обозначим эту величину. Предположим, что переменная X нормально распределена на рассматриваемой совокупности с известной дисперсией s2. Величину Y мы будем называть средней совокупности. Нетрудно представить себе различные ситуации, которым отвечает подобная формулировка задачи. Например, когда нас интересует средний доход рабочих, занятых физическим трудом (в Великобритании), средняя заработная плата членов профсоюза, средняя величина коэффициента интеллектуального развития школьников, средняя величина предельной склонности к потреблению в Великобритании, среднее потребление пива в семьях с одним родителем, средняя эластичность спроса на томаты в зависимости от цены, средняя норма аварий, происходящих с импортными автомобилями, средний рост детей из бедных семей и т. д. В каждом из этих случаев точно определены совокупность и интересующая нас переменная, и рассматривается среднее значение переменной. Мы исходим из предположения, что точное значение Y с определенностью нам неизвестно, иначе исчез бы объект последующего анализа. Вместе с тем в нашем распоряжении, как мы будем считать, имеется априорное, или начальное, представление об Y, которое может быть весьма точным или, наоборот, совсем грубым в зависимости от конкретных обстоятельств. В данном примере естественно предположить, что ИЗ
это априорное распределение является нормальным со средним \i и дисперсией а2, т. е. Y ~ N (\х, а2). Из соотношения B.29) (см. раздел 2.4) нам известно, что в этом случае априорная функция плотности переменной Y имеет вид: /у (у) ос а-1 ехр [ — (у -(хJ/Bа2)]. D.29) Перейдем теперь к вопросу об информации. Вновь существует естественный путь получения информации об Y — обследование соответствующей совокупности. И на этот раз также перед нами открываются два крайних варианта: обследовать все без исключения элементы совокупности или же ограничиться обследованием одного, случайно выбранного элемента. В первом случае, выяснив значение переменной X для каждого элемента совокупности, мы сможем точно определить значение Y — среднюю величину значений X. Тем самым неопределенность полностью исчезнет. Когда мы обследуем только один элемент совокупности, этого не происходит, неопределенность лишь несколько уменьшается. Существует еще один, «средний» путь — обследовать п элементов совокупности. Мы рассмотрим общий случай в гл. 6, а здесь остановимся на втором из двух упомянутых крайних вариантов — для обследования выбирается случайным образом лишь один элемент совокупности. Поскольку переменная X распределена в рассматриваемой совокупности нормально со средним значением Y и дисперсией s2, то для выбранного с целью обследования элемента совокупности соответствующее ему значение X удовлетворяет распределению N (К, s2). Следовательно, условная функция плотности вероятностей X при данном Y = у также определяется соотношением B.29): gx (х\у)ос s-1 ехр [- (х - */J/Bs2)]. D.30) Теперь мы имеем возможность найти апостериорное распределение Y при одном данном наблюдении X. Подставим D.29) и D.30) в формулу D.23), соответствующую теореме Байеса для переменных, а параметры а" и s не будем принимать во внимание до тех пор, пока не потребуется вычислить множитель масштаба. Получим gv(y\x) ос gx(x\y)fY(y) ос ос ехр [-(X-y)VBs2)} ехр [ —(y-|iJ/Ba2)], т. е. ( /~ «Л2 /.. ..\2 Л D.31) Чтобы упростить это выражение, раскроем скобки, образуем квадратный трехчлен относительно у, а затем выделим полный квадрат: 114
(х-уJ (У~\1J _ 2s2 2a2 2)у2-$ 2s2 a2 Мы хотим получить апостериорную функцию плотности вероятностей для У, и поэтому все (мультипликативные) ее члены, не зависящие от у, можно опустить, так как их влияние будет учтено при выборе множителя масштаба. С учетом этого и сделанных выше преобразований выражение D.31) можно записать в виде: Это и есть апостериорная функция плотности вероятностей для Y. Ее запись вам знакома. Если вы сравните ее с B.29), то увидите, что перед вами функция плотности для переменной, удовлетворяющей нормальному распределению со средней (о2х -| s2jn)/(a2 -f- s3) и дисперсией o2s2/(o2 + s2). (Заметим, что функция плотности нормального распределения пропорциональна ехр [ — (х — MJ/BV)], где М — средняя, а V — дисперсия.) Итак, мы получили следующий важный результат: если априорное распределение средней Y ~ N (\i, a2), а х—результат наблюдения Х,Х~ N (Y, s2), то апостериорное распределение средней: D.33) На этом завершаются преобразования, требующие некоторого технического навыка, и мы перейдем к интерпретации результата. Прежде всего, следует обратить внимание на то, что апостериорное распределение оказалось нормальным, как и априорное. Если средним значением априорного распределения является (х, то среднее значение апостериорного распределения равно (о2х + s2[i)/(o2 -f s2), т. е. представляет собой взвешенное среднее априорного значения \i и значения х, полученного в результате наблюдения. Вес при х пропорционален значению а2, а вес при \i —значению s2, т. е. если s2 превышает а2, то вес \х в выражении для апостериорного значения средней больше. Вспомним теперь, что а2 — априорная дисперсия Y, а s2 — дисперсия X. Поэтому чем меньше значение а2, тем относительно более точным выглядит априорное значение Y. Так >ке и малое значение s2 свидетельствует о вероятной относительной близости полученного в результате наблюдения значения х к его среднему значению У, в то время как большое значение s2 — о вероятной относительной удаленности х от Y. Таким образом, полученный результат интуитивно оправдан и состоит в том, что апос- 115
териорное значение средней величины распределения получается взвешиванием априорного значения средней и наблюденного значения, причем веса зависят от точности априорной оценки и от того, насколько отклоняется от средней конкретное наблюдение. Остается прокомментировать выражение для дисперсии из D.33): априорная дисперсия равнялась а2, а апостериорная — о2 s2l(o2 + s2), т. е. уменьшилась по сравнению с а2, и коэффициент уменьшения зависит от отношения а2 и s2. Другими словами, апостериорное распределение обладает меньшей дисперсией (т. е. меньшим разбросом) по сравнению с априорным распределением, это уменьшение более или менее существенно в зависимости от того, будет s2 меньше или больше, чем а2. Этот результат также интуитивно оправдан. Мы еще вернемся к третьему примеру в гл. 6, где обсудим его детально. В частности, мы рассмотрим общий случай, когда обследуются п элементов совокупности. Попытайтесь провести такое обобщение самостоятельно. 4.6. ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ О СЛУЧАЕ, КОГДА ОТСУТСТВУЕТ АПРИОРНАЯ ИНФОРМАЦИЯ Возможно, само понятие априорной оценки наводит вас на мысль о том,что рассматриваемые здесь методы связаны с существованием некоторого начального или исходного значения, которое изменяется под воздействием новой информации. Вы вправе в таком случае спросить, что предпринять, если на деле мы лишены априорных представлений об интересующем нас объекте (т. е. абсолютно ничего не знаем об У, кроме только что полученной информации)? Как можно изменить то, чего нет? В данный момент мы не ответим на поставленные вопросы — это будет сделано позже. Однако можем предложить два примера, которые несколько рассеют наши сомнения. Обратимся сначала к третьему примеру из раздела 4.5. Там предполагалось, что априорная оценка Y удовлетворяет распределению N (и, а2). При этом чем больше а2, тем больше разброс априорной оценки, и потому меньше к ней доверия. Предположим, что мы нашли способ, позволяющий выразить отсутствие априорной информации — «устремили» а2 к бесконечности. Это равносильно тому, что мы действительно ничего не знаем об Y. Посмотрим теперь, что произойдет с D.23), если «устремить» а2 к бесконечности. Мы обнаружим, что апостериорное распределение в пределе превратится в N (х, s2). Иными словами, апостериорное распределение зависит исключительно от появившегося при наблюдении значения переменной X и от дисперсии этой переменной, что для нас весьма важно. Рассмотрим теперь второй пример из раздела 4.5. В соответствии с D.28) априорное распределение В (а, Ь) приводит к В (а+ 1, Ь) или 116
В (а, Ь + 1) в зависимости от того, обладает ли случайно выбранный элемент интересующим нас свойством или нет. Следовательно, информация, полученная в результате одного наблюдения, позволяет прибавить 1 к одному из.двух параметров распределения. Обобщая, можно предположить, что п наблюдений приведут к увеличению обоих параметров распределения в сумме на п единиц. С этой точки зрения можно интерпретировать В (я, Ь) как «результат» (а + Ь) наблюдений. Поэтому один из очевидных способов выразить в данном примере полное отсутствие априорной информации состоит в том, чтобы положить оба параметра а и b равными нулю и тогда (а + Ь) тоже обратится в нуль. Из D.28) ясно, что мы придем к зависимости апостериорной оценки только от информации, полученной в ходе наблюдений. Перед нами вновь интуитивно совершенно естественный способ перехода к ситуации, когда априорные представления об интересующем нас объекте отсутствуют. 4.7. РЕЗЮМЕ В данной главе речь шла о новой информации и о том, как ею можно воспользоваться для уточнения уже существовавших к моменту ее поступления вероятностных оценок. Рассмотрев несколько простых примеров, которые можно было исследовать непосредственно, мы вывели теорему Байеса, позволившую формально описать процесс учета новой информации при уточнении вероятностных оценок. Интуитивное представление о том, что апостериорные ожидания представляют собой смесь априорных ожиданий и новой информации, получило формальное отражение в теореме Байеса. По сути дела, эта теорема устанавливает пропорциональность апостериорной (функции плотности) вероятностей, с одной стороны, и произведения правдоподобия (поступления именно этой информации) и априорной (функции плотности) вероятностей — с другой. После обсуждения указанных вопросов мы рассмотрели ряд примеров: вначале примеры, относящиеся к событиям, а затем — к переменным. Два последних примера будут тщательно проанализированы в гл. 5 и 6. В конце главы были кратко описаны способы формализации в том случае, когда априорная информация об объекте отсутствует. Эти идеи подробно будут обсуждаться позже. 4.8. УПРАЖНЕНИЯ 4.1. Придумайте пример, показывающий как некоторая порция поступившей информации приводит к полному устранению неопределенности. 4.2. Предположим, что ваши априорные представления об агрегированной предельной склонности к потреблению в некоторой национальной экономике (до вычета налогов) отражаются распределением V @, 1). Пусть затем вам сообщили, что все жители страны вносят не менее 5% своего дохода (до вычета налогов) в фонд социального страхования. Каким будет распределение вашей апостериорной оценки предельной склонности к потреблению в этой экономике? 117
4.3. Докажите утверждения, следующие за соотношениями D.10) и D.11), о том, что из любых двух неравенств, входящих в любые из этих соотношений, вытекают все остальные. 4.4. Докажите утверждение, в силу которого_из D.10) и D.11), если применить теорему Байеса, следует, что Р (F \ Е) < Р (F). 4.5. Некто носит в кармане одну «правильную» монету (с гербом и решеткой) и одну фальшивую (с двумя гербами). Он выбрал одну из этих монет случайным образом и когда подбросил ее, она упала вверх гербом. Какова вероятность того, что эта монета была «правильной»? (б) Предположим, что эта монета была подброшена еще раз и вновь выпал герб. Какова теперь вероятность того, что эта монета «правильная»? (в) Пусть монета подброшена в третий раз и упала решеткой вверх. Чему стала равна вероятность того, что монета правильная? (г) Ответьте на вопросы (а) —(в), если исходы трех бросаний оказались иными, а именно: герб, решетка, герб; решетка, герб, герб. Объясните ваши выводы. 4.6. В коробке лежат три монеты. Одна — с двумя гербами, другая — с двумя решетками, а третья — «правильная». Случайным образом из коробки выбирается монета и после подбрасывания падает вверх гербом. Какова вероятность, что была выбрана монета с двумя гербами? 4.7. Два ученых, Джон и Смит, поставили эксперимент для проверки двух гипотез, Нх и Н2. Априорную вероятность для гипотезы Нх Джон оценил как 0,8, а Смит думал, что Н2 вдвое «вероятнее», чем Нг. Данные (D) были получены, и на их основе рассчитаны правдоподобия Р (D | #j) = 0,0084, Р (D | Н2) = 0,0008. Покажите, что апостериорные ожидания двух ученых сблизились по сравнению с их априорными ожиданиями. Всегда ли это верно? 4.8. Вы знаете, что в одном частном университете 60 % студентов одного пола и 40 % другого, но вы забыли, кого больше, мужчин или женщин. Если первые два студента, которых вы встретили, женщины, то какова вероятность того что справедлива гипотеза, в силу которой женщины составляют большинство? Что вы скажите, если следующие повстречавшиеся вам студенты — мужчины? Не означает ли это, что информация оказалась бесполезной? 4.9. Проверьте правильность заполнения табл. 4.2. (Она содержит апостериорные оценки для примера с тремя монетами, если в результате двух бросаний: а) появились один герб и одна решетка, б) появились две решетки.) Проведите проверку двумя способами: во-первых, рассматривая исход двух бросаний монеты как одну порцию информации; во-вторых, рассматривая исход двух бросаний как две последовательные порции информации, после получения каждой из которых оценка изменяется. Покажите, что апостериорные оценки, найденные этими двумя способами, совпадают. 4.10. Рассмотрите две последовательные (независимые) порции информации Et и Е2. (а) При известной априорной вероятности Р (F) некоторого события F найдите апостериорную вероятность Р (F\E1 и Е2). (б) Найдите Р (F \ Ех). <в) Воспользуйтесь найденным в (б) Р (F | Ег), чтобы получить Р (F \ Ег и ?2) способом,отличающимся от (а), а именно, рассматривая Р (F | Ег) в качестве априорной вероятности, которая имелась в наличии до поступления информации Е2. Убедитесь в том, что оба метода приводят к одному результату, (г) Как изменить ваши рассуждения, если Е1 и Е2 не являются независимыми? 4.11. Проверьте правильность вывода выражений D.22). Указание. Априорная вероятность Р (FJ = р\ тогда Р (F3) =1 — р; правдоподобие появления т гербов ип — т решеток при п бросаниях равняется C/4)m (l/4)rt~m при данном Fx и A/4)т C/4)гг~т при данном F3. Примените теорему Байеса. 4.12. Придумайте пример, раскрывающий процесс использования новой информации для уточнения имевшихся к моменту ее поступления оценок (будет ли при этом применена теорема Байеса, зависит от содержания примера). 4.13. Пусть в каждой из двух урн содержится большое число белых и черных шаров: в первой — 40 % белых и 60 % черных, а во второй — 60 % белых и 118
и 40 % черных. Одна из двух урн выбрана с помощью механизма, обеспечивающего выбор первой урны с вероятностью р. (Если бы механизм был «правильным», то р -"¦ 1/2.) Пусть п шаров извлечены из выбранной урны, причем т из них оказались белыми (а п — т соответственно черными). Определите апостериорную вероятность того, что была выбрана первая урна. Покажите, что если бы эта урна действительно оказалась первой, то найденная апостериорная вероятность при неограниченном возрастании п стремилась бы к 1, а если бы это была вторая урна, то апостериорная вероятность стремилась бы к нулю. 4.14. В разделе 2.4 говорилось, что переменная Y удовлетворяет гамма-распределению с параметрами аир, если соответствующая функция плотности вероятности имеет вид: Дискретная переменная X удовлетворяет распределению Пуассона с параметром у, если соответствующая функция вероятностей имеет вид: [е~у их * = 0, 1,2,..., ёх (х I у) ос Iе У ' х liff \ 0, при других х. Покажите, что если X удовлетворяет распределению Пуассона с параметром Y и если переменной Y соответствует в качестве априорного гамма-распределение с параметрами а и р, то после одного наблюдения х переменной X апостериорным распределением Y будет гамма-распределение с параметрами a +1jc и р + 1. Каким будет апостериорное распределение после п наблюдений хг, х2, ..., хп? (Пока этот вопрос может показаться вам трудным.)
ГЛАВА 5 ДОЛИ ЭЛЕМЕНТОВ СОВОКУПНОСТИ 5.1. ВВЕДЕНИЕ В этой главе рассматривается проблема вероятностного вывода относительно доли элементов совокупности, обладающих определенным свойством. Хотя сама по себе эта проблема не имеет большого значения, она привлекательна, во-первых, простотой постановки, а во-вторых, тем, что ее решение хорошо иллюстрирует общие положения, связанные с получением вероятностного вывода, к которым мы не раз будем обращаться при решении задач в последующих главах книги. Таким образом, данная глава готовит читателя к восприятию общих концептуальных идей теории байесовского вывода на материале, не перегруженном алгебраическими и техническими деталями. В дальнейшем вы столкнетесь с задачами, более интересными с прикладной точки зрения и требующими более сложного алгебраического аппарата. Однако новых положений самой теории байесовского вероятностного ввода вы уже не встретите. В общем виде задачи, рассматриваемые в этой и следующих главах, могут быть сформулированы следующим образом: есть некоторый интересующий нас объект (таких объектов может быть несколько); мы не рас- располагаем о нем точной информацией, иначе не было бы предмета для исследования, но можем иметь об этом объекте некоторые предварительные представления или связанные с ним априорные ожидания; может быть получена (или к нам может поступить) некоторая информация об интересующем нас объекте; эта информация побуждает нас (или позволяет нам) изменить (пересмотреть, уточнить) наши представления о нем. Таким образом, в данной задаче можно выделить две составляющие ее «подзадачи»: описать ожидания, связанные с объектом в каждый конкретный момент времени; указать способ изменения ожиданий в свете поступившей новой информации. По существу, необходимым для решения подобных задач аппаратом мы уже располагаем: в гл. 2 и 3 речь шла об описании ожиданий, а в гл. 4 — об учете новой информации. Теперь нужно приобрести опыт применения полученных знаний. Экономисты всегда стремятся установить, насколько реалистичны конкурирующие между собой экономические теории. Например, можно ли утверждать, что монетаристская трактовка инфляции лучше, чем 120
ее объяснение с помощью кривой Филлипса. При этом необходимо уметь отвечать на вопрос, чему равны в рамках данной конкретной экономической теории числовые значения важнейших экономических параметров (таких, как предельная склонность к потреблению, эластичность спроса на деньги в зависимости от ставки процента). Другими словами, речь идет о влиянии изменений одной экономической переменной на другую. Мы обсудим подобные проблемы в гл. 7, 8 и 9. Итак, если речь идет о применении рассматриваемых методов, то «объектом интереса» могут быть как экономические теории, так и значения экономических параметров. В достаточно общей постановке такого рода приложения анализируются в гл. 7, 8 и 9. В данной главе и гл. 6 мы изучим конкретные экономические параметры: в данной главе •— доли, а в гл. 6 — средние и дисперсии. С проблемой определения долей элементов совокупности, обладающих определенным свойством, мы уже сталкивались в гл. 4 — второй пример применения теоремы Байеса к переменным величинам в разделе 4.5. В этом разделе был получен основной результат — соотношение D.28), на которое опирается содержание данной главы. Мы займемся теперь в основном исследованием, обобщением и интерпретацией этого ключевого соотношения. Напомним основные моменты. Предполагается, что нас интересует некоторая доля, например: доля рослых людей, читающих газету «Тайме»; доля появлений «черного» при вращении конкретной рулетки; доля коренных жителей стран Азии среди студентов Кембриджа и т. д. Контекст позволяет определить, во-первых, конкретное интересующее нас свойство («рослый», «черный цвет, поля в рулетке», «коренной житель азиатской страны»), во-втбрых, конкретное рассматриваемое нами множество (все читатели газеты «Тайме», все поля данной рулетки, все студенты Кембриджа). Таким образом, речь идет о доле элементов совокупности, обладающих определенным свойством. В гл. 4, когда мы впервые столкнулись с подобной задачей, доля элементов совокупности обозначалась через Y, что соответствовало принятым в этой главе обозначениям. Здесь мы будем пользоваться более употребительным обозначением доли — Р. Заметим, что, как и прежде, прописные буквы будут обозначать переменные, а соответствующие строчные буквы — конкретные значения переменных. Конечно, в рассматриваемой здесь задаче точное значение Р для всей совокупности неизвестно, хотя предполагается, что точное истинное значение Р, которое мы обозначим р, существует. Стоящая перед нами цель — использовать информацию, полученную в результате более подробного изучения совокупности, для уточнения р\ сформировавшиеся на некоторой стадии этого процесса индивидуальные оценки значения р задаются в виде (субъективного) распределения переменной Р. (Мы различаем переменные и параметры, точные значения которых точно не известны, и переменные и параметры, точные значения которых известны. Первые обозначим прописными буквами, а вторые — строчными. 121
Например, если доля совокупности точно не известна, то для ее обозначения мы воспользуемся буквой Р> а если эта доля известна точно, то буквой р.) В следующем разделе речь идет о способах представления оценок переменной Р, в частности, рассматривается конкретное семейство распределений — бета-распределения, наиболее удобных для формирования оценок долей. В разделе 5.3 говорится о том, как информация о Р может быть получена, а в разделе 5.4 показано, как эта информация инкорпорируется, как при этом изменяется априорная оценка Р и вычисляется апостериорная оценка распределения этой переменной. В разделе 5.5 более подробно изучается ситуация из раздела 4.6, когда приходится моделировать отсутствие априорной информации. В разделе 5.6 проводится параллель между байесовским и классическим подходами к статистическому выводу, в частности показано, ?ак в рамках байесовского подхода интерпретируются понятия «доверительного интервала» и «критерия значимости». Наконец, в разделе 5.7 дано резюме, а раздел 5.8 содержит упражнения. 5.2. ОЖИДАНИЯ, СВЯЗАННЫЕ С ДОЛЯМИ Значение Р — обязательно одно из чисел отрезка от 0 до 1. Если это значение Р не известно вам точно (или вы думаете, что не знаете его точно), то естественно выразить ваши ожидания по поводу Р в форме вероятностного распределения, заданного на отрезке [0;1]. Если эти ожидания связаны с представлением о Р как о переменной, принимающей дискретные значения из [0: 1], то и распределение окажется дискретным; в ином случае нужно будет рассматривать непрерывное распределение. Например, вы считаете, что переменная Р может принимать значения 1/4 и 3/4, причем каждое с одинаковой вероятностью, это можно записать с помощью соответствующей функции вероятностей: 0, в других точках. Если же вы считаете, что р с одинаковой вероятностью может принять (только) одно из п + 1 значений 0, 1/л, 21 п, ..., (п — 1)/п, 1, то соответствующая этим вашим представлениям функция вероятностей будет иметь вид: , / v A/(п4-1),/7 = 0, 1/п, 2/п,...,(п —1)/п, 1, { 0, в других точках. Когда вы исходите из того, что р может быть равным только одному из чисел 1/4, 1/2 и 3/4, причем второму с вероятностью, вдвое боль- 122
шей, чем любому из оставшихся, соответствующая функция вероятностей будет задана так: 1/2, /7 = 1/2, 1/4, р = 1/4, 3/4, О, в других точках. В альтернативной (непрерывной) ситуации, когда вы полагаете, что Р с одинаковой вероятностью принимает любое из бесконечно большого числа возможных значений отрезка 10; 1], этой гипотезе соответствует функция плотности вероятностей 1Р\н) [ 0, в других точках. Это, конечно, функция плотности вероятностей переменной, удовлетворяющей распределению U @; 1), т. е. однородному распределению на отрезке от 0 до 1. Это также функция плотности бета-распределения с параметрами а—1 и 0 = 1 (ср. с B.27)). Методы, которые мы рассмотрим и будем применять в этой главе, можно охарактеризовать как поиск подходящей формы вероятностной оценки. Однако мы ограничимся случаем, когда вероятностные оценки удовлетворяют бета-распределению. В частности, поскольку бета-распределения применимы только для непрерывных переменных, мы не будем останавливаться на случае дискретных оценок. Другие случаи (включая дискретный) довольно легко поддаются анализу на основе общих подходов (см., например, упражнения 4.5, 4.6, 4.8, 4.9, 4.11 и 4.13 из гл. 4), и вам следует попытаться разобрать их самостоятельно. Может показаться, что, рассматривая только случаи, когда априорные оценки представимы в виде бета-распределения, мы вводим ограничения, чрезмерные даже для непрерывного случая. Однако это не так. Семейство бета-распределений является весьма гибкими и путем подбора параметров позволяет представить довольно широкий спектр разнообразных априорных оценок. Мы уже отмечали несколько частных случаев бета-распределения: при а — р = 1 оно превращается в равномерное распределение на отрезке [0; 1]; при а = 2, Р = 1 — в пра- вотреугольное распределение; при а^= 1, р = 2— в левотреуголь- ное распределение. Более общее свойство: когда оба параметра аир превосходят 1, то распределение унимодально и симметрично, если значения аир совпадают; если же при этом а больше (меньше) Р, то вершина распределения смещена вправо (влево). Для многих оценок унимодальные распределения оказываются вполне приемлемыми, например для оценки доли женщин среди студентов Йоркского университета или доли голосов поданных за социал-демократов в вашем избирательном округе. Из раздела 2.4 известно, что бета-распределению с параметрами а и р соответствуют а/(а + Р) — средняя и ар/[(а + РJ (а + Р + 1I — 123
дисперсия. Более того, можно показать, что с увеличением суммы параметров а + р форма бета-распределения приближается к форме нормального распределения, т. е. при достаточно большом значении а + Р (скажем, большем 30) бета-распределение можно приближенно представить в виде нормального распределения с той же средней и той же дисперсией, причем аппроксимация улучшается с увеличением а + р. Это весьма полезный результат, поскольку он позволяет установить некоторые статистические свойства бета-распределения, пользуясь в качестве его приближения нормальным распределением. Конечно, если в повседневной жизни «человек с улицы» станет рассуждать о чем-либо в терминах бета-распределений, имеющих те или иные значения параметров, то это покажется неестественным. Наоборот, следует предположить, что в общем случае ожидания будут формулироваться так: «Я полагаю, что наиболее вероятным значением Р является -?• и почти наверняка это значение лежит между 0,3 и 0,7». При последующих уточнениях можно получить информацию о том, что * распределение воспринимается как симметричное относительно значения у и как колоколообразное. Каким образом перевести подобного рода оценки на язык семейства бета-распределений, выбирая подходящего для конкретного случая представителя этого семейства? Другими словами, как подобрать подходящие значения параметров аир? Мы воспользуемся описанными выше свойствами бета-распределения (в частности, значениями средней и дисперсии, а также аппроксимирующим распределением) и свойством нормального распределения, для которого основная площадь под кривой функции плотности заключена между значениями, отстоящими от средней на величину в 2 стандартных отклонения. Таким образом, опираясь на приведенные выше числовые значения, мы находим среднюю (она равна 0,5) и стандартное отклонение, равное 0,1 (отрезок от 0,3 до 0,7 относительно его середины можно представить как 0,5±0,2, откуда следует, что 2 стандартных отклонения равны 0,2). Тогда для определения параметров распределения аир получаем два уравнения: " =0,5 E.1) аР ¦ =0,1- ' E-2) Систему уравнений E.1), E.2) можно решить, например, с помощью подстановки а + р —- v, что даст нам (из E.1)) а = 0,5 v, a потому Р -= 0,5 v. Воспользовавшись этими выражениями, перепишем E.2) в виде ~@,5v) @,57) v2 (v+1) 124
что дает нам 0,25 -ТТ =0,01, v + 1 т. е. v - 24. Таким образом, решением системы уравнений E.1) и E.2) будет а = р = = 12. Мы показали, что бета-распределение с параметрами а -- р = 12 служит возможной формой представления ожиданий, в соответствии с которыми распределение унимодально, симметрично относительно р — = у, колоколообразно и в основном расположено над отрезком от 0,3 до 0,7. В данном примере средняя величина оценки переменной Р равнялась 0,5, а стандартное отклонение было равно 0,1. Предположим, что другая оценка имеет ту же среднюю, но большее стандартное отклонение, скажем 0,125. Каковы будут значения а и Р для этой новой оценки? Очевидно, что уравнение E.1) останется неизменным, т. е. если вновь обозначить а + р = v, то и на этот раз придем к а = р = 0,5 v. Однако уравнение E.2) станет несколько иным: & =0,125, (а+р + 1) поскольку стандартное отклонение равно теперь 0,125. После подстановки a = р = 0,5 v придем к уравнению 0,25 ^ ( решив которое, найдем v — 15. Следовательно, a = р = 7,5. Итак, бета-распределение с параметрами a = 7,5 и р = 7,5 имеет среднюю 0,5 и стандартное отклонение 0,125, что мы и должны были обеспечить. В обоих примерах средняя распределения равна 0,5, т. е. это значение было «центральным» для нашей оценки, а оценка предполагалась симметричной относительно 0,5. Рассмотрим другую пару оценок со средней 0,6. Тогда для этих оценок параметры а и Р должны удовлетворять уравнению —— =06 Если мы вновь обозначим а + р = v, то получим а = 0,6 v, р = 0,4v. Обратимся опять к стандартному распределению. Предположим, что первая из этой пары оценок имеет стандартное отклонение 0,1. Тогда аир должны удовлетворять уравнению и, 1. 125
Если подставить в него а = 0,6 v и р = 0,4v, то получим уравнение относительно v и найдем v ¦= 23. Следовательно, а = 13,8 и р = 9,2. Итак, бета-распределение с параметрами а = 13,8 и р = 9,2 имеет среднюю 0,6 и стандартное отклонение 0,1. Пусть теперь вторая оценка этой же пары имеет стандартное отклонение 0,05. Таким же образом, как и выше, можно показать, что параметры этого распределения а = 57 и Р - 38. Приведенные примеры подтверждают общие свойства бета-распределения: средняя этого распределения меньше, равна или больше 0,5 соответственно, если параметр а меньше, равен или больше, чем р; по мере увеличения суммы а + р стандартное отклонение уменьшается. Мы показали в этом разделе, как подобрать значения параметров а и р и тем самым выбрать из семейства бета-распределений такое, ко- торое*отражает оценку переменной Я, будучи унимодальным и примерно колоколообразной формы с заданными значениями средней и стандартного отклонения. Мы получили также возможность убедиться на конкретных примерах в воздействии изменений параметров на положение вершины, разброс и форму бета-распределений. Попытайтесь самостоятельно построить ряд дополнительных числовых примеров. Далее в этой главе мы будем предполагать, что априорная оценка Р берется в форме бета-распределения с подходящим образом выбранными значениями параметров. Поэтому априорная функция плотности вероятностей для Р задается соотношением (см. B.27)): /p KP) ^ \ 0, в других точках. 1°-°' Мы имеем теперь возможность выяснить, что произойдет с появлением новой информации. 5.3. ПРИРОДА (ВЫБОРОЧНОЙ) ИНФОРМАЦИИ Нас интересует доля Р элементов некоторой совокупности (или популяции), обладающих определенным свойством. Причем естественным источником информации относительно Р будет сама изучаемая нами совокупность. Точнее, мы имеем возможность обследовать элементы этой совокупности. Размеры совокупности могут меняться от одной прикладной задачи к другой: совокупность может состоять, вообще говоря, из бесконечного числа элементов («все бросания монеты», «все вращения колеса рулетки»), а в других случаях она явно конечна («все читатели газеты "Тайме"», «все жители Глазго»). Изменяется от задачи к задаче и природа элементов совокупности: это могут быть люди, физические объекты или исходы физических экспериментов («бросание монеты»). Информацию получают в результате обследования элементов совокупности с целью проверки, обладает ли каждый из выбранных для проверки элементов интересующим нас свойством или нет. Ясно, что число 126
обследуемых элементов также подлежитвыбору: в крайнем случае мы можем ограничиться обследованием одного элемента; противоположная крайность — обследовать все элементы (на это потребуется немало времени, если совокупность бесконечна!); между этими двумя крайностями — возможность обследовать, скажем, п элементов. Мы начнем наш анаЛиз с рассмотрения простейшего случая, когда для обследования выбирается только один элемент, а затем покажем, как полученные результаты могут быть обобщены на случай выбора п элементов. (В конце концов, выбор п элементов можно рассматривать как я-кратный выбор по одному элементу.) Положим, выбирается и обследуется один элемент совокупности. Мы должны выяснить, как изменится наша априорная оценка, после того как будет получена информация о результатах обследования одного случайно выбранного из совокупности элемента. Рассмотрим возможные исходы обследования. Здесь возможны только два интересующих нас исхода: либо выбранный элемент совокупности обладает данным свойством, либо не обладает. Представим эти две возможности с помощью переменной X: будем писать X — 1, когда выбранный элемент обладает рассматриваемым свойством, и X — О, когда он этим свойством не обладает. Наша задача — получить информацию о значении р (истинном, однако остающемся неизвестным значении переменной Р). Очевидно, что значение X не зависит от р\ однако распределение X может зависеть от /?, если мы выбрали элемент «подходящим» способом. Ясно, что «подходящим» механизмом выбора будет тот, который мы в предыдущих главах назвали «правильным»; это механизм, при котором вероятность появления X = 1 равна р, а вероятность появления X = О равна 1 — р. Формально это означает, что gx (l\p)=p, 0 <54) т. е. если доля элементов совокупности, обладающих данным свойством, равна /?, то механизм выбора должен быть таким, чтобы вероятность выбора элемента, имеющего это свойство, равнялась ру а элемента, его не имеющего, равнялась 1 — р. Следовательно, если 50 % элементов совокупности обладают данным свойством, то механизм выбора должен обеспечить равные шансы появления элемента, обладающего и не обладающего этим свойством; если же данное свойство присуще только 25 % элементов совокупности, то механизм должен обеспечить ровно 1 шанс из 4 выбрать элемент с этим свойством. Если совокупность состоит из материальных объектов, то все сказанное означает, что каждый из ее элементов имеет равные шансы быть выбранным; в этом случае говорят о случайной (или рандомизированной) выборке, а слово случайная (рандомизированная) означает, что соответствующий механизм выбора был «правильны^*». Если же совокупность состоит из физических действий («бросание монеты»), то каждое конкрет- 127
ное рассматриваемое действие («выбор элемента») должно быть совершено «правильно» («правильное бросание монеты»). Начиная с этого момента, будем предполагать, что выборка получена («элементы выбраны») с помощью некоторого случайного процесса, удовлетворяющего соотношениям E.4). Заметим, что распределение переменной X зависит от р, поэтому полученное в результате наблюдения значение X информативно по отношению к р. Мы можем конкретизировать E.4) с учетом формы бета-распределения: / при других*. Теперь мы имеем возможность перейти к изучению воздействия информации, полученной в результате обследования элементов совокупности, на априорную оценку. Этому посвящен следующий раздел. 5.4. ИНКОРПОРИРОВАНИЕ ВЫБОРОЧНОЙ ИНФОРМАЦИИ Мы исходим из предположения, что априорная оценка распределения переменной Р имеет форму бета-распределения с параметрами аир и это распределение определяется функцией плотности E.3). Мы также предполагаем существование механизма, обеспечивающего такое извлечение выборки из совокупности, что правдоподобие наблюдать х при данном р определено соотношением E.5). Мы имеем теперь возможность с помощью E.3) и E.5) найти апостериорную оценку Р, зная значение х, полученное в результате наблюдения. Подставим.E.3) и E.5) в D.23): gP (p\x)oc gx (х | р) fP (р) ос (i 'p* (l—p)*-{ pa~x A—у О, при других x и p. Итак, gP (РI *) ос [ Но> при других /^р E.6) Если сравнить соотношения E.6) и B.27), то обнаружим, что апостериорное распределение переменной Р есть бета-распределение с параметрами а + хи р + 1 — х. Вспомнив, что х = 1 означает наличие у выбранного элемента интересующего нас свойства, а х = 0 соответствует его отсутствию, мы можем выразить ту же мысль несколько более пространно. 128
Если априорное распределение Р есть В (а, Р) и выбранный случайно элемент обладает интересующим нас свойством, то апостериорное распределение Р есть В (а + 1, р). Если априорное распределение Р есть В (а, Р) и выбранный случайно элемент не обладает этим свойством, то апостериорное распределение Р есть В (ее, р+ 1). E.7) Это важный результат. (Мы убедились в этом еще в разделе 4.5.) Во первых, формы априорного и апостериорного распределений совпадают и в том, и в другом случае это бета-распределение. Таким образом, поступление и учет новой информации не выводят оценки за рамки семейства бета-распределений. Во-вторых, переход в E.7) от априорного распределения к апостериорному очень прост: 1 прибавляется к первому параметру, если выбранный элемент обладает рассматриваемым свойством, в противном случае 1 прибавляется ко второму параметру. Ясно, что эти два обстоятельства обеспечивают возможность непосредственного обобщения полученных результатов на случай, когда выбираются и обследуются п элементов совокупности. Поскольку механизм выбора в свою очередь удовлетворяет соотношению E.5), сходному по форме с E.3) (это позволило вывести E.7)), то отсюда и следует, что оценка всегда остается в рамках семейства бета-распределений, причем для каждого выбранного элемента, обладающего свойством, 1 прибавляется к первому параметру, а для каждого выбранного элемента, не обладающего этим свойством, прибавляется ко второму параметру. Формально мы можем записать следующее. Если априорное распределение Р есть В (а, Р) и если случайным образом выбраны п элементов совокупности, из которых а элементов обладают интересующим нас свойством, а Ь — не обладают (а + b = n)t то апостериорное распределение Р есть В (а + а, Р + Ь). E.8) (Прежде чем продолжить, поясним вывод E.8). Те, кого вывод E.8) удовлетворил, могут это пояснение пропустить. Рассмотрим случайный выбор п элементов, который осуществлен таким образом, что соотношение E.5) применимо к выбору каждого элемента в отдельности. Определим переменную А как число элементов выборки, содержащей п элементов, обладающих рассматриваемым свойством. Тогда А принимает значения 0, 1, 2, ..., п, и функция правдоподобия для А при данном р (см. упражнение 5.10) имеет вид: п^-р)Ь' а==0' 1.-.я, 6=л—a; 0, при других а и Ь. 5 Зак2161 129
Здесь Ь (= п — а) обозначает число элементов выборки, не обладающих рассматриваемым свойством. Подставим E.3) и E.9) в формулу D.23) для теоремы Байеса и получим апостериорное распределение Я: gP (p | а) ос (раA-р)Ь pa-l (l-p)P-l , а-0, 1, ..., П, ос| 6=л—а, 0<р<1, E.10) [О, при других a, b и р. После упрощений мы получили (ср. B.27)) функцию плотности вероятностей бета-распределения с параметрами а + а и р + Ь.) Соотношение E.8) — ключевой результат при изучении долей. Далее в настоящем разделе мы обсудим следствия этого соотношения. Мы уже обращали внимание на то, что, в силу E.8), оценка Р всегда остается в рамках семейства бета-распределений независимо от размера выборки (от значения п). Мы отметим и то, что инкорпорирование содержащейся в выборке информации (ее называют также выборочной информацией) ведет к увеличению первого параметра на число положительных исходов (число элементов выборки, обладающих рассматриваемым свойством) и к увеличению второго параметра на число отрицательных исходов (число элементов выборки, не обладающих этим свойством). Это означает, что сумма параметров тем самым увеличилась на п — величину, характеризующую объем выборки. Посмотрим, как влияет полученная на основе выборки информация на значения средней и дисперсии. Начнем со средней. Вспомним, что средняя бета-распределения с параметрами а и E равна —~^ . Как следует из E.8), средняя априорного распределения равна , а сред- a-fP няя апостериорного распределения равна: — a_7"«a . и ^ 4-6 4° • Заметим, что апостериорное значение средней можно записать следующим образом: ta) +{l~w) (-)' где w-^t^ EЛ1) Соотношение E.11) устанавливает тот факт, что апостериорное значение средней является средневзвешенным априорного значения средней и отношения а/п с весами w и 1 — w соответственно. Отношение а/п — доля элементов выборки, обладающих рассматриваемым свойством; ее называют выборочной долей. Итак, из E.11) можно заключить, что апостериорная средняя доли совокупности является средневзвешенной величиной априорной средней и выборочной доли. Интуитивно этот результат вполне осмыслен. 130
Рассмотрим теперь веса, стоящие при двух членах равенства E.11): первый член, равный значению априорной средней, берется с весом а второй, равный выборочной доле, — с весом п 1—w= Таким образом, относительные веса зависят от отношения а + р к п и поэтому величина а + р очень важна. Чтобы раскрыть роль этой величины, вновь обратимся к E.8). Поскольку информация, заключенная в выборке объема п, содержащей а положительных и Ь отрицательных исходов (а элементов обладают рассматриваемым свойством, a b элементов им не обладают), изменяет оценку, увеличивая первый параметр бета-распределения на а единиц, а второй его параметр — на Ь единиц, то мы можем рассматривать априорное распределение В (а, Р) как «эквивалентное» наблюдению выборки объема а+Р, в которой а элементов обладают данным свойством, a p элементов им не обладают. Таким образом, сумма а + f* представляет собой «эквивалентный» априорному распределению объем выборки. Обозначим сумму а + Р через v; теперь v измеряет объем выборки, «эквивалентной» распределению априорной оценки. Воспользовавшись этим обозначением, можно показать, что в E.11) вес w при априорном среднем равен: w = = J_ , а вес при выборочной доле равен: 1 — w = -^. Итак, относительные веса зависят от отношения v к п, другими словами, чем больше (при прочих равных условиях) объем выборки, «эквивалентной» распределению априорной оценки, тем больший вес соответствует априорному среднему, и, наоборот, с увеличением объема выборки (при прочих равных условиях) увеличивается вес при выборочной доле. Этот вывод тоже интуитивно осмыслен. Перейдем теперь к дисперсии. Поскольку дисперсия бета-распределения с параметрами аир равна ар то из E.8) следует, что именно такой будет дисперсия априорного распределения, в то время как апостериорная дисперсия равна Чтобы упростить это выражение, обозначим среднюю " в через т, а апостериорную среднюю через т'. Тогда априорную и апостериорную дисперсии можно записать в виде m(l-m) m'{\-m') тт— и ;—г~ E.12) v+1 v+i+1 v ' 5* 131
соответственно. Отсюда видно, что с увеличением v уменьшаются как априорная, так и апостериорная дисперсии, а с увеличением п уменьшается апостериорная дисперсия. Таким образом, дисперсия апостериорной оценки уменьшается с увеличением объема эквивалентной априорному распределению выборки и с увеличением объема самой выборки. Вновь получен интуитивно осмысленный результат. Обобщим сказанное. Апостериорная средняя является средневзвешенной априорной средней и выборочной доли, причем веса зависят от отношения объема выборки, эквивалентной априорному распределению (или от степени доверия, с которым мы принимаем априорную оценку), к объему реализованной выборки; апостериорная дисперсия уменьшается с уменьшением априорной дисперсии и с увеличением объема реализованной выборки. Чтобы показать порядок и взаимодействие величин, участвующих в расчете, мы приводим в табл. 5.1 ряд числовых примеров применения ключевого результата E.8). К одной и той же апостериорной оценке можно прийти различными путями. Например, априорное распределение В A1, 11) и последующие наблюдения а = 15, b = 5 приводят к тому же апостериорному распределению, что и априорное В A6, 6) в сочетании с исходом наблюдений а = 10, b = 10. Примеры еще раз подчеркивают оправданность интерпретации априорного распределения В (а, |3) как «эквивалента» информации, полученной в результате наблюдения выборки, содержащей а элементов, обладающих рассматриваемым свойством, и р элементов, не обладающих этим свойством. По существу, наш анализ завершен. Содержащееся в E.8) утверждение отвечает на все поставленные нами вопросы: если априорной оценке соответствует бета-распределение, то и апостериорная оценка тоже характеризуется бета-распределением независимо от объема выборки; более того, первый параметр полученного апостериорного распределения равен сумме первого параметра априорного распределения и числа элементов выборки, обладающих рассматриваемым свойством; второй параметр апостериорного распределения равен сумме второго параметра априорного распределения и числа элементов выборки, не обладающих этим свойством. Если на любой стадии испытаний нам будет задан вопрос о нашей точке зрения относительно переменной Р, то мы просто укажем на наше апостериорное распределение, сложившееся к этому моменту. По форме ответ будет таким: «наша оценка переменной Р к данному моменту есть В (.,.)», где вместо точек должны стоять соответствующие числа. И это все, что требуется. Статистический вывод оказывается столь же простым, как этот ответ. Конечно, может возникнуть желание сопроводить утверждение «наша оценка Р есть В (,,.)» указанием некоторых, а возможно, и всех обобщающих характеристик, рассмотренных в разделе 2.3. Например, мы предпочтем вести обсуждение в терминах средних и дисперсий на- 132
Таблица 5.1. Числовые примеры применения E.8) Исходы выборочного обследования Выборочная доля a In Апостериорная оценка* средняя стандартное отклонение (а) Априорное распределение В A, 1) О 10 15 5 0 10 5 15 0,5 0,75 0,25 (б) Априорное распределение В A1, 11) 0 10 15 5 0 10 5 15 0,5 0,75 0,25 (в) Априорное распределение В A6, 6) 0 10 15 5 0 10 5 15 0,5 0,75 0,25 (г) Априорное распределение В F, 16) 0 10 15 5 0 10 5 15 0,5 0,75 0,25 0,5* 0,5 0,7273 0,2727 0,5* 0,5 0,619 0,381 0,7273* 0,619 0,7381 0,5 0,2727* 0,381 0,5 0,2619 * Когда а = 6==0> апостериорная оценка соответствует априорной оценке. — отношение не существует. 0,2887 0,1043 0,0929 0,0929 0,1043* 0,0762 0,0741 0,0741 0,0929* 0,0741 0,0670 0,0762 0,0929* 0,0741 0,0762 0,0670 ших оценок, как это было в предыдущем разделе. Или же нам может потребоваться охарактеризовать нашу оценку в терминах вероятностных интервалов. Принципиальных трудностей при этом не возникает, нужно лишь воспроизвести процедуры, о которых шла речь в разделе 2.3. Использование бета-распределения сопряжено на практике с определенными трудностями, поскольку значения его функции распределения могут быть найдены лишь путем обращения к численным методам интегрирования. Однако возможность аппроксимировать бета-распределение с помощью нормального распределения (имеющего ту же среднюю и ту же дисперсию) облегчает достижение интересующей нас цели. 133
Итак, если наша оценка Р на определенной стадии наблюдений есть В (а, Р) и если сумма а + р достаточно велика (скажем, больше 30), то мы можем приближенно представить нашу оценку с помощью нормального распределения, имеющего ту же среднюю и ту же дисперсию. Другими словами, мы можем записать, что наша оценка Р приближенно описывается распределением N после чего появляется возможность строить (приближенно) вероятностные интервалы для Р с помощью таблицы нормального распределения, приведенной в приложении 6. Например, предположим, что наша оценка переменной Р на некоторой стадии наблюдений имеет вид В B5, 25). Ее средняя равна: 25/25 + 25) = 0,5, а дисперсия равна: 25X25^ B5 + 25J B5+25+1) 'Ш # Поэтому мы можем считать нашу оценку переменной Р приближенно удовлетворяющей распределению N [0,5, @,07J]. Если теперь мы захотим определить 95-процентный вероятностный интервал для Р, обратимся к приложению 6 и заметим, что 95 % площади под кривой плотности нормального распределения заключено между значениями, отстоящими от его средней на расстояние, равное 1,96 величины стандартного отклонения (см. раздел 2.4). Поэтому наш приближенный 95-процентный вероятностный интервал для переменной Р определен так: 0,5 ±1,96-0,07. т. е. есть @,3628; 0,6372). Аналогично приближенный 99-процентный вероятностный интервал для Р есть @,3194; 0,6806). (Полезно знать, что точные 95-процентный и 99-процентный вероятностные интервалы для В B5, 25) — вычисленные с помощью численных методов — суть @,3634; 0,6366) и @,3229; 0,6771) соответственно. Как можно видеть, аппроксимация весьма точная.) Подробный числовой пример, иллюстрирующий применение E.8), будет приведен в следующем разделе, а данный раздел мы завершим обсуждением некоторого обстоятельства, связанного с E.8), и подчеркнем ту роль, которую играет при этом одно из предположений, использованных при выводе E.8). Рассмотрим сначала поведение апостериорной оценки, когда объем выборки п возрастает. Конкретнее, мы ограничимся случаем бесконечного объема исходной совокупности и выясним предельное поведение нашей апостериорной оценки при п стремящемся к бесконечности. Интуитивно ясно (и это можно доказать формально), что когда п стремится к бесконечности, выборочная доля а/п стремится к р (истинной или реальной) доле Р совокупности. Следовательно, из E.11) следует, что апостериорная средняя нашей оценки Р стремится к 134
р. Это верно независимо от нашей априорной оценки, ибо вес ха\ стоящий при ней в E.11), стремится к 0 при п стремящемся к бесконечности. Более того, из E.12) вытекает, что апостериорная дисперсия стремится при этом к нулю. Итак, когда п стремится к бесконечности, наша апостериорная оценка Р стремится к вырожденному распределению в точке, совпадающей с реальным значением р> независимо от нашей априорной оценки. Это наиболее обнадеживающий результат. Вернемся теперь к соотношению E.5); как вы помните, оно содержало гипотезу относительно механизма формирования выборки. Ключевой результат E.8) опирался на E.5). Соотношение E.5) означает, что для каждого элемента выборки вероятность обладать интересующим нас свойством равняется р. Однако если выбор производится из конечной совокупности, то нужно не просто производить его случайным образом, но должен иметь место выбор с возвращением. Вот простой числовой пример, демонстрирующий, что произойдет, если мы не будем соблюдать это правило. Пусть рассматриваемая совокупность состоит из 100 человек, 50 из которых мужчины. Предположим, что шансы каждого элемента совокупности быть выбранным равны, но выбранный элемент не возвращается в совокупность, из которой производится выбор следующего элемента. Тогда при выборе первого элемента шанс выбрать мужчину равен ~- При выборе второго элемента шанс выбрать мужчину равен 49/99, если первым выбран мужчина, и равен 50/99, если первый раз была выбрана женщина. Ни в том, ни в другом случае мы не получили 1/2, т. е. E.5) перестает быть верным. Таким образом, чтобы E.5) было по-прежнему справедливо для конечной совокупности, надо производить выбор элементов с возвращением и тогда E.8) также останется верным. (Существует, конечно, результат, аналогичный E.8), и для выбора без возвращения, но поскольку его доказательство требует сложных алгебраических выкладок, мы не будем останавливаться на этом случае. На практике, если рассматриваемая совокупность, хотя и конечна, значительно больше объема выборки, то результат E.8) остается приблизительно верным даже для выбора без возвращения.) 5.5. СЛУЧАЙ ОТСУТСТВИЯ АПРИОРНОЙ ИНФОРМАЦИИ Может случиться, что тот, от кого требуется формирование априорной оценки переменной Р, чувствует себя совершенно неподготовленным к решению этой задачи. В данном разделе мы остановимся на том, как совместить рассматриваемые методы с подобной ситуацией. Вернемся к нашей интерпретации априорного распределения В (а, Р) как «эквивалента» наблюдению выборки объема а + р, содержащей а элементов, обладающих рассматриваемым свойством, и Р элементов, этим свойством не обладающих. После того как такая интерпретация известна, естественно при полном отсутствии априорной информации 135
положить значения аир равными нулю, поскольку априорное распределение В @,0) должно быть «эквивалентно» рассмотрению выборки объема 0 (в которой 0 элементов обладают требуемым свойством и 0 элементов им не обладают). Посмотрим, к чему приведет одновременное обращение в нуль параметров а и Р нашего априорного распределения. Из E.8) мы видим, что при а = р = 0 апостериорной оценке, опирающейся на выборку объема а + Ь (а — положительных исходов и Ь—отрицательных), соответствует распределение В (а, Ь). Следовательно, такая апостериорная оценка зависит только от новой информации. При этом апостериорная средняя равна: а/ (а + Ь) = а/п, т. е. равна выборочной доле. В свою очередь апостериорная дисперсия равна ab "" "" (a + bJ (a + b+\) где через р обозначена выборочная доля а/п, т. е. выборочная дисперсия также оказывается зависящей только от выборочной информации, точнее, от выборочной доли и от объема выборки. Способ, с помощью которого мы формализовали случай полного отсутствия априорной информации или полного пренебрежения ею, положив оба параметра а и р равными нулю, нас вполне бы устроил. Единственное затруднение в том, что при определении бета-распределения B.27) и а, и р предполагались положительными. Тем самым если а и Р в выражении B.27) приравнять нулю, то получится функция, площадь между графиком которой и осью абсцисс окажется бесконечной, независимо от выбора множителя масштаба, т. е. она не может быть функцией плотности вероятностей (площадь под графиком которой должна быть равна 1, что обеспечивается выбором множителя масштаба). Полученная функция, очевидно, не будет собственной функцией плотности. Поэтому функцию с параметрами а и Р, одновременно обращающимися в нуль, называют несобственной функцией плотности. Несмотря на это, она «работает» в том смысле, что апостериорное распределение оказывается собственным, даже если априорное несобственное. Более того, она «работает хорошо», т. е. свойства апостериорного распределения находятся в полном согласии с интуитивными представлениями . Тем самым мы имеем возможность пользоваться подобной функцией в случае полного пренебрежения априорной информацией; поступая подобным образом, мы следуем практике применения байесовского подхода. Как мы уже отмечали выше, если объем выборки равен а + Ь, причем она содержит а позитивных исходов и Ъ негативных, и если мы начали с полного пренебрежения априорными ожиданиями (а = р — 0), то апостериорное распределение имеет форму В (а, Ь). Его средняя р и дисперсия р (\ — р)/(п + 1), где р (в а/п) есть выборочная доля. 136
Когда сумма а + Ь достаточно велика, можно воспользоваться в качестве приближения нормальным распределением, что позволяет получить следующий важный результат. При отсутствии априорной оценки апостериорное распределение переменной Р дриближенно является распределением N (р, /ГA — рI{п + 1I, где ^Г— выборочная доля, an — объем выборки. E.13) Тем самым получена полная характеристика нашей апостериорной оценки. Обобщающие характеристики можно построить аналогично тому, как это было сделано прежде. Например, для построения 95-процентного вероятностного интервала переменной Р мы воспользуемся фактом, в силу которого в 95 % случаев нормально распределенная переменная отстоит от среднего значения не более чем на 1,96 величины стандартного отклонения. Следовательно, E.13) позволяет указать (приближенно) 95-процентный вероятностный интервал переменной Р Например, начав с полного пренебрежения априорной оценкой и получив в качестве информации выборку объема 50 с 20 позитивными исходами, найдем р — 0,4, и апостериорная оценка будет иметь приближенно распределение N [0,4, @,0686J], что соответствует E.13). С помощью E.14) найдем 95-процентный вероятностный интервал, который равен 0,44=1,96-0,0686, т. е. @,266; 0,534). Итак, на основе выборочной информации можно заключить, что с вероятностью 0,95 истинное значение переменной Р лежит на отрезке от 0,266 до 0,534. Из E.14) можно также заключить, что длина 95-процентного вероятностного интервала равна 3,92 i/^? (i-">) # E.14а) V п+\ Эта функция убывает с ростом объема выборки п, хотя ее значение зависит также от выборочной доли р. Поэтому с помощью подходящего выбора п нельзя обеспечить получение заранее заданной длины вероятностного интервала, но вероятностный интервал наибольшей длины может быть определен. Рассмотрим выражение E.14а) как функцию /?; оно принимает значение 0, когда р равняется 0, или 1 и положительно, если р располагается между этими крайними значениями; более того, 137
функция достигает максимума при р =- 0,5. Поэтому наибольшая длина 95-процентного вероятностного интервала равна: 3,92 lA n+1 Vn+l' Поэтому выбор подходящего значения п может гарантировать, что наибольшая длина вероятностного интервала не превысит наперед заданного положительного числа (Например, если потребовать чтобы наибольшая ширина вероятностного интервала не превышала 0,4; 0,2; 0,1; 0,05; 0,02 и 0,01, то нужно выбрать значения п соответственно равными 23, 95, 384, 1536, 9603 и 38415. Как видно из приведенных примеров и как следует из общего результата, наибольшая длина вероятностного интервала уменьшается обратно пропорционально корню квадратному из объема выборки, т. е. чтобы эту длину уменьшить вдвое, потребуется вчетверо больший объем выборки.) Рассмотрим теперь пример, где потребуется почти весь материал данной главы. Предположим, что вы предложили свои услуги секретарю местного отделения социал-демократической партии, которого интересуют шансы кандидата его партии на предстоящих выборах. Очевидно, ответ на этот вопрос зависит от р — доли избирателей, готовых отдать свои голоса социал-демократам, если их кандидат будет выдвинут; когда р достаточно велико, имеет, смысл участвовать в избирательной кампании, иначе это будет напрасной тратой партийных средств. Проблема, конечно, в том, что ни вы, ни местный секретарь не знаете значения р. Однако вы имеете возможность получить информацию относительно/?, выясняя мнение части включенных в списки избирателей. Обратившись на местную почту, вы можете получить списки избирателей с последних выборов, отсюда следует сделать случайную выборку заранее определенного объема. (Один из возможных способов осуществить такую выборку: записать номер каждого избирателя на листке бумаги, опустить листки в шляпу, хорошо ее потрясти и извлечь из нее требуемое число листков, возвращая каждый снова в шляпу перед извлечением следующего. Менее трудоемкий путь состоит в случайном выборе одного избирателя среди первых т/п, значащихся в списках, а затем по одному из каждых следующих т/п избирателей, где т — объем совокупности, an— объем выборки. Будет ли при этом удовлетворяться E.5)?) Предположим, вы решили проявить осторожность и вначале ограничились выборкой небольшого объема, состоящей, скажем, из 100 избирателей. (Кроме того,выборочное обследование требует затрат и оно может оказаться ненужным, если выборочная доля будет либо очень мала, либо очень велика.) Предположим, что наша «пилотная» выборка дала 25 избирателей, заявивших о своей готовности голосовать за социал-демократов, а 75 такого желания не выразили. Какова ваша оценка Р доли избирателей, готовых поддержать социал-демократиче- 138
скую партию, в свете полученной информации? Ответ на этот вопрос, очевидно, зависит от вашей априорной оценки. Рассмотрим два случая: в первом будем исходить из предположения, что априорными ожиданиями вы полностью пренебрегаете; во втором сформируем свои ожидания на основе данных о голосах, полученных социал-демократами в другом районе страны. В первом случае вам нечего сказать относительно Р и поэтому ваша априорная оценка Р будет иметь вид В @, 0). Из E.8) следует, что ваша апостериорная оценка Р с учетом полученной при пилотном обследовании информации имеет вид В B5, 75). Этой оценке соответствует средняя 0,25, дисперсия @,043J, и оценку можно считать приближенно нормально распределенной. Итак, ваша апостериорная оценка имеет вид N [0,25, @,043) а]. Если секретарь местного отделения социал-демократической партии не улавливает смысл подобного утверждения, то вы можете предложить ему то же утверждение в форме вероятностного интервала: 95-процентный вероятностный интервал будет равен 0,25± 1,96-0,043, т. е. @,166; 0,334). Теперь вы можете сообщить секретарю, что, по вашему мнению, имеется 95 шансов из 100 для кандидата его партии получить от 16,6 до 33,4 % голосов избирателей на предстоящих выборах. Шансы таковы, что секретарь может быть ободрен полученным сообщением, особенно если в выборах участвуют три основные партии, но и озабочен широкими границами, в которых возможна ошибка (т. е. большой длиной вероятностного интервала). Он может поэтому побудить вас к продолжению исследований на основе выборки большего объема — соответствующие дополнительные расходы представляются ему оправданными. Предположим, что на этот раз вы остановились на выборке, содержащей 500 избирателей, фамилии которых вновь случайным образом извлекли из регистрационных списков. Пусть проведенное обследование на этот раз дало вам результат: 95 избирателей заявили о поддержке социал- демократов, а 405 избирателей сказали, что предпочитают другие две партии. Эта информация привела к пересмотру вашей оценки В B5,75) (полученной после «пилотного» обследования, но до новой выборки) и к формированию новой оценки В A20, 480) на основе соотношения E.8). Ее средняя равна 0,2, дисперсия равна @,0163J, и эта оценка имеет приближенно нормальное распределение. Таким образом, ваша новая оценка имеет вид N [0,2, @,0163J], и соответствующий ей вероятностный интервал равен 0,2±1,96 -0,0163, т. е. @,168; 0,232). Теперь вы можете сообщить секретарю местного отделения социал-демократической партии, что, по вашему мнению, с вероятностью 95 % шансы партии на выборах колеблются между 16,8 и 23,2 % голосов избирателей. Эти шансы таковы, что секретарь вряд ли будет доволен результатами пересмотра предыдущей оценки! Рассмотрим теперь второй случай: ваша априорная оценка переменной Р (она опиралась на результаты выборов в другом районе страны) до того, как вы произвели какую-либо выборку среди избирателей, существует и равна, например, В C, 12). Ее средняя 0,2, стандартное от- 139
клрнение 0,1, 95-процентный вероятностный интервал приблизительно равен @,004; 0,396), На основе E.8) после «пилотного» обследования, но до извлечения более объемной выборки вы можете свою оценку пересмотреть, и она примет видБ B8, 87), а после того, как получена информация о результатах основного обследования, пересмотреть ее еще раз и получить В A23, 492). Для промежуточной оценки 95-процентный вероятностный интервал равен @,165; 0,322), а для последней оценки этот интервал будет равен @,168; 0,232). Как вы могли убедиться на этих двух примерах, ваша априорная оценка очень быстро оказалась буквально «затопленной» выборочной информацией; произошло это потому, что ваша априорная аденка была недостаточно жесткой. Вы можете проанализировать ситуацию, когда эта оценка является более строгой, скажем В C0, 120) или В A20, 480). Эти примеры фактически завершают данный раздел. Но одно заключительное замечание может оказаться полезным, особенно если вы ощущаете беспокойство в связи с применением несобственного априорного распределения В @,0), когда нужно формализовать отсутствие априорной оценки или полное пренебрежение ею. Вы можете предпочесть в качестве подходящей альтернативы оценку В A; 1), которая, как вы помните, совпадает с равномерным на отрезке [0; 1] распределением и соответствует предположению, что все значения Р от 0 до 1 считаются равновероятными. На практике, как это показал рассмотренный выше пример, различие между априорными оценками В @; 0) и В A; 1) несущественно, ибо для достаточно больших а и Ь оценки В (а, Ь) и В (а+1, b + 1) почти неотличимы одна от другой. 5.6. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ И ПРОВЕРКА ЗНАЧИМОСТИ Суть байесовского подхода заключается в представлении ожиданий в форме вероятностных оценок и в пересмотре этих оценок с появлением новой информации. В ответ на вопрос о значении параметра или переменной (параметров или переменных) в какой-либо момент времени сторонник байесовского подхода просто сообщит вам свою оценку (оценки) на этот момент времени (это может быть полное описание распределения или указание соответствующих обстановке обобщающих характеристик). И это все,что данный подход предлагает в подобной ситуации. Статистик же классического направления поступает иным образом. В данном разделе мы попытаемся, насколько это возможно, установить соответствие между утверждениями в рамках классического и байесовского подходов. Решающее отличие классического подхода от байесовского состоит в использовании понятия объективной вероятности и в отказе от концепции субъективных ожиданий. Отсюда следует, что вероятностные утверждения не могут относиться к фиксированным числам, таким, например, как реальная доля элементов совокупности, обладающих опре- 140
деленным свойством. Поэтому статистик классического направления будет считать утверждение «вероятность того, что переменная Р лежит между 0,168 и 0,232 равна 0,95» лишенным смысла, поскольку с его точки зрения Р либо лежит в этом интервале, либо находится вне его. Для классического подхода неприемлемо выражение «а-процентный вероятностный интервал переменной Р». Однако есть очень сходное по звучанию понятие классической статистики, а именно «а-процентный доверительный интервал для Р». Поэтому статистик «классик» может сказать, что «95-процентный доверительный интервал для Р, установленный на основе выборочной информации, равен @,168; 0,232)». Как мы уже отмечали выше, это вовсе не означает, что данное утверждение можно трактовать как попадание Р с вероятностью 0,95 в интервал от 0,168 до 0,232. С точки зрения представителя классической школы, Р либо лежит между 0,168 и 0,232, либо нет. (Если говорить формально, то вероятность либо 1, либоО.) Подходящая для него интерпретация понятия «95-процентный доверительный интервал для Р» выглядит так: «если рассмотреть все 95-процентные доверительные интервалы для (некоторого) Р, то 95 % этих интервалов будут содержать Р, хотя в оставшиеся 5 % Р не попадет». Итак, выражения «а-процентный вероятностный интервал для Р» и «а-процентный доверительный интервал для Р» имеют совершенно отличающиеся друг от друга интерпретации, что указывает на различия между субъективной трактовкой вероятности байесовской школой и объективной трактовкой этого понятия классической школой. (Что касается автора, то он придерживается точки зрения, в силу которой классическое понятие доверительного интервала в высшей степени искусственно, и большинство студентов, даже демонстрирующих свою приверженность классическому направлению, неявно пользуются интуитивно более ясной байесовской интерпретацией.) Одно из следствий классического подхода к трактовке теории вероятностей состоит в автоматическом отрицании какой-либо роли априорных ожиданий. Поэтому окончательная оценка должна зависеть только и непосредственно от выборочной информации. Поэтому классичес- ская статистика оказывается эффективной лишь в случае полного пренебрежения априорными представлениями. Это весьма незначительное подмножество реальных ситуаций с позиций байесовского подхода было рассмотрено в разделе 5.5. Ключевым в этом разделе был результат E.13), характеризующий апостериорную оценку; из него следует оценка 95-процентного вероятностного интервала, приведенная в E.14). Было установлено, что при полном пренебрежении априорными представлениями 95-процентный вероятностный интервал для Р, получае- мый для выборки объема п с выборочной долей р> приближенно равен 141
Представитель классической школы, столкнувшись с подобной ситуацией, сделает вывод о том, что 95-процентный доверительный интервал для Р приближенно равен Если не считать интерпретации, единственным различием между E.15) и E.16) является присутствие делителя п + 1 в подкоренном выражении в первом случае и появление на его месте делителя п во второй формуле. Ясно, что при большие п это различие между E.15) и E.16) становится неуловимым. Таким образом, доверительный интервал в классической статистике это, по сути, то же самое, что апостериорный вероятностный интервалу полученный в байесовской статистике при полном пренебрежении априорными представлениями. Итак, зная, что @,168; 0,232) — 95-процентный доверительный интервал для Р, найденный в рамках классической статистики, мы можем воспользоваться им как апостериорным 95-процентным вероятностным интервалом в рамках байесовской статистики, если наши априорные ожидания относительно Р либо отсутствуют, либо мы ими полностю пренебрегаем. В классической статистике имеется также процедура, называемая проверкой гипотез. Чего-либо полностью соответствующего ей в байесовской статистике нет. Можно привести байесовскую интерпретацию (модифицированной версии) классической процедуры проверки гипотез, однако мы оставим это до следующей главы. 5.7. РЕЗЮМЕ В этой главе рассмотрена одна из простейших задач статистического вывода, а именно вывод относительно неизвестной доли элементов некоторой совокупности, обладающих определенным свойством. При всей относительной простоте эта задача позволяет ввести основную процедуру байесовского вывода, состоящую в пересмотре априорных ожиданий в свете полученной новой информации. Для удобства изложения мы сосредоточили в этой главе внимание на случае, когда априорные ожидания относительно доли совокупности могут быть выражены в форме бета-распределения, хотя ясно, что рассмотренные здесь методы точно таким же образом можно применить к другим формам априорных оценок. Воздействие новой информации на априорную оценку зависит, конечно, и от формы, в которой эта новая информация поступает, в частности от способа, каким она была получена. В этой главе мы рассматривали «естественный» источник получения информации относительно доли элементов, обладающих интересующим нас свойством, в совокупности таким источником было обследование случайно выбранных элементов совокупности. Основным 142
был результат, в силу которого при любом объеме случайной выборки апостериорная оценка удовлетворяет бета-распределению, если априорная оценка подчинялась распределению из этого же семейства. Другими словами, оценка (после учета новой информации) остается в рамках того же семейства (бета-распределений). Более того, параметры распределения изменяются при этом весьма простым образом: первый параметр увеличивается на число элементов выборки, обладающих рассматриваемым свойством, а второй параметр увеличивается на число элементов выборки, этим свойством не обладающих. Мы показали, как естественно с точки зрения общих интуитивных представлений изменяются под воздействием новой информации значения средней и дисперсии нашей оценки. Мы обсудили вопрос о том, как можно формально выразить пренебрежение априорными представлениями, и убедились, что для этого нужно оба параметра априорного бета-распределения положить равными нулю. Наконец, мы сопоставили результаты этой главы с тем, что предлагает классическая статистика для решения тех же проблем, и продемонстрировали числовое совпадение классического доверительного интервала с байесовским вероятностным интервалом, рассчитанным в предположении о полном пренебрежении априорными ожиданиями (вместе с тем интерпретации этих понятий совершенно различны). 5.8. УПРАЖНЕНИЯ (Некоторые упражнения повторяют друг друга. Поэтому вам следует отобрать те из них, которые будут соответствовать вашему уровню усвоения материала.) 5.1. Предположим, что ваши априорные ожидания по поводу Р описаны не с помощью бета-распределения, а заданы в следующей дискретной форме: A/2, р=1/4, 3/4; О, при других р. Определите апостериорную оценку Р, если в случайной выборке оказалось а элементов, обладающих интересующим вас свойством, и Ь элементов, не обладающих этим свойством. Если истинное значение р равно 1/4, то объясните, почему ваша апостериорная оценка приближается к вырожденному распределению со значением р = 1/4 при неограниченном возрастании объема выборки п (= а + + Ь). (Достаточно привести эвристические аргументы.) Что произойдет, если истинное значение р = 1/2 (т. е. истинным оказалось значение, которое с точки зрения ваших априорных ожиданий не может иметь место)? 5.2. Пусть ваши априорные ожидания описываются не с помощью бета- распределения, а заданы дискретным распределением A [ О, при других р. Определите апостериорную оценку, если в случайной выборке а элементов обладают рассматриваемым свойством и b элементов им не обладают. (Будьте внимательны, здесь понадобятся некоторые ухищрения. Придется рассмотреть отдельно три случая: A) а = О, Ь > 0; 2) а > 0, Ь > 0; C) а > 0, Ь = 0). * 143
5.3. Пусть ваши априорные ожидания по поводу неизвестной доли Р выражены с помощью бета-распределения с параметрами а и р. Предположим, что средняя вашей априорной оценки есть 0,5. Найдите а и Р, если заданы значения стандартных отклонений: (a) l/"l/i~2; (б) 0,125; (в) 0,1; (г) 0,05; (д) 0,0625; (е) 0,025. 5.4. Пусть ваши априорные ожидания относительно неизвестной доли Р описаны с помощью бета-распределения с параметрами а и Р, и средняя вашей априорной оценки равна 0,3. Найдите аир, если стандартное отклонение принимает значения: (а) 0,1; (б) 0,05; (в) 0,025; (г) 0,02. 5.5. Пусть ваши априорные ожидания относительно неизвестной доли Р -описаны с помощью бета-распределения, имеющего параметры а и Р, а средняя вашей априорной оценки равна 0,7. Найдите аир, если заданы значения стандартных отклонений: (а) 0,1; (б) 0,05; (в) 0,025; (г) 0,02. 5.6. Пусть ваши априорные ожидания относительно неизвестной доли Р описаны с помощью бета-распределения*, имеющего параметры а и р, а средняя вашей априорной оценки равна 0,2. Найдите а и Р, если заданы значения стандартных отклонений: (а) 0,2; (б) 0,1; (в) 0,05; (г) 0,025. 5.7. Рассмотрите случайную выборку объема 100, содержащую 40 элементов, обладающих некоторым свойством, и 60 элементов им не обладающих. Найдите апостериорное распределение Р и 95-процентный вероятностный интервал для Р, если априорное распределение соответствует: (а) упражнению 5.3 (г); (б) упражнению 5.4 (б); (в) упражнению 5.5 (б); (г) упражнению 5.6 (в). В каждом случае рассчитайте уменьшение длины 95-процентного вероятностного интервала (для апостериорного распределения в сравнении с априорным). 5.8. Повторите упражнение 5.7 для априорных распределений соответствующих (а) упражнению 5.3 (е); (б) упражнению 5.4 (в); (в) упражнению 5.5 (в); (г) упражнению 5.6 (г). 5.9. Пусть априорные ожидания Смита по поводу неизвестной доли Р описаны с помощью бета-распределения, имеющего среднюю 0,4 и стандартное отклонение 0,1. В то же время априорные ожидания Джона по поводу той же доли Р описаны бета-распределением со средней 0,6 и стандартным отклонением 0,1. Оба (и Джон, и Смит) наблюдают выборку объема 50, в которой число элементов, обладающих интересующим их свойством, равно числу элементов, не обладающих этим свойством. Найдите апостериорные распределения для Смита и Джона и укажите 95-процентные вероятностные интервалы. 5.10. Докажите, что если выбор осуществляется в соответствии с E.5), то вероятность, что выборка объема п содержит а элементов, обладающих рассматриваемым свойством, и Ь элементов, не обладающих этим свойством, определяется соотношением E.9). 5.11. Предположим, вы намерены выбрать т пунктов из списка, содержащего п пунктов. Пусть вы выбираете случайным образом один пункт из первых т/п пунктов, а затем поочередно по одному пункту из каждых следующих т/п пунктов. Будет ли ваш выбор выбором с возвращением? Удовлетворяется ли при этом соотношение E.5)? 5.12. Рассмотрите пример, подробно описанный в разделе 5.5. Воспроизведите анализ двух априорных распределений (В C0, 120) и В A20, 480)), упомянутых в конце предпоследнего абзаца этого раздела. 5.13. Пусть какие-либо априорные знания о неизвестной доле Р отсутствуют. Найдите апостериорное распределение, если вы располагаете выборкой объема 60, в которой ровно половина элементов обладает интересующим вас свойством. Пусть в вашем распоряжении оказались 80 дальнейших наблюдений и 30 из них указырают на наличие свойства, а 50 на его отсутствие. Каким станет ваше апостериорное распределение после получения этой информации? Определите 95-процентный вероятностный интервал для промежуточного и окончательного распределений. 5.14. Предположим, что ваши априорные представления относительно Р — доли потенциальных сторонников социал-демократической партии среди избира- 144
телей Северо-Восточного округа Бристоля — описаны в виде бета-рае п ре деления со средней 0,5 и стандартным отклонением 0,0625. Пусть опрос тридцати избирателей выявил 20 потенциальных сторонников социал-демократической партии. Найдите апостериорный 95-процентный вероятностный интервал для Р. Каким станет этот интервал после еще одного обследования тридцати избирателей, среди которых доля сторонников социал-демократической партии осталась такой же, как и в первой выборке? 5.15. (а) Если вы не располагаете никакими априорными представлениями относительно неизвестной доли Р элементов совокупности, обладающих определенным свойством, то какого объема выборка необходима, чтобы длина вашего апостериорного 95-процентного вероятностного интервала стала меньше, чем 0,2? (б) Пусть вы располагаете выборкой, объем которой определен в (а), и обнаружили, что 25% ее элементов обладают интересующим вас свойством. Какова длина апостериорного 95-процентного вероятностного интервала? Будет ли она равна 0,2? Почему? 5.16. (а) Если никаких априорных представлений относительно неизвестной доли Р элементов совокупности, обладающих определенным свойством, у вас нет, то какова наибольшая длина апостериорного 95-процентного вероятностного интервала, если объем выборки равен 25? (б) Что вы ответите на вопрос, поставленный в (а), если ваши априорные ожидания описываются бета-распределением со средней 0,5 и стандартным отклонением 0,0625? На основе этого оцените «ценность» такой априорной информации. 5.17. В чем преимущества бета-распределения при отражении ожиданий в отношении долей? Что вы думаете относительно использования бета-распределений с параметрами а = Р = 0иа= $= 1 для описания ситуации, в которой априорные представления весьма расплывчаты? Приведите пример ситуации, когда бета- распределение не подходит для представления априорных ожиданий. Как осуществить анализ с помощью байесовских процедур в этом случае? 5.18. «Процедура байесовского вывода относительно доли элементов совокупности, обладающих определенным свойством, требует, чтобы априорная оценка была задана в форме бета-распределения». Верно ли это утверждение?
ГЛАВА 6 СРЕДНИЕ И ДИСПЕРСИИ 6.1. ВВЕДЕНИЕ В гл. 5 речь шла об оценке того, насколько распространенным является некоторое фиксированное свойство элементов интересующей нас совокупности. В том случае, когда для каждого элемента совокупности можно установить, обладает он рассматриваемым свойством или нет, степень распространенности этого свойства данной совокупности полностью характеризуется долей Р элементов, которые этим свойством обладают. Решение нашей задачи состояло в оценке неизвестного нам значения Р для всей совокупности. Конечно, на практике наш интерес этим не ограничивается; хотелось бы узнать, среди элементов какого типа это свойство более распространено и почему. Однако такие вопросы выходят за рамки задач из гл. 5, и в поисках ответа мы должны перенести анализ в область экономических соотношений, которым посвящены гл. 7, 8 и 9. Конечно, нас интересует нечто большее, чем просто значение Р, и потому придется существенно расширить круг рассматриваемых проблем. Этому и будут посвящены следующие главы. Но сначала мы в данной главе обратимся к довольно простому способу обобщения материала гл. 5 и подготовим тем самым почву для исследования, которое будет проведено в гл. 7. В гл. 5 мы столкнулись с дилеммой «все или ничего», поскольку каждый элемент интересующей нас совокупности либо обладал рассматриваемым свойством, либо не имел его вовсе. В более общем случае речь может идти о свойстве, присущем элементам совокупности в разной степени. Например, это могут быть доходы отдельных индивидов из определенной совокупности или их потребительские расходы, рост этих индивидов или их вес, расходы на покупку пива или характеристики их имущественного положения или какой-либо иной показатель. Другими словами, это значения некоторой переменной, назовем ее X, соответствующие различным элементам совокупности. В общем случае эти значения меняются от элемента к элементу, т. е. существует распределение значений X на рассматриваемой совокупности. В зависимости от конкретной задачи нас может интересовать либо вся информация об этом распределении X, либо просто некоторые его обобщенные характеристики, скажем, средняя или дисперсия (или обе эти характеристики). 146
Как и в гл. 5, информация о распределении переменной X может быть получена путем обследования случайно выбранных элементов совокупности и определения соответствующих им значений X. Объединяя эту информацию с некоторой априорной оценкой распределения X, мы с помощью теоремы Байеса (подобно тому, как это было сделано в гл. 5) получим апостериорную оценку. Результат такой процедуры зависит, конечно, от точной формы априорной оценки и в особенности от свойств распределения переменной X. Задача упрощается, если известна форма распределения переменной Л" в совокупности; например, если известно, что распределение является равномерным, бета-распределением, нормальным или каким- либо еще. В этих случаях распределение полностью описывается небольшим числом ключевых параметров: а и b для равномерного распределения (см. B.23)); а и 0 в случае бета-распределения (см. B.27); \i и а2 для нормального распределения (см. B.29)) и т. п. В каждом из этих случаев знание указанных ключевых параметров равносильно знанию распределения в целом. Хотя методы, излагаемые в данной главе, применимы к любой форме распределения переменной X, мы ограничимся рассмотрением случая нормального распределения. Этот особенно важный случай очень часто встречается на практике. (Многие экономические переменные нормально распределены, а многие из оставшихся после соответствующих преобразований тоже удовлетворяют нормальному закону; так, при разбивке на группы по доходам недельные потребительские расходы приближенно удовлетворяют нормальному распределению, если недельный доход предварительно прологарифмировать.) Если переменная X распределена нормально, то это распределение полностью характеризуется значениями его средней и дисперсии (см. B.29)). Поэтому знание средней и дисперсии означает знание всех деталей, связанных с конкретным нормальным распределением, т. е. узнать все о распределении — то же самое, что определить две его обобщающие характеристики — среднюю и дисперсию. 1 Ключевые параметры распределения — его среднюю и дисперсию— мы будем обозначать через М и S2 соответственно. Таким образом, через М обозначают среднюю (Mean), а через S — стандартное отклонение (Standard deviation) распределения переменной X в рассматриваемой совокупности. Будем и здесь пользоваться прописной буквой для обозначения самого параметра, который может принимать различные значения, а соответствующей строчной буквой — для обозначения его конкретных значений. Поэтому реальное значение М в совокупности обозначают через т, а реальное значение S — через s (конечно, имеется в виду, что т и s — соответствующие значения переменных М и S). Возможны четыре случая, перечисленные в таблице. Случай 1 тривиален и нет никаких проблем с его изучением, поскольку о распределении все известно. В трех остальных случаях зада- 147
Случай 1 2 3 4 Средняя известна неизвестна известна неизвестна Дисперсия известна известна неизвестна неизвестна ча нетривиальна, и информация потенциально полезна: для уменьшения неопределенности знания о средней в случае 2, для уменьшения неопределенности знания о дисперсии в случае 3, для уменьшения неопределенности знания о двух этих параметрах в случае 4. Соответствующие обозначения в свою очередь меняются в зависимости от того, какой параметр известен, а какой неизвестен. Так, известное значение средней мы обозначаем через т, а если это значение неизвестно, то будем пользоваться буквой М\ аналогично известному стандартному отклонению соответствует s, а неизвестному— S. Как быть, когда средняя и/или дисперсия неизвестны, было показано в гл. 5. Соответствующая процедура выглядит так: сначала формируется априорная оценка неизвестного параметра (параметров), затем осуществляется случайная выборка из совокупности и обследование ее элементов, наконец, выборочная информация используется для пересмотра априорной оценки и в результате получают апостериорную оценку. В данной главе поставлена цель — отыскать апостериорные оценки в случаях 2, 3 и 4 при некоторой данной априорной оценке. В разделе 6.2 рассмотрен случай 2, в разделе 6.3 — случай 3, а в разделе 6.4 — случай 4. В каждом из этих разделов рассматривается ситуация, когда априорные представления весьма расплывчаты. В разделе 6.5 показана связь результатов, полученных в разделах 6.2—6.4, с классическим анализом этих же задач. Раздел 6.6 содержит резюме, а раздел 6.7 — упражнения. 6.2. ВЫВОД ПРИ НЕИЗВЕСТНОЙ СРЕДНЕЙ И ИЗВЕСТНОЙ ДИСПЕРСИИ Мы рассмотрим в этом разделе случай 2 из помещенной выше таблицы. Мы имеем дело с некоторой интересующей нас переменной X, которая нормально распределена в рассматриваемой совокупности. Значение средней для переменной X неизвестно, и мы обозначаем его оценку М, а значение дисперсии мы знаем, оно равно s2. Покажем в этом разделе, как наблюдения над X могут быть использованы для пересмотра априорной оценки М неизвестного значения средней. Эти предположения можно выразить так: X ~ N (М, s2). F.1) Мы будем рассматривать два исходных элемента: форму априорного распределения М и источник информации относительно М, который позволяет пересмотреть априорную оценку. 148
Начнем с формы априорной оценки. Ясно, что эта форма зависит от ожиданий индивида, формирующего эту оценку, т. е. от накопленных опыта и знаний. Поскольку переменная X непрерывна (это следует из F.1)), то естественно предположить, что оценка М должна быть непрерывной, а не дискретной. Хотя методы, развиваемые в этом разделе, применимы к различным формам априорных распределений, мы ограничимся случаем, когда априорная оценка берется в форме нормального распределения. Предположим, что априорная оценка М нормально распределена со средней \i и дисперсией а2. Чтобы выбрать подходящие значения \хи а, мы поступим так же, как в разделе 5.2. Например, если наша оценка М такова, что мы считаем 100 наиболее вероятным значением и таким, что почти наверняка (с вероятностью 95,44 %) значение М лежит между 80 и 120, то значениями \i и а, отражающими такие априорные ожидания, будут соответственно 100 и 10. (Напомним, что нормально распределенная переменная попадает в интервал, гра- •ницы которого удалены на 2 стандартных отклонения от средней, с вероятностью 95,44 %.) Для случая, когда априорный 95,44-процентный вероятностный интервал для М задан в виде A00; 120), fx— значение априорной средней равно ПО, аст — значение априорной дисперсии равно 5. Можно выразить предположение, в силу которого М ~ N (\i9 a2), в терминах априорной функции плотности вероятности для М (см. B.29), где множитель а включен в коэффициент пропорциональности): fM И ос ехр [ — (т^J/Bа2)]. F.2) Перейдем теперь к вопросу о получении информации относительно М. Как и в гл. 5, существует естественный источник такой информации, а именно элементы рассматриваемой совокупности. Поскольку М — средняя значений X в рассматриваемой совокупности, естественно считать, что обследование элементов совокупности и выяснение соответствующих им значений X проливает свет на интересующее нас значение М. Вновь, как и в гл. 5, имеются две «крайние» возможности: мы можем обследовать все элементы совокупности или же обследовать только один ее элемент. Существует и «промежуточная» возможность — обследовать п элементов. Применим теперь процедуру, аналогичную использованной в гл. 5: сначала выясним, как воспользоваться информацией, полученной при обследовании одного элемента, а затем обобщим полученные результаты на случай, когда обследуют п элементов. Как и в гл. 5, естественно выбрать наш единственный элемент (или произвести выборку объема 1) так, чтобы получить информацию об интересующем нас параметре. Это означает, что мы осуществляем наш выбор «правильно», т. е. обеспечивая каждому элементу совокупности равные шансы быть выбранным. Отсюда следует, что вероятностное распределение значений X среди выбранных элементов в точности такое же, как распределение значений X в совокупности. Поэтому, в силу 149
F.1), распределение значений X среди выбираемых элементов должно иметь вид N (М, s2). Ясно, что оно зависит от неизвестного значения М\ удобнее всего выразить это так: условное распределение (значений X среди выбираемых элементов), когда дано, что М принимает значение т, имеет вид N (m, s2). Это можно записать с помощью условной функции плотности вероятностей (ср. B.29), где мы включили множитель S" в коэффициент пропорциональности): 8х (х\т)ос ехр [ — (х-mJ/Bs2)]. F.3) Это записано правдоподобие того, что для выбранного элемента значение X окажется равным х (или, короче, «правдоподобие наблюдения jc»), если дано, что М принимает значение т. Теперь мы имеем возможность воспользоваться теоремой Байеса и, следовательно, получить апостериорную оценку УИ, учитывающую наблюдение х. Априорная оценка задана соотношением F.2), правдоподобие — соотношением F.3), и поэтому, воспользовавшись D.23), мы получим для апостериорной оценки: gM (m | х) ос gx (x | т) fM (m) ос НехрГ [ 2s2 J L 2a2 Итак, (x—mJ (m — uJ F-4) Заметим теперь , что выражение в квадратных скобках можно упростить, воспользовавшись следующим алгебраическим тождеством: (x-nif * 2 a2 s*o2 [ s* + o* ) a2 s*o2 [ s* + o* ) s2-fa2 Подставим его в F.4) и получим Это выражение можно упростить, если учесть в коэффициенте пропорциональности множитель, не зависящий от т. Тогда gM (m | х) ос ехр 21 2s2a2 F.5) Теперь мы имеем дело с функцией плотности вероятностей нормально распределенной переменной (см. B.29)) со средней %Т°2* и дис- 150
s2 о2 Персией 2Л_ а . Мы можем сформулировать следующий важный результат. Если априорная оценка М ~ N (|Л, а2), то после наблюдения значения х переменной X (где X ~ N (M,s2)) апостериорная оценка будет удовлетворять распределению F.6) Первое, что следует отметить, анализируя этот результат: если априорной оценке соответствует нормальное распределение, то и апостериорной оценке также соответствует нормальное распределение. Значит, оценки остаются внутри семейства нормальных распределений. Второе, заслуживающее внимания обстоятельство касается характера воздействия новых наблюдений на среднюю величину оценки: как видно из F.6), априорная средняя |ы преобразуется в апостериорную среднюю которая является средневзвешенной величиной априорной средней (\i) и значения, полученного при наблюдении (х). Более того, априорная средняя входит в F.7) с весом, пропорциональным s2, т. е. пропорциональным дисперсии X, а значение, полученное при наблюдении, — с весом, пропорциональным а2, т. е. пропорциональным дисперсии М. Это означает, что с уменьшением а2 (при прочих равных) увеличивается вес априорной средней, а с уменьшением s2 (при прочих равных) увеличивается вес наблюдения. Другими словами, чем больше вы доверяете своей априорной оценке М, тем меньший вес получит новая информация при формировании вашей апостериорной оценки,или чем более вероятно, что значение, полученное при наблюдении, близко к реальному значению т, тем больший вес вы присвоите наблюдениям. Все эти выводы интуитивно воспринимаются как вполне осмысленные. Апостериорную среднюю F.7) можно записать в альтернативном виде, разделив числитель и знаменатель на произведение дисперсий s2o2 очевидно, что обе формы записи эквивалентны, если а Ф О, s Ф 0): F.8) В этой форме записи коэффициент при \i равен I/a2, a при х равен 1/s2. Конечно, отношение этих весов осталось прежним, т. е. равным отношению s2 и а2, однако такая форма записи удобнее, поскольку при каж- 151
дом из компонентов стоит характеристика его собственной «точности», и, кроме того, зависимости, о которых шла речь в предыдущем абзаце, становятся более явными. Так, коэффициент при значении априорной средней равен 1/сг2, т. е. является обратной величиной по отношению к априорной дисперсии; таким образом, чем меньше априорная дисперсия, тем больший вес соответствует априорной средней. Аналогично при значении, полученном в результате наблюдения, стоит коэффициент 1/s2, равный величине, обратной дисперсии наблюдаемых значений; таким образом, чем меньше дисперсия наблюдения, тем больший вес ему соответствует. В любом случае вес обратно пропорционален дисперсии. Поэтому полезно дать величине, обратной дисперсии, свое наименование и ввести для нее специальное обозначение. Назовем ее точностью этой переменной. Очевидно, чем меньше дисперсия, тем болъше точность, и чем больше дисперсия, тем меньше точность; слово «точность» оказывается в данном случае вполне подходящим. Обозначим точность априорной оценки через л, а точность наблюдения — через р, т. е. л = 1/а2, р = 1/s2. F.9) Воспользуемся новыми обозначениями и перепишем выражение F.8) для средней апостериорной оценки М: F10) л + р Мы видим, что апостериорная средняя является средневзвешенной величиной априорной средней и значения, полученного при наблюдении, с весами, пропорциональными точности априорной оценки и точности наблюдения соответственно. Итак, чем больше точность априорной оценки, тем больший вес соответствует априорной средней; а чем больше точность значения, полученного при наблюдении, тем больше вес наблюдения. Выясним теперь, как повлияет новая информация на дисперсию оценки и ее точность. Из F.6) следует, что априорная дисперсия равна s2 -4- о2 а2, а апостериорная — равна 2 2 . Это означает, что априорная точ- 1 / 2 S2+O2 1.1 . ность 1/<г = я и апостериорная точность 2 2 - = ~ ' т ~ п + + р. Таким образом, в результате учета информации, полученной при наблюдении, точность увеличилась с я до я + Р- оценка после наблюдения становится более точной,чем до него, причем точность увеличивается на величину, равную точности наблюдения. Это с интуитивной точки зрения вполне осмысленный результат. С помощью введенного нами нового обозначения ключевой результат F.6) можно записать в альтернативной, но алгебраически эквивалентной форме. 152
Если априорная оценка М ~ N (\i, 1/я), то после наблюдения значения х переменной X (где X ~ N (М, \/р)) апостериорная оценка будет удовлетворять распределению F.11) л + р л+р Обобщим полученные результаты. Если априорное распределение нормально, то и апостериорное распределение будет нормальным; апостериорная средняя является средневзвешенной априорной средней \i и значения х> полученного в результате наблюдения, причем веса пропорциональны априорной точности л и точности распределения наблюдаемых значений р соответственно; апостериорная точность равна сумме априорной точности и точности наблюдения. Прежде чем обобщить этот результат, приведем пример его использования. Предположим, что нас интересует переменная X, о которой известно, что она нормально распределена в некоторой совокупности, причем дисперсия распределения — s2 = 9, а ее средняя М неизвестна. Предположим, что наши априорные ожидания относительно М можно описать посредством априорной оценки, имеющей нормальное распределение со средней fi -= 100 и дисперсией а2 = 16. Пусть случайно выбран один элемент совокупности, для которого переменная X принимает значение х = 112,5. Воспользуемся F.6) или эквивалентной формой этого соотношения F.11) и получим апостериорную оценку М, нормально распределенную со средней + + a2 s2 16 ^ 9 и точностью 25 144 Это означает, что апостериорная дисперсия равна 144/25 и, следовательно, апостериорное стандартное отклонение равно: 12/5=2,4. Таким образом, апостериорная оценка имеет вид N [ 108, B,4J]. Обе оценки, априорная и апостериорная, изображены на рис. 6.1. Как видно из рис. 6.1, новая информация привела к смещению оценки средней М в сторону значения переменной X, полученного при наблюдении (на величину, зависящую от отношения характеристик априорной точности и точности измерения), одновременно уменьшается разброс оценки, ее неопределенность. Этот эффект отражается на длине различных вероятностных интервалов. Например, априорный 95-процентный вероятностный интервал для М равен 100 + 1,96-4, т. е. (92,16; 107,84); апостериорный 95-процентный вероятностный интервал для М равен 108dz 1,96-2,4, т. е. A03,296; 112,704). Таким 153
образом, априорная оценка и одно наблюдение х =112,5 приводят нас к выводу, что с вероятностью 0,95 значение средней М лежит между 103,296 и 112,704. Длина 95-процентного вероятностного интервала в результате наблюдения уменьшилась с 15,68 др 9,408: это уменьшение служит мерой «ценности» новой информации. Заметим, что уменьшение вероятностного интервала не зависит от значения, полученного при наблюдении, поскольку длина 95-процентного вероятностного интервала m+6 x 92 100 108 1121 Рис. 6.1. Априорная и апостериорная оценки М (значение s2 известно). Априорно М удовлетворяет распределению N A00; 16); правдоподобие того, что средняя М переменной X равна т удовлетворяет распределению N (т; 9); апостериорная оценка Af, учитывающая случайно выбранный элемент *= 112,5, удовлетворяет распределению N A08; 2,42) зависит только от точности (дисперсии) соответствующего распределения, а, как мы уже видели, само значение, полученное при наблюдении, не влияет на апостериорную точность. Не появилось ли у вас желание обсудить интуитивную оправданность этих выводов? До сих пор мы рассматривали случай выборки объема 1. Обобщим теперь наши результаты на случай выборки объема п. Будем, как обычно, считать, что выборка осуществлена «правильно», и каждому элементу совокупности обеспечены одинаковые шансы попасть в эту выборку. Отсюда следует, что условное распределение каждого значения X из выборки удовлетворяет соотношению F.3). Это означает, что результат F.11) справедлив и в этом случае и его можно использовать для определения воздействия, которое окажет на априорную оценку выборка, состоящая из п элементов. Будем учитывать влияние п наблюдений (обозначим соответствующие им значения переменной через хъ Х2* •••¦ *п) последовательно. Мы начали с априорного распределения N (|i, а2) и после первого наблюдения хх получили в соответствии с F.11) апостериорное распределение И Р 154
Схематически это можно представить следующим образом: априорное ЛМ[л, —) + наблюдение хх=5> => апостериорное Nl J^"r^1 t —1*_1 F.12) V n+p n+p ) Теперь нам предстоит учесть информацию, появившуюся при втором наблюдении, когда мы выбрали элемент с соответствующим ему значением х2. Прежде чем информация о новом наблюдении поступила, наша оценка имела вид: 1 \ п+р ' п+р т. е. соответствовала априорному распределению в соотношении F.11), а х2—информации, воздействие которой нужно учесть. Воспользоваться F.11) мы можем, если известны «р и «я». Но, в частности, «р> может принять значение (пр + рх^^п + p)f а «я»— значение п + р. Подставим вместо я и \i эти значения в F.11) и получим априорное N ( nP+pXl 9 \ + наблюдение \ п+р п+р) =Ф апостериорное N { \Kf^/ . ^-J. F.13) Здесь апостериорная средняя является средневзвешенной соответствующей априорной средней л^ ~\_pXl и наблюдения х2 с весами, пропорциональными новой априорной точности я + р и точности наблюдения р. Апостериорная точность также равна сумме новой априорной точности п + р и точности наблюдения р. После упрощения выражения, стоящего в правой части, F.13) можно записать так: априорное N I n^~^pXl ] +наблюдение \ п+р п+р) апостериорное п + 2р п + 2р] Ясно, что F.12) и F.14) можно объединить и тогда априорное N (ц, —| + наблюдения хг и л;2Н> V п J \ F.14) ~» апостериорное N ( nV+P(xi+x2) 1 \ F 15) I п + 2р п + 2р ) 155
Этот процесс можно продолжить. Рассмотрим влияние информации, в силу которой при третьем наблюдении зарегистрировано значение х3. Распределение в правой части F.14) или F.15) —" N я + 2р я+2р, станет теперь априорным на следующем шаге и поэтому к нему нужно применить F.11), когда мы будем учитывать новую информацию х3. jjm _L_ п( у I у ) При использовании F.11) вместо \i нужно подставить ^ , * , я -f- lp а вместо л — соответственно л + 2р. Получим », / Яи + р (Л'1 -\-Х2) 1 \ ei априорное N ^ —— , - наблюдение х3=> \ я + 2р Ji+2p/ — J + pxs => апостериорное , , (еле) Здесь апостериорная средняя получена как средневзвешенная нового значения априорной средней л^ + р^1 ^~ х%' и наблюдения дс3, при- п -\~ ip чем веса пропорциональны априорной точности л + 2р и точности наблюдения /?. При этом апостериорная точность равна сумме априорной точности л + 2р и точности наблюдения р. После упрощения выражения, стоящего в правой части F.16), получим априорное N / яР + Р(*1 + *1) , _J—\ + наблюдение х3 », /яи + Р (^1 + ^2 + ^3) 1 \ /с i^ апостериорное А^ ^^^v г —2J—2.;, . F.17» F F V я + Зр я + Зр^ V ; Объединим F.12), F.13) и F.17) (или, что то же самое, F.15) и F.17)): априорное N l\i, — J + наблюдения хъ х2 и х3 => ^ апостериорное N(W+pI*i + ** + *u JL_). F.18) V F \ я + Зр 'я+Зр/ 7 Теперь запишем результат для общего случая п наблюдений хъ х%,..., хп. априорное iVf \iy —) + наблюдения хъ хъ ..., хп => апостериорное ЛГ (я>г + р <*' + *'+ • • •+Xn), -±—\ F.19) \ я + лр п + пр] 156
Это выражение можно упростить, если обозначить через х среднюю выборочных значений, т. е. X - Из F.20) следует, что хг + х2 + ... + хп ж пх, и поэтому F.19) можно записать так: априорное Nl\i, —)+ наблюдения хи хъ ..., хп => => апостериорное N (л^+прх , _L_\ F.21) \ п + пр п+пр) Поскольку это чрезвычайно важный результат , перепишем его в форме F.П). Если априорная оценка М ~ N1 и,—V то после наблюдения значений хи хъ ..., хп переменной X(где X - N(м, — \\ F-22) апостериорная оценка будет удовлетворять распределению М - N (п^ + пРх t —1—\. \ п + пр n + npj Проиллюстрируем полученный результат. Во-первых, если априорная оценка распределена нормально, то и апостериорное распределение будет нормальным независимо от объема выборки, т. е. оценка остается в семействе нормальных распределений. Во-вторых, апостериорная средняя является средневзвешенной априорной средней и выборочной средней, причем веса равны я и пр соответственно. Таким образом, чем больше априорная точность (при прочих равных), тем больший вес имеет априорная средняя; чем больше объем выборки или больше точность каждого наблюдения, тем больший вес (при прочих равных) соответствует выборочной средней. Результат, как видим, вполне осмыслен интуитивно. В-третьих, апостериорная точность равна сумме априорной точности и произведения объема выборки на точность каждого наблюдения. Из F.22) следует, что апостериорная средняя зависит только от среднего значения х наблюдений хъ х2у ..., хп. Поэтому порядок, в котором появляются наблюдаемые значения, не существен, и каждое из них имеет одинаковый вес. Более того, поскольку наша оценка относится к М — среднему значению совокупности, вся информация, заключенная в наблюдениях хи л:2,..., хпу сосредоточена в значении выбороч- 157
ной средней х. Любая другая информация'о наблюдениях в данном случае оказывается избыточной. Другими словам*!, знания значения х достаточно, чтобы пересмотреть вероятностную Зденку М. Еще одно свойство, вытекающее из F.22): апостериорная точность не зависит от значений хъх2, ..., хП1 полученных при наблюдениях, а зависит только от параметров я, п и р. Тем самым имеется возможность обеспечить желаемое значение апостериорной точности путем соответствующего выбора объема выборки п. Эквивалентным образом это свойство можно сформулировать так: желаемую длину а-процентного вероятностного интервала (при заданном а) можно обеспечить, выбрав соответствующее значение п. Например, рассмотрим 95-процентный вероятностный интервал — он имеет длину, равную 3,92 апостериорным стандартным отклонениям. Предположим, нужно осуществить выборку (наименьшего) объема п так, чтобы эта длина не превышала некоторого заранее заданного значения w. Тогда нужно найти л, удовлетворяющее равенству а;-=3,921/ (поскольку точность распределения является обратной величиной его дисперсии). Это уравнение, если на время «забыть», что п — натуральное число, приводит к решению К 3,92 \2 F.23) В качестве п остается взять ближайшее натуральное число^ не меньшее правой части равенства F.23). Мы видим, что придется увеличивать объем выборки я, если меньше окажется точность априорного распределения, или меньше будет точность наблюдений, или уменьшится требуемая длина вероятностного интервала. Приведем простой числовой пример, с которым мы уже встречались в данном разделе. В этом примере я = ^ = 0,0625 и р = i = 0,A). При подстановке в F.23) w = 9,408 получим п = 1, что соответствует нашим ожиданиям и может служить проверкой правильности вывода F.23). Другие примеры содержатся в таблице, где в качестве п указано ближайшее натуральное число, не меньшее правой части F.23). Из таблицы видно, что за исключением малых значений п (когда априорная оценка доминирует над выборочной информацией) уменьшение вдвое длины вероятностного интервала требует четырехкратного увеличения объема 158 W 8 4 2 1 0,5 0,25 0,125 п 2 9 35 138 553 2213 8851
выборки. Достаточно взглянуть на выражение F.23), чтобы убедиться в общем характере этой зависимости при условии, что длина w достаточно мала в сравнении с я. Прежде чем привести конкретный пример применения F.22), посмотрим, что произойдет с нашей задачей, если полностью пренебречь априорными представлениями. Очевидный способ учесть указанное обстоятельство — принять точность априорного распределения равной нулю. Из F.22) ясно, что тогда апостериорная оценка будет функцией только выборочной информации . Формально при я = 0 мы получим из F.22) следующий результат. Если полностью пренебречь априорными представле- J ниями, то после наблюдения п значений х19 х2,...,хп\ переменной X (где X ~ N (М, \1р)) апостериорная оценка 1 М будет удовлетворять распределению N (х, \1пр). } Утверждение F.24) можно записать в альтернативной и эквивалентной форме. Если полностью пренебречь априорными представлениями, то после наблюдения п значений xl9 x2,...yxn переменной X (где X ~ N (М, s2)) апостериорная оценка М будет удовлетворять распределению N (х, s2ln). Этот простой, но весьма важный результат свидетельствует о том, что апостериорная оценка средней совокупности (когда априорные знания отсутствуют) нормально распределена вокруг выборочной средней, а дисперсия этого распределения пропорциональна дисперсии переменной X и обратно пропорциональна объему выборки. Апостериорные вероятностные интервалы для М легче получить с помощью F.2S) и приложения 6. Например, 95-процентный вероятностный интервал для М равен х ± 1,96 s/Y~n. Длина этого интервала 3,92 s/Y"n может быть сделана сколь угодно малой путем соответствующего выбора объема выборки п. Есть и еще одно свойство, вытекающее из F.22) и F.25), на которое следует обратить внимание: апостериорная дисперсия стремится к нулю при неограниченном увеличении объема выборки. Более того, апостериорная средняя либо равна выборочной средней (в случае F.25))> либо стремится к ней при неограниченно увеличивающемся п (в случае F.22)), а та в свою очередь стремится (при неограниченном увеличении п) к средней величине т для всей совокупности (апостериорная оценка средней для совокупности «стягивается» в вырожденное распределение у точки, соответствующей реальному значению средней для совокупности). В заключение данного раздела проиллюстрируем ключевой результат F,22) и его специальный случай F.25) на одном примере. Предположим, нас интересует вес студенток Йоркского университета. Пусть нам удалось узнать (или мы готовы предположить), что характеристики их 159
веса нормально распределены с известным стандартным отклонением в 14 фунтов, но неизвестной средней М. Чтобы получить информацию относительно М, мы можем осуществить случайную выборку среди студенток данного университета (отбирая их по фамилиям из списка всех студенток с помощью соответствующего механизма) и взвесить попавших в выборку студенток. Пусть вначале были выбраны 25 студенток и оказалось, что их средний вес равен 135 фунтам. Какой будет оценка М в свете полученной информации? Апостериорная оценка зависит от априорной. Предположим вначале, что никаких априорных сведений у нас нет, т. е. что априорная оценка обладает нулевой точностью. Воспользуемся F.25), положив х = 135, s = 14 и п = 25; мы найдем, что наша апостериорная оценка М нормально распределена со средней х = 135 и дисперсией s2ln = = 142/25 = A4/5J = 2,82, т. е. наша апостериорная оценка имеет вид N A35; 2,82). Это ее полная характеристика, и мы можем найти любые интересующие нас параметры. Например, апостериорный 95-процентный вероятностный интервал равен 135 ± 1,96x2,8, т. е. A29,51; 140,49). Итак, на основе выборочной информации мы можем заключить, что с вероятностью 0,95 М лежит между 129,51 и 140,49 фунтов. Пусть теперь мы хотим получить более точную оценку Л4, скажем, такую,что ее 95-процентный вероятностный интервал имеет длину не более 6 фунтов. Воспользуемся F.23) при w = 6, я = 0, р = 1/s2 = = 1/196 и вычислим соответствующее значение /г; оно равно 84. Поскольку мы уже располагаем выборкой из 25 студенток, нужно дополнительно выбрать 59 студенток, чтобы достичь требуемой точности. Пусть среднее дополнительной выборки равно 138. Какой станет наша оценка теперь? Ответ можно получить двумя путями: либо рассмотрев дополнительную информацию в сочетании с полученной ранее оценкой для выборки из 25 студенток, либо сразу объединить обе выборки в одну большую выборку и учесть всю содержащуюся в этой выборке информацию в сочетании с начальной априорной оценкой (в таком случае априорной информации уже не будет). Рассмотрим каждый из этих путей. Оценка, полученная на основе первоначальной выборки, как мы помним, имеет вид N A35, 2,82), а выборочная средняя для дополнительной выборки из 59 наблюдений равна 138. Подставим в F.22) значения: ji == 135, я - 1/2,82, п = 59, р = 1/142 и х = 138. Эта формула позволяет нам рассчитать среднее значение нормально распределенной апостериорной оценки, учитывающей дополнительную выборку: 135/2,82 + 59х138/142 _ }37 j 1/2,82 + 59/142 "" ' ' а также дисперсию, которая равна: -^2,3. F F 1/2,8*+ 59/14* 160
Таким образом, наша апостериорная оценка такова: N A37,1; 2,C)). Соответствующий 95-процентный вероятностный интервал определяется соотношением 137,1 dzl,96]/27C^ т. е. равен A34,1; 140,1). Его величина равна 6 фунтам, как и требовалось. Предположим теперь, что две имеющиеся в нашем распоряжении выборки сразу же объединены в одну большую выборку, состоящую из 25+59=84 наблюдений. Средний вес студенток в этой новой выборке будет равен 25x135 + 59x138^ 137 1 84 поскольку первые двадцать пять студенток вместе весят 25-135 фунтов, а оставшиеся пятьдесят девять — 59-138 фунтов. Остается объединить эту информацию с нашей исходной информацией, которая заключалась в полном пренебрежении априорными сведениями. Подставив в F.25) значения х = 137, 1, s = 14 и п = 84, обнаружим, что апостериорная оценка М нормально распределена со средней *= 137,1 и дисперсией s2M = 142/84 = 2,C), т. е. апостериорная оценка имеет вид N A37,1; 2,C)). Это в точности (впрочем, вряд ли мы в этом сомневались) совпадает с оценкой, полученной выше другим способом. Рассмотрим теперь альтернативную ситуацию — мы в состоянии дать априорную оценку М. Конкретно будем исходить из того, что в силу имеющейся первоначальной информации М удовлетворяет распределению N A40,9) (ему соответствует 95,44-процентный вероятностный интервал A34; 146)). ^одставим в F.22) значения: \i =140, л = 1/9, п = 25, р = 1/142 и х = 135. Это позволит получить апостериорную оценку М после того, как осуществлена первая выборка из двадцати пяти студенток. Оценка будет удовлетворять распределению N A37,33; 4,19), а соответствующий 95-процентный вероятностный интервал имеет вид A33,32; 141,34). Полезно сопоставить его с вероятностным интервалом, найденным ранее для случая нулевых априорных знаний: A29,51; 140,49). Первый из этих двух вероятностных интервалов уже и смещен вправо по сравнению со вторым — так отразилось влияние априорных сведений. Наконец, инкорпорируем информацию, заключенную во второй выборке, рассматривая полученную только что оценку в качестве априорной. Пользуясь первым из двух возможных способов, подставим в F.22) значения: \i = 137,33, я=1/4,19, п = 59, /?= = 1/142 и х = 138. Тогда апостериорная оценка М будет удовлетворять распределению N A37,7; 1,853), а соответствующий 95-процентный вероятностный интервал будет иметь вид A35,03; 140,37). Если этот вероятностный интервал мы сравним с полученным ранее для той же выборки из 59 наблюдений, но в предположении об отсутствии априорных сведений A34,1; 140,1), то убедимся, что эти два интервала почти одинаковы. Влияние содержащихся в выборке наблюдений на 6 Зак. 2161 " 161
Априорной информации нет раз- Рис. 6.2. Последний пример дела 6.2. Оценки М: (А) — априорная, (В) — с учетом пер вой выборки, (С) — с учетом второй выборки. Наблюдения A) — средняя первой выборки, B) — средняя второй выборки 128 130 B) Априорная оценка N A40; 9) 128 130 апостериорную оценку увеличилось, поскольку возросло число наблюдений в этой выборке (рис. 6.2). Итак, мы рассмотрели случай 2 из таблицы, помещенной в конце раздела 6.1. Вы достаточно подробно познакомились с не совсем обычной ситуацией, когда значение средней предполагается неизвестным, в то время как дис- ^ Персия задана. Представить сеое нечто подобное в реальной жизни нелегко, и поэтому придумать описанный выше пример было трудно. Более реалистичен случай 4 когда и средняя, и дисперсия неизвестны. Но прежде чем перейти к нему, рассмотрим в следующем разделе случай 3, когда средняя известна, а дисперсия неизвестна, тем. самым будет проложен путь к анализу случая 4 в разделе 6.4. 6.3. ВЫВОД ПРИ НЕИЗВЕСТНОЙ ДИСПЕРСИИ И ИЗВЕСТНОЙ СРЕДНЕЙ К этому моменту нам удалось обсудить два примера статистического вывода, а именно: вывод относительно доли элементов совокупности, обладающих определенным свойством, и вывод о значении средней распределения при известной дисперсии. В каждом из этих примеров нам приходила на помощь относительно простая техника вывода, непосредственно ведущая к цели, а результаты вполне соответствовали интуитивным представлениям. Основное внимание мы уделяли обсуждению и интерпретации ключевых результатов. Надеемся, что к настоящему моменту читатель уже овладел базовыми процедурами и в состоянии самостоятельно ими пользоваться. Поэтому в дальнейшем изложение станет значительно «компактнее», поскольку мы опустим большую часть технических деталей. Читатель тем меньше в них нуждается, чем свободнее он владеет базовыми процедурами. Мы предлагали читателю принять на веру некоторые ключевые результаты, чтобы он мог сосредоточить все свое внимание на достижении интуитивного понимания как самих результатов, так и предпосылок, обеспечивающих их получение. J 162
Ознакомившись с данной и последующими главами, мы убедимся, что, по мере того как приложения становятся все более реалистическими и полезными, сложность соответствующих им технических приемов также возрастает. Поэтому, а также имея в виду то, что встречающийся в литературе экономический анализ обычно ведется в предположении об отсутствии априорных знаний, мы отнесемся к этому специальному случаю очень внимательно. Даже рассматривая ситуацию с явно ненулевой априорной информацией, мы будем дополнительно анализировать в качестве предельного случай отсутствия априорных знаний. Тем самым мы сможем практически не рассматривать конкретные способы описания априорных оценок. Обсудим теперь проблему статистического вывода в условиях, когда дисперсия неизвестна, а средняя фиксирована. Постановка задачи будет такой же, как в предыдущем разделе: нас интересует некоторая переменная Х> нормально распределенная на некоторой совокупности. При этом мы предполагаем среднюю переменной X для данной совокупности известной, а дисперсию переменной X для той же совокупности неизвестной. В соответствии с нашей общей договоренностью относительно обозначений первую величину будем обозначать через т, а последнюю — через S2. Объединим сделанные предположения; X - N (т, S2). F.26) Мы намерены показать, как информация, поступившая в форме наблюдений над переменной X, может быть использована для уменьшения имеющейся неопределенности относительно S2. Мы можем записать принятые предположения о поведении переменной X в альтернативной, но в точности эквивалентной F.26) форме X ~ N (т, 1/Р), F.27) где Р = 1/S2 есть точность переменной X, а поставленная нами задача состоит в демонстрации того, как наблюдения переменной X могут быть использованы для уменьшения неопределенности наших представлений относительно Р. (Здесь Р обозначает нечто, совершенно отличное от того, что обозначалось этой же буквой в гл. 5.) Благодаря альтернативной форме F.27), как мы в этом вскоре убедимся, удается несколько уменьшить технические сложности, возникающие при преобразованиях. Как обычно, исходным пунктом рассуждений будет утверждение относительно наших априорных ожиданий по поводу значения неизвестного параметра — в данном случае Р. Поскольку Р может принимать только неотрицательные значения и притом любые в промежутке от нуля до бесконечности, в качестве возможного способа описания априорной оценки можно воспользоваться гамма-распределением. (Нормальное распределение для этой цели не годится, поскольку не позволяет исключить отрицательные значения; бета-распределение также придется отклонить, ибо ему соответствуют значения из отрезка [0; П.) 6* 163
Среди рассмотренных ранее распределений гамма-распределение оказывается единственно подходящим и отвечающим целям нашего анализа. Таким образом, остановимся на предположении о том, что наши априорные представления о параметре Р можно описать с помощью гамма-распределения с параметрами а и 0 (см. раздел 2.4). В силу B.31), это означает, что априорная плотность вероятностей переменной Р задается в виде >о, F28) 0, при остальных р. Посмотрим теперь, как скажется на этой оценке новая информация, заключенная в выборке объема 1. Если процесс извлечения выборки рандомизирован, то, как и в предыдущем разделе, распределение значений X для элемента выборки в точности совпадает с распределением X в исходной совокупности. Значит, в силу F.27), для элемента выборки имеем X ~ N (т, 1/Р), т. е. условное распределение X при данном Р = р есть N (т, Мр). Правдоподобие х при данном Р = р будет выглядеть так: gx(x\p) ос pi/2 ехр [ _?i?lp? J. F.29) (Сравнивая F.3) и F.29), можно обнаружить между ними различия, несмотря на то, что оба эти соотношения отражают один и тот же факт. Замена р яв 1/s2 объясняет не все различия между двумя указанными соотношениями; в F.29) перед экспонентой появился множитель р1/2, которого не было в F.3). Дело в том, что в предыдущем разделе нас интересовала средняя т, и потому можно было учесть не содержащие т компоненты в множителе пропорциональности соотношения F.3). На этот раз нас интересует /?, и теперь не содержащие р компоненты могут быть включены в множитель пропорциональности соотношения F.29). Вот почему множитель р */2 может быть исключен из F.3), но его необходимо сохранить в F.29).) Воспользуемся теоремой Байеса D.23). В силу F.28) и F.29), для апостериорного распределения Р, учитывающего одно наблюдение ху можно записать gP(p\x)oc\pl/2 ехр[-?i?f^! ]/>«-' ехр(-рр) при (О, при остальных р, или после упрощений: @, при при остальных р. 164
Сопоставив это выражение с B.31), приходим к выводу, что перед нами функция плотности вероятностей гамма-распределения с параметрами а + 1/2 и р + (х — тJ/2. Таким образом, получен важный результат. Если априорно P~G (a, P), то после наблюдения х над X~N (m, 1/Я) апостериорно P~~G\a+ —>p + — 1 F.31) Мы вновь столкнулись с ситуацией, когда оценка остается внутри своего семейства — в данном случае внутри семейства гамма-распределений. Можно было бы решить, что это случайность. Однако это не так. Мы просто соответствующим образом выбрали априорное распределение. При других априорных распределениях такой результат не был бы получен: например, если бы априорное распределение Р было бета- распределением, то апостериорное уже не было бы бета-распределением; точно так же при нормальном априорном распределении Р апостериорное распределение этого параметра нормальным уже не будет. С аналогичной ситуацией мы сталкивались в предыдущем разделе этой главы: если бы в качестве априорного для М было выбрано бета-(или гамма-)распределение, то апостериорное уже не было бы бета-(гамма-) распределением. Вы можете самостоятельно выяснить, почему это происходит. Результат F.31) можно обобщить, как это было сделано в предыдущей главе (см. E.8)), где параметры распределения при появлении новых данных изменялись чрезвычайно просто. В данном случае из F.31) следует, что с появлением одного наблюдения х первый параметр возрастает на 1/2, а ко второму прибавляется (л: — тJ/2. Обобщение на случай п наблюдений хъ х2,...,хп проводится непосредственно: каждое из наблюдений увеличивает первый параметр на 1/2; в результате *-го наблюдения второй параметр распределения увеличивается на (xt — mJ/2. Таким образом, нами получен следующий результат. Если априорно P~G (a, |5), то после п наблюдений хъ *2, ... ухп над X~N (m, 1/Я) / п ? (Xi-mf \ F-32) апостериорно P~G la-f- -^"» (J+ 2j z I- Для упрощения записи введем обозначение: п ~ vi {Xi—m)z (с. qq\ 5 _ 1л ' — - уо.од) ~,=t n Это выражение напоминает выборочную дисперсию 165
с той лишь разницей, что в первом выражении участвует средняя совокупности (т), а во втором — выборочная средняя х. Воспользовавшись F.33), переформулируем F.32). Если априорно P~G (а, Р), то после п наблюдений хъ хъ ..., хп над X~N (m, \/Р) апостериорно P~G I п п* \ \a-\ , р + I. В разделе 2.4 было показано, что гамма-распределение с параметрами а и Р имеет среднюю а/р и дисперсию а/р2. Поэтому из F.34) вытекает, что средние априорного и апостериорного распределений равны соответственно а априорная и апостериорная дисперсии а а-\-п/2 соответственно. Из F.35) вытекает, что независимо от значений аир апостериорная средняя при неограниченном возрастании п стремится к 1/s2. Аналогично из F.36) получаем, что при этом дисперсия апостериорной оценки стремится к нулю. Объединяя эти два результата, мы обнаружим, что апостериорная оценка Р при неограниченном увеличении п «стягивается» к вырожденному распределению с центральным значением 1/s2. Свойство F.34) позволяет интерпретировать конкретную априорную оценку Р подобно тому, как это было сделано в гл. 5. Точнее, F.34) свидетельствует об «эквивалентности» априорной оценки Р, заданной в виде G (а, Р), наблюдению выборки объема 2а, в которой сумма квадратов отклонений наблюдавшихся значений от т равна 2 р. Тем самым, кроме всего прочего, появляется возможность формально записать условие полного отсутствия априорной информации — положить значения а и Р одновременно равными нулю. В рамках нашей интерпретации априорная оценка G @, 0) «эквивалентна» наблюдению выборки нулевого объема (для которой, очевидно, сумма квадратов отклонений тоже равна нулю). Итак, из F.34) можно вывести следующий важный результат. Если априорная информация отсутствует, то после п наблюдений хи jc2, ...,хп над переменной X ~ N (т, IIP) I F.37) апостериорная оценка Р ~ G (м/2, ns2/2). С целью, которая вскоре станет ясна, мы придадим этому результату несколько иную форму. Вначале воспользуемся B.31) и заметим, что 166
если Р ~ G (n/2, ns2/2), то соответствующая функция плотности вероятностей пропорциональна p(n/2)-i ехр( — п? р/2). Введем временно новую переменную Y> определяемую соотношением Y = ns2P. Поскольку переменные Y и Р пропорциональны, их функции плотности вероятностей также пропорциональны (объясните, почему), т. е. после некоторых простых преобразований мы убедимся в том, что функция плотности вероятностей переменной Y пропорциональна у<л/2)-1 ехр (—у/2). Это функция плотности вероятностей для переменной, удовлетворяющей гамма-распределению с параметрами я/2 и 1/2. В разделе 2.4 уже говорилось, что у этого специального случая гамма-распределения имеется свое собственное наименование — о такой переменной говорят, что она удовлетворяет распределению хи-квадрат с п степенями свободы. Таким образом, мы приходим к следующему выводу: переменной Р ~ G (л/2, ns2/2) соответствует новая переменная nsP, удовлетворяющая распределению хи-квадрат с п степенями свободы. Воспользуемся этим свойством и преобразуем F.37). Если априорная информация отсутствует, то после п наблюдений хг, х2, .... хп над переменной X ~ N (т, IIP) апостериорная оценка Р F.38) такова, что ns2P удовлетворяет распределению хи-квадрат с п степенями свободы. На первый взгляд утверждение F.38) ничем не лучше утверждения F.37). Однако преимущество F.38) в том, что благодаря ему не нужна обращаться к неудобным таблицам гамма-распределения, а можно воспользоваться более простыми таблицами распределения хи-квадрат, которые есть почти во всех книгах по статистике. Мы приводим таблицу распределения хи-квадрат в приложении 8. В этом разделе нам приходится иметь дело уже с более сложным формальным аппаратом: числовые примеры позволят проиллюстрировать некоторые ключевые результаты. Мы ограничимся рассмотрением случая, когда априорные знания отсутствуют. Предположим, вас заинтересовал вопрос, сколько денег тратят студенты в буфете (баре), находящемся на территории университетского городка, в течение недели. Пусть вам известно или же вы готовы принять в качестве допущения, что переменная X (интересующая вас величина недельных расходов одного студента) нормально распределена со средней, равной 6 фунтам, — это значение было получено на основе анализа всех имеющихся счетов и суммарных поступлений. Предположим, вы не знаете дисперсии этих недельных расходов (измеряемой либо величиной самой дисперсии S2, либо характеристикой точности Р = 1/S2), но хотите иметь 167
о ней представление. Для получения информации относительно Р (или S2) вы решили произвести рандомизированную выборку двенадцати студентов (это, конечно, не первые попавшиеся нам сегодня вечером двенадцать студентов!) и попросить их в течение предстоящей недели регистрировать все свои расходы на покупки в университетском буфете. Более того, вы убеждаете студентов в необходимости быть предельно честными и аккуратными, объясняете им, что факт наблюдения никак не должен влиять на обычный режим покупок. Если студенты последуют вашим советам, то полученные с их помощью двенадцать значений переменной X можно будет считать подходящей рандомизированной выборкой для последующего анализа. (Вы, вероятно, хорошо представляете себе, что получить несмещенную информацию о расходах, связанных с развлечениями, весьма трудно. В большинстве обзоров, в частности, в Обзоре семейных расходов — Family Expenditure Survey,— публикуются лишь такие отчеты о расходах, которые проходят определенную независимую проверку благодаря контролю за общей суммой расходов.) Пусть в результате проведенных наблюдений вы получили следующие значения (фунты в неделю) для каждого из двенадцати студентов: 7,12 5,62 4,31 8,22 6,39 5,91 6,55 5,25 7,02 4,99 6,02 7,00 Выборочная средняя равна 6,20, и мы с уверенностью можем сказать, что она не смещена вниз. Подставим в F.33) соответствующие выборке значения наблюдаемых величин (при этом т = 6) и найдем, что s2= = 1,1058. Предположим теперь, что в качестве исходной мы рассматриваем ситуацию, когда никакой априорной информации относительно Р нет. Тогда можно воспользоваться утверждением F.38), в силу которого с учетом имеющихся в нашем распоряжении двенадцати наблюдений апостериорная оценка Р такова, что 13,2696 Р удовлетворяет распределению F.39) хи-квадрат с 12 степенями свободы (здесь п<? = 12-1,1058 = 13,2696 и я = 12). Мы располагаем теперь полной характеристикой апостериорной оценки и можем найти некоторые обобщенные ее характеристики. Например, с помощью F.39) и таблицы распределения хи-квадрат из приложения 8 можно определить 95-процентный вероятностный интервал для Р. В таблице каждая строка соответствует определенному числу степеней свободы, указанному в первом и последнем столбцах. Нашему примеру отвечает строка с числом 12 в двух крайних столбцах. Нас интересует 95-процентный вероятностный интервал. Будем считать; что с вероятностью 0,975 переменная 13,2696 Р должна быть не меньше некоторого числа и лишь с вероятностью 0,025 она превосходит некоторое другое число. Тогда в интервал между двумя найденными числами рассматриваемая нами переменная попадет с вероятностью 0,95. В строке таблицы, соответствующей 12 степеням свободы, мы об- 168
наружим, что вероятности 0,975 соответствует число 4,40, а вероятности 0,025 — число 23,03. Таким образом, 95-процентный вероятностный интервал (но не минимальной длины) для переменной, удовлетворяющей распределению хи-квадрат с 12 степенями свободы, имеет вид D,40; 23,03). Обращаясь теперь к F.39), можем записать Р D,40 < 13,2696 Р < 23,03) = 0,95. Чтобы преобразовать это в утверждение относительно переменной Р9 мы просто разделим каждый член неравенства на 13,2696: Р @,3316 < Р < 1,7355) = 0,95. F.40) (При этом значение вероятности остается тем же самым и равным 0,95, поскольку утверждения «4,40 < 13,2696 Р < 23,03» и «0,3316 < < Р < 1,7355» эквивалентны: второе удовлетворяется тогда и только тогда, когда справедливо первое.) Опираясь на выборочную информацию, мы таким образом установили, что с вероятностью 0,95 точность переменной X лежит между 0,3316 и 1,7355. Соотношение S2 = IIP позволяет преобразовать интервал, определенный равенством F.40) для значений точности, в интервал для значений дисперсии: Р @,5762 < 52 < 3,0157) = 0,95. F.41) (Число 0,5762 является обратным по отношению к 1,7355, величина S2 — к Р, а число 3,0157 — к числу 0,3316. Значение вероятности и при этом преобразовании остается равным 0,95, поскольку утверждения «0,3316 < Р < 1,77355» и «0,5762 < 52 < 3,0157» эквивалентны, т. е. второе справедливо тогда и только тогда, когда удовлетворяется первое.) Если необходимо, можно перейти от F.41) к утверждению относительно величины стандартного отклонения S: для этого достаточно вычислить арифметическое значение квадратного корня для каждого из членов неравенства, стоящего под символом вероятности: Р @,7591 < S < 1,7366) = 0,95. F.42) Таким образом, мы приходим к выводу, что с вероятностью 0,95 стандартное отклонение для изучаемых нами недельных расходов студентов содержится в интервале между 0,7591 и 1,7366. Предположим теперь, что найденный интервал представляется нам излишне широким— это означает, что наша оценка неточна, и потому мы решили произвести дополнительную выборку, состоящую из восемнадцати студентов. Теперь в нашем распоряжении выборка объема 30 наблюдений. Из F.38) следует,что для вычисления значения s2 потребуются все значения xt. Допустим, что мы произвели необходимые расчеты и получили s2= 1,3260 при п = 30. Подставим эти значения s2 и п в F.38). С учетом всех тридцати наблюдений апостериорная оценка Р будет такой, что 39,78Р удовлетворяет распределению | . ^. хи-квадрат с 30 степенями свободы. / (Ь.4<3> 169
(Мы, конечно, могли получить интересующий нас результат, объединяя информацию относительно восемнадцати дополнительных наблюдений с оценкой, полученной на основе первых двенадцати наблюдений, т. е. воспользоваться соотношением F.39) и общим результатом F.34). Однако, как было показано ранее, оба пути ведут к одному и тому же результату и потому выберем более простой.) Исходя из F.43) мы можем получить обобщающие характеристики распределения подобно тому, как это было только что сделано. В частности, с помощью таблицы распределения хи-квадрат мы обнаружим, что Р A6,79<39,78 Р<47,0) -0,95. Следовательно, 95-процентный вероятностный интервал для Р будет иметь вид @,4221; 1,1815). Это в свою очередь определяет 95-процентный вероятностный интервал для S2: @,8464:2,3691) и 95-процентный вероятностный интервал для S: @,92; 1,5392). Полученные вероятностные интервалы несколько уже в сравнении с теми, которые соответствовали лишь двенадцати наблюдениям. При необходимости любых ссылок на характеристику точности можно избежать. Воспользуемся тем обстоятельством, что Р = 1/S2 и сформулируем ключевой результат F.38) в альтернативной форме. Если априорная информация отсутствует, то после п наблюдений xlf x2, ..., хп над переменной X ~ N (m, S2) апостериорная оценка 52 такова, что п s2 /S2 удовлетворяет распределению хи-квадрат с п степенями свободы. F.44) Кроме того, если п достаточно велико (скажем, больше 60), мы можем обращаться с распределением хи-квадрат, имеющим п степеней свободы, считая, что его средняя равна п9 а дисперсия равна 2л, и оно хорошо приближается нормальным распределением, причем приближение тем лучше, чем больше число п. Таким образом, для достаточно больших п утверждение F.44) можно уточнить: апостериорная оценка S такова, то ns2/S2 приблизительно удовлетворяет нормальному распределению N (я, 2п). Теперь у вас имеется возможность исследовать, как «работает» подобное приближение для рассмотренного выше примера (хотя в нем п = 30, т. е. принятое ограничение, в силу которого п > 60, не удовлетворяется). На этом анализ случая 3 завершен. Основные положения данного раздела практически те же, что в примерах из гл. 5 и разделе 6.2, а именно изменение априорной оценки некоторого параметра в результате инкорпорирования (с помощью теоремы Байеса) новой информации. 170
6.4. ВЫВОД ПРИ НЕИЗВЕСТНОЙ СРЕДНЕЙ И НЕИЗВЕСТНОЙ ДИСПЕРСИИ Мы изучим в данном разделе случай 4 (наиболее общий из тех, которые были названы в разделе 6.1), когда обе величины — и средняя, и дисперсия, характеризующие представляющую для нас интерес переменную, — неизвестны. Переменную по-прежнему будем обозначать через X, предполагая, что она нормально распределена на интересующей нас совокупности. Поскольку ни среднюю совокупности, ни ее дисперсию мы не знаем, воспользуемся для их обозначения буквами М и S2. В целом наши предположения относительно переменной X можно записать в виде X ~ N (М, S2), F.45) или X ~ N (М, IIP), F.46) где Р s 1/S2 есть неизвестная характеристика точности. В каждом из предыдущих случаев был только один неизвестный параметр. В данном разделе мы сталкиваемся с новой ситуацией: имеются два неизвестных параметра. Поэтому и априорная, и апостериорная оценки должны выражаться с помощью совместных распределений двух параметров М и Р (или, что эквивалентно, М и S2). Введенные в гл. 3 обозначения позволяют специфицировать априорную оценку в виде 1мр (т, р) — совместной функции плотности вероятностей переменных М и Р. Мы зададим ее косвенным способом, что позволит построить эту функцию, опираясь на материал двух предыдущих разделов. В разделе 3.4 говорилось о свойстве, в силу которого совместная функция плотности вероятностей может быть записана как произведение подходящим образом выбранных условной и маргинальной функций плотности. В рассматриваемом нами случае Imp (m, p) = gM (m \ p) fP (p). F.47) Материал раздела 6.3 подсказывает как «очевидного кандидата на роль» fp (•) — априорного маргинального распределения Р — гамма-распределение с параметрами аир. Оно приведено в F.28). Далее, на основе раздела 6.2 мы можем взять в качестве gM (т I р) — априорного распределения — М при условии, что Р принимает значение р — нормальное распределение, имеющее среднюю [а и точность пр (или дисперсию o2s2). Формально (см. B.29)) получим gM (т\р) ос (прI'* ехр[-лр(т-^J/2]. F.48) (Поскольку точность распределения М при условии Р = р пропорциональна ру распределение переменной X будет обладать тем большей дисперсией, чем с меньшим доверием вы относитесь к своей оценке средней величины переменной X.) 171
Объединяя F.28) и F.48), получим следующую априорную совместную оценку М и Р: Imp (m, р) ос ( ^ (/ I 0, ехр г (m— u) 1 ехр (- при F 49) при остальных р. Как и ранее (см. разделы 6.2 и 6.3), информация поступает к нам в виде наблюдений над переменной X, удовлетворяющей распределению N (М, 1/Р). Начнем со случая выборки объема 1. Соответствующая функция правдоподобия имеет вид F.29), и мы воспроизведем ее здесь, сделав необходимые изменения в обозначениях: gx (х | m, р) ос pi/2 ехр [ -р (х-т2)/2]. F.50) Апостериорная совместная оценка, как обычно, определяется с помощью теоремы Байеса, и применительно к данному случаю мы можем записать: gMp (m, р | х) ос gx (x | /я, р) Imp (m,>). F.51) Объединяя F.50) и F.49) в выражение F.51), получим ( р1/2 ехр[—р(х—mfl2\{npyi2 exp[— np (m—\iJ/2] x gMP (m9p\x)ocl x pa-i ехр (_р/?) при р^О [ 0, при остальных р. После вполне «обозримых» алгебраических упрощений (подобных тем, с которыми мы уже сталкивались в разделах 6.2 и 6.3) преобразуем соотношение к виду gMP (/Л, р | X) ос Г(л» 1 0, «'-> ехр(-р», при остальных /?, где F.53) Сформулируем теперь полученный результат. 172
Если совместная априорная оценка М и Р такова, что маргинальное распределение Р ~ G (а, Р) и для условного распределения М при Р = р имеем М ~ N (\iyl/(np))y то после наблюдения значения х переменной X ~ N (М> IIP) совместной апостериорной F.54) оценке М иР соответствуют маргинальное распределение Р ~ G (а', Р') и условное распределение М при Р = р, такое, что М ~ N (\i'f 1/(я'р))> где а', Р', |х' и я' заданы равенствами F.53). Хотя это утверждение и выглядит весьма громоздким, суть его чрезвычайно проста: апостериорное распределение сохраняет ту же форму, что и априорное (т. е. оценка остается внутри того же семейства), но с параметрами, преобразованными с учетом новой информации так, как это показано в F.53). Уже привычным для нас способом мы можем обобщить полученный результат на случай п наблюдений. Однако необходимые при этом алгебраические преобразования громоздки, и мы их опустим. Если же подобные выкладки заинтересуют вас, то вы сможете самостоятельно убедиться в справедливости следующего утверждения. Если совместная априорная оценка М и Р такова, что маргинальное распределение P~G (a, P) и для условного распределения М при Р=р имеем Af~N ([х, 1/(яр)), то после наблюдения значений xi9 #2,..., xn переменной X~N (My 1/P) совместной fi --. апостериорной оценке М и Р соответствуют (о.оо/ маргинальное распределение P~G (a', P') и условное распределение М при Я = р, такое, что M~N (\i\ 1/(я' р)), где а', Р', \i' и я' заданы равенствами F.56): я' = а'=а+п/2у F.56) (Сравнивая F.53) и F.56), мы видим, что выражения для \i\ я' и а' во второй группе формул представляют собой очевидные обобщения соответствующих выражений из первой группы. Этого нельзя сказать о выражениях для р'. Тому, кто попытается получить общий результат самостоятельно, следует вначале рассмотреть случай п = 2 и лишь после этого переходить к обобщению.) 173
В приведенных выше выражениях совместное распредеделение М и Р задавалось посредством маргинального распределения Р и условного распределения М при Р = р. Поскольку тем самым дается полная характеристика совместному распределению, имеется возможность получить дополнительно и маргинальное распределение М. Это можно сделать непосредственно с помощью методов из гл. 3, в частности, из раздела 3.4. Опустим довольно громоздкие выкладки и ограничимся формулировкой результата. Если маргинальное распределение Р ~ G (а, Р) и условное (при Р = р) распределение М ~ N (ц,, 1/яр), то маргинальное распределение М таково, что (ал/рI/2 (М — \i) удовлетворяет /-распределению с 2а степенями свободы. F.57) Этот результат позволяет в сочетании с F.55) определить апостериорное маргинальное распределение М. Как вы могли убедиться, материал данного раздела концептуально не отличается от материала двух предыдущих разделов. Единственное, с чем мы столкнулись, это громоздкость алгебраических преобразований. Чтобы упростить изложение, мы посвятим оставшуюся часть раздела рассмотрению случая, когда априорная информация отсутствует. Каким образом нам следует охарактеризовать этот случай, учитывая то, что мы уже знаем? Обратимся к разделу 6.2 (неизвестная средняя, известная дисперсия), где достаточно было просто положить я = О, что означало постоянство априорной плотности М. (Это не совсем очевидно вытекает из F.2). Однако достаточно установить, как ведет себя функция плотности нормального распределения при неограниченном возрастании дисперсии а2, чтобы убедиться, что при этом я стремится к нулю. Кривая становится все более пологой и все теснее прилегает к горизонтальной оси, в пределе совпадая с ней.) Вспомним также, что в разделе 6.3 (известная средняя, неизвестная дисперсия) мы описали случай отсутствия априорной информации, положив а = 0 и р = 0; это означало, что априорная плотность распределения Р пропорциональна р~г (см. F.28). Результаты двух предыдущих разделов наводят нас на мысль, что в данном разделе (неизвестная средняя, неизвестная дисперсия) подходящей характеристикой для случая отсутствия априорной информации окажется пропорциональность плотности совместного априорного распределения произведению константы (раздел 6.2) и р (раздел 6.3), т. е. плотность совместного априорного распределения должна быть пропорциональна р. Обращаясь к F.49), мы видим, что подобные требования равносильны такому выбору параметров: л = 0, а = — 1/2, р = 0. (Если приведенные здесь весьма непростые аргументы вас не удовлетворили, то вам придется принять сказанное на веру. Строгий вывод мы здесь не приводим.) 174
Итак, возьмем F.55) и положим я = 0, а = 1/2, Р = 0, что приведет к результату F.58). При отсутствии априорной информации в результате п наблюдений xlt л:2,..., хп над переменной X ~ N (М, IIP) апостериорное совместное распределение М и Р станет таким, что маргинальное распределение Р ~ G (a', р'), a условное (при Р = р) распределение М ~ N (ц.\ 1/(я'р)), где а', Р', \i' и я' определяются равенствами: р/ = л:, я' = /г, а' = (/г — По соображениям, которые станут ясны позднее, введем величину s, определяемую равенством F.59) Выражение F.59) — почти выборочная дисперсия; различие состоит в том, что в знаменателе F.59) вместо п стоит п — 1. Поэтому мы будем называть s2 модифицированной выборочной дисперсией, as — модифицированным выборочным стандартным отклонением. Объединив теперь F.58) и F.57), получим весьма важный результат. При отсутствии априорной информации в результате п наблюдений хъ х2, ..., хп над переменной X ~ N (М, \1Р) апостериорное распределение М станет таким, что величина ^ _ удовлетворяет /-распределению с п —1 s /у п степенями свободы. F.60) Вспомним результат, полученный непосредственно перед F.38), в силу которого из условия Y ~ G (k/2, р/2) следует, что новая переменная PF удовлетворяет распределению хи-квадрат с k степенями свободы; объединяя этот результат с F.58), получим важное утверждение. При отсутствии априорной информации в результате п наблюдений хъ х2, ..., хп над переменной X ~ N (М, \1Р) апостериорное распределение параметра Р станет таким, что величина (п—1) s2P удовлетворяет распределению хи-квадрат с п — 1 степенями свободы. F.61) 175
Положив Р = I/4S2, можно записать утверждение, эквивалентное F.61). При отсутствии априорной информации в результате п наблюдений х1% х2> ..., хп над переменной X ~ N (М, S2) апостериорное распределение параметра S станет таким, что величина (п—1) s2/S2 удовлетворяет распределению хи-квадрат с п — 1 степенями свободы. F.62) Утверждения F.60) и F.61) или F.62) чрезвычайно важны, взятые вместе, поскольку они полностью характеризуют апостериорные маргинальные распределения величин М и Р или 5 в случае, когда априорная информация отсутствует. Заметим, что вся информация, которая нам нужна о выборке, — это ее средняя х и модифицированная дисперсия S2. В заключение приведем пример, иллюстрирующий применение ключевых результатов F.60) и F.61) или F.62). Предположим, интересующая нас переменная X — индекс интеллектуального развития (IQ) студентов Йоркского университета. Пусть мы знаем или готовы предположить, что значения X нормально распределены по всей совокупности (всех студентов Йоркского университета). Но нам неизвестны ни средняя, ни дисперсия Х\ к тому же нет никаких оснований для какого- либо априорного заключения об их возможных значениях. Чтобы узнать что-нибудь о средней и о дисперсии, мы можем сделать рандомизированную выборку из всей совокупности студентов (выбор осуществляется так, как это указано в разделе 6.2) и определить индекс IQ студентов, попавших в выборку. Пусть такая выборка объемом в 25 наблюдений осуществлена и получены следующие выборочные значения: 111.4 118,5 117,1 115,1 102,7 108,6 113,1 115,9 113,3 110,7 М 1.4 117,3 116,5 118,7 123,9 109.5 122,1 123,2 110,9 114,8 116,0 115,2 114,8 118,7 119,1 25 Рассчитаем для этих данных выборочную среднюю х = 2 ХA25 и выборочную модифицированную дисперсию s2 = 2 (xt—*J/24. /=i Получим ;с=115,14 и ? -23,205 (т. е. 7 = 4,817). (Любой современный электронный калькулятор поможет вам провести необходимые расчеты. Однако нужно проверить, какая формула заложена в программе вашего калькулятора: формула для обычной дисперсии — с п в знаменателе или же формула для модифицированной 176
дисперсии — en — 1 в знаменателе.) Подставим найденные выборочные значения в F.60); апостериорная оценка М такова, что М —115,14 } величина —jj-^j— удовлетворяет I F.63) /-распределению с 24 степенями свободы. J Аналогично после подстановки выборочных значений в F.62) придем к выводу: 556,92 л апостериорная оценка такова, что величина с2 удовлетворяет распределению хи-квадрат с 24 степенями I свободы. J Утверждение F.63) полностью характеризует нашу апостериорную (маргинальную) оценку М. Утверждение F.64) полностью характеризует нашу апостериорную (маргинальную) оценку ?. Так же можно получить и другие обобщающие характеристики. Пусть, например, нужно найти наш апостериорный 95-процентный вероятностный интервал для М и для S. Можно сделать это следующим образом. Воспользуемся утверждением F.63) и таблицей /-распределения, приведенной в приложении 7; на основе этого установим, что переменная, удовлетворяющая /-распределению с 24 степенями свободы, с вероятностью 95 % лежит в интервале с концевыми точками ±2,064. Поэтому в соответствии с F.63) Р ( -2,064< М~0]жА < 2,064) =0,95. Умножим каждый член системы неравенств внутри вероятностного утверждения на 0,963 Р (— 1,988 < М — 115,14 < 1,988) = 0,95, прибавим к каждому из членов в неравенствах, 115,14 Р A13,152 <М < 117,128) - 0,95. Таким образом, 95-процентный вероятностный интервал для М, основанный на выборочной информации, имеет вид A13, 2; 117,1) — с точностью до первого десятичного разряда. Мы можем утверждать, что с вероятностью 0,95 средняя величина индекса IQ для студентов Йоркского университета находится между 113,2 и 117,1. Чтобы найти 95-процентный вероятностный интервал для S, стандартного отклонения для того же индекса IQ, обратимся к F.64) и таблице распределения хи-квадрат из приложения 8. Мы обнаружим,что переменная, удовлетворяющая распределению хи-квадрат с 24 степенями свободы, с вероятностью 0,95 лежит между 12,40 и 39,4. Поэтому, воспользовавшись F.64), получим Р A2,40 < 556,92/S2 < 39,4) = 0,95. 177
Разделим каждый член системы неравенств внутри вероятностного утверждения на 556,92 Р @,0227 < 1/S2 < 0,07075) = 0,95, после чего перейдем к неравенствам между обратными величинами Р A4,135 < 52 < 44,913) -0,95. Наконец, осуществим процедуру извлечения арифметического квадратного корня и с точностью до первого десятичного разряда запишем: Р C,8 < S < 6,7) = 0,95. Итак, C,8; 6,7) — 95-процентный вероятностный интервал для S, найденный на основе выборочной информации. Мы можем сделать вывод, что с вероятностью 0,95 величина стандартного отклонения при определении индекса IQ среди студентов Йоркского университета лежит между 3,8 и 6,7. Предположим, мы извлекли еще одну выборку из той же генеральной совокупности, после чего составили общую выборку из сорока одного наблюдения (ранее в выборке содержалось двадцать пять наблюдений). Приведем значения шестнадцати новых наблюдений над переменной X: 113.1 123,7 120,8 102,9 113.2 123,1 121,5 109,5 109.3 122,6 118,1 109,3 119,8 121,2 <122,9 117,7 Как обычно, имеются две альтернативные возможности: одна состоит в объединении новейшей информации с оценкой, полученной на основе первой выборки, содержащей двадцать пять студентов, для этого придется воспользоваться F.55); другая предполагает объединение двух выборок в одну, после чего вся информация используется наряду с исходной априорной оценкой (априорная информация в нашем случае отсутствует) в соответствии с F.60) и F.62). Каждая из альтернатив ведет к одному и тому же выводу, но мы предпочтем вторую как технически менее сложную. Проведем необходимые арифметические выкладки и найдем для < объединенной выборки, состоящей из сорока одного студента, значения х и s2: х= 115,79 и 72-29,909 (т. е. 7-5,469). Подставим найденные характеристики выборки в F.60) и F.62); тогда наши апостериорные оценки М и S таковы, что 0 g_— удовлетворяет /-распределению с 40 степенями свободы и 1196,38/S2 удовлетворяет распределению хи-квадрат с 40 степенями свободы. 178 F.65)
Эти полные характеристики распределений позволяют вывести с помощью обычных приемов различные обобщающие характеристики. Например, 95-процентные вероятностные интервалы для М и для 5 можно получить из F.65), поскольку переменная, удовлетворяющая /-распределению с 40 степенями свободы, с вероятностью 0,95 лежит в интервале с концевыми точками ±2,021 (см. приложение 7), а переменная, удовлетворяющая распределению хи-квадрат с 40 степенями свободы, с вероятностью 0,95 лежит в интервале между 24,4 и 59,3 (см. приложение 8). Так же как и выше, найдем 95-процентный вероятностный интервал для М: A14,1; 117,5) и 95-процентный вероятностный интервал для 5: D,5; 7,0). Каждый из найденных интервалов лишь незначительно уже в сравнении с соответствующими интервалами, найденными на основе первоначальной выборки из двадцати пяти студентов (A13, 2; 117,1) и C,8; 6,7) соответственно). Произошло это из-за возросшей вариабельности второй выборки в сравнении с первой. Конечно, нет гарантии, что с увеличением объема выборки эти интервалы будут монотонно уменьшаться. Мы имеем дело с общей тенденцией (это видно из F.60) и F.62)), хотя и не исключена возможность того, что возрастание п может происходить быстрее, чем компенсирующее его возрастание s2. Правда, в долгосрочном плане (когда п стремится к бесконечности) такого быть не может, поскольку ширина каждого из двух интервалов стремится к нулю. Так как ширина апостериорного вероятностного интервала зависит от значения s, желаемого уровня точности невозможно достичь путем выбора подходящего значения п. Ясно, что если некто имеет априорные представления об S и, следовательно, о правдопо- добных значениях s, то он может воспользоваться этой информацией и уменьшить объем предстоящей выборки; но как бы то ни было, определенная ширина вероятностного интервала гарантирована быть не может. 6.5. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ И КРИТЕРИИ ЗНАЧИМОСТИ В байесовской статистике сделанное в текущий момент утверждение относительно вероятностного распределения значений интересующего нас параметра или переменной величины полностью характеризует текущие ожидания относительно этого параметра или этой переменной. Сказать больше об этих ожиданиях нельзя. Однако можно сказать меньше, просто указать определенные обобщающие характеристики имеющегося в текущий момент вероятностного распределения в зависимости от того, какие конкретные его свойства на этот раз представляют для нас интерес. Тем не менее, отвечая на вопрос: «что вы к текущему моменту знаете об этом параметре (об этой переменной)?», стремятся либо указать само распределение (в том виде, в каком его представляют себе), либо способ, позволяющий обобщить его наиболее важные свойства. Это все, что в данном случае требуется. 179
Однако сторонник классического подхода отнесется к подобным проблемам иначе. Как уже говорилось в разделе 5.6, основное различие между классическим и байесовским статистическими подходами состоит в том, что для первого вероятностные утверждения о фиксированных параметрах недопустимы, в то время как для второго они не только возможны, но и обязательны. В классической статистике имеются две различные, но связанные одна с другой задачи, решаемые в процессе основанного на выборочных наблюдениях статистического вывода относительно неизвестных параметров. Одна называется оцениванием, другая — проверкой гипотез. Первая из этих двух задач относится к использованию выборочных данных для получения оценок неизвестных параметров (характеризующих генеральную совокупность), а вторая — к использованию выборочных данных для проверки гипотез относительно неизвестных параметров. Начнем с оценивания. Мы уже ознакомились в разделе 5.6 с классическим подходом к оцениванию. Оценки бывают двух типов — точечные и интервальные; в первом случае в качестве оценки неизвестного параметра указывается лишь одно число, во втором — интервал и тем самым передается информация о точности оценки. При этом не объясняется, почему в качестве оценки выбраны определенная точка или определенный интервал (такого рода объяснения можно найти, например, в [3]). Мы посмотрим теперь, о каких оценках идет речь, и соотнесем их с байесовским анализом, проведенным в разделах 6.2— 6.4. Случай 2 (раздел 6.2): неизвестная средняя М и известная дисперсия s2. В этом случае обычная классическая точечная оценка М — выборочная средняя х. Таким образом, статистик, стоящий на классических позициях, если его просят указать число, которое он считает в некотором смысле «лучшей оценкой» М, называет х. Для него интервальные оценки (об этом уже шла речь в разделе 5.6) задаются в форме а-процентных доверительных интервалов. В случае 2 обычный сс-про- центный доверительный интервал для М задается в виде F.66) [Х— Zioo-a-TZ V —2—Уп TZ, где zp определяется из условия Fz(zp)=P(Z<z) =p/100 (Z— нормально распределенная стандартизованная случайная переменная). Так, 95-процентный доверительный интервал для М имеет вид: (х—1,96-= . х+1,96-^ V Уп Уп поскольку Р (Z < — 1,96) = 0,025 и Р (Z < 1,96) = 0,975. 180
Точная интерпретация а-процентного доверительного интервала F.66) такова: «Если уже построены а-процентные доверительные интервалы F.66) для неизвестной средней генеральной совокупности, то а процентов из них будут содержать неизвестную среднюю, в то время как оставшиеся 100 — а % не будут ее содержать. При этом неизвестно, попадет средняя в какой-либо конкретный доверительный интервал или нет». Выражение F.66) выглядит весьма привычно для нас. В самом деле, если мы вернемся к разделу 6.2, а именно к выражению F.25), то обнаружим, что байесовский а-процентный вероятностный интервал, найденный при отсутствии априорной информации, задается соотношением 'V7T ^^Vn поскольку 100 2 2 ; Выражение для вероятностного интервала алгебраически идентично F.66). Таким образом, алгебраически наш байесовский а-процентный вероятностный интервал для М, соответствующий отсутствию априорной информации, идентичен классическому a-процентному доверительному интервалу для М. Конечно, концептуально они совершенно различны. Случай 3 (раздел 6.3): неизвестная дисперсия S2 и известная средняя т. В этом случае обычной точечной классической оценкой S2 будет ? (см. F.33)), т. е. Обычный классический а-процентный доверительный интервал для S2 можно записать в виде (nS2/yn, A00 + а)/2, nS2/yn, (Ю0-а)/2)» F.67) где yk>$ определяется из условия (Yk удовлетворяет распределению хи-квадрат с k степенями свободы). Если вы обратитесь к F.44), то убедитесь, что классический доверительный интервал F.67) алгебраически идентичен байесовскому а- процентному вероятностному интервалу для S2, найденному при отсутствии априорной информации. Итак, вновь байесовский а-процентный 181
вероятностный интервал, найденный при отсутствии априорной информации, и классический а-процентный доверительный интервал оказались алгебраически идентичными. (Впрочем, в этом нет ничего неожиданного, поскольку и в байесовском, и в классическом случае «ожидалось», что величина n^/S2 удовлетворяет распределению хи-квадрат с п степенями свободы; различие состоит в том, что с байесовской точки зрения — это утверждение относительно 52 при данном s2, а с классической — утверждение относительно s2 при данном S2.) Случай 4 (раздел .6.4) : неизвестная средняя М и неизвестная дисперсия S2. В этом случае обычными классическими точечными оценками М и S2 будут х и s2 соответственно, причем последняя определяется (см. F.59)) как Обычные классические а-процентные доверительные интервалы для М и S2 имеют соответственно (см. [3], гл. 5) вид: s n — I,A00-cc)/2—— ТА (n —1 F.68) где величина yk9$ была найдена выше для соотношения F.67), а 4»э определяется из условия FTk(tk.*)**P(Th^tk%») = -±- (Th удовлетворяет ^-распределению с k степенями свободы). Обратившись к F.60) и F.62), вы убедитесь в алгебраической идентичности классических доверительных интервалов F.68) байесовским а-про- центным вероятностным интервалам для М и S2, найденным в предположении об отсутствии априорной информации. Итак, во всех трех рассмотренных случаях байесовский а-процентный вероятностный интервал, найденный в предположении об отсутствии априорной информации, и классический a-процентный доверительный интервал алгебраически идентичны. При этом концептуально они совершенно различны, а факт их алгебраического совпадения делает эти различия несущественными для практика, поскольку в рамках байесовской статистики классический a-процентный доверительный интервал интерпретируется как байесовский a-процентный вероятностный интервал, полученный в предположении об отсутствии априорной информации. Наоборот, если сторонник классического подхода по- 182
просит вас указать а-процентный доверительный интервал для некоторого параметра, то вы просто рассчитаете байесовский а-процентный вероятностный интервал в предположении об отсутствии априорной информации. Задача теории классического статистического вывода, известная как проверка гипотез, не имеет непосредственного аналога в теории байесовского вывода, хотя некоторая ее интерпретация может быть предложена. Чтобы на этот раз избежать повторений, сосредоточим внимание сразу же на случае 4— все дальнейшие рассуждения можно без особого труда воспроизвести и для двух предшествующих ему случаев. Более того, мы ограничимся случаем проверки гипотез относительно М и сошлемся на возможность повторить все рассуждения для случая проверки гипотез относительно S2. Проверка гипотез относительно М означает использование выборочных данных для проверки двух взаимоисключающих гипотез относительно (истинного, но неизвестного) значения М. Типичная пара таких гипотез задается в виде Но и Нх: Н0:М = т0, Н^М > т0, где т0 — некоторое специфическое значение М. В результате проведения классической процедуры одна из этих гипотез в свете информации, содержащейся в выборке, должна быть принята, а другая — отвергнута. Ясно, что, вообще говоря, имеется возможность принятия «ложной» гипотезы. Поэтому проверку организуют таким образом, чтобы вероятность отклонения верной гипотезы Но (ее называют «нуль-гипотезой») равнялась некоторому заранее заданному, достаточно малому значению (обычно 5 или 1 %). Эту величину называют уровнем значимости критерия. Запишем это определение более точно: если критерий определен так, что Р(Н0 отвергается |Н0 верна) = 100 то его уровень значимости равен а %. Для данного конкретного примера можно показать (см. [3], гл. 5), что подходящей процедурой проверки, указывающей на достижения а-процентного уровня значимости, будет контроль за выполнением одного из условий: принять Но и отклонить Hj, если -\t юо-а, принять Нх и отклонить Но, если х~~т° >/я,1 100_а, 7/Уп F.69) где величина /ft,p была определена выше. Если в результате такой проверки принята гипотеза Но («нулевая гипотеза»), то говорят о незначимости критерия при а-процентном уровне, если же гипотеза Но 183
отвергнута, то говорят о значимости критерия при а-процентном уровне. (Наряду с этим пользуются понятием, в силу которого х — значимо или незначимо, смотря по обстоятельствам, отличается от т0.) Какой смысл заключен в такой процедуре для сторонника байесовского подхода? Как мы покажем, в результате подобной проверки он получит некоторую информацию относительно Р (М > /л0). Заметим, что Р (М > т0) можно записать в виде \7/Vn 7i\/n (сначала вычитаем х из каждой части неравенства, а затем делим каждую его часть на s/j/я). Рассмотрим теперь случай отсутствия априорной информации и обратимся к результату F.60), из которого следует, что апостериорная оценка М в этом случае такова, что величина ^ .- s /уп удовлетворяет /-распределению с п — 1 степенями свободы. Благодаря этому можно записать т0—~х | 7/Vn)' где Тп„г — переменная, удовлетворяющая /-распределению с п — 1 степенями свободы. Воспользуемся симметричностью /-распределения (т. е. тем, что Р (Тп_г > /) = Р {Тп^_1 < — /)) и преобразуем предыдущее равенство: р(тп-1<\ \ 7/Vn I Предположим теперь, что критерий значим при а-процентном х ~щ уровне значимости. В силу F.69), это означает, что ^ _ > s / уп > *n-i> юо-а. Следовательно, так как Р (X ^ хх) < Р (X ^ х2) при хх < х2. Но по определению Таким образом, мы приходим к выводу, что Р (М > т0) > A00 — а)/100. Аналогично, если критерий незначим при а-процентном уровне, то можно заключить, что Р (М> т0) ^ A00 — а)/100. Обобщим полученные результаты: сторонник байесовского подхода, осуществив проверку нулевой гипотезы Но (М = т0) против альтер- 184
нативной гипотезы Нг (М > т0) и отклонив гипотезу Но при а-про- центном уровне значимости, делает вывод, что апостериорная вероятность истинности гипотезы Нх (в предположении об отсутствии априорной информации) превышает A00 — а) /100. Приведем числовой пример. Если гипотеза Но отвергнута при 5-процентном уровне значимости, то вероятность истинности гипотезы Нх превышает 0,95, если же Но принимается (точнее, не отклоняется), то вероятность истинности гипотезы Ht меньше 0,95. Итак, мы убедились в том, что классическое утверждение «гипотеза Но (М = т0) отвергается в пользу гипотезы Иг (М > т0) при а-про- центном уровне значимости» и байесовское утверждение «при отсутствии априорной информации вероятность истинности гипотезы Нг превышает A00 — а)/100» алгебраически эквивалентны. В заключение отметим тот существенный факт, что байесовская интерпретация классических понятий всегда основана на предположении об отсутствии априорной информации. Тем самым лишний раз подчеркивается то обстоятельство, что в классической статистике никакой роли априорной информации не отводится и потому все классические выводы базируются исключительно на выборочной информации. В этом смысле классический подход можно рассматривать как крайний и специальный случай байесовского подхода. 6.6. РЕЗЮМЕ В этой главе речь шла о статистических выводах относительно средней и/или дисперсии некоторой интересующей нас переменной, о которой известно, что она нормально распределена на рассматриваемой генеральной совокупности. При этом базовый принцип остался тем же, что и в предыдущей главе (а именно преобразование априорных ожиданий в свете новой информации, содержащейся в выборочных данных), хотя на этот раз потребовались более сложные алгебраические преобразования (особенно в разделе 6.4). Поэтому, чтобы избежать сложностей, мы рассматривали более простой случай вывода при отсутствии априорной информации. Ключевые результаты для этого случая приведены в F.25), F.44), F. 60) и F.62) и сведены в табл. 6.1, которая в сжатом виде содержит основные положения данной главы, что может оказаться полезным на практике. Пожалуй, чаще всего приходится пользоваться результатами, относящимися к случаю 4, которые приведены в последней строке таблицы. Чтобы воспользоваться таблицей, достаточно вычислить лишь выборочную среднюю х и модифицированную выборочную дисперсию s2. После этого, вооружившись таблицами /-распределения и распределения хи-квадрат, вы в состоянии дать полное описание апостериорных оценок средней М и дисперсии S2 рассматриваемой совокупности. Итак, несмотря на все технические сложности, с которыми пришлось столкнуться в этой главе, сам процесс построения статистического вывода при 185
Таблица 6.1. Статистический вывод о средней и/или дисперсии при отсутствии априорной информации Случай 2 Случай 3 Случай 4 Обозначения Апостериорное распределение средней М таково, что _~/V@,l) s/Vn (Задано значение т) М—7 дисперсии S- таково, что (Задано значение s2) S2 ~х*(«) п ~^~ ^ -?L — выборочная средняя, s к я я _ "^2—X4 W *) — молифииирппянняя пыбпрпиняа пиг- ~ п — \ Персия, х1г х2,.. .,хп — п наблюдений переменной X* Источники. Случай 2 — результат F.25), в силу которого M~N(xys4n)y после преобразования к стандартному нормальному распределению (см. раздел 2.4). Случай 3 — результат F.44). Случай 4 — результаты F.60) и F.62). отсутствии априорной информации оказывается весьма «прозрачным» даже для наиболее трудного случая 4. Главу завершает краткое изложение классического подхода к обсуждавшимся здесь задачам статистического вывода. Показано, как классические процедуры оценивания и проверки гипотез интерпретируются в терминах байесовского подхода. Благодаря этому вы с одинаковым успехом сможете читать работы, посвященные анализу выборочных данных, как классического, так и байесовского направления. 6.7. УПРАЖНЕНИЯ 6.1. Предположим, что доход X— нормально распределенная переменная с неизвестной средней М и известной дисперсией 100. В выборке объема 9 содержатся следующие наблюдения над X: 24 26 28 29 22 21 25 26 24 186
Найдите апостериорное распределение средней М и 95-процентный вероятностный интервал для М при каждом из следующих априорных распределений М: а) N B0, 9); б) N C0, 9); в) N B0, 16); г) N B0, оо). Для двух из указанных четырех случаев найдите апостериорное распределение и 95-процентный вероятностный интервал средней М после следующих дополнительных девяти наблюдений переменной X: 29 26 28 22 21 24 24 25 26 Для одного из этих двух случаев получите апостериорное распределение каждым из двух возможных способов: рассмотрите две выборки по отдельности и, последовательно изменяя оценки, найдите апостериорные оценки по мере поступления данных (первый способ); предварительно объедините обе выборки в одну, после чего определите влияние полученной таким образом выборки на исходную априорную оценку (второй способ). 6.2. Обратитесь к последнему примеру из раздела 6.2. В предпоследнем абзаце этого раздела, «пользуясь первым из двух возможных способов...», получена апостериорная оценка N A37,7; 1,853). Получите эту же апостериорную оценку вторым из двух возможных способов. 6.3. Если ваши априорные знания относительно средней М нормально распределенной переменной X практически отсутствуют, то какого размера выборка вам потребуется, чтобы ваш апостериорный 95-процентный вероятностный интервал для М был не шире, чем 3,92? Дисперсия X равна: а) 100; б) 25. 6.4. Воспользуйтесь тем (см. раздел 2.4), что переменная, удовлетворяющая гамма-распределению с параметрами аир, имеет среднюю а/р и дисперсию ос/р2, и выясните значение результата 6.34 для определения апостериорных оценок — средней и дисперсии параметра Р при условии, что значение т известно. В частности, исследуйте относительное воздействие априорной и выборочной информации на апостериорные оценки средней и дисперсии. 6.5. Рассмотрите числовой пример из раздела 6.3. Пусть произведена дополнительная выборка, состоящая из десяти студентов (сверх и кроме тех тридцати, которые были выбраны ранее). Соответствующие новой выборке значения X таковы: 6,31 5,29 4,11 8,23 6,11 5,93 7,01 6,22 5,01 6,50 Рассчитайте апостериорный 95-процентный вероятностный интервал для S в предположении, что априорная информация отсутствует, а выборочная содержится во всех сорока наблюдениях, результаты которых стали известны вам одновременно. (Будьте внимательны при расчете значения s2 для этой объединенной выборки. 30 Подсказка: 2 (xt — mJ = '30-1,3260 = 39,78.) /= l 6.6. Предположим, что доход X нормально распределен с неизвестной средней М и неизвестной дисперсией S2. Пусть выборка объема 9 содержит первое множество наблюдений из перечисленных в упражнении 6.1. Рассчитайте 95-процентные вероятностные интервалы для М и S при условии, что априорная информация отсутствует. Каким станет этот интервал после того, как будут учтены следующие девять наблюдений из того же упражнения 6.1? 6.7. Известно, что доходы в рассматриваемом регионе распределены нормально. Пусть у выборки, состоящей из 12 наблюдений, средняя х равна 24,4, а модифицированное выборочное стандартное отклонение равно 10,388. Как вы относитесь, имея такую информацию, к утверждению, что средний доход в этом регионе меньше 32 ? Насколько правдоподобно, с вашей точки зрения, что стандартное отклонение дохода в данном регионе заключено между 5 и 15. (При построении аппроксимирующего распределения вам придется прибегнуть к интерполяции табличных данных.) 187
6.8. Логарифм недельных доходов в домашнем хозяйстве удовлетворяет приблизительно нормальному распределению. Предположим, в результате контактов со случайно выбранными тридцатью шестью домашними хозяйками было обнаружено, что логарифм их выборочного дохода имеет среднюю 2,3 и стандартное отклонение 0,5. Оцените в свете этой информации гипотезу, в силу которой средняя величина недельного дохода в домашнем хозяйстве для изучаемой совокупности не превосходит 150 фунтов. Какой вывод относительно дисперсии этих доходов позволяет сделать выборка? (Априорная информация отсутствует. Логарифмы взяты по основанию 10.) 6.9. Пусть характеристика интеллектуальных возможностей студентов (индекс IQ) приблизительно удовлетворяет нормальному распределению. Проведено тестирование двадцати пяти случайно выбранных студентов Йоркского университета. Выборочная средняя значений IQ равна 115, а модифицированное стандартное отклонение равно 8. Какова в свете информации, содержащейся в этой выборке, вероятность того, что для среднего студента Йоркского университета значение IQ выше среднего значения этой характеристики для студентов всех университетов страны, которое равно 112? Можно ли считать разброс значений IQ для Йоркского университета необычайно низким, если стандартное отклонение для всех университетов равно 12? Решающий эту задачу не располагает собственной априорной информацией. 6.10. Воспользуйтесь утверждением F.60) и тем, что а) ^-распределение с к степенями свободы стремится к стандартному нормальному распределению, когда к неограниченно возрастает; б) распределение выборочной средней х при неограниченном увеличении объема выборки стремится к вырожденному распределению, центрированному относительно значения т средней рассматриваемой совокупности, и определите предельную апостериорную оценку М при неограниченном возрастании п. 6.11. Воспользуйтесь утверждением F.60) и тем, что а) распределение хи- квадрат с к степенями свободы имеет среднюю к и дисперсию 2к\ б) распределение модифицированной выборочной дисперсии s2 при неограниченном увеличении объема выборки стремится к вырожденному распределению, центрированному относительно дисперсии s2 рассматриваемой совокупности. Определите предельную форму апостериорной оценки величины S2 при неограниченном возрастании п. 6.12. (Это наиболее трудная задача, ее решение потребует изобретательности.) Предположим, что переменная X нормально распределена с неизвестной средней М и неизвестной точностью Р. Пусть априорные оценки М и Р специфицированы в соответствии с F.55), причем средняя М равна 2, а дисперсия М равна 5, для Р каждая из этих величин равна 3. Определите соответствующие значения а, р, [х и я. Пусть теперь произведена случайная выборка из десяти наблюдений, такая, что х = 4,20 и s2 = 0,6. Рассчитайте апостериорный 95-процентный вероятностный интервал для М и Р. Каким он будет после дополнительных десяти наблюдений, для которых х = 4,48 и ?= 0,64F) (т. е. ?= 5,82/9)? 6.13. В данной главе мы предполагали, что переменная X нормально распределена. Будут ли наши методы работать, если переменная удовлетворяет иному закону распределения? (Достаточно подготовленный читатель может привести пример.)
ГЛАВА 7 ЭЛЕМЕНТАРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ 7.1. ВВЕДЕНИЕ Изложенные в предыдущих главах общие методы можно применить теперь к задачам, представляющим для экономистов наибольший интерес, и заняться эмпирическим анализом экономических соотношений. Вы, наверное, не сомневаетесь ц том, что выводы или прогнозы, сделанные на основе практически любой экономической теории, представимы в форме гипотетических соотношений между экономическими переменными. Например, опираясь на теорию спроса, можно предсказать количественный уровень спроса на некоторый товар в зависимости от цены на него, цен на другие товары и доходы потребителей; теория агрегированного потребления позволяет предсказать величину потребительских расходов в зависимости от дохода и нормы банковского процента и т. д. Цель этой и следующих двух глав — показать, как информация в форме наблюдений за соответствующими экономическими переменными может быть использована для уточнения наших знаний о подобных экономических соотношениях. Как правило, в экономической теории можно указать ее отдельные составляющие, каждая из которых объясняет поведение одной экономической переменной. Эти отдельные составляющие теории обычно выражают в форме гипотетических соотношений вида где Y — переменная, поведение которой объясняется, а X — вектор объясняющих переменных. Каждое из гипотетических соотношений принято сопровождать замечанием о его справедливости «при прочих равных условиях», характеризующим воздействие каких-либо неучтенных объясняющих переменных (не существенных, забытых или сознательно игнорируемых). В зависимости от того, что представляет для нас интерес, гипотетические соотношения можно анализировать либо каждое в отдельности, либо группами, включающими от двух до нескольких сотен соотношений. Например, простейшая модель рынка состоит из функции спроса, функции предложения и условия равновесия. Аналогично в простейшую макроэкономическую модель входят агрегированная функция потребления и тождество, характеризующее распределение дохо- 189
да. Более сложные макроэкономические модели содержат функцию потребления, инвестиционную функцию, функцию формирования основного капитала, функцию импорта, уравнения, описывающие изменения цен и заработной платы. Подобные модели из двух или более взаимосвязанных соотношений, называют моделями с одновременными уравнениями. К ним мы обратимся в гл. 9, а пока будем заниматься более простой задачей — анализом моделей, состоящих из одного уравнения, т. е. представимых в виде G.1). Им посвящены гл. 7 и 8. Общий случай модели, состоящий из одного уравнения (когда вектор X состоит из произвольного числа переменных, а функция Н (•) может принимать разные формы) изучается в гл. 8. Гл. 7 как бы прокладывает путь к этому общему случаю, знакомя читателя с важнейшим специальным случаем, позволяющим ввести необходимые концептуальные понятия и идеи. Это случай, когда X оказывается всего лишь скаляром (т. е. модель содержит лишь одну объясняющую переменную), а Н (•) — линейная функция. Тогда (Z. 1) можно записать в виде Y = А + ВХУ G.2) и мы получаем модель парной линейной регрессии, где А и В — ее параметры (в частности, А — точка пересечения прямой с осью ординат, В — тангенс угла наклона к оси абсцисс). Таким образом, G.2) отражает гипотезу о линейной связи между Y и X, такой, что Y = А, когда X = О, и увеличение значения переменной X на 1 приводит к увеличению переменной Y на величину В. Наиболее известным примером подобной модели является линейная агрегатная функция потребления, где Y — агрегированное потребление, X — агрегированный доход, В— предельная (тоже агрегатная) склонность к потреблению. Как мы уже отметили выше, экономисты сопровождают гипотетические соотношения словами «при прочих равных условиях»; это служит сигналом того, что соотношение предполагается справедливым лишь при постоянстве всех остальных условий. Но чрезвычайно трудно обеспечить выполнение подобного требования на практике. Мы пользуемся данными, генерируемыми реально функционирующей экономической системой, а не появляющимися в таком контролируемом эксперименте, где, вообще говоря, можно обеспечить необходимое постоянство условий, не связанных непосредственно с проводимыми измерениями. Поэтому требование, чтобы все происходило «при прочих равных условиях», не может быть удовлетворено. Обычный выход из положения состоит в прибавлении к G.2) члена, «улавливающего» все остальное, или остаточного члена. Тогда мы получим такое выражение для нашего гипотетического соотношения Y = А + ВХ + {/, G.3) где U и есть остаточный член. Как только мы записали соотношение в форме G.3), необходимость в оговорке «при прочих равных условиях» исчезла. 190
Остаточный член U содержит все факторы, отличные от Ху которые влияют на Y. В противовес первым двум слагаемым А + ВХ, образующим детерминированную часть соотношения G.3), третье слагаемое U называют его недетерминированной частью. Относительная роль недетерминированной части в G.3) зависит от того, насколько существенна величина X при определении значения Y. В более общей формулировке: вид распределения переменной U зависит от конкретных особенностей задачи и от подхода к ее решению. Для полной спецификации соотношения G.3) задание распределения переменной U столь же важно, как и спецификация вида функции, т. е. интересующих нас параметров А и В. Таким образом, нам предстоит на основе имеющейся информации уточнить наши представления, во-первых, о значении Л, во-вторых, о значении В, в-третьих, о распределении переменной U. В данной главе будет показано, как наблюдения над X и Y позволяют решить эту задачу. Из гл. 6 мы знаем, насколько упрощается использование информации, если нам известна форма распределения (или же мы готовы сделать по этому поводу какие-то предположения), т. е. можно конкретизировать задачу, указав, что распределение является равномерным, бета-распределением, нормальным или каким-либо еще. Целям данной главы соответствует предположение, в силу которого переменная U нормально распределена. Это наиболее общее предположение, и оно вполне приемлемо для большинства экономических приложений. К нему приводят и аргументы теоретического характера. Важнейший факт математической статистики — центральная предельная теорема [2, с. 37] — утверждает, что при определенных обстоятельствах переменной, являющейся суммой большого числа независимых переменных, свойственна тенденция к нормальному распределению ее значений. Поскольку U отражает влияние на F, вообще говоря, бессчетного множества других переменных, то естественно предположить, что значения U распределены нормально (если нет конкретных указаний, позволяющих принять иную гипотезу). В дальнейшем мы будем придерживаться этого предположения. Очевидно, что среднюю переменной U удобно принять равной нулю, ибо если она отлична от нуля, то можно скорректировать соответствующим образом параметр А (просто прибавив к нему значение средней). Таким образом, средняя (математическое ожидание) переменной Y при фиксированном X равна А + ВХ, т. е. U измеряет отклонение реально наблюдаемого (при данном X) значения Y от соответствующей этому X средней, или от математического ожидания. Разброс, как обычно, можно характеризовать величиной стандартного отклонения переменной ?/, которое, как это было принято в гл. 6, будем обозначать через 5. Обобщая принятые предположения, можем теперь записать, что U -v N (О, S2). G.4) 191
Соотношения G.3) и G.4) позволяют полностью специфицировать линейную модель парной нормальной регрессии. Этой модели и посвящена данная глава. Обобщим сказанное: в данной главе будет показано, как наблюдения над переменными X и Y позволяют получить информацию о соотношении, связывающем экономические показатели Y и X, причем относительно этого соотношения приняты следующие предположения: Y = А + ВХ + U, U ~ N (О, S2). G.5) Предположения G.5) и значения трех параметров Л, В и S полностью специфицируют характер связи между X и Y. На протяжении данной главы будем предполагать, что форма связи G.5) выбрана правильно, и нам остается определить ее параметры Л, В и S. Чтобы отличать S2 — дисперсию переменной U — от параметров Л и В, имеющих явный экономический смысл, будем называть Л и В коэффициентами рассматриваемого соотношения (В — коэффициент при переменной Х\ А тоже можно считать коэффициентом, но при некоторой фиктивной переменной, всегда принимающей значение 1). Как и ранее, будем обозначать неизвестные параметры прописными буквами, а известные значения этих параметров — соответствующими строчными буквами. Следовательно, буквы а и Ь будут употребляться, когда коэффициенты известны, а буквы Л и В — когда неизвестны; аналогично s2 — известное значение дисперсии, a S2 — значение, которого мы не знаем. Как и в гл. 6, могут иметь место четыре (основных) случая: Случай 1 2 3 4 Коэффициенты известны неизвестны известны неизвестны Дисперсия известна известна неизвестна неизвестна {Помимо основных случаев имеется еще несколько «подслучаев»: например, в случае 2 есть два подслучая, в каждом из которых один коэффициент известен, а другой неизвестен. Мы не будем рассматривать подобные конкретизации перечисленных здесь и в гл. 6 общих случаев.) Как и в гл. 6, случай 1 тривиален: поскольку все о соотношении, связывающем интересующие нас переменные, известно, то нет предмета для обсуждения. Оставшиеся три случая нетривиальны и будут изучены в разделах 7.2—7.4. В разделе 7.5 (как и в гл. 6) результаты, полученные в предыдущих трех разделах, будут соотнесены с результатами применения классического подхода к решению тех же задач. Во всех случаях важно «качество» подгонки конкретных соотношений (вытекаю- 192
щих из экономической теории) к конкретным данным наблюдений, а также важна проблема относительности выбора эмпирического представления, отражающая разнообразие возможностей теоретического объяснения одной и той же переменной (раздел 7.6). Несколько подробных примеров регрессий содержит раздел 7.7, а в разделе 7.8 обсуждается применение эмпирического анализа для целей прогнозирования. В разделе 7.9 дано резюме изложенных в главе результатов, а в разделе 7.10 приводятся упражнения. Важно все время помнить об основных целях данной главы. Во-первых, необходимо оценить значения параметров Л, В и S2 в свете наблюдений над отвечающими характеру исследования экономическими показателями. Типичный вывод может выглядеть так: на основе 80 (квартальных) наблюдений над агрегированными показателями дохода и потребления в Великобритании мы полагаем, что с вероятностью 0,95 предельная (агрегированная) склонность к потреблению заключена между 0,59 и 0,63. Еще один пример: наблюдения за динамикой спроса на деньги и доходов позволяют считать, что с вероятностью 0,73 эластичность спроса на деньги от дохода не меньше единицы. Во-вторых, требуется установить относительное правдоподобие конкурирующих теоретических объяснений. При этом формулировка типичного вывода может быть такой: по данным о размерах инфляции, о предложении денег и членстве в профсоюзах монетаристское объяснение инфляции представляется в три раза более правдоподобным, чем то, которое связывает ее с давлением со стороны профсоюзов. Концептуально материал данной главы не сложнее материала предыдущих глав, однако его изложение требует преодоления ряда технических трудностей. Чтобы не останавливаться на деталях преобразований и доказательств, мы перенесем некоторые из них в приложения. Более того, мы ограничимся рассмотрением случая, когда вся априорная информация в расчет не принимается (т. е. либо отсутствует, либо мы ею пренебрегаем). Читатель, желающий познакомиться с более общей ситуацией, найдет в тексте ссылки на соответствующую литературу. Чтобы помочь читателю, мы будем проводить аналогии с материалом гл. 6. Содержание данной главы служит своего рода «естественным обобщением» результатов предыдущей главы, равно как содержание следующей главы обобщает то, что будет изложено в этой. Представим теперь модель из гл. 6 в обозначениях данной главы. Напомним, что в гл. 6 относительно интересовавшей нас переменной X предполагалось, что она нормально распределена, т. е. X ~ N (М> S2). После замены X на У, а М на А мы запишем модель в виде Y ~ N(A9 S2). Перепишем это условие в эквивалентной и более простой форме: U ~ N @, 52). G.6) 7 Зак 2161 193
Сравнив теперь G.5) и G.6), мы обнаружим, что последняя система условий является частным случаем первой: при подстановке В = 0 в G.5) мы получим G.6). Таким образом мы убеждаемся в том, что рассматриваемая в данной главе модель G.5) служит «естественным обобщением» модели G.6), которой по существу мы и занимались в гл. 6. Представим далее в обозначениях гл. 7 табл. 6.1. В этой таблице, как вы помните, содержатся результаты случаев 2, 3 и 4 из гл. 6 для ситуации, в которой априорная информация игнорируется (в данной главе иная ситуация просто не рассматривается).Табл. 7.1 и есть преобразованная с учетом новых обозначений табл. 6.1. При этом произошла замена X на Y, М на А и некоторые другие небольшие изменения в обозначениях, что видно из самой таблицы. Сопоставив табл. 6.1 и 7.1, вы легко убедитесь в том, что обе они на самом деле отражают одно и то же, но в различных обозначениях. Как будет показано в дальнейшем, результаты этой главы можно обобщить в таблице, полностью аналогичной табл. 7.1. Приступим теперь к нашему анализу и начнем со случая 2. 7.2. ВЫВОД ПРИ НЕИЗВЕСТНЫХ КОЭФФИЦИЕНТАХ И ИЗВЕСТНОЙ ДИСПЕРСИИ В этом разделе мы рассмотрим случай вывода при неизвестных коэффициентах и известной заранее дисперсии. В соответствии с принятым нами соглашением параметры будем обозначать Л и В, а дисперсию — через s2. Наша модель имеет вид (ср. с G.5)): Y = А + ВХ + U, U ~ N @, s2). G.7) Нас интересуют значения параметров А и В, а информация поступает к нам в форме пар наблюдений над значениями переменных X и Y. Поскольку мы хотим обеспечить информативность этих наблюдений в отношении А и В, мы должны, как и в гл. 5 и 6, получить эти наблюдения случайным (рандомизированным) образом или же, пользуясь терминологией двух предшествующих глав, обеспечить рандомизированную выборку из совокупности всех пар (X, Y). Вопрос о том, как получить подобную выборку (или о том, можно ли конкретную выборку рассматривать как полученную подобным образом), будет рассмотрен позже. В данный момент мы просто предположим, что наши наблюдения обладают необходимыми свойствами, т. е. выборка генерирована так, как это требуется. Пусть обтаем выборки равен /г, а пары наблюдений мы обозначим следующим образом: (хи уг), (х2, у2), ..., \хПУ уп). Теперь, воспользовавшись теоремой Байеса, как мы делали это в гл. 5 и 6, можно вывести апостериорную оценку А и В при наличии некоторой априорной их оценки и множества полученных указанным выше образом наблюдений. Поскольку здесь участвуют два параметра» 194
Таблица 7.1. Содержание таблицы 6.1 Апостериорное распределение* коэффициентов А определяется соотношением Случай 2 ~~п ~ /V@tl) Случай 3 Известно**, равно а А—^ С* П 1ТI 1 О 1J 1 »— 4 1 11 1 \ Случаи 4 >*. *"*• г (п—1) в обозначениях главы 7 Апостериорное распределение* дисперсии SJ определяется соотношением Различия в обозначениях между Глава 6 Модель выражается в X М Х~М Наблюдения: Xj, Л2» ...» A'yt п Известно**, равно s2 п s2 ~ Y2 (п) главами 6 и 7 Глава 7 виде: 1 Y—A+U, \ U~-N @, S'2) Y А Y — A s U 01» 02' • • • » 0Н п ~~ *~ 1=1 7, = J; (,.__аJ/„ /г S/4=s/Vn * Основано на предположении об отсутствии априорных сведений о неизвестном параметре. ** Предполагается известным заранее 195
то и оценки, о которых идет речь, будут двумерными совместными оценками. Если отвлечься от некоторых технических сложностей, то рассматриваемая нами задача решается непосредственным применением теоремы Байеса. Однако мы не будем исследовать самый общий случай, что привело бы к громоздким выкладкам, и ограничимся случаем отсутствия априорной информации, который постараемся охарактеризовать в формальных терминах в точности так, как это было сделано в разделе 6.2. Отсутствие априорной информации о коэффициентах А и В можно выразить, предположив, что оба априорных маргинальных,рас- пределения, как для Л, так и для 5, являются нормальными и обладают бесконечной дисперсией. (По сути это означает, что функция плотности и для Л, и для В равномерна от — оо до +оо.) После того, как априорная оценка задана, апостериорная совместная оценка коэффициентов А и В выводится с помощью обычных преобразований. Детально вывод описан в приложении 3. Ясно, что полученная таким образом апостериорная оценка будет иметь форму совместного распределения вероятностей для А и В, которое характеризуется совместной функцией плотности 1ав (я, Ь ), (х2У */2),..., (хП9 уп)). Тем самым совместная апостериорная оценка полностью специфицирована. Из разных ее характеристик, как правило, наибольший интерес представляют маргинальные распределения (для А и для В) в отдельности. Их можно получить из совместного распределения (см. раздел 3.3). Подробнее об этом говорится в приложении 3. Итак, мы приходим к важному результату. При отсутствии априорной информации относительной и В после наблюдений (хъ ух), (х2У */2), ..., (хп, уп) над (X, К), таких, что Y — А — ВХ ~ N @, s2), апостериорные маргинальные распределения А и В таковы, что G.8) (A —1i)Isa~N (О, 1) и (В — b)/sB ~ N @,1), где a, b, sa и Sb определены в G.9). (- п п \ '- 2 l(yi-y)(Xi-~x)] I 2 (х,-х)*9 /= 1 /-= ! SA=Sl 2 Xf /Г п - "П1/2 х)г G.9) 196
Проиллюстрируем применение этого результата на простом примере. Как видно из G.8), все, что необходимо сделать, это — воспользоваться наблюдениями для вычисления сначала х и у, а затем а, Ь, sa и sb- Эти величины используют для определения апостериорных (маргинальных) оценок для А и для Б, из которых уже любая форма обобщающих утверждений может быть выведена обычным способом. Предположим, что мы располагаем рандомизированной выборкой из девяти наблюдений над (X, Y): A, 6) B, 9) C, 12) D, 15) E, 12) F, 18) G,18) (8, 21) (9, 24) Из табл. 7.2, содержащей все необходимые подготовительные вычисления, мы находим 2*, = 45, 2 01=135, т. е. х 45/9 5 и у 135/9 =~ 15. Это позволяет преобразовать исходные данные наблюдений в отклонения от средних — столбцы D) и E) табл. 7.2 (то, что сумма элементов в каждом из этих столбцов равна нулю, свидетельствует о безошибочности вычислений). Таблица 7.2. Последовательные вычисления для примера из раздела 7.2 1 2 3 4 5 6 7 8 9 2 (») *i 1 2 3 4 5 6 7 8 9 45 B) 2 xi I 4 9 16 25 36 49 64 81 285 C) 6 9 12 15 12 18 18 21 24 135 (+)в»A)_д: AC.-—ДГ -4 --3 —2 — 1 0 1 2 •з 4 0 E) = C)— у У-У д -6 —3 0 —3 3 3 6 9 0 F) = <4)« (х.-х)* 16 9 4 1 0 1 4 9 * 16 60 G)^D) E) (yt— У) (х.—х) 36 18 6 0 0 3 6 18 36 123 Столбцы D) и E) позволяют рассчитать значения в столбцах F) и G). Воспользуемся теперь соотношениями G.9) и получим 2 (*«-*>' i 123 60 -2,05, 197
и, следовательно, -а = у—^=15 — 2,05x5 = 4,75. Пусть теперь значение s (мы предполагаем его известным заранее) равно 1,5. Обратимся вновь к G.9) и найдем: = 1,090, (с точностью до третьего знака после запятой). Если мы подставим найденные значения в G.8), то придем к выводу, что при отсутствии априорной информации относительно Л и В данные о девяти наблюдениях (приведенные выше) позволяют в качестве апостериорных оценок А и В выбрать такие распределения, что А~4>7Ъ ~/V@, 1) и В~ДM ~Л/@,1). G.10) 1 ,090 0,194 У У } Итак, апостериорные (маргинальные) оценки полностью определены. Если потребуется теперь рассчитать какие-либо соответствующие им обобщающие характеристики, то это можно осуществить обычным образом. Например, чтобы найти апостериорный 95-процентный вероятностный интервал для А и В, воспользуемся тем фактом (приложение 6), что для стандартного нормального распределения такой интервал определяется концевыми точками ±1,96. Следовательно, для коэффициента А: ,9^ ^, \ 1,090 У т. е. (поскольку 1,96-1,090 = 2,1364) Р ( — 2,1364 ^ А — 4,75 <2,1364) -0,95, или (сохраняем два десятичных знака) Р B,61 < А < 6,89) = 0,95. Итак, опираясь на девять приведенных выше наблюдений и на предположение об отсутствии априорной информации относительно коэффициентов Л и В, мы можем сделать вывод, что с вероятностью 0,95 коэффициент/! заключен между 2,61 и 6,89. Аналогично для коэффициента В 0,194
и, следовательно (с точностью до двух десятичных знаков): Р A,67 < В < 2,43) = 0,95. Таким образом, коэффициент В с вероятностью 0,95 лежит между 1,67 и и 2,43. Чтобы продемонстрировать возможности использования информации, заключенной в G.10), предположим, что некто обратился к нам с просьбой оценить, насколько правдоподобно, что реальное значение В больше 2. Тогда нам придется рассчитать Р (В > 2). Р (В > 2) = Р (В — 2,05 > 2—2,05) = =* Р (В — 2,05 > — 0,05) = 0194 / V ' / I 0,194 0,194 где в силу G.10) 0,194 Воспользуемся таблицей стандартного нормального распределения иа приложения 6 и найдем, что Р (В > 2) = 0,5987. Основываясь на этих же наблюдениях, мы можем оценить вероятность того, что реальное значение В превосходит 2, как равную примерно 60 процентам. Приведенный пример показывает, что результат G.8) можно применять непосредственно, и все приемы получения апостериорных оценок коэффициентов А и В хорошо нам знакомы. Единственное, что остается, — дать интерпретацию G.8) на интуитивном уровне. Рассмотрим вначале средние величины апостериорных оценок. Как следует из G.8), обе величины (А — o)/sa и (В — b)lsB удовлетворяют стандартному нормальному распределению, т. е. имеют нулевое значение средней; отсюда вытекает, что среднее значение коэффициента Л равно а, а среднее значение коэффициента В равно Ь. Более того, поскольку стандартное нормальное распределение симметрично, то каждая из апостериорных оценок для А и для В тоже центрирована и симметрична (оценка коэффициента А — относительно а, а оценка коэффициента В — относительно Ь). Отсюда вытекает, что апостериорная оценка средней соотношения Y = А + ВХУ G.11) в свою очередь, центрирована и симметрична относительно своей средней G.12) 199
Возникает естественный вопрос: «Какой смысл имеют а и Ь, а так^ке соотношение Y = а + ЬХЪ. Статистики а и b — выражения, полученные путем непосредственного применения теорема Байеса (см. приложение 3). Алгебраически аи b задаются первыми двумя равенствами из G.9). Однако ни один из этих факторов не поможет нам ответить на поставленный вопрос. Поэтому вернемся к иллюстративному примеру и изобразим на графике девять точек, соответствующих наблюдениям, и прямую Y = а + + ЬХУ рассчитанную на основе этих наблюдений (см. рис. 7.1). Y ' 24 21 18 15 12 9 6 3 '_ - - #^ I I I ^S^ Y = 4775 + 2,05 X • s—• * ^^ I I I 1 i i Рис. 7.1. Наблюдения и апостериорное среднее соотношение Прямая Y = а + ЬХ пересекает ось ординат в точке а — 4,75, и тангенс угла ее наклона к оси абсцисс есть b = 2,05. Далее, поскольку а = у — bjt (см. G.9)), прямая Y = а + ЬХ проходит через точку средних значений для данных наблюдений, т. е. через точку (лс, у) (в нашем случае это точка E,15)). Картина, изображенная на рис. 7.1, означает, что рассчитанное в соответствии с G.9) соотношение G.12) представляет собой прямую, которая действительно обеспечивает «подгонку» данных девяти наблюдений. Однако существует множество различных прямых линий, визуально примерно одинаково обеспечивающих «подгонку» наблюдений в указанном выше смысле. Чем же отличается полученная нами прямая от других? Быть может, ее особенность состоит в том, что она была «избрана» из более широкого множества благодаря теореме Байеса и представляет собой среднюю апостериорной оценки соотношения G.7) при отсутствии априорной информации о значениях параметров? 200
Теперь мы можем ответить на этот вопрос. Выберем произвольно прямую линию Y = а + ЬХ и обозначим измеренное по вертикали отклонение от нее /-го наблюдения (хь yt) через et. Тогда et = tji — a — bxt. G.13) В зависимости от значений аи b некоторые из е% могут оказаться положительными, а некоторые — отрицательными (не исключено и равенство отклонений нулю). По своему смыслу каждое^ указывает, как далеко отстоит конкретное наблюдение от данной линии. Сумма квадратов от- п клонений, рассчитанная по всем наблюдениям BeJ), служит агрегатной мерой того, как далеко отстоят наблюдения от рассчитанной линии. Мы покажем ниже, что из всех возможных а и b значения а и Ьу определяемые G.9), таковы, что минимизируют сумму квадратов отклонений. Таким образом, линия Y = а + ЬХ обеспечивает «наилучшую подгонку» наблюдений среди всех прямых линий в том смысле, что она минимизирует сумму квадратов отклонений наблюдений от прямой. Прежде чем продолжить обсуждение, убедимся в справедливости сформулированного утверждения. Рассмотрим задачу такого выбора а и ft, при котором минимизирует- п ся сумма квадратов отклонений 2е?, где et определяется соотношением G.13). Для ее решения нужно найти а и 6, обеспечивающие минимальное значение выражения D= 2 fo-a-fr*,I. G.14) Для этого придется приравнять нулю обе частные производные dDlda и dDldb. (Это хорошо известное условие, позволяющее находить минимальные и максимальные значения, если же вы не знакомы с ним, то примите окончательный результат на веру.) Несколько упреждая события, обозначим через а и b значения а и Ьу при которых dDlda = = dDldb --= 0. Из G.14) получим 201
После упрощений это приводит к уравнениям J h %xh G.15) n 2 y**i=e 2 xi+b 2 хь GЛ6) их можно решить относительно двух неизвестных аи Ь. Из G.15) после деления на л и перегруппировки получаем а = у—Ьх, т. е. первое из уравнений G.9). Воспользуемся этим уравнением и исключим а из G.16), после чего разрешим полученное уравнение относительно Ъ\ 2 (</<-</)(**-*) 2 (*«-*J / = 1 т. е. второе из уравнений G.9). Таким образом, доказано утверждение, в силу которого прямая Y = а + ЬХ обеспечивает «наилучшую подгонку» наблюдений в смысле минимизации суммы квадратов отклонений наблюдений от прямой линии. (Если вы вдруг усомнитесь в том, действительно ли мы обнаружили минимум, поскольку равенство частных производных нулю достигается и & точке максимума, то советуем вам обратить внимание на то, что максимуму соответствуют ситуации, когда либо а, либо Ь неограниченно возрастают по абсолютной величине.) Найденная прямая линия называется линией подгонки, полученной с помощью метода наименьших квадратов (иногда просто линией наименьших квадратов). После нескольких упражнений вы будете легко ориентироваться в процедуре ее построения. (Многие из современных электронных калькуляторов-рассчитают для вас значения а и Ъ после того, как вы введете в них значения наблюдений.) Обобщим результаты обсуждения, накопившиеся к данному моменту: прямая Y = а + ЬХ, где а и Ь определяют из G.9), является линией подгонки, полученной с помощью метода наименьших квадратов. Байесовская апостериорная оценка коэффициента А, постоянного свободного члена в соотношении G.7), при отсутствии априорной информа- ции о нем центрирована относительно а — свободного члена в уравнении прямой, найденной в результате подгонки наблюдений с помощью метода наименьших квадратов. Также байесовская апостериорная оценка коэффициента В, тангенса угла наклона для уравнения G.7), 202
при отсутствии априорной информации о нем центрирована относительно Ь — тангенса угла наклона в уравнении той же прямой. Однако важно представлять себе, что все это — результат непосредственного применения теоремы Байеса, а не проявления «магических» свойств мето- да наименьших квадратов. Итак, во-первых, аи b являются апостериорными средними оценок коэффициентов А и В соответственно; во- втэрых, а и b — коэффициенты (свободный член и тангенс угла наклона к оси абсцисс) прямой, полученной при подгонке методом наименьших квадратов. Перейдем теперь к характеристикам, связанным с дисперсией апостериорных оценок коэффициентов Л и В. Из G.8) следует, что апостериорное стандартное отклонение для А есть sa, а апостериорное стандартное отклонение для В есть sB, где sa и sb определены в G.9). Апостериорные а-процентные вероятностные интервалы для А и В задаются (в соответствии с G.8)) в виде (Ь ZA00-a)/2 -a) /2 соответственно, где 2p находят из условия Р (Z ^ zp) = C/100, aZ^ ~ N @, 1). Отсюда следует, что длина каждого из этих интервалов прямо пропорциональна величине соответствующего апостериорного стандартного отклонения (sa и sb). В свою очередь, точность апостериорных оценок также определяется значениями sa и sb соответственно. Выражения для sa и sb приведены в G.9), они получены непосредственным применением теоремы Байеса (приложение 3). Приведем некоторые интуитивные соображения, касающиеся величин sa и sb. Начнем с последней из них. Из G.9) нам известно, что sB — апостериорное стандартное отклонение коэффициента В — задается в виде sB= • G.17) r n 11/2 V ' Преобразуем это выражение и введем с этой целью sx — выборочное стандартное отклонение переменной X: 11/2 G.18) С помощью G.18) можно G.17) записать в виде 203
В соответствии с этим выражением апостериорное стандартное отклонение коэффициента В прямо пропорционально зависит от s (стандартного отклонения переменной U), обратно пропорционально зависит, во- первых, от sx (выборочного стандартного отклонения переменной X) и, во-вторых, от ]Аг (квадратного корня из объема выборки). В чем же содержательный смысл трех перечисленных свойств? Обратимся к рис. 7.2, позволяющему провести попарные сопоставления, причем каждая из трех пар иллюстрирует связь между величиной sb и конкретным свойством диаграммы рассеяния. Прямая, обеспечивающая подгонку эмпирических данных и полученная методом наименьших квадратов, одна и та же на каждом из шести графиков (нас интересуют факторы, влияющие на дисперсию оценок, а не на их средние величины). Зададим себе по поводу каждой из трех пар вопрос: «В каком из Рис. 7.2. Три парных сравнения (интерпретация трех свойств стандартного отклонения апостериорной оценки коэффициента В) двух случаев моя апостериорная оценка коэффициента 5, характеризующего тангенс угла наклона прямой к оси абсцисс, заслуживает большего доверия?». Начнем с пары, изображенной на рис. 7.2 (а): число наблюдений (п) одинаково для обоих случаев, как и разброс по оси X (т. е. sx)\ единственное различие заключено в характеристиках разброса вдоль вертикальной оси (s). Для правой диаграммы рассеяния величина s ощутимо больше, чем для левой. Теперь, скорее всего, в ответ на поставленный выше вопрос вы скажите: «Я буду больше доверять моей апостериорной оценке коэффициента В в случае, которому соответствует левая диаграмма». Таким образом мы проиллюстрировали тот факт, что с увеличением s увеличивается также sb — разброс апостериорной оценки коэффициента 5, и получили интуитивную интерпретацию первого из трех свойств, выведенных из G.19). Перейдем теперь к рис. 7.2 (б): для этой пары число наблюдений (п) одинаково, разброс вдоль оси ординат (s) одинаков; единственное различие состоит в величинах S*, характеризующих разброс вдоль оси X. Для левой диаграммы разброс sx заметно больше, чем для правой. 204
В этом случае на поставленный выше вопрос естественно получить такой ответ: «Я буду больше доверять моей апостериорной оценке коэффициента В в случае, которому соответствует левая диаграмма». Таким образом проиллюстрировано второе из свойств, выведенных из G.19): с увеличением sx значение sb — разброса апостериорной оценки коэффициента В — уменьшается. Наконец рассмотрим последнюю пару, изображенную на рис. 7.2 (в): разброс в направлении вертикальной оси одинаков (s), равно как и разброс в горизонтальном направлении (sx)\ единственное различие — число наблюдений (/г). Для левой диаграммы п больше, чем для правой. Скорее всего, ваш ответ на поставленный зыше вопрос в данном случае должен звучать так: «Я с большим доверием отнесусь к своей апостериорной оценке коэффициента Ву полученной для левой диаграммы». Shro означает, что с ростом п величина Sb — разброс апостериорной оценки коэффициента В — уменьшается. Тем самым интуитивно проинтерпретировано и третье из свойств, выведенных из G.19). Таким образом, каждый из факторов, определяющих точность апостериорной оценки коэффициента В, содержательно осмыслен. Аналогичную интерпретацию можно дать результатам, относящимся к величине 5л, однако основную часть рассуждений мы оставим читателю. Выражение для 5л содержится в G.9): п —- 1 /2 п Воспользуемся G.18) для sx и заметим, что 2 xf можно записать как n(sx + х2) (см. упражнение 7.5). Тогда для sa получим более «компактное» выражение -'*+;Г. G.20, Величина sa — апостериорное стандартное отклонение коэффициента А — зависит прямо пропорционально от s (стандартного отклонения переменной U) и обратно пропорционально от уОг (квадратного корня из объема выборки). Величина $л> кроме того, зависит обратно пропорционально от sx (выборочного стандартного отклонения переменной X) и прямо пропорционально от величины х (выборочной средней переменной X). Интуитивно приемлемая интерпретация каждого из первых трех свойств в точности такая же, что была дана выше для sb, и проиллюстрирована рис. 7.2. Однако четвертое свойство несколько отлично от остальных. Оставляем читателю возможность самостоятельно пред- 205
ложить содержательную и интуитивно приемлемую интерпретацию этого свойства (см. упражнение 7.4). Обобщим сказанное: стандартные отклонения sa и sb апостериорных оценок коэффициентов А и В (при отсутствии априорной информации) определены в G.9). Как было сейчас показано, и s^, и Sb будут тем меньше, чем меньше s (стандартное отклонение переменной ?/), чем больше Sx (выборочное стандартное отклонение переменной X) и чем больше п (объем выборки); кроме того, sa будет тем меньше, чем меньше х (выборочная средняя переменной X). Каждое из этих свойств хорошо интерпретируется на содержательном уровне. Смысл основного результата G.8) раскрыт теперь достаточно подробно в отношении средних и стандартных отклонений апостериорных оценок коэффициентов. Осталось лишь упомянуть о форме распределения этих оценок. Из G.8) известно, что апостериорная оценка каждого из коэффициентов нормально распределена. Это вытекает из предположения о нормальном распределении (см. приложение 3). Мы получили полную аналогию с результатом для случая 2 из гл. 6. На этом мы пока завершим изучение случая 2. Ключевой результат G.8), определивший апостериорные оценки неизвестных коэффициентов А и В (в соотношении Y = А + ВХ + U), базируется на выборке из п наблюдений и на предположении об отсутствии априорной информации о значениях коэффициентов. Чтобы воспользоваться этим ключевым результатом, нужно просто рассчитать значения а и Ь (это параметры прямой, полученной при подгонке наблюдений методом наименьших квадратов) и значения sa и sb (стандартные отклонения апостериорных оценок коэффициентов А и В). Эти значения подставляют затем в G.8) и находят таким образом полную характеристику апостериорных оценок коэффициентов А и ZJ. В данном разделе предполагалось, что значение s2 — дисперсия переменной U — известно. На практике подобный случай, как правило, не встречается. Поэтому мы приступим теперь к рассмотрению ситуации, когда величина S2 неизвестна. Раздел 7.3 мы начнем с относительно простой задачи вывода относительно 52 при известных а и 6, чтобы затем перейти к изучению более общего случая — статистического вывода относительно трех неизвестных параметров Л, В и S2. Этому случаю посвящен раздел 7.4. 7.3. ВЫВОД ПРИ ИЗВЕСТНЫХ КОЭФФИЦИЕНТАХ И НЕИЗВЕСТНОЙ ДИСПЕРСИИ В настоящем разделе мы рассмотрим случай статистического вывода при известных коэффициентах и неизвестной дисперсии. Будем по- прежнему обозначать известные коэффициенты буквами а и 6, а неиз- 206
вестную дисперсию через S2. Тогда наша модель (ср. с G.5)) примет вид: Y = а + ЬХ + U, G.21) U ~ N (О, S2). Нам необходимо, пользуясь информацией в виде пар наблюдений над X и У, составить определенное представление о параметре S. Мы уже знакомились с этой задачей в гл. 6 (случай 3). Действительно, поскольку аи Ъ известны, а из G.21) следует, что (известная) переменная величина (Y — а — ЬХ), представляющая собой линейную комбинацию данных наблюдений с фиксированными и известными параметрами, нормально распределена на некоторой совокупности, для которой средняя равна 0, а дисперсия 52 неизвестна. Следовательно, результат, полученный в разделе 6.3, можно непосредственно применить. Нужно только заменить в утверждении из гл. 6 переменую X переменной (Y — а — Ъ X) и учесть, что известное значение средней т равно 0. После п наблюдений над X и Y мы имеем п значений новой переменной: уг — а — bxlt у2 — а — Ьх2у ..., уп — а — Ъхп\ эти значения можно прямо использовать в F.34) или F.44). Поскольку в данной главе мы ограничиваемся рассмотрением случая, когда априорная информация отсутствует, можно воспользоваться результатом F.44). Сформулируем его в терминах данной главы. При отсутствии априорной информации относительно S2 после наблюдений (х1У ух)у (лг2, у2),..., (хп, уп) над (X, Y) (эти переменные таковы, что Y — а — ЬХ ~ N @, S2)) апостери- у орная оценка S2 оказывается такой, что величина ns2/S2 ( ' ' ' удовлетворяет распределению хи-квадрат с п степенями свободы, где s2 определяется в G.23). Выражению F.33) также будет соответствовать свой аналог: ^2 п G.23) Установив соответствие между рассматриваемым случаем и случаем 3 из гл. 6, мы может на этом не останавливаться подробно. Все изложенное в разделе 6.3 справедливо и для ситуации из раздела 7.3. Однако лучше всего проиллюстрировать сказанное на конкретном примере. Возьмем пример из раздела 7.2, но только предположим, что параметры аи b известны, а информацией, заключенной в наблюдениях, воспользуемся, чтобы оценить неизвестную величину 52. Пусть нам известно, что а = 5 и Ъ = 2. Приведем еще раз наши девять наблюдений над переменными X и Y: A, 6) B, 9) C, 12) D, 15) E, 12) F, 18) G, 18) (8, 21) (9, 24) 207
На графике рис. 7.3 нанесены точки, соответствующие девяти наблюдениям, и изображено подогнанное к ним соотношение Y — а+ЬХ, которое при данных аи b принимает вид Y = 5 + 2Х. Теперь воспользуемся ключевым для рассматриваемого случая результатом G.22). Для этого нужно рассчитать s2. Но из G.23) вытекает, что сначала придется составить множество значений yt — а — bxt при i = 1, 2, ..., п. Выражение yt — а — bxt есть величина вертикального отклонения точки, соответствующей наблюдению (xiy yt)t от рассматриваемой пря- Y' 24 21 18 15 12 9 6 3 - >-в- I I I ^5-5-2* .^X' V- 5 + 2/ I | Рис. 7.3. Наблюдения и линейное соотношение с известными коэффициентами мой Y = 5 + 2Х; это отклонение положительно, если точка, соответствующая наблюдению, находится выше прямой, и отрицательно, если эта точка находится ниже прямой (когда точка попадает на прямую, то отклонение, ес1ественно, равно нулю). На рис. 7.2 изображены точки, соответствующие / = 4 и I = 5. После подстановки значений (xit yt) в выражение уг — 5 — 2хг получим девять отклонений: —1 0 +1 +2 —3 +1 —1 0 +1 Чтобы рассчитать s2, возведем величину каждого отклонения в квадрат, просуммируем полученные квадраты и разделим результат на 9. Получим, что!;2 = 2. Если мы подставим теперь это значение s2 в G.22), то обнаружим, что апостериорная оценка S2 (дисперсии переменной U) при отсутствии априорной информации и с учетом девяти наблюдений будет такой, что 18/S2 удовлетворяет распределению хи-квадрат с 208
девятью степенями свободы (обозначают х2 (9)). Тем самым апостериорная оценка полностью определена. Различные обобщающие характеристики можно найти посредством обычных процедур. Например, 95- процентный вероятностный интервал для S можно найти, исходя из того (см. приложение 8), что переменная, удовлетворяющая распределению х и-квадрат с 9 степенями свободы с вероятностью 0,95, лежит между 2,70 и 19,02. Следовательно Р B,70 < 18/S2 ^ 19,02) - 0,95. Перейдем к обратным величинам и умножим все части полученного неравенства на 18: Р @,9464 ^ 52 < 6,F) - 0,95. Извлечем из каждой части неравенства (все они положительны) квадратный корень, сохраняя два десятичных знака после запятой: Р @,98 < 5 ^ 2,58) _- 0,95. Таким образом, мы можем на 95 % быть уверены, что стандартное отклонение переменной U лежит между 0,98 и 2,58. А теперь ответим на вопрос: насколько правдоподобно, что стандартное отклонение переменной U меньше 2,1? Нам придется просто рассчитать Р (S <С 2,1), воспользовавшись тем, что 18/S2 ~ х2 (9)' P(S<2,1) =.-- />(S2<4,41) - РE2/18< 4,41/18) - - Р A8/52 > 18/4,41) - Р (К9 > 4,08) (последовательно преобразуя неравенство, мы сначала возвели обе его неотрицательные части в квадрат, затем разделили каждую часть на 18, осуществили переход к обратным величинам и получили в итоге переменную, удовлетворяющую распределению хи-квадрат с 9 степенями свободы). Из таблицы приложения 8, интерполируя приведенные в ней значения, находим, что Р (Y9 > 4,08) примерно равняется 0,905. Следовательно, Р (S<2,1) — 0,905. Таким образом, имеется менее 1 шанса из 10, что значение S в нашем случае превзойдет 2,1. Рассмотрение случая 3 на этом завершено. Как мы видели, с точностью до обозначений этот случай совпал со случаем 3 из гл. 6. Таким образом, все выводы раздела 6.3 оказались применимыми в рассматриваемой здесь ситуации. Дополнительно ничего не потребовалось. Перейдем теперь к случаю 4 — наиболее общему случаю в данной главе. 209
7.4. ВЫВОД ПРИ НЕИЗВЕСТНЫХ КОЭФФИЦИЕНТАХ И НЕИЗВЕСТНОЙ ДИСПЕРСИИ В этом разделе мы рассмотрим наиболее общий случай из всех, имеющих отношение к данной главе, а именно случай, когда все три параметра (два коэффициента и дисперсия) неизвестны. Модель будет иметь вид: Y - А + ВХ + (/, U ~ N( 0,52). G.24) Как и в двух предыдущих разделах, мы сосредоточим внимание на ситуации, когда отсутствует априорная информация об интересующих нас параметрах. Для характеристики этой ситуации мы обратимся к приему, которым пользовались в случае 4 из гл. 6 (см. раздел 6.4). Технические детали читатель найдет в приложении 4. Как и в двух предыдущих разделах, мы будем считать, что информация поступает в форме рандомизированной выборки наблюдений (хх, уг)у (х2, ?/2), ..., (хп, уп) над (X, Y). Нас интересует апостериорная совместная оценка трех неизвестных параметров Л, В и S, опирающаяся на выборку из п наблюдений и полученная в предположении, что априорная информация об этих параметрах отсутствует. Мы вновь прибегнем к непосредственному применению теоремы Байеса. Чтобы не акцентировать внимание на сложных алгебраических преобразованиях, мы перенесли детальные выводы, касающиеся свойств апостериорной совместной оценки, в приложение 3. Здесь остановимся лишь на маргинальных распределениях этой совместной оценки, т. е. апостериорных маргинальных оценках параметров Л, В и 5. Ключевой результат, полученный в приложении 3, выглядит следующим образом. Если априорная информация о параметрах, Л, В и S отсутствует, и мы располагаем наблюдениями (*i. У\\ (*2» Уг)> ••» (хп, Уп) над переменными (Х,У) (эти переменные таковы, что Y — Л — ВХ ~ N (О, S2)), то апостериорные маргинальные распределения коэффициентов А и В оказываются такими, что каждая из величин (А — o)/sa и (В — b)/sB удовлетворяет /-распределению с п — 2 степенями свободы; величины a, ft, sa и sb определены в G.27). Если априорная информация о параметрах Л, В и S от-1 сутствует, и мы располагаем наблюдениями (xlf уг)у (х2, у2), •••> (*п> Уп) над переменными (X, Y) (эти переменные таковы, что У — Л — ВХ -~ N (О, S2)), то апостериорное маргинальное распределение параметра S2 оказывается таким, что величина (п — 2) s2/S2 удовлетворяет распределению хи- квадрат с п — 2 степенями свободы; величина s2 определена в G.27). 210 \ G.25) G.26)
1 -- I l /= 1 /= 1 /= 1 1/2 л 2 (л:,-—j L-1 J G.27) 2 (yi-^-ftii) 11/2 я-2 Приведенные результаты не столь громоздки, как это может показаться на первый взгляд. Начнем с утверждения G.25) об апостериорных оценках коэффициентов А и В и сравним его с утверждением G.8) для соответствующих оценок в случае 2. Полезно заметить, что апостериорные оценки коэффициентов А и В остаются центрированными и симметричными относительно аи b соответственно (как это имело место для первых двух выражений в G.9) и, конечно же, справедливо для совпадающих с ними первых двух выражений в G.27)). Итак, апостериорные оценки остаются центрированными относительно коэффициентов прямой, полученной при подгонке данных наблюдений с помощью метода наименьших квадратов. Далее, из G.25) следует, что апостериорные а-процентные вероятностные интервалы для коэффициентов А и В определены соответственно как (а + tn . 2,A00 -ot)/2 5Д, а-\- tn— 2,A00 -f a)/2 sa), (Ь "Мм —2,A00 -а)/2 S#, Ь -\- /rt._ 2.A 004-а)/2 Sb), здесь tky р определяется из условия Р (Tk ^ tki$) Р/100, где Tk удовлетворяет /-распределению с k степенями свободы. Итак, длины апостериорных вероятностных интервалов для каждого из коэффициентов А и В пропорциональны sa и sb соответственно. В случае 2, когда значение S2 было известно, длины этих апостериорных вероятност- 211
ных интервалов были пропорциональны sa и s^. Сравним теперь каждую из пар: sA и sa, sb и sb в соответствии с тем, как определяются эти величины соотношениями G.9) и G.27). Мы видим, что единственное различие состоит в участии s в выражениях для sa и sb, в то время как в выражениях для Sa и sb участвует s. (Этим объясняется необходимость использования различных обозначений.) В случае 4, которому посвящен данный раздел, значение s, конечно, неизвестно, и потому им невозможно воспользоваться в процессе вывода. Можно, правда, считать величину s оценкой для s, так что Sa и sb окажутся оценками sA и sb (ведь различие между соответственными элементами первой и второй пар состоит в употреблении в первом случае s, а во втором s). Во всем остальном, однако, выражения для sA и sa, как и выражения для sb и sbj совпадают. Таким образом, наши интуитивные представления о факторах, определяющих sa и sb (и, следовательно, дисперсии апостериорных оценок коэффициентов А и В в случае 2), справедливы в отношении факторов, определяющих sA и sb (и, следовательно, дисперсии апостериорных оценок коэффициентов А и В в случае 4). Обсудим теперь результат G.26) для апостериорной оценки параметра S в случае 4 и сравним ее с аналогичной оценкой G.22) в случае 3. В G.26) утверждается, что величина (п — 2)s2/S2 удовлетворяет распределению хи-квадрат, в то время как в G.22) говорилось, что распределению хи-квадрат удовлетворяет величина ns2/S2. Различие между этими величинами состоит, во-первых, в том, что в знаменателе вы- ражения для s2 стоит 2 (Уг — я — Ьх% J, в то время как в знаменателе /= i для s2 стоит 2 (У'1 — а — bxtJ, поскольку а и Ь предполагались из- вестными в случае 3, а в случае 4 они неизвестны и потому заменены их оценками а и Ь. Зо-вторых, сопоставляемые величины отличаются коэффициентами, характеризующими число степеней свободы: в G.26) их п — 2, а в G.22) было /г. Мы обсудим причины, вызвавшие подобное расхождение, ниже, а пока попытайтесь сделать это самостоятельно. (Вернитесь к табл. 6.1 или «эквивалентной» ей табл. 7.1; возможно, это поможет вам найти правильный ответ. Обратите внимание, что число степеней свободы в оценке параметра S2 изменилось с п в случае 3 на п — 1 в случае 4.) Прежде чем продолжать разговор об общем содержании утверждений G.25) и G.25), приведем числовой пример. Вернемся к примеру из раздела 7.2, но предположим теперь, что параметры*А, В и S неизвестны. Вновь выпишем данные о девяти наблюдениях: A, 6) B, 9) C, 12) D, 15) E, 12) F, 18) G, 18) (8, 21) (9, 24) 212
Как мы договорились, в данной главе будем исходить из отсутствия априорной информации о значениях интересующих нас параметров Л, В и S. Тогда можно воспользоваться результатами G.25) и G.26), проведя все необходимые выкладки по формулам G.27). Некоторые вычисления мы уже осуществили в разделе 7.2. В частности, мы знаем, что ^ xf = 285, ^ (xt — *J = 60- /я1 /= 1 Теперь основная задача — рассчитать s. Для этого нужно найти значения yt — а — Ьхи равные вертикальным отклонениям точек, соответствующих наблюдениям, от прямой, полученной в результате подгонки этих наблюдений с помощью метода наименьших квадратов. Проведем необходимые арифметические операции и получим следующие значения отклонений (они расположены в порядке возрастания /): —0,80 0,15 1,10 2,05 —3,00 0,95 —1,10 —0,15 0,80 G.28) Возведем каждое из отклонений в квадрат, просуммируем их и разделим полученную сумму на 7 (т. е. на п — 2); s2 -- 2,55, т. е. s=-^ 1,597. Подставим это значение наряду с найденными ранее в G.27) и установим значения оставшихся выражений: Sa — 1,160, Sb = 0,206. Наконец, подставим все эти выражения в G.25) и в G.26) и получим соот- А—4,75 ветствующие примеру апостериорные оценки: —pj^ удовлет- -7 * В—2,05 воряет г-распределению с 7 степенями свободы, —Q 2Q6 удовлетворяет /-распределению с 7 степенями свободы, —~— — удовлетворяет распределению хи-квадрат с 7 степенями свободы. Распределение каждой оценки полностью определено. Обобщающие характеристики могут быть найдены с помощью обычных процедур. Например, как вы можеге убедиться самостоятельно (см. упражнение 7.6), апостериорные 95-процентные вероятностные интервалы для А, В и S равны соответственно (с точностью до второго десятичного знака): B,01; 7,49) A,56; 2,54) A,06; 3,25). В качестве дополнительного примера рассмотрим задачу определения (апостериорной) вероятности того, что коэффициент А положителен. Чтобы решить ее, поступим следующим образом: —Р (Т7—4,09)-(здесь Т7 ~ t G))=0,998 (потаблицам /-распределения). 213
Аналогично Р (В >0) = Р G\ > —9,94) = 1. Таким образом, почти наверняка оба коэффициента Л и В положительны. В дальнейшем некоторые из реализованных здесь процедур будут обобщены, а сейчас рассмотрим два свойства прямой, полученной при подгонке методом наименьших квадратов, на которые до этого мы не обращали внимание. Оба эти свойства касаются (вертикальных) отклонений наблюдений от линии подгонки. Для нашего числового примера величины отклонений приведены в G.28). Достаточно очевидное свойство состоит в том, что сумма всех вертикальных отклонений равна нулю. Является ли это свойство общим? Другими словами, если через ut обозначить вертикальное отклонение i-ro наблюдения от линии подгонки, найденной методом наименьших квадратов, т. е. ui ^y.t — a — bxt, G.29) п ^ то всегда ли верно, что 2 w* " № Из G.29) Щщя* S^t/i — na—b j^Xi^niy — a i=i i-=i /= i но это есть нуль в силу первого из равенств G.27). Итак, 2^*0. G.30) {В том, что это свойство общее, нас убеждает и такое рассуждение: если бы 2 ui Ф" 0» то сумму величин и] можно было уменьшить, несколько изменив значение А и обеспечив 2 иь ~ 0, т. е. полученная прямая не была бы линией наименьших квадратов.) Еще одно, но уже не очевидное свойство величин щ можно следующим образом продемонстрировать на числовом примере. Возьмем зна- чения Ui из G.28) и умножим каждое на соответствующее ему значение Xi. Получим следующий «набор» величин и,*,-: —0,80 0,30 3,30 8,20 —15,00 5,70 —7,70— 1,20 7,20 Просуммируем эти числа. Итогом будет нуль. И вновь этоюбщий результат, который можно установить с помощью несложных выкладок. Из G.29) S *1= S (yi—'*—'bxi)xi = 2 yiXt—a 2 xi-b* 2 *1- 214
Последнее выражение в наших преобразованиях равно нулю в силу G.16)» т. е. в силу того, что коэффициенты а и Ь найдены методом наименьших квадратов: 2«ix,-0. G-31) Читателю полезно подумать об интерпретации этого свойства. Из G.25) и G.26) следует, что апостериорные оценки параметров Л, В и S зависят от a, b, Sa> Sb, sun. Мы достаточно подготовлены теперь, чтобы ввести ряд важных понятий, относящихся к этим рассчитанным на основе выборки величинам. Первые нам хорошо знакомы —это коэффициенты прямой, найденной методом наименьших квадратов и обеспечивающей подгонку данных, полученных при наблюдениях. Для краткости мы будем называть их коэффициентами наименьших квадратов. Следующая пара, Sa и s#, определяет величину апостериорных вероятностных интервалов для коэффициентов Л и В. Для удобства мы последуем традиции классического подхода и будем называть Sa и •— sB стандартными ошибками (коэффициентов) А и В. (Мы не придаем этому термину большого значения, не считая его ни эталонным, ни ошибочным, а ограничимся указанием на то, что он общеупотребителен при описании результатов статистического анализа.) Выражение для s2 почти совпадает с выражением для дисперсии величин щ (отклонений наблюдений от линии, полученной методом наименьших квадратов), различие состоит в появлении в знаменателе числа п — 2 вместо п. Поэтому мы будем называть s2 модифицированной дисперсией остатков, a s модифицированным стандартным отклонением остатков. Нередко можно встретить упоминание об s как о стандартной ошибке регрессии — мы вновь не будем придавать большого значения тому, следует ли употреблять этот термин. Чтобы воспользоваться основными утверждениями данного раздела, т. е. утверждениями G.25) и G.26), необходимо рассчитать значения выражений, содержащихся в G.27), а именно коэффициенты наименьших квадратов, стандартные ошибки для Л и В и модифицированное стандартное отклонение остатков. Эти вычисления проводятся непосредственно, хотя и трудоемки при большом числе наблюдений. Ощутимая экономия сил достигается благодаря применению современных калькуляторов и компьютеров. Для большинства компьютеров имеются пакеты статистических программ, обеспечивающие возможность проведения разнообразных статистических вычислений, в том числе и расчета линии регрессии с помощью метода наименьших квадратов. Такие же возможности обеспечивают и некоторые (достаточно совершенные) калькуляторы. Хотя способ использования программ меняется в зави- 215
симости от машины, тем не менее исходным материалом для расчетов всегда служат данные о наблюдениях: (хъ у^у (х2Уу^у ..., (хпу уп)у а калькулятору или компьютеру дается задание рассчитать регрессию (методом наименьших квадратов) переменной Y на переменную X. При этом почти все калькуляторы вычисляют коэффициенты наименьших квадратов а и Ь, а многие из них — и стандартные ошибки sA и sB, a —^ также s — модифицированное стандартное отклонение остатков. Остается подставить полученные значения в G.25) и G.26), что даст возможность определить апостериорные оценки, основанные на предположении об отсутствии априорной информации о параметрах Л, В и S. Зная эти апостериорные оценки, нетрудно посредством стандартных процедур рассчитать различные обобщающие характеристики соответствующих распределений. Однако существуют альтернативные способы представления результатов «регрессионного анализа» (эти способы чаще применяют статистики классической школы), и весьма важно свободно ими владеть, чтобы адекватно воспринимать и интерпретировать содержащуюся в соответствующих работах информацию. Один из двух наиболее употребительных способов представления информации, полученной при регрессионном анализе, состоит в записи уравнения линии регрессии (полученной методом наименьших квадратов) с указанием в скобках под каждым из коэффициентов его стандартной ошибки. В общем виде это выглядит так: G.32) (sa) (sb) Обычно приводят также число наблюдений, а иногда и значение s. (Альтернативная статистика, /?2, которая рассчитывается на базе s, указывается значительно чаще; мы обсудим это в разделе 7.6.) Например, результаты анализа числового примера, рассмотренного в данном разделе, можно записать так: Y -4,75 + 2,05Х, 7-1,597, G.33) A,160) @,206) п = 9. Эта форма широко применяется, поскольку позволяет наглядно представить основные свойства, выявленные в ходе анализа. Она также удобна, если мы хотим получить выводы, сформулированные в G.25) и G.26), поскольку содержащуюся в G.33) информацию можно сразу же преобразовать в утверждения байесовской статистики относительно апостериорных оценок, а именно записать, что обе величины Л — 4,75 В—2,05 1,160 0,206 216
Таблица 7.3. Статистический вывод для модели парной линейной регрессии с нормально распределенными остатками Апостериорное рас. пределение* коэффициента А определяется соотношением Апостериорное распределение* коэффициента В определяется соотношением Апостериорное распределение* дисперсии S2 определяется соотношением Случай 2 Случай 3 Случай 4 А-1 SA Известно**, равно а В—Ь Известно**, равно Ь В—Ь Известно**, равно s2 ns2 ~ V2 Х2(п) SB t (/г-2) Обозначения а =у— Ь х, 2j Xi i=\ 1/2 1/2 где (хь yx), (хъ у2), ..., (*n, |/n) — n наблюдений над (X, Y). • При отсутствии априорной информации о неизвестных параметрах. ¦¦ Предполагается известным заранее Источники. Для случая 2—G.8); для случая 3—G.22); для случая 4—G.25) и G.26). 217
удовлетворяют /-распределению с7(= 9—2) степенями свободы, а величина 7х S2 — распределению хи-квадрат также с 7 степенями свободы. Запись G.33), очевидно, содержит всю необходимую информацию о регрессии. Второй, столь же распространенный (альтернативный) способ представления результатов регрессионного анализа в основном идентичен G.33). Различие в том,что вместо стандартных ошибок в скобках под каждым коэффициентом указывают соответствующее ему /-отношение. Мы обсудим этот способ в разделе 7.5 после того, как объясним, что такое /-отношение и какова его роль. Мы завершаем данный раздел обобщающей таблицей, содержащей основные результаты данного и двух предшествующих разделов: в табл. 7.3 приводятся необходимые детали для расчета апостериорных оценок параметров Л, В и/или S (в зависимости от контекста), когда априорная информация об оцениваемых параметрах отсутствует. Таблица содержит практически все, что необходимо для анализа парной линейной регрессии с нормально распределенными остатками. Полезно тщательно изучить эту таблицу и, в частности, обратить внимание на то, что общего и что несхожего имеется в ней в сравнении с табл. 7.1. 7.5. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ И ПРОВЕРКА ЗНАЧИМОСТИ В гл. 5 и 6 мы установили, что байесовский а-процентный вероятностный интервал для некоторого неизвестного параметра в предположении, что априорные сведения об этом параметре отсутствуют, алгебраически совпадает с классическим а-процентным доверительным4 интервалом для того же неизвестного параметра (при этом нужно иметь в виду, что интерпретации указанных интервалов существенно различны). Этим свойством мы воспользуемся при изложении материала данной главы. Чтобы избежать ненужных повторений, мы сосредоточим внимание на случае 4, поскольку и рассуждения, и проводимый ниже анализ в той же мере применимы к двум оставшимся случаям. Из G.25) следует, что а-процентные вероятностные интервалы для коэффициентов А и В, если априорная информация о них отсутствует, соответственно имеют вид: -2),A 00 + а)/2 $а), I 218
где tkf р определяется из соотношения Р (Tk ^ tkt р) = р/100, a Th удовлетворяет ^-распределению с к степенями свободы. Эти выражения в точности совпадают с выражениями для а-процентных доверительных интервалов коэффициентов Л и В в классическом анализе (см., например, [3, гл. 7]). Аналогично из G.26) следует, что а-процентный вероятностный интервал для параметра 5(также при отсутствии о нем априорной информации) можно записать в виде (?[—^—1"'.?[—•-=*—Г). \ I #(л —2),<Ю0 + а)/2 J L ^<я—2),(Ю0 —а)/2 J / <735> гдеул,р определяется из условия Р (Yk <. yht$) = р/100, a Yk удовлетворяет распределению хи-квадрат с k степенями свободы. Это выражение вновь алгебраически идентично записи классического а-процент- ного доверительного интервала, соответствующего параметру S. Можно с одинаковым успехом пользоваться как байесовским а-процентным вероятностным интервалом (полученным при условии отсутствия априорной информации об интересующем нас параметре), так и классическим а-процентным доверительным интервалом, учитывая только, что интерпретируются они по-разному. Несколько сложнее дать байесовскую интерпретацию классической процедуры проверки гипотез, хотя, как мы видели в гл. 6, некоторый способ такой интерпретации вполне возможен. Вновь, чтобы избежать повторений, ограничимся случаем 4 и, в частности, проверкой гипотезы относительно коэффициента В (приводимые ниже рассуждения и анализ в равной мере применимы к другим параметрам и к другим случаям). Статистики классического направления чаще всего проверяют в отношении коэффициента fi, имеющего определенное экономическое содержание, (нуль-) гипотезу Н0:В -О против альтернативной гипотезы Нх : В > 0. Такая проверка представляется оправданной, если нужно убедиться в наличии (или отсутствии) эмпирического подтверждения теории, предсказывающей, что между переменными Y и X существует положительная связь. Например, это имеет место в случае теории агрегированного потребления, где Y — потребление, а X — доход. Наоборот, если проверяемая теория предсказывает отрицательную связь между Y и X, то гипотезу «Нх : В > 0» придется заменить гипотезой «Hx: В < 0». В каждом случае «принятие» гипотезы Нх означает «принятие» соответствующего теоретического положения. В разделе 6.5 уже было показано, что базовая процедура классической статистики, состоящая в проверке гипотезы Но против гипотезы Hlt представляет собой правило, позволяющее на основе выборочных 219
данных определить, следует ли «принять» гипотезу Но (и «отвергнуть» Нх) или «принять» Нх (и «отвергнуть» Но). Это правило (критерий) формулируется так, чтобы оставался достаточно малый шанс — м: яьший заранее определенного уровня в 5 % или в 1 % — «отвергнуть» гипотезу Но, в то время как на самом деле она верна. Эта малая, заранее фиксированная вероятность называется уровнем значимости критерия. Для проведения подобной проверки можно сформулировать критерий, указывающий на достижение а-процентного уровня значимости (см. [3, гл. 7]): при -^r ^/n-2, юо-а принимается Но (отвергается Hi), G.36) при ^т-> /п-2, юо-а принимается Нх (отвергается Но). SB Если в результате проверки гипотеза Н2 принята (гипотеза Но отвергнута), то говорят, что критерий значим (при а-процентном уровне значимости); можно также сказать, что коэффициент Ь значимо больше нуля (при а-процентном уровне значимости). Мы не намерены объяснять, почему в классической статистике утвердилась подобная процедура, эти объяснения имеются в любом курсе (см., например, [3, гл. 7]). Нас интересует лишь смысл, который эта процедура имеет с байесовской трч- ки зрения. Как было показано в разделе 6.5, способ придать рассматриваемой процедуре смысл в рамках байесовского подхода состоит в трактовке результата проверки как некоторого сообщения о Р (Нх | наблюдения) — вероятности того, что гипотеза Нх истинна в свете имеющихся наблюдений. (Для упрощения записи условие «| наблюдения» мы опускаем.) Итак, = Р[(В— где (в силу G.26)) Тп_2 = (Я — ЬIэв удовлетворяет /-распределению с п — 2 степенями свободы. Воспользуемся теперь симметрией /-распределения относительно нуля (откуда следует, что Р GV_2 > — t) = = Р (Тп__2 < t)) и сделаем еще один шаг в преобразованиях: P(HJ = P(Tn_t<bl?B). G.37) 220
Теперь предположим, что критерий значим при а-процентном уровне значимости. Тогда из G.36) ЬI Sb> tn_2t юо-а- Учитывая это неравенство, можно из G.37) заключить, что (ведь при хг > х2 имеем: Р (X < хг) > Р (X < х2)). Наконец, по определению Р {Тп-г < tn-2. юо-а) = A00—а)/100. Таким образом, если критерий значим при а-процентном уровне значимости, то Р (Нх) = Р (В > 0) > A00 — а) /100. G.38) Например, если критерий значим при 5-процентном уровне значимости, то мы можем заключить (при отсутствии априорной информации), что имеется более 95 % шансов, что гипотеза Нх окажется истинной. С другой стороны, если критерий незначим при а-процентном уровне значимости, то Р (Нх) < A00 — а)/100. Мы приходим к выводу, что значимость или незначимость критерия содержит в себе некоторую информацию относительно Р (HJs P (В> 0). (Полезно отметить, что результат проверки не дает сколько-нибудь существенной информации относительно Р (Но) == Р (В = 0), ибо эта вероятность непременно равна нулю, за исключением разве что совсем необычных обстоятельств.) Обобщим сказанное: если статистик классической школы говорит, что «коэффициент b значимо отличается от нуля при а-процентном уровне значимости» (это является синонимом утверждения о значимости критерия или о том, что гипотеза Но отклонена в пользу гипотезы Hlf— все при а-процентном уровне значимости), то статистик байесовской школы может интерпретировать такое высказывание как свидетельство того, что апостериорная вероятность положительности параметра В (при отсутствии о нем априорной информации) не менее чем A00— а)/ /100. Например, утверждение «коэффициент b значимо отличен от нуля при 1-процентном уровне значимости» означает, что Р (В > 0) не менее чем 0,99. Таким образом, утверждения о значимости равносильны ограничениям на некоторые вероятности. В рамках байесовского подхода естественнее и проще вычислить Р (В > 0) непосредственно и затем уже пользоваться этой величиной. Так, если, например, Р(В> 0) = 0,98, то полезнее привести эту информацию в ее «первозданном» виде, нежели прибегать к окольным сравнениям сначала с величиной 0,95 («коэффициент b значимо отличен от нуля при 5-процентном уровне значимости»), а затем с величиной 0,99 («коэффициент b значимо отличается от нуля при 1-процентном уровне значимости»). В классической статистике существует договоренность отмечать 221
уровень значимости коэффициентов с помощью звездочек. Часто (но не всегда) одной звездочкой помечают коэффициент, значимый при 5-процентном уровне значимости, двумя звездочками — при 1-процентном и не ставят звездочек при остальных коэффициентах. Из G.36) следует, что ответ на вопрос, значим или незначим некоторый коэффициент, зависит от величины отношения Ы sb в сравнении с соответствующим (уровню значимости и числу степеней свободы) табличным значением /-распределения, которое обозначают через /п_2, юо-а- Поскольку это отношение играет в статистике очень важную роль, для него ввели специальный термин — его называют ^отношение для данного коэффициента. Будем обозначать /-отношение для коэффициента В через /#, а для коэффициента А — через /л, т. е. G.39) В каждом случае /-отношение для данного коэффициента есть отношение значения самого коэффициента (найденного методом наименьших квадратов) к его стандартной ошибке. В конце предыдущего раздела мы отмечали, что при оформлении результатов регрессионного анализа часто приводят значения /-отношений (а не значения стандартных ошибок), указывая их в скобках под соответствующими коэффициентами. В соответствии с такой договоренностью результаты расчетов для примера из раздела 7.4 будут записаны (ср. с G.33)) в виде У := 4,75 + 2,05*, п = 9, (? 40) D,09) (9,94) Г-1,597 (в скобках указаны /-отношения). Обычно сопровождают запись результатов замечанием о том, какая величина содержится в скобках; иначе могут возникнуть недоразумения. Если п ¦=¦ 9, то соответствующие табличные значения /-распределения для проверки классического критерия G.36) при 5-процентном и 1-процентном уровнях значимости равны 1,895 и 2,998 соответственно. Взглянув на G.40), мы убеждаемся, что оба /-отношения превосходят эти табличные значения, т. е. оба коэффициента а и Ь значимо отличаются от нуля при 1-процентном уровне значимости (и, конечно же, при 5-процентном тоже). В байесовской терминологии, как мы убедились выше, это означает, что и Р (А > 0), и Р (В > 0) превосходят 0,99. (Такой вывод подкреплен и прямыми вычислениями этих двух вероятностей, проведенными в разделе 7.4.) Одно из преимуществ представления результатов регрессионного анализа в форме G.40) — возможность сразу же рассчитать точные значения Р(А >0) и Р(В>0). Они равны для нашего примера Р (Г7< < 4,09) и Р (Г7 < 9,94) соответственно. В общем случае эти вероятности определяют так: Р (А > 0)« Р GП_2 < tA)y Р (В > 0) шт Р (Гп_2 < tB). 222
7.6. СРАВНЕНИЕ ТЕОРЕТИЧЕСКИХ СООТНОШЕНИЙ И КАЧЕСТВО ПОДГОНКИ До сих пор в данной главе мы вели анализ в предположении, что потенциально неопределенными в модели являются только значения ее параметров Л, В и S. В остальном форма модели была задана соотношениями G.5) и потому предполагалась известной и определенной. В частности, мы предполагали определенно известным, какая переменная является (единственной) подходящей объясняющей переменной (в данном случае X), какими должны быть форма соотношения (линейной) и вид распределения остаточного члена U (нормальным). На практике могут встретиться случаи, когда некоторые, если не все, из перечисленных предположений не удается сделать с определенностью. Как же вести анализ в подобных обстоятельствах? В принципе дополнительных концептуальных проблем здесь не возникает: мы просто перечисляем все возможные альтернативы, учитывая альтернативные объясняющие переменные и/или альтернативные формы функциональных связей, и/или альтернативные распределения остатков, и снабжаем каждую из них своей априорной вероятностью. Затем применяем теорему Байеса, чтобы получить соответственные апостериорные вероятности. Если не считать возможных технических осложнений, способ действий при появлении дополнительных неопределенностей хорошо нам знаком. В данном разделе мы рассмотрим кратко процедуры, позволяющие преодолеть первую из трех дополнительных неопределенностей, а именно неопределенность, связанную с выбором подходящей объясняющей переменной. Вторая из дополнительных неопределенностей, а именно неопределенность в выборе подходящей функциональной формы связи между переменными, будет проанализирована в гл. 8. Изучение альтернатив, связанных с третьей из них — с неопределенностью вида распределения остаточного члена U, выходит за рамки этой книги, и мы адресуем читателя к [8J. Рассмотрим ситуацию, когда нам известно, что значения переменной Y генерируются моделью, которая определена соотношениями G.5), однако у нас нет уверенности в том, какая из двух потенциальных объясняющих переменных Хг или Х2 в действительности объясняет поведение Y. Перед нами две «конкурирующие» модели, Мг и М29 определенные (ср. с. G.5)) следующим образом: ^Ui-Jms?); IY = A2 + B2X2 + U2, {7Ai} 2' | U2~N@9S22). С моделями Мг и М2 должны быть соотнесены некоторые априорные вероятности, скажем, Р (Мг) и Р (М2). Они отражают чьи-то априорные 223
ожидания о «солидности» каждой из двух конкурирующих гипотез. Если другие модели не рассматриваются, то вполне возможно, что Р (Мг) + Р (М2) = 1, и по сути самой задачи обе величины Р (М^и Р (М2) отличны от нуля. В остальном задача решается так же, как и другие в этой главе. (Предлагаемый ниже подход к ее решению допускает непосредственное обобщение на случай трех и более конкурирующих гипотетических моделей.) Конкретизируем задачу: пусть две наши модели отражают альтернативные объяснения уровня инфляции (Y): Мх связана с монетаристским объяснением (Хг — темп изменения спроса на деньги); М2 — соотношения типа кривой Филлипса (Х2 — уровень безработицы или какой-либо иной индикатор избыточного предложения рабочей силы). В каждой из сравниваемых моделей какие-то (а возможно, и все) параметры Aiy Bt и St могут быть неизвестными, а остальные (возможно, и все) — известными; другими словами, для каждой модели может иметь место один из четырех случаев, рассмотренных в предыдущих разделах данной главы. Анализируемые далее методы с одинаковым успехом применимы к любой из возможных ситуаций, однако, желая избежать ненужных повторений, мы ограничимся рассмотрением наиболее общего варианта, когда для каждой из моделей имеет место случай 4. Таким образом, все параметры Alt Въ Slt A2t В2 и 52 предполагаются неизвестными. Однако у нас могут быть некоторые предварительные представления об этих параметрах, и мы, как обычно, выразим их в форме априорного вероятностного распределения. Наиболее естественно воспользоваться двумя совместными распределениями, условными по отношению к выбору соответственной модели. Точнее, речь идет о совместном распределении параметров А1,В1 и 5хпри условии, что верна модель Мъ и о совместном распределении параметров Л2, В2 и S2 при условии, что верна модель М2. Обозначим соответственные функции плотности через gAtBtsAal> ЬЪ Sll^i) И gA%BtSt(<h, К S2|M2). Каждую из этих условных функций плотности можно умножить на соответствующую маргинальную вероятность, т. е. первую на Р (Мх), а вторую на Р (М2), и получить функции плотности совместных априорных распределений для модели и ее параметров: gA.BjSj(au bjt 5;.|М,-)Р(М7.),/=1, 2. G.42) . При наличии данных о выборочных наблюдениях над переменными F, Хг и Х2 мы можем с помощью теоремы Байеса уже известным нам способом получить совместную апостериорную оценку для моделей и параметров. Эту совместную оценку можно представить в виде произведения (имеющего форму, сходную с G.42)) функции плотности услов- 224
ного распределения для параметров при условии, что данная модель верна, и маргинальной вероятности того, что эта модель верна: gA.B.Sjlaj, bjy sj9\Mfi {уи xUt x2i), f=l, ..., п]х xP[Mj\(yh xlh x2i), /=1, ...., п]. G.43) Среди получаемых при этом результатов один из наиболее интересных — апостериорные вероятности для двух моделей: P[Mj\(yi9 xu, x2i), f=l, .... л], / = 1,2. G.44) Сравнение этих апостериорных вероятностей с априорными, т. е. с Р (Mj)y / = 1,2, показывает, как данные о наблюдениях повлияли на представления об относительном правдоподобии конкурирующих моделей. В общем случае выражение G.44) зависит от ряда факторов, в том числе от априорных оценок параметров в двух рассматриваемых моделях. Несмотря на концептуальную ясность, общее выражение G.44) очень трудно получить, и алгебраически оно будет выглядеть довольно громоздким. Однако существует важный частный случай, хорошо согласующийся с интуитивными представлениями. Предположим, что мы априорно рассматриваем Мг и М2 как одинаково правдоподобные, так что Р (Мг) = Р (М2) = 1/2. Пусть, кроме того, априорная информация обо всех параметрах Ajf Bj и S;- (/ = 1, 2) отсутствует. Тогда можно показать (см. [8, с. 306—312]), что отношение апостериорных вероятностей для моделей определяется соотношением хи, xlU G.45) Здесь s2 и s2 — модифицированные стандартные отклонения остатков соответственно для регрессии Y на Хг и регрессии Y на Х2, рассчитанных методом наименьших квадратов. Следовательно, при имеющих место обстоятельствах модель Мх представляется более правдоподобной по сравнению с моделью М2 в свете имеющихся наблюдений, когда s1 меньше s2, и, наоборот, модель М2 будет казаться более правдоподобной, чем модель М19 когда s2 меньше sv Если априорно обе модели рассматривались как одинаково правдоподобные, то апостериорная оценка позволяет считать ту из них более правдоподобной, которой соответствует меньшее стандартное отклонение остатков. Это простой и интуитивно ясный вывод. (Когда априорные вероятности Р (Мх) и Р (М2) не равны, правую часть соотношения G.45) нужно домножить на отношение Р {Мл) к Р (М2). Доказательство этого результата и анализ более общего случая можно найти в работе [8, с. 306—312].) Хотя величина s (модифицированное стандартное отклонение остатков) играет важнейшую роль при оценивании и сравнении моделей, 8 зек. 2161 225
ее сравнительно редко указывают при оформлении результатов регрессионного анализа, особенно в классической статистике. Обычно приводят значение статистики R2, которая связана с s следующим образом: (?46) 2 (у1-~уТ/п Член в правой части G.46), вычитаемый из 1, содержит в числителе (немодифицированную) дисперсию остатков регрессии наименьших квадратов, а в знаменателе — дисперсию наблюдений над переменной Y; таким образом, этот член представляет собой часть дисперсии переменной У', которая не объясняется регрессией. Следовательно, величина R2 измеряет долю дисперсии переменной Yf объясняемой данной регрессией. Величина R2 может изменяться от 0 (регрессия ничего не объясняет) до 1 (вся дисперсия переменной Y объясняется данной регрессией). Ясно, что мы располагаем индикатором того, насколько хорошо с помощью линии наименьших квадратов осуществляется подгонка наблюдений: ^2 = 1 свидетельствует о совершенной подгонке (все наблюдения лежат на линии регрессии); R2 = 0 — об отсутствии какой бы то ни было подгонки (линия регрессии горизонтальна); значения /?2, лежащие между этими двумя крайними величинами, характеризуют различные уровни качества подгонки. Более подходящей для применения статистикой является скорректированное значение R2, обозначаемое R2 и определяемое следующим образом: R2=l - G.47) Мы вернемся к обсуждению этой статистики в гл. 8, когда сможем объяснить ее преимущества перед R2. По традиции либо R2, либо R2 .— (чаще, чем s) приводят в качестве характеристики уравнения при оформлении результатов регрессионного анализа. Например, в нашем число- вом примере из раздела 7.4 s = 1,597 и - 2 {Уь — УJ = 30; следова- тельно, R2 = 0,934 и R2 = 0,924; результаты регрессионного анализа обычно представляют (ср. с G.33)) в виде Y - 4,75 + 2,05Х, ?2 - 0,924 48 A,160) @,206) п = 9 (в скобках указаны стандартные ошибки). 226
Ясно, что R2 (и, как мы увидим в гл. 8, R2) — полезная дескриптивная статистика. Ею широко пользуются в классической статистике, и потому необходимо хорошо понимать ее смысл. Однако при «уровне проникновения в суть проблем» статистического оценивания, достигнутом к этому моменту нашего курса, основная ценность такой статистики состоит в ее связи с s2: как видно из G.46), уменьшение s ведет к увеличению R2. (Аналогично из G.47) следует, что R2 и s связаны обратной зависимостью.) Поэтому если сравнивают две регрессионные модели, априорные вероятности которых равны, то относительные апостериорные вероятности характеризуются значениями R2: уравнению с большим R2 соответствует более высокая апостериорная вероятность. Это позволяет осуществить выбор одной из альтернативных моделей (имеющих одну и ту же объясняемую переменную) в соответствии с величиной R2. Однако такой способ выбора оправдан лишь при определенных обстоятельствах. 7.7. ПРИМЕРЫ РЕГРЕССИЙ Теперь продемонстрируем применение полученных в этой главе результатов. Ключевые результаты сведены в табл. 7.3. Мы проиллюстрируем их применение на двух примерах эмпирического исследования функций потребления. Они различаются по уровню агрегирования и типу данных, используемых при их исследовании. В первом примере агрегированная функция потребления для Великобритании построена на базе временных рядов, а во втором — функция потребления для домашних хозяйств опирается на данные «пространственного» типа. Идея агрегированной функции потребления хорошо известна из курса макроэкономики. Почти всегда сначала рассчитывают линейную функцию, удовлетворяющую соотношениям G.5), где Y — уровень потребления, а X —уровень дохода. (Мы пользуемся обозначениями данной главы вместо более привычных обозначений тех же переменных через С и F, чтобы избежать возможных недоразумений.) Коэффициент В характеризует агрегированную величину предельной склонности к потреблению, а коэффициент А — уровень потребления при нулевом доходе. Обычно считают, что величина А положительна, а В лежит между 0 и 1. Выясним, имеет ли это место, пользуясь агрегированными данными для Великобритании. Лучшим источником агрегированных статистических данных но Великобритании, несомненно, являются ежемесячные публикации Государственной статистической службой экономических трендов, которые затем объединяются в ежегодные издания. Последние содержат длинные ряды подробных данных об основных экономических агрегатах и об их составляющих. Последний год, за который мы имели данные об интересующих нас переменных, — 1981. Обратившись к названным выше публикациям, мы обнаружим, что существуют различные 8* 227
способы отражения теоретических представлений о функции потребления с привлечением доступных агрегатных экономических характеристик. Теория не дает нам определенных рекомендаций относительно того, какие из подобных агрегатов, будь то потребительские расходы или валовой внутренний продукт (ВВП), рассчитанный в текущих ценах, следует предпочесть в нашей конкретной ситуации. У нас имеется возможность выбора между годовыми и квартальными данными, а в отношении последних — между скорректированными с учетом сезонных колебаний (с элиминированной сезонностью) либо без корректировки; кроме того, можно воспользоваться данными в текущих или в постоянных A975 г.) ценах. Чтобы сделать выбор в отношении последнего из указанных аспектов, следует учесть, что функция потребления обычно предназначена для учета связи между реальным (а не номинальным, т. е. стоимостным) потреблением и реальным (а не денежным) доходом. Поэтому данные в постоянных ценах больше подходят для такой цели. Если говорить о выборе между годовыми и сезонными данными, то он зависит в значительной степени от характера и целей проводимого исследования. Остановимся на квартальных данных с элиминированной сезонностью, что позволит располагать значительным числом наблюдений и при этом не учитывать колебания сезонного характера. Выпишем для дальнейшей работы (из Economic Trends Annual Supplement. London. Government Statistical Service, 1982, № 7, p. 17—19) данные о потребительских расходах и ВВП, полученные в рыночных ценах и переведенные затем в постоянные цены 1975 г., квартальные и с элиминированной сезонностью. Данные в источнике приведены за период с первого квартала 1955 по первый квартал 1981 г., т. е. всего 105 квартальных наблюдений. В идеале в расчеты следует включить как можно больше данных о наблюдениях, т.е. все доступные, при условии, что они генерируются одной и той же моделью; тогда надежность апостериорных оценок окажется наибольшей из возможных. Однако для наглядности при проведении последующих расчетов мы ограничимся лишь частью этих наблюдений, что позволит упростить арифметические выкладки. Мы возьмем период с 1971 по 1980г. (включительно), который характеризуется сорока наблюдениями (поскольку дальнейшее расширение информационной базы модели может привести к смещению соотношения G.5); напомним, что обсуждаемые в этой главе методы опираются на предположение о неизменности соотношения G.5) для всех участвующих в анализе данных). Данные о наблюдениях изображены на рис. 7.4 в виде диаграммы рассеяния, причем по оси Y отложены значения уровня потребительских расходов, а по оси X — соответствующие значения ВВП. (Исходные данные здесь не приводятся; читателю следует самому извлечь их из упомянутого источника и провести расчеты, о которых речь пойдет ниже.) Предположим, что мы не располагаем априорными сведениями о значениях трех интересующих нас параметров Л, В и S, определяющих 228
конкретную модель, форма которой предполагается выбранной правильно, и соотношение, связывающее Y (потребительские расходы) и X (ВВП в рыночных ценах), имеет (ср. с G.5)) вид: Y = А + ВХ + Uy U ~ N @, 52). Как было показано в разделе 7.4, апостериорные оценки в свете имеющегося множества наблюдений определяются утверждениями G.25) и G.26). Чтобы воспользоваться ими,нам придется сначала рассчитать У 18 000 17 000 16 000 15 000 У - 2462 + 0,522 X 4 000 25 000 26 000 27 000 28 000 29 000 Л Рис. 7.4. Квартальные данные о потреблении и доходе в Великобритании за 1971—1980 гг. По оси У отложена величина потребительских расходов в млн. фунтов стерлингов, по оси X — величина ВВП в млн. фунтов стерлингов, которая взята в качестве характеристики дохода различные выражения из G.27), а для этого, в свою очередь, потребуется вычислить соответствующие суммы, суммы квадратов и суммы попарных произведений. Все вычисления проводятся непосредственно на базе исходных данных, взятых из упомянутого выше сборника: 40 ' 40 2 *i = 1 074 724, 2 Уг = 659 671 • /= 1 /=i л = 40, 40 40 2 4 = 28 964 843 682, 2 У? = * ° 909 689 009, /= 40 S = 17770605111. Следовательно, х =--= 26 868,1 и у =- 16 491,775. 229
Далее, поскольку 2 (У<— 2 »= 1 i= 1 (см. упражнение 7.5), то получаем следующий способ вычисления оценки коэффициента В: 2 (и-»)(*.-Э -Г-_ «= 1 17770605 111—17724 106395,1 . 40 _ а 28 964 843 682—28 875 791 904,4 /= l 46 498 715,9 89 051777,6 ' т. е. 6 = 0,52215. Тогда находим оценку второго коэффициента: 7 = l}-'bx= 16491,775— 0,52215 х 26868,1 = 2462,5. Итак, линия наименьших квадратов, обеспечивающая подгонку данных наблюдений, имеет вид: Y = 2462 + 0,522 X. Она и изображена на рис. 7.4. Остается рассчитать ?2 = -Ц V (у,-*?-?*,)¦ (см. G.27)). Один способ — вычислить каждый из элементов yt— a — — bxi отдельно, а затем рассчитать их сумму квадратов и величину s2. Однако это довольно долгий путь. Другой, более прямой способ основан на использовании следующего результата (см. упражнение 7.7): S (Vi -?-'**|)«= S (Уг-У?-Ъ ? (**-*J = С его помощью и опираясь на вычисления, произведенные ранее, мы находим, что s2 = 164846,6 и, следовательно, Т= 406. Из G.27) полу- чаем, что sA = 1158 и sB = 0,043. Выбрав одну из принятых форм 230
представления результатов регрессионного анализа, мы можем записать: ,522Х,7=406, G.50) A158) @,043) п -40 (в скобках указаны стандартные ошибки параметров). В предположении, чгпгаприорные сведения о параметрах Л, В и S отсутствуют, на основе G.2$) и G.26) мы можем построить апостериорные оценки этих napaMetpoB. Подставим ^=2462, ^ = 0,522, 7Л= 1158, 7В = 0,043 в G.25) и найдем, что обе величины Л—2462 В— 0,522 1158 0,043 удовлетворяют /-распределению с 38 степенями свободы. После под- становки значения s = 406 в G.26) величина 6264171/S2 удовлетворяет распределению хи-квадрат также с 38 степенями свободы. Итак, получены полные характеристики апостериорных распределений. Различные обобщающие характеристики можно получить с помощью обычных вычислений. Например, 95-процентные вероятностные интервалы для коэффициентов А и В получают, основываясь на том (см. приложение 7), что переменная, удовлетворяющая /-распределению с 38 степенями свободы, с вероятностью 0,95 лежит в интервале с концами ±2,025. Следовательно, р( — 2,025< л~2462 <2,025^0,95; \ 1158 / Р (~ 2,025 < б~0'522 < 2,025) = 0,95. \ 0,04u J 95-процентные вероятностные интервалы для коэффициентов А и В равны A17; 4807) и @,435; 0,609) соответственно. Опираясь на данные наблюдений, изображенные на рис. 7.4, можно с вероятностью 95 % утверждать, что агрегированная предельная склонность к потреблению в Великобритании равнялась величине, заключенной между 0,435 и 0,609. То обстоятельство, что этот интервал весьма широк, связано с достаточно большой дисперсией исходных данных (см. рис. 7.4). В экономической теории предполагалось, что значение А положительно, а значение В лежит между 0 и 1. Согласуется ли подобная гипотеза с фактами? Очевидный способ проверить это — рассчитать вероятности Р (А > 0) и Р @ < В <. 1) и убедиться в том, что они «достаточно велики». Наша апостериорная оценка коэффициента А: (А— 2462)/1158~/C8)). 231
Следовательно, > 1158 1158 = Р (Тзв > - 2,13), где Где -1 C8), т. е. с помощью интерполяции табличных значений из приложения 7 находим, что Р (А > 0) « 0,98. Аналогично °^-< g-°-522 < '-0'522 0,043 0,043 0,043 где на последнем шаге мы вновь воспользовались таблицей /-распределения из приложения 7. Итак, мы почти наверняка можем утверждать, что коэффициент А положителен и с еще большей уверенностью что коэффициент В лежит между 0 и 1. Наконец, для полноты картины рассчитаем /-отношения и значение Значение R 2 говорит о том, что почти 80 % дисперсии наблюдений над переменной Y «объясняется» регрессией. Теперь мы можем записать результаты регрессионного анализа в форме, альтернативной G.50), но так же достаточно распространенной: 7 = 2462+0,522Х, R2 = 0,795, G.51) B.13) A2,1) п = 40 (в скобках указаны /-отношения для коэффициентов). В качестве второго примера для демонстрации регрессионного анализа «в действии» мы также воспользуемся соотношением, связывающим потребление и доход, однако на этот раз мы воспользуемся не агрегатами, а данными о домашних хозяйствах и не временными рядами, а пространственными данными. Подобная информация может быть почерпнута из Family Expenditure Survey. («Обзоров семейных расходов») или же в обобщенном виде из General Household Survey («Общих обзоров домашних хозяйств»). Конкретные данные, исследованием которых мы займемся, взяты из издания за 1979 г., вышедшего в свет в 1980 г.: Family Expenditure Survey 1979. London, 1980, p. 169 (Appendix 8, Table А). В качестве данных, подходящих для эмпирических расчетов соотношения между потреблением и доходом, были выбраны средний недельный уровень потребительских расходов в домашнем хозяйстве и средний недельный уровень дохода в домашнем хозяйстве. 232
Усреднение проведено в обзоре для различных групп домашних хозяйств, различающихся по уровню дохода. В обзоре за 1979 г. таких групп было выделено шестнадцать, и потому мы располагаем шестнадцатью наблюдениями. Эти наблюдения отмечены на рис. 7.5, а. (Мы не приводим первоначальные данные и предлагаем читателю разыскать соответствующий выпуск «Обзора семейных расходов», извлечь из него необходимые данные и проверить правильность всех проводимых ниже выкладок. Можете воспользоваться при этом микрокалькулятором.) 200 100 а) I 5,0 4,0 3,0 У =0,841 + 0,781 X 100 200 300 3,0 4,0 5,0 6,0 Рис. 7.5. Потребление и доход в домашних хозяйствах Великобритании в 1979 г.: а) по вертикальной оси — средние потребительские расходы домашнего хозяйства за неделю, по горизонтальной оси — средний недельный доход домашнего хозяйства; б) X и Y — натуральные логарифмы величин, изображенных на диаграмме рис. а Внимательное изучение образованной имеющимися в нашем распоряжении наблюдениями диаграммы позволяет обнаружить то, что вполне можно было предвидеть или предсказать исходя из теоретических соображений: интересующее нас соотношение не является линейным. Перед нами случай, когда отвечающая эмпирическим данным кривая должна иметь тем меньший тангенс угла наклона касательной к оси X, чем больше становится величина получаемого дохода. Это вполне согласуется с экономической теорией, которая предсказывает, что для пространственных микроэкономических данных, подобных нашим, предельная склонность к потреблению падает по мере роста дохода. Таким образом, становится ясно, что невозможно непосредственно воспользоваться линейной формой для моделирования рассматриваемой связи между экономическими переменными. Тогда возникает вопрос: какая форма функциональной связи окажется в данном случае приемлемой? Когда в экономической теории нет ответа на подобные вопросы, приходится искать его с помощью формальных процедур. Одна очевидная возможность — испытать в качестве формы связи линейную зависимость между логарифмами рассматриваемых переменных. За- 233
пишем модель в привычной для нас форме Y = А + ВХ + (/, U ~ N (О, S2), но X здесь будет логарифмом среднего недельного дохода\получаемого домашним хозяйством, a Y — логарифмом среднего уровня недельных расходов. Известно, что в подобных линейных соотношениях между логарифмами (их называют логлинейными) коэффициент В интерпретируется как эластичность. В нашем примере В есть эластичность потребительских расходов домашнего хозяйства по доходу *. На рис. 7.5, б представлена эмпирическая информация в логарифмическом масштабе по обеим осям. (Взяты натуральные логарифмы, хотя с тем же успехом можно было выбрать любое другое основание логарифмов.) Изучив этот рисунок, мы можем сделать вывод о том, что переход к логарифмам послужил таким преобразованием исходных данных, после которого гипотеза о линейной связи между переменными стала более приемлемой. Поэтому далее в этом примере мы будем подразумевать под данными наблюдений не сами исходные величины, а их логарифмы. Как и в предыдущем примере из этого раздела, будем исходить из отсутствия априорных сведений об интересующих нас параметрах модели. Тогда результаты G.25) и G.26) применимы, но, прежде чем ими воспользоваться, придется произвести все необходимые расчеты по формулам G.27). Прежде всего найдем необходимые для расчетов суммы, не забывая при этом, что теперь величины в формулах являются логарифмами: 2 *i = 72,8518, 2 Л = 70,3791, /= 1 /= 1 л = 16, 2 х}= 338,892, 2 У? =313,984, i= 1 /= 1 2 *, У| = 326,063. * Формально эластичность S по Т определяется как отношение относительных приростов (темпов приростов) этих переменных, т. е. как Прибли- dT/T женно эластичность показывает, на сколько процентов изменится 5, если Т изменится на 1 %. Убедиться в том, что В в случае логлинейного соотношения между S и Т есть не что иное, как коэффициент эластичности S по Г, нетрудно. Достаточно само искомое соотношение представить явно, положив Y = 1п5, X = In Т. Тогда In 5 - Л + В In Т. Продифференцируем это равенство и получим d 5 d T S == Т ' откуда и следует, что В — коэффициент эластичности 5 по Т.— Примеч. пер. 234
С точностью до третьего знака после запятой подстановка полученных величин в соотношения G.27) даст нам: ^ = 0,841, ^=0,781, 7 = 0,041, 74 = 0,071, ?в =0,015. Вычисленная (в логарифмах) регрессия может быть представлена в форме: У = 0,841 +0,781Х, 7 = 0,041, G 52 @,071) @,015) л = 16 (в скобках приведены стандартные ошибки параметров). Рассчитанная линия наименьших квадратов изображена на рис. 7.5, б. Из G.25) находим (при отсутствии априорной информации) наши апостериорные оценки коэффициентов А и 5, которые таковы, что обе величины Л—0,841 5-0,781 и 0,071 0,015 удовлетворяют /-распределению с 14 степенями свободы. Следовательно, 95-процентные вероятностные интервалы для коэффициентов А и В равны @,689; 0,993) и @,749; 0,813) соответственно. На основе данных из «Обзора семейных расходов» мы можем быть уверены на 95%, что эластичность изменения среднего недельного уровня потребления в домашних хозяйствах в зависимости от изменения среднего недельного дохода, получаемого этими домашними хозяйствами, лежит между 0,749 и 0,813. Чтобы записать результаты регрессионного анализа в альтернативной форме, рассчитаем значения /-отношений (они равны 11,8 и 52,1), а также значение R2 = 0,995. Тогда У=0,841+0,781Х, #2^0,995, A1,8) E2,1) л ^16 ( * } (в скобках приведены /-отношения). Значения /-отношений таковы, что Р (А > 0) и Р (В > 0) обе практически неотличимы от 1. Нам остается перейти от уравнения линейного в логарифмах к непосредственной связи между потреблением и доходом. Схематически полученное уравнение можно записать так: In (потребление) = 0,841+0,781 In (доход). Отсюда, учитывая, что е0'841 = 2,319, получим потребление = 2,319 доход °»781. G.54) Чтобы придать этому выражению содержательный смысл, рассчитаем с его помощью величину предельной склонности к потреблению 235
Средний недельный доход в домашнем хозяйстве в 1979 г (фунты стерлингов) 50 100 150 200 250 Средняя величина mpc 0,769 0,661 0,604 0,568 0,541 (обозначим ее mpc в соответствии с начальными буквами ее английского наименования) для различных уровней дохода. Для этого достаточно продифференцировать G.54) и учесть, что 2,319-0,781 =¦ 1,811: mpc = 1,811 доход-0'219. Пользуясь этой формулой, составим таблицу значений mpc при различных уровнях среднего недельного дохода в домашних хозяйствах. Из таблицы видно, что предельная склонность к потреблению меняется с изменением уровня дохода, т. е. мы правильно отказались от обычной линейной формы связи между переменными. На этом мы завершим анализ второго примера. Как мы убедились на примерах, результаты данной главы можно непосредственно применять к исходной статистической информации. При этом требуется (если исходить из отсутствия априорных сведений о параметрах Л, В и S) по формулам G.27) рассчитать а и b (коэффициенты наименьших квадратов), s (модифицированное стандартное отклонение остатков), а также Sa ksb (стандартные ошибки коэффициентов А и В). Значения найденных величин подставляют затем в G.25) и G.26) и получают апостериорные оценки параметров Л, В и S. Затем результаты обобщают одним из принятых способов, вычисляя соответствующие характеристики. Вот и все, что требовалось для анализа парной линейной регрессии. 7.8. ПРОГНОЗ С установлением апостериорных оценок параметров Л, В и S интерес экономиста к анализируемым соотношениям обычно не исчезает. Он может воспользоваться полученными оценками для прогнозирования и определить значение Yy соответствующее некоторому данному значению X. Если быть точными, то можно сделать два прогноза:прогноз среднего значения У, соответствующего конкретному значению X, и прогноз фактического значения У, соответствующего конкретному значению X. Если заданное значение переменной X обозначить через .Ко» а соответствующие ему среднее и фактическое значения Y — через МоиКо соответственно, то можно будет записать, что Af о = А + Вх0 G.55) Yo = А + Вх0 + Uo, G.56) где, конечно, Uo ~ N @, S2). 236
Прописные буквы используются для обозначения обеих интересующих нас величин, поскольку мы исходим из того, что в общем случае обе они неизвестны. (В случае 3, рассмотренном в разделе 7.3, значения коэффициентов А и В известны, а потому известно и значение Мо, т. е. проблем р его прогнозированием не возникает.) Мы сосредоточим внимание на случае 4, которому посвящен раздел 7.4; соответствующие результаты могут быть получены и для других случаев. Из G.25) нам известно, что апостериорные оценки обоих коэффициентов А и В имеют вид /-распределений. Более того, из G.26) следует, что и Uo также удовлетворяет /-распределению с п — 2 степенями свободы. (Распределение Uo при заданном значении S = s является нормальным; в силу G.26) маргинальное распределение S задается в форме распределения хи-квадрат; следовательно (см. гл. 6), маргинальное распределение Uo имеет форму /-распределения.) Существует хорошо известная теорема (ее подробное рассмотрение выходит за рамки нашей книги), утверждающая, что линейная комбинация переменных, удовлетворяющих /-распределению (с одинаковым для всех переменных числом степеней свободы), также удовлетворяет /- распределению. И для G.55), и для G.56) условия этой теоремы выполнены. Поэтому апостериорные оценки каждой из величин Мо и Yo могут быть выражены в форме /-распределений. Приведем точную формулировку этого результата (доказательство, которое мы не приводим^ содержится в [8, с. 83]). При условиях, обеспечивающих справедливость G.25) и G.26), апостериорные оценки Мо и Уо, таковы, что каждая из величин ^~ °~т° удовлетворяет /-распределе- M° нию с п — 2 степенями свободы, где m0, Sm0 и определяются из G.58). /j 57) sYo =- s b n z\z 2 /= 1 1/2 i+ - n + хГ "I J 1/2 G.58) Из приведенных соотношений видно, что обе апостериорные оценки как для Мо, так и для Yo центрированы относительно пг0 — точки, соответствующей X = х0 и лежащей на линии наименьших квадратов, которая обеспечивает подгонку данных наблюдений. Точность апосте- 237
риорных оценок (отражаемая длиной апостериорных вероятйостных интервалов) зависит от sMo и sYi). Поэтому в обоих случаях -(точность будет увеличиваться с уменьшением s, ростом п, приближением х0 к х, а также с увеличением выборочной дисперсии наблюдений над переменной X. Все эти свойства интуитивно ясны. Проиллюстрируем использование результата G.57) на первом примере из раздела 7.7, а именно в случае агрегированной функции потребления, построенной на основе временных рядов. Если вы обратитесь к Economic Trends Annual Supplement за 1982 г., то заметите, что нами использованы данные за 1971 — 1980 гг., но мы опустили наблюдения над значениями переменных в первом квартале 1981 г., хотя они были нам доступны.Величина ВВП в этом квартале (как следует из публикации) равнялась 28 188 млн. фунтов. Примем ее за х0 и получим прогноз соответствующих Мои Yo. Если мы подставим в G.58) значения различных переменных, рассчитанные в разделе 7.7, то найдем: Следовательно, из G.57) мы найдем характеристику наших апостериорных оценок для Мо и Yo; эти оценки таковы, что каждая из величин Мо—\7\8\ Ко— 17 181 85,7 И 415 удовлетворяет /-распределению с 38 степенями свободы. Таким образом, получена полная характеристика апостериорных оценок. Соответствующие 95-процентные вероятностные интервалы будут равны A7007; 17 355) для Мо и A6 340; 18 021) для Уо. Первый из них, естественно, уже второго. У нас нет реальной возможности проверить первый из этих двух прогнозов, поскольку нам не известно среднее значение уровня потребления, отвечающее уровню ВВП в 28 188 млн. фунтов. Однако мы располагаем реальным значением, соответствующим потреблению в первом квартале 1981 г., когда ВВП был равен 28 188 млн. фунтам. Это реальное значение равно 17 886 фунтам. Как мы видим, оно лежит в нашем 95-процентном прогнозном (вероятностном) интервале для величины Yo. Этот результат укрепляет наше доверие к полученному соотношению как к средству прогнозирования. 7.9. РЕЗЮМЕ В данной главе рассмотрены основные положения эмпирического анализа экономических соотношений, имеющих форму линейной парной регрессии с нормально распределенными остатками. Эта модель определена в {7.5) и полностью описывается тремя параметрами: А и В — коэффициентами уравнения, S2 — дисперсией остаточного члена. Мы рассмотрели три случая: в одном коэффициенты были неизвестны, но известной была дисперсия, в другом — дисперсия неизвестна, но 238
известны коэффициенты, в последнем — неизвестны и коэффициенты, и дисперсия. Мы сконцентрировали внимание на последнем (наиболее общем) случае и ограничились рассмотрением ситуации, когда априорная информация о значениях интересующих нас параметров отсутствует. Мы показали, что результаты данной главы представляют собой «естественное обобщение» результатов, полученных в гл. 6, где указанные случаи уже появлялись. В табл. 7.3 сведены практически все существенные результаты. Наиболее важные относятся к случаю 4, поскольку этот случай чаще всего встречается на практике. Как показано в таблице, апостериорные оценки каждой из величин А я В задаются в форме /-распределения, а апостериорная оценка параметра S2 — в форме распределения хи-квадрат. Эти ключевые результаты можно использовать непосредственно. Все, что для этого требуется,-— рассчитать значения аи Ь (ко- эффициенты наименьших квадратов), s (модифицированное стандартное отклонение остатков), sa и sb (стандартные ошибки коэффициентов А и В). В этой главе также говорится, как результаты классического анализа этой же задачи можно интерпретировать в терминах байесовского подхода. В частности, мы показали, что байесовские вероятностные интервалы, полученные при отсутствии априорной информации, и классические доверительные интервалы совпадают, а также, что классическая процедура проверки значимости параметра соответствует ограничению для определенного вероятностного утверждения по поводу этого параметра. Приведены два примера подробного расчета регрессии между потреблением и доходом. Один из этих примеров использован в разделе 7.8 для иллюстрации процедуры прогнозирования. Технически содержание данной главы сложнее содержания предыдущих глав, концептуально оно ничем принципиально новым не выделяется. В частности, утверждения относительно неизвестных параметров получены в результате применения общих положений байесовского подхода. 7.10. УПРАЖНЕНИЯ В каждом из приведенных здесь упражнений предполагается использование модели Y=A + BX + Ut U ~ ЛГ(О, S2), параметры которой А, В и/или S2 либо все известны, либо все неизвестны (это указано в каждом конкретном случае). Наблюдения (xly yx)> (jc2, y2), • ••» (*п* Уп) над переменными (Ху У) получены в процессе рандомизированной выборки. 239
7.1. Пусть в результате шести наблюдений над (Ху Y) мы имеем следующие пары чисел: B0, 45) A0, 27) A4, 9) C8, 75) B2,21) A6, 39). а) Если s известно и равно 12, а коэффициенты А и В неизвестны, найдите апостериорные оценки коэффициентов А и В по данным наблюдений. Определите 95-процентные вероятностные интервалы для А и В, а также вероятности Р (А <с <0) иР (В > 0). б) Если а и b известны, а = — 4, Ь = 0, а параметр 5 неизвестен, вычислите апостериорную оценку для S но данным наблюдений. Определите 95-процентный вероятностный интервал для S, а также Р (S >> 12). в) Если все параметры А, В и S неизвестны, найдите их апостериорные оценки по данным наблюдений. Рассчитайте 95-процентные вероятностные ин« тервалы, а также Р (А < 0), Р (В > 0) и Р (S > 12). ^ г) Изобразите диаграмму рассеяния для данных наблюдений и проведите линию наименьших квадратов, обеспечивающую их подгонку. 7.2. Обратитесь к иллюстративному примеру, содержащему девять наблюдений, который был описан в разделе 7.2, а затем использован в разделах 7.3 и 7.4. Не прибегая к арифметическим выкладкам, определите воздействие, которое окажет на апостериорные оценки и соответствующие вероятностные интервалы информация о еще одном множестве из девяти наблюдений, в точности совпадающем с первоначальным множеством наблюдений. 7.3. Предположим, что каждое из п наблюдений лежит в точности на прямой линии. Покажите, что в этом случае s — 0. Что это будет означать в случае 4 для апостериорных оценок А и В7 Проинтерпретируйте свои выводы. 7.4. Объясните на интуитивном уровне, почему sA (и sA) являются возрастающими функциями от величины х. 7.5. Покажите путем возведения в квадрат с использованием определения *, ЧТО п п V (xt— ~хJ ~ 2 х? —пх2. i -= I i ---- 1 Затем, что 2*' п(з*Ы*). <= 1 Аналогично, что п п __ 2] (Уг—У) (*i — *)-= 2 У1 xi — rujx. i = i 4- = i 7.6. Проверьте, что апостериорные 95-процентные вероятностные интервалы для параметров А, В и S в примере с девятью наблюдениями из раздела 7.4 совпадают с приведенными в тексте. 7.7. Проверьте справедливость преобразования G.49). (Указание. Воспользуйтесь сначала выражением для а, чтобы записать у,- — а — bxi в виде (Уг — У) — Ь (xt — jc). Затем возведите последнее выражение в квадрат. Наконец, воспользуйтесь выражением для Ь, чтобы упростить член, содержащий попарные произведения.) 7.8. Для девяти наблюдений из примера, рассмотренного в разделах 7.2— 7.4, с помощью приведенных в тексте результатов расчетов получите 95-процентные прогнозные (вероятностные) интервалы для средней и для фактического значения Y, соответствующих значению X, равному 10. 240
7.9. В «Economic Trends Annual Supplement» найдите таблицу, содержащую годовые данные для ВВП и потребительских расходов в постоянных A975 г.) ценах. (В выпуске за 1982 г. эту таблицу вы увидите на с. 14.) Вы обнаружите данные начиная с 1948 г., т. е. в выпуске за 1982 г. будет 33 годовых наблюдения. По этим наблюдениям найдите апостериорные оценки параметров Л, В и 5. Определите 95-процентный вероятностный интервал для (годовой) предельной склонности к потреблению в Великобритании. Сопоставьте результаты с теми, что были получены в разделе 7.7. Объясните различия и сходство. 7.10. В «Economic Trends Annual Supplement» отыщите таблицу, содержащую квартальные данные о движении общего индекса розничных цен. (В выпуске за 1982 г. эта таблица приведена на с. 115—117.) С ее помощью рассчитайте для каждого квартала, начиная со второго квартала 1963 г., процентное изменение индекса по отношению к предыдущему кварталу. Назовем эту величину У. Теперь найдите таблицу, содержащую квартальные данные о массе денег. (В выпуске за 1982 г. эта таблица помещена на с. 146-147.) С ее помощью рассчитайте для каждого квартала, начиная со второго квартала 1963 г., процентное изменение (для показателя, скорректированного с учетом сезонных колебаний курса) по отношению к предшествующему кварталу. Назовем эту величину Хг. Получите регрессию Y на Xlt причем следует обратить особое внимание на значение s1 — модифицированное стандартное отклонение остатков. Теперь, опираясь на свои представления и знания об экономике, вычислите другую переменную Х2, которая, на ваш взгляд, может обеспечить лучшее объяснение переменной, характеризующей инфляцию, чем темп прироста предложения денег. Получите регрессию Y на Х2, вновь сосредоточив' внимание на значении s2 — модифицированном стандартном отклонении остатков уже для этого уравнения. Наконец, воспользуйтесь результатами раздела 7.6, чтобы оценить относительную пригодность двух конкурирующих способов выбора объясняющей переменной, если вы начали исследования без каких-либо априорных предпочтений. 7.11. Из «Family Expenditure Survey» выпишите интересующий вас компонент потребительских расходов. Изучите для него кривую Энгеля. Обратите особое внимание на адекватность выбора формы функциональной связи. 7.12. Опираясь на подходящие данные из официальных статистических источников, оцените, насколько правдоподобно, что: а) агрегированные инвестиции положительно реагируют на уровень учетной ставки процента; б) эластичность спроса на труд меньше единицы; в) эластичность спроса на деньги по изменению учетной ставки процента больше единицы; г) доля прибыли в национальном доходе падает; д) темп изменения реальной заработной платы отрицательно реагирует на норму безработицы. 7.13. Следующие два уравнения получены на основе данных табл. 2.1, относящихся к США, из [1]; оба они построены по годовым данным за 29 лет: С W — =0,7998 + 0,0567 — , #2 = 0,849; У @,0045) У -— = 0,6777 + 0,2405-^-, Я2 =0,571 У @,0389) Е в скобках приведены стандартные ошибки). В этих уравнениях С — агрегированное потребление, Y—личные доходы потребителей, W— национальное богатство, накопленное к началу года (все данные в постоянных ценах), L — характеристика рабочей силы, Е — характеристика занятости. Сопоставьте эти два уравнения в качестве объяснения нормы потребления С/У. 241
ГЛАВА 8 РАЗВИТИЕ РЕГРЕССИОННОГО АНАЛИЗА 8.1. ВВЕДЕНИЕ В гл. 7 речь шла о простейшем соотношении между экономическими переменными, а именно о линейной связи между двумя переменными в предположении о нормальном распределении остаточного члена. Нет необходимости доказывать, что экономистов часто интересуют более сложные формы связи и, конечно, же взаимодействия между несколькими соотношениями. Поэтому в данной и в следующей главах будет показано, как методы из гл. 7 можно распространить и обобщить на такого рода ситуации. В гл. 8 мы обсудим случай соотношения, состоящего из одного уравнения, в котором связь между переменными является более общей, а гл. 9 посвятим эмпирическому исследованию нескольких взаимосвязанных уравнений. Как мы уже отметили, в гл. 7 речь шла исключительно о линейной парной регрессии с нормально распределенными остатками. Если ограничиться рассмотрением модели, состоящей из единственного уравнения, то можно представить себе три направления обобщений: нелинейное соотношение; регрессию со многими переменными; регрессию, остатки которой не подчиняются нормальному распределению. Третье направление в этой книге не рассматривается. Но оно не попадает обычно и в поле зрения экономиста, занятого эмпирическими исследованиями, ибо без преувеличения можно сказать, что не менее чем в 99 % прикладных эконометрических работ (будь то работы классические или байесовские) распределение остаточных членов предполагается нормальным. Поэтому наш отказ от рассмотрения альтернативных вариантов распределения остатков не помешает читателю знакомиться с соответствующей литературой. Второе из трех перечисленных направлений обобщения — соотношения со многими переменными — обсуждается в разделе 8.2,где для простоты мы сохраним гипотезу о линейности. Обобщению на случай нелинейных соотношений посвящен раздел 8.3; в нем анализируются различные используемые для этого в практике эконометрических исследований приемы. В большинстве своем они различаются тем, каким образом преодолевается разрыв между экономическими теориями и «реальностью», которая предстает перед нами в данных экономической статистики. Благодаря некоторым усовершенствованиям удается най- 242
ти подходящие эмпирические представления теоретических положений и предложить модификации, позволяющие воспользоваться ими при прогнозировании даже тогда, когда исходные теоретические предпосылки весьма далеки от практики. К подобным усовершенствованиям относятся использование фиктивных (dummy) и аппроксимирующих (proxy) переменных, разного рода лаговых переменных, моделирование процессов подгонки и формирования ожиданий. В разделе 8.4 рассматривается очень важное обстоятельство, касающееся базовых предположений, принятых в гл. 7 и в предыдущих разделах гл. 8. В гл. 7 предполагалось, что наблюдения генерируются некоторым «рандомизированным» процессом — аналогично тому, как формировались рандомизированные выборки в гл. 5 и 6. Поскольку это предположение служит необходимым условием надежности наших результатов, то следует уточнить смысл, вкладываемый в понятие случайного (рандомизированного) выбора в данном контексте, и тем самым обеспечить возможность проверки того, удовлетворяют ли имеющиеся наблюдения этому требованию. Если же проверка даст отрицательный результат, придется прибегнуть к модификации самого анализа. В разделе 8.4 речь идет о двух взаимосвязанных проблемах: как убедиться в том, что интересующие нас предположения удовлетворяются; какой альтернативной процедурой воспользоваться, если они не удовлетворяются. Как будет показано (и этого вполне можно было ожидать), если предположение о «рандомизированном выборе» из гл. 7 не удовлетворяется, но имеет место некоторый иной механизм, генерирующий наблюдения, то анализ можно модифицировать и приспособить к конкретной обстановке в той мере, в какой мы располагаем информацией об этом ином механизме и уверены в том, что именно им генерируются наблюдения. При этом вновь можно воспользоваться байесовскими процедурами. В разделе 8.4 рассмотрены модификации, соответствующие альтернативным генерирующим механизмам. На практике, конечно, задача не бывает столь явно структуризо- ванной, как это кажется после ее теоретического анализа. Эмпирическое исследование тяготеет по своему характеру к итеративному процессу: от теоретических представлений мы переходим к анализу данных, а результаты этого анализа используем для уточнения или модификации теории. Пока теоретик занят перечислением всех возможных спецификаций, которые можно представить себе до изучения данных, практик предпочитает воспользоваться частью имеющихся данных, чтобы определить множество всех заслуживающих дальнейшего рассмотрения спецификаций. Строго говоря, в подобной процедуре нет ничего плохого, но она не должна вводить нас в заблуждение, поскольку лишний раз свидетельствует о том, что априорные оценки частично определяются данными, а это, в свою очередь, означает, что роль данных гораздо важнее, чем на это указывает их «точный» вес в апостериорных оценках. 243
Эконометристы-практики (и, конечно же, практики-статистики независимо от сферы их интересов) пользуются подобной итеративной процедурой, ибо она проще и требует меньше времени в сравнении с перечислением всевозможных спецификаций еще до непосредственного соприкосновения с данными. Существуют и аргументы методологического характера, побуждающие пытаться найти простое объяснение, а не обращаться сразу к сложному. Все сказанное позволяет эконометрии ческую практику воспринимать скорее как искусство, нежели как сферу приложения науки, ибо умение разобраться в существе дела и опыт оказываются важнее механического применения алгебраических формул. В разделе 8.5 эти аспекты обсуждаются более детально и иллюстрируются примерами из «практической эконометрии». Главу завершает резюме — раздел 8.6, за которым следуют упражнения — раздел 8.7. 8.2. ЛИНЕЙНАЯ МОДЕЛЬ С МНОГИМИ ПЕРЕМЕННЫМИ И НОРМАЛЬНО РАСПРЕДЕЛЕННЫМИ ОСТАТКАМИ Линейная модель с многими переменными и нормально распределенными остатками — естественное обобщение линейной модели из гл. 7, где участвовали лишь две переменные, а остатки, как и до этого, предполагались нормально распределенными. Если в модели с двумя переменными была только одна объясняющая переменная, то в модели с многими переменными объясняющих переменных несколько. В общем случае предположим, что имеется k — 1 объясняющих переменных, которые мы будем обозначать Хъ X 2» •••» X u-i- В данном разделе будем предполагать, как и прежде, что соотношение линейно, что объясняемая переменная обозначена через Y, а остаточный член — через U. Будем считать также переменную U нормально распределенной. Таким образом, рассматриваемое нами соотношение можно записать в виде: Y = Во + ВЛ + В2Х2 + • • • + В*-Л-1 + U9 U-N@, S2). (8.1) (Сначала обсудим обозначения. Обозначения в соотношении (8.1) не являются «естественным обобщением» обозначений, принятых в G.5). В частности, (8.1) не сводится к G.5) при k = 2, чему соответствует случай двух переменных, поскольку (8.1) дает нам выражение Y = = Во + В\Х 1 + U, в то время как G.5) имеет вид Y = А + ВХ + + U. Нетрудно понять, зачем нам потребовалось менять обозначения. Если бы мы воспользовались формулой Y = Во + В1Х1 + U уже в гл. 7, то не смогли бы вразумительно объяснить употребление индексов. Кроме того, не существует удобного способа непосредственного обобщения формы Y = А + ВХ + U на случай k — 1 объясняющих переменных. Теперь остается сказать, почему мы предположили в общем случае существование k — 1, а не k независимых переменных. Мы посту- 244
пили так потому, что с учетом свободного члена в соотношении будет ровно k коэффициентов.) Соотношения (8.1) можно записать более компактно: k— 1 Y=^BjXj + U9 U~N@, S2), (8.2) /=о где Хо — «переменная», принимающая всегда одно и то же значение 1. Прежде чем приступить к статистическому анализу (8.2), дадим краткое экономическое истолкование этого соотношения. Поскольку связь (8.2) линейна, то предельный (маргинальный) эффект, соответствующий реакции объясняемой переменной на изменение любой из объясняющих переменных, есть величина постоянная. Формально это записывается так: dY/dXj = Bj для / = 1, ..., k — 1, (8.3) т. е. маргинальное воздействие на переменную Y изменения переменной Xj равно Bj независимо от того, какие значения принимают все рассматриваемые переменные. В этой линейной модели с многими переменными и нормально распределенными остатками имеются k + 1 параметров: k коэффициентов Во» Bi, ..., 5ь_1 и дисперсия остатков S2. В зависимости от обстоятельств в конкретной задаче некоторые из них (или все) могут быть либо известны, либо частично неизвестны, либо полностью неизвестны. Мы рассмотрим четыре основных случая:все параметры известны; коэффициенты неизвестны, а дисперсия известна; коэффициенты известны, а дисперсия неизвестна; и коэффициенты, и дисперсия неизвестны. Эти четыре случая соответствуют четырем случаям, рассмотренным в гл.7. В каждом из них степень нашей информированности о значениях параметров может быть различной. Чтобы избежать повторений, ограничимся в данном разделе рассмотрением случая 4, когда все параметры неизвестны. Более того, мы будем в дальнейшем вести речь исключительно о ситуации, в которой априорная информация о значениях параметров отсутствует.Все остальные случаи можно исследовать точно таким же способом. (Вы можете провести анализ самостоятельно.) Как и прежде, будем предполагать, что информация поступает в виде рандомизированной выборки наблюдений над соответствующими друг другу переменными X ь ^2» • ••» ^fe-i» У- (Напомним, что «фиктивная» переменная Хо всегда принимает значение 1.) Будем обозначать через хн i-e наблюдение объясняющей переменной (т. е. переменной Х^) а через yt — i-e наблюдение объясняемой переменной (т. е. Y). Имеющиеся в нашем распоряжении наблюдения теперь можно расположить следующим образом: 245
z X\n 1-Я x22 x2n 2-я ... xk__x ... xk_{ ... (k— ,2 ,n 1)-Я У1 У2 Уп объясняемая '"^переменная первое наблюдение второе наблюдение n-е наблюдение объясняющие переменные Мы будем говорить обо всей этой таблице как о множестве наблюдений. Располагая множеством наблюдений и приняв гипотезу об отсутствии априорной информации о параметрах, мы можем получить апостериорные оценки коэффициентов (Во, Вь..., вк_г) и дисперсии (S2) с помощью обычной процедуры. Поскольку вывод сопряжен с техническими трудностями, мы приводим его в приложении 4. Как вы убедитесь, изучив это приложение, апостериорная оценка принимает форму совместного вероятностного распределения, которому удовлетворяют все k + 1 параметров 50, Вь..., Вк_г и S2. Как и в случае двух переменных, нас будут интересовать главным образом маргинальные распределения этого совместного распределения, соответствующие каждому из параметров в отдельности. Технические детали, связанные с получением маргинальных распределений, рассмотрены в том же приложении 4. В конечном счете имеем базовый результат. Если априорная информация о параметрах Во, В19... ,Вк_г и S2 отсутствует, то на основе наблюдений (которые были определены выше) могут быть найдены апостериорные оценки параметров 50, Въ ... уВк_х и S2; эти оценки (8.4) таковы, что (Bj—bj)/ sB. удовлетворяет /-распределению с п~k степенями свободы (/ = 0,1, ... ,k— I), a (n~kfs2/S2 удовлетворяет распределению хи-квадрат также с п—k степенями свободы; выражения b;, sbAj = 0,1, ... ,fe — 1) и s2 приведены в приложении 4. Вы можете рассматривать, этот результат как «естественное обобщение» G.25) и G.26) — соответствующих результатов для случая двух переменных. Итак, в случае многих переменных, как и в случае двух переменных, апостериорные оценки каждого коэффициента принимают форму ^-распределения. Как установлено в (8.4), апостериорная оценка коэффициента при Xj такова, что величина (Bj — bj)lsB. удовлетворяет /-распределению с п — k степенями свободы. Это означает, что апостериорная оценка коэффициента Bj центрирована относительно bj (мы поясним смысл этого утверждения), причем длины различных апостериорных вероятностных интервалов зависят от sBj. Точнее, из 246
(8.4) вытекает, что апостериорный а-процентнмй вероятностный интервал для Bj равен n-k, 100~а Sbj' b*+ K-k, 100+а Sbj где th%$ определяется, как и прежде, из условия ), (8-5) 155- а 7\ удовлетворяет /-распределению с k степенями свободы. Из (8.5) видно, что длина рассматриваемого вероятностного интервала прямо пропорциональна величине sBj\ кроме того, поскольку дисперсия /-распределения уменьшается с увеличением числа степеней свободы, то длина вероятностного интервала уменьшается с увеличением п и возрастает с увеличением k. Приведите аргументы, необходимые для обоснования последнего результата. Выясним теперь, каковы могут быть наши ожидания относительна bj. Вспомним, что в случае двух переменных апостериорные оценки коэффициентов были центрированы относительно соответствующих коэффициентов наименьших квадратов — коэффициентов, определяющих линию подгонки данных наблюдений, полученную методом наименьших квадратов. Напомним также, что линия наименьших квадратов обеспечивает наилучшую подгонку наблюдений в соответствии с критерием минимизации суммы квадратов отклонений (измеренных в направлении оси Y) точек, соответствующих наблюдениям, от этой линии. Обобщим это понятие на случай многих переменных. Поскольку мы имеем дело более чем с двумя переменными, мы не можем говорить о линии подгонки, а должны вести речь о плоскости подгонки или же об обеспечивающем подгонку соотношении. Начнем с рассмотрения произвольного соотношения, обеспечивающего подгонку данных наблюдений: которое можно записать в более компактной форме jXj. (8.6) В произвольном соотношении, обеспечивающем подгонку, коэффициенты bj выбраны произвольно. Запишем теперь отклонение (измеренное вдоль оси Y) некоторого наблюдения от плоскости, определяемой этим соотношением. Для i-то наблюдения такое отклонение, обозначаемое еи определяется так: k—\ ei=yi~^bjX3i. (8.7) /«о 247
Сформируем сумму квадратов отклонений (обозначим ее D) для всех п наблюдений: ?- <8-8) Пусть bj выбраны таким образом, чтобы минимизировать D. Предполагая, что это возможно, обозначим значения коэффициентов bj, при которых минимальное значение D достигается через bj. Тогда k величин ЬОу Ьъ ..., Ьк_л будут решениями системы k уравнений дР _ дР дР _0 Полученное в итоге соотношение k~ 1 / = 0 называют соотношением (или плоскостью) наименьших квадратов. Это плоскость, которая наилучшим образом приближает данные наблюдений по критерию минимума суммы квадратов отклонений наблюдений от данной плоскости. Как и в случае двух переменных, апостериорная оценка коэффициента Bj центрирована относительно bj — соответствующего коэффициента в уравнении плоскости наименьших квадратов (или проще, соответствующего коэффициента наименьших квадратов). Может быть, это окажется для вас неожиданным, но вновь, как и в случае двух переменных, полученный результат выводится путем непосредственного применения теоремы Байеса, а не вы- текает из каких-то особых свойств плоскости наименьших квадратов. Первое свойство bji они являются средними апостериорных оценок коэффициентов Bj\ второе свойство: они являются коэффициентами наименьших квадратов. Как мы уже отмечали, дисперсия апостериорной оценки Bj и, следовательно, длины соответствующих апостериорных вероятностных интервалов зависят от Sb>. Как и в случае двух переменных, мы будем говорить об эгой величине как о стандартной ошибке коэффициента Bj — этьт термин весьма распространен в классической теории статистического вывода. Формула для стандартных ошибок коэффициентов Bj приведена в приложении 4. Она не поддается столь же легкой интерпретации, как в случае двух переменных. Тем не менее для этих стандартных ошибок могут быть установлены такие же свойства, как и в случае двух переменных, конечно, с обычной для таких свойств оговоркой, что они справедливы при прочих равных условиях. Итак, Sbj — стандартная ошибка коэффициента Bj — уменьшается с уменьшением (при прочих равных условиях ) стандартного отклонения остат- 248
ков (измеренного вдоль оси К), с ростом числа наблюдений, а также с увеличением стандартного отклонения наблюдений X;. Конечно, в случае многих объясняющих переменных результаты наблюдений над другими объясняющими переменными, отличными от Xjy также будут влиять на значение Sb.. В приложении 4 формула, отражающая связь между значением Sb. и наблюдениями, весьма сложна, а потому трудно поддается точному исследованию. Тем не менее из нее следует весьма важное свойство: чем теснее связь между (наблюдаемыми) значениями Xj и (наблюдаемыми) значениями остальных объясняющих переменных, тем при прочих равных условиях больше значение s#.. Проиллюстрируем это свойство на примере, когда k = 3. В этом случае имеются лишь две объясняющих переменных X i и Х2> а также допол- нительная «фиктивная» переменная Хо\ можно показать, что sBl и Ss2 определяются как (8Л0) (см. 13, с. 3131). Здесь s — модифицированное стандартное отклонение остатков (мы вернемся к этой характеристике и рассмотрим ее более детально), sx. — стандартное отклонение наблюдений над переменной Xj, a r определяется следующим образом п _ Д] (хи—Xi)(x2i — х2) 1/2 Это выражение известно как коэффициент корреляции между Хг и Х2 (ср. C.43)). Он служит мерой линейной связи между наблюдениями переменной Хг и наблюдениями переменной Х2. Мы не будем детально исследовать свойства (8.11), а ограничимся лишь замечанием, что знак г позволяет определить направление корреляционной связи, в то время как абсолютная величина г указывает силу (тесноту) этой связи. Конкретнее, если \г\ = 1, то между переменными существует совершенно точная линейная связь; если г = 0, то линейной связи между ними нет; если же О <С |г| <; 1, то имеет место промежуточный случай — чем выше |г|, тем эта связь теснее и ближе к линейной. Из (8.10) вытекает, что величина Sb. уменьшается при прочих рав- ных условиях, когда меньше становится значение s, когда возрастает число наблюдений /г, а также, как мы уже отмечали, с увеличением значения Sx.. В дополнение к этим свойствам: чем выше г2, тем больше значение sB . Если г2 = 0, то (8.10) сводится к выражению, которым мы 249
пользовались в случае двух переменных (в соотношении G.19) достаточно заменить s на s); когда г2 уменьшается, то уменьшается и SBr Чтобы этот результат стал интуитивно более ясным, представим себе две ситуации: в ситуации 1 наблюдения над нашими двумя объясняющими переменными Х± и Х2 фактически не связаны друг с другом; в ситуации 2 наблюдения сильно связаны, так что, например, большим значениям Хх соответствуют большие значения Х2, а малым Х1— малые значения Х2. Если обе эти ситуации во всем остальном идентичны, то в какой из них вы будете более уверены в своих апостериорных оценках коэффициентов Вг и В2? Конечно же, в ситуации 1; в ситуации 2 трудно вычленить индивидуальное воздействие на Y каждой из переменных Xj и Х2, ибо обе они изменяются одновременно и в одном Направлении. Крайний случай имеет место при г2 = 1, т. е. при наличии совершенно точной линейной связи между Хх и Х2; если представить себе, что наблюдения над Хг и Х2 изображены в виде диаграммы рассеяния, то все они окажутся точно на прямой линии. Таким образом, в этом случае регрессия Х1 наХ2, как и регрессия Х2 на Хъ обеспечивает абсолютно точную подгонку с /?2, равным 1 (см. G. 46)). То, что при г2 = 1 значение R2 для тех же значений переменных оказалось тоже равным 1, не является случайным совпадением, поскольку выражения для г2 и R2 алгебраически идентичны. (Доказательство см. в 13, с. 270 — 2711).Поэтому для простоты мы можем воспринимать г2, где г определяется с помощью (8.11), как долю дисперсии переменной Х2, объясняемую регрессией Х2 на Хг, или эквивалентно, как долю дисперсии Хь объясняемую регрессией Хх на Х2. В рассматриваемом крайнем случае г2 = 1 оба зн