Текст
                    Полное

руководство

1

1 ШАГО?:

Книги серии
«Шаг за шагом» -
лучший способ
достичь
немедленных
результатов

Статистика

Исчерпывающее введение
в описательную статистику
и статистику вывода

Незаурядные решения

нудных вероятностных задач

Краткое и доступное
руководство
по проверке гипотез

Роберт А. Доннелли-мл.

УДК 311 ББК 60.6 Д67 Настоящее издание представляет собой авторизованный перевод издания «The complete idiot's guide to Statistics» Опубликовано совместно c Alpha Books членом Penguin Group (USA) INC. Подписано в печать 22.10.2006. Формат 70x90/16. Гарнитура BalticaC. Бумага газетная. Усл. печ. л. 28,1. С.: CIG. 2000 экз. Заказ № 4145. С.: ШзШ. 2000 экз. Заказ № 4144. Общероссийский классификатор продукции ОК-005-93, том 2; 953000 — книги, брошюры Санитарно-эпидемиологическое заключение № 77.99.02.953.Д.003857.05.06 от 05.05.2006 г. Все права защищены. Ни одна часть данной публикации не может быть воспроизведена ни в какой форме, включая электронное и фотокопирование без предварительного письменного разрешения правообладателя. Доннелли-мл., Р. Д67 Статистика/ Роберт А. Доннелли-мл.; пер. с англ. Н. А. Ворониной. — М.: Астрель: ACT, 2007. - XIV, 367,[3] с.: ил. ISBN 5-17-040812-9 (ООО «Издательство ACT»)(CIG) ISBN 5-271-15808-Х (ООО «Издательство Астрель») ISBN 5-17-040811-0 (ООО «Издательство АСТ»)(ШзШ) ISBN 5-271-15809-8 (ООО «Издательство Астрель») ISBN 1-59257-199-9 (англ.) Книга знакомит с основными законами статистики, их применением в различных ситуациях выбора. Вы научитесь формулировать гипотезы, выбирать критерии и при- нимать решения, опираясь на законы статистики. Эта книга может оказаться подспо- рьем в различных ситуациях принятия решения в вашей жизни. УДК 311 ББК 60.6 ISBN 5-17-040812-9 (ООО «Издательство ACT»)(CIG) ISBN 5-271-15808-Х (ООО «Издательство Астрель») ISBN 5-17-040811-0 (ООО «Издательство АСТ»)(ШзШ)' ISBN 5-271-15809-8 (ООО «Издательство Астрель») ISBN 1-59257-199-9 (англ.) Copyright © 2004 by Robert A. Donnelly Jr., Ph. D © ООО «Издательство Астрель», 2006
Часть 1: Постигаем основы....................................1 1 Начало работы 3 Где используются статистические данные?............4 Кто придумал статистику? ..........................5 Пионеры статистики ...................................5 Другие известные статисты........................6 Статистика сегодня ................................6 Описательная статистика — низшая лига............7 Статистический вывод — высшая лига...............9 Этика и статистика — действительность коварна и опасна ......................................... 10 Ваша очередь..................................... 13 Повторение — мать учения....................... 13 2 ДАННЫЕ, ДАННЫЕ ПОВСЮДУ, КАК ЖЕ ВЫБРАТЬ НУЖНЫЕ? 14 Важность данных ..................................15 Источники данных — откуда вообще берутся данные?............................................16 Непосредственное наблюдение — я буду следить завами ................................................18 Эксперименты — кто используется в качестве подопытных кроликов? .........................18 Опросы — это ваш окончательный ответ?...........19 Типы данных ......................................19 Типы шкал измерения — вопрос немаловажный........... .20 Номинальный уровень измерения...................20 Порядковый уровень измерения....................20 Интервальный порядок измерения .................21 Относительный порядок измерения.................21 Как компьютеры приходят нам на помощь ............23 Роль компьютеров в статистике...................23 Установка средств анализа данных................24 Ваша очередь......................................26 Повторение — мать учения........................27 3 ПРЕДСТАВЛЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ 28 Распределение частот .............................29 Как вычислять распределение частот ...................30
Распределение относительных (выборочных) частот.32 Распределение интегральных частот..............32 Графическое представление распределения частот с помощью гистограммы..........................33 Excel сделает за вас грязную работу ...........34 Мощный инструмент статистики — древовидное пред- ставление ....................................37 Представление статистических данных в виде графиков.........................................38 Какая у вас любимая секторная диаграмма?.......38 Линейчатые диаграммы...........................40 Графические диаграммы..........................42 Мастер диаграмм Excel..........................43 Ваша очередь.....................................46 Повторение — мать учения.......................46 4 ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНЫХ СТАТИСТИК: ЦЕНТРАЛЬНАЯ ТЕНДЕНЦИЯ (СРЕДНЕЕ, МЕДИАНА И МОДА) 47 Меры центральной тенденции .................... 48 Среднее .......................................48 Взвешенное среднее ............................50 Среднее значение распределения частот группы данных.. .51 Медиана........................................54 Мода............................................55 . Чему отдать предпочтение? .................. 55 Использование Excel для вычисления центральной тенденции........................................56 Ваша очередь......................................58 Повторение — мать учения.......................59 5 ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ: МЕРЫ РАССЕЯНИЯ 60 Размах............................................61 Дисперсия........................................61 Использование метода «сырого счета» (пример с грилем) *. .62 Дисперсия генеральной совокупности ............63 Стандартное отклонение ...........................65 Вычисление стандартного отклонения для сгруппированных данных...........................66 Эмпирическое правило: определение стандартного отклонения........................................67 Теорема Чебышева.................................69
Меры относительного положения ................... 71 Квартили ..............................................71 Межквартильный размах ......................... 72 Использование Excel для вычисления мер рассеяния . ..................................... 72 Ваша очередь . ...................................73 Повторение — мать учения........................74 ЧАСТЬ 2 ИЗУЧАЕМ ВЕРОЯТНОСТЬ............................ ...77 6 ВВЕДЕНИЕ В ВЕРОЯТНОСТЬ 79 Что такое вероятность?............................80 Классическая вероятность........................80 Эмпирическая вероятность ... ..........................81 Субъективная вероятность .......................83 Основные свойства вероятности ....................83 Пересечение событий...............................84 Объединение событий: брак, заключенный на небесах .......................................86 Ваша очередь..................................... 87 Повторение — мать учения........................88 7 И СНОВА О ВЕРОЯТНОСТИ 89 Условная вероятность .............................90 Независимые и зависимые события ..................91 Правило умножения вероятностей ...................92 Взаимоисключающие события ........................94 Правило сложения вероятностей.....................94 Суммируем полученные сведения.....................96 Теорема Байеса.................................* . . .96 Ваша очередь......................................98 Повторение — мать учения ..............................99 8 ПРИНЦИПЫ СЧЕТА И РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ 100 Принципы счета...................................101 Фундаментальный принцип счета..................101 Перестановки...................................102 Комбинации.....................................104 Использование Excel для вычисления перестановок * и комбинаций................................106 Распределения вероятностей ......................107 Случайные переменные ..........................108
Дискретные распределения вероятностей .........109 Правила дискретных распределений вероятностей .111 Среднее значение дискретного распределения вероятностей .................................111 Дисперсия и стандартное отклонение дискретного распределения вероятности.................... 112 Ваша очередь.....................................114 Повторение — мать учения.......................114 9 БИНОМИНАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ 116 Характеристики биноминального эксперимента.......117 Биноминальное распределение вероятностей.........118 Биноминальные таблицы вероятностей ..............121 Использование Excel для вычисления биноминальных вероятностей....................................122 Среднее значение и стандартное отклонение биноминального распределения.................. .123 Ваша очередь.....................................124 Повторение — мать учения.......................125 10 РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ ПУАССОНА 126 Характеристики процесса Пуассона.................127 Распределение вероятностей Пуассона .............128 Таблицы вероятностей Пуассона....................131 Использование Excel для вычисления вероятностей Пуассона.......................................134 Использование распределения Пуассона как приближение к биноминальному распределению...................................135 Ваша очередь.....................................137 Повторение — мать учения.......................138 11 НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ 139 Характеристики нормального распределения вероятностей.....................................140 Вычисление вероятностей для нормального распределения....................................142 Вычисление z-распределения.....................143 Использование стандартной нормальной таблицы...144 И снова эмпирическое правило...................149 Вычисление нормальных вероятностей с помощью Excel . .150 Использование нормального распределения как приближение биноминального распределения........151
Ваша очередь.......................................155 Повторение — мать учения ............................. 155 ЧАСТЬ 3 СТАТИСТИЧЕСКИЙ ВЫВОД................................157 12 ВЫБОРКА 159 Почему выборка? ...................................160 Случайная выборка .................................161 Простая случайная выборка ............................ 162 Систематическая выборка..........................164 Групповая выборка................................165 Слоенная выборка ................................166 Ошибки выборки ....................................167 Примеры использования ошибочных выборочных методик .......................................... 168 Ваша очередь.......................................169 Повторение — мать учения ............................. 170 13 ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 171 Что такое выборочное распределение?................172 Выборочное распределение среднего .................172 Центральная предельная теорема.....................176 Стандартная ошибка среднего .......................178 Почему работает центральная предельная теорема?........................ *................180 Как заставить центральную предельную теорему работать .................................182 Использование центральной предельной теоремы при неизвестном среднем совокупности ............183 Выборочное распределение доли..................... .185 Вычисление выборочной доли.......................185 Вычисление стандартной ошибки доли...............186 Ваша очередь.......................................188 Повторение — мать учения .............................188 14 ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 190 Доверительные интервалы для среднего при больших выборках......................................191 Оценки ..........................................191 Доверительные уровни.............................192 Будьте внимательны при анализе доверительного интервала! .........................................193
Что происходит при изменении доверительных уровней . .195 Что происходит при изменении размера выборки ...196 Определение размера выборки для среднего.........196 Вычисление доверительного интервала при неизвестном значении s.........................................197 Использование функции доверит программы Excel.....198 Доверительные интервалы для среднего при малых выборках....................................... .199 Когда значение s известно ... ..................199 Когда значение s неизвестно ....................200 Доверительные интервалы для долей при больших выборках...........................................203 Вычисление доверительного интервала для доли ...203 Определение размера выборки для доли............205 Ваша очередь......................................205 Повторение — мать учения........................206 15 ВВЕДЕНИЕ В ПРОВЕРКУ ГИПОТЕЗ 208 Проверка гипотез — основы.........................209 Основная и альтернативная гипотезы..............210 Формулировка основной и альтернативной гипотез...211 Двусторонняя проверка гипотезы..................211 Односторонняя проверка гипотезы.................213 Ошибки первого и второго рода.....................214 Пример двусторонней проверки гипотезы.............215 Использование шкалы исходной переменной.........216 Использование стандартизованной нормальной шкалы............................................217 Пример односторонней проверки гипотезы ...........218 Ваша очередь ................................... 221 Повторение — мать учения .............................222 16 ПРОВЕРКА ГИПОТЕЗЫ ПО ОДНОЙ ВЫБОРКЕ 223 Проверка гипотезы для среднего при больших выборках...........................................224 Когда сигма известна............................224 Когда сигма неизвестна..........................226 Роль альфы в проверке гипотезы ...................227 Введение р-значения . . . ........................229 Уровень p-значимости для односторонней проверки гипотезы.........................................229 Уровень p-значимости для двусторонней проверки гипотезы ...........................................230
Проверка гипотезы для среднего при малых выборках.........................................232 Когда сигма известна...........................232 Когда сигма неизвестна.........................233 Использование функции СТЬЮДРАСГЮБР программы Excel..........................................237 Проверка гипотезы для доли при больших выборках.........................................238 Односторонняя проверка гипотезы для доли.......238 Двусторонняя проверка гипотезы для доли .......240 Ваша очередь....................................242 Повторение — мать учения.......................242 17 ПРОВЕРКА ГИПОТЕЗЫ ПО ДВУМ ВЫБОРКАМ 243 Концепция сравнения двух совокупностей..........244 Выборочное распределение для разности средних . . . .244 Проверка разности средних для выборок большого размера........................................ 245 Проверка разности, отличной от нуля.............249 Проверка разности средних при малом размере выборки и неизвестной сигме......................250 Равные стандартные отклонения совокупностей....250 Неравные стандартные отклонения совокупностей ......253 Программа Excel выполнит за вас черновую работу . . .254 Проверка разности средних при зависимых выборках........................................ 256 Проверка разности долей при независимых выборках...................................... 259 Ваша очередь................................... 262 Повторение — мать учения.......................263 ЧАСТЬ 4 УГЛУБЛЕННОЕ ИЗУЧЕНИЕ СТАТИСТИКИ ВЫВОДА .... .265 18 РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ 267 Обзор шкал измерения данных.....................268 Испытание на адекватность хи-квадрат ...........269 Формулировка основной и альтернативной гипотез..269 Наблюдаемые и ожидаемые частоты ...............270 Вычисление статистики хи-квадрат...............271 Определение критического значения хи-квадрат...271 Использование функции ХИ2ОБР программы Excel...272 Характеристики распределения хи-квадрат ........273
Испытание на адекватность с биноминальным распределением ....................................274 Проверка хи-квадрат на независимость...............276 Ваша очередь...................................... 379 Повторение — мать учения.........................380 19 Дисперсионный анализ 282 Однофакторный дисперсионный анализ ................283 Полностью рандомизированный дисперсионный анализ ......................................... 284 Разбиение суммы квадратов ............................285 Определение вычисленного F-критерия..............287 Определение критического значения F-критерия.....288 Использование функции РРАСПОБР программы Excel ..290 Использование Excel для выполнения однофакторного дисперсионного анализа.............................291 Парные сравнения...................................292 Ваша очередь.......................................294 Повторение — мать учения.........................295 20 КОРРЕЛЯЦИЯ И ЛИНЕЙНАЯ РЕГРЕССИЯ 296 Независимые и зависимые переменные.................297 Корреляция ........................................298 Коэффициент корреляции...........................299 Проверка значимости коэффициента корреляции.......301 Использование Excel для вычисления коэффициентов корреляции ......................................302 Линейная регрессия ....................................303 Метод наименьших квадратов ......................304 Доверительный интервал кривой эффекта ..............307 Проверка наклона кривой эффекта..................309 Коэффициент смешанной корреляции ...................310 Использование Excel для определения линейной регрессии ...........................................311 Пример линейной регрессии с отрицательной корреляцией .....................................312 Допущения для линейной регрессии.................316 Линейная и множественная регрессии ..............316 Ваша очередь.......................................317 Повторение — мать учения .............................317
ПРИЛОЖЕНИЯ 318 ПРИЛОЖЕНИЕ А: ОТВЕТЫ НА ВОПРОСЫ РАЗДЕЛА «ВАША ОЧЕРЕДЬ» 318 Глава 1 ..........................................318 Глава 2...........................................319 Глава 3.....................................•.....319 Глава 4...........................................321 Глава 5 ..........................................322 Глава 6...........................................325 Глава 7...........................................326 Глава 8...........................................327 Глава 9...........................................328 Глава 10..........................................329 Глава И ..........................................331 Глава 12 .........................................332 Глава 13..........................................332 Глава 14..........................................333 Глава 15..........................................335 Глава 16..........................................336 Глава 17...................................... 337 Глава 18..........................................339 Глава 19..........................................341 Глава 20 .........................................343 ПРИЛОЖЕНИЕ В: СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ 345 Таблица 1 ........................................345 Биноминальное распределение вероятностей ............345 Таблица 2 ........................................350 Распределение вероятностей по Пуассону..........350 Таблица 3 ........................................352 Нормальное распределение вероятностей..........’. .352 Таблица 4 ........................................354 t-распределение Стьюдента ...........................354 Таблица 5 ....................................... 355 Распределение хи-квадрат .............................355 Таблица 6 ........................................356 F-распределение.................................356 ПРИЛОЖЕНИЕ С: ГЛОССАРИЙ 360
Предисловие Статистика, статистика повсюду, но мы ровным счетом ничего о ней не зна- ем! На самом деле понимание статистики — это крайне необходимый навык, которым мы все должны овладеть в это непростое время. Каждый день нас буквально заваливают информацией о политике, спорте, бизнесе, фондовом рынке, здоровье, финансовом секторе и по многим другим вопросам. Боль- шинство из нас не обращают никакого внимания на массу получаемой стати- стики, но страшнее то, что мы не понимаем, что нам делать со всеми этими цифрами, коэффициентами и процентами, о которых слышим ежедневно. Чтобы узнать, что же скрывается за всеми этими числами, мы должны выяс- нить, о чем в действительности говорят нам полученные данные. Нам необ- ходимо определить, не пристрастна ли эта информация или же цифры явля- ются отражением реальной ситуации. Это и есть одна из причин, по которой вам совершенно необходимо прочесть эту книгу. Статистику как направление трудно назвать популярнейшим школьным предметом. На самом деле многие идут на все, лишь бы отказаться изучать этот предмет. Причина заключается в том, что статистику часто восприни- мают как математический курс, нечто очень количественное, и это отпуги- вает многих учащихся. Другие люди, одолевшие математику, не обладают необходимым терпением, чтобы узнать, о чем же говорят нам цифры. Они сильно сомневаются, что статистические данные могуч1 корректно исполь- зоваться для выяснения реального положения дел. Независимо от того, идет ли речь о важных демографических тенденциях, среднем уровне зара- ботной платы или безработицы, сходствах или различиях цен на фондовом рынке, статистика на практике является крайне необходимой входной ин- формацией для принятия жизненно важных решений. Понимание того, как получать статистические данные и истолковывать их с целью принятия конкретного решения, может определить, будет ли это решение правиль- ным или нет. К примеру, предположим, что вы хотите продать дом. Для этого вам необ- ходимо определить продажную цену. Средняя продажная цена на дома в ва- шем районе составляет 250* тысяч долларов, так что вы вполне можете назна- чить цену 265 тысяч долларов. Вероятно, 250 тысяч долларов — это средняя цена из диапазона от 200 до 270 тысяч долларов. Тем не менее среднее значе- ние 250 тысяч может быть получено из следующих цен на дома: 175, 150, 145, 100 и 780 тысяч долларов. Попадание одной высокой цены в пятерку пред- ставленных чисел приводит к резкому росту среднего значения, и в этом слу- * При подготовке перевода книги был оставлен без изменения формат оформления десятич- ных дробей с использованием точки в качестве разделителя дробной и целой частей. Однако следует учитывать, что при вводе данных в формулы вычисления, в частности аргу- менты статистических функций, в качестве разделителя целой и дробных частей используется запятая (,), как того требует русскоязычная версия спецификации формата десятичных дробей для этих функций. — Примеч. peg.
чае получается, что вы назначили завышенную цену. Поэтому необходимо понять, что же скрывается под выражением «среднее значение». Другая причина, по которой нам всем необходимо изучать статистику, — это то, что мы живем в обществе, движимом таким понятием, как качество. Вся сегодняшняя жизнь завязана на «улучшении качества», «качественном рабочем месте», «процессах улучшения качества». Многие компании стара- ются повысить качество своей продукции и персонала, используя для дости- жения и измерения качества такие методики, как «непрерывное улучшение качества» или «методику 6 сигма». Даже самый обычный потребитель слы- шал об этих понятиях и хочет понимать их, чтобы быть «продвинутым» за- казчиком или клиентом. И вновь понимание статистики может помочь вам в принятии мудрых решений в отношении своего покупательского поведения. Поскольку мы находимся в процессе перехода от информационного века к веку знаний, нам крайне важно хотя бы понимать, а лучше даже получать в свое распоряжение и грамотно использовать статистические данные. Боб Доннелли выполнил большую и необходимую работу, представив статистику в этой книге так, что вы можете улучшить свои навыки в плане оценки и по- нимания получаемых ежедневно данных. Долгие годы преподавания статис- тики наделили Боба Доннелли феноменальными способностями объяснять сложнейшие статистические понятия. Даже самые неискушенные пользова- тели очень быстро постигнут все тонкости и мощь статистики. Кристин Кидд
Введение Статистика. Почему это слово так пугает нынешних студентов? Даже упоми- нание о статистике в классе вызывает остекленевшие и оцепеневшие взгля- ды. В той или иной форме статистика в течение многих сотен лет причиняла студенту страдания. Наверняка вы думаете, что слово «статистика» произо- шло от латинских слов «ста» в значении «Почему» и «тистика» в значении «я должен изучать этот никому не нужный предмет?». Но на самом деле не так страшен черт, как его малюют. Понятие «stat» совершенно необязательно должно ассоциироваться в головах учеников с неприличным словом. Читая этот абзац, вы наверняка ломаете голову, думая, зачем вам вообще читать эту книгу. Ну, хотя бы потому, что она написана человеком (то есть мной), который а) прекрасно помнит, как сам когда-то был студентом (хотя и в прошлом веке); б) отлично представляет, какую дилемму вам необходимо сейчас разрешить (я чувствую вашу боль и страдания), и в) кое-чему научил- ся за долгие годы преподавания (учебные занятия не прошли для меня да- ром). Богатый опыт позволяет мне поделиться с вами самыми разными спо- собами изучения непростых концепций, которые, как правило, кажутся сту- дентам непостижимыми и непреодолимыми. Взяв на вооружение многочис- ленные методики и способы из примеров, детально описанных в этой книге, вы наверняка обнаружите, что задача постижения статистики уже не кажет- ся такой устрашающей, какой казалась на первый взгляд. К сожалению, такие непонятные термины, как статистический вывод, дис- персионный анализ и проверка гипотез, уже могут привести к тому, что многие ученики побегут от статистики без оглядки. Я поставил себе цель показать вам, что эти сложные термины на деле используются для описания самых ординар- ных и простых вещей. Применяя большинство этих методик к повседневным (и зачастую смешным) ситуациям, я попытался доказать, что статистика — это не только предмет, который под силу одолеть буквально любому, но и наука, кото- рая может принести реальную пользу при решении самых разных задач. Для оказания дополнительной поддержки тем, кто в ней действительно нуждается, я разработал сайт для этой книги; он находится по адресу: www.stat-guide.com. На этом сайте вы найдете дополнительные задачи с вари- антами решений, а также ссылки на другие полезные ресурсы в Интернете. Если у вас сложилось определенное мнение об этой книге, которым вы хоти- те поделиться, пишите мне на электронный адрес, который найдете на сайте. Так что держитесь крепче, мы готовы совершить увлекательное путешест- вие в мир чисел, неравенств и конечно же многочисленных непонятных сим- волов. Вы столкнетесь с большим количеством уравнений, которые на пер- вый взгляд покажутся вам китайской грамотой, но их, оказывается, можно объяснить вполне понятным языком. Пошаговое объяснение каждой про- блемы поможет вам разбить весь процесс на части. Проработав каждый представленный пример, вы обретете необходимую уверенность, разовьете свои способности и научите обращать сухие цифры в полезную информа- цию. И, представьте себе, именно так и рождаются статисты!
Как устроена эта книга Книга разбита на четыре части: В Части 1 «Постигаем основы» мы начнем с самого начала, считая, что вы обладаете нулевыми знаниями в области статистики. После небольшого экс- курса в историю, который заставит вас начать слегка шевелить мозгами, мы окунемся в мир данных и узнаем о различных типах данных и системах изме- рений. Мы также научимся отображать данные графически, как вручную, так и с помощью программы Microsoft Excel. В завершении первой части мы узнаем, как рассчитывать описательную статистику выборки, в частности, среднее и стандартное отклонение. В. Части 2 «Изучаем вероятность» мы откроем врата в устрашающий мир теории вероятности. Как и в первой части, я предполагаю, что вы не обладаете никакими знаниями в этой области (а если и обладаете, то я на- деюсь на то, что эти знания зарыты глубоко в вашем подсознаний и вы рас- считывали на то, что никогда не придется их ворошить). Небезынтересным вопросом в этом разделе будет изучение того, как рассчитывать число со- бытий, и эти знания помогут вам постигнуть тонкости игры в покер. После изучения основ мы плавно перейдем к распределению вероятностей, рас- смотрев, в частности, нормальное и биномиальное распределения. Как только мы одолеем эти вопросы, будем считать, что подготовлена база для изучения Части 3. В Части 3 «Статистический вывод» мы узнаем о том, как отбираются и ве- дут себя выборки с точки зрения статистики. К тому моменту, как эти поня- тия будут нами рассмотрены и осознаны, мы сможем считать себя настоящи- ми статистами, делая оценку совокупностей с использованием доверитель- ных интервалов. К этому времени вы изменитесь так, что собственная мать узнает вам с трудом! Венцом Части 3 станет изучение милой сердцу любого статиста темы — проверки гипотез. С использованием этого мощнейшего инструмента вы можете производить смелые сравнения мужского населе- ния с женским. Эту задачу я поручу вам. В Части 4 «Углубленное изучение статистики вывода» мы продолжим изучение раннее рассмотренных вопросов и узнаем о дисперсионном ана- лизе, весьма популярной методике сравнения более двух совокупностей друг с другом. Мы также познакомимся с критерием хи-квадрат, позволя- ющим определить, являются ли две переменные взаимозависимыми. В за- вершении мы узнаем, как линейная регрессия (иногда ее называют про- стой, но на самом деле она не так проста, иначе ей бы не посвящалась по- следняя глава книги) описывает мощность и направление связи между дву- мя переменными. Изучив все эти вопросы, вы станете совершенно другим человеком, и из ваших уст будут сыпаться такие слова, что друзья будут только диву даваться.
xiv Введение Термины---------------- Под этим названием вы най- дете определения жаргон- ных словечек, но на вполне понятном нормальному человеку языке. Эти оп- ределения помогут вам постичь важ- ные понятия. Не пугайтесь этих сло- вечек: не так страшен черт, как его малюют. Внимание! ------------- Это предупреждение о том, что впереди вас может ждать не сов- сем приятный сюрприз. Изучив эти заметки, вы уже не наступите на те же грабли, которые набили немало ши- шек на лбах ваших предшественни- ков. Эврика!------------------ Здесь вы найдете советы и ре- комендации, кропотливо со- бранные мной в течением мно- гих лет преподавательской практики. Цель этих заметок следую- щая: вас должна осенить гениальная мысль, в результате чего вы непремен- но воскликнете: «Эврика!» Имели вслух Здесь представлены мои наблюдения по текущему вопросу, которые пред- ставляются мне (надеюсь, и вам тоже) небезынтересными. Статистика бук- вально кишит малоизвестными факта- ми, которые помогут вам значительно облегчить изучение какой-либо темы. Что еще вы найдете в этой книге Изучая книгу, вы встретите на полях различные заметки, которые, я наде- юсь, сослужат вам добрую службу и помогут разобраться со сложными веща- ми. Многие из них основаны на моем личном преподавательском опыте и по- священы вопросам, которые вызывают у студентов наибольшие сложности. Торговые марки Все термины, известные как торговые марки, выделены заглавными буква- ми. Издательство Alpha Books and Penguin Group (USA) Inc. не несет ответст- венности за точность и достоверность этой информации. Использование по- добных терминов и понятий в этой книге никоим образом не влияет на за- конность и достоверность товарных знаков.
Часть-'-;; Постигаем основы Ключом к успешному изучению статистики является солидный багаж базовых знаний. Чтобы в полной мере осознать вопросы высокой слож- ности (а таких будет немало), необходимо как следует разобраться в кон- цепциях, представленных в этой части. После небольшого историческо- го экскурса мы сосредоточим свое внимание на данных, которые явля- ются основой любого метода, используемого в статистике. Вас наверня- ка удивит, как мало мы знаем о данных и их свойствах. Мы рассмотрим различные типы данных, способы их сбора, отображения и использова- ния с целью вычисления среднего значения и стандартного отклонения. РАЗНИЦА МЕЖДУ СТАНДАРТНЫМ И средним (не являющимся стандартным) отклонением состоит в том, что первое является нор- мой, а второе - понятием не слишком ХОРОШИМ1

Главам Начало работы В этой главе ф Назначение статистики — зачем вам ее изучать? Ф История возникновения и становления статистики — кто это все придумал? Ф Краткий обзор науки статистики Ф Этическая сторона статистики Как часто вы задавались вопросом: а зачем вообще вам изучать эту статистику? Думаю, вы не одиноки. Очень часто студенты погружаются в самую бездну математических теорий и кон- цепций и никогда не догадаются обозреть «картину сверху прежде, чем осуществить это погружение. Цель настоящей главы состоит в том, чтобы представить вашему вниманию са- мую широкую и общую перспективу и убедить вас в том, что статистика — это мощнейший и полезнейший инструмент, так необходимый в наше время. Можно даже сказать, что это ваш спасательный крут. Так держитесь же за него крепче! В сегодняшнем мире технологий нас заваливают тоннами данных и информации, получаемых из источников, которые убеждают нас что-то приобрести или согласиться с чьей-то точ- кой зрения. Когда по телевизору нам говорят, что по резуль- татам опросов какой-то политик занимает лидирующее поло- жение, а потом где-то мелкими буквами приписано 4- или —
4 процента, то как это понимать? Когда новое лекарство рекомендовано че- тырьмя из пяти врачей, задаем ли мы себе вопрос, насколько объективны их заявления (иными словами, не заплатили ли врачам за рекламу препарата) ? Статистика может оказывать сильнейшее воздействие на наши чувства, мнения и даже принимаемые решения. Так что будет совсем нелишним на- учиться пользоваться этим мощным инструментом. Где используются статистические данные? В словаре Funk and Wagnails Dictionary, который я обнаружил на своей книжной полке, приводится следующее определение понятия «статистика»: это наука о сборе, сопоставлении и систематической классификации количе- ственных данных, используемых в качестве основы для выводов и заключе- ний. Ну и завернули! Говоря простыми словами, я воспринимаю статистику как способ получения различных чисел и их преобразования в полезную ин- формацию, на основе которой могут быть приняты грамотные решения. Эти решения способны серьезно повлиять на течение нашей жизни. На- пример, для оценки эффективности нового медицинского препарата прово- дятся многочисленные исследования и тесты. Статистические данные созда- ют основу для принятия объективного решения о том, является ли данный препарат более эффективным, чем другие средства. Очень часто политика правительства опирается на результаты статистических исследований и спо- соб их представления. Крупнейшие международные корпо- рации принимают серьезные решения, основываясь на статистическом анализе. В 80-х годах прошлого века компания Marriot провела широкомасштабное ис- следование среди своих потенциальных клиентов на предмет их отношения к то- му, какие услуги предлагают отели и гос- тиницы. После тщательного анализа по- лученной информации был запущен проект Courtyard by Marriot, принесший немалую славу и деньги компании. Федеральное правительство неслу- чайно проводит национальную перепись населения каждые 10 лет. Ее проводят с целью определения размеров финанси- рования для различных категорий граж- дан страны. Статистический анализ, проводимый на основе данных перепи- си населения, служит далеко идущим целям, например, для составления раз- личных социальных программ как на государственном, так и на федеральном уровнях. 4г Внимание! --------------- Неверное истолкование стати- стических данных может привести к весьма печальным последствиям. В 1985 году компания Coca-Cola про- вела широкомасштабное социоло- гическое исследование и, основы- ваясь на его результатах, решила из- менить свой флагманский напиток Соке. Этот шаг вызвал такую волну негодования среди потребителей продукта, что корпорация была вы- нуждена отказаться от нововведе- ний и вернуть на рынок полюбив- шийся напиток. Ну и конфуз вышел!
Спортивная индустрия напрямую и полностью зависит от статистики. Вы можете себе представить бейсбол, футбол или баскетбол без статистическо- го анализа? Вы бы никогда не узнали, кого считают лучшими игроками, кто наиболее востребован, а кто не пользуется популярностью. Без статистичес- ких данных разве посмели бы игроки требовать такие баснословные суммы за свое участие в играх? Всеми вышеперечисленными примерами я хочу донести до вас мысль о том, что мы окружены статистикой и что если бы ее не существовало, все в мире было бы совершенно иначе. Так что статистику с полным правом мож- но назвать полезным, а в некоторых случаях даже крайне необходимым ин- струментом в нашей повседневной жизни. Кто придумал статистику? Статистика уходит своими корнями в далекое прошлое. Первым шагом в историческом развитии этой науки в том виде, какой мы знаем ее теперь, стали опросы населения. Если верить Библии, первая перепись населения была проведена в Римской Империи более двух тысяч лет тому назад. Са- мо слово «статистика» происходит от латинского слова «status», означаю- щего «состояние». Эта этимологическая связь отражает самое раннее на- значение статистики: она использовалась для измерения таких вещей, как общее количество субъектов (облагаемых налогом) в Империи или количе- ство субъектов, которых необходимо направить на покорение соседних территорий. Пионеры статистики Основу статистики заложили европейские математики. В 1532 году сэр Уиль- ям Петти представил миру свой первый отчет об уровне смертности в Лондо- не и стал делать это еженедельно. С этого самого момента страховые компа- нии начали проявлять нездоровый интерес к статистике смертности. В начале 17-го века математик из Швейцарии Джеймсу Бернулли рассчи- тал вероятность последовательности событий, известных как «независимые испытания». Выбор слов оказался весьма неудачный: на протяжении не- скольких веков студенты с немалым трудом осваивали эту концепцию и ощу- щали себя так, будто испытания проводятся над ними самими. Вы наверняка помните свои попытки разрешить проблему вычисления вероятности выпа- дения 7 «орлов» при подбрасывании монетки 10 раз. Так что можете побла- годарить господина Бернулли за то, что он придумал, как разрешить эту не- простую задачу. В Главе 9 вы найдете детальное описание независимых ис- пытаний Бернулли и тогда сможете справиться с этим испытанием самосто- ятельно. В начале 18-го века английский математик Томас Байес разработал понятия теории вероятности, которые также сослужили добрую службу науке-статис-
Термины Термин вывод является клю- чевым в статистике при обоб- щении имеющихся фактов. тике. Байес использовал статистику собы- тий прошлого для предсказания вероят- ностей будущих событий. С тех пор кон- цепция вывода очень широко использует- ся при описании статистических методик. В Главе 7 вы узнаете об этом понятии, со- ставляющем основу «теоремы Байеса». Другие известные статисты Лишь в начале 20-го века статистика стала развиваться достаточно быстрыми темпами и стала такой, какой мы знаем ее сегодня. Уильям Госсет разработал знаменитый «t-критерий» на базе t-критерия Стьюдента, и сделал он это, когда работал в пивоварне Guinness в Дублине, Ирландия. Так что когда приступим к изучению изысканий господина Госсета в Гла- ве 14, не забудем поднять за него свои бокалы. Уильям Эдвард Деминг известен тем, что произвел слияние статистики и контроля качества в производственной сфере. В 50-х и 60-х годах прошлого сто- летия господин Деминг провел немало времени в Японии, пропагандируя идею статистического контроля качества для промышленных предприятий. Данная методика опирается на карты контроля качества при наблюдении над произ- водственным процессом, а также на использовании статистики при определе- нии качества данного процесса. В течение 70-х годов прошлого века японская автомобильная индустрия заполучила лакомый кусок рынка США благодаря превосходному качеству продукции. Вот и судите о силе и мощи статистики! Мысли вслух философия Деминга приняла форму знаменитых «14 пунктов». Эта концепция оказалась прямо-таки бесценной для организаций, желающих использовать статистику для повыше- ния эффективности своих производственных процессов. Благодаря усилиям господина Деминга, статистика заняла почетное место в мире бизнеса. Если вас заинтересовала его теория, вы можете прочесть книгу The Deming Management Method Статистика сегодня Наука статистика развивалась по двум направлениям, образовав описатель- ную статистику и статистику вывода. Поскольку описательная статистика в целом более доступна для понимания, ее можно символически назвать «низ- шей лигой»; что же касается статистики вывода, то ее изучение потребует от вас весьма значительных усилий, поэтому назовем ее «высшей лигой». Сегодня в работе со статистическими данными огромную роль играют компьютеры и различные программы. Компьютеры способны обрабаты-
вать гигантские объемы дан- ных и информации, а про- граммы вроде SAS и SPSS позволяют производить сложнейшие статистические операции без особого труда и применять их в своей работе. В этой книге я продемонст- рирую вам, как выполнять са- мые разные статистические операции с использованием программы . Microsoft Excel, предустановленной на прак- тически любом современном компьютере (эта программа включена в пакет программ Термины----------------- Назначение описательной статистики состоит в том, чтобы суммировать или отображать данные так, чтобы оперативно полу- чать общую картину, так сказать, об- зор. Статистический вывод позво- ляет делать умозаключения о какой- либо совокупности на основе вы- борки данных из этой совокупнос- ти. Совокупность представляет со- бой все возможные исходы или из- мерения, представляющие для нас интерес. Выборка - это подмноже- ство совокупности. Microsoft Office). Excel представит вашему вниманию многообразие возможностей работы со статистическими данными, которые помогут вам сэкономить немало вре- мени и усилий. Если от этих слов у вас вдруг кровь застыла в жилах (не вол- нуйтесь, передо мной не стояла задача написать книгу о компьютерных про- граммах)., постарайтесь успокоиться. Вы можете беспрепятственно пропус- тить разделы, содержание которых вас вряд ли заинтересует. Материал, представленный в этой книге, является самодостаточным, так что даже если вы пропустите какие-то главы или разделы, такой шаг никоим образом не от- разится на вашем понимании статистики. И потом, я могу вас заверить, что на экзамене этого не будет! Описательная статистика - низшая лига Основная задача описательной статистики состоит в сборе и отображении; данных и информации. Описательная статистика сейчас в большом почете; такое положение дел объясняется огромными объемами данных, в букваль- ном смысле выскакивающих из-под наших пальцев. Имея самый простень- кий компьютер и выход в Интернет, мы можем за несколько секунд получить доступ к огромному количеству информации. Способность грамотно сумми- ровать эти разрозненные данные, чтобы получить общую картину, и пред- ставить их в графическом или числовом виде — это и есть основные задачи описательной статистики. Я могу привести множество примеров описательной статистики, самым распространенным из которых можно с уверенностью назвать среднее зна- чение. Предположим, я хочу вычислить среднее время фиксации внимания моего любимого лабрадора. Каждый раз, фиксируя его внимание, я засекаю время с помощью секундомера и записываю результаты. В таблице ниже
представлены результаты наших тренировок; исчисление времени произво- дится в секундах: Наблюдение Время в секундах 1 4 2 8 3 5 4 10 5 2 6 4 7 7 8 12 9 7 Используя методы описательной статистики, я могу вычислить среднюю продолжительность фиксации внимания, как показано ниже: 4 + 8 + 5+10+2+4+7+12+7 _ -------—-------------= 6.6 секунды Описательная статистика также позволяет представлять данные в графиче- ском виде, как показано на следующем рисунке. Ну и славный же у меня пес! Рис. 1.1 График продолжительности фиксации внимания. Самое пристальное внимание описательной статистике будет уделено в Главах 3 и 4. А пока посмотрим, что же происходит в высшей лиге.
Статистический вывод - высшая лига Описательную статистику с уверенностью можно назвать цифродробилкой — так быстро она умеет обрабатывать числовые данные. Но чего мы действи- тельно ждем с нетерпением, так это изучения статистики вывода. Данная ка- тегория включает огромное количество различных методов, суть которых сводится к тому, чтобы делать выводы и умозаключения о совокупности дан- ных на основании выборки. Например, мне пришла в голову идея определить в целом, кто способен дольше фиксировать на чем-либо свое внимание: лаб- радоры или подростки. (Основываясь на собственном опыте, я должен при- знаться, что знаю ответ на этот вопрос, но оставлю свои предположения при себе.) Измерить продолжительность фиксации внимания всех лабрадоров и подростков не представляется возможным, так что нам необходимо сделать выборку из каждой совокупности и измерить параметры этой выборки. Пришло время определить понятия генеральной совокупности и выборки. Понятие «совокупности» (или «генеральной совокупности») используется в статистике для выделения полного собрания объектов, представляющих для нас интерес. Под «выборкой» понимается часть генеральной совокупности, представляющая собой группу репрезентативных единиц, специальным об- разом отобранных из этой совокупности. В нашем примере совокупностями являются все подростки и все лабрадо- ры. Мне необходимо сделать выборку подростков и лабрадоров, отбирая ре- презентационные образцы каждой из совокупностей. На основании резуль- татов каждой из выборок я могу сделать заключение о средней продолжи- тельности фиксации внимания каждой совокупности в целом и определить, кто же победил в этой нелегкой борьбе. На следующей странице показано отношение выборки к генеральной со- вокупности. Рис. 1.2 Отношение выборки к генеральной* совокупности. Несколько примеров статистического вывода. Ф Основываясь на самой последней выборке, я на 95% уверен, что средний возраст моих заказчиков составляет от 32 до 35 лет. Ф По результатам случайным образом проведенного опроса, средняя зара- ботная плата мужчин, занимающих определенную должность, по стране выше, чем заработная плата женщин в этой же должности.
Ф В первом квартале 2003 года еженедельный заработок граждан среднего достатка упал на 1,5%. Печально! (журнал Time, за 26 мая 2003 года, стра- ница 46). В каждом из представленных выше случаев результаты основывались на выборке из совокупности; при этом полученные результаты приписываются всей генеральной совокупности. Основное различие между описательной статистикой и статистическим выводом состоит в том, что описательная статистика предоставляет отчеты лишь на основании подручных наблюдений и ничего иного. Статистический вывод подразумевает заключение о целой совокупности на основании ре- зультатов исследования выборки, отобранной из этой совокупности. Чувствую, что должен сообщить вам следующее известие: статистический вывод — это та область статистики, освоение которой доставляет студентам большинство хлопот. Чтобы научиться делать заключения на основании вы- борок, необходимо использовать мате- матические модели теории вероятности. Страшно? Тогда сделайте глубокий вдох и медленно досчитайте до 10. Так-то луч- ше. Понимая, что именно эта тема явля- ется камнем преткновения для многих из вас, я посвятил теории вероятности не- мало страниц в этой книге. Эврика! Глубокое понимание вероятно- стных концепций - это базовый трамплин для освоения статисти- ки. Часть 2 этой книги полностью посвящена теории вероятности. Этика и статистика - действительность коварна и опасна Статистика довольно часто используется для убеждения кого-либо принять чью-то точку зрения. Мотивом подобного убеждения может служить желание что-нибудь продать вам или заручиться вашей поддержкой. Подобная мотива- ция может привести к нечистоплотному применению статистических данных. Одним из наиболее частых примеров некорректного использования статис- тики являются выборки, параметры которых соответствуют желаемым, вместо того, чтобы отобрать действительно репрезентативные элементы совокупности, представляющей для нас интерес. Такие выборки называются некорректными. Предположим, что я — политик, заинтересованный лишь в том, чтобы при- влечь внимание своих избирателей. Я хочу предложить, чтобы Конгресс учре- дил национальный праздник гольфа. В этот замечательный день все государ- ственные учреждения и коммерческие организации будут закрыты, и мы все отправимся загонять маленький белый мячик в крохотные лунки с помощью клюшек, намеренно изготовленных так, чтобы сделать эту задачу невыполни- мой. Смешно, правда? Но моя задача как политика состоит в том, чтобы про- демонстрировать, что любой средний американец поддержит меня в этом во- просе. И вот в чем состоит гениальность моего плана: вместо того чтобы про-
водить опрос среди всех американ- цев, я раздаю свои анкеты только в гольф-клубах. Содержание моего ше- девра будет примерно следующим: Мы хотим учредить национальный праздник гольфа. В этот день каждый получает выходной и целый день играет в гольф (такое заявление означает, что вам не надо будет спрашивать разреше- ния у своей второй половины). Поддер- живаете ли вы это предложение? Термины Выборка с пристрастием - образец нерепрезентативно- го представительства свойств гене- ральной совокупности, что может привести к искажению полученных данных. Необъективный выбор может произойти или преднамеренно или неумышленно. А. Да, полностью поддерживаю. Б. Конечно, почему бы и нет. В. Нет, я предпочитаю провести целый день на работе. P.S. Если вы выбираете вариант В, мы лишаем вас всех привилегий игры в гольф повсеместно и пожизненно. Все очень серьезно. А теперь я могу со спокойной совестью передать в Конгресс отчет с ре- зультатами проведенного опроса: все участники опроса высказались в под- держку нового праздника. И самое интересное состоит в том, что Конгресс, скорее всего, поверит мне. Другой способ злоупотребления статистикой — это увеличение разницы результатов путем обманчивого представления данных в графической фор- ме. Раз уж я заговорил о гольфе, то я использую в качестве примера резуль- таты игры в гольф. Предположим, что в мае я в среднем набрал 98 очков, иг- рая в гольф. Взяв несколько уроков, я улучшил свои показатели, набрав в июне 96 очков. (Для непосвященных: в гольфе чем меньше очков, тем лучше результат.) По рисунку 1.3 понятно, что мои успехи не настолько хороши, чтобы ими хвастаться. Конечно, мне очень неприятно, что я зря потратил деньги на уроки Гольфа. Чтобы сгладить это неприятное ощущение, я могу представить свои резуль- таты, используя иную шкалу измерений, как показано на рисунке 1.4. Изменив шкалу измерений, я создал впечатление, будто сильно поднато- рел в игре в гольф, хотя на самом деле прогресс весьма незначительный. Другой пример неграмотного использования статистики — это много- численные опросы, проводимые через Интернет. На самых разных сайтах вы найдете объявления с предложением проголосовать за вопрос дня. Ре- зультаты этих неформальных опросов трудно назвать достоверными, по- скольку организаторы опросов не контролируют, кто оставляет свой голос и сколько раз голосует один и тот же посетитель сайта. Как указывалось ранее, для грамотного проведения опроса мнения необходимо создать ре- презентативную выборку из представляющей интерес совокупности.
Рис 1.5 На этом графике показана реальная разница между моей игрой в мае и июне. Рис. 1.4 На этом графике разница между количеством очков за май и июнь преувеличена. Такие условия создать просто невозможно, если каждый бороздящий про- сторы Интернета имеет возможность принять участие в опросе. И хотя орга- низаторы подобных опросов заявляют, что полученные результаты не явля- ются высокоточными, человеческая природа такова, что люди почему-то склонны им доверять. Мораль такова: мы все является потребителями статистических данных. Нас постоянно окружает информация, предоставляемая теми, кто пытается оказать на нас воздействие или заполучить наше доверие и поддержку. Зна- ние статистики поможет нам отвратить от себя мошенников, пытающихся из- вратить правду. Начиная со следующей главы, мы начнем наше путешествие к этой цели... и конечно же подготовимся к сдаче экзамена по статистике.
Ваша очередь Определите, в каких примерах используется описательная статистика, а в ка- ких — статистический вывод: 1. В 2001 году 72.7% азиатско-американских семей в США владели компью- тером (The News Journal, 21 мая, 2003 года, страница А1). 2. Вероятность того, что семьи с детьми до 18 лет (62%) имеют выход в Ин- тернет выше, чем бездетные семьи (53%). («А Nation Online»,, февраль 2002 года, www.ntia.doc.gov/ntiahome/dn/index/html.) 3. Средняя бэттинг-результативность Барри Бонда составляет .295 (www.espn.com). 4. Средний балл за Стэндфордский экзамен на уровень овладения знания- ми студентов, поступающих в местный колледж в 2002 году, составлял 550. 5. По результатам последнего опроса, 67% американцев положительно от- зываются о президенте Джордже У. Буше (журнал Time, 7 апреля, 2003 года, страница 40). Повторение - мать учения Ф Статистика является необходимым инструментом для предоставления организациям информации при принятии грамотных решений. ф Первые шаги в области статистики были сделаны европейскими мате- матиками в 17-м веке. Ф Задача описательной статистики состоит в сборе и отображении данных так, чтобы нашему вниманию предстала общая картина ситуации. Ф Статистический вывод базируется на выводах и заключениях о сово- купности, сделанных на основании выборки данных из этой совокупно- сти. Ф Все мы пользуемся статистическими данными и должны относиться к ним крайне внимательно и осторожно, чтобы не стать жертвами мошен- ников, использующих статистику в своих интересах.
ГлаваJ к Данные, данные повсюду, как же выбрать нужные? В этой главе Ф Чем отличаются данные от информации Ф Откуда можно получить данные? Ф Какие типы данных можно использовать? Ф Различные способы измерения данных Ф Программа Excel и статистический анализ Данные являются основой статистики. Достоверность любо- го статистического исследования самым теснейшим образом связана с достоверностью данных, причем с самого начала ва- шего исследования. Многие вещи могут оказаться сомнитель- ными, например, точность данных или их источника. Без на- дежной основы ваши усилия по получению качественного ана- лиза окажутся тщетными. Все, что связано со сбором данных, может оказаться на ред- кость сложным и запутанным. Странно, не так ли? Ведь мы го- ворим о числах? Что же здесь может быть затруднительного? Оказывается, многое. Данные могут классифицироваться не- сколькими способами. Необходимо различать количественные и качественные данные и способ использования каждого из
этих типов. Существуют различные способы измерения данных. Выбор спо- соба измерения данных в самом начале нашего исследования определит, ка- кие статистические методики мы будем применять. Важность данных Данные можно довольно просто определить как значение, присвоенное определенному наблюдению или измерению. Если я собираю данные о том, как храпит моя супруга, я могу делать это по-разному. Например, я могу по- считать, сколько раз Дебби всхрапнула в течение 10-минутного периода. Я могу посчитать продолжительность каждого храпа в секундах. Я также могу измерить громкость храпа с помощью описаний вроде «Это похоже на мед- ведя, только что вышедшего из берлоги после зимней спячки», «Вот это да! Это было похоже на крик аляскинской чайки, зовущей своих птенцов». (Как подобный звук мой издавать человек, который носит джинсы второго разме- ра и может при этом еще и дышать, я никогда не смогу понять.) В каждом случае я записываю данные об одном и том же событии, но в раз- личной форме. В первом случае я измеряю частоту, или количество случаев. Во втором примере я измеряю продолжительность, или временной отрезок. А в последнем случае я описываю событие по громкости с использованием слов, а не цифр. Каждый из представленных случаев демонстрирует, как можно использовать данные. Если вы еще не обратили на это внимание, люди, посвятившие себя статисти- ке, любят использовать в своей речи жаргонные словечки. Так что вот вам еще пара терминов. Данные, используемые для описания интересующего аспекта совокупности, называют параметром. Если же данные используются для описа- ния выборки из данной совокупности, речь идет о показателе выборки. Напри- мер, предположим, что нас интересует совокупность в виде дошкольной группы трехлетних детишек, в которой работает моя супруга. Положим, нам необходи- мо посчитать, сколько раз в день эти маленькие чертенята пользуются туалетом (по словам Дебби, они делают это чаще, чем это физически возможно). Мы можем посчитать среднее количество посещений туалета ребенком, и тогда полученная цифра будет параметром, поскольку в наших расчетах бу- дет задействована целая совокупность. Однако, если мы хотим рассчитать среднее количество посещений туалетной комнаты в день трехлетним ребен- ком нашей страны, тогда группа Дебби будет нашей выборкой. Среднее чис- ло, полученное в результате расчетов по этой дошкольной группе, будет по- казателем выборки, если мы хотим с его помощью оценить по этому параме- тру всех трехлетних детишек в нашей стране. Данные являются основным компонентом всех статистических исследо- ваний. Вы можете нанять самых высокооплачиваемых, известных статис- тов, предоставить в их распоряжение самое современное компьютерное оборудование и программное обеспечение, но если данные, с которыми они работают, будут неточными или несоответствующими проводимому
Термины ------------------------------------------------------------ Данные являются значением, присвоенным наблюдению или измерению, и пред- ставляют собой основные элементы статистического анализа. Множественное чис- ло - это данные, а единственное - данное (или данная величина), используемое в отноше- нии отдельного наблюдения или измерения. Данные, описывающие характеристику совокупности, называются параметром. Данные, описывающие характеристику выборки, называют статистикой выборки. Информацией называют данные, преобразованные в полезные факты, которые можно использовать с оп- ределенной целью, например, для принятия решения. статистическому исследованию, полученные результаты будут совершен- но бесполезными. Однако данные сами по себе тоже не представляют особой ценности. По определению данные — это всего лишь голые факты и цифры, имеющие от- ношение к определенному измерению. С другой стороны, информация полу- чается из фактов с целью принятия решений. Одна из основных задач стати- стики состоит в том, чтобы преобразовывать данные в информацию. Напри- мер, представленная ниже таблица показывает объем ежемесячных продаж для небольшого розничного магазина. Данные об объеме ежемесячных продаж Месяц Объем продаж (в долларах) Январь 15 178 Февраль 14 293 Март 13 492 Апрель 12 287 Май И 321 Используя методы статистического анализа, мы можем получить небезын- тересную информацию типа «Стоп! Ты совершаешь ошибку. При таком уровне падения объема продаж тебе придется закрыть магазин уже в начале следующего года!». Используя эту ценную информацию, мы можем принять некоторые важные решения и попытаться избежать грядущих неприятнос- тей, нависших над бизнесом. Источники данных - откуда вообще берутся данные? Источники данных можно разделить на две большие категории — первичные и вторичные. Вторичными данными являются данные, собранные другими
людьми и предоставленные для ши- рокого пользования. Например, правительство США очень любит собирать и публиковать всякого ро- да любопытную информацию, лишь бы хоть кто-нибудь проявлял к ней интерес. Министерство тор- говли США имеет дело с данными переписи населения, а Министер- ство труда осуществляет сбор ог- | —Термины Первичными являются данные, собранные вами для собственно- го использования. Вторичными счита- ются данные, собранные кем-то дру- гим, которые вы используете в своих целях. ромного количества данных о статистике труда. Министерство внутренних дел предоставляет самые разнообразные данные о ресурсах США. Например, вам известно о том, что в США водятся 250 видов белок? Если вы мне не вери- те, то зайдите по адресу www.npwrc.usgs.gov/resource/distr/mammals/squir- rel.htm, и вы можете стать настоящим экспертом по части белок. Правительство Канады использует мощную систему предоставления ста- тистических данных для самого широкого применения. В отличие от США, где каждое министерство отвечает за сбор и оплату соответствующих дан- ных, в Канаде для этого существует государственное статистическое агентст- во Statistics Canada (www.statcan.ca/start.htm). Его можно сравнить с магази- ном, в котором статисты могут приобрести все, что им необходимо. Агентст- во имеет замечательный сайт, который превращает изучение различных дан- ных в настоящее удовольствие. Основным недостатком вторичных данных является тот факт, что вы не имеете возможности контролировать способ сбора этих данных. Человеку свойственно верить всему напечатанному. (Вы ведь верите мне, не правда ли?) Достоинством вторичных данных является их дешевизна (порой их мож- но заполучить вообще бесплатно) и доступность. Такие данные служат неза- медлительным подтверждением соответствующих домыслов и предпосылок. Первичными являются данные, собранные человеком, который сам будет их использовать. Получение таких данных стоит недешево, зато это будут ва- ши собственные данные, и вам некого будет винить, кроме самого себя, если они будут собраны неверно. Интернет стал одним из важных источников получения данных для целей статистики, публи- куемых различными отраслями экономической деятельности. Если вы можете потратить свой день на изучение тысяч сайтов, выданных самым обычным поисковым сервером, воз- можно, вам и удастся найти прелюбопытнейшую информацию. Однажды я обнаружил в Ин- тернете японское исследование о влиянии фторида на зародышей жаб (www.fluoride-jour- nal.com/1971 .htm). До прочтения этого материала я и не подозревал, что у жаб есть зубы, и был совершенно далек от мысли о том, что и их мучает кариес. С нетерпением жду того момента, когда смогу поделиться этой сногсшибательной новостью со своими друзьями.
При сборе первичных данных вы непременно захотите удостовериться в том, что результаты не искажены их неграмотным сбором. Существует мно- жество способов сбора первичных данных, такие как непосредственное на- блюдение, эксперименты и опросы. Непосредственное наблюдение - я буду следить за вами Как правило, данный способ означает сбор данных об интересующих объек- тах в их естественной среде, когда они и не подозревают, что происходит во- круг них. Примерами таких исследований могут служить наблюдение за ди- кими животными, выслеживающими свою жертву в лесу, или за подростка- ми, сбивающимися в кучу каждый пятничный вечер (а может, это один и тот же пример?). Очевидным достоинством этого способа является то, что объ- екты не оказываются под влиянием сбора данных, поскольку не подозрева- ют об этом. Одна из методик непосредственного наблюдения — это фокус-группы, в которых объекты наблюдения знают о том, что с их помощью производится сбор данных. В бизнесе фокус-группы используются для сбора информации рядом респондентов, управляемых модератором. Как правило, респонден- тов, которым оплачивают потраченное на опрос время, просят предоставить комментарий по определенному вопросу. Эксперименты - кто используется в качестве подопытных кроликов? Это еще более прямая методика, чем наблюдение, поскольку объекты сами принимают участие в эксперименте, цель которого — определить эффектив- ность чего-либо. Примером может послужить использование нового меди- цинского препарата. В ходе эксперимента создаются две группы. Одна из них является экспериментальной; ее представителям дают новый препарат. Вторая группа является контрольной; ее представители думают, что получа- ют новый препарат, хотя на самом деле над ними не производится никакого медикаментозного лечения. По результатам эксперимента производится из- мерение и сравнение реакций обеих групп, после чего осуществляется оцен- ка эффективности препарата. Заявления, подтвердить которые и призваны экспериментальные иссле- дования, должны быть четкими и конкретными. Совсем недавно я прочел статью о чудодейственной травке под названием «гинкго билоба». В статье написано, что люди, продающие эти травки с целью заработать, заявляют, что гинкго билоба поможет вам сохранить острый ум. Похоже, что все именно этого и хотят. А теперь вернемся к моему утверждению. Данное за- явление довольно трудно подтвердить. Что значит «сохранить острый ум»? И потом, как измерить остроту ума? Так что грамотное проведение стати- стического эксперимента — не такая уж простая и вовсе не тривиальная задача.
Очевидными плюсами экспериментов является возможность для статиста контролировать различные факторы, которые могут повлиять на результаты эксперимента, например, пол, возраст и образование участников. Проблема сбора информации с помощью экспериментов состоит в том, что на ответы участников может повлиять факт их участия в исследовании. Разработка экс- периментов для статистического исследования — это весьма сложная тема, выходящая за рамки этой книги. Опросы - это ваш окончательный ответ? Данная методика сбора данных подразумевает, что респонденту напрямую задают ряд вопросов. Анкета должна быть составлена таким образом, чтобы избежать уклонения от ответов (см. Главу 1) и не запутать анкетируемых. Проблемы могут также появиться в части влияния опроса на ответы участни- ков. Некоторые участники отвечают так, так того, по их мнению, требует оп- рос. Это очень похоже на то, как заложники стараются выполнять требова- ния своих захватчиков. Опрос может проводиться по электронной или обыч- ной почте или по телефону. Особенно мне нравятся телефонные опросы, когда звонки застают меня за обедом, в душе или тогда, когда мне наконец-то удалось взяться за написание очередной главы. Эврика! Исследования показали, что ответы участника опроса могут зависеть от того, как зада- ны вопросы. Вопрос, который звучит положительно, скорее всего, вызовет положи- тельные эмоции и такой же ответ, и наоборот. Целесообразно протестировать анкету на небольшой группе людей, прежде чем делать ее достоянием общественности. Какую бы методику вы ни использовали, прежде всего, вы должны позабо- титься о том, чтобы выборка была репрезентативным образцом интересую- щей вас совокупности. Типы данных Есть и еще один способ классификации данных: количественные или каче- ственные. Ф Количественные данные используют численные значения для описа- ния интересующего нас объекта. Примером может служить возраст Дебби, который я обязался хранить в строжайшем секрете, подписав юридический документ, и не указывать в книге, даже в качестве отве- та на один из вопросов, указанных в приложении (намек: см. страни- цу 49).
Ф Качественные данные используют описательные выражения для изме- рения или классификации интересующего нас объекта. Примером ка- чественных данных может послужить имя респондента, участвующего в опросе, и его/ее уровень образования. Далее представлена более деталь- ная информация о качественных данных. Типы шкал измерения - вопрос немаловажный Разве кто-нибудь из вас мог хоть на секунду представить, что данные мож- но рассматривать с такого количества точек зрения? Не забудем сказать и о том, что классифицировать данные можно с помощью различных способов их измерения. Выбор способа измерения данных имеет огромное значение, поскольку определяет, какие методы статистического анализа мы будем при- менять к интересующим нас данным. Каждый из способов измерения по- дробно описан в следующих разделах. Номинальный уровень измерения8 Номинальный уровень измерения используется исключительно с качествен- ными данными. Явления соотносятся с определенными, заранее заданными категориями. Примером может служить пол респондента, тогда категориями будут «мужской» и «женский». Другой пример: данные, обозначающие тип соседских собак. Категориями для этих данных будут являться различные по- роды собак: лабрадор, терьер, глупые дворняжки, которые постоянно трево- жат мой сон своим воем на луну. Этот тип данных не позволяет нам выполнять какие-либо математические операции, например, сложение или умножение. У нас не получится упорядочить такой список от максимума до минимума (хотя я бы поставил лабрадора на высшую ступень). Такой тип относится к самому низкому уровню данных и налагает значительные ограничения на выбор метода статистического анализа. На номинальном уровне измерения могут также использоваться числа. Но даже к такому случаю применимы все те же правила номинальной шкалы. Примером могут служить почтовые индексы или номера телефонов, которые никак нельзя сложить или расположить в порядке возрастания или убыва- ния. Несмотря на то что в качестве данных используются числа, такие дан- ные считаются качественными. Порядковый уровень измерения3 Порядковый уровень чуть выше номинального; он предоставляет нам более детальную информацию о явлении. Этот уровень характеризуется всемй 2 Автор вторгается в область теории измерений, где более употребим термин шкала наимено- ваний, по крайней мере, в отечественной литературе. — Примеч. peg. 3 В теории измерений это шкала порядка. — Примеч. peg.
особенностями номинального плюс возможность ранжировать значения от максимального до минимального. Например, вы решили провести состяза- ние между косильщиками лужаек. Результирующий порядок получился та- кой: Скотт, Том и Боб. Мы по-прежнему не можем осуществлять математи- ческих действий над этими данными, зато можем сказать, что косилка Скот- та более шустрая, чем косилка Боба, но не можем сказать, насколько она шу- стрее. Порядковые данные не позволяют нам осуществлять измерения внут- ри категорий и утверждать, например, что косилка Скотта работает в два ра- за быстрей, чем косилка Боба (на самом деле это не так). Порядковые данные могут быть как качественными, так и количественны- ми. Примером количественных данных может служить ранжирование кино- фильмов с помощью 1, 2, 3 или 4 звездочек. Однако этот способ не дает нам никаких оснований заявлять, что 4-звездочный фильм в четыре раза лучше фильма с одной звездочкой. Интервальный порядок измерения4 Двигаясь вверх по шкале данных, мы добрались до интервального уровня, применяемого исключительно к количественным данным. И вот теперь мы можем обратиться к математическим операциям сложения и вычитания при сравнении значений. Для этого типа данных мы можем измерить разницу между различными категориями с помощью реальных чисел, получив весьма полезную и точную информацию. Типичным примером может служить тем- пература, измеряемая в градусах по Фаренгейту. Например, 70 градусов — это на 5 градусов теплее, чем 65 градусов. Что же касается умножения и де- ления, то эти операции нельзя применить к интервальным данным. Почему? Да потому, что температура 100 градусов — это вовсе не в два раза теплее, чем 50 градусов. Относительный порядок измерения5 Это высшая ступень типов данных. На этой ступени вам предоставляется масса возможностей оперировать с данными. Вы можете выполнять все че- тыре математические операции для сравнения значений данных, не испыты- вая при этом никаких угрызений совести. Примерами таких данных могут являться возраст, вес, рост и заработная плата. Относительные данные обладают всеми характеристиками интервальных данных плюс истинное нулевое значение. Понятие «истинного нулевого зна- чения» означает, что данные со значением 0 — это отсутствие объекта, над которым производится вычисление. Например, заработная зарплата со зна- чением 0 — это отсутствие заработной платы. 4 В теории измерений это шкала интервалов. — Примеч. peg. 5 В теории измерений это шкала отношений. — Примеч. peg.
-—Нет Внимание! -------------- Данные на интервальной шкале не обладают истинным нулевым значе- нием. Например, 0 градусов по Фа- ренгейту вовсе не означает отсутствия температуры, хотя на первый взгляд именно так и может показаться. Если хотите заполучить еще один пример, попробуйте испечь пирог при темпе- ратуре, вдвое превышающей реко- мендованную, за время, вдвое меньше необходимого. Вот смеху-то будет! Имея в наличии истинное значение О, вы можете сравнивать значения данных с помощью правил умножения и деле- ния. Таким образом, мы можем сказать, что человек ростом 6 футов в два раза выше, чем человек ростом в 3 фута, или что 20-летний юноша в два раза моложе 40-летнего мужчины. Различие между интервальным и от- носительным уровнями совсем неболь- шое. Чтобы правильно выбрать шкалу измерения, воспользуйтесь правилом «в два раза больше». Если эта фраза в точ- ности описывает отношения между дву- мя значениями, различающимися чис- лом, кратным двум, тогда эти данные являются относительными. Можно привести множество примеров относительных данных. Рассмо- трим скорость печати в количестве слов в минуту. Что касается меня, то я печатаю довольно плохо. И хотя я неоднократно обращался за помощью к специальным программам, выходит все равно очень плохо. Хорошим днем считается тот, когда мне удается напечатать 20 слов в минуту. А мой 15- летний сын Джон, напротив, принадлежит к хвастунам, которые печата- ют, даже не глядя на клавиатуру, и умудряются напечатать за минуту до 60 слов. Поскольку я могу с уверенностью сказать, что Джон печатает в три раза быстрее, чем я, скорость печати можно отнести к относительным данным. На рисунке ниже вы увидите схему, демонстрирующую различие между шкалами измерения данных и отношения между ними. По мере изучения различных статистических методик мы будем возвращаться к этой схеме. Очень скоро вы узнаете, что определенные методики требуют работы с опре- деленными типами данных.
Как компьютеры приходят нам на помощь В Главе 1 сказано, что мы обратимся к работе с программой Excel для реше- ния некоторых статистических задач. Если у вас нет никакого желания изу- чать программу в таком разрезе, просто перейдите к следующему разделу. Обещаю, что не обижусь. Цель последнего раздела этой главы состоит в том, чтобы ознакомить вас с тем, как использовать компьютер для решения статистических задач в целом, а также убедиться, что ваш компьютер отвеча- ет всем требованиям для обработки статистических данных. Роль компьютеров в статистике Когда в 70-е годы прошлого века я был студентом технического вуза, слова «персональный компьютер» были для меня пустым звуком. Все вычисления производились с помощью хитроумного устройства под названием «счетная логарифмическая линейка». Для тех из моих читателей, кого в ту пору еще и на свете не было, я решил изобразить этот чудный прибор на рисунке 2.2, представленном ниже. Рис. 2.2 Счетная логарифмическая линейка образца 1975 года. Вы сами видите, что это устройство напоминает линейку, откормленную стероидами. Оно умеет выполнять самые разнообразные математические действия, но его трудно назвать эргономичным и удобным. Во времена пер- вого года моего обучения в колледже я приобрел свой первый ручной кальку- лятор, модель производства компании Texas Instruments, который мог выпол- нять только основные математические действия. По размеру он вполне мог сойти за кассовый аппарат. В то время глубокий и серьезный статистический анализ мог осуществ- ляться только на универсальных вычислительных машинах и только людьми, обладающими значительными навыками в области программирования. Эти люди отличались от нас, простых смертных. К счастью, те дремучие времена остались в прошлом, а мы получили в свое распоряжение превосходные эр- гономичные компьютеры, доступные многим. Тем из нас, кто ничего не по- нимает в компьютерном программировании, достались такие замечательные и мощные программы, как SAS, SPSS, Minitab и Excel. С их помощью мы име- ем возможность осуществлять мудреные операции статистического анализа. В некоторых главах этой книги вы найдете описание применения опреде- ленных статистических методик с использованием программы Excel. Если вы
решили пропустить эти части, это никак не отразится на изучении материа- ла книги. Это всего лишь дополнительная информация, демонстрирующая, как статистический анализ связан с компьютером. Я полагаю, что вы облада- ете базовыми знаниями работы с программой Excel. Установка средств анализа данных Прежде всего, необходимо убедиться в том, что на вашем компьютере уста- новлены необходимые инструменты для осуществления анализа данных. Чтобы это сделать, откройте приложение Excel и щелкните левой кнопкой мыши на меню Tools (Сервис), как показано на рисунке 2.3. С этого момента под словом «кликнуть» я буду иметь в виду «щелкнуть левой кнопкой мыши». Рис 2.3 Меню Tools (Сервис) программы Excel. Пййеедка гйяиукй вшибж, - - | Зщя* Зэ»5сммоста формуя | .Имйфф...- ’ ¥ Мысли вслух Если меню Tools (Сервис) выглядит иначе, чем на ри- сунке выше, это может оз- начать, что вам видны не все доступные пункты ме- ню. Чтобы увидеть все до- ступные опции, щелкните по двойной стрелке в ни- жней части меню. Обратите внимание, что на рисунке в меню выделен пункт Data Analysis (Анализ данных). В вашем меню программы этот пункт может отображаться или не отображаться. Если он отображается, пропустите оставшуюся часть этого абзаца и следующие два и приступите к абзацу, начинающемуся со слов «щелкните левой кнопкой мыши по Data Analysis (Анализ данных)». Если пункта Data Analysis (Анализ данных) в ме- ню не видно, вам необходимо добавить его туда. Для этого в том же меню щелкните Add-Inns (Надстрой- ки). Если и этот пункт в меню не представлен, рас- пахните меню с помощью все той же двойной стрел- ки. Щелкнув на Add-Inns (Надстройки), вы увидите на экране окно, представленное на рисунке 2.4. В этом окне вы увидите список всех доступных надстроек программы. Установите флажок Analysis ToolPak, а затем щелкните ОК. А теперь
Рис. 2.4 Диалоговое окно Add-Inns (Надстройки) программы Excel. Мысли аслум Не впадайте в истерику, если на вашем экране появится такое сообщение: Microsoft Excel can’t run this add-in. This feature is not currently installed. Would you like to install it now? (Microsoft Excel не удается запустить это приложение. Компонент не установлен. Установить его?) Для установ- ки Analysis ToolPak вам необходимо иметь при себе фирменный диск Microsoft Office. Щелкни- те Yes (Да) и следуйте инструкциям на экране. После установки необходимого компонента в меню Tools (Сервис) появится долгожданный пункт Data Analysis (Анализ данных). снова откройте меню Tools (Сервис) — в нем должна появиться опция Data Analysis (Анализ данных). Щелкните Data Analysis (Анализ данных) в меню Tools (Сервис) — на экра- не появится диалоговое окно, представленное на рисунке 2.5. Рис 2.5 Диалоговое окно Data Analysis (Анализ данных). Теперь ваша программа Excel полностью готова к демонстрации всех чу- дес статистики, и мы будем активно ею пользоваться при изучении различ- ных статистических методов. А пока щелкните Cancel (Отмена) и закройте
приложение Excel. Когда вы вновь обратитесь к этой программе, инструмен- тарий для анализа данных будет в вашем полном распоряжении. Ваша очередь Проклассифицируйте следующие данные по следующим уровням: номи- нальный, порядковый, интервальный и относительный. Объясните свой выбор. 1. Среднемесячная температура в градусах по Фаренгейту по городу Уил- мингтону в течение года. 2. Среднемесячное выпадение осадков в дюймах по городу Уилмингтону в течение года. 3. Образовательный уровень участников опроса Уровень Количество респондентов Общеобразовательная школа 168 Степень бакалавра 784 Степень магистра 212 4. Семейное положение участников опроса Семейное положение Количество респондентов Не женат/не замужем 28 Женат/замужем 189 Разведен (а) 62 5. Возраст участников опроса 6. Пол участников опроса 7. Год рождения участника опроса 8. Политические предпочтения участников опроса по следующей клас- сификации: республиканец, демократ, не определившийся 9. Расовая принадлежность участников опроса: белый, афроамериканец, азиат, иное 10. Оценка производительности сотрудников компании по шкале: превос- ходит ожидания, отвечает ожиданиям, не отвечает ожиданиям 11. Номер формы каждого участника спортивной команды 12. Список выпускников школы по классу 13. Результаты выпускного экзамена по статистике моего класса по шкале от 0 др 100 14. Условия проживания участников опроса
Повторение - мать учения Ф Данные являются структурными элементами любого статистического анализа. Ф Данные могут быть качественными или количественными. Ф Номинальные данные относят к заранее заданным категориями; мате- матические сравнения между наблюдениями не предусмотрены. Ф Порядковые данные обладают всеми характеристиками номинальных данных плюс возможность упорядоченного распорложения наблюде- ний. Ф Интервальные данные обладают всеми характеристиками порядковых данных плюс возможность вычисления разницы между наблюдениями. Ф Относительные данные обладают всеми характеристиками интерваль- ных данных плюс возможность выражения одного наблюдения в каче- стве множителя другого.
riaiis Представление описательной статистики В этой главе Ф Как определять распределение частот Ф Как представить распределение частот с помощью гисто- граммы Ф Как создать представление «ствол и листья» Ф Как использовать секторную, линейчатую и графическую диаграммы Ф Как работать с Мастером диаграмм программы Excel для построения диаграмм В Главе 2 я представил вашему вниманию описание различ- ных типов данных, используемых для статистического анализа. В этой главе мы рассмотрим способы представления данных. Имея дело с данными в их первозданном виде, мы наверняка будем испытывать сложности при определении их структур- ной организации по той простой причине, что человеческий мозг не слишком хорошо справляется с обработкой длинных списков цифр. Нам гораздо проще воспринимать данные, представленные в уже суммированной форме в виде таблиц и графиков.
В следующих разделах мы рассмотрим множество способов представле- ния данных в виде, удобном для того, кто проводит анализ. С помощью этих методик мы сможем получить весьма развернутое представление о том, о чем говорят нам данные. И уж поверьте мне, в мире существует великое множе- ство данных, готовых поведать нам интереснейшие истории. Идем дальше. Распределение частот Одним из наиболее популярных способов графического представления дан- ных является распределение частот. Проще всего описать использование данного способа на конкретном примере. С самого детства я считаю себя ярым фанатом Pittsburgh Pirates — бейсбольной команды из высшей лиги. Не знаю, почему я все еще болею за этих парней: с 1992 года они не одержа- ли ни одной победы. Как бы то ни было, ниже представлена средняя бэттинг- результативность игроков этой коман- ды в сезоне 2002 года. Я не стал снаб- жать эти результаты именами игроков, дабы не дискредитировать команду. Термины---------------- Распределением частот на- зывается таблица, демонстри- рующая некоторое количество изме- рений данных для определенных ин- тервалов значений. Средняя бэттинг6 - результативность игроков команды Pittsburgh Pirates в 2002 году .160 .300 .077 .246 .283 .125 .175 .264 .233 .264 .264 .252 .250 .294 .244 .308 .121 .100 .234 .119 .232 .216 .206 .190 .154 .150 .298 Источник: www.espn.com Глядя на эти данные, представленные в виде таблицы, вы вряд ли сможете по- нять, насколько сложным оказался 2002 год для моей любимой команды. Пре- образование данных в распределение частот поможет ответить на этот вопрос. Бэттинг-результативность Количество игроков .000 до .049 .050 до .099 .100 до .149 0 1 4 Бэттер (бьющий) — игровое амплуа в бейсболе. — Примеч. peg.
Бэттинг-результативность Количество игроков .150 до. 199 .200 до .249 .250 до .299 .300 до .349 5 7 8 2 Вы вилитр, что распределение частот — это всего лишь таблица, в которой некоторые значения данных сгруппированы в интервалы значений. В дан- ном примере этими интервалами являются данные средней бэттинг-резуль- тативности игроков в первом столбце таблицы. Количество значений данных — это количество игроков, попадающих в каждых из интервалов; они представ- лены во втором столбце. Что ж, этот сезон не удался, может, в следующем все получится. Интервалы распределения частот называют группами, а количество на- блюдений в каждой группе — частотой попадания в группу. В следующем разделе вы узнаете, как организовывать эти группы. Как вычислять распределение частот Порой при определении распределения частот необходимо принимать важ- ные решения. Чтобы вы поняли важность этих решений, обратимся к приме- ру, понятному всем, — с мобильными телефонами. Мой сын Джон и я поль- зуемся специальным «семрйным тарифом», то есть он получает в распоряже- ние максимальное количество минут разговора, а я пользуюсь телефоном с 3 ночи до 6 утра через субботу. В таблице ниже указано ежедневное количест- во звонков, сделанных и принятых Джоном за месяц май. Количество звонков в день 3 1 2 1 1 3 ’ 9 1 4 2 6 4 9 13 15 2 5 5 2 7 3 0 1 2 7 1 8 6 9 4 Источник: очень загадочный телефонный счет, в содержании которого под силу разобраться лишь большому специалисту в области метафизической коммуникации. Используя эти данные, я составил следующее распределение частот.
Распределение частот Количество звонков в день Количество дней 0-2 12 3-5 8 6-8 5 9- 11 3 12-14 1 15-17 1 При организации этих групп я следовал следующим правилам: 1. Группы должны быть одного размера. В данном случае я использовал 3 значения данных для каждой группы. Примером группы является 0-2; эта группа включает в себя количество дней, в которые было сделано 0, 1 или 2 звонка. 2. Все группы должны быть взаимоисключающими, то есть не должны пересекаться. Например, я не стал создавать две группы со значения- ми 3 — 5 и 5 — 7, поскольку значение 5 звонков оказалось бы сразу в двух группах. 3. Постарайтесь, чтобы количество групп было не менее 5 и не более 15. Слишком маленькое или большое количество групп делает свойства рас- пределения частот менее очевидными. 4. По возможности постарайтесь избежать неограниченных групп (напри- мер, от 15 и более). 5. Все значения данных из первоначальной таблицы должны быть включе- ны в группы. Иными словами, группы должны быть исчерпывающими. Слишком малое или большое ко- личество групп усложнит структур- ную организацию распределения частот. Одной крайностью является ситуация, когда групп так много, что в каждую из них попадает лишь одно наблюдение. Есть и другая крайность: выделена лишь одна группа, в которую попадают все на- блюдения. От такого распределения частот толку никакого не будет! Термины---------------- Группы считаются взаимоис- ключающими, если каждое из наблюдений попадает только в одну группу. Например, группы по полово- му признаку «мужской» и «женский» являются взаимоисключающими, по- скольку человек не может принадле- жать сразу к обеим группам.
Распределение относительных (выборочных) частот Термины--------------- Распределение относитель- ных* частот отображает про- центное отношение наблюдений в каждой группе к общему числу на- блюдений. Еще один способ представления подоб- ных данных — использование распреде- ления относительных частот Вместо представления количества наблюдений в каждой группе эта методика опирается на расчет процентного отношения на- блюдений в каждой группе путем деле- ния частоты каждой группы на общее количество наблюдений. Я могу предста- вить данные о телефонных звонках Джона в виде распределения относитель- ных частот, которую вы видите в таблице ниже. Распределение относительных частот Количество звонков в день Количество дней Процентное отношение 0 — 2 12 12/30 - 0.40 3-5 8 8/30 = 0.27 6-8 5 5/30 - 0.17 9-11 3 3/30 = 0.10 12-14 1 1/30 = 0.03 15-17 1 1/30 = 0.03. Всего: 30 Всего: 1.00 В соответствии с этой таблицей, Джон пользуется мобильным телефоном от 3 до 5 раз в 27% дней в месяц. Общее процентное отношение распределения относительных частот должно равняться 100 или около 100 (в пределах 1% с учетом неточности при округлениях). Распределение интегральных частот Термины---------------- Распределение интеграль- ных частот определяет про- цент наблюдений, количество кото- рых меньше или равно количеству на- блюдений в данной группе. Этот «неразлучный друг» распреде- ления относительных частот просто суммирует процентные доли каждой группы по мере движения вниз по столбцу. Эта методика предоставляет в ваше распоряжение процент на- блюдений, количество которых мень-
ше или равно количеству наблюдений в интересующей нас группе. Ниже представлено полученное в результате статистического анализа распре- деление интегральных частот. Распределение интегральных частот Кол-во звонков в день Кол-во дней Процент Интегральный процент 0-2 12 12/30 = 0.40 0.40 3-5 8 8/30 = 0.27 0.67 6-8 5 5/30 = 0.17 0.84 9-11 3 3/30 = 0.10 0.94 12-14 1 1/30 = 0.03 0.97 15-17 1 1/30 = 0.03 1.00 Всего: 30 Всего: 1.00 Значение 0.67 в последнем столбце получено в результате сложения 0.40 и 0.27. Из этой таблицы можно сделать вывод, что Джон пользовался телефо- ном не более 8 раз в день в 84% дней в месяц. . Если распределение частот вычислено правильно, оно представляет собой отличный способ извлечения полезной информации из вроде бы никчемных данных. В следующем разделе вы узнаете, как изобразить распределение ча- стот графически. Графическое представление распределения частот с помощью гистограммы Гистограмма — это диаграмма, показывающая количество наблюдений в каждой группе в виде бруска соответствующей высоты. На рисунке 3.1 представлена гистограмма звонков Джона. Для построения этого графика я воспользовался Мастером диаграмм Excel. Чуть ниже в этой главе я про- Термины---------------- Гистограмма - это диаграмма, отражающая количество на- блюдений в каждой группе в виде призмы соответствующей высоты. демонстрирую вам, как им пользовать- ся (см. раздел «Мастер диаграмм Excel»). Этот график явно демонстрирует нам, что Джон пользуется мобильным теле- фоном достаточно разумно. Самый вы- сокий брусок — это представление груп- пы, соответствующей 0 — 2 звонкам еже- дневно. Все могло бы обстоять гораздо хуже.
Рис. 5.1 Гистограмма телефонных звонков Джона. 0-2 3-5 6-8 9-11 12-14 15-17 Excel сделает за вас грязную работу Эта замечательная программа сама вычислит распределение частот и на- рисует соответствующую гистограмму. Как мило! 1. Прежде всего, необходимо запустить программу Excel и на новом листе ввести наши данные в столбец А, начиная с ячейки А1 (используйте дан- ные из предыдущей таблицы). 2. В столбце В, начиная с ячейки В1, укажите наибольшее значение каж- дой группы. Например, максимальным значением в группе 0 — 2 будет 2. На рисунке 3.2 показано, как будет выглядеть наша таблица. 3. В верхней части окна Excel откройте меню Tools (Сервис) и выберите Data Analysis (Анализ данных). (Если эта команда в меню отсутствует, обратитесь к разделу «Установка средств анализа данных» Главы 2.) 4. Выберите Histogram (Гистограмма) из списка (Рис. 3.3) и щелкните ле- вой кнопкой мыши ОК. 5. В появившемся окне (Рис. 3.4) щелкните левой кнопкой мыши мышью в Input Range (Входной интервал), а затем вернитесь к рабочему листу и выделите ячейки с А1 по АЗО включительно (30 первоначальных значе- ний). Затем щелкните в поле Bin Range (Интервал карманов), вернитесь к рабочему листу и выделите ячейки с Bl по Вб включительно (максимальные значения для 6 групп). 6. Выберите New Worksheet Ply (Новый рабочий лист) и установите флажок Chart Output (Вы- вод графика) (Рис. 3.4). I вслух По непонятной причине Excel называет группы кар- манами. Поди пойми этих разработчиков!
Рис. 5.2 Необработанные данные для вычисления распределения частот. Рис 5.5 Диалоговое окно Data Analysis (Анализ данных). 1. Щелкните левой кноп- кой мыши ОК для со- здания распределения частот и построения гистограммы (Рис. 3.5). Вы видите, что в столб- цах А и В представлено распределение частот, вы- численное программой. Мысли вслух Для отображения гистограммы я предпочитаю ис- пользовать в своей работе Мастер диаграмм, а не средство анализа данных. Мне кажется, что в этом случае график получается более наглядным. Мастер диаграмм предоставляет вам больше возможностей для определения внешнего вида гистограммы. До- полнительную информацию о Мастере диаграмм вы найдете в разделе «Мастер диаграмм Excel».
Рис 3.4 Диалоговое окно Гистограмма. Рис 5.5 Распределен ие частот и гистограмма. Здорово! А вот гистограмма выглядит так, словно на нее сверху уселся слон. Щелкните на гистограмме и потяните мышью за ее нижнюю границу вниз, чтобы распахнуть ее. Должно получиться так, как представлено на Рисунке 3.6. Распределение частот и гистограммы — это очень удобный способ получе- ния четкой картины того, о чем пытаются поведать нам данные, на первый взгляд кажущиеся такими разрозненными. С помощью гистограммы я по- нял, что данные шепчут мне на ушко: «Заполучи побольше минут разговора в месяц с помощью семейного тарифа». Прекрасно!
Рис. З.б Вот как выглядит окончательная гистограмма Мощный инструмент статистики - иерархическое древовидное представление Древовидное представление — это еще один способ графического представ- ления данных. Идея создания этого метода принадлежит статисту Джону Тьюки, разработавшему его в 70-х годах XIX века. Основное достоинство данного подхода состоит в том, что все первоначальные данные представле- ны на экране. Д ля демонстрации работы этого метода я воспользуюсь результатами игры в гольф моего сына Брайана. В таблице ниже представлены очки, получен- ные за последние 24 раунда. Как правило, Брайан для отчетности предостав- ляет более обнадеживающие результаты, но мы, статисты, должны быть не- предвзятыми и точными. Результаты игры в гольф Брайана 81 86 78 80 81 82 92 90 79 83 84 95 85 88 80 78 84 79 80 83 79 87 84 80 Рис. 3.7 показывает, как выглядят полученные в ходе игры очки в древовидном представлении.
7 8 9 88999 00001123344445678 025 Рис 5.7 Древовидное представление. «Стволом» в данном представлении является первая колонка цифр, обо- значающая первую цифру результатов игры. «Листья» — это вторая цифра результата, по одной цифре на каждый результат. Поскольку Брайан 5 раз набрал больше 70 очков, справа от цифры 7 стоят 5 цифр. При желании мы можем дробить данное представление и дальше, добав- ляя дополнительные стволы. Этот подход проиллюстрирован на рисунке 3.8. Термины----------------- Древовидное представление разбивает значения данных на листья (последняя цифра в значении) и стволы (все остальные цифры в значе- нии). Указав все листья справа от каж- дого ствола, мы можем графически представить, как распределяются дан- ные. Здесь ствол, обозначенный 7 (5), содер- жит все набранные очки от 75 до 79. Ствол 8 (0) содержит все очки от 80 до 84. Внима- тельно изучив это представление данных, я вижу то, что скрыто от меня на рисунке 3.7: оказывается, чаще всего Брайан наби- рает немногим больше 80 очков. Отличным источником информации о данном подходе является статистический портал Канады по адресу: www.statcan.ca/ english/edu/power/ch8/plots.htm. Рис 5.8 Более развернутое древовидное представление. 7(5) 88999 8(0) 000011233444 8(5) 5678 9(0) 02 9(5) 5 Представление статистических данных в виде графиков Графики — это еще один эффективный способ выделения и представления структурных особенностей набора разрозненных данных. В этом разделе я поведаю вам о различных типах графиков, которые помогут нам разобрать- ся, о чем же говорят полученные нами данные. Какая у вас любимая секторная диаграмма? Секторные (круговые) диаграммы, как правило, используются для описания данных, полученных из распределения относительных частот. Этот тип гра- фика представляет собой круг, поделенный на сектора, каждый из которых по размеру соответствует относительной частоте попадания в группу. Чтобы проиллюстрировать использование секторных диаграмм, предположим, как какой-то анонимный профессор представил следующее распределение фи- нальных баллов.
Финальные баллы Оценка Кол-во студентов Распределение относительных частот А 9 9/30 = 0.30 В 13 13/30 = 0.43 С 6 6/30 = 0.20 D 2 2/30 = 0.07 Всего: 30 Всего: 1.00 Это распределение относительных частот можно представить в виде сек- торной диаграммы, показанной на рисунке 3.9. Этот график построен с по- мощью Excel — об этом я расскажу чуть позже. С 20% 7% В 43% Рис. 5.9 Секторная диаграмма, демонстрирующая распределение полученных студентами оценок. Эврика!--------------------- Секторные диаграммы идеально подходят для разноцветного пред- ставления данных из распределе- ния относительных частот. Если ис- пользование разных цветов не представляется возможным, вы можете разнообразить свои секторные диа- граммы с помощью текстур и узоров. Как видите, такая диаграмма гораз- до наглядней и приятней д ля глаза, чем колонки цифр в таблице. Должно быть, этот профессор неплохо смыс- лит в статистике! Чтобы построить секторную диа- грамму вручную, необходимо, прежде всего, вычислить центральный угол для каждой доли диаграммы, как показано на рисунке ниже.
Рис 5.10 Центральный угол секторной диаграммы. Для вычисления центрального угла умножьте относительную частоту группы на 360 (количество градусов в круге). Результаты представлены в таб- лице ниже. Центральный угол для построения секторной диаграммы Оценка Относительная частота Центральный угол А В С D 9/30 = 0.30 0.30*360 = 108 degrees 13/30 = 0.43 0.43*360 = 155 degrees 6/30 = 0.20 0.20*360 = 72 degrees 2/30 = 0.07 0.07*360 = 25 degrees Всего: 1.00 С помощью любого приспособления для измерения углов, например, транспортира, вы можете поделить свою диаграмму на доли соответствую- щего размера. При условии, конечно, что вы уже овладели навыком рисовать круги. Линейчатые диаграммы Линейчатые диаграммы хороши при необходимости изображения отдель- ных значений данных рядом друг с другом. Для рассмотрения данного типа диаграмм, одна из которых представлена на рисунке 3.11, воспользуемся данными из следующей таблицы. Эти данные представляют собой месяч- ный баланс кредитной карты безымянной супруги безымянного человека, пишущего книгу по статистике. (Если она увидит это, меня ждут большие неприятности!)
Баланс анонимной кредитной карты Месяц Баланс (в долларах) 1 2 3 4 5 6 375 514 834 603 882 468 Баланс кредитной карты Сейчас вы вполне можете сказать себе: «Погодите-ка, где-то я это уже видел!» Говоря «это», я имею в виду тип диаграммы, а вовсе не кредитную историю моей супруги. Гисто- грамма, представленная чуть выше в этой главе, является особым типом линейчатой диа- граммы; она имеет дело с частотами, а не с реальными значениями данных. Я уверен, что все ваше существо вопрошает: «Что выбрать, секторную ди- аграмму или линейчатую?» Если вы ставите себе целью сравнить относи- тельные размеры каждой груцпы, используйте секторную диаграмму. Ли- нейчатые диаграммы больше подходят для сравнения реальных значений данных.
Графические диаграммы Последнее графическое средство, к которому мы обратимся, — это графиче- ская диаграмма (реберный граф), используемая для сравнения структур двух наборов данных. Для демонстрации использования графических диаграмм обратимся к моей любимой теме: подростки и душ. Похоже, наши местные тинэйджеры имеют пагубную и, что еще хуже, до- рогостоящую привычку часами простаивать под горячим душем, иногда да- же по несколько раз в день. Ночью я никак не могу заснуть, потому что слы- шу беспрестанное журчание горячей воды и представляю себе, как долларо- вые банкноты так и струятся по канализационной трубе. Я свел в таблицу не- которые данные, свидетельствующие о том, сколько раз самые чистоплотные из подростков в нашем районе принимают душ, и присовокупил соответству- ющий счет на оплату. Обратите внимание, что указанные тарифы подразу- мевают, что некоторые подростки принимают душ по несколько раз в день. Месяц Кол-во душевых сеансов Счет на оплату 1 72 $225 2 91 $287 3 98 $260 4 82 $243 5 76 $254 6 85 $275 Чтобы понять, прослеживается ли связь между количеством душевых сеан- сов и счетом на оплату, мы можем нарисовать график с парами данных для каж- дого месяца с помощью графической диаграммы, показанной на рисунке 3.12. Рис. 5.12 Графическая диаграмма, отображающая душевые сеансы и данные счета.
Я решил разместить количество сеансов по оси х (горизонтальная), а дан- ные счета — по оси у (вертикальная). Судя по тому, что линия, объединяю- щая точки, имеет тенденцию все время подниматься вверх, я понял, что мои подозрения вполне подтвердились: чем больше времени проводят в душе на- ши лягушата, тем больше сумма в счете. Графические диаграммы очень хороши в тех случаях, когда вам необходи- мо проследить взаимосвязь между двумя различными типами данных. По- дойдут они и тогда, когда вы хотите показать большое количество точек на одном графике. Мастер диаграмм Excel Как и было обещано, в последнем разделе я продемонстрирую вам, как со- здавать профессиональные графики посредством всего нескольких щелчков мыши. Поможет нам в этом программа Excel. Поскольку сложней всего построить вручную секторную диаграмму, я по- кажу вам, как построить график распределения оценок, подобный тому, к которому мы уже обращались выше. 1. Запустите программу Excel и на новом рабочем листе введите данные распределения относительных частот, как показано на рисунке 3.13. Рис. 5.15 Введите данные о распределении оценок. 2. Запустите Мастер диаграмм Excel, снабженный пошаговы- ми инструкциями. Для этого откройте меню Insert (Вставка) (оно находится между меню View (Вид) и Format (Формат)) и выберите Chart (Диаграмма). 3. Когда на экране появится ок- но Мастера диаграмм, выбе- рите в списке Chart Туре Вы также можете запустить Мастер диаграмм с помощью стандартной панели инструмен- тов, нажав кнопку Chart Wizard (Мастер диа- грамм). Кнопка напоминает крохотную гис- тограмму. Также обратите ваше внимание на то, что если вы перед запуском Мастера диа- грамм выделите ячейки, которые хотите ото- бразить на диаграмме, вам не нужно выпол- нять шаг 4 описываемой процедуры.
(Тип) Pie (Круговая), а затем щелкните Next (Далее) в нижней части ок- на (Рис. 3.14). Рис. 5.14 Выберите тип диаграммы. 4. Если программа Excel не выбрала автоматически те данные, которые вы хотите отобразить на диаграмме, щелкните мышью в поле Data Range (Диапазон), чтобы там оказался курсор. Затем на рабочем листе щелкни- те ячейку А1 и тяните мышью вниз по диагонали до ячейки В5, как пока- зано на рисунке 3.15. Рис. 5.15 Укажите источник данных.
5. Убедитесь, что включена опция Series in: Columns (Ряды в: столбцах). За- тем щелкните Next (Далее), чтобы перейти к другим свойствам диаграм- мы (Рис. 3.16). Рис. 3.16 Введите необходимую информацию для построения диаграммы. 6. На вкладке Title (Заголовки) вы можете указать заголовок своей диа- граммы. Пусть поработает ваша фантазия. 7. Чтобы указать на диаграмме процент для каждой группы, перейдите на вкладку Data Labels (Подписи данных) и установите флажок Percentage (Доли) в группе Label Contains (Включить в подписи), как показано на рисунке 3.17. &аст«р днаг (шаг 3 из Зз-ивэаки :i fforSHA* T Надписи дайнах (i £J gBTerctfttA Рис 3.17 На этой вкладке вы можете включить в подписи доли. £3 KibON 8. Щелкните Next (Далее), чтобы вернуться к шагу 4. В появившемся окне вы можете указать размещение вашей диаграммы. При выборе As new sheet (отдельном) диаграмма будет размещена на отдельном рабочем ли- сте в текущем файле Excel; при выборе As object in (имеющемся) она бу- дет расположена на уже имеющемся листе, который вы укажете. 9. Щелкните Finish (Готово), и все! Excel нарисует для вас диаграмму.
Видите, это очень просто, и лучше всего то, что вам не придется рисовать круги. Ваша очередь 1. В таблице ниже представлены результаты экзамена 36 студентов одного класса, в котором я, возможно, преподавал. Вычислите распределения частот из 9 групп от 56 до 100. Экзаменационные баллы 60 95 75 84 85 74 81 99 89 58 66 98 99 82 62 86 85 99 79 88 98 72 72 72 75 91 86 81 96 86 78 79 83 85 92 68 2. Используя решение Задачи 1, постройте гистограмму. 3. Используя данные из Задачи 1, вычислите распределение относитель- ных и интегральных частот. 4. Используя данные из решения Задачи 1, постройте круговую диаграмму. 5. Используя данные из Задачи 1, создайте представление «ствол и лис- тья», взяв по 1 листу для результатов до 60, 70, 80, 90 и 100 баллов. 6. Используя данные из Задачи 1, создайте представление «ствол и листья». Повторение - мать учения Ф Распределение частот, или частота попадания в группу, — это эффек- тивный способ суммирования данных путем учета количества наблюде- ний и их размещения в группы. Ф Гистограммы позволяют графически представить данные распределе- ния частот. Ф Представление «ствол и листья» позволяют не только графически пред- ставить распределение данных, но и содержат реальные значения инте- ресующих нас данных. Ф Секторные (круговые), линейчатые и графические диаграммы — это эффективные средства представления данных в различных формах. Ф Мастер диаграмм Excel — это мощный инструмент, предоставляющий пользователю возможность создавать множество различных представ- лений данных.
|11|Д Глявэ '. V Ши ШИ ОВД • • :;:Т: < > •=' Вычисление описательных статистик: центральная тенденция(среднее, медиана и мода) В этой главе Ф Что представляет собой центральная тенденция Ф Как вычислять среднее, взвешенное среднее, медиану и моду выборки и совокупности Ф Как вычислять среднее распределения частот Ф Как использовать Excel для вычисления центральной тен- денции Содержание Главы 3 имело своей целью продемонстриро- вать вам различные способы графического представления дан- ных так, чтобы вниманию наших мозговых клеток предстала картина в целом. Успешно решив поставленную задачу, мы мо- жем смело переходить к следующему шагу — рассмотрению способов числового суммирования данных. После изучения
этой главы мы сможем разбрасываться словечками типа «медиана», «мода», причем мы даже будем знать, что они значат! Как уже было указано в Главе 1, описательная статистика составляет осно- ву практически любого статистического анализа. Если вычисления описа- тельной статистики неверны, финальный результат анализа может оказать- ся противоположным реальному положению дел. А всем известно, что стати- сты не любят вводить остальных в заблуждение. Поэтому цель настоящей главы состоит в том, чтобы научиться вручную выполнять вычисления описа- тельной статистики и подтверждать их достоверность с помощью нашего хо- рошего друга — программы Excel. Это первая глава в книге, в которой вы увидите математические формулы с забавными буквами греческого алфавита, которые могут запросто поверг- нуть вас в шок. Не пугайтесь. Мы будем уничтожать этих демонов одного за другими с помощью доходчивых объяснений, и в конечном итоге победа бу- дет в наших руках. Вперед! Меры центральной тенденции Существуют две основные и широко используемые категории описательной статистики. Первая из них, центральная тенденция (определяет положение центра распределения), описывает центральную точку нашего набора дан- ных с помощью одного значения. Эта методика позволяет нам суммировать разрозненные данные с помощью одного числа. Вторая категория, рассеяние (разброс данных), детально рассмотрена в Главе 5. Существует множество показателей центральной тенденции наших данных — ниже вы узнаете о том, что они собой представляют и как ими пользоваться. Среднее Термины---------------- Центральная тенденция - мера описывает точку концен- трации набора данных. Дисперсия - мера описывает, как далеко значения данных отклонились от среднего. Среднее или усредненное - самая общая мера центральной тенденции и вычисляется суммированием всех зна- чений данных в нашей выборке с по- следующим делением этого результа- та на число наблюдений. Наиболее распространенным показате- лем центральной тенденции является среднее (арифметическое), которое вы- числяется путем сложения всех значе- ний нашего набора данных и деления полученной суммы на количество на- блюдений. Математическая формула для вычисления среднего несколько ва- рьируется в зависимости от того, вы- числяете ли вы среднее по выборке или среднее по совокупности (математичес- кое ожидание). Вычисление выборочно- го среднего выполняется по следующей формуле:
где: х — среднее по выборке, Xi — значения выборки (Xi — значение первого аргумента выборки, х2 — значение второго аргумента выборки и так далее), Ех; = сумма всех значений данных выборки, п — количество значений данных выборки Не впадайте в панику увидев выражение ... £x.z которое всего лишь означает сумму х при /.= от 1 до п. Если наша выборка содержит значения 5, 8 и 2, тогда п = 3, х1 = 5, х2 = 8Х з х3 = 2Х в результате чего получаем выражение Хх,. =х1+х2+д3=5+8+2 = 15. Формула для вычисления среднего по совокупности выглядит так: N p=1L, N где: ц = среднее по генеральной совокупности (произносится довольно за- бавно — «мю»), Xxz. = сумма всех значений данных совокупности, 1=1 1 N = количество значений данных совокупности. Чтобы показать вам, как вычисляются меры центральной тенденции, я воспользуюсь следующим примером. Во многих семьях, в которых прожива- ют подростки, привычным развлечением являются видеоигры. Брайан и Джон любят вовлечь меня в игру, а потом обнулить счетчик моих очков. У ме- ня закралось подозрение, что Джон подсунул мне «неисправный» пульт уп- равления, потому что он сильно тормозит, создавая 10-секундную задержку между нажатием кнопки и откликом на экране. Оказалось, что задержка на самом деле происходит между моими мозгами и пальцами. Как бы то ни бы- ло, ниже представлен набор данных, представляющий собой количество ча- сов, проводимых за видеоиграми в нашей семье каждую неделю.
Поскольку эти данные представляют собой выборку, мы можем вычислить среднее по выборке: п %х‘ 3+7+4+9+5+4+6+17+4,+? г г s = —— =--------------------'*— =6.6 часа. п 10 Похоже, что стоит серьезно попрактиковаться, прежде чем тягаться со своими сыновьями. Взвешенное среднее При расчете среднего количества часов в предыдущем примере каждому значению присваивался один и тот же вес. Взвешенное среднее — это сред- няя величина, которой необходимо посидеть на диете. Шутка! Просто хотел удостовериться, что вы читаете внимательно. Взвешенное среднее позволяет вам приписывать некоторым значений больший вес, а другим — меньший. Предположим, ваша оценка по статистике в этом семестре будет складывать- ся из экзаменационной оценки, оценки за домашнюю работу и финальный проект. Каждому компоненту финальной оценки присваивается вес в соот- ветствии со следующей таблицей: Тип Результат Вес (Процент) Экзамен 94 50 Проект 89 35 Домашнее задание 83 15 Эврика! п Выражение 2L w> * означает сумму произведений w и х. Каждая пара сначала перемножается, а затем результат суммируется. Мы можем рассчитать вашу финаль- ную оценку, воспользовавшись следую- щей формулой расчета взвешенного среднего. Обратите внимание, что здесь мы делим на сумму присвоенных весов, а не количество значений данных. »Х() Ew, J=1 где: Wi = вес каждого значения данных xit п ^wi = сумма весов.
Предыдущее уравнение можно представить в виде следующей таблицы, чтобы вам была понятна процедура: Тип Результат Вес Вес X Результат (и> * х) Экзамен 94 0.50 47.0 Проект 89 0.35 31.2 Домашнее задание 83 0.15 12.4 T/w} =1.0 i=i 3 ДИЛ *Х) 1=1 = 90.6 Тот же результат может быть получен путем вставки чисел непосредствен- но в формулу расчета взвешенного среднего: _ (0.50 *94)+(0.35 *89)+(0.15 *83) Х~ 0.50+0.35+0.15 _ 47.0 + 31.2+12.4 х = —-----------= 90.6. 1.00 Поздравляю! Вы заслужили высшую оценку. | Эврика!----------------------------------------------:---------------- Сумма весов во взвешенном среднем не обязательно должна равняться единице, как в приведенном выше примере. Предположим, я хочу получить взвешенное среднее сво- Я их двух последних результатов игры в гольф, 90 и 100. Причем я хочу, чтобы вес резуль- тэта в 90 очков в два раза превышал вес результата в 100 очков, мотивировав это тем, что игра, в результате которой я получил 90 очков, была значительной трудней, чем та, в которой я получил 100 очков. Тогда взвешенное среднее будет вычисляться по такой формуле: (2*90)+(1 *100) _ X-----------------Уо.о. < 3 Поскольку меньшему значению присвоен больший вес, полученный результат ниже фактическо- го среднего значения в 95 очков. На этом, я полагаю, мы закончим с понятием взвешенного среднего. Среднее значение распределения частот группы данных Пришло время узнать кое-что страшно любопытное. Оказывается, вы мо- жете вычислить среднее значение группы данных распределения частот. Воспользуемся данными из Главы 3, имеющими отношение к звонками Джо- на. Эти данные представлены в таблице ниже.
Количество звонков в день 3 1 2 1 1 3 9 1 4 2 6 4 9 13 15 2 5 5 2 7 3 0 1 2 7 1 8 6 9 4 В следующей таблице вы видите те же данные в виде распределения час- тот; группой является «Количество звонков в день». Распределение частот Количество звонков в день Количество дней 0-2 12 3-5 8 6-8 5 9-11 3 12-14 1 15-17 1 Для вычисления среднего значения этого распределения необходимо, прежде всего, определить среднее значение по каждой группе с помощью следующей формулы: ~ Минимальное значение+Максимальное значение Среднее значение по группе =------------------------------------- Например, среднее значение в последней группе таблицы будет вычис- ляться так: 15+17 _ Среднее значение по группе = —-—=46. Таблица, представленная ниже, поможет нам в вычислениях: Группа Середина (х) Частота (/] 0 — 2 3-5 6-8 12 8 5 1 4 7
Группа Середина (х) Частота (/] 9-11 10 3 12-14 13 1 15-17 16 1 После определения среднего значения по каждой группе мы можем при- ступить к вычислению среднего значения распределения частот, используя следующее уравнение, которое по своей сути является формулой вычисле- ния взвешенного среднего: i=l где: xt = середина каждой группы при i = от 1 до п, fi = количество наблюдений (частота) каждой группы при i = от 1 до п, п = количество групп в распределении. Среднее значение данного распределения частот будет определяться сле- дующим образом: - (12 * 1)+(8 *4) +(5 *7) +(3 *10) +(1 *13) +(1 *16) бзвонка 12 + 8 + 5+3+1+1 В соответствии с полученным средним значением данного распределения частот, Джон в среднем совершает по 4.6 звонка в день. Внимание! -------------------------------------------------------- Среднее значение распределения частот, когда данные помещены в группы, являет- ся всего лишь приближенным значением средней величины первоначального набора дан- ных, из которого оно было получено. Это происходит потому, что мы исходим из предпо- ложения, что значения данных расположены примерно в середине каждой группы, а на са- мом деле это не всегда так. Точное значение 30 первоначальных значений данных в приме- ре с мобильным телефоном составляет 4.5 звонка в день, а не 4.6. Если группы распределения частот представляют собой не интервал дан- ных, а лишь одно значение, среднее вычисляется так, словно распределение является взвешенным средним. Например, предположим, что представлен- ная ниже таблица отображает количество дней, на протяжении которых в од-
ной скобяной лавке наблюдался спрос на какую-то особую модель молотка. Данные представлены за период в 65 рабочих дней магазина. Спрос по дням (х) Количество дней (/) 0 1 2 3 4 5 10 15 12 18 6 4 Всего: 65 Например, за последние 65 дней было 15 дней, в течение которых в мага- зине был спрос на 1 молоток в день. Каков средний ежедневный спрос на этот товар за 65 дней? м __ (10*0) + (15 *1) +(12 *2) +(18 *3) +(6 *4) +(4 *5) Х~ ’ 10+15 + 12 + 18+6+4 137 ---= 2.1 молотка в день. 65 Став настоящими экспертами по части вычисления среднего значения всеми возможными способами, мы можем переходить к методам определе- ния других составляющих центральной тенденции. Медиана Среднее значение — это не единственная мера центральной тенденции. Ме- дианой называется такое значение набора данных, по отношению к которо- му половина наблюдений имеют большее значение, а половина — меньшее. Для определения медианы необходимо расположить значения данных по возрастанию и найти центральное значение. Вернемся к примеру с видеоиграми и выстроим наши данные в порядке возрастания.
Поскольку мы имеем четное коли- чество значений (10), медиана явля- ется центральным значением двух точек, расположенных в середине нашей последовательности. В нашем случае это значения 5 и 6, а медиа- ной будет значение 5.5 часов в неде- лю, посвященных видеоиграм. Обра- тите внимание на то, что мы имеем 4 значения данных (3, 4, 4 и 4) слева от центральных точек и 4 значения (7, 7, 9 и 17) справа от них. Чтобы показать, как вычисляется i Термины Медианой называется мера центральной тенденции, пред- ставляющая собой такое значение в последовательности данных, по отно- шению к которому половина наблю- дений имеют большее значение, а по- ловина - меньшее. При четном коли- честве значений данных медианой яв- ляется среднее арифметическое двух центральных точек. медиана для нечетного количества значений данных, уберем из нашей после- довательности число 17 и повторим наш анализ. 344456777 9 Сейчас в нашем распоряжении осталась только одна центральная точка — 5. Поэтому медианой для данной последовательности будет 5 часов видеоигр в неделю. И снова мы имеем 4 значения слева и 4 значения справа от централь- ной точки. Мода Наконец, мы рассмотрим последнюю меру центральной тенденции — моду. Модой является наблюдение, встречающееся в наблюдении чаще всего. Определим моду для нашего примера с видеоиграми. 3444567779 17 Модой является 4 часа видеоигр еженедель- но — это значение встречается в нашей после- довательности 3 раза. Вот мы и закончили со способами вычисле- ния мер центральной тенденции. Однако один вопрос остался без ответа. Чему отдать предпочтение? Мысли вслух Один набор данных может иметь более одной моды в случае, если более одного значения встречается в по- следовательности чаще всего. Уверен, вы никогда не подозревали о том, что вашему вниманию будет предложено такое количество способов вычисления основной тенденции. Это все равно что оказаться в магазине с 30 сортами мороженого. Попробую помочь вам в выборе. Если вы считаете, что все данные в вашей последова- тельности одинаково важны и существенны, лучшим выбором будет среднее значение. Для этой меры имеют значение количество и-величина ваших дан-
ных. Если же значения данных слишком велики или малы, они могут оказать весьма существенное влияние на среднее арифметическое, особенно если размер выборки невелик. Если это вас беспокоит, советую остановить свой выбор на медиане. Медиана не столь чувствительна к большим или малень- ким числам. Возьмем набор данных, полученных в примере с видеоиграми. 3444567779 17 Число 17 значительно превышает все остальные значения последователь- ности. Среднее значение этого набора данных — 6,6, а медиана — 5,5. Если вы считаете, что 17 — это нетипичный представитель полученного набора дан- ных, то лучшим способом измерения центральной тенденции будет медиана. А вот бедная-несчастная мода имеет весьма ограниченное число примене- ний. Как правило, она используется для описания данных по номинальной шкале, то есть данных, сгруппированных в описательные группы, такие как пол. Если 60 процентов наших респондентов — мужчины, тогда модой наших данных будет мужской пол. Использование Excel для вычисления центральной тенденции Всего за несколько щелчков мыши программа Excel вычислит для вас сред- нее значение, медиану и моду. Я покажу вам, как это делается, на примере все тех же домашних видеоигр. 1. Откройте чистый рабочий лист Excel и введите данные, как показано на рисунке 4.1. Рис. 4.1 Введите данные из примера с видеоиграми.
2. Откройте меню Tools (Сервис) в верхней части листа (оно находится между меню Format (Формат) и Data (Данные)) и щелкните Data Analysis (Анализ данных). (Если в меню эта команда отсутствует, вернитесь к разделу «Установка средств анализа данных» в Главе 2.) Выбрав выше- 3. Выберите Descriptive Statistics (Описательная статистика) и щелкните ОК. Вы увидите на экране окно, показанное на рисунке 4.3. Рис. 4.5 Диалоговое окно Descriptive Statistics (On исательная статистика). 4. Для ввода данных в поле Input Range (Входной интервал) выделите мы- шью ячейки с Al по АЮ включительно; для ввода данных в поле Output Range (Выходной интервал) щелкните по ячейке С1. Установите флажок Summary (Итоговая статистика) и щелкните ОК. 5. Немного раздвинув границы столбцов С и D, чтобы на экране были " представлены все данные, вы увидите то, что показано на рисунке 4.4.
Рис. 4.4 Показатели центральной тенденции для примера с видеоиграми. 8”?: 4= "ГД...& ТТ 17 = VI ’ ” 4; Ю? 7; W ЪГ ’ 'i Hi i U i :Moga............... Ставда^гног ^тадоненве ГДисп&^смй выборка Эксцесс ^ймке1рйчмсс»ъ Интела л ........... Минимум МакЬвм’/м /Су&нде»............ 4; 4’^2Ж!-: гё/ШЙП OT32M2= ’2JG4S&2W: ............................................Ui ............................................3i 17i ............................................8& ~Сч»т.............................................. Wj 1g]......... r:.... ; Как видите, среднее арифметическое составляет 6.6 часа, медиана — 5.5 часа, а мода — 4.0 часа. Очень просто! Ваша очередь 1. Вычислите среднее, медиану и моду для следующего набора данных: 20 15 24 10 8 19 24 12 21 6 2. Вычислите среднее, медиану и моду для следующего набора данных: 84 82 90 77 75 77 82 86 82 3. Вычислите среднее, медиану и моду для следующего набора данных: 36 27 50 42 27 36 25 40 29 15 4. Вычислите среднее, медиану и моду для следующего набора данных: 8 11 6 2 И 65 6 10 5. Одна компания подсчитала количество своих сотрудников в каждой из следующих возрастных категорий. Каков средний возраст сотрудников компании? Возрастной диапазон 20-24 25-29 30-34 35-39 40-44 45-49 Количество сотрудников 8 37 25 48 27 10
6. Вычислите взвешенное среднее следующих значений с соответствую- щими весами. Значение 118 125 107 Вес 3 2 1 7. Одна компания подсчитала количество своих сотрудников, распределив их по уровню, соответствующему количеству лет работы на компанию. Каково среднее количество лет работы в данной компании? Количество лет работы 1 2 3 4 5 6 Количество сотрудников 5 7 10 8 12 3 Повторение - мать учения Ф Среднее (арифметическое) набора данных рассчитывается путем сло- жения всех значений и деления полученного результата на количество значений. Ф Медианой набора данных является центральное значение последова- тельности данных, если значения расположены в порядке возрастания или убывания. Ф Медианой является единственное центральное значение последователь- ности данных, если количество значений этой последовательности не- четное. Медиана — это среднее арифметическое двух центральных зна- чений последовательности, если количество значений этой последова- тельности четное. Ф Модой набора данных называется наиболее часто используемое значе- ние. В наборе данных может быть более одной моды.
Глава - «л Вычисление описательной статистики: меры рассеяния В этой главе Ф Вычисление размаха выборки Ф Вычисление дисперсии и стандартного отклонения вы- борки и совокупности Ф Использование эмпирического правила и теоремы Чебы- шева для прогнозирования распределения значений дан- ных Ф Использование мер относительного положения для опре- деления выбросов Ф Использование программы Excel для вычисления мер рас- сеяния В Главе 4 мы научились рассчитывать меры центральной тенденции путем суммирования нашего набора данных в одно значение. Но следует признать, что при этом мы можем поте- рять из виду полезную информацию. Если в примере с видео- играми я сообщил бы вам только то, что среднее значение рав-
няется 6.6 часа, вы не узнали бы, находятся ли все значения в промежутке между 6 и 7 или они разбросаны в промежутке между 1 и 12 часами. Чуть поз- же вы поймете, что эта разница может сыграть весьма значительную роль. Поэтому мы обратим свое внимание на вторую категорию описательной статистики — меру рассеяния, определяющую, насколько отдельные значе- ния отдалены от средней величины. Разделы ниже содержат информацию о различных способах измерения рассеяния. Размах Размах — это простейшая мера рассеяния, представляющая собой разницу между самым большим и самым малым значениями набора данных. Чтобы показать вам, как вычисляется широта, я воспользуюсь следующим приме- ром. Одним из особых качеств Дебби является ее любовь к приготовлению пищи на гриле. Набор данных, представленный ниже, показывает, сколько раз Дебби готовит пищу на гриле каждый месяц: 7 9 8 11 4. Размах данной выборки будет определяться следующим образом: Размах = 11 —4 = 7 раз. Термины Размах выборки вычисля- ется путем вычитания само- го маленького значения из самого большого. Вычислив размах, мы можем дешево и сердито получить представление о раз- бросе набора данных. И все же размах описывает лишь две точки нашей выбор- ки, тем самым ограничивая наше пред- ставление о ней. Вычисление размаха не подразумевает использование других зна- чений выборки. Дисперсия Одной из наиболее используемых мер рассеяния в статистике является дис- персия, вычисляемая путем суммирования возведенного в квадрат отклоне- ния каждого значения данных от средней величины. Формула для вычисле- ния дисперсии представлена ниже: Дх. —х)2 s2 =—-------, п-1 где: s2 = дисперсия выборки, х = среднее значение выборки, Термины Дисперсия - это мера рассея- ния, описывающая сравнитель- ное отклонение между значениями дан- ных и средней величиной. Эта мера ши- роко используется в статистике вывода.
п = размер выборки (количество значений данных), (xz -х) = отклонение от средней величины для каждого значения набора данных. Первым шагом при вычислении дисперсии является определение средне- го значения выборки, которое в примере с грилем равняется 7,8 раза в месяц. Остальные вычисления можно облегчить с помощью следующей таблицы. X, X (Xt-X) (x.-x)2 7 7.8 -0.8 0.64 9 7.8 1.2 1.44 8 7.8 0.2 0.04 11 7.8 3.2 10.24 4 7.8 -3.8 14.44 f (х. -х)2 =26.80. i=l Финальная фаза вычисления дисперсии выглядит так: Для тех, кто любит производить все вы- числения за один раз, уравнение будет вы- глядеть следующим образом: Внимание! ---------- Обратите внимание, что в таблице выше квадрат отрица- тельного значения является по- ложительным числом. Поэтому все значения в четвертом столбце являются положитель- ными числами. _ (7-7,8)2 + (9-7.8)2 + (8 -7.S)2 +(11 -7.8f +(4 -7.8f _6 ? 5-1 Использование метода «сырого счета» (пример с грилем) Существует более эффективный способ вычисления дисперсии, извест- ный как метод «сырого счета». Хотя с первого взгляда уравнение может по- казаться весьма громоздким, на самом деле оно не такое уж страшное. Мо- жете в этом удостовериться, а потом и решите, какой метод вам больше нра- вится. — $2 _ Ы П п-1
где: Ех? = сумма каждого значения данных после возведения в квадрат, (п А2 Ех. = квадрат суммы всех значений данных. v'=i 1) Не теряйте рассудок прямо сейчас. Позвольте представить все это в виде таблицы, и тогда вы увидите, что вычислений здесь меньше, чем в предыду- щем примере. ’ Xi х2 1 49 9 81 8 64 И 121 4 16 Ех =39 fx2=33i fxj =(39)2=1521 331-1521 s2=------ 4 331-304.2 4 Эврика!----------------- Если вы вычисляете диспер- сию вручную, я советую вам пощадить свои руки и каль- кулятор и воспользоваться методом «сырого счета». Как видите, результат получился тот же, что и при использовании преды- дущего метода. Достоинства данного метода становятся очевидными по мере роста размера выборки (п). Дисперсия генеральной совокупности Пока мы рассмотрели только дисперсию в рамках выборки. Хорошая но- вость состоит в том, что дисперсия совокупности рассчитывается так же, как и дисперсия выборки. Есть и плохая новость: мне необходимо ввести новый символ греческого алфавита — сигму. Выражение для вычисления диспер- сии генеральной совокупности представлено ниже: 2 £(х,-ц)2 ст = ------, . N
где: о2 = дисперсия генеральной совокупности (произносится как «сигма в квадрате»), Х( = исчисление каждого значения генеральной совокупности, ц = средняя величина генеральной совокупности, N = размер совокупности. Внимание! -------------- Удостоверьтесь, что уравне- ние для вычисления дисперсии ге- неральной совокупности нормали- зуется на N, а при вычислении дис- персии выборки - на п -1. Уравнение по методу «сырого счета» выглядит следующим образом: Хотя процедура вычисления дисперсии по совокупности идентична опре- делению дисперсии выборки, позвольте обратиться еще к одному примеру. Положим, мой класс является совокупностью, а возрастные категории, пред- ставленные ниже, — измерением. (Можете предположить, какое из этих чи- сел является моим возрастом? Дам подсказку: благодаря моему возрасту дисперсия приобретает некоторую изюминку.) 21 23 28 47 20 19 25 23 Я воспользуюсь методом «сырого счета», где размер совокупности (N) бу- дет равняться 8 (хотел бы я иметь класс из такого количества студентов!) 21 441 23 529 28 784 47 2209 20 400 19 361 25 625 23 529 f х, =206 i=l tx- =5878 i=i
£х,| = (206)2 = 42 436 5878 - 42436 ________8 8 5 878-5304.5 8 Благодаря одному пожилому юноше дисперсия совокупности получи- лась 71.7. Стандартное отклонение Это довольно просто. Стандартным отклонением называется квадратный корень из дисперсии. Равно как и для дисперсии, стандартное отклонение су- ществует и у выборки, и у совокупности, как показано ниже. Стандартное отклонение выборки: E(xz. -х)2 Z=1 п-1 Стандартное отклонение гене- ральной совокупности: Термины Стандартное отклонение - это квадратный корень из дисперсии. S(xf -ц)2 i=l_____ N Для вычисления стандартного отклонения необходимо сначала рассчитать дисперсию, а затем извлечь из нее квадратный корень. Вспомните, как в пре- дыдущих разделах мы рассчитывали дисперсию из примера с грилем и полу- чили значение 6.7. Стандартное отклонение будет вычисляться следующим образом: s = \f^ -4^ =2.6 раза. А теперь вспомните дисперсию для примера с классом, равную 71,7. стан- дартное отклонение возраста для данной совокупности будет рассчитывать- ся так: о = Vo2 = л/71.7 = 8.5 лет.
На самом деле стандартное отклонение приносит больше пользы, чем диспер- сия, поскольку исчисляется в единицах первоначального набора данных. Для примера: единицы дисперсии д ля примера с грилем — 6.7 возводимых в квадрат раз, а для примера с возрастом студентов — 71.7 возводимых в квадрат лет. Не знаю, как вы, но мне бы не хотелось, чтобы мой возраст равнялся 2 209 годам. Вычисление стандартного отклонения для сгруппированных данных Представленное ниже уравнение показывает, как вычислять стандартное от- клонение сгруппированных данных распределения частот. ' т Е(х,-х)2^ i=l п-1 где: ft = количество значений данных в каждой группе распределения, т = количество групп, п = =’ общее количество значений в наборе данных. i=l Таблица ниже представляет собой распределение частот с указанием ко- личества раз, когда каждый ребенок в группе Дебби отпрашивается в туалет. Количество посещений туалета в день (xj Количество детей (/$) 2 1 3 4 4 12 5 8 6 5 В этом примере т = 5, а п = 30. В Главе 4 мы узнали, как вычислять сред- нее распределения частот, и у нас получилось вот что: т v — Izl___ _ (1х2)+(4хЗ)+(12х4)+(8х5) +(5хб) л л х =------------------------------- =4.4 раза в день на каждого ребенка
В таблице ниже представлены суммированные вычисления стандартного отклонения. X/ fi X (xt-x) (xt-x)2 (x^x/fi 2 1 4.4 -2.4 5.76 5.76 3 4 4.4 -1.4 1.96 7.84 4 12 4.4 -0.4 0.16 1.92 5 8 4.4 0.6 0.36 2.88 6 5 4.4 1.6 2.56 12.80 т Е(х,.-Х)2^ =31.20 т z(x,.-x)2i: 2=1________ п-1 ’31 20 у----- у = у/1.08 =1.04 раза в день на ребенка. Распределение частот для этого примера имеет среднюю величину, рав- ную 4.4 раза в день на ребенка, а стандартное отклонение — 1.04 раза в день на ребенка. Должно быть, такая частота не оставляет Дебби ни одной свобод- ной минутки. Эмпирическое правило: определение стандартного отклонения Значения большинства наборов данных, как правило, группируются вокруг среднего или медианы так, что распределение данных на гистограмме напоми- нает по форме симметричный колокол. В таких случаях эмпирическое правило (звучит как постановление императора) гласит, что примерно 68% всех значений данных находятся в пределах 1 стандартного отклонения от средней величины. Предположим, что средний результат экзамена по статистике в моем клас- се составляет 88 баллов, стандарт- ное отклонение — 4 балла, а распре- деление представлено в виде симме- тричного колоколообразного графи- ка, в центре которого расположена средняя величина, как показано на рисунке 5.1. Поскольку на 1 стан- дартное отклонение увеличение средней величины будет равняться 92 (88 + 4), а на 1 стандартное откло- нение уменьшение средней величи- Термины--------------------- В соответствии с эмпирическим правилом, если распределение данных представлено в виде колоколо- образного симметричного графика, в центре которого находится средняя ве- личина, примерно 68%, 95% и 99,7% значений окажутся в пределах 1, 2 и 3 стандартных отклонений соответственно.
ны — 84 (88-4), эмпирическое правило свидетельствует о том, что примерно 68% результатов экзамена окажутся в промежутке между 84 и 92 баллами. Рис. 5.1 Одно стандартное отклонение от среднего. Результаты экзамена Согласно эмпирическому правилу, примерно 95% значений данных будет располагаться в пределах 2 стандартных отклонений от среднего. В нашем слу- чае 2 стандартных отклонения будут равняться 8 баллам (2*4). Двумя отклоне- ниями выше среднего значения будет число 96 (88 + 8), а ниже — 80 (88 ~ 8). На рисунке 5.2 показано, что примерно 95% результатов экзамена попадут в интервал между 80 и 96 баллами. Рис. 5.2 Два стандартных отклонения от средней величины. И наконец, эмпирическое правило свидетельствует о том, что при указан- ных условиях примерно 99.7% значений данных окажутся в пределах трех
стандартных отклонений от средней величины. На рисунке 5.3 показано, что практически все результаты экзамена окажутся в пределах 12 баллов (2*4) выше или ниже средней величины, равной 88 баллов. Иными словами, все они будут расположены в промежутке между 76 и 100 баллами. Рис. 5.3 Три стандартных отклонения от средней величины. Результаты экзамена В целом мы можем воспользоваться следующим уравнением для выраже- ния значений в пределах к стандартных отклонений от средней величины: ц ± ко В последующих главах мы вновь обратим свое внимание на эмпирическое правило. Теорема Чебышева Теорема Чебышева представляет собой математическое правило, сходное с эмпирическим, но применимое к любому распределению, а не только к сим- метричным колоколообразным графикам. Теорема Чебышева гласит, цто для любого числа к больше 1 по меньшей мере 1 А 1—- *100% /с у процентов значений попадут в к стандартных отклонений от средней величи- ны. Используя это выражение, мы можем сделать ряд предположений: Ф Как минимум 75% всех значений данных окажутся в пределах двух стандарт- ных отклонений от средней величины, если в уравнении Чебышева к = 2. Ф Как минимум 88.9% всех значений данных окажутся в пределах трех стандартных отклонений от средней величины, если в уравнении Чебы- шева к = 3.
Термины Теорема Чебышева мо- жет применяться к любо- му распределению данных, но для значений к больше 1. Ф Как минимум 93.7% всех значений данных окажутся в пределах четырех стандартных отклонений от средней величины, если в уравнении Чебышева к = 4. Выражение для последнего примера выглядит просто. *100% =93.7% Проверим, как же работает теорема Чебышева на практике. В таблице ни- же представлено число хоумранов7 основных 40 игроков высшей бейсболь- ной лиги за сезон 2002 года. Количество хоумранов основных 40 игроков за 2002 год 57 52 49 46 43 42 42 41 39 39. 38 38 37 37 35 34 34 34 33 33 33 32 31 31 31 30 30 30 29 29 29 29 29 28 28 28 28 28 27 27 Источник: www.espn.com. Гистограмма, представленная ниже, свидетельствует о том, что это рас- пределение несимметрично и не имеет колоколообразной формы, поэтому эмпирическое правило здесь неприменимо (Рис. 5.4). Нам необходимо вос- пользоваться теоремой Чебышева. Рис. 5.4 Гистограмма хоумранов за 2002 год. 7 Показатель активности игрока в бейсболе. — Примеч. peg.
Среднее для данного распределения равно 34.7 хоумранов, а стандартное отклонение — 7.2. Следующая таблица суммирует различные интервалы по отношению к средней величине с процентным отношением значений в пре- делах этих интервалов. к (Г ц + Ап ц - ко % по Чебышеву Фактический % 2 34.7 7.2 49.1 20.3 75.0% 95.0% 3 . 34.7 7.2 56.3 13.1 88.9% 97.5% 4 34.7 7.2 63.5 5.9 93.7% 100.0% Эта таблица подтверждает теорему Чебышева, в соответствии с которой как минимум 75% значений окажутся в пределах двух стандартных отклонений от средней величины. Из указанного набора данных видно, что 95% действитель- но попадают в интервал между 20.3 и 49.1 хоумранов (38 из 40). То же объясне- ние используется в отношении 3 и 4 стандартных отклонений от среднего. Меры относительного положения Рассеяние данных также может рассматриваться с точки зрения мер относи- тельного положения, описывающих процент данных ниже определенной точ- ки. В разделах ниже вы узнаете, каковые эти меры и как ими пользоваться. Квартили Квартили делят организованный в порядке возрастания набор данных на 4 равных сегмента. Примерно 25% значений окажутся ниже первого квартиля, Qt. Примерно 50% значений окажутся ниже второго квартиля, Q2. И нако- нец, примерно 75% значений будут ниже третьего квартиля, Q3. Чтобы про- демонстрировать, как определять значения Qlf Q2 и Q3, воспользуемся следу- ющим набором данных. 9 5 3 10 14 6 12 7 14 Шаг 1: расположите данные в порядке возрастания. 3 5 6 7 9 10 12 Шаг 2: определите медиану набора данных. Это и будет О2. Q2 = 9 Шаг 3: определите медиану меньшей части набора данных (в скобках). Это и будет Оь 14 14- Термины -------:----- Квартили измеряют относи- тельное положение значений данных после деления всего набора данных на 4 равных сегмента.
(3 5 6 7) 9 10 12 14 14 Ch = 5.5 Q2 = 9 Шаг 4: определите медиану большей части набора данных (в скобках). Это и будет Q3. 3 5 6 7 9 (10 12 14 14) Q1 = 5.5 Q2 = 9 Q3 = 13 Межквартильный размах После вычисления квартилей мы можем без особого труда определить меж- квартильный размах (IQR). Он определяет разброс центральной половины набора данных и вычисляется путем вычитания первого квартиля из третье- го, как показано ниже. IQR = Q3 - Qi IQR = 13 - 5.5 = 7.5 Термины--------------- Межквартильный размах - мера разброса центральной половины набора данных, которые являются флуктуацией и должны быть отброшены перед анализом. Межквартильный размах использует- ся для определения выбросов, которые являются «черными овцами» нашего на- бора данных. Это экстремальные значе- ния, чья точность находится под вопро- сом и которые могут привезти к искаже- нию результатов статистического анали- за. Любые значения больше: Q3 + 1.5IQR = 24.25 13 + 1.5(7.5) = 24.25 или меньше: QI - 1.5IQR 5.5 + 1.5(7.5) = - 5.75 должны быть отброшены. Теперь, когда мы истерли все пальцы до костей, высчитывая все эти пре- мудрости, посмотрим, как программа Excel упрощает все эти процедуры.
Использование Excel для вычисления мер рассеяния Excel предлагает рассчитать для вас широту, дисперсию и стандартное откло- нение выборки при помощи опции Data Analysis (Анализ данных) в меню Tools (Сервис). Шаги, которые необходимо выполнить для расчета этих со- ставляющих, точно такие же, как при вычислении мер центральной тенден- ции, описанных в Главе 4. Если выполнить эти шаги (см. раздел «Использова- ние Excel для вычисления центральной тенденции») для примера с грилем из этой главы, то получим результат, представленный на рисунке 5.5. Рис. 5.5 Меры рассеяния для примера с грилем. id £22 шв Т ¥ Т >5: •4$ :Стацда^:нйй сжжмжйв :А?яЫЯеIf*?***- jG-jST оЖж Из рисунка выше видно, что размах выборки равен 7, дисперсия — 6.7, а стандартное отклонение — 2.6. Обрати- те внимание, что представленный набор данных не имеет моды, поскольку ни од- но из значений не встречается более од- ного раза. На этом мы завершаем рассмотрение различных способов описания мер рас- сеяния. Значения для дисперсии и стандартного отклонения, указанные в Excel, вычислены для вы- борки. Если ваши данные представ- ляют собой генеральную совокуп- ность, вам необходимо вновь вычист лить результаты, используя в качестве знаменателя N, а не п - 1. Ваша очередь 1. Вычислите дисперсию, стандартное отклонение и широту для следую- щей выборки: 20 15 24 10 8 19 24. 2. Вычислите дисперсию, стандартное отклонение и широту для следую- щей совокупности: 84 82 90 77 75 77 82 86 82. 3. Вычислите дисперсию, стандартное отклонение и широту для следую- щей выборки: 36 27 50 42 27 36 25 40.
4. Вычислите квартили и границы выбросов для следующего набора дан- ных: 8 И 6 2 И 6 5 6 10 15. 5. Одна компания подсчитала количество сотрудников в каждой из сле- дующих возрастных групп. В соответствии с данным распределени- ем, каково стандартное отклонение для возраста сотрудников компа- нии? Возрастной интервал 20-24 25-29 30-34 35-39 40-44 45-49 Количество сотрудников 8 37 25 48 27 10 6. Одна компания подсчитала количество сотрудников на каждом уровне, соответствующей количеству лет работы на компанию. В соответствии с данным распределением, каково стандартное отклонение для количест- ва лет работы сотрудников на компанию? Количество лет работы 1 2 3 4 5 6 Количество сотрудников 5 7 10 8 12 3 7. Набор данных с симметричным колоколообразным распределением имеет среднее значение, равное 75, а стандартное отклонение — 10. Данные с таким отклонением и расположенные вокруг среднего значе- ния будут представлять 95% точек данных? 8. Набор данных с несимметричным распределением имеет среднее значе- ние, равное 50, а стандартное отклонение — 6. Каков минимальный про- цент значений, попадающих в интервал между 38 и 62? Повторение - мать учения Ф Широта набора данных — это разность между самым большим и самым малым значениями.
Ф Дисперсия набора данных суммирует возведенное в квадрат отклоне- ние каждого значения от средней величины. Ф Стандартное отклонение набора данных определяется как квадратный корень из дисперсии и выражается в тех же единицах, что и первона- чальные значения данных. Ф Эмпирическое правило гласит, что если распределение можно предста- вить в виде симметричного колоколообразного графика, в центре кото- рого расположено среднее значение, примерно 68, 95 и 99,7% значений данных окажутся в пределах 1, 2 и 3 стандартных отклонений от средне- го значения соответственно. Ф Межквартильный размах измеряет разброс центральной половины на- бора данных и используется для определения выбросов, которые долж- ны быть отброшены перед проведением статистического анализа.

Часть'"; Изучаем вероятность Я ХОЧУ понять теорию вероятности, НО, ВЗГЛЯНУВ НА ДАННЫЕ, Я ПОНЯЛ, ЧТО, ВЕРОЯТНО, ОТКАЖУСЬ от этой ЗАТЕИ. Связь между описательной статистикой и статистическим вы- водом базируется на понятии вероятности. Мне известно, что теория вероятности делает немилым свет для большинства сту- дентов, и все же это чрезвычайно важная тема для проникно- венного понимания статистики. Тема вероятности играет роль необходимого звена между описательной статистикой и статис- тикой вывода. Без четкого осознания вероятностных концеп- ций статистический вывод будет представляться вам совершен- но вражеским языком. Именно поэтому Часть 2 предназначена для того, чтобы помочь вам в преодолении этого препятствия.

Введение в вероятность В этой главе Ф Различия между классической, эмпирической и субъек- тивной вероятностями Ф Использование распределения частот для вычисления ве- роятности Ф Изучение основных свойств вероятности Ф Демонстрация пересечения и объединения простых собы- тий с помощью диаграммы Венна Покидая счастливый мир описательной статистики, вы мо- жете испытывать такое чувство, будто вы уже готовы присту- пить к освоению статистического вывода. Но прежде чем вой- ти в царство статистики вывода, нам необходимо вооружиться теорией вероятности. Возможность с точностью предсказы- вать, с какой вероятностью произойдет то или иное событие, имеет широкую сферу применений. Например, в игровой ин- дустрии теория вероятности используется в лотереях, карточ- ных играх и спортивных событиях. Цель настоящей главы состоит в том, чтобы начать изучение основ вероятности, после чего мы плавно перейдем к освоению более сложных понятий — этому посвящены Главы 7 и 8. Мы рассмотрим различные типы вероятнрстей и научимся вычис- лять вероятность простых событий. Мы будем опираться на
данные распределений частот для изучения вероятности комбинации про- стых событий. Так что устраивайтесь поудобней, и давайте кинем кости! Что такое вероятность? В жизни нас повсюду окружают понятия теории вероятности. Когда в свод- ке погоды сообщают, что вероятность выпадения осадков в виде дождя завт- ра составляет 80% (а именно завтра я собираюсь поиграть в гольф) или когда моя любимая команда выигрывает всего 40% игр в этом году (таков же был их результат в прошлом и позапрошлом годах), существует 65%-ный шанс, что я буду пребывать в дурном расположении духа. Говоря простыми словами, вероятность — это возможность реализации какого-либо события, например, дождя или выигрыша в игре. Но прежде чем мы отправимся дальше, нам необходимо ознакомиться с очередной порцией жаргона. Когда речь идет о вероятности, часто используются соответствую- щие термины. ф Эксперимент. Процесс измерения или наблюдения за действием с це- лью сбора данных. Примером является кидание костей. Ф Исход. Определенный результат эксперимента. Пример — выпадение троек при кидании костей. ф Выборочное пространство. Все возможные исходы эксперимента. Выбо- рочное пространство для нашего эксперимента — это числа {2, 3, 4, 5, 6, 7, 8, 9, 10, 11 и 12}. Статисты любят окружать значения выборочного про- странства скобками, видимо потому, что считают, что это очень круто. Ф Событие. Один или несколько исходов, которые представляют интерес для эксперимента и которые являются подмножеством выборочного пространства. Примером является выпадение. двоек, троек, четверок или пятерок обеих костей. Чтобы правильно определить вероятность, необходимо решить, о каком типе вероятности идет речь. Классическая вероятность Классическая вероятность применима к ситуациям, когда нам известно чис- ло возможных исходов определенного события и можем вычислить вероят- ность этого события с помощью следующего уравнения: __________Количество возможных исходов реализации События А_____ л * Общее количество возможных исходов в выборочном пространстве где: Р[А] = вероятность того, что произойдет событие А.
Например, если Событие А = выпадение на обеих костях суммы 2, 3, 4 или 5, нам необходимо определить выборочное пространство для данного экспе- римента, показанное в таблице ниже. {1,1} {2,1} {3,1} {4,1} {5,1} {6,1} {1,2} {2,2} {3,2} {4,2} {5,2} {6,2} {1,3} {2,3} {3,3} {4,3} {5,3} {6,3} {1,4} {2,4} {3,4} {4,4} {5,4} {6,4} {1,5} {2,5} {3,5} {4,5} {5,5} {6,5} {1,6} {2,6} {3,6} {4,6} {5,6} {6,6} Существует 36 возможных исходов данного эксперимента, имеющих оди- наковую вероятность. Подчеркнуты исходы, соответствующие Событию А; всего их 10. Таким образом: Р[А]=—=0.28. 36 . Чтобы воспользоваться классичес- кой вероятностью, вам необходимо иметь представление о происходящем событии, чтобы оценить количество его исходов. Вы также должны суметь сосчитать общее число событий в дан- ном выборочном пространстве. Скоро вы убедитесь в том, что сделать это не всегда возможно. Эмпирическая вероятность Когда мы не обладаем достаточной ин- формацией о происходящем и не мо- жем определить число возможных ис- ходов интересующего нас события, мы можем воспользоваться эмпириче- ской вероятностью. Этот тип вероят- ности определяет количество реализа- ций события эмпирическим путем и • вычисляет вероятность с помощью распределения относительных частот. Получаем следующее уравнение.: Термины_________________ Классическая вероятность требует, чтобы вы знали коли- чество исходов, соответствующих оп- ределенному событию. Вам также не- обходимо знать общее количество возможных исходов в данном выбо- рочном пространстве. г Термины Эмпирическая вероятность требует, чтобы вы определи- ли частоту, с которой происходит со- бытие, эмпирическим путем и вычис- лили вероятность с помощью распре- деления относительных частот. Р[А] = Частота События А Общее количество наблюдений
Примером эмпирической вероятности можно с уверенностью назвать ста- рый как мир вопрос: какова вероятность того, что Джон проснется утром и отправится в школу после первого звонка будильника? Поскольку мне никак не понять, почему подросток никак не желает выбираться из постели раньше 2 часов пополудни, мне придется опереться на эмпирическую вероятность. В таблице ниже представлено количество звонков будильника, которые пона- добились Джону за последние 20 дней, чтобы пробудиться. Количество звонков будильника Джона (за предыдущие 20 школьных дней) 2433124331 42 33132 434 Мы можем суммировать эти данные и представить их в виде распределе- ния относительных частот. Распределение относительных частот для звонков будильника Джона Кол-во звонков Кол-во наблюдений Процент 1 2 3 4 3 3/20 = 0.15 4 4/20 = 0.20 8 8/20 = 0.40 5 5/20 = 0.25 Всего: 20 На основании этих наблюдений следует: если Событие А = Джон покинет постель по первому звонку будильника, тогда Р[А] = 0.15. Используя предыдущую таблицу, мы можем также определить вероят- ность и других событий. Предположим, Событие В = Джону требуется более 2 звонков, чтобы выбраться из постели. Тогда Р[В] = 0.40 4- 0.25 = 0.65. Это- му парню следует ложиться спать пораньше! Если я проведу еще один эксперимент по изучению поведения Джона за 20 дней, результаты, вероятнее всего, будут иными, чем в предыдущем случае. А если бы мне пришлось изучить его поведение в течение 100 дней, относительные час- тоты почти сравнялись бы с классичес- кими вероятностями. Такой сценарий получил название закона больших чисел. 41- ^ Закон больших чисел гласит, что когда эксперимент прово- дится большое число раз, эмпиричес- кая вероятность этого процесса стре- мится к классической.
Чтобы продемонстрировать вам действие этого закона, предположим, что я трижды подбросил монетку, и каждый раз она выпадала «орлом» вверх. Для данного эксперимента эмпирическая вероятность выпадения орла равняется 100%. Но если бы я подбросил монету 100 раз, эмпирическая вероятность оказалась бы гораздо ближе к классической вероятности в 50%. Субъективная вероятность Субъективная вероятность используется тогда, когда классическую и эмпи- рическую вероятности применить невозможно. В этом случае при оценке ве- роятности мы вынуждены полагаться на опыт и интуицию. Примерами субъективной вероятности могут служить следующие вопро- сы: «Какова вероятность того, что мой сын Брайан попросит мою новую ма- шину с шестиступенчатой коробкой передач, чтобы отправиться на школь- ный бал?» (97%) или «Какова вероятность того, что я получу назад свою ма- шину со всеми б работающими передачами?» (18%). Эти вероятности осно- вываются на моих личных наблюдениях, когда во время поездки на машине я слышал подозрительные шумы в области коробки передач, от которых я весь похолодел и которые до сих пор преследуют меня в ночных кошмарах. В подобной ситуации я вынужден прибегать к субъективной вероятности, ведь моя бедная машина не пережила бы нескольких подобных экспериментов. Основные свойства вероятности Следующий наш шаг — это ознакомление с основными правилами теории вероятности. Ф Если Р[А] = 1, то Событие А точно произойдет. Пример События А = Дебби в этом месяце купит пару туфель. Ф Если Р[А] = 0, то Событие А произойдет врядли. Пример События А = Боб, наконец, закончит в подвале ремонт, начатый три года назад. Ф Вероятность События А должна быть между 0 и 1. Ф Сумма всех вероятностей событий выборочного пространства должна равняться 1. Например, если экспериментом является подбрасывание монеты при Событии А = орел и Событии В = решка, то А и В представ- ляют собой все выборочное пространство. Мы также знаем, что Р[А] + Р[В] = 0.5 + 0.5 = 1. Ф Дополнение События А определяется как все исходы в пределах выбо- рочного пространства, которые не являются частью События А, и обо- значается А1. Используя это определение, мы можем утверждать следу- ющее: Р[А] + Р[А'] = 1 или Р[А] = 1 - Р[А']. Например, если экспериментом является подбрасывание одной шести сто- ронней кости, то выборочное пространство показано на рисунке 6.1.
Рис. 6.1 Выборочное пространство для эксперимента с одной костью. Если Событие А — выпадение 1, тогда Событие А' = выпадение 2, 3, 4, 5 или 6. Получаем следующее: 1 Р[А]=—=0.167 Р[А’] = 1 - 0.167 = 0.833. До настоящего момента все примеры в этой главе были случаями простой вероятности, определяемой как вероятность единичного события. В следую- щих разделах все понятия будут применяться к более чем одному событию. Пересечение событий Порой интерес для нас представляет вероятность комбинации событий, а не единичного события. В целях демонстрации данной методики я составил таб- лицу, представленную ниже, в которой вы увидите распределение частот оценок 50 студентов моего класса. Оценка Количество студентов А 18 В 22 С 10 Всего: 50 Следующая таблица, называемая факторной, разбивает распределение оценок по половому признаку. Факторная таблица для распределения оценок Оценка Мужской Женский Всего А 8 10 18 В 14 8 22 С 6 4 10 Всего 28 22 50
Факторные таблицы показывают фактическую или относительную часто- ту двух типов данных одновременно. В данном случае типами данных явля- ются мужской и женский пол. Предположим, студент выбирается из этой группы случайным путем, то есть все студенты имеют равные шансы быть выбранными. Будем исходить из предположения, что в моей группе нет «любимчиков». Определим Собы- тия А и В. Событие А = выбранный студент получил высшую оценку Ф Событие В = выбранный студент оказался студенткой. Воспользуемся предыдущей таблицей для вычисления простой вероятнос- ти того, что выбранный студент получил высшую оценку: 1Я Р[А] = —=0.36. 50 Вероятность того, что будет выбрана студентка, рассчитывается так: 22 Р[В]=—=0.44. 50 Какова же вероятность того, что выбранный студент окажется представи- тельницей прекрасного пола и получил высшую оценку? Такое событие на- зывается пересечением Событий А и В и обозначается А В. Количество сту- денток, получивших высшую оценку, исходя из нашей факторной таблицы, равняется 10, поэтому: 10 Р[Аи В] =Р[А пВ] = ~^=0.20. Вероятность пересечения двух событий называется суммарной вероятно- стью. Пересечение Событий А и В можно также описать с помощью рисунка 6.2, известного как диаграмма Венна. | Термины Факторная таблица показывает число наблюдений, распределенных в соответ- ствии с двумя переменными. Пересечением Событий А и В называется количе- ство одновременных реализаций Событий А и В (то есть один и тот же студент является представителем прекрасного пола и получает высшую оценку). Вероятность пересече- ния двух событий - это суммарная вероятность. Диаграмма Венна изображает две или более пересекающихся окружностей, отражающих отношение между несколькими событиями.
Круг, обозначающий Событие А, представляет 18 студентов, получивших «пятерки», а круг, обозначающий Событие В, — 22 студентки. Заштрихован- ная область пересечения кругов представляет 10 студентов, которые одно- временно принадлежат к слабому полу и получили высшую оценку. Рис 6.2 Заштрихованная область — это пересечение Событий А и В. Объединение событий: брак, заключенный на небесах Объединение Событий А и В — это все реализации либо События А, либо События В, либо обоих событий одновременно. Обозначается А В. В соответ- ствии с предыдущим примером, таблица ниже показывает 4 группы студен- тов, которые либо являются студентками, либо получили высший балл. Оценка Пол Количество студентов А Male 8 А Female 10 В Female 8 С Female 4 Всего: 30 Термины------------------ Объединением Событий А и В на- зывается количество реализаций Событий А или В (то есть количество студен- тов, которые либо принадлежат к женскому полу, либо получили высшую оценку). ) Эврика! Вероятность пересечения двух собы- тий никогда не может превышать ве- роятность объединения двух собы- тий. Если ваши вычисления свидетель- ствуют об обратном, значит, вы допу- стили ошибку! Таким образом, вероятность того, что выбранный студент окажется сту- денткой или получит высшую оценку, вычисляется следующим образом: 30 Р[А или В] = Р[А иВ] = — =0.60 50 , Объединение Событий А и В мо- жет также быть представлено с помо- щью диаграммы Венна, показанной на рисунке 6.3. Заштрихованные области пред- ставляют либо студентов, получив- ших высшую оценку (Круг А), или студенток (Круг В). О том, как вычис- лять вероятность объединений и пе- ресечений, вы узнаете в Главе 7.
Рис. 6.5 Заштрихованные области являются объединением Событий А и В. Ваша очередь 1. Определите тип вероятности: классическая, эмпирическая или субъек- тивная. а. Вероятность того, что бейсболист Самми Соса сделает успешный удар во время своего хода. Ь. Вероятность выпадения туза из колоды карт. с. Вероятность получения мной менее 90 очков во время следующего раунда игры в гольф. d. Вероятность выигрыша в следующем тираже государственной ло- тереи. е. Вероятность выхода из строя ременной передачи моей газоноко- силки этим летом (она действительно вышла из строя). f. Вероятность того, что я успею завершить написание этой книги до установленного срока. 2. Определите, какие из представленных ниже вариантов являются веро- ятностями. а. 65% Ь. 1.9 с. 110% d. - 4.2 е. 0.75 f. о 3. Среди 125 семей был проведен опрос относительно наличия доступа в Интернет из дома. Семьи сгруппированы по признаку расовой принад- лежности. Ниже представлена таблица факторов. Расовая принадлежность Есть доступ Нет доступа Всего Европейская 15 22 37 Азиатско-американская 23 18 41 Афроамериканская 14 33 47 Всего: 52 73 125
4. Произведен случайный выбор семьи из опроса. Дадим определение. Событие А: выбранная семья имеет дома выход в Интернет. Событие В: выбранная семья принадлежит к азиатско-американской расе. а. Определите вероятность того, что выбранная семья имеет доступ в Интернет. Ь. Определите вероятность того, что выбранная семья принадлежит к азиатско-американской расе. с. Определите вероятность того, что выбранная семья имеет доступ в Интернет и принадлежит к азиатско-американской расе. d. Определите вероятность того, что выбранная семья имеет доступ в Интернет или принадлежит к азиатско-американской расе. Повторение - мать учения Ф Классическая вероятность требует знания о происходящем процессе с целью подсчета количества возможных исходов интересующего собы- тия. Ф Эмпирическая вероятность опирается на исторические данные, полу- ченные из распределения частот, для определения возможности реали- зации события. Ф Закон больших чисел гласит, что когда эксперимент проводится боль- шое количество раз, эмпирическая вероятность процесса стремится к классической вероятности. Ф Пересечение Событий А и В представляет собой количество одновре- менных реализаций Событий А и В. Ф Объединением Событий А и В называется количество реализаций Со- бытия А или События В.
Глава И снова о вероятности В этой главе Ф Вычисление условных вероятностей Ф Различия между зависимыми и независимыми событиями Ф Использование правила умножения вероятностей Ф Определение взаимоисключающих событий Ф Использование правила сложения вероятностей Ф Использование теоремы Байеса для вычисления условных вероятностей Добравшись до второй из трех глав, посвященных понятиям вероятности, мы готовы к решению новых непростых задач. Для этого нам необходимо вооружиться понятиями, освоенны- ми в Главе 6, и пустить их в ход, чтобы подняться на одну сту- пеньку вверх по лестнице знаний. Не уподобляйтесь мне и не пугайтесь высот, просто смотрите впер.ед! В этой главе речь пойдет об умелом обращении с вероятнос- тями различных событий. По мере поступления новой инфор- мации о событиях мы будем возвращаться к полученным ранее данным и извлекать из них еще большую пользу. Порой это приводит к самым неожиданным результатам, и в этом вы ско- ро сами убедитесь! v цц 1 v ‘ J??
Условная вероятность Условной называется вероятность События А при условии, что Событие В уже произошло. Для наглядности воспользуемся следующим примером. Дебби — большая любительница тенниса, и мы частенько играем друг против друга. Но взгляды на игру у нас совершенно разные. Супруге нравится прово- дить длительную разминку перед началом самой игры, и мне всегда приходится ломать голову над тем, кто выигрывает и какой счет. Мое представление о раз- минке иное: затянуть пояс, зашнуровать кроссовки и морально подготовиться к игре. Я расцениваю каждый теннисный турнир как испытание моей мужской силы, и разминка не имеет ничего общего с триумфом побед и горечью пораже- ний. Ничего не могу с собой поделать; должно быть, это типичное мужское по- ведение, сформировавшееся в ходе многовековой истории. А Дебби утвержда- ет, что без основательной разминки ей не удается хорошо сыграть. А я говорю, что такие заявления безосновательны, и сейчас я это докажу. В таблице ниже представлены результаты последних 20 игр с указанием типа разминки. Факторная таблица для результатов игры в теннис Время разминки Выигрыши Дебби (А) Выигрыши Боба (Аг) Всего Менее 10 минут (В) 4 9 10 и более минут (В') 5 2 Всего 9 11 13 7 20 Для нас интерес представляют определенные события. Ф Событие А = Дебби одерживает победу в игре. Ф Событие В = разминка длится менее 10 минут. Ф Событие А' = Боб одерживает победу в игре. Ф Событие В' = разминка длится 10 или более минут. Не имея никакой дополнительной информации, мы можем рассчитать простую вероятность следующим образом: 9 13 РГА] =—=0.45 РГВ] =—=0.65 20 20 И 7 Р[А] =—=0.55 Р[А'] =—=0.35. J 20 20 Поскольку подобные вероятности мы еще никак ранее не обозначали, я припас для вас название для них. Вероятности, полученные из информации, имеющейся в наличии в текущий момент, носят название априорных.
Термины Простая, или априорная, ве- роятность всегда базируется на общем количестве наблюдений. В предыдущем примере это 20 матчей. Вы можете задаться вопросом: «О какой другой информации говорит этот человек?» Предположим, мне извест- но, что разминка продолжалась менее 10 минут. Обладая этой информацией, могу ли я рассчитать вероятность того, что Дебби выиграет? В этом случае речь идет об условной вероятности Со- бытия А с учетом того, что Событие В уже произошло и нам об этом известно. Взглянув на предыдущую таблицу, мы увидим, что Событие В произошло 13 раз. Поскольку Дебби одержала победу в 4 из этих матчей (А), вероятность События А при известном значении В вычисляется так: 4 Р[А/В]=—=0.31. Дебби не сильно обрадуется, увидев такой результат. Мы также можем рассчитать вероятность выигрыша Дебби при продолжи- тельности разминки 10 или более (практические целая вечность) минут. Если следовать данным, представленным в предыдущей таблице, такие марафонские разминки имели место 7 раз, а Дебби выиграла 5 из таких матчей. Поэтому: Р[А/В’] =|=0.71. Шансы Боба выглядят не слишком обнадеживающе. Надо бы припрятать эту главу от своего корректора. И вновь я введу в обиход жаргонное словечко. Условную вероятность иногда называют апостериорной. Можно сказать, что она является перера- ботанным вариантом априорной вероятности с учетом дополнительной ин- формации. Например, априорная вероятность выигрыша Дебби составляет Р(А] = 0.45. Но имея на руках инфор- мацию о том, что разминка продолжа- лась 10 или более минут, мы пересчи- тываем вероятность выигрыша моей супруги и получаем Р[А/В’] = 0.71. Условная вероятность необходима для расчета вероятностей составных событий, в чем вы и убедитесь после изучения следующих разделов. Термины --------------- Условная вероятность - это вероятность События А, если известно, что Событие В уже произо- шло. Условную вероятность также на- зывают апостериорной. Независимые и зависимые события События А и В считаются независимыми друг от друга, если реализация События В никак не влияет на Событие А. Используя условную вероятность, получаем, что События А и В независимы друг от друга, если:
Р[А/В] = Р[А] s Термины События А и В считаются не- зависимыми друг от друга, если Событие В происходит, не ока- зывая влияния на вероятность Собы- тия А. Если События А и В не Являют- ся независимыми друг от друга, тог- да они считаются зависимыми. Если События А и В не являются независимыми друг от друга, они счита- ются зависимыми событиями. В примере с теннисом События А и В зависят друг от друга, поскольку ве- роятность выигрыша Дебби напрямую зависит от того, продолжается ли раз- минка 10 или более минут. Наглядная демонстрация моего заявления под- тверждается следующими вычислениями: 9 4 Р[А]=—=0.45 и Р[А/В] = — =0.31. Полученные вероятности свидетельству- ют о том, что в целом Дебби выигрывает 45% игр, а при короткой разминке — всего 31% игр. Поскольку эти вероятности не рав- ны, События А и В являются зависимыми. Примером двух независимых событий 1 является результат выброса 2 костей. Ф Событие А: выпадение «4» на первой { из двух костей. Ф Событие В: выпадение «6» на второй кости. | Простая вероятность для этих событий рассчитывается так: J 1 1 1 Р[А] =-=0.167 и Р[В]= — = 0.167. i 6 6 1 Даже если мы знаем, что на первой кости выпадает «4», вероятность выпа- дения «6» на второй кости никоим образом не зависит от этого, поскольку ко- | сти, как правило, не обладают особыми умственными способностями и не ин- | тересуются тем, что происходит вокруг. С учетом этого получаем следующее: | 1 3 Р[В/А] = Р[В]= —=0.167. I 6 . i Таким образом, События А и В являются независимыми друг от друга. Правило умножения вероятностей Правило умножения вероятностей используется для вычисления суммарной 1 вероятности двух событий. Другими словами, мы вычисляем вероятность этих событий, происходящих одновременно. В Главе 6 это называлось пере- сечением двух событий. Для двух независимых событий правило умножения i выглядит следующим образом:
Р[Аи В] = Р[А]* Р[В] Вспомните из предыдущей главы, что выражение Р[А и В] называется сум- марной вероятностью Событий А и В. Например, мы можем использовать правило умножения для вычисления суммарной вероятности выпадения «1» на каждой из двух костей. Определя- ем события. Ф Событие А = выпадение «1» на первой кости. Ф Событие В = выпадение «1» на второй кости. Поскольку эти события точно являются независимыми, мы можем рассчи- тать вероятность того, что они выпадут одновременно: Р[Аи В] = 1 1-J_ 6 б”3б‘ Если два события являются зависимыми, правило умножения выглядит следующим образом: Р[АиВ] = Р[А/В]*Р[В]. Продемонстрируем, как выглядит правило умножения для зависимых событий. Для этого вернемся к приме- ру с теннисом и вычислим вероят- ность Р[А и В] того, что Дебби одержит победу при разминке продолжитель- ностью менее 10 минут (из получен- ных ранее результатов): Термины---------------- Для зависимых событий прави- ло умножения гласит, что Р[ А и В] = Р[А / В] * Р[В]. Если события ЯВЛЯ- ЮТСЯ независимыми, правило умноже- ния упрощается: Р[А и В] = Р[А] * Р[В] Р[В] = 0.165 и Р[А/В] =0.31 Р[А и В] =0.65 * 0.31 Р[А/В]=0.2. Мы можем подтвердить этот ре- зультат, вернувшись к первоначаль- ной факторной таблице, в которой увидим, что из 20 матчей Дебби одер- жала победу в четырех при короткой разминке. Таким образом: 4 Р[АиВ]=—=0.20. Эврика!------------------- Правило умножения может быть изменено алгебраически для вычисления условной вероятно- сти События В при реализации Событии А. Уравнение будет выглядеть так: Р[А/В]= Р[АиВ1 Р[В] Возможно, Дебби где-то права, выражая недовольство. Интересно, она когда-нибудь устает от собственной правоты?
Взаимоисключающие события Два события считаются взаимоисключающими, если в рамках одного экспе- римента они не могут происходить одновременно. Предположим, что экспе- римент состоит в том, чтобы кинуть одну кость, а интересующие нас события определим просто. Ф Событие А: выпадение «1». Ф Событие В: выпадение «2». Поскольку эти события ни при каких обстоятельствах не могут происходить одновременно, они считаются взаимоисключающими. Диаграмма Венна, пред- ставленная ниже, показывает взаимоисключающие События А и В (Рис.7.1). Рис 7.1 События А и В являются взаимоисключающими. Термины Два события являются взаи- моисключающими, если в рамках эксперимента они не могут происходить одновременно. События, которые могут происходить одновременно, соответственно, не явля- ются взаимоисключающими. В примере с теннисом События А и В не являются взаимоисключающими, поскольку Деб- би может выиграть матч (А) при размин- ке продолжительностью менее 10 минут (В) в одном и том же эксперименте. Представленная ниже диаграмма Венна показывает События А и В, которые не являются взаимоисключающими (Рис.7.2). Рис7.2 События А и В не являются взаимоисключающими. Область пересечения двух кругов свидетельствует о том, что События А и В могут происходить одновременно. Правило сложения вероятностей Правило сложения вероятностей используется для вычисления вероятности объединения событий, то есть вероятности того, что произойдет Событие А
или Событие В. Для двух взаимоис- ключающих событий правило сложе- ния выглядит так: Р[АилиВ] = Р[А] + Р[В], Выберем взаимоисключающие со- бытия для примера с одной костью. Ф Событие А: выпадение «1». Ф Событие В: выпадение «2». Термины--------:_______ Для взаимоисключающих со- бытий правило сложения гла- сит, что Р[А или В] = Р[А] + Р[В]. Если события не являются взаимоисключа- ющими, правило сложения меняется следующим образом: Р[А или В] = Р[А] + Р[В] - Р[А и В]. Простые вероятности.вычисляются следующим образом: 1 1 Р[А]=—=0.167 и Р[В]=- =0.167. .6 6 Вероятность выпадения «1» или «2» вычисляется так: Р[А или В] = Р[А] + Р[В] = 0.334. Для событий, не являющихся взаимоисключающими, правило сложения выглядит так: Р[АилиВ] = Р[А] + Р[В] - Р[АиВ]. Вернемся к примеру с теннисом. Ф Событие А = Дебби одерживает победу в матче. Ф Событие В = разминка продолжается менее 10 минут. Вспомним, что: Р[А] = 0.45 Р[В] = 0.65 Р[АиВ] = 0.2. Таким образом, вероятность выигрыша Дебби или непродолжительной разминки получается следующей: Р[А или В] = Р[А] + Р[В] - Р[А и В] Р[АилиВ] =0.45 + 0.65 — 0.2= 0.90. Смысл вычитания Р[А и В] в правиле сложения состоит в том, чтобы из- бежать двойных расчетов. Наглядно это представлено в таблице ниже, в ко- торой распределение частот преобразовано в распределение относитель- ных частот.
Распределение относительных частот для примера с теннисом Время разминки Вый^рыши Дебби Выигрыши Боба Всего Менее 10 минут 4/20 = 0.20 9/20 - 0.45 12/20 - 0.65 10 и более минут 5/20 = 0.25 2/20 = 0.10 7/20 = 0.35 Всего 9/20 = 0.45 11/20 = 0.55 20/20 = 1.00 Объединение Событий А и В представлено на рисунке 7.3. Рис. 7.3 Время разминки Выигрыши Дебби Выигрыши Боба Всего Объединение Менее 10 минут 0.20 0.45 0.65 | Событий А и В 10 и более минут 0.25 0.10 0.35 Всего 0.45 0.55 1.00 ) Эврика! г Преобразуя частоты в отно- сительные частоты с помо- 9 щью факторных таблиц, все- гда делите каждое число в таблице на общее количест- во наблюдений. В предыдущем примере это 20 матчей. Вероятность выигрыша Дебби (Событие А) представлена прямоугольником в пер- вом столбце. Вероятность непродолжитель- ной разминки (Событие В) представлена прямоугольником в первой строке. Склады- вая Р[А] + Р[В], то есть первый столбец плюс первая строка на рисунке 7.3, мы тем самым дважды вычисляем Р[Аи В] = 0.20 и поэтому должны вычесть эту сумму в пра- виле сложения для событий, не являющих- ся взаимоисключающими. Суммируем полученные сведения Прежде чем переходить к последнему разделу по вероятности в этой главе, давайте вернемся назад и посмотрим, каких результатов мы уже достигли. На рисунке 7.4 представлены простые, суммарные и условные вероятности распределения относительных частот для примера с теннисом. Обратите внимание на определение событий. Ф Событие А' = Боб одерживает победу. Ф Событие В’ = разминка продолжается 10 или более минут. Условные вероятности раскрывают секрет моего успеха на корте. Вероят- ность моего выигрыша после непродолжительной разминки, Р[А'/В], состав- ляет 0.69, а вероятность выигрыша моей соперницы после длительной раз- минки, Р[А7В'], составляет 0.29. Воистину я должен был избрать другой при- мер для этой главы.
Время разминки Выигрыши Боба Всего (А) Выигрыши Дебби (А) Менее 10 минут (В) 10 и более минут (В’ 0.20 0.45 0.25 0.10 | 0.45 0.55 0.65 Рис. 7.4 Суммируем вероятности для примера с теннисом. Всего 0.35 1.00 Суммарные вероятности р[А и В] = 0.20 р[А и В] = 0.45 р[АиВ’] = 0.25 р[А’и В’] = 0.10 Простые вероятности р[А] = 0.45 р[А’] = 0.55 р[ В] = 0.65 р[В’] = 0.35 Условные вероятности Р[А/В]=^А-^ = ~—= 0.31 Р[В] 0.65 Р[А7В]=^^ = — = 0.69 L ' Р[В] 0.65 Р[А/В']=Р[АиВ]= =0.71 ' Р[В'] 0.35 Р[А'/В']= Р^-иВ-] =—=0.29 1 ' J Р[В] 0:35 Теорема Байеса Томас Байес (1701—1761) вывел формулу, позволяющую вычислить Р[В/А], исходя из информации о Р[А/В]. Теорема Байеса гласит: Р[В/А]— _______Р[В] Р[А/В]_______ (Р[В] Р[А/В]+Р[В] Р[А7В']) где: Р[ВГ] = вероятность дополнения События В, Р[А/В’] = вероятность События А при том, что дополнение к Событию В уже произошло. На первый взгляд это уравнение покажется чересчур громоздким, но да- вайте применим его к нашей задаче с теннисом, и все прояснится. С помо- щью теоремы Байеса мы можем рассчитать Р[В/А], то есть вероятность того, что разминка продолжалась менее 10 минут, зная, что Дебби одержала побе- ду. Используем полученные в предыдущем примере значения:
Р[В/А]= 0.65-0.31 (0.65-0.31)+(0.35 • 0.71) Р[В/А] = 0.20 0.20+0.25 0.20 0.20+0.25 Р[В/А]= Томас Байес был не только . великим математиком. Бу- дучи пресвитером исполь- зовал математические ме- тоды в изучении религии. Зная, что Дебби одержала победу, мы можем сказать, что существует 44%-ная вероятность, что разминка длилась менее 10 минут. Убедимся в правильности полученного результа- та с помощью первоначальной факторной таблицы. Поскольку Дебби выиграла 9 матчей, из которых в 4 случаях была проведена разминка, не превышаю- щая по времени 10 минут, получаем: 4 Р[В/А]=—=0.44. Вот так вот! Я рассчитываю на продолжительные аплодисменты. Ваша очередь Телефонный опрос 260 человек ставил своей целью узнать, насколько народ приветствует предлагаемый законопроект. Все опрошенные были разделены на демократов и республиканцев. Результаты опроса представлены в фак- торной таблице ниже. Партийная принадлежность За Против Всего Республиканцы 98 54 152 Демократы 79 29 108 Всего • 177 83 260 Один из опрошенных выбирается случайным образом. Ф Событие А: выбранный участник опроса одобряет новый законопроект. Ф Событие В: выбранный участник опроса — республиканец. 1. Определите вероятность того, что выбранный участник опроса одоб- ряет новый закон. 2. Определите вероятность того, что выбранный участник опроса являет- ся республиканцем.
3. Определите вероятность того, что выбранный участник опроса не одо- бряет нового закона. 4. Определите вероятность того, что выбранный участник опроса являет- ся демократом. 5. Определите вероятность того, что выбранный участник опроса одоб- ряет новый закон, если нам известно, что он республиканец. - 6. Определите вероятность того, что выбранный участник опроса не одо- бряет нового закона, если нам известно, что он республиканец. 7. Определите вероятность того, что выбранный участник опроса одоб- ряет новый закон, если нам известно, что он демократ. 8. Определите вероятность того, что выбранный участник опроса одоб- ряет новый закон и является республиканцем. 9. Определите вероятность того, что выбранный участник опроса одоб- ряет новый закон и является демократом. 10. Определите вероятность того, что выбранный участник опроса одоб- ряет новый закон или является республиканцем. И. Определите вероятность того, что выбранный участник опроса одоб- ряет новый закон или является демократом. 12. С помощью теоремы Байеса вычислите вероятность того, что выбран- ный участник опроса был республиканцем, если нам известно, что он одобрил новый закон. Повторение - мать учения Ф Условной^называется вероятность События А, если известно, что Собы- тие В уже произошло. Ф События А и В считаются независимыми друг от друга, если произошедшее Событие В никоим образом не влияет на Событие А. если События А и В не являются независимыми друг от друга, тогда они считаются зависимыми. Ф Для зависимых событий правило умножения гласит, что Р[А и В] = Р[А/В] * Р[В]. Если события являются независимыми, правило умноже- ния упрощается до: Р[А и В] — Р[А] * Р[В]. Ф Два события считаются взаимоисключающими, если в течение экспери- мента они ни при каких условиях не могут происходить одновременно. Ф Для взаимоисключающих событий правило сложения гласит, что Р[А или В] = Р[А] 4- Р[ВJ. Если события не являются взаимоисключающими, правило сложения выглядит так: Р[А или В] = Р[А] + Р[В] — Р[А и В]. Ф Теорема Байеса позволяет вычислить Р[В/А] на основе информации о Р[А/В] с помощью следующей формулы: Р[В]-Р[А/В] Р[В/А]= (Р[В]-Р[А/В]+Р[В’] Р[А/В'])
Глав®' ./ Принципы счета и распределение вероятностей В этой главе Ф Использование фундаментального принципа счета Ф Различие между перестановками и комбинациями Ф Определение случайной переменной и распределение ве- роятностей Ф Вычисление среднего и дисперсии дискретного распреде- ления вероятностей Что ж, мы добрались до последней из трех глав, посвященных общим вероятностным понятиям. Эта глава создаст основу для последних трех глав Части 2, в которых речь пойдет об опреде- ленных типах распределений вероятностей. А уж после этого мы с чистой совестью приступим к изучению статистики вывода. Эта глава также научит вас счету. Но этот счет не имеет практически ничего общего с тем, что вы видели на Улице Се- зам. Счет событий — это важный шаг при вычислении вероят- ностей и поэтому должен осуществляться особенно тщательно.
Принципы счета Классическая вероятность, с которой мы познакомились в Главе 6, требует умения подсчитывать количество интересующих нас событий, а также об- щее число событий, которые могут произойти в определенном выборочном пространстве. Для простых событий вроде кидания одной кости количество возможных исходов (всего их 6) очевидно. Но для более сложных событий, примером которых является розыгрыш государственной лотереи, нам при- дется положиться на особые методики, известные как принципы счета. В следующих трех разделах речь пойдет именно об этих методиках. Фундаментальный принцип счета В жаркий полдень после непростого матча по гольфу Брайан, Джон и я ре- шаем восстановить утраченные силы посредством посещения магазина мо- роженого, расположенного по дороге домой. Не успел я зайти в магазин, как уже теряюсь в догадках, какой из 4 наполнителей и какую из 3 обливок выбрать. Сколько существует возможных комбинаций наполнителя и обли- вок мороженого? И тут мне на помощь приходит фундаментальный прин- цип счета, который гласит, что если одно событие (выбор наполнителя мо- роженого) может иметь т вариаций, а второе (выбор обливки) — п вариа- ций, то общее количество вариаций обоих событий, происходящих вместе, равно т * п. В моем случае это 4 * Термины---------------- В соответствии с фундамен- тальным принципом счета, если одно событие может иметь т ва- риаций, а второе - п вариаций, общее количество вариаций обоих событий, происходящих одновременно, равня- ется т*п. Этот принцип применим и к большему количеству событий. 3=12 комбинаций наполнителя и обли- вок, способных пустить коту под хвост всю мою диету. (Оставлю эту тему для другой главы.) Этот принцип распространяется и на большее количество событий. Помимо наполнителей и обливок, мне предсто- ит сделать выбор между маленькой и большой порцией. Таким образом, я по- лучаю в свое распоряжение просто не- вероятное количество комбийаций, равное 4*3*2 = 24, которые суммиро- ваны в таблице прямо после списка ва- риантов. Наполнители мороженого Ш — смерть от шоколада В — ванильное К — клубничное Кф — кофейное
Обливки СП — сливочная помадка БС — баттерскотч (ирис из сливочного масла и жженого сахара) КК — карамельные крошки Размер М — маленький Б — большой Список комбинаций (наполнитель-обливка-размер) Ш-СП-Б В-СП-Б К-СП-Б Кф-СП-Б Ш-СП-М В-СП-М К-СП-М Кф-СП-М Ш-БС-Б В-БС-Б К-БС-Б Кф-БС-Б Ш-БС-М В-БС-М К-БС-М Кф-БС-М Ш-КК-Б В-КК-Б К-КК-Б Кф-КК-Б Ш-КК-М В-КК-М К-КК-М Кф-КК-М Попробуйте догадаться, на чем остановил свой выбор любитель шоколада? Еще один пример использования фундаментального принципа счета — это вычисление количества уникальных комбинаций государственных авто- мобильных номерных знаков. Предположим, что номерной знак состоит из 3 букв, за которыми следуют 4 цифры. Цифра «0» и буква «О» не используют- ся, поскольку их схожий внешний вид может ввести в заблуждение. По- скольку английский алфавит содержит 25 букв (без «О») и мы имеем 9 цифр (без «0»), общее количество уникальных комбинаций рассчитывается следу- ющим образом: Первая буква Вторая буква Третья буква Первое число Второе число Третье число Четвертое число 25* 25* 25* 9* 9* 9* 9 = Всего получаем 102 515 625 возможных комбинаций! Перестановки Перестановками называется количество различных способов расположения объектов. Каждая перестановка встречается только один раз. Количество пе- рестановок п отдельных объектов равняется п! (читается как п факториал) и вычисляется следующим образом: л!==л*(л-1)*(л-2)*(л-3) *---*4 * 3 * 2 *1
Термины Перестановки-размещения - это количество различных способов представления объектов в различном порядке. Количество пере- становок п объектов, взятых г за раз, рассчитывается как: лРг=———— (и-г)! По определению 0! = 1. Например, 6! = 6*5*4*3*2*1 = 720. В качестве при- мера: существует 6 перестановок для чисел 1, 2, 3, которые показаны ниже: 123 132 213 231 312 321. Поскольку: 3! =3*2*1 = 6. Перед началом профессионального баскетбольного матча первые 5 игро- ков объявляются по 1 за раз. Сколько существует способов объявления игроков? Количество перестановок состав- ляет 5! = 5*4*3*2*1 = 120. Предположим, мы хотим выбрать отдельные объекты из группы. Количе- ство перестановок п объектов, взятых г за раз, определяется так: пРт= п! (n-r)l’ Эврика! Проще вычислять количество перестановок-размещений с помощью такой формулы: л! лРг=------=л*(л-1) *(л-2) *•••*( л —г+1). (л-г)! ' Эта формула действует потому, что каждое значение в знаменателе (нижняя часть дроби) сводит на нет множество значений в числителе (верхняя часть дроби). Но вернемся к нашему примеру с бейсболистами. Если всего в команде 12 игроков, сколько существует способов представления любых 5 игроков в на- чале игры? В этом случае п = 12, а г = 5, поэтому количество перестановок получится следующее: 12! 12*11*10*9*8*7*6*5*4*3*2*1 12 * 5 ~ (12-5)! “ 7*6 *5 *4 *3*2*1 121 R =----— =12*11*10*9 *8 =95 040. 5 (12-5)! Я очень рад, что не мне решать, кого объявлять первым! Иногда порядок событий не имеет особого значения. Такие случаи рассма- триваются в следующем разделе.
Термины----------------- Комбинациями называют ко- личество различных способов представления объектов без учета по- рядка. Количество комбинаций п объ- ектов, взятых гза раз, определяется так: Комбинации Комбинации подобны перестановкам с } тем лишь исключением, что порядок 1 объектов здесь не имеет значения. Коли- ? чество комбинаций п объектов, взятых г за раз, определяется так: (п-г)г! Эврика!---------------------------------------------------- Проще вычислять количество комбинаций с помощью такой формулы: С п! n*(n-l)*(n-2)*"-*(n-г+1) (п-г)г’ г! 1 1 I Логика та же, что и в формуле с перестановками. Например, в покере из колоды в 52 карты случайным образом выбирают 5 карт. Сколько существует комбинаций из пяти карт? 52С5 = -52!- -52*51*50*49*48 (52-5)15! 5 *4 *3*2*1 Сколько существует перестановок из пяти карт? 52’ „ В =---— = 52 *51 *50 *49 *48 =311875 200 5 (52-5)! Перестановок из пяти карт получается больше, поскольку следующие кар- | ты на руках в покере считаются двумя различными перестановками, но счи- таются одной комбинацией, поскольку это те же самые карты, но располо- * женные в другом порядке: I Набор карт 1 Пиковый туз Червовая дама Десятка пик Десятка бубен Тройка треф Набор карт 2 Пиковый туз Десятка пик Червовая дама Десятка бубен Тройка треф
Теперь, когда мы знаем общее количество комбинаций из пяти карт в ко- лоде из 52 карт, мы можем вычислить вероятность флэша, то есть все 5 карт одной масти (пики, трефы, бубны или червы). Сначала нам необходимо вы- числить количество флэшей одной масти, например, бубен. Поскольку в ко- лоде количество карт бубновой масти равняется 13, количество выпадений по 5 карт будет рассчитываться так: С -.... 13! 13 5 (13-5)15! 13*12*11*10* 9 --------------= 128 т 5 * 4 *3 *2 * 1 Поскольку в колоде 4 масти, общее количество вариантов флэш из пяти карт любой масти будет равняться: 1287*4 = 5148. Следовательно, вероят- ность сдачи флэша в наборе из 5 карт будет: Р[Флэш] = 5148 2598960 =0.002. То есть примерно дважды на 1000 раздач'при игре в покер. Готовы сдавать Эврика! В других книгах вы можете встретить иное обозначение С Статисты обожают обзаводиться не- сколькими обозначениями одного и то- го же понятия! карты? С помощью комбинаций удобно вычислять вероятность выигрыша в лотерее. При участии в обычной лоте- рее вам необходимо выбрать 6 чисел из возможных 49. Поскольку порядок расположения чисел не играет роли, мы пользуемся формулой для вычис- ления комбинаций, а не перестано- вок. Количество шестизначных ком- бинаций из 49 возможных чисел по- лучается так: 49! 49*48*47*46*45*44 ла Q. =-----=------------------=13 983 816. 6 (49-6)!6! 6*5*4*3*2*1 Поскольку всего существует около 14 миллионов возможных шестизнач- ных комбинаций, вероятность выигрыша вашей комбинации будет рассчи- тываться следующим образом: 1 Р[выигрыш в лотерее 6 из 49] = -------=0.00000007. 13983816
106 Часть 2: Изучаем вероятность .Внимание! ------------------------------------------------------- Вероятность не обладает памятью. Это значит, что 6 чисел, выпавших в розыгрыше лотереи на прошлой неделе, имеют ту же вероятность выпадения на этой неделе. Это объ- ясняется тем, что два розыгрыша являются независимыми событиями и совершенно не вли- яют друг на друга. Поэтому выбор 6-значного номера лишь по причине его невыпадения за последнее время нисколько не увеличивает ваши шансы на выигрыш. Простите, если с мо- ей подачи рухнули ваши надежды на скорый выигрыш. С такими шансами на победу вам, право, не стоит пока отказываться от че- стного заработка. Использование Excel для вычисления перестановок и комбинаций У меня для вас хорошая новость: вместо того чтобы возиться со всеми этими факториалами, мы можем использовать Excel для вычисления ко- личества перестановок и комбинаций. В одном из приведенных выше примеров мы подсчитали, что 12Р5 = 95 040. Подтвердим этот результат с помощью встроенной функции ПЕРЕСТ со следующими характеристи- ками: ПЕРЕСТ(п, г) На рисунке 8.1 показано, как выглядит функция ПЕРЕСТ для 12Р5. Рис 8.1 Функция ПЕРЕСТ программы Excel. Ячейка А1 содержит формулу программы Excel = ПЕРЕСТ(12,5) с резуль- татом — 95 040. А теперь попробуем с помощью Excel посчитать количество комбинаций. Вспомним, что 49С6 = 13 983 816. Используем функцию ЧИСЛКОМБ со еле- * дующими характеристиками: - ЧИСЛКОМБ(п,г) На рисунке 8.2 показана функция ЧИСЛКОМБ для 49Сб.
Рис. 8.2 Функция ЧИСЛКОМБ программы Excel. Ячейка Al содержит формулу программы Excel = ЧИСЛКОМБ(49,6) с ре- зультатом — 13 983 816. Вот видите, я говорил, что новость будет хорошая. идя Шансы выиграть в лотерее так ничтожно малы, что трудно даже определить вероятность вы- игрыша. Пример с лотереей «6 из 49»: если бы я покупал лотерейный билет каждый день в течение целого года, вероятность моего выигрыша составляла бы один раз за 38 312 лет. Заметим, что 38 000 лет тому назад люди жили в пещерах каменного века, и я не уверен, что мне хотелось бы ждать выигрыша столько времени, сколько бы денег я ни получил. На этом мы завершаем разговор о принципах счета. Многие из вас, долж- но быть, удивлены тем, как сложно считать события. Обращу ваше внимание на то, что это очень важное понятие в статистике, к которому мы еще обра- тимся в Главе 9. Распределения вероятностей Этот раздел Главы 8 подготовит вас к изучению последних трех глав Части 2. Нам необходимо проделать некоторую предварительную работу в отноше- нии распределения вероятностей, прежде чем мы перейдем к обсуждению определенных типов вероятностей, описанных в Главах 9, 10 и 11. В общем, распределение вероятностей — это перечень всех возможных ис- ходов эксперимента вместе с относительной частотой или вероятностью каж- дого исхода. В качестве примера рассмотрим следующий: дважды подбросить монетку и зафиксировать количество «орлов» (О). Выборочное пространство для данного эксперимента представлено в таблице ниже (решка — Р). Первая монета Вторая монета Количество «орлов» О О 2 О Р 1 Р О 1 Р Р 0
В представленной ниже таблице показано распределение относительных частот для количества «орлов». Количество «орлов» Частота Относительная частота 0 1 1/4 = 0.25 1 2 2/4 = 0.50 2 1 1/4 = 0.25 Всего = 4 Всего = 1.00 Эврика!------------------ Распределения вероятностей играют весьма значительную роль в статистике вывода. Чет- кое понимание этого вопроса является неотъемлемой частью успешного понимания статистики. В предыдущей таблице представлено распределение вероятностей для коли- чества «орлов» дважды подброшенной монетки. Так, вероятность выпадения двух «орлов» в результате двух подбра- сываний равняется 25%. Перед тем как перейти к детальному изучению распределений вероятностей, нам необходимо ввести несколько ос- новных терминов. Случайные переменные В Главе 6 мы говорили о проведении экспериментов с целью получения данных. Примерами экспериментов было кидание костей и игра в теннис с супругой. Исходы этих экспериментов считаются случайными переменными. По опреде- лению, эти исходы неизвестны нам с точностью до момента проведения экспе- римента. Но с помощью теории вероятности и статистики мы зачастую можем делать предположения относительно вероятности определенных исходов. На- I Термины Случайная переменная - это исход, приобретающий чис- ленное значение в качестве результа- та эксперимента. До момента прове- дения эксперимента значение нельзя предугадать. Значение случайной пе- ременной часто обозначается х. На- пример, в случае с киданием одной кости получаем: Р[х = 1] = |. о пример, я не могу с точностью предуга- дать результат кидания кости, но я знаю, что вероятность выпадения «1» составля- ет 1/6. В этом случае случайной перемен- ной является число, которое выпадет. Все случайные переменные создают- ся неравнозначными. Первый тип носит название непрерывных случайных пере- менных, являющихся результатом изме- рения на непрерывной числовой пря- мой. Например, каждое утро, когда я де- лаю глубокий вдох и встаю на весы в ванной, чтобы взвеситься (сделав глубо- кий вдох и задержав воздух, я чувствую, как мой вес становится больше), я с ужа-
сом и недоверием взираю на непрерывную случайную переменную. (Воз- можно, мне следовало бы остановить свой выбор на маленькой порции мо- роженого.) Примером значений для непрерывной случайной переменной этого типа являются 180, 180.5, 183.2 и т.д. (На этом я, пожалуй, останов- люсь.) Поскольку это и есть непрерывная случайная переменная, мой утрен- ний вес может принять бесчисленное количество возможных значений, и это весьма печально. Второй тип случайной переменной — дискретная. Дискретные случайные переменные являются результатом подсчета исходов, а не их измерения. Та- кие переменные могут принять определенное количество целых значений в пределах интервала. Примером дискретной случайной переменной является результат моей игры в гольф для следующего раунда, поскольку это значение получено в результате подсчета общего количества моих ударов по лункам. Очевидно, это значение должно быть целым числом, например, 94, по- скольку частичные удары посчитать й невозможно (хотя порой мои удары ка- Термины жутся именно такими). Другими примерами непрерывных Случайная переменная счита- случайных переменных являются сле- дующие: Ф Количество местных осадков в ви- де дождя, в дюймах Ф Количество времени, необходи- мого для обслуживания клиента в магазине Ф Скорость автомобиля, измеряе- мая радаром ется непрерывной, если она может принимать только числовые зна- чения в пределах определенного ин- тервала, полученные в результате изме- рения Исхода эксперимента. Случайная переменная считается дискретной, ес- ли она может принимать только опре- деленные целые значения в результате подсчета исхода эксперимента. Другими примерами дискретных случайных переменных являются: Ф Количество дней в месяце, в которые шел дождь Ф Количество клиентов, стоящих в очереди на кассу в магазине Ф Количество автомобилей, которые двигались со скоростью, превышаю- щей разрешенную Непрерывные случайные переменные будут подробно рассмотрены в Гла- ве 11. Оставшаяся часть этой главы, а также Главы 9 и 10, посвящены исклю- чительно дискретным случайным переменным. Дискретные распределения вероятностей Перечень всех возможных исходов экспериментов для дискретной случай- ной переменной вместе с относительной частотой или вероятностью каждо-
го исхода называется дискретным распределением вероятностей. Для иллю- страции этого понятия я воспользуюсь следующим примером. Моя старшая дочь Кристин в период с 7 до 13 лет была очень хорошей пловчихой. Этот талант достался ей явно не от меня. В таблице ниже пред- ставлено распределение относительных частот с перечнем финишировав- ших первыми, вторыми, третьими, четвертыми и пятыми в 50 заплывах. Место Количество заплывов Относительная частота (вероятность) 1 27 27/50 = 0.54 2 12 12/50 = 0.24 3 7 7/50 = 0.14 4 3 3/50 = 0.06 5 1 1/50 = 0.02 Всего Всего Если в качестве случайной переменной определим х = место, которое за- няла в заплыве Кристин, предыдущая таблица будет дискретным распределе- нием вероятностей для переменной х. Исходя из этой таблицы, мы можем вычислить вероятность того, что Кристин займет первое место: Р[х = 1] = 0.54. Вероятность того, что Кристин займет первое или второе место, получает- ся так: Р[х = 1 или х = 2] = 0.54 4- 0.24 = 0.78. На рисунке 8.3 показано графическое представление дискретного распре- деления вероятностей для х. Рис 8.3 Дискретное распределение вероятностей для заплывов Кристин.
Правила дискретных распределений вероятностей Любое дискретное распределение вероятностей должно отвечать ряду тре- бований. Ф Любой исход распределения должен быть взаимоисключающим, то есть значение случайной переменной не может попадать в более чем одну группу распределения частот. Например, Кристин не может одновре- менно занять первое и второе места. Ф Вероятность каждого исхода Р[х] должна находиться в интервале от 0 до 1, то есть 0 < Р[х] < 1 для всех значений х. В предыдущем примере Р[х = 3] = = 0.14, то есть как раз между 0 и 1. Ф Сумма вероятностей всех исходов распределения должна равняться 1, п то есть ХРМ = 1- В примере с плаванием: Р[х = 1] 4- Р[х = 2] 4 Р[х = 3] 4- Р[х = 4] + Р[х = 5] = = 0.54 4- 0.24 + 0.14 4 0.06 4- 0.02 = 1.00 Среднее значение дискретного распределения вероятностей Среднее значение дискретного распределения вероятностей — это взвешен- ное среднее (см. Главу 4), вычисленное с помощью следующей формулы: i=l где: ц = среднее значение дискретного распределения вероятности, Xi = значение случайной переменной для i-го исхода, РМ = вероятность i-ro исхода, п = количество исходов распределения. В таблице ниже представлено переработанное распределение вероятнос- тей. Место Xj Вероятность P[Xj] 1 2 3 4 5 0.54 0.24 0.14 0.06 0.02
Среднее значение дискретного распределения вероятностей получается следующим: *Р[х,1=1(1-0.54) + (2 0.24) + (3-0.14) + (4 0.06) + (5-0.02) i=l ц = 1.78. Полученный результат говорит нам о том, что среднее место, которое за- нимает Кристин в заплыве, — 1.78! Как ей это удается? Конечно, полученное число не может быть результатом ни одного заплыва. Оно представляет со- бой усредненный результат множества заплывов. Среднее значение дис- кретного распределения вероятностей не обязательно должно быть целым значением (в нашем случае это 1, 2, 3, 4 или 5). Другим термином для описания среднего значения распределения вероят- ностей является математическое ожидание — Е[х]. Таким образом: Термины ----------------- Математическое ожидание - это средняя величина распре- деления вероятности. Е[х] = ц = xt* Р[ х(]. i=i Кажется, я уже упоминал о том, что статисты часто используют различные обозначения одного и того же понятия! Дисперсия и стандартное отклонение дискретного распределения вероятности Только вы подумали, что можно расслабиться, как на сцене появляется еще и дисперсия! Что ж, если вы знакомы с одним способом вычисления диспер- сии, значит, вы знакомы и со всеми остальными способами. Дисперсия для дискретного распределения вероятности рассчитывается так: о2= £(х,.-|л)2*Р[х,]. 1=1 где: о2 = дисперсия дискретного распределения вероятности. Для вас не будет секретом, что стандартное отклонение распределения вы- глядит так: Для демонстрации этих уравнений обратимся к распределению предыду- щего примера с плаванием Кристин. Вычисления представлены в таблице ниже. i
Xi РМ В Xi — ц ki -ц)2 (Xi -ц)2Р[х;] 1 0.54 1.78 -0.78 0.608 0.328 2 0.24 1.78 0.22 0.048 0.012 3 0.14 1.78 1.22 1.488 0.208 4 0.06 1.78 2.22 4.928 0.296 5 0.02 1.78 3.22 10.368 0.208 а2 = У(х,-ц)2 *P[xJ =1.052. 1=1 Стандартное отклонение данного распределения вычисляется так: 0=^ = 71.052=1.026. Существует и более эффективный способ вычисления дисперсии дис- кретного распределения вероятности: о2 *Р[х/]1-р2. k i=i ) В таблице ниже представлены соответствующие вычисления для примера с плаванием. РЩ х2 х2 *P[xJ 1 0.54 1 0.54 2 0.24 4 0.96 3 0.14 9 1.26 4 0.06 16 0.96 5 0.02 25 0.50 £х2*Р[х(] = 4.22 ы о2 =( Xх? |_м2 \ 1=1 7 о2 = 4.22 - (1.78)2 о2 = 1.052 Как видите, результат тот же самый, но приложено меньше усилий!
Ваша очередь 1. Посетителю ресторана предлагается меню, содержащее 3 аперитива, 8 главных блюд, 4 десерта и 3 вида напитков. Сколько различных вариан- тов блюд можно заказать? 2. Тест содержит 10 вопросов, к каждому из которых прилагаются 4 вари- анта ответов. Какова вероятность того, что студент, отвечая на каждый вопрос методом «случайного тыка», выполнит весь тест правильно? 3. Команды НБА с 13 худшими результатами в конце сезона принимают участие в лотерее с целью определить порядок, в котором они будут от- бирать новых игроков на следующий сезон. Сколько существует раз- личных вариантов порядка отбора для этих 13 команд? 4. В заплыве участвует 8 пловцов. Сколько существует вариантов того, что пловцы займут первое, второе и третье места? 5. Сколько существует различных способов ранжирования 10 новых кино- лент критиками на получение первого и второго мест? 6. Замок с цифровой комбинацией имеет 40 чисел и откроется при пра- вильном выборе 3-значной комбинации. Сколько возможных комбина- ций существует? 7. Я хотел бы выбрать 3 книги в бумажной обложке из списка 12 книг, чтобы взять с собой на отдых. Сколько различных наборов книг я могу выбрать? 8. 12 присяжных должны быть выбраны из 50 человек. Сколько разных присяжных можно выбрать? 9. Был проведен опрос с участием 450 семей с целью выяснить, сколько ко- шек имеет каждый из респондентов. В таблице ниже представлены ре- Количество семей 137 160 112 31 10 зультаты опроса. Количество кошек 0 1 2 3 4 Постройте распределение вероятностей для этих данных и вычислите среднее значение, дисперсию и стандартное отклонение. Повторение - мать учения Ф Фундаментальный принцип счета гласит, что если одно событие может иметь т вариаций, а второе — п вариаций, то общее количество вариа-
ций обоих событий, происходящих одновременно, равно т*п. Этот принцип может применяться к более чем 2 событиям. Ф Перестановки — это количество различных способов расположения объектов в порядке. Комбинации — это количество различных способов представления объектов с учетом того, что порядок не имеет никакого значения. Ф Распределение вероятностей — это перечень всех возможных исходов эксперимента вместе с относительной частотой или вероятностью каж- дого исхода. Ф Случайная переменная — это исход, который принимает числовое зна- чение как результат эксперимента. Значение невозможно определить с точностью до момента проведения эксперимента. Ф Случайная переменная является непрерывной, если она может прини- мать любое числовое значение как результат измерения исхода экспе- римента. Случайная переменная считается дискретной, если она может принимать лишь ограниченное число целых значений как результат подсчета исхода эксперимента. Ф Среднее значение дискретного распределения вероятности рассчиты- вается по формуле: g=£x,.*P[xJ. i=l Ф Дисперсия дискретного распределения вероятности вычисляется по формуле: <т2=£(х,-ц)2*р[л,.]. /=1
ГЛдВВг ; >'' Биноминальное распределение вероятностей В этой главе Описание характеристик биноминального эксперимента Ф Вычисление вероятностей биноминального распределения Ф Определение вероятностей с помощью биноминальной таблицы Ф Определение биноминальных вероятностей с помощью Excel Ф Вычисление среднего значения и стандартного отклоне- ния биноминального распределения Наше обсуждение дискретного распределения вероятностей пока ограничивалось произвольными распределениями, осно- ванными на предварительно собранных данных. Но существу- ют и теоретические распределения вероятностей, рассчитан- ные по математической формуле, а не основанные на существу- ющих данных. В этой главе мы рассмотрим первое из них — би- номинальное распределение вероятностей.
Есть целый круг задач, при решении которых мы заинтересованы в опре- делении вероятности повторяющегося события. Классическим примером яв- ляется вопрос, которым в течение многих лет преподаватели мучают студен- тов: Какова вероятность выпадения «орла» семь раз при 10-кратном подки- дывании монеты? Закончив изучение этой главы, вы сможете без труда отве- тить на этот каверзный вопрос. Характеристики биноминального эксперимента Если ваша память вам не изменяет, то вы должны вспомнить, что в Главе 6 мы определили эксперимент как процесс измерения или наблюдения за ка- ким-либо процессом с целью сбора данных. Предположим, нас интересует эксперимент, подразумевающий выполнение профессиональным баскетбо- листом трех штрафных бросков. Каждый штрафной бросок считается испы- танием для эксперимента. Для данного конкретного эксперимента сущест- вуют два возможных исхода для каждого испытания: либо штрафной бросок попадает в корзину (успех), либо не попадает (неудача). Поскольку возмож- ны только два исхода для каждого испытания, эксперимент считается бино- минальным. Положим; речь идет о Майкле Джордане, который за всю свою бас- кетбольную карьеру забросил 80% всех штрафных бросков. Таким образом, вероятность (р) попадания в корзину мяча с любого штрафного броска со- ставляет 0.80. Поскольку существует всего два возможных исхода, вероят- ность непопадания (q) составляет 0.20. Для биноминального эксперимента значения р и q должны быть постоян- ными для каждого испытания экспери- мента. Поскольку в биноминальном эксперименте может быть лишь два ис- хода, получаем: р = 1 — q. Наконец, в биноминальном экспе- рименте каждое испытание должно быть независимым от других. Иными словами, вероятность успеха второго броска не зависит от того, был ли ус- пешным первый бросок. Примерами биноминальных экспериментов явля- ются следующие: Ф Проверка запчасти на предмет не- исправности после производства Термины----------------- Биноминальный эксперимент обладает следующими харак- теристиками: (1) Эксперимент состоит из фиксированного количества испы- таний, обозначаемых п; (2) Каждое ис- пытание имеет два возможных исхода: успех или неудача; (3) Вероятность успеха и вероятность неудачи являют- ся постоянными величинами в рамках эксперимента; (4) Каждое испытание является независимым от других испы- таний эксперимента. Мысам вслух Биноминальные эксперименты также называют процессом Бернулли, по имени швейцарского математика Джеймса Бернулли, жившего в 17-м веке. Многократное повторение процесса Бернулли - это испытания Бернулли. Эта мысль преследует сту- дентов уже сотни лет!
Ф Наблюдение за количеством правильных ответов в тесте с множествен- ным выбором Ф Вычисление количества американских семей, имеющих выход в Интер- нет Изучив основные правила биноминальных экспериментов, мы можем смело, переходить к освоению биноминальных вероятностей. Биноминальное распределение вероятностей Биноминальное распределение вероятностей позволяет нам вычислить веро- ятность определенного количества успехов для определенного количества испытаний. То есть случайной переменной для данного распределения будет количество успехов, за которыми мы ведем наблюдение. Чтобы продемонст- рировать вам, что представляет собой биноминальное распределение, я об- ращусь к следующему примеру. Дебби научила нашу собаку Кейли выполнять немыслимый трюк. Каждое утро, когда супруга выпускает нашего четвероногого друга через заднюю дверь погулять, та как молния несется по нашей довольно длинной подъезд- ной дорожке, хватает газету, бежит обратно к двери и аккуратно кладет газе- ту на ступеньку. За эту рутинную, но так необходимую работу она получает две чашки сухого собачьего корма. Вы скажете, что это просто чудо. Но это еще не все. Надо отметить, что Кейли совсем неглупа. Она сделала удиви- тельный вывод: 2 завтрака лучше, чем один. В результате она при каждой воз- можности рыскает по всем соседям в поисках газет, которые можно поло- жить на ступеньки. А однажды она приволокла огромную телефонную кни- гу, наивно полагая, что получит дополнительную порцию. Мы отчаянно пы- тались научить собаку возвращать обратно эти газеты, но собачьи мозги, ока- зывается, отказываются работать в обратном направлении. Поэтому во второй половине дня я всегда занят тем, что незаметно воз- вращаю украденную прессу в надежде, что соседи не заметят собачьих слюней на своих газетах трехдневной давности. Как бы то ни было, предпо- ложим, что в определенный день существует 30%-ная вероятность, что Кей- ли вернет газету хозяину, и 70%-ная — что она этого не сделает. Положим, что в день она может вернуть не более одной газеты. Такой сценарий пред- ставляет собой биноминальный экспе- римент, каждый день в котором являет- ся испытанием Бернулли ср = 0.30 (ве- роятность успеха) и q = 0.70 (вероят- ность неудачи). Мы можем вычислить вероятность г успехов в п испытаниях с помощью биноминального распределе- ния, воспользовавшись следующей формулой: Из Главы 8 вспомним, что п! (п - г)!г! - количество комбинаций п объектов, взятых г за раз.
Р[лл] = —р'сГ (п-г)!г! С помощью этого уравнения мы можем определить вероятность того, что в течение следующих 5 дней Кейли вернет 3 газеты. Р[3'5, = (5^)!3!(0'3)3(0-7)М P[3,5]=^^-^j(0.027)(0.49) =0.1323 Существует 13%-ная вероятность, что в течение следующих 5 дней наша во- ришка вернет истинным владельцам их почту. Мы можем также определить вероятность того, что она вернет 0, 1,2,4 или 5 газет за следующие 5 дней. Для г — 0: 51 Р[0'5, = (5^0)!0!(0'3,0(0'7)5"’ (1)(0.1681) =0.1681 Эврика!------------------- Из Главы 8 вспомним, что 0! = 1, Также х° = 1 для любого значе- ния х. Длят = Г. 51 РС1'5]=^Й!(0-3)1,0-7)54 Р [1,5]= ^^(0.3) (0.2401) =0.3601 Длят = 2 p[2'5j'i?iiSi|0-3|W‘! (0.09) (0.343) =0.3087 Длят = 4 51 р[4'5>^й(0-3№7)“ (0.0081) (0.7) =0.0283
Для г = 5 Р[5,5]= 5! (5-5)!5! (О.ЗПО.?)5"5 Р[5,5]= 5! (5-5)!5! (0.3)5(0.7)5 5 В таблице ниже представлены все полученные выше вероятности. г Р[г, 5] 0 1 2 3 4 5 0.1681 0.3601 0.3087 0.1323 0.0283 0.0024 Всего =1.0 Эта таблица представляет собой биноминальное распределение вероятно- стей для г успехов в 5 испытаниях с вероятностью успеха 0.30. Обратите вни- мание, что сумма всех вероятностей равна 1 — это требование для всех рас- пределений вероятностей. На рисунке 9.1 распределение вероятностей пред- ставлено в виде гистограммы. Рис 9.1 Б ином инальное распределение вероятностей.
Из этого рисунка понятно, что наиболее вероятное количество газет, которые Кейли вернет в течение следующих пяти дней, — это всего 1 га- зета. Наконец, мы можем определить вероятность сложных событий для данно- го распределения. Например, вероятность того, что за следующие 5 дней Кейли утащит по крайней мере 3 газеты, определяется так: Р[г>3] = Р[3, 5] + Р[4, 5] + Р[5, 5] Р[г>3] = 0.1323 + 0.0283 + 0.0024 = 0.163. Вероятность того, что за следующие 5 дней Кейли утащит не более 1 газе- ты, определяется так: Р[г<1] = Р[0, 5] + Р[1, 5] Р[г<1] = 0.1684 + 0.3601 = 0.5285. Наши соседи были бы в ужасе при виде полученных результатов! Биноминальные таблицы вероятностей По мере увеличения количества испытаний в вашем биноминальном экспе- рименте вычисление вероятностей с помощью предыдущих формул приве- дет к тому, что откажут не только батарейки ваших калькуляторов, но и ва- ши мозги. Существует более простой способ определения этих вероятнос- тей — биноминальные таблицы вероятностей, представленные в Приложе- нии В этой книги. Ниже приведен отрывок из этого приложения, в котором подчеркнуты вероятности, имеющие отношение к нашему предыдущему примеру. Таблица вероятностей организована по количеству п — общему числу испытаний. Строки таблицы представлены количеством успехов (г), а столбцы — вероятностями успеха (р). Обратите внимание, что сумма каж- дого блока вероятностей для определенного значения составляет 1. Значения р п г 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 40 0.6561 0.4096 0.2401 0.1296 0.0625 0.0256 0.0081 0.0016 0.0001 2 0.0486 0.1536 0.2646 0.3456 0.3750 0.3456 0.2646 0.1536 0.0486 3 0.0036 0.0256 0.0756 0.1536 0.2500 0.3456 0.4116 0.4096 0.2916 4 0.0001 0.0016 0.0081 0.0256 0.0625 0.1296 0.2401 0.4096 0.6561
Значения р п г 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 50 0.5905 0.3277 01681 0.0778 0.0313 0.0102 0.0024 0.0003 0.0000 1 0.3280 0.4096 0.3601 0.2592 0.1563 0.0768 0.0284 0.0064 0.0005 2 0.0729 0.2048 0.3087 0.3456 0.3125 0.2304 0.1323 0.0512 0.0081 3 0.0081 0.0512 0.1323 0.2304 0.3125 0.3456 0.3087 0.2048 0.0729 4 0.0005 0.0064 0.0283 0.0768 0.1563 0.2592 0.3601 0.4096 0.3281 5 0.0000 0.0003 0.0024 0.0102 0.0313 0.0778 0.1681 0.3277 0.5905 Биноминальные таблицы имеют одно существенное ограничение: вы мо- жете использовать только те значения р, которые представлены в таблице. Например, предыдущая таблица не подойдет для р = 0.35. В других учебни- ках по статистике вы можете найти более развернутые биноминальные таб- лицы, чем в Приложении В. Использование Excel для вычисления биноминальных вероятностей Весьма удобно рассчитывать биноминальные вероятности с помощью наше- го старого друга — программы Excel — и встроенной в эту программу функ- ции БИНОМРАСП со следующими характеристиками: БИНОМРАСП (г, п, р, интегральная) где: интегральная = ЛОЖЬ, если вы хотите, чтобы число успехов в точнос- ти равнялось г интегральная — ИСТИНА, если вы хотите, чтобы число успехов не пре- вышало г Например, на рисунке 9.2 показана функция БИНОМРАСП для вычисле- ния вероятности того, что в тёчение следующих 5 дней Кейли вернет ровно 2 газеты. В ячейке А1 содержится формула = БИНОМРАСП(2; 5; 0,3; ЛОЖЬ) с ре- зультатом 0.3087. С помощью Excel мы также можем вычислить вероятность того, что в те- чение следующих 5 дней Кейли вернет не более 2 газет, как показано на ри- сунке 9.3. В ячейке А1 содержится формула = БИНОМРАСП(2; 5; 0,3; ИСТИНА) с ре- зультатом 0.8369. Тот же результат можно получить вручную по формуле:
Рис 9.2 Функция БИНОМРАСП для вычисления числа успехов, в точности равного г. Рис 9.5 Функция БИНОМРАСП для числа успехов не более г. Р[г<2] = Р[0, 5] + Р[1, 5] + Р[2, 5] Р[г< 2] = 0.1681 + 0.3601 + 0.3087 = 0.8369. Другими словами, существует 83%-ная вероятность, что в течение сле- дующих 5 дней Кейли окажется у нашей задней двери с 0, 1 или 2 не при- надлежащими нам газетами. Эта собака не оставляет мне ни минуты от- дыха! Преимуществом использования Excel для вычисления биноминальных ве- роятностей является то, что вы не ограничены значениями р, представленны- ми в Приложении В. Функция БИНОМРАСП позволяет нам использовать в качестве р любое значение от 0 до 1. Среднее значение и стандартное отклонение биноминального распределения Среднее значение биноминального распределения вероятностей может быть определено по следующей формуле^ ц = пр, где: п = число испытаний, р = вероятность успеха.
Для примера с Кейли среднее значение распределения будет следующим: ц = пр = (5) (0.3) ~ 1.5 газеты. Другими словами, каждые 5 дней Кейли приносит в среднем по 1,5 газеты. Стандартное отклонение биноминального распределения вероятностей вычисляется по следующей формуле: где: q = вероятность неудачи. Для нашего примера стандартное отклонение распределения получается следующим: о = yjnpq = ^/(5) (0.3) (0.7) =1.02 газеты. Вот мы и закончили изучение биноминального распределения вероятнос- тей. Но не печальтесь. Мы снова встретимся с этим распределением в следу- ющих главах. Ваша очередь 1. Какова вероятность выпадения в точности 7 «орлов» при 10-кратном подбрасывании монеты? 2. Колледж Goldey-Beacom College ежегодно принимает 75% студентов из подавших заявление о поступлении. Какова вероятность того, что будут приняты точно 3 из следующих 6 подавших документы на поступление? 3. Майкл Джордан выполняет 80% всех штрафных бросков. Какова веро- ятность того, что он выполнит как минимум 6 из следующих 8 штрафных бросков? 4. Студент методом «случайного тыка» отвечает на 12 вопросов теста, в ко- тором каждый вопрос имеет 5 вариантов ответа. Какова вероятность то- го, что студент ответит правильно точно на 6 вопросов? 5. Статистика свидетельствует о том, что 5% посетителей определенного сайта что-либо приобретают на нем. Какова вероятность того, что их следующих 7 посетителей не более 2 сделают покупки на сайте? 6. В течение сезона 2002 года средняя бэттинг- результативность Барри Бондза, игрока Высшей Лиги Бейсбола, составила 0.370. Постройте би- номинальное распределение вероятностей для числа успехов (ударов) за 5 официальных игр сезона?
Повторение - мать учения Ф Биноминальный эксперимент имеет лишь 2 возможных исхода для каж- дого испытания. Ф Для каждого биноминального эксперимента вероятности успеха и не- удачи являются постоянными величинами. Ф Каждое испытание биноминального эксперимента не зависит от других испытаний данного эксперимента. Ф Вероятность г успехов в п испытаний при биноминальном распределе- нии вычисляется по формуле: п! РГг,п>—-—PV". L J (n-r)\r\ Ф Среднее значение биноминального распределения вероятностей вычис- ляется по формуле: ц = пр. Ф Стандартное отклонение биноминального распределения вероятностей вычисляется по формуле: <5 = yjnpq.
Распределение вероятностей Пуассона В этой главе Ф Описание характеристик процесса Пуассона Ф Вычисление вероятностей с помощью уравнений Пуассона Ф Использование таблиц вероятностей Пуассона Ф Использование программы Excel для вычисления вероят- ностей Пуассона Ф Использование уравнения Пуассона для приблизительно- го вычисления биноминального уравнения Разобравшись с биноминальным распределением вероятно- стей, мы можем смело переходить к следующему шагу — дис- кретному теоретическому распределению, распределению Пу- ассона. Это распределение вероятностей названо в честь Си- меона Пуассона, французского математика, работавшего над распределением в начале 19-го века. Распределение Пуассона применяется для вычисления веро- ятности того, что определенное событие произойдет в течение определенного периода времени. Такое распределение может быть использовано для определения вероятности того, что в те- чение следующего часа в магазин войдут 10 покупателей или
что в течение следующего месяца на оживленном перекрестке произойдут два автомобильные аварии. Так давайте возьмем несколько тонких француз- ских блинчиков и круассанов и окунемся в мир французской математики. Характеристики процесса Пуассона В Главе 9 мы определили биноминальный эксперимент, также известный под названием процесса Бернулли, как подсчет числа успехов в определенном количестве испытаний. Результатом каждого испытания является успех или неудача. Процесс Пуассона подсчитывает число реализаций события за оп- ределенный период времени, в определенной области, расстоянии или лю- бой другой тип измерения. Процесс Пуассона может иметь любое количество исходов в пределах вы- бранной единицы измерения. Например, число покупателей, которые зайдут в местный круглосуточный магазин в течение следующего часа, может рав- няться 0, 1, 2, 3 и т.д. Случайной переменной распределения Пуассона будет фактическое количество реализаций; в данном случае — количество покупа-. телей, которые зайдут в магазин в течение следующего часа. Среднее значение распределения Пуассона — это среднее количество ре- ализаций, ожидаемых в пределах единицы измерения. Для процесса Пуассо- на среднее значение должно быть одинаковым для каждого интервала изме- рения. Например, если среднее число покупателей, заходящих в магазин каждый час, равняется 11, это среднее значение должно применяться к каж- дому одночасовому приращению. Последняя характеристика процесса Пуассона: число реализаций в течение одного интервала не зависит от числа реализаций в других интервалах. Иными словами, если в первый час работы магазина его посетят 6 покупателей, это ни- коим образом не скажется на количестве покупателей второго часа работы. ^^•-5 Термины------------------------------------------------------------- Процесс Пуассона обладает следующими характеристиками: (1) Эксперимент под- разумевает подсчет числа реализаций событий за период времени, в определенной области, расстоянии или любую другую единицу измерения. (2) Среднее значение распре- деления Пуассона должно быть одинаковым для каждого интервала измерения. (3) Количе- ство реализаций в течение одного интервала не зависит от количества реализаций в другие интервалы. Примерами случайных переменных, следующих распределению вероят- ностей Пуассона, являются: Ф Количество машин, прибывающих в городскую тюрьму в течение опре- деленного промежутка времени
Ф Количество типографических ошибок, обнаруженных в манускрипте Ф Количество студентов, отсутствующих на моем уроке по статистике, проводимом по понедельникам Ф Количество профессиональных футболистов, еженедельно размещае- мых в списке травмированных Теперь, когда мы разобрались с основными понятиями процесса Пуассо- на, давайте перейдем к вычислению вероятностей. Распределение вероятностей Пуассона Если случайная переменная подчиняется модели, соответствующей распре- делению вероятностей Пуассона, мы можем вычислить вероятность опреде- ленного числа реализаций события за определенный промежуток времени. Для осуществления подобных вычислений нам необходимо знать среднее ко- личество реализаций события за этот период. Чтобы показать распределение вероятностей Пуассона в действии, я воспользуюсь следующим примером. История, которую я собираюсь вам поведать, действительно имела место. Имена не изменены, поскольку невинных в этой истории нет. Не то чтобы какая-то из предыдущих историй была ложной, но эта правдива от начала до конца. Каждый год Брайан, Джон и я совершаем паломничество любителей гольфа на Мертл Бич, что в Южной Каролине. В одну из таких поездок, а именно в последний вечер перед отъездом домой, мы бродили по магазинчи- ку, торгующему различными принадлежностями для гольфа. Каким-то непо- • стижимым образом Брайану удалось убедить меня в необходимости приоб- ретения бывшей в употреблении, но весьма симпатичной брендовой клюш- ки. Он клялся и божился, что без этой самой клюшки ему не раскрыть полно- стью своего потенциала как игрока в гольф. Эта весьма подержанная клюш- ка стоила больше, чем любая новая, которую мне доводилось покупать в сво- ей жизни. Подростки обладают особым даром пренебрегать любой рацио- нальной логикой взрослого человека в тех случаях, когда они уже приняли решения и не намерены от него отступать. На следующее утро мы встали пораньше, упаковали свои вещички, выпи- сались из гостиницы и отправились на наш последний раунд в гольф, весьма предусмотрительно запланированный мной прямо по дороге домой. На пер- вой метке Брайан извлекает свое новое подержанное приобретение и делает короткий удар влево, при котором обычно мяч улетает далёко в кусты. Я нервно улыбаюсь и убеждаю себя в том, что следующим удар выйдет у Брай- ана значительно лучше. Но косые удары продолжаются, и я уже с трудом удерживаю сына от того, чтобы забросить свое новое подержанное приобре- тение в озеро. После завершения раунда я возвращаюсь в тот магазин, чтобы вернуть клюшку обратно, добавив еще час к нашему и без того 10-часовому путеше-
ствию. Продавщица в магазине радостно сообщает мне, что готова принять назад клюшку, но мне необходимо предъявить для этого... чек. И только те- перь я смутно припоминаю, что положил его в какое-то особое место на слу- чай, если он мне пригодится, но после всех сборов, выезда из гостиницы и иг- ры в гольф, я скорее нашел бы панацею от рака, чем вспомнил, куда я запих- нул этот клочок бумаги. Но я не из тех, кто сдается без боя, поэтому я направляюсь к машине и начи- наю перерывать все наши вещи. Через некоторое время, когда я уже разбро- сал все свое нижнее белье и носки по стоянке, из магазина появляется та же милая женщина и сообщает, что готова вернуть мне деньги за клюшку без че- ка, но при условии, что я быстренько соберу все свои вещи обратно в машину. Таким образом, я обнаружил весьма мощный способ, которыми/хочу с ва- ми поделиться. Представьте, что это бонус, вознаграждающий Нас за изуче- ние этой книги. Если я не могу найти чек, необходимый для возврата денег, я складываю грязную одежду в чемоданчик и повторяю ту же сцену, что и пе- ред тем магазинчиком. Действует безотказно. Как бы то ни было, предположим, что в течение раунда в гольф Брайан обычно выполняет 5 ударов, попадающих в цель, а именно в фарвей. Фар- вей — коротко выстриженная лужайка вокруг лунки, куда, по мнению лю- дей, придумавших эту игру, и должны попадать мячи. Предположим, что фактическое количество фарвеев, на которые попадает Брайан в течение раунда, подчиняется распределению Пуассона. Внимание! --------------------------------------------------- Откуда я знаю, спросите вы, что число фарвеев, на которые попадет Брайан в тече- ние первого раунда, подчиняется распределению Пуассона? В данный момент я не могу этого утверждать. Чтобы удостовериться, что мое утверждение истинно, мне необходимо записать количество фарвеев, на которые попадал мяч Брайана на протяжении нескольких раундов, а потом выполнить «испытание на адекватность», чтобы узнать, соответствуют ли эти данные модели распределения Пуассона. Обещаю, что мы вместе выполним это испы- тание в Главе 18, так что наберитесь терпения. А сейчас мы можем воспользоваться распределением Пуассона для вычис- ление вероятности того, что Брайан поразит своим мячом х фарвеев в тече- ние следующего раунда: Р[х] = х! где: х = количество интересующих нас реализаций за определенный про- межуток времени,
ц = среднее количество реализаций за определенный промежуток вре- мени, е = математическая константа, равная 2.71828, Р[х] = вероятность в точности х реализаций за определенный промежу- ток времени. Теперь мы можем вычислить вероятность того, что Брайан попадет точно на 7 фарвеев в течение следующего раунда. При = 5 получаем следующее уравнение: (57)(2.71838-5) р[7]=(78125)(0.006738)=01044 7*6*5*4*3*2*1 Иными словами, вероятность того, что Брайан поразит точно 7 фарвеев, немногим больше 10%. Мы также можем вычислить суммарную вероятность того, что Брайан по- разит не более 2 фарвеев с помощью следующего уравнения: Р[х<2] = Р[х = 0] + Р[х = 1] + Р[х = 2] J 0! 1 р[х = 1]=№1№ =(5И0:026738) =0 (5>7^ 1 1 2! 21 Р[х<2] = 0.0067 + 0.0337 + 0.0842 = 0.1246. Эврика! ------------------ В некоторых учебниках по ста- тистике вы можете увидеть сим- вол X (произносится «лямбда») для обозначения средней вели- чины распределения вероятно- стей Пуассона. Обозначение иное, а уравнение то же самое. То есть есть 12.6%-ная вероятность, что Брайан попадет мячом не более чем на 2 фарвея в течение следующего раунда. В предыдущем примере средняя вели- чина распределения вероятностей Пуас- сона оказалась целым числом (5). Но так бывает далеко не всегда. Предположим, число студентов, отсутствующих на мо- ем уроке по статистике в понедельник, подчиняется распределению Пуассона
со средним значением 2,4. Вероятность того, что в следующий понедельник будут отсутствовать 3 студента, вычисляется так: Р[х=3]= (2.43)(2.71838~24) 3! Р[х = 3] = (13.824) (0.090718) 3*2*1 -0.2090. Есть еще одна любопытная особен- ность распределения Пуассона: дис- персия распределения равняется среднему значению. То есть: о2 = ц. Это означает, что вам не придется Эврика!------------------- Из Главы 8 вспомним, что О! = 1. Также х° = 1 для любого значе- ния х. производить муторные вычисления для этого распределения, с которыми мы имели дело в предыдущих главах. Таблицы вероятностей Пуассона Подобно биноминальному распределению вероятностей, распределение ве- роятностей Пуассона имеет таблицу, в которой вы можете найти вероятнос- ти для определенных средних значений. Таблица распределения Пуассона представлена в Приложении В этой книги. Ниже представлен отрывок из этого приложения, в котором подчеркнуты значения для нашего примера с магазинчика, торгующего клюшками для гольфа. Значения ц X 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0 0 0.0408 0.0334 0.0273 0.0224 0.0183 0.0150 0.0123 0.0101 0.0082 *0.0067 1 0.1304 0.1135 0.0984 0.0850 0.0733 0.0630 0.0540 0.0462 0.0395 0.0337 2 0.2087 0.1929 0.1771 0.1615 0.1465 0.1323 0.1188 0.1063 0.0948 0.0842 3 0.2226 0.2186 0.2125 0.2046 0.1954 0.1852 0.1743 0.1631 0.1517 0.1404 4 0.1781 0.1858 0.1912 0.1944 0.1954 0.1944 0.1917 0.1875 0.1820 0.1755 5 0.1140 0.1264 0.1377 0.1477 0.1563 0.1633 0.1687 0.1725 0.1747 0.1755 6 0.0608 0.0716 0.0826 0.0936 0.1042 0.1143 0.1237 0.1323 0.1398 0.1462 7 0.0278 0.0348 0.0425 0.0508 0.0595 0.0686 0.0778 0.0869 0.0959 0.1044 8 0.0111 0.0148 0.0191 0.0241 0.0298 0.0360 0.0428 0.0500 0.0575 0.0653
X 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0 9 0.0040 0.0056 00.0076 0.0102 0.0132 0.0168 0.0209 0.0255 0.0307 0.0363 10 0.0013 0.0019 0.0028 0.0039 0.0053 0.0071 0.0092 0.0118 0.0147 0.0181 11 0.0004 0.0006 0.0009 0.0013 0.0019 0.0027 0.0037 0.0049 0.0064 0.0082 12 0.0001 0.0002 0.0003 0.0004 0.0006 0.0009 0.0013 0.0019 0.0026 0.0034 13 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0005 0.0007 0.0009 0.0013 14 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 Таблица вероятностей построена исходя из значений ц, среднего числа ре- ализаций. Обратите внимание, что сумма каждого блока вероятностей для определенного значения равна 1. Как и в биноминальных таблицах, недостаток таблицы вероятностей Пуас- сона состоит в том, что вы ограничены только теми значениями ц, которые представлены в таблице. Например, мы не сможем воспользоваться этой таб- лицей для ц = 0,45. В других учебниках по статистике могут быть представле- ны более развернутые таблицы Пуассона, чем в Приложении В этой книги. Распределение Пуассона для ц = 5 графически представлено на следую- щей гистограмме. Вероятности, показанные на рисунке 10.1, взяты из по- следнего столбца предыдущей таблицы. Рис 10.1 Распределен не вероятностей Пуассона. Количество реализаций Обратите внимание, что наиболее вероятное число реализаций для данно- го распределения — это 4 и 5.
А вот другой пример. Предположим, что месячное количество автомобиль- ных аварий на оживленном перекрестке, по которому я следую по дороге на работу, подчиняется распределению Пуассона со средним значением 1,8 ава- рии в месяц. Какова вероятность того, что в следующем месяце произойдет 3 или более аварий? Получаем следующее уравнение: Р[х>3] = Р[х = 3] + Р[х = 4] + Р[х = 5] + Р[х = 6] + ... + Р[х = оо] Технически распределение Пуассона не имеет верхнего ограничения по числу реализаций в течение определенного интервала. В таблицах Пуассо- на вы увидите, что вероятность большого количества реализаций практиче- ски равняется 0. Поскольку мы не имеем возможности сложить все вероят- ности неопределенного количества реализаций (если у вас это получится, можете считать, что вы великий статист!), мы должны вычесть из 1 допол- нение к Р[х 3], то есть: Р[х>3] = 1 - Р[х<3], поскольку: Р[х = 0] + ...Р[х = 1] + Р[х = 2] + Р[х = 3] + Р[х = 4] + Р[х .= 5] + ... + Р[х = 00] = 1.0. Таким образом, чтобы определить вероятность 3 или более аварий, выпол- ним следующее: Р[х>3] = 1 - (Р[х = 0] + Р[х = 1] + Р[х = 2]) Используя вероятности, подчеркнутые в таблице ниже (похоже, я куда-то засунул свой калькулятор), получаем следующее: Значения ц X 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 0 0.3329 0.3012 0.2725 0.2466 0.2231 0.2019 0.1827 0.1653 0.1496 Ю.1353 1 0.3662 0.3614 0.3543 0.3452 0.3347 0.3230 0.3106 0.2975 0.2842 0.2707 2 0.2014 0.2169 0.2303 0.2417 0.2510 0.2584 0.2640 0.2678 0.2700 0.2707 3 0.0738 0.0867 0.0998 0.1128 0.1255 0.1378 0.1496 0.1607 0.1710 0.1804 ? 4 0.0203 0.0260 0.0324 0.0395 0.0471 0.0551 0.0636 0.0723 0.0812 0.0902 5 0.0045 0.0062 0.0084 0.0111 0.0141 0.0176 0.0216 0.0260 0.0309 0.0361 6 0.0008 0.0012 0.0018 0.0026 0.0035 0.0047 0.0061 0.0078 0.0098 0.0120 7 0.0001 0.0002 0.0003 0.0005 0.0008 0.0011 0.0015 0.0020 0.0027 0.0034 8 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002
Р[х>3] = 1 - (0.1653 + 0.2975 + 0.2678) Р[х>3] = 1 - 0.7306 = 0.2694 Иными словами, существует 27%-ная вероятность того, что в следующем месяце на этом перекрестке произойдет 3 или более аварий. Похоже, мне следует найти более безопасный маршрут! Использование Excel для вычисления вероятностей Пуассона Вероятности Пуассона можно с легкостью вычислить с помощью нашей лю- бимой программы Excel. Встроенная функция ПУАССОН имеет следующие характеристики: ПУАССОН(х; ц; интегральная) где: интегральная = ЛОЖЬ, если вы хотите получить вероятность в точнос- ти х реализаций интегральная = ИСТИНА, если вы хотите получить вероятность не бо- лее х реализаций Например, на рисунке 10.2 показана функция ПУАССОН для вычисления вероятности того, что в следующем месяце на этом опасном перекрестке произойдет ровно 2 аварии. Рис 102 Функция ПУАССОН для х реализаций. Ячейка А1 содержит формулу Excel = ПУАССОН(2; 1,8; ЛОЖЬ) с резуль- татом 0.2678. Эта вероятность подчеркнута в таблице выше. С помощью Excel мы также можем вычислить суммарную вероятность то- го, что в следующем месяце на перекрестке произойдет не более 2 аварий, как показано на рисунке 10.3. Ячейка А1 содержит формулу = ПУАССОН(2; 1,8; ИСТИНА) с результа- том 0.7306, вероятность, которую вы видели в предыдущем вычислении и ко- торая является суммой подчеркнутых вероятностей в предыдущей таблице.
Рис. 10.5 Функция ПУАССОН для не более х реализа- ций. Преимуществом использования Excel для вычисления вероятностей Пуас- сона является то, что вы не ограничены значениями, представленными в таб- лице Приложения В. Функция ПУАССОН позволяет вам использовать .любое значение ц. Использование распределения Пуассона как приближение к биноминальному распределению Не знаю, как вы, но я, имея под рукой два способа сделать что-либо, всегда выбираю тот, который требует меньше усилий. Если вы не согласны со мной, можете опустить этот раздел. А если согласны, обязательно прочтите его! Мы можем использовать распределение Пуассона для вычисления бино- минальных вероятностей при выполнении следующих условий: Ф Если число испытаний, п, больше или равно 20 и... Ф Если вероятность успеха, р, меньше или равна 0.05... Тогда формула Пуассона будет выглядеть следующим образом: Р[х] = (пр)х*е~(пр) х! Эврика! Если вам необходимо вычис- лить вероятности при числе ис- пытаний, л, больше или равным 20, и вероятности успеха, р, меньше или равной 0.05, вы мо- жете использовать уравнение для распределения Пуассона для прибли- зительного определения биноминаль- ных вероятностей. где: п ~ количество испытаний, р — вероятность успеха. Сейчас вы наверняка спрашиваете се- бя, для чего вам вообще это делать. Ответ таков: формула Пуассона подразумевает меньшее количество вычислений, чем формула биноминальных вероятностей, а при соблюдении указанных выше усло- вий распределения получаются очень похожими друг на друга.
Если вы проживаете в штате Миссури, то следующий пример должен быть для вас показательным. Предположим, в моем городе 20 светофоров и для каждого из них существует 3%-ная вероятность, что в определенный день они не будут работать. Какова вероятность того, что сегодня не будет рабо- тать точно 1 из 20 светофоров? Это биноминальный эксперимент с п = 20, г = 1, р = 0.03. Из Главы 9 мы помним, что биноминальная вероятность рас- считывается так: р(лп]=-—^—pV'r (n-r)!r! Р[1, 20] =^-^у(О.ОЗ)'(О.97)204 Р[1, 20] = (20) (0.03) (0.560613) = 0.3364. Аппроксимация Пуассона получается следующая: , (лр)х*е-(Л₽) х\ Поскольку пр = (20) (0.03) = 0.6, р[ (О-б)1^^ 1J 1! Р[1] = (0.6) (0.548812) = 0.3293. Даже если вы из Миссури, вы должны согласиться с тем, что вычисления Пуассона значительно проще, а результаты весьма схожи. Но если вам нуж- ны еще доказательства...... Рисунки 10.4 и 10.5 показывают гистограммы каж- дого распределения для этого примера. Рис 10.4 Б ином инальное распределен ие вероятностей при п = 20, р = 0.03.
Рис 10.5 Распределен ие вероятностей Пуассона со средним значением = 0.6. Даже для самого завзятого скептика эти два распределения покажутся весьма схожими. Так что я советую вам использовать уравнение Пуассона, ес- ли вам необходимо вычислять биноминальные вероятности при п 20 и р 0.05.. На этом завершается наше обсуждение дискретных распределений веро- ятностей. Надеюсь, вам было так же интересно, как и мне! Ваша очередь 1. Месячное количество дождливых дней в определенном городе подчиня- ется распределению Пуассона со средним значением, равным 6 дней. Ка- кова вероятность того, что в следующем месяце будет 4 дождливых дня? 2. Количество посетителей одного магазина подчиняется распределению Пуассона со средним значением 7.5 посетителей в час. Какова вероят- ность того, что в течение следующего часа магазин посетят 5 человек? 3. Количество электронных сообщений, получаемых мной ежедневно, подчиняется распределению Пуассона со средним значением, равным 4.2 письма в день. Какова вероятность того, что завтра я получу больше 2 сообщений? 4. Количество сотрудников, позвонивших в понедельник в офис компании и сказавшихся больными, подчиняется распределению Пуассона со* сред- ним значением, равным 3.6. Какова вероятность того, что в следующий понедельник по этой причине в офис позвонят не более 3 сотрудников? 5. Количество нежелательных сообщений, получаемых мной ежедневно, подчиняется распределению Пуассона со средним значением 2.5. Како- ва вероятность того, что завтра я получу в точности 1 нежелательное со- общение? 6. Статистика свидетельствует о том, что 5% посетителей определенного сайта покупает что-либо на нем. Какова вероятность того, что в точнос- ти 2 посетителя из следующих 25 приобретут что-либо на сайте? Исполь- зуйте распределение Пуассона для приблизительного вычисления бино- минальной вероятности.
Повторение - мать учения ф Процесс Пуассона считает число реализаций события за определенный период времени, в определенной области, расстоянии или любую дру- гую единицу измерения. ф Среднее распределения Пуассона — это среднее количество реализа- ций, ожидаемых за единицу измерения, которое должно быть одинако- вым для каждого интервала измерения. ф Число реализаций в течение одного интервала процесса Пуассона не за- висит от количества реализаций в других интервалах. ф Если х — это случайная переменная Пуассона, вероятность х вероятно- * стей за определенный промежуток равна Ф Если число биноминальных испытаний больше или равно 20 и вероят- ность успеха меньше или равна 0.05, вы можете использовать уравнение для распределения Пуассона для получения приблизительных значений биноминальных вероятностей.
Нормальное распределение вероятностей В этой главе < Изучение свойств нормального распределения вероятностей Ф Использование стандартной нормальной таблицы для вы- числения вероятностей нормальной случайной переменной Ф Использование Excel для вычисления нормальных вероят- ностей Ф Использование нормального распределения для прибли- зительного вычисления биноминального распределения Мы закончили наше путешествие по дискретным распреде- лениям вероятностей и переходим к следующему непростому этапу. Наш очередной пункт назначения — непрерывные слу- чайные переменные и непрерывное распределение вероятнос- тей, йзвестное также как нормальное распределение. Возмож- но, вы помните, что в Главе 8 мы определили непрерывную слу- чайную переменную как переменную, которая может прини- мать любое числовое значение в пределах интервала как ре-
зультат измерения исхода эксперимента. Примерами непрерывных случай- ных переменных являются вес, расстояние, скорость или время. Нормальное распределение — это основополагающий инструмент статис- та. Такое распределение является основой для многих типов статистики вы- вода, которыми мы пользуемся сегодня. Мы будем часто обращаться к этому ; распределению в оставшихся главах книги. Характеристики нормального распределения вероятностей Непрерывная случайная переменная, которая подчиняется нормальному распределению вероятностей, обладает некоторыми особыми свойствами. 55 Предположим, месячная норма дождевых осадков в дюймах в выбранном го- роде подчиняется нормальному распределению со средним значением 3.5 1 дюйма и стандартным отклонением 0.8 дюйма. Распределение вероятностей для такой случайной переменной представлено на рисунке 11.1. РИС 11.1 Нормальное распределение Нормальное вероятностей распределен ие со средним значением 3.5, стандартным, отклонением 0.8. Среднее значение = 3.5 Стандартное отклонение = 0.8 Из этого рисунка мы можем сделать следующие наблюдения относитель- но нормального распределения: Ф Средняя величина, медиана и мода имеют одинаковое значение; в дан- ном случае это 3.5 дюйма Ф Распределение имеет форму колокола и симметрично относительно ме- - дианы Ф Общая область под изгибом равняется 1 Ф Правый и левый «хвосты» нормального распределения вероятностей имеют неограниченную протяженность, никогда не касаясь горизон- тальной оси Стандартное отклонение играет немаловажную роль в форме изгиба. Если . посмотреть на предыдущий рисунок, то можно заметить, что практически ;
все измерения месячного нормы дождевых осадков попадают в интервал от 1,0 до 6,0 дюймов. А теперь взгляните на рисунок 11.2, на котором представ- лено нормальное распределение с той же медианой 3.5 дюйма, но со стан- дартным отклонением всего 0.5 дюйма. Нормальное распределение Ц.2 вероятностей Нормальное распределен ие со средним значением 3.5, стандартным отклонением 0.5. Медиана = 3.5 дюйма, стандартное отклонение = 0.5 дюйма Здесь вы видите, что изгиб значи- тельно плотней прилегает к среднему значению. Почти все месячные изме- рения осадков попадают в интервал от 2.0 до 5.0 дюймов. На рисунке 11.3 показано, как сме- щается изгиб при изменении средней величины нормального распределе- ния до 5.0 дюймов при том же значе- нии стандартного отклонения 0.8. Эврика!--------------------- Небольшое значение стандартного отклонения выражается в более «тощей» й высокой кривой, плотно прижимающейся к среднему зна- чению. Чем больше стандартное отклонение, тем «толще», ниже и растяну- тее получается кривая. Рис 11.3 Нормальное распределение со средним значением = 5.0, стандартным отклонением = 0.8. стандартное отклонение = 0.8
Для каждого из вышеуказанных рисунков характеристики нормального распределения вероятностей оказались истинными. В каждом случае значе- ния (средней величины) и (стандартного отклонения) полностью описывают форму распределения. Функция вероятности для нормального распределения имеет весьма угро- жающий вид, а именно: ол/2л Обещаю, что больше подобных монстров не будет. К счастью, у нас есть иные способы вычисления вероятностей для данного распределения, кото- рые выглядят более прилично. О них мы узнаем в следующем разделе. Вычисление вероятностей для нормального распределения Существует несколько подходов к вычислению вероятностей для нормаль- ной случайной переменной. Их применение я продемонстрирую на следую- щем примере. Произошла эта история несколько дней назад. Тем утром Дебби позво- нила мне на мобильный, пока я бегал по делам, и произнесла два слова, ус- лышать которые я боялся весь последний год. «Они вернулись», — сказала она. «Хорошо», — ответили печально, отключился и направился прямиком в хозяйственный магазин. Задача передо мной стояла непростая, но я не со- бирался сдаваться без боя. Мне была объявлена война, и я ехал домой, пол- ностью подготовленный к битве. Конечно, я говорю о моей ежегодной борьбе с самым мерзким и подлым существом на планете — японским хру- щиком. К моменту моего приезда домой из хозяйственного магазина половина нашего прекрасного сливового дерева стала похожей на швейцарский сыр. Я немедля нанес контрудар, распылив по дереву самый сильнодейст- вующий химический препарат, который можно купить за деньги. Нако- нец, когда токсичный спрей рассеялся, я стоял один, хозяин своей терри- тории. Но вернемся к нашей теме. Предположим, что каждый год объем расходу- емого мной спрея подчиняется нормальному распределению со средним зна- чением 60 унций и стандартным отклонением 5 унций. Это значит, что каж- дый год во время борьбы с этими демонами я использую наиболее вероятный объем спрея в 60 унций, но каждый год этот объем несколько различается. Вероятность других объемов, больше или меньше 60 унций, уменьшается в соответствии с симметричным колоколообразным графиком. Вооруженные этой информацией, мы готовы приступить к вычислению вероятностей раз- нящихся каждый год объемов потребления спрея.
Вычисление z-распределения Поскольку общая область под изгибом нормального распределения равняется 1 и изгиб является симметричным, мы можем утверждать, что вероятность ис- пользования мной 60 и более унций спрея составляет 50%, равно как и вероят- ность использования 60 или меньше унций. Это показано на рисунке 11.4. Рис. 11.4 Нормальное распределение со средним = 60, стандартным отклонением = 5.0. 45 50 55 60 65 70 75 Унции токсического спрея Как вычислить вероятность использования мной 64.3 и менее унций спрея в год? Я рад, что вы задали этот вопрос. Для этого нам необходимо определить стандартное нормальное распределение, а именно нормальное распределе- ние ср = Ойо = 1.0, как показано на рисунке 11.5. Рис. 11.5 Стандартное нормальное отклонение со средним = 0 и стандартным отклонением — 1.0. Количество стандартных отклонений Это стандартное нормальное распределение является основой для всех вычислений нормальных вероятностей и часто используется в этой главе.
Термины Стандартное нормальное распределение - это нор- мальное распределение со сред- ним значением, равным 0, и стан- дартным отклонением, равным 1.0. Следующим шагом мы определим, на сколько стандартных отклонений отстоит значением 643 от среднего значения 60, и покажем это значение на графике стандарт- ного нормального распределения. Мы сде- лаем это с помощью следующей формулы: х-ц z =-~ где: х = нормально распределенная случайная переменная, ц = среднее значение нормального распределения, о = стандартное отклонение нормального распределения, z = количество стандартных отклонений между х и ц, известное как стандартное Z-распределение. Для данного примера стандартное z-распределение получается следующим: _ 64.3-60 Z64.3 5 ~ 0.86. Теперь я знаю, что значение 64.3 находится в 0.86 стандартного отклоне- ния от среднего значения 60 в моем распределении. Использование стандартной нормальной таблицы Рассчитав стандартное z-распределение, я могу использовать следующую таблицу, чтобы определить вероятность использования 64.3 или менее унций спрея в следующем году. Таблица представляет собой часть таблицы из При- ложения В и показывает область стандартной нормальной кривой, включаю- щей определенные значения z. Поскольку в нашем примере z = 0.86, мы на- ходим строку 0.8 и столбец 0.6, которые пересекаются на значении 0.8051 (в таблице оно подчеркнуто). Я Вторая цифра z z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480. 0.6517 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 Эта область графически представлена на рисунке 11.6. РИС 11.6 Заштрихованная область представляет вероятность того, что z будет меньше или равно 0.86. Количество стандартных отклонений Вероятность того, что стандартное z-распределение будет меньше или рав- но 0.86, является 80.51%. Поскольку: P[z<0.86] = Р[х<64.3] = 0.8051. То есть, существует 80.51%-ная вероятность, что в следующем году я рас- пылю на этих отвратительных японских хрущиков 64.3 или менее унций спрея. Это показано на рисунке 11.7. Рис 11.7 Заштрихованная область представляет вероятность того, что х будет меньше или равен 64.3 унции. 60 64.3 Унции токсичного спрея
Внимание! ------------------------------------------------------ С помощью непрерывных случайных переменных мы не сможем определить вероят- ность использования точно 64.3 унции спрея, поскольку такая вероятность будет ничтожно мала. Это потому, что существует неопределенное количество объемов, которые я могу распылить в определенный год. В один год я могу распылить 61.757 унций спрея, а в дру- гой - 53.472 унции. Поэтому с помощью непрерывных случайных переменных мы можем вычислять только вероятности определенных интервалов, например, менее 64.3 унции или от 50.5 до 58.1 унции. Сравните эту особенность с дискретными случайными переменными из предыдущих глав. Для таких переменных существует ограниченное число значений, по- этому мы можем вычислить в точности х реализаций или г успехов. А какова вероятность того, что в следующем году я использую более 62.5 унций спрея? Поскольку стандартная нормальная таблица содержит только те вероятности, которые меньше или равны z-распределению, нам необходи- мо дополнение этого события. Р[х>62.5] = 1 - Р[х<62.5] Тогда Z-распределение получается следующим: 62.5-60 л ^62.5 ~ ” 0.50. В соответствии с нашей нормальной таблицей: P[z < 0.50] = 0.6915. Но нам необходимо получить: P[z > 0.50] = 1 - 0.6915 = 0.3085. Эта вероятность графически представлена на рисунке 11.8. Рис 11.8 Заштрихованная область представляет вероятность того, что z будет больше 0.50. 0 0.5 Количество стандартных отклонений
Поскольку: P[z > 0.50] = Р[х > 62.5] = 0.3085. То есть существует 30.85%-ная вероятность, что в следующем году я ис- пользую более 62.5 унций спрея. Ну, жуки, берегитесь! А какова вероятность того, что я использую более 54 унций спрея? И сно- ва мне необходимо дополнение, а именно: Р[х > 54] = 1 - Р[х<54]. Z-распределение получается следующим: Отрицательное результат означает, что мы находимся слева от среднего значения распределения. Обратите внимание, что в таблице представлены только положительные значения z. Но здесь никаких проблем не возникнет, поскольку распределение симметрично. На рисунке 11.9 видно, что заштри- хованная область слева от — 1.20 стандартных отклонений от среднего — это то же самое, что и заштрихованная область справа от +1.20 стандартных от- клонений от среднего. Количество стандартных отклонений « Мы можем определить область справа от + 1.20 стандартных отклонений: P[z>+ 1.2] = 1 - P[z< + 1.2] = 1 - 0.8849= 0.1151. Таким образом, область слева от — 1.20 стандартных отклонений от сред- него также равна 0.1151. Теперь мы можем вычислить область справа от — 1.20 стандартных отклонений от среднего. P[z>- 1.2] = 1 - P[z< - 1.2] = 1 - 0.1151 = 0.8849. Поскольку: Р[х > 54] = P[z > - 1.2] = 0.8849.
То есть существует 88.49%-ная вероятность, что я распылю более 54 унций спрея. Эта вероятность графически представлена на рисунке 11.10. Рис. 11.10 Заштрихованная область — это вероятность того, что х будет больше 54 унций. Унции токсичного спрея Эврика! В краткой форме предыдущий пример можно представить так: P[z>- 1.20] = P[z< + 1.20] P[z>- 1.20] = 0.8849. В целом вы можете использовать следующие два отношения для любого значения а, когда речь идет об отрицательных z-распределениях: P[z> —а] = P[z< + а] P[z< —а] = 1 — P[z< 4- а]. Наконец, давайте рассчитаем вероятность того, что я использую от 54 до 62.5 унции в следующем году. Эта вероятность графически представлена на рисунке 11.11. РИС. 11.11 Заштрихованная область — это вероятность того, что х окажется в интервале от 54 до 62.5 унции. 54 60 62.5 Унции токсичного спрея
Из предыдущего примера мы знаем, что область слева от 54 унций — это 0.1151, а справа от 62.5 унции — 0.3085. Поскольку общая область под кривой распределения равна 1: Р[54<х<62.5] = 1 — 0.1151 — 0.3085 = 0.5764. Существует 57.64%-ная вероятность того, что я распылю от 54 до 62.5 ун- ции ядовитого спрея в следующем году. Никак не могу этого дождаться. И снова эмпирическое правило Помните, как в Главе 5 мы обсуждали эмпирическое правило? Оно гласило, что если распределение можно представить в виде колоколообразного сим- метрического графика, сконцентрированного вокруг среднего, то примерно 68, 95 и 99.7% значений окажутся в пределах 1, 2 и 3 стандартных отклонений от среднего значения соответственно. Я рад сообщить вам, что теперь у нас есть возможность продемонстрировать эти результаты на практике. Заштрихованная область на рисунке 11.12 показывает процент наблюде- ний, которые по нашим ожиданиям должны оказаться в пределах 1.0 стан- дартного отклонения от среднего значения. Рис 11.12 Заштрихованная область — это вероятность того, что х окажется в диапазоне от — 1.0 до + 1.0 стандартного отклонения от средней величины. Количество стандартных отклонений Откуда появились эти 68% ? Давайте посмотрим в таблице вероятность того, что наблюдение будет менее 1.0 стандартного отклонения от средней величины. P[z< +1.0] = 0.8413. Таким образом, область справа от + 1.0 стандартного отклонения равна: P[z> +1.0] = 1 - 0.8413 = 0.1587. Благодаря симметрии, область слева от — 1.0 стандартного отклонения также равна 0.1587. Получается, что область от — 1.0 до + 1.0 равна: Р[- 1.0<z< + 1.0] = 1 - 0.1587 - 0.1587 = 0.6826.
Та же логика используется для подтверждения вероятностей 2.0 и 3.0 стандартных отклонений от среднего значения. Попробуйте проверить их сами. Вычисление нормальных вероятностей с помощью Excel И снова мы обращаемся к Excel с просьбой выполнить за нас рутинную рабо- ту. Прежде всего, рассмотрим встроенную функцию НОРМРАСП, обладаю- щую следующими характеристиками: НОРМРАСП(х; среднее; стандартное__откл; интегральный) где: интегральная = ЛОЖЬ, если мы хотим получить вероятность распреде- - ления частот (мы ее не хотим получить) интегральная = ИСТИНА, если мы хотим получить суммарную вероят- ность (она-то нам и нужна) Например, на рисунке 11.13 показана функция НОРМРАСП, используе- мая для вычисления вероятности того, что в следующем году я распылю ме- нее 64,3 унции спрея на этих мерзких жуков. Рис 11.13 Функция НОРМРАСП для менее 64.3 унции. В ячейка А1 содержится формула =НОРМРАСП(64.3; 60.5; ИСТИНА) с ре- зультатом 0.8051. Эта вероятность подчеркнута в предыдущей таблице. В Excel также есть функция НОРМСТОБР со следующими характеристи- ками: НОРМСТОБР (вероятность) Вы предоставляете в распоряжение этой функции вероятность от 0 до 1, а она возвращает соответствующее z-распределение. На рисунке 11.14 показа- на функция НОРМСТОБР, вернувшая z-распределение для вероятности зна- чения 0.8413, расположенного в 1.0 стандартном отклонении от средней ве- личины.
Рис 1114 Функция НОРМСТОБР для стандартного отклонения 1.0. В ячейке А1 содержится формула =НОРМСТОБР(0.8413) с результатом 0.9998 (близко к 1.0). Если вернуться к рисунку 11.12, то вы увидите, что об- ласть слева от 1.0 стандартного отклонения от средней величины в сумме со- ставляет 0.8413. Вы также найдете это значение в стандартной нормальной таблице рядом с z = 1.0. Использование нормального распределения как приближение биноминального распределения Помните, сколько проблем может доставить нам биноминальное распреде- ление? Что ж, нормальное распределение сможет помочь нам в эти непро- стые моменты при определенных условиях. Вспомним из Главы 9, что бино- минальное уравнение позволяет вы- числить вероятность г успехов в п ис- пытаниях при р = вероятность успеха для каждого испытания, a q = вероят- ность неудачи. Если пр > 5 и nq > 5, мы можем использовать нормальное распределение для получения при- ближения биноминального распреде- ления. Пример: предположим, что в моем классе по статистике 60% — девушки. Если я случайным образом выберу 15 студентов, какова вероятность того, что в полученной группе окажется 8, 9, 10 или 11 девушек? В этом примере п = 15, р = 0.6, q = 0.4, г = 8, 9, 10 и 11. Мы можем использовать нормаль- ное распределение, поскольку пр = 15-0.6 = 9 и nq = 15-0.4 = 6. (Уж про- стите меня, парни, я никак не хотел этим сказать, что, выбрав вас, меня ждет неудача!) Даже если вам не слишком инте- ^1 ресно, как можно использовать нормальное распределения для получения приближенного би- номинального распределения, я очень советую вам проработать при- мер, предложенный в этом разделе. В любом случае вы сможете попрактико- ваться в вычислении вероятностей для нормального распределения. А мы все знаем, что повторение - мать учения! Термины________________ Нормальное распределение может быть использовано для получения приближения биноми- нального распределения, если пр> 5 и nq > 5.
Нам понадобится биноминальная таблица, представленная в Приложении В. Ниже вы видите часть этой таблицы, где подчеркнуты интересующие нас веро- ятности. Значения р п г 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 15 0 0.2059 0.0352 0.0047 0.0005 0.0000 0.0000 0.0000 0.0000 0.0000 1 0.3432 0.1319 0.0305 0.0047 0.0005 0.0000 0.0000 0.0000 0.0000 2 0.2669 0.2309 0.0916 0.0219 0.0032 0.0003 0.0000 0.0000 0.0000 3 0.1285 0.2501 0.1700 0.0634 0.0139 0.0016 0.0001 0.0000 0.0000 4 0.0428 0.1876 0.2186 0.1268 0.0417 0.0074 0.0006 0.0000 0.0000 5 0.0105 0.1032 0.2061 0.1859 0.0916 0.0245 0.0030 0.0001 0.0000 6 0.0019 0.0430 0.1472 0.2066 0.1527 0.0612 0.0116 0.0007 0.0000 7 0.0003 0.0138 0.0811 0.1771 0.1964 0.1181 0.0348 0.0035 0.0000 8 0.0000 0.0035 0.0348 0.1181 0.1964 0.1771 0.0811 0.0138 0.0003 9 0.0000 0.0007 0.0116 0.0612 0.1527 0.2066 0.1472 0.0430 0.0019 10 0.0000 0.0001 0.0030 0.0245 0.0916 0.1859 0.2061 0.1032 0.0105 И 0.0000 0.0000 0.0006 0.0074 0.0417 0.1268 0.2186 0.1876 0.0428 Также вспомним из Главы 9, что среднее значение и стандартное отклоне- ние этого биноминального распределения получаются так: ц = пр = (15)(0.6) = 9 ст = y/npq = 7(15) (0.6) (0.4) =1.897. Вероятность того, что в группе из 15 студентов окажется 8, 9, 10 или 11 де- вушек, получается следующим образом: Р[г = 8, 9, 10 или И] = 0.1771 + 0.2066 + 0.1859 + 0.1268 = 0.6964. А теперь давайте решим эту проблему с помощью нормального распреде- ления и сравним полученные результаты. На рисунке 11.15 показано нор- мальное распределение с ц = 9 и а = 1.897. Обратите внимание, что заштрихованная область простирается от 7.5 до 11.5, а не от 8 до 11. Не беспокойтесь, ошибки здесь нет. Я вычел 0.5 из 8 и добавил 0.5 к 11, чтобы компенсировать то, что нормальное распреде- ление является непрерывным, а биноминальное — дискретным. Прибав- ление и вычитание 0.5 называется поправкой на непрерывность. Для боль- ших значений п, например, 100 или более, вы можете игнорировать эту поправку.
Рис 11.15 Приближение нормального распределения к биноминальному. 7.5 9 11.5 Количество девушек Теперь нам необходимо вычислить z-распределение. х-ц 11.5-9 о ~ 1.897 = +1.32 х-ц _ 7.5-9 о ~ 1.897 = -0.79 В соответствии с нормальной таблицей: P[z< +1.32] = 0.9066. Эта область заштрихована на рисунке 11.16. РИС. 11.16 Вероятность того, что z < -У 1.32 стандартных отклонений от среднего значения. 0 +1.32 Количество стандартных отклонений Благодаря симметрии кривой нормального распределения мы также зна- ем, что: P[z< - 0.79] = 1 - P[z< + 0.79]. В соответствии с таблицей: P[z< +0.79] = 0.7852.
Следовательно: P[z< - 0.79] = 1 - 0.7852 = 0.2148. Эта вероятность показана на заштрихованной области рисунка 11.17. Рис. 11.17 Вероятность того, что z< — 0.79 стандартных отклонений от средней величины. -0.79 0 Количество стандартных отклонений Вероятность для интересующего нас примера — это область между z-pac- пределениям — 0.79 и + 1.32. Чтобы вычислить эту область, выполним следу- ющие вычисления: Р[~ 0.79 <z< + 1.32] = P[z< + 1.32] - P[z< - 0.79] Р[- 0.79 <z< + 1.32] = 0.9066 - 0.2148 = 0.6918. Эта вероятность представлена на заштрихованной области рисунка 11.18. Рис. 11.18 Вероятность того, что — 0.79 <z< +1.32 стандартных отклош от среднего значения. Количество стандартных отклонений Используя нормальное распределение, мы определили вероятность того, что в моей группе из 15 студентов окажется 8, 9, 10 или 11 девушек, — 0.6916. Как видите, эта вероятность очень близка к результату, полученному нами из биноминальной таблицы, — 0.6964.
На этом завершается глава, посвященная нормальному распределению вероятностей. Чувствую, что я как следует подготовился к очередной встрече со своим заклятым врагом — японским хрущиком. Пожелайте мне удачи. Ваша очередь 1. Скорость машин, проезжающих через пункт контроля, подчиняется нормальному распределению ср = 62.6 миль в час ио = 3.7 миль в час. Какова вероятность того, что следующая машина будет двигаться со ско- ростью: а. Превышающей 65.5 миль в час? в. Превышающей 58.1 миль в час? с. От 61 до 70 миль в час? 2. Продажная цена различных домов в районе подчиняется нормальному распределению ср = $176 000 и о = $22 300. Какова вероятность того, что следующий дом будет продан за цену: а. Менее $176 000? в. Менее $158 000? с. От $150 000 до $168 000? 3. Возраст покупателей одного розничного магазина подчиняется нор- мальному распределению ср = 37.5 лет ио = 7.6 лет. Какова вероят- ность того, что возраст следующего покупателя, вошедшего в магазин, будет: а. Больше 31 года? в. Меньше 42 лет? с. От 40 до 45 лет? 4. Монету подбросили 14 раз. Используйте нормальное распределение как приближение к биноминальному для вычисления вероятности выпаде- ния 4, 5 или 6 «орлов». Сравните полученный результат с биноминаль- ной вероятностью. Повторение - мать учения Ф Нормальное распределение имеет колоколообразную и симметричную кривую, сконцентрированную вокруг среднего значения. Ф Общая область под кривой нормального распределения равна 1.0. Ф Таблицы нормального распределения основываются на стандартном нормальном распределении с ц= Ойо = 1.0.
Ф Количество стандартных отклонений между нормально распределенной случайной переменной (х) и носит название z-распределения и может рассчитываться по формуле: о ф Программа Excel имеет две встроенные функции, с помощью которых вы можете выполнять вычисления, связанные с нормальным распреде- лением: НОРМРАСП и НОРМСТОБР. ф Нормальное распределение может быть использовано для примерного ' вычисления биноминального распределения, если пр > 5 и nq > 5.
Чает! Статистический вывод А теперь мы можем взять все те замечательные понятия, которыми загрузили свои бедные мозги благодаря Частям 1 и 2, и заставить их работать с помощью слов с вполне статистическим звучанием, вроде доверительного интервала и проверки гипотезы. Статистический вывод позволяет нам делать предположения о генеральной совокуп- ности на основе результатов случайной выборки из этой совокупно- сти. Например, с помощью статистического вывода можно точно предугадать, кто станет победителем на выборах, задолго до выборов, с помощью результатов сравнительно маленькой, но грамотно отоб- ранной выборки. Это весьма любопытно!

Выборка В этой главе Ф Причина, по которой измеряется выборка, а не совокупность Ф Различные методы отбора случайной выборки Ф Определение ошибок выборки Ф Последствия применения неверных выборочных методик Наша первая глава по долгожданной теме статистики вывода посвящена выборке. Если вы еще способны припомнить то, о чем мы говорили в Главе 1, то речь шла о генеральной совокуп- ности. представляющей все возможные исходы или измерения, представляющие интерес, и о выборке, подмножестве совокуп- ности. В этой главе вы побеседуем о том, почему в статистике имеют дело с выборками и каковы могут быть последствия их неправильного отбора. Практически все статистические результаты основываются на измерении выборки, взятой из генеральной совокупности. Судьбоносные решения часто принимаются на основе информа- ции, полученной из выборок. Например, рейтинги Артура Нель- сона формируются на основании собранной информации у не- большой выборки граждан, а на их основе делаются заключения в отношении телевизионной аудитории всей страны. Будущее вашего любимого телевизионного шоу находится в руках этой небольшой группки граждан! Грамотный отбор выборки — это решающий шаг, влияющий на точность статистических выводов.
Почему выборка? Большинство статистических исследований опираются на выборку, взятую из генеральной совокупности. Отношения между выборкой и генеральной совокупностью показаны на рисунке 12.1 (а также описаны в Главе 1). Рис 12.1 Отношения между выборкой и генеральной совокупностью. Почему бы не измерить всю генеральную совокупность вместо того, чтобы полагаться на выборку? Хороший вопрос! В зависимости от исследования из- мерение генеральной совокупности может стоить слишком дорого или вооб- ще представляться невозможным. Если я захочу измерить продолжитель- ность жизни одного из видов назойливых москитов (кстати, их жизнь очень коротка), то мне вряд ли удастся произвести (наблюдение за всеми москитами в совокуп- ности. Мне придется положиться на выбор- ку генеральной совокупности москитов, из- мерить продолжительность их жизни, а за- тем сделать предположение относительно продолжительности жизни всей генераль- ной совокупности. В этом и состоит осново- полагающая идея статистического вывода! К сожалению, выполнить то, о чем я только что сказал, куда сложней, чем просто напи- сать об этом. И этому посвящена оставшая- ся часть книги. Даже если бы мы могли измерить всю ге- неральную совокупность целиком, такой шаг мог бы оказаться совершенно бесполез- ным. Если выборка отобрана грамотно и ана- лиз произведен правильно, мы можем сде- лать довольно точные выводы и оценку всей совокупности. Нет смысла выходить за пре- делами выборки и измерять все, что окажет- ся в поле зрения. Измерение всей генраль- ной совокупности зачастую оборачивается впустую потраченными временем и деньга- ми — ресурсами весьма дефицитными. МЫСАИВСЛУХ Компания Nielsen Media Research про- водит опросы среди 5000 семей по всей стране, чтобы сделать выводы о телевизионных пристрастиях миллио- нов граждан. Поскольку результаты этих опросов частенько являются ос- новой для принятия решений об отме- не шоу или в отношении доходов от рекламных роликов, вы уж поверьте, что эта компания весьма осторожна и внимательна при отборе выборки. > Эврика! Часто измерить всю совокуп- ность целиком не представля- ется возможности. Но даже если такая возможность су- ществует, измерение целой совокупности может оказаться впу- стую потраченными временем и деньгами и мало что прибавит к из- мерению выборки.
Подобное решение было принято в колледже Golden-Beacom College, где я сейчас преподаю. Я также являюсь председателем комитета кодекса чести студентов и поэтому был вовлечен в проект, ставивший своей целью собрать информацию об отношении наших студентов к честности и добросовестнос- ти. Мы вполне могли бы опросить всех студентов колледжа, но благодаря ста- тистике вывода в этом не было необходимости. Наконец, мы приняли мудрое решение и отобрали лишь часть студентов, чтобы сделать выводы обо всей совокупности. Случайная выборка Термин случайная выборка относится к процедуре отбора, при котором все представители совокупности имеют равные шансы быть отобранными. Цель случайной выборки — удостовериться, что финальная выборка, подлежащая измерению, является репрезентативной в отношении всей совокупности, из которой она была взята. Если же это не так, то мы имеем дело с выборкой с пристрастием, измерение которой можем привести к неверным результа- там. Вспомните, в Главе 1 мы уже об- суждали пристрастную выборку, ког- да говорили об опросе в отношении курса по гольфу. Грамотный отбор вы- борки является решающим для точно- сти статистического анализа. Существует несколько способов от- бора случайной выборки. Для их де- монстрации я воспользуюсь следую- щим примером. По большей части я считаю Дебби человеком вполне разумным (в конце концов, она же замужем за мной). Но Термины_________________ Случайной выборкой называ- ется процедура выборки, при которой все представители совокуп- ности имеют равные шансы быть отоб- ранными. Выборка с пристрастием - это выборка, не являющаяся репре- зентативной по отношению к совокуп- ности; ее использование может при- вести к искажению результатов. в последнее время у меня зародились некоторые опасения в отношении ее поведения в связи с тем, что она дости- гает определенной вехи раньше меня. Мне не разрешено разглашать, *что это за веха такая (под страхом того, что она больше не будет вычитывать напи- санные мною главы). Скажу лишь, что оно имеет отношение к делению 100 на 2 (вы же математики!). Как бы то ни было, недавно, когда мы с женой прогуливались по универ- магу, она вдруг подбежала к прилавку, где продавались небольшие шиньоны в виде конских хвостиков. Никогда в жизни я не видел ничего подобного, и мне никогда в голову и идея такая не пришла бы. Дебби же, напротив, счита- ла эту идею просто превосходной. В ту же секунду из ниоткуда появилась ка- кая-то Незнакомка, и, прежде чем я успел сказать, что это моя жена, незна- комка быстренько уложила волосы Дебби и пристроила ей на затылок кон- ский хвостик, немного напоминающий маленькое волосатое животное.
Дебби, в восторге от своего «нового облика», повернулась ко мне и спро- сила моего совета. Поскольку в этот день была как раз годовщина нашей свадьбы, я тихонько пробормотал, что выглядит она прекрасно, и протянул незнакомке кредитку. (Я немного торможу в таких вопросах, но я отнюдь не глупец.) Остаток дня Дебби скакала по всему универмагу со своим симпатич- ным волосатым животным на голове. Когда я свыкся с этой идеей, я был вы- нужден признать, что смотрится этот пучок совсем неплохо. Допустим, мы хотим организовать опрос мнений относительно нового об- лика Дебби. Вы, дорогой читатель, можете сообщить мне свое мнение, лишь взглянув на рисунок 12.2, а затем отправив мне по почте сообщение на адрес с сайта этой книги www.stat-guide.com. Рис 12.2 Новый облик Дебби: а что вы думаете по этому поводу? Если я сочту моей совокупностью всех посетителей универмага, мне необ- ходимо решить, как отбирать случайную выборку тех, чье мнение мне хоте- лось вы узнать. В следующих разделах мы узнаем, что существуют четыре способа отбора случайной выборки: простая случайная, систематическая, групповая и расслоенная. Простая случайная выборка Простая случайная выборка — это выборка, в которой все представители со- вокупности имеют равные шансы быть отобранными. Но проще сказать, чем сделать. В примере с универмагом я могу случайным образом выбирать лю-
Термины Выборка является простой случайной, если все предста- вители совокупности имеют равные шансы быть отобранными. дей и спрашивать их мнение. Но в мо- ем отборе могут быть пристрастия. На- пример, если я увижу некоего типа уг- рожающего вида с татуировкой «Смерть всем статистам», вряд ли я выберу его, чтобы узнать, что он дума- ет о новом облике моей супруги. Но тогда я поступлю необъективно. Допустим, я могу избавить себя от выборки с пристрастием, тогда приме- ром простой случайной выборки будет рисунок 12.3. Рис. 123 Простая случайная выборка. Каждый «X» — это покупатель, а каждый «X», обведенный кругом, — по- купатель, вошедший в мою выборку. Есть и другие способы отбора простой случайной выборки для опроса в колледже, упомянутого ранее в этой главе. Я мог бы случайно отобрать сту- дентов с помощью таблицы случайных чисел. (Это просто таблица с совер- шенно случайными числами.) Ниже показана часть такой таблицы. * 57245 39666 18545 50534 57654 25519 35477 71309 12212 98911 42726 58321 59267 72742 53968 63679 54095 56563 09820 86291 82768 32694 62828 19097 09877 32093 23518 08654 64815 19894 97742 58918 33317 34192 06286 39824 74264 01941 95810 26247 48332 38634 20510 09198 56256 04431 22753 20944 95311 29515 26700 40484 28341 25428 08806 98858 04816 16317 94928 05512 66156 16407 57395 86230 47495 13908 97015 58225 82255 01956 64062 10061 01923 29260 32771 71002 58132 58646 69089 63694
24713 95591 26970 37647 26282 89759 69034 55281 64853 50837 90417 18344 22436 77006 87841 94322 45526 38145 86554 42733 Положим, наша генеральная совокупность состоит из 1000 студентов, из которых нам необходимо отобрать выборку в 100 человек. (Позже мы обсу- дим размер выборки.) Пронумеруем этих студентов от 0 до 999. В соответст- вии с таблицей случайных чисел будет отобран студент 572, затем студент 427 и так далее, пока не будут отобраны 100 студентов. Используя такую методику, я произведу совершенно случайную выборку студентов. Эврика!;------------------ При каждом изменении Excel автоматически пересчитывает все функции и формулы; в ре- зультате для каждой функции САЧИЛО генерируется новое случайное число. Случайные числа также можно сгене- рить с помощью функции СЛЧИСО про- граммы Excel. Пример ее использования показан на рисунке 12.4. Ячейка А1 содержит формулу = СЧИС(), которая предоставляет слу- чайное число от 0 до 1. Благодаря этому случайному числу для выборки будет отобран студент 435. Рис. 12.4 Генератор случайных чисел Excel. Систематическая выборка Один из способов избежать пристрастности при случайном отборе людей — это использование систематической выборки. Эта методика подразумевает отбор каждого к члена совокупности, который и будет представлен в выбор- । Термины При систематической вы- борке будет отобран каж- дый k-ый член генеральной совокуп- ности. При этом значение к будет приблизительно равно N п ке. Значение к зависит от размера выборки и генеральной совокупности. В примере с колледжем при размере совокупности в 1000 студентов и выборке 100 студентов к = 10. Из списка всей совокупности я буду отби- рать для выборки каждого десятого студен- та. В целом, если N = размер генеральной совокупности, п = размер выборки, тогда: кЛ. п
Мы также можем применить эту методику к примеру с универмагом. На рисунке 12.5 показано, что каждому третьему посетителю универмага будет задан вопрос по поводу нового облика Дебби, даже если этот посетитель бу- дет обладателем угрожающей татуировки. И снова «X» — посетитель, а «X», обведенный крутом, — посетитель, во- шедший в выборку. Преимуществом использования систематической выборки является про- стота ее проведения по сравнению с простой случайной выборкой — такая выборка часто требует меньших затрат времени и средств. Недостаток — опасность отбора пристрастной выборки, если в совокупности прослежива- ется поведение, сопоставимое со значением к. Например, предположим, что я провожу опрос в кампусе, спрашивая студентов, сколько часов в неделю они посвящают учебе, и для сбора данных я выбираю каждую четвертую не- делю. Поскольку в колледже семестр длится 8 недель, каждая четвертая не- деля может оказаться неделей зачетов и тестов, требующей более серьезно- го погружения в учебу, чем обычно (во всяком случае, мне хотелось бы так думать!). Групповая выборка Если генеральную совокупность можно разделить на группы, тогда простая случайная выборка может быть произведена из этих групп для формирова- ния финального варианта выборки. В примере с комитетом кодекса чести в качестве групп могут выступать учебные группы, которые мы будем отби- рать случайным образом для участия в опросе. В каждой из выбранных групп все студенты будут включены в выборку.
Термины Групповой называется про- стая случайная выборка групп совокупности. Каждый представитель отобранной группы будет включен в выборку. Опрос в универмаге тоже можно прове- сти с использованием групповой выборки. Группами могут стать магазинчики в гене- ральной совокупности всего универмага. Магазинчики могут быть отобраны слу- чайным образом, а каждому посетителю выбранных магазинов будет задан вопрос о прическе Дебби. На рисунке 12.6 графи- чески представлена групповая выборка. Рис 12.6 Групповая выборка. В соответствии с предыдущим рисунком, Магазины 1, 3 и 4 выбраны для участия в опросе. Чтобы групповая выборка была эффективной, каждая группа, отобранная для участия в ней, должна быть репрезентативной по отношению ко всей со- вокупности. На самом деле каждая группа является уменьшенной версией целой совокупности. При грамотном использовании групповая выборка мо- жет быть весьма экономически целесообразным способом отбора случайной выборки из генеральной совокупности. В примере с универмагом мне доста- точно посетить три магазина для проведения в них опроса, чем я очень сэко- номлю себе время в годовщину своей свадьбы. Слоенная выборка Слоенная выборка подразумевает деление совокупности на взаимоисключа- ющие группы (слои) и случайную выборку из каждой из этих групп. В нашем примере с универмагом слоями могут быть представители мужского и жен- ского полов. Использование слоенной выборки гарантирует, что в моей ко- нечной выборке будет равное количество мужчин и женщин. Такое расслое- ние графически представлено на рисунке 12.7.
Существует множество различных способов поделить генеральную сово- купность на слои. В примере со студен- ческим комитетом кодекса чести слоя- ми могут быть студенты и аспиранты. Если 20% нашей студенческой сово- купности представлены аспирантами, я могу использовать слоенную выбор- ку, и в финальной выборке 20% будут тоже аспиранты. Другими примерами критериев расслоения выборки могут быть возраст, доход или занятие. Термины---------------- Слоенной называется выбор- ка, подразумевающая деление совокупности на взаимоисключаю- щие группы (слои) и случайную вы- борку из каждой из этих групп. Рис 12.7 Слоенная выборка. Слоенную выборку особенно целесообразно использовать тогда, когда мы хотим, чтобы финальная выборка обладала определенными характеристика- ми целой совокупности. Если бы в примере с универмагом мы использовали простую случайную выборку, в финальной выборке не была бы соблюдена необходимая пропорция мужчин и женщин. Это может привести к пристра- стной выборке в том случае, если у мужчин окажется совершенно иной взгляд на новый облик Дебби, чем у женщин. Ошибки выборки Пока мы рассматривали лишь плюсы отбора выборки из генеральной сово- купности, предпочитая именно выборку измерению всех представителей со- вокупности. Однако в статистике, как и в жизни, не существует бесплатного сыра. Полностью полагаясь на выборку, мы включаем «зеленый свет» ошиб- кам, которые могут привести к неточным выводам в отношении генеральной совокупности.
Любой статист больше всего беспокоится по поводу ошибок выборки, кото- рые происходят, когда измерение выборки отличается от измерения совокуп- ности. Поскольку генеральная совокупность целиком измеряется крайне ред- Термины----------------- Ошибка выборки происхо- дит тогда, когда свойства вы- борки существенно отличаются от свойств генеральной совокупности. Это случается при отборе выборки, не соответствующей совокупности, из которой она была получена. ко, невозможно совершенно точно вы- числить ошибку выборки. И все-таки с помощью статистики вывода мы научим- ся определять вероятности некоторого количество ошибок выборки (Глава 15). Ошибки выборки случаются тогда, когда мы производим неудачный отбор выборки, не соответствующей своей ге- неральной совокупности. Если большин- ству посетителей универмага очень по- нравилась новая прическа Дебби, но нам случилось выбрать тех, кто не способен ценить красоту, тогда Дебби, воз- можно, уже не придется носить свой прелестный конский хвостик. К ошибкам выборки следует быть готовым: они являются своего рода пла- той за то, что нам не приходится обрабатывать всю совокупность целиком. Одним из способов уменьшения вероятности ошибки выборки статистичес- кого исследования является увеличение размера выборки. В целом, чем боль- ше размер выборки, тем меньше вероятность ошибки. Если вы увеличите размер выборки до размера генеральной совокупности, то ошибка выборки будет равна нулю. Но таким образом вы лишитесь всех достоинств выборки. Примеры использования ошибочных выборочных методик Выборочные методики широко используются в политике. Но используются они не всегда грамотно. Одна из самых известных неудач при осуществле- нии выборки произошла во время президентской гонки 1936 года, когда Ли- тературный Дайджест предсказал, что Альф Лэндон одержит победу над Франклином Рузвельтом. Даже если вы не очень сильны по части истории, вы наверняка поняли, что кое-кто после выборов оказался в весьма неприят- ном положении. Литературный Дайджест отобрал выборку из телефонных книг и регистрационных книг автомобилистов. Но проблема состояла в том, что в 1936 владельцами телефонов и автомобилей являлись в основном состо- ятельные республиканцы, выборка которых не являлась репрезентативной для всей совокупности избирателей. Другая политическая ошибка подобного рода была допущена в 1948 году, когда во время президентской гонки Институт Гэллапа предсказал, что Томас Дьюи одержит победу над Гарри Труменом. На рисунке 12.8 показан ликую- щий Трумен, который держит в руках утренний выпуск газеты Chicago Tribune с заголовком «Дьюи одерживает победу над Труменом». Неудача Института Гэллапа состояла в том, что в их выборке оказалось большое количество неопределившихся избирателей. Было сделано невер-
Рис. 12.8 Дьюи одерживает победу над Труменом. . Внимание! ------------------------------------------------------- Вы когда-нибудь принимали участие в опросе online на спортивном или новостном сайте с возможностью просмотреть результаты? Эти опросы могут быть весьма забавными и любопытными, но к результатам необходимо относиться критически. Это потому, что ре- спонденты выбирают себя сами, а это значит, что выборка не является случайной. Результа- ты подобных опросов считаются пристрастными, поскольку их участники не являются ре- презентативными по отношению к совокупности в целом. Например, те, у кого нет выхода в Интернет, не могут быть включены в выборку, а могли бы ответить на вопросы иначе, чем те, у кого есть доступ в Интернет. ное предположение о том, что эти избиратели являются репрезентативной выборкой определившихся избирателей, поддерживающих Дьюи. Трумен без труда выиграл на выборах, набрав 303 голоса против 189 голосов у Дьюи. Как видите, для статистики вывода грамотный отбор выборки является ре- шающим шагом. Даже большой размер выборки не способен скрыть ошибок отбора выборки, не являющейся репрезентативной в отношении совокупно- сти в целом. История показала, что большие размеры выборок вовсе не обес- печивают точности. Например, Институт Гэллапа предсказал, что Никсон по- лучит 43% голосов на президентских выборах 1968 года, а он получил 42,9%. В данном случае Институт Гэллапа опирался на размер выборки всего в 2 тыся- чи человек, в то время как Литературный Дайджест опросил 2 миллиона че- ловек. (Источник: www.personal.psu.edu/faculty/g/e/gec7/Sampling.htm) Ваша очередь 1. Систематическая выборка должна быть произведена из телефонной книги, содержащей 75 тысяч фамилий. Если должна быть выбрана каж- дая к фамилия из книги, то какое значение к необходимо выбрать для от- бора выборки размером 500?
2. Генеральная совокупность определена как все сотрудники одной компа- нии. Как можно использовать групповую выборку для отбора выборки для участия в опросе по поводу удовлетворенности сотрудников работой в компании? 3. Генеральная совокупность определена как все сотрудники одной компа- нии. Как можно использовать слоенную выборку при отборе выборки для участия в опросе по поводу удовлетворенности сотрудников работой в компании? Повторение - мать учения Ф Простая случайная выборка — это выборка, в которой все представите- ли совокупности имеют равные шансы быть отобранными. Ф В систематической выборке каждый к член совокупности отбирается для выборки, причем значение к приблизительно равно N п Ф Групповой называется простая случайная выборка групп совокупности. Каждый представитель выбранных групп будет включен в финальную выборку. Ф Слоенная выборка получается путем деления совокупности на взаимо- исключающие группы (слои) и случайной выборки из каждого из этих слоев. Ф Ошибка выборки случается тогда, когда измерение на выборки отлича- ется от измерения на генеральной совокупности. Это происходит при отборе выборки, не соответствующей генеральной совокупности, из ко- торой она была получена.
В этой главе < Использование выборочных распределений среднего и доли < Работа с центральной предельной теоремой Ф Использование стандартной ошибки среднего и доли Выборочные распределения В Главе 12 мы пели дифирамбы выборкам, используемым в статистическом анализе, и рассуждали о том, что это гораздо • проще и эффективней, чем измерять всю совокупность цели- ком. В этой главе вы обсудим еще одно достоинство выборок — выборочные распределения. Выборочные распределения описывают поведение средних по выборке. Вы наверняка удивитесь, узнав, что ведут они себя очень хорошо, даже лучше, чем совокупности, из которых они были получены. Хорошее поведение означает, что мы можем достаточно точно предугадать будущие значения средних по выборке, обладая весьма скудной информацией. Пока это зву- чит несколько туманно, но к концу главы вы будете в полней- шем изумлении качать головой.
Что такое выборочное распределение? Положим, я хочу провести исследование с целью узнать, сколько миль обыч- ный человек проезжает в день на машине. Поскольку я не могу измерить модели поведения за рулем всех членов сово- купности, я случайным образом отбираю выборку размером 10 (п = 10) квали- фицированных лиц и фиксирую, сколько миль они вчера проделали. Затем я выбираю еще 10 водителей и фиксирую ту же информацию. Сделав то же са- мое еще три раза, я помещаю все данные в таблицу, представленную ниже. Номер выборки Среднее число миль (среднее по выборке) 1 40.4 2 76.0 3 58.9 4 43.6 5 62.6 Как видите, каждая выборка имеет свое собственное среднее значение, и это значение всегда разное. Мы можем продолжить этот эксперимент, от- бирая многочисленные выборки и наблюдая за поведением средних по вы- борке. Такое поведение средних по выборке представляет выборочное рас- пределение для количества миль, ежедневно проделываемых средним во- дителем. Распределение среднего по выборке Распределение из предыдущего примера представляет распределение сред- него по выборке, поскольку интересующим нас измерением было среднее каждой выборки. Такое распределение имеет ряд любопытных свойств, ко- торые я проиллюстрирую следующим примером. Во время моего последнего отпуска на курорте мой 15-летний сын Джон об- ратил внимание на рекламу турнира по пинг-понгу. Надо отметить, что у него достаточно навыков, чтобы разгромить своего старика отца. Я научил его иг- Термины--------------- Распределение среднего по выборке имеет отношение к поведению средних в выборке при отборе выборок из генеральной со- вокупности. рать в настольный теннис, когда ему еще приходилось вставать на кулер, чтобы ви- деть, что происходит на столе. Мы играли друг с другом, и мне частенько приходи- лось довольствоваться ничьей. С трудом сдерживая в себе дух соперничества, я отбивал мяч с видом человека, у которого случился эпилептический припадок, и мяч летел прямо в сетку. И все-таки я за-
платил сравнительно небольшую цену: гордыня Джона была вполне удовле- творена, а я сэкономил себе остаток недели отпуска. На что только мы не идем ради детей. В общем, мы используем мячики для пинг-понга для описания поведения средних по выборке. Предположим, у меня в ящике 100 мячей, причем 20 из них отмечены цифрой 1, 20 — цифрой 2, 20 — цифрой 3, 20 — цифрой 4 и 20 — цифрой 5. В таблице ниже представлено распределение вероятностей этой совокуп- ности. Номер мяча Частота Относительная частота Вероятность 1 20 20/100 0.20 2 20 20/100 0.20 3 20 20/100 0.20 4 20 20/100 0.20 5 20 20/100 0.20 Это называется дискретным прямоугольным распределением вероятнос- тей, поскольку каждое событие имеет одинаковую вероятность, как показа- но на рисунке 13.1 Вероятность Рис 13.1 Дискретное прямоугольное распределение вероятностей. Номер мяча Среднее и дисперсия дискретного прямоугольного распределения вычис- ляются следующим образом:
Термины Дискретным прямоугольным называется распределение, в котором каждому дискретному (его можно посчитать) событию приписы- вается одна и та же вероятность. 1/ их Ц = ~ (а+Ь) а2=—(Ь-af. 12 где: а — минимальное значение распреде- ления, b = максимальное значение распре- деления. Для совокупности мячей для пинг-понга: 16 12 = 1.33. Запомните эти результаты. Мы вернемся к ним чуть позже в этой главе. А теперь о выборочном распределении. Смешав все мячи, я выбираю один мячик, записываю его номер, помещаю его обратно в ящик, выбираю второй мяч и делаю с ним то же самое. Это моя первая выборка размером 2 (п = 2). Проделав эту процедуру 25 раз, я вычисляю среднее каждой выборки и пред- ставляю результаты в таблице ниже. Распределение среднего (п = 2) по выборке Выборка Первый мяч Второй мяч Среднее по выборке х 1 1 2 2 3 2 4 1 5 4 6 1 7 1 8 3 9 2 10 1 И 3 3 1 1 1 2 3 2 1 5 3 3 2.0 1.5 1.5 1.0 3.0 2.0 1.5 2.0 3.5 2.0 3.0
12 4 2 3.0 13 5 2 3.5 14 3 1 2.0 15 1 4 2.5 16 4 4 4.0 17 2 2 2.0 18 2 2 2.0 19 1 1 1.0 20 2 5 3.5 21 1 2 1.5 22 5 5 5.0 23 3 2 2.5 24 5 5 5.0 25 2 1 1.5 Здесь я должен признаться вам кое в чем. Я и не собирался покупать 100 мя- чей и нумеровать их. Номера из преды- дущей таблицы были получены с помо- щью функции случайного числа Excel, которую мы обсуждали в Главе 12. Мы можем преобразовать эту таб- лицу в распределение относительных частот, как показано в таблице ниже. Внимание! -------------- Студенты часто путают размер выборки (и) и количество выборок. В предыдущем примере размер выбор- ки равняется 2 (п = 2), а количество выборок - 25. Другими словами, у нас есть 25 выборок размером 2. Среднее по выборке Частота Относительная частота Вероятность 1.0 3 3/25 0.12 1.5 4 4/25 0.16 2.0 7 7/25 0.28 2.5 2 2/25 0.08 3.0 3 3/25 0.12 3.5 3 3/25 0.12 4.0 1 1/25 0.04 4.5 0 0/25 0.00 5.0 2 2/25 0.08 Предыдущая таблица представляет собой выборочное распределение среднего для эксперимента с пинг-понгом при п = 2. Это распределение гра- фически представлено на рисунке 13.2.
А сейчас я слышу, как вы громогласно вопрошаете: Что произойдет с вы- борочным распределением, если увеличить размер выборки? Отличный во- прос, ответ на который вы найдете в следующем разделе. Центральная предельная теорема Я уже говорил ранее, что средние по выборке ведут себя по-особому. В соот- ветствии с центральной предельной теоремой, при увеличении размера вы- борки (п) средние по выборке начинают подчиняться нормальному распре- делению вероятностей, независимо от распределения совокупности, из кото- рой была получена выборка. Удивительно, скажете вы. Глядя на рисунок 13.2, вы наверняка думаете о том, что представленное на нем распределение совершенно не похоже на нормальную кривую, ко- торая должна быть колоколообразной и симметричной. И вы абсолютно Эврика!--------------------- По моему скромному убежде- нию, центральная предельная теорема является самым мощ- ным инструментом статистичес- кого вывода. Она формирует основу для множества статистических моделей, используемых нами сегодня. Я вам настоятельно советую дружить с этой теоремой. правы, поскольку выборка размером 2 слишком мала, чтобы на нее распростра- нялось действие центральной предельной теоремы. Давайте удовлетворим ваше любопытст- во и повторим эксперимент, собрав 25 вы- борок, каждая из которых состоит из 5 мя- чей (п — 5). Я рассчитал среднее каждой выборки и представил их на рисунке 13.3. Обратите внимание, каким образом уве- личение размера выборки влияет на форму выборочного распределения. Оно начина-
ет принимать колоколообразную и симметричную форму. А теперь взглянем на размеры выборок 10 и 20, представленные на рисунках 13.4 и 13.5 соответственно. Термины____________________ В соответствии с центральной предельной теоремой, при уве- личении размера выборки (п) средние по выборке начинают подчиняться нормаль- ному распределению вероятностей и концентрироваться вокруг среднего зна- чения гегнеральной совокупности. Это утверждение оказывается верным неза- висимо от распределения совокупности, из которой была получена выборка. Вероятность Вероятность 0/45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 РИС 13.3 Распределение среднего по выборке при п = 5. Средние по выборке РИС 13.4 Распределение среднего по выборке при п— 10. < Средние по выборке
Рис 13.5 Распределение среднего по выборке при п = 20. Обратите внимание, что по мере увеличения размера выборки выбороч- ное распределение становится похожим на нормальное распределение веро- ятностей. Не знаю, как вы, но меня эта метаморфоза весьма впечатляет, учи- тывая тот факт, что совокупность, из которой были получены эти выборки, даже близко не напоминает нормальное распределение. Вспомните, сово- купность мячей для настольного тенниса подчинялась прямоугольному рас- пределению, показанному на рисунке 13.1. Также заметьте, что по мере роста размера выборки средние по выборке начинают сосредотачиваться вокруг среднего генеральной совокупности, значение которого, как вы помните, равно 3.0. Это еще одна важная особен- ность центральной предельной теоремы. Верите или нет, но центральная предельная теорема обладает еще одним важным свойством, речь о котором пойдет в следующем разделе. Стандартная ошибка среднего Обратите внимание, что на последних четырех рисунках по мере увеличения размера выборки выборочные распределения становились все более похо- жими друг на друга. Иными словами, по мере роста размера выборки умень- шалось стандартное отклонение средних по выборке. В соответствии с цент- ральной предельной теоремой (снова она!), стандартное отклонение средних по выборке вычисляется таким образом:
где: о* ~ стандартное отклонение средних по выборке, с» = стандартное отклонение генеральной совокупности, п — размер выборки. Стандартное отклонение средних по выборке называется стандартной ошибкой среднего. Вспомните, как чуть ранее в этой главе, в разделе «Распределение средне- го по выборке» мы определили, что дисперсия совокупности мячиков для пинг-понга составляется 1.33. Следо- вательно: о = л/? = л/ГзЗ=1.15. Теперь мы можем вычислить стан- дартную ошибку среднего при п = 2 в нашем примере: Термины_________________ Стандартной ошибкой сред- него называется стандартное отклонение выборочного Среднего. В соответствии с центральной предель- ной теоремой, стандартная ошибка среднего рассчитывается по формуле: Эврика!--------------------------------------------------------------- Студенты часто путают о и о*. Символ а (стандартное отклонение генеральной сово- купности) измеряет вариации в пределах генеральной совокупности - мы обсуждали это понятие в Главе 5. Символ с>х (стандартная ошибка) измеряет вариации средних по выборке и уменьшается по мере увеличения размера выборки. В таблице ниже показано, как меняется стандартная ошибка при измене- нии размера выборки в нашем примере с мячами пинг-понга. , Стандартная ошибка изменяется по мере изменения размера выборки Размер выборки Стандартная ошибка 2 5 10 20 0.813 0.514 0.364 0.257
Почему работает центральная предельная теорема? В этом разделе я объясню, почему центральная предельная система действу- ет именно так. Если этот вопрос вас не интересует, можете переходить к сле- дующему разделу. Обещаю, что не обижусь на вас. Вернемся к первому эксперименту с размером выборки п — 2. В таблице ниже показаны все возможные комбинации с 2 мячами с указанием выбо- рочного среднего. Выборка Первый мяч Второй мяч Среднее по выборке х 1 1 1 1.0 2 1 2 1.5 3 1 3 2.0 4 1 4 2.5 5 1 5 3.0 6 2 1 1.5 7 2 2 2.0 8 2 3 2.5 9 2 4 3.0 10 2 5 3.5 И 3 1 2.0 12 3 2 2.5 13 3 3 3.0 14 3 4 3.5 15 3 5 4.0 16 4 1 2.5 17 4 2 3.0 18 4 3 3.5 19 4 4 4.0 20 4 5 4.5 21 5 1 3.0 22 5 2 3.5 23 5 3 4.0 24 5 4 4.5 25 5 5 5.0
Мы можем преобразовать эту таблицу в распределение относительных ча- стот, как.показано ниже. Среднее по выборке х Частота Относительная частота Вероятность 1.0 1 1/25 0.04 1.5 2 2/25 0.08 2.0 3 3/25 0.12 2.5 4 4/25 1.16 3.0 5 5/25 0.20 3.5 4 4/25 0.16 4.0 3 3/25 0.12 4.5 2 2/25 0.08 5.0 1 1/25 0.04 В предыдущей таблице представлено теоретическое выборочное распре- деление среднего, поскольку здесь показаны все возможные комбинации выборок с соответствующими вероятностями. Графически это распределе- ние представлено на рисунке 13.6. Вероятность Рис 13.6 Теоретическое распределение среднего по выборке. По рисунку видно, что чаще всего встречается среднее выборки 3.0, а средние по выборке 1.0 и 5.0 встречаются реже всего. Это потому, что комби- наций выборок из 2 мячей со средним 3.0 (а именно 5) больше, чем комбина- ций выборок из 2 мячей со средним 1.0 или 5.0 (а именно 1). Иными словами,
g Термины Теоретическое распределе- ние среднего по выборке отображает все возможные средние по выборке вместе с их классически- ми вероятностями. Если вы забыли, что такое классическая вероятность, пе- речитайте Главу 6. вероятность вытащить выборку из 2 мя- чей со средним 3.0 в 5 раз больше, чем средние по выборке 1.0 или 5.0. Когда мы увеличиваем размер вы- борки до 5, 10 и 20, вероятность выта- щить выборку со средним 1.0 или 5.0 уменьшается, а вероятность вытащить выборку со средним 3.0 увеличивается. Это объясняет, почему по мере увели- чения размера выборки становится больше выборок, сконцентрированных вокруг 3.0, и меньше тех, что сконцентрированы вокруг 1.0 и 5.0. Как заставить центральную предельную теорему работать Я вижу, что вам не терпится испробовать в действии новый превосходный инструмент. Не будем медлить с этим. Если мы знаем, что средние по выборке подчиняются нормальному рас- пределению вероятностей, а также нам известны среднее и стандартное от- клонение этого распределения, мы можем предсказать вероятность того, что средние по выборке будут больше или меньше определённых значений. Например, возьмем наш эксперимент с мячиками для пинг-понга при п = 20. Следуя центральной предельной теореме, мы знаем, что средние по вы- борке подчиняются нормальному распределению при: ц = 3.0 и Ы5 о- = г =0.257. yfn л/20 Какова вероятность того, что наша следующая выборка из 20 мячей будет иметь среднее по выборке не более 3.4? Распределение выборочного средне- го показано на рисунке 13.7; заштрихованная область — это интересующая нас вероятность. Как и в Главе 11, нам необходимо вычислить z-распределение. Уравнение выглядит несколько иначе, поскольку мы работаем со средними по выборке, но на самом деле это то же самое уравнение, что и в Главе 11. х-ц z =---— 3.4-3.0 Яо л — 4 0.257 = 1.56. Используя стандартную z-таблицу из Приложения В, получаем: Р[х<3.4] = P[z< 1.56] = 0.9406
Выборочное распределение среднего рис, 13.7 при п = 20 Вероятность того, что наше следующее среднее по выборке будет не более 3.4. 3.0 3.4 Средние по выборке Эта вероятность показана на рисунке 13.8. Выборочное распределение среднего при л = 20 Рис 15.8 Вероятность того, что следующее среднее по выборке будет не более 1.56 стандартных отклонений от среднего по совокупности. 0 +1.56 Количество стандартных отклонений В соответствии с заштрихованной областью, вероятность того, что наша следующая выборка из 20 мячей будет иметь среднее по выборке не более 3.4, приблизительно равна 94%. Использование центральной предельной теоремы при неизвестном среднем совокупности В нашем эксперименте с мячиками мы узнали, что среднее совокупности равно 3.0. А что делать, если среднее совокупности неизвестно? Мы можем взять среднее от средних по выборке и использовать его как приближение к среднему по совокупности.
В таблице ниже показаны 25 средних по выборке из нашего эксперимента при размере выборки 20 (п = 20). Средние по выборке из 25 выборок мячей Выборка Средние по выборке Выборка Средние по выборке 1 2.35 14 2.90 2 3.30 15 3.55 3 3.50 16 2.60 4 2.90 17 3.15 5 2.70 18 2.70 6 3.45 19 3.35 7 3.00 20 2.70 8 3.20 21 2.95 9 3.30 22 2.50 10 2.40 23 3.40 И 2.25 24 3.30 12 3.10 25 2.65 13 3.15 Если сложить средние по выборке и поделить полученную сумму на 25, мы получим общее среднее: - Сумма средних по выборке 74.35 х —-----------------------—------—2.9/. 25 25 Если следовать центральной предельной теореме, среднее по совокупнос- ти приблизительно равно этому общему среднему: ц~х. Возвращаясь к нашему примеру, в котором мы вычисляли вероятность то- го, что наше следующее среднее по выборке будет не меньше 3,4, получаем: х-р 3.4-2.97 z =----£1=--------=1.67. 0.257 Воспользуемся z-таблицей из Приложения В: Р[х<3.4] = P[z< 1.67] = 0.9527. Полученная вероятность несколько выше, чем в предыдущем примере, по- тому, что это приближенное значение среднего совокупности.
Потенциал центральной предельной теоремы состоит в том, что для ее применения достаточно небольшого объема информации о распределении совокупности. Средние по выборке будут вести себя превосходно до тех пор, пока размер выборки достаточно велик. Это многоцелевая теорема, которая имеет бесчисленное количество реальных приложений. Уверен, вы будете потрясены. Распределение доли в выборке Среднее по выборке — это не единственная мера, которую можно опреде- лить. А что, если я хочу определить процент подростков, которые согласятся со следующим высказыванием: «Я часто обращаюсь к своим родителям за со- ветом, когда речь идет о судьбоносном вопросе». Поскольку каждый респон- дент имеет только два варианта ответа (согласен или не согласен), данный эксперимент подчиняется биноминальному распределению вероятностей, описанному в Главе 9. Вычисление доли в выборке Меня интересует доля подростков для выборки размером п, которые соглас- ны с вышеуказанным утверждением. Выборочная доля, р, вычисляется сле- дующим образом: _ Количество успехов в выборке П Поскольку мне не известна доля по совокупности, р, тех, кто согласен с данным утверждением, мне необходимо собрать данные из выборок и найти приблизительное значение доли по совокупности так же, как я вычислял ее в примере со средними Тю выборке. Я хочу, чтобы размер моей выборки был достаточно велик, для применения нормального распределения вероятностей вместо биноминального распреде- ления. Вспомните, что в Главе 11 мы говорили о том, что если пр > 5 и nq > 5, мы можем использовать нормальное распределение для приблизительного вычисления биноминального распределения (q ~ 1 — р, вероятность неуда- чи). Надеюсь, что р будет хотя бы 5% (хотя бы небольшое количество подро- Внимание! стков слушают советов родителей), по- j этому я выбираю п — 150. Тогда: Помните, что значение доли, р пр = (150) (0.05) = 7.5 nq = (150) (0.95) = 142.5. Предположим, я отобрал 10 выбо- рок, каждая из которых имеет размер или ps, должно попадать в интервал от О до 1. Студенты часто допускают та- кую ошибку: узнав, что доля составля- ет 10%, они пишут р = 10. На самом деле в таком случае р = 0.10.
150, и зафиксировал число согласий (успехов) в каждой выборке в нижесле- дующей таблице. Выборка Количество успехов ps Выборочная доля 1 26 26/150 = 0.173 2 18 18/150 = 0.120 3 21 21/150 = 0.140 4 30 30/150 = 0.200 5 24 24/150 = 0.160 6 21 21/150 = 0.140 7 16 16/150 = 0.107 8 28 28/150 = 0.187 9 35 35/150 = 0.233 10 27 27/150 = 0.180 Затем я вычисляю среднее выборочных долей, чтобы приблизительно оп- ределить долю по совокупности, р: — 0.173 + 0.12 + 0.14 + 0.02 + 0.16 + 0.14 + 0.107 + 0.187 + 0.233 + 0.18 Р«Л =-----------------------------~----------------------------=0.164. Вычисление стандартной ошибки доли Теперь мне необходимо определить стандартное отклонение этого распреде- ления в выборке, которое носит название стандартной ошибки доли, обо- значается р и вычисляется по формуле: Термины-------------- Стандартной ошибкой доли Р(1~Р) п называется стандартное от- клонение выборочных доль. Она вычисляется по формуле.- 0.164(1-0.164) ₽ V 150 п Вот сейчас я готов ответить на вопрос: Какова вероятность того, что из следую- щей выборки в 150 подростков не более 20% согласятся с известным ут- верждением? Заштрихованная область на рисунке 13.9 показывает эту ве- роятность, отображающую выборочное распределение доли для нашего примера.
Распределение доли в выборке РИС 13.9 Выборочное распределение доли. 0.164 0.20 Выборочные доли Поскольку размер выборки позволяет нам использовать нормальное распре- деления для приблизительного вычисления биноминального распределения, мы можем вычислить z-распределение доли с помощью следующего уравнения: ^0.20 “ 0.20-0.164 0.030 = 4-1.20. Обратимся к стандартной z-таблице из Приложения В: P[ps<0.20] = P[z< 1.20]= 0.8849. Эта вероятность графически представлена на рисунке 13.10 в виде зашт- рихованной области. Распределение доли в выборке РИС 15.10 Вероятность того, что следующая доля в выборке будет не более 1.2 стандартных отклонений от доли по совокупности. 0 +1.20 Выборочные доли
Полученные результаты говорят нам о том, что существует 88.49%-ная ве- роятность того, что не более 20% подростков из следующей выборки разме- ром 150 согласятся с нашим утверждением. Что ж, возможно, когда они по- взрослеют, они смогут постичь мудрость своих родителей. Ваша очередь 1. Вычислите стандартную ошибку среднего при: а. о = 10, п — 15 Ь. о = 4.7, п = 12 с. <т — 7, л — 20 2. Совокупность имеет среднее значение, равное 16.0, и стандартное от- клонение, равное 7.5. Вычислите следующее, если размер выборки ра- вен 9. а. Р[х< 17] Ъ.Р[х> 18] с. Р[14.5<х< 16.5] 3. Вычислите стандартную ошибку доли. а. р = 0.25, п = 200 Ь. р = 0.42, п = 100 с. р = 0.06, п — 175 4. Доля по совокупности приблизительно равна 0.32. Вычислите следую- щее, если размер выборки равен 160. a. P[ps < 0.30] b. P[ps > 0.36] с. Р[0.29 < ps < 0.37] Повторение - мать учения Ф Распределение среднего по выборкам имеет отношение к поведению средних по выборке при отборе выборок из совокупностей. Ф В соответствии с центральной предельной теоремой, при увеличении размера выборки (л) средние по выборке начинают подчиняться нор- мальному распределению вероятностей. В соответствии с центральной предельной теоремой, при увеличении размера выборки (л) средние по выборке начинают концентрироваться вокруг среднего по совокупности.
Ф Стандартная ошибка среднего — это стандартное отклонение средних по выборке. В соответствии с центральной предельной теоремой, стан- дартная ошибка среднего определяется по формуле. Ф Стандартной ошибкой доли называют стандартное отклонение долей по совокупности; стандартная ошибка доли вычисляется по формуле:
Глав<: Доверительные интервалы В этой главе Ф Толкование значения доверительного интервала Ф Вычисление доверительного интервала для среднего при больших и малых выборках Ф Введение в t-распределение Стьюдента Ф Вычисление доверительного интервала доли Ф Определение размеров выборки для получения опреде- ленного уровня погрешности Мы научились осуществлять отбор случайной выборки и уз- нали, как при определенных условиях ведут себя средние по выборке и доли. А теперь мы заставим эти выборки работать на нас с помощью доверительных интервалов. Одна из наиболее важных ролей статистики сегодня состоит в том, чтобы получать информацию из выборки и использовать эту информацию, чтобы делать выводы о совокупности, из ко- торой была получена выборка. Мы используем выборки в каче- стве оценок совокупности. Но какую оценку предлагает нам сделать выборка? На этот вопрос нам помогут ответить довери- тельные интервалы.
Доверительные интервалы для среднего при больших выборках В этом разделе мы узнаем, как определить доверительный интервал для средне- го по генеральной совокупности, используя выборку большого размера. Под большим размером мы понимаем п > 30. Первый шаг на пути к определению до- верительного интервала для совокупности подразумевает обсуждение оценок. Оценки Термины Точечная оценка - это еди- ничное значение, лучше всего описывающее интересующую нас со- вокупность; чаще всего в этом качест- ве выступает среднее по выборке. Интервальная оценка предоставляет диапазон значений, лучше всего опи- сывающих совокупность. Простейшая оценка совокупности — это точечная оценка, а самая распрост- раненная из точечных оценок — среднее по выборке. Точечная оценка — это единичное значение, лучше всего описывающее интересующую нас сово- купность. Я поясню это понятие на следующем примере. Мне кажется, что мою жену похитили и подменили похожей на нее жен- щиной, которая является большой поклонницей телевизионного канала, предлагающего произвести покупки на дому. Никому и ничему в нашем до- ме не удалось избежать влияния товаров, обнаруженных Дебби на ее люби- мом телевизионном канале. Она уже приобрела товары для автомобиля, кух- ни, собаки, кожи, волос и так далее и тому подобное. Неожиданно главным праздником в нашем доме стала неделя «Diamonique Week». Я не уверен, что хорошо пред- ставляю себе, что это за Diamonique, но подозреваю, что это что-то вроде «доступно в течение ограниченного времени». Как только я включаю дома телевизор, на экране появляется на- зойливая личность, умоляющая меня: «Позвонить прямо сейчас! Осталось всего три штуки!» Как бы то ни было, я хочу оценить среднее значение стоимости заказа д ля совокупности любителей канала поку- пок на дому. Если бы мое среднее по вы- борке оказалось равным 78.25 доллара, я мог бы использовать это значение как точечную оценку для всей совокупности любителей делать покупки на дому. Преимуществом точечной оценки является простота ее вычисления и по- нимания. Однако есть и недостаток: я не представляю себе, насколько эта оценка точна. Чтобы покончить с этой неопределенностью, мы можем использовать ин- тервальную оценку, представляющую диапазон значений, лучше всего опи- сывающих совокупность. Для вычисления интервальной оценки нам необхо- димо познакомиться с доверительными интервалами, чем мы и займемся в следующем разделе.
Доверительные уровни Доверительный уровень — это вероятность того, что в интервальную оценку попадет параметр генеральной совокупности. Параметром называется число- вое описание характеристики генеральной совокупности, например, среднее. Термины--------------- Доверительный интервал - это диапазон значений, исполь- зуемых для оценки параметра совокуп- ности, связанный с определенным до- верительным уровнем. Параметрами являются данные, описывающие харак- теристику генеральной совокупности. Из Главы 13 вспомним, что средние по выборке подчиняются нормальному рас- пределению вероятностей при большом количестве выборок. Предположим, мы хотим определить интервальную оценку с 90%-ным доверительным уровнем. Этот доверительный уровень соответст- вует z-распределению из стандартной нормальной таблицы, равному 1.64, как показано на рисунке 14.1. Рис 14.1 Доверительный уровень 90%. Доверительный интервал 90% На рисунке 14.1 вы видите, что 5% данных под кривой расположены справа от +1.64, а 95% - слева. Поэтому вы видите значение 0.9495 (близко к 0.95), соответствующее z-распределению 1.64 в Таблице 3 Приложения В. Но помните, что z = 1.64 соответ- ствует 90%-ному доверительному уровню - области, заштрихованной на рисунке. В общем, мы можем определить доверительный интервал вокруг нашего выборочного среднего с помощью следующих уравнений: х+ (верхняя граница доверительного уровня) х— zcGx (нижняя граница доверительного уровня),
где: х = среднее по выборке, zc = критическое z-распределение — количество стандартных отклоне- ний на основе доверительного уровня, = стандартная ошибка среднего (Глава 13). Выражение zco^ носит название уровня погрешности, Е, и часто использу- ется в опросах. Возвращаясь к нашему примеру с покупками на дому, предположим, что в выборке из 32 заказчиков средняя стоимость заказа составляет 78.5 доллара, а стандартное отклонение совокупности — 37.0 доллара. Мы можем вычислить наш 90%-ный доверительный уровень следу- ющим образом: х = 78.5 доллара п = 32 о = 37.0 доллара zc = 1.64 $37.50 __ --7==—=$6.63. л/32 Термины--------------- Доверительным уровнем на- зывается вероятность того, что интервальная оценка включит в се- бя параметр генеральной совокупно- сти, например, среднее. Уровень по- грешности, Е, определяет широту до- верительного интервала и вычисляет- ся по формуле ZcOx. Верхняя граница = х + 1.640^ = $78.25 + 1.64($6.63) = $89.12. Нижняя граница = х — 1.64а^ = $78.25 — 1.64($6.63) = $67.38. В соответствии с полученными результатами, наш 90%-ный доверительный уровень для случайной выборки домашних покупателей находится между 67.38 и 89.12 доллара или ($67.38; $89.12). Этот интервал показан на рисунке 14.2. Интервальная оценка для среднего долларового значения заказа домашнего покупателя. $67.38 $78.25 $89.12 РИС 14.2 Интервальная оценка для среднего долларового значения заказа домашнего покупателя. Будьте внимательны при анализе доверительного интервала! В предыдущем разделе было сказано, что доверительный интервал является диапазоном значений, используемых для оценки параметра совокупности, связанным с определенным доверительным уровнем. Доверительный интер- вал должен быть описан в контексте нескольких выборок. Если мы отберем
10 выборок из нашей совокупности любителей покупок на дому и построим 90%-ные доверительные интервалы вокруг каждого из средних по выборке, тогда теоретически 9 из 10 интервалов будут включать истинное среднее со- вокупности, которое остается неизвестным. На рисунке 14.3 показано, о чем я говорю. Рис. 14.3 Толкование 90%-ного доверительного интервала Толкование определения доверительного интервала. не включает g. М Как видите, выборки с 1 по 9 имеют доверительные интервалы, включаю- щие истинное среднее по совокупности, а выборка 10 его не включает. -чт Внимание! ------------------------------------------------------- Довольно просто ошибиться с определением доверительного интервала. На- пример, неверно утверждать, что «существует 90%-ная вероятность того, что истинное среднее по генеральной совокупности попадает в пределы интервала ($67.38; $89.12)». Правильно будет звучать утверждение о том, что «существует 90%-ная веро- ятность того, что любой доверительный интервал из случайной выборки будет включать в себя среднее по совокупности». Поскольку существует 90%-ная вероятность того, что любой доверитель- ный интервал будет содержать истинное среднее совокупности, остается I Термины Уровень значимости (а) - это вероятность допущения ошиб- ки первого рода. 10%-ная вероятность того, что этого не произойдет. Это 10%-ное значение носит название уровня значимости, обознача- емого а, представленного на рисунке 14.4 в виде белых «хвостов» кривой. Вероятность доверительного уровня является дополнением к уровню значи-
мости. Например, уровень значимости для доверительного уровня 95% со- ставляет 5%; уровень значимости для доверительного уровня 99% составляет 1% и так далее. В целом доверительный интервал (1 —а) имеет уровень зна- чимости, равный а. В дальнейших главах мы еще раз коснемся темы уровня значимости. Что происходит при изменении доверительных уровней Пока мы рассмотрели лишь 90%-ный доверительный интервал. Но довери- тельные уровни могут быть разными, в зависимости от наших требований. В таблице ниже представлен наш эксперимент с покупкой на дому с довери- тельными уровнями 90, 95 и 99%. Доверительные интервалы с различными доверительными уровнями Доверительный уровень Zc Средние по выборке Нижняя граница Верхняя граница 90 1.64 $6.63 $78.25 $67.38 $89.12 95 1.96 $6.63 $78.25 $65.26 $91.24 99 2.57 $6.63 $78.25 $61.21 $95.29 Из таблицы видно, что уве- личение доверительного уров- ня означает, что наша интер- вальная оценка истинного среднего генеральной сово- купности становится менее точной. Это очередное доказа- тельство того, что в статистике Я советую вам самостоятельно подтвер- дить значения z-распределений в этой таб- лице, сверившись с Таблицей 3 Приложе- ния В. Повторение - мать учения! При не- обходимости обратитесь к Главе 11.
бесплатного сыра не бывает. Если мы хотим быть уверенными в том, что наш доверительный интервал будет включать истинное среднее по совокупности, нам придется смириться с тем, что доверительный интервал станет шире. Что происходит при изменении размера выборки И все-таки есть один способ уменьшить ширину нашего доверительного ин- тервала, сохранив тот же доверительный уровень. Мы можем увеличить раз- мер выборки. И снова статистика доказывает, что бесплатного сыра не суще- ствует: увеличение размера выборки имеет свою цену. Скажем, мы увеличи- ваем размер выборки до 64 любителей покупок на дому. Изменения коснут- ся нашей стандартной ошибки: о $37.50 су- = —г= ~ —г=^~ = $4.69. Vn д/64 Нашим новым 90%-ным доверительным интервалом для первоначальной выборки будет: х = $78.25 п = 64 су* = $4.69. Верхняя граница = х + 1.64су^ = $78.25 + 1.64($4.69) = $85.94. Нижняя граница = х — 1.64су^ = $78.25 — 1.64($4.69) = $70.56. Увеличение размера выборки с 32 до 64 уменьшило доверительный интер- вал с ($67.38; $89.12) до ($70.56; $85.94) — получился более точный интервал. Определение размера выборки для среднего Мы также можем вычислить минимальный размер выборки при необходимо- сти получения определенного уровня погрешности. Какой размер выборки нам понадобится для 95%-ного доверительного интервала, имеющего уровень погрешности $8.00 (Е = $8.00) для нашего примера с домашними покупками? Е = zcy*
((1.96)(37.50) Y о_ п = 2----£2------l =84.4 «85 I $8.00 ) Следовательно, для получения 95%-ного доверительного интервала от $78.25 — $8.00 = $70.25 до $78.25 4- $8.00 = $86.25 нам потребуется выборка размером в 85 любителей домашних покупок. Вычисление доверительного интервала при неизвестном значении Этот раздел не доставит вам особых сложностей (наконец-то!). Во всех на- ших предыдущих примерах подразумевалось, что нам известно значение о, стандартное отклонение генеральной совокупности. А что делать, если это значение неизвестно? Не паникуйте, пока п > 30 мы можем заменить о, стан- дартное отклонение генеральной совокупности, значением s, стандартным отклонением выборки, и выполнить описанную выше процедуру. Для иллю- страции этой методики изучите следующую таблицу, в которой представлен размер заказа в долларах 30 любителей домашних покупок. Выборка любителей домашних покупок (п = 30) 75 109 32 54 121 80 96 47 67 115 29 70 89 100 48 40 137 75 39 88 99 140 112 87 122 75 54 92 89 153 С помощью программы Excel подтверждаем, что: х = $84.47 и s = $32.98. 99%-ным доверительным интервалом вокруг этого выборочного среднего будут: х = $84.47 п =30 s = $32.98 zc = 2.57 „ s $32.98 сгх =—т==—~ ~$6.02. у/п л/зб Мы используем ои^для обозначения того, что мы примерно вычислили стандартную ошибку среднего, используя s вместо о. Нам, статистам, очень нравится ставить над буковками черточки. Верхняя граница = х 4- 2.57о^ = $84.47 4- 2.57($6.02) = $99.94.
Нижняя граница — х — 2.57ор^ — $84.47 — 2.57($6.02) = $69.00. Видите! Совсем недурно. Использование функции ДОВЕРИТ программы Excel Программа Excel имеет в своем составе встроенную функцию, позволяю- щую вычислять доверительные интервалы. Функция ДОВЕРИТ обладает сле- дующими характеристиками: ДОВЕРИТ (альфа; станд__откл; размер), где: альфа = уровень значимости доверительного уровня станд__откл = стандартное отклонение совокупности размер = размер выборки. Например, на рисунке 14.5 показана функция ДОВЕРИТ, используемая для вычисления доверительного интервала для нашего примера с домашними покупками. Рис 14.5 Функция ДОВЕРИТ для примера с домашними покупками. В ячейке А1 содержится формула =ДОВЕРИТ(0.1; 37.5; 32) с результатом 10.90394. Это значение представляет уровень погрешности, или величину, добавляемую или вычитаемую из выборочного среднего: $78.25 + $10.90 = $89.15 $78.25 + $10.90 - $67.35. Этот доверительный интервал несколько отличается от ранее вычисленно- го в этой же главе из-за округления чисел.
Доверительные интервалы для среднего при малых выборках Пока в этой главе мы рассматривали примеры с п 30. Уверен, что теперь вы задаетесь вопросом, как определить доверительный уровень для выборки размером меньше 30. Что ж, здесь все зависит от обстоятельств. При малом размере выборки мы лишаемся работы с нашим другом — цен- тральной предельной теоремой и вынуждены принять допущение, что сово- купность является нормально (или приблизительно нормально) распределен- ной во всех случаях. Сначала мы рассмотрим случай, когда нам известно о, стандартное отклонение совокупности. Когда значение известно Когда значение известно, процедура та же, что и при большом размере вы- борки. Мы можем делать так потому, что приняли допущение о том, что сово- купность является нормально распределенной. Давайте определим 95%-ный доверительный интервал из следующей выборки любителей домашних поку- пок размером 10. 75 109 32 54 121 80 96 47 67 115 Выборка любителей домашних покупок (п =10) х — $79.60 Мы обладаем следующей информацией: $79.6 п = 10 s = $37.50 (из первоначального примера) zc = 1.96 а, $3750 Л -Jw Верхняя граница = х + 1.96о^ = $79.60 -I- 1.96($ 11.86) = $102.85. Нижняя граница = х — 1.96о^ = $79.60 + 1.96($ 11.86) = $56.35. Обратите внимание, что при малом размере выборки мы получаем широ- кий доверительный интервал. И снова мы принимаем допущение, что сово- купность, из которой получена выборка, является нормально распределен- ной, и это первое подобное допущение, принятое нами в этой главе.
Когда значение о неизвестно Чаще всего значение о нам не известно. Здесь мы делаем небольшую кор- ректировку, к которой уже обращались ранее, и заменяем о, стандартное от- клонение генеральной совокупности, s, стандартным отклонением выборки. Но из-за малого размера выборки эта замена вынуждает нас использовать новое распределение вероятностей, известное как t-распределение Стью- дента (названное в честь вас, студентов). t-распределение является непрерывным распределением вероятностей, с присущими им свойствами. ысаи sscnyx 1 t-распределение Стьюдента было выве- дено Уильямом Госсетом (1876-1937) во время работы на ирландскую пиво- варенную компания Guinness Brewing Company. Он опубликовал свое откры- тие под псевдонимом «Студент». Теперь редко когда встретишь такого скромно- го ирландского статиста! Термины---------.-------- Степени свободы - это коли- чество значений, которые мо- гут свободно варьироваться, при ус- ловии, что известна информация вро- де выборочного среднего. Ф Имеет колоколообразную форму и симметрично расположено вокруг среднего. Ф Форма кривой зависит от степеней свободы (d.f.), которые при выбо- рочном среднем равны п — 1. Ф Область под кривой равна 1. Ф t-распределение более плоско^, чем нормальное. При увеличении числа степеней свободы форма /-распре- деления становится похожа на нор- мальное распределение, как показа- но на рисунке 14.6. Если степеней свободы (выборка размером 30 и бо- лее), оба распределения являются практически идентичными. Рис 14.6 t-распределение Стьюдента в сравнении с нормальным распределением. {-распределение в сравнении с нормальной кривой 0
Студенты часто испытывают трудности, связанные с этим понятиям, кото- рое представляет собой число оставшихся после принятия какого-либо реше- ния (например, определения выборочного среднего) свободных альтернатив. Например, если я знаю, что моя выборка размером 3 имеет среднее, равное 10, я могу варьировать только 2 значения (п — 1). После определения мной 2 значе- ний я не могу выбирать третьего значения, поскольку мое среднее по выборке должно быть равно 10. В данном случае я обладаю двумя степенями свободы. А теперь мы можем определить доверительные интервалы для среднего, используя выборку малого размера: х 4- tcoPx (верхняя граница доверительного интервала) х — (нижняя граница доверительного интервала), где: tc — критическое t-значение (их вы найдете в Таблице 4 Приложения В), — оцененная стандартная ошибка среднего. Для иллюстрации этой процедуры примем допущение, что совокупность любителей домашних покупок подчиняется нормальному распределению и отобрана следующая выборка размером 10. Выборка любителей домашних покупок из нормального распределения (п = 10) 29 70 89 100 48 40 137 75 39 88 Не зная значения о, мы можем построить 95%-ный доверительный интер- вал вокруг выборочного среднего. Чтобы определить значение tc для данного примера, мне необходимо вы- числить число степеней свободы. Поскольку п = 10, в моем распоряжении п — 1 = 9 степеней свободы. Это соответствует tc = 2.262, значению, под- черкнутому в таблице ниже, взятой из Таблицы 4 Приложения В. t-распределение Стьюдента Выбранные области правого «хвоста» с доверительными уровнями Дов, ур. 0.2000 0.1500 0.1000 0.0500 0.0250 0.0100 0.0050 0.0010 0.0005 d.f. 0.6000 0.7000 0.8000 0.9000 0.9500 0.9800 0.9900 0.9980 0.9990 1 1.376 1.963 3.078 6.314 12.706 31.821 63.657 318.31 636.62 2 1.061 1.386 1.886 2.920 4.303 6.965 9.925 22.327 31.599 3 0.978 1.250 1.638 2.353 3.182 4.541 5.841 10.215 12.924 4 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 8.610
Выбранные области правого «хвоста» с доверительными уровнями Дов. ур. d.f. 0.2000 0.6000 0.1500 0.1000 0.0500 0.0250 0.0100 0.0050 0.0010 0.0005 0.9980 0.9990 0.7000 0.8000 0.9000 0.9500 0.9800 0.9900 5 0.920 1.156' 1.476 2.015 2.571 3.365 4.032 5.893 6.869 6 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.208 5.959 7 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.785 5.408 8 0.889 1.108 1.397 1.860 2.306 2.896 3.355 4.501 5.041 9. 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.297 4.781 10 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.144 4.587 И 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.025 4.437 12 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.930 4.318 Далее нам необходимо определить среднее по выборке и стандартное от- клонение, которые получаются следующими (Excel): х = $71.50 и s = $33.50. Теперь мы можем приблизительно вычислить стандартную ошибку сред- него: s =$3350=$1059 /п V10 и выстроить наш 95%-ный доверительный интервал. Верхняя граница = x+tcop^ = $71.50 + 2.262($10.59) = $95.45. Нижняя граница = х — = $71.50 — 2.262($10.59) = $47.55. Ну вот и все! Термины------------------------------------------------------------- t-распределение может использоваться, когда выполнены все нижеуказанные усло- вия: Ф Совокупность подчиняется нормальному (или приблизительно нормальному) распреде- лению. Ф Размер выборки не превышает 30. Ф Стандартное отклонение по генеральной совокупности о неизвестно и должно быть при- близительно вычислено с помощью s - стандартного отклонения выборки.
В таблице ниже суммирована вся информация, представленная в этой гла- ве вплоть до этого момента, чтобы вы могли решить, какой метод использо- вать для построения доверительного интервала вокруг среднего. Сводная таблица доверительных интервалов среднего Условия Доверительный интервал п > 30, о известно, любая совокупность п > 30, с неизвестно, любая совокупность п < 30, су известно, норм, совокупность п < 30, о неизвестно, норм, совокупность 1 Х> Xi XI X’ | 1+ 1-Ь 1+ 1+ 1 гГ* N Nj N Q Q Q Q X< XI XI На этом мы завершаем обсуждение доверительных интервалов среднего. Следующие в нашем меню — доли! Доверительные интервалы для долей при больших выборках Мы можем также определить долю по совокупности, построив доверитель- ный уровень из выборки. Из Главы 13 вспомним, что данные о долях подчи- няются биноминальному' распределению, которое можно приблизительно вычислить с помощью нормального распределения при соблюдении следую- щих условий: пр > 5 и nq > 5, где: р = вероятность успеха по совокупности, q = вероятность неудачи по совокупности (q = 1 — р). Допустим, я хочу вычислить долю любителей домашних покупок женско- го пола на основе выборки. Из предыдущей главы вспомним, что выбороч- ную долю можно определить следующим образом: _ Число успехов в выборке Вычисление доверительного интервала для доли Доверительный интервал вокруг выборочной доли рассчитывается следую- щим образом:
ps + zcvp (верхняя граница доверительного интервала) ps — zcap (нижняя граница доверительного интервала), где Ор — стандартная ошибка доли (то есть стандартное отклонение выбо- рочных долей) при: у п Хвала тем, кто уже видит, какая перед нами возникает проблема. Мы пы- таемся оценить р, долю по совокупности, но нам необходимо значение для р для задания доверительного интервала. Наше решение состоит в том, чтобы оценить стандартную ошибку, используя выборочную долю как приближен- ное значение для доли по совокупности: —Н-_ /Pjl-Ps) О X — л I----• У п Теперь мы можем построить доверительный уровень вокруг выборочного среднего: ps + хсоИх (верхняя граница доверительного уровня) ps — zca\ (нижняя граница доверительно уровня). Заставим эти уравнения работать на нас. Пытаясь оценить долю женщин среди любителей домашних покупок, я отобрал выборку из 175 случайных покупателей, из которых 110 — женщины. Теперь я могу вычислить ps, выбо- рочную долю: _ Количество успехов в выборке _ 110 Стандартная ошибка доли получается следующей: ^(1-PJ _ 1(0.629)(0.371) 175 V 175 Теперь мы готовы построить 90%-ный доверительный интервал вокруг на- шей выборочной доли (zc = 1.64). Верхняя граница = ps + 1.64ор = 0.629 4- 1.64(0.0365) = 0.689 Нижняя граница = ps— 1.64ор = 0.629 — 1.64(0.0365) = 0.569 Наш доверительный интервал для доли женщин среди любителей домаш- них покупок — (0.569; 0.689). Дебби должна оказаться как раз в этом интер- вале!
Определение размера выборки для доли Мы почти закончили. Мы уже делали подобное со средним, а теперь мы мо- жем определить необходимый размер выборки для получения необходимого уровня погрешности. Каким должен быть размер выборки для 99%-ного до- верительного интервала, имеющего уровень погрешности 6% (Е = 0.06) в на- шем примере с домашними покупками? Вот формула для вычисления п, раз- мера выборки: Обратите внимание, что нам нужны значения р и q. В случае отсутствия предварительной оценки значений определим р — q = 0.50. Поскольку поло- вина совокупности — это женщины, мне кажется, что я выбрал правильную стратегию. <2 57 г л = (0.50) (0.50)1 I =459. Следовательно, для получения 99%-ного доверительного интервала, обес- печивающего уровень погрешности не более 6%, нам понадобится выборка размером 459 любителей домашних покупок. Мысли вслух Причина, по которой мы используем р= q- 0.50 в случае отсутствия оценки доли сово- купности, состоит в том, что эти значения обеспечивают наибольший размер выборки по сравнению с другими комбинациями р и q. Это вроде наказания за отсутствие информации о вашей совокупности. В этом случае вы можете быть уверены в том, что ваша выборка бу- дет большого размера, независимо от доли совокупности. Ваша очередь 1. Постройте 97%-ный доверительный интервал вокруг выборочного сред- него 31.3, взятого из ненормально распределенной совокупности со стандартным отклонением 7.6, используя размер выборки 40. 2. Какого размера должна быть выборка для получения уровня погрешно- сти 5 для 98%-ного доверительного интервала, взятого из ненормально распределенной совокупности со стандартным отклонением совокупно- сти, равным 15? 3. Постройте 90%-ный доверительный интервал вокруг выборочного сред- него 16.3, взятого из ненормально распределенной совокупности со стандартным отклонением совокупности 1.8, используя выборку разме- ром 10.
4. Следующая выборка размером 30 была получена из ненормально рас- пределенной совокупности: 10 4 9 12 5 17 20 9 4 15 11 12 16 22 10 25 21 24 9 8 14 16 20 18 8 10 28 19 16 15 Определите 90%-ный доверительный интервал вокруг среднего. 5. Следующая выборка размером 12 была получена из ненормально рас- пределенной совокупности со стандартным отклонением совокупности 12.7: 37 48 30 55 50 46 40 62 50 43 36 66 Определите 94%-ный доверительный интервал вокруг среднего. 6. Следующая выборка размером 11 была получена из ненормально рас- пределенной совокупности: 121 136 102 115 126 106 115 132 125 108 130 Определите 98%-ный доверительный интервал вокруг среднего. 7. Следующая выборка размером 11 была получена из ненормально рас- пределенной совокупности: 87 59 77 65 98 90 84 56 75 96 66 Определите 99%-ный доверительный интервал вокруг среднего. 8. Была протестирована выборка из 200 лампочек, 11 из которых оказались с дефектом. Вычислите 95%-ный доверительный интервал вокруг этой выборочной доли. 9. Какого размера должна быть выборка для построения 96%-ного довери- тельного интервала вокруг доли явки избирателей на следующих выбо- рах для обеспечения уровня погрешности 4%? Примем допущение, что доля по совокупности оценена в 55%. Повторение - мать учения Ф Доверительный интервал — это диапазон значений, используемых для оценки параметра совокупности и связанных с определенным довери- тельным уровнем. Ф Доверительный уровень — это вероятность того, что оценка интервала будет включать параметр совокупности, например, среднее.
Ф Увеличение доверительного уровня приводит к тому, что доверитель- ный интервал становится более широким и менее точным. Ф Увеличение размера выборки уменьшает широту доверительного ин- тервала, но увеличивает его точность. Ф Используйте t-распределение для построения доверительного интерва- ла, когда совокупность подчиняется нормальному (или приблизительно нормальному) распределению, размер выборки — меньше 30 и неизве- стно о, стандартное отклонение по совокупности. Ф Используйте нормальное распределение для построения доверительно- го интервала вокруг выборочной доли, когда пр > 5 и nq > 5.
Глав<( Введение в проверку гипотез В этой главе Ф формулировка основной и альтернативной гипотез Ф Различия между односторонней и двусторонней провер- кой гипотез Ф Ошибки первого и второго рода Ф Определение границ области отклонения проверки гипо- тезы Ф Заключение проверки гипотезы Теперь, когда мы умеем производить оценку параметра со- вокупности, например, среднего, с помощью выборки и дове- рительного интервала, мы готовы приступить к изучению кра- еугольного камня статистики вывода — проверке гипотез. Статисты любят делать предположения относительно пара- метра совокупности, отбирать выборку из этой совокупности, измерять выборку и объявлять, было ли первоначальное пред- положение подтверждено выборкой. Это я вам в двух словах рассказал, что представляет собой проверка гипотезы. Читайте дальше, и вы узнаете массу любопытных деталей, без которых у меня получилась бы всего одна коротенькая главка!
Цель этой главы состоит в том, чтобы кратко ознакомить вас с основами проверки гипотез. В последующих двух главах эта тема представлена более подробно, и вы узнаете, каково практическое применение этой методики. Оставайтесь с нами! Проверка гипотез - основы В мире статистики гипотезой называется предположение о параметре гене- ральной совокупности. Примерами гипотез являются предположения: # Средний взрослый в среднем выпивает 1,7 чашки кофе ежедневно. Ф 12% студентов после окончания университета отправятся сразу в аспи- рантуру. ф Не более 2% товаров, продаваемых нашим заказчикам, окажутся с де- фектом. В каждом случае мы сделали предпо- ложение относительно совокупности, которое может оказаться истинным или ложным. Цель проверки гипотезы — сделать статистический вывод о при- нятии или отклонении этих предполо- жений. Для более детального разъяс- Термины Гипотеза - это предположе- ние в отношении параметра совокупности. нения этого понятия я обращусь к следующей истории. Мне хватает мужества признаться в том, что я страшно боюсь змей. По- этому я тут же запаниковал, узнав, что Сэм, старший сын Дебби, поймал змею и принес ее домой (и Дебби великодушно разрешила ему поселить реп- тилию в спальне Сэма). На следующее утро мой самый страшный ночной кошмар стал действи- тельностью. Змея проскользнула сквозь прутья клетки и теперь блуждала по дому. Вероятно, Сэм никогда не слышал о змее-матери, которая ради спасе- ния своего малыша умудрилась приподнять малолитражку Volkswagen. Не буду называть имен, но чья-то супруга предложила подложить в комна- ту Сэма мышку, которая послужила бы приманкой и своим запахом привлек- ла змею к себе. Я воспринял этот совет как хорошую шутку, но лишь до того момента, как в комнате Сэма появился белый грызун, используемый в каче- стве приманки для змеи. В ту ночь я не сомкнул глаз (один глаз был все время открыт, а ушки были на макушке), а моя супружница спокойно посапывала рядышком. На следующее утро я обнаружил, что вчера были только цветочки. А наут- ро пошли и ягодки: мышь прогрызла дырочку в своей коробке и тоже разгу- ливала по дому. Теперь в моих излюбленных местах, где я вкушаю пищу, сплю и смотрю телевизор, шастают два диких животных. Уже с утра я начал лихорадочно изучать телефонную книгу, пытаясь найти место, где находят
свой приют змеи и мыши. Дебби же считала, что я «слишком близко принял сложившуюся ситуацию к сердцу». В ту ночь я принял позу зародыша, чтобы защитить свои внутренние орга- ны, а также руки и ноги со стороны кровати, а моя супружница снова спо- койно посапывала рядышком. А теперь попытаемся связать эту научную фантастику с проверкой гипо- тез. Положим, моя гипотеза состоит в том, что понадобится в среднем 6 дней, чтобы поймать змею. Другими словами, я хочу проверить свое предположе- ние, что среднее по генеральной совокупности, ц, равно 6 дням. Для этого я сделаю выборку людей, по домам которых расползлись змеи, и вычислю среднее число дней, необходимых для ловли рептилий. Допустим, среднее по выборке равно 6.1 дня. Проверка гипотезы скажет мне, действительно ли 6.1 дня значительно отличаются от 6.0 дней или эта разница сугубо случайна. Далее последуют детали, не переключайтесь! Основная и альтернативная гипотезы Каждая проверка гипотезы подразумевает наличие основной (нулевой) и альтернативной гипотез. Основная (нулевая) гипотеза, обозначаемая Но, не- изменна и высказывает предположение, что среднее по совокупности >, = или < определенного значения. Основная гипотеза считается истинной, если нет явного доказательства противоположного. В нашем примере основная гипотеза будет выглядеть следующим образом: Термины------------------ Основная гипотеза, обозна- чаемая Но\ представляет со- бой статус-кво и содержит предполо- жение, что среднее по совокупности <, = или > определенного значения. Альтернативная гипотеза, обознача- емая Нл, заявляет обратное и считает- ся верной, если основная гипотеза оказывается ложной. Но: ц= 6.0. Альтернативная гипотеза, обознача- емая Hit содержит утверждение, проти- воположное утверждению основной ги- потезы, и считается верной, если основ- ная гипотеза оказывается ложной. Аль- тернативная гипотеза всегда утверждает, что среднее по генеральной совокупнос- ти <, ф или > определенного значения. В нашем примере моя альтернативная ги- потеза гласит, что: Ну ц ф 6.0. В таблице ниже показаны три фактических сочетания основной и альтер- нативной гипотез. Основная гипотеза Альтернативная гипотеза ООО •РТТ' 1Л IV II О О) о о Р о Ну ц ф 6.0 Ну ц < 6.0 Ну ц > 6.0
I В некоторых учебниках используется правило, гласящее, что основная гипотеза всегда | формулируется в виде = и никогда не использует < или >. Какой бы методикой для форму- лировки гипотезы вы не воспользовались, это никак не скажется на статистическом анализе. Просто всегда придерживайтесь однажды выбранной позиции. Обратите внимание, что альтернативная гипотеза никогда не использу- ет <, = или >. Выбору правильной комбинации посвящен следующий раз- дел. Формулировка основной и альтернативной гипотез Будьте предельно внимательны при формулировке основной и альтернатив- ной гипотез. Ваш выбор будет зависеть от характера проверки и мотивации человека, ее проводящего. Если целью является проверка того, что среднее по совокупности равно определенному значению, например, как в примере со змеями, назначьте такое утверждение основной гипотезой. В результате получим следую- щее: Н0:ц = 6.0 Ярц *6.0. Часто проверка гипотезы проводится исследователями с целью доказать, что их открытие существенно улучшает существующие продукты или проце- дуры. Например, если я изобрел мяч для гольфа и утверждаю, что он летит дальше обычных мячей более чем на 20 ярдов, моя гипотеза будет выглядеть следующим образом: Н0.ц < 20 Ярц > 20. Обратите внимание, что я использовал альтернативную гипотезу дл*я фор- мулировки утверждения, которое я хочу доказать статистически, с целью за- работать себе состояние на продаже этих мячей отчаявшимся игрокам в гольф вроде меня. Поэтому альтернативная гипотеза также носит название исследовательской, поскольку представляет позицию, которую хочет утвер- дить и закрепить исследователь. Двусторонняя проверка гипотезы Двусторонняя проверка гипотезы используется в случае, если альтернатив- ная гипотеза сформулирована как ф. В нашем примере со змеями двусторон- няя проверка как раз уместна, поскольку альтернативная гипотеза выглядит
как: Нрц * 6.0. Эта проверка графически представлена на рисунке 15.1, кото- рый, как вы видите, изображает кривую двусторонней проверки. Двусторонняя проверка гипотезы Рис. 15.1 Двусторонняя проверка гипотезы. Среднее количество дней, требуемое для ловли змеи График на рисунке представляет выборочное распределение среднего для количества дней, необходимых для ловли змеи. Среднее по генеральной со- вокупности, которое в соответствии с основной гипотезой должно равняться 6.0, является средним выборочного распределения и обозначается цНо. Про- цедура выглядит просто. Ф Отобрать выборку размером п и вычислить выборочный показатель — в данном случае среднее по выборке. Ф Отложить среднее по выборке на оси х кривой выборочного распреде- ления. Ф Если среднее пр выборке оказывается в пределах белой области, мы не отклоняем Но- То есть, у нас нет достаточных доказательств для под- держки Hi, альтернативной гипотезы, утверждающей, что среднее по совокупности не равно 6.0 дням. Ф Если среднее по выборке попадает в одну из заштрихованных облас- тей, называемых областями отклонения гипотезы, мы отклоняем Но. То есть мы обладаем необходимым доказательством для поддержки Ht и убеждены, что истинное среднее по совокупности не равняется 6.0 дней. Поскольку на рисунке присутствуют две заштрихованные области, мы имеем дело с двусторонней проверкой гипотезы. Скоро мы научимся опреде- лять границы областей отклонения гипотез.
*1 I В отношении основной гипотезы мы можем сделать лишь два утверждения. Ф Мы отклоняем основную гипотезу. Ф Мы не отклоняем основную гипотезу. Поскольку наши заключения основываются на выборке, у нас никогда не будет достаточ- ных оснований принимать основную гипотезу. Поэтому мы будем чувствовать себя спо- койней, если будем утверждать, что у нас нет достаточных доказательств, чтобы отклонить Но. Для разъяснения я воспользуюсь примером, взятым из судебной системы. Если жюри присяжных обнаруживает, что подзащитный «невиновен», они не утверждают, что он без- винен, а говорят, что у них нет достаточных доказательств его вины. Односторонняя проверка гипотезы Односторонняя проверка относится к альтернативной гипотезе, сформули- рованной в виде < или >. Мой пример с мячами для гольфа как раз требует односторонней проверки, поскольку альтернативная гипотеза выглядит как Нрц > 20. График такой проверки показан на рисунке 15.2. 6.0 Мн0 Увеличение средней длины броска в ярдах На этом графике мы видим лишь одну область отклонения — заштрихо- ванную область правого «хвоста», распределения. Следуем той же процеду- ре, которую использовали для двусто- ронней проверки, и откладываем среднее по выборке, которое пред- ставляет собой среднее увеличение расстояния от площадки для первого удара с помощью моего нового мяча для гольфа. Существуют два возмож- Термины Односторонняя проверка ных сценария. гипотезы используется тогда, когда альтернативная гипотеза сфор- мулирована в виде < или >.
Эврика!------------------- Для проверки односторонней гипотезы область отклонения будет всегда соотноситься с ориентацией При > 20 область отклонения будет рас- полагаться в правом хвосте выбороч- ного распределения. При < 20 область отклонения будет находить- ся слева. Ф Если среднее по выборке попадает в рамки незаштрихованной области, мы не отклоняем Но. То есть, у нас нет достаточных доказательств для поддержки Н1г альтернативной ги- потезы, утверждающей, что изобре- тенный мною мяч увеличивает рас- стояние от площадки ти более чем на 20 ярдов, а значит, мое состояние летит коту под хвост. Ф Если среднее по выборке оказыва- ется в пределах области отклоне- ния, мы отвергаем Но. То есть мы обладаем достаточными доказательствами для поддержки Н1г утверждающей, что мой новый мяч увеличит расстояние от ти более чем на 20 ярдов. Так что пора уходить на пенсию и зарабатывать на новом изобретении! Освоив основы проверки гипотез, мы переходим к ошибкам, которые мо- гут возникнуть при осуществлении выборки. Ошибки первого и второго рода Помните, что цель проверки гипотезы состоит в подтверждении утвержде- ния относительно совокупности на основе одной выборки. Поскольку мы по- лагаемся на выборку, то подвергаем себя риску, что наши выводы о совокуп- ности могут оказаться ошибочными. Используя пример с мячами для гольфа, положим, что моя выборка попа- дает в область «Отклонить Но» на последнем рисунке. То есть, в соответст- вии с выборкой, мой мяч увеличит дистанцию более чем на 20 ярдов. А что, если истинное среднее по совокупности на самом деле значительно меньше 20 ярдов? Это может произойти в результате ошибки выборки, которую мы обсуждали в Главе 12. Тип ошибки, когда мы отклоняем Но, а на самом деле эта гипотеза является истинной, называется ошибкой первого рода. Вероят- ность совершения ошибки первого рода определяется уровнем значимости, о котором речь шла в Главе 14, и обозначается . При проверке гипотезы может произойти и другого рода ошибка. Предпо- ложим, выборка с мячом для гольфа оказалась в пределах области «Не откло- нять Но» на последнем рисунке. То есть, в соответствии с выборкой, мой мяч увеличивает дистанцию не более чем на 20 ярдов. Но что, если истинное среднее по совокупности на самом деле больше 20 ярдов? Тип ошибки, когда мы не отклоняем Но, а на самом деле она является ложной, называется ошиб- кой второго рода. Вероятность совершения ошибки второго рода называет- ся мощностью гипотезы и обозначается р. В таблице ниже представлены оба типа ошибок проверки гипотезы.
Но истинна Но ошибочна Отклонить Но Ошибка первого рода Правильный исход Р[ошибка первого рода] — а Не отклонять Но Правильный исход Ошибка второго рода Р[ошибка вт. рода] & Термины Ошибка первого рода про- исходит тогда, когда основная гипотеза отклоняется, а на самом деле является истинной. Ошибка второго рода происходит тогда, когда основ- ная гипотеза принимается, а на самом деле является ложной. Как правило, при проверке гипотезы мы определяем значение а, которое на- ходится в пределах от 0.01 до 0.10, и про- исходит это до отбора выборки. Тогда можно вычислить значение р, но эта те- ма не входит в задачи этой книги. Ска- жите мне «спасибо» за это, потому что это понятие — весьма сложное! А теперь давайте заставим эти поня- тия работать на нас и проведем настоя- щую проверку гипотезы! Мысливслух В идеале значения аир должны быть по возможности маленькими. Однако для определенно- го размера выборки уменьшение значения а приведет к увеличению значения р. Обратное тоже верно. Единственный способ уменьшить сразу аир- это увеличить размер выборки. Как только размер выборки достигает размера генеральной совокупности, значения аир становятся равными 0. Но, как мы уже обсуждали в Главе 12, делать этого не рекомендуется. Пример двусторонней проверки гипотезы Гипотезы для примера со змеями выглядят следующим образом: Н0:ц = 6.0 Нрц 6.0, где ц = среднее количество дней, необходимых для отлова в доме змеи. Допустим, мне известно, что стандартное отклонение по совокупности, , равно 5.0 дням, а размер выборки для проверки гипотезы, п, составляет 30 до- мов. (Не спрашивайте, где я возьму 30 домов, по которым свободно ползают змеи. Я сочиняю историю прямо на ходу, так что не придирайтесь к словам.) Определим а = 0.05, и это означает, что я допускаю, что существует 5%-ная возможность совершения ошибки первого рода. Прежде всего, вычислим стандартную ошибку среднего, Если помните содержание Главы 13, то уравнение выглядело так:
= с =од=оод13 4п >/зо Допустим, среднее по выборке из 30 домов составляет 6.1 дома. Каково на- ше заключение в отношении оценки среднего по совокупности, ц? Чтобы ответить на этот вопрос, нам необходимо определить критическое z-распределение, соответствующее а = 0.05. Поскольку мы имеем дело с дву- сторонней проверкой гипотезы, эта область должна быть равномерно рас- пределена между обоими хвостами, в каждом из которых а/2 = 0.025. В со- ответствии с рисунком 15.3, нам необходимо определить z-распределение, соответствующее области 0.950 + 0.025 = 0.975. Как видите, область 0.950 получена из 1 — а. а/2 = 0.025 Рис. 15.3 Критическое z-распре- деление для а = 0.05. а/2 = 0.025 -1.96 +1.96 Используя Таблицу 3 из Приложения В, находим ближайшее к 0.9750 зна- чение. Искомое значение находится на пересечении строки 1.9 и столбца 0.06; получаем z-распределение + 1.96 для правого хвоста и — 1.96 — для ле- вого. Использование шкалы исходной переменной В этом разделе мы определим область отклонения с помощью шкалы исход- ной переменной, которой в нашем примере является количество дней. Для вычисления верхней и нижней границ области отклонения используем сле- дующие уравнения. Из Главы 14 вспомним, что z-распределения из стандарт- ного нормального распределения используются, когда п 30 и значение изве- стно. Границы области отклонения = цНо + zco-, . где цМ) = среднее по совокупности, принятое основной гипотезой.
Для нашего примера со змеей: Верхняя граница =6.0 +(1.96) (0.0913) =6.18 дня Нижняя граница = цНо + zco- =6.0 +(-Г.96) (0.0913) = 5.82дн я. Поскольку наше среднее по выборке равно 6.1 дня, мы попадаем в область «Не отклонять HG», как показано на рисунке 15.4. Отсюда делаем вывод, что разница между 6.1 и 6.0 днями — это исключительно дело случая и у нас есть подтверждение, что среднее по совокупности равняется 6.0 дням. Рис 15.4 Проверка гипотезы для примера со змеями (шкала исходной переменной). Отклонить Но /Не отклонять Но\ Отклонить Но Нн0 Среднее количество дней, требуемое для ловли змеи Использование стандартизованной нормальной шкалы Мы можем получить то же самое заключение, установив границы области отклонения с помощью нормальной шкалы. Для этого вычисляем z-распреде- ление, соответствующее выборочному среднему, как показано ниже: Убедитесь, что вы понимаете разницу между вычисленным и критическим z-pacnpe- делением. Вычисленное z-распределение, z, представляет собой количество стан- дартных отклонений между выборочным средним и jiWo, средним по совокупности, согласно основной гипотезе. Критическое z-распределение, zc, основывается на уровне значимости, а, и определяет границу области отклонения. На рисунке 15.5 полученный результат представлен графически. Посколь- ку вычисленное z-распределение, равное 4-1.09, находится в пределах обла- сти «Не отклонять Но», заключения по обоим вариантам совпадают.
Пример односторонней проверки гипотезы Поскольку альтернативная гипотеза в примере с мячом для гольфа формули- руется как 20, мы имеем дело с односторонней проверкой гипотезы. Гипоте- зы для данного примера выглядят так: < 20 Н^> 20, где ц = среднее увеличение расстояния в ярдах от первой площадки. Положим, мне известно, что стандартное отклонение совокупности, о, равно 5.3 ярда, а размер моей выборки (п) для проверки гипотезы составляет 40 игроков в гольф. Для данного примера установим а = 0.01. Стандартная ошибка среднего, су*, будет равна: о = = 0.838 ярда. х у/п л/40 Допустим, среднее по выборке из 40 игроков — 22.5 ярда. Каково наше за- ключение относительно оценки среднего по совокупности, ц? И снова нам необходимо определить критическое z-распределение, со- ответствующее а = 0.01. Поскольку речь идет об односторонней провер- ке гипотезы, вся область должна находиться в одной стороне отклонения в правой части распределения. В соответствии с рисунком 15.6, нам необ- ходимо определить z-распределение, соответствующее области 0.99, или 1 — а. Используя Таблицу 3 из Приложения В, находим ближайшее к 0.9900 зна- чение и получаем критическое z-распределение, равное 2.33.
Рис 15.6 Критическое z-распределение для а = 0.01. Количество стандартных отклонений от среднего Для вычисления предела этой области отклонения с использованием шка- лы исходной переменной делаем следующее: Граница = цНо +zc о- =20 +(2.33) (0.838) =21.95 ярда. Поскольку наше среднее по выборке = 22.5 ярда, мы попадаем в область «Отклонить Но»г как показано на рисунке 15.7. Заключение: мы обладаем до- статочными доказательствами для поддержки гипотезы, что среднее увели- чение расстояния от площадки после первого удара с помощью моего нового мяча превышает 20 ярдов. Начинаю бизнес! “ИГ 20 Мн0 Отклонить Но Не отклонять Но Рис 15.7 Проверка гипотезы для примера с мячом для гольфа (шкала исходной переменной). 2195 =22.5 Среднее увеличение расстояния после первого удара Мы также можем рассмотреть эту проверку гипотезы с помощью нор- мальной шкалы. Сначала вычислим z-распределение, соответствующее на- шему выборочному среднему 22.5 ярда, как представлено ниже:
мысли вслух Должно быть, вы задаетесь вопросом: «Если среднее по выборке равно 21.0 ярду, разве это не исчерпывающее доказательство того, что мой новый мяч увеличивает длину перво- го удара за 20 ярдов?» В соответствии с предыдущим рисунком, ответ на этот вопрос от- рицательный. Поскольку наше решение основывается на выборке, среднее 21 слишком близко к 20, чтобы подтвердить мое утверждение. Среднее по выборке должно равняться 21.95 или более ярдам, чтобы полностью отклонить основную гипотезу. z~ .2.9а о- 0.838 X На рисунке 15.8 показано, что вычисленное z-распределение находится в пределах области «Отклонить Но» и соответствует нашим предыдущим изы- сканиям. Рис 15.8 Проверка гипотезы для примера с мячом для гольфа (нормальная шкала). Количество стандартных отклонений от среднего Эврика!------------------ Я советую вам при выполнении проверки гипотезы изображать выборочное распределение с областями отклонения. Даже в статистике один рисунок стоит тысячи слов! Я еще раз вернусь к этому примеру в Главе 17 и продемонстрирую вам, как выполнять проверку гипотезы при срав- нении среднего двух совокупностей с за- висимой выборкой. Оставайтесь с нами! В таблице ниже показаны z-распреде- ления для различных уровней а. Альфа Хвост Критическое z-распределение 0.01 Один 0.01 Два ±2.33 ±2.57
Альфа Хвост Критическое z-распределение 0.02 Один ±2.05 0.02 Два ±2.33 0.05 Один ±1.64 0.05 Два ±1.96 0.10 Один ±1.28 0.10 Два ±1.64 Также обратите внимание на то, что критические z-распределения для правого хвоста выборочного распределения всегда имеют положительные значения, а критические z-распределения для левого хвоста — всегда отри- цательные значения. Я уже упоминал ранее, что целью этой главы является ввести основные по- нятия проверки гипотез. В следующих двух главах эта же тема рассматрива- ется более подробно. Так что готовьтесь, пока мы только разминаемся! Ваша очередь 1. Сформулируйте гипотезу для следующего утверждения: Средний взрослый в среднем выпивает 1.7 чашки кофе ежедневно. Выборка из 35 взрослых выпила в среднем 1.95 чашки кофе за день. Предполо- жим, что стандартное отклонение по совокупности составляет 0.5 чашки. При а — 0.10 проверьте свою гипотезу. Каково ваше за- ключение? 2. Сформулируйте гипотезу для следующего утверждения: Средний воз- раст наших заказчиков составляет менее 40 лет. Была отобрана выборка из 50 человек, средний возраст которых составлял 38.7 лет. Предполо- жим, что стандартное отклонение совокупности — 12.5 лет. При а = 0.05 проверьте свою гипотезу. Каково ваше заключение? 3. Сформулируйте гипотезу для следующего утверждения: Средняя про- должительность работы наших лампочек составляет 1 000 часов. Сред- няя продолжительность работы выборки из 32 лампочек составила 1 190 часа. Предположим, что стандартное отклонение совокупности состав- ляет 325 часов. При а = 0.02 проверьте свою гипотезу. Каково ваше за- ключение? 4. Сформулируйте гипотезу для следующего утверждения: Среднее время доставки составляет менее 30 минут. Среднее время выборки из 42 до- ставок составило 26.9 минуты. Предположим, что стандартное отклоне- ние совокупности составляет 8 минут. При а = 0.01 проверьте свою ги- потезу. Каково ваше заключение?
Повторение - мать учения Ф Основная гипотеза, Но, является неизменной и утверждает, что сред- нее по совокупности < = или > определенного значения. Ф Альтернативная гипотеза, , утверждает обратное основной гипотезы и является истинной, если основная гипотеза оказывается ложной. Ф Двусторонняя проверка гипотезы используется тогда, когда альтерна- тивная гипотеза сформулирована как А а односторонняя гипотеза ис- пользуется, когда альтернативная гипотеза сформулирована как < или >. Ф Ошибка первого рода происходит тогда, когда основная гипотеза откло- няется, а на самом деле она является истинной. Вероятность этой ошиб- ки обозначается а — уровень значимости. Ф Ошибка второго рода происходит, когда основная гипотеза принимает- ся, а на самом деле является ложной. Вероятность этой ошибки обозна- чается р — мощность проверки гипотезы.
Глава Проверка гипотезы по одной выборке В этой главе Ф Проверка среднего по совокупности с использованием выборки большого и малого размеров Ф Обсуждение роли альфы (а) при проверке гипотезы Ф Использование p-значения для проверки гипотезы Ф Проверка доли по генеральной совокупности с использо- ванием выборки большого размера В Главе 15 я ввел понятие проверки гипотезы, чтобы возбудить ваш интерес. В этой главе речь пойдет о проверке гипотезы в рам- ках одной совокупности, а Глава 17 посвящена проверке гипоте- зы, при которой производится сравнение двух совокупностей. Проверка гипотезы по одной совокупности подразумевает под- тверждение утверждений о том, что среднее по совокупности равно определенному значению. Этот тип проверки гипотезы имеет множество различных случаев, которые мы и рассмотрим в следующих разделах. В Главе 16 вы встретите уже знакомые вам понятия, представленные в Главах 14 и 15. Это сделано для того, чтобы вы могли свободно оперировать новыми понятиями до глу- бокого и проникновенного погружения в материал этой главы.
Проверка гипотезы для среднего при больших выборках Когда размер выборки, используемой нами для проверки гипотезы, доста- точно велик (п > 30), мы можем положиться на центральную предельную те- орему, описанную в Главе 13. При этом у нас остается еще два случая для рас- смотрения: когда о, стандартное отклонение совокупности, известно и когда оно неизвестно. Когда сигма известна Для иллюстраций этого случая обращусь к следующему примеру. Одной из самых страшных фраз, которую муж может услышать от своей жены, является следующая: «Дорогой, давай вместе сядем на диету». У меня должны были возникнуть подозрения относительно мотивации Дебби, пред- ложившей сесть на низкоуглеводную диету, особенно потому, что она носит брюки 2 размера. Но я решил, что вполне смогу перенести потерю несколь- ких фунтов, поэтому, немного поколебавшись, согласился. В конце концов, я представлял себе, что мы можем превратить эту затею в соревнование, чем сделаем свою жизнь более интересной. По прошествии нескольких мучительных дней без моих любимых углево- дов (кто бы мог подумать, что взрослый мужчина может мечтать о сырных снеках!) мне стало любопытно, как удается Дебби так хорошо себя чувство- вать, сидя на такой беспощадной диете. Ответ на эту загадку я нашел в ее ма- шине — наполовину пустая коробка булочек с корицей] Полагаю, в этом со- ревновании я одержал победу. О, сладость победы! А теперь к делу. Предположим, что составители этой диеты утверждают, будто средний возраст человека, готового подвергнуть себя подобной пытке, составляет менее 40 лет. Формулируем гипотезы: Но-Ц 40 лет Hfp < 40 лет. Составляем выборку из 60 человек, сидящих на этой диете, и обнаружива- ем, что средний возраст составляет 37.5 лет. При о, стандартном отклонении совокупности, равным 16 годам, проверяем гипотезы при а = 0.05. ;) Эврика! Вспомним из Главы 15, что а, уровень значимости, представляет собой вероятность совершения ошибки первого рода, которая происходит тогда, когда мы отклоняем Но, а она на самом деле является истинной. В этом случае ошибка первого рода озна- чает, что мы верим в утверждение о том, что средний возраст человека, сидящего на диете, составляет менее 40 лет, а в действительности это заявление ложно. В нашем примере существует 5%-ная вероятность ошибки первого рода.
Поскольку размер выборки более 30 и нам известно значение о, вычисля- ем z-распределение из нормального распределения, как мы это проделывали в Главе 15. СУ- Для нашего примера стандартная ошибка среднего, х, вычисляется так: о- = =2.07 года. х л/60 Теперь определяем z-распределение: г=^Ч=зз2^о,.2л8 о- 2.07 Вновь обратимся к Главе 15: критическое z-распределение, определяющее границы области отклонения, равно — 1.64 для однохвостовой (левосторон- ней) проверки при = 0.05. На рисунке 16.1 эта проверка представлена гра- фически. Число стандартных отклонений от среднего На рисунке видно, что вычисленное z-распределение — 2.08 попадает в об- ласть «Отклонить Но»г из чего мы можем заключить, что заявление о том, что средний возраст человека для этой диеты составляет менее 40 лет, истинно. Я чувствовал, что слишком стар для таких опытов над собственным организмом! В целом мы отклоняем Но, если |z| > |zc|, где |z| = «абсолютное значение» z. Например, | —2.08| == 2.08.
Когда сигма неизвестна Во многих случаях нам не известно значение о, стандартного отклонения ге- неральной совокупности. Но если размер нашей выборки не менее 30, мы можем подставить s, стандартное отклонение выборки, вместо о. Покажу это на примере. Не знаю, как обстоят дела у вас, но лично я провожу немало времени, ви- ся на телефоне и выжидая, когда же мне удастся услышать голос живого представителя службы поддержки клиентов. Положим, одна из компаний за- являет, что среднее время ожидания заказчика на телефоне составляет ме- нее 5 минут. Допустим, нам не известно значение ст. В таблице ниже указано время ожидания в минутах для случайной выборки из 30 клиентов. Время ожидания в минутах 6.2 3.8 1.3 5.4 4.7 4.4 4.6 5.0 6.6 8.3 3.2 2.7 4.0 7.3 3.6 4.9 0.5 2.9 2.5 5.6 5.5 4.7 6.5 7.1 4.4 5.2 6.1 7.4 4.8 2.9 С помощью Excel определяем, что х = 4.74 минуты, a s = 1.82 минуты. С первого взгляда кажется, что утверждение этой компании верно. Но давайте проведем проверку гипотезы при а = 0.02, чтобы в этом удостовериться. Наши гипотезы выглядят следующим образом: Н0:ц > 5.0 минут Нг:ц < 5.0 минут Из Главы 15 мы знаем, что критическое z-распределение для однохвосто- вой (левосторонней) проверки гипотезы при а = 0.02 равно — 2.05. Как и в Главе 14, мы можем приблизительно вычислить стандартную ошибку среднего: сги- - = 0.332 минуты х yjn л/30 Вычисленное z-распределение для данного примера будет равняться: Z,£24_±zt^.^.78 0.332 На рисунке 16.2 эта проверка проиллюстрирована графически. В соответствии с этим рисунком, мы не отклоняем основную гипотезу. Другими словами, у нас нет достаточных доказательств для поддержки заяв- ления компании о том, что среднее время ожидания составляет менее 5 ми- нут. Даже несмотря на то, что среднее по выборке на самом деле меньше 5 минут (4.74 минуты), это значение слишком близко к 5 минутам, чтобы гово-
рить о разнице между этими двумя значениями. Можно сказать то же самое и по-другому: «Разница между 4.74 и 5.0 в данном случае не является статис- тически значимой». а = 0.02 Отклонить Но 0.98 Рис. 16.2 Односторонняя гипотеза для примера со временем ожидания (стандартная шкала). 1----г -2.05 -0.78 0 1-а Не отклонять Но Число стандартных отклонений от среднего Роль альфы в проверке гипотезы Для всех примеров, приведенных в последних двух главах, я просто заявлял о значении а, уровня значимости. Наверняка вас распирает от любопытства, каким образом скажется на проверке гипотезы изменение значения а. Хоро- ший вопрос! Допустим, я заявляю, что средняя оценка человека, изучающего статисти- ку по этой книге, будет более 87 баллов. (На самом деле я вовсе этого не ут- верждаю, так что не радуйтесь раньше времени!) Гипотезы будут выглядеть так: HQ:p < 87 Hf.p >87. А теперь мой интерес состоит в том, чтобы суметь отклонить Но, и это бу- дет подтверждением моего заявления. Для этого я выберу достаточно высо- кое значение а, скажем, 0.10. Это значение соответствует критическому z- распределению +1.28, поскольку мы пользуемся правым хвостом односто- ронней проверки гипотезы. Предположим, что о, стандартное отклонение совокупности, равняется 12, а среднее по выборке — 90.6, полученное из выборки размером 32 студента. Для данного примера стандартной ошибкой среднего, о*, будет:
Отсюда получаем вычисленное z-распределение: z = i24.^®7.+l,70 о- 2.12 Судя по рисунку 16.3, я достиг поставленной цели, отклонив Но, поскольку вычисленное z-распределение оказалось в заштрихованной области. Похо- же, моя шутка с книгой удалась! Число стандартных отклонений от среднего Но я должен признать, что выбрал слишком большое значение а = 0.10, чтобы доказать свое заявление. То есть я готов принять, что существует 10%- ная вероятность ошибки первого рода. Проверка будет куда более впечатля- ющей, если задать более низкое значение а, например, равное 0.01. Зато это значение значительно ближе к реальному положению дел. Уровень значимо- сти соответствует критическому z-распределению 4-2.33. На рисунке 16.4 показано, как это отразится на области отклонения. Число стандартных отклонений от среднего
Как видите, заштрихованная область, к моему вящему ужасу, уже не включает вычисленное z-распределения +1.7. Следовательно, я не отклоняю Но и не могу утверждать, что средняя оценка тех, кто будет учиться статисти- ке по моей книге, превысит 87 баллов. В целом проверка гипотезы, отклоня- ющей Но, более впечатляющая при низком значении а. Термины Введение уровня р-значимости Только вы подумали, что теперь можно окунуться в воду, как на горизонте появляется еще одна акула. Думаю, сейчас самое время познакомить вас еще с одним понятием. Ворчите? Что же, ничего удивительного, но потом вы бу- дете меня благодарить. Уровнем p-значимости называется самый маленький уровень значимости, при котором будет отвергнута основная гипотеза при допущении, что основная гипотеза является истинной. Иногда уро- вень p-значимости называют наблюдае- мым уровнем значимости. Знаю, пока все эти слова кажутся вам бессмыслен- ными, но иллюстрация этих понятий на примере поможет разъяснить их. Наблюдаемый уровень зна- чимости - это самый малень- кий уровень значимости, при котором основная гипотеза будет отвергнута при допущении, что она является ис- тинной. Это понятие также носит на- звание уровня р-значимости. Уровень р-значимости для односторонней проверки гипотезы На примере предыдущей задачи с баллами (более 87 при успешном изуче- нии этой книги) на рисунке 16.5 показан уровень р-значимости, соответству- ющий заштрихованной области справа от вычисленного z-распределения + 1.7. Число стандартных отклонений от среднего
Эврика! Вспомним, что P[z> +1Л] = 1 - P[z< +1 *7] = 0.0446. Если хоти- те освежить свою память отно- сительно использования этой таблицы, вернитесь к Главе 11. Используя нашу стандартную нор- мальную z-таблицу (Таблица 3 Прило- жения В), мы можем подтвердить, что заштрихованная область в правом хво- сте равна P[z >4-1.7] = 0.0446. Поскольку уровень р-значймости 0.0446 больше значения (0.01), мы не отклоняем Но- Большинство статис- тических программных продуктов (включая Excel) позволяют получить p-значения с соответствующим ана- лизом. Еще один способ описать это уровень р-значимости — это сказать голосом прилежного ученика: наши результаты являются значимыми на уровне 0.0446. Это означает, что пока значение не ниже 0.0446, мы будем отклонять Но, а это хорошие новости для исследователей, старающихся подтвердить свои открытия. Термины Мы можем использовать уровень р-значимости для принятия решения о том, откло- нять основную гипотезу или нет. В целом. Ф Если уровень р-значимости < а, мы отклоняем основную гипотезу. Ф Если уровень р-значимости > а, мы не отклоняем основную гипотезу. Вычисление уровня р-значимости для двусторонней проверки гипотезы несколько отличается от только что рассмотренного; о том, как это делается, вы узнаете в следующем разделе. Уровень р-значимости для двусторонней проверки гипотезы Вспомним, что двусторонняя проверка гипотезы проводится, когда основ- ная гипотеза представляет собой равенство. Например, давайте проверим заявление о том, что среднее количество миль, которое ежегодно проделы- вает пассажирский автобус, составляет 11 500 мили. Наши гипотезы выгля- дят так: Н0:ц = И 500 мили Нрц ^ 11 500 мили. Предположим, о = 3 000 миль, и мы хотим установить а = 0.05. Отбираем 80 водителей и определяем, что среднее число пройденных миль составляет 11 900 мили. Каков уровень р-значимости и какие мы делаем заключения в отношении наших гипотез?
Для данного примера стандартная ошибка среднего, о*, получается следу- ющим образом: о 3000 ___ .. о- = = 335.41 мили. х 4п >/80 Получаем вычисленное z-распределение: 11900-11500 J А • А vV • о- 335.41 Критическое z-распределение для двусторонней проверки при а = 0.05 составляет 1.96. На рисунке 16.6 показано p-значения для данной проверки в виде заштрихованной области. Уровень p-значимости для двусторонней 0.8830 В соответствии с Таблицей 3 Приложения В, P[z < -I-1.19] = 0.8830. Это означает, что заштрихованная область в правом хвосте рисунка 16.6 это P[z> +1.19] = 1 — 0.8830 = 0.117. Поскольку мы имеем дело с двусторойней проверкой, нам необходимо умножить эту область на 2, чтобы получить уро- вень p-значимости. Судя по рисунку, уровень р-значимости — это общая об- ласть обеих заштрихованных областей, которая равняется 2 х 0.117 = 0.234. Поскольку р > а, мы не отклоняем основную гипотезу. Полученные данные подтверждают заявление о том, что среднее количество миль, пройденных в год пассажирским автобусом, равняется 11 500. В целом чем меньше уровень p-значимости, тем выше наша уверенность в необходимости отклонения основной гипотезы. В большинстве случаев ис- следователь пытается найти подтверждение альтернативной гипотезы. Низ- кий уровень p-значимости обеспечивает необходимую поддержку и дарует радость исследователям.
Проверка гипотезы для среднего при малых выборках В Главе 14 говорилось, что при малых размерах выборки центральная пре- дельная теорема уже не действует, и мы вынуждены допускать, что сово- купность является нормально распределенной во всех случаях. Сначала рассмотрим ситуацию, когда нам известно о, стандартное отклонение по генеральной совокупности. Когда сигма известна Если известна о, проверка гипотезы осуществляется так же, как при боль- ших размерах выборки. Мы можем делать так потому, что приняли допуще- ние, что совокупность является нормально распределенной. Продемонстри- руем эту процедуру на следующем примере. В последнее время изучение счета мобильного телефона требует действи- тельно крепких нервов. Устало вскрывая конверт, я с ужасом думаю, какие сюрпризы ждут меня на этот раз. Поскольку мы пользуемся семейным тари- фом, я всегда думаю о том, что кто-то из домочадцев обнаружил новую функ- циональную возможность, не имеющую ничего общего с общением по теле- фону с другим человеком, и постоянно ею пользуется. Время от времени я с замиранием сердца просматриваю бесчисленные страницы, сплошь покры- тые номерами и кодами, и с облегчением вздыхаю, воздавая хвалу Господу. Но в течение многих месяцев я завершал свой просмотр счета ударами себя в грудь и душераздирающими воплями. Это вроде мягкой формы русской ру- летки с телефонной компанией. Предположим, телефонная компания заявляет, что средний месячный счет за пользование мобильным телефоном выставляется на сумму 92 долла- ра (хорошо бы!). Проверим это заявление с помощью следующих гипотез: Н0:ц = 92 доллара Ну.ц ^92 доллара. Допустим, что о = 22.50 доллара и генеральная совокупность удовлетворяет нормальному распределению. Случайным образом отбираем 18 телефонных счетов и определяем среднее по выборке — 107 долларов. Каков вывод мы мо- жем сделать при о = 0.02? Для данного примера стандартная ошибка среднего, су*, составляет: Термины----------------- Вспомним из Главы 14, что по- скольку нам известно значение о и мы допустили, что совокупность яв- ляется нормально распределенной, мы можем использовать z-распределения из нормального распределения веро- ятностей для проверки этой гипотезы. Л8 Отсюда вычисляем z-распределение: 2 = ^4„$№^92=+i83 су- $5.30
Критическое z-распределение для двусторонней проверки при а = 0.02 равняется +2.33. На рисунке 16.7 эта проверка представлена графически. Судя по рисунку 16.7, вычисленное z-распределение +2.83 находится в пределах области «Отклонить Но». Следовательно, мы можем сделать вывод, что средний счет на использование мобильной связи выставляется вовсе не на 92 доллара. А я никогда так и не думал! Число стандартных отклонений от среднего Когда сигма неизвестна В Главе 14 при неизвестной о и малом размере выборки, взятой из нормаль- но распределенной совокупности, мы использовали +распределение Стью- дента. Это распределение позволяет нам подставлять s, стандартное отклоне- ние выборки, вместо о. Пример: предположим, мой сын Джон заявляет, что средний результат его игры в гольф составляет меньше 88 баллов. Не будем ставить его слова под со- мнение, а просто проверим это утверждение с помощью следующих гипотез: НоЩ > 88 * Н1:ц<88. Предположим, что нам неизвестна о и результаты игры Джона подчиня- ются нормальному распределению. Ниже представлена случайная выборка 10 результатов игры Джона. Результаты игры Джона 86 87 85 90 86 84 84 91 87 83 С помощью Excel определяем, что для данной выборки х = 86.3, as = 2.58. Из Главы 14 вспомним, что мы можем приблизительно определить стандарт- ную ошибку среднего с помощью следующего уравнения:
Затем мы можем вычислить t-результат с помощью следующего уравне- ния: „Ь^.863-88.^, Ох 0.816 Проверим эту гипотезу при = 0.05. Чтобы найти соответствующий крити- ческий t-результат, воспользуемся Таблицей 4 Приложения В, отрывок из ко- торой представлен в таблице ниже. t-распределение Стьюдента Выбранные области правого «хвоста» с доверительными уровнями Дов. ур. d.f. 0.2000 0.1500 0.1000 0.0500 0.6000 0.7000 0.8000 0.9000 0.0250 0.0100 0.0050 0.9900 0.0010 0.9980 0.0005 0.9990 0.9500 0.9800 1 1,376 1.963 3.078 6.314 12.706 31.821 63.657 318.31 636.62 2 1.061 1.386 1.886 2.920 4.303 6.965 9.925 22.627 31.599 3 0.978 1.250 1.638 2.353 3.182 4.541 5.841 10.215 12.924 4 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 8.610 5 0.920 1.156 1.476 2.015 2.571 3.365 4.032 5.893 6.869 6 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.208 5.959 7 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.785 5.408 8 0.889 1.108 1.397 1.860 2.306 2.896 3.355 4.501 5.041 9 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.297 4.781 10 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.144 4.587 Из Главы 14 вспомним, что нам необходимо определить число степеней свободы, которое равняется п — 1 = 10—1=9 для данного примера. По- скольку мы имеем дело с односторонней (левосторонней) проверкой гипоте- зы, смотрим столбец ос = 0.05 и получаем критическое t-значение, равное — 1.833 (в таблице выше это значение подчеркнуто) Эта проверка графически представлена на рисунке 16.8. Судя по рисунку, вычисленное t-значение — 2.08 попадает в заштрихован- ную область «Отклонить Но». Таким образом, мы можем сделать заключение, что средний результат игры в гольф моего сына действительно ниже 88. Это вполне объясняет, почему он частенько обыгрывает меня. В целом мы откло- няем Но, если |t| > |tc|.
Давайте обратимся к другому приме- ру, чтобы показать, как проверяется дву- сторонняя гипотеза с помощью t-pacnpe- деления. Я хочу проверить заявление о том, что средняя скорость машин, проез- жающих по определенному участку пе- рекрестка, составляет 65 миль в час. Ги- потезы для данного примера выглядят следующим образом: = 65 миль в час Термины Поскольку пример с результа- тами Джона - это односторон- няя проверка в левой части распреде- ления, мы получили отрицательное кри- тическое t-значение. Если бы речь шла о правосторонней проверке, мы бы получили положительное значение. Hf.jn ф 65 миль в час. Допустим, значение нам не известно и скорости подчиняются нормальному распределению. Ниже представлена слу- чайная выборка скорости 7 автомобилей. Скорости автомобилей 62 74 65 68 71 64 68 С помощью Excel определяем, что х = 66.9 миль/час и s = 4.16 миль/час для данного примера. Мы можем приблизи- г Невозможно определить уро- | вень р-значимости для провер- * ки гипотезы с помощью таблицы t-распределения Стьюдента, представленной в Приложении В. Но многие статистические программы включают определение уровня р-зна- чимости как часть стандартного анали- за. Об этом мы узнаем позже. тельно определить стандартную ошибку среднего. оц- = = 1.57 миль/час х х/7 А теперь вычисляем t-значение:
1_х2!ч=6м-65_+121 1.57 X Проверим эту гипотезу при а = 0.05. Чтобы найти соответствующее кри- тическое f-значение, воспользуемся Таблицей 4 из Приложения В. Ниже по- казана часть этой таблицы. (•распределение Стьюдента Выбранные области правого «хвоста» с доверительными уровнями Дов. ур. d.f. 0.2000 0.1500 0.1000 0.0500 0.0250 0.0100 0.0050 0.9800 0.9900 0.0010 0.9980 0.0005 0.9990 0.6000 0.7000 0.8000 0.9000 0.9500 1 1.376 1.963 3.078 6.314 12.706 31.821 63.657 318.31 636.62 2 1.061 1.386 1.886 2.920 4.303 6.965 9.925 22.327 31.599 3 0.978 1.250 1.638 2.353 3.182 4.541 5.841 10.215 12.924 4 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 8.610 5 0.920 1.156 1.476 2.015 2.571 3.365 4.032 5.893 6.869 6 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.208 5.959 7 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.785 5.408 Количество степеней свободы для данного примера равняется п — 1 = 7 — 1=6. Поскольку это двусторонняя проверка гипотезы, нам необходимо по- делить а = 0.05 на две равные части, одна — в правой части распределения, а другая — в левой. Затем смотрим столбец а/2 = 0.025 и получаем критиче- ский t-результат, равный 2.447 (подчеркнут). Эта проверка графически пред- ставлена на рисунке 16.9. Двусторонняя проверка гипотезы Рис 16.9 -2.447 0 1.21 +2.447
По рисунку видно, что вычисленное t-значение +1.21 попадает в область «Не отклонять Но». Таким образом, мы можем заключить, что средняя ско- рость пересечения этого участка перекрестка составляет 65 миль в час. Использование функции СТЬЮДРАСПОБР программы Excel Мы можем получать значения 1-распределения с помощью функции СТЬЮ- РАСПОБР программы Excel, которая имеет следующие характеристики: СТЬЮДРАСПОБР(вероятность; степени_свободы) где: вероятность = уровень значимости, а, для двусторонней проверки степени_свободы = число степеней свободы Например, на рисунке 16.10 показана функция СТЬЮДРАСПОБР, исполь- зуемая для определения критического t-результата для а = 0.05 и d.f. = 6 для нашего предыдущего примера — двусторонней проверки. Рис 16.10 Функция СТЬЮДРАСОБР для двусторонней проверки. Ячейка А1 содержит формулу =СТЬЮДРАСПОБР(0.05; 6) с результатом 2.447. Эта вероятность подчеркнута в предыдущей таблице. Односторонняя проверка выглядит несколько иначе. Нам необходимо ум- ножить вероятность функции СТЬЮДРАСПОБР на два, поскольку этот па- раметр базируется на двусторонней проверке. На рисунке 16.11 показана функция СТЬЮДРАСПОБР для определения критического f-результата для а = 0.05 и d.f. = 9 из нашего примера с результатами игры Джона. А? & Рис 16.11 Функция СТЬЮРАСОБР для односторонней проверки. Ячейка А1 содержит формулу — СТЬЮДРАСПОБР(2*0.05; 9) с результа- том 1.833, соответствующим результату из нашего предыдущего примера.
Проверка гипотезы для доли при больших выборках Проверка гипотезы может выполняться для доли совокупности при большом размере выборки. Из Главы 13 вспомним, что данные доли подчиняются би- номинальному распределению, которое может быть приблизительно вычис- лено с помощью нормального распределения при выполнении следующих условий: пр > 5 и nq > 5, где: р = вероятность успеха по совокупности, q = вероятность неудачи по совокупности (q = 1 — р). Рассмотрим одностороннюю и двустороннюю проверку гипотез для доли. Односторонняя проверка гипотезы для доли Допустим, мы хотим проверить гипотезу о том, что более 30 семей в США имеют доступ к Интернету. Гипотезы будут выглядеть следующим образом: Но: р < 0.30 Hi.p> 0.30, где р — дрля семей США, имеющих доступ к Интернету. Внимание! --------------- Будьте внимательны: не путайте определение р и уровень р-значимос- ти, о котором мы говорили чуть раньше. Отбираем выборку из 150 американ- ских семей и обнаруживаем, что 38% из них имеют доступ к Интернету. Каковы наши заключения при а = 0.05? Сначала вычислим р, стандартную ошибку доли, описанную в Главе 13, с по- мощью следующего уравнения: М п ' где рН() = доля, допускаемая основной гипотезой. В нашем примере: ;(0.30)(1-0.30)=0 037 ₽ V 150 Теперь определяем вычисленное z-распределение: Р-Рн. z=------—
где р — выборочная доля. Для нашего примера: z±^- 0.38-0.30 0.037 = +2.16. Критический z-результат для односторонней проверки при а = 0.05 со- ставляет + 1.64. Эта проверка гипотезы графически представлена на рисун- ке 16.12. Число стандартных отклонений от среднего Судя по рисунку 16.12, вычисленный z-результат -I- 2.16 попадает в область «Отклонить Но»- Следовательно, мы можем заключить, что доля американ- ских семей, имеющих доступ в Интернет, превышает 30%. Уровень р-значимости для данной проверки представлено графически на рисунке 16.13. Число стандартных отклонений от среднего
Используя нашу стандартную нормальную таблицу (Таблица 3 Приложе- ния В), мы можем подтвердить, что заштрихованная область в правом хвосте равна: P[z> +2.16] = 1 - P[z< +2.16] P[z > +2.16] = 1 - 0.9846 = 0.0154. Таким образом, наши результаты являются значимыми на уровне а > 0.0154. Пока а > 0.0154, мы сможем отклонять HG. Двусторонняя проверка гипотезы для долм Завершим эту главу еще одним примером двусторонней проверки Сейчас мы хотим проверить гипотезу для компании, заявляющей, что 50% ее за- казчиков являются мужчинами. Наши гипотезы выглядят следующим об- разом: Но: р = 0.50 Hj : р * 0.50 Случайным образом отбираем 200 заказчиков и обнаруживаем, что 47% из них — мужчины. Какие можем мы сделать выводы при а = 0.05? Нам необходимо определить ор, стандартную ошибку доли: аР = /(0 50) (1-0.50) =0 035 п у 200 Далее определяем вычисленный z-результат: р-рНо 0.47 -0.50 ___ х =-----2-=---------= -0.86. а 0.035 Эврика! В целом мы отклоняем Но, если |z| > \zс| или |?| > |tc|. Мы не от- клоняем Но, если Izl < |zcl или |t|<|tc|. Критическое z-значение для двусто- ронней проверки при а = 0.05 состав- ляет 1.96. Эта проверка гипотезы гра- фически представлена на рисунке 16.14. Судя по рисунку 16.14, вычисленное z- значение — 0.86 попадает в область «Не отклонять Но». Таким образом, мы дела- ем вывод, что доля заказчиков мужского пола составляет 50% для данной компа- нии.
-1.96 -0.86 О +1,96 Число стандартных отклонений от среднего Уровень р-значимости для данной проверки графически представлено на рисунке 16.15. Уровень р-значимости = = 0.1685 + 0.1685 = 0.337 Рис 16.15 Уровень Р-значимости для примера с процентом заказч иков -мужч ин. -1.96 -0.86 0 +0.86 +1.96 z zc 0,8315| Уровень р-значимости равняется сумме заштрихованных областей 0.663 Используя нашу стандартную нормальную таблицу (Таблица 3 Приложе- ния В), мы можем подтвердить, что заштрихованная область в левом хвосте равняется: P[z< -0.86] = 1 - P[z< 4- 0.86] P[z< -0.86] = 1 - 0.8315 = 0.1685 Поскольку это двусторонняя проверка, уровень р-значимости будет равнять- ся 2X0.1685 — 0.337, то есть общая площадь обеих заштрихованных областей.
Ваша очередь 1. Проверьте заявление о том, что средний результат сдачи Стэндфордско- го экзамена на уровень овладения знаниями студентами, окончившими среднюю школу, равен 1100. Была отобрана случайная выборка из 70 студентов; оказалось, что средний результат составлял 1035. Допустим, о = 310, а — 0.10. Каков уровень р-значимости для данной выборки? 2. Небольшой бизнес-колледж заявляет, что средний размер класса со- ставляет 35 студентов. Проверьте это утверждение при а = 0.02 с помо- щью следующей выборки размеров класса: 42 28 36 47 35 41 33 30 39 48 Предположим, совокупность является нормально распределенной, а о неизвестна. 3. Проверьте утверждение о том, что среднее потребление бензина авто- мобилем в США составляет более 7 литров в день (метрическая система мер). Используйте показанную ниже выборку, представляющую собой ежедневное потребление бензина одной машиной: 9 6 4 12 4 3 18 10 4 5 3 8 4 И 3 5 8 4 12 10 9 5 15 17 6 13 7 8 14 9 Предположим, совокупность является нормально распределенной, неизве- стна. При а = 0.05 определите уровень р-значимости для данной выборки. 4. Проверьте заявление о том,* что доля избирателей-республиканцев в од- ном городе составляет менее 40%. Была отобрана случайная выборка из 175 избирателей; оказалось, что процент республиканцев — 30%. При а = 0.01 определите уровень р-значимости для этой выборки. Повторение - мать учения Ф Чем меньше значение а, уровеня значимости, тем сложней отклонить основную гипотезу. Ф Мы отклоняем Но, если |z| > |zc| или |t| > |tc|. Ф Уровень р-значимости — это самый маленький уровень значимости, при котором основная гипотеза будет отклонена при допущении, что ос- новная гипотеза является истинной. Ф Если уровень р-значимости < а, мы отклоняем основную гипотезу. Если уровень р-значимости > а, мы не отклоняем основную гипотезу. ,Ф t-распределение Стьюдента используется для проверки гипотезы, если п < 30, значение о неизвестно, а совокупность является нормально рас- пределенной.
для разности Глава llilll illll Проверка гипотезы по двум выборкам В этой главе ф Построение выборочного распределения средних ф Проверка разности средних по совокупностям с использо- ванием выборок большого и малого размеров Ф Различие между независимыми и зависимыми выборками Ф Использование Excel для выполнения проверки гипотезы Ф Проверка разности долей совокупностей Научившись так хорошо выполнять проверку гипотезы по одной выборке, вы со спокойной душой можете переходить к следующему этапу — проверке гипотезы по двум выборкам. Подобная проверка, как правило, .осуществляется с целью об- наружить различие между двумя отдельными совокупностями. Например, я мог бы провести проверку с целью сравнить ре- зультаты игры в гольф Джона и Брайана. Но я опытный роди- тель, а потому делать этого не буду. Поскольку понятия, с которыми вы познакомитесь в этой главе, во многом схожи с понятиями Главы 16, удостоверьтесь, что как следует изучили предыдущую главу, прежде чем погру- жаться в изучение этой.
Концепция сравнения двух совокупностей Многие статистические исследования подразумевают сравнение определенно- го параметра, например, среднего, двух различных совокупностей. ф Существует ли разница между результатами Стэндфордского экзамена у мужчин и женщин? Ф Действительно ли «долговечные» лампочки превышают по сроку служ- бы обычные лампочки? Термины--------------- Распределение по выборке для разности средних описы- вает вероятность наблюдения различ- ных интервалов для получения разно- сти двух средних по выборке. Ф Отличается ли средняя продажная цена дома в Ньюмарке от средней цены дома в Уилмингтоне? Чтобы ответить на эти вопросы, нам необходимо ознакомиться с новым рас- пределением по выборке. (Обещаю, это последнее.) У этого распределения самое причудливое и^мя: распределение по вы- борке для разности средних. Распределение по выборке для разности средних Лучше всего распределение по выборке для разности средних может быть описано с помощью рисунка 17.1 Совокупность 1 Совокупность 2 Рис. 17.1 Распределен ие по выборке для разности средних. Ц2 Распределение по выборке для среднего (Совокупность 1) Распределение по выборке для среднего (Совокупность 2) Мх2 Распределение по выборке для разности средних Мх1~Х2
В качестве примера рассмотрим проверку разницы между результатами экзамена у мужчин и женщин. Сдающие экзамен женщины будут представ- лены Совокупностью 1, а мужчины — Совокупностью 2. График 1 на рисун- ке 17.1 представляет собой распределение результатов экзамена для женщин со средним 1 и стандартным отклонением 1. На графике 2 показаны те же па- раметры для мужчин. График 3 представляет собой выборочное распределение для среднего для женщин. Этот график получился так: отобрали выборки размером п и начер- тили распределение средних по выборке. Помните, мы обсуждали распреде- ление средних по выборке в Главе 13. Среднее этого распределения будет оп- ределяться так: = Mi- Это соответствует центральной предельной теореме, речь о которой шла в Главе 13. Так же был получен график 4 — для мужчин. График 5 на предыдущем рисунке — это распределение, представляющее собой разность средних по выборке из двух совокупностей. Это выборочное распределение для разности средних, которое в свою очередь имеет следую- щее среднее: МХ1_Х2 МХ2 • Иными словами, среднее распределения, показанного на графике 5, — это разность средних графиков 3 и 4. Стандартное отклонение графика 5 носит название стандартной ошибки разности средних и вычисляется следующим образом: А ^2 где: of, = дисперсия Совокупнос- тей 1 и 2, Hi, п2 = размер выборки соответ- ственно из Совокупнос- тей 1 и 2. А теперь я продемонстрирую вам, как использовать эти понятия на практике. Термины---------------- Стандартная ошибка разно- сти двух средних описывает дисперсию разности двух средних по выборке и вычисляется по формуле: Проверка разности средних для выборок большого размера Если размеры выборок из обеих совокупностей превышают 30, мы можем обратиться к центральной предельной теореме и использовать нормальное
распределение для приблизительного вычисления выборочного распределе- ния для разности средних. Эту методику я продемонстрирую вам с помощью следующего примера; Были проведены исследования в отношении эффектов стимуляции на мозговое развитие крыс. Думаю, что эти исследования следовали такой логи- ке: что хорошо для крыс, не может быть плохим для людей. Из одной сово- купности крыс отобраны две случайные выборки. Представители первой выборки, которую мы назовем «крысы-везунчи- ки» (Совокупность 1), были окружены неслыханной роскошью. Я представ- ляю себе атмосферу загородного клуба, курс гольфа, теннисные корты и пятизвездочный ресторан, где наши крысы могут полакомиться импорт- ным сыром и французским вином за обсуждением состояния крысиной экономики. Представители второй выборки «менее везучих грызунов» (Совокупность 2) никак не могут похвастаться условиями своего существования. Их закрыли в скучной клетке, заставили поедать консервированный сыр и смотреть повто- рение реалити-шоу. Активисты, выступающие за права животных, были про- тив этого эксперимента, заявляя, что насильственное применение консерви- рованного сыра — это негуманно. По истечении трех месяцев проживания в указанных условиях ученые-са- дисты измерили размер мозга каждой крысы на вес. Не буду вдаваться в по- дробности того, как это осуществлялось, но мышонок Харви мистическим образом не объявился на своем восьмичасовом утреннем чае, и его группа от- правилась без него. В таблице ниже представлены результаты этого страшного эксперимента. Итоговые данные эксперимента с крысами Совокупность Средний вес мозга (в граммах) Стандартное отклонение выборки Размер выборки Везунчики (1) 2.4 0.6 50 Менее везучие (2) 2.1 0.8 60 Д ля этой проверки гипотезы примем допущение, что две выборки являют- ся независимыми друг от друга. Иными словами, между крысами везучей и невезучей выборок не существует никакой взаимосвязи. Наши гипотезы будут выглядеть так: Н0:Ц1< ц2 Нц Pi > ц2г
где: щ = средний вес мозга крысы из везучей совокупности, ц2 = средний вес мозга крысы из невезучей совокупности. Гипотезы также могут выглядеть следующим образом: Но.-щ - р2<0 НрЩ - ц2> 0. Альтернативная гипотеза поддерживает заявление о том, что у крыс-ве- зунчиков вес мозга будет больше. Мне кажется, что для самих крыс это не слишком-то хорошо, но это уже совершенно иная история. Проверим эту ги- потезу при а = 0.05. Если или сг2 неизвестны, тогда мы можем использовать s3 или s2, стан- дартные отклонения выборок Совокупностей 1 и 2, в качестве приближения, пока п > 30 для обеих совокупностей, как показано ниже: сур — s. Принимая во внимание данное допущение, мы можем приблизительно вы- числить стандартную ошибку разности двух средних: I 2 2 О'- - -М + ^. ' \ л,. л, Поскольку значения стj или о2 нам неизвестны, устанавливаем: 0й! = Si И ОИ2 ~ s2 (0.6)2 J0.8)2 50 60 =0.134 грамма. Теперь мы готовы определить вы- численное z-значение с помощью следующего уравнения: (Х1 -х2)-(ш -Мгк» z =-----------------. х1“х2 Для нашего примера с крысами это значение равняется: Эврика! —__________ , Понятие (щ - ц2)н0 носит назва- ние гипотетической разности средних двух совокупностей. Ес- ли в ходе проверки основной ги- потезы выясняется, что разности средних двух совокупностей не суще- ствует, тогда (g, - g2)Ho равно нулю. z = = (2.4-2.1)-0 = +2 24 Z oh- - 0.134 x(-x2 Результаты проверки гипотезы представлены на рисунке 17.2.
Критический z-результат для односторонней проверки гипотезы (право- сторонней) при а = 0.05 равняется + 1.64. Судя по рисунку 17.2, это z-значе- ние +2.24 попадает в область «Отклонить Но». Отсюда делаем вывод, что ве- зучие крысы имеют больший вес мозга, чем невезучие. Число стандартных отклонений от среднего I Термины Сформулируем условия, необходимые для проверки гипотезы для разности сред- них при большой размере выборки. Ф Выборки являются независимыми друг от друга. Ф Размер каждой выборки должен быть не меньше 30. Ф Если стандартные отклонения по совокупности неизвестны, для приблизительного их вычисления могут быть использованы стандартные отклонения выборок. ; Уровень р-значимости для данной выборки может быть определено с по- мощью нормальной таблицы z-результатов из Приложения В: P[z > +2.24] = 1 - P[z< + 2.24] P[z> +2.24] = 1 - 0.9875 = 0.0125 Эврика!---------------------------------------------------------------- Подобная методика может также применяться к выборкам размером менее 30, но при соблюдении определенных условий. > Обе совокупности должны быть нормально распределенными. Ф Должны быть известны стандартные отклонения обеих совокупностей.
Результаты нашего крысиного опыта способны улучшить жизнь многих. Если в одно прекрасное субботнее утро супруг подлавливает вас, когда вы крадетесь на урок по гольфу, вы можете спокойно объяснить, что просто пы- таетесь улучшить состояние своих мозгов. Теперь у нас есть статистические данные, чтобы поддержать вас в ваших действиях. Но не забывайте о том, что дополнительный вес мозга может вылиться для вас в дополнительные про- блемы. Проверка разности, отличной от нуля В предыдущем примере перед нами стояла задача лишь определить, сущест- вует ли разница между двумя совокупностями. Мы также можем определить, не превышает ли эта разница определенного значения. В качестве примера предположим, что мы хотим проверить заявление о том, что средняя зарпла- та математика в Нью Джерси превышает среднюю зарплату математика в Вирджинии более чем на 5000 долларов. Имеем следующие гипотезы: Но-’ Bi ~ М2 5000 Нр Ц1 — ц2 > 5000. где: щ — средняя зарплата математика в Нью Джерси, ц2 = средняя зарплата математика в Вирджинии. Предположим, что Oi = $ 8 100, о2 = $ 7 600, и проверим эту гипотезу при а = 0.10. Были отобраны две выборки: Ф 42 математика из Нью Джерси со средней зарплатой 51 500 долларов; Ф 54 математика из Вирджинии со средней зарплатой 45 400 долларов. Стандартная ошибка разности двух средних получается так: О /(3W (7W X1 Х2 V 42 54 Получаем вычисленный z-результат: г (Х1-Х2)-(Р1-р2) о- - X, -х2 ($51500-$45 400) -($5 000) $1622.3
Результаты этой проверки представлены на рисунке 17.3 Рис 17.3 Проверка гипотезы для примера с зарплатой. Число стандартных отклонений от среднего Критическое z-значение для односторонней (правосторонней) проверки при а = 0.10 равняется +1.28. Судя по рисунку 17.3, вычисленное z-значение + 0.68 попадает в область «Не отклонять Но». Отсюда делаем вывод, что раз- ность зарплат в двух штатах не превышает 5000 долларов. Проверка разности средних при малом размере выборки и неизвестной сигме В этом разделе я расскажу вам, как поступать в ситуации, когда 6, стандарт- ное отклонение по совокупности, неизвестно, и используются выборки ма- лого размера. Если размер одной или обеих выборок меньше 30, совокуп- ность должна быть нормально распределенной, чтобы иметь возможность воспользоваться одним из вышеуказанных способов. Мы делали такое же до- пущение для выборок малого размера в Главах 14 и 16. Выборочное распределение для разности средних по выборке для данного сценария подчиняется ^-распределению Стьюдента. Для выборок малого раз- мера уравнение стандартной ошибки разности двух средних, о^,-л2, зависит от того, равны ли стандартные отклонения (или дисперсии) двух совокупно- стей. Сначала рассмотрим ситуацию с одинаковыми стандартными отклоне- ниями. Равные стандартные отклонения совокупностей В нашем доме происходит нечто странное: батарейки проваливаются словно под землю. Я стал покупать упаковку из 24 штук, наивно полагая, что уж их-то надолго хватит. Я опять ошибся, ибо чем больше я покупаю,
тем быстрей они исчезают. Возможно, их исчезновение связано с некими подростками, которые любят в предрассветные часы слушать музыку по плееру при умопомрачительной громкости. Но это только мои догадки. Поэтому как только до меня доходят слухи о новых долговечных батарей- ках, у меня сразу ушки на макушке. Допустим, какая-то компания заявля- ет, что ее батарейки более долговечны, чем любые другие. Гипотезы вы- глядят так: Но’ Ц'2 pi > ц2, где: = средний срок работы долговечных батареек, ц2 = средний срок работы обычных батареек. Проверим эту гипотезу при а = 0.01. Ниже суммированы данные о про- должительности срока работы в часах батареек обоих типов: Данные для примера с батарейками Долговечные батарейки (Совокупность 1): 51 44 58 36 48 53 57 40 49 44 60 50 Обычные батарейки (Совокупность 2): 42 29 51 38 39 44 35 40 48 45 С помощью Excel суммируем эти данные в следующую таблицу: Суммированные данные для примера с батарейками Совокупность часов Средние по выборке Станд. откл. выборки Размер выборки # Долговечные (1) 49.2 6.40 12 Обычные (2) 41.1 7.31 10 В данном примере мы допускаем, что сц = о2, но значения этих парамет- ров неизвестны. При таких условиях мы вычисляем совместную оценку стандартного отклонения с помощью уравнения: [(A ~l)s22 П1+Л2-2
Термины-------------------------------------------------------- Совместная оценка стандартного отклонения объединяет 2 выборочные диспер- сии в одну и вычисляется по формуле: /(П1-1)512+(П2-1)«2 n}+n2-2 Не впадайте в панику. Это уравнение выглядит куда как лучше, когда в нем указаны конкретные числа. l(n-l)s2+(^ -l)s22 г /(12—l)(7.31f +(10-1)(6.40)2~ у п^п2-2 у 12+10-2 sp /956.44 _ V 20 А теперь мы можем приблизительно вычислить стандартную ошибку раз- ности двух средних: 1 1 Л Ъ Сейчас мы можем определить вычисленное z-значение с помощью следу- ющего уравнения: п г п г - ~s —+—=(6.92).—+— pVa «2 V12 10 =(6.92)70.1833 =2.96 часа. Определяем количество степеней свободы для данной проверки: t = (Х1-Л2)-(1Ч-Р2)но = (49.2 -41.1)-0 = +2 73 <тм- - 2.96 Х1~х2 d.f. = щ+ п2 - 2 = 12 + 10 - 2 = 20. Критический f-результат, взятый из Таблицы 4 Приложения В, для одно- сторонней (правосторонней) проверки при а = 0.10 и 20 степенями свободы равен + 2.528. Проверка этой гипотезы графически представлена на рисунке 17.4.
Судя по рисунку 17.4, наше вычисленное t-значение +2.73 попадает в об- ласть «Отклонить Но». Из этого мы заключаем, что срок работы долговечных батареек действительно больше, чем у обычных. Я уже отправился их покупать. Термины --------------:_______________________________________ Проверка гипотезы для разности средних при малых размерах выборки требует выполнения нескольких условий. Ф Выборки являются независимыми друг от друга. Ф Совокупность должна быть нормально распределенной. Ф Если и о2 известны, используйте нормальное распределение для определения об- ласти отклонения. Ф Если и <т2 неизвестны, вы можете приблизительно вычислить их с помощью и s* и использовать t-распределение Стьюдента для определения области отклонения. Эта процедура основывалась на допущении, что стандартные отклонения обеих совокупностей равны. А что, если это допущение неверно? Я рад, что вы спросили. Неравные стандартные отклонения совокупностей Рассмотрим эту ситуацию на том же примере с батарейками, но при допутце- нии, что О! о2- Процедура практически не отличается от предыдущей, за ис- ключением двух нюансов. Первое отличие касается стандартной ошибки разности двух средних. В данном случае используется следующее уравнение:
Для примера с батарейками получаем следующий результат: сЛ- _ = J1Z^1L+^9L=^(4.45)+(4.1O) =2.92. V 12 10 V Теперь определяем вычисленное z-значение с помощью уравнения: = (*1~-Ь)-(М1“Ц2)н0 J49.2-41.1)-0 = Второе отличие касается способа определения числа степеней свободы для t-распределения Стьюдента. щ-1 п2-1 Пока вам не стало плохо, я поспешу доказать вам, что не так страшен черт, как ее малюют. Прежде всего, определим, что: s2 (7.31)2 л лс £ (6.40? „ —=------С —4 45 и _2_ = 1--— =4.10. п, 12 п, 10 Теперь вставим полученные значения в вышеуказанное уравнение: d _ [(4.45)+(4.10) ]2 73.10 (4.45)2 + (4.10)2 1.80+1.87 И 9 Поскольку количество степеней свободы должно быть целым числом, ок- ругляем этот результат до 20. Критический t-результат, взятый из Таблицы 4 Приложения В, для односторонней (правосторонней) проверки при а = 0.01 с 20 степенями свободы равняется + 2.528. Поскольку t > tc, мы отклоняем Но. Программа Excel выполнит за вас черновую работу Эта программа умеет выполнять разные проверки гипотез, описанных в этой главе. Я покажу вам, как решить предыдущую задачу с батарейками с помо- щью этой разносторонней программы. Выполните предлагаемые шаги. 1. Откройте чистый рабочий лист и введите данные из примера с батарей- ками в столбцы А и В, как показано на рисунке 17.5. 2. В меню Tools (Сервис) выберите Data Analysis (Анализ данных). Из спи- ска выберите t-Test: Two-Sample Assuming Unequal Variances (Двухвыбо-
рочный t-тест с различными дисперсиями). (Если опция Data Analysis (Анализ данных) отсутствует в меню Tools (Сервис), обратитесь к разде- лу Главы 2 «Установка средств анализа данных».) Рис 17.5 Ввод данных для примера с батарейками. 3. Щелкните ОК. 4. В окне t-Test: Two-Sample Assuming Unequal Variances (Двухвыборочный t-тест с различными дисперсиями) выберите ячейки В1:В12 в поле Variable 1 Range (Интервал переменной 1) и ячейки АГ.А10 в поле Variable 2 Range (Интервал переменной 2). Установите значение Hypothesized Mean Difference (Гипотетическая средняя разность) рав- ное 0, Alpha (Альфа) ос = 0.01, a Output Range (Выходной интервал) — ячейка D1, как показано на рисунке 17.6. Рис 17.6 Диалоговое окно* «Двухвыборочны й t-mecm с различными дисперсиями».
5. Щелкните ОК. На экране будет представлен t-тест, как показано на ри- сунке 17.7. & «к !•¥»»« frmtf • WfiwfSKy.sk Рис. 17.7 Выход t-mecma. а" 3& 44: 5? & 35: Wi «Г ”зп': Зй: 44 SO so. ^«№8 ' А-:;Й;- f:\7 j\:’ $: Гйп>«й>>Ж:|йя« . s ?<;•:: ?>-: ? :<: - ^Л: Г*й*4:^ V £?: 4$.$8iW ?:i£ У 4>- В :«С^ S Судя по рисунку 17.7, вычисленное t-значение 2.758 обнаружено в ячейке Е9, и это значение несколько отличается от того, что мы получили в предыду- щем разделе (2.77) в силу округления чисел. Уровень р-значимости, равный 0.006, указан в ячейке ЕЮ. Поскольку уровень р-значимости < а, мы отклоня- ем основную гипотезу. Проверка разности средних при зависимых выборках До этого момента в этой главе мы обсуждали независимые друг от друга вы- борки. Выборки считаются независимыми, если они никоим образом не свя- заны друг с другом. Им противостоят зависимые выборки, где каждое наблю- дение одной выборки связано с наблюдением в другой. Примером зависимой выборки может быть исследование по потере веса. < Каждый испытуемый взвешивается в на- Термины--------------- о» В зависимых выборках дан- ные из одной выборки связа- ны с данными из другой выборки. В независимых выборках наблюдения никак не связаны. чале (Совокупность 1) и в конце (Сово- купность 2) программы. Изменения в ве- се каждого человека определяется путем вычитания весов Совокупности 2 из ве- сов Совокупности 1. Каждое наблюде- ние из Совокупности 1 сравнивается с наблюдением Совокупности 2. Зависи- мые выборки тестируются отлично от независимых. Чтобы показать вам, как проверяются зависимые выборки, я вернусь к примеру с мячом для гольфа, который мы обсуждали в Главе 15. Если вы по- мните, я размечтался, что изобрел мяч, позволяющий увеличить расстояние от площадки ти более чем на 20 ярдов. Для проверки моего заявления пред- положим, что 9 игроков били по моему мячу, а потом по обычному мячу для
гольфа. В таблице ниже представлены полученные результаты. Буква d озна- чает разность между моим мячом и обычным мячом. Расстояние в ярдах для примера с мячом для гольфа Игрок 1 2 3 4 5 6 7 8 9 Мой мяч 215 228 256 264 248 255 239 218 239 Другой мяч 201 213 230 233 218 226 212 195 208 d 14 15 26 31 30 29 27 23 31 ^2 196 225 676 961 900 841 729 529 961 Для будущих вычи [слени й нам п онадс )бится: = 14 + 15 4 - 26 + 31 + 31 0 + 2 9 + 27 + 23 + 31 = 226 £d2 = 196 + 22 5 + 67 6 + 96: 1 + 91 ОО + 84 [1 + > г29 + 529 + < 961 = 6018. Расстояния, достигнутые с использованием моего мяча, будут состав- лять Совокупность 1, а расстояния, достигнутые с использованием другого мяча, — Совокупность 2. Поскольку в каждом случае игрок ударяет по обо- им мячам, представленные в таблице выборки являются зависимыми. Гипотезы будут выглядеть так: Но- Pi — Р2 20 Нр Ц1 — р2 > 20, где: Pi = среднее расстояние, достигнутое с помощью моего нового мяча, ц2 = среднее расстояние, достигнутое с помощью другого мяча. Но поскольку нас интересует только разность двух совокупностей, мы можем переписать данное утверждение как единую выборочную гипоте- зу: H0:pd< 20 Hi'. pd > 20, где d — это среднее разности двух совокупностей. Проверим эту гипотезу при а = 0.05. Далее мы вычислим разность средних, d и стандартное отклонение разно- сти, sdt двух выборок: 5=&.22б=25.цярда п Я
(6.018) 8 342.89 8 =6.55 ярда. Уравнение для вычисления sd — это то же уравнение для определения стандартного отклонения, которое мы рассмотрели в Главе 5. Если обе совокупности следуют нормальному распределению, мы исполь- зуем ^-распределение Стьюдента, поскольку размеры обеих выборок мень- ше 30 и Qi и о2 нам неизвестны. Вычисленное t-значение получается следую- щим образом: d~pd 25.11-20 sd ~ 6.55 у/п V9 5.11 2.18 = +2.34 Количество степеней свободы для данной проверки равняется: d.f. = п - 1 = 9 - 1 = 8 Критическое t-значение, взятое из Таблицы 4 Приложения В, для одно- сторонней (правосторонней) проверки при а = 0.05 и d.f. = 8 равняется + 1.86. Проверка этой гипотезы графически представлена на рисунке 17.8. Рис 17.8 Проверка гипотезы для примера с мячом для гольфа. Судя по рисунку 17.8, наше вычисленное t-значение +2.34 попадает в об- ласть «Отклонить Но». Отсюда делаем заключение, что мой мяч увеличивает расстояние от ти более чем на 20 ярдов. Жаль, что это только мои грезы!
Проверка разности долей при независимых выборках Проверка гипотезы может проводиться с целью определения разности долей двух совокупностей при большом размере выборки. Из Главы 13 вспомним, что данные долей подчиняются биноминальному распределению, которое можно приблизительно определить с помощью нормального распределения при выполнении следующих условий: np>5nnq>5, где: / р = вероятность успеха по совокупности, q = вероятность неудачи по совокупности (q = 1 — р). Предположим, я хочу проверить утверждение о том, что доля мужчин и женщин в возрасте от 13 до 19 лет, пользующихся программами обмена мгно- венными сообщениями с помощью Интернета, равна. Гипотезы будут выгля- деть так: Но- Pi = Р2 Hi: pi ф р2, где: Pi = доля парней в возрасте от 13 до 19 лет, еженедельно использующих эти программы, р2 = доля девушек в возрасте от 13 до 19 лет, еженедельно использую- щих эти программы. В таблице ниже сведены данные их наших выборок: Зммированные данные для выборок пользователей программ >мена мгновенными сообщениями Совокупность Количество успехов (х) Размер выборки (п) Парни 207 300 Девушки 266 350 Каково наше заключение при а = 0.10? Выборочная доля парней, р1г и девушек, р2, использующих программы об- мена мгновенными сообщениями, может быть вычислена так: - xi 207 266 р,=-± =----= 0.69 и р =-+-=------=0.76. щ 300 п, 350
Для определения вычисленного z-результата нам необходимо знать стан- дартную ошибку разности дйлей (ну ужг это чересчур!), которая оп- ределяется по формуле: fPl(l-Pi) ! P2U--P2) П1 п2 Но проблема состоит в том, что нам неизвестны значения рг и р2, фактиче- ские Доли юношей и девушек по совокупности. Далее нам необходимо опре- делить оценку стандартной ошибки разности двух долей, _^2, с помощью следующего уравнения: Р1-Р2 111 !(рИ)(1_рЧ)1 ^2 где: рц, оценка доли двух совокупностей, определяется по формуле: Р И= = 207+266„ =0.728. ц+г^ 300+350 Для нашего примера оценка стандартной ошибки разности двух долей по- лучается следующей: Iй— ' Р1-Р2 ( 1 1 '(0.728) (1-0.728) -+---- \300 350 =0.035. А теперь мы, наконец, можем вычислить z-результат: (Р1-Рг)-(Р1 ~Р^)н0 <5И- - Р\~Рг (P.-PzMPi-PJh, (0.69 + 0.76)-0 </- - 0.035 Р1"Р2 Термины-------------------- Понятие (pi-p2)H0 носит название гипотетической разности долей двух совокупностей. Если проверка основ- ной гипотезы показывает, что разности между долями совокупностей не существу- ет, тогда значение (Pi-p2)H0 равно нулю. Критическое z-значение для дву- сторонней проверки при а = 0.10 равняется 1.64. Проверка этой гипо- тезы графически представлена на рисунке 17.9. Судя по рисунку 17.9, вычислен- ное z-значение — 2.00 попадает в область «Отклонить Но». Таким об- разом, мы делаем вывод, что доли юношей и парней в возрасте от 13
Проверка гипотезы для разности долей Рис 17.9 Проверка гипотезы для примера с пользователями программ мгновенных сообщений. Число стандартных отклонений от среднего до 19 лет, использующих программу обмена мгновенными сообщениями, не равны. Термины------------------------------------------------------- Стандартная ошибка разности двух долей описывает изменения разности между долями двух выборок и вычисляется по формуле: а = ! Р2(1-Р2) Р'~Р2 \ п} П2 Оценка стандартной ошибки разности двух долей приблизительно определяет изме- нения разности долей двух выборок и вычисляется по формуле: <+ - =J(pA,Xl“P'‘/~+—1 р,-₽2 Л к Дл, nJ Оценка доли двух совокупностей - это взвешенное среднее долей двух выборочных долей, вычисляемое по формуле: Уровень Р-значимости для этих выборок можно найти с помощью нор- мальной z-таблицы в Приложении В: 2(P[z > +2.00]) = 2(1 - P[z< + 2.00]) 2(P[z> +2.00]) = 2(1 - 0.9772) = 0.0456. Этот результат также подтверждает, что мы отклоняем Но, поскольку уро- вень р-значимости < а.
На этом мы завершаем наше удивительное путешествие по стране провер- ки гипотез. Но не печальтесь. Мы вновь обратимся к этим методикам в Час- ти 4 этой книги «Углубленное изучение статистики вывода». Уверен, вы с не- терпением этого ждете. Ваша очередь 1. Проверьте гипотезу о том, что средние результаты экзамена по матема- тике у студентов из Пенсильвании и Огайо различаются. Были отобраны две выборки: у 45 студентов из ГТенсильвании средний результат был ра- вен 552, а у 38 студентов из Огайо — 530. Предположим, что стандартные отклонения по генеральной совокупности для Пенсильвании и Огайо со- ставляют 105 и 114 соответственно. Осуществите проверку при а = 0.05. Каков уровень р-значимости для этих выборок? 2. Компания отслеживает уровень удовлетворенности заказчиков различ- ными магазинами по шкале от 0 до 100. Представленные ниже данные — это оценка заказчиков из Магазинов 1 и 2. Магазин 1: 90 87 93 75 88 96 90 82 95 97 78 Магазин 2: 82 85 90 74 80 89 75 81 93 75 Допустим, что стандартные отклонения по совокупности равны, но не- известны, а совокупность является нормально распределенной. Осуще- ствите проверку при = 0.10. 3. Создатели новой диеты утверждают, что по завершении программы ее участники потеряют более 15 фунтов веса. Представленные ниже дан- ные — это вес 9 участников до и после программы. Проверьте это ут- верждение при а = 0.05. До 221 215 206 185 202 197 244 188 218 После 200 192 195 166 187 177 227 165 201 4. Проверьте гипотезу о том, что доля владельцев квартир во Флориде пре- вышает национальную долю при = 0.01. Используйте следующие дан- ные: Размер выборки Совокупность Число успехов Флорида 272 400 Национальный уровень 390 600 Каков уровень р-значимости для данных выборок?
Повторение - мать учения Ф Нормальное распределение используется при проверке гипотезы для разности средних, когда п > 30 для обеих выборок. Ф Нормальное распределение используется при проверке гипотезы для разности средних, когда п < 30 для любой выборки, если и <т2 извест- ны и обе совокупности являются нормально распределенными. Ф t-распределение Стьюдента используется при проверке гипотезы для разности средних, когда п < 30 для любой выборки, если ©j и <т2 неизве- стны и обе совокупности являются нормально распределенными. Ф В зависимых выборках наблюдение из одной выборки связано с наблю- дением из другой. В независимых выборках наблюдения выборок не имеют друг к другу никакого отношения.

Чаги» Углубленное изучение статистики вывода В первых трех частях книги мы узнали много интересного. Неуже- ли осталось еще что-то, что осталось за рамками нашего изучения? В последних главах представлены более продвинутые методики статистики вывода (не волнуйтесь, вы и с ними справитесь) вроде критерия хи-квадрат, дисперсионного анализа и линейной регрес- сии. Вооруженные этим знанием, мы сможем определять, связаны ли две категориальные переменные (хи-квадрат), сравнивать три или более совокупностей (дисперсионный анализ) и описывать мощность и направление взаимосвязи между двумя переменными (линейная регрессия). Когда вы овладеете всеми этими знаниями, считайте, что вы допрыгнули до самой высокой планки! Я ХОТЫ НАЙТИ КРИТЕРИЙ ХИ-КРАДРАТ, но не обнаружи/1 его р меню местного КИТАЙСКОГО РеСТОРАНА.

Распределение хи-квадрат В этой главе Ф Проведение испытания на адекватность с распределени- ем хи-квадрат Ф Выполнение проверки независимости с распределением хи-квадрат Ф Использование факторных таблиц для отображения рас- пределения частот В последних трех главах мы открыли для себя удивительный мир проверки гипотез. Мы сравнивали средние и доли одной и двух совокупностей и делали обоснованные заключения при- менительно к собственным заявлениям. Теперь, когда эти ме- тодики стали частью нашего опыта, мы готовы к более значи- тельным свершениям. В этой главе мы узнаем, как сравнивать две или более долей с помощью еще одного типа распределения: хи-квадрат. С по- мощью этого теста мы сможем подтверждать, подчиняется ли набор данных определенному распределению вероятностей, например, биноминальному или Пуассона. (Помните, что это за распределенйя? Они вернулись!) Мы можем также исполь-
зовать это распределение для определения того, являются ли две переменные статистически независимыми. На самом деле все это довольно любопытно, и вы в этом очень скоро сами убедитесь! Обзор шкал измерения данных В Главе 2 мы обсуждали различные типы шкал измерения данных: номиналь- ную, порядковую, интервальную и относительную. Освежим вашу память кратким описанием каждой из них. Ф Номинальный уровень измерений имеет дело исключительно с количе- ственными данными. Наблюдениям просто присваиваются определен- ные категории. Пример: пол респондента с категориями «мужской» и. «женский». Ф Порядковый уровень измерения находится на одну ступень выше. * Он обладает всеми свойствами номинального уровня плюс возмож- ность ранжировать значения от максимального до минимального. Пример: оценить фильм как отличный, хороший, приличный или сла- бый. Ф Интервальный уровень измерения имеет дело не только с качественны- ми данными. Здесь мы можем использовать математические операции сложения и вычитания для сравнения значений. Разница между различ- ными категориями может измеряться с помощью числовых значений, а также предоставлять смысловую информацию. Типичный пример: из- мерение температуры в градусах по Фаренгейту. Ф Относительный уровень — это самая точная шкала измерений. Здесь мы можем выполнять все 4 математические операции для сравнения данных. Примерами такого типа данных являются возраст, вес, рост и зарплата. Относительные данные обладают всеми характеристиками интервальных данных плюс «истинное нулевое значение», которое оз- начает, что данные с нулевым значением — это отсутствие измеряемого объекта. При проверке гипотезы, которую мы рассматривали в последних трех гла- вах, использовались строго интервальные и относительные данные. А распре- деление хи-квадрат, о котором пойдет речь в .этой главе, позволит нам выпол- z Термины--------------- Распределение хи-квадрат используется для выполнения проверки гипотезы с номинальными и порядковыми данными. нять проверку гипотез с использованием номинальных и порядковых данных. Две основные методики, о которых мы узнаем в этой главе, используют распределение хи-квадрат для выпол- нения испытания на адекватность и проверки независимости двух пере- менных. Начнем!
Испытание на адекватность хи-квадрат Одним из многочисленных способов использования распределения хи-квад- рат является испытание на адекватность, использующее выборку для провер- ки того, соответствует ли распределение частот ожидаемому распределению Пример: предположим, новый фильм, находящийся в процессе создания, имеет ожидаемое распределение оценок, представленное в таблице ниже. Ожидаемое распределение оценок фильма Количество звезд Процент 5 4 3 2 1 Всего 40% 30% 20% 5% 5% 100% После премьеры фильма были опрошены 400 кинозрителей. Результаты представленных ими оценок показаны в таблице ниже. Наблюдаемое распределение оценок фильма Количество звезд Количество наблюдений 5 145 4 128 3 73 2 32 1 22 Всего 400 Можем ли мы заключить, что ожидаемые рейтинги фильма действительно ос- новываются на наблюдаемых рейтингах, предоставленных 400 кинозрителями? Формулировка основной и альтернативной гипотез Основная гипотеза испытания на адекватность хи-квадрат содержит утверж- дение о том, что выборка наблюдаемых частот поддерживает заявление об ожи- даемых частотах. Альтернативная гипотеза содержит утверждение о том, что
Термины------------------ Испытание на адекватность использует выборку для про- верки того, соответствует ли распре- деление частот ожидаемому распре- делению. поддержка заявления об ожидаемых ча- стотах отсутствует. Для примера с филь- мом формулировка гипотезы будет вы- глядеть следующим образом: Но: Фактическое распределение рей- тингов может быть описано с по- мощью ожидаемого распределе- ния. Hf. Фактическое распределение рейтингов отличается от ожидаемого рас- пределения. Проверим эту гипотезу при а = 0.10. Наблюдаемые и ожидаемые частоты Общее число ожидаемых (Е) частот должно равняться общему числу наблюдае- мых (О) частот. Проверка методом хи-квадрат в основном сравнивает наблюдаемые (О) и ожидаемые (Е) частоты для определения того, существует ли между ними статистически значимая раз- ница. Для нашего примера с фильмом наблю- даемыми частотами являются количество наблюдений, собранных для каждой катего- рии нашей выборки. Ожидаемые частоты — это ожидаемое число наблюдений для каждой категории, вычисляемые в таблице ниже. $20^3 Термины----------------------------------------------------------- Г О Наблюдаемые частоты - это число фактических наблюдений, отмеченных для каж- дой категории распределения частот в рамках анализа методом хи-квадрат. Ожида- емые частоты - это число наблюдений, ожидаемых для каждой категории наблюдений с допущением об истинности основной гипотезы в рамках анализа методом хи-квадрат. Таблица ожидаемых частот Рейтинг фильма Ожид. процент Размер выборки Ожид. частота (О) Набл. частота (Н) 5 40% 400 0.40(400) = 160 145 . 4 30% 400 0.30(400) = 120 128 3 20% 400 0.20(400) = 80 73 2 5% 400 0.05(400) - 20 32
Рейтинг фильма Ожид. процент Размер выборки Ожид. частота (О) Набл. частота (Н) 1 5% 400 0.05(400) = 20 22 Всего 100% 400 400 Теперь мы готовы вычислить статистику хи-квадрат. Вычисление статистики хи-квадрат Статистика хи-квадрат определяется по следующей формуле: где: О = число наблюдаемых частот для каждой категории, Е ~ число ожидаемых частот для каждой категории. Вычисления с применением этого уравнения представлены в таблице ни- же. Вычисление значения хи-квадрат для примера с фильмом Рейтинг фильма О Е (О-Е) (О-Е)2 (О-£)2 Е 5 145 160 -15 225 1.41 4 128 120 8 64 0.53 3 73 80 — 7 49 0.61 2 32 20 12 144 7.20 1 22 20 2 4 0.20 Всего х.=Ев=И5 Определение критического значения распределения хи-квадрат Критическое значение распределения хи-квадрат, X2, зависит от числа сте- пеней свободы, которое для данной проверки будет равняться: d.f. = k - 1, где к равняется числу категорий распределения частот. Для примера с филь- мом существует 5 категорий, поэтому d.f. = k— 1=5 — 1 = 4.
Критическое значение хи-квадрат можно найти в Таблице 5 Приложения В этой книги. Здесь приведена часть этой таблицы. Критические значения распределения хи-квадрат Выделенные области правого хвоста d.f. 0.3000 0.2000 0.1500 0.1000 0.0500 0.0250 0.0100 0.0050 0.0010 1 1.074 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.828 2 2.408 3.219 3.794 4.605 5.991 7.378 9.210 10.597 13.816 3 3.665 4.642 5.317 6.251 7.815 9.348 11.345 12.838 16.266 4 4.878 5.989 6.745 7.779 9.488 11.143 13.277 14.860 18.467 5 6.064 7.289 8.115 9.236 11,070 12.833 15.086 16.750 20.515 6 7.231 8.558 9.446 10.645 12.592 14.449 16.812 18.548 22.458 При а = 0.10 и d.f. = 4 критическое значение хи-квадрат %2 (подчеркнуто в таблице выше). На рисунке 18.1 представлены результаты этой проверки. Рис 18.1 Использование распределения хи-квад- рат для примера с фильмом. Судя по рисунку 18.1, вычисленное значение хи-квадрат 9.95 попадает в область «Отклонить Но», из чего мы можем сделать заключение, что факти- ческое распределение частот оценок фильма отличается от ожидаемого рас- пределения. Пока %2 < %2 мы всегда будем отклонять Но. Поскольку вычисленное значение хи-квадрат для испытания на адекват- ность может быть только положительным значением, проверка гипотезы всегда будет областью с одним хвостом отклонения в правой части. Использование функции ХИ2ОБР программы Excel У вас все еще нет под рукой таблицы распределения хи-квадрат? Не отча- ивайтесь Мы можем генерировать критические значения хи-квадрат с по- мощью функции ХИ2ОБР программы Excel, которая имеет две перемен- ные.
ХИ2ОБР (вероятность; степени_свободы) , где: вероятность = уровень значимости, степени_свободы = число степеней свободы. Например, на рисунке 18.2 показана функция ХИ2ОБР для определения критического значения хи-квадрат при а = 0.10 и d.f. = 4 из нашего преды- дущего примера. Рис. 18.2 Функция ХИ2ОБР программы Excel. Ячейка А1 содержит формулу =ХИ2ОБР(0.1;4) с результатом 7.799. Эта вероятность подчеркнута в предыдущей таблице. Характеристики распределения хи-квадрат По рисунку 18.1 видно, что распределение хи-квадрат не является симмет- ричным, но имеет положительную асимметрию. Форма распределения зави- сит от числа степеней свободы, как показано на рисунке 18.3. Значения хи-квадрат
По мере увеличения числа степеней свободы форма распределения хи- квадрат становится более симметричной. Испытание на адекватность с биноминальным распределением В предыдущих главах мы порой принимали допущения, что совокупность подчиняется определенному распределению, например, нормальному или биноминальному. В этом разделе мы узнаем, как подтверждать такие заяв- ления. В качестве примера предположим, что определенный игрок Высшей бейс- больной лиги заявляет, что вероятность совершения им удачного удара в лю- бое определенное время составляет 30%. В таблице ниже представлено рас- пределение частот количества ударов за игру с учетом последних 100 игр. Предположим, в каждой игре он отбил мяч 4 раза. Данные о бейсболисте Количество ударов Количество игр 0 26 1 34 2 30 3 7 4 3 Всего 100 Иными словами, в 26 играх он не отбил мяч ни разу, в 34 — 1 раз и т.д. Про- верим заявление о том, что это распределение подчиняется биноминальному распределению при р = 0.30 и а = 0.05. Формулировка гипотезы будет выглядеть следующим образом: Н0‘ Распределение ударов игрока может быть описано с помощью бино- минального распределения вероятностей при р ~ 0.30. Н\: Распределение отличается от биноминального при р = 0.30. Прежде всего, вычислим распределение частот для ожидаемого числа уда- ров за игру. Для этого нам необходимо заглянуть в Таблицу 1 Приложения В при п = 4 (количество испытаний за игру) и р = 0.30 (вероятность успеха). Эти вероятности вместе с вычислениями ожидаемых частот представлены в таблице ниже.
Вычисление ожидаемых частот для бейсболиста Кол-во ударов за игру Бином, вер-ть Число игр Ожид. частота 0 0.2401 100 = 24.01 1 0.4116 100 = 41.16 . 2 0.2646 100 = 26.46 3 0.0756 100 = 7.56 4 0.0081 100 = 0.81 Всего 1.0000 100.00 Прежде чем продолжить, нам необ- ходимо сделать одно уточнение отно- сительно ожидаемых частот. При ис- пользовании проверки хи-квадрат нам необходимо как минимум 5 наблюде- ний в каждой из категорий ожидае- мых частот. Если наблюдений меньше 5, нам придется объединить категории. Эврика!------------------- Ожидаемые частоты не обяза- тельно должны быть целыми числами, поскольку они пред- ставляют лишь теоретические значения. В предыдущей таблице мы объединим 3 и 4 удара за игру в одну категорию, чтобы соответствовать этому требованию. Теперь мы готовы определить вычисленное значение распределения хи-ква- драт с помощью следующей таблицы: Вычисленное значение распределения хи-квадрат для примера с бейсболом Удары О Е (О-Е) (О-Е)2 (О-£)2 Е 0 26 24.01 1.99 3.96 0.16 1 34 41.16 - 7.16 51.27 1.25 2 30 26.46 3.54 12.53 0.47 . 3-4 10* 8.37** 1.63 2.66 0.32 Всего * 7 + 3 = 10 “ 7.56 + 0.81 = 8.37 В соответствии с Таблицей 5 Приложения В, критическое значение хи- квадрат при а = 0.05 и d.f. = k = 4— 1 = 3 равняется 7.815. Эта проверка представлена на рисунке 18.4.
Рис. 18.4 Использование распределен ия хи-квадрат для примера с бейсболом. Судя по рисунку 18.4, вычисленное значение хи-квадрат 2.20 попадает в область «Не отклонять HG». Из этого мы можем сделать заключение, что рас- пределение ударов нашего игрока может быть описано с помощью биноми- нального распределения при р = 0.30. Проверка на независимость методом хи-квадрат Кроме испытания на адекватность, распределение хи-квадрат может быть использовано д ля проверки переменных на независимость друг от друга. Для иллюстрации этой методики я вновь обращусь к примеру с теннисом, опи- санному в Главе 7. Как вы, надеюсь, помните, Дебби полагала, что непродолжительная раз- минка перед игрой на счет снижает ее шансы на победу. Изучив условные ве- роятности, я был вынужден признать, что существуют некие доказательства, подтверждающие заявление Дебби. Но я не из тех, кто сразу опускает руки. Я требую справедливости, дополнительных доказательств и повторного под- счета! Я требую проверки гипотезы с использованием распределения хи-ква- драт! Без ведома Дебби я скрупулезно собирал данные о наших последних 50 матчах. В таблице ниже представлено число побед каждого из нас в соответ- ствии с продолжительностью разминки. Наблюдаемые частоты для примера с теннисом 0-10 минут 11-20 минут Более 20 минут Всего Победа Д. 4 10 9 23 Победа Б. 14 9 4 27 Всего 18 19 13 50
Такая таблица носит название факторной; в ней представлены наблюдае- мые частоты двух переменных. В данном случае переменными являются про- должительность разминки и игрок в теннис. Таблица организована в виде г строк и с столбцов. Для нашей таблицы г = 2, а с = 3. Пересечение строки и столбца называется ячейкой. Факторная таблица имеет гс ячеек; в нашем слу- чае пересечением является значение 6. Проверка хи-квадрат на независи- мость определит, одинакова ли доля побед Дебби для всех трех случаев разминки. Если исход проверки гипо- тезы покажет, что эти Доли неодина- ковы, мы заключим, что продолжи- тельность разминки сказывается на результате игры. Но у меня есть неко- торые сомнения. Для начала сформулируем гипотезы: Термины_______________ Таблица исходов показывает наблюдаемые частоты двух переменных. Ячейка - пересечение строки и столбца факторной таблицы. Факторная таблица имеет гх с ячеек. Но: Качество игры не зависит от продолжительности разминки Нр Качество игры зависит от продолжительности разминки Проверим эту гипотезу для а = 0.10. Далее определим ожидаемую частоту каждой ячейки в факторной табли- це при допущении, что две переменные являются независимыми. Делаем это с помощью следующего выражения: сумма строки г х сумма столбца с ^Г,С общее число наблюдении где Егс = ожидаемая частота ячейки на пересечении строки г и столбца с. В таблице ниже вышесказанное применено к нашему примеру с теннисом. Строка/столбец Категория Общее число наблюдений г = 1 Деб побеждает 23 г = 2 Боб побеждает 27 с = 1 0—10 минут разминки 18 с = 2 11 — 20 минут разминки 19 с = 3 Разминка более 20 минут 13 Общее число наблюдений для этого примера = 50; это мы можем подтвер- дить, сложив 23 + 27 или 18 + 19 + 13. Теперь определяем ожидаемые час- тоты для каждой ячейки:
^,.£^1.8,28 ft, J22!!a.8.74 ft в =5.98 ft,.£miia.9.,2 ft, =р®.,0.26 2,1 50 2,2 43 50 В таблице ниже эти вычисления суммированы. Ожидаемые частоты для примера с теннисом 0-10 минут 11-20 минут Более 20 минут Всего Победа Деб 8.28 8.74 5.98 23 Победа Боба 9.72 10.26 7.02 27 Всего 18 19 13 50 Эврика!------------------ Обратите внимание, что ожида- емые частоты для таблицы исхо- дов сводятся к суммам строки и столбца из наблюдаемых частот. Теперь необходимо вычислить значе- ние хи-квадрат: Эти вычисления суммированы в таб- лице ниже. Использование метода хи-квадрат для примера с теннисом Строка Столбец О Е (О-Е) (О-Е)2 (О-В)2 Е 1 1 4 8.28 - 4.28 18.32 2.21 1 2 10 8.74 1.26 1.59 0.18 1 3 9 5.98 3.02 9.12 1.53 2 1 14 9.72 4.28 18.32 1.88 2 2 9 10.26 - 1.26 1.59 0.15 2 3 4 7.02 - 3.02 9.12 1.30 /=ZM=7.25 jC Для определения критического значения хи-квадрат нам необходимо знать число степеней свободы, количество которых для независимой провер- ки будет равно:
d.f. = (г - 1)(с - 1) В нашем случае мы имеем (г — 1)(с — 1) = (2 — 1)(3 — 1) = 2 степени свободы. В соответствии с Таблицей 5 Приложения В, критическое значение хи- квадрат при а = 0.10 и d.f. = 2 равно 4.605. Эта проверка графически пред- ставлена на рисунке 18.5. Судя по рисунку 18.5, вычисленное значение хи-квадрат 7.25 попадает в об- ласть «Отклонить Но». Из этого мы заключаем, что существует зависимость между продолжительностью разминки и качеством моей игры и игры Дебби. Безобразие — Дебби опять оказалась права! А у вас дела обстоят иначе? Но у меня остается одно утешение. Проверка независимости хи-квадрат позволяет лишь узнать, существует ли связь между двумя переменными, но не дает никакого представления о направлении этой связи. Иными словами, со статистической точки зрения Дебби не может утверждать, что при корот- кой разминке она оказывается в неравных условиях. Она лишь может заяв- лять, что продолжительность разминки сказывается на ее игре. Мы, статис- ты, всегда находим выход из неприятны?: ситуаций! Ваша очередь 1. Компания считает, что распределение прихода заказчиков в течение не- дели следующее: День недели Ожидаемый процент заказчиков Понедельник Вторник Среда Четверг Пятница Суббота Всего 10 10 25 15 20 30 100
Случайным образом была взята неделя и подсчитано ежедневное число за- казчиков. Результаты получились следующими: понедельник — 31. втор- ник — 18, среда — 36, четверг — 23, пятница — 47, суббота — 60. Исполь- зуйте эту выборку д ля проверки ожидаемого распределения при а = 0.05. 2. Сайт электронной торговли желает проверить гипотезу о том, что чис- ло посещений сайта в минуту подчиняется распределению Пуассона при X = 3. Были собраны следующие данные: Количество посещений страницы сайта в минуту 0 1234567 или более Частота 22 51 72 92 60 44 25 14 Проверьте эту гипотезу при а = 0.01. 3. Профессор английского языка хочет выявить взаимосвязь между оцен- кой по английскому языку и количеством часов, посвящаемых студен- том предмету еженедельно. Было опрошено 500 студентов. Результаты опроса представлены в таблице ниже. Кол-во часов чтения в неделю А В Оценка С D F Всего Менее 2 36 75 81 63 10 265 2-4 27 28 50 25 10 140 Более 4 32 25 24 6 8 95 Всего 95 128 155 94 28 500 Проверьте эту гипотезу при а = 0.05. Повторение - мать учения Ф Распределение хи-квадрат несимметрично, но отличается положитель- ной асимметрией. По мере увеличения числа степеней свободы форма распределения хи-квадрат становится более симметричной. Ф Распределение хи-квадрат позволяет выполнять проверку гипотезы с номинальными и порядковыми данными. Ф Распределение хи-квадрат* может применяться для выполнения ис- пытания на адекватность, с использованием выборки для проверки соответствия полученного распределения частот ожидаемому рас- пределению.
Ф Проверка методом хи-квадрат на независимость выявляет наличие или отсутствие взаимосвязи между двумя переменными, но не определяет направление этой связи. Ф Факторная таблица показывает наблюдаемые частоты двух перемен- ных. Пересечение строки и столбца факторной таблицы носит название ячейки.
Дисперсионный анализ В этой главе Ф Сравнение трех или более средних по совокупности с ис- пользованием дисперсионного анализа Ф Использование распределения Фишера (F-pacnpeделе- ния) для выполнения проверки гипотезы для дисперсион- ного анализа Ф Использование программы Excel для выполнения одно- факторного дисперсионного анализа Ф Сравнение пар средних по выборке с помощью критерия Шеффе В Главе 17 мы познакомились с проверкой гипотез и на- учились сравнивать средние двух различных совокупностей с целью узнать, существует ли между ними разница. А что, если нам необходимо сравнить средние трех йли более сово- купностей? Тогда вы оказались в нужное время в нужном месте, потому что эта глава посвящена как раз этой пробле- матике. Для выполнения этого типа проверки нам необходимо ввес- ти понятие еще одного распределения вероятностей, называе- мого F-pacnpeделением. Проверка, которую мы будем осуще- ствлять, имеет весьма впечатляющее название — дисперсион- ный анализ. Этот тип проверки настолько специфичен, что
имеет собственную аббревиатуру — ANOVA. Звучит как что-то космичес- кое. Читайте дальше, чтобы узнать, что скрывается под этим словом. Однофакторный дисперсионный анализ Если вы хотите сравнить средние трех или более совокупностей, тест ANOVA — как раз для вас. Допустим, я заинтересован в определении того, существует ли разница между степенью удовлетворенности покупателей тремя сетями фаст-фуда. Для этого мне необходимо отобрать выборку оце- нок удовлетворенности каждой из сетей и определить, существует ли значи- тельная разница между выборочными средними. Допустим, в моем распоря- жении есть следующие данные: Совокупность Сеть фаст-фуда Оценка среднего в выборке 1 McDoogles 7.8 2 Burger Queen 8.2 3 Windy's 8.3 Формулировка гипотез будет выглядеть следующим образом: Н0Щ1 = Ц2 = Цз Нр не все равны. Моя задача состоит в том, чтобы определить, связаны ли вариации оценок покупателей из предыдущей таблицы с сетью фаст-фуда или они носят ис- ключительно случайный характер. Иными словами, видят ли покупатели раз- ницу между тремя сетями фаст-фуда? Если я отклоню основную гипотезу, я смогу лишь заключить, что разница все же существует. Дисперсионный ана- лиз не позволяет сравнивать средние по совокупности между собой и опре- делять, какое из них больше остальных. Решение подобного вопроса требует проведения дополнительного анализа. , Эврика!---------------------------------—--------------------------— Для использования однофакторного ANOVA-анализа должны соблюдаться некото- рые условия. Ф Интересующие нас совокупности должны быть нормально распределены. Ф Выборки должны быть независимыми друг от друга. ф Все совокупности должны иметь одинаковую дисперсию. Фактор в ANOVA-анализе описывает причину вариаций данных. В преды- дущем примере фактором будет сеть фаст-фуда. В данном случае речь идет
об однофакторном дисперсионном анализе, поскольку рассматривается только один фактор. Более сложные типы дисперсионного анализа могут описывать несколько факторов. Уровень дисперсионного анализа описывает число категорий внутри ин- тересующего нас фактора. В нашем случае мы имеем 3 уровня, основанных на трех разных рассматриваемых сетях фаст-фуда. . Чтобы показать вам, как выполняется дисперсионный анализ на практике, я обращусь к следующему примеру. Я должен признать, к досаде Деб, что я совершенно неумело обращаюсь с нашей лужайкой. Мой девиз: Если лужай- ка зеленого цвета, значит, все в порядке. Что касается Деб, то она совершен- но точно знает, какие удобрения использовать и когда. Я же терпеть не могу раскидывать удобрения по лужайке, потому что с ними трава растет значи- тельно быстрей, а значит, мне приходится чаще ее стричь. Ситуация ухудшается тем,’ что мой сосед Билл вечно стыдит меня за ненад- лежащий уход за состоянием лужайки. Мистер «Совершенная Лужайка» каждый выходной тщательнейшим образом подстригает свои владения, отче- го его лужайка становится похожа на поле Национальной ассоциации боу- линга на траве. От этого Деб страдает «лужаечной завистью». Билл даже обза- велся маленькой симпатичной тележкой, которую он прицепляет позади сво- Термины----------------- Фактор в дисперсионном ана- лизе описывает причину вари- аций данных. Если рассматривается лишь один фактор, процедура носит название однофакторного дисперси- онного анализа. Уровень дисперсион- ного анализа описывает число катего- рий интересующего нас фактора. его тягача. Я спросил Деб, не заиметь ли и нам такую тележку, но она парировала, что с моими знаниями в области ухода за лужайками я смогу только пораниться. Как бы то ни было, существует не- сколько различных типов дисперсионно- го анализа, для рассмотрения которых мне понадобилось бы написать отдельную книгу. В оставшейся части книги я буду пользоваться вышеописанным примером с лужайкой для иллюстрации основной процедуры дисперсионного анализа. Полностью рандомизированный дисперсионный анализ Термины---------------- Простейший вид ANOVA-ана- лиза - это полностью рандо- мизированный однофакторный дис- персионный анализ, подразумеваю- щий случайный независимый отбор наблюдений для каждого уровня фак- тора. Простейший тип дисперсионного анали- за носит название полностью рандомизи- рованного однофакторного ANOVA-ана- лиза, подразумевающего независимый случайный отбор наблюдений для каждо- го уровня фактора. Ну и завернули, одна- ко! Чтобы помочь вам в этом разобраться, допустим, я хочу сравнить эффектив- ность трех типов удобрений для нашей лужайки. Предположим, я выбрал 18 слу-
чайных участков нашей лужайки и применил к каждому из них Удобрение 1, 2 или 3. Через неделю я скашиваю мои участки и взвешиваю срезанную траву. Фактором в нашем случае является удобрение. У нас есть 3 уровня, соот- ветствующие трем типам удобрений. В таблице ниже представлен вес сре- занной с каждого участка травы в фунтах. В таблице также указаны среднее и дисперсия. Данные для скошенной травы Удобрение 1 Удобрение 2 Удобрение 3 10.2 11.6 8.1 8.5 12.0 9.0 8.4 9.2 10.7 10.5 10.3 9.1 9.0 10.3 9.1 8.1 12.5 9.5 Среднее 9.12 10.92 9.48 Дисперсия 1.01 1.70 0.96 Данные для каждого типа удобрения будут выборкой. Судя по предыду- щей таблице, мы имеем 3 выборки, каждая из которых состоит из 6 наблюде- ний. Гипотезы будут сформулированы следующим образом: Н0:М1 = М2 = Из Нр не все одинаковы, где 1, 2 и 3 — фактические средние по совокупности фунтов скошенной тра- вы для каждого типа удобрения. Разбиение суммы квадратов Проверка гипотезы для дисперсионного анализа сравнивает два типа вариа- ций из выборок. Сначала нам необходимо признать, что общая вариация дан- ных наших выборок может быть разделена, или, как мы, статисты, любим вы- ражаться, «разбита», на две группы. Первая группа — это вариация внутри каждой выборки, называемая сум- мой квадратов внутри выборки (SSW) и вычисляемая по формуле: SSW = ^(A.-1)sL 1=1 где к = число выборок (или уровней).
В некоторых учебниках по ста- | тистике значение SSB также но- сит название суммы квадратов между испытаниями (SSTR). В примере с лужайкой к = 3 и: s^=1.01 «3=0.96 s*=1.70 щ = 6 п2 = 6 П3 = 6. Сумма квадратов внутри выборки вычисляется так: SSW = (6 - 1)1.01 + (6 - 1)1.70 + (6 - 1)0.96 = 18.35. В некоторых учебниках это значение может называться суммой квадратов ошибки (SSE). Вторая часть — это вариация между выборками, называемая суммой ква- дратов между выборками (SSB) и рассчитываемая по формуле: к z- =\2 SSB = £n,(x,-xJ, где х = общее среднее, или среднее значение всех наблюдений. Для нашего примера: %! = 9.12 х2 = 10.92 . х3 = 9.48. Теперь мы определяем значение общего сред- него: = Ух Х = ^—, где N = общее число наблюдений из всех выборок. |МЫСАЙ вслух Для примера с удобрением: = 10.2 + 8.5+8.4+10.5+-+10.7 +9.1 +10.5 +9.5 п оо х =-------------------:-----------------=9.83 18 Теперь мы можем вычислить сумму квадратов между выборками: Мыс. ANOVA-анализ не требует, чтобы все выборки были оди- накового размера, как в при- мере с удобрениями. Приме- ры неравных по размеру вы- борок представлены в Задаче 1 раздела «Ваша очередь». SSB = 6(9.12 - 9.83)2 + 6(10.92 - 9.83)2 + + 6(9.48 - 9.83)2 = 10.86. Наконец, полная вариация всех наблюдений носит название полной сумы квадратов (SST) и рассчитывается: SST = SSW + SSB. Для нашего примера: SST = 18.35 + 10.86 = 29.21.
Обратите внимание, что мы можем вычислить дисперсию первоначаль- ных 18 наблюдений, s2, следующим образом: s2=ot=^=172 N-1 18-1 Полученный результат можно подтвердить, используя уравнение для вы- числения дисперсии, которое мы обсуждали в Главе 4, или программу Excel. Определение F-критерия Для проверки гипотезы для дисперсионного анализа нам необходимо сравнить вычисленный и критический критерии значимости с помощью распределения Фишера (F-распределения). F-критерий можно вычислить по формуле: MSB MSW' где MSB = средний квадрат между выборками, определяемый как: MSB = ^. к-1 MSW = средний квадрат внутри выборки, определяемый как: MSW=S™. N-k Теперь применим эти понятия к нашему примеру: MSB=^=^ = 5.43 к-1 3-1 ^=^=^=1.22 N-k 18-3 MSB 5.43 л лг F ---------~--------- 4.45. MSW 1.22 Эврика! Средний квадрат между выборками (MSB) - это измерение вариации между выбороч- ными средними. Средний квадрат внутри выборки (MSW) - это измерение вариации внутри каждой выборки. MSB-вариация, значительно превышающая MSW-вариацию, оз- начает, что средние по выборке не очень близки по значению. Это приведет к получе- нию большого значения F, вычисленного F-критерия. Чем больше значение F, тем больше вероятность, что оно превысит критический F-критерий (скоро мы научимся его определять), из чего можно сделать заключение, что между средними по совокупности существует разница.
Если вариация между выборками (MSB) значительно превышает вариа- цию внутри выборки (MSW), мы, вероятнее всего, отклоним основную гипо- тезу и заключим, что между средними по совокупности существует разница. Завершим мы нашу проверку гипотезы введением F-распределения в сле- дующем разделе. Определение критического значения F-критерия F-распределение используется для определения критического значения F-критерия, который при проверки гипотезы ANOVA-анализа сравнивается с вычисленным F-критерием. Критическое значение F-критерия, Frk-lrN-kt зависит от двух различных степеней свободы, определяемых так: vx= к ~ 1 v2 = /V — к Для нашего примера: Vi = 3 - 1 = 2 v2 = 18 - 3 = 15 Критическое значение F-критерия можно получить из таблицы F-распределе- ния в Таблице 6 Приложения В этой книги. Ниже приведена часть этой таблицы. Таблица критических F-критериев а = 0.05 3 4 5 6 7 8 9 10 v2 1 2 1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.882 240.543 241.882 2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396 3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786 4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964 5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735 6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060 . 7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637 8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347 9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137 10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978 11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854 12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753 13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671 14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602 15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544
a = 0.05 Vi v2 1 2 3 4 5 6 7 8 9 10 16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494 17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450 18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412 Обратите внимание, что эта таблица приведена только для а = 0.05. Дру- гие значения потребуют другой части таблицы. Для Vt = 2 и v2 = 15 крити- ческое значение F-критерия выделенно в предыдущей таблице подчеркива- нием. На рисунке 19.1 представлен результат проверки нашей гипотезы. Рис.19.1 Пример ANOVA-анализа с удобрением. Судя по рисунку 19.1, вычисленный F-критерий 4,45 попадает в область «Отклонить Но». Отсюда делаем вывод, что средние по совокупности неоди- наковы. Пока FaJ<_b/v_k < F, мы всегда будем отклонять Н(). ) Эврика! F-распределение обладает набором характеристик. Ф Оно несимметрично, но имеет положительную асимметрию Ф Форма F-распределения зависит от степеней свободы, указанных значениями V-i И V2. Ф По мере увеличения значений Vi и v2 форма F-распределения будет становить- ся более симметричной. Ф Общая площадь под кривой равняется 1. Ф Среднее значение F-распределения примерно равняется 1. Наше финальное заключение состоит в том, что одно из испытанных нами удобрений ускоряет рост травы сильней, чем остальные. Похоже, это заклю- чение только прибавит мне хлопот.
Внимание! ------------------------------------------------------- Несмотря на то что мы отклонили основную гипотезу Но и пришли к заключению, что средние по генеральной совокупности неодинаковы, ANOVA-анализ не позволяет нам сравнивать средние между собой. Иными словами, у нас нет достаточных доказа- тельств того, что Удобрение 2 усиливает рост травы больше, чем Удобрение 1. Для это- го нам понадобится еще одна проверка, называемая парным сравнением, о которой речь пойдет чуть ниже в этой главе. А сейчас мы узнаем, как программа Excel поможет нам выполнить все эти непростые вычисления. Использование функции РРАСПОБР программы Excel И снова мы будем генерировать критические F-критерии с помощью функ- ции ЕРАСПОБР со следующими характеристиками: FPACnOBPf вероятность; степени_свободы1; степени_свободы2), где: вероятность = уровень значимости, степени_свободы1 = V] = к — 1 степени_свободы2 = v2 = N — к. Например, на рисунке 19.2 показана функция FPACIIOBP для определе- ния критического F-критерия при а = 0.05, Vi = 3 — 1 = 2 и v2 = 18 — 3=15 из нашего предыдущего примера. Рис. 19.2 Функция РРАСПОБР. 3 Ячейка А1 содержит формулу = РРАСПОБР(0.05; 2; 15) с результатом 3.682. Эта вероятность подчеркнута в предыдущей таблице.
Использование Excel для выполнения однофакторного дисперсионного анализа Уверен, вы убедились в том, что выполнять ANOVA-анализ вручную требует немало усилий. Думаю, вас удивит, с какой легкостью программа Excel вы- полнит такую массу вычислений. 1. На чистом рабочем листе, в столбцы А, В и С, введите данные из нашего примера с удобрениями. 2. Откройте меню Tools (Сервис) и щелкните Data Analysis (Анализ дан- ных). (Если эта команда отсутствует в меню Tools (Сервис), обратитесь к разделу «Установка средств анализа данных» Главы 2.) 3. В появившемся окне Data Analysis (Анализ данных) выберите Anova: Single Factor (Однофакторный дисперсионный анализ), как показано на рисунке 19.3, и щелкните ОК. Рис 19.5 Выбор однофакторного дисперсионного анализа в Excel. 4. Укажите требуемые значения в окне однофакторного дисперсионного
5. Щелкните ОК. На рисунке 19.5 показаны результаты дисперсионного анализа. Рис 19.5 Окончательные результаты однофакторного дисперсионного анализа. ?,Kgy ? Wo «ЭДГЙПЙМЙ : .ФгТ7*??. :Q.35?7S Удобрите УдоЁдекив<? УдоЁр^З.. i.7$1№7 50? 9 л® S.«irarOwa" G33D^':.........1.9833W4 Полученные результаты соотносятся с тем, что мы так долго и старательно определяли в предыдущих разделах. Обратите внимание, что уровень р-зна- чимости = 0.0305, а это значит, что мы отклоняем Но, поскольку уро- вень р-значимости < а. Как вы помните, при формулировке гипотез мы ус- тановили значение а = 0.05. Парные сравнения Отклонив основную гипотезу с помощью дисперсионного анализа, мы мо- жем определить, какие средние по выборке отличаются от остальных, и сде- лаем мы это с использованием Термины------------- Отклонив Но с помощью ANOVA-анализа мы мо- жем определить среднее выбор- ки, используя проверку Шеффе. проверки Шеффе. Эта проверка сравнивает каждую пару средних по выборке из проце- дуры дисперсионного анализа. Для нашего примера с удобрениями мы будем сравни- вать Xj и х2, и х3, х2 и х3, чтобы узнать, су- ществует ли между ними разница. Сначала вычисляем критерий проверки Шеффе, F, для каждой пары средних по вы- борке: £(n-i)Ln° 'м где: ха, хь = сравниваемые средние по выборке, SSW = сумма квадратов внутри выборок, взятая из процедуры диспер- сионного анализа,
па, пь = размеры выборок, к = число выборок (или уровней). Сравнивая xt и х2, получаем: SSW £ 1 f(A.-i)kX (9.12-10.92)2 18.35 Г£ 1 5+5 + 5[_6 + 6 3.24 1.22(0.33] =8.048 Сравнивая хг и х3, получаем: (9.12-9.48)2 s~ 18.35 П £ 5+5+5L6 6 0.13 1.22(0.33] =0.323 Сравнивая х2 и х3| получаем: (10.92-9.48)2 s~ 18.35 Г1 1 5+5+5|_.6+6 2.07 1.22(0.33] =5.142 Затем определяем критическое значение критерия Шеффе, Fsc, умножив критическое значение F-критерия из дисперсионного анализа на к — 1, как показано ниже: Fsc = (к - l)Fa,k-l,N-k. Для нашего примера с удобрениями получаем: ^0.05,2,15 = 3.682 Fsc = (3 - 1) (3.682) = 7.364. Если Fs < Fsc, мы заключаем, что разница между выборочными средними отсутствует; если больше, то присутствует. В таблице ниже суммированы по- лученные результаты. Итого проверки Шеффе Парная выборка Fs Fsc Заключение Xi и х2 8.048 7.364 Разница есть
Парная выборка Fs Fsc Заключение Х1 их3 0.323 7.364 Разницы нет х2их3 5.142 7.364 Разницы нет В соответствии с полученными результатами, статистически значимая раз- ница присутствует только между Удобрением 1 и Удобрением 2. Если Удобре- ние 2 окажется более эффективным с точки зрения роста травы, чем Удобре- ние 1, я приложу все усилия, чтобы Дебби никогда не узнала об этом удобрении. Ваша очередь 1. Группа потребителей проверяет расход бензина трех различных моде- лей автомобилей. Несколько машин каждой модели проделали по 500 миль, и был зафиксирован их расход, как показано ниже: Машина 1 Машина 2 Машина 3 22.5 18.7 17.2 20.8 19.8 18.0 22.0 20.4 21.1 23.6 18.0 19.8 21.3 21.4 18.6 22.5 19.7 Обратите внимания, что для выполнения дисперсионного анализа разме- ры выборок не обязательно должны быть одинаковыми. Проверьте разницу между выборочными средними при а = 0.05. 2. Выполните парное сравнение для средних по выборке из Задачи 1. 3. Вице-президент компании желает определить, существует ли разница между средним числом покупателей в день 4 разных магазинов, исполь- зуя следующие данные. Магазин 1 Магазин 2 Магазин 3 Магазин 4 36 35 26 26 48 20 20 52 32 31 38 37 28 22 32 36 31 19 37 18
Магазин 1 Магазин 2 Магазин 3 Магазин 4 55 42 15 30 29 21 Обратите внимания, что для выполнения дисперсионного анализа разме- ры выборок не обязательно должны быть одинаковыми. Проверьте разницу между выборочными средними при а = 0.05. Повторение - мать учения Ф Дисперсионный анализ, ANOVA, сравнивает средние трех или более со- вокупностей. Ф Фактор, выделенный,дисперсионным анализом, описывает причину ва- риаций данных. Если рассматривается только один фактор, процедура носит название однофакторного дисперсионного анализа. Ф Уровень ANOVA-анализа описывает число категорий внутри интересу- ющего нас фактора. ф Самый простой тип дисперсионного анализа называется полностью рандомизированный однофакторный дисперсионный анализ, подразу- мевающий независимый случайный отбор наблюдений для каждого уровня одного фактора. Ф Для осуществления проверки гипотезы для ANOVA-анализа нам необ- ходимо сравнить вычисленный критерий значимости с критическим с использованием распределения Фишера. Ф Отклонив основную гипотезу с помощью дисперсионного анализа, мы можем определить, какие из средних по выборке являются отличными от других с помощью критерия Шеффе.
Глава Корреляция и линейная регрессия В этой главе ф Различия между независимыми и зависимыми перемен- ными Ф Определение корреляции и кривой эффекта для данных упорядоченных пар Ф Вычисление доверительного интервала д ля кривой эффекта Ф Выполнение проверки гипотезы для кривой эффекта Ф Использование Excel для выполнения анализа линейной регрессии На протяжении последних нескольких глав мы применяли статистику вывода для заключений в отношении одной, двух или более средних и долей по совокупности. Я знаю, что вам было весело, но нам пора переходить к другому типу статисти- ки вывода, которая будет не менее любопытной. (Если вы мо- жете себе представить что-то еще более увлекательное!) В последней главе речь пойдет о том, как переменные могут быть связаны друг с другом. С помощью корреляции и линей- ной регрессии мы сможем, во-первых, определять, существует ли связь между первой и второй переменной, а во-вторых, опи-
сывать природу этой связи в математических терминах. Надеюсь, это заня- тие покажется вам не менее увлекательным, чем предыдущие! Независимые и зависимые переменные Допустим, я хочу определить, существует ли связь между количеством часов, посвященных студентом изучению статистики, и финальной экзаменацион- ной оценкой. В таблице ниже представлены выборочные данные о 6 случай- ным образом отобранных студентах. Данные для экзамена по статистике Количество часов учебы Экзаменационная оценка 3 5 4 4 2 3 86 95 92 83 78 82 Очевидно, количество часов напрямую отражается на финальной оценке. Переменная «Часы изучения» считает- ся независимой переменной (х), по- скольку она приводит к наблюдаемой вариации переменной «Экзаменаци- онная оценка», которая в нашем случае считается зависимой переменной (у). Данные из предыдущей таблицы счи- таются упорядоченными парами (х,у) значений, такими как (3.86) и (5.95). «Причинная связь» между зависимы- ми и независимыми переменными су- ществует только в одном направлении: Независимая переменная (х) За- висимая переменная (у) В обратном направлении эта связь не работает. Например, мы с трудом можем себе представить, что перемен- ная оценки может быть причиной бо- лее продолжительного изучения пред- мета студентом. Термины Независимая переменная (х) является причиной вариации зависимой переменной (у). Внимание! _______________ Будьте внимательны, опреде- ляя, какая из переменных является за- висимой, а какая - независимой. Изу- чите связь между ними в обоих на- правлениях, чтобы понять, какая из этих связей более логична. Неверный выбор направления приведет к бес- смысленным результатам.
Другие примеры зависимых и независимых переменных представлены в следующей таблице. Примеры зависимых и независимых переменных Независимая переменная Зависимая переменная Размер телевизора Уровень рекламы Размер оплаты игроков Цена телевизора Объем продаж Число побед В следующем разделе речь пойдет о связи между переменными х и у с ис- пользованием статистики вывода. Корреляция Корреляция измеряет мощность и направление связи между х и у. На рисун- ке 20.1 представлены различные типа корреляции в виде графиков рассея- ния упорядоченных пар (х,у). По традиции переменная х размещается на го- ризонтальной оси, а у — на вертикальной. (А) Положительная линейная корреляция (С) Отсутствие корреляции У Рис. 20.1 Различные типы корреляции. --------------х (В) Отрицательная линейная корреляция (D) Нелинейная корреляция График А на рисунке 20.1 являет собой пример положительной линейной корреляции: при увеличении х также увеличивается у, причем линейно. График В показывает нам пример отрицательной линейной корреляции, на котором при
увеличении х у линейно уменьшается. На графике С мы видим отсутствие кор- реляции между х и у. Эти переменные никоим образом не влияют друг на друга. Наконец, график D — это пример нелинейных отношений между пере- менными. По мере увеличения х у сначала уменьшается, потом меняет на- правление и увеличивается. Оставшаяся часть главы посвящена линейным взаимосвязям между зависи- мой и независимой переменными. С нелинейными переменными дело обсто- ит гораздо сложней, поэтому мы не будем обсуждать их в рамках этой книги. Коэффициент корреляции Коэффициент корреляции, г, предоставляет нам как силу, так и направление связи между независимой и зависимой переменными. Значения г находятся в диапазоне между — 1.0 и + 1.0. Когда г имеет положительное значение, связь между х и у является положительной (график А на рисунке 20.1), а ког- да значение г отрицательно, связь также отрицательна (график В). Коэффи- циент корреляции, близкий к нулевому значению, свидетельствует о том, что между х и у связи не существует (график С). Сила связи между х и у определяется близостью коэффициента корреля- ции к — 1.0 или + 1.0. Изучите рисунок 20.2. Рис. 20.2 Сила связи между переменными. График А показывает идеальную положительную корреляцию между х и у при г = + 1.0. График В — идеальная отрицательная корреляция между х и у при г = — 1.0. Графики С и D — примеры более слабых связей между зави- симой и независимой переменными.
Термины Коэффициент корреляции, г, определяет как силу, так и направление связи между за- висимой и независимой переменными. Значения г находятся в диапазоне от - 1.0 (сильная отрицательная связь) до + 1.0 (сильная положительная связь). При г = 0 между пе- ременными хи у нет никакой связи. Мы можем вычислить фактический коэффициент корреляции с помощью следующего уравнения: Ну и ну! Я знаю, что выглядит это уравнение как страшное нагромождение непонятных символов, но прежде чем ударяться в панику, давайте применим к нему наш пример с экзаменационной оценкой. Таблица, представленная ниже, поможет нам разбить это уравнение на несколько несложных вычис- лений и сделать их более управляемыми. Часы изучения X Экзамен У Оценка ху х2 у2 3 86 258 9 7 396 5 95 368 25 8 464 4 92 475 16 9 025 4 83 332 16 6 889 2 78 156 4 6 084 3 82 246 9 6 724 £х = 21 £>516 ^ху-1835 £х2=79 £ у2-44582 Используя эти значения и п = 6 (число упорядоченных пар), получаем: ________6(1835)-{21)(516)_____ а/[6(79)-(21)2][6(44582)Ч516)2 ]
174 7(33)(1236) =0.862. Как видите, между числом часов, посвященных изучению предмета, и эк- заменационной оценкой существует весьма сильная положительная корре- ляция. Преподаватели.будут весьма рады узнать об этом. Внимание! ----------------------------------------------------- Вам необходимо различать и (Ех)2* в первом случае £х2 мы сначала возводим каждое значение х в квадрат, а затем складываем полученные квадраты. Во втором случае (£х)2 мы сначала складываем все значения х, а затем возводим полученный результат в ква- драт. Результаты очень разнятся! Какова выгода устанавливать связь между подобными переменными? От- личный вопрос. Если обнаруживается, что связь существует, мы можем преду- гадать экзаменационные результаты на основе определенного количества ча- сов, посвященных изучению предмета. Проще говоря, чем сильнее связь, тем точнее будет наше предсказание. Мы научимся делать подобные предвари- тельные оценки уже в этой главе, когда перейдем к теме линейной регрессии. Проверка значимости коэффициента корреляции Мы можем осуществить проверку гипотезы для определения того, существен- но ли отличается коэффициент корреляции совокупности, р, от 0 на основе зна- чения вычисленного коэффициента корреляции, г. Формулируем гипотезы: Но:р<0 Нр.р > 0 Таким образом мы проверяем, существует ли положительная корреляция между х и у. Я мог бы также воспользоваться двусторонней проверкой и оп- ределить, существует ли корреляция вообще (положительная или отрица- - тельная), сформулировав гипотезы следующим образом: Н0:р = 0 и Нрр ф 0. Критерий значимости для коэффициента корреляции использует f-pac- пределение Стьюдента: где: г = вычисленный коэффициент корреляции упорядоченных пар, п = число упорядоченных пар.
Для примера с экзаменационной оценкой вычисленный f-критерий вы- числяется так: г 0.862 /1—г2 /1-(0.862)2 Vn-2 V 6-2 Критический f-критерий базируется на d.f. =п — 2. Если выбрать а = 0.05, то tc ~ 2.132 из Таблицы 4 Приложения В для односторонней проверки. По- скольку t > tc, мы отклоняем основную гипотезу и делаем заключение, что, действительно, между количеством часов изучения предмета и финальной оценкой существует положительная корреляция. И снова статисты доказы- вают, что в мире все устроено правильно! Использование Excel для вычисления коэффициентов корреляции Я уверен, что, взглянув на эти ужасные вычисления коэффициентов корре- ляции, вы испытаете истинную радость, узнав, что программа Excel может выполнить за вас всю эту работу с помощью функции КОРРЕА со следующи- ми характеристиками: КОРРЕА (массив I; массив 2), где: массив 1 = диапазон данных для первой переменной, массив 2 = диапазон данных для второй переменной. Например, на рисунке 20.3 показана функция КОРРЕА, используемая при вы- числении коэффициента корреляции для примера с экзаменационной оценкой. Рис 20.3 Функция КОРРЕА на примере с экзаменационной оценкой.
Ячейка Al содержит формулу = КОРРЕА (А2:А7; В2:В7) с результатом 0.862. Линейная регрессия Метод линейной регрессии позволяет нам описывать прямую линию, максимально соответствующую ряду упорядоченных пар (х,у). Уравне- ние для прямой линии, известное как линейное уравнение, представлено ниже: у=а+Ьх, где: у = ожидаемое значение у при заданном значении х, х ~ независимая переменная, а = отрезок на оси у для прямой линии, b ~ наклон прямой линии. Термины Метол линейной регрессии позволяет нам описывать прямую линию, максимально соответ- ствующую ряду упорядоченных пар (X. У) На рисунке 20.4 это понятие представлено графически. Рис 20.4 Уравнение для прямой линии. На рисунке выше показана линия, описанная уравнением у=2+0.5х. От- резок на оси у — это точка пересечения линией оси у; в нашем случае а = 2. Наклон линии, Ь, отношение подъема линии к длине линии, имеет значение 0.5. Положительный наклон означает, что линия поднимается слева направо. Если b = 0, линия горизонтальна, а это значит, что между зависимой и неза- висимой переменными нет никакой связи. Иными словами, изменение зна- чения х не влияет на значение у. Студенты часто путают у и у. На рисунке 20.5 показаны 6 упорядочен- ных пар точек и линия, в соответствии с данным уравнением у = 2+0.5х.
Рис. 20.5 Различиё между У и у. х На этом рисунке показана точка, соответствующая упорядоченной паре х = 2 и у ~ 4. Обратите внимание, что ожидаемое значение у в соответствии с линией при х = 2 является у. Мы можем подтвердить это с помощью следу- ющего уравнения: у = 2+0.5х=2+0.5(2) =3. Значение у представляет собой фактическую точку, а значение у ~ это ожидаемое значение у с использованием линейного уравнения при заданном значении х. Следующий шаг — определить линейное уравнение, максимально соот- ветствующее набору упорядоченных пар. Метод наименьших квадратов Метод наименьших квадратов — это математическая процедура составле- ния линейного уравнения, максимально соответствующего набору упоря- доченных пар, путем нахождения значений для а и Ь, коэффициентов в уравнении прямой. Цель метода наи- Термины------------------ Метод наименьших квадра- тов - это математическая про- цедура составления линейного урав- нения, максимально соответствующе- го набору упорядоченных пар, путем нахождения значений для а и Ь, коэффициентов в уравнении прямой. Цель метода наименьших квадратов состоит в минимизации общей квадра- тичной ошибки между значениями у и у. Линия регрессии - это линия, мак- симально соответствующая данным. меньших квадратов состоит в миними- зации общей квадратичной ошибки между значениями у и у. Если для каж- дой точки мы определяем ошибку у, ме- тод наименьших квадратов минимизи- рует: 1=1 где п = число упорядоченных пар во- круг линии, максимально соответствую- щей данным. Это понятие проиллюстрировано на рисунке 20.6.
Рис 20.6 Минимизация ошибки. Судя по рисунку 20.6, линия, максимально соответствующая данным, ли- ния регрессии, минимизирует общую квадратичную ошибку четырех точек на графике. Я покажу вам, как определять это уравнение регрессии с помо- щью метода наименьших квадратов на следующем примере. В последнее время в ванной комнате нашего дома разгорелась нешуточная молчаливая война, о которой я хочу вам поведать. Конечно же речь идет о ме- сте на длинном столе в ванной, который Деб и я по неписанному соглашению должны быть «использовать совместно». За последние несколько месяцев я внимательно следил за тем, с какой скоростью увеличивается число предме- тов на ее части стола, увеличивается куда быстрей, чем растет дефицит феде- рального бюджета. Меня потихоньку вытесняют с моей части стола емкости с загадочными названиями вроде «мусс для укладки, увеличивающий объем- ность волос» или «соевый комплекс». Конечно, я мог бы просто вскинуть на плечо свое белое полотенце и гордо направиться в ванную детей, комнату, в которую я поклялся не входить, потому что... ну, от описания царящего там беспорядка я вас, так уж и быть, избавлю. Как бы то ни было, в таблице ниже представлено число предметов Деб на столике в ванной, накопившихся за последние несколько месяцев. Данные о содержимом столика в ванной Месяц Число предметов Месяц Число предметов 1 8 6 13 2 6 7 9 3 10 8 И 4 6 9 15 5 10 10 17 Поскольку своей целью я определил задачу узнать, увеличивается ли со временем число предметов, «Месяц» будет независимой переменной, а «Число предметов» — зависимой.
С помощью метода наименьших квадратов определяем уравнение, макси- мально соответствующее данным, путем вычисления значений а, отрезка на оси у, и Ь, наклона линии: а-у-Ъх, где: х ~ среднее значение х, независимой переменной, у — среднее значение у, зависимой переменной. В таблице ниже суммированы необходимые для этих уравнений вычисле- ния. Вычисления отрезка на оси у и наклона линии Месяц X Число предметов у2 У ху х 1 8 8 1 84 2 6 12 4 36 3 10 30 9 100 4 6 24 16 36 5 10 50 25 100 6 13 78 36 169 7 9 63 49 81 8 11 88 64 7 121 9 15 135 81 225 10 17 170 100 289 Ху = !05 ]Гху = 658 £х2 =385 ^у2=1221 х = 10 = 5.5 - 105 У~ 10 =10.5 b = п£хУ~(£х)О»=10(658)-(55)(105) dX-Q»2 10(385)-(55)2
ь= 805 825 = 0.976 а -у-Ьх = 10.5-(0.976)5.5 =5.13. Кривая эффекта для нашего примера с ванной будет определяться следу- ющим уравнением: у=5.13+0^976 х Поскольку наше уравнение имеет положительный наклон — 0.976, я имею доказательства того, что число предметов на столике со временем увеличива- ется со средней скоростью 1 предмет в месяц. На рисунке 20.7 представлена кривая эффекта с упорядоченными парами. Рис 20.7 Кр ивая эффекта для примера со столиком в ванной. 20 + 1----1----1---1---1----1 2 4 6,8 10 12 Месяц Мое ожидание в отношении числа предметов в течение следующего полу- года (месяца 16) будет вычисляться так: у = 5.13+0.976 х =5.13+0.976(16) =20.7 -21 предмет. Так что, детки, расчищайте место для любимого папы! Доверительный интервал кривой эффекта Насколько точны мои ожидания в отношении числа предметов на столике в ванной на определенный месяц? Чтобы ответить на этот вопрос, нам необхо- димо определить оценку стандартной ошибки se с помощью следующей формулы: е~\ п-2 Оценка стандартной ошибки определяет объем разброса наблюдаемых данных вокруг кривой эффекта. Если точки на графике расположены близ-
ко к кривой эффекта, оценка стандартной ошибки будет сравнительно низ- кой и наоборот. Для нашего примера с ванной: Г£у2-а£у-Ь]>\у _ /(1221)—5.13(105) -0.976(658)~ V п-2 Л 10-2 Теперь мы можем вычислить доверительный интервал (Глава 14) среднего у вокруг определенного значения х. В Месяце 8 (х ~ 8) у Деб на столике на- ходится 11 предметов (у — И). Из линии регрессии ожидаем, что: у = 5.13+0.976х=5.13 +0.976(8) =12.9 предмета. В целом, доверительный интервал вокруг среднего у при определенном значении х находится по формуле: Термины---------------- Стандартная ошибка оценки, se, измеряет объем разброса наблюдаемых данных вокруг кривой эффекта. где: tc = критический f-критерий из /-рас- пределения Стьюдента, se = стандартная ошибка среднего, п = число упорядоченных пар. Сейчас мы применим это уравнение к нашему примеру. Положим, мы хо- тим получить 95%-ный доверительный интервал для среднего у Месяца 8. Для определения критического f-критерия мы открываем Таблицу 4 Приложения В. В нашем случае п — 2 = 10 — 2 = 8 степеней свободы, то есть tc = 2.306 из Таблицы 4 Приложения В. Тогда наш доверительный интервал: CI = y±tcse (х-х)2 С/= 12.9 ±(2.306) (2.24) И , (8-5.5)2 10 (385)-® 10 СТ = 12.9 ± (2.306) (2.24)(0.419) = 12.9 ± 2.16 СТ = 10.74 и 15.06.
Этот интервал графически представлен на рисунке 20.8. Наш 95%-ный доверительный интервал для числа предметов на столике в ванной в Месяце 8 находится между 10.74 и 15.06 предмета. Похоже, мне на этот столике места точно не хватит. Проверка наклона линии регрессии Вспомним, что если наклон кривой эффекта, Ь, равняется нулю, между пе- ременными х и у нет никакой взаимосвязи. В нашем примере с ванной мы вычислили, что наклон кривой эффекта равен 0.976. Но поскольку этот результат основан на выборке наблюдений, нам необходимо проверить, действительно ли 0.976 находится довольно далеко от нуля, чтобы под- твердить, что между двумя переменными действительно существует связь. Если это наклон фактической совокупности, тогда формулируем гипотезы так: Н0:Р = 0 Ну.р *0. Если мы отклоним основную гипотезу, то сможем сделать заключение, что на основе этой выборки между зависимой и независимой переменными дей- ствительно существует связь. Проверим это при а = 0.01. Проверка этой гипотезы потребует определить стандартную ошибку на- клона, sb, которая вычисляется так: где se — стандартная ошибка оценки, которую мы вычислили ранее. Для нашего примера с ванной:
Внимание! ---------------- Наличие статистически значи- мой связи между двумя переменными еще не означает существования при- чинной связи между ними. Такая матема- тическая связь может быть результатом чистого совпадения. Поэтому при при- нятии подобных решений потребуется ваш здравый смысл и трезвый расчет. se = 2.24 7^х2-пх2 л/з85-10(5.5)2 =0.247. Критерий значимости для данной ги- потезы будет рассчитываться так: где Рно ~ это значение наклона по совокупности в соответствии с основной гипотезой. Для нашего примера вычисленный /-критерий будет такой: Sb 0.976-0 0.247 =3.951. Критический t-критерий получим из /-распределения Стьюдента при п — 2 = 10 — 2 = 8 степенях свободы. При двусторонней проверке а = 0.10 tc = 3.355 в соответствии с Таблицей 4 Приложения В. Поскольку t > tc, мы отклоняем основную гипотезу и заключаем, что между месяцем и числом предметов на столике действительно существует связь. Я так и думал! Коэффициент смешанной корреляции Еще один способ измерения силы связи носит название коэффициента сме- шанной корреляции, г2. Это процент вариации у, выраженный линией регрес- сии. Это значение вычисляется простым возведением г, коэффициента кор- реляции, в квадрат. Для нашего примера с ванной коэффициент корреляции определяется следующим образом: 10(658)-(55)(105)_________ ^[10(385)-(55)2][10(1221) -(105)2 ] 805 7(825) (1185) =0.814.
Тогда получаем коэффициент сме- шанной корреляции: г2 = (0.814)2 =0.663. Термины---------------- Коэффициент смешанной корреляции, г2, - это доля ва- риации у, отраженная в линии регрес- сии. Иными словами, 66.3% вариации в числе предметов на столике объясняет- ся переменной Месяца. Если г2 = 1, вся вариация у объясняется переменной х. Если г2 = 0, переменная х вообще не объясняет вариаций у. Использование Excel для определения линейной регрессии А теперь, когда наши калькуляторы уже погорели на всех этих мудреных вычислениях, я покажу вам, как проделать все это с помощью программы Excel. 1. Введите данные нашего примера с ванной в столбцы А и В чистого ли- ста. 2. Откройте меню Tools (Сервис) и щелкните Data Analysis (Анализ дан- ных). (Если эта опция отсутствует в меню Tools (Сервис), обратитесь к разделу «Установка средств анализа данных» в Главе 2.) 3. В появившемся окне Data Analysis (Анализ данных) выберите Regression (Регрессия), как показано на рисунке 20.9, и щелкните ОК. Рис 20.9 Выбор линейной регрессии в Excel. 4. Установите необходимые параметры регрессии в окне Regression (Рег- рессия), как показано на рисунке 20.10.
Рис 20.10 Диалоговое окно Regression (Регрессия). 5. Щелкните ОК. На рисунке 20.11 показаны полученные результаты. Рис. 20.11 Финальные результаты регрессионного анализа в Excel. [кй80Д ИТОГОВ :;Ст-андйр1н«я vusftfi ’(дазё&ПТ 2;234П2&'4 ..... 13 j ............;................................................:.............: : (S • 5'S f Г- : o™» :..............3 C ............35^51 sf ' ....... '' |........... ' •• jlffiory , 3; b§,5:...................................... “I :. ... .............; ::¥^«ё^®йл.........^зззз^з:.........."‘да^’ддай: ; Месяц : Эти результаты соответствуют тем, которые мы получили путем самостоя- тельных вычислений в предыдущих разделах. Поскольку мы видим, что уро- вень p-значимости для независимой переменной «Месяц» равен 0.00414, а это меньше а = 0.01, мы можем отклонить основную гипотезу и сделать вывод, что связь между переменными существует. Теперь-то Деб придется поверить мне! Пример линейной регрессии с отрицательной корреляцией В обоих примерах, приведенных в этой главе, речь шла о положительной свя- зи между х и у. Пример, который я сейчас приведу, венчает наши усилия по определению линейной регрессии, но уже с отрицательной связью. Совсем недавно у меня была возможность поспорить с моим сыном Брай- аном по поводу покупки его первого автомобиля на 16-летие. Брайан конеч- но же мечтал о «Мерседесе» или «БМВ», а я думал о «Хонде» или «Тойоте».
После многочисленных «обсуждений» этого вопроса мы остановились на авто- мобиле «Фольксваген Джетта» 1999 года. Но Брайан выдвинул два требования. Ф Машина должна быть черного цвета. Ф Машина должна иметь современный дизайн. Очевидно, кому-то в «Фольксвагене» пришла в голову замечательная идея слегка изменить дизайн «Джетты» прямо в процессе производства автомоби- ля. Лично я никогда не заметил бы никакой разницы. Что касается Брайана, то он категорически отказывался водить машину старого дизайна и отмел доб- рую половину подержанных автомобилей. Но я не опускал рук и перерыл все возможные варианты, вопрошая каждого продавца: «Это автомобиль нового дизайна?» Вот оно, счастье быть родителем! Как бы то ни было, ниже пред- ставлена таблица с пробегом в милях 8 автомобилей нового стиля с указанием цен, названных продавцом. В оставшейся части этой главы будут использо- ваться именно эти данные для иллюстрации методик корреляции и регрессии. Данные для примера с автомобилем Пробег Цена Пробег Цена 21 800 $16 000 65 800 $10 500 34 000 $11 500 72 100 $12 300 41 700 $13 400 76 500 $8 200 53 500 $14 800 84 700 $9 500 В таблице ниже вы найдете данные (в тысячах), необходимые нам для осу- ществления различных вычислений. Пробег X Цена У ху х2 у2 21.8 16.0 348.80 475.24 256.00 34.0 11.5 391.00 1 156.00 132.25 41.7 13.4 558.78 1 738.89 179.56 53.5 14.8 791.80 2 862.25 219.04 65.8 10.5 690.90 4 329.64 110.25 72.1 12.3 886.83 5 198.41 151.29 76.5 8.2 627.30 5 852.25 67.24 84.7 9.5 804.65 7 174.09 90.25 £х = 450. = 96.2 Х*У = 5100.1 786.8 Ху2 205.9
- 450 х =--- = 56.3 - 96.2 У~ 8 =12.0. Коэффициент корреляции определяется так: __________8(5 100.1)-(450.1)(96.2)__________ ^[8(28 786.8)-(450)2][8(1 205.9) ~(96.2)2 ] -2 498.82 Г = =- = - 0.756. д/(27 794.4) (392.76) Отрицательная корреляция означает, что по мере увеличения пробега (х) цена (у) падает, как и положено. Смешанный коэффициент корреляции равен: г2 = (-0.756)2 = 0.572 То есть, примерно 57% вариации цены объясняется вариацией пробега. Теперь определим кривую эффекта: Ь= пЕлУ~(Ех)(Ху)_8(5100.1)-(450.1)(96.2) 8(28786.8)-(450.1)2 b=~24-98-82 =-0.0902 27704.39 а = у-Ьх=12.025—(-0.0902)56.26 =17.100. Линию регрессии можно описать следующим уравнением: у = 17.1-0.0902 х Это уравнение графически представлено на рисунке 20.12. Рис 20.12 Линия регрессии для примера с машиной. $20 ооо-* $15 000” $10 000” $5 000” $0 -I-----1-------1------i------1-------1 0 20 000 40 000 60 000 80 000 100 000 Пробег (х)
Какова ожидаемая цена автомобиля с пробегом 45 тысяч миль? у = 17.1-0.0902(45.0) =13.041 Кривая эффекта предсказывает, что машина с таким пробегом будет сто- ить 13 041 долларов. Каков будет доверительный интервал при х = 45 000? Стандартная ошибка оценки вычисляется так: £у2-а£у-1>£*у п-2 /(1205.9) -17.1(96.2) -(-0.0902) (5100.1) V 8-2 /(1205.9) -(1645.02) +(450.03)" V 6 =1.867. Критический t-критерий для п-2 = 8~2 = 6 степеней свободы, а 90%- ный доверительный интервал равен tc = 1.973 из Таблицы 4 Приложения В. Тогда наш доверительный интервал равен: CI = y±tcse (х~х)2 CI = 13.041 ±(1.934)(1.867) - +-----6--^------------ V8 (28786.8) CI = 13.04 ±(1.934) (1.867) (0.402) = ±1.452 CI = 11.589 и 14.493. 90%-ный доверительный интервал для автомобиля с пробегом 45 000 миль находится между 11 589 и 14 493 долларами. Является ли связь между пробегом и ценой статистически значимой при а= 0.10? Формулируем гипотезы: Ноф = 0 Ноф* 0. Стандартная ошибка наклона, sb, вычисляется так:
se _ 1.867 У28786.8 -8(56.26)2 Вычисленный критерий значимости для данной гипотезы равен: sb 0.0317 Критический t-критерий получаем из t-распределения Стьюдента при п — 2 = 8 — 2 = 6 степеней свободы. Для двусторонней проверки при а = 0.10, tc = 1.943 в соответствии с Таблицей 4 Приложения В. Посколь- ку |t| > |tc|, мы отклоняем основную гипотезу и делаем вывод, что существует связь между переменными пробега и цены. Мы используем абсолютные зна- чения, поскольку вычисленный t-критерий находится в левой части t-pacnpe- деления двусторонней проверки гипотезы. Допущения для линейной регрессии Чтобы все эти результаты были действительными, нам необходимо убедить- ся, что не нарушаются допущения линейной регрессии. Ф Индивидуальные различия между данными и кривой эффекта (yz — yj, являются независимыми друг от друга. Ф Наблюдаемые значения у являются нормально распределенными во- круг ожидаемого значения, у. Ф Вариация у вокруг кривой эффекта равняется всем значениям х. К сожалению (или к счастью), методики для проверки этих допущений не входят в рассмотрение этой книги. Линейная и множественная регрессии Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в свя- зи присутствует более одной независимой переменной, тогда нам необходи- мо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так: у = а + Ь1х1 +Ь>Х2 + --- + Ьпхп. Как вы понимаете, тут все очень сложно, и эта тема выходит за рамки этой книги. Оставлю эту тему для «Статистика. Первые шаги. Часть 2». Ой-ой, ка- жется, Деб упала в обморок.
Ваша очередь 1. В таблице ниже представлена оплата 10 команд Высшей бейсбольной лиги (в миллионах) за 2002 год с указанием числа побед за этот год. Оплата Победы Оплата Победы $171 103 $56 62 $108 75 $62 84 $119 92 $43 78 $43 55 $57 73 $58 56 $75 67 Вычислите коэффициент корреляции. Проверьте, не равняется ли коэф- фициент корреляции нулю при а = 0.05. 2. Используя данные из Задачи 1, ответьте на предлагаемые вопросы. а) Какова кривая эффекта, максимально соответствующая данным? Ь) Является ли связь между оплатой и победами статистически значи- мой при а = 0.05? с) Каково ожидаемое число побед при оплате 70 миллионов долларов? d) Каков 90%-ный доверительный интервал вокруг среднего числа по- бед при оплате 70 миллионов долларов? е) Какой процент вариации побед объясняётся оплатой? Повторение - мать учения Ф Независимая переменная (х) вызывает вариации зависимой переменной (у). Ф Коэффициент корреляции, г, указывает на мощность и направление связи между зависимой и независимой переменными. Ф Линейная регрессия позволяет нам описывать прямую линию,* макси- мально соответствующую набору упорядоченных пар (х,у). Ф Метод наименьших квадратов — это математическая процедура для оп- ределения линейного уравнения, максимально соответствующего набо- ру упорядоченных пар, путем нахождения значений а, отрезка на оси у, и Ь, наклона прямой. Ф Стандартная ошибка оценки, se, измеряет объем разброса наблюдаемых данных вокруг линии регрессии. Ф Коэффициент смешанной корреляции, г2, представляет собой процент вариации у, объясняемый кривой эффекта.
Ответы на вопросы раздела «Ваша очередь» Глава 1 1. Статистический вывод, поскольку опросить каждую ази- атско-американскую семью в стране весьма проблематич- но. Эти результаты будут основаны на выборке совокуп- ности и использованы для целой совокупности. 2. Статистический вывод, поскольку опросить каждую се- мью в стране весьма проблематично. Эти результаты бу- дут основаны на выборке совокупности и использованы для целой совокупности. 3. Описательная статистика, поскольку средняя бэттинг-ре- зультативность Барри Бондза основывается на всей сово- купности, то есть на каждом ударе, сделанном за время его карьеры. 4. Описательная статистика, поскольку средний результат за экзамен основывается на целой совокупности, то есть по- токе студентов первого курса 2002 года. 5. Статистический вывод, поскольку опросить каждого аме- риканца в стране весьма проблематично. Эти результаты будут основаны на выборке совокупности и использованы для целой совокупности.
Глава 2 1. Интервальные данные, температура в градусах по Фаренгейту не со- держит истинной нулевой точки. 2. Относительные данные, месячное количество осадков в виде дождя имеет истинную нулевую точку. 3. Порядковые данные, поскольку степень магистра выше степени бака- лавра или диплома об окончании средней школы. Тем не менее мы не можем утверждать, что степень магистра в два или три раза превыша- ет остальные. 4. Номинальные данные, поскольку мы не можем расположить катего- рии в каком-либо порядке. 5. Относительные данные, поскольку возраст имеет истинную нулевую точку. 6. Определенно номинальные данные, если, конечно, вы не готовы всту- пить в спор о том, какой из полов меньше! 7. Интервальные данные, поскольку разница между годами имеет смыс- ловую нагрузку, но не имеет истинной нулевой точки. 8. Номинальные данные, так как я не готов утверждать, что одна полити- ческая партия стоит выше другой. 9. Номинальные данные, поскольку это просто неупорядоченные категории. 10. Порядковые данные, поскольку мы можем указать, что «Превосходит ожидания» находится выше по шкале производительности, чем 2 ос- тальных высказывания, но не можем прокомментировать разницу между этими категориями. 11. Номинальные данные, поскольку мы не можем заявлять, что человек, который носит 10-й размер, чем-то лучше того, кто носит 4-й размер. 12. Порядковые данные, поскольку мы не можем определить разницу в про- изводительности студентов. Два студента, стоящих на высшей ступени, могут иметь сильно отличные оценки, а результаты работы студентов, стоящих на второй и третьей ступенях, могут быть весьма схожи. 13. Относительные данные, поскольку эти экзаменационные результаты имеют истинную нулевую точку. 14. Номинальные данные, поскольку не существует порядка в категориях штатов. Глава 3 1. Экзаменационная оценка Число студентов 56-60 2 61-65 1 66-70 2
Экзаменационная оценка Число студентов 71-75 76-80 81-85 86-90 91-95 96- 100 6 3 8 5 3 6 Гистограмма для экзаменационных оценок. Экзаменационная оценка 3. Экзам. оценка Число студентов Процент Совок, процент 56-60 2 2/36 = .06 .06 61-65 1 1/36 = .03 .09 66-70 2 2/36 = .06 .15 71-75 6 6/36 = .17 .32 76-80 3 3/36 = .08 .40 81-85 8 8/36 - .22 .62 86-90 5 5/36 = .14 .76 91-95 3 3/36 - .08 .84 96-100 6 6/36 = .16 1.00 Всего — 36
5. Древовидное представлен и е для примера с экзаменационной оценкой. Круговая диаграмма для примера с экзаменационной оценкой. 21% 5 88999 6 0268 7 222455899 81123455566689 9125688999 О 56-60 0 61-65 66-70 ^71-75 О 76-80 ^81-85 86-90 «91-95 «96-100 Древовидное представление для Задачи 5 6. 5(5) 8 Древовидное 6(0) 02 представление 6(5) 68 для Задачи 6. 7(0) 2224 7(5) 55899 8(0) 11234 8(5) 55566689 9(0) 12 9(5) 5688999 Древовидное представление для Задачи 6 Глава 4 1. Среднее = 15.9, медиана = 17, мода — 24. 2. Среднее = 81.7, медиана = 82, мода = 82. 3. Среднее = 32.7, медиана = 32.5, мода = 36. 4. Среднее = 7.2, медиана = 6, мода = 6.
5. -_ (22x8)+(27х37) +(32 х25) +(37 х48) +(42 х27) +(47 хЮ) 5$ 8+37+25+48+27+10 6. (3x118)+(2x125)+(1x107) _ -------------------------= 11о.Э. 3+2 + 1 7. (5 х 1)+(7 х2) +(1О х 3) +(8 х 4) + (12 х 5) + (3 х 6) 5+7 + 10+8+12+3 =3.5 года службы. Глава 5 1. Xi х2 20 15 24 10 8 19 24 ^х.=120 400 225 576 100 64 361 576 ^х* =2302 м £х, j =(120)2 =14400 . м ) п-1 s = V4CL8 =6.4 2 302-'4400 ________7 6 =40.8 Размах = 24 — 8 = 16. 2. Xi х2 84 82 90 7 056 6 724 8 100
Xi х2 77 75 77 82 86 82 5 929 5 625 5 929 6 724 7 396 6 724 £х,=735 z=1 £х2=60 207 ы ]TxJ = (735)2 =540 225 60 207- 540 225 9 =20.2 о = 7202 =4.5 Размах = 75 — 50 = 25. 3. Размах = 25, дисперсия — 75.4, стандартное отклонение — 8.7 4. 2 5 6 6 6 8 10 И И 15 Qt = 5,5 Q2 = 7 Оз =11 Обратите внимание, что медиана набора данных подчеркнута. 5. х = т 22)+(37x 27)+(25x32) +(48 x37)+(27 x42) +(10 x47) =34 5 m i=l 8+37 + 25+48+27+10 Xj f( X (x.-x) (Xi-X)2 (Xi-X)2fi 22 8 34.5 -12.5 156.25 1 250.00 27 37 34.5 -7.5 56.25 2 081.25 32 25 34.5 -2.5 6.25 156.25
Xi fi X (Xi-x) (х,-х)2 (Xj—x)2f. 37 48 34.5 2.5 6.25 300.00 42 27 34.5 7.5 56.25 1 518.75 47 10 34.5 12.5 156.25 1 562.50 n=^ft =155 Ц =6 868.75 1=1 i=l т Z — \2 /6 868.75 —-------------- J-------=Л/44.6О =6.68 года. п-1 N 155-1 X 1 1 > _ (5xl)+(7x2)+(10x 3) +(8x4)+(12x5) +(3x6) 5+7 + 10 + 8+12+3 =3.5 1 Xj fi X (x,-x) (Xi-x)2 (Xi-x)2fj 1 5 3.5 -2.5 6.25 31.25 2 7 3.5 — 1.5 2.25 15.75 3 10 3.5 -0.5 0.25 2.50 4 8 3.5 0.5 0.25 2.00 5 12 3.5 1.5 2.25 27.00 6 3 3.5 2.5 6.25 18.75 nt m x2 n=T/=45 1=1 z(*- i=l -x)^ =97.25 m ' /97.25 S = 1 — — =a/2.21 =1.49 года. V n -1 \ 45-1 7. С помощью эмпирического правила определяем, что 95% значений по- падают в пределы к = 2 стандартных отклонений от среднего. ц = ко = 75 + 2(10) = 95, ц = ко = 75 - 2(10) = 55 Таким образом, 95% значений данных попадают в интервал от 55 до 95.
8. Значения 38 и 62 являются 2 стандартными отклонениями от среднего 50. Это можно выразить в виде следующих уравнений: ц + ко = 762, р + ко = 38 62-ц _62-50 р8-ИТ_ <38 -50 >| О 6 < СУ J V 6 J С помощью теоремы Чебышева определяем, что по крайней мере значений данных попадают в интервал от 38 до 62. Глава 6 1а. Эмпирическая, поскольку мы имеем дело с историческими данными о спортивных достижениях Самми Соса. 1Ь. Классическая, поскольку нам известно число карт и тузов в колоде. 1с. Если у меня есть данные о результатах последних раундов игры в гольф, тогда эмпирическая; в противном случае — субъективная. Id. Классическая, поскольку мы можем вычислить вероятность на основе правил розыгрыша лотереи. 1е. Субъективная, поскольку я не буду собирать данные для этого экспери- мента. If. Субъективная, поскольку я не буду собирать данные для этого экспери- мента. 2а. Да. 2Ь. Нет, вероятность не может быть больше 1. 2с. Нет, вероятность не может превышать 100%. 2d. Нет, вероятность не может быть меньше 1. 2е. Да. 2f. Да. 52 За. Р[А] = —— = 0.42 L J 125 41 3b. Р[В1 =--=0.33 L J 125 23 Зс. Р[АиВ]=Р[АоВ]=^ = 0.18 3d. Таблица ниже показывает общее число семей для объединения Собы- тий А и В.
Paca Интернет Число семей Азиатско-американская Да 23 Азиатско-американская Нет 18 Белая Да 15 Афроамериканская Да 14 Всего = 70 70 Р [А ИЛИ В]= Р [А и В]= — =0.56 Глава 7 1. ₽[А]= L J 260 = 0.68 152 2. Р[В] = —= 0.58 L J 260 3. P[A']=—=0.32 L J 260 4. P[B']=— =0.42 L J 260 5. 198 P[A/B]= —= 0.64 6. 54 P[A7B]= —= 0.36 7. 52 P[A1= —= 0.42 L J 125 8. p[A]=—= 0.42 L J 125 9. 52 Р [А]=~— = 0.42 L J 125 10. P[A]=— = 0.42 L -1 125 11 Р[АилиВ']=Р[А]+Р[В']-Р[А И B']=0.68+0.42 —0.31 =0.79
12. Р[В/А]= Р[В]Р[А/В] (Р[В]Р[А/В])+(Р[В']Р[А/В']) Р[В/А]= (0.58)-(0.64) _ 0.37 (0.58)-(0.64)+(0.42)-(0.73) ~0.37 +0.31 =0.54 Глава 8 1.3 8 4 3 = 288 различных приемов пищи. 2. Существует 4444444444=1 048 576 различных способов пред- ставить ответ на экзамене. Если хоть одна из этих последовательностей является правильной, существует вероятность, равная 1/1048576 = 0.00000095, что студент угадает правильную последовательность. 3. 13! = 6 227 020 800 различных способов упорядоченных расположений имен игроков. 8! 4. 8рз =7---=8-7-6=336 8 3 (8-3)! 40! 6- 4орз=т———~ = 40-39-38 = 59 280 40 3 (40-3)! 7. 8. 9. С 12! 121110 -000 12 3 (12—3)!3! 3-2 1 50! 50-49-48-47-46-45-44-43-42-41-40-39 . __ С - 50 12 (50-12)!12! 121110-9-8-7-6-5-4-3-2 1 — = 121399651100 Число кошек Число семей Вероятность х2 0 • 137 137/450 = 0.304 0 0 1 160 160/450 = 0.356 1 0.356 2 112 112/450 = 0.249 4 0.996 3 31 . 31/450 = 0.069 9 0.621 4 10 10/450 = 0.022 16 0.352 Всего £x2-P[xJ = 2.325 i=l
ц=^х, .р[х,]=(Ox0.304)+(1x0.356)+(2 x 0.249) -ЦЗ х 0.069) +(4 х 0.0 22) =1.149 ст2=| Р[х,] -ц2 =2.325 -(1.149)2 =1.005 ст = -То2 = 71.005=1.002 Глава 9 1. Поскольку п = 10, г ~ 7, р = 0.5 Р[7,10] =——------0.57 -0.510~7 =10'9’8’7-— 5'--(0.0078)(0.125) =0.117. (10-7)17! 7-6-5-4-3-2-1 Здесь также может быть использована биноминальная таблица из При- ложения В. 2. Поскольку п = 6, г = 3, р = 0.75 Р[3,61=----------0.753-0.256"3 = 6 5'4(0.4219)(0.0156) =0.1316. (6-3)!3! 3-2-1 3. Вероятность удачного совершения 6 из следующих 8 штрафных бросков составляет Р[6,8] + Р[7,8] + Р[8,8], поскольку п = 8, р = 0.8 Р[6,8] =-----------0.86-0.284i =^До.2621)(О.О4) =0.2936. (8-6)16! 2-1 8! 1 0-7 Р[7,8] = ^ 7)!7!'О'8 '°-2 =(8) (0.2097) (0.2) =0.3355. Р[8,8]=-----0.88 -О.З841 =(1) (0.1678) (1) =0.1678. (8—8)!8! Таким образом, вероятность совершения 6 из 8 штрафных бросков со- ставляет 0.2936 + 0.3355 + 0.1678 = 0.7969. 4. Поскольку п = 12, г = 6, р = 0.2 Р[6,12] =--—-----0.26-0.812"6 =12 1140 - ~8 7(0.000064) (0.2621) =0.0155. (12-6)!6! 6-5-4-3-2-1 5. Вероятность того, что не более 2 из 7 посетителей магазина что-то приобре- тут, рассчитывается так: Р[0,7] + Р[1,7] + Р[2,7]. Поскольку п = 7, р = 0.05 71 Р[0,7] = , -0.05° -0.957~° =(1)(1)(0.04) =0.6983
7! Р^1,7^= (7-1)!П 0 05 0 9574 =(?) (0.05) (0.7351) =0.2573 P^2'^ = (tZ?v?[’0'052'0,9572 =^(0.0025) (0.7738) =0.0406. и 24 Таким образом, вероятность того, что не более 2 из 7 посетителей мага- зина что-либо приобретут, равняется 0.6983 + 0.2573 + 0.0406 = 0,9962. 6. Поскольку п = 5, р = 0.37 Р[0,5] = ~^j0! ’ °-37<) =W(1) (0.0992) =0.0992 Р[1,5]=-^—-0.371 -0.63- =(5)(0.37)(0.1575) =0.2914 (О 1)21. Р[2,5]=---—----0.372 -0.635'2 (5—2)!2! Р[3,5]=——------0.373 -0.635’3 (5-3)!3! 5-41 — И0.1369)(0.2500) =0.3423 5-4-3 3-2-1 (0.0507) (0.3969) =0.2010 Р[4,5]=—0..374-0.63-- =(5)(0.0187)(0.63) =0.0590 Р[5,5]=-—^—--О.3?5 -О.бЗ5'5 =(1) (0.0069) (1) =0.0069. Г Р[г,5] 0 0.0992 1 0.2914 2 0.3423 3 0.2010 4 0.0590 5 0.0069 Всего =1.0 Глава 10 ПГ/П_(64)(2.71838Ч (1296)(.002479) niooo 1- Г11“ 4! - 24
J7.55)(2.71838-75) (23 730.469)(0.0005531) =() 211 5! 120 3. P[x>2J=l-P[x<2]=l-(P[x=0]+P[x=l]+P[x=2]) r[01(4.2°)(2.71838-42) (l)(.0150) = Q15() О! 1 (4.21)(2.71838-42) _(4.2)(.O15O) = Q63() 11 1! 1 (4.22)(2.71838-42) (17.64) (6.0150) =() 2! 2 P[x > 2] = 1-(0.0150 +0.0630 +0.1323) =0.7897 4. P[x<3] = (P[x=0]+P[x=l]+P[x=2]+P(x=3]) (3.6°) (2.71838~3'6) (1Ц.027324) =002?3 О! 1 = (З.б'ЦЗЛЗЗб-36) = (3.6) (0.027324) = Q J 1! 1 (3.62)(2.71838-3-6) (12.96)(0.027324) =() 1 1 2! 2 (З.63)(2 .71838~36) J46.656)(0.027324) =02125 3! 6 P[x<3] =(0.0273 +0.0984 -Ю.1771 +0.2125) =0.5152 5 p[1] J2.51)(2.71838-25) (2,5)(0.082085) =02()52 6 n = 25, p = 0.05, np = 1.25 (L25)^ =(1:5625)(0.2 86505) =()2238 1 1 2! 2
Глава 11 65.5 -62.6 А_о 1а- ^5- ——----------+0.78, P[z> + 0.78] = 1—P[z< + 0.78]= 1—0.7834 = 0.2166 58.1-62.6 „ „„ „г 1Ъ. ^53! - - - 3 --=-1.22, P[z> —1.22] = P[z<+1.22] =0.8880 „ „ 70-62.6 61-62.6 lc. z?o ~ -+2.0, z61- ———=-0.43, P[-0.43 <z< +2.0] =P[x<+2.0] -P[z<-0.43], P[-0.43 < z <+2.0] =0.9772 - 0.3327 =0.6445 190-176 2a. £23 =+0-63, P[z<+0.63] =0.7349. 2b. z158 — 158-176 22.3 = -0.81, P[z<-0.81] =l-P[z<+0.81] =0.2098 2c. z168 168-176 22.3 = -0.36, ZI5O 150 -176 22.3 P(-1.17<z<-0.36] =P[z<-0.36] -P[z<-1.17] P[z<-0.36]=l-P[z<+0.36] =0.3599, P[z<- 1.17] = 1 -P[z< + 1.17] =0.1218 Pf—1.17 <z<-0.36] =0.3599 - 0.1218 =0.2381 31-37.5 3a. z3. =------= -0.86, 31 7.6 PI z > - 0.86] = P[ z < +0.86] =0.8038 42-37 5 3b. z42 =——— = +0.59, P[z<+0.59] =0.7231 7.6 45-37.5 „„„ 40 -37.5 3c. z45 = ——— = + 0.99, z40 = ——— = + 0.33 7.b 7.6 P[ + 0.99 < z < + 0.33] = P]z < + 0.99] - P]z< + 0.33] = 0.8381 -0.6289 = 0.2092 4. Для данной задачи n = 14, p = 0.5, и q = 0.5. Мы можем использовать нормальное приближение, поскольку пр = nq = (14)(0.5) = 7. Бино- минальные вероятности из биноминальной таблицы следующие: Р[г = 4, 5 или 6] = 0.0611 + 0.1222 + 0.1833 = 0.3666. Также и р = пр =
= (14)(0.5) = 7 и а = y]npq = ^(14) (0.5) (0.5) =1.871. Нормальное распреде- ление будет: Р[3.5 < х < 6.5]. Zfi) = 6'5-7 =-0.27, =^-2. = -1.87 65 1.871 1.871 P[-1.87<z<-0.27] =P[z<-0.27] -P]z<-1.87] P [z < -0.27] = 1 - P[ z < +0.27] =0.3946, P[ z < -1.87] =1 - P[ z < +1.87] =0.0307 P[-1.87<z<-0.27] =0.3946 -0.0307 =0.3639 Глава 12 1. *="=^ = 150 n 500 2. Если каждый сотрудник принадлежал к определенному отделу, для оп- роса могли быть выбраны те отделы, представителям которых было бы предложено принять участие в опросе. Другие ответы также возможны. 3. Если каждого сотрудника можно определить в класс менеджеров или не-менеджеров, удостоверьтесь, что выборочная доля каждого типа схо- жа с долей менеджеров и не-менеджеров в компании. Другие ответы также возможны. Глава 13 2а. g =-^=^=2.5, z,7 = — --6 = +0.40, P[z<+0.40] =0.6554 х Tn 79 2.5 2b. z18 = = +0.80, Pfz>+0.80]=l-P[z<+0.80] =1-0.7881 =0.2119 2c. Z145 ~ 14.5-16 2.5 = -0.60, Z16.5 ~ 16.5 -16 2.5 = +0.20
P[z < +0.20] = 0.5793, Р[ z< -0.60] =1 -Р[ z<+0.60] =0.2743 Р[14.5 <х<16.5] = Р[-0.60 <z <0.20] =0.5793 - 0.2743 = 0.3050 За. ор = рО-р] 0,25(1-0^ =00306 V п V 200 ЗЬ. ор = 0.0494 V п V 100 Зс- аР = 1pm ®1^Ш)=ОО179 V п V 175 4а. ст₽ = /рМ 10.32(1 -0.32) ..030-032 V п N 160 030 0.0369 P[z<-0.54]=l-P[z<+0.54] =0.2946 0.36-0.32 4b. z036 = = +1.08, 0.0369 P[z>+1.08] =1 -Р [z< +1.08] =1-0.8599 = 0.1401 0.29-0.32 4с. z029 = = -0.81, 0.0369 0.37- 0.32 zno7 — —+1.36 03 0.0369 P[z<+ 1.36] =0.9131, Р[z<-0.81] =1 -Р] z<+0.81] =0.2090 Р [0.29 <ps <0.37] =Р[-0.81 <z<+l.36] =0.9131 -0.2090 =0.7041 Глава 14 L с-=-^= = -^1 = 1.20, z =2.17 x Vn V40 Верхняя граница = x+zc&- -31.3 +2.17(1.20) =33.90. Нижняя граница = x - zca- =31.3 -2.17(1.20) =28.70. J(233)(15)f 48^49 I 5 J 3. Это вопрос с подвохом! Размер выборки слишком мал, чтобы представ- лять ненормально распределенную совокупность. Этот вопрос выходит за рамки этой книги. Чтобы ответить на него, вам придется прибегнуть к помощи статиста.
4. С помощью Excel мы можем вычислить х — 13.9 и s = 6.04. о-=^= = -^1 = 1.20, z =2.17. х Vn V40 Верхняя граница = x+zcop- =13.9 +1.64(1.10) =15.70. Нижняя граница = x-zcoM- =13.9 -1.64(1.10) = 12.10. 5. С помощью Excel мы можем вычислить х = 46.92. а = 12.7, z =1.88, и о- =~ =3.67. * 4п у/12 Верхняя граница = х + zco- =46.92 +1.88(3.67) =53.82. Нижняя граница = х— zca- =46.92 —1.88(3.67) = 40.02. 6. С помощью Excel мы можем вычислить х = 119.64 и s = 11.29. Для 98%-ного доверительного интервала при п —1 = 11 — 1 = 10 степе- нях свободы tc = 2.764. Верхняя граница = х + =119.64 +2.764(3.40) = 129.04. Нижняя граница = х— t^- = 119.64 — 2.764(3.40) = 110.24. 7. А это еще один вопрос с подвохом! Размер выборки слишком мал, чтобы представлять ненормально распределенную совокупность. Этот вопрос выходит за рамки этой книги. Чтобы ответить на него, вам придется при- бегнуть к помощи статиста. 8. ps=—= 0.055. 200 Поскольку nps = (200) (0.055) = 11 nnqs = (200) (0.945) = 189, мы можем использовать нормальное приближение. р N п \ 200 Верхняя граница = ps + zcop =0.055 +1.96(0.0161) = 0.087. Нижняя граница = ps— zcup =0.055 —1.96(0.0161) = 0.023.
9. =<°-55и°-45)(уз|) =65о Глава 15 1. Н0:ц = 1.7 Нг:ц* 1.7 п = 35, а = 0.5 чашек, а а = — х у/п 0.50 л/35 -0.0845 чашки, zc ±1.64 Верхняя граница = цНо + zcc- =1.7 +(1.64) (0.0845) = 1.84 чашки. Нижняя граница = цЯо - zcv~ =1.7 ~ (1.64) (0.0845) == 1.56 чашки. Поскольку х = 1.95 чашки, мы отклоняем основную гипотезу и делаем вывод, что среднее по совокупности не равно 1.7 чашки в день. 2. Но : р > 40 Hi : ц < 40 п = 50, ст = 12.5 лет, о- = = 1.768 года, * Jn V50 zc = — 1.64 (левый хвост распределения) Нижняя граница = цНо + zco- =40 +(—1.64) (1.768) =37.1 года. Поскольку х = 38.7 года, мы не отклоняем основную гипотезу и делаем вывод, что у нас нет достаточных доказательств для подтверждения за- явления о том, что средний возраст составляет менее 40 лет. 3. Но : ц < 1000 Hi : ц > 1000 з25 п = 32, о — 325 часов, о = = -=г = 57.45часа, х л/32 zc = + 2.05 (правый хвост распределения) Верхняя граница = цНо + zca- =1000 +(2.05) (57.45) =1117.8 часа. Поскольку х =1190 часов, мы отклоняем основную гипотезу и заключа- ем, что средняя продолжительность службы лампочки превышает 1 000 часов. 4. Но : ц > 30 Hi:g<3o q 8о п = 42, о = 8.0 минут, с- = = 1.23 минуты,
zc = — 2.33 (левый хвост распределения) Нижняя граница = р ц + zco- =30 + (-2.33) (1.23) = 27.13 минуты. Поскольку х = 26.9 минуты, мы отклоняем основную гипотезу и заклю- чаем, что среднее время доставки составляет менее получаса. Глава 16 1. Но : ц = 1100 Hi : ц* 1100 п = 70, 0 = 310, о = -±=-^2=37.05, zc =±1.64, х у/п у/ТО 1035-1100 z =-----2- =---------= -1.75 о- 37.05 X Уровень р-значимости = (2)(P[z < - 1-75]) = (2)(1 — P[z < + 1.75]) = (2)(1 - 0.9599) = 0.0802. Поскольку уровень р-значимости = а, мы отклоняем основную гипо- тезу и делаем вывод, что средний результат экзамена не равняется 1 100. 2. Но: Ц < 35 Ht : ц > 35 _ С 6 74 х = 37.9,s = 6.74, п=10, df. = п-1 =9, сь =—==—>= =2.13, t =±2.821, JTo Ох 2.13 Поскольку t < tct мы не отклоняем основную гипотезу и делаем вывод, что средний размер класса равняется 35 студентов. 3. Но : р < 7 Ht : р >7 - s 4 29 х = 8.2,s = 4.29, п =10, df. = п-1 =9, Сь =-^ =-^= =0.78, zc =+1.64 Vn V30 Уровень р-значимости = P[z > + 1.54] — 1 — P[z < + 1.54] = 1 — 0.9382 = 0.0618.
Поскольку z < zc или уровень р-значимости, мы не отклоняем основную гипотезу и делаем вывод, что средний расход топлива в США не превы- шает 7 литров на машину в день. 4. Но : Р > 0.40 Нг:р< 0.40 Рн0(1-Рн0)_ /(0.40)(1-0.40) _ Р~Рн0 _0.30 - 0.40 „„ — л | ~~ if £ — — — —/ О n V 175 О-Р 0.037 Уровень р-значимости = P[z< — 2.70] = 1 — P[z< 4- 2.70] = 1 — 0.9965 = 0.0035, zc= - 2.33. Поскольку уровень р-значимости а, мы отклоняем основную гипотезу и делаем вывод, что доля республиканцев составляет менее 40%. Глава 17 1. Но: ц, = ц2 Hj : gi ф р2, Пенсильвания = 1, Огайо = 2 уц ц \ 45 38 = 24.22, zr =±1.96 (х1-х2)-(ц,-ц2)Но (552 -530)-0 = +() gj Z а- 24.22 XI-Х2 Поскольку z < zc, мы не отклоняем основную гипотезу и делаем вывод, что у нас нет достаточных доказательств для подтверждения разницы между 2 штатами. Уровеньр-значимости = (2)P[z> 4- 0.91] = (2)(1 — P[z< 4- 0.91]) = 2(1 — 0.8186) = 0.3628 2. Но : pi — р2 * Ht : pi Ф p2, хг = 88.3, Si = 7.30, x2 = 82.4, s2 = 6.74, = /(n,-l)s,2+(n2-lj^~ = |(10)(7,30)2+(9)(6.74)2 Sp гц+щ-2 N 11+10-2 a"-.;2 =sp4F+^- = (7.04) -U-t =(7.04)<1909 = 3.08 1 X2 рЦп, n2 Nil 10 t = (Х1-Х2)-(Ц,-Ц2)но (88.3-82,4) -0 = + , q? cyC - X1-X2 3.08
d.f. = nj + n2 - 2 = 11 + 10 - 2 = 19, tc = ± 1.729 Поскольку t > tci мы отклоняем основную гипотезу и заключаем, что оценки удовлетворенности клиентов двумя магазинами разные. 3. 15 Н1 : |Ла<15, £d = 21 +23+ И + 19+ 15 + 20+ 17+23+17= 166 £ d2 = 441 + 529 + 121 + 361 + 225 + 400 + 289 + 529 + 289 = 3 184 d.X+l“=18.44, п 9 ______п п-1 (3184,-в 8 =3.91 8 t = ^L±d. = 18'^ 15 = — = +2.64, df. = п-1 =9-1 =8, tc =+1.860 sd_. р.91 1-30 ч/п ч/9 Поскольку t > tc, мы отклоняем основную гипотезу и делаем вывод, что заявление о программе потери веса является действительным. 4. Но : Pi < р2 Нг *• Pi >Р2г Совокупность 1 = Флорида, Совокупность 2 = Нация 272 400 = 0.68, р2= — п2 ^=0.65, р^=^±^ 600 щ +п2 272+390 400 +600 =0.662 । Г1 1 । । ( 1 1 \ ам- - = ЛрОО-рЧ — +— = 1(0.662)(1 — 0.662) ----------------------------+------ =0.0305 р,-р2 Л \п, nJ V <400 600) (Р1-Р2)~(Р1~Р2)н0 (0.68-0.65)-0 о11- - 0.0305 Р1-Р2 Поскольку z < zc, мы не отклоняем основную гипотезу и делаем вывод, что у нас нет достаточных доказательств для подтверждения заявление о том, что доля владения квартирами во Флориде больше, чем по стране. Уровень р-значимости = P[z> + 0.98] = 1 — P[z< + 0.98] — (1 — 0.8365) = 0.1635
Глава 18 1. Но: Процесс прибытия можно описать с помощью ожидаемого распре- деления. Hi. Процесс прибытия отличается от ожидаемого распределения. Размер выборки = 215 покупателей День Ожид. процент Размер выборки Ожид. частота (Е) Набл. частота (О) Пон. 10% 215 0.10(215) = 21.5 31 Вт. 10% 215 0.10(215) = 21.5 18 Ср. 15% 215 0.15(215) = 32.25 36 Чт. 15% 215 0.15(215) = 32.25 23 Пт. 20% 215 0.20(215) = 43 47 Сб. 30% 215 0.30(215) = 64.5 60 Всего 100% 215 215 День О Е (О-Е) (О - Е)2 Е Пон. 31 21.50 9.50 90.25 4.20 Вт. 18 21.50 - 3.50 12.25 0.57 Ср. 36 32.25 3.75 14.06 0.44 Чт. 23 32.25 - 9.25 85.56 2.65 Пт. 47 43.00 4.00 16.00 0.37 Сб. 60 64.50 - 4.50 20.25 0.31 Всего х =LL~r-L=8-54 JC При а = 0.05 и d.f. = к - 1 = 6 - 1 = 5, X2 = 12.592. Поскольку %2 > %2, мы не отклоняем основную гипотезу и делаем вывод, что распределение прибытия совпадает с ожидаемым распределением. 2. Но: Процесс может быть описан с помощью распределения Пуассона приХ = 3. Нр. Процесс отличается от распределения Пуассона при X = 3.
Размер выборки = 380 заходов Число посещений/мин Вер-ти Пуассона Число посещений Ожид. частота 0 0.0498 380 = 18.92 1 0.1494 380 = 56.77 2 0.2240 380 = 85.12 3 0.2240 380 = 85.12 4 0.1680 380 = 63.84 5 0.1008 380 = 38.30 6 0.0504 380 = 19.15 7 и более 0.0336 380 = 12.77 Всего 1.0000 380.00 Посещений/мин О Е (О - Е) (О - Е)2 (O-J Е 0 22 18.92 3.08 9.46 0.50 1 51 56.77 -5.77 33.32 0.59 2 72 85.12 -13.12 172.13 2.02 3 92 85.12 6.88 47.33 0.56 4 60 63.84 -3.84 14.75 0.23 5 44 38.30 5.70 32.44 0.84 6 25 19.15 5.85 34.19 1.79 7 и более Всего 14 12.77 1.23 1.52 0.12 Х = ^=6.65 Е При а = 0.01 и d.f. = к — 1=8 — 1=7, X2 = 18.475. Поскольку X 2С > X2 мы не отклоняем основную гипотезу и делаем вывод, что процесс соот- ветствует распределению Пуассона при X = 3. 3. Но: Оценки не зависят от времени изучения. Нр Оценки зависят от времени изучения. Вычисления ожидаемой частоты в выборке: P65)|95) _5035 = 1265)1)28) ,67м ,1265)055) _82[5 500 ' 500 ’ 500
Строка Столбец О Е (О-Е) (О - Е)2 (О-Е)2 Е 1 1 36 50.35 - 14.35 205.92 4.09 1 2 75 67.84 7.16 51.27 0.76 1 3 81 82.15 - 1.15 1.32 0.02 1 4 63 49.82 13.18 173.71 3.49 1 5 10 14.84 - 4.84 23.43 1.58 2 1 27 26.60 0.40 0.16 0.01 2 2 28 35.84 - 7.84 61.47 1.72 2 3 50 43.40 6.60 43.56 1.00 2 4 25 26.32 - 1.32 1.74 0.07 2 5 10 7.84 2.16 4.67 0.60 3 1 32 18.05 13.95 194.60 10.78 3 2 25 24.32 0.68 0.46 0.02 3 3 24 29.45 - 5.45 29.70 1.01 3 4 6 17.86 - 11.96 140.66 7.88 3 5 8 5.32 2.68 7.18 1.35 Всего = z’-Z- -Е)2 - = 34.38 Е При а = 0.05 и d.f. = (г - 1)(с - 1)... = (3 - 1)(5 - 1) = 8, %2 = 15.507. Поскольку %2 > %2, мы отклоняем основную гипотезу и делаем вывод, что между оценкой и временем изучения есть связь. Глава 19 1. Но : pi = ц2 = Цз Х1 = 22.12 х2 = 19.67 *3 = 18.94 Hi : не все pi одинаковы. s2 = 0.98 4 = 0.98 л S3 = 0.98 N= 17 пг = 6 п2 = 6 п3 = 6 « к SSW = £(n,-l).s;2 = (6- 1)0.98 + (6— 1)1.45 + (5— 1)2.36 = 21.59 = Ух 22.5+ 20.8+ 22.0 +23.6+ ...+ 18.0 + 21.1 + 19.8+ 18.6 х = ^~ =----------------------------------------- =20.32 N 17 к f— ='\ SSB = En/(x' х) *5(22.12 — 2-.32)2 + 6( 19.67 — 20.32)2 + 5(18.94 — 20.32)2=31.50 MSB = — 31.50 к-1 3-1 = 15.75, MSW =1.54 N-k 17-3
F = = 10.23, F = F k_1N_k = F05214 =3.739 MSW 1.54 '• Поскольку F > Fc, мы отклоняем основную гипотезу и делаем вывод, что между выборочными средними есть разница. 2. Для хг и х2, Для Xi и х3, Для х2 и х3, F = F = SSW 1 1 — +— п„_ i(n,.-i) /=1 (L- SSW ’ 1 1 ’ -+ - -Па Я. Хь) (=1 (ха~ SSW ' 1 1 ' ~ + ~ Lna ПЬ_ г=1 [_____ (22.12-19.67)2 21.59 -1 Г L.6 6j 5+5+4 _ (22.12-18.94)2 J21.5£ Г1 11 5+5+4 _| _6 6_ _ (19.67-18.94)2 2L59 ’1 Г _ _|— L6 6J 5 + 5 + 4 = 11.70 = 19.71 = 1.04 Л =(k-l)Fak_w_k = (3-1)(3.739) =7.478 Выборочная пара Fs Fsc Заключение X] их2 11.70 7.478 Разница есть Xj ИХ3 19.71 7.478 Разница есть Х2ИХ3 1.04 7.478 Разницы нет Мы заключаем, что существует разница между пробегом Машин 1 и 2, а также Машин 1 и 3. 3. Но: Ц] — ц2 ~ Рз Xi = 38.33 х2 = 28.29 х3 = 31.43 Hi : не все р равны. s2! = 115.47 s22 = 72.57 «з = 132.62 N= 17 щ = 6 п2 = 7 п3 = 7 SSW= (6 - 1)115.47 + (7 - 1)72.57 + (6 - 1)86.8 4- (7 - 1)132.62 = 2242.49 = Ух 36 + 48+32+28+...+36 +18 +30 +21 х = ^— =------------------:-------- N 26
SSB = 6(38.33 - 31.38)2 + 7(28.29 - 31.38)2 + 6(28 - 31.38)2 + 7(31.43 - 31.38)2 = 425.22 = ,101.93 к-1 4-1 N-k 26-4 MSB 141.74 F ----------=-----------= 1.391, F = F . 1N к = Я5322 =3.049 MSW 101.93 аЛ-1-N-k .05,3,22 Поскольку F < Fc, мы не отклоняем основную гипотезу и делаем вывод, что между выборочными средними нет разницы. Глава 20 1. Оплата X Победы У ху х2 У2 171 103 17613 29241 10609 108 75 8100 11664 5625 119 92 10948 14161 8464 43 55 2365 1849 3025 58 56 3248 3364 3136 56 62 3472 3136 . 3844 62 84 5208 3844 7056 43 78 3354 1849 6084 57 73 4161 3249 5329 75 67 5025 5625 4489 22^ = 745 ^у = 792 ^ху = 63 494 £х2=77 982 ]Гу2=57 661 J,™,79.2, у.^,74.5. 10 10 -&J] ________10(63,494)-(792) (745)___ 44,900 _Q ^[10(77 982)-(792)2][10(57 661) -(745)2 ] #52 556)(21585) Но : Р = 0 Hi : р ф 0
t = ~— = ^=2= = 3.549, df. = n-2 =10 -2 =8, tc =2.306 1-r2 /1—(782)2 Vn-2 V 10-2 Поскольку t > tc, мы отклоняем основную гипотезу и заключаем, что ко- эффициент корреляции не равен нулю. 2а. Ь = 10(63 494)-(792) (745) _ 44900 п£х2-(£х)2 ” 10(77 982)-(792)2 ~152 556 = 0.294 а = у - Ъх =74.5 - (0.294)79.2 =51.21, у = 51.21 +0.294Х 2Ь. Но : Р = 0 Н, : Р * 0 _ /(57661)-51.21(745)-(0.294)(63494) _ е v п-2 N 10-2 10.26 л/77 982-10(79.2)2 = 0.0831, sb 0.294-0 0.0831 = 3.538 d.f. = п — 2 = 10 — 2 = 8, tc = 2.306, поскольку t > tc, мы отклоняем ос- новную гипотезу и делаем вывод, что между оплатой и победами суще- ствует связь. 2с. у = 51.21 +0.294* =51.21 +0.294(70) = 71.79 2d. CI = y±tcse j_ _______________________ (х—х)2 d.f. = п - 2 = 10 - 2 = 8, tc = 3.355 С/ = 71.79 ±(3.355) (10.26) 11 (70 - 79.2)2 10 (77982)-^^ Cl = 7179 ± (3.355)(10.26) (0.325) = 71.79 ± 11.19, (60.60, 82.98) 2e. r2 = (0.782)2 = 0.612 или 61.2%.
Приложени Статистические таблицы Источник: мистер Карл Шварц, www.staLsfu.ca/~cschwarz. Ис- пользовано с его разрешения. Таблица 1 представляет вашему вниманию вероятность в точ- ности г успехов в п испытаниях для различных значений р. Таблица 1 Биноминальное распределение вероятностей__________________________ Значения р п т 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 2 0 0.8100 0.6400 0.4900 0.3600 0.2500 0.1600 0.0900 0.0400 0.0100, 1 0.1800 0.3200 0.4200 0.4800 0.5000 0.4800 0.4200 0.3200 0.1800* 2 0.0100 0.0400 0.0900 0.1600 0.2500 0.3600 0.4900 0.6400 0.8100 3 0 0.7290 0.5120 0.3430 0.2160 0.1250 0.0640 0.0270 0.0080 0.0010 1 0.2430 0.3840 0.4410 0.4320 0.3750 0.2880 0.1890 0.0960 0.0270 2 0.0270 0.0960 0.1890 0.2880 0.3750 0.4320 0.4410 0.3840 0.2430 3 0.0010 0.0080 0.0270 0.0640 0.1250 0.2160 0.3430 0.5120 0.7290 4 0 0.6561 0.4096 0.2401 0.1296 0.0625 0.0256 0.0081 0.0016 0.0001 1 0.2916 0.4096 0.4116 0.3456 0.2500 0.1536 0.0756 0.0256 0.0036 2 0.0486 0.1536 0.2646 0.3456 0.3750 0.3456 0.2646 0.1536 0.0486 3 0.0036 0.0256 0.0756 0.1536 0.2500 0.3456 0.4116 0.4096 0.2916 4 0.0001 0.0016 0.0081 0.0256 0.0625 0.1296 0.2401 0.4096 0.6561
Таблица 1 Биноминальное распределение вероятностей(продолжение) Значения р г 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 0.5905 0.3277 0.1681 0.0778 0.0313 0.0102 0.0024 0.0003 0.0000 1 0.3280 0.4096 0.3601 0.2592 0.1563 0.0768 0.0284 0.0064 0.0005 2 0.0729 0.2048 0.3087 0.3456 0.3125 0.2304 0.1323 0.0512 0.0081 3 0.0081 0.0512 0.1323 0.2304 0.3125 0.3456 0.3087 0.2048 0.0729 4 0.0005 0.0064 0.0283 0.0768 0.1563 0.2592 0.3601 0.4096 0.3281 5 0.0000 0.0003 0.0024 0.0102 0.0313 0.0778 0.1681 0.3277 0.5905 0 0.5314 0.2621 0.1176 0.0467 0.0156 0.0041 0.0007 0.0001 0.0000 1 0.3543 0.3932 0.3025 0.1866 0.0938 0.0369 0.0102 0.0015 0.0001 2 0.0984 0.2458 0.3241 0.3110 0.2344 0.1382 0.0595 0.0154 0.0012 3 0.0146 0.0819 0.1852 0.2765 0.3125 0.2765 0.1852 0.0819 0.0146 4 0.0012 0.0154 0.0595 0.1382 0.2344 0.3110 0.3241 0.2458 0.0984 5 0.0001 0.0015 0.0102 0.0369 0.0938 0.1866 0.3025 0.3932 0.3543 6 0.0000 0.0001 0.0007 0.0041 0.0156 0.0467 0.1176 0.2621 0.5314 0 0.4783 0.2097 0.0824 0.0280 0.0078 0.0016 0.0002 0.0000 0.0000 1 0.3720 0.3670 0.2471 0.1306 0.0547 0.0172 0.0036 0.0004 0.0000 2 0.1240 0.2753 0.3177 0.2613 0.1641 0.0774 0.0250 0.0043 0.0002 3 0.0230 0.1147 0.2269 0.2903 0.2734 0.1935 0.0972 0.0287 0.0026 4 0.0026 0.0287 0.0972 0.1935 0.2734 0.2903 0.2269 0.1147 0.0230 5 0.0002 0.0043 0.0250 0.0774 0.1641 0.2613 0.3177 0.2753 0.1240 6 0.0000 0.0004 0.0036 0.0172 0.0547 0.1306 0.2471 0.3670 0.3720 7 0.0000 0.0000 0.0002 0.0016 0.0078 0.0280 0.0824 0.2097 0.4783 0 0.4305 0.1678 0.0576 0.0168 0.0039 0.0007 0.0001 0.0000 0.0000 1 0.3826 0.3355 0.1977 0.0896 0.0313 0.0079 0.0012 0.0001 0.0000 2 0.1488 0.2936 0.2965 0.2090 0.1094 0.0413 0.0100 0.0011 0.0000 3 0.0331 0.1468 0.2541 0.2787 0.2188 0.1239 0.0467 0.0092 0.0004 4 0.0046 0.0459 0.1361 0.2322 0.2734 0.2322 0.1361 0.0459 0.0046 5 0.0004 0.0092 0.0467 0.1239 0.2188 0.2787 0.2541 0.1468 0.0331 6 0.0000 0.0011 0.0100 0.0413 0.1094 0.2090 0.2965 0.2936 0.1488 7 0.0000 0.0001 0.0012 0.0079 0.0313 0.0896 0.1977 0.3355 0.3826 8 0.0000 0.0000 0.0001 0.0007 0.0039 0.0168 0.0576 0.1678 0.4305 0 0.3874 0.1342 0.0404 0.0101 0.0020 0.0003 0.0000 0.0000 0.0000 1 0.3874 0.3020 0.1556 0.0605 0.0176 0.0035 0.0004 0.0000 0.0000
Таблица 1 Биноминальное распределение вероятностей(продолжение) Значения р п г 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 2 0.1722 0.3020 0.2668 0.1612 0.0703 0.0212 0.0039 0.0003 0.0000 3 0.0446 0.1762 0.2668 0.2508 0.1641 0.0743 0.0210 0.0028 0.0001 4 0.0074 0.0661 0.1715 0.2508 0.2461 0.1672 0.0735 0.0165 0.0008 5 0.0008 0.0165 0.0735 0.1672 0.2461 0.2508 0.1715 0.0661 0.0074 6 0.0001 0.0028 0.0210 0.0743 0.1641 0.2508 0.2668 0.1762 0.0446 7 0.0000 0.0003 0.0039 0.0212 0.0703 0.1612 0.2668 0.3020 0.1722 8 0.0000 0.0000 0.0004 0.0035 0.0176 0.0605 0.1556 0.3020 0.3874 9 0.0000 0.0000 0.0000 0.0003 0.0020 0.0101 0.0404 0.1342 0.3874 10 0 0.3487 0.1074 0.0282 0.0060 0.0010 0.0001 0.0000 0.0000 0.0000 1 0.3874 0.2684 0.1211 0.0403 0.0098 0.0016 0.0001 0.0000 0.0000 2 0.1937 0.3020 0.2335 0.1209 0.0439 0.0106 0.0014 0.0001 0.0000 3 0.0574 0.2013 0.2668 0.2150 0.1172 0.0425 0.0090 0.0008 0.0000 4 0.0112 0.0881 0.2001 0.2508 0.2051 0.1115 0.0368 0.0055 0.0001 5 0.0015 0.0264 0.1029 0.2007 0.2461 0.2007 0.1029 0.0264 0.0015 6 0.0001 0.0055 0.0368 0.1115 0.2051 0.2508 0.2001 0.0881 0.0112 7 0.0000 0.0008 0.0090 0.0425 0.1172 0.2150 0.2668 0.2013 0.0574 8 0.0000 0.0001 0.0014 0.0106 0.0439 0.1209 0.2335 0.3020 0.1937 9 0.0000 0.0000 0.0001 0.0016 0.0098 0.0403 0.1211 0.2684 0.3874 10 0.0000 0.0000 0.0000 0.0001 0.0010 0.0060 0.0282 0.1074 0.3487 И 0 0.3138 0.0859 0.0198 0.0036 0.0005 0.0000 0.0000 0.0000 0.0000 1 0.3835 0.2362 0.0932 0.0266 0.0054 0.0007 0.0000 0.0000 0.0000 2 0.2131 0.2953 0.1998 0.0887 0.0269 0.0052 0.0005 0.0000 •0.0000 3 0.0710 0.2215 0.2568 0.1774 0.0806 0.0234 0.0037 0.0002 0.0000 4 0.0158 0.1107 0.2201 0.2365 0.1611 0.0701 0.0173 0.0017 0.0000 5 0.0025 0.0388 0.1321 0.2207 0.2256 0.1471 0.0566 0.0097 0.0003 6 0.0003 0.0097 0.0566 0.1471 0.2256 0.2207 0.1321 0.0388 0.0025 7 0.0000 0.0017 0.0173 0.0701 0.1611 0.2365 0.2201 0.1107 0.0158 8 0.0000 0.0002 0.0037 0.0234 0.0806 0.1774 0.2568 0.2215 0.0710 9 0.0000 0.0000 0.0005 0.0052 0.0269 0.0887 0.1998 0.2953 0.2131 10 0.0000 0.0000 0.0000 0.0007 0.0054 0.0266 0.0932 0.2362 0.3835 11 0.0000 0.0000 0.0000 0.0000 0.0005 0.0036 0.0198 0.0859 0.3138
Таблица 1 Биноминальна распределение вероятностей(продолжение) Значения р п г 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 12 0 0.2824 0.0687 0.0138 0.0022 0.0002 0.0000 0.0000 0.0000 0.0000 1 0.3766 0.2062 0.0712 0.0174 0.0029 0.0003 0.0000 0.0000 0.0000 2 0.2301 0.2835 0.1678 0.0639 0.0161 0.0025 0.0002 0.0000 0.0000 3 0.0852 0.2362 0.2397 0.1419 0.0537 0.0125 0.0015 0.0001 0.0000 4 0.0213 0.1329 0.2311 0.2128 0.1208 0.0420 0.0078 0.0005 0.0000 5 0.0038 0.0532 0.1585 0.2270 0.1934 0.1009 0.0291 0.0033 0.0000 6 0.0005 0.0155 0.0792 0.1766 0.2256 0.1766 0.0792 0.0155 0.0005 7 0.0000 0.0033 0.0291 0.1009 0.1934 0.2270 0.1585 0.0532 0.0038 8 0.0000 0.0005 0.0078 0.0420 0.1208 0.2128 0.2311 0.1329 0.0213 9 0.0000 0.0001 0.0015 0.0125 0.0537 0.1419 0.2397 0.2362 0.0852 10 0.0000 0.0000 0.0002 0.0025 0.0161 0.0639 0.1678 0.2835 0.2301 11 0.0000 0.0000 0.0000 0.0003 0.0029 0:0174 0.0712 0.2062 0.3766 12 0.0000 0.0000 0.0000 0.0000 0.0002 0.0022 0.0138 0.0687 0.2824 13 0 0.2542 0.0550 0.0097 0.0013 0.0001 0.0000 0.0000 0.0000 0.0000 1 0.3672 0.1787 0.0540 0.0113 0.0016 0.0001 0.0000 0.0000 0.0000 2 0.2448 0.2680 0.1388 0.0453 0.0095 0.0012 0.0001 0.0000 0.0000 3 0.0997 0.2457 0.2181 0.1107 0.0349 0.0065 0.0006 0.0000 0.0000 4 0.0277 0.1535 0.2337 0.1845 0.0873 0.0243 0.0034 0.0001 0.0000 5 0.0055 0.0691 0.1803 0.2214 0.1571 0.0656 0.0142 0.0011 0.0000 6 0.0008 0.0230 0.1030 0.1968 0.2095 0.1312 0.0442 0.0058 0.0001 7 0.0001 0.0058 0.0442 0.1312 0.2095 0.1968 0.1030 0.0230 0.0008 8 0.0000 0.0011 0.0142 0.0656 0.1571 0.2214 0.1803 0.0691 0.0055 9 0.0000 0.0001 0.0034 0.0243 0.0873 0.1845 0.2337 0.1535 0.0277 10 0.0000 0.0000 0.0006 0.0065 0.0349 0.1107 0.2181 0.2457 0.0997 11 0.0000 0.0000 0.0001 0.0012 0.0095 0.0453 0.1388 0.2680 0.2448 12 0.0000 0.0000 0.0000 0.0001 0.0016 0.0113 0.0540 .0.1787 0.3672 13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0013 0.0097 0.0550 0.2542 14 0 0.2288 0.0440 0.0068 0.0008 0.0001 0.0000 0.0000 0.0000 0.0000 1 0.3559 0.1539 0.0407 0.0073 0.0009 0.0001 0.0000 0.0000 0,0000 2 0.2570 0.2501 0.1134 0.0317 0.0056 0.0005 0.0000 0.0000 0.0000 3 0.1142 0.2501 0.1943 0.0845 0.0222 0.0033 0.0002 0.0000 0.0000
Таблица 1 Биноминальное распределение вероятностей(продолжение) Значения р п г 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 4 0.0349 0.1720 0.2290 0.1549 0.0611 0.0136 0.0014 0.0000 0.0000 5 0.0078 0.0860 0.1963 0.2066 0.1222 0.0408 0.0066 0.0003 0.0000 6 0.0013 0.0322 0.1262 0.2066 0.1833 0.0918 0.0232 0.0020 0.0000 7 0.0002 0.0092 0.0618 0.1574 0.2095 0.1574 0.0618 0.0092 0.0002 8 0.0000 0.0020 0.0232 0.0918 0.1833 0.2066 0.1262 0.0322 0.0013 9 0.0000 0.0003 0.0066 0.0408 0.1222 0.2066 0.1963 0.0860 0.0078 10 0.0000 0.0000 0.0014 0.0136 0.0611 0.1549 0.2290 0.1720 0.0349 и 0.0000 0.0000 0.0002 0.0033 0.0222 0.0845 0.1943 0.2501 0.1142 12 0.0000 0.0000 0.0000 0.0005 0.0056 0.0317 0.1134 0.2501 0.2570 13 0.0000 0.0000 0.0000 0.0001 0.0009 0.0073 0.0407 0.1539 0.3559 14 0.0000 0.0000 0.0000 0.0000 0.0001 0.0008 0.0068 0.0440 0.2288 15 0 0.2059 0.0352 0.0047 0.0005 0.0000 0.0000 0.0000 0.0000 0.0000 1 0.3432 0.1319 0.0305 0.0047 0.0005 0.0000 0.0000 0.0000 0.0000 2 0.2669 0.2309 0.0916 0.0219 0.0032 0.0003 0.0000 0.0000 0.0000 3 0.1285 0.2501 0.1700 0.0634 0.0139 0.0016 0.0001 0.0000 0.0000 4 0.0428 0.1876 0.2186 0.1268 0.0417 0.0074 0.0006 0.0000 0.0000 5 0.0105 0.1032 0.2061 0.1859 0.0916 0.0245 0.0030 0.0001 0.0000 6 0.0019 0.0430 0.1472 0.2066 0.1527 0.0612 0.0116 0.0007 0.0000 7 0.0003 0.0138 0.0811 0.1771 0.1964 0.1181 0.0348 0.0035 0.0000 8 0.0000 0.0035 0.0348 0.1181 0.1964 0.1771 0.0811 0.0138 0.0003 9 0.0000 0.0007 0.0116 0.0612 0.1527 0.2066 0.1472 0.0430 0.0019 10 0.0000 0.0001 0.0030 0.0245 0.0916 0.1859 0.2061 0.1032 *0.0105 И 0.0000 0.0000 0.0006 0.0074 0.0417 0.1268 0.2186 0.1876 0.0428 12 0.0000 0.0000 0.0001 0.0016 0.0139 0.0634 0.1700 0.2501 0.1285 13 0.0000 0.0000 0.0000 0.0003 0.0032 0.0219 0.0916 0.2309 0.2669 14 0.0000 0.0000 0.0000 0.0000 0.0005 0.0047 0.0305 0.1319 0.3432 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0047 0.0352 0.2059
В Таблице 2 представлены вероятности в точности х числа реализаций для различных значений ц. Таблица 2 Распределение вероятностей по Пуассону Значения ц X 0.1 0.2 0.3 0.4 0.6 0.7 0.8 0.9 1.0 0 0.9048 0.8187 0.7408 0.6703 0.5488 0.4966 0.4493 0.4066 0.3679 1 0.0905 0.1637 0.2222 0.2681 0.3293 0.3476 0.3595 0.3659 0.3679 2 0.0045 0.0164 0.0333 0.0536 0.0988 0.1217 0.1438 0.1647 0.1839 3 0.0002 0.0011 0.0033 0.0072 0.0198 0.0284 0.0383 0.0494 0.0613 4 0.0000 0.0001 0.0003 0.0007 0.0030 0.0050 0.0077 0.0111 0.0153 5 0.0000 0.0000 0.0000 0.0001 0.0004 0.0007 0.0012 0.0020 0.0031 6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005 Значения ц X 1.1 1.2 - 1.3 1.4 1.6 1.7 1.8 1.9 2.0 0 0.3329 0.3012 0.2725 0.2466 0.2019 0.1827 0.1653 0.1496 0.1353 1 0.3662 0.3614 0.3543 0.3452 0.3230 0.3106 0.2975 0.2842 0.2707 2 0.2014 0.2169 0.2303 0.2417 0.2584 0.2640 0.2678 0.2700 0.2707 3 0.0738 0.0867 0.0998 0.1128 0.1378 0.1496 0.1607 0.1710 0.1804 4 0.0203 0.0260 0.0324 0.0395 0.0551 0.0636 0.0723 0.0812 0.0902 5 0.0045 0.0062 0.0084 0.0111 0.0176 0.0216 0.0260 0.0309 0.0361 6 0.0008 0.0012 0.0018 0.0026 0.0047 0.0061 0.0078 0.0098 0.0120 7 0.0001 0.0002 0.0003 0.0005 0.0011 0.0015 0.0020 0.0027 0.0034 8 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 Значения ц X 2.1 2.2 2.3 2.4 2.6 2.7 2.8 2.9 3.0 0 0.1225 0.1108 0.1003 0.0907 0.0743 0.0672 0.0608 0.0550 0.0498 1 0.2572 0.2438 0.2306 0.2177 0.1931 0.1815 0.1703 0.1596 0.1494 2 0.2700 0.2681 0.2652 0.2613 0.2510 0.2450 0.2384 0.2314 0.2240 3 0.1890 0.1966 0.2033 0.2090 0.2176 0.2205 0.2225 0.2237 0.2240 4 0.0992 0.1082 0.1169 0.1254 0.1414 0.1488 0.1557 0.1622 0.1680 5 0.0417 0.0476 0.0538 0.0602 0.0735 0.0804 0.0872 0.0940 0.1008 6 0.0146 0.0174 0.0206 0.0241 0.0319 0.0362 0.0407 0.0455 0.0504
Таблица 2 Распределение вероятностей по Пуассону(продолжение) Значения ц 7 0.0044 0.0055 0.0068 0.0083 0.0099 0.0118 0.0139 0.0163 0.0188 0.0216 8 0.0011 0.0015 0.0019 0.0025 0.0031 0.0038 0.0047 0.0057 0.0068 0.0081 9 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011 0.0014 0.0018 0.0022 0.0027 10 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008 И 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002 Значения ц X 3.2 3.4 з:б 3.8 4.0 4.2 4.4 4.6 4.8 5.0 0 0.0408 0.0334 0.0273 0.0224 0.0183 0.0150 0.0123 0.0101 0.0082 0.0067 1 0.1304 0.1135 0.0984 0.0850 0.0733 0.0630 0.0540 0.0462 0.0395 0.0337 2 0.2087 0.1929 0.1771 0.1615 0.1465 0.1323 0.1188 0.1063 0.0948 0.0842 3 0.2226 0.2186 0.2125 0.2046 0.1954 0.1852 0.1743 0.1631 0.1517 0.1404 4 0.1781 0.1858 0.1912 0.1944 0.1954 0.1944 0.1917 0.1875 0.1820 0.1755 5 0.1140 0.1264 0.1377 0.1477 0.1563 0.1633 0.1687 0.1725 0.1747 0.1755 6 0.0608 0.0716 0.0826 0.0936 0.1042 0.1143 0.1237 0.1323 0.1398 0.1462 7 0.0278 0.0348 0.0425 0.0508 0.0595 0.0686 0.0778 0.0869 0.0959 0.1044 8 0.0111 0.0148 0.0191 0.0241 0.0298 0.0360 0.0428 0.0500 0.0575 0.0653 9 0.0040 0.0056 0.0076 0.0102 0.0132 0.0168 0.0209 0.0255 0.0307 0.0363 10 0.0013 0.0019 0.0028 0.0039 0.0053 0.0071 0.0092 0.0118 0.0147 0.0181 И 0.0004 0.0006 0.0009 0.0013 0.0019 0.0027 0.0037 0.0049 0.0064 0.0082 12 0.0001 0.0002 0.0003 0.0004 0.0006 0.0009 0.0013 0.0019 0.0026 0.0034 13 0.0000 0.0000 0.0001 0.0001 0.0002 0.0003 0.0005 0.0007 0.0009 0.0013 14 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 *0.0005 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0002 Значения ц X 5.2 5.4 5.6 5.8 6.0 6.2 6.4 6.6 6.8 7.0 0 0.0055 0.0045 0.0037 0.0030 0.0025 0.0020 0.0017 0.0014 0.0011 0.0009 1 0.0287 0.0244 0.0207 0.0176 0.0149 0.0126 0.0106 0.0090 0.0076 0.0064 2 0.0746 0.0659 0.0580 0.0509 0.0446 0.0390 0.0340 0.0296 0.0258 0.0223 3 0.1293 0.1185 0.1082 0.0985 0.0892 0.0806 0.0726 0.0652 0.0584 0.0521 4 0.1681 0.1600 0.1515 0.1428 0.1339 0.1249 0.1162 0.1076 0.0992 0.0912 5 0.1748 0.1728 0.1697 0.1656 0.1606 0.1549 0.1487 0.1420 0.1349 0.1277
Таблица 2 Распределение вероятностей по Пуассону(продолжение) Значения ц 6 0.1515 0.1555 0.1584 0.1601 0.1606 0.1601 0.1586 0.1562 0.1529 0.1490 7 0.1125 0.1200 0.1267 0.1326 0.1377 0.1418 0.1450 0.1472 0.1486 0.1490 8 0.0731 0.0810 0.0887 0.0962 0.1033 0.1099 0.1160 0.1215 0.1263 0.1304 9 0.0423 0.0486 0.0552 0.0620 0.0688 0.0757 0.0825 0.0891 0.0954 0.1014 10 0.0220 0.0262 0.0309 0.0359 0.0413 0.0469 0.0528 0.0588 0.0649 0.0710 И 0.0104 0.0129 0.0157 0.0190 0.0225 0.0265 0.0307 0.0353 0.0401 0.0452 12 0.0045 0.0058 0.0073 0.0092 0.0113 0.0137 0.0164 0.0194 0.0227 0.0263 13 0.0018 0.0024 0.0032 0.0041 0.0052 0.0065 0.0081 0.0099 0.0119 0.0142 14 0.0007 0.0009 0.0013 0.0017 0.0022 0.0029 0.0037 0.0046 0.0058 0.0071 15 0.0002 0.0003 0.0005 0.0007 0.0009 0.0012 0.0016 0.0020 0.0026 0.0033 16 0.0001 0.0001 0.0002 0.0002 0.0003 0.0005 0.0006 0.0008 0.0011 0.0014 17 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0006 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002 В Таблице 3 представлена область слева от соответствующего z-результата для стандартного нормального распределения. Таблица 3 Нормальное распределение вероятностей Вторая цифра z Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
Таблица 3 Нормальное распределение вероятностей(продолжение) Вторая цифра z Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 *0.9993 3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 Таблица 4 предлагает вашему вниманию t-критерий для соответствующего значения альфы или доверительного интервала и число степеней свободы.
Таблица 4 t-распределение Стьюдента Выделенные правосторонние области с указанием доверительных уровней Дов. 0.2000 0.1500 0.1000 0.0500 0.0250 0.0100 0.0050 0.0010 0.0005 уровень d.f, 0.6000 0.7000 0.8000 0.9000 0.9500 0.9800 0.9900 0.9980 0.9990 1 1.376 1.963 3.078 6.314 12.706 31.821 63.657 318.31 636.62 2 1.061 1.386 1.886 2.920 4.303 6.965 9.925 22.327 31.599 3 0.978 1.250 1.638 2.353 3.182 4.541 5.841 10.215 12.924 4 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 8.610 5 0.920 1.156 1.476 2.015 2.571 3.365 4.032 5.893 6.869 6 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.208 5.959 7 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.785 5.408 8 0.889 1.108 1.397 1.860 2.306 2.896 3.355 4.501 5.041 9 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.297 4.781 10 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.144 4.587 И 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.025 4.437 12 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.930 4.318 13 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.852 4.221 14 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.787 4.140 15 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.733 4.073 16 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.686 4.015 17 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.646 3.965 18 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.610 3.922 19 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.579 3.883 20 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.552 3.850 21 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.527 3.819 22 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.505 3.792 23 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.485 3.768 24 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.467 3.745 25 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.450 3.725 26 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.435 3.707 27 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.421 3.690 28 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.408 3.674 29 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.396 3.659 30 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.385 3.646
Таблица 4 t-распределение Стьюдента(продолжение) Выделенные правосторонние области с указанием доверительных уровней Дов. 0.2000 0.1500 0.1000 0.0500 0.0250 0.0100 0.0050 0.0010 0.0005 уровень d.f. 0.6000 0.7000 0.8000 0.9000 0.9500 0.9800 0.9900 0.9980 0.9990 40 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.307 3.551 50 0.849 1.047 1.299 1.676 2.009 2.403 2.678 3.261 3.496 75 0.846 1.044 1.293 1.665 1.992 2.377 2.643 3.202 3.425. 100 0.845 1.042 1.290 1.660 1.984 2.364 2.626 3.174 3.390 200 0.843 1.039 1.286 1.653 1.972 2.345 2.601 3.131 3.340 1000 0.842 1.037 1.282 1.646 1.962 2.330 2.581 3.098 3.300 В Таблице 5 представлено распределение хи-квадрат для соответствующего значения и число степеней свободы. Таблица 5 Распределение хи-квадрат Выделенна правая область распределения df 0.3000 0.2000 0.1500 0.1000 0.0500 0.0250 0.0100 0.0050 0.0010 1 1.074 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.828 2 2.408 3.219 3.794 4.605 5.991 7.378 9.210 10.597 13.816 3 3.665 4.642 5.317 6.251 7.815 9.348 11.345 12.838 16,266 4 4.878 5.989 6.745 7.779 9.488 11.143 13.277 14.860 18.467 5 6.064 7.289 8.115 9.236 11.070 12.833 15.086 16.750 20.515 6 7.231 8.558 9.446 10.645 12.592 14.449 16.812 18.548 22.458 7 8.383 9.803 10.748 12.017 14.067 16.013 18.475 20.278 24.322 8 9.524 11.030 12.027 13.362 15.507 17.535 20.090 21.955 26.124 9 10.656 12.242 13.288 14.684 16.919 19.023 21.666 23.589 27.877 10 11.781 13.442 14.534 15.987 18.307 20.483 23.209 25.188 29.588 И 12.899 14.631 15.767 17.275 19.675 21.920 24.725 26.757 31.264 12 14.011 15.812 16.989 18.549 21.026 23.337 26.217 28.300 32.909 13 15.119 16.985 18.202 19.812 22.362 24.736 27.688 29.819 34.528 14 16.222 18.151 19.406 21.064 23.685 26.119 29.141 31.319 36.123 15 17.322 19.311 20.603 22.307 24.996 27.488 30.578 32.801 37.697
Таблица 5 Распределение хи-квадрат (продолжение) Выделенна правая область распределения df 0.3000 0.2000 0.1500 0.1000 0.0500 0.0250 0.0100 0.0050 0.0010 16 18.418 20.465 21.793 23.542 26.296 28.845 32.000 34.267 39.252 17 19.511 21.615 22.977 24.769 27.587 30.191 33.409 35.718 40.790 18 20.601 22.760 24.155 25.989 28.869 31.526 34.805 37.156 42.312 19 21.689 23.900 25.329 27.204 30.144 32.852 36.191 38.582 43.820 20 22.775 25.038 26.498 28.412 31.410 34.170 37.566 39.997 45.315 21 23.858 26.171 27.662 29.615 32.671 35.479 38.932 41.401 46.797 22 24.939 27.301 28.822 30.813 33.924 36.781 40.289 42.796 48.268 23 26.018 28.429 29.979 32.007 35.172 38.076 41.638 44.181 49.728 24 27.096 29.553 31.132 33.196 36.415 39.364 42.980 45.559 51.179 25 28.172 30.675 32.282 34.382 37.652 40.646 44.314 46.928 52.620 26 29.246 31.795 33.429 35.563 38.885 41.923 45.642 48.290 54.052 27 30.319 32.912 34.574 36.741 40.113 43.195 46.963 49.645 55.476 28 31.391 34.027 35.715 37.916 41.337 44.461 48.278 50.993 56.892 29 32.461 35.139 36.854 39.087 42.557 45.722 49.588 52.336 58.301 30 33.530 36.250 37.990 40.256 43.773 46.979 50.892 53.672 59.703 В Таблице 6 представлены F-критерии для соответствующих степеней свобо- ды Vj и v2 с использованием значения = 0.05. Таблица 6 F-распределение а = 0.05 1 2 3 4 5 6 7 8 9 10 V2 Г 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.882 240.543 241.882 2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396 3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786 4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964 5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735 6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060 7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637
Таблица 6 F-распределение (продолжение) а = 0.05 V1 1 2 3 4 5 6 7 8 9 10 V2 8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347 9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137 10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978 И 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854 12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753 13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671 14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602 15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544 16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494 17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450 18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412 19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378 20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348 21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321 22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297 23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275 24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255 25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236 26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220 27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204 28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190 29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 ,2.177 30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165 31 4.160 3.305 2.911 2.679 2.523 2.409 2.323 2.255 2.199 2.153 32 4.149 3.295 2.901 2.668 2.512 2.399 2.313 2.244 2.189 2.142 33 4.139 3.285 2.892 2.659 2.503 2.389 2.303 2.235 2.179 2.133 34 4.130 3.276 2.883 2.650 2.494 2.380 2.294 2.225 2.170 2.123 35 4.121 3.267 2.874 2.641 2.485 2.372 2.285 2.217 2.161 2.114 36 4.113 3.259 2.866 2.634 2.477 2.364 2.277 2.209 2.153 2.106 37 4.105 3.252 2.859 2.626 2.470 2.356 2.270 2.201 2.145 2.098 38 4.098 3.245 2.852 2.619 2.463 2.349 2.262 2.194 2.138 2.091 39 4.091 3.238 2.845 2.612 2.456 2.342 2.255 2.187 2.131 2.084
Таблица 6 F-распределение(продолжение) а = 0.05 \V1 1 2 3 4 5 6 7 8 9 10 - V2 40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077 41 4.079 3.226 2.833 2.600 2.443 2.330 2.243 2.174 2.118 2.071 42 4.073 3.220 2.827 2.594 2.438 2.324 - 2.237 2.168 2.112 2.065 43 4.067 3.214 2.822 2.589 2.432 2.318 2.232 2.163 2.106 2.059 44 4.062 3.209 2.816 2.584 2.427 2.313 2.226 2.157 2.101 2.054 45 4.057 3.204 2.812 2.579 2.422 2.308 2.221 2.152 2.096 2.049 46 4.052 3.200 2.807 2.574 2.417 2.304 2.216 2.147 2.091 2.044 47 4.047 3.195 2.802 2.570 2.413 2.299 2.212 2.143 2.086 2.039 48 4.043 3.191 2.798 2.565 2.409 2.295 2.207 2.138 2.082 2.035 49 4.038 3.187 2.794 2.561 2.404 2.290 2.203 2.134 2.077 2.030 50 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026 а = 0.05 \V1 11 12 13 14 15 16 17 18 19 20 v2 1 242.983 243.906 244.690 245.364 245.950 246.464 246.918 247.323 247.686 248.013 2 19.405 19.413 19.419 19.424 19.429 19.433 19.437 19.440 19.443 19.446 3 8.763 8.745 8.729 8.715 8.703 8.692 8.683 8.675 8.667 8.660 4 5.936 5.912 5.891 5.873 5.858 5.844 5.832 5.821 5.811 5.803 5 4.704 4.678 4.655 4.636 4.619 4.604 4.590 4.579 4.568 4.558 6 4.027 4.000 3.976 3.956 3.938 3.922 3.908 3.896 3.884 3.874 7 3.603 3.575 3.550 3.529 3.511 3.494 3.480 3.467 3.455 3.445 8 3.313 3.284 3.259 3.237 3.218 3.202 3.187 3.173 3.161 3.150 9 3.102 3.073 3.048 3.025 3.006 2.989 2.974 2.960 2.948 2.936 10 2.943 2.913 2.887 2.865 2.845 2.828 2.812 2.798 2.785 2.774 И 2.818 2.788 2.761 2.739 2.719 2.701 2.685 2.671 2.658 2.646 12 2.717 2.687 2.660 2.637 2.617 2.599 2.583 2.568 2.555 2.544 13 2.635 2.604 2.577 2.554 2.533 2.515 2.499 2.484 2.471 2.459 14 2.565 2.534 2.507 2.484 2.463 2.445 2.428 2.413 2.400 2.388 15 2.507 2.475 2.448 2.424 2.403 2.385 2.368 2.353 2.340 2.328 16 2.456 2.425 2.397 2.373 2.352 2.333 2.317 2.302 2.288 2.276 17 2.413 2.381 2.353 2.329 2.308 2.289 2.272 2.257 2.243 2.230 18 2.374 2.342 2.314 2.290 2.269 2.250 2.233 2.217 2.203 2.191
Таблица 6 f-распределение(продолжение) а = 0.05 \vt 11 12 13 14 15 16 17 18 19 20 V2 19 2.340 2.308 2.280 2.256 2.234 2.215 2.198 2.182 2.168 2.155 20 2.310 2.278 2.250 2.225 2.203 2.184 2.167 2.151 2.137 2.124 21 2.283 2.250 2.222 2.197 2.176 2.156 2.139 2.123 2.109 2.096 22 2.259 2.226 2.198 2.173 2.151 2.131 2.114 2.098 2.084 2.071 23 2.236 2.204 2.175 2.150 2.128 2.109 2.091 2.075 2.061 2.048 24 2.216 2.183 2.155 2.130 2.108 2.088 2.070 2.054 2.040 2.027 25 2.198 2.165 2.136 2.111 2.089 2.069 2.051 2.035 2.021 2.007 26 2.181 2.148 2.119 2.094 2.072 2.052 2.034 2.018 2.003 1.990 27 2.166 2.132 2.103 2.078 2.056 2.036 2.018 2.002 1.987 1.974 28 2.151 2.118 2.089 2.064 2.041 2.021 2.003 1.987 1.972 1.959 29 2.138 2.104 2.075 2.050 2.027 2.007 1.989 1.973 1.958 1.945 30 2.126 2.092 2.063 2.037 2.015 1.995 1.976 1.960 1.945 1.932 31 2.114 2.080 2.051 2.026 2.003 1.983 1.965 1.948 1.933 1.920 32 2.103 2.070 2.040 2.015 1.992 1.972 1.953 1.937 1.922 1.908 33 2.093 2.060 2.030 2.004 1.982 1.961 1.943 1.926 1.911 1.898 34 2.084 2.050 2.021 1.995 1.972 1.952 1.933 1.917 1.902 1.888 35 2.075 2.041 2.012 1.986 1.963 1.942 1.924 1.907 1.892 1.878 36 2.067 2.033 2.003 1.977 1.954 1.934 1.915 1.899 1.883 1.870 37 2.059 2.025 1.995 1.969 1.946 1.926 1.907 1.890 1.875 1.861 38 2.051 2.017 1.988 1.962 1.939 1.918 1.899 1.883 1.867 1.853 39 2.044 2.010 1.981 1.954 1.931 1.911 1.892 1.875 1.860 1.846 40 2.038 2.003 1.974 1.948 1.924 1.904 1.885 1.868 1.853 ,1.839 41 2.031 1.997 1.967 1.941 1.918 1.897 1.879 1.862 1.846 1.832 42 2.025 1.991 1.961 1.935 1.912 1.891 1.872 1.855 1.840 1.826 43 2.020 1.985 1.955 1.929 1.906 1.885 1.866 1.849 1.834 1.820 44 2.014 1.980 1.950 1.924 1.900 1.879 1.861 1.844 1.828 1.814 45 2.009 1.974 1.945 1.918 1.895 1.874 1.855 1.838 1.823 1.808 46 2.004 1.969 1.940 1.913 1.890 1.869 1.850 1.833 1.817 1.803 47 1.999 1.965 1.935 1.908 1.885 1.864 1.845 1.828 1.812 1.798 48 1.995 1.960 1.930 1.904 1.880 1.859 1.840 1.823 1.807 1.793 49 1.990 1.956 1.926 1.899 1.876 1.855 1.836 1.819 1.803 1.789 50 1.986 1.952 1.921 1.895 1.871 1.850 1.831 1.814 1.798 1.784
Прил©жеми<;Л Глоссарий Альтернативная гипотеза — обозначается Hlt содержит ут- верждение, обратное утверждению основной гипотезы, и считается истинным, если основная гипотеза оказывается ложной. Биноминальное распределение вероятностей — используется для вычисления вероятности определенного числа успехов для определенного числа испытаний. Биноминальный эксперимент — эксперимент, который имеет только два исхода для каждого испытания. Вероятности успеха и неудачи являются константами. Все испытания эксперимен- та являются независимыми друг от друга. Вероятность — возможность того, что произойдет определен- ное событие. Взаимоисключающие события — когда два события не могут произойти одновременно в рамках одного эксперимента. Взвешенное среднее — величина, вычисляемая с различным весом отдельных компонент (больший вес одних значений и меньший — других). Вторичные данные — данные, собранные другими людьми и предоставленные для широкого пользования. Выборка — подмножество генеральной совокупности.
Выбросы — экстремальные значения в наборе данных, которые должны быть отброшены перед проведением анализа. Генеральная совокупность — представляет все возможные исходы или из- мерения, представляющие для нас интерес. Гипотеза — предположение относительно параметра совокупности. Гистограмма — график, демонстрирующий число наблюдений в каждой группе в виде призмы определенной высоты. Графическая диаграмма — представление данных, при котором точки упо- рядоченных пар данных соединены между собой линией. Групповая выборка — простая случайная выборка групп из генеральной сово- купности. Каждый член выбранной группы будет частью финальной выборки. Группы — интервалы распределения частот. Данные — значения, приписываемые наблюдению или измерению, основ- ной элемент статистического анализа. Двусторонняя проверка гипотезы — используется, когда альтернативная ги- потеза сформулирована в виде ф. Дискретное распределение вероятностей — список всех возможных исхо- дов эксперимента для дискретной случайной переменной вместе с относи- тельной частотой или вероятностью. Дисперсионный анализ (ANOVA) — процедура проверки разности двух или более средних на генеральной совокупности. Дисперсия — измерение разброса, описывающего относительное расстояние между значениями данных из набора и средним значением из набора данных. Доверительный интервал — диапазон значений, используемый для оценки па- раметра совокупности и связанный с определенным доверительным уровнем. Доверительный уровень — вероятность того, что интервальная оценка будет включать заданный параметр совокупности. Древовидное представление — отображает распределение частот путем де- ления значений данных на стебли (последняя цифра значения) и стволы (ос- тавшиеся цифры значения). Зависимая переменная — переменная, обозначаемая у в уравнении регрес- сии, на которое оказывает влияние независимая переменная. Зависимые выборки — наблюдаемые данные из одной выборки связаны с данными из другой выборки. Закон больших чисел — гласит, что когда эксперимент проводится боль- шое число раз, эмпирические вероятности процесса стремятся к теорети- ческим.
Измерение центральной тенденции — описывает центральную точку наше- го набора данных с помощью одного значения. Интервальная оценка — обеспечивает диапазон значений, максимально описывающих совокупность. Интервальный уровень измерения — тип данных, позволяющий использо- вать сложение и вычитание при сравнении данных, но с произвольной нуле- вой точкой. Испытание на адекватность — использует выборку с целью проверки, соот- ветствия распределения частот фактическому распределению. Исход — определенный результат эксперимента. Качественные данные — используют описательные средства для измерения или классификации объектов, представляющих интерес. Квартили — измеряют относительное положение значений данных путем деления набора данных на 4 равных сегмента. Классическая вероятность — это ситуация, в которой нам известно число возможных исходов события. Количественные данные — используют числовые значения для описания объектов, представляющих интерес. Комбинации — число различных способов расположения объектов безотно- сительно порядка их расположения. Коэффициент корреляции — указывает на силу и направление линейной связи между зависимой и независимой переменными. Коэффициент смешанной корреляции (г2) — процент вариации у, объясняе- мый линией регрессии. Критерий — значения, описывающие характеристику выборки. Критерий значимости — величина, взятая из выборки, используемое для принятия решения об отклонении или принятии основной гипотезы. Линейная регрессия — процедура, описывающая прямую линию, макси- мально соответствующую набору упорядоченных пар (х,у). Линейчатая диаграмма — представление данных, при котором значение на- блюдения пропорционально высоте призмы на графике. Медиана — значение из набора данных, по отношению к которому полови- на наблюдений имеют большее значение, а половина — меньшее. Межквартильный размах — измеряет протяженность центральной полови- ны набора данных и используется для определения выбросов. Мера относительного положения — описывает процент данных ниже опре- деленной точки.
Метод наименьших квадратов — математическая процедура, используемая для определения линейного уравнения, максимально соответствующего на- бору упорядоченных пар, путем нахождения значений а, отрезка на оси у, и Ь, наклона прямой. Цель этого метода состоит в минимизации общей квадра- тичной ошибки между значениями у и у. Мода — наблюдение в наборе данных, встречающееся чаще всего. Наблюдаемые частоты -- число фактических наблюдений, отмеченных для каждой категории распределения частот методом хи-квадрат. Наблюдаемый уровень значимости — самый маленький уровень значимо- сти, при котором нулевая гипотеза будет отклонена. Также носит название уровень р-значимости. Независимая переменная — переменная, обозначаемая х в уравнении рег- рессии; предполагается, что она влияет на зависимую переменную. Независимые выборки — данные из одной выборки не связаны с наблю- даемыми данными из другой выборки. Независимые события — реализация События В никоим образом не влияет на реализацию События А. Непрерывная случайная переменная — переменная, которая может прини- мать любое числовое значение в пределах заданного интервала в результате наблюдения за исходом эксперимента. Номинальный уровень измерения — тип данных для определения группы или категории использующий имена объектов. Общая сумма квадратов — общая вариации в дисперсионном анализе, полу- чаемая путем сложения суммы квадратов между выборками (SSB) и суммы квадратов внутри выборок (SSW). Объединение — реализация по крайней мере одно из возможных событий. Односторонняя проверка гипотезы — используется, когда альтернативная гипотеза сформулирована с помощью операций сравнения < или >. • Однофакторный ANOVA-анализ — дисперсионный анализ, предусматрива- ющий анализ одного фактора. Ожидаемые частоты — число наблюдений, ожидаемых для каждой катего- рии распределения частот с принятым допущением, что основная гипотеза является истинной с помощью анализа методом хи-квадрат. Описательная статистика — используется для суммирования или представле- ния данных так, чтобы мы могли получить быстрый обзор ситуации Опросы — сбор данных, подразумевающий прямые вопросы респонденту. Основная (нулевая) гипотеза — обозначается Но, является неизменной и ут- верждает, что среднее по совокупности <, = или > определенного значения.
Относительный уровень измерения — уровень данных, позволяющий ис- пользовать все 4 математические операции для сравнения данных, с учетом абсолютной нулевой точки. Ошибка второго рода — когда основная гипотеза принимается, а на самом деле является ложной. Ошибка выборки — когда измерение на выборке отличается от измерения на генеральной совокупности. Ошибка первого рода — когда основная гипотеза отклоняется, хотя на самом деле является истинной. Параметр — характеристика совокупности. Первичные данные — данные, собранные тем, кто будет в дальнейшем их использовать. Пересечение — два или более событий происходят одновременно. Перестановки — число различных способов упорядочивания представления объектов. Персентиль — измеряет относительное положение значений данных путем деления набора данных на 100 одинаковых сегментов. Полностью рандомизированный однофакторный дисперсионный анализ — процедура дисперсионного анализа, подразумевающая независимый слу- чайный отбор наблюдений для каждого уровня фактора. Порядковый уровень измерения — обладает всеми свойствами номинально- го уровня плюс возможность ранжировать значения в порядке возрастания или убывания. Правило сложения вероятностей — определяет вероятность объединения двух или более событий. Правило умножения вероятностей — определяет вероятность пересечения двух или болёе событий. Пристрастная выборка — выборка, не являющаяся репрезентативной по от- ношению к соответствующей генеральной совокупности, и может привести к искаженным выводам. Проверка Шеффе — используется для определения, какие средние по вы- борке являются отличными от других после отклонения основной гипотезы с помощью дисперсионного анализа. Простая случайная выборка — выборка, отобранная из любых элементов генеральной совокупности. Пространство выборки — все возможные варианты исхода эксперимента. Прямое наблюдение — сбор данных в момент нахождения интересующих нас объектов в естественных условиях.
Размах — результат вычитания самого наименьшего измерения из самого наибольшего измерения выборки. Распределение вероятностей Пуассона — используется для вычисления ве- роятности того, что за определенный промежуток времени произойдет опре- деленное число событий. Распределение относительных частот — представляет процент наблюдений каждой группы в отношении к общему числу наблюдений. Распределение разности средних в выборке — описывает вероятность на- блюдения различных интервалов разности двух средних по выборке. Распределение среднего в выборке — поведение средних по выборке при от- боре выборок из генеральной совокупности в целом. Распределение частот — возможные исходы эксперимента с указанием от- носительной частоты или вероятности каждого исхода. Распределение частот — таблица, отражающая число наблюдений данных, попадающих в определенные интервалы. Секторная диаграмма — используется для описания данных распределения относительных частот с помощью окружности, разделенной на сегменты, площадь которых пропорциональна распределению относительных частот. Систематическая выборка — выборка, в которой каждый к член совокупно- сти отбирается для выборки, причем значение к приблизительно равно N/n, где N равняется размеру совокупности, ап — размеру выборки. Слоенная выборка — выборка, получаемая путем деления совокупности на взаимоисключающие классы (слои), и случайный отбор из каждого такого класса. Случайная переменная — переменная, принимающая числовое значение в результате произвольного эксперимента. Событие — один или более исходов, представляющих интерес для экспери- мента и являющихся подмножеством выборочного пространства. Совместная оценка стандартных отклонений — взвешенное среднее двух дисперсий выборки. Совокупное распределение частот — процент наблюдений, меньший или равный текущей группе. Среднее — вычисляется путем сложения всех значений набора данных и де- ления полученного результата на число наблюдений. Средний квадрат внутри выборки (MSW) — измерение вариации внутри каждой выборки. Средний квадрат между выборками (MSB) — измерение вариации между выборочными средними.
Стандартная ошибка доли — стандартное отклонение выборочных доль. Стандартная ошибка оценки, sc, — измеряет величину разброса наблюдае- мых данных относительно линии регрессии. Стандартная ошибка разности двух средних — описывает вариацию разно- сти двух средних. Стандартная ошибка среднего — стандартное отклонение средних по вы- борке. Стандартное отклонение — вариация, вычисляемая путем извлечения квад- ратного корня из дисперсии. Статистика — наука сбора, распределения и систематической классифика- ции количественных данных, используемых в основном для выводов и за- ключений. Статистический вывод — используется для того, чтобы делать заявления и выводы применительно к генеральной совокупности на основе выборки дан- ных из этой совокупности. Степени свободы — число значений, которые могут свободно варьировать- ся, если известна определенная информация, например, среднее по выборке. Субъективная вероятность — вероятности, оцениваемые на основе личного опыта и интуиции. Сумма квадратов внутри выборки (SSW) — вариация в пределах выборок в рамках дисперсионного анализа. Сумма квадратов между выборками (SSB) — вариация между выборками в рамках дисперсионного анализа. Суммарная вероятность — вероятность пересечения двух событий. Теорема Байеса — теорема, используемая для вычисления Р[В/А] на основе информации о Р[А/В]. Понятие Р[А/В] нрсит название вероятности События А при условии, что Событие В произошло. Точечная оценка — единое значение, точнее всего описывающее интересу- ющую нас совокупность; чаще всего в этом качестве используется среднее. Уровень — число категорий в пределах интересующего нас фактора в про- цессе дисперсионного анализа. Уровень значимости () — вероятность совершения ошибки первого рода. Уровень погрешности — определяет широту доверительного интервала и вычисляется с помощью zc Уровень р-значимости — самый маленький уровень значимости, при кото- ром будет отклонена основная гипотеза при допущении, что основная гипо- теза является истинной.
Условная вероятность — вероятность События А при том, что Событие В уже произошло. Фактор — описывает причину вариации данных для дисперсионного анали- за. Факторные таблицы — показывают фактическую или относительную часто- ту двух типов данных одновременно, в одной таблице. Фокус-группы — методика наблюдения, когда участникам известно о том, что происходит сбор данных. Фокус-группы обычно используются в бизнесе для сбора информации в групповом окружении, контролируемом модерато- ром. Фундаментальный принцип счета — гласит, что если одно событие может иметь т вариаций, а второе — п вариаций, то общее число вариаций обоих событий, происходящих вместе, равно т * п. Центральная предельная теорема — теорема гласит, что по мере увеличения размера выборки (п) средние по выборке стремятся следовать нормальному закону распределения вероятностей. Эксперимент — процесс измерения или наблюдений за действием с целью сбора данных. Эмпирическая вероятность — тип вероятности, определяющий число реали- заций события с помощью эксперимента и вычисляющий вероятность из распределения относительных частот. Эмпирическое правило — если распределение подчиняется колоколообраз- ной симметричной кривой, сконцентрированной вокруг среднего, примерно 68, 95 и 99,7% значений попадут в пределы 1, 2 и 3 стандартных отклонений от среднего соответственно.
Роберт А. Доннелли-мл. СТАТИСТИКА Перевод с английского Н. А. Ворониной Дизайн обложки студии «Дикобраз» Зав.ред. Я. Г. Гершович Ответственный редактор А. А. Подщеколдин Художественный редактор И. С. Островская Технический редактор Т. П. Тимошина Корректор И. Н. Мокина Компьютерная верстка Е. М. Илюшиной ООО «Издательство Астрель» 129085, Москва, пр. Ольминского, д. ЗА ООО «Издательство АСТ» 170002, г. Тверь, пр-т Чайковского, д. 27/32 Наши электронные адреса: www.ast.ru E-mail: astpub@aha.ru Отпечатано в ОАО ордена Трудового Красного Знамени «Чеховский полиграфический комбинат». 142300, г. Чехов Московской области, тел./факс (501) 443-92-17, (272) 6-25-36. E-mail: marketing© chpk.ru
л алите С цифрам- Неа%Те6еАа1 Конечно же вы не глупы. Но сидя на занятиях по статистике, вы порой испытываете дискомфорт. При толковании всех этих чисел в таблицах, новостных статьях, отчетах вам кажется, что у вас никогда ничего не выйдет... Но теперь вы лишитесь этого неприятного ощущения! Книга «Статистика» предоставит вам уникальный шанс улучшить свои знания и сохранить ясное понимание предмета не только во время занятий, но и после них. В этой книге вы найдете: ♦ Советы различного уровня сложности о том, как с помощью программы Excel облегчить свою работу. ♦ Доступное для всех введение в вычисление центральной тенденции и параметров рассеяния. ♦ Профессиональные инструкции о том, что представляют собой секторные, линейчатые диаграммы и графики. ♦ Понятную всем информацию о свойствах и областях применения распределений вероятностей ♦ Доступное введение в более углубленное изучение разделов статистики, в частности корреляции и анализа регрессии. Из этой книги вы узнаете о: ♦ Распределениях частот ♦ Среднем, медиане и моде ♦ Размахе, дисперсии и стандартном отклонении ♦ Вероятности ф Биноминальном распреде- лении ф Распределении Пуассона ф Нормальном распределении ф Доверительных интервалах Ф Проверке гипотез Ф Тесте хи-квадрат Ф Корреляции ф Анализе линейной регрессии Ф Независимых и зависимых отбытиях ф Параметрах относительного положения Ф Роли компьютеров в статистике ISBN 5-17-040811-0