Текст
                    SPECTRAL ANALYSIS
AND ITS APPLICATIONS
GWILYM M. JENKINS
University of Lancaster, U.K.
and
DONALD G. WATTS
University of Wisconsin, U.S.A.
HOLDEN-DAY
San Francisco, Cambridge, London, Amsterdam
1969
Г. ДЖЕНКИНС, Д. ВАТТС
СПЕКТРАЛЬНЫЙ
АНАЛИЗ
И ЕГО ПРИЛОЖЕНИЯ
ВЫПУСК 1
Перевод с английского
В. Ф. ПИСАРЕНКО
С предисловием
А. М. ЯГ ЛОМА
ИЗДАТЕЛЬСТВО „МИР"
МОСКВА 1971


УДК 51:53+52 ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ Спектральный анализ — новая и очень важная отрасль прикладной математики, посвященная выделению из наблю- наблюдаемых явлений или процессов периодических компонент, т. е. правильно меняющихся со временем составляющих. Подобные процессы очень часто встречаются в инженерном деле, различ- различных отделах физики и геофизики, а также в экономике. Задача данной книги — дать инженеру или физику руко- руководство, позволяющее овладеть приемами и методами спект- спектрального анализа и применить их в своей практической ра- работе. Для удобства читателей русское издание разделено на два выпуска. Выпуск 1 выйдет в 1971 г., выпуск 2—в начале 1972 г. В данный выпуск вошли общие принципы спектрального анализа, анализ Фурье, основы теории вероятностей и матема- математической статистики, оценки корреляционных функций и спект- спектров стационарных процессов. Книга будет полезна инженерно-техническим работникам, физикам, геофизикам, математикам-прикладникам и экономи- экономистам, а также студентам старших курсов, для которых она по- послужит ценным учебным пособием. Редакция космических исследований, астрономии и геофизики 2-6-2; 2-3-2; 2-9-2 1971 " Подписное издание Предлагаемая читателю монография известного английского специалиста в области математической статистики Г. Дженкинса и американского ученого Д. Ваттса посвящена прикладным аспек- аспектам теории временных рядов, т. е. рядов наблюдений x(t), завися- зависящих от дискретного или непрерывно меняющегося аргумента t (обычно времени наблюдения). При этом авторы рассматривают лишь ряды, подверженные нерегулярным флуктуациям, создавае- создаваемым или ошибками наблюдений, или какими-то иными неустрани- неустранимыми помехами («шумами»), искажающими эти наблюдения, или, наконец, помехами, заложенными в самой природе величины х. Ряды такого рода встречаются буквально на каждом шагу в геофи- геофизике (метеорологии, океанологии, сейсмологии, учении о земном магнетизме и аэрономии) и астрономии, экономике, технических дисциплинах (особенно радиотехнике, электронике и автоматике) и даже в биологии и медицине, причем их роль с течением времени все возрастает. Поэтому, неудивительно, что и литература по вопро- вопросам, касающимся таких рядов, также очень быстро растет; так, на- например, одной только статистической радиотехнике (т. е. фактиче- фактически изучению комплекса проблем, связанных с временными рядами радиотехнического происхождения) на русском языке посвящено по крайней мере полтора десятка монографий и несколько сотен на- научных работ. Однако до сих пор на русском языке не было ни одной книги, предназначенной сразу для читателей-прикладников всех специальностей, имеющих дело с временными рядами, и излагаю- излагающей с единой точки зрения и на современном уровне общие матема- математические приемы их изучения и обработки. Именно такую цель и преследует настоящая книга. Естественно, что временные ряды, подверженные нерегулярным флуктуациям, можно изучать только статистически— на основе ши- широкого использования аппарата теории вероятностей и математиче- математической статистики. При таком подходе ряд x(t) рассматривается как одна реализация, выбранная из статистического ансамбля функций, описываемого определенным распределением вероятностей в функ- функциональном пространстве, т. е. как выборочная функция случайного процесса X(t), зависящего от непрерывного или дискретного аргу- аргумента. Тем самым, анализ временных рядов оказывается частью
Предисловие к русскому изданию теории случайных процессов, являющейся одним из наиболее глу- глубоких и сложных разделов современной теории вероятностей. Очень большое место в этом анализе составляют вопросы, относящиеся к статистике случайных процессов — области, лежащей на пересече- пересечении теории случайных процессов и математической статистики, все развитие которой относится к последнему двадцатилетию. Заметим также, что до сих пор большинство результатов теории случайных процессов относится не к совершенно произвольным процессам X{t), а лишь к процессам того или иного частного вида; анализ вре- временных рядов по традиции имеет дело только со стационарными случайными процессами, являющимися удобной моделью широкого класса (но, разумеется, все же не всех) рядов реальных наблюде- наблюдений. Этого ограничения придерживаются и авторы настоящей книги. Центральной задачей статистического анализа временных рядов бесспорно является чрезвычайно важная задача об определении спектра процесса по одной его реализации; именно ей Дженкинс и Ватте посвящают больше всего внимания (с этим обстоятельством связан и выбор названия их книги). Эта задача имеет длинную и интересную историю (достаточно сказать, что основное для всего- прикладного спектрального анализа понятие периодограммы вре- временного ряда впервые было введено — правда, для других целей — известным физиком А. Шустером еще в конце прошлого века). Од- Однако математическое ее исследование началось лишь после того, как около 1950 г. было строго доказано, что при широких условиях, накладываемых на процесс X(t), периодограмма не стремится ни к какому пределу при стремлении к бесконечности интервала на- наблюдения. На русском языке кое-какие сведения относительно ме- методов оценки спектра по данным наблюдений могут быть найдены в книгах М. С. Бартлетта («Введение в теорию случайных процес- процессов», ИЛ, М., 1958) и Э. Хеннана («Анализ временных рядов», изд-во «Наука», М., 1964), но помимо явной неполноты и отрывоч- отрывочности содержащегося здесь материала, частично уже заметно уста- устаревшего (последнее особенно относится к содержанию первой из указанных книг), надо также отметить, что обе они предназначены не для прикладников, а для математиков, и ввиду крайней сжатости изложения даже и для профессионалов-математиков являются до- довольно трудными. В чисто же прикладной литературе этому вопросу особенно не повезло — достаточно сказать, что в ряде книг по стати- статистической радиотехнике или автоматике фактически утверждается, что спектр процесса можно определить как предел соответствующей периодограммы (правда, термин «периодограмма» при этом обычно не упоминается). В мировой литературе вопросу об оценке спектра специально посвящена книга Блэкмана и Тьюки (R. В. Blackman, J. W. Tukey, The measurement of power spectra from the point of vi- view of communications engineering, Dover, New York, 1959), сыграв- сыгравшая очень большую роль в развитии соответствующей статистиче- Предисловие к русскому изданию ской теории и в пропаганде правильных представлений по этому во- вопросу, но написанная нарочито усложненным («замысловатым») языком с большим числом методических и терминологических ухищрений, интересных для специалиста, хорошо знакомого с пред- предметом, но очень затрудняющих изучение этой книги для новичка (такой стиль вообще характерен для Тьюки — старшего автора ука- указанной книги). Тем не менее ввиду отсутствия другого подходящего изложения ссылки на книгу Блэкмана и Тьюки до самого послед- последнего времени очень часто встречались в прикладной литературе; из- известно также, что в прикладных научно-исследовательских учреж- учреждениях нашей страны было изготовлено даже несколько разных переводов этой книги на русский язык, часто, к сожалению, мало- малоквалифицированных и содержащих ошибки, способные вконец запу- запутать неопытного читателя. Книга Дженкинса и Ваттса рассчитана примерно на тот же круг читателей, что и книга Блэкмана и Тьюки: обе они не содержат строгих доказательств используемых математических предложений и основной упор делают на рецептурную сторону дела, т. е. на фор- формулировку конкретных рекомендаций, предназначенных для прак- практика. Однако настоящая книга имеет то большое преимущество, что написана она относительно просто и ясно, хотя и достаточно строго и с учетом всех основных достижений математической теории; кое в чем она оказывается также заметно более современной, чем ее предшественница, со времени появления которой прошло уже более десяти лет (так, например, стоит отметить краткое изложение в при- приложении П7.3 очень важной для вычислений на современных вычис- вычислительных машинах техники «быстрых преобразований Фурье», соз- созданной при активном участии Тьюки, но заметно позже опублико- опубликования совместной с Блэкманом книги, в которой, естественно, эта техника никак не отражена). Следует также отметить, что содержа- содержание книги Дженкинса и Ваттса (опять же в отличие от книги Блэк- Блэкмана и Тьюки) не ограничивается одним лишь вопросом о вычисле- вычислении спектров; в частности, весьма полезными являются также раз- разделы этой книги, посвященные оценке корреляционной функции или каких-то параметров процесса по материалам наблюдений в течение конечного промежутка времени. Надо надеяться, что появление этой книги в русском переводе будет приветствоваться широкими кругами читателей-прикладников различных специальностей, имею- имеющих дело с рядами наблюдений, и даст им, наконец, в руки доступ- доступный источник сведений о том, как следует математически грамотно обрабатывать такие ряды для извлечения из них основной информа- информации о статистических характеристиках исследуемого процесса. Для удобства наших читателей русское издание разделено на два выпуска. В первый выпуск включены гл. 1—6, содержащие об- общие принципы спектрального анализа, анализ Фурье, основы теории
8 Предисловие к русскому изданию вероятностей и математической статистики, оценки корреляционных функций и спектров стационарных процессов. Во втором выпуске (гл. 7—11) спектральный анализ иллюстрируется искусственными*и практическими примерами и обобщается на случай многомерных стационарных процессов. В конце данного выпуска дается список дополнительной литера- литературы, составленный переводчиком книги. Ссылки в тексте на допол- дополнительную литературу даются цифрой со звездочкой. А. М. Яглом ПРЕДИСЛОВИЕ Анализ временных рядов в настоящее время широко использу- используется во многих отраслях техники, в физических науках и экономике. Одним из важных видов анализа временных рядов является спектральный анализ, имеющий дело с разделением временных ря- рядов на различные частотные составляющие. Применения спектрального анализа покрывают широкий диапа- диапазон задач, например влияние морского волнения на вибрацию ко- кораблей и влияние возмущений, или шума, на работу систем электри- электрического управления и химических реакторов. Эта книга предназначена в первую очередь для инженеров, по- повышающих квалификацию после окончания учебного заведения, по- поскольку большинство применений спектрального анализа фактиче- фактически осуществляется инженерами и физиками. Одна из трудностей, встречающихся при использовании спектрального анализа, состоит в том, что большая часть теории спектрального анализа была раз- развита статистиками за последние пятнадцать лет. К сожалению, мно- многое из литературы, посвященной этому вопросу, представляет собой трудный для чтения материал. Поэтому потребность в книге, рас- рассчитанной в основном на инженеров, ощущалась уже давно. Мы на- надеемся, однако, что настоящая книга привлечет внимание гораздо более широкой аудитории, в том числе математиков, статистиков, экономистов, физиков и биологов. Одна из трудностей при написании этой книги состояла в том, что спектральный анализ использует довольно сложные статистиче- статистические методы, в то время как многие инженеры испытывают недо- недостаток знаний по элементарной статистике. Это справедливо даже для некоторых инженеров-электриков, имеющих солидные сведения по теории вероятностей. Так, например, винеровская теория предсказания и управления показывает, что оптимальный фильтр или система контроля могут быть рассчитаны при условии, что известны различные спектры, ха- характеризующие сигнал и шум в системе.
10 Предисловие Однако в книгах по теории управления уделяется мало внима- внимания очень важному практическому вопросу о том, как оценить эти спектры по записи конечной длины. Именно с такими вопросами мы будем иметь дело в этой книге. Чтобы постепенно подойти к вопросам оценивания временных рядов, мы были вынуждены заниматься в первых главах элемен- элементарными статистическими задачами. Это может отвлечь математика или статистика, но нам кажется (на основании нашего опыта изло- изложения этих идей инженерам), что введение, не использующее дру- других источников и включающее большинство статистических поня- понятий, которые понадобятся впоследствии в книге, необходимо. Читатели, знакомые с материалом гл. 2, 3 и 4, могут, конечно» начать чтение с гл. 5. Гл. 1 посвящена краткому описанию затрагиваемых вопросов и классу задач, которые могут быть решены с помощью спектраль- спектрального анализа. В гл. 2 рассматриваются важные понятия анализа Фурье; эта глава является основной для всего последующего мате- материала. Содержание большей ее части известно инженерам, но весь ма- материал собран здесь в том виде, в каком он нужен для спектраль- спектрального анализа. В гл. 3 мы вводим некоторые основные понятия тео- теории вероятностей, являющиеся фундаментальными для последую- последующих глав. В гл. 4 вводятся многие важные понятия теории статистических выводов и обсуждается использование выборочных распределений в теории оценивания и теория наименьших квадра- квадратов, а также дается краткое изложение способов получения стати- статистических выводов с помощью функции правдоподобия. Не весь этот материал необходим для понимания спектральных методов, обсуждаемых ниже, и читатели-инженеры могут при желании про- пропустить последнюю часть этой главы при первом чтении. Для спек- спектрального анализа наиболее существенными из этой главы явля- являются разделы о применении выборочных распределений в теории оценивания и теория наименьших квадратов. Последняя является важнейшим оружием в арсенале статистики и, как показывает наш опыт, часто неправильно понимается инженерами. Гл. 5 содержит некоторые элементарные понятия теории слу- случайных процессов, такие, например, как стационарность, автокорре- автокорреляционная функция и понятие о процессе скользящего среднего — авторегрессии. Изложены и проиллюстрированы примерами ме- методы оценки автокорреляционных функций и параметров линейных процессов. В гл. 6 понятия анализа Фурье и теории случайных процессов объединяются для получения способа описания стацио- стационарного случайного процесса с помощью его спектра: Показано, как должны быть модифицированы методы анализа Фурье для того, чтобы оценить спектр процесса по реализации конечной длины. За- Затем выводятся выборочные свойства спектральных оценок и вво- Предисловие 11 дится важное понятие сглаживания этих оценок. Гл. 7 содержит много искусственных и практических примеров спектрального оце- оценивания и дает стандартный способ, названный «стягиванием окна» (window closing), предназначенный для определения требуемой сте- степени сглаживания. В гл. 8 понятия, введенные в гл. 5—7, распространяются на слу- случай пары временных рядов, что приводит к определению взаимной корреляционной функции, взаимного спектра и спектра квадрата коэффициента когерентности. Гл. 9 посвящена оцениванию взаимного спектра и понятию вы- выравнивания двух временных рядов. Анализ взаимных спектров при- применяется в гл. 10 для оценивания частотной характеристики линей- линейной системы. Наконец, в гл. 11 мы рассматриваем спектральный анализ векторного временного ряда и оценивание матрицы частот- частотных характеристик линейной системы. Настоящая книга написана в то время, когда в этой области еще ведется активная работа и когда еще очень не хватает опыта применения спектральных методов. Тем не менее многое, по-види- по-видимому, уже достигнуто, чтобы такую попытку можно было считать оправданной. Мы надеемся, что эта книга послужит ученым-при- ученым-прикладникам и инженерам всесторонним и полезным справочником по применению спектрального анализа к практическим задачам с вре- временными рядами, а также окажется полезным пособием для аспи- аспирантов и лиц, повышающих свою квалификацию. Мы приносим глубокую благодарность проф. Стантону из Тех- Технической школы университета Пэрдью за предоставленные в наше распоряжение данные о работе электростанции, использованные в последующих главах, и проф. Уэрцу из Висконсинского универси- университета за полезные советы относительно программ для вычислитель- вычислительных машин. Мы очень благодарны Маккормику из Отдела стати- статистики Висконсинского университета, а также Макклелану из Мате- Математического исследовательского центра армии США (Висконсинский университет) за составление некоторых программ для вычисли- вычислительных машин и расчеты по ним. Мы также благодарны Мак- Маккормику и Алави из Ланкастерского университета за проверку всей рукописи. Ланкастер, Великобритания Мадисон, Висконсин, США Гвилим Дженкинс Дональд Ватте
ОБОЗНАЧЕНИЯ Система обозначений была выбрана с возможной тщательно- тщательностью, чтобы избежать путаницы и в то же время сохранить четкую разницу между выборочными оценками (estimates)**, оценками (estimators) **> и теоретическими ***> значениями, а также между функциями, зависящими от частоты, и функциями, зависящими от времени. Читатель не будет иметь затруднений, если он запомнит следующие соглашения, которых мы придерживались всюду за не- небольшими исключениями. Символы, обозначения и условные соглашения *> Под термином «estimates» авторы имеют в виду конкретные, наблюден- наблюденные значения оценок.— Прим. перев. **' Термином «estimators» авторы называют оценки, рассматриваемые как случайные величины.— Прим. перев. ***) Словами «теоретические значения» авторы называют истинные значения неизвестных параметров или функций.— Прим. перев. ****) в нашей литературе чаще используются названия ковариации. — Прим. перев. Предмет Наблюдения, временные ряды Случайные величины, случайные процессы Выборочные оценки Оценки Параметры Шрифт Латинский, малые буквы Х\ Латинский, большие Х\, буквы Латинский и греческий х. с крышкой, малые буквы Латинский и греческий с крышкой, большие буквы Греческий, малые буквы Ковариации и корреляции Примеры , х2; zt, z(t) Х2\ Zu Z{t) п ¦"-«• ¦*"«• *-ч S ; в, а.\, а.2 X, S2, в в, аи о2 (показаны символы и нижние индексы) Автоковариации ****) Взаимные кова- ковариации Выборочные оценки Оценки . Схх(и), C22(k) cxx(u), C22(k) сху (и), cl2 (k) cxy (ц), с12 (А) Теоретические txxW- 7И(*) Тхк(«), 1x2(k) Обозначения 13 Четная часть Нечетная часть Автокерреляции •> Взаимные корре- корреляции 1ху(и), /12(А) qxy(u), qn(k) rxx (u), гху (и), г 12 (А) Спектры (черта сверху обозначает сглаживание, звездочка — комплексное сопряжение) Автоспектры **' Взаимные спектры Коспектры Квадратурные спектры Амплитудные спектры Фазовые спектры Квадрат коэффи- коэффициента когерент- когерентности Выборочные оценки СЛХ(Л, С„ (Л < Сху (л. с,2(Л < Он (Л Ап (/) ^12 (Л К\2 (/) Оценки "хх (Л, Cu{f) -хк(Л. С12(/) Аг(Л 0l2 (/) А2(Л ^12 (Л К\2 (/) Теоретические *ХХ(Л, г„(Л гхк(Л. Г12(/) Ai2(/) Via (Л «12 (Л 912 (Л *12 (/) •) В пашей литературе чаще используются названия корреляции.— Прим. перев. **' В нашей литературе чаще используется название спектры. — Прим. перев*
Глава 1 ЦЕЛИ И СРЕДСТВА АНАЛИЗА ВРЕМЕННЫХ РЯДОВ Чтобы помочь читателю разобраться в спектральном анализе, в этой главе дается краткий обзор важнейших понятий и основных целей анализа временных рядов. 1.1. ВРЕМЕННЫЕ РЯДЫ И СЛУЧАЙНЫЕ ПРОЦЕССЫ 1.1.1. Детерминированные и недетерминированные функции Трудно найти какую-либо отрасль науки, которая не приводила бы к изучению данных, представляемых в виде временных рядов. Временной ряд —это случайная, или недетерминированная, функ- функция х независимой переменной /. В большинстве ситуаций функция « 34,2 34,1 _l_ J_ _L _L /6 24 32 40 48 1,сек _L 56 64 12 Рис. 1.1. Отклонения напряжения на клеммах статора турбогенератора на 50 Мет. x(t) будет функцией времени, хотя в некоторых случаях она может быть функцией некоторого другого физического параметра /, напри- например координаты. Характерное свойство временного ряда состоит в том, что его будущее поведение не может быть предсказано точно, что можно было бы сделать в случае детерминированной функции времени. Во
16 Гл. 1. Цели и средства анализа временных рядов многих отраслях прикладной математики удобно считать, что неко- некоторые физические процессы могут быть описаны с помощью детер- детерминированных, или математических, функций времени. Например, в большинстве электротехнических расчетов напряжение в сети представляют косинусоидальной функцией */r0/ + <p). A.1.1) где /о — частота сети и а—амплитуда напряжения. Однако более тщательное исследование амплитуды показывает, что она не явля- является константой, а флуктуирует во времени. Так, например, на рис. 1.1 показаны отклонения напряжения на клеммах турбогенера- турбогенератора в зависимости от времени. Если сравнить две записи зависи- зависимости напряжения от времени, можно не обнаружить их сходства. Однако, если сравнить их статистическое поведение, или поведение в среднем, сходство начнет выявляться. Это замечание приводит к понятию случайного процесса. 1.1.2. Случайные процессы Поскольку различные участки временного ряда обнаруживают сходство только в их осредненных свойствах, необходимо описывать эти ряды с помощью вероятностных законов, или моделей. Таким образом, предполагается, что возможные значения временного ряда в данный момент времени t описываются с помощью случайной ве- величины X (t) и связанного с ней распределения вероятностей. Тогда наблюденное значение x(t) временного ряда в момент t рассматри- рассматривается как одно из семейства значений, которые могла бы принять случайная величина X(t) в момент t. Поведение временного ряда при всех значениях времени может быть описано множеством случайных величин {X(t)}, где времен- временная переменная t может принимать любые значения от —оо до + оо. Таким образом, статистические свойства этого ряда описыва- описываются с помощью распределений вероятностей, связанных с любым набором значений времени ti, h, ..., tN. Упорядоченное множество случайных величин {X(t)} и связанных с ними распределений веро- вероятностей называется случайным процессом. Наблюденный времен- временной ряд x(t), таким образом, рассматривается как одна из дважды бесконечного множества функций, которые могли бы быть порож- порождены этим случайным процессом. Это множество дважды беско- бесконечно, так как возможно бесконечное множество значений в любой заданный момент времени и имеется бесконечно много моментов времени. Временные ряды, которые встречаются на практике, являются дискретными или непрерывными. Примерами дискретных времен- временных рядов являются месячные показатели импорта и экспорта или выход продукции в последовательных партиях химического про- про1.2. Описание временных рядов 17 цесса при переработке материала порция-ми (см. рис. 5.2). Приме- Примерами непрерывных временных рядов являются данные турбогене- турбогенератора на рис. 1.1 или отраженный радиолокационный сигнал на рис. 5.1. 1.1.3. Данные, получаемые из эксперимента, и неэкспериментальные данные Более существенная особенность временных рядов определяется тем, являются ли данные неэкспериментальными или же они полу- получаются из некоторого запланированного эксперимента. Так, времен- временные ряды в экономике и социальных науках являются примерами неэкспериментальных данных. Экономист обычно в состоянии лишь наблюдать экономическую систему и редко может проводить плани- планируемые эксперименты. Дальнейшая трудность, связанная с анализом экономических временных рядов, состоит в том, что обычно они содержат мало на- наблюдений. Из-за этого крайне трудно проверить, хорошо ли согла- согласуется предлагаемая случайная модель с данными. Тем не менее методы анализа временных рядов играют существенную роль в ана- анализе экономических данных [1]. С другой стороны, в технике и физических науках масштаб вре- времени, в течение которого нужно собирать полезные данные, обычно намного меньше, так что можно получить временные ряды, содер- содержащие гораздо больше значений. Кроме того, можно повторить экс- эксперименты при аналогичных условиях, так что справедливость ана- анализа и различных моделей может быть проверена. 1.2. ОПИСАНИЕ ВРЕМЕННЫХ РЯДОВ ВО ВРЕМЕННОЙ И ЧАСТОТНОЙ ОБЛАСТЯХ В разд. 1.1 утверждалось, что случайный процесс, порождающий наблюдаемый временной ряд, может быть описан распределениями вероятностей, связанными со всеми возможными множествами мо- моментов времени. Определение природы этих распределений вероят- вероятности по одному или по малому числу рядов представляет собой не- невозможное или даже бессмысленное занятие. В этом разделе мы об- обсудим некоторые из наиболее важных упрощений, которые приняты в анализе временных рядов для того, чтобы сделать этот анализ вы- выполнимым и в то же время плодотворным. Важнейшие предположения о временных рядах заключаются в том, что соответствующий случайный процесс является стационар- стационарным и может быть адекватно описан с помощью младших моментов его распределения вероятностей. Младшие моменты включают в себя среднее значение, дисперсию, ковариационную функцию и преобразование Фурье ковариационной функции — спектр мощно- мощности. Другой подход к вышеизложенной проблеме основывается на
18 Гл. 1. Цели и средства анализа временнйх рядов предположении, что случайный процесс может быть адекватно опи- описан с помощью некоторой модели, содержащей небольшое число параметров, которые могут быть оценены по данным. Обсудим те- теперь кратко эти упрощающие предположения. 1.2.1. Стационарность Проверка выходного сигнала генератора шума в течение огра- ограниченного промежутка времени показывает, что различные участки выходного сигнала похожи. Напротив, характерная черта экономи- экономического ряда, такого, как валовой национальный продукт индустри- индустриальной страны, состоит в том, что его уровень стремится увели- увеличиться с течением времени, и поэтому различные участки этого ряда не будут сравнимы. Говорят, что выходной сигнал генератора шума является стационарным временным рядом, в то время как про вре- временной ряд валового национального продукта говорят, что он неста- нестационарный. Качественно стационарный ряд—это такой ряд, который нахо- находится в статистическом равновесии, в том смысле, что он не содер- содержит никаких трендов, тогда как нестационарный ряд таков, что его свойства изменяются со временем. Ряды, встречающиеся на прак- практике, принадлежат обычно к одному из трех видов: ряды, проявляю- проявляющие свойства стационарности в течение долгих периодов времени, например выходные сигналы генераторов шумов; ряды, достаточно стационарные в течение коротких периодов времени, например из- измерения атмосферной турбулентности, и ряды, которые являются явно нестационарными в том смысле, что их видимые свойства не- непрерывно изменяются со временем. Большинство методов, имеющих дело с нестационарными вре- временными рядами, основано на способах устранения или отфильтро- вывания нестационарной части, так что остается ряд, с которым мо- можно обращаться как со стационарным. В одной из недавних работ [2] приведены модели, которые могут описывать нестационарные ряды. Так как статистические свойства стационарных рядов не изменя- изменяются со временем, то эти свойства можно накопить и выявить с по- помощью вычисления некоторых функций от данных. Функция, кото- которую впервые использовали для этой цели, является автоковариаци- автоковариационной функцией. 1.2.2. Автоковариационная функция При классической статистической обработке измерения xt (/=1, 2, ..., N) некоторого физического параметра можно считать незави- независимыми, поскольку эксперименты, порождающие эти наблюдения, физически независимы. Если связанное с этими измерениями рас- 1.2. Описание временных рядов 19 пределение вероятностей fx (x) является нормальным, или гауссов- ¦~еким, то его можно полностью задать своим средним значением*) = ] xfx(x)dx viyB дисперсией f = E[(X-?)*] = J (x-v.ffx(x)dx. A.2.1) A.2.2) Щ" Среднее значение определяет расположение, или центр тяжести рас- ?* нределения, а дисперсия характеризует его изменчивость, или раз- Если наблюдения xt образуют часть временного ряда, то только для чисто случайного ряда соседние величины будут независимы, т. е. на значение величины xt не влияют значения величин xt~i, Xt-2, .... В общем случае соседние величины временного ряда будут "Коррелированы. Поэтому в случае стационарного нормального ряда, кроме среднего значения \х и дисперсии о2, необходимо задать его автоковариационную функцию т («) = я) На практике у(и) может быть оценена с помощью N — u (U) = -L ^ (Xt - A.2.3) A.2.4) где N ( = 1 является средним значением наблюденного временного ряда. ,Функция с (и) называется выборочной автоковариационной функ- Цией временного ряда. Иногда удобно для сравнения рядов с раз- разными масштабами измерений нормировать A.2.4) с помощью деле- деления на дисперсию с@). Таким образом, определяется выборочная автокорреляционная функция /-(«) = TW"- (L2-5) Выборочная автокорреляционная функция для данных турбоге- турбогенератора, изображенных на рис. 1.1, приведена на рис. 1.2. Видно, •«то напряжение имеет высокую положительную корреляцию при *> Символом Е [...] всюду в этой книге обозначается математическое ожи- ожидание случайной величины.— Прим. перев.
20 Гл. 1. Цели и средства анализа временных рядов сдвиге на одну точку, что соответствует 7г сек, сохраняет некоторую положительную корреляцию после 1 сек, но в интервале от 175 до 27г сек проявляет явную отрицательную корреляцию. Это означает, что если имеет место большое напряжение, превышающее среднее значение, то весьма вероятно, что примерно через 2 сек напряже- напряжение спадет ниже среднего значения, и наоборот. Выборочные оценки г(и) для сдвигов от 27г до 10 сек очень малы, но устойчиво отрица- отрицательны; это означает, что в среднем положительное отклонение от -0.2L Рис. 1.2. Выборочная автокорреляционная функция для данных, изображенных на рис. 1.1, //=1000. среднего значения имеет тенденцию к последующему отрицатель- отрицательному отклонению с задержкой от 2 до 10 сек. Однако значения г(и) в этой области крайне малы, и поэтому выводы, основанные на них, могут быть ненадежны. При больших значениях аргумента выбороч- выборочная корреляционная функция обнаруживает периодичность формы напряжения с периодом примерно 3 сек. Эта периодичность, воз- возможно, также может давать некоторый вклад в отрицательную кор- корреляцию для сдвига около 2 сек. Автокорреляционная функция полезна в некоторых случаях, по- поскольку она дает наглядную картину того, как зависимость в ряде затухает с увеличением задержки или разделяющего промежутка и между точками ряда. Однако иногда автокорреляционная функция с трудом поддается интерпретации, так как соседние значения мо- могут быть сильно коррелированы. Это означает, что выборочная ав- 1.2. Описание временных рядов 21 токорреляционная функция может иметь видимые искажения. Бо- Более детальное описание свойств и применений автокорреляционной функции дается в гл. 5. В этой книге мы будем использовать ее главным образом как промежуточную ступень при оценке спектра. 1.2.3. Спектр Предположим, что временной ряд xt состоит из значений коси- нусоидальной функции A.1.1), отсчитываемых в дискретные мо- моменты. Тогда можно проверить, что для частот /0, кратных основной частоте \jN, дисперсия, подсчитанная по формуле A.2.4), равна а2/2. Если xt измеряется в вольтах, то это означает, что средняя мощность переменного тока, или дисперсия ряда, равна а2/2вт. В бо- более общем случае, когда xt состоит из смеси нескольких косинусои- дальных волн с частотами U и амплитудами а,, дисперсия равна A.2.6) Результат A.2.6) показывает, что если xi можно считать состоящим из смеси косинусоидальных волн, то его дисперсию можно разло- разложить на компоненты со средней мощностью, или дисперсией, а2./2, соответствующие различным частотам fj. В гл. 6 будет показано, что если xt является стационарным временным рядом, то дисперсию соответствующего случайного процесса можно разложить на компо- компоненты, интегрируемые по непрерывной области частот, согласно формуле оо —оо где F(f) называется спектром мощности этого случайного процесса. Таким образом, Г(/N/ есть приближенная мера средней мощности, или дисперсии, в полосе частот от / до f + df. Выборочная оценка спектра данных турбогенератора, приведен- приведенных на рис. 1.1, показана на рис. 1.3. Отличительная черта этого спектра состоит в том, что высокая мощность сосредоточена на низ- низких частотах, а на высоких частотах мощность невелика. Это про- происходит главным образом из-за больших положительных значений выборочной автокорреляционной функции при сдвигах, равных 1 и 2. Заметим также, что мощность не спадает равномерно от низких к высоким частотам. Вместо этого имеется плоская область в рай- районе 0—7г гц. Имеется также хорошо выраженный небольшой пик на частоте 0,39 гц, или периоде 2,54 сек, который, возможно, объяс- объясняет небольшую периодичность выборочной корреляционной функ- функции на рис. 1.2 при больших значениях аргумента.
22 Гл. I. Цели и средства анализа временных рядов 1.2. Описание временных рядов В гл. 6 будет также показано, что спектр и автоковариационндя функция связаны соотношением преобразования Фурье Г(/)= J 7 («) cos 2тс/и du, A.2.7) "Ш f О 0,125 0,25 0,375 0,5 0,625 0,004 k 0,002[- ,15 0,875 1,0 Г,гц Меньше, чем 0,001 Рис. 1.3. Выборочная оценка спектра для изображенных на рис. 1.1 данных W=1000. и поэтому знание автоковариационной функции процесса эквива- эквивалентно знанию спектра процесса. Однако при анализе записей конечной длины спектр часто пред- предпочтительней, чем автоковариационная функция. Во-первых, оценки спектра на соседних частотах приближенно независимы, и поэтому выборочный спектр обычно легче интерпретировать, чем выбороч- выборочную автоковариационную функцию. И во-вторых, что важнее, во многих физических задачах спектр представляет непосредственный физический интерес. Примеры использования спектрального ана- анализа будут даны в разд. 1.3. Цифровые фильтры. Хотя для описания случайного процесса с помощью его спектра и необходимо предполагать стационарность, на практике предположение стационарности не представляет серь- серьезной проблемы. Это происходит из-за того, что спектр отделяет UOr Рис. 1.4. Функция усиления для фильтра первых разностей. вклады во временной ряд, которые можно приписывать различным частотным полосам. Нестационарный ряд обычно характеризуется присутствием большой мощности на низких частотах. Однако во многих практических приложениях представляющая интерес ин- информация может быть сосредоточена на высоких частотах. В таких случаях все, что нужно сделать, — это отфильтровать нестационар- нестационарные низкочастотные компоненты и использовать оставшийся ряд для спектрального анализа. Особенно простой вид цифрового фильтра для устранения низко- низкочастотных компонент представляет собой фильтр первых разностей у< = (*,-*,_,). A.2.8)
24 Гл. 1. Цели и средства анализа временных рядов Коэффициент усиления G(f) этого фильтра показан на рис. 1.4. Он характеризует степень пропускания фильтром косинусоидальной волны частоты /. Видно, что низкие частоты значительно ослаблены и, следовательно, будут менее заметны на выходе фильтра. 1.2.4. Параметрические модели временных рядов Во многих задачах, таких, например, где требуется предсказать будущие значения ряда, необходимо построить параметрическую модель для временного ряда. Для того чтобы модель была полез- полезной, она должна иметь физический смысл и включать по возможно- возможности небольшое число параметров. Мощной параметрической мо- моделью, которая широко используется на практике для описания эмпирических временных рядов, является процесс скользящего сред- среднего — авторегрессии: Xt — f* = a, (Xt_ ,-[J.)+ ... +*m(Xt__m — v.) + + Z/ + p,Z,_1+ ... +p/Z,_I, A.2.9) где Zt — чисто случайный ряд, или белый шум, и ц — средний уро- уровень Xt. Модель A.2.9) имеет физический смысл, так как она явля- является дискретным аналогом хорошо известного линейного дифферен- дифференциального уравнения, используемого для описания линейных си- систем. Таким образом, эта модель представляет временной ряд в виде выходного сигнала некоторой линейной системы, на вход ко- которой подается белый шум. Вводя подходящее число параметров а и р в A.2.9), можно после соответствующих вычислений [2] сопо- сопоставить большинству эмпирических временных рядов относительно небольшое число параметров. Решение о том, использовать ли автоковариационную функцию, спектр или параметрическую модель, будет определяться на прак- практике требованиями конкретной ситуации. Различные условия потре- потребуют различных методов подхода, и поэтому важно уяснить, что не существует единого подхода, который нужно было бы применять к анализу временных рядов во всех ситуациях. 1.3. ЦЕЛИ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ В этой книге будет описано несколько различных применений спектрального анализа. Поскольку спектральный анализ является почти единственным оружием, имеющимся в распоряжении для анализа временных рядов, полезно обсудить природу задач, касаю- касающихся временных рядов, в несколько более общей постановке. Задачи о временных рядах можно классифицировать, рискуя впасть в слишком сильное упрощение, на те, которые требуют в той или иной форме построения моделей, и те, которые приводят к изу- 1.3. Цели анализа временных рядов 25 чению частотных характеристик. Эти категории неизбежно должны несколько перекрываться. 1.3.1. Построение моделей Легко можно отличить друг от друга несколько различных ви- видов моделей, например пробную и усовершенствованную, эмпири- эмпирическую и физическую, параметрическую и непараметрическую. Пробная и усовершенствованная модели. На ранних стадиях ра- работы исследователь может знать очень мало о каком-нибудь кон- конкретном явлении. Основная цель анализа временных рядов на этом этапе может состоять в том, чтобы посмотреть на данные с различ- различных точек зрения и увидеть, какие можно выдвинуть гипотезы. На- Например, изучение спектра поля вертикальных скоростей атмосфер- атмосферной турбулентности [3] показывало, что пик этого спектра сдвига- сдвигается в сторону низких частот с увеличением солнечной радиации. Это наводило на мысль, что существуют две различные причины флуктуации атмосферной турбулентности: высокочастотная компо- компонента, обусловленная силами трения, и низкочастотная компонента, обусловленная тепловой конвекцией, вызванной солнечной радиа- радиацией. В результате после этого пробного анализа оказалось возмож- возможным начать построение более реальной модели атмосферной турбу- турбулентности. Часто случается, как это было в только что изложенном при- примере, что первоначально предполагаемая модель временного ряда впоследствии может оказаться несовершенной. Природа этого несо- несовершенства пробной модели может быть использована тогда для ее модификации и построения более совершенной модели. Эмпирические и физические модели. В некоторых случаях можно построить детальные модели временного ряда, основанные на физике, лежащей в основе явления. Например, большие усилия были затрачены на построение моделей атмосферной турбулентно- турбулентности [3] и гидродинамической турбулентности [4]. В других ситуациях об исследуемом явлении известно так мало, что нужно прибегать к подгонке эмпирических моделей, таких, как модель скользящего среднего — авторегрессии A.2.9). Большое преимущество физиче- физических моделей состоит в том, что они обычно требуют меньшего ко- количества параметров, чем эмпирические модели. Чтобы принять ре- решение о том, тратить ли время и усилия для нахождения физиче- физической модели или же прибегнуть к помощи эмпирической модели, требуется рассудительность и интуиция. Вообще необходимо идти на компромисс и использовать любые доступные физические сведе- сведения, чтобы иметь основу в начале построения.
26 Гл. 1. Цели и средства анализа временных рядов Параметрические и непараметрические модели. Модель скользя- скользящего среднего — авторегрессии A.2.9) является параметрической моделью. Чтобы подобрать такую модель, нужно оценить по наблю- наблюдаемым данным небольшой набор параметров. С другой стороны, описание временного ряда, даваемое автокорреляционной функцией или спектром, является непараметрическим (или многопараметри- многопараметрическим, так как для того, чтобы задать весь процесс, требуется дей- действительно бесконечное число параметров). x,(t) Вход Линейная система xz(t) Выход Рис. 1.5. Схематическое изо- изображение линейной системы. Оценка динамической модели линейной системы, показанной на рис. 1.5, представляет собой задачу, к которой можно применить оба эти метода. В простейшем случае, когда имеется один вход Х\ и один выход Хг, динамическую модель можно оценить по записям Xi(t), Xz(t) входного и выходного сигналов. Например, может быть известно, что некоторая простая параметрическая модель, такая, как является подходящей. Эта модель содержит один параметр Т, назы- называемый постоянной времени этой системы. В других случаях более подходящим является описание системы с помощью некоторой не- непараметрической модели, требующей задания функции усиления G{f) и фазовой характеристики ф(/) этой системы. Они являются функциями, описывающими отклик системы на косинусоидальные волны с различными частотами /. Так, входная косинусоидальная волна Xi(t) = a cos 2л// появляется на выходе как косинусоидальная волна x2(t) = aG (/) cos Bл//-f ф (/)), т. е. ее амплитуда изменилась от а до aG(f), а фаза сдвинулась на ф(/). В гл. 10 будет показано, что анализ взаимных спектров можно использовать для оценки ко- коэффициента усиления и сдвига фазы линейной системы. В некоторых ситуациях амплитудно-фазовое описание предпоч- предпочтительнее, так как модель может быть нужна лишь в ограниченной полосе частот. В других может оказаться лучше полное описание, даваемое параметрической моделью. Поскольку спектральный анализ является непараметрическим методом, его применение в области построения моделей ограничено. Однако он полезен иногда, как это было в упомянутом выше при- примере с турбулентностью, для выдвижения пробных моделей, кото- которые можно затем подобрать параметрически. 1.3. Цели анализа временных рядов 27 1.3.2. Использование моделей временных рядов Модели временных рядов используются для различных целей. Наиболее распространенными из них являются: а) прогнозирова- прогнозирование, б) оценивание передаточных функций, в) фильтрация и управ- управление, г) имитация и оптимизация и д) создание новых физических теорий. Прогнозирование. Под прогнозированием понимается оценива- оценивание будущих значений x(t + T) временного ряда из некоторого ин- интервала будущих значений О^Г^/ по значениям временного ряда до момента t включительно. Прогнозирование экономических и про- промышленных временных рядов представляет очень важное примене- применение временных рядов и обсуждается в работе [2]. Оценивание передаточных функций. Это применение обсужда- обсуждалось выше. Фильтрация и управление. Более общей задачей, чем описанное выше прогнозирование, является задача линейной фильтрации в том виде, как она была сформулирована Винером [5, 1*]. Линейный фильтр представляет собой устройство, которое, действуя на вход- входной сигнал Xi(t), дает выходной сигнал x2(t) согласно формуле х2 @ = — и) A.3.1) где h{u) — весовая функция, или функция отклика фильтра на еди- единичный импульс. Предположим, что на вход подается процесс Xi(t) = s(t)+ z(t), где s(t) — сигнал, или полезная информация, a z(t) — шум, или нежелательная информация. Требуется найти, как показано на рис. 1.6, такой фильтр, который давал бы на вы- выходе некоторую функцию от сигнала в будущий момент времени Т. Например, желаемый выход мог бы быть следующим: В этом случае оптимальный фильтр определяется как весовая функция, которая минимизирует средний квадрат сигнала ошибки между действительным и желаемым выходными процессами. Если в распоряжении имеются модели для случайных процессов, описы- описывающих сигнал s(t) и шум z(t), то можно использовать разработан- разработанные методы [6] вычисления коэффициента усиления и фазовой ха- характеристики оптимального фильтра. Фактически вычисление
28 Гл. 1. Цели и средства анализа временных рядов оптимального фильтра осуществляется легче по спектрам сигнала s (t) и шума z(t). В теории управления требуется следить за некоторым заданным сигналом s(t) с возможно меньшей ошибкой. Можно показать [6], что эта задача сводится к частному случаю задачи фильтрации, описанной выше. z(t) шум Сигнал Линейный фильтр x,(t) sffl _ Вход Идеальная передаточная Функция Выход /Ошибка Рис. 1.6. Схематическое изображение общей задачи фильтрации. Имитация и оптимизация. Многие системы, например системы электронного управления, являются слишком сложными, для того чтобы их изучать или оптимизировать аналитически. В таком случае система может быть имитирована с помощью аналоговых, числовых и гибридных вычислительных машин. Возмущения, попадающие в реальную систему в различных местах, можно измерить, и, если таких данных достаточно, они могут быть поданы непосредственно в имитатор. Однако объем данных, требуемых для изучения имита- имитации, обычно так велик, что возникает необходимость подобрать мо- модели для возмущений. Эти модели затем можно использовать для генерирования неограниченного количества искусственных данных, которые затем можно использовать в имитации. Создание новых физических теорий. Изложенные выше приме- применения моделей временных рядов относятся к инженерным задачам. Применение анализа временных рядов в физике отличается не- несколько иным подходом. Физик интересуется созданием теорий фи- физических явлений, которые можно использовать для предсказания в возможно более широком диапазоне ситуаций. Поэтому изобре- изобретаемые им модели являются более детальными, чем те, которые ис- используют инженеры, и должны постоянно модифицироваться и рас- расширяться по мере все большего понимания физической сущности 1.3. Цели анализа временных рядов 29 явлений. Использование анализа временных рядов при построении физических моделей атмосферной турбулентности хорошо проиллю- проиллюстрировано в [3]. 1.3.3. Изучение частотных характеристик Хотя спектральный анализ и играет большую роль в построении моделей временных рядов, однако наиболее подходящим он явля- является в задачах изучения частотных характеристик. Выше упоминалось, что линейная система A.3.1) преобразует косинусоидальную входную волну Xi(t) = acos2nft в косинусо- идальную выходную волну x2(t) = aG(f) cos Bя/Л-<р(/)). В гл. 6 бу- будет показано, что если Xi(t) — стационарный временной ряд, то из- изменение спектра входного процесса состоит в умножении его на квадрат коэффициента усиления фильтра. Значит, спектр x2(t) ра- равен A.3.2) Рис 1.7 показывает результат прохождения входного сигнала со спектром, обозначенным буквой а этого рисунка, через три системы, квадраты коэффициентов усиления которых даны у буквы б. В при- примерах, проиллюстрированных на рис. 1.7, входной сигнал характе- характеризует неровности взлетно-посадочной полосы, система представ- представляет собой шасси самолета, а выходным сигналом является типич- типичная реакция самолета, такая, как ускорение его центра тяжести. Ис- Используя результат A.3.2), нетрудно увидеть, что сочетание входного спектра с частотной характеристикой шасси, отмеченной цифрой 3, дает выходной спектр с очень острым пиком, как показано на рис. 1.7, в. Это показывает, что на данной резонансной частоте бу- будут возникать большие ускорения, создающие неприятные ощуще- ощущения у пассажиров и приводящие к большим напряжениям в шасси. Зная графики коэффициентов усиления для шасси типичных само- самолетов при типичных посадочных скоростях, можно составить норма- нормативы для неровностей взлетно-посадочных полос. В только что разобранном примере можно было изменять входной спектр, конструируя соответствующие взлетно-посадочные полосы, но характеристики шасси определяются обычно из других сообра- соображений и поэтому должны рассматриваться как фиксированные. На- Наоборот, при конструировании узлов подвески для мотоциклов и ав- автомобилей картина обратная. В последние годы конструирование систем подвески в некоторых компаниях основывается на измере- измерениях неровностей дорог в конкретной стране. Характеристики дорог сильно изменяются от страны к стране, и поэтому системы под- подвески должны проектрироваться соответственным образом. Изучение частотных характеристик можно применять также при конструировании самолетов и для планирования экспериментов
rzz(f) 1.4. Круг вопросов, рассмотренных в книге 31 Рис. 1.7. Результат воздействия пиков входного спектра, амортизации и скоро» сти на отклик самолета. с целью оптимизации промышленных процессов. Эти применения обсуждаются подробнее в гл. 7. 1.4. КРУГ ВОПРОСОВ, РАССМОТРЕННЫХ В ДАННОЙ КНИГЕ Нет никакого сомнения, что спектральные методы призваны сы- сыграть важную роль в анализе временных рядов. Однако важно уяс- уяснить, что они действительно имеют ограничения и должны приме- применяться разумно. Первые результаты по оцениванию спектров, осно- основанному на записях конечной длины, можно найти в книгах Барт- лента [7] и Блэкмана и Тьюки [8]. В этих книгах рассматриваются главным образом вопросы оце- оценивания спектров одиночных временных рядов. В настоящей книге эти понятия распространяются на случай оценивания спектров и взаимных спектров нескольких временных рядов и их последующего использования для оценки коэффициентов усиления и фазовых ха- характеристик линейных систем. Несколько разделов спектрального анализа не включены в эту книгу. Среди них важным является спектральный анализ случайных процессов, зависящих от нескольких переменных *), например вы- высоты океанских волн как функции земных координат. Другой опу- опущенный раздел — спектры высших порядков, например биспектр. Спектры высших порядков полезны при анализе негауссовских про- процессов и нелинейных систем. Случайные поля были опущены из-за того, что книга и так уже очень велика. Что касается нелинейных спектров, то они были опущены главным образом потому, что, по нашему мнению, дополнительные усложнения, вносимые этими спектрами, затрудняют их широкое использование. По данным, имеющимся к настоящему времени, чувствуется, что параметриче- параметрические методы больше подходят в этих ситуациях. ЛИТЕРАТУРА 1. Granger С. W. J., Spectral Analysis of Economic Time Series, Princeton Univ. Press, Princeton, 1964. 2. Box Q. E. P., Jenkins Q. M., Time Series Analysis Forecasting and Con- Control, Holden-Day, San Francisco, 1970. 3. Lumley J. L., P a n о f s k у Н. A., The Structure of Atmospheric Turbulence, John Wiley, New York, 1964. (Русский перевод: Л а м л и Дж., Панов- ский Г., «Структура атмосферной турбулентности», М, изд-во «Мир», 1966.) 4. Ва tchelor G. К., The Theory of Homogeneous Turbulence, Cambridge Univ. Press, Cambridge, 1953. 5. Wiener N., The Extrapolation, Interpolation and Smoothing of Stationary Time Series with Engineering Applications, John Wiley, New York, 1949. *> В советской литературе такие случайные процессы называются случайными полями.— Прим. перев.
32 Литература 7 ИЛ 1958) в задачах автоматического управления М, ?с^М.иЛШ58) 8. BlackraanR. В., fukey J. W, The Measurement of Power Spectra from the Point of V!ew of Communications Engineering, Dover, New York 195& Глава 2 АНАЛИЗ ФУРЬЕ Спектральный анализ объединяет два важных теоретических подхода: статистический анализ временных рядов и методы анализа Фурье. Последние не нуждаются в подробном изложении для инже- инженеров, так как значительная часть инженерной подготовки базиру- базируется на этих методах. Однако ради полноты изложения и для удоб- удобства других читателей в этой главе будут описаны те понятия ана- анализа Фурье, которые необходимы для анализа временных рядов. В последующих главах будет показано, как должны быть модифи- модифицированы методы Фурье для обработки функций времени, которые являются скорее статистическими, чем детерминированными. 2.1. ВВЕДЕНИЕ 2.1.1. Роль анализа Фурье в прикладной математике и в технических науках Аналитические методы, развитые Жаном Батистом Жозефом Фурье A768—1830), сыграли важную роль в развитии прикладной математики. Особенно важны они для трех приложений: а) для изучения периодических решений физических задач, описываемых дифференциальными уравнениями, особенно уравнениями в част- частных производных, например, для изучения волновых колебаний струн, возбужденных щипком, или для передачи электромаг- электромагнитных волн по волноводам или кабелям; б) как операционный спо- способ решения дифференциальных уравнений; например, обыкновен- обыкновенные дифференциальные уравнения с постоянными коэффициентами можно перевести с помощью преобразования Фурье в алгебраиче- алгебраические уравнения; в) для приближения непериодических функций. В этой книге мы будем иметь дело в основном с последним слу* чаем и лишь эпизодически с решением дифференциальных уравне- уравнений. Периодические решения физических задач рассматриваться не будут. В качестве примера приближения непериодической функции рассмотрим детерминированную функцию s(t) времени t, которую будем называть сигналом и которую нужно аппроксимировать с по- помощью выбранных подходящим образом периодических функ- функций. Детерминированный сигнал является функцией, которая 2 Заказ № 1210
34 Гл. 2. Анализ Фурье известна точно для всех моментов времени, и поэтому представляет математическую идеализацию. Примерами детерминированных сиг- сигналов являются или s (t) = Многие сигналы, встречающиеся на практике, полезно рассматри- рассматривать как детерминированные, например следующие: напряжение в сети как функцию времени; выход генератора прямоугольных волн; перемещение предмета, подверженного внезапному воздейст- воздействию постоянной силы; ток, протекающий через сопротивление, когда оно внезапно замыкается на заряженный конденсатор. Размерность первых двух сигналов выражается в вольтах, третьего — в метрах и четвертого — в амперах. Однако размерность сигнала могла бы быть и метром в секунду, если бы сигнал был скоростью, и едини- единицей температуры, давления и т. д. Для того чтобы не возникало про- противоречий, всегда будет предполагаться, что t измеряется в секун- секундах, а s (t) — в вольтах, поскольку в большинстве практических приложений изучаемая физическая величина перед регистрацией переводится в напряжение. Детерминированная функция, упомянутая в первом случае, яв- является непериодической, в то время как во втором случае функ- функция — периодическая. Слово «периодическая» означает, что сущест-. вует число Т, называемое периодом функции, такое, что s(t)=s(t + T) B.1.1) для всех t. Между моментами времени t и t + T функция может иметь со- совершенно произвольную форму. Особенно простой формой обладает косинусоидальная функция в упомянутом выше примере, которая имеет период Т = l/fi, так как a cos 2wf1 U + у-1 = a cos Непериодическую функцию можно представить, используя лю- любой класс периодических функций. В анализе Фурье такими функ- функциями являются синусоидальная и косинусоидальная. Они обла- обладают важным свойством ортогональности, так что коэффициенты можно находить независимо друг от друга. 2.1.2. Конечные ряды Фурье Рассмотрим сигнал, заданный лишь в дискретные моменты вре- времени, и предположим, что нужно разложить его пО периодическим функциям. Дискретный сигнал можно рассматривать как получен- полученный из непрерывного сигнала s(t) длительности Т при отсчете зна- 2.1. Введение 35 чений сигнала через интервалы времени Д, как показано на рис. 2.1а. Это дает N = Т/А выбранных значений sr, где sr = s(/ = M). B.1.2) Для удобства будем считать, что N четное и равно 2п, так что г мо- может изменяться по целым числам —п,..., О, 1, ..., п—1, AAA. п- ягармоникаГп=к,Тп=2й А Л VV Рис. 2.1. а — дискретный сигнал, полученный выбиранием из непрерывного сиг- сигнала; б — основная синусоида и гармоники. Заметим, что периодические функции, проходящие через значе- значения сигнала, в указанные N моментов времени, могут быть выбраны бесконечным множеством способов. Например, конечный ряд Фурье . л — I B.1.3) 21»
36 Гл. 2. Анализ Фурье содержит N констант Ат и Вт, которые можно определить так, чтобы дискретные и непрерывные значения совпадали в точках t = rA, т. е. Sr(t) — sr. Следовательно, функция s (t) дает приближе- приближение к исходной непрерывной функции s(t) в интервале—T/2 < Т/2. Заменяя t на гА в B.1.3) и полагая s(rA) = sr, получаем си- систему N уравнений для N неизвестных констант. Уравнения имеют вид л —1 sr = Ло cos sin + Awcos2iw/1rA (r=—n, ..., 0, 1, ..., ft—1). B.1.4) Выбрав f\=l/NA, мы сильно упростим решение системы урав- уравнений B.1.4), так как при этом синусы и косинусы будут ортого- ортогональны, т. е. будут удовлетворять следующим соотношениям: J, л —1 2 sin N cos N = 0, я, т целые; 2-xkr . 2nmr Sin —г;— Sin N COS N COS N 2-nmr ~JT~ 0. N_ 2 0, k = m = 0, N, k = m = n, n; n, п. B.1.5) Частота fi=\/NA называется основной частотой сигнала s(t); она соответствует периоду, равному длине записи, как показано на рис. 2.1,6. Величина /ч измеряется в периодах в секунду, или гер- герцах (гц), если t измеряется в секундах (сек). Таким образом, функция s'(t) в B.1.3) составлена из суммы си- синусоидальных и косинусоидальных функций, частоты которых кратны основной частоте /ч, т. е. являются гармониками основной частоты, как показано на рис. 2.1, б. Наивысшей из присутствую- присутствующих частот является n/NA= 1/2Д гц, что соответствует периоду, равному двум интервалам отсчета. Коэффициенты Ат или Вт в случае /ч= 1/Л^Д можно найти, ум- умножая обе части B.1.4) на cos Bnmr/N) или sin Bnmr/N) и сумми- суммируя по г, а затем воспользовавшись соотношениями ортогонально- ортогональности B.1.5). 2.1. Введение 37 Окончательные выражения для коэффициентов следующие: 2птг л —1 SrC0S л —1 2-итг N B.1.6) B.1.7) где т = 0, 1, ..., п. Ао является средним значением, или средним арифметическим, величин sr. Аналогичные выражения можно полу- получить, когда число точек N нечетно, скажем 2п — 1, причем единст- единственное отличие будет лишь в том, что член Ап исчезает. Пример. Рассмотрим данные табл. 2.1., которая дает интенсив- интенсивность сигналов, отраженных от одного из слоев Е в ионосфере. При- Приведенные цифры являются осредненными по нескольким месяцам значениями интенсивности в фиксированное время суток. Таблица 2.1 Время Средняя интен- интенсивность Интенсивности 0 1 -6 -20 сигналов, 2 —28 - отраженных от ионосферы 3 4 5 6 7 8 -8 —1 7 —20 —6 —7 9 14 10 19 и 12 Табл. 2.2 дает значения коэффициентов Ат и Вт, вычисленные по B.1.6) и B.1.7), причем за начало отсчета времени бралось 6 час. Коэффициент Л2, например, получается следующим образом: + A2) cos 5тг = -^{-6-10+...+6} = -2,25. Амплитудное и фазовое представление. Иногда удобнее записы- записывать B.1.3) в виде я —1 где и =— Rnsin<?m. B.1.8) B.1.9) B.1.10)
38 Гл. 2. Анализ Фурье Rm называется амплитудой и <рт — фазой пг-и гармоники относи- относительно некоторого произвольного начала отсчета времени. В при- приведенных выше формулах начало отсчета времени бралось в точке, расположенной примерно посередине между первым и последним значениями sr. Если бы мы изменили это начало отсчета, то ампли- амплитуда осталась бы прежней, а фаза изменилась соответствующим об- образом. Амплитуды и фазы для ионосферных данных приведены в табл. 2.2. Таблица 2.2 Разложение Фурье среднеквадратичного значения сигнала, представляющего ионосферные данные Источник Среднее значение Основная гармо- гармоника 2-я гармоника 3-я гармоника 4-я гармоника 5-я гармоника 6-я гармоника Полное количе- количество m 0 1 2 3 4 5 6 —3,667 —0,475 -2,250 —1,250 -0,667 — 1,775 -3,500 Bm 0 5,584 -7,073 -0,250 0,577 -0,334 0 3,667 5,604 7,422 1,275 0,882 1,806 3,500 Ym 180° 85 -72 —11 41 — 11 0 Вклад в средне- среднеквадратичное значение 13,44 62,81 110,17 3,25 1,56 6,52 12,25 210,00 Теорема Парсеваля. Среднеквадратичная величина, или сред- средняя мощность, сигнала sr равна и —1 N г = —п Используя B.1.3) и свойства ортогональности B.1.5), можно убе- убедиться в том, что эта величина записывается в виде л —1 и —I 1 > oz oz _1_ О > D J_ D /0 1 114 что является частным случаем теоремы Парсеваля. Другими сло- словами, эта теорема утверждает, что среднеквадратичное значение сигнала sr, или средняя мощность, рассеиваемая сигналом sr, мо- может быть разложена на составляющие', даваемые каждой гармони- 2.1. Введение 39 кой. Для нулевой и n-й гармоник вклад равен R2 (щ = 0, щ = п), а для m-й гармоники {тфО, тфп) средняя мощность равна 2R2 . Более удобной мерой является среднеквадратичное значение сигнала sr относительно среднего ^о. Оно просто равно дисперсии л—I л—1 ?m+Rl, B.1.12) T — —n m = \ или, в терминах электротехники, средней мощности переменного тока. Разложение среднеквадратичного значения sr для ионосферных дан- данных приведено в табл. 2.2. Мы ви- видим, что среднее значение, основная и вторая гармоники составляют око- § jio 89% всей среднеквадратичной | gg суммы, что указывает на то, что дан- | ные очень хорошо приближаются ^ с помощью модели "tr I sr= -3,67 + 11,2 cos •85° + + 14,8 cos [-^-—72' Разложение среднеквадратичной •суммы можно представить, нанеся на график среднюю мощность rap- моники против частоты этой гар- Рис. 2.2. Линейчатый спектр Фурье (пе- (периодограмма). 1 1 I 20 D I О 4 3 12 г Периоды в час моники. Такой график называется линейчатым спектром Фурье; для ионосферных данных он показан на рис. 2.2. Комплексные ряды Фурье. Приведенные выше формулы гро- громоздки в обращении, поэтому для удобства в работе с ними лучше выразить сигнал sr через коплексные амплитуды Sm, где Sm = Rme+1?m = Ani-jBm, /=-1. B.1.13) Таким образом, B.1.3) можно записать в виде B.1.14) »= 2 Sme"»
40 Гл. 2. Анализ Фурье где S-m = S* , причем звездочка означает комплексное сопряжение. Аналогично формулы B.1.6) и B.1.7) переходят в = lf 2 и теорема Парсеваля B.1.11) записывается как п—1 и —1 B.1.15) B.1.16) Следовательно, вклад в среднеквадратичную сумму, вносимый чле- членом 2R2m в B.1.11), разделяется в B.1.16) на две части, каждая из которых равна \Sm\z = Rzm; одна соответствует частоте mfu а дру- другая — частоте —mfi. Во всей этой книге окажется удобнее оперировать с комплекс- комплексными преобразованиями. Получаемые при этом формулы можно привести к вещественному виду, взяв действительную и мнимую ча- части. Например, беря действительную и мнимую части от B.1.15), получаем синус- и косинус-преобразования B.1.6) и B.1.7). 2.1.3. Ряды Фурье Предположим, что нам нужно получить представление Фурье для непрерывного сигнала на интервале от —Г/2 до Г/2. Заметим, что если в выкладках предыдущего раздела интервал отсчета Д устремить к нулю, то выбранные точки сигнала sT будут все полнее прослеживать непрерывный сигнал s(t). Непрерывный сигнал s(t), на который накладываются условия, чтобы он проходил через выб- выбранные точки сигнала sr, должен при этом совпадать с s (t), и по- поэтому в этом предельном случае представление Фурье s(t) будет точным представлением сигнала s (t) на интервале от —Г/2 до Г/2. Коэффициенты Фурье Sm, определяемые в B.1.15), можно пе- переписать в виде = Ж 2 и если Д-»-0 и N-тоо, так что N • Д = Г, то гА- B.1.17) стремится к интегралу Г/2 BЛ.17) W, srA-*s(t)dt и сумма B.1.18) j — T/2 2.1. Введение 41 Аналогично B.1.14) стремится к оо • ю- 2 s. т = —оо Теорема Парсеваля B.1.16) теперь переходит в Г/2 оо B.1.19) B.1.20) — Г/2 т — —оа поскольку B.1.16) можно записать в виде л —1 1 "V „2, л —1 и s2r A->-s2 (t) dt, когда Д-»-0 и N-*-oo. Уравнение B.1.20) утверж- утверждает, что средний квадрат непрерывного периодического сигнала s (t) можно разложить на бесконечное число вкладов от гармоник fm = rn/T(—oo<m< + oo) основной частоты \/Т гц. Уравнение B.1.19) называется представлением функции s{t) в виде ряда Фурье на интервале —T/2^t<T/2. Заметим, что хотя приведен- приведенные выше рассуждения являются эвристическими, они могут быть строго обоснованы. 2.1.4. Интегралы Фурье До сих пор было показано, что с помощью тригонометрических рядов можно представить два типа сигналов. Сигналы первого типа sr состояли из конечного числа N ординат, отстоящих на Д сек друг от друга. Сигналы этого типа можно было бы представить на дан- данном интервале с помощью непрерывного сигнала s(t), образован- образованного N гармониками основной частоты 1/Л^Д гц. Максимальной из присутствующих частот является 1/2Д гц, и поэтому про сигнал s(t) говорят, что он имеет ограниченную полосу частот. Сигналы второго типа s(t) были непрерывными сигналами, заданными на ин- интервале —T/2^t^T/2. Мы видели, что сигналы такого типа можно представить на этом интервале с помощью некоторого сигнала, со- состоящего из бесконечного числа гармоник основной частоты 1/Г гц. В более общем случае нужно рассматривать сигналы s(t) тре- третьего типа, определенные на бесконечном интервале —оо^^^со. Соответствующий подход является предельным случаем анализа Фурье, изложенного в разд. 2.1.3, в котором рассматриваются не- неограниченно увеличивающиеся отрезки бесконечной записи. По мере того как Г стремится к бесконечности, частотный интервал 1/Г между соседними гармониками становится бесконечно малым, чте приводит к непрерывному распределению амплитуд по частоте.
42 Гл. 2. Анализ Фурье Чтобы продемонстрировать эти предельные рассуждения, можно переписать B.1.19) в виде s(t)= B.1.21) В пределе, когда Г->оо, m/T-+f, l/T->df и TSm->-S (/). Поэтому B.1.21) стремится к интегралу j2*ft s{t) = \ S(f)ej2*ftdf. Аналогично B.1.18) можно переписать в виде Г/2 TSm= f s(t)e-J2KlmlT)idt, -Г/2 что стремится к 5(/)= \ s{t)e e-l2*ft dt, B.1.22) B.1.23) B.1.24) когда Т-+О0. Функция S(f) называется преобразованием Фурье 'функции s(t). Соотношение Парсеваля B.1.20) для случая бесконечного ин- интервала можно записать в виде Г/2 оо J s*(t)dt= 2 ITSJ'^r, B.1.25) — Г/2 m = — oo что стремится к B.1.26) = ] \S(f)\*df. Предельные операции в B.1.25) можно представить себе следую- следующим образом: сначала считаем, что мощность, или дисперсия, | 5ОТ12 на частоте т/Т распределяется на полосе частот шириной 1/7\ что дает среднюю мощность T\Sm\2 в этой полосе; затем эта средняя мощность стремится к непрерывному распределению мощности по частоте по мере того, как ширина полосы становится бесконечно малой. Физически преобразование Фурье S(f) представляет собой рас- распределение интенсивности сигнала по частоте, т. е. является функ- функцией плотности. Если s измеряется в вольтах и г—в секундах, то размерность S(f) есть «вольт-секунда», или «вольт на единицу ча- частоты», так как f имеет размерность частоты , т. е. сек'1. В математических руководствах по анализу Фурье приводится множество достаточных условий для существования интегралов ев о. S а. о ¦е- и « о. Обратное преобразование Преобразование Функция Описание < Е с If S 1 С \ С/ ^ 8 II + oS У ^ 5 т? V/ t ¦» ^11 8 II I —ч •4 _^ ¦0 1 с к" II 3 S 7 ¦о" О" с" II Конечный дискретный ряд S 8 ^ и Я II II 0 S ! ^ I СО в 1 CN О) Т +1 ^ +1 ?7j °" II ^ 8 + V/ ^ V/ 1 8 со Непрерывная периоди- периодическая функция С v/ ^Г v/ о р СО Л V/ ^ V/ 1! ' 1 со 8 8 1 Непрерывная апери- апериодическая функция
44 Гл. 2. Анализ Фурье B.1.22) и B.1.24). В этой книге мы обходим эти условия, используя теорию обобщенных функций, начало которой было положено Ди- Дираком и которая впоследствии была строго обоснована Шварцем. Превосходное описание этой теории дано в [1, 4*]; можно рекомен- рекомендовать также [2]. Согласно этой теории, каждая обобщенная функ- функция имеет преобразование Фурье, которое само является обобщен- обобщенной функцией. Одно из следствий этой теории заключается в том, что ряд Фурье можно рассматривать как частный случай интеграла Фурье, как мы увидим впоследствии. Результаты разд. 2.1 резюми-' рованы в табл. 2.3 на стр. 43. 2.2. ПРЕОБРАЗОВАНИЯ ФУРЬЕ И ИХ СВОЙСТВА 2.2.1. Функции с хорошим поведением В качестве примера применения B.1.24) рассмотрим преобразо- преобразование Фурье простой функции s (t) = e~J'l,. Тогда 5(/)= J В табл. 2.4 приведены преобразования Фурье некоторых сигналов s(t), которые нам понадобятся позднее. Таблица 2.4 Некоторые простые функции и их преобразования Фурье {0, и e-a\t\ s(t) оо ^ /<; оо) \t\>b \t\<.b cos 2те/0/ a a2 + [2* (/ H 2/[l + B*/J -M 2vfb I h /0)J2 ' 02 + [2a a (/ -/o)l2 Эти сигналы и их преобразования изображены на рис. 2.3. Вспо- Вспоминая, что S(f) дает распределение интенсивности сигнала по ча- частоте, отметим, что сигнал на рис. 2.3, а является вполне плавным, и поэтому в его преобразовании доминируют низкие частоты. Заме- 2.2. Преобразования Фурье и их свойства 45 тим также, что острые углы в s (t), как на рис. 2.3, б, создают вол- волнистую рябь, или боковые лепестки, в преобразовании, а периодич- iS(f) -ь s(t) \_7 -L 1 Л. гь ь 26 Рис, 2.3. Некоторые простые сигналы и их преобразования Фурье ности в s(t) появляются в преобразовании в виде пиков, что видно на рис. 2.3, в. Все сигналы в табл. 2.4 являются четными функциями /, и по- поэтому их преобразования Фурье являются действительными и
46 Гл. 2. Анализ Фурье четными функциями. В общем случае это не так. Например, предпо- предположим, что s (t) не является четной функцией О, Тогда, используя B.1.24), получим Это преобразование является комплексным, его можно записать в виде суммы действительной и мнимой частей: Иначе его можно записать, используя B.1.13), в виде амплитудной и фазовой функций S(/)=-^=i==rexp(-yarctg2*/), так что R(f) T(/)=arctg(-2ic/). Отметим что все эти преобразования затухают, или «диссипируют», когда f стремится к бесконечности. Теперь мы рассмотрим случаи, когда преобразования не затухают. 2.2.2. Обобщенные функции Рассмотрим два специальных случая прямоугольного импульса, приведенного во второй строке табл. 2.4. Единичная высота. Если а = 1, то S(/) = 2b-^^-. B.2.1) Если b стремится к бесконечности, то s(t) стремится к константе, равной 1 всюду. Поведение S(f) при увеличении b проиллюстриро- проиллюстрировано на рис 2 4, где можно видеть, что S(f) стремится стать острым пиком бесконечной высоты при f-О и ограничена во всех осталь- остальных точках. Такая функция понимается как дельта-функция Ди- Дирака, или импульсная функция. Поэтому преобразование Фурье от константы есть дельта-функция. 2.2. Преобразования Фурье и их свойства 47 Единичная площадь. Если 2ab = 1, то •мл — B.2.2) Когда 6->-0, S(f) всюду стремится к единице. Однако по мере того как b убывает, s(t) становится все более высокой, как показано на рис. 2.5. Отсюда следует, что s(t) стремится к дельта-функции, со- сосредоточенной в начале координат. Эти два случая показывают, что преобразование Фурье от кон- константы есть дельта-функция и, наоборот, преобразование Фурье от дельта-функции есть константа. Эту взаимность следовало ожидать из-за симметрии равенств преобразования B.1.22) и B.1.24). Дельта-функции. Последовательность функций B.2.1) при Ь-+оо, которая послужила нам для определения дельта-функции, не является единственной. Вообще дельта-функцию можно определить как последовательность функций бп (t), таких, что j bn{t)dt=\ для каждого п., и в пределе, когда п-»-оо, b{t) = о, оо, = 0. B.2.3) B.2.4) Примеры таких последовательностей функций вместе с их преобра- преобразованиями Фурье приведены в табл. 2.5. Заметим, что Sn (f) стре- стремится к константе (единице) для всех /, когда п->оо. Одну из физических интерпретаций дельта-функции дает описа- описание процессов преобразования энергии в некоторой системе. Ис- Используя пример из механики, предположим, что твердый брусок на- находится в покое на плоской поверхности. Если выстрелить в этот брусок очень маленькой пулей, летящей с большой скоростью, то при ударе пули произойдет обмен энергии. Предполагая, что столк- столкновение происходит столь быстро, что брусок не успевает сдвину- сдвинуться за это время, можно считать, что пуля передала бруску им- импульс энергии в виде изменения количества движения. Другую ин- интерпретацию, взятую из теории электромагнетизма, дает единичный точечный заряд в начале координат. Дельта-функцию можно использовать как операторный прием для выбирания значения сигнала в данный момент времени. Сле- Следующая выкладка поясняет это: lim со ОО j К V - to) s(f)dt=$ b{t- t0) s (t) dt = s B.2.5)
t oo 2.2. Преобразования Фурье и их свойства 49 Таблица 2.5 Последовательности, определяющие дельта-функции 1) 2) 3) 4) 2imt Y~n~ е~%п1г п 2 е 1 п я П2^2 -J- 1 «Sin2(^) (W20* о, Л2 о, (/) |/1<п 1/1>л ,-^/« П2 + B«/J -|2.//«| Рассматривая аналогичным способом предел последовательно- последовательности т-х производных б„ (t) [1], можно определить т-ю производную дельта-функции, а именно 8^(t). Ее можно использовать для вы- выбирания /л-й производной некоторой функции в данной точке. Это приводит к обобщению B.2.5), а именно B.2.6) Возвращаясь к интерпретации дельта-функции как единичного заряда в начале координат, можно сказать, что б'(^) соответствует математической идеализации единичного диполя. Это обусловлено тем, что первый момент 8'(t) равен где мы воспользовались B.2.6). Поэтому абсолютный момент б'(/) равен единице, что является стандартным определением единич- единичного диполя.
50 Гл. 2. Анализ Фурье Функция единичного скачка*'. С 6(t) тесно связана функция единичного скачка. Физически она соответствует приложению еди- единичной силы, которая затем остается постоянной, или переключению крана, которое меняет поток в трубе. Математически она является сигналом, задаваемым равенствами ( 0, t<0, B.2.7) Функцию U(t) можно рассматривать как предел последовательно- последовательности функций Un (t) при п->- оо, например Jit \-\e~nt t<0, B.2.8) Когда п-у оо, то Un (t) -»- 0 для отрицательных г! и к единице для по- положительных t. Дифференцирование Un{t) дает d at ип\Ч Y B.2.9) что иллюстрирует важный результат: производная функции скачка есть дельта-функция. Преобразованием Фурье функции единичного скачка B.2.7) яв- является 2.2.3. Ряды Фурье как преобразования Фурье Рассмотрим преобразование Фурье следующего сигнала: О, B.2.10) который является «периодическим» сигналом в интервале (—Г/2, + Г/2). Непосредственно используя B.1.24), получаем, что его пре- преобразование Фурье равно 8>п"Г[/-A/Д)] , т sln«r[/+(l/A)] *) Unit step function. В операционном исчислении применяется также назва- название «единичная функция (Хевисайда)». — Прим. перев. 2.2. Преобразования Фурье и их свойства 51 Когда Т стремится к бесконечности, сигнал sT(t) становится дейст- действительно периодическим сигналом s(t) (периодическим для всех моментов времени), в то время как преобразование ST(f) стре- стремится к B.2.12) поскольку каждый из членов внутри фигурных скобок в B.2.11) яв- является последовательностью, сходящейся к дельта-функции. По- Поэтому преобразование Фурье действительно периодической косину- соидальной волны (бесконечного протяжения) состоит из дельта- функции амплитуды а/2, сосредоточенной в /=+A/Д), и дельта- функции амплитуды а/2, сосредоточенной в f = — A/Д). Аналогично комплексный сигнал JL 2 ' sin nT f/-(m/A)] имеет преобразование Фурье sr(/)=r Поэтому, когда Г->оо, ST(f) стремится к S(f) = 8 [f — (m/Д)]. От- Отсюда следует, что периодический сигнал с периодом Д, представля- представляемый рядом Фурье = 2 имеет преобразование Фурье = 2 B.2.13) B.2.14) которое представляет собой ряд, состоящий из дельта-функций. Та- Таким образом, допуская обобщенные функции, ряды Фурье можно рассматривать как частный случай преобразований Фурье. Для того чтобы найти коэффициенты Фурье Sm, соответствую- соответствующие некоторой обобщенной функции, уже нельзя применять клас- классическую формулу B.1.18), так как обобщенная функция может оказаться неинтегрируемой в конечных пределах. Соответствующая формула, которую нужно использовать в таких случаях, приводится в [1] В частности, можно показать, что преобразованием Фурье ряда, состоящего из дельта-функций = 2 B.2.15)
2.3. Линейные системы и свертки 53 является tl=z —оо B.2.16) Таким образом, ряд из дельта-функций переходит в ряд также из дельта-функций. Отметим, что этот результат симметричен по отно- отношению к частотной и временной областям. Ряд, состоящий из дельта-функций, не является единственной функцией, симметричной относительно преобразования Фурье. Бо- Более простая функция, обладающая этим свойством, дается приме- примером 2 в табл. 2.5 при п = 1. Таким образом, s (t) = exp (—nt2) преоб- преобразуется в S (f) = exp (—л/2). В этом месте читатель должен убедиться, что он хорошо знаком с различными операторными свойствами преобразований Фурье, которые резюмированы в приложении П2.1. 2.3. ЛИНЕЙНЫЕ СИСТЕМЫ И СВЕРТКИ 2.3.1. Линейные дифференциальные уравнения Важность практического применения анализа Фурье и спек- спектрального анализа определяется тем, что они упрощают анализ ин- инвариантных во времени линейных систем, т. е. систем, поведение которых можно описать с помощью линейных интегро-дифференци- альных уравнений с постоянными коэффициентами. Можно пока- показать вообще [3], что решение такого уравнения может быть запи- записано в виде интеграла свертки y(t)= J h{u)x{t~u)du, —оо B.3.1) где у (t) — решение и x(t) — вынуждающая функция. В разд. 2.3.4 будет показано, что это решение упрощается, если перейти к преоб- преобразованиям Фурье. Преобразование решения дает Y{f) H f {f){f), где Y(f), H(f) и X(f) — преобразования Фурье от y(t), h(t) и x(t) со- соответственно. Таким образом, свертка во временной области пре- преобразуется в произведение в частотной области. Иллюстрация свертки. Чтобы проиллюстрировать интеграл свертки, рассмотрим простую линейную систему, состоящую из пру- пружины и буфера, показанную схематически на рис. 2.6. Одно из на- назначений такого устройства состоит в том, чтобы двери не хлопали. Сила, приложенная к пружине, производит входное смещение x(t), которое вызывает выходное смещение y(t) буферного хомута. Диф- Дифференциальное уравнение, полученное приравниванием сил, имеет вид K\x{t)-y(t)\=D dy_ dt где К — постоянная пружины, измеряемая в кг/м, и D — постоянная скорости буфера, измеряемая в кг • м/сек. Перегруппировав члены Рис. 2.6. Механическая систе- система первого порядка. х- этого уравнения, получим 1Г B.3.2) где T = D/K. — постоянная времени этой системы (в секундах). Уравнение B.3.2) можно использовать для описания поведения многих других физических систем, например температуры у выпуск- выпускного отверстия химического реактора, когда температура у впуск- впускного отверстия равна x(t). В этом случае уравнение B.3.2) показы- показывает, что скорость изменения температуры у выпускного отверстия прямо пропорциональна температурному градиенту в реакторе. Решение уравнения B.3.2) можно записать в виде интеграла свертки, вводя интегрирующий множитель etlT. Таким образом, по- получим t оо у @ = J х(и)-^—у du=) x(u)h{t-u)du, B.3.3) где А («) = • 1 р-и/Т Т в Следовательно, выход y{t) можно записать в виде взвешенной суммы прошлых значений входа x(t), т. е. выходной сигнал является сверткой входного сигнала с весовой функцией h(u). Вообще можно показать [3], что решение любого линейного ин- инвариантного во времени дифференциального уравнения можно за- записать так же, как и в B.3.3), или же, сделав замену переменной, в виде оо у (/) = j* h (и) х (( — и) da. B.3.4)
54 Гл. 2. Анализ Фурье Весовая функция полностью характеризует поведение системы, точно так же, как это делает дифференциальное уравнение.' Инвариантные во времени линейные системы. Уравнения B.3.3) и B.3.4) изображают в общем виде то, что известно под именем инвариантных во времени линейных систем, или фильтров. Они ха- характеризуются следующими свойствами. а) Свойство линейности: если Xi{t) и X2{t) — два входных сиг- сигнала, a yi(t), i/2(t) — соответствующие им выходные сигналы, то ли- линейная комбинация ]iiXi(t) + \x,2X2{t) входных сигналов дает на вы- выходе ту же самую линейную комбинацию выходных сигналов (t) (t) y() i2y2(). б) Свойство неизменности во времени: если входной сигнал x(t) задержать на время т, так что получится x(t — т), то выходной сиг- сигнал задержится на то же самое время и будет равен y(t — т). Именно свойство (б) обеспечивает то, что весовая функция h{u) не зависит от времени. Линейная система без свойства инвари- инвариантности во времени имела бы весовую функцию, зависящую от вре- времени t. Можно показать, что системы, которые могут быть описаны с помощью линейных дифференциальных уравнений с постоянными коэффициентами, имеют инвариантное во времени представление B.3.3). Впрочем, многие нелинейные системы м'ожно линеаризовать так, что для малых возмущений на входе можно использовать B.3.3) как приближенное изображение системы. 2.3.2. Функции скачка и импульсные функции Для любой физической системы весовая функция h(u) должна быть равна нулю для отрицательных значений и; это означает, что система не может давать отклик на входные сигналы, которые она еще не приняла. Это условие называется условием физической реа- реализуемости. Для физически реализуемых систем уравнения B.3.3) и B.3.4) можно записать в виде B.3.5) или же t = j х(и)h(t — u)da. B.3.6) Функции отклика на единичный импульс*). Предположим что на систему воздействует резкий импульс в момент времени t = 0, *> В нашей литературе используются также следующие названия- функция, импульсная передаточная функция, импульсная переходнаяф функция импульсной реакции, импульсная характеристика .-Прим пере 2.3. Линейные системы и свертки 55 так что x(t) = 6(t). Тогда У@ = B.3.7> и используя B.2.5), получаем, что последний интеграл равен h(t).. Весовая функция h(t) называется функцией отклика этой системы на единичный импульс [4], так как она дает выходной сигнал в момент t для системы, подверженной действию импульса при f = 0. Отклики на единичный импульс для некоторых простых систем приведены в первом столбце табл. 2.6. На рис. 2.7 приведены от- отклики на единичный импульс для трех из этих систем. В первом примере (а) система представляет собой простую задержку, для ко- которой выходной сигнал, или отклик на единичный импульс, явля- является таким же импульсом, задержанным на время т. Во втором при- примере (б) система описывается одной постоянной времени и изобра- изображается дифференциальным уравнением B.3.2); для этой системы отклик на единичный импульс является экспоненциальной кривой, Сраженной на рис. 2.7, б. Третий пример (в) представляет со- i систему второго порядка, изображаемую дифференциальным изо изображе р , бой систему второго порядка уравнением B.3.8) Для этой системы откликом на единичный импульс является зату- затухающая синусоида, показанная на рис. 2.7, в. Функции отклика на единичный скачок *). Линейную систему можно также охарактеризовать с помощью ее отклика на функцию- единичного скачка B.2.7). Предположим, например, что входным сигналом является скорость притока холодной воды в теплообмен- теплообменник а выходной сигнал —температура воды у выпускного отвер- отверстия Тогда откликом на единичный скачок будут изменения темпе- температуры со временем у выпускного отверстия, после того как сделано единичное изменение входной скорости потока. Из B.3.5) получаем, что отклик в момент времени t на единичный скачок при / = 0 равен .(и) da, B.3.9) так что отклик на единичный скачок равен интегралу от отклика на единичный импульс. Из рис 2 7 можно видеть, что отклик на единичный скачок для системы, являющейся чистой задержкой т, есть также единичный *) Иногда называется также «переходная реакция на скачок».— Прим. перев.
Функции отклика на единичный импульс, на единичный скачок и частотные характеристики для некоторых простых систем Таблица 2.6 Система 1) Усиление 2) Задержка 3) Интегрирование 4) Одиночная экспонен- экспонента 5) Одиночная экспо- экспонента с задержкой 6) Две последователь- последовательные экспоненты 7) Задержка по квад- квадратичному закону (квадратичная за- задержка) 8) Дифференцирование 9) Линейное упреждение Импульсный отклик А @ «40 1 g-t/T, _ e-t/Tt Ti-T2 У l-i? 8' @ 5 (t) + TV @ Отклик на скачок у (t) 0, *<0 0, <<t 1, t^t t (l-.-'/r) 0, t<v A _e-C—«)/Г), <>t l1 Л-Г2 J j e-^n' sin (<й„ УТ-& t + <p) /1-C2 sin <p = ]/l — C2 -8@ 1-78@ Частотная характеристика Я(/) 4) Одиночная экспонента 5) Одиночная экспонента с задержкой 6) Две последователь- последовательные экспоненты 7) Задержка по ква- квадратичному закону (квадратичная за- задержка) 8) Дифференцирование 9) Линейное упрежде- упреждение - (///«J + У2С (///„) ' 2я/ 21'At -arctg27t/71 — arctg 2ir/72 arctg g 2C(///"> arctg 2я/
Гл. 2. Анализ Фурье скачок, начинающийся на % сек позднее, как показано на рис. 2.7, а. Для экспоненциального отклика на единичный импульс отклик на о to t Единичный импульс на входе Единичный скачок на входе ь I y(f) Отклики на импульс Отклики на скачок Рис. 2.7. Отклики на единичный импульс и единичный скачок для некоторых простых систем. единичный скачок экспоненциально возрастает, стремясь к своему предельному значению, как показано на рис. 2.7, б. Для системы второго порядка (рис. 2.7, в) отклик на единичный скачок перехо- 2.3. Линейные системы и свертки 59' дит свое предельное значение и затем колеблется около него с уменьшающейся амплитудой. Когда t-*-oo, отклик на единичный скачок B.3.9) стремится к значению g = j h (и) du, B.3.10> которое называется установившимся усилением системы, так как оно измеряет предельное значение усиления после того, как си- система возмущена единичным скачком и ей дана возможность дойти до нового установившегося значения. Устойчивость. Система называется устойчивой [4], если ограни- ограниченные входные сигналы создают ограниченные сигналы на выходе. Ясно, что такое свойство желательно, так как в противном случае выходной сигнал неограниченно возрастал бы. Предположим, что \x(t) I </Ci в B.3.5), где Ki — некоторая конечная константа. Тогда h{u)x{t-u)du J | Л (и) | du, так что достаточным условием для того, чтобы система была устой- устойчивой, является \h(u)\du<K2, B.3.11) где Кг — также некоторая конечная константа. Другая форма усло- условия устойчивости будет дана в следующем разделе. 2.3.3. Частотные характеристики Для входных сигналов, более сложных, чем импульс или скачок, вычисление выходного сигнала с помощью интеграла свертки B.3.5) становится утомительным. Эта задача значительно упроща- упрощается при использовании анализа Фурье. Метод состоит в следующем: сигнал s(t) разлагают на его компоненты Фурье S(f) по формуле B.1.24), затем находят отклик системы на периодический сигнал Si{t) = eiinit и, наконец, суммируют все отклики по формуле B.1.22), что и дает окончательный выходной сигнал. Сначала нужно узнать
60 СО У @ = J h (и) cos 2тг/ (* - и) du = J h (и) [cos 2«/* cos 2тг/и + где sin 2те// sin 2*/«] tf« = Л (/) cos 2* = § h (и) cos 2nf и du sm2ic/t, B.3.12) B.3.13) В (J) = J h (и) sin 2tz/u du. B.3.14) о Иначе B.3.12) можно переписать в виде у {t) = G (/) cos \2ф + 9 (/)], B.3.15) где Отсюда отклик на косинусоидальную волну частоты / является ко- синусоидальной волной той же частоты, но с амплитудой, умножен- умноженной на величину G (/), называемую коэффициентом усиления, и с фазой, сдвинутой на величину ф(/), называемую фазовым углом. Дак и прежде, для удобства оперирования с формулами рас- рассмотрим отклик на комлексный входной сигнал en«fl cos 2ф + j sin ф + j ф частоты /. В этом случае выходным сигналом будет у (() = н (/) е™* = О (/) е} [wt+? {Л1, где функция ОО Н(/) = О (/) е19 (/) = J h (и) e о ~J2*fu da B.3.16) B.3.17) о называется частотной характеристикой системы. Следовательно, частотная характеристика является преобразованием Фурье от функции отклика на единичный импульс. Графики Бодэ. Частотные характеристики, коэффициенты уси- усиления и фазы для некоторых простых систем приведены 2.5. Линейные системы и свертки 61 в табл. 2.6, а коэффициенты усиления и фазы изображены на рис. 2.8. Обычно на график наносят логарифм коэффициента усиле- ния в зависимости от логарифма частоты и фазу в зависимости от логарифма частоты. Эти графики называют графиками Бодэ [5]. Графики на рис. 2.8 распадаются естественным образом на четыре категории. 1. Номера / и 2 имеют постоянный коэффициент усиления для всех частот и называются широкополосными системами *> (пропус- (пропускающими все частоты). 2. Номера 3,4, 5 к 6 таковы, что высокие частоты отфильтровы- отфильтровываются или ослабляются системой, а низкие частоты пропускаются с различными коэффициентами усиления. Поэтому эти системы ве- ведут себя как фильтры низких частот и соответствуют некоторой форме интегрирования или сглаживания входного сигнала. 3. Номер 7 соответствует колебательной системе, описываемой уравнением B.3.8). Здесь график коэффициента усиления имеет резонанс, или пик, на частоте / = /пA — 2?2)'/2, где /„ — естественная резонансная частота системы. 4. Номера 8 и 9 имеют графики коэффициентов усиления, такие, что более низкие частоты ослабляются, а более высокие частоты проходят. Эти системы действуют как фильтры высоких частот и включают в себя дифференцирование входного сигнала. Дальней- Дальнейшее различие между категориями B) и D) состоит в том, что в B) интегрирование входного сигнала Приводит к отрицательным фа- фазам ф(/), т. е. выходной сигнал запаздывает по отношению к вход- входному. С другой стороны, в D) дифференцирование входного сигнала дает положительные фазы, так что выходной сигнал опережает входной, как это имеет место на графике номер 9. Ширина полосы частот. Удобный способ описания функции уси- усиления линейной системы можно получить, используя ее ширину по- полосы частот [5]. Были предложены различные определения ширины полосы частот; в простейшем из них для определения используется такая полоса, в которой мощность уменьшается до половины мак- максимального значения. Для системы, имеющей максимальное уси- усиление на частоте /0, ширина полосы частот определяется как раз- разность /2 — fu где /i и fz выбраны так, что Например, для одиночной экспоненциальной системы максималь- максимальное усиление достигается при fo = O, а усиление, равное половине максимального, — при fi = 1/BяГ). Следовательно, если Г велико, *> В оригинале all-pass systems. Иногда их называют «фазовыми системами», поскольку они воздействуют лишь на фазу.— Прим. перев.
I I I E 3- § и к s •e- я [_, oo s a» II 2.3. Линейные системы и свертки 63 то ширина полосы частот очень мала, как можно увидеть на рис. 2.8. Таким образом, отклик на единичный импульс будет очень широ- широким и небольшим по амплитуде. С другой стороны, для малых Т, ширина полосы частот велика и отклик на единичный импульс очень высокий и узкий. В пределе, когда Г-»-0, ширина полосы ча- частот становится бесконечной, как для простого усиления на рис. 2.8, и отклик на единичный импульс стремится к дельта-функции. Сле- Следовательно, широкие полосы частот соответствуют узким функциям отклика на единичный импульс, и наоборот, узкие полосы частот со- соответствуют широким функциям отклика на единичный импульс. Устойчивость. Системы, приведенные в табл. 2.6, могут быть представлены дифференциальным уравнением следующего общего вида: dtm dnx (t — dx (t — т) -*). B.3.18) Подставляя в B.3.18) x{t) стотная характеристика равна y(t) = Я(/)е^я", получим, что ча- чаЯ(/) = ^ Ьо -/ B.3.19) Подставив в B.3.19) p = j2nf и приравняв знаменатель нулю, полу- получим характеристическое уравнение системы, а именно ampm + • • • + OiP + «о = 0. B.3.20) Можно показать [4], что условие устойчивости системы B.3.11) эквивалентно условию, что все корни яь л2, ..., пт характеристиче- характеристического уравнения B.3.20) имеют отрицательные действительные ча- части. 2.3.4. Отклик на произвольный входной сигнал Если известно, что отклик системы на входной сигнал x(t) = = ej2nft равен y(t) = H(f)eiZnft, то можно найти отклик на произволь- произвольный входной сигнал. Сначала надо взять преобразование Фурье от этого входного сигнала: B.3.21)
64 Гл. 2. Анализ Фурье Составляющая Фурье выходного сигнала на частоте / равна Г" оо ~1 е-пф\ J h(u)x(t-u)du\d( = оо оо = j fi(u)e-i2vfudu j" x(v)e~J2n/vdv, —со —оо где v = t— н, т. е. B.3.22) ) = H{f)X{f). B.3.23) Уравнение B.3.23) показывает, что составляющая выходного сиг- сигнала на частоте / получается из составляющей входного сигнала на той же частоте с помощью умножения на #(/) — значение частотной характеристики на этой же частоте. Наконец, чтобы возвратиться к y(t), нужно синтезировать, или просуммировать, составляющие от всех частот при одном и том же значении /, что дает оо оо = j V (/) ei2%ft df=l X(J)H (/) ei2*ft df. B.3.24) —CO —OO Равенства B.3.22) — B.3.24) показывают, что свертка во временной области эквивалентна перемножению в частотной области. Следо- Следовательно, если между двумя переменными существует соотношение в виде дифференциального уравнения B.3.18), то решение равно B.3.24), где частотная характеристика дается выражением B.3.19). Следовательно, преобразование Фурье дает очень полезный опера- операционный метод решения линейных дифференциальных уравнений. Нахождение решения можно ускорить с помощью таблиц пре- преобразований. Таблица преобразований обобщенных функций при- приведена в [1, 4*']; преобразования Фурье обычных функций имеются в [6, 5*]. Несколько линейных систем,соединенных последовательно. Рас- Рассмотрим k не влияющих друг на друга линейных систем, соединен- Рис. 2.9. Несколько линейных систем, соединенных последовательно. ных последовательно, как показано на рис. 2.9. Повторное исполь- использование B.3.23) дает У (/) = Hh (/) Hk_x (/) ... Нх (/) X (/), B.3.25) откуда видно, что для последовательно соединенных линейных си- систем полная частотная характеристика равна произведению частот- частотных характеристик отдельных систем. Используя B.3.17), полу- 2.3. Линейные системы и свертки 65 чаем, что полный коэффициент усиления равен произведению от- отдельных коэффициентов усиления: О (/) = О, (/) О2 (/)... Gk (/), B.3.26) а полный сдвиг фазы равен сумме отдельных фазовых сдвигов: «Р (/) = «Pi (/) + Ъ (/)+.-•+ 9k (/)• B.3.27) Выходной сигнал этой системы можно теперь вычислить, сумми- суммируя вклады от всех частот в виде оо у @ = j Я, (/) Н2 {/) ... Hk (/) X (/) e^ft df. B.3.28) — оо Заметим, что при этом интегрирование проводится только один раз, в то время как выкладки во временной области потребовали бы вычисления k интегралов свертки. 2.3.5. Линейные уравнения в конечных разностях В предыдущих разделах было показано, что систему, описывае- описываемую линейным дифференциальным уравнением, можно также опи- описать с помощью функции отклика на единичный импульс h(u) или же частотной характеристики #(/), причем h{u) и //(/) образуют пару преобразований Фурье. Функции h(u) и #(/) легко получить из дифференциального уравнения, описывающего систему. В этом разделе показано, как можно использовать отклик на единичный импульс и частотную характеристику для описания системы, задан- заданной с помощью линейного разностного уравнения. Линейное разностное уравнение — это уравнение вида + ••• +?„*,_„. B.3.29) Его общее решение имеет вид У г = B.3.30) Величины уг, уг-и ..., yr-m и хг, хг-и ..., хг-п могли бы быть значе- значениями непрерывных сигналов y(t) и x(t) в моменты времени t = rA, (г—1)Д, ..., (г—пг)\, (г—и)Д соответственно, т. е. .. +Р„.*(*-яД). B.3.31) Преобразование Фурье от B.3.31) можно записать в виде -/271/Д_ -/2^/шД ' Заказ № 1210
66 Гл. 2. Анализ Фурье так что частотная характеристика системы H(f) равна, согласно B.3.23), " \J)— х __ He-j^f д _ _ _ апе-№ • ^.о.о^ Частотная характеристика #(f) и дискретная функция отклика на единичный импульс /i^ связаны соотношениями B.3.33) ft =0 1/B Д) j H(f)ei2Kfk"df. B.3.34) -1/B Д) ^-преобразования. С частотной характеристикой B.3.32) лучше всего обращаться, если сделать замену вида z = ej2jliA, что приво- приводит к выражению Н(z) = 1 ^ ••• "»!' ft =0 Это выражение называется г-преобразованием [7] функции отклика на единичный импульс hh. С операционной точки зрения переменную z в B.3.35) можно рассматривать как оператор сдвига, обладающий свойством z-"xr = xr_k. B.3.36) Следовательно, разностное уравнение B.3.39) можно записать в виде B.3.37) т. е. где Я(г) является передаточной функцией дискретной системы. Раз- Разложение H(z) по степеням z дает ft =0 ft =0 что является общим решением B.3.30). Устойчивость. Вынося множитель z~m за скобки в знаменателе B.3.35), заменяя г на р и приравнивая этот знаменатель нулю, по- по5.5. Линейные системы и свертки 67 лучаем характеристическое уравнение дискретной системы pm _ aipm-i _ ... - ая = 0. B.3.38) Условие устойчивости, соответствующее B.3.11), будет иметь вид 2|А»|<#2- B.3.39) ft=0 Аналогично условие устойчивости, соответствующее B.3.20), со- состоит в том, что корни ли .... пт характеристического уравнения B.3.38) должны лежать внутри единичного круга. Пример. Рассмотрим разностное уравнение второго порядка: уг = а,уг_, + a2yr_2 + xr. B.3.40) Оно имеет г-преобразование A — а^-1 — а2г~2)уЛ=ХГ и, следовательно, передаточную функцию 1 Н(г) = J B.3.41) Характеристическое уравнение имеет вид Р2 — лгР — «2 = 0» а его корни равны 1С, =• 2 B.3.42) Функция отклика на единичный импульс для этой системы имеет вид К-^Т2 {-Г1 --!+¦} B.3.43) для действительных корней, т. е. когда а\^—4сс2. Когда корни ком- комплексные, т. е. при а\ <—4а2, Л*~ * sin 2«/0 • B.3.44) где Система устойчива при условии | дп | <1, |я2| <1, т. е. при усло- условии, что at и а2 лежат внутри треугольной области: a,-a2>-l, B.3.45)
68 Га. 2. Анализ Фурье 2.4. ПРИМЕНЕНИЯ В АНАЛИЗЕ ВРЕМЕННЫХ РЯДОВ 2.4.1. Записи конечной длины На практике можно получать только записи конечной длины. Статистические вопросы, которые будут обсуждаться ниже, возни- возникают из-за необходимости оценивать точность различных функций, получаемых из конечного объема данных. Даже, если s (t) является детерминированной функцией, возникает смещение, или ошибка усечения, если s(t) известна лишь на конечном интервале —Т/2^ ^t^T/2. Чтобы понять влияние этого усечения, рассмотрим вре- временное окно, определяемое с помощью соотношений о, \t\>-l. B.4.1) Если s(t) является детерминированным сигналом в интервале —оо^^^оо, то сигнал, действительно измеренный на конечном ин- интервале, можно записать в виде sT{t) = s{t)w(t). B.4.2) Таким образом, операция взятия конечного участка записи равно- равносильна умножению подлинного сигнала s(t) на временное окно w(t). Отсюда, используя (П2.1.8), получаем, что преобразование Фурье ST(f) сигнала sT(t) на конечном интервале является сверткой пре- преобразований Фурье от s(t) и w(t): ST(f)= J S(g)W(/-g)dg, B.4.3) где спектральное окно W(f) является преобразованием Фурье от временного окна w(t) и равно в этом случае = Т~7Т-- B-4.4) Совсем необязательно, чтобы временное окно имело в точности форму B.4.1). Любое разумно выбранное окно w(t) даст спектраль- спектральное окно W(f), сосредоточенное около нулевой частоты / = 0, но с боковыми лепестками, или малыми всплесками, которые затухают при удалении / от нуля. Для небольших Т преобразование ST(f) может дать очень искаженное изображение S(f), так как окно W(f—g) будет широким, а, следовательно, значения S(g), отстоящие далеко от g = f, будут давать вклад в ST(f) согласно формуле B.4.3). По мере того как Т увеличивается, эти искажения будут уменьшаться. Наконец, когда Т устремляется к бесконечности, со- 2.4. Применения в анализе временных рядов 69 ставляющая преобразования Фурье на частоте / может быть опре- определена полностью, так как временное окно будет стремиться к кон- константе ( = 1). Следовательно, если Т-*-оо, то W(f—g) стремится к дельта-функции, сосредоточенной в точке g = f, так что ST(f) стремится к S(f). Входной сигнал , амплитудный спектр (единичная 8-функция) Временные окна а -т/г с б w(t) т/г "г f,f2 Выходной сигнал, амплитудный спектр -Т Г 1 Рис. 2.10. Влияние формы и длительности временного окна на спектр сигнала. Влияние формы и ширины окна на измеряемое преобразование Фурье проиллюстрировано на рис. 2.10 для одного частного вход- входного сигнала s(t), преобразование Фурье которого состоит из трех дельта-функций, сосредоточенных в /о, fi и /2. Отметим следующее. 1. Только два главных пика появляются в выходном преобразо- преобразовании для окон а, б, и г, так как два входных пика на частотах Ь и /2 сливаются в один. Это происходит из-за использования слиш- слишком узкого временного окна.
70 Гл. 2. Анализ Фурье 2. Выходные преобразования для окон а и б имеют несколько ложных пиков между настоящими главными пиками. Эти ложные пики вызваны резкими углами временного окна. 3. Возможность различать пики (разрешающая способность) зависит от ширины временного окна, что иллюстрируется выход- выходными преобразованиями для окон а и б, которые имеют одну и ту же форму, но разную ширину. 4. Возможность различать пики зависит также от формы вре- временного окна, что иллюстрируется выходными преобразованиями для окон б, в и г, которые имеют одинаковую ширину, но различ- различную форму. В гл. 6 и 7 будет показано, что ширина и форма окна приводят к тем же эффектам в спектральном анализе. На рис. 2.10 расстояние между частотами (/г—fi) было выбрано равным \/Т. Рисунок показывает, что с помощью прямоугольного временного окна длины Т невозможно различить два пика на ча- частотах fi и f2. Однако, с помощью прямоугольного окна длины 2Г эти пики легко различаются. Следовательно, для разделения двух пиков на частотах fi и /г необходимо использовать запись длины Т порядка р±7Г B.4.5) для прямоугольного временного окна. Рис. 2.10, виг показывают, что для окон, не являющихся прямоугольными, их ширина должна быть больше 2/(f2—fi), чтобы можно было различать пики. Даль- Дальнейшее обсуждение вопроса о длине записи, необходимой для раз- различения пиков, приводится в разд. 6.4.4. 2.4.2. Дискретизация сигнала по времени и явление наложения частот Импульсная модуляция. Для численного анализа отсчеты боль- большинства непрерывных сигналов s(t) будут производиться через не- некоторый фиксированный интервал А, и полученные таким образом дискретизованные сигналы будут затем использоваться для цифро- цифровых вычислений. Дискретизованный сигнал можно рассматривать как результат умножения первоначального непрерывного сигнала на сигнал i(t), состоящий из бесконечного ряда единичных импуль- импульсов, или дельта-функций: = 2 B.4.6) Это дает сигнал дискретизованный, или импульсно-модулированный, Sl(f) = s(i)i(i). B.4.7) 2.4. Применения в анализе временных рядов 71 Следовательно, воспользовавшись теоремой о свертке (П2.1.8), на- находим •Ш)= J stf-g)i(g)dg, B.4.8) где I(g) является преобразованием Фурье от i(t). Используя для J(g) выражение B.2.16), преобразуем B.4.8): B.4.9) Равенство B.4.9) показывает, что дискретизованный, или им- пульсно-модулированный, сигнал Si(t) имеет периодическое преоб- преобразование Фурье с периодом 1/Д, и если S(f) обращается в нуль при I f | ^ 1/2Д, то Si (f) является просто периодически повторяемой функцией S(f), как показано на рис. 2.11, бив. Это означает, что можно восстановить S(f) по ?,(/), умножив Si(f) на #(/), где О, 1/|>тяг B.4.10) Так как умножение в частотной области соответствует свертке во временной области, то отсюда следует, что ""У ¦*,«-«)<*«¦ B.4.11) Функция sin (пи/А)/(пиА) является идеальным фильтром для вос- восстановления непрерывного сигнала s(t) из дискретизованного си- сигнала Si(t). Иначе говоря, функция sin (nu/A)/(nu/A) является иде- идеальной интерполирующей функцией для равноотстоящих ординат, и формулу B.4.11) иногда называют интерполяционной формулой Уиттекера. Наложение частот. Если интервал отсчета таков, что S(f) убы- убывает до нуля, не доходя до |/| =1/2Д, как в случаях б или в на рис. 2.11, то можно восстановить s(t) no Si(t). С другой стороны, если S(f) не равна нулю за частотой fN= 1/2Д, то частотные компо- компоненты от частот выше 1/2Д присутствуют в 5,- (/) в диапазоне ча- частот — 1/2Д^/^1/2Д, как, например, в случае (г) на рис. 2.11. Настота fN=l/2A называется частотой Найквиста и является
72 Гл. 2. Анализ Фурье наивысшей частотой, которую можно обнаружить на данных, полу- полученных с интервалом отсчета А. kS(f) (Заметно наложение частот) Рис. 2.11. Преобразования Фурье входного сигнала и дискретизованиых сигна- сигналов для различных интервалов отсчета. Если, например, А = 0,1 сек, то частота Найквнста равна 5 гц. Преобразование Фурье S,-(/) дискретизованного сигнала на 4 гц будет состоять из вкладов преобразования S (f) на 4 гц, на 10 + 4 = = 14 гц, на —10 + 4 = —6 гц, на 20 + 4 = 24 гц, на —20 + 4 = —16 гц и т. д. Все эти частоты, кроме первой, называются обычно двойни- двойниками (aliases) частоты 4 гц, а их влияние на преобразование Фу- Литература 73 рье — явлением наложения частот (aliasing). Следовательно, при дискретизации по времени непрерывных временных рядов нужно надлежащим образом позаботиться о выборе достаточно высокой частоты отсчетов fN= 1/2A, чтобы избежать искажающего влияния наложения частот на S* (f). Явление наложения частот возникает в ряде практических си- ситуации, например при использовании стробоскопа или в кинофиль- кинофильмах. Так, если в фильме колеса телеги приходят в движение, то вначале видно, что они вращаются в направлении движения, затем при возрастании скорости кажется, что направление вращения ме- меняется \:г обратное и скорость колес уменьшается до полной оста- остановки, затем они начинают вращаться с возрастающей скоростью в направлении движения и т. д. Пример. Чтобы проиллюстрировать обсуждаемые в этом разделе вопросы, предположим, что желательно вычислить длину записи Т и интервал отсчета А, необходимые для достижения некоторых це- целей. Предположим, известно, что изучаемый сигнал содержит две синусоидальные компоненты на частотах 100 и 99 гц. Тогда, если мы хотим различить эти пики в преобразовании Фурье, взятом от конечной записи, нам нужно, как показывает B.4.5), взять 1/Г по- порядка 100—99= 1 гц, т. е. Т должно быть порядка 1 сек. Чтобы оце- оценивать частоты порядка 100 гц, величина 1/2А должна быть по меньшей мере 100 гц и, следовательно, А ^5 мсек. Таким образом, нужно взять по крайней мере 200 точек. Если бы нам захотелось различить две частотные компоненты на 999 и 1000 гц, необходимая длительность записи была бы все еще 1 сек, однако интервал отсчета в этом случае нужно было бы взять 0,5 мсек, так что потребовалось бы 2000 точек. Следовательно, длина записи Т определяет степень различимо- различимости пиков в преобразовании Фурье, а интервал отсчета А опреде- определяет максимальную частоту, которую можно различать. ЛИТЕРАТУРА 1. Li gh thill M. J., An Introduction to Fourier Analysis Generalized Functions, Cambridge Univ. Press, Cambridge, 1959. 2. P a p о u 1 i s A., The Fourier Integral and its Applications, McGraw-Hill, New York, 1962. 3. Courant R., Differential and Integral Calculus, Vol. II, Biackie and Son, London, 1952. (Русский перевод: Курант Р., Курс дифференциального и интегрального исчисления, М,—Л., ОНТИ, 1934.) 4. James Н. М., Nichols N. В., Phillips R. S., Theory of Servomecha- nisms, NcGraw-Hill, New York, 1947. (Русский перевод. Джеймс X., Ни- Николе Н., Филлипс Р., Теория следящих систем, М., ИЛ, 1953.) 5. В о d e H. W., Network Analysis and Feedback Amplifier Design, Van Nostrand, New York, 1945. 6. Campbell G. A., Foster R. M., Fourier Integrals for Practical Applica- Applications, Van Nostrand, New York, 1962. 7. Jury E. I., Theory and Applications of the z-Transform Method, John Wiley, New York, 1964.
ПРИЛОЖЕНИЕ П2.1 ОПЕРАТОРНЫЕ СВОЙСТВА ПРЕОБРАЗОВАНИЙ ФУРЬЕ На протяжении всей этой книги нам потребуется выполнять различные операции с преобразованиями Фурье. Ниже приводится их сводка. Изменение масштаба времени и сдвиг начала координат. Если s(t) имеет преобразование Фурье S(f), то преобразование Фурье от s(at+$) равно >/-). (П2.1.1) Пример. Из табл. 2.5 мы видим, что преобразование Фурье от е-я«2 равно Следовательно, преобразование Фурье от равно где )/2rca|eW(- a_ l fi=— —1__ J Дифференцирование. Если s(t) имеет преобразование Фур S(f), то т-я производная s<m'@ имеет преобразование Фур ье (П2.1.2) при условии, что эта производная существует. Пример. Как и в предыдущем примере, используем пару пре- преобразований из табл. 2.5: Операторные свойства преобразований Фурье 75 Получаем, что преобразование Фурье от d dt -s Л = равно Интегрирование. Если s(t) имеет преобразование Фурье S(f), то преобразование Фурье от Ims(t), где t /s (t) = j s («) Лг, —oo равно im/). (П2.1.3) Константы /Ci, iC2, ..., i(m в (П2.1.3) можно определить, используя значения функций s(t), ds/dt, ..., dms/dtm в нуле, например оо S@) = j S(f)df. —оо Пример. Функция предыдущего примера имеет преобразование Фурье Следовательно, преобразование Фурье от t равно St (/) = —j- S {f) + Kfi (/) = е-** + /C,8 (/). Интегрирование обеих частей по f дает «i@) = Но si@) = 1 и, следовательно, Лл = 0. Симметрия. Если S(f) есть преобразование Фурье от s(t), то s(f) есть преобразование Фурье от 5 (—t).
76 Приложение П2.1 Пример. Преобразование Фурье от функции О, t < 0. равно 5 (f) = 1/ A +/2л/); Следовательно, преобразование Фурье от s(t) = \/(l—j2nt) равно 5(Л== Аналогично преобразование Фурье от s(t) = \/(\+j2nt) равно ' ef, f ^ 0, Ю, />0. Следовательно, преобразование Фурье от 2 1,1 1 + / равно О-1Я Свертки и теорема Парсеваля. Мы приведем эту теорему в бо- более общем виде, чем результаты B.1.16), B.1.20), B.1.26), выве- выведенные в разд. 2.1. Обобщение утверждает, что если si(t) и sz(t) — два комплексных сигнала с преобразованиями Фурье S±(f) и S2(f) соответственно, то оо со J s, @ sl @ dt=l S, (/) S\ (/) df, (П2.1.4) где звездочка означает комплексное сопряжение. Иногда бывают полезны три специальных случая формулы (П2.1.4): а) Если s*(f) =А(ы — t),ro (П2.1.4) сводится к оо оо J sl @ h(u-t)dt=l Sx {/) И {f) ei2Kfu df. (П2.1.5) —oo —oo б) Если Si(t) и s2(t) действительны, то (П2.1.4) сводится к оо оо J s1(t)s3(i)dt= j" S1(f)S2(-f)df. (П2.1.6) Операторные свойства преобразований Фурье 77- в) Если si@ =s2@ =s(t), то (П2.1.4) сводится к со оо И*)|2<«= J rf/. (П2.1.7) Теорема Парсеваля в форме (П2.1.7) включает в себя эту же теорему в форме B.1.26), выведенную в разд. 2.1. Заметим, что из-за симметрии преобразования Фурье сигнал и его преобразование можно поменять ролями. Например, оо оо a) j Sl (/) S2 (g - /) df = j s, @ s2 (t) e^gt dt, (П2.1.8) —oo —o° oo oo 6) j Sl(f)S2(f)df= j s,{t)s2{~t)dt, (П2.1.9) —oo —o° - а симметрия соотношения (в) видна непосредственно. Следует от- отметить, что упомянутые выше операторные свойства применимы точно так же к конечным и бесконечным рядам Фурье. Три формы • теоремы Парсеваля, выведенные в разд. 2.1, служат примером этому.
Глава 3 ТЕОРИЯ ВЕРОЯТНОСТЕЙ Эта глава содержит краткое описание тех понятий теории ве- вероятностей, которые необходимы для понимания задач с времен- временными рядами. Разд. 3.1 иллюстрирует подход, с помощью которого статистик описывает физические явления, пользуясь выборочным пространством, случайной величиной и распределением вероятно- вероятностей. В разд. 3.2 рассматриваются способы приближения распре- распределения вероятностей с помощью его первых моментов. Наконец, в разд. 3.3 обсуждаются выборочные распределения некоторых полезных функций от случайных величин, таких как среднее зна- значение и дисперсия. 3.1. ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ И РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ В гл. 1 было показано, что детерминистические модели не всегда могут адекватно описывать физические системы. Поэтому, когда системе свойственна неопределенность или она подвержена случайному изменению, необходимо использовать недетерминисти- недетерминистические или случайные модели. Математическая теория, лежащая в основе таких случайных моделей, называется теорией вероят- вероятностей. 3.1.1. Дискретные случайные величины и распределения В качестве примера физического процесса, которому свойст- свойственна неопределенность или случайная изменчивость, рассмотрим данные, приведенные на рис. 3.1. Они показывают флуктуации числа дефектных транзисторов в последовательных выборках объема 100, взятых случайным образом с выхода поточЯой линии. Такой выборочный контроль необходим для поддержания качества продукции, а график числа дефектных изделий х в зависимости от номера выборки называется диаграммой контроля качества. Диаграммы контроля дают наглядную картину изменения дан- данных и используются для получения заблаговременных предупреж- предупреждений о том, что произойдут изменения качества. Количественное утверждение об изменчивости можно получить, построив частотное 3.1. Частотные распределения и распределения вероятностей 79 распределение, как показано в табл. 3.1 и на рис. 3.2. Эти иллю- иллюстрации изображают пх — число выборок с х дефектными изде- изделиями — как функцию от х для пятидесяти выборок, приведенных го I 10 1 8. »* „Средний -t * уровень . _L /о го зо Номер выборки 40 50 Рис. 3.1 Число дефектных транзисторов в 50 выборках объема 100. Таблица 3.1 Частотное распределение числа дефектных транзисторов в выборке (по пятидесяти выборкам объема 100) X Пх X пх 0 0 9 6 1 2 10 4 2 0 11 2 3 3 12 0 4 2 13 2 5 7 14 0 6 9 15 0 7 7 16 1 8 5 Полное количество выборок 50 на рис 3.1. Частотное распределение показывает, что в то время, как число дефектных образцов в выборке изменяется от 1 до 16, большинство выборок (90%) имеет от 3 до 11 дефектных изделии.
80 Гл. 3. Теория вероятностей Итак, полное число проверенных выборок равно и 3.1. Частотные распределения и распределения вероятностей 81 = М. C.1.1) л —и где k — наибольшая величина, которую может принять х (она равна 100 в этом примере). Отсюда следует, что Щ[ж) = 1- C.1.2) х=0 Ют- Is S 1 В I I / 2 3 4 5 6 7 8 9 Ю 11 12 13 И 15 16 Число дефектных изделий х Рис. 3.2. Частотное распределение для данных рис. 3.1. где nx/N определяет долю выборок с х дефектными изделиями. На- Например, из рис. 3.2 видно, что 5 из 50, или одна десятая часть выборок, имеют равно 8 дефектных изделий. Выборочные пространства, события, случайные величины и рас- распределения вероятностей. Данные контроля качества можно опи- описать, введя четыре основных понятия. Первым из них является выборочное пространство, которое представляет собой множество точек, соответствующих всем возможным исходам эксперимента. Например, при проверке 100 транзисторов выборочное простран- пространство состоит из 101 точки Ро, Pi, ..., Pioo, которые соответствуют 0, 1, 2, ..., 100 дефектным изделиям. Некоторая совокупность или подмножество точек выборочного пространства называется событием. Например, выборочные точки Ро, Pi соответствуют событию «число дефектных изделий меньше двух». Каждая точка выборочного пространства соответствует ппп стому событию. у И Для того чтобы обращаться к различным событиям в выбороч- выборочном пространстве, необходимо ввести понятие случайной величины Например, точки выборочного пространства для данных о транзи- транзисторах можно обозначить по-другому, так, что точки Ро и Р, будут соответствовать событию «случайная величина Y принимает значе ние у = 0», а точки Р2, Р3, ..., Р100 —событию «случайная вели- величина Y принимает значение у=Ъ. Таким образом, Y принимает значение у = 0, когда имеется меньше двух дефектных изделий и у—\, когда имеется два или большее число дефектных издечий' Случайная величина обозначается обычно большой буквой, напри- , мер X или Y, а численное значение, которое она принимает в кон кретной выборке, обозначается маленькой буквой, например х Заметим, что события в выборочном пространстве можно обо- обозначать многими способами. Например, некоторая случайная вели- величина могла бы быть связана с числом дефектных изделий в вы- выборке. В этом примере случайная величина X принимает значения В общем случайная величина является функцией, которую мо- жпо использовать для обозначения множеств или событий в вы- выборочном пространстве. Основными понятиями, необходимыми для описания примера с контролем качества, являются вероятность и распределение ее роятностей. Вероятность равна отношению числа событий в кото- которых случайная величина X принимает значение х, к общему числу событий; она записывается рх (х). Множество чисел рх (х) х = 0 1 2, ..., 100, является распределением вероятностей. Каждая'из веро- вероятностей является неотрицательной величиной, и их сумма равна единице. Оценку рх (х) можно получить из наблюденных отношений nx/N, определенных в C.1.2). При увеличении полного числа про веряемых транзисторов N отношения nx/N дают все лучшие и луч- лучшие оценки вероятностей рх (х). Иногда можно вывести математическую формулу для рх (х) сделав разумные физические предположения. Например, подходя- подходящим распределением вероятностей для описания задачи'с транзи- транзисторами является биномиальное распределение х=0, 1, п, C.1.3)
82 Гл. 3. Теория вероятностей где п — объем выборки и 9 — вероятность того, что транзистор является дефектным. Параметр б можно оценить по наблюденным данным с помо- помощью следующего соотношения: ?¦ Число дефектных транзисторов 355 „_.. Полное число проверенных транзисторов 5000 ' •^ Используя 0 вместо истинной величины 6, можно оценить веро- вероятность того, что случайная величина X примет значение х, по формуле @,071 = 0, 1, . . ., 100. C.1.4) Следовательно, в группе из 50 выборок, каждая из которых имеет объем 100, предсказываемое число выборок с х дефектными изде- изделиями равно пх = ЪОрх (х). Таблица 3.2 Сравнение наблюденных частот с ожидаемыми частотами, вычисленными по биномиальному распределению, подобранному к данным о транзисторах X "х Пх X Пх Пх 0 0 <0,1 1 2 0,3 9 6 5,3 2 0 0,9 10 4 3,7 3 3 2,3 11 2 2,3 4 2 4,2 12 0 1,3 5 7 6,2 13 2 0,6 6 9 7,5 14 0 0,2 7 7 7,6 15 0 0,1 8 5 6,8 16 1 <0,1 В табл. 3.2 наблюденные частоты пх сравниваются с ожидае- ожидаемыми частотами пх в предположении, что модель C.1.4) верна. Мы видим, что наблюдается хорошее согласие и, следовательно, C.1.4) является адекватной вероятностной моделью для этой си- ситуации. Вопрос о том, какую из вероятностных моделей использовать в конкретной задаче, является важным, и для получения ответа на него нужно использовать все имеющиеся в распоряжении данные 3.1. Частотные распределения и распределения вероятностей 83 и относящуюся к сути явления информацию. Ответ не может быть продиктован математикой, но должен быть получен в результате тщательного анализа физической ситуации. 3.1.2. Непрерывные случайные величины и распределения Во многих случаях нужно описывать ситуацию с помощью не- непрерывной случайной величины, т. е. случайной величины, опреде- определенной на выборочном пространстве, которое является непрерыв- непрерывным. Например, рис. 3.3 показывает частотное распределение тока 0,5 1,0 1,5 2,0 2,5 3,0 3,5 Ток коллектора ,мка 4,0 4,5 5,0 Рис. 3.3. Точечная диаграмма для токов коллектора. коллектора для выборки, состоящей из Л^=100 транзисторов. По- Поскольку величина тока может принимать любые неотрицательные значения, нужно ввести случайную величину X, принимающую значение х из непрерывного выборочного пространства О^х^оо. Рис. 3.3 показывает, что иногда сразу четыре транзистора имеют одну и ту же величину тока. Однако если воспользоваться более чувствительным амперметром, то может случиться так, что никакие две точки на оси силы тока не совпадут и, таким обра- образом, бессмысленно строить распределение частот. Следовательно, нельзя говорить о вероятности осуществления конкретного значения непрерывной случайной величины X, скажем х = 2,000 мка. Функция распределения. Хотя и бессмысленно рассматривать вероятность того, что некоторая непрерывная случайная величина X принимает конкретное значение х, тем не менее можно опреде- определить вероятность того, что X будет меньше некоторой величины х, т. е. Рг{Х^л;}. Эта вероятность записывается Fx{x) и называется функцией распределения. Типичная форма такой функции пока- показана на рис. 3.5, где видно, что она стремится к значению 1, по- поскольку /\х(оо) = 1. Функцию распределения можно оценить с помощью доли значе- значений выборки, не превосходящих данной величины х. Выборочная функция распределения для данных, приведенных на рис. 3.3,
84 Гл. 3. Теория вероятностей показана на рис. 3.4. Она состоит из ряда скачков высоты nx/Ny расположенных над значениями, из которых состоит выборка. • 1,0 0,8 0,6 0,2 0,250,5 1,0 1,5 1,0 2,5 3,0 3,5 Ц,0 4,5 5,0 X Ток коллектора, мка Рис. 3.4. Выборочная функция распределения для данных рис. 3.3. Плотность вероятности. С функцией распределения Fx (х) свя- связана плотность вероятности fx(x). Она задается соотношением dFv (x) / (I (з5) при условии, что функция распределения достаточно гладкая, так что ее производная существует. Этого не будет, если случайная величина является дискретной, так как функция распределения в этом случае имеет скачки, или разрывы, в точках, соответствую- соответствующих дискретным значениям X. Плотность вероятности не является распределением вероятно- вероятностей, но ее можно использовать для вычисления вероятностей. Так, интегрируя C.1.5), получаем вероятность того, что случайная ве- величина X меньше х: X, Рг{^<х, } = Fx(xl) = J /x(x)dx, —со а вероятность, что X лежит в интервале от xi до хг, равна х, По определению fx(x) имеет следующие свойства: оо для всех x; j fx{x)dx = \. C.1.6) C.1.7) C.1.8) 3.1. Частотные распределения и распределения вероятностей 85 Нормальная плотность вероятности. Одной из наиболее важных плотностей вероятности в статистике является нормальная, или гауссовская, плотность вероятности t (х\^^ __4___ ехо I ( I \ oo<Cjc<Coo C 1 9Y показанная на рис. 3.5 вместе с ее функцией распределения. Нор- Нормальная плотность вероятности полностью задается двумя пара- параметрами \i и а2 и будет обозначаться N(ц, а2). Она может быть ис- использована для описания многих практических ситуаций, например jx-3ff fi-2ff [i-ff ц fi+if ji+Z(f ц+Зс х P и с. 3.5. Нормальная плотность вероятности и функция распределения. для характеристики диаметра обрабатываемых на станке деталей или срока службы электрических ламп. Этот факт можно объяс- объяснить с помощью центральной предельной теоремы, которая утвер- утверждает, что плотность вероятности суммы п случайных величин X — Xi + Xz+.. . = Х„ сходится очень быстро к нормальной при уве- увеличении п независимо от того, каковы плотности вероятности от- отдельных Xi. Таким образом, если окончательное измерение х яв- является результатом многих мелких эффектов, действующих адди- аддитивно, то следует ожидать, что нормальная плотность вероятности будет хорошо описывать ситуацию. Во многих других ситуациях может существовать некоторая подходящая функция g(X) от слу- случайной величины X, имеющая приближенно нормальное распреде- распределение. Например, плотность вероятности логарифма емкости кон- конденсаторов на некоторой поточной линии хорошо описывается
Гл. 3. Теория вероятностей нормальной плотностью. Как и в дискретном случае, вопрос о при- применимости конкретной плотности вероятности может быть решен» только после тщательного анализа данных и относящейся к сути явления информации. 3.1.3. Оценка плотностей вероятности Один из способов оценки плотности вероятности состоит в по- построении гистограммы. Она показывает долю р(п) наблюдений, 0,6 г 0,5 f о '§ 0,3 0,2 0,1 5=1,0 мка 1 —J LJ.J L U-J I 1 i 1 1 _L L_U lJ. _L 0 12 3 4 5 Ток коллектора,мка Рис. 3.6. Гистограммы для данных о коллекторном токе, лежащих в интервале от (п к~) ^ Д° \п + ~~о~) °"- Так как (Л8), я = 0, ±1, ±2, 3.1. Частотные распределения и распределения вероятностей 87 то выборочной оценкой плотности вероятности является функция ,_ Р(п) , п = 0, +1, . . ., состоящая из прямоугольников ширины б. Рис. 3.6 показывает гистограмму данных о токе, приведенных на рис. 3.3, для двух зна- значений ширины интервала б, а именно 0,4 мка и 1,0 мка. Выбороч- Выборочная оценка, использующая широкий интервал, является сравни- сравнительно плавной и скрывает большую часть тонкой структуры дан- данных. Наоборот, узкий интервал дает более детальную картину, но выборочная оценка в этом случае более изменчива, так как в каждый интервал попадает меньшее число наблюдений. Таким образом, нужно принимать компромиссное решение, учитывая про- противодействующие требования подробной детализации и большой изменчивости. В гл. 6 будет показано, что аналогичные рассужде- рассуждения применимы и при оценке спектров. 3.1.4. Двумерные распределения Иногда для описания практической ситуации необходимо ис- использовать несколько случайных величин. Примером может слу- служить сравнение отсчетов акселерометра, производимых пилотом,. с более точными измерениями, получаемыми автоматическим ре- регистратором. Данные этого эксперимента показаны на рис. 3.7, где на гра- график нанесены одновременные отсчеты пилота (xi) и регистратора (лг2). Рис. 3.7. называется диаграммой разброса; она может быть использована для построения двумерной гистограммы с помощью подсчета числа точек в прямоугольниках на плоскости (xi, х2). Данные, приведенные на рис. 3.7, можно описать с помощью двух случайных величин Xi и Х2, где Xi относится к отсчетам пи- пилота, а Х2 — регистратора. Выборочное пространство для этого примера представляет собой область Xi^O, Хг^О, но в общем слу- случае оно может быть и целой плоскостью {х\, х2). С этим общим выборочным пространством можно связать двумерную функцию распределения Х2)=Рг C.1.10) Как и в одномерном случае, если функция распределения является достаточно гладкой, ее можно продифференцировать, в результате чего получится двумерная плотность вероятности f12(xu х2) = F, Х2). C.1.11),
Гл. 3. Теория вероятностей Следовательно, функцию распределения можно выразить через плотность вероятности с помощью n(xt, х2) = J J /„(*„ t2)dtxdt2. C.1.12) —оо —оо Плотность вероятности C.1.11) можно оценить по двумерной ги- гистограмме точно так же, как была оценена плотность вероятности fx(x) по одномерной гистограмме. 5,0г • 3,0 2,0 ¦at-*:# 1,0 2,0 3fi 5,0 Рис. 3.7. Диаграмма разброса для измерений ускорения (в единицах g). Для дискретных случайных величин совместная плотность ве- вероятности записывается р\2{хи х2) и представляет собой вероят- вероятность того, что случайная величина Х\ примет значение хи а Х2—¦ значение х2. Условные распределения и независимость. Рассмотрим для двух дискретных случайных величин функцию, определяемую как долю случаев, в которых Xi принимает значение Xi, при условии, что Xi зафиксировано на некотором значении х2. Эта функция на- называется условным распределением вероятностей Х\ при заданном Х2 и обозначается рт(хи х2). Аналогично pi\2{xi, х2) обозначает условное распределение вероятностей Х2 при заданном Xi. Сов- 3.1. Частотные распределения и распределения вероятностей местное распределение вероятностей Xi и Х2 можно при этом за- записать в виде рх2(хх, х2) = рх(хх)р2[х(хх, x2) = p2(x2)Pll2(xl, x2), C.1.13) где, например, pi(xi) — безусловное (маргинальное) распределение Xi.' Безусловное распределение вероятностей Pi(a'i) можно полу- получить из совместного распределения вероятностей с помощью Оно дает долю случаев, в которых Xi равно xi вне зависимости от того, каково значение Хг- Если вероятность того, что случайная величина Х\ принимает значение xi не зависит от того, что случайная величина Х2 прини- принимает значение х2, то условное распределение вероятностей р± 12 (-Vi, x2) = pi(xi) и условное распределение вероятностей р2ц(А-ь х2) = = Pz(jc2). В этом случае говорят, что случайные величины Xi и Х2 независимы, а выражение C.1.13) для совместного распределения вероятностей разлагается на множители в виде C.1.14) Аналогично для непрерывных случайных величин совместная плотность вероятности разлагается на множители вида /г2(хи х2) = /1(х1)/2|1(х1) х2) = /2(х2)/112(х,, х2) C.1.15) в случае, если случайные величины зависимы, и на множители вида /12(*.. х2) = /1(х1)Л(^2). C.1.16) если случайные величины независимы. Двумерная нормальная плотность вероятности. Так же как нормальная плотность вероятности играет главную роль при опи- описании одиночных случайных величин, двумерная нормальная плот- плотность вероятности 2A _ Р?2) 2р12 х\ —\ х-, ^ со, C.1.17) играет столь же важную роль среди двумерных плотностей веро- вероятности. Двумерная нормальная плотность вероятности зависит от
¦90 Гл. 3. Теория вероятностей пяти параметров: ци ц2, ои о2 и pi2. Если pi2 = 0, то C.1.17) рас- распадается на произведение двух нормальных плотностей вероятно- вероятности; это говорит о том, что в случае pi2 = 0 случайные величины Xi и Х2 независимы. Параметр р12 называется коэффициентом кор- корреляции; он измеряет степень линейной зависимости между двумя случайными величинами. 3.1.5. Многомерные распределения Когда измеряются одновременна п количеств, ситуацию можно описать с помощью я случайных величин с заданной n-мерной сов- совместной функцией распределения ¦^12 ... п(Х1> Х2> ¦ • •> Хп) и плотностью вероятности ¦Л2 . . . «(•*¦! ' Х2> ¦ • ¦' Хп>- Если случайные величины взаимно независимы, то совместная плотность вероятности распадается на множители /.2 ...п(Х1. Х2> ¦ ¦ : Х„)=/1(Х1)/2(Х2) . . . /П(ХП). C.1.18) Важным частным случаем многомерной плотности вероятности является многомерная нормальная плотность вероятности, которую можно записать сжато, используя матричные обозначения, в виде 1 <¦ \П/2 —^ C.1.19) 2 01 aia2Pl2 a,aop,, . . . co.o.. 2 02 C.1.20) 2 JnPln а2аяР2л аЗаяРзл • • • ал Многомерная нормальная плотность вероятности зависит от п(п + 3)/2 параметров, из которых п являются средними значе- значениями p.,- (t = l, 2, ..., п); п — дисперсиями a2. (i= 1, 2, ..., п) и л(п— 1)/2 — корреляциями р,-;- (i= 1,2 n, j = i+ 1, ..., п). Если случайные величины независимы, то корреляции рг-; = 0, и матрица V является диагональной, а совместная плотность ве- 3.2. Моменты случайных величин 91 роятности распадается согласно C.1.18) на произведение п одно- одномерных нормальных распределений. Чтобы описать эмпирические данные с помощью многомерной нормальной плотности вероятности, необходимо оценить упомяну- упомянутые выше п(п + 3)/2 параметров. Этот вопрос обсуждается в гл. 4. 3.2. МОМЕНТЫ СЛУЧАЙНЫХ ВЕЛИЧИН 3.2.1. Моменты одномерных случайных величин Если дано распределение веррятностей рх(х) дискретной слу- случайной величины или плотность вероятности fx(x) непрерывной случайной величины, можно вычислить вероятность того, что слу- случайная величина находится между двумя значениями Х\ и хг- Ино- Иногда невозможно найти распределение вероятностей или плотность вероятности точно, и в таких случаях возникает необходимость охарактеризовать распределение с помощью нескольких чисел. Самыми простыми из них являются среднее значение и дисперсия. Среднее значение. Иногда полезно знать, какое значение слу- случайная величина X принимает в среднем. В примере с контролем качества из разд. 3.1.1 это значение представляет собой среднее число дефектных изделий в выборке, которое можно было бы ожи- ожидать. Среднее число дефектных изделий, которое действительно на- наблюдалось в N выборках, равно C.2.1) х=0 и называется выборочным средним частотного распределения. Для данных, приведенных на рис. 3.1, х = 7,\, и эта величина показана в виде жирной горизонтальной линии, вокруг которой группиру- группируются значения х. Так как отношения nx/N являются оценками для вероятностей Рх(х), среднее значение распределения вероятностей равно V- = 2 хрх (х). х=0 C.2.2) Величина (х обозначается обычно Е [X] и называется математичес- математическим ожиданием случайной величины X. Оно дает среднее, или ожи- ожидаемое, значение, которое будет принимать X в будущих экспери- экспериментах. Аналогично для непрерывной случайной величины =] х/х (х) dx C.2.3)
Гл. 3. Теория вероятностей Равенство C.2.3) совпадает с выражением для центра тяжести неоднородного стержня с приходящейся на единицу длины удель- удельной массой fx(x), расположенной на расстоянии х от его конца. Аналогичным образом Е[Х] является центром тяжести плотности вероятности случайной величины X, и, следовательно, оно служит для характеристики расположения распределения. Дисперсия. Найдя расположение распределения, естественно перейти к описанию следующего наглядного свойства — степени разброса распределения. Одной из мер этого разброса является дисперсия оо °2 = 1 С* - V-ffx С*) dx = E [(X - C.2.4) которая характеризует рассеяние вокруг его среднего значения ц. Если fx (x) все более и более концентрируется около [i, то а2 будет уменьшаться. Обратно, если имеются значения х, удаленные от среднего, для которых fx(x) не слишком мало, то о2 будет боль- большой. Возведение в квадрат и раскрытие скобок в C.2.4) дает дру- другую эквивалентную формулу для дисперсии V?. C.2.5) Выражение C.2.4) аналогично формуле для момента инерции стержня с неравномерной плотностью относительно его центра тя- тяжести. При этом формула C.2.5) просто утверждает, что момент инерции относительно центра тяжести равен моменту инерции от- относительно начала координат минус момент полной массы стер- стержня, сконцентрированной в центре тяжести, относительно начала координат. Табл. 3.3 дает среднее значение и дисперсию для не- некоторых важных дискретных и непрерывных распределений. Дисперсию дискретного распределения вероятностей можно оценить с помощью выборочной дисперсии k S = дг | ? tlx [Л X) . х=о Аналогично среднее значение и дисперсию данных Х{ (i—l, 2, ..., п), соответствующих непрерывной случайной величине, мо- можно оценить по формулам C.2.6) 3.2. Моменты случайных величин 93 Таблица 3.3 Некоторые важные функции распределения и их средние значения и дисперсии Распределение Биномиальное Пуассона Нормальное Прямоугольное (равномерное) Отрицательное показательное (экспоненциаль- (экспоненциальное) Распределение вероятностей (")/>*(!-/>)"-* х = 0, 1, 2 п '-*¦?• *>° * = 0, 1, 2 оо Плотность вероятности /хм 1 Г 1 / *-и\21 VT.* СХР[ 2 ( а )\ — оо < х< оо а + b ~е~хИ\ 0<дг<оо, ц>0 Среднее значение р, пр X Среднее значение ц V- ¦\-(Ь-а) V- Дисперсия з2 "/>(! — Р) X Дисперсия а2 а2 (Л+*J 12 И2 Положительный квадратный корень а из дисперсии а2 называется стандартным отклонением. Его можно использовать для норми- нормировки распределения, как мы сейчас покажем. Нормированное нормальное распределение. Нормальная плот- плотность вероятности C.1.9) обладает тем важным свойством, что она полностью задается параметрами ц и а2, соответствующими сред- среднему значению и дисперсии случайной величины. Следовательно, среднее значение ц и стандартное отклонение а можно использо- использовать для нормировки плотности вероятности. Так, если X распре- распределена по закону N(ii, о2), то случайная величина У = Л^- C.2.7)
94 Гл. 3. Теория вероятностей имеет плотность вероятности — оо оо. C.2.8) Следовательно, Y распределена как N @, 1). Плотность вероятности C.2.8) называется нормированной нормальной плотностью веро- вероятности. Из C.2.7) получаем, что случайная величина X лежит внутри интервала (fx — г\а, ix + ца), когда случайная величина Y лежит внутри интервала (—т|, +tj). Вероятность последнего события Рг{—r\<Y ^ г\} можно найти в стандартных таблицах [1, б*]. Не- Некоторые полезные значения т] приведены в табл. 3.4. Старшие моменты. В общем случае одномерную плотность вероятности можно описать с помощью ее среднего fx и старших центральных моментов = 2, 3, C.2.9) так что дисперсия при этом соответствует k = 2. Значения ц& для k>2 не имеют большой практической важности, поскольку, если некоторая плотность вероятности неадекватно описывается своим средним значением и дисперсией, то ее лучше представить с помо- помощью соответствующей негауссовской плотности вероятности и за- затем оценить параметры этой плотности. Моменты функций от случайных величин. Иногда нужно иссле- исследовать некоторую функцию Y = g(X) от случайной величины Хг например Y=\nX. В этом случае моменты Y можно выразить че- через плотность вероятности X с помощью соотношений *> Ely]=$ g(x)/x(x)dx, —оо оо Var[K]= J '.х C.2.10) и так далее. 3.2.2. Многомерные моменты Результаты предыдущего раздела можно распространить на ППРПРЛРНИСТ finnan ЧКТГП^ППГ. гтпгчп„„п Г> ° Hd высокого порядка. Рассмотрим, например лп) от случайных величин Xi, Х2, ..., Хп[ " Э™Й КНИГ6 обозначается Диверсия случайной •I 3.2. Моменты случайных величин 95 имеющих совместную плотность вероятности fi,г „ (xi, x2, ... ..., хп)- Математическое ожидание g(X\, Х2, ..., Хп) равно оо оо оо Е \g{Xlt Х2, . . ., Хп)\ =j j . . . j g(xu x2, ..., хп) X —оо —оо —оо Х/12...„(*1. Х2' • ¦ ¦• xn)dxxdx2 ... dxn, C.2.11) что является многомерным аналогом равенства C.2.10), упоми- упоминавшегося выше. Если функция g(Xi, Х2, • ¦., Хп) распадается на множители g(Xu X2, ..., Xn)=gi{Xi)g2{X2) ...gn{Xn) и в дополнение к этому случайные величины независимы, так что плотность ве- вероятности также распадается на множители, то C.2.11) перехо- переходит в Ы,)Ы2) g)] = E[gl(X1)]E[g2(X2)\ ... E\gn(Xn)}. C.2.12) Ковариация. Функциями g(X\, X2 ..., Хп), представляющими особую важность, являются произведения случайных величин, на- например g(Xu Х2) = {ХХ- для двумерного случая. Математическое ожидание этого произве- произведения называется ковариацией между Xi и Х2 и записывается Cov [X,, Х2\ = Е {(X, - ъ) (Х2 - [х2)] = оо оо = J I (¦*! — I1»)(^2 — V-z)fni.xi> x2)dxldx2. C.2.13) —оо —оо Заметим, что из определения C.2.13) следует, что Cov[Ji, X2] = = Cov [X2, Xi] и что Var[A',]=Cov[A'1, Xt]. Если Xi и Хг независимы, то fa(xi, x2) =fi(xi)f2(x2) и, следова- следовательно, Cov [A',, X3]=E[Xl-V.1]E[X2-^]=0. Таким образом, ковариация измеряет степень линейной зависимо- зависимости двух случайных величин. В спектральном анализе иногда приходится рассматривать ко- вариацию между функциями g(Xi, ..., Хп) и h(Xi, ..., Хп), а именно Covlg(Xlt .... Х„), h(Xu ..., Х„)] = = E[[g(X1, .... Xa)-E[g(Xu ..., Хп)]}Х X[h(Xu ..., Xa)-E[h(Xlt .... *„)]}].
96 Гл. 3. Теория вероятностей 3.2. Моменты случайных величин 97 Например, ковариация между g{Xi, X2) = XiX2 и к(Хз, Xi) =XsXi равна Cov \ХХХ2, Х3Х4] = Е [(Х,Х2 - Е[ХХХ2]) (Х3Х4 - Е [Х3Х4Щ. 3.2.3. Моменты линейных функций от случайных величин Рассмотрим произвольную линейную функцию Я1Х1 + Я2Х2 двух случайных величин Xi и Х2. Используя C.2.11), получаем со оо — J J 12 x dx2 = — 00 —со *2]. C.2.14) Следует отметить, что C.2.14) справедливо, даже если Xi и Х2 не являются независимыми. Вообще е 2 мч = 2 C.2.15) В качестве примера рассмотрим математическое ожидание сред- п него арифметического X = (l/n) J^Xi набора случайных величин с одним и тем же средним значением ц. Равенство C.2.15) пока- показывает, что Следовательно, математическое ожидание среднего арифметичес- арифметического равно математическому ожиданию отдельной случайной вели- величины. Дисперсия линейных функций. Используя C.2.13). получаем, что дисперсия линейной функции Я^Н-Аг-Хг равна Var \11Х1 + \2Х2] = X? Var [Xx\ + + >| Var [Х,2\ + 2/пл2 Cov [Xl И вообще Г п \ п п Var 2 h*i =22 Vv Cov [Xt, Xj], C.2.16) C.2.17) где Cov[^, Xi\=Var[Xi\. Если Z; независимы, то C.2.17) сводится к -v C.2.18) «= 1 i Рассмотрим, например, случайную величину Х= (l/n) г-1 где — независимые случайные величины с дисперсией о2. Тогда Используя C.2.15) и C.2.18) при п=1, получаем полезный резуль- результат: нормированная случайная величина имеет нулевое среднее значение и единичную дисперсию. Дальней- Дальнейший важный результат [2, 2*] состоит в том, что если случайные величины Xi являются нормальными, то плотность вероятности случайной величины также является нормальной со средним значением C.2.15) и дис- дисперсией C.2.17). 3.2.4. Коэффициент корреляции Выражение C.2.16) для дисперсии линейной функции двух слу- случайных величин обязательно является положительным числом или нулем для любых действительных значений Я4 и Яг. Так как выражение в правой части является квадратным урав- уравнением относительно Я4 и Яг, то из положительности дисперсии сле- следует, что его корни являются комплексными. Отсюда X2\f, что можно переписать в виде Var [Xi ] Var [X2] C.2.19) Параметр р12 называется коэффициентом корреляции между Xt и Х2. Он заключен в интервале —1 ^pi2^ + 1. Мы уже отмечали, что если случайные величины независимы, то Cov[Xb X2] = 0 и, следовательно, pi2 = 0. Для двумерной нор- нормальной плотности вероятности было показано и обратное: если Pi2 = 0, то случайные величины независимы. Однако если р12== О для распределения, отличного от нормального, то случайные вели- величины не обязательно являются независимыми. В этом случае их называют некоррелированными. 4 Заказ № 1210
Гл. 3. Теория вероятностей Если pi2 = 0, то диаграмма разброса для пар величин (xi, х%), которые являются реализациями случайных величин (Xi, Хг), была бы похожа на приведенную на рис. 3.8 а. Видно, что знание одного из членов пары никак не помогает в предсказании значения дру- другого. Для малых, но положительных значений pi2 диаграмма раз- разброса была бы похожа на показанную на рис. 3.8,6; этот рисунок Р,г=° хг • • • • •в • • • • • • * . Р,г=°'5 • • •• • * • • • х • • • !•* р12=0,Э Рис. 3.8. Диаграммы разброса выборок двумерных нормальных случайных величин. соответствует значению pi2= +0,5. Теперь уже заметна слабая тен- тенденция к группированию значений вдоль прямой линии. Так, боль- большие значения Х2 преимущественно соответствуют большим значе- значениям Xi, а малые значения Хг — малым значениям х±. Если бы ко- коэффициент корреляции был равен —0,5, то наклон прямой, вокруг которой группируются значения, был бы отрицательным. Следова- Следовательно, большим значениям Х2 преимущественно соответствовали бы малые значения xi, и наоборот. Для значений р42, близких к еди- единице, диаграмма разброса концентрируется около прямой линии, как показано на рис. 3,8, в; для этого рисунка pi2 = +0,9. Следова- Следовательно, pi2 является мерой линейной зависимости между случай- случайными величинами Xi и Хг, и в предельном случае pi2=l имеется точное линейное соотношение вида Х2 = a 3.2. Моменты случайных величин Сравнение диаграмм разброса рис. 3.8 с диаграммами разброса данных акселерометра, приведенных на рис. 3.7, показывает, что эти данные имеют коэффициент корреляции между 0,5 и 0,9. Формула для выборочной оценки pi2 коэффициента корреляции будет приведена в гл. 4; для акселерометрических данных она дает значение pi2 = 0,78. Эта величина достаточно мала и должна вызы- вызывать некоторое беспокойство относительно надежности визуального считывания показаний акселерометра пилотом! Ковариация линейных функций. В качестве заключительного обобщения C.2.17) рассмотрим линейные функции Х1Х1 + К2.Х2 и V1X14-V2X2. Ковариация между ними равна Cov {{\Х{ + Х2Х2), (v,A-, + Х2Х,)] = V. Cov [Хх, Х,\ + V2Cov \Xlt Х2\ +ХЛ Cov [X2, A",] + X2v2Cov [X,, X2\, C.2.20) что сводится к C.2.16) в случае Xi = Вообще имеем и a2 = v2. [п п ~\ п п 2 \Xt. 2 V0 =22 ^; '=1 y=i J 1=1j=i C.2.21) Равенство C.2.21) является важным результатом, который будет использован в гл. 6 для вычисления ковариации между сглажен- сглаженными спектральными оценками. Результаты этого раздела приведены в матричной форме в при- приложении ПЗ. 1. 3.2.5. Моменты нелинейных функций случайных величин Во многих практических статистических задачах необходимо рассматривать нелинейные функции от случайных величин. Напри- Например, большинство задач спектрального анализа являются нелиней- нелинейными. За исключением некоторых специальных случаев, невоз- невозможно вывести точные плотности вероятности этих нелинейных функций, и, следовательно, нужно описывать эти плотности веро- вероятности с помощью их моментов. В этом разделе показывается, как вывести приближенные выражения для среднего значения и 'дис- 'дисперсии нелинейной функции от случайных величин. Среднее значение нелинейной функции. Рассмотрим функцию g(Xi, Х2, ..., Хп) от случайных величин Хи Х2, ..., Хп, которые имеют средние ц« и ковариации аи (/, /=1, 2, ..., п). Рассмотрим далее разложение Тейлора функции g(Xi, Х2, ..., Хп) в точке (аи
100 Гл. 3. Теория вероятностей а.2, ¦ ¦ ¦, йп). Тогда с точностью до членов первого порядка (X Х2, . . ., Хп)я^?(а1, а2, . . ., а„) + X, - a,), C.2.22) i = i где (dg/dXi)a обозначает частную производную по Xi в точке (Xi, Хг, .. •, Хп) = (#i, аг, ..., а„). Взяв математическое ожидание от обеих частей C.2.22), получаем = 1 Если а,- = Aг-, то второй член исчезает, так что Е \g(Xu Х2, . . ., Х„)] s C.2.23) C.2.24) Дисперсия нелинейной функции. Из C.2.22) имеем [g(Xu Х2, . . . , Xn) Последнее выражение линейно цр Xit поэтому, используя C.2.17), получаем C.2.25) Частные случаи формулы C.2.25). Если п=\, то Var [g(X)\ ~{4т)^ Var Например, если g (Z) = ^2, то Если /г = 2, то Var Var Var \X2 3.3. Выборочные распределения 101 Например, если Xt и ^ — некоррелированные случайные величины g(Xu XJ^ то C.2.27) сводится к Преобразования, делающие дисперсию постоянной В статигти ческих задачах часто получается так, что дисперсия случайной ве" lZZTZ Не1ЛР°Й ФУНКЦИЙ ^ИИТ например Var[*] = fX2. В"этом случае логичней'расс^атоиватГг^' чайную величину Y-X/ц, так как Var [П = 1 и следовательно" масштаб измерения Y не зависит от ее среднего „SS общий подход состоит в том, что рассматривают такую фунКЦИЮ g(X) от случайной величины, что Var[g(X)] мало зависит от соел него значения X и, следовательно, от среднего значения а(X) Используя C.2.26), получаем, что если потребовать чтобы была константой ku то ' А,; dX где Уаг[А"]-ф(ц). Поэтому с точностью до аддитивной константы V? C.2.28) а случайная величина g(X) имеет дисперсию, которая мало зави сит от среднего. В упоминавшемся выше примере Varmi^u) - = И2, так что g(n)=ln». Таким образом, случайная величина In* имеет дисперсию, мало зависящую от среднего значения, и потому она дает более логичный масштаб измерения, чем сама X Ппеоб разования, делающие дисперсию постоянной, направлены на то чтобы получить плотность вероятности для преобразованной слу чайной величины, более похожую на нормальную плотность чем плотность величины X. Следовательно, плотность вероятности пое образованной случайной величины будет полнее охарактеризована ТЩЬЮ еб СРеДН6Г0 Знач.ения и Д^персии, чем плотность с" 3.3. ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ Одна из важных задач теории вероятностей состоит в нахожттр нии плотности вероятности fx(x) некоторой функции Х(Х, X Хп) от п случайных величин Хи Х2, ..., Хп, если дана их совмест- совместная плотность вероятности [2,2*]. Эти выводимые распределения
102 Гл. 3. Теория вероятностей используются при статистическом анализе данных следующим об- образом. Предположим, мы хотим собрать конечную выборку наблюде- наблюдений Х[, х% ¦ ¦ ¦, хп, по которым нам нужно сосчитать некоторую функцию x(xi, хг, ..., хп), например среднее значение. Тогда, пре- прежде чем данные собраны, можно 'описать все возможные наборы данных, которые можно было бы получить с помощью случайных величин Хи Хг, ..., Хп. Таким образом, полнота возможных экспе- экспериментов описывается «-мерным выборочным пространством, с ко- которым можно связать совместную плотность вероятности fi2...n (xi, Хо, ..., хп) ¦ Используя методы, описанные, например, в [2], можно затем вычислить плотность вероятности fx(x) функции Х(ХЬ Х2, ... ..., Х-г). Эту плотность вероятности можно использовать до сбора данных для предсказания частоты, с которой различные значения функции х(хи хг, ..., хп) будут попадать в интервал между двумя любыми пределами в повторяемых выборках объема п. Поэтому плотность вероятности fx(x) называется выборочным распределе- распределением случайной величины X(Xi, Х2, ..., Хп). 3.3.1. Выборочное распределение среднего значения в случае, когда дисперсия известна Приведем простейший пример выборочного распределения. Пусть производится п независимых измерений некоторой перемен- переменной, например обратного коллекторного тока в транзисторе. В этом случае совместная плотность вероятности просто равна /i2 • • ¦ п(*и х2, . . ., х„) = /х(хх)/2(х2) . . . fn(xn). C.3.1) Предположим, что нас интересует изменчивость выборочного сред- среднего этих измерений. Тогда если предположить, что каждая Х{ распределена как М(ц, а2), то можно показать [2], что плотность вероятности среднего арифметического значения случайных вели- п чин X— (\/п) ^Х{ будет распределена как N(\x, o2/n), т. е. г = 1 ехр - "о" C.3.2) C.3.2) называется выборочным распределением среднего для нор- нормальных случайных величин. Частотная интерпретация, которую можно применить к C.3.2), заключается в следующем. Если пред- представить себе очень большое число экспериментов, каждый из кото- которых состоит из п независимых измерений, взятых из нормальной популяции с jV((x, <т2), то гистограмма распределения х стремилась бы к нормальному закону C.3.2). Выборочное распределение выборочного среднего обычно очень близко к нормальному, даже если отдельные распределения 3.3. Выборочные распределения 103 /i (xi), ..., fn (xn) сами не являются нормальными. Этот важный ре- результат следует из центральной предельной теоремы [2]. Выборочное распределение, подобно любому другому распреде- распределению, можно описать с помощью его моментов, обычно называе- называемых выборочными моментами. Например, выборочное распределе- распределение среднего нормальных случайных величин C.3.2) полностью ¦описывается с помощью выборочных моментов Var [*]=-?-. C.3.3) Частотная интерпретация, которую можно дать этим моментам, состоит в том, что среднее из большого числа выборочных средних будет лежать очень близко к среднему значению популяции, или теоретическому значению ц, и что изменчивость выборочных сред- средних от выборки к выборке характеризуется дисперсией а2/п. Одно из основных применений выборочных распределений со- состоит в том, что они позволяют делать вероятностные утверждения ¦относительно случайных величин, таких, как X. Например, рас- рассмотрим выборку из 9 зна- значений Xi (i= 1, 2, . . ., 9) слу- Таблица 3.4 чайной величины X, про КО- Вероятности, относящиеся торую известно, что она рас- к нормированной нормальной пределена нормально с еди- плотности ничной дисперсией, но неиз- неизвестным средним значением ц. Из C.3.2) и C.3.3) полу- получаем, что случайная величи- величина X распределена нормаль- нормально с Е[Х] = |.i и Var[X[ = 1 1,00 1,96 2,00 2,58 3,00 0,683 0,950 0,954 0,990 0,997 а = площади вне интервала (-1, +1) 0,317 0,050 0,046 0,010 0,003 = -—-. Следовательно, вос- воспользовавшись приводимы- приводимыми в табл. 3.4 вероятностя- вероятностями, относящимися к нор- нормальному закону, можно подсчитать вероятность того, что наблюденное значение ~х случай- случайной величины X будет лежать в заданном интервале. Например, Pr - или Рг {[х - 0,653 < X < [х + 0,653 } = 0,95.
104 Гл. 3. Теория вероятностей Это означает, что если случайная величина X распределена нор- нормально со средним значением \х и дисперсией 1, то с вероятностью 0,95 случайная величина X будет лежать не дальше, чем на ±0,653 от |д. Частотная интерпретация этого факта состоит в том, что из большого числа выборок, каждая из которых состоит из 9 реали- реализаций X, приблизительно одна из двадцати выборочных оценок х будет отличаться от истинного значения |д больше, чем на 0,653. Обратная и более трудная задача получения выводов относительно ц по данному значению х обсуждается в гл. 4. 3.3.2. Выборочное распределение дисперсии Выборочное распределение среднего представляет собой рас- распределение суммы случайных величин. Следующее простейшее вы- выборочное распределение — распределение дисперсии нормальных случайных величин — представляет собой распределение суммы квадратов случайных величин X* + Х\ +... + Х\ . Предположим, например, что имеется п независимых измерений из iV@, ^-попу- ^-популяции и требуется найти выборочное распределение случайной ве- величины л=А1-т-Л2-т- ..• -Г Л п. F.6 А) Распределение %\ называется ^-распределением с п степенями сво- свободы. Общий вид плотности вероятности ^-распределения с v сте- степенями свободы следующий: 1 .Ы2)-1 /*?(*) = 2v/2r/(v/2) C.3.5) СО где F(v/2) <= $e~ttiv№~1 dt — гамма-функция от аргумента v/2. о Графики зависимости /у (я) от х для v= 1, 2, 3 и 10 приведены на рис. 3.9. Для v=l плотность вероятности имеет бесконечную ординату при х — 0 и стремится к нулю, когда х стремится к бес- бесконечности. Для v = 2 плотность вероятности является экспонентой, а для v ^ 3 плотность вероятности принимает унимодальную форму. Заметим, однако, что для малых v распределение очень несимметрично. По мере того как v возрастает, плотность вероят- вероятности начинает выглядеть все более и более похожей на нормаль- нормальную, как это и предсказывается центральной предельной теоремой. Первые два момента случайной величины %*, полученные из C.3.5), равны Var[x?]=2v. C.3.6) 3.3. Выборочные распределения 105 В гл. 4 будет показано, что выборочной оценкой дисперсии по вы- выборке из п наблюдений является п — \ (х _ хJ 0 2 i, 6 8 10 12 1А 16 х Рис. 3.9. Плотности вероятности %2"РаспРеДеления. Чтобы описать изменчивость этой функции от одной выборки к дру- другой, вводят соответствующую случайную величину 52, где =-7^ 2 (*!- 1 = 1 C.3.7)
106 Гл. 3. Теория вероятностей Если Xi — независимые N(\i, 1)-случайные величины, то можно по- показать [2], что (п— 1)S2 распределена как х2 с v= (п— 1) степе- степенями свободы. Термин «степени свободы» используется здесь в том же самом смысле, что и в статистической механике. Так, для лю- любого множества из п наблюдений будет только (п—1) независи- независимое отклонение (Xi — X), так как их сумма равна нулю. Обычно будет предполагаться, что наблюдения распределены как N([i, с2). В этом случае Xi/а будут распределены как N([i/a, 1),. так что случайная величина C.3.8) будет иметь ^-распределение с v = n— 1. Так как vS2i'o2 распределена как Х2> то вероятностные границы вида Рг \х v52 C.3.9) можно получить из таблиц [1]. Перегруппировав C.3.9), получаем, что случайная величина a2/S2 удовлетворяет соотношению Рг X A—а,2) (а/2) = 1 -а. C.3.10) Графики верхней и нижней границ v/xv(l—а/2) и v/xv(a/2) приведены на рис. 3.10 для с^= 0,01, 0,05 и 0,2 и для 3 ^ v ^ 100. Отметим, что верхняя и нижняя границы в C.3.10) очень чувстви- чувствительны к справедливости предположения о нормальности [3], в от- отличие от вероятностных границ среднего значения, которые можно построить, исходя из нормального закона, в силу центральной пре- предельной теоремы. Кривые рис. 3.10 можно использовать для определения интер- интервала, попадание внутрь которого для случайной величины S2/oz можно ожидать в 100A—а) % случаев. Например, предположим, что должны быть получены 20 наблюдений из N(n, а2)-популяции. Тогда х = п— 1 = 19 и, используя C.3.10) и рис. 3.10, получаем Pr@,58<-J- < 2,11 } = 1 -0,05 = 0,95. • Поэтому следовало бы ожидать, что в среднем в 19 случаях из 20 отношение a2IS2 будет лежать в интервале от 0,58 до 2,11. Иначе говоря, значения S2 будут лежать с вероятностью 0,95 в интервале 0,47а2<S2^ 1,72а2, или же значение vS2/o2= 19S2/a2 будет лежать в интервале 8,9 < 1952/а2 < 32,9. Границы 8,9*= 19/2,11 и 32,9 = = 19/0,58 для vS2/a2 обычно приводятся в статистических таб- таблицах. 3.3. Выборочные распределения 107 ч ¦\ \ V \ \ " \ \ ^—¦ ^- \ \ ч — \ -— X- Ч s —! ^> ^» ч, S 1— 0,99 — 0,95^ ^0,80. — ОМ ^-0,95' V xvfa) ч 1 ¦—¦ - ¦¦• --- ^-- V xv(i~f) ^ - --—¦ — . *"¦ . — 1—~. . « —— m — —— 1 . » —" 3 2,5 2 «=/,5 1,0 0,9 0,8 0,7 0,5 0,5 0А 0,3 0,25 0,2 U,15 3 к 5 6 7 8 Э10 15 10 15 30 40 50 60108030100 V V Рис. 3.10. Графики зависимости х . 2) , х <\ _ а/2) от v Для A — а) =0,80; 0,95; 0,99. 3.3.3. Выборочное распределение среднего в случае, когда дисперсия неизвестна Для того чтобы определить вероятностные границы для сред- среднего нормальных случайных величин, нужно знать a — стандартное отклонение популяции. Если а неизвестно, то невозможно сделать точные вероятностные утверждения, используя выборочное рас- распределение X, так как вероятностные границы будут зависеть
108 Гл. 3. Теория вероятностей от неизвестного значения а. В таком случае говорят, что а является мешающим параметром. Чтобы построить вероятностные интервалы для среднего, когда а известно, естественно рассмотреть случайную величину у _ C.3.11) Эта случайная величина распределена как N@, 1), и поэтому веро- вероятностные интервалы можно получить из табл. 3.2. Важный шаг вперед в теории выборочных распределений был сделан в 1908 г. Госсетом, писавшим под псевдонимом Стьюдент. Он показал, что если а заменить в C.3.11) на случайную величину S, где S2 определяется выражением C.3.7), то распределение слу- случайной величины Т =¦ = П — 1, C.3.12) не будет зависеть от мешающего параметра а. Следовательно, ве- вероятностные утверждения относительно среднего нормальных на- наблюдений можно сделать независимо от того, каково значение а. Этот результат интуитивно очевиден, так как если бы наблюдения были умножены на некоторую константу (например, если бы на- наблюдения производились в сантиметрах вместо метров), то и чис- числитель и знаменатель в C.3.12) умножились бы на эту же кон- константу, так что Tv осталось бы тем же самым. Плотность вероятности случайной величины Tv называется t-распределением Стьюдента с v степенями свободы и, подобно нор- нормальной плотности, она симметрична относительно начала коорди- координат. Влияние замены а в C.3.11) на S, как это сделано в C.3.12), выражается в том, что изменчивость случайной величины Tv возра- возрастает, и, следовательно, ^-распределение Стьюдента более размыто, чем нормальное распределение. Однако, по мере того как v увели- увеличивается, распределение S все более и более концентрируется около о, и поэтому ^-распределение стремится к стандартному нормаль- нормальному распределению C.2.8), как это вновь следует из центральной предельной теоремы. ^-распределение Стьюдента можно использовать для построения интервалов tv(a/2), tv(l — а/2), в которые можно ожидать попада- попадания случайной величины Tv в A—а)-й части всех случаев. Так как плотность вероятности симметрична, то tv(a/2) =—tv({— а/2) и поэтому Рис. 3.11 показывает кривые ty(\—а/2) в зависимости от v для а = 0,05 и а = 0,01. Заметим, что для больших v кривые стремятся 3.3. Выборочные распределения 109 к значениям 1,96 и 2,58, являющимся 95%-ной и 99%-ной грани- границами для нормированной нормальной плотности вероятности. Чтобы проиллюстрировать использование кривых на рис 3 И предположим, что нужно произвести, как и в примере разд. 3.3 Г >,@,335)=63.7 30- 2 3 4 5 6 7 8 310 15 Z0 25 30 АО 50 60 708090 v Рис. 3.11. Графики зависимости ^A—а/2) от v для A—а) =0,99; 0,95. 9 измерений из N(n, а2)-популяции. Тогда, согласно рис. 3.11, сле- следует ожидать, что случайная величина f9 (X — ц)/5 будет лежать в интервале (—2,3; +2,3) в 95% случаев. Заметим, что соответст- соответствующий интервал в случае известного о, найденный из табл. 3.4, есть (—1,96; +1,96). Этот интервал примерно на 15% уже. 3.3.4. Выборочное распределение отношения двух дисперсий Другое важное выборочное распределение появляется, когда требуется сравнить выборочные оценки дисперсий s2 и s2, получен- полученные из двух независимых выборок объема ni и п2 соответственно. Если выборки производятся из двух популяций, распределенных как W (hi, a2) и N (ц2, а\), то из разд, 3.3.2 следует, что vtS\ /а2 есть случайная величина x2Vi с vi = ni—1 и аналогично v25|/o2 есть
по Гл. 3. Теория вероятностей = n2— 1. Если %2 плотность вероятности отношения случайная величина х2 с 2о2 а5 независимы, то C.3.13) называется F-распределением Фишера с vi и v% степенями свободы. ^-распределение является двупараметрическим выборочным распределением, причем vi дает число степеней свободы числителя, 15 10 S ь 7 6 5 4 3 2,5 2 1,5 1П — : l*i§i — • — 1 —¦¦ — 5 ——, §1 -в» ^-. ОБ -—. 5= % i ^=; -" -- 1 1 ——«, —"- =^ ¦— — ¦— ¦-. — -, - — ¦-—v . — _, 4 5 6 7 8 9/0 Г5 20 25 30 40 v, 5 6 W —I 20 зо; 120 60 80 100 Рис. 3.12. Графики зависимости f 2@,95) от (v,, v2). a V2 — знаменателя. Когда vi и v2 оба велики, плотность вероятно- вероятности случайной величины F , концентрируется около единицы. Од- Однако для малых значений vi или v2 плотность распределяется до очень далеких от 1 значений. На практике теоретические дисперсии о^ и а\, которые появ- появляются в C.3.13), не будут известны. Однако если предположить, что а\=а\, то из C.3.13) следует, что S2JS\ распределено как F . Если же о2фо1, то S4S* будет распределено как V[, V2 1 Л 1 Z (а^/о^)/7 и, следовательно, распределение будет концентриро- концентрироваться около значения сг^/а|, a не 1. Рис. 3.12 показывает 0,95-вероятностные точки для распреде- распределения F , т. е. значения fv v @,95) такие, что 7 3.3. Выборочные распределения 111 Заметим, что так как = l/^ V2jVi, значения можно использовать для построения вероятностных интервалов для слу- случайной величины F . Таким образом, Vi, V2 г . ^ @-95)}=а9°- Рг Например, если vt = 4, v2 = 20, то из рис. 3.12 получаем РМ/?4,2о<2,9] =0,95; Рг| ^20,4 < 5,9 ] = Pr{/420> 0,17} =0,95. Следовательно, Рг{0Л7</74,20<2,9} =0,90. 3.3.5. Два свойства ^-распределения Приближение с помощью ^-распределения. х2Распределение занимает центральное место в вопросах приближения распределе- распределений сглаженных оценок спектральной плотности. Вообще, случай- случайная величина %2 полезна для приближения случайной величины, скажем Y, принимающей только положительные значения. Предпо- Предположим, например, что требуется аппроксимировать плотность веро- вероятности положительной случайной величиной Y с помощью плотно- плотности вероятности случайной величины a%2v, где а и v пока не опре- определены. Предполагается, что первые два момента Y даны. Тогда, если их приравнять первым двум моментам ах2, которые можно вывести из C.3.6), то получим Е[?\=ач, Var [К] = 2a2v. Решая эти уравнения относительно а и v, получаем . = -?ВД=.. C.3,4, a=JJfL- C.3.I5) откуда получаем параметры аппроксимирующего %2-распределения, выраженные через первые два момента Y. Теорема разложения для случайных величин, подчиняющихся Х2-распределению. Предположим, что случайная величина %2 раз- разлагается на k случайных величин %2 в виде i у2=у2 I 2 I 12
112 Литература Тогда можно показать [4, 7*], что если v, + v2+ ... +vft = v,; C.3.16) то х2 взаимно независимы. Обратно, если %2 независимы, то имеет место C.3.16). Простое приложение этого очень важного свойства состоит в сле- следующем. Предположим, что Х\, Хг, ..., Хп — п независимых слу- случайных величин, распределенных какМ(С), 1). Тогда В левой части равенства стоит случайная величина %2п, а первый член в правой части, будучи квадратом величины, распределенной как N@, 1), является величиной %2Г Теперь можно проверить, что случайные величины X и Xi — X независимы и, следовательно, две случайные величины в правой части независимы. Результат C.3.16) в этом случае утверждает, что второй член распределен как х2 _г ЛИТЕРАТУРА 1. Fisher R. A., Y a t e s F., Statistical Tables, Oliver and Boyd, London, 1938. 2. Parzen E., Modern Probability Theory and its Applications, John Wiley, New York, 1960. 3. Anderson S. L., Box G. E. P., J. Roy. Stat. Soc, B17, I A955). 4. H a 1 d A., Statistical Theory with Engineering Applications, John Wiley, New York, 1952. (Русский перевод: Хальд А., Математическая статистика с тех- техническими приложениями, М., ИЛ, 1956). ПРИЛОЖЕНИЕ П3.1 МОМЕНТЫ ЛИНЕЙНЫХ ФУНКЦИЙ ОТ СЛУЧАЙНЫХ ВЕЛИЧИН Результаты, выведенные в разд. 3.2.3 для линейных функций от случайных величин, можно записать изящнее в матричных обозна- обозначениях. Таким образом, если Л' П 1 1 \ V (VY V \ А = ^Aj , Л2> • • •> '•«/> -^ ==^ \^ 1 ' Л2> • • •> Л п) являются строками-векторами, а штрих обозначает транспониро- транспонированную матрицу, то результат C.2.15) можно записать в матричной форме в виде [][] где ц' = ?[Х'] =(?[*,], Е[Х2], .... Е[Хп\). Аналогично результат C.2.17) (ПЗ.1.1) (ПЗ.1.2) л и Var | У, \,Х, 1 = 22 >^;Cov [Х„ Xj\ (ПЗ.1.3) можно записать в матричной форме в виде Var [Х'Х] = Е [V (X - ц) (X - ц)' Ц = к'VX, (ПЗ. 1.4) гдеУ = ?[(Х — Ц.) (X — |ц)'] называется матрицей ковариаций слу- случайных величин Хг. Эта матрица имеет вид 'Var[A",] Cov[A"lf X2] ... Cov[A",, JCJ \ CovIX,, A",] Var fA'ol ... Cov LY2. XJ \ • J . (П3.1.5) '\Xn, Xx\ Gov'\Xn, X2) ... Var[A-n] / Матрица ковариаций обладает следующими свойствами: 1) так как Cov[Xi, Xj] = Cov[Xj, Xi], то матрица V симметрична, т. е. V = V;
114 Приложение П3.1 2) так как дисперсия случайной величины всегда неотрицательна, то выражение (ПЗ. 1.4) будет всегда неотрицательным при любом выборе X. Отсюда следует, что матрица V является неотрицательно определенной, т. е определители V и всех ее главных миноров не- неотрицательны. Наконец, результат C.2.21) для ковариации между двумя раз- различными линейными функциями от случайных величин Xi можно записать в виде Cov[X'X, v'X]=X'Vv. (ПЗ.1.6) I 6( Глава 4 ВВЕДЕНИЕ В ТЕОРИЮ СТАТИСТИЧЕСКИХ ВЫВОДОВ Статистика представляет собой науку обработки данных: как собрать нужный вид данных, как проанализировать их и как ис- использовать результаты анализа для того, чтобы дать разумные практические рекомендации. Раздел статистики, имеющий дело с развитием общих методов анализа данных, называется теорией статистических выводов. В свою очередь теория статистических выводов состоит из двух частей: критериев значимости и теории оценивания. В критерии значимости имеющийся набор данных проверяется таким образом, чтобы можно было дать ответ, согласуется ли он с конкретной гипотезой относительно некоторой случайной вели- величины, например является ли эта величина нормально распределен- распределенной с данным средним значением \i и данным стандартным откло- отклонением о. В теории оценивания данные используются для оценки значений параметров некоторой предполагаемой плотности вероят- вероятности этой случайной величины и для определения точности выбо- выборочных оценок. Последний подход обычно лучше соответствует практическим запросам, чем ограниченный ответ типа «да — нет», даваемый критерием значимости. В этой главе мы будем различать два подхода к теории ста- статистических выводов, а именно метод выборочных распределений (sampling distribution approach) и метод правдоподобия. Частным случаем метода правдоподобия, имеющим фундаментальную важ- важность при оценивании спектров мощности, является теория наи- наименьших квадратов, обсуждаемая в разд. 4.3. Метод правдоподо- правдоподобия идеально подходит для ситуаций, где по данным нужно оце- оценить небольшой набор параметров. Обладая этим качеством, он не подходит непосредственно для оценивания спектров мощности, ко- которые содержат по существу бесконечное число параметров. Един- Единственный подход, который возможен в этом случае, заключается в использовании выборочного распределения. Однако мы включили метод правдоподобия в эту главу из-за его важности при оценива- оценивании параметров в параметрических моделях.
116 Гл. 4. Введение в теорию статистических выводов 4.1. ИСТОРИЧЕСКОЕ РАЗВИТИЕ ТЕОРИИ СТАТИСТИЧЕСКИХ ВЫВОДОВ Теория вероятностей развивалась, чтобы предсказывать до про- проведения эксперимента вероятность того, что случайная величина X лежит между двумя значениями xi и хг. По мере развития теории неизбежно стали появляться также и некоторые виды статистиче- статистических выводов. Статистические выводы имеют дело с задачей, яв- являющейся обратной по отношению к задаче теории вероятностей, а именно: как использовать данные xi, Хг, ¦ ¦., х„ после экспери- эксперимента для того, чтобы сделать выводы о свойствах случайной ве- величины X. Предположим, например, что в результате 15 бросаний монеты мы получили 12 гербов и требуется узнать, совместим ли этот результат с предположением о симметричности монеты. Клас- Классическое решение этой задачи представляет собой пример одного из ранних способов получения выводов, известного теперь под на- названием критерия значимости. Решение использует исключительно вероятностные понятия и состоит в вычислении вероятности полу- получения 12 или более гербов при допущении гипотезы, что монета симметрична. Если эта вероятность мала, то она может рас- рассматриваться как веский признак того, что предположение о сим- симметричности монеты ложно; если вероятность велика, то этот ре- результат не противоречит гипотезе о том, что монета симметрична. В упомянутом выше примере вероятность получить 12 или более гербов в 15 бросаниях в предположении, что монета симметрична, равна 0,018, из чего можно заключить, что монета несимметрична. Другим давно известным способом получения выводов был ме- метод наименьших квадратов, открытый Карлом Фридрихом Гауссом A777—1855), когда он занимался определением орбит комет по данным наблюдений. В этой задаче положение орбиты дается при- принятой формой функциональной зависимости, включающей некото- некоторые измеренные величины и некоторые фиксированные константы, или параметры орбиты. Задача оценивания, рассмотренная Гаус- Гауссом, состояла в определении наилучших оценок этих параметров по данным наблюдений и в нахождении некоторой меры точности этих оценок. За исключением работы Гаусса, положившей начало исследова- исследованиям в этом направлении, большая часть теории статистических выводов была развита в XX веке. В большинстве случаев она воз- возникала в тех областях, которые обычно называют нефизическими науками, таких, например, как биология, генетика и сельское хо- хозяйство. В этих областях экспериментальные единицы крайне из- изменчивы, например животные, на которых испытывают лекарства или корма, или земля, на которой сравниваются разные сорта пше- пшеницы. Из-за этой большой изменчивости существенный прогресс в экспериментировании был невозможен без развития сложных ме- 4.2. Применение метода выборочных распределений 117 тодов статистического анализа и планирования экспериментов, на- направленных на собирание информативных данных. С другой сто- стороны, проникновение статистических методов в физические науки происходило медленно. Например, в экспериментальной физике мо- можно с помощью значительных затрат и сложных методов снизить изменчивость от эксперимента к эксперименту настолько, что ста- статистическими вопросами можно будет пренебречь. В противоположность этому в инженерных исследованиях мас- масштаб экспериментирования гораздо шире — от исследовательских работ в лаборатории через стадию опытных установок до промыш- промышленных экспериментов в большом масштабе. В такой ситуации адекватный контроль условий или невозможен, или же неэкономи- неэкономичен, вследствие чего применение статистических методов является жизненно необходимым. Задачи, встречающиеся в этих экспериментальных областях, стимулировали развитие теории статистических выводов. В этой главе мы обсудим два важных подхода к этой теории. Первый из них имеет своим источником теорию вероятностей и называется ме- методом выборочных распределений. Источником второго является теория наименьших квадратов, и он называется методом правдо- правдоподобия. 4.2. ПРИМЕНЕНИЕ МЕТОДА ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ К СТАТИСТИЧЕСКИМ ВЫВОДАМ В этом разделе будет показано, как метод выборочных распре- распределений можно применить, во-первых, к задачам оценивания, а во- вторых, к критериям значимости. 4.2.1. Основной метод В гл. 3 было показано, что прежде чем получить выборку на- наблюдений Xi, хг, ..., Хп, полезно посмотреть на них как на реализа- реализацию случайных величин Xi, Хг, ..., Хп, определенных на п-мерном выборочном пространстве. С этим выборочным пространством свя- связана плотность вероятности, называемая выборочным распределе- распределением, которая, вообще говоря, будет зависеть от набора неизвест- неизвестных параметров 6i, 62, ..., 8/,. Например, если случайные величины независимы и нормально распределены со средним значением 6i и дисперсией 62, то выборочное распределение, связанное с дан- данными, будет следующим: D.2.1).
118 Гл. 4. Введение в теорию статистических выводов где 6i = \x и 62 = а2 в использованных раньше обозначениях. Пара- Параметры включены в левую часть выражения D.2.1) выборочной плотности вероятности для того, чтобы показать, что она является функцией не только от х, но также и от неизвестных параметров 01 И 02. Предположим, что даны наблюдения Х\, хг, . •., хп и требуется оценить параметры 0* совместной плотности вероятности случай- случайных величин Xi, Хг, ¦.., Хп- Применение метода выборочных рас- распределений к задаче оце- оценивания можно резюми- резюмировать в трех следующих разделах. /. Выбор формы выбо- выборочной плотности вероят- вероятности. Сначала делается предположение о разум- разумной форме совместной плотности вероятности на- наблюдений. Вид этой плот- плотности будет зависеть от Рис. 4.1. Выборочные распре- распределения для двух оценок. различных предположений, таких, как независимость случайных величин Xi и вид функций ft (хг). Ясно, что решения на этой стадии будут зависеть существенным образом от априорных сведений об изучаемой ситуации. Например, если предположение о незави- независимости неоправдано, то некоторые из параметров совместной плотности вероятности могут описывать,зависимость между случай- случайными величинами Х{. В некоторых случаях выводы не очень суще- существенно зависят от предположений, сделанных относительно мате- математической формы совместной плотности вероятности. В других же случаях они могут сильно зависеть от этих предположений, следо- следовательно, требуется некоторое статистическое умение и интуиция для установления точной формы модели. 2. Выбор оценки. Функции в (Xlt Х2, ..., Хп) от случайных ве- величин рассматриваются как возможные оценки параметра 0. Каж- Каждая такая функция, будучи сама случайной величиной, будет иметь выборочное распределение /-g-@; 0). зависящее от неизвест- неизвестной величины 0, которое можно вывести из совместной плотности вероятности данных с помощью методов, описанных в [1]. Выбороч- Выборочная оценка 0 (jci, хг, ¦ ¦ ¦, хп), которая получается в конкретном экс- 4.2. Применение метода выборочных распределений 119 перименте, рассматривается в этом случае как реализация случай- случайной величины @{XU Xi, ..., Хп). Чтобы сделать выбор между различными оценками, нужно опре- определить критерий оптимальности. Например, из двух оценок в4 и в2, имеющих выборочные распределения, изображенные на рис. 4.1, была бы выбрана, без сомнения, оценка вь так как f~ F; 0) теснее сосредоточена около истинного значения 0, чем f-g @; 0). Следова- Следовательно, для любой заданной выборки 8i будет ближе к 0 с большей вероятностью, чем 62. Следовательно, если бы выборочные распре- распределения двух оценок были известны точно, то выбор между ними можно было бы сделать, сравнивая вероятности того, что они нахо- находятся ближе к истинному значению 0. Однако в большинстве при- приложений невозможно вычислить точно выборочные распределения. В таких случаях нужно менее детально описывать оценку, напри- например с помощью ее младших моментов. Были предложены различные критерии, основанные на момен- моментах. Они могут быть использованы для сравнения данных оценок. Важнейшим из этих критериев является критерий среднеквадра- среднеквадратичной ошибки, обсуждаемый в разд 4.2.3. Оценки максимального правдоподобия, обсуждаемые в разд. 4.2.4, образуют класс оценок, имеющих наименьшую среднеквадратичную ошибку для выборок большого объема. 3. Доверительные интервалы. Используя выборочное распреде- распределение отобранной оценки 6 или приближение к ее выборочному распределению, основанное на младших моментах, можно делать вероятностные утверждения относительно в, такие, например, как Рг { - /, < О - 6 < /2} = 1 - а, или, что то же самое, Рг{(в-/2<б) и (в +/,>в)} = 1 — а. Следовательно, вероятность того, что случайный интервал между 0 — h и в + U накроет истинное значение 0, равна 1 —а. Соответ- Соответствующий интервал, основанный на выборочной оценке, а именно @ — k, 6 +Л), называют в этом случае доверительным интервалом для 0 с коэффициентом доверия 1 — а. Это означает, что та-кой ин- интервал будет покрывать истинное значение в среднем в 100A —а) %, всех случаев.
120 Гл. 4. Введение в теорию статистических выводов 4.2. Применение метода выборочных распределений 121 Построение доверительных интервалов является одной из важ- важнейших задач процесса оценивания. Оно обсуждается в разд. 4.2:2. В тех случаях, когда невозможно построить точные доверительные интервалы, очень ценно получить хотя бы приближенные довери- доверительные интервалы, определяющие грубо точность оценки. Метод получения приближенных доверительных интервалов приводится в разд. 4.2.4. Обсуждение. Следует подчеркнуть логику метода выборочных распределений. Выборочное распределение /^(9; 6) можно исполь- использовать для вычисления вероятности того, что значение 8 случайной величины в лежит между двумя пределами для всех возможных выборок объема я, предполагая, что параметр 6 известен. Следова- Следовательно, как обсуждалось в гл. 3, распределение вероятностей дает нам возможность на основании общей модели судить о частной вы- выборке. Однако цель теории оценивания состоит в том, чтобы ис- использовать выборочную оценку 6 для получения утверждений отно- относительно 6, т. е. судить на основании выборки о правильности мо- модели. С этой точки зрения применение метода выборочных распре- распределений в теории оценивания является искусственным в том смы- смысле, что необходимо рассматривать не только конкретную доступ- доступную выборку, но и все другие выборки, которые могли бы быть получены. Тем не менее метод выборочных распределений важен и по своему историческому значению, и по следующим причинам. 1. Во многих случаях он приводит к заключениям, очень похо- похожим на те, которые достигаются с помощью других способов полу- получения выводов, таких, например, как метод правдоподобия, описы- описываемый ниже. 2. В ситуациях, где имеет место повторная выборка, например при проверке промышленных деталей, метод, включающий рассмо- рассмотрение всех возможных выборок, логичен. Однако это уже отно- относится к области теории статистических решений, а не к теории ста- статистических выводов. 3. В тех случаях, когда проблему нельзя свести к задаче оцени- оценивания небольшого набора параметров (как, например, в спектраль- спектральном анализе, включающем оценивание большого числа парамет- параметров), метод выборочных распределений дает, по-видимому, единст- единственно возможный подход к задаче. 4.2.2. Доверительные интервалы Доверительный интервал для среднего значения. Чтобы про- проиллюстрировать метод выборочных распределений и продемонстри- 1 ровать, как строятся доверительные интервалы, предположим, что требуется оценить среднее значение ц для данных о токах транзи- транзисторов, приведенных на рис. 3.3, используя только девять наблюде- наблюдений. Будем действовать в три этапа, как указывалось в разд. 4.2.1. На первом этапе нам нужно сделать предположение относительно формы плотности вероятности, которая должна быть связана с на- наблюдениями. Исходя из гистограммы рис. 3.6, разумно предполо- предположить, что наблюдения можно описать с помощью нормальной плот- плотности вероятности. Кроме того, поскольку транзисторы выбирались в случайные моменты времени с поточной линии, разумно считать, что случайные величины независимы. Поэтому предполагалось, что выборочное распределение, связанное с наблюдениями, имеет вид D.2.1), где |i = 9i и а2 = е2 оба неизвестны. Второй этап заключается в выборе оценки для среднего значе- значения |i. В качестве оценок можно было бы выбрать среднее арифме- арифметическое ^ = 4-№ + ^+ • ¦ • + *») D.2.2) и медиану, которая является «средним» наблюдением в выборке. Например, медиана для приведенных ниже данных о транзисторах равна 3,12. Можно показать [5], что для выборочной плотности вероятности D.2.1) «наилучшей» оценкой является среднее X по- потому, что оно имеет наименьшую среднеквадратичную ошибку и вероятность его нахождения в заданной близости от \х является наибольшей. Третий этап состоит в определении доверительного интервала для |i, основанного на выбранной оценке X. Как показано в разд. 3.3.3, если а неизвестно, следует использовать случайную величину Т У7Г(Х-\х) выборочное распределение которой является ^-распределением Стьюдента с v = n—1 степенями свободы. Следовательно, Рг или Pti'X - t4 L 1 - -?- yir Таким образом, вероятность того, что интервал X±ty\\ — — (а/2) ](S/У/г) накроет истинное значение ц, равна 1—а. Следо- Следовательно, 100A—а)%-ный доверительный интервал для ц„
122 Гл. 4. Введение в теорию статистических выводов основанный на выборочных оценках х и s, полученных по данной выборке, имеет вид Возвращаясь к нашему примеру, предположим, что значения тока в мка для девяти транзисторов, выбранных случайно с поточ- поточной линии,равны 1,73 3,81 3,00 3,64 3,48 4,91 так что 3,12 1,68 0,39 Таким образом, : = 1,73 + 3,00+ . . . +0,39 = 25,76 . . . +@,39J = 88,6860. = 2,86 и s 88,686-9B,86J 6,89 = 0,86, s = 0,93. ИС9П°Г3уя ^f?) ПРИ ^=2'86; 5 = 0,93; Ми значение =2,31 с рис. 3.11, получаем, что 95%-ный доверительный интервал для ц имеет вид ^шельныи B,86 - 0,77 • 0,93; 2,86 + 0,77 • 0,93), т. е. B,15; 3,57). Интерпретация этого 95%-ного доверительного интервала яя ключается в том, что если для большого числа повторных выбооок строить такие интервалы, то в 95% всех случаев они будутна крывать истинное значение ц. уду на" Заметим, что для этого примера можно построить бесконечное число доверительных интервалов с коэффициентом доверия 1 ~а а этом случае, выбирая интервал, симметричный относительно вы' борочного среднего, мы получим самый короткий интервал. Доверительные интервалы для дисперсии. Чтобы построить ло верительный интервал для дисперсии а2 нормальной плотности ве" Роятности воспользуемся тем фактом, что выборочное распределе-" ние (л—l)S2/a2 совпадает с распределением случайной величины 4.2. Применение метода выборочных распределений 123: ¦4 X2. Поэтому, воспользовавшись рис. 3.10, можно найти такие пре- пределы U и /г, что или Рг{(/252>а2) и (/,52<а2)) = 1-а Следовательно, 100A—а)%-ный доверительный интервал, осно- основанный на выборочной оценке s2, имеет вид (^2, 4*2). D.2.4) Для данных о токе коллектора s2 = 0,86; воспользовавшись рис. 3.10, получаем А = 0,36; /2 = 5,95, если а = 0,05. Следовательно, 95%-ный доверительный интервал для о2 имеет вид @,36-0,86; 5,95-0,86), т. е. @,31; 5,11). Отсюда следует, что 95%-ный довери- доверительный интервал для а имеет вид @,56; 2,26). Доверительные интервалы для отношения двух дисперсий. Если S2 является оценкой для о2 с vi степенями свободы, a S2—незави- S2—независимая оценка а2, с v2 степенями свободы, то, как показано» в разд. 3.3.4, выборочное распределение случайной величины является Fv ^-распределением Фишера. Следовательно, как пока- показано в разд. 3.3.4, Prf т^ -</\ .. </.. Подставив F = c2S2 /o2S2 в D.2.5) и перегруппировав члены, V [, \!2 2 1 1 2 получим Рг с2 . S2 S2 51 f (l a 1 J ч, v, И ~  /„I'-f^fll-1- 1 Следовательно, 100A — а)%-ный доверительный интервал, осно- ваный на выборочных оценках s\ и s2, полученных из двух неза- независимых выборок, имеет вид 1 D.2.6>
124 Гл. 4. Введение в теорию статистических выводов Например, для данных о токах транзисторов s2 = 0,86, а число степеней свободы vt = 8. Для выборочной дисперсии другой вы- выборки из 100 транзисторов была получена величина s^ = 1,025, причем число степеней свободы v2 = 99. Из рис. 3.12 находим, что /в,9э@,95) =2,05; /ээ.в@,95) =3,01, и поэтому, подставив эти значе- значения и отношение ^/^=1,025/0,86=1,16 в D.2.6), получаем 90%- ный доверительный интервал для сг2/сх2: 1 1,16 3,01 1,16 ¦ 2,05], или же @,39; 2,38). Так как этот доверительный интервал вклю- включает отношение а2/сх2 = 1, то возможность а2 = а2 не должна исклю- исключаться. 4.2.3. Свойства оценок В разд. 4.2.1 было показано, что лучшую оценку параметра можно выявить, сравнивая выборочные распределения различных оценок. Иногда невозможно вывести точное выборочное распре- распределение, и в таких случаях необходимо прибегнуть к помощи при- приближенных методов для отбора оценок. Эти методы используют свойства, определяемые младшими моментами оценок. Важней- Важнейшими из этих свойств являются смещение, дисперсия и среднеквад- среднеквадратичная ошибка. Смещение. Смещение оценки в параметра 6 определяется как Щ ЩЬ. D.2.7) Если .6 = 0, то плотность вероятности оценки имеет своим центром в точности истинное значение 6, и оценка называется несмещенной. Естественно выбирать оценку с малым или нулевым смещением, однако, как мы вскоре увидим, не всегда разумно настаивать на том, чтобы оценка была несмещенной. Дисперсия. Дисперсия оценки D.2.8) измеряет рассеяние плотности вероятности случайной величины О относительно ее математического ожидания, и, следовательно, во- вообще говоря, дисперсия должна быть небольшой. Однако требова- требования малого смещения и малой дисперсии не обязательно совме- совместимы, и часто уменьшение одной из этих величин влечет за со- собой увеличение другой. Рассмотрим, например, оценки =4-2 (**-*)' D.2.9) 4.2. Применение метода выборочных распределений 125 для дисперсии о2 нормальной плотности вероятности. Так как — XJ является случайной величиной %2 с v = n—1, t-i то, воспользовавшись D.2.7) и C.3.6), получаем, что смещение этой оценки равно n-l~k^ D.2.10) а из C.3.6) получаем, что D.2.11) Таким образом, несмещенная оценка для а2 получается при k = = п — 1, и в этом случае С другой стороны, дисперсию оценки D.2.9) можно уменьшить, сделав k большим. Однако увеличение k приводит к увеличению смещения, которое стремится к —а2, когда k-yoo. Ясно, что необ- необходимо найти компромисс между дисперсией и смещением. Среднеквадратичная ошибка. Один из видов компромисса ме- между дисперсией и смещением дает минимизация среднеквадратич- среднеквадратичной ошибки оценки, а именно h?2- D.2.12) Для упомянутого выше примера среднеквадратичная ошибка равна Это выражение достигает минимального значения 2а4/(«+1) при k = n+\ по сравнению со среднеквадратичной ошибкой 2а4 (п— 1) для несмещенной (k=n— 1) оценки. В некоторых случаях среднеквадратичная ошибка достигает минимума при нулевом смещении, т. е. одновременно с дисперсией. Такие оценки называются несмещенными оценками с минимальной дисперсией. Одна из трудностей, связанных с использованием критерия среднеквадратичной ошибки, состоит в том, что он дает нам воз- возможность лишь сравнить данные классы оценок, но он не говорит нам, как следует выбирать эти оценки. Впрочем, один класс оце- оценок, удовлетворяющих свойству минимальности среднеквадратич- среднеквадратичной ошибки для больших выборок, можно найти из функции
126 Гл. 4. Введение в теорию статистических выводов 4.2. Применение метода выборочных распределений 127 правдоподобия, введенной Фишером. Эти оценки обсуждаются в разд. 4.2. Они сыграли важную роль в статистическом оценива- оценивании, так как становятся несмещенными для выборок большого объ- объема и имеют также минимальную дисперсию среди всех возможных, оценок. Следовательно, для выборок большого объема оценки мак- симального правдоподобия являются оценками с минимальной сред- среднеквадратичной ошибкой. Состоятельность. Другим свойством оценок, опирающимся на выборочное распределение, является состоятельность. Предполо- Предположим, что смещение и дисперсия оценки стремятся к нулю, когда объем выборки п становится большим. Это означает, что выбо- выборочное распределение концентрируется вокруг 0 и точность оценки безгранично возрастает. Оценка, обладающая этим свойством, на- называется состоятельной оценкой. Например, если выборочное распределение стремится к нор- нормальному, что обычно справедливо при довольно общих условиях, то оно будет для больших п близким к [ 2c2 Когда п стремится к бесконечности, эта функция ведет себя по- подобно б-функции, сосредоточенной в 0. 4.2.4. Оценки максимального правдоподобия Функции правдоподобия, зависящие от одного переменного. Задача нахождения хорошей оценки для статистического пара- параметра была решена для многих случаев Фишером [2, 3], который ввел класс оценок максимального правдоподобия. Чтобы проиллю- проиллюстрировать этот метод, рассмотрим задачу оценки среднего срока службы партии осветительных ламп. Предполагается, что срок службы одной лампы хорошо описывается с помощью случайной величины X с плотностью вероятности /х(х; Х) = Хехр(— Хх), 0^.х^оо. Отсюда выборочная плотность вероятности для случайной вы- выборки, состоящей из п ламп, будет иметь вид D.2.13) /i2 • • ¦ п(xi' Х2, ¦ • •> х„) = X" ехр - X2 xt До того как произведен эксперимент, плотность вероятности D.2.13) дает частоту получения различных выборок при условии, что X задано. После того как эксперимент произведен, его можно интерпретировать по-разному. В нашем случае значения выборки xi, X2, ¦ ¦ ¦, Хп известны, а параметр X неизвестен. Зависящая от X функция, которая получается при подстановке выборочных значе- значений в плотность вероятности D.2.13), называется функцией прав- правдоподобия L (X) для параметра X. Она выражает предпочтитель- предпочтительность различных значений X. 0,00625Г 0,00500 - 0,00375 - 0,00250 - 0,00125 - Рис. 4.2. Функция правдоподобия для выборки объема 3 из показательного распределения. Например, предположим, что три лампы выбраны случайным образом из партии, проверены, и в результате проверки оказалось, что их сроки службы равны 2,6; 1,9 и 1,5 час соответственно. Так как ^Хг = Ь, то функция правдоподобия имеет вид ¦6Х). D.2.14) График функции D.2.14) приведен на рис. 4.2. Он представляет собой одновершинную кривую с максимумом при X = 0,5. Значение К параметра X, которое максимизирует L (X), называется выбороч- выборочной оценкой максимального правдоподобия параметра X. Она дает
128 Гл. 4. Введение в теорию статистических выводов предпочтительное значение параметра Л, поскольку при этом зна- значении вероятность получения данной выборки максимальна. Как правило, для гладкой функции правдоподобия оценку мак- максимального правдоподобия можно получить, решая уравнение dL(\) = 0. Для правдоподобия, полученного из плотности вероятности D.2.13), это уравнение дает выборочную оценку максимального правдопо- правдоподобия Я=1/х. В приведенном выше примере х = 2 и, следовательно, ?=0,5. В некоторых случаях, например если максимум достигается на границе возможных значений параметра, нельзя найти этот макси- максимум дифференцированием. Чтобы не получать лишенных смысла результатов, нужно построить график функции правдопо- правдоподобия. Функции правдоподобия от многих переменных. В случае, когда функция правдоподобия зависит от k параметров 0i, 62, ..., 0ft, вы- выборочные оценки максимального правдоподобия должны максими- максимизировать L@i, 02, . •-, 0ft) одновременно по всем переменным. Если этот максимум можно найти с помощью дифференцирования, то выборочные оценки максимального правдоподобия являются реше- решением системы k уравнений: Иногда удобнее находить максимум логарифма функции правдо- правдоподобия /@i, 02, • ¦., 0/0 =lnL@i, 02, .. •, 0ft). Тогда уравнения мак- максимального правдоподобия имеют вид dl a (in z.) 1 dL л / • 1 г> А). D.2.16) Пример 1. Рассмотрим функцию правдоподобия для среднего значения и дисперсии нормальной плотности вероятности, причем предполагается, что выборка состоит из п наблюдений: так что логарифмическая функция правдоподобия имеет вид xt ~ V-J- D.2.18) 4.2, Применение метода выборочных распределений 129 Выборочные оценки максимального правдоподобия, получаемые из D.2.18), являются решениями системы уравнений D.2.19) т. е. V — 1T- '¦-±-У(х -xf D.2.20) Пример 2. Предположим, что имеется п пар измерений (хн, Х2%), 1=1, 2, ..., п, как это было для данных об акселерометре на рис. 3.7. Если предположить, что они могут быть описаны парой случайных величин, совместная плотность вероятности которых яв- является двумерной нормальной плотностью, то логарифмическая функция правдоподобия для п пар наблюдений имеет вид Pi2 ) = ~ —7 D.2.21) Функция правдоподобия D.2.21) зависит от пяти параметров, и вы- выборочные оценки максимального правдоподобия можно получить, дифференцируя эту функцию по очереди по всем пяти параметрам и решая полученные уравнения. Можно убедиться, что оценки среднего значения и дисперсии те же самые, что и полученные из правдоподобия D.2.17), а выборочная оценка максимального прав- правдоподобия для коэффициента корреляции pi2 имеет вид = r 12 • D.2.22) 5 Заказ № 1210
130 Гл. 4. Введение в теорию статистических выводов Заметим, что D.2.22) можно переписать в виде «12 /¦„ = где С\2 D.2.23) D.2.24) является выборочной оценкой максимального правдоподобия кова- риации \12 между двумя рассматриваемыми случайными величи- величинами; си и Сгг — выборочные оценки максимального правдоподобия для дисперсий а^ и а^ соответственно. Так как функция правдоподобия является функцией только 0, когда наблюдения известны, то выборочная оценка максимального правдоподобия 6 получается непосредственно как функция этих наблюдений. Обычно в этом месте в статистических работах остав- оставляют функцию правдоподобия и возвращаются к методу выбороч- выборочных распределений. При этом с выборочной оценкой 6 связывают оценку в и находят ее выборочные свойства. Этот подход совме- совместим с подходом выборочных распределений к оцениванию, но это не совпадает с использованием метода правдоподобия для выводов, о чем будет сказано в разд. 4.4. Выборочные свойства оценок максимального правдоподобия приведены в работе [5]. Наиболее важное из них заключается в том, что для больших п оценки максимального правдоподобия приближенно несмещенные и распределены асимптотически нор- нормально с дисперсией Var [в] D.2.25) являющейся наименьшей дисперсией, которую может иметь любая несмещенная оценка. Поэтому можно построить приближенный доверительный интервал, используя выборочную оценку макси- максимального правдоподобия, дисперсию D.2.25) и табл. 3.4. Результат D.2.25) показывает, что дисперсия оценки макси- максимального правдоподобия обратно пропорциональна второй произ- производной (и, следовательно, кривизне) функции правдоподобия в точке ее максимума. Выражение E\ — D.2.26) 4.2. Применение метода выборочных распределений 131 называется количеством информации Фишера *>. Его интерпрета- интерпретацию мы продолжим в разд. 4.4. 4.2.5. Критерии значимости Другой вид выводов, включаемый в рамки метода выборочных распределений, представляет собой критерий значимости. Он дает возможность вынести решение о том, справедлива или нет некото- некоторая гипотеза относительно статистических параметров. Например, иногда нужно проверить, совместима ли некоторая выборка на- наблюдений xi, X2, ..., хп с гипотезой о том, что они получены из нормальной плотности вероятности с некоторыми заданными зна- значениями цо, сг^ среднего и дисперсии. Во многих случаях, когда применяют критерии значимости, луч- лучший ответ на задачу можно было бы получить с помощью оцени- оценивания параметров и вычисления доверительных интервалов. В этом разделе мы приведем простой пример критерия значимости и за- затем покажем, как можно было бы получить несколько боль- большую информацию, рассматривая нашу задачу как задачу оцени- оценивания. Понятие критерия значимости восходит к первым работам по теории вероятностей. Систематическая теория критериев значимо- значимости была разработана до некоторой степени независимо, с одной стороны, Фишером, а с другой стороны, совместно Нейманом и Пирсоном. Двое последних включили идею критерия значимости в теорию, названную ими теорией проверки гипотез. Описание этой теории дается в [4]. Этапы устроения критерия значимости. Проиллюстрируем этапы построения критерия значимости на примере с транзисто- транзисторами из разд. 4.2.2. 1. Выдвигаем нулевую гипотезу Но, например, что ток коллек- коллектора для партии транзисторов распределен нормально со средним значением jio, но с неизвестной дисперсией. 2. Определяем конкурирующие гипотезы. В нашем примере в качестве таких гипотез было бы естественно взять предположе- предположение ц>цо, поскольку желательно было бы забраковать партию, если средний ток коллектора был слишком высокий. 3. Решаем вопрос о наилучшей функции от наблюдаемых дан- данных, или статистике, с помощью которой будем проверять гипотезу. Если дисперсия известна, то, как можно показать [4], наилучшей *' Точнее было бы в последней формуле и в D.2.25) брать производную в точке 6 — точке истинного значения параметра.—Прим. перев.
132 Гл. 4. Введение в теорию статистических выводов статистикой является среднее X. Если дисперсия неизвестна, как в нашем примере, то наилучшей статистикой является 'Г Yn \Х — И-о) I .. = 5 . 4. Выводим выборочное распределение этой статистики при условии, что нулевая гипотеза верна. В нашем примере это будет ^-распределение Стьюдента с v = n— 1 степенями свободы. 5. Пользуясь D) и B), можно затем разделить выборочное про- пространство ff1 на две части: критическую область Q и область при- принятия гипотезы ff— Q , состоящую из всех точек выборочного про- пространства, не принадлежащих критической области Q . Критиче- Критическая область выбирается так, что вероятность Рг{л;1, дг2, ..., хп лежит в С | Яо верна} =а, где а мало, скажем 0,05 или 0,01. Веро- Вероятность а называется уровнем значимости критерия. 6. Наконец, критерий значимости заключается в том, что нуле- нулевая гипотеза отбрасывается, если наблюденная выборка jci, Х2, ... ..., хп попадает в Q , и не отбрасывается, если выборка попадает в ?Р — С ¦ Поскольку вероятность попадания выборочной точки в Q при условии, что Но верна, мала, то любой случай, когда она туда попадает, рассматривается как довод против нулевой гипо- гипотезы. В нашем примере в силу того, что Рг{7\,>^>A — а)} = а, кри- критическая область определяется неравенством У7Г (х — | > tn__x A — а) или же /Г01 ут Пример. Предположим, что п = 4, л: = 10 и s = 2 и нужно про- проверить гипотезу |Яо = 8 с уровнем значимости а = 0,025. Из рис. 3.11 находим U @,975) =3,18, и, следовательно, критическая область имеет вид ~Z. \ я _i_ 2C,18) t1 1Q Поскольку настоящее х лежит вне критической области, нулевая гипотеза не отвергается с 2,5%-ным уровнем значимости. Предположим, что конкурирующие гипотезы |я>|я0 и ц<ц0 одинаково важны. Например, если вес некоторого фасованного товара должен быть равен заданной величине |л0, то могли бы быть одинаково важными случаи недовеса и перевеса в конкретной вы- 4.2. Применение метода выборочных распределений 133 борке. В таком случае разумно выбрать критическую область в виде т. е. st х > JJ-o + - .-.(¦-т) X < [).о — ¦ -iV 2") D.2.27) Для нашего примера при jj,0 = 8 получаем критическую область х> 11,18, Зс<4,72. Так как наблюденная величина х=10 не лежит в критической области, то нулевая гипотеза не была бы отвергнута с 5%-ным уровнем значимости. Такой критерий называется двусторонним критерием значимости в противоположность упоминавшемуся выше одностороннему критерию. Доверительные интервалы и критерии значимости. Чтобы про- продемонстрировать соотношение между критерием значимости и до- доверительным интервалом, заметим, что доверительный интервал D.2.3) для ix имеет вид х + Поэтому если juo лежит внутри доверительного интервала, то, сог- согласно D.2.27), нулевая гипотеза не отвергается, а если ц0 лежит вне доверительного интервала, то нулевая гипотеза отвергается. В нашем примере 95%-ный доверительный интервал имеет вид = F,82; 13,18). Ю + Так как [Ло = 8 попадает внутрь этого интервала, то нулевая гипо- гипотеза не отвергается с 5%-ным уровнем значимости. На самом деле, никакая нулевая гипотеза из интервала от 6,82 до 13,18 не была бы отвергнута с этим уровнем значимости. Теперь становится очевидной дополнительная информация, содержащаяся в довери- доверительном интервале. Она показывает, что наш эксперимент был настолько неточным, что даже такие большие значения \i, как 13, правдоподобны. В этом случае единственное разумное заключение состоит в том, что требуется больше данных для того, чтобы оце- оценить |я точнее.
134 Гл. 4. Введение в теорию статистических выводов 4.3. ОЦЕНИВАНИЕ С ПОМОЩЬЮ НАИМЕНЬШИХ КВАДРАТОВ 4.3.1. Принцип наименьших квадратов Принцип наименьших квадратов был открыт немецким матема- математиком Карлом Фридрихом Гауссом, который опубликовал свою первую работу по этому вопросу в 1821 г. и затем возращался к нему неоднократно в течение всей своей жизни. Его принцип наименьших квадратов представляет собой одно из первых круп- крупных достижений в статистике, и даже на сегодняшний день он яв- является одним из самых мощных методов, имеющихся в распоря- распоряжении статистиков. Предположим, что выход г\ некоторой системы может быть предсказан по k входным переменным Xi, Хг, ..., хь. с помощью не- некоторой предполагаемой линейной модели '/] = е1х1 + е2х2+ ... +ел. D.зл> Например, ц могло бы быть выходом некоторого химического про- процесса, х— переменными процесса, такими, как температуры, дав- давления и скорости потоков, а 8Ь 82, .... 0& — неизвестными физичес- физическими параметрами, такими, как кинетические константы. Линейная теория наименьших квадратов имеет дело с оценива- оцениванием параметров 0Г по данным, состоящим из одновременных изме- измерений входных и выходных переменных. Значения, полученные в результате оценки параметров, можно подставить в D.3.1) и по- полученное при этом выражение использовать для предсказания вы- выхода при тех значениях входных переменных, которые появятся в будущем. Заметим, что уравнение прогноза D.3.1) не обязательно дол- должно быть линейным по хи хг, ..., хи, а лишь по параметрам 9. На- Например, если Х\=\, х2 = х, ..., хи = хп~^, то т] является полиномом по х степени k— 1. Если же выход является нелинейной функцией параметров, то описываемые в этом разделе методы легко видоиз- видоизменить [6] для оценивания параметров с помощью итераций линей- линейного метода наименьших квадратов. На практике можно наблюдать лишь отклик т], искаженный некоторой ошибкой г. Такое искажение неизбежно из-за ошибок измерения и из-за изменчивости, которую невозможно контролиро- контролировать. Если модель не вполне соответствует действительности", то ошибка может иметь систематическую компоненту, обусловлен- обусловленную этим несовершенством модели. Поэтому окончательный вид модели следующий: Yt = т,, + Zt = 9,xn + 02х/2 + . . . + bkxik + Z;, D.3.2)' где a) Yi (t=l, 2, ..., N)—случайная величина, соответствующая измеренному отклику tji в t-м эксперименте; 4.3. Оценивание с помощью наименьших квадратов 135 б) хц, Хг2, ..., Xih — значения, принимаемые входными перемен- переменными xi, хг, ¦ • -, xh в 1-м эксперименте; в) Zi — случайная величина, представляющая ошибку, поичем Z(] = 0 Заметим, что если ошибки имеют отличное от нуля среднее зна- значение 01, то это можно учесть, считая хц=1 в D.3.2). Теорема Гаусса. Подход с помощью метода наименьших квад- квадратов к задаче оценивания содержится g фундаментальной тео- теореме Гаусса. Она утверждает, что если ошибки Z, некоррелиро- ваны, т. е. Cov \ZU Z,] = 0 при 1ф\, и имеют нулевое среднее значение ?[Zi] = 0 и одинаковую дисперсию E[Z2i] = o2, то опти- оптимальными выборочными оценками параметров 0Г являются значе- значения 0,-, минимизирующие сумму квадратов расхождений между на- наблюденными значениями и подбираемой моделью, т. е. сумму квад- квадратов N s @,, е2, ..., ей) = 2 (у, - Мл - «л - ... - \xik)\ D.3.3) Как показано в приложении П4.1, выборочные оценки % опти- оптимальны в том смысле, что для любой линейной функции оценка 2 = х 2е2 имеет наименьшую среднеквадратичную ошибку. Выборочные оценки наименьших квадратов Qr (r=l, 2, ..., k) можно получить, дифференцируя S @Ь 02, ..., 0Г, ..., 0ft) по'бг и' ре-' шая получившуюся систему из k уравнений: N г=1, 2, k, D.3.4) которые обычно называются нормальными уравнениями. Пример. Чтобы проиллюстрировать метод наименьших квадра- квадратов Гаусса, рассмотрим ускорение тела, начинающего движение из состояния покоя под действием постоянной силы. Модель в этом случае имеет вид где Ti—-скорость тела по истечении времени х. Был проведен экспе- эксперимент, в котором скорости yi (i=l, 2, ..., N) тела замерялись в различные моменты времени Xi. Измерение моментов времени
136 Гл. 4. Введение в теорию статистических выводов Хг производилось очень точно, в то время как скорость измерялась с ошибкой. Поэтому в качестве вероятностной модели нашего экс- эксперимента можно взять К, = 6*, D.3.5) t, сек Рис. 4.3. Данные «скорость—время» и линия регрессии, полученная методом наименьших квадратов. На рис. 4.3 и в табл. 4.1 приведены данные (хи у%), полученные в действительном эксперименте. Для этого примера сумма квадратов D.3.3) имеет вид 5F): D.3.6) 4.3. Оценивание с помощью наименьших квадратов 137 Таблица 4.1 Данные «скорость-время» для оценивания ускорения Xi, сек yi, м сек Остатки у; — 0*; 1 35 5,0 2 58 -1,9 3 94 4,1 4 121 1,2 5 147 -2,8 6 175 -4,7 7 212 2,3 8 247 7,3 9 264 -5,6 Дифференцируя эту сумму по 6 и приравнивая нулю производную, получаем единственное нормальное уравнение Следовательно, выборочная оценка наименьших квадратов имеет вид 6 = 2 А D.3.7) Для данных, помещенных в табл. 4.1, имеем ? хф = 8538, =285 и, следовательно, _ 285 Подобранная линия у = 9% показана на рис. 4.3. Она называется иодии^йнн i, T можно использовать для пред- era™Гй чГния^скорос™/"в заданный момент времени , в лю бых последующих экспериментах при тех же условиях. 4.3.2. Доверительные интервалы для одного параметра Гпеднее значение и дисперсия оценки наименьших квадратов. Как обмечалось выше, существенно иметь меру точности оценивае- оцениваемого параметра, например в виде доверительного интервала. Этот ловерительный интервал можно использовать в свою очередь для ^строения доверительного интервала для прогноза, сделанного по ПОДВбуРпоНминаМвшеемся выше примере доверительные интервалы для 6 можно вывести, рассматривая выборочные свойства оценки в,
138 Гл. 4. Введение в теорию статистических выводов соответствующей выборочной оценке наименьших квадратов D.3.7). Так как Xi являются фиксированными константами, то среднее значение оценки в равно N x,E[Y,] N 2 N i=i N 1 = 1 так что эта оценка несмещенная. Аналогично получаем из C.2.18), что ее дисперсия равна N 2-? i=i D.3.8) так как Var [Уг] = Var [Zj] = 02. Следовательно, если бы а2 было известно, то D.3.8) можно было бы использовать для построения доверительных интервалов для 0, поскольку из того, что Yi распре- распределены нормально, следует, что 9 также распределена нормально. Кроме того, если даже Z» не являются нормально распределен- распределенными, тем не менее 9 будет иметь распределение, близкое к нор- нормальному в силу центральной предельной теоремы, и, таким об- образом, этот анализ будет устойчивым по отношению к предполо- предположениям, сделанным о распределении Z{. Оценивание остаточной дисперсии. В общем случае нам потре- потребуется оценивать а2 по данным. Чтобы увидеть, как это можно сделать, рассмотрим 2 Z*i = 2 <yt - *xtJ = 2 { Yi - *xt + xt @ - e) }2, D.3.9) где пределы суммирования временно опущены. Раскрытие скобок в D.3.9) дает и так как 9 является оценкой наименьших квадратов, средний член исчезает, что дает ?. D.3.Ю) Беря математическое ожидание от обеих частей D.3.10), получаем [2( а 4.3. Оиенивание с помощью наименьших квадратов 139 и отсюда, используя D.3.8), получаем Таким образом, случайная величина N является несмещенной оценкой а2. Поскольку (N—1)S2 является квадратичной форхмой от нормальных случайных величин и E[(N— 1)S2]= (N—1)g2, отсюда следует, что эта величина рас- распределена как o2x2v_r Результат D.3.10) является частным случаем теоремы C.3.16) о разбиении %2. Таким образом, из-за того, что случайные вели- величины Yi распределены как N (Qxu о2), левая часть D.3.10) распре- распределена как o2%2N. Кроме того, случайная величина (9 — 6) рас- распределена как jV(O, ozl^tx2) и, следовательно, случайная величина {в — QJ^x2. распределена как а2%2. Можно показать также, что две случайные величины в правой части D.3.10), имеющие ^-рас- ^-распределение, независимы. Следовательно, случайную величину в ле- левой части D.3.10), имеющую ^-распределение с N степенями сво- свободы, можно разбить на две независимые случайные величины, имеющие %2-распределение с JV—1 и с одной степенями свободы соответственно. Доверительные интервалы для 0. Так как 9 — 9 не зависит от S, то отсюда следует, что случайная величина VliT(e-a) имеет .'-распределение cv = tf-l степенями свободы. Отсюда 100A —а)%-ный доверительный интервал для 0 имеет вид D.3.11) где 6 дается равенством D.3.7), и D.3.12) является выборочной оценкой дисперсии. Заметим, что -2 )8-
140 Гл. 4. Введение в теорию статистических выводов и, следовательно, поскольку 0 известно, для вычисления остаточной суммы квадратов и выборочной оценки дисперсии остается сосчи- сосчитать лишь 2] У2 ¦ Для данных, приведенных в табл. 4.1, ?1у2 = 255 949. Следо-. вательно, S2 = |_ { 255 949 - B9,96JB58) } =21,06, так что 95%-ный доверительный интервал для 0 равен 29,96 ± Р#»)УЩ* = B9K3; 30,58). ]/285 Полезно также проверить индивидуальные разности от подобран- подобранного уравнения регрессии, чтобы посмотреть, не является ли какое- нибудь наблюдение аномальным или же разности укладываются в рассматриваемую схему. Для нашего примера индивидуальные разности у — вх показаны в третьем ряду табл. 4.1. Мы видим, что они не содержат очевидных выбросов, которые могли бы вызвать сомнение в правильности модели. Остаточную сумму квадратов D.3.12) можно переписать также в виде где D.3.13) является выборочным коэффициентом корреляции между Xi и iji (при условии, что линия регрессии проходит через начало коор- координат)*'. Отсюда D.3.12) можно записать в виде 2у5=A-/-2Jу? + /-22у?. D.3.14) Результат D.3.14) показывает, что в этом примере сумма квадра- квадратов отклонений у от нуля может быть разбита на составляющую гг^у2., равную сумме квадратов отклонений подобранной прямой линии от нуля, плюс сумму квадратов разностей между подобран- подобранными и наблюдаемыми величинами. Результат D.3.14) имеет много аналогов в спектральном ана- анализе, как будет показано в последующих главах. *> Хотя величины х, могут и не быть реализациями случайных величин, удобно тем не менее называть г выборочным коэффициентом корреляции между Xi и ух. — Прим. перев. 4.3. Оценивание с помощью наименьших квадратов 141 Дисперсия прогноза. Если модель D.3.5) используется для прогноза будущего значения скорости у, соответствующего дан- данному моменту времени х, то наилучшей выборочной оценкой у будет у = 'о х +z, где г = 0 является наилучшей выборочной оценкой ошибки. Соот- Соответствующая случайная величина имеет дисперсию -^—4-1 Отсюда 100A—а)%-ный доверительный интервал для прогнози- прогнозируемого значения имеет вид Г Л--4-Т ¦ D.3.15) Интервал D.3.15) увеличивается с увеличением х, а также выяв- выявляет общее правило, заключающееся в том, что точность прогноза зависит от планирования эксперимента, т. е. от выбора х\. 4.3.3. Доверительные области для нескольких параметров Распространение результатов разд. 4.3.2 на случай оценки не- нескольких параметров наиболее быстро получается с помощью тео- теории матриц. Эти результаты выведены в приложении П4.1, а в на- настоящем разделе лишь кратко резюмированы. В приложении П4.1 показано, что доверительный интервал заменяется в случае не- нескольких параметров доверительной областью в ^-мерном прост- пространстве параметров 6. Показано также, что еще одна интерпрета- интерпретация оптимальности оценок наименьших квадратов состоит в том, что они минимизируют объем доверительной области для парамет- параметров. Для любого отдельного параметра это означает, что оценка наименьших квадратов минимизирует длину доверительного интер- интервала по координате, соответствующей этому параметру. Для N измерений и k параметров результаты, выведенные в нри- ложении П4.1, можно резюмировать следующим образом. Нормальные уравнения: (Х'Х)8' = Х'у, или в скалярной форме (П4.1.7) где, например, Px_V =
142 Гл. 4. Введение в теорию статистических выводов Матрица ковариаций оценок: С = (Х'Х)~1а2, или в скалярной форме (П4.1.9) —1 С = Рх2х, Рх2хг • • • P x а2. Выборочная оценка остаточной дисперсии: или в скалярной форме 100A —а)°/о-ная доверительная область: (в - в)' XX (в - в) < ks2fKN_k A - а), (П4.1.15) или в скалярной форме N N у у r=ls=l б, -?г) (б, _?,)р„< ks*fk.N-k{\- а), где Дисперсия прогноза: или в скалярной форме Var [ У] = а2 h U ^« Cov Пример. Для иллюстрации приведенных выше результатов рас- рассмотрим частный случай— двухпараметрическую модель: D.3.16) 4.3. Оценивание с помощью наименьших квадратов 143 Выборочные оценки наименьших квадратов 9i и 62, получаемые из (П4.1.7), выведены в приложении П4.1.2. Они имеют вид D.3.17) Из (П4.1.19) получаем выборочные оценки ковариаций оценок D.3.18) s2 cov[el( ©2H- где выборочная дисперсия s2 получается из (П4.1.12): Наконец, используя (П4.1.15), получаем 100A — а) %-ную довери- тельную область для 8i, Эг: N (Sl _ -Ч X D.3.20) 4.3.4. Ортогональность В оассмотренном выше примере оценки наименьших квадратов для параметров модели D.3.16) имели отличную от нуля ковариа- цию, а в уравнение доверительного эллипса для FЬ в2) входило произведение вида (в.-в.) (92-в2). Типичная доверительная об- область для модели D.3.16) показана на рис. 4.4(а) где видно, что оси эллипса наклонены по отношению к осям (В,, в2) Следова- Следовательно нельзя определить доверительный интервал для 6i и 02 от- отдельно' В предельном случае очень высокой корреляции могло бы случиться, что очень широкий диапазон значении выборочных оце- оценок был бы в согласии с данными. Можно однако, по-новому параметризовать эту задачу, так что полученные оценки будут некоррелированы, т. е. ортогональны.
4.3. Оценивание с помощью наименьших квадратов 145 а Неортогональные параметры Ортогональные параметры Рис. 4.4. Доверительные области для двух параметров. в* Для двухпараметрической модели ортогональная параметризация имеет вид r/ = e; + 92*(xi-*)+Z/. D.3.21) Из (П4.1.7) получаем выборочные оценки наименьших квадратов (xt - х) (yi - у) D.3.22) и из (П4.1.9) S2 K^-xf ' D.3.23) где 100A — а) %-ная доверительная область для 0ь б2 является эл- эллипсом N _ ?2 < 2s2А лг_2A - а), D.3.25) который не имеет члена е произведением переменных из-за отсут- отсутствия корреляции между оценками. Типичная доверительная об- область такого вида показана на рис. 4.4, б. Поскольку в этом случае оси эллипса параллельны осям параметров, можно определить от- отдельные доверительные интервалы для каждого из двух пара- параметров. Если k>2, то способ вычитания среднего значения Х\, как это делалось в D.3.21), не приводит к ортогональной параметризации. Однако при этом оценки становятся ближе к ортогональным, чем без вычитания средних, и, в частности, они будут ортогональны к постоянной составляющей модели. Поэтому лучше подбирать мо- модель вида Yi = 9, + 92 C*a ~ *а) + 93 (-% - ^з) + • • • + 9* (хш ~ х») + Zt, D.3.26) чем модель Г,. =
146 Гл. 4. Введение в теорию статистических выводов В приложении П4.1 показано, что результаты этого раздела легко обобщаются на случай, когда Zi имеют произвольную матрицу ковариаций. 4.4. ВЫВОДЫ, ОСНОВАННЫЕ НА ФУНКЦИИ ПРАВДОПОДОБИЯ 4.4.1. Основной метод Функция правдоподобия была введена в статистику Фишером, но, как отмечалось в разд. 4.2, Фишер использовал ее главным об- образом для получения оценок максимального правдоподобия, кото- которые можно было бы затем использовать для оценивания в методе выборочных распределений. Использование же метода правдопо- правдоподобия для выводов ведет свое начало от работ Барнарда [7, 8] и представляет собой совершенно другой подход к статистическим выводам. Подход Барнарда можно коротко сформулировать в ут- утверждении, что распределения вероятностей полезны при описании данных до того, как они собраны, в то время как функции правдо- правдоподобия полезны при описании данных после того, как они соб- собраны. Важнейшая отличительная черта выводов, основанных на прав- правдоподобии, заключается в том, что они очень ясно показывают, что выборочное нространство не связано с оцениванием. Это логично, ибо свойства выборочной оценки должны, несомненно, зависеть от имеющихся данных, а не от данных, которые могли бы быть по- получены. Способ получения выводов, основанных на правдоподобии, мо- можно резюмировать в следующем виде: 1. Выборочная плотность вероятности наблюдений предпола- предполагается полностью известной, за исключением нескольких неизвест- неизвестных значений параметров. 2. Функция правдоподобия получается подстановкой в плот- плотность вероятности тех значений, которые получили наблюдения в данном эксперименте. 3. Функция правдоподобия строится как функция от неизвест- неизвестных параметров. 4. Находятся подходящие способы извлечения и суммирования информации, содержащейся в функции правдоподобия. В качестве простого примера применения метода правдоподо- правдоподобия рассмотрим несколько искусственную задачу оценки среднего значения ц нормальной плотности вероятности, дисперсия которой о2 известна. Выборочная плотность вероятности D.2.1) выборки, до того как собраны данные, имеет вид 4.4. Выводы, основанные на функции правдоподобия 147 fl2...n(Xi' Х2> • • • Хп> ехр 1 V (X _ nW _ ~~ 52" 2dKxi V-) I — После того как данные получены, функция правдоподобия для ц оказывается пропорциональной экспоненте --^tQc-vJ). D.4.1) Отсюда ^функция правдоподобия, рассматриваемая как функция от ц, с точностью до множителя равна нормальной плотности ве- вероятности со средним значением х и дисперсией о2/п. В противо- противоположность этому в методе выборочных распределений X имеет нормальное распределение со средним значением jx и дисперсией Информация, даваемая функцией правдоподобия D.4.1), по существу содержится в ее среднем значении х (выборочная оценка максимального правдоподобия) и в ее дисперсии oz/n. Таким об- образом, точность, с которой оценивается параметр, сразу видна на графике функции правдоподобия. Если функция правдоподобия сплюснута, то параметр оценивается неточно, так как значения параметра, удаленные от выборочной оценки максимального прав- правдоподобия, имеют правдоподобие ненамного меньше, чем правдо- правдоподобие самой оценки. Обратно, если функция правдоподобия скон- сконцентрирована около выборочной оценки максимального правдопо- правдоподобия, то параметр оценивается с большой точностью. 4.4.2. Свойства функций правдоподобия В этом разделе мы рассмотрим интерпретацию функций прав- правдоподобия и правила комбинирования этих функций. Принцип правдоподобия. Принцип правдоподобия заключается в том, что если два эксперимента приводят к пропорциональным функциям правдоподобия, то выводы, получаемые из этих экспери- экспериментов, должны быть одинаковыми. Предположим, например, что 8 транзисторов подвергаются проверке. До проведения эксперимента число дефектных транзи- транзисторов можно описать с помощью случайной величины /?, выбороч- выборочного пространства г = 0, 1, 2, ..., 8 и биномиального распределения вероятностей PR(r) = (l)prV-pT~r- D.4.2) После проведения эксперимента, заключающегося в проверке 8 транзисторов, оказалось, что три транзистора дефектны. Функция
148 Гл. 4. Введение в теорию статистических выводов 4.4. Выводы, основанные на функции правдоподобия 149' правдоподобия в этом случае имеет вид L(p) = 56p4l-pf. D.4.3) Теперь предположим, что был проведен другой эксперимент, в котором транзисторы проверялись до тех пор, пока не было об- обнаружено г дефектных. До проведения этого эксперимента число проверенных транзисторов можно описать с помощью случайной величины N, выборочного пространства п = г, г+1, ..., оо и рас- распределения вероятностей Паскаля Pn (") = которое дает вероятность того, что для получения г дефектных транзисторов нужно проверить всего п транзисторов. Если оказалось, что для получения трех дефектных пришлось проверить п = 8 транзисторов, то функция правдоподобия после проведения экспериментов окажется равной \-pf. D.4.5) Равенство D.4.5) пропорционально равенству D.4.3), и, согласно принципу правдоподобия, информация относительно параметра р, содержащаяся в обоих экспериментах, одинакова. Если же при- принять метод выборочных распределений, то выводы, которые дол- должны быть сделаны из этих двух экспериментов, будут разными, так как выборочные пространства и распределения вероятностей явля- являются в них различными. Следовательно, доверительный интервал для р в первом эксперименте отличался бы от доверительного ин- интервала во втором. Отметим, что принцип правдоподобия является формальным выражением того факта, что выборочное пространство не связано с оцениванием р. Дальнейшее обсуждение принципа правдоподо- правдоподобия читатель может найти в [8, 9]. Перемножение правдоподобий. Если функцию правдоподобия для параметра 8, вычисленную по данным D\, обозначить L(Q\Di) и если независимые данные D2 дают функцию правдоподобия ?(8|D2), то полная функция правдоподобия, основанная на дан- данных Dt и ZJ, имеет вид L{b\Dlt D2) = I(8|D1)I(9|D2). Это сразу следует из того, что если два набора данных незави- независимы, то полная выборочная плотность вероятности равна произ- произведению отдельных выборочных плотностей вероятности. В этом смысле функция правдоподобия подчиняется тому же мультипликативному закону, что и плотность независимых случай- случайных величин. Правдоподобие, как и распределение вероятностей, является неотрицательной величиной. Однако на этом их сходство кончается. Не существует закона для объединения правдоподобий, который был бы аналогичен правилу сложения для вероятности объединения двух взаимоисключающих событий. Шансы, получаемые из отношения правдоподобия (likelihood odds). Рассмотрим функцию правдоподобия D.4.3) для параметра р. Выборочной оценкой максимального правдоподобия является / 3 \ р = 3/в, которая дает значение правдоподобия Li -5-) =0,282. Для D.4.4) , другой величины р, скажем р = Vs, правдоподобие равно L\—) = \ 8 / = 0,0104. Отсюда шансы, получаемые из отношения правдоподобия,, за то, что p = 3/s по сравнению с p = ik, равны 27: 1. Это утверждение можно интерпретировать следующим обра- образом: 1) Шансы, получаемые из отношения правдоподобия, измеряют степень обоснованности, с которой по нашим данным параметру р можно приписать значение 3/8, а не Vs- Для того чтобы эти два значения можно было считать одинаково правдоподобными, ну- нужно, чтобы другой независимый эксперимент дал те же шансы в пользу значения р = Vs: ¦27. 2) Лицо, не имеющее никакой дальнейшей информации, было бы готово заключить пари в отношении 27 : 1 за то, что истинным зна- значением окажется р = 3/8, а не р = Vs. 4.4.3. Примеры функций правдоподобия Оценивание параметра показательного распределения. Рас- Рассмотрим обсуждавшуюся в разд. 4.2.4 задачу оценивания среднего срока службы осветительных ламп. Первый шаг в методе правдо- правдоподобия заключается в том, что нужно выписать выборочную плот- плотность вероятности для наблюдений. В нашей задаче соответствую- соответствующей выборочной плотностью вероятности будет fm(xu х2, х3\Х) = 13ехр{ -*2 хЛ. D.4.6) Следующий шаг состоит в подстановке наблюденных значений *i = 2,6, ^2=1,9 и лгз = 1,5 в D.4.6), в результате чего получается функция правдоподобия. — 6X). D.4.7)
150 Гл. 4. Введение в теорию статистических выводов 151 Третий шаг заключается в построении графика функции правдоро- добия, который показан на рис. 4.2. На четвертом шаге из функции правдоподобия извлекается и кратко суммируется информация. В настоящем разделе мы опишем очень простой способ выполне- выполнения этого шага. Более детальные способы описания функций прав- правдоподобия будут приведены в разд. 4.4.5. В отличие от функции правдоподобия D.4.1) функция правдо- правдоподобия D.4.6) асимметрична. Рис. 4.2 показывает, что она круто возрастает от Х = 0 до своего максимума при Л = 0,5, а затем отно- относительно медленно стремится к нулю при X—>-оо. Значение ^ = 0,5 Рис. 4.5. Функции правдоподобия для биномиального распределения (нормиро- (нормированные). является наиболее правдоподобным, или вероятным, значением для этих трех наблюдений. Оно называется выборочной оценкой макси- максимального правдоподобия % параметра К. Значения Я = 0,1 и Х=1,4 оба дают шансы правдоподобия 1 : 10 против Л. Таким образом, шансы против того, что Л, ^ 0,1 и ^ 1,4, не меньше чем 10:1. Поэтому область от Л = 0,1 до Я=1,4 называют вероятной обла- областью (credible region) с шансами, не меньшими чем 10:1, против любого значения не из этой области. Оценивание биномиального параметра. Рассмотрим обсуждав- обсуждавшуюся в разд. 4.4.2 задачу оценивания биномиального параметра. Используя D.4.2) или D.4.4), получаем, что при г успехах в п испытаниях функция правдоподобия имеет вид \-p)n-r. D.4.8) 4.4. Выводы, основанные на функции правдоподобия На рис. 4.5 показаны функции правдоподобия для двух случаев г=1, п==8 и г = 3, п — 8, причем обе кривые пронормированы так, что их максимум равен единице. Продифференцировав D.4.8), на- находим, что выборочная оценка максимального правдоподобия имеет вид р = г/п. Для случая г = 1 кривая правдоподобия похожа на кривую, изо- изображенную на рис. 4.2, т. е. она резко возрастает до максимума при р=р и затем медленно убывает для р, больших чем р. Вероятная область с шансами 10 : 1 простирается от 0,006 до 0,49, причем внутри нее в точке 0,125 находится выборочная оценка максималь- максимального правдоподобия. Для случая г = 3 кривая правдоподобия вполне симметрична относительно выборочной оценки максимального правдоподобия р — 0,375. Вероятная область с шансами 10: 1 простирается от 0,095 до 0,71. 4.4.4. Метод наименьших квадратов и оценивание с помощью правдоподобия Оценивание с помощью наименьших квадратов эквивалентно оцениванию методом максимального правдоподобия при условии, что ошибки распределены по нормальному закону. Чтобы показать это, рассмотрим простую однопараметрическую модель r^Bxt + Z,, обсуждавшуюся в разд. 4.3. Если предположить, что ошибки Z, независимы, имеют нулевое среднее значение и дисперсию а2, то выборочная оценка наименьших квадратов получается при миними- минимизации суммы квадратов 2 (и-в*,J. D.4.9) Если предположить, что ошибки независимы, имеют нулевое сред- среднее значение и дисперсию а2, а также распределены по нормаль- нормальному закону, то плотность вероятности для данных до того, как проведен эксперимент, имеет вид N ¦ехр - После того как данные собраны, логарифмическая функция прав- правдоподобия равна N D.4.10)
152 Гл. 4. Введение в теорию статистических выводов Таким образом, выборочная оценка 9, максимизирующая ло- логарифмическую функцию правдоподобия D.4.10), совпадает с выборочной оценкой, минимизирующей суммы квадратов D.4.9). Следовательно, для нормально распределенных ошибок выборочные оценки наименьших квадратов и, максимума правдоподобия совпа- совпадают. Мы обосновали оценки наименьших квадратов в разд. 4.3.1, пользуясь критерием среднеквадратичной ошибки. Однако крите- критерий среднеквадратичной ошибки нельзя использовать в теории правдоподобия, поскольку он включает усреднение по выбороч- выборочному пространству. Следовательно, необходимо заново интерпре- интерпретировать теорию наименьших квадратов с точки зрения метода правдоподобия. Логарифмическую функцию правдоподобия D.4.10) можно пе- переписать в виде ^^(f D.4.11) где 0 = ^Xiyi/J^x2. является выборочной оценкой и наименьших квадратов, и максимума правдоподобия. Отсюда функция правдо- правдоподобия пропорциональна нормальной плотности вероятности со средним значением 0 и дисперсией -vTX- D.4.12) Заметим, что выражение D.4.12) в точности совпадает с выбороч- выборочной дисперсией D.3.8) оценки наименьших квадратов. Так как дис- лерсия D.4.12) равна -1 за то отсюда следует, что количество информации Фишера Е\дЧ\дЪг\ заменяется в методе правдоподобия на фактически имеющееся значение второй производной логарифмической функции правдопо- правдоподобия в точке ее максимума. Вероятные области. В разд. 4.4.3 было показано, что понятие шансов, получаемых из отношения правдоподобия, можно исполь- использовать для определения вероятных областей для параметра. При этом, если сравнивать любое значение параметра внутри этой об- области с любым другим значением, то шансы правдоподобия не превосходят заданного отношения. Однако если функция является нормальной, то вероятная область, основанная на шансах правдо- правдоподобия, эквивалентна области, которую можно получить, набирая определенную долю площади под функцией правдоподобия. На- 4.4. Выводы, основанные на функции правдоподобия 153 пример, 7,5:1 — вероятная нормальная область эквивалентна ох- охвату 95% площади под функцией правдоподобия. 95%-ная вероят- вероятная область для параметра 0 в упомянутом выше примере имеет вид и она является также вероятной областью с шансами 7,5: 1. При построении интервала, исходя из площади, мы неявно считаем функцию правдоподобия распределением вероятностей. В байесов- байесовском подходе к выводам [10, 11, 2*] это делается явно. Наименьшие квадраты в случае, когда независимые перемен- переменные содержат ошибки. При рассмотрении наименьших квадратов в разд. 4.3 предполагалось, что Xi не содержали ошибок. Однако во многих случаях невозможно осуществить какой-либо контроль над независимыми переменными (например, в рассматриваемых ниже задачах с временными рядами). В таких случаях Хг можно рассматривать как реализации случайных величин. Для однопара- метрического случая совместную выборочную плотность вероятно- вероятности наблюдений, до того как они произведены, можно записать в виде ( n) Совместная плотность вероятности fi2...N в правой части равенства представляет собой условное распределение у% при условии, что х\ фиксированы, а плотность fn...N описывает плотность вероятно- вероятности Х сти Хг. После получения данных можно выписать функцию правдопо- правдоподобия l, ..., xN)L(xlt xN). Так как L(xu ..., xN) не имеет среди своих аргументов G, то функ- функция правдоподобия для 0 будет такой же (за исключением незави- независящего от 8 множителя), что и функция правдоподобия L(Q\xi xN), полученная, когда Хг рассматриваются как фиксированные, или не содержащие ошибок. Таким образом, знание распределения Xi никак не помогает при оценивании 0. Отметим еще раз, что метод выборочных распределений дает другой ответ на эту задачу, так как дисперсия в равна
154 Гл. 4. Введение в теорию статистических выводов где математическое ожидание берется по выборочному простран- пространству Xt *'. В методе правдоподобия выборочное пространство не имеет отношения к существу дела, а «дисперсия» функции правдо- правдоподобия дается все еще выражением D.4.12) и, следовательно, за- зависит только от конкретных значений хи которые получились в дан- данных измерениях. 4.4.5. Методы извлечения информации из функции правдоподобия Квадратичные правдоподобия. Логарифмическая функция пра- правдоподобия D.4.11) квадратична по параметру 6. В более общем случае, если модель линейна по параметрам, а ошибки распреде- распределены по нормальному закону, логарифмическая функция правдопо- правдоподобия является квадратичной формой от параметров 0t-. Следова- Следовательно, функция правдоподобия сама является многомерным рас- распределением, и ее можно описать с помощью средних значений (выборочных оценок максимального правдоподобия) и матрицы ковариаций этого распределения. Из C.1.19) мы видим, что ма- матрица вторых производных дЧ является матрицей, обратной матрице ковариаций, соответствую- соответствующей этому многомерному нормальному распределению. Неквадратичные правдоподобия. Если модель нелинейна по па- параметрам или же выборочное распределение отличается от нор- нормального, то функцию правдоподобия нельзя описать только с по- помощью ее первых двух производных. Как правило, для неквадра- тичиой логарифмической функции правдоподобия лучше всего построить график всей функции. Задача получения выводов относи- относительно 0 сводится в этом случае к задаче описания, или аппрокси- аппроксимации, функции правдоподобия самым простым возможным спо- способом. В некоторых случаях получаются функции правдоподобия с несколькими максимумами; извлечь информацию из так*ой функ- функции и кратко описать ее трудно. Если же на графике функции пра- *' Рассуждения авторов в последнем подразделе не совсем точны. Если нам известны Хг, то вообще не имеет значения, как они получились и что они собой представляют, поскольку мы пользуемся условным распределением при фикси- фиксированных Хг. Если же в нашем распоряжении имеются лишь искаженные Ошибками значения Xi, то мы не можем вычислить функцию L(Q\X[... хя) и, следовательно, не можем получить из нее оценку для 0. Об оценках парамет- параметров функций, в случае когда независимые переменные содержат ошибки, см. подробнее в книге Клепикова Н. П. и Соколова С. Н. «Анализ и плани- планирование экспериментов методом максимума правдоподобия», М., изд-во «Наука», 1964, гл. 3. — Прим. перев. 4.4. Выводы, основанные на функции правдоподобия 155 вдоподобия имеется один максимум, то можно использовать спо- способы, приводимые ниже. В первом из них функция правдоподобия приближается нор- нормальной функцией правдоподобия, а во втором подбирается такое преобразование параметров, чтобы функция правдоподобия преоб- преобразованных переменных была ближе к нормальной, чем до при- применения преобразования. Способ 1. Приближение с помощью нормального распределе- распределения. Предположим, что функция правдоподобия не является нор- нормальной, все же разумно приблизить ее с помощью нормальной плотности вероятности по параметру 6. Поскольку функция правдо- правдоподобия определена с точностью до постоянного множителя, при- приближение будет иметь вид D.4.13) где е —среднее значение аппроксимирующего распределения и О2__его дисперсия. Если «моменты» функции правдоподобия опре- _ _ _ _ _!»_ делить с помощью соотношений то, используя свойства нормальной плотности, можно найти кон- константы К, 6 и ст2 из D.4.13): 1/2* а уъГ D.4.14) б2 II Г2 Оценка среднего правдоподобия. Барнард [7] назвал оо = j оо D.4.15) выборочной оценкой среднего правдоподобия. Если L F)— нор- нормальная функция правдоподобия, .то выборочная оценка среднего правдоподобия совпадает с выборочной оценкой максимального правдоподобия, но в общем случае они будут различны. Преимущество выборочной оценки среднего правдоподобия над оценкой максимального правдоподобия состоит в том, что первая учитывает форму всей функции правдоподобия, в то время как
156 Гл. 4. Введение в теорию статистических выводов 4.4. Выводы, основанные на функции правдоподобия 157 вторая характеризует только одну точку на кривой. Поэтому выбо- выборочная оценка максимального правдоподобия может вводить в за- заблуждение для малых выборок, если функция правдоподобия не яв- является нормальной. Для больших выборок большинство функций правдоподобия стремится к нормальной плотности, так что выбо- выборочная оценка максимального правдоподобия вместе с ее диспер- дисперсией достаточны для описания всей функции правдоподобия. Можно показать [4], что если нет никакой причины предпола- предполагать a priori, что какое-нибудь одно значение Э более вероятно, чем другие, то оценка *), соответствующая выборочной оценке среднего правдоподобия D.4.15), является оценкой с наименьшей среднеква- среднеквадратичной ошибкой при любом объеме выборки. Это не означает, что для всех значений 8 выборочная среднеквадратичная ошибка этой оценки равномерно меньше, чем для любой другой оценки. Это значит лишь, что после усреднения по всем значениям Э полу- полученная полная среднеквадратичная ошибка будет наименьшей. С точки зрения правдоподобия критерий среднеквадратичной ошибки не имеет отношения к делу, и, следовательно, выборочную оценку среднего правдоподобия лучше всего рассматривать как удобный способ описания центра расположения функции правдопо- правдоподобия. Пример. Чтобы проиллюстрировать этот способ извлечения ин- информации из функции правдоподобия, рассмотрим пример с бино- биномиальным параметром из разд. 4.2.2. Из функции правдоподобия D.4.8) получается выборочная оценка максимального правдоподо- правдоподобия, в то время как выборочная оценка среднего правдоподобия равна а ее дисперсия имеет вид г+\ г+\ (п-г+1) Отсюда для г = 3, п = 8 функцию правдоподобия D.4.8) можно ап- аппроксимировать нормальной плотностью вероятности со средним значением р = 0,4 и дисперсией а2 = 0,022. Следовательно, 95%-ная, или вероятная область с шансами 7,5: 1 для р представляет собой интервал @,11; 0,69). Для г=1, я = 8 аппроксимирующая нор- нормальная плотность будет иметь среднее значение р = 0,2 и диспер- дисперсию а2 = 0,015. Как можно увидеть из рис. 4.5, нормальное прибли- *' Рассматриваемая как случайная величина. — Прим. перев. жение для г = 3 будет намного лучшим, чем для г=1, из-за асим- асимметрии функции правдоподобия во втором случае. На самом деле 95%-ная вероятная область для г=1 имеет отрицательную левую границу, что говорит о том, что нормальное приближение не опра- оправдано. В этом случае лучший способ состоял бы в следующем. Способ 2. Преобразование параметров. Если логарифмическая функция правдоподобия не является квадратичной, то полезно найти такие преобразования фг@1, 02, • •., 6ft) параметров, что функ- функция правдоподобия стала бы приближенно многомерной нормаль- нормальной функцией от ер*. Как отмечалось выше, если функция правдоподобия является нормальной, то вторая производная ее логарифма постоянна, т. е. количество информации Фишера равно константе. Если функция правдоподобия не является нормальной, то —d2t/dQ2 будет функ- функцией от 6. Это нежелательно, так как в этом случае в различных точках шкалы 0 получается различная информация относительно в. Поэтому хотелось бы найти преобразование ф = ф@), такое, что- чтобы в масштабе <р производная —d2l/dq>2 была бы константой в окре- стности выборочной оценки максимального правдоподобия параметра ф. Сделав преобразование ф = ф(8), имеем dl dl dQ = фF) cPl dtp2 dtp ( d4 \ ( dO2 d8 d8 \2 df ) dtp ±.(dl)( +" d6 d26 \ d'f2 ] В точке выборочной оценки максимального правдоподобия dl/dq> = 0, так как dl/dQ = 0, и, следовательно, (PI Если потребовать, чтобы —d2l/d(p2 было положительной константой k, то отсюда получаем \2 k ач и, следовательно, с точностью до постоянного множителя желаемое преобразование ф@) имеет вид 4 db. D.4.16)
158 Гл. 4. Введение в теорию статистических выводов Пример. Рассмотрим правдоподобие для биномиального распре- распределения D.4.8), обсуждавшееся выше. В этом случае получаем если производную брать в точке выборочной оценки максималь- максимального правдоподобия р = г\п. Отсюда, используя D.4.16), получаем ?(/>)=j 0,2 0,4 0,6 0,8 cp=arcstn Vp 1,0 1,2 Рис. 4.6. Преобразованные функции правдоподобия для биномиального распре» деления (нормированные). Таким образом, функция правдоподобия, у которой в качестве ар- аргумента взят arcsin У/?, будет лучше аппроксимироваться нормаль- нормальной плотностью вероятности со средним значением ср и дисперсией о2, получаемой из D.4.14). На рис. 4.6 показаны правдоподобия после преобразования для случаев л=1, я = 8 и г = 3, п = 8. В обоих случаях функции правдо- правдоподобия похожи на нормальную кривую, в то время как до пре- преобразования кривая для г= 1 очень сильно отличалась от нормаль- нормальной, как видно из рис. 4.5. 4.4. Выводы, основанные на функции правдоподобия 15Э В табл. 4.2 приведены среднее значение и дисперсия аппрок- аппроксимирующего нормального распределения, а также 95%-ная, или вероятная область с шансами 7,5: 1, для р до и после преобразо- преобразования. Таблица 4.2 Выборочные оценки среднего правдоподобия и вероятные области для биномиальных параметров, полученные из функций правдоподобия до и после преобразования л = 8, г=1 0,375 0,125 До преобразования 0,4 0,2 2 а— Р 0,0217 0,0145 ( 93%-ная область @,11; 0,69) —0.04; 0,44) После преобразования 0,374 0,148 0,655 0,394 2 а— 0,0256 0,0265 93%-ная область @,10; 0,68) @,05; 0,43) Мы видим, что преобразование изменяет выборочную оценку среднего правдоподобия сильнее для асимметричного правдоподо- правдоподобия (г=1), чем для более симметричного правдоподобия (г = 3). 4.4.6. Оценивание среднего значения и дисперсии нормального распределения Чтобы проиллюстрировать описанные в предыдущих разделах способы получения выводов, основанных на правдоподобии, рас- рассмотрим задачу оценивания среднего значения и дисперсии по вы- выборке наблюдений, которые по предположению имеют нормальную плотность вероятности. Воспользовавшись D.2.1), получаем функ- функцию правдоподобия для \\ и ст2 в виде 1 [л 1=1 D.4.17) Удобный способ описания двумерных правдоподобий состоит в построении на плоскости (ц, о2) контуров постоянного уровня функции правдоподобия. Если функция правдоподобия является двумерной нормальной функцией, то эти контуры будут эллип- эллипсами; в противном случае можно иногда так преобразовать пара- параметры, что функция правдоподобия будет приблизительно двумер- двумерной нормальной функцией. Так как функция правдоподобия D.4.17) является нормальной по отношению к \х, то необязательно искать преобразование этого параметра. К тому же, так как оценки для и. и о2 независимы, то необходимо найти лишь преобразование для ст2.
160 Гл. 4. Еведение в теорию статистических выводов Из D.4.17) получаем dl (о2J it Л- I _1_У ty _ __ п 1 у . _ 2 — ^4" — 76" ^ ^ D.4.18) з,з г 3,2- 3,1 3,0 г,9 2,8 -3,0507 Получаем выборочные оценки максимального правдоподобия = X, 1 ^ ( ~ \2 = — -? (X; - Л") , trz= /,02545 -0.4 -0,2 0 Шсг2 0,2 и в точке, координаты которой равны этим оценкам, выражение D.4.18) становится равным дЧ __ п Отсюда, пользуясь D.4.16), полу- получаем, что преобразование, приво- приводящее к нормальному распределе- распределению, имеет вид ф = In а2. Функция Рис. 4.7. Контуры линий уровня прав- правдоподобия для среднего значения и дис- дисперсии нормальных наблюдений при я=100. правдоподобия для данных о транзисторах, изображенных на рис. 3.3, показана на рис. 4.7 как функция \х и In о2. Мы видим, что контуры функций правдоподобия очень близко аппроксимируются эллипсами в области, где функция существенна. Маргинальные правдоподобия. Двумерная функция правдопо- правдоподобия D.4.17), если ее построить как функцию \х и In о2, ведет себя в сущности как произведение двух нормальных распределений. Проинтегрировав Ь(ц, о2) по ц, мы получим маргинальное правдо- правдоподобие для о'2, а именно 3- 3,3 3,2 о о X вдо та С X X _<= а> _ <Л 2,8 D.4.19) 6 Заказ № 1210 в А а. а, х ю о I о et Ко "ь U 5 -е- оо ¦ф S CU
162 Га. 4. Введение в теорию статистических выводов Далее, двумерная функция правдоподобия приблизительно нор- нормальна по переменным ц и <р = 1па2, так что маргинальное правдо- правдоподобие для ц можно получить, проинтегрировав L(\x, ср) по <р, т. е. D.4.20) Маргинальные правдоподобия D.4.19) и D.4.20) показаны на рис. 4.8 и 4.9 для данных о транзисторах, приведенных на рис. 3.3. Маргинальное правдоподобие для \х построено как функция от ц, а маргинальное правдоподобие для о2 построено как функция от In о2. Отметим, что маргинальное правдоподобие для о2 пропорцио- пропорционально х2-распределению, а маргинальное правдоподобие для ц— /-распределению. Отсюда вероятные области для ц и о2 в этом при- примере были бы точно такими же, как в разд. 4.2, где они были по- получены с помощью метода выборочных распределений. 4.5. РЕЗЮМЕ В этой главе обсуждено три аспекта теории статистических вы- выводов, причем особое внимание уделялось задачам оценивания па- параметров. Эти три аспекта являются следующими: метод выбороч- выборочных распределений, метод наименьших квадратов и метод правдо- правдоподобия. Четвертый метод — Байесовский подход— был опущен, но он очень похож по виду на метод правдоподобия. Эти три вида статистических выводов не являются разрознен- разрозненными, а представляют собой результат постепенного исторического развития. Кроме того, ответы на практические задачи, полученные при использовании различных методов, не будут существенно отли- отличаться, а во многих случаях вообще не будут отличаться. Напри- Например, метод выборочных распределений в качестве выборочного рас- распределения среднего значения дает /-распределение с (п—1) сте- степенью свободы, а метод правдоподобия дает то же самое распределение для маргинального правдоподобия. В методе выбо- выборочных распределений /-распределение с (п— 1) степенью свободы представляет распределение возможных значений х около jx в по- повторных выборках, в то время как в методе правдоподобия оно представляет распределение вероятных значений ц около х. Естественно, что исторически первым должен был появиться ме- метод выборочных распределений, так как он требовал лишь непо- непосредственного применения существовавшей теории вероятностей к задачам статистических выводов. Например, выборочное распре- 4.5. Резюме 163- деление некоторой оценки является распределением вероятностей,, дающим относительную частоту появления значений оценки в по- повторных выборках объема п. По плотности вероятности этой оценки можно сосчитать область, покрывающую истинные значения пара- параметров с вероятностью 1 —а. Заменяя оценки на выборочные оцен- оценки, полученные по данной выборке, мы получим 100A — а)%-ную доверительную область для параметров. Теория наименьших квадратов также развивалась в рамках ме- метода выборочных распределений. Так, оценки наименьших квадра- квадратов обладают тем свойством, что они минимизируют среднеква- среднеквадратичную ошибку, или, что эквивалентно, минимизируют ожидае- ожидаемый объем доверительной области для параметров. Метод правдоподобия, хотя он часто и дает ответы, аналогич- аналогичные тем, которые получаются из метода выборочных распределе- распределений, имеет совершенно иную отправную точку. В то время как вы- выборочное распределение описывает все возможные значения наблю- наблюдений при данных значениях параметров, функция правдоподобия описывает все возможные значения параметров при данных значе- значениях наблюдений. Метод правдоподобия дает возможность по-новому интерпрети- интерпретировать теорию наименьших квадратов. Например, функция правдо- правдоподобия является по существу поверхностью суммы квадратов 5(9ь 8г, .. •, 6ft), если ошибки Z нормальны и независимы. Так как эта сумма является квадратичной формой от 9,, то функцию пра- правдоподобия можно просто описать с помощью выборочных оценок АЛ А наименьших квадратов (8i, 9г, ..., 6й) и вторых производных S. Эти производные можно интерпретировать как ковариации оценок в ме- методе выборочных распределений или как меры рассеяния функции правдоподобия в методе правдоподобия. Наиболее важной сторо- стороной метода правдоподобия является построение-функции правдопо- правдоподобия в таких переменных, для которых имеется примерно одина- одинаковая информация относительно всех параметров. Тогда инфор- информация, заключенная в функции правдоподобия, по существу содержится в ее выборочной оценке среднего правдоподобия и в вероятной области. Существуют как различия, так и общие стороны у этих методов. Метод правдоподобия совершенно справедливо фокусирует внима- внимание на множестве доступных наблюдений, а не на других множе- множествах наблюдений, которые могли бы получиться. В некоторых слу- случаях метод правдоподобия приводит к более разумным ответам, чем метод выборочных распределений. В разд. 4.4.5 приводился , пример, где было показано, что сведения о распределении ошибок в независимых переменных не дают никакой информации для оценивания параметров в моделях наименьших квадратов. Дру- Другие примеры, когда метод выборочных распределений является 6*
164 Гл. 4. Введение в теорию статистических выводов неудачным, получаются, если оценки, выбранные из-за того, что они хороши в среднем, явно абсурдны в применении к данной вы- выборке. В таких случаях построение функции правдоподобия пока- покажет, что данная конкретная выборка содержит мало информации. Как правило, функция правдоподобия никогда не обманывает. ЛИТЕРАТУРА 1 Parzen E., Modern Probability Theory and its Applications, John Wiley, New York, 1960. 2. Fisher R. A., Phil. Trans., A222, 309 A922). 3 Fisher R. A., Proc. Cambridge Phil. Soc, 22, 700 A925). 4. Lehman E. L., Testing Statistical Hypotheses, John Wiley, New York, 1959. (Русский перевод: Л е м а н Э., Проверка статистических гипотез, М., изд-во «Наука», 1964.) 5. Н а 1 d A., Statistical Theory with Engineering Applications, John Wiley, New York, 1952. (Русский neper.эд: Хальд А., Математическая статистика с тех- техническими приложениями, М., ИЛ, 1956.) 6. В о х Q. E. P., Ann N. Y. Acad. Sci., 86, 3 A960). 7. В а г n a r d G. A., Jour. Roy. Stat. Soc, BU, 116 A949). 8. Barnard G. А. и др., J. Roy. Stat. Soc, A125, 321 A962). 9. В i r n b a u m A., J. Amer. Stat. Assoc, 57, 269 A962). 10. Jeffreys H., Theory of Probability, 3rd ed., Clarendon Press, Oxford, 1961. 11. Savage L. J. и др., The Foundations of Statistical Inference, Methuen, London, 1962. ПРИЛОЖЕНИЕ П4.1 ЛИНЕЙНАЯ ТЕОРИЯ НАИМЕНЬШИХ КВАДРАТОВ Выборочные ошибки с минимальной среднеквадратичной ошиб- ошибкой. В этом разделе содержатся доказательства некоторых общих результатов линейной теории наименьших квадратов. Частными случаями этих результатов являются результаты, упоминавшиеся в разд. 4.3. Предполагается, что модель эксперимента имеет вид y( = Mn+Vis+ • • • +Q*xlk + Zt (/=1, 2, . . ., Л0, (П4.1.1) или в матричной форме Y = X8 + Z, (П4.1.2) где векторы-столбцы Y, 9 и Z получаются транспонированием из векторов-строк соответственно, а X = Y' Z' 1 = (z,\ / xn Xo\ У2 z2 • X X ¦ ¦ 12 22 ., Y ., z . . . • A N) X X <XN1 есть матрица наборов значений, принимаемых k выходными пере- переменными xi, X2, ..., хи в N экспериментах. Предполагается, что ошибки Z имеют нулевое среднее значение и матрицу ковариаций V, элементы которой равны l/,j = Cov[Z,, Zj]. Кроме этого, о совме- совместной плотности вероятности ошибок ничего не известно. Если нам даны наблюденные в ./V экспериментах отклики у, то обобщенные выборочные оценки наименьших квадратов 6 опре- определяются как те значения 8, которые минимизируют квадратич- квадратичную форму (у - Х8)' V-1 (у - Хв). (П4.1.3)
166 Приложение П4.1 Дифференцирование (П4.1.3) по в и приравнивание производ- производных нулю дает следующие линейные уравнения для этих оценок: (X'V-IX)e=X'Vy. (П4.1.4) Критерий (П4.1.3) может быть обоснован с двух точек зрения. а) Используя C.1.19) и (П4.1.2) и предполагая, что ошибки имеют многомерное нормальное распределение с матрицей кова- риаций V, получаем, что логарифмическая функция правдоподобия для параметров в равна с точностью до аддитивной константы выражению (П4.1.3). Следовательно, при дополнительном предпо- предположении о том, что ошибки имеют многомерное нормальное рас- распределение, обобщенные выборочные оценки наименьших квадра- квадратов совпадают с выборочными оценками максимального правдо- правдоподобия. б) Предположим, что в (П4.1.4) выборочные оценки 0 заменены на соответствующие оценки в. Тогда обобщенный принцип наи- наименьших квадратов утверждает, что оценки 0 таковы, что средний квадрат разности двух линейных комбинаций принимает свое минимальное значение. Следовательно, произволь- произвольная линейная функция от параметров оценивается с минимальной среднеквадратичной ошибкой. Доказательство обобщенного принципа наименьших квадратов. Чтобы доказать, что оценки наименьших квадратов, получаемые из (П4.1.4), минимизируют среднеквадратичную ошибку между L и L, рассмотрим оценку L линейной комбинации L, являющуюся ли- линейной функцией общего вида от случайных величин Yi, т. е. и, следова- следоваДалее, так как У, имеют ту же самую матрицу ковариаций, что и Z{, то Var[2] = l'Vl. Отсюда среднеквадратичная ошибка оценки L равна Var [1] + (Е [1] ~ if = 1'VI + (/„ + ГХ0 - Х'6J. Из (П4.1.2) получаем ?[Y] = X9, так как ?[Z] = тельно, Линейная теория наименьших квадратов 167 Если теперь линейная комбинация L = k' в может принимать не- неограниченные значения, то и среднеквадратичная ошибка будет не- неограниченно возрастать всегда, за исключением только случая, ко- когда 1'Х = ^'. Отсюда для достижения минимума среднеквадратич- среднеквадратичной ошибки надо положить /0 = 0 и минимизировать квадратичную форму 1'Vl при следующем ограничении на 1: ГХ = (П4.1.5) Это эквивалентно нахождению безусловного минимума квадратич- квадратичной формы где ц' = (ци Цг, ¦. ¦, fXfe)—вектор множителей Лагранжа. Прирав- Приравнивание нулю производных по Г дает Vl = Xfi. (П4.1.6) Решая (П4.1.5) и (П4.1.6) относительно \а' и 1', получаем Отсюда оценка линейной комбинации L с минимальной среднеква- среднеквадратичной ошибкой имеет вид Z = Гу = X' (X'V-'X) (X'V-'Y). Но из (П4.1.4) получаем, что это выражение в точности совпадаете где 0 — оценка, соответствующая выборочной оценке (П4.1.4). Приведенное выше доказательство является обобщением доказа- доказательства, приведенного Барнардом [1] для случая некоррелирован- некоррелированных: ошибок Z,. Если ошибки некоррелированы и имеют одинако- одинаковую дисперсию а2, то V = o2I, где I — единичная матрица. Равен- Равенство (П4.1.4) переходит при этом в (Х'Х)в=Х'у. (П4.1.7) Пример. Чтобы проиллюстрировать применение формулы (П4.1.7), рассмотрим простой двухпараметрический вариант мо- модели (П4.1.1): K, = fl1 + 82j:i + Zi, 1=1, 2, ...,7V,
и предположим, что ошибки Z* некоррелированы и имеют нулевое среднее значение и дисперсию а2. Тогда (П4.1.7) сводится к 1 хЛ /у, f\ 1 ... 1 л/ 1 х2 \/е,\ (\ 1 ... 1 \[ у2 ^Хх Х2 • • ¦ XNJ \ . / \о2 / \Х] Х2 . . . XN 1 xN/ \у т. е. 'n 2;Л/Ч\_/2у Лх 2х2 2 -^уу где суммирование всюду производится от i— 1 до i = N. Отсюда выборочные оценки наименьших квадратов имеют вид Для ортогональной параметризации разд. 4.3.4, а именно для матричное уравнение (П4.1.7) сводится к fN О Отсюда выборочные оценки наименьших квадратов равны Матрица ковариаций оценок. Чтобы оценить точность выбороч- выборочных оценок параметров, нужно вычислить матрицу ковариаций соответствующих оценок. Диагональные элементы этой матрицы дают дисперсии каждой из оценок, а недиагональные элементы дают ковариаций каждой пары оценок. Мы имеем e = (x'v~1x)~I xv'v и, воспользовавшись (ПЗ.1.2), получаем е[%] = (хЛг'х)-1 x'v-'я [Y], Линейная теория наименьших квадратов 169 Отсюда матрица ковариаций оценок равна = Е [(X'V-'X)-1 X'V-' (Y - Е [Y]) (Y - E[Y\)' у-1Х(ХУ~1Х')-1] = ^(X'V-'X)-1. (П4.1.8) Если V = a2I, то (П4.1.8) сводится к C = (X'X)-'a2. (П4.1.9) Для приводившегося выше примера с двухпараметрической мо- моделью имеем так что С (Х'Х Следовательно, (Х'Х) — „ „ 2 \ZX 2Х N Var [в,]в _ Var [§J = _ Cov[eb §2] = — ¦ Для ортогональной параметризации N О ТЛ2 так что С- °2 Следовательно, _B(х-хТ О х — х) у U Л Г->*1 02 VarL04 = iv- var[e;]^ °2 ^j ^JC ~~ -V/ covfel, 02] = 0. Ранее было показано, что оценки наименьших квадратов миними- минимизируют среднеквадратичную ошибку (т. е. дисперсию, так как оцен- оценки несмещенные) линейной функции X'Q параметров 9.
170 Приложение П4.1 Так как Var [х'в] —Х'СХ, (П4.1.10) то отсюда следует, что оценки наименьших квадратов минимизи- руют определитель | С | матрицы ковариаций оценок в. Оценивание остаточной дисперсии. Эта задача в ее наиболее общей постановке включала бы оценивание всех элементов мат- матрицы ковариаций ошибок V. В этом разделе мы рассмотрим лишь частный случай \ = a2l, так что оценивание V сводится к оценива- оцениванию а2, являющейся дисперсией каждой из Z,. Пусть 5@) обозначает квадратичную форму 5 F) = aW-'z = о2 (у - Х0)' V (у - Хв), которая сводится для случая V = a2I к сумме квадратов 5(в) = (у-Х9)'(у-Хв). Подставив выборочные оценки 6 = 0, получим 5(в) = у'у - в'х'у - у'Хв + в'х'Хв. но так как, согласно (П4.1.7), В'Х'у = 0'Х'Хв , то •s (в) =у'у- у'хв и, заменяя у'Х на 0 'Х'Х, получаем 5(в)=--у'у-в'(х'х)в. (П4.1.11) Заменяя выборочные оценки в (П4.1.11) оценками и беря матема- математическое ожидание, получаем [2, 3*] Е [S (в)] = TVa2 - Ло2 = (N - k) a2, так что N — k (П4.1.12) является несмещенной оценкой а2. Для однопараметрического слу- случая равенство (П4.1.12) сводится к N 1 с2 как и получалось в разд. 4.3.2. Для двухпараметрического случая равенство (П4.1.12) имеет вид Линейная теория наименьших квадратов 171 (У/ у? - - 28, в,2 х,. и для ортогонального двухпараметрического случая N С помощью рассуждений, аналогичных рассуждениям, использовав- использовавшимся в разд. 4.2.3, можно показать, что оценка, имеющая N+ + 2 — k в знаменателе, дает наименьшую среднеквадратичную ошибку, и, следовательно, она предпочтительней, чем (П4.1.12). Однако на практике чаще всего используют выборочную оценку (П4.1.12). Доверительные области. Чтобы вывести доверительные области для 0, рассмотрим тождество у - Хв = (у - Хв) - Х(в - в). Отсюда -*±Р- = (у - Хв)' V-1 (у - Хв) = = (у - Хв)' V (у - Хв) + (О - в)' X'V~'X (в - в) - -(у- X0)'v~]x@-0) - (e-e)'x'v (у- Хв). Из нормальных уравнений (П4.1.4) следует, что два последних члена тождественно равны нулю. Исчезновение этих членов со сме- смешанными произведениями обусловлено тем, что векторы у — X 0 и Х@ —6) ортогональны в УУ-мерном выборочном пространстве. От- Отбрасывая эти исчезающие члены и заменяя у на Y и 0 на 0, по- получим () ()'(- в)а2. (П4.1.13) Предполагая, что ошибки Zj распределены нормально, получаем отсюда, что 5@) является квадратичной формой от Xf нормаль-
172 Приложение П4.1 ных случайных величин и, следовательно, является случайной ве- величиной х2 . Эта случайная величина, согласно (П4.1.13), разла- разлагается на х2 _h и х2 • Отсюда случайная величина (о-в)'х'у~'х(о-е) N-k s(e) k распределена, как Fh, n-u- Следовательно, область, вероятность по- попадания в которую есть A —а), имеет вид а2 (в - в)' X'V-'X (в - в) < -J±-IfkN_k A - а) 5 (в). (П4.1.14) Заменяя в на 0 в (П4.1.14), получаем 100A—а)%-ную довери- доверительную область для параметров 6. Область (П4.1.14) является эллипсоидом в й-мерном пространстве параметров 6, и ее объем, как нетрудно проверить, обратно пропорционален определителю |X'V-'X|. Но С = (X'V-'X)-1, и так как выборочные оценки наи- наименьших квадратов минимизируют определитель | С |, то они, сле- следовательно, минимизируют также и объем доверительного эллип- эллипсоида для параметров. Подставляя V = Ia2 в (П4.1.14) и замечая, что из (П4.1.12) сле- дует, что s2 = Sl9h(yV — k) является выборочной оценкой а2, по- получаем 100A — а) %-ную доверительную область для 9 (в -в)' XX (в - в) < ks2fkN_k A - а), (П4.1.15) в случае когда V = la2. Для одного параметра (П4.1.15) имеет вид что является другой записью доверительного интервала D.3.11), так как tz х(\—a/2) = fi?N-iA—а). Для двухпараметрического примера неравенство (П4.1.15) принимает вид и ~ч , ~sJ\ I Это сводится к неравенству Л N N (ь, - в,J + 2 (б! - в,) (е2 - е2) 2 xt + (в2 - е2J 2 х] ЛГ N Линейная теория наименьших квадратов 173 которое представляет собой уравнение эллипса на плоскости @i, 62). Для ортогональной двухпараметрическои модели (П4.1.15) сво- сводится к (в; - ?; что также является уравнением эллипса на плоскости (9*, в*), но в этом случае оси эллипса параллельны осям координат. Вывод доверительных областей непосредственно по контурам, образуемым линиями уровня суммы квадратов. В нелинейных за- задачах невозможно вывести явные выражения для выборочных оце- оценок наименьших квадратов и матрицы X'V-'X. Примеры таких за- задач приводятся в разд. 5.4.4. В этом случае разложение (П4.1.13) можно записать в виде Используя те же рассуждения, что и при выводе (П4.1.14), полу- получаем, что случайная величина S(e)-s(e) N-k s(e) k распределена, как Fh,N-k- Следовательно, область является 100A—а)%-ной доверительной областью для парамет- параметров. Если имеются контуры функции 5(9). то 100A—а)%-ный контур соответствует константе (уровню), полученной умножением остаточной суммы квадратов . скобках в (П4.1.17). на константу в квадратных Дисперсия прогноза. Если для предсказания отклика в буду- будущем эксперименте используется модель (П4.1.1), то значение про- прогнозируемой величины будет иметь вид так как 2 = 0. Дисперсия соответствующей оценки равна Var [? J = Var [в'х] + Var [z]=x'Cx + a2,
174 Приложение П4.1 где мы использовали (ПЗ.1.4). Если V = a2l, то (П4.1.18) сводится к Var [Я] = [х'(х'Х) х + 1] а2. (П4.1.19) Отсюда 100A—с.}%-ный доверительный интервал, основанный на предсказываемом значении у и выборочной оценке s2 дисперсии а2, вид (П4.1.20) ЛИТЕРАТУРА " a r n a r d G. А, J. Roy. Stat. Soc, B25, 124 A963) "larkett R. L., Principles of Regression Analysis Clarendon Press, Oxford, :960. Глава 5 ВВЕДЕНИЕ В АНАЛИЗ ВРЕМЕННЫХ РЯДОВ В этой главе мы рассмотрим основные понятия теории времен- временных рядов. Наиболее важными среди них являются понятия слу- случайного процесса, стационарного процесс?, линейного стационар- стационарного процесса и ковариационной функции стационарного процесса. В разд. 5.1 показано, что для описания статистической природы наблюденного временного ряда нужно рассматривать его как эле- элемент абстрактного множества функций, называемого случайным про- процессом. Простейшие типом случайного процесса является линей- линейный процесс, который можно получить в результате линейной опе- операции над чисто случайным процессом. Большое практическое зна- значение имеют два частных случая линейного процесса: процесс ав- авторегрессии и процесс скользящего среднего. В разд. 5.2 показано, что стационарный случайный процесс общего типа удобно описы- описывать с помощью его ковариационной функции, в то время как ли- линейный стационарный процесс лучше всего описывается его пара- параметрами. В разд. 5.3 рассматривается оценивание ковариационной функции по наблюдаемому временному ряду, а в разд. 5.4 — оце- оценивание параметров процессов авторегрессии и скользящего сред- среднего. 5.1. СТАЦИОНАРНЫЕ И НЕСТАЦИОНАРНЫЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 5.1.1. Определение и классификация временных рядов Под статистическим временным рядом понимают сигнал, или функцию времени x(t), проявляющую свойства случайности, или нерегулярного изменения. Имея запись такого ряда, невозможно точно предсказать его будущие значения в отличие от детермини- детерминированного сигнала, как указывалось в гл. 2. Следовательно, такой ряд может быть описан только с помощью статистических законов, или моделей, которые можно было бы использовать, например, для прогноза будущих значений ряда. Примерами таких статистических рядов являются: а) напряжение в сети, флуктуирующее из-за случайного движе- движения электронов, которое называют обычно тепловым шумом;
176 Гл. 5. Введение в анализ временных рядов б) флуктуирующий выход продукции химического реактора, из- измеряемый непрерывно с помощью инфракрасного спектрометра; в) выходное напряжение приемного устройства радиолокатора. Типичный отраженный радиолокационный сигнал показан на рис. 5.1. Дискретные и непрерывные ряды. Временные ряды в примерах (а), (б) и (в) являются непрерывными измерениями и называются непрерывными временными рядами. Другой тип рядов предста- представляют собой дискретные временные ряды, значения которых за- заданы только в определенные моменты времени. Один из способов, с помощью которых может быть получен дискретный временной Рис. 5.1. Отраженный радиолокационный сигнал. ряд, состоит в отсчете значений непрерывного временного ряда че- через равные промежутки времени, скажем Д. Записывая x(t = rA) = = хг, мы получим последовательность {хг}, г = ..., —2, —1, 0, 1, 2, образующую дискретный временной ряд. Непрерывные временные ряды в примерах (а), (б) и (в) дол- должны быть записаны с помощью физического инструмента, обла- обладающего инерцией. Поэтому такие ряды имеют ограниченную полосу частот, т. е. они не содержат частот выше некоторой макси- максимальной частоты, определяемой частотной характеристикой инстру- инструмента. Таким образом, используя теорию гл. 2, можно определить интервал отсчета Д так, чтобы дискретный временной ряд {xt}, по- полученный из значений непрерывного временного ряда х(^), содер- содержал бы всю информацию, имевшуюся в исходном ряде x(t). Сле- Следовательно, непрерывный временной ряд можно анализировать либо в аналоговой (непрерывной), либо в цифровой (дискретной) форме. Дискретный временной ряд может такхсе получаться, когда фи- физическая величина не имеет мгновенных значений, а приобретает смысл лишь в накопленном, или проинтегрированном по соответ- соответствующему временному интервалу, виде. Примерами таких нако- накопленных рядов являются цифры суточных осадков, даваемые ме- метеостанцией, или же выход продукции в последовательных партиях некоторого промышленного процесса. Пример дискретного времен- временного ряда приведен на рис. 5.2, где показаны значения накоплен- накопленной выходной продукции в 70 последовательных партиях, получен- 5.1. Стационарные и нестационарные случайные процессы ных на дистилляционной колонке, в зависимости от номера партии. Данные, по которым построен этот рисунок, даны в табл. 5.1. За- Заметим, что, хотя данные и подчиняются определенной высокоча- высокочастотной структуре, предсказать точное значение следующей партии невозможно. Многомерные временные ряды. Во многих случаях представляет интерес вектор х (f\ = \ х (?\ х (?\ х (?\ \ состоящий из временных рядов. В этом случае х(^) называют мно- многомерным временным рядом. Так, например, мы имеем двумерный 80 г 60 s го W 20 30 «0 Номер партии t 50 60 Рис. 5.2. Выход продукции в 70 последовательных партиях промышленного процесса. временной ряд в радиолокации, когда X\(t) является «курсовым углом цели» радиолокатора по азимуту, a xz{t) —«курсовым углом цели» по возвышению. Заметим, что эти два временных ряда рав- равноправны в том смысле, что ни один из них не влияет на другой, ибо они характеризуют различные виды движения радиолокацион- радиолокационной антенны. Иногда xi(t), ..., xi(t) являются входными сигналами некоторой физической системы, a xi+i(t), ..., xq(t)—соответствующими вы- выходными сигналами той же системы. Например, X\{t) могло бы ха- характеризовать скорость потока холодной воды у впускного отвер- отверстия в водонагреватель, а Xz{t)—температуру потока у выпуск- выпускного отверстия. Зная устройство водонагревателя, можно сделать разумный прогноз ряда X2(t) по ряду Xi(t). В этом случае времен- временные ряды неравноправны, поскольку изменения xi(t) могут вызвать изменения в x2(t), но не наоборот.
178 Гл. 5. Введение в анализ временных рядов 5.1. Стационарные и нестационарные случайные процессы 179 Таблица 5.1 Выход продукции в 70 последовательных партиях промышленного процесса 1 — 10 47 64 23 71 38 65 55 41 59 48 11—18 71 35 56 40 58 44 80 55 19-28 37 74 51 58 50 60 44 57 50 45 29-36 25 59 50 71 56 74 50 58 37—16 45 54 36 54 48 55 45 57 50 62 47-54 44 64 43 52 38 60 55 41 55-64 53 49 34 35 54 45 68 38 50 60 65-70 39 59 40 57 54 23 Теперь должно быть ясно, что слово «ряд» во временных рядах употребляется весьма вольно для обозначения непрерывных функ- функций времени x(t) или же дискретных последовательностей {xt}, упорядоченных во времени. Слово «время» также употребляется весьма вольно в том смысле, что t может относиться к некоторому другому физическому параметру, такому, как пространственная координата. Например, при изучении вибрации самолета иногда производят эксперименты, в которых датчики деформации прикре- прикрепляются к крылу или к какой-нибудь другой части самолета, и флуктуирующие напряжения в этой структуре измеряются на раз- различных высотах полета. Хотя самолет летит в течение некоторого промежутка времени, полученная запись является скорее функцией области в пространстве, пересекаемой самолетом, чем функцией времени. Временные ряды, зависящие от нескольких переменных. В не- некоторых случаях ряд является функцией x(t\, h, ..., 4) нескольких физических параметров ti, h, ¦ ¦., th. В этом случае он называется случайным полем. Например, x(t\, h) может представлять измере- измерения локальных флуктуации магнитного поля Земли в точке с коор- координатами ti, h- В других случаях изучаемый процесс может быть многомерным, а также зависеть от нескольких переменных. Напри- Например, геофизики заинтересованы в исследовании соотношения между магнитным полем Земли Xi(t\, h) и глубиной океана x2(ti, t2). 5.1.2. Описание случайного процесса Определение случайного процесса. При анализе данных в виде временных рядов возникает необходимость выполнять различные операции над фактическими числами, полученными из некоторого эксперимента. До того как данные собраны, удобно рассматривать их, как это делается во всех статистических работах, как один из многих наборов данных, которые могли бы быть получены из этого эксперимента. Это достигается тем, что с каждым моментом вре- времени t в интервале (—оо ^ t ^ оо) связывается некоторая случай- случайная величина X(t), имеющая выборочное пространство {—оо ^ ^Х (t)^oo) и плотность вероятности fxw(x). Кроме того, нужно задать совместные плотности вероятности, относящиеся к любому произвольному набору моментов времени (ti, U, ..., tn). Таким об- образом, временной ряд можно описать с помощью упорядоченного множества случайных величин X(t) (—оо ^ t =sC оо) в случае не- непрерывного ряда и упорядоченного множества случайных величин {Xt}, t = 0, ± 1, ± 2, ..., в случае дискретного ряда. Упорядоченное множество случайных величин называется слу- случайным процессом. Случайный процесс дает вероятностное описа- описание физического явления, которое развивается во времени по впол- вполне определенным вероятностным законам. Заметим, что выбороч- выборочное пространство, связанное с одномерным случайным процессом, дважды бесконечно. Оно простирается для каждого момента вре- времени от —оо до +оо, и само время изменяется также от —оо до -f-oo. Дважды бесконечное множество функций времени, которые могут быть определены на этом выборочном пространстве, назы- называется ансамблем. Ансамбль. Наблюденный временной ряд x(t) рассматривается как одна реализация бесконечного ансамбля функций, которые могли бы быть наблюдены. Этот один или несколько временных рядов, предназначенных для анализа, рассматриваются как вы- выбранные случайным образом из такого ансамбля функций, наподо- наподобие того, как производится выборка лиц среди населения для про- проведения обследования. Такая выборка Должна быть представитель- представительной для всего описываемого населения, что следует учитывать, начиная обследование. Точно так же при работе с временными ря- рядами для ясного понимания вопроса полезно в начале исследова- исследования описать точный характер ансамбля, или популяции, типичным представителем которого считается наблюденный временной ряд. Предположим, например, что нужно измерить высоту волн с по- помощью передатчика, прикрепленного к бую. Если буй бросают в море случайным образом, то наблюденный временной ряд можно ¦было бы рассматривать как один из многих рядов, которые,
180 Гл. 5. Введение в анализ временных рядов возможно, наблюдались бы при слегка отличающихся местоположе- местоположениях буя. Более тщательная проверка, возможно, обнаружила бы, что этот временной ряд типичен, если принять во внимание кон- конкретное время дня или время года или же конкретный район в океане. Чем больше факторов влияют на эксперимент, тем шире становится ансамбль описываемых временных рядов и, следова- следовательно, тем большая осторожность требуется при интерпретации результатов. 5.1. Стационарные и нестационарные случайные процессы 181 Рис. 5.3. Представители ансамбля, образованного случайным процессом. Во многих практических задачах интересно знать, как изме- изменяются свойства временного ряда, когда некоторые внешние усло- условия намеренно изменяются по плану эксперимента. В других случаях невозможно осуществлять контроль над внешними факто- факторами. Например, нельзя управлять солнечной радиацией при изу- изучении ее влияния на статистические свойства атмосферной турбу- турбулентности. Тем не менее корреляция статистических свойств временных рядов с этими неконтролируемыми факторами может ока- оказаться важнейшим выводом, полученным из анализа рядов. Основ- Основная цель этого обсуждения заключается в том, чтобы показать сле- следующее: вопрос о том, из чего должен состоять ансамбль возмож- возможных временных рядов в любой конкретной задаче, должен ре- решаться на основе разумных научных заключений, а не на основе чисто статистических аспектов. Распределения вероятностей, связанные со случайным процес- процессом. Если ансамбль ясно определен, то поведение временного ряда в данный момент времени можно описать до сбора данных с по- помощью случайной величины X(t) и ее плотности вероятности fx(t)(x) *'• Как подчеркивалось в гл. 3, выбор функции fx(t)(x) яв- является делом здравого суждения или опыта. Аналогично случайные величины X (ti) и X (^.соответствующие двум моментам времени h и t2, можно описать с помощью их со- совместной плотности вероятности f XHx)X(ti) (хи Х2)> которую сокра- сокращенно обозначим M*i, х2). Один из способов интерпретации этих плотностей вероятности состоит в следующем: через отверстие ши- шириной 8хи расположенное около точки хи в момент времени U про- проходят члены ансамбля функций, составляющие от него долю fi(xiNxu как показано на рис. 5.3; аналогично через отверстие от xi до xi+6xi в момент времени h и отверстие от х2 до х2+&х2 в мо- момент времени h проходят члены ансамбля, составляющие долю )8 М ) Другой полезной функцией является условная плотность вероят- вероятности f 2\\ E.1.1) которая читается как «плотность вероятности Х2 при условии Xi = = xi». Таким образом, из проходящих через отверстие от xt до Xi+6xi в момент U членов ансамбля, составляющих от него долю fi(xi) 6*1, только часть функций, составляющая от прошедших долю / (xi, xi) 6*2, пройдет через отверстие от х2 до х2+ бх2 в момент t2. В общем случае одномерный случайный процесс может быть описан с помощью совместных плотностей вероятности /хмхш. . .x(tn)(xv хт ¦ • ¦' хп) для произвольно выбранного набора моментов времени ti, t2, ..., tn, но такое описание могло бы быть довольно сложным. На практике необходим более простой подход, основанный на младших мо- моментах. *) Строго говоря, случайные величины X(t) следует описывать их функ- функциями распределения, так как плотности вероятности могут не существовать, но мы не будем обращать на это внимания, поскольку это несущественно с практической точки зрения.
182 Гл. 5. Введение в анализ временных рядов Простые моменты случайного процесса. Для любого t можно определить одномерные моменты вида [(*(*))*] = j x*fXU)(x)dx. E.1.2) Отсюда очень просто описать случайный процесс, построив функ- функцию среднего значения \i(t) и функцию дисперсии o2(t) в зависи- зависимости от времени. Аналогично двумерные моменты E.1.3) -—00 —ОЭ можно было бы использовать для описания зависимости между значениями временного ряда в двух соседних точках t\ и h. Про- Простейшим из моментов E.1.3) и наиболее важным на практике яв- является автоковариационная функция *' Тхх (*„ t2) = Е [{X (*,)-,* (*,)) (X (t2) - р (t2))} . E.1.4) ¦Отметим, что yxx(tu t±) = o2(/i). Заметим также, что ковариацион- ковариационная функция временного ряда имеет те же свойства, что и кова- риация между двумя случайными величинами Xi и Х2 (эти свой- свойства мы перечислили в разд. 3.2.2). Поскольку yxx(ti, tz) зависит от масштаба измерения X, удобно при сравнении двух рядов, которые могут иметь различные мас- масштабы измерения, определить нормированную величину, называе- называемую автокорреляционной функцией *) Подобно обычному коэффициенту корреляции C.2.19), pxx{t\, h) .лежит между крайними значениями —1 и +1, соответствующими полной отрицательной и положительной линейным зависимостям. Вообще, случайный процесс можно было бы описывать с по- помощью его старших моментов fn\, E.1.5) но они не очень полезны на практике. 5.1.3. Стационарность и ковариационная функция Стационарность. В общем случае свойства случайного процесса будут зависеть от времени. Часто ради упрощения предполагают, что ряд достиг некоторой формы устойчивого состояния, или равно- равновесия, в том смысле, что статистические свойства ряда не зависят *) Там, где это не может привести к недоразумениям, мы будет использо- использовать более простые термины: ковариационная функция и корреляционная функ- функция.— Прим. перев. 5.1. Стационарные и нестационарные случайные процессы 183 от абсолютного времени. Например, было бы разумно предполо- предположить для данных о партиях продукта, приведенных на рис. 5.2, что если бы контроль за процессом осуществлялся достаточно хорошо, то статистические свойства ряда оставались бы довольно стабиль- стабильными во времени. Наименьшее требование для того, чтобы это было верно, состоит в том, что плотность вероятности fX(t) (x) не должна зависеть от времени и, следовательно, стационарный временной ряд имеет постоянное среднее значение |л и постоянную дисперсию а2. Поэтому одинаковую для всех моментов времени плотность вероят- вероятности fx(x) можно оценить, построив гистограмму данных так, как это описывалось в гл. 3. Например, гистограмма данных табл. 5,1 показана на рис. 5.4. Из этого рисунка видно, что эмпирическое распределение явля- является унимодальным и не противоречит гипотезе о том, что данные могут быть описаны нормальной случайной величиной. Если дан- данные относятся к значительному промежутку времени, то разум- разумность предположения о стабильности можно проверить, например, с помощью построения отдельных гистограмм для каждой из поло- половин ряда. Если эти две гистограммы находятся в согласии, то пред положение о независящей от времени вероятности, по-видимому , оправдано. Из предположения о том, что процесс находится в состоянии равновесия, вытекает и другое следствие: совместная плотность вероятности /12(^1, Хг) зависит только от разности моментов вре- времени t2—ti, а не от абсолютных значений t\ и h- Предположим, что временной ряд — дискретный и что наблюденными значениями яв- являются xi, Хг, . •., Хп. Тогда пары точек (х\, Xh+\), (хг, Xh+г), ..., {хп-и, хп) можно рассматривать как (п — k) наблюдений, имеющих со- совместную плотность вероятности f 12(xi, лгг), которая в этом случае одинакова для всех моментов времени, отстоящих друг от друга на kA. Рис. 5.5 показывает диаграмму разброса для последовательных партий (xt, xt+i), взятых из данных табл. 5.1. Видно, что точки по- попадают в основном в левый верхний и правый нижний углы ри- рисунка, что говорит об отрицательной зависимости между соседними партиями, явно заметной также на рис. 5.2. Из условия равновесия вытекает и еще более общее следствие, а именно свойства многомерной плотности вероятности, соответст- соответствующей любому набору моментов времени ti, h, ..., tn, зависят только от разностей \U — t,\. Другими словами, если любой набор моментов времени t\, h, ¦ ¦., tn перенести вперед или назад на ве- величину k, то плотность вероятности не изменится. Математически это означает, что равенство fxU,)X(h) ... хи„ЛХ\'Х2' • ¦ ¦' Хп) = •=/, X(tn+k){Xl X •-)¦ E.1.6).
2ОГ 15 10 26 33 40 47 54 6/ 68 75 8? Вь/лоЗ продукции х Рис. 5.4. Гистограмма данных о последовательных партиях продукции, приве- приведенных на рис. 5.2. 80 60 t 40 н 20 v: го Рис. 5.5. Диаграмма разброса для пар последовательных партий, ирииеденных на рис. 5.2. 5.1. Стационарные и нестационарные случайные процессы 18S справедливо для любых наборов моментов времени и для всех смещений k. Случайный процесс, удовлетворяющий условиям E.1.6), называется строго стационарным *>. Ковариационная функция. Из предположения стационарности сразу следует, что ковариационная функция yxx{tu ^2) зависит только от u = tz—ti и, следовательно, ее можно записать в виде Тхх (и) = Е [(X (t) - [х) (X (t + u) = Cov [X @, X (t + и)] . E.1.7) Смещение и называется запаздыванием. Ковариационная функция показывает, как изменяется зависимость между соседними значе- значениями случайного процесса в зависимости от запаздывания и. Если X(t) имеют многомерную нормальную плотность, то ковариацион- ковариационная функция и среднее значение полностью характеризуют про- процесс, как отмечалось в разд. 3.1.5. Корреляционная функция. Для стационарного процесса корре- корреляционная функция ^$г E-1.8) зависит только от запаздывания и. Хотя методы оценивания кова- ковариационных и корреляционных функций будут рассмотрены лишь в разд. 5.3, мы проиллюстрируем сейчас на рис. 5.6 выборочную корреляционную функцию для данных о партиях продукта, изо- изображенных на рис. 5.2. Видно, что корреляции затухают очень бы- быстро и что практически нет корреляции для запаздываний больше 10. Кроме того, корреляции меняют знак. Это говорит о том, что за высоким выходом продукта в одной партии в среднем полу- получается низкий выход в следующей партии, и наоборот. Слабая стационарность. Более слабое, чем E.1.6), предположе- предположение, которое иногда принимают, состоит в том, что многомерные моменты вида E.1.5) вплоть до порядка зависят только от разностей моментов времени | /,- — tj\. Случай- Случайный процесс с таким свойством называется стационарным процес- процессом /(-го порядка. Например, если К = 2, то только среднее значе- значение, дисперсия и ковариационная функция E.1.7) зависят от раз- разностей моментов времени, и процесс является стационарным *> Такие процессы называют также стационарными в узком смысле, или вполне стационарными. — Прим. перев.
185 Гл. 5. Введение в анализ временных рядов второго порядка *'. Впрочем, если многомерная плотность вероят- вероятности в E.1.6) является нормальной (так что она полностью зада- задается ее средними значениями и ковариациями), то из стационарно- стационарности второго порядка следует строгая стационарность. 5.1. Стационарные и нестационарные случайные процессы 187 0,2 12 Запаздывание к -0,2 -0,4 Рис. 5.6. Выборочная корреляционная функция для данных, приведенных на рис. 5.2, /Vx@) = l. Чисто случайный процесс. Простейшим примером стационар- стационарного процесса является дискретный процесс Zt, такой, что случай- случайные величины Zt взаимно независимы и одинаково распределены. В этом случае из E.1.7) следует, что yzz(k) = 0 для всех й^О. Такой процесс статистики называют чисто случайным процессом, а инженеры — белым шумом с ограниченной полосой частот. 5.1.4. Классификация временных рядов, встречающихся на практике В большинстве работ, посвященных анализу временных рядов, исследователи рассматривают свойства стационарных процессов. Если эмпирический ряд не является стационарным, то можно при- применить различные приемы для устранения очевидных трендов, по- после чего оставшийся ряд будет разумно считать стационарным. На- Например, данные можно приблизить некоторыми математическими *) Такие процессы называются также стационарными в широком смысле, или слабо стационарными.—Прим. перев. функциями, такими, как экспоненты, ряды Фурье или многочлены. ^ Другим приемом, который будет широко использоваться в после- * дующих главах, является фильтрация или устранение низкочастот- % ных трендов с помощью соответствующим образом рассчитанного '•§- фильтра. /- Временные ряды, встречающиеся обычно на практике, можно ч разделить на три большие категории. f а) Ряды, являющиеся стационарными в течение относительно $ больших промежутков времени, благодаря некоторой форме кон- {- троля над внешними условиями. Примерами могут служить ряды, .i получаемые из генераторов случайного шума, таких, как электрон- •; ные лампы, температура которых поддерживается постоянной, и вольферовский ряд чисел солнечных пятен, зарегистрированных в течение нескольких столетий. С практической точки зрения неве- невероятно, чтобы какой-нибудь ряд оставался стационарным беско- бесконечно долго, так что важным является вопрос, насколько длинную запись можно взять для анализа, чтобы при этом не нарушилось предположение о стационарности. Для геофизических рядов, таких, как числа солнечных пятен, условия могут оставаться стабильными в течение столетий. Однако в других случаях условия могут оста- оставаться стабильными лишь в течение часов или минут или, воз- возможно, вообще быть совершенно нестабильными. б) Ряды, с которыми можно обращаться как со стационарными i лишь при условии, что рассматриваются достаточно короткие реа- '¦'"¦ лизации. Ошибки, допускаемые оператором при слежении, рассма- рассматриваются как стационарные, если только характеристики просле- прослеживаемого сигнала поддерживаются неизменными, а измерения производятся в течение достаточно коротких промежутков времени так, чтобы оператор не успел устать. Если измеряют напряжение в некоторой точке самолета, летящего через турбулентную среду, то хорошо известно, что в течение коротких промежутков времени, скажем до получаса, ряд можно рассматривать как стационарный. Для больших периодов времени дисперсия ряда может измениться заметным образом из-за изменения уровня, или интенсивности, тур- •" булентности. в) Ряды, которые, совершенно очевидно, являются нестацио- *, нарными как по своему виду, так и из-за априорных сведений об * изучаемом явлении. Формы проявления нестационарности рядов могут быть раз- * личными. Приведем несколько примеров простейших форм неста- нестационарности. Нестационарность среднего значения. Многие ряды проявляют ; нестационарность лишь в виде тренда среднего значения, не об- обнаруживая видимым образом каких-либо более сложных | форм отнлонения от стационарности. Например, большинство
188 Гл. 5. Введение в анализ временных рядов 5.1. Стационарные и нестационарные случайные процессы 189 экономических временных рядов содержит явно выраженные тренды, отражающие поступательное развитие экономики. На эти тренды накладываются флуктуации более высокой частоты, обус- обусловленные краткосрочными экономическими факторами (например, использованием экономических регуляторов), а также еще более высокочастотные осцилляции, обусловленные игрой на бирже. Обычно предполагается (произвольно), что измеренный в логариф- логарифмическом масштабе экономический временной ряд (такой, как ва- валовой национальный продукт, цены или капиталовложения) можно расщепить на ряд, дающий тренд (нестационарность среднего зна- значения), и остаточный ряд, являющийся стационарным. Нестационарность среднего значения и дисперсии. Ряд, который может иметь нестационарную дисперсию, получается в упоминав- упоминавшемся выше примере с турбулентностью. Другой случай такого рода имеет место при контроле промышленных рядов. Эти ряды постепенно уходят нестационарным образом от нужного уровня из- за влияния случайных возмущений, если только не компенсировать их. Нестационарные модели, описывающие поведение таких рядов и используемые для синтеза оптимальных систем регулирования, приведены в недавних работах [1, 2]. Эти нестационарные модели можно обобщить таким образом, чтобы они описывали также «тренды» и «периодичности», обнаруживаемые в экономических рядах [3]. В результате такие модели могут дать основу для про- прогноза экономических рядов. Важная отличительная черта этих мо- моделей состоит в том, что тренд рассматривается не как детер- детерминированная функция времени, а как случайная функция, изме- изменяющаяся по мере развития процесса. Один простой нестационарный процесс. Простой нестационар- нестационарный процесс Xt можно получить из стационарного чисто случай- случайного процесса Zt по следующему правилу: Хх = Zx, = Xt-x+Zt. E.1.9) Если E[Zt] = ln, то из C.2.15) следует, что E\Xt] = t\i. Анало- Аналогично если Var[Z(] = 02z, то из C.2.18) следует, что увеличивающейся амплитудой. Таким образом, процесс случайного блуждания имеет как нестационарное среднее, так и нестационар- нестационарную дисперсию. Используя E.1.4), получаем, что ковариационная функция про- процесса Xt равна ^, t2)a2z. Случайный процесс E.1.9) называют обычно случайным блужда- блужданием. Он обладает тем свойством, что с возрастанием времени слу- случайная величина Xt осциллирует около прямой X = t\i со все более Процесс, определяемый равенствами E.1.9), называют также про- процессом с некоррелированными, или ортогональными, приращения- приращениями, так как приращения Zt==Xt — Xt_x образуют чисто случайный процесс и, следовательно, Zt некорре- лировано (имеет нулевую ковариацию) с другими приращениями, такими, как Zt-i = Xt-i — Xt-2, и т. д. 5.1.5. Анализ систем на основе критерия минимума среднеквадратичной ошибки В предыдущих разделах обсуждены простые способы описания временных рядов с помощью их младших моментов. Важнейшим из этих моментов является корреляционная функция. Одно из многих применений корреляционной функции состоит в том, что она слу- служит источником исходных идей при построении вероятностной мо- модели механизма, породившего временной ряд. В следующей главе будет показано, что временной ряд можно описать совершенно эквивалентным образом с помощью его спектральной плотности, являющейся преобразованием Фурье от ковариационной функции. Широкое применение ковариационной функции или спектраль- спектральной плотности в технических задачах основано на том, что знание любой из этих функций достаточно для синтеза линейных фильт- фильтров или линейных систем регулирования с минимальной средне- среднеквадратичной ошибкой для случаев, когда рассматриваемые сиг- сигналы искажаются шумом. Теория синтеза систем с минимальной среднеквадратичной ошибкой была впервые разработана Вине- Винером [4]. Она сыграла важную роль в развитии современной теории управления и теории связи. Синтез следящих систем. Одно из первых инженерных приме- применений анализа на основе критерия минимума среднеквадратичной ошибки было сделано при синтезировании следящих систем для зенитных орудий и в радиолокационных следящих системах [5]. Например, от радиолокационной следящей системы требуется, чтобы она следила за самолетом несмотря на возмущения отра-
190 Гл. 5. Введение в анализ временных рядов 5.1. Стационарные и нестационарные случайные процессы 191 женного радиосигнала, обусловленные вариациями полного коэф- коэффициента отражения из-за вращения пропеллера, вибрации мото- моторов и изменений относительного положения самолета, вызванных рысканием и покачиванием во всех направлениях. Понятно, не- нельзя ожидать от следящей системы, чтобы она сопровождала само- самолет абсолютно точно при таких неблагоприятных условиях. Следо- Следовательно, нужно было бы исследовать характеристику работы системы в среднем и ее вероятный разброс, а не точную характе- характеристику. Один из способов описания этих свойств использует сред- среднеквадратичную ошибку между желаемым и действительным вы- выходными сигналами системы. В свою очередь, среднеквадратичную ошибку можно выразить через ковариационную функцию входного и желаемого выходного сигналов. Поэтому знание ковариационных функций достаточно для синтеза систем с минимальной средне- среднеквадратичной ошибкой. Оценивание отклика линейной системы на единичный импульс. Другое применение критерий минимума среднеквадратичной ошибки находит в задаче об «идентификации системы». В этом случае в распоряжении имеются входной сигнал и соответствую- соответствующий ему выходной сигнал от некоторой системы; требуется вывести линейное приближение к этой системе для дальнейшего его исполь- использования при управлении или моделировании. Предположим, напри- например, что система представляет собой «черный ящик» (рис. 5.7). Если вход является реализацией случайного процесса X(t), то вы- выход можно рассматривать как реализацию случайного процесса У@,где со \ E.1.10) уц)-ру=\ h(u)[X(t-u)-\xx\du 6 Равенство E.1.10) утверждает, что выход можно рассчитать, беря взвешенное среднее от входного сигнала, причем весовая функция должна равняться h(u). В E.1.10) Z(t) является шумом, или чле- членом ошибки, содержащим систематическую компоненту (обуслов- (обусловленную несовершенством аппроксимации линейной системы) и слу- случайную компоненту, обусловленную ошибками измерения и недо- недостаточным контролем над переменными, управляющими выходом. Если ковариационные функции процессов X(t) и Y(t) известны точно, то можно воспользоваться винеровским критерием мини- минимума среднеквадратичной ошибки. Этот критерий утверждает, что функция h(u) должна быть выбрана так, чтобы минимизировать среднеквадратичную ошибку шумовой компоненты, т. е. - V-r) - j It («) (X (t - u) 5 E.1.11) Целесообразность использования критерия E.1.11) мы обсудим полнее в разд. 5.3.1, где будет рассмотрена задача идентификации системы по записям конечной длины. Если предположить, что процессы X(t) и Y(t) стационарны, то E.1.11) можно записать в виде Входной случайный процессХр) Система, аппроксимируемая линейной системой Выходной случайный процессШ) + Сигнал Ztt) Линейная система с импульсным откликом h(u) Рис. 5.7. Определение отклика на единичный импульс на основе минимума сред- среднеквадратичной ошибки. Е [Z2(/)] = Е [{Y(t) - pyf] -2EUY(t) - ?у) J h(и)X L о !Г со со + ? j JA(«)A(t>)X X (X (t - и) - [лх) {X (t ~ v) - цх) du dv = оо со сю = Tkk@)-2J а(и)тхг(и)*и+ j J А(и)Х 0 0 0 Xh(v)-[XX(u-v)dudv, E.1.12) где Yyy(°) = o2Y — дисперсия Y(t)\ Тхк («) = Е [(X (t) - ^) (Г (t + и) ~ |хк)] есть взаимная ковариационная функция между X (t) и Y(t+u) и Тхх (и) = Е {{X (t) - рх) (X (< + «)- рх)] есть автоковариационная функция X(t). Отсюда среднеквадратичная ошибка полностью определяется ковариационными функциями Yry(°)> Ухг(и), уХх(и) и откликом на единичный импульс h(u).
192 Гл. 5. Введение в анализ временных рядов Функцию h(u), дающую минимальную среднеквадратичную ошибку, можно получить с помощью вариационного исчисления, как показано в приложении П5.1, откуда следует, что h (и) должна удовлетворять интегральному уравнению Винера—Хопфа E.1.13) Заметим, что h(v) должна тождественно равняться нулю при отри- отрицательных v, чтобы аппроксимирующая система была физически реализуемой. Основная мысль этого раздела заключается в том, что линейная система, дающая наилучшую аппроксимацию к данному процессу, полностью определяется ковариационными функциями ухх(и) и Yxy(u). В этом одна из причин широкого использования этих функций. 5.2. КОРРЕЛЯЦИОННАЯ И КОВАРИАЦИОННАЯ ФУНКЦИИ 5.2.1. Основные свойства В этом разделе выводятся свойства корреляционной и ковариа- ковариационной функций. Взаимную ковариационную функцию уху(и), введенную в разд. 5.1.5, мы будем подробно обсуждать в гл. 8. В общем случае случайный процесс X(t) имеет ковариацион- ковариационную функцию Cov{X(t), X(t + u)]=lxx(t, t + u) E.2.1) и корреляционную функцию РххС t + u) {Var[Jf@]VarlJf(, < t {txx(t, Если X(t)—стационарный, то E.2.1) и E.2.2) сводятся к )] =Тхх (и) Cov и Pxx(«) = соответственно. Отсюда . E.2.2) E.2.3) E.2.4) Функция рхх(и), зависящая от запаздывания и, называется кор- корреляционной функцией стационарного процесса X(t). Если процесс 5.2. Корреляционная и ковариационная функции 193 непрерывный, и может принимать любое значение от —оо до +оо; для дискретного же процесса рхх(и) будет определена лишь для целых значений и. Ниже перечислены и коротко объяснены свойства корреляци- корреляционной функции E.2.4). Свойство 1. РХХ(О) = 1. Это немедленно следует из определения E.2.4), если положить ы = 0. Свойство 2. Из-за стационарности процесса мы имеем Cov[X(t), X(t + u)]=Cov[X(t-u), X(f)] = = Cov[X(f), X(t-u)]=^x(-u). Из E.2.4) следует, что рхх(и) =рхх(—и). Следовательно, как ковариационная, так и корреляционная функции являются четными функциями от запаздывания и. Поэтому их нужно вычислять лишь для неотрицательных и. Свойство 3. |рхх(«)|^1 для всех и. Это можно получить из того факта, что дисперсия случайной вели- величины неотрицательна, с помощью рассуждений, аналогичных приведен- приведенным в разд. 3.2.4. Свойство 4. Корреляционная матрица является положительно полуопределенной, т. е. определитель Рхх и все его главные миноры неотрицательны. Этот результат явля- является более общим, чем свойство 3. Он следует из того, что диспер- дисперсия случайной величины 7 Заказ № 1210
194 Гл. 5. Введение в анализ временных рядов неотрицательна. Из свойства 4 вытекает, что корреляции стацио- стационарного процесса не могут быть произвольными, но должны удов-, летворять некоторым соотношениям. Заметим, что при п = 2 свой- свойство 4 сводится к свойству 3. Свойство 4 положительной полуоп- полуопределенности приводит к понятию спектра мощности процесса, ко- которое будет обсуждаться подробнее в гл. 6 и 11. Свойство 5. Если случайный процесс является непрерывным, то Рхх(и) должна быть непрерывной функцией от запаздывания и. Это условие непрерывности требуется для того, чтобы можно было построить разумную математическую теорию для непрерывного времени. На самом деле достаточно потребовать лишь, чтобы Рхх(и) была непрерывной при м = 0, так как из этого вытекает непрерывность во всех других точках. Белый шум. Одно из следствий свойства 5 состоит в том, что невозможно определить непрерывный по времени случайный про- процесс, являющийся аналогом чисто случайного процесса с дискрет- дискретным временем, введенного в разд. 5.1.3. Для такого непрерывного случайного процесса потребовалось бы, чтобы pzz@) = l и Pzz(u) = 0 при «=^0, но такая корреляционная функция была бы разрывной при « = 0. Один выход из этой трудности заключается в том, чтобы опре- определить чисто случайный процесс для непрерывного времени, или белый шум, как процесс, который состоит целиком из некоррели- некоррелированных смежных импульсов. Таким образом, его ковариацион- ковариационная функция будет равна где 6 (и)—дельта-функция Дирака. Поскольку 6 (и) можно рас- рассматривать как функцию, равную нулю при ифО и бесконечную при и = 0, то мы добились того, что ковариация между соседними точками равна нулю, хотя для этого пришлось сделать бесконеч- бесконечной дисперсию процесса Yzz@). Ниже мы покажем, что бесконеч- бесконечная величина дисперсии получается неизбежно. 5.2.2. Линейный процесс и его ковариационная функция Важный класс процессов можно получить с помощью пропуска- пропускания чисто случайного процесса через линейную систему, или фильтр. Для непрерывного времени соотношение между выходным процессом X(t) и входным процессом Z(t) можно записать в виде оо -\x= J h(v)Z(t-v)dv, E.2.6) 5.2. Корреляционная и ковариационная функции 195 а для дискретного времени — в виде 1 E.2.7) k=0 где E[Z(t)] = O и ?[Z(] = 0. Случайный процесс, который получа- получается из белого шума с помощью выражений E.2.6) или E.2.7), называется линейным процессом. Беря математическое ожидание от обеих частей в E.2.6), по- получим оо E[X(t)-v] = E[X(f)]=v.. Отсюда ковариационная функция выхода равна txx (и) = Е [(X @ - ц) (X (/ + «)- ix)] = оо оо == f J h (v) h (v1) E[Z(t-v)Z(t + u- v')} dv dv'. E.2.8) о о Если процесс Z(t) стационарен и имеет ковариационную функцию ), то E.2.8) сводится к т (и) = [ j h (v) h (v') *\zz (u + v- v') dv dv'. E.2.9) 0 0 Подставляя в E.2.9) вместо Yzz(«) ковариационную функцию бе- белого шума E.2.5), получим оо Ьх (") = 41 Л (*)Л (^ + «) ^- E-2л0> 0 Отсюда корреляционная функция линейного процесса X(t) равна со j" h (v) h {v + и) dv E.2.11) {v)dv В гл. 6 будет показано, что процесс X (t) является стационар- стационарным, если | h (v) | dv < M, E.2.12) где М —конечное число. Заметим, что условие E.2.12) со- совпадает с условием B.3.11) устойчивости линейной системы. 7*
196 Гл. 5. Введение в анализ временных рядов В приложении П5.2 как обобщение результата E.2.10) получены следующие выражения для третьего и четвертого моментов и для четвертого кумулянта: ? [(X (*) - (*)(*(' + и.) -\>.)(Х(( + и2) - (.)] = оо j + u2)dv, E.2.13) ОО = Е [Z4] j h(v)h(v + и,)h(v -f- и2)Л (¦у + и3)flto E.2.14) и оо Кх (и,, «2. Из) = К, (Z) j Л (v) h (v + и,) h (v + «2) Л (« + Из) flfo, E.2.15) где X {X (t + и3) - t*)] - Тхх (и,) Тхх («з - «2) - -Тхх(«2)Тхх(«з - «,) - Тхх(«з)Т*х(«2 - «О E-2.16) Соответствующие формулы для дискретного линейного процесса E.2.7) можно получить, заменяя интегралы на суммы. Например, E.2.10) переходит в оо а условие стационарности, или стабильности, соответствующее ус- условию E.2.12), имеет вид 00 ~~ E.2.18) где М — конечное число. Неравенство E.2.18) совпадает с усло- условием устойчивости B.3. 39) для дискретных систем. Пример линейного процесса. Как частный случай линейного про- процесса рассмотрим среднее значение процесса Z(t), сосчитанное по конечному интервалу Т, т. е. = 4 j Z(v)dv. t-T 5.2. Корреляционная и ковариационная функции 197 Отсюда О, i)<0, 4, 0<i><7\ О, v>T. Математическое ожидание X(t) равно t =-у- 1 E\Z(v)\dv = 0 t-т о о при условии, что E[Z(t)] = 0. Если Z(t) —произвольный стацио- стационарный процесс, то, используя E.2.9), получаем ковариационную функцию процесса X{t): E.2.19) E.2.20) Сделав замену y = v — v' и положив « = 0, получим т Var \X (t)} = -i- Если Z(t) —белый шум, то E.2.19) сводится к Var Заметим, что E.2.20) совпадает в дискретном случае с выра- выражением для дисперсии среднего арифметического, состоящего из Т независимых случайных величин, а именно Var[z] =Var 4 2 ZA = Таким образом, для дискретного белого шума дисперсия среднего арифметического равна дисперсии сигнала Z, деленной на число наблюдений, но для белого шума с непрерывным временем конеч- конечная величина о| /71 получается при делении бесконечной дисперсии на бесконечное число независимых наблюдений. Этот пример дос- достаточно хорошо показывает, что интерпретацию и получение ре- результатов с помощью белого шума нужно проводить очень осто- осторожно. Следует отметить, что дельта-функция в выражении E.2.5) для ковариационной функции белого шума является существенной частью, а не просто служит параметром «расположения». Это оз- означает, что дисперсия действительно бесконечна и ковариация между сколь угодно близкими значениями действительно равна нулю. Для того чтобы физически сколь угодно близкие значения
198 Гл. 5. Введение в анализ временных рядов процесса были некоррелированными, т. е. чтобы процесс мог без ограничений флуктуировать от момента к моменту, он должен иметь бесконечную дисперсию. Процесс Башелье— Винера. По аналогии с дискретным процес- процессом E.1.9) для непрерывного времени также можно построить процесс, имеющий некоррелированные приращения. Формально непрерывный аналог случайного блуждания можно записать в виде E.2.21) или же Если X(t)—непрерывный процесс с некоррелированными прира- приращениями, то E[(X(t2)—X(ti))(X(U)—X(t3))] будет равно нулю для неперекрывающихся интервалов (U, /2) и {ts, h). Если же интервалы перекрываются следующим образом: то, записав получим в X (t2) - X (/,) = X (t2) - X (t3) + X (t3) - X ft) X (Q - X (i3) = X (tt) - X (t2) + X (t2) - X (/3), Можно показать далее [6], что это математическое ожидание дол- должно иметь вид o2z\to—Ы для любого разумного процесса с не- некоррелированными приращениями *). Рассмотрим теперь производный процесс Y(t)= ; • Из E.2.11) при фиксированном т получаем, что ковариационная функция процесса Y(t) равна ( 0, |и|>х, _2 Ту у \Ц) E.2.22) *' Точнее, с некоррелированными стационарными приращениями.—Прим, перев. 5.2. Корреляционная и ковариационная функции 199 Если т->-0, то ухх(и) стремится к a2z б (м)—ковариационной функции белого шума. Следовательно, белый шум можно пред- представлять себе как несобственный случайный процесс, являющийся производной X(t) процесса с некоррелированными приращениями. Если в дополнение к этому разность X(t + r) —X(t) распреде- распределена по нормальному закону со средним значением tjj. и диспер- дисперсией та2 , то Y(t) будет нормальным, или гауссовским, белым шумом, состоящим из некоррелированных импульсов, площадь которых имеет среднее значение ц. и дисперсию a2z. Этот процесс был использован Винером и другими для описания броуновского движения частицы, которая находится во взвешенном состоянии в некоторой среде и испытывает случайные соударения с части- частицами среды. 5.2.3. Процесс скользящего среднего конечного порядка Предположим, что веса hu линейного процесса E.2.7) равны нулю при k>l, т. е. Xt-p = h0Zt + hlZl_1+ ... +htZt_t. E.2.23) Тогда если Zt — чисто случайный процесс, то Xt называется про- процессом скользящего среднего конечного порядка /. Процессы скользящего среднего конечного порядка полезны во многих областях, например при прогнозе поведения эконометри- ческих систем и систем управления. Однако наиболее полезны они в сочетании с процессами авторегрессии, которые будут введены в следующем разделе. Из E.2.17) получаем, что ковариационная функция процесса скользящего среднего конечного порядка E.2.23) равна нулю при k>l. Рассмотрим, например, процесс скользящего среднего второго порядка: Из E.2.17) получаем, что ковариационная функция процесса Xt равна Ьх (°) == 4 I1 + (°>5J + (°-5J] =! '504, Тхх A) = 4 [1 @,5) + @,5J] = 0,754, 1хх B) = 4 [1@,5)] =0,54- Отсюда корреляционная функция равна 1, ¦(*) = k = 0, 0,5, k = \, 0,333, k = 2, 0, k > 3.
200 Гл. 5. Введение в анализ временных рядов Примером непрерывного процесса скользящего среднего конеч- конечного порядка является процесс Y(t), использованный при выводе процесса Башелье—Винера, для которого ковариационная функция E.2.22) равна нулю при \и\ >т. 5.2.4. Процессы авторегрессии Непрерывный процесс первого порядка. Рассмотрим линейную систему первого порядка, описываемую дифференциальным урав- уравнением вида B.3.2), а именно где z(t)—вход системы, a x(t)—ее выход. Если в эту систему вводится белый шум Z(t), то выход X(t) будет линейным процес- процессом E.2.6) с h(v) = (l/Т) ехр {—v/Т]. Процесс X(t), определяе- определяемый уравнением называется процессом авторегрессии первого порядка. Из E.2.11) следует, что корреляционная функция выхода равна Pvv(«) = E.2.25) Условие устойчивости E.2.12) требует, чтобы временная константа Т была положительной. Это является также условием того, что процесс X(t) —стационарный, а его дисперсия конечна. Дискретный процесс первого порядка. Дискретный процесс авто- авторегрессии первого порядка получается из чисто случайного процесса Z/ с помощью уравнения Xt-p = zl(Xt_l-p) + Zt. E.2.26) Используя 2-преобразование, E.2.26) можно записать в виде Следовательно, Используя E.2.17), получаем отсюда, что корреляционная функция процесса авторегрессии Xt равна 0;, ±1, ±2, 15.2.27) 5.2. Корреляционная и ковариационная функции 201 Условие устойчивости, или стационарности, E.2.18) сводится те- перь к условию |ai| 1, так как fe-0 = 1/A |ail Пример. На рис. 5.8, а показан ряд из 40 членов, полученный согласно уравнению E.2.26) при ai = 0,9. Значения чисто случай- случайного процесса Zt брались из таблиц независимых нормальных чи- чисел [7]. При ai = 0,9 корреляционная функция равна pXx{k) = = @,9I4 Эта функция становится близкой к нулю лишь при боль- больших значениях k. Таким образом, соседние точки процесса имеют 1,0 ?0,5 Mil, "i" 'III" ШПГ Illllll. 2,0 V> a H- о -1,0 -2,0 -3,0 2 б » 0 -г -ц Рис. 5.8. Выборки процессов авторегрессии первого порядка и их теоретические корреляционные функции; а) cti= +0,9; б) ai= —0,9. Ill большую положительную корреляцию, например рях A) =0,9, и плавный характер ряда отражается в плавности корреляционной функции. Ряд, показанный на рис. 5.8, б, соответствует случаю ai = —0,9. Соседние точки теперь имеют высокую отрицательную корреляцию, так как pXx(k) = (—0,9)'*', и корреляционная функ- функция осциллирует от положительных до отрицательных значений, отражая осциллирующий характер ряда. Заметим, что непрерыв- непрерывный процесс авторегрессии первого порядка E.2.24) может приво- приводить лишь к положительным корреляциям, и поэтому он соответ- соответствует дискретному случаю ai ^ 0. Процесс авторегрессии первого порядка иногда называют мар- марковским процессом первого порядка. Это ^обусловлено тем, что случайная величина Xt при фиксированной Xt-i не зависит от предшествующих величин Xt-2, Xt-s и т. д. Из E.2.26) видно, что если Zt — нормальный процесс со средним значением 0 и
202 Гл. 5. Введение в анализ временных рядов дисперсией о|, то условная плотность вероятности fx(t)\x(t-i){xt, xt-i) является нормальной со средним значением aiXt-i и диспер- диспер2 сией о2. Непрерывные процессы второго порядка. Непрерывный процесс авторегрессии второго порядка можно записать в виде dX ' '""" ' "/уч E.2.28) ~aW dt Можно различать два типа процессов второго порядка. В случае, если характеристическое уравнение агр1+aip + 1 = 0 имеет вещест- вещественные корни ni=l/Ti и П2=\/Тг, уравнение E.2.28) можно запи- записать в виде Т2) [X (*) - [х] = Z E.2.29) Если же корни характеристического уравнения комплексны Я1 = = (jineje, П2 = а>„е~^в, то процесс второго порядка можно записать в виде где ? = cos8. Процессы E.2.29), E.2.30) можно рассматривать как выходы линейных систем второго порядка, на вход которых пода- подается белый шум. Например, процесс E.2.30) соответствует системе второго порядка B.3.8) из гл. 2, где вход состоит из непрерывной последовательности случайных импульсов. Отсюда выход X(t) яв- является непрерывной искаженной периодической функцией. Для того чтобы E.2.30) имело смысл, необходимо принять, что измене- изменения Z(t) создают разрывные изменения ускорения выхода X(t). Дискретные процессы второго порядка. Для дискретного вре- времени процесс авторегрессии второго порядка имеет вид X, - (.= а, (*,_, - р) + а2 (Xt_2 -V) + Zt. E.2.31) Моделью E.2.31) пользовался в 1921 г. математик Юл. Он утверж- утверждал, что при Z, = 0 в E.2.31) эта модель описывает поведение про- простого маятника, демпфированного сопротивлением воздуха, про- пропорциональным его скорости. Если Zt является чисто случайным процессом, то маятник подвергается случайным толчкам через рав- равные промежутки времени. Вместо затухающих колебаний маятник теперь совершает возмущенное периодическое движение. На рис. 5.9 показан ряд из 40 членов, полученный по схеме дискретного процесса авторегрессии второго порядка E.2.31) при <xi=l,0 и осг = —0,5. Видно, что ряд имеет определенную периоди- 5.2. Корреляционная и ковариационная функции 203 ческую структуру. Однако период и фазы постоянно изменяются благодаря воздействию случайной компоненты Zt. Процесс E.2.31) можно рассматривать как выход дискретной линейной системы, на вход которой подается чисто случайный про- Зг 1 н 0 -J -2 -3 I '0 2(Г ]'30 1,0 0,5 10 го 30 -0.51- Р и с. 5.9. Выборка процесса авторегрессии второго порядка и теоретическая кор- корреляционная функция. цесс Z%. Функция отклика этой системы на единичный импульс была введена в разд. 2.3.5. Она равна К2 для случая а2^—4а2. Если а2 <—4а2, то , /?* [sin2n/0(fe+ 1) sin 2я/0 E.2.32) E.2.33)
204 Гл. 5. Введение в анализ временных рядов где ni = Rei2"h, я2 = Re~J23t^°. В гл. 2 было показано также, что для стационарности Xt нужно, чтобы параметры ai и <xi из E.2.31) ле- лежали в треугольной области °Ч + а2 < * - °Ч — а2> — 1. -1<а2<1. E.2.34) Корреляционные функции. Используя E.2.10) и отклики на еди- единичный импульс, приведенные в табл. 2.6, получаем корреляцион- корреляционную функцию непрерывного процесса E.2.29): т.р- \" \'т' _ т„е- \u\iu () ?<5235) Аналогично получаем корреляционную функцию непрерывного про- процесса E.2.30): рхх -С2 E.2.36) где ф = arcsin yi — t?. Корреляционную функцию дискретного процесса E.2.31) можно получить из E.2.32) и E.2.17). Для случая действительных корней она имеет вид — Jt2) и для комплексных корней E.2.37) E.2.38) Коэффициент затухания R, частота f0 и фаза ф0 в E.2.38) даются выражениями Для ряда, изображенного на рис. 5.9, где ai=l,0 и a2 = —0,5, ко- коэффициент затухания # = 0,71, частота /о = 0,125 и фаза фо=18°ЗО'. Корреляционная функция этого ряда построена под самим рядом на рис. 5.9. Видно, что она затухает очень быстро. Из-за большого разнообразия корреляционных функций, по- порождаемых процессами авторегрессии, они находят широкое при- применение в качестве моделей для анализа стационарных времен- временных рядов. Задача оценивания параметров процессов авторегрес- авторегрессии будет обсуждена в разд. 5.4. 5.2. Корреляционная и ковариационная функции 205 5.2.5. Общие процессы скользящего среднего — авторегрессии Этот раздел содержит краткую сводку наиболее важных свойств процессов авторегрессии и скользящего среднего. Общий процесс авторегрессии порядка m для дискретного времени порож- порождается чисто случайным процессом Zt с помощью разностного уравнения E.2.39) Для непрерывного времени общий процесс авторегрессии опреде- определяется как выход линейного фильтра, на вход которого подается белый шум, а соотношение между входом и выходом определяется дифференциальным уравнением 1Х , ,„/Л , „,„ E.2.40) а„ dmX dtm df где, как отмечалось выше, Z(t) изменяет разрывным образом dmX/dtm. Устойчивость, или стационарность. 1) Дискретный процесс. Дискретный процесс авторегрессии Xt является стационарным, если корни характеристического уравнения -i_ _ _ _ -am = 0 E.2.41) лежат внутри единичного круга | р \ = 1. 2) Непрерывный процесс. Непрерывный процесс авторегрессии X(t) будет стационарным, если корни характеристического урав- уравнения ampm + amp"f+ ... +«о = О E.2.42) имеют отрицательные действительные части. В разд. 5.2.2 отмечалось, что условие стационарности совпадает с условием устойчивости соответствующей линейной системы. По- Поэтому условия E.2.41) и E.2.42) получаются из условий B.3.38) и B.3.20). Корреляционная функция. 1) Дискретный процесс. Корреляци- Корреляционная функция дискретного процесса Xt удовлетворяет разност- разностному уравнению Рхх W = V™(*-!) + «2РХХ (* - 2) + ... = 0. E.2.43)
206 Гл. 5. Введение в анализ временных рядов Общее решение этого разностного уравнения имеет вид / * \ * ! ^ I I Л |А| | ] Л f ^ I /С О Л Л\ PjfJf' '^ 1Х1 ' 2ТС2 ~~Г • • • Г-"шТСщ > (О.Л44) где Яг — корни (возможно, комплексные) уравнения E.2.41). Если имеются комплексные корни, то они скомбинированы так, что в E.2.44) получаются члены вида /?l*l cos (/<& + <p*). Поэтому, во- вообще говоря, корреляционная функция pxx(k) будет содержать показательные члены и затухающие синусоидальные волны. Кон- Константы Аг в E.2.44) можно найти, решая первые т уравнений E.2.43) относительно а,, как показано ниже. 2) Непрерывный процесс. Корреляционная функция непрерыв- непрерывного процесса X(t) удовлетворяет дифференциальному уравнению du" du" Это уравнение имеет общее решение Р (и) = -я. I и | -it21 и I , , . + А2е + ... +Ате E.2.45) , E.2.46) где я, — корни уравнения E.2.42). Если имеются комплексные корни, то они скомбинированы так, что получаются члены вида Доказательство. Мы докажем упомянутое выше результаты только для дискретного случая. Если обе части равенства умножить на (Xt-h— М-)> т0 получим •••+«« (Xt-m - V) (Xt-k - v.) + Z( (Xt_k - p). Беря математическое ожидание от обеих частей, получаем + E[Zt(Xt_k-v.)]. Поскольку случайную величину Xt-h можно выразить в виде xt-h — fA= 2 hlzt-k-l и так как это выражение не содержит Zt, то E[Zt{Xt-h — и)] = Отсюда получается результат E.2.43). V 5.2. Корреляционная и ковариационная функции 207 Пример. Корреляционная функция дискретного процесса авто- авторегрессии второго порядка удовлетворяет рекуррентному урав- уравнению i9xx(k-2), k>0. E.2.47) Это уравнение имеет решение р (?) = Ay.ftl+A2i4ft|, E.2.48) где Я1, я2 — корни характеристического уравнения р2 — a,ip — а2 = = 0. Отсюда Далее, уравнение E.2.47) при k= 1 имеет вид Отсюда — а2 так как рХх @) = 1, рхх (— 1) = рхх A) • Из E.2.48) получаем Отсюда ,г*+1 и, таким образом, что согласуется с E.2.37) для Свойство дискретизации по времени. Если значения непрерыв- непрерывного процесса авторегрессии E.2.40) измерять через равные про- промежутки времени А, то получится дискретный процесс E-2.49) где zt — чисто случайный процесс. Уравнение E.2.49) представляет собой смесь дискретного процесса скользящего среднего E.2.23) и дискретного процесса авторегрессии E.2.39). Отметим интересную особенность E.2.49): в то время как исходный непрерывный про- процесс имел в качестве входа белый шум, дискретный процесс
208 Гл. 5. Введение в анализ временных рядов авторегрессии имеет в качестве входа процесс скользящего сред- среднего, порядок которого на единицу меньше порядка дифференци- дифференциального уравнения, описывающего систему. Следовательно, этот вход будет иметь ненулевые корреляции лишь для первых (т— 1) запаздываний. Результат E.2.49) получен в [8.] Общие смешанные процессы авторегрессии — скользящего сред- среднего. Более общим образом можно определить смешанный дискрет- дискретный процесс авторегрессии — скользящего среднего в виде :,_,+ . . . +P,Z<_/, E.2.50) где / не связано с т. Для стационарности требуется, чтобы корни характеристического уравнения авторегрессионной компоненты лежали внутри единичного круга. Для непрерывного времени смешанный процесс принимает вид dmX , dm~xX , а„ dt" = ъ, d!z dt1 E.2.51) Из B.3.19) следует, что условия стационарности, или устойчи- устойчивости, непрерывного процесса E.2.51) заключаются в том, что I ^ т — 1 и корни характеристического уравнения авторегрессион- авторегрессионной компоненты имеют отрицательные действительные части. Важность модели E.2.50) состоит в следующем: в то время как модель, основанная на чисто авторегрессионном процессе или на чистом процессе скользящего среднего, может потребовать боль- большого числа параметров, для смешанной модели E.2.50) их может потребоваться относительно немного. 5.2.6. Интерпретация корреляционной функции Случайный процесс называется гауссовским, или нормальным, если многомерное распределение, связанное с произвольным набо- набором значений времени, является многомерным нормальным распре- распределением. В этом случае процесс полностью определяется своим средним значением, дисперсией и корреляционной функцией. Од- Однако существует обширный класс негауссовских процессов, имею- имеющих ту же самую корреляционную функцию, что и заданный гаус- совский процесс, но заметно отличающихся от него в других отно- отношениях. Например, в разд. 5.2.4 было показано, что модель E.2.24) приводит к показательной корреляционной функции Рхх(и) =е~ . Если входной процесс системы первого порядка 5.2. Корреляционная и ковариационная функции 209 E.2.24) является нормальным, то можно показать, что выход так- также будет нормальным и, таким образом, полностью задается своей корреляционной функцией. Сейчас мы построим другой процесс, имеющий показательную корреляционную функцию, но в других отношениях сильно отли- отличающийся от нормального процесса. Этот процесс называется слу- случайным телеграфным сигналом и описан в [9]. Альфа-частицы ра- радиоактивного источника служат для запуска триггерного устрой- устройства, принимающего попеременно значения +1 и —1. Моменты tu + 1 -I Рис. 5.10. Реализация случайного телеграфного сигнала. в которые происходят изменения процесса, образуют пуассоновский процесс с параметром к, так что типичная реализация процесса могла бы быть такой, как показано на рис. 5.10. Предполагая, что процесс начался при t = —оо, мы получим Рг = 1} = Рг =-1} =4"- откуда E[X(t)] = 0. Следовательно, ковариационная функция равна 1 X Рг {четное число изменений в (t, t + u)}, — 1 X Рг{нечетное число измене- изменений в (t, где k\
210 Гл. 5. Введение в анализ временных рядов Просуммировав эти ряды, получим е\\ а | , е-\\ и | TvyW==< еМ и I _ е-\\ а | 2 ¦]- Г -.- 5.3. Оценивание ковариационных функций 211 автоковариационной функции, а в разд. 5.3.3 выводятся их выбо- выборочные свойства. Разд. 5.3.4 и 5.3.5 состоят из обсуждения некото- некоторых практических вопросов, возникающих при оценивании автоко- автоковариационной функции. так как ухх(О) = 1. Если Л, = 772, то эта функция совпадает с кор- корреляционной функцией E.2.25). Так как распределение X(t) со- сосредоточено в двух точках ±1, поведение этого процесса заметно- отличается от нормального с той же самой корреляционной функ- функцией. В действительности такие негауссовские процессы нужно описывать с помощью их старших моментов Важность этого раздела для эмпирического анализа времен- временных рядов заключается в том, что при интерпретации корреляцион- корреляционной функции (и, как мы увидим ниже, соответствующего спектра) необходима определенная осторожность в случае, если процесс негауссовский. Может, однако, оказаться, что после некоторого преобразования, основанного на эмпирической плотности вероят- вероятности, распределение будет более близким к нормальному. Напри- Например, неотрицательная величина, такая, как температура или давле- давление, возможно, стала бы более близкой к нормальной, если бы был использован логарифмический масштаб. Заметим, однако, что если даже такое преобразование и приближает одномерную плотность к нормальной, оно не обязательно оказывает такое же действие и на многомерные распределения. 5.3. ОЦЕНИВАНИЕ КОВАРИАЦИОННЫХ ФУНКЦИЙ В разд. 5.1.5 было показано, что обладающую наименьшей среднеквадратичной ошибкой оценку функции отклика некоторой системы на единичный импульс можно было бы выразить через ковариационные функции входа и выхода. На практике невоз- невозможно знать эти ковариационные функции точно, и, следова- следовательно, необходимо оценивать их по записям конечной длины. В разд. 5.3.1 будут выведены выборочные оценки наименьших квадратов для функции отклика на единичный импульс в случае, когда в распоряжении имеются конечные записи входа и выхода. Будет показано, что результаты получаются аналогичные тем, которые были выведены в разд. 5.1.5, стой разницей, что теоретичес- теоретические ковариационные функции заменяются их выборочными оцен- оценками. Кроме того, будет показано, что этот подход приводит к вы- вычислению по данным таких функций, которые являются естествен- естественными выборочными оценками авто- и взаимных ковариационных функций. В разд. 5.3.2 определяются другие выборочные оценки 5.3.1. Анализ систем методом наименьших квадратов Предположим, что вместо случайных процессов X(t) и Y(t), яв- являющихся входом и выходом системы на рис. 5.7, имеются лишь реализации конечной длины Т. Тогда модель E.1.10) можно пере- переписать в виде 00 _P = J А (и) [x(t-u)-x]du E.3.1) С где х, у — выборочные средние, например т х = -у- J х (t) dt. Если предположить, что Z(t) — белый шум, то для непрерывного времени выборочная оценка наименьших квадратов для функции h(u) получается с помощью минимизации интеграла от квадрата ошибки: -u) — x\du\ dt. E.3.2) Если быть более точным, следовало бы оценить и параметр \iY, входящий в E.1.10). Однако с высокой степенью точности он будет равен величине у, и поэтому для облегчения изложения мы заме- заменим |яу на у до минимизации по функции h(u). Ясно, что h(u) можно оценить лишь для 0 ^ и ^ Т, но на практике h(и) затухает на довольно коротком участке записи по сравнению со всей длиной. Таким образом, обычно интересуются оценкой h(u) в интервале 0 ^ и ^ То, где Го значительно меньше, чем Т. Заметим, что, хотя x(t) является реализацией случайного процесса X(t), принцип наименьших квадратов все же применим, если рассматривать x{t) как фиксированную функцию. Как отме- отмечалось в разд. 4.4.4, знание совместного распределения случайных величин X(t) не дает ничего для оценивания h{u)*\ *> См. примечание переводчика на стр. 154. — Прим. ред.
212 Гл. 5. Введение в анализ временных рядов Поступая, как и в разд. 5.1.5, величину 5 можно разложить сле- следующим образом: Т Т Г со ч [y{t)-y}^ [x(t-u)-x]h(u)du\ dt-\- о I о j Т ( оо + j j j [х (t - и) - х] [х (t - v) - х] А (и) /г (v) du dv dt. о lo о j Меняя порядок интегрирования, получаем Т оо 1 Т 5 = j [у @ - yfdt - 2Т j Л (в) U- I Uit - а) - х] X о о { о X[x(t — v) — x] dt du dv. T ±r$ [x(t-u)-x]x E.3.3) Сравнивая E.3.3) и E.1.12), мы видим, что в E.3.3) член т аналогичен в E.1.12) члену Е [(X (*-«)- рх) (V @ - ^)] = Ьу (и). Это наводит на мысль определить выборочную оценку взаимной ковариационной функции следующим образом: т («) = -j- j [хV - и) - х] [у@ - у] dt, -Г<и<Г. E.3.4) сху(«) = Аналогично выборочная оценка автоковариационной функции оп- определяется равенством т /у / if \ _. ___^^ I I у* | Г 1 V I I V* i f I ff \ ^* I rJ J. 0 r-|u| так как x{t) =0 для ^<0, t>T. E.3.5) 5.3. Оценивание ковариационных функций 213 Равенство E.3.3) можно переписать в следующей форме: оо оо со S = Tcyy@)-2T j h(u)cxy(u)du-\-T j j cxx{u-v)h{u)h(v) о о E.3.6) которая соответствует E.1.12). Таким образом, интеграл от квад- квадрата ошибки полностью определяется, если даны выборочные оценки ковариационных функций и отклик на единичный имнульс h(u), точно так же как среднеквадратичная ошибка определялась полностью теоретическими ковариационными функциями и откли- откликом на единичный импульс. Заметим, однако, что, в то время как в подходе со среднеквадратичной ошибкой требовалась стационар- стационарность процесов X(t) и Y(t), метод наименьших квадратов не за- зависит от этого предположения. Функции x(t) и y(t) могут быть реализациями нестационарных случайных процессов. После того как 5 выражена через выборочные оценки ковариа- ковариационных функций или выборочные ковариационные функции, выбо- л. рочная оценка наименьших квадратов h(и) получается с помощью вариационного исчисления, как описано в приложении П.5.1. Там показано, что h(и) должна удовлетворять интегральному уравне- уравнению сху (и) = I схх (и — г») А (у) dv, О, E.3.7) которое в точности совпадает с интегральным уравнением Вине- Винера—Хопфа E.1.13), с тем лишь отличием, что функции уХх, Ухг заменены на сХх, сху. Как и прежде, для физической реализуемости h(v) нужно, чтобы h(v) =0 при v<0. 5.3.2. Выборочные ковариационные функции В предыдущем разделе мы видели, что выборочная ковариаци- ковариационная функция схх(и) появилась совершенно естественно в каче- качестве выборочной оценки теоретической ковариационной функции Ухх(и). Оценку, соответствующую E.3.5), можно записать в виде 0, Т-\ и\ E.3.8)-
¦214 Гл. 5. Введение в анализ временных рядов где явно подчеркнут тот факт, что д;(/) = 0 вне @, 7"). Другой оцен- оценкой, которая также широко используется, является с хх (и) = т — О, г—|«| _ _ [X(f)-X][X(t + \u\)-X]dt. 0<[и|<7\ |и|>7\ E.3.9) Оценки схх(и) и с'хх (и), широко использующиеся главным обра- образом в статистических работах, выбраны по интуиции, а не из-за того, что они являются наилучшими в каком-нибудь известном смысле. Конечно, в идеальном случае при выборе оценки ковариационной функции нужно было бы выписать функцию правдоподобия на- наблюденного временного ряда. Дифференцируя эту функцию прав- правдоподобия, мы получили бы систему уравнений для выборочных оценок максимального правдоподобия этих ковариаций. Предпола- Предполагая, что плотность вероятности нормальная, нетрудно выписать функцию правдоподобия, но, к сожалению, полученные в резуль- результате дифференцирования уравнения поддаются решению лишь с большим трудом. Таким образом, приходится пользоваться та- такими оценками, как схх(и) и с'хх (и), которые, как допускается многими, основаны на интуиции. Однако эти оценки можно срав- сравнить, пользуясь некоторым критерием, таким, как минимальная ¦среднеквадратичная ошибка, и затем выбрать наилучшую из до- доступных оценок. Такой подход принят нами в следующем разделе. 5.3.3. Свойства оценок ковариационных функций Сейчас мы выведем свойства оценок ковариационных функций схх(и} и с'хх (")' связанные с первым и вторым моментами, пред- предполагая, что сигнал x(t) @ ^ t ^ 7") является реализацией ста- стационарного случайного процесса X(t), обладающего следующими свойствами: E[X(t)]=0, Cov [X (t), X(t + u)]= чхх (и), Cov [X (f) X (t + uj, X (v) X (v + E.3.10) E.3.11) Функция Kl(v — t, «i, uz) в E.3.12) является четвертым совмест- совместным кумулянтом случайного процесса X(t), так что для нормаль- нормального процесса 7D = 0. Для других процессов можно показать [8], что при выводе свойств оценок ковариаций вкладом этого члена 'Ж ¦Г 5.3. Оценивание ковариационных функций 215 можно пренебречь. Поэтому далее мы отбросим этот член. Заме- Заметим также, что сейчас предполагается E[X(t)] = 0. Эффекты, воз- возникающие, когда допускается ненулевое среднее значение, обсуж- обсуждаются лишь вкратце. Среднее значение оценок ковариаций. Используя E.3.11), полу- получаем среднее значение оценки ковариаций E.3.8) Г-|н| Т r-J"l 1 \± j Отсюда E.3.13) :т, Аналогично О I и I ~> 7" ^u.o.it/ Таким образом, с'хх(и) является несмещенной оценкой \хх(и), в то время как сХх{и) только асимптотически несмещенная, когда длина записи Т стремится к бесконечности. Однако ниже будет показано, что смещенная оценка имеет меньшую среднеквадратич- среднеквадратичную ошибку. Ковариация оценок ковариаций. Свойства оценок сХх(и) и с' (и), связанные со вторыми моментами, можно вывести, исполь- используя E.3.12), где мы отбросим член Кь. Подробный вывод этого результата с объяснением всех приближений дан в приложении П9.1 *'. Здесь дается лишь краткий набросок вывода и результаты иллюстрируются примерами. Ковариация двух оценок**) Cxx(ui) и схх(и2), где аргументами взяты запаздывания п\ и и2 (причем предполагается равна г т-и, *) Во второй части книги. — Прим. перев. **) Результаты для оценок с'хх(«0 и с'хх () получаются из результа- результатов для cXx(«i) и сХх("г) с помощью замены Г на Г— |ы, | и Т — \щ{, в знаменателе за знаком интеграла.
216 Гл. 5. Введение в анализ временных рядов Т — щ  Т — щ Т — щ 4- J X(v)X(v + u2)dv =4г J J о J о о E.3.15) {Условие «2 ^= Mi ^= 0 не является никоим образом ограничитель- ограничительным, как показано в приложении П9.1.) Подставляя E.3.12) в ин- геграл E.3.15), получим Т — щ Т — щ Cov [схх(и,), схх(и2)] =^- ( J [тхх(¦*> - t) тхх (х» — о о Замена переменных у — t = r, t = s преобразует область интег- интегрирования из квадрата на плоскости (/, о) в параллелограмм на плоскости (г, s), как показано на рис. 5.11. После этого интегри- интегрирование в E.3.16) сводится к Г-и2 Cov[cxx(«,), cxx(u2)\=~ j [тхх('")Тхх('' + и2-и1) + — (Т — щ) + Ьх (г + «2) Тхх (г - «,)] dr j ds, E.3.17) где пределы интегрирования определяются из параллелограмма на рис. 5.11. Так как подынтегральное выражение не зависит от s, интегрирование по s дает длину ф(г) отрезка на высоте г, а именно E.3.18) T — м2 — г, ср(г) = \ Т — и2, — (и2 — н,)<г^О, Т — м,+г, — (Г —н,)<г< — Поэтому из E.3.17) и E.3.18) получаем Cov Т-щ = -V J *< -(Г-в,) Результат E.3.19) является точным. Первоначально он был полу- получен в [8]. При U\ — Ui E.3.19) приводится к симметричной форме Т-и Var = -?- j (r-«-|r|)X - (Г-и) X E.3.20) 5.3. Оценивание ковариационных функций 217 Для несмещенной оценки с'хх{и) результат, соответствующий E.3.20), выглядит следующим образом: \ Т — и X (T_\u]J (г) + 1Хх + м) Ъх (г - Щ dr- E-3-21) Равенство E.3.19) показывает, что в общем случае соседние значе- значения оценок ковариационных функций будут сильно коррелиро- j 2 Ь ~ 1 Рис. 5.11. Области интегрирования для вычисления ковариационной функции. ваны, и, следовательно, выборочные ковариационные функции не всегда затухают с такой же быстротой, как их математические ожидания. Этот эффект проиллюстрирован в разд. 5.3.5. Одно полезное приближение. Вычисление ковариации по фор- формуле E.3.19) обычно очень трудно проводить, если только не сде- сделать простых предположений о форме ковариационных функций. Одно полезное приближение для больших Т предложено в [8]. Оно связано с тем, что lim {7"Cov[cxx(«i)> cx T-t-oo = I Ь хх (г + п2 ~ «О + Тхх(г «г)Ixx(r ~ «i)J dr
218 Гл. 5. Введение в анализ временных рядов и, следовательно, для больших Т Cov[cxx(«,), оо _{ х (г + «2 - «,) + Тхх (г + и2) 7ХХ (г - «,)] dr. E.3.22) Пример. Рассмотрим непрерывный процесс авторегрессии пер- первого порядка, у которого ухх(и) =o2xe~^ul (эта функция обсуж- обсуждалась в разд. 5.2.4). Подставляя эту уХх(и) в E.3.20), получаем Уаг[схх(и)] = где а = 2кТ, у = и/Т (этот результат приведен в [9]). ' ( E.3.23) у ( ру р [] Точный результат для несмещенной оценки с'хх (и) можно по- получить, подставляя (Т— |«|) вместо Гза знаком скобок в E.3.23). Приближение E.3.22) для оценки Схх(и) сводится к отбрасыва- отбрасыванию членов порядка 1/Г2, в результате чего получаем Var [схх (и)] E.3.24) Дисперсии двух оценок схх(и) и с'хх(и) в зависимости от за- запаздывания и изображены на рис. 5.12 для случая А,Г = 2,5. Видно, что эти дисперсии совпадают при и = 0, но при и-*-Т дисперсия смещенной оценки стремится к нулю, в то время как дисперсия не- несмещенной оценки стремится к бесконечности. Именно это свойство несмещенной оценки с'хх (и) и делает ее такой неудоб- неудобной. Среднеквадратичная ошибка оценок ковариаций. Для того, чтобы сравнение двух оценок было справедливым, нужно сравни- сравнивать их среднеквадратичные ошибки. Используя выражение D.2.12) для среднеквадратичной ошибки, а именно 5.3. Оценивание ковариационных функций |§, и выражение E.3.13), из которого можно получить смещение ; v В[схх(и)], находим среднеквадратичные ошибки смещенной и не- г, смещенной оценок: (в)] + 4 (-?-J 0,4 г Ксхх («) - Ьх Щ] = Var [схх (и)} + В- [схх (и)} Рис. 5.12. Дисперсии и среднеквадратичные ошибки оценок ковариационной функции для непрерывного процесса первого порядка. Эти среднеквадратичные ошибки показаны на рис. 5.12 вместес ди- дисперсиями для непрерывного процесса авторегрессии первого по- порядка с XT = 2,5. Мы видим, что среднеквадратичная ошибка для с'хх(и) устойчиво держится выше, чем для сХх(и) (этот резуль- результат отмечен в [10]). Мы доказали здесь это утверждение для упо- упомянутой выше ковариационной функции, однако есть предположе- предположение, что оно справедливо и для большинства других ковариацион- ковариационных функций [11].
220 Гл. 5. Введение в анализ временных рядов 5.3. Оценивание ковариационных функций 221 Эргодичность. Из E.3.13), E.3.14) и E.3.22) следует, что для больших Т математические ожидания сХх(и) и с'хх(и) равны Ухх(и), а дисперсии пропорциональны 1/7\ Следовательно, эти две оценки ковариационных функций являются асимптотически состоя- состоятельными. Таким образом, ковариационную функцию E[X(t)X{t+ + «)] процесса X(t) можно оценить с произвольно малой ошибкой с помощью единственной достаточно длинной записи. В таком слу- случае для ковариационной функции среднее по времени, взятое по одной бесконечной записи, равно среднему по ансамблю, и по- поэтому ковариационная функция называется эргодической. Во мно- многих книгах этому свойству уделяется большое внимание, но в дей- действительности оно не представляет большого физического интереса, поскольку наблюдаемые временные ряды имеют конечную, а не бесконечную длину. Поправки, возникающие из-за среднего значения. Смещение оценки ковариации E.3.8) можно получить, записывая E.3.8) в виде ^ J где Отсюда следует, что Наконец, из E.2.19) получаем так что центрирование с помощью выборочного среднего увеличи- увеличивает смещение еще больше на члены порядка 1/Г и более высо- высокого. 5.3.4. Выборочные оценки ковариации для случая дискретного времени Если наблюдения xi, x2, ..., xN получены из дискретного вре- временного ряда, то дискретная выборочная оценка, соответствующая непрерывной оценке E.3.5), равна N — к 1 ч^ч , —ч/ ~\ Ь С\ \ Л/ 1 <=1 E.3.25) N х = - является выборочным средним значением всего ряда. Приближенное значение ковариации оценок, соответствующих выборочным оценкам E.3.25), можно получить, заменяя интегралы в E.3.22) суммами, а именно Cov[cxx(k), ')T XJf xx(r-k)]. E.3.26) Выборочные оценки ковариации для данных, пропущенных че- через фильтр. Иногда бывает нужно сосчитать выборочные оценки ковариации для данных, пропущенных через фильтр. Например, может оказаться желательным устранить тренды из хи образуя новый ряд данных yt с помощью операции линейной фильтрации yl = xt~axt_l. E.3.27) Если а = \, то yt представляет собой ряд первых разностей, а если о — — 1. то yt — скользящая сумма пар первоначального ряда. Сейчас мы покажем, что выборочные оценки ковариации cyv(k) для данных, пропущенных через фильтр, можно выразить через выборочные оценки ковариации cxx(k) исходных данных. Этим до- достигается значительная экономия машинного времени. Согласно E.3.25), имеем для выборочной оценки cvy(k) после фильтрации следующее выражение: N — k = J? 2 (У/-У)(УН-*~У). E.3.28) где N ' = 77" 2 С*/ — ' -a)x. Подставляя E.3.27) в E.3.28), получаем N—k Их пг И flWl у X [xt+k-axt+k_l-(\ -a)x]) = N — k = 77" 2 [(xt-x)-a(xt_l-x)}x XT/ —\ { — \1 W t ~ь ft / \ t~\~ k—* i"~~ "^/J •
222 Гл. 5. Введение в анализ временных рядов Раскрывая это выражение, находим суу (Щ « схх (к) - асхх (А - 1) - асхх {к + 1) + аЧхХ (к) = , = -асхх {к - 1) + A + а2) схх (к) - асхх (к + 1). E.3.29) Таким образом, cyy(k) можно получить с помощью простой опе- операции линейной фильтрации, примененной к cxx(k). В качестве примера для фильтра первых разностей yt = xt — xt-i имеем суу (к)&-cxx(k-\) + 2схх(к) - схх(к + 1). E.3.30) Так что выборочные ковариаций cvv(k) первых разностей, взятых от исходных данных, равны центральным вторым разностям от вы- выборочных ковариаций cxx(k). Для операции фильтрации yt = x,— axt_i — bxt_2> E.3.31) которая может быть применена для устранения осциллирующих компонент временного ряда, выборочные ковариаций cyy(k) равны 5.3. Оценивание ковариационных функций 223 а{\ - Ь) [cxx(k - cXx{k + 1)] - + 2)\. E.3.32) Оценивание корреляционной функции. Иногда требуется срав- сравнить два временных ряда, масштабы измерения которых могут быть различными, так что больше подходят выборочные оценки корреляционных, а не ковариационных функций. Выборочные оценки корреляционных функций можно получить, разделив рас- рассмотренные выше выборочные оценки ковариаций на выборочную оценку дисперсии. Таким образом, получаем г«<*>=-й8Ь E-3-33) где Схх(к) определяются равенствами E.3.25). Еще одна выборочная оценка корреляций. Другой выборочной оценкой корреляционной функции, часто используемой статисти- статистиками, является где Xi и Х2 — средние значения первых N— k и последних N — k наблюдений соответственно, а суммирование происходит от t=\ до t = N — k. Равенство E.3.34) основано на диаграмме разброса пар (xt, xt+h) для t=\, 2, ..., N — k. Рис. 5.5, например, соответ- соответствует случаю k = \. Если предположить, что совместная плотность вероятности случайных величин Xt и Xt+h есть двумерная нормаль- нормальная плотность с коэффициентом корреляции pxx(k), то E.3.34) является выборочной оценкой максимального правдоподобия для Pxx(k) *>. Пользоваться оценкой E.3.4) не рекомендуется на том основа- основании, что хотя для отдельного значения корреляционной функции Рхх(к), рассматриваемого изолированно от других значений, она и является разумной выборочной оценкой, но ее нежелательно при- применять в случае, когда нужна совокупность выборочных оценок ГхХA), гхх('2), .... гхх(пг) для первых m корреляций р^л:A), РххB), ...,рхх(т). Основной недостаток E.3.34) состоит в том, что для коррекции среднего значения она использует две величины, которые зависят от запаздывания: в результате с изменением запаздывания k ме- меняется нормирующий множитель. Эти изменения приводят к тому, что выборочные оценки не являются положительно определенными в смысле свойства 4 из разд. 5.2.1. Это может привести к нежела- нежелательному поведению выборочных оценок спектра, которые будут рассмотрены ниже. 5.3.5. Практические аспекты оценивания ковариационных функций В разд. 5.1.5 было указано, почему нужно изучать ковариаци- ковариационные функции: во-первых, они входят в уравнения для синтеза линейных систем и, во-вторых, их можно использовать при оцени- оценивании функций отклика на единичный импульс. С более общей статистической точки зрения одна из важных причин изучения вре- временных рядов заключается в том, чтобы дать возможность постро- построить модель для лежащего в основе явления случайного процесса. Эту модель можно затем использовать для прогноза, синтеза си- систем или для других целей, таких, как имитация систем. В таких случаях эмпирический анализ ковариационной функции или спектра может дать полезные наводящие идеи относительно ¦фго, какие мо- модели должны были бы соответствовать временному ряду. Пример. Чтобы проиллюстрировать, как можно использовать корреляционную функцию для того, чтобы в сжатом виде выразить информацию, содержащуюся в исходном ряде, рассмотрим выбо- выборочную оценку корреляционной функции для данных о партиях продукта, приведенных на рис. 5.2. Первые пятнадцать значений этой оценки, полученные по формулам E.3.33) и E.3.25), даны в табл. 5.2; их график построен на рис. 5.6. Из табл. 5.2 видно, что корреляции меняют знак. Это является следствием того, что за высоким выходом продукта в одной партии следует, как правило, *) Строго говоря, для этого нужно было бы еще потребовать, чтобы пары (Xt, Xt+k) были независимы при разных t. — Прим. перев.
224 Гл. 5. Введение в анализ временных рядов пониженный выход продукта в следующей партии, и наоборот. Видно также, что корреляции почти полностью затухают, начиная с запаздывания, равного 6, и показывают последовательное ослаб- ослабление зависимости между наблюдениями при увеличении запазды- запаздывания между ними. Таблица 5.2 Первые 15 значений выборочной корреляционной функции для данных из табл. 5.1 5.3. Оценивание ковариационных функций 225 к 1 2 3 4 5 —0,39 0,30 -0,17 0,07 —0,10 k 6 7 8 9 10 rxx(k) -0,05 0,04 —0,04 -0,01 0,01 к 11 12 13 14 15 гхх(Ъ) 0,11 -0,07 0,15 0,04 —0,01 Основной механизм, порождающий этот вид корреляционной функции, хорошо известен для приведенных данных. Промышлен- Промышленная установка, на которой были получены наблюдения, представ- представляла собой дистилляционную колонку, где содержимое перегон- перегонного куба подогревалось в течение некоторого времени, и продукт перегонки накапливался и сцеживался. Во время перегонки дег- дегтеобразные остатки скапливаются в перегонном кубе и сцежива- сцеживаются в конце каждой партии. Однако это сцеживание не является полным, так что некоторое количество дегтеобразного вещества остается в перегонном кубе. Это оказывает неблагоприятное дейст- действие на выход продукта в следующей партии, так что производится меньше продукта перегонки и, следовательно, меньше остается дегтеобразных веществ. Этим объясняется отрицательная корре- корреляция между партиями. Вычислений выборочной оценки корреляционной функции. Для вычисления выборочной оценки корреляционной функции необхо- необходима вычислительная машина. Программа вычислений для этой цели описана в приложении П5.3. Однако для того, чтобы лучше понять последовательные стадии вычислений, желательно, чтобы читатель просчитал один пример на настольной счетной машине. Для иллюстрации рассмотрим вычисление гХхB) для данных о пар- партиях продукта из табл. 5.1. Выборочную оценку E.3.25) можно записать в виде IN- E.3.35) {N — к VN — k У у у -г У (У и, следовательно, большая часть времени счета идет на вычисле* N-k ние сумм сдвинутых произведений ^xtxt+h. При работе с настоль- t=i ной вычислительной машиной следует иметь в виду, что если из каждого наблюдения вычесть произвольную константу, то отклоне- отклонения xt — х не изменятся, а следовательно, и cxx(k) не изменится. Поэтому для снижения порядка чисел, которые требуется перемно- перемножить, удобно вычесть из каждого наблюдения константу, по воз- возможности близкую к среднему значению. Данные в табл. 5.1 изме- изменяются от 20 до 80. Поэтому подходящей константой для вычитания является 50. В таком случае получим 68 ... +G) (-27) = 3084. Аналогично имеем 70 68 68 2 (xt - 50) = 79, 2 (*/ ~ 5°) = 102> 2 (х< + 50) = 68. 68 42,55. Следовательно, СххB) = -jQ- [3084 - -g- A02 + 68) + Дисперсия ряда схх@) равна 139,8. Следовательно, т _ схх B) _ 42,55 _ „ •xxW— cxx{0) ~~ 139,8 — и'йи' что совпадает со вторым значением в табл. 5.2. Резюме. Ниже мы резюмируем важные моменты, на которые следует обратить внимание при оценивании корреляционной функции. а) Среднеквадратичная ошибка оценок, имеющих нормирую- нормирующий множитель 1/7", обычно меньше, чем у оценок с множителем 1/G"—и). Кроме того, первые являются положительно определен- определенными, а вторые нет. б) Необходимо провести в той или иной форме коррекцию дан- данных для исключения влияния низкочастотных трендов. В простых случаях, как, например, в E.3.25), этого можно добиться с помощью устранения постоянной составляющей. Эта коррекция среднего зна- значения сохраняет положительную определенность выборочной оцен- оценки. В других случаях, таких, как E.3.27), тренды должны устра- устраняться с помощью операции фильтрации, а автоковариации надо считать по формуле E.3.29). 8 Заказ № 1210
226 Гл. 5. Введение в анализ временных рядов в) Равенство E.3.19) показывает, что если корреляции в исход- исходном ряде достаточно сильны, то будут и сильные корреляции оде- нок автоковариаций. Выборочную ковариационную функцию, аргу- аргументом которой является запаздывание, можно рассматривать как новый временной ряд, полученный из первоначального временного ряда x(t); в таком случае E.3.19) показывает, что, вообще говоря, этот новый временной ряд будет сильнее коррелирован, чем ис- исходный. г) Одно из следствий корреляции соседних ординат оценки ко- ковариационной функции заключается в том, что ее выборочная оцен- оценка не всегда затухает так же быстро, как математическое ожида- ожидание оценки. Чтобы проиллюстрировать этот эффект, на рис. 5.13 приведена теоретическая корреляционная функция дискретного процесса авторегрессии второго порядка: У У (idV 17 /СО ОСЛ s\ , = у\ 1 . — \j,о*\ / о ~Т~ t' yo.o.ij\jJ Значения этой корреляционной функции можно получать из рекур- рекуррентного соотношения E.2.43) при т = 2, а именно Корреляционная функция представляет собой затухающую пе- периодическую функцию вида E.2.38) и имеет период, равный 8. На рис. 5.13 приведены две выборочные корреляционные функции искусственного ряда, полученного по формуле E.3.36), причем в ка- качестве Zt брались случайные нормальные числа из таблицы [7]. Верхняя функция сосчитана по 100 наблюдениям, а нижняя по 400. Характерной особенностью выборочной корреляционной функции, сосчитанной по 100 наблюдениям, являются большие осцилляции, которые сохраняются даже там, где теоретическая функция уже близка к нулю. Дело в том, что из-за большой положительной кор- корреляции соседних значений выборочных ковариаций за большим положительным значением корреляции следует, как правило, дру- другое большое положительное значение. В результате этого иска- искажается вид корреляционной функции. Выборочная корреляционная функция, сосчитанная по 400 наблюдениям, затухает быстрее, но все еще значительно отличается от теоретической корреляционной функции. Главный вывод, который следует из проведенного обсуждения, состоит в том, что иногда опасно придавать слишком большое зна- значение видимым особенностям выборочной корреляционной функ- функции, особенно сосчитанной по коротким рядам. В настоящей книге мы будем использовать корреляционную функцию главным обра- образом как промежуточную ступень при оценивании спектральной плотности, а также для получения рекомендаций при спектральном анализе. (г ~\ 1,0 r 0,5 I I..11. К =100 II. ., ¦¦ ю I 2011 ' | ' -30' 111 • 40 l.0r 0,5 N=600 ill _J.L_ «Tip го '' '.O 0,5 Теорети'ческая корреляционная функция ill. w 20 30 40 к -0,5L Р и с 5 13 Теоретическая и выборочные корреляционные функции для процесса авторегрессии второго порядка. 8*
228 Гл. 5. Введение в анализ временных рядов д) Другое следствие формулы E.3.19) состоит в том, что нельзя судить об изменчивости одиночного значения корреляции, не учи- учитывая других значений. Предположим, например, что имеется' мо- модель временного ряда и что корреляционная функция этой модели известна. В учебниках, не являющихся специально статистиче- статистическими, наблюденная и теоретическая корреляционные функции ча- часто сравниваются в предположении, что соседние точки оценки корреляционной функции независимы. Из-за сильной корреляции этих соседних значений, что видно из E.3.19), такое предположение может быть совершенно ошибочным. Для точного анализа нужно было бы при сравнении наблюденной и теоретической корреляци- корреляционных функций пользоваться совместной плотностью вероятности корреляций, хотя в таком случае это сравнение, по всей видимости, Таблица 5.3 Выборочные корреляционные функции, построенные по двум выборкам искусственного белого шума Ряд 1 к 1 2 3 4 5 6 7 8 'хх <*> 0,041 0,024 0,045 0,330 0,007 0,012 0,025 0,102 к 9 10 11 12 13 14 15 16 тхх^ -0,009 0,047 0,061 0,083 0,026 -0,030 0,019 0,099 к 17 18 19 20 21 22 23 24 гхх <*> 0,025 —0,020 0,032 0,075 —0,000 0,027 0,012 0,033 * 25 26 27 28 29 30 31 32 'хх <*> 0,010 0,029 0,011 0,068 -0,004 0,016 0,025 0,035 Ряд 2 1 2 3 4 5 6 7 8 'хх <*> -0,014 —0,008 -0,038 0,011 -0,047 —0,051 0,000 —0,041 * 9 10 11 12 13 14 15 16 гхх <*> 0,020 0,013 0,007 -0,022 0,017 —0,020 0,017 -0,047 к 17 18 19 20 21 22 23 24 гхх </;) —0,047 -0,012 0,025 0,001 0,009 0,059 0,018 0,031 к 25 26 27 28 29 30 31 32 'хх <*> 0,039 0,016 0,025 0,031 -0,071 0,040 0,012 -0,025 5.3. Оценивание ковариационных функций 229 было бы очень сложным. Когда задана параметрическая модель, гораздо лучше использовать методы правдоподобия или наимень- наименьших квадратов, которые описаны в гл. 4. Критерий для проверки гипотезы о том, что шум белый. Есть один случай, когда соседние точки выборочной корреляционной функции действительно являются некоррелированными. Это имеет место для чисто случайного временного ряда, или белого шума. В этом случае из E.3.19) следует, что при отсутствии коррекции среднего значения ковариация корреляционных оценок равна нулю. 0,2 Величина 95%-ного доверительного интервала llli ill il 1.1.1. 4 8 ' \Z ' /6 ' 20' 2Т 28^^32 f tint* t Выборочные корреляции, для которых 95%-нып ¦ 0,2 L доверительный интервал не содержит нуля Рис. 5.14. Выборочная корреляционная функция для выборки, образованной слу- случайными нормальными числами, гхх@) = 1. Коррекция среднего значения вносит в ковариацию члены порядка 1/Т2, поэтому этими членами можно пренебречь. Можно показать, {12], что, когда число членов ряда достаточно велико, допустимо считать, что rXx(k) распределено по нормальному закону с нуле- нулевым средним значением и дисперсией 1/ЛЛ В качестве примера в табл. 5.3 приведены выборочные корре- корреляционные функции, сосчитанные по случайным нормальным чис- числам, выданным вычислительной машиной. Результаты некоторого эксперимента по имитации заставили предположить, что эти числа на самом деле были очень непохожи на случайные. Поэтому были взяты массивы чисел, примерно по 1000 штук в массиве, и по ним сосчитаны выборочные корреляционные функции. Типичная такая функция, сосчитанная по 900 числам, частично приведена в табл. 5.3 под заголовком «Ряд 1». Поскольку стандартное отклонение выбо- выборочной оценки одиночного значения корреляционной функции ра- равно 1/У900 = 0.033, то 95%-ные доверительные границы для одиноч- одиночной корреляции pxx{k) приблизительно равны rxx{k) ±0,033- 1,96 =
230 Гл. 5. Введение в анализ временных рядов = rxx(k) ±0,065. 95%-ный доверительный интервал изображен ря- рядом с выборочной корреляционной функцией на рис. 5.14. Видно, что 7 из 32 доверительных интервалов не накрывают нуль. Исходя из доверительного уровня, следовало бы ожидать, что примерно 5% от общего числа доверительных интервалов, т. е. 1 или 2, не накроют нуль. На самом деле, функция на рис. 5.14 обнаруживает систематическую компоненту с периодом, равным 4, из-за несовер- несовершенства метода получения случайных нормальных чисел. Под заголовком «Ряд 2» в табл. 5.3 приведена типичная выбо- выборочная корреляционная функция, сосчитанная после того, как ме- метод получения случайных чисел был улучшен. Заметим, что лишь для рххB9) доверительный интервал не накрывает нуль. Это на- находится в согласии с гипотезой о том, что временной ряд является чисто случайным. 5.4. ОЦЕНИВАНИЕ ПАРАМЕТРОВ ЛИНЕЙНОГО ПРОЦЕССА В этом разделе мы применим методы гл. 4 к оцениванию пара- параметров процессов авторегрессии и скользящего среднего, введен- введенных в разд. 5.2. Предположим, например, что требуется подобрать авторегрессионную модель (Xt-V.) = <i1(Xi_i-V.) + ••• +«m(*,_,B-t0 + Z/ E.4.1) к наблюденному временному ряду хи х2 xN. Процедура под- подгонки состоит в следующем: 1) вынесение решения о порядке т процесса; 2) для заданного т оценивание параметров ц, ai, ..., ат. Поскольку решение о том, каков порядок т процесса, можно вынести, лишь подгоняя процессы различных порядков, сначала необходимо рассмотреть оценивание параметров. 5.4.1. Оценивание параметров авторегрессии методом максимального правдоподобия Приближенная функция правдоподобия. Предполагая, что про- процесс Zt является нормальным, можно получить логарифмическую функцию правдоподобия для фиксированного т следующим обра- образом. Во-первых, заметим, что совместную плотность вероятности случайных величин ZTO+i, Zm+2, ¦.., ZN можно записать в виде / m+l. ..., , . .., zn) = l-.r~z l-.r~z\ N-m X exp 5.4. Оценивание параметров линейного процесса 231 где E[Zt] = 0, E[Z2t] = a2z. Если перейти от переменных z к х,- со- согласно формуле E.4.1), то, учитывая, что якобиан преобразования равен единице, получим / С XN I х\ > • • •' хт) = N 1 1 E.4.2) Обозначения в левой части равенства E.4.2) подчеркивают, что оно изображает условную совместную плотность случайных вели- величин Хт+и ..., XN при условии, что величины Хи ¦ ¦., Хт фиксиро- фиксированы и равны своим выборочным значениям. Чтобы получить пол- полную плотность вероятности, нужно было бы умножить E.4.2) на ¦совместную плотность величин Xi, ..., Хт. Так как обычно т мало, результат такой «концевой поправки» будет несущественным, и, поскольку она значительно усложняет функцию правдоподобия, мы ее опустим. Если х% известны, то E.4.2) рассматривается как функция [I, аи ..., От и дает условную функцию правдоподобия этих параметров при фиксированных хи ..., хт. Логарифмическая функция правдоподобия, таким образом, равна /([л, а,, . . ., хт) = - (N - i - (N - m)lncz - N E.4.3 При оценивании параметров \х, oti, ..., ат важной величиной яв- является сумма квадратов N [С*/-P)-«1 E-4.4) Теперь выборочные оценки максимального правдоподобия, или наи- наименьших квадратов, можно получить, дифференцируя E.4.4). Рас- Рассмотрим некоторые частные случаи. Процесс авторегрессии первого порядка. Дифференцирование суммы квадратов N
232 Гл. 5. Введение в анализ временных рядов приводит к нормальным уравнениям, аналогичным тем, которые получались в разд. 4.3.3. Таким образом, имеем N где хи хг— средние арифметические первых и последних (N — 1) наблюдений соответственно. Отсюда Х2 — 1 — N 2b-1-?)b~i Г — Z N 2 E.4.5) Поскольку xi и дг2 очень близки к полному среднему х, выборочную оценку ц можно считать приближенно равной х и, следовательно,, выборочную оценку а\ — равной гхх([). Остаточную сумму квадра- / = 2 тов можно упростить, используя (П4.1.11): f \2 . E.4.6) (=2 (=2 Аппроксимируя E.4.6), точно так же как это делалось выше для cci, получаем простое выражение E.4.7) Поскольку в S(\i, ai) фактически входят (N— 1) наблюдений и две степени свободы потеряны при подгонке констант ц, ai, дисперсию процесса Zt можно оценить с помощью 2_ 1 5.4. Оценивание параметров линейного процесса 233 Используя (П4.1.15) и те же самые приближения, что и выше, по- получаем 100A — а) %-ный доверительный интервал для at: E.4.8) Процесс авторегрессии второго порядка. Выборочные оценки максимального правдоподобия можно получить, дифференцируя E.4.3) по ц, ai и аг и приравнивая эти производные нулю. Это при- приводит к уравнениям ai U2 — U, — iJ-J U<-1 — u-) = ai ^ U<-1 — i-1) + - \ч -2-tf. E.4.9) где —3 и суммирование распространяется от ? = 3 до t = N. Если заменить Xj полным средним значением х, то шесть функций от наблюдений, входящих в эти уравнения, можно объединить в пары и положить ц = х. Например, две функции 2d[xt — имеют N — 3 общих члена и отличаются только на один член в на- начале и в конце. С достаточной степенью точности их можно заме- заменить на Ncxx(\), где сХх{\) является выборочной оценкой ковариа- ции E.3.25). Тогда уравнения E.4.9) можно приближенно перепи- переписать в виде
234 Гл. 5. Введение в анализ временных рядов Отсюда, вводя выборочные оценки корреляции rxx(k) = Cxx(k)lcXx@), получаем С _ гхх(\) [\-гххB)\ --Ld) E.4.10) Используя те же самые приближения, что и выше, остаточную сумму квадратов S(\i, ai, a2) можно записать в виде Sfc а„ *2) = {N-2)[cxx@)-2,Cxx{\)~22CxxB)]. E.4.11) Остаточная дисперсия равна и имеет /V — 5 степеней свободы, так как исходное правдоподобие E.4.13) содержит N — 2 наблюдения и еще 3 степени свободы поте- потеряны при подгонке трех параметров ц, ai и а2. Снова используя то же приближение, что и в (П4.1.15), полу- получаем совместную 100A—а)%-ную доверительную область для параметров (а4, аг): (а, - а,) + 2гхх A) (а, - а,) (а2 - aj + (а2 - а2) < t — \ В качестве примера рассмотрим данные о партиях продукта, приведенные на рис. 5.2. В разд. 5.4.3 будет показано, что к этим данным вполне подходит процесс авторегрессии второго порядка. Используя значения гхх(\) и гххB) из табл. 5.2 и формулу E.4.10), получаем выборочные оценки параметров ai = —0,32 и а2=+0,18. Остаточная сумма квадратов S(ai, a2) равна 7768,5, так что s2 = = 7768,5/65=119,6. Следовательно, приближенная 95%-ная дове- доверительная область имеет вид (а, + 0,32J - 0,78 (а, + 0,32) (а2 -0,18) + (а2 - 0,18J < 0,077. На рис. 5.15 показаны линии уровня точной суммы квадратов, изо- изображенные на плоскости (аи а2) в области, где процесс стациона- стационарен. Заштрихованная область является 95%-ной доверительной областью. Видно, что она лежит целиком внутри области стацио- стационарности. 5.4. Оценивание параметров линейного процесса 235 Общий процесс авторегрессии. Действуя так же, как и выше, уравнения правдоподобия можно приближенно записать в виде CxxU)=*iCxxV - 1) + WxxU - 2)+ ... + amcxx{J - m), E.4.12) где /=1, 2, ..., /га. Аналогично для остаточной суммы квадратов получаем приближенное выражение a,, .... am) = 95%-ная доверительная область E.4.13) -1,0 Рис. 5.15. Линии уровня суммы квадратов для процесса авторегрессии второго порядка, подобранного к данным о партиях продукта, изображенным на рис. 5.2. Из E.4.13) получаем приближенную выборочную оценку остаточ- остаточной дисперсии s^= ЛГ-2/И-1 S\P> ai aJ • Наконец, используя (П4.1.15), можно написать приближенную до- доверительную область в матричных обозначениях (а- а) С (а- а) N где а' = (аь а2, ..., ат) и С = '" f /1 ч 2щ — 1 J т. N — 2m — \\l °v t с,,0) • • • схх{т— 1)\ схх@) ... схх(т — 2) * \схх (/га - 1) схх{т-2) ... схх @) /
236 Гл. 5. Введение в анализ временных рядов 5.4.2. Выборочные оценки среднего правдоподобия для параметров авторегрессии Так как функция правдоподобия E.4.2) является с точностью до множителя многомерной нормальной плотностью, то с первого взгляда могло бы показаться, что ее можно адекватно описать с по- помощью средних значений и ковариаций, как указано в разд. 4.4.1. Однако если выборочные оценки максимального правдоподобия ле- лежат близко к границам области стационарности, то функция пра- правдоподобия обрезается и требуется другой подход. Выборочные оценки среднего правдоподобия для процесса ав- авторегрессии первого порядка. Для иллюстрации рассмотрим про- процесс авторегрессии первого порядка с нулевым средним значе- значением Функцию правдоподобия E.4.2) можно в этом случае записать в виде L(*1\x1) = Klexp\ - E.4.14) где N а, = 1 N E.4.15) является выборочной оценкой максимального правдоподобия для а4. Отсюда видно, что при условии, если 02Z известна, функция пра- правдоподобия является с точностью до постоянного множителя нор- нормальной со средним значением ai и дисперсией 4 N s t — 2 Описание функции правдоподобия E.4.14) с помощью ее сред- среднего значения и дисперсии было бы адекватным при условии, что область изменения ai была бы от —оо до +оо. Однако в силу того, что модель является стационарной лишь для |ai|<l, при описа- описании с помощью нормальной плотности возникают трудности, когда функция правдоподобия имеет максимум вблизи |ai| =1. В таком случае функция правдоподобия резко отсекалась бы в одной из 5.4. Оценивание параметров линейного процесса 237 точек a4= I, ai =— 1, так что аппроксимация с помощью нормаль- нормального распределения была бы несправедливой. Методы преобразования правдоподобий, обсуждавшиеся в разд. 4.4.5, также неприменимы, так как не существует преобра- преобразования, дающего нормальное распределение, если функция прав- правдоподобия заканчивается ненулевым значением. В этом случае наилучший снособ состоит в вычислении выборочной оценки сред- среднего правдоподобия в интервале (—1, 1), определяемой равенст- равенством Подставляя сюда L(ai) из E.4.14), получаем a, =a, — E.4.16) где f(x) и F(x)—нормальная плотность вероятности и нормаль- нормальная функция распределения соответственно, а,\ — выборочная оцен- оценка максимального правдоподобия и a) i 1 ; \ — 1 — ai Если a2z неизвестна, то маргинальное правдоподобие для ai можно получить, интегрируя E.4.4) с дифференциалом d(a2 )/a2 , как ука- Z Z зывалось в разд. 4.4.6. Можно проверить, что после такого интегри- интегрирования получается следующее маргинальное правдоподобие для N (N-2)sl+ 1- (ЛГ~1)/2 E.4.17) Случайная величина, соответствующая E.4.17), имеет с точно- точностью до постоянного множителя ^-распределение с (NT — 2) сте- степенями свободы. Величина s2 в E.4.17) является обычной выбороч- выборочной оценкой a2z, полученной по остаточной сумме квадратов, а именно (=2 -2 2 2 (=2 Можно проверить, что и теперь выборочная оценка среднего пра- правдоподобия задается формулой E.4.16), но при этом а2
238 Гл. 5. Введение в анализ временных рядов заменяется на s2, a f(x) и F(x) относятся к /-распределению с (N—2) степенями свободы. Предположим, например, что из временного ряда длины N = 20 мы получили значения szz =1,44, ?,x2ti =64, 0^ = 0,9. Тогда марги- маргинальная функция правдоподобия для ai представляет собой усечен- усеченное /-распределение, как показано на рис. 5.16. Используя E.4.16), 1,0 Q,8 _ 0,6 0.4 0,2 i i t - - - - - i -0,6 -0,4 -0,Z 0 0,2 Ofi 0,6 0,8 1,0 Рис. 5.16. Маргинальная функция правдоподобия для процесса авторегрессии первого порядка. где f(x) и F(x) относятся к /-распределению с 18 степенями сво- свободы, получаем, что выборочная оценка среднего правдоподобия ai = 0,86. Заметим, что операция усреднения правдоподобия ото- отодвинула выборочную оценку максимального правдоподобия ai = = 0,9 от границы стационарности. Для простоты среднее значение \х временного ряда было поло- положено равным нулю в предыдущих рассуждениях. Можно допустить и ненулевое среднее значение, подставляя xt — [х вместо xt. Инте- Интегрирование по \i, а также по а| дает маргинальное правдоподобие для ai, которое совпадает с E.4.17), за исключением того, что л:/ Tt- 5.4. Оценивание параметров линейного процесса 239 в E.4.17) заменяется на отклонение от среднего (xt — х), a N — на >~ N — 1, т. е. |-(W-2)/2 «* /., (а,) = /С (TV - 3) S; + > I / = 2 ) U-aJ Выборочные оценки среднего правдоподобия для процесса ав- . %. торегрессии второго порядка. Рассмотрим процесс второго по- ,-'¦*' рядка: Функция правдоподобия равна {аи а2, (а, а N Интегрируя по |х, получаем с точностью до малых «концевых» по правок \a.x, a2, 1 1 N UZ t = 3 \ ( \ -<h(x,-2-x)]2\. E.4.19) Следующее интегрирование с дифференциалом d(o2z)/o2z дает со- совместное правдоподобие для ось «?,: = К — М2 -(ЛГ-3)/2 . E.4.20) В случае когда 95%-ная доверительная область лежит полностью в области стационарности, как, например, на рис. 5.15, функция правдоподобия адекватно описывается своими средними значения- значениями и ковариациями. Если же выборочные оценки максимального правдоподобия лежат близко к границе стационарности, то един- единственный надежный метод заключается в нанесении линий уровня
240 Гл. 5. Введение в анализ временных рядов правдоподобия. Вместо оценок максимального правдоподобия в этом случае лучше вычислить выборочные оценки среднего пра- правдоподобия. Впрочем, сначала удобно сделать преобразование 1 — ( Ъ = а2- E.4.21) С помощью E.4.20) можно проверить, что в окрестности макси- максимума правдоподобия и, следовательно, параметры q>i и ср2 ортогональны. Преобразование E.4.21) переводит треугольную область ста- стационарности в квадратную область | ср11 < 1, |фг1 < 1. Теперь мо- можно получить численным методом выборочные оценки среднего правдоподобия, например 1 1 —1 -1 b <р2) —l —l где [U/- ¦«) - ?i 0 — \12 - (ЛГ-3)/2 Выборочные оценки среднего правдоподобия для ai и а2 можно за- затем получить из ф1 и ф2 с помощью обратного преобразования а, =ф, (l — 92), а2 = ср2. 5.4.3. Определение порядка процесса авторегрессии В этом разделе рассматривается задача определения порядка m процесса авторегрессии. Простой метод основан на том, что если в подбираемой модели E.4.1) взято недостаточное число членов, то выборочная оценка дисперсии a2z будет завышена за счет тех чле- членов, которые еще не включены в модель. Лишь когда правильное число членов включено в модель, получается правильная оценка i 5.4. Оценивание параметров линейного процесса 241 Это наводит на мысль о том, что если выборочную оценку " "<' ¦ • •> Я») остаточной дисперсии построить в зависимости от т, то кривая бу- будет иметь минимум или станет пологой в точке, соответствующей правильной степени процесса. На рис. 5.17 показан график sz(m) в зависимости от m для данных о партиях продукта, изображенных Ш) 10 Рис. 5.17. Остаточные дисперсии для моделей авторегрессии, подобранных к дан- данным о партиях продукта, изображенным на рис. 5.2. на рис. 5.2. Видно, что кривая становится пологой около т = 2 и 3. Значит, для этих данных подошел бы процесс авторегрессии вто- второго или третьего порядка. Частная корреляционная функция. Один из недостатков метода, основанного на s2 (m), состоит в том, что он не всегда может уве- уверенно указывать, какое требуется значение т. Например, доста- достаточно ли уменьшение s2 (т) на рис. 5.17 при переходе от т = 2 к т = 3, чтобы гарантировать справедливость модели третьего по- порядка? Более чувствительный критерий получается с помощью определения для каждого значения га выборочной оценки ят = ат
242 Гл. 5. Введение в анализ временных рядов последнего коэффициента ат в подбираемой модели, а также до- доверительной области для него, как это делалось в разд. 5.4.1. По причинам, которые будут объяснены в гл. 11, график лт в зависи- зависимости от т называется частной корреляционной функцией. Исполь- Используя результаты разд. 5.4.1, можно выписать следующие прибли- приближенные выражения для первых двух значений ято: ~ _ „ч ~ . ',rB)-'-LO> Для интерпретации значения л2 мы напомним, что если процесс имеет первый порядок, то теоретические корреляции удовлетворяют уравнению рххB) = 9гхх(\) и, следовательно, теоретическое значе- значение я2 равно нулю. Если процесс имеет второй порядок, то л2 из- измеряет избыток корреляции в рххB), который можно было бы ожидать сверх корреляции, соответствующей процессу первого по- порядка. Другая интерпретация я2 получается, если выразить остаточную сумму квадратов через частные корреляции. Таким образом, для процесса первого порядка из E.4.7) получаем, что остаточная сум- сумма квадратов равна Следовательно, множитель A—л2) показывает, во сколько раз уменьшается сумма квадратов за счет подгонки процесса первого порядка. Аналогично остаточную сумму квадратов E.4.11) можно записать в виде а„ а2) «*(N - 2) схх@) (l - Следовательно, A—я2) дает дополнительный уменьшающий мно- множитель для суммы квадратов, получающийся за счет увеличения порядка модели до второго. На рис. 5.18 показана частная корреляционная функция для данных о партиях продукта, изображенных на рис. 5.2. Довери- Доверительные интервалы с уровнем доверия 95% на рис. 5.18 центриро- центрированы около нуля, чтобы выделить те коэффициенты, которые можно считать отличными от нуля. Видно, что я4 лежит вне этой полосы, я2 лежит вблизи границы, а значения ят при m > 2 лежат глубоко внутри полосы. Это указывает на то, что для описания этих данных подходящим является процесс первого порядка, а не третьего, как 5.4. Оценивание параметров линейного процесса 243 это следовало из рис. 5.17. Однако, учитывая, что я2 лежит вблизи границы доверительного интервала и что s2 B) значительно меньше, чем s2(l), как видно из рис. 5.17, можно заключить, что для пра- правильного соответствия этим данным требуется модель второго по- порядка 0,3 0,2 0,1 95%-ные доверительные пределы 8 10 т -0,1 -0,2 95%-ные доверительные предёш -0,ц Рис. 5.18. Частные корреляции для данных о партиях продукта, изображенных на рис. 5.2. 5.4.4. Оценивание параметров процесса скользящего среднего Первый вопрос, который надо решить при подборе процесса скользящего среднего *, = ,i + Z, + p1Z,_1+ ... +&Z,_lf E.4.22) заключается в выборе подходящего порядка модели /. Метод ана- анализа здесь более сложный, чем для процесса авторегрессии, и ради простоты приходится определять наилучшее значение / по выбороч- выборочной оценке остаточной дисперсии s2 (/). Это происходит из-за того, что трудно в явном виде выписать функцию правдоподобия про- процесса E.4.22), хотя для частного случая это было сделано в [13]. Впрочем, можно использовать простые численные способы для
244 Гл. 5. Введение в анализ временных рядов рекуррентного вычисления логарифмической функции правдоподо- правдоподобия [1]. Для иллюстрации этого подхода рассмотрим процесс скользя- скользящего среднего первого порядка A-^p + Zf + ftZ,.,. E.4.23) При заданных значениях ц и Pi равенство E.4.23) можпо использо- использовать для получения последовательности zt из наблюденных значе- значений xt. Так как E[Zt] = 0, то разумным начальным значением яв- является zo = O. Отсюда получаем г, = хх — \!., z2 = х2 — |а — %zt и т. д. Следовательно, нетрудно получить сумму квадратов N ?,)== 2 г?, соответствующую заданным (ц, Pi). Затем можно построить по- поверхность суммы квадратов для сетки значений \х и Pi и наметить контуры постоянного уровня. Если обозначить наименьшее для данного / значение через S(n, рь ..., р(), то для выбора наилуч- наилучшего значения / можно воспользоваться величинами s* @ = м 1\, л. и ¦ E.4.24) На рис. 5.19 показана остаточная дисперсия E.4.24) для данных о партиях продукта, изображенных на рис. 5.2. Видно, что s2(l) выравнивается при 1 = 2 и затем проявляет заметное уменьшение при / = 8. Поэтому необходим процесс скользящего среднего вось- восьмого порядка, чтобы получить приблизительно такое же согласие с данными, что и у процесса авторегрессии второго порядка. Ясно, что более простой процесс авторегрессии является и более реали- реалистичной моделью. Поскольку трудно выписать в явном виде сумму квадратов, приходится рассмотреть и другой способ получения доверительных областей. Если контуры линий уровня суммы квадратов построены, то доверительную область можно получить, выбирая согласно (П4.1.17) тот контур, для которого X X [l l\\ N _\t\ ,_/_,(! —«)]. E.4.25) Для иллюстрации равенства E.4.25) с помощью случайных гаус- совских чисел было получено 50 членов процесса 130 110 100 ц в 10 Рис 519 Остаточные дисперсии для моделей скользящего среднего, подобран- подобранных к данным о партиях продукта, изображенным на рис. 5.2. Рис 5.20. Линии уровня суммы квадратов для процесса скользящего среднего первого порядка.
246 Гл. 5. Введение в анализ временных рядов На рис. 5.20 на плоскости (ц, р4) показаны линии уровня суммы квадратов, вычисленной по этим данным. Выборочные оценки наименьших квадратов для ц и pt равны |л = 4,90 и Pi = 0,35, j (j, p4) =38,91. Отсюда с помощью E.4.25) получаем 95%-ный контур; 38,91 C,20)] 44,1. Отметим, что начальные значения 2l_,, ..., 2о также можно варьи- варьировать, а поверхность суммы квадратов можно строить в зависи- зависимости и от 2i_,, ..., го, рассматриваемых как параметры Однако получаемые результаты обычно не оправдывают возникающих при этом усложнений *). /* а *'ПосколькУ Ддя процессов скользящего среднего конечного порядка (ЬА.22) условие стационарности не накладывает никаких ограничений на коэф- ТоТаЖшшри '' г имеется некоторая неоднозначность при оценивании этих коэффициентов. Спектральная плотность процесса E.4.22) равна ! 1 ххх' = 4 1, ai = a2= ... am=0). Обозначим hp+ + hP чеРез bl b>- Если заменить любой набор из этих корней 6Л] bhf на ком- комплексно-сопряженные обратные значения 1/6^ ЦЬ*^ то коэффициенты Pi, ._ рг многочлена М(р) изменятся. Однако если одновременно заменить а\ «a «z I *fti 12 • • • • • I bkr |2, то, как легко проверить, спектральная плотность Yxx(f) не изменится. Таким образом, существует несколько различных наборов (az 6, ВЛ дающих одну и ту же функцию Г„(/). В гл. 6 станет известно, что ковариа- ковариационная функция стационарного процесса является преобразованием Фурье ^т спектральной плотности и, таким образом, однозначно ею определяйся В свою очередь ковариационная функция гауссовского процесса (с нулевым средним значением) однозначно определяет все многомерные распределения про цесса. Таким образом, существуют различные наборы параметров (az В? V) дающие одни и те же конечномерные распределения процесса Следовательно безуспешно пытаться однозначно оценить эти параметры по реализации Если' например, потребовать, чтобы все корни многочлена М(р) лежали внутри еди НЧНГОТКоРчУнпа1тТя° Наб°Р (az' Pl Pi) и спектР будут связаны взаиТнооГно- Точно так же ради однозначности можно было бы потребовать б ГГГГйГ ЛеЖЭЛИ ВН6 еД— ( аТЬЙ 5.4. Оценивание параметров линейного процесса 247 5.4.5. Оценивание параметров смешанного процесса авторегрессии — скользящего среднего Так как при дискретизации непрерывного процесса авторегрес- авторегрессии порядка т, согласно E.2.49), получается смешанный дискрет- дискретный процесс авторегрессии — скользящего среднего, было бы есте- естественно ожидать, что смешанные модели окажутся полезными при подгонке ко многим временным рядам. Для иллюстрации того, как при этом можно построить поверхность логарифмической функции правдоподобия, рассмотрим смешанный процесс 100 т=0 т+1 Z Ц 6 В Ю Рис. 5.21. Остаточные дисперсии для смешанных моделей, подобранных к дан- данным о партиях продукта, изображенным на рис. 5.2. При фиксированных значениях параметров \х, ai, a2 и Pi последо- последовательность z можно получить из равенств Ч = (-«з — V-) — ai (*2 — Iх) — a2 (*i — p)> г4 = (х4 — {x) — a, (x3 — [x) — a2(x2 — (j.) — р,г3 и т. д. Поверхность суммы квадратов в таком случае можно пред- представить, строя N 5((а, а,, а2, !, х2, Z1=O, 22=0)= /=з
248 Гл. 5. Введение в анализ временных рядов как функцию от ц, а4, а% и |34. С помощью вычислительной машины нетрудно произвести перебор этих моделей, сначала фиксируя т — порядок процесса авторегрессии, а затем меняя /—порядок про- процесса скользящего среднего. Затем можно построить остаточную дисперсию s\(m, 1) = дг_/_2от-1 'SV- ат< ?i ?/) как функцию I и т. На рис. 5.21 показаны s2 (m, /) в зависимости от т + 1 для дан- данных о партиях продукта, изображенных на рис. 5.2. Видно, что при 1 + т< 8 наилучшее согласие получается для модели чистой авто- авторегрессии порядка 3. Основываясь на значениях остаточных дис- дисперсий, можно заключить, что наилучшее согласие с этими дан- данными достигается для модели авторегрессии третьего порядка. Од- Однако, как показано в разд. 5.4.3, в действительности адекватной является модель авторегрессии второго порядка. ЛИТЕРАТУРА 1. Box G. E. P., Jenk i ns G. M., J. Roy. Stat. Soc, B24, 297 A962). 2. В о x G. E. P., J e nkins G. M., Bull, of I.S.I,. 24th session, Ottawa, 943 A963). 3. В о x G. E. P., Jenkins G. M., Time Series Analysis Forecasting and Control, Holden-Day, San Francisco, 1970. 4. Wiener N., The Extrapolation, Interpolation and Smoothing of Stationary Time Series with Engineering Applications, John Wiley, New York, 1949. 5. J a m e s H. M., N i с h о 1 s N. В., P h i 11 i p s R. S., Theory of Servome- chanisms, McGraw-Hill, New York, 1947. (Русский перевод: Джеймс, Ни- колье, Ф и л л и п с, Теория следящих систем, М., ИЛ, 1953.) 6. Doob J. L., Stochastic Processes, John Wiley, New York, 1953. (Русский перевод: Дуб Дж., Вероятностные процессы, М., ИЛ, 1956.) 7. W о 1 d H., Tracts for Computers, ed. K. Pearson, № 25, Cambridge, 1948. 8. В a r t 1 e 11 M. S., J. Roy. Stat. Soc, B8, 27 A946). 9. F u 11 e г А. Т., J. Electr. Contr., 4, 551 A958). 10. P a r z e n E., Technometrics, 3, 167 A961). 11. Schaerf M. G., Stanford Univ. Tech Rep., 12 A964). 12. Anders on R. L., Ann. Math. Stat, 13, 1 A942). 13. Barnard G. A., J e n k i n s Q. M, Winsten С. В, J. Roy. Stat. Soc, A125, 321 A962). ПРИЛОЖЕНИЕ П5.1 ВАРИАЦИОННОЕ ИСЧИСЛЕНИЕ Линейную систему h(и), дающую минимальную среднеквадра- среднеквадратичную ошибку E.1.12), можно найти очень просто с помощью ва- вариационного исчисления. Мы будем предполагать, что ковариаци- ковариационные функции ухх{и) и уху(и) известны для всех значений запа- запаздывания и. Прежде всего отметим, что E.1.12) можно переписать в виде оо « [Л (и)] = Чуу @) - 2 j Л (и) 1ху (и) du -f о \ h{u)h(v)ixx(u~v)dudv, (П5.1.1) о о так как единственной неизвестной функцией является h(u). Общий метод, используемый в вариационном исчислении, состоит в сле- следующем. Предполагают, что ответ известен, и затем находят усло- условия, вытекающие из того, что этот ответ правильный. Таким обра- образом, мы предположим, что конкретная функция h(u) является именно той функцией, которая минимизирует e[h(u)], т. е. [л (и)\ <е|_А(и)] для всех (П5.1.2) Далее, для любой функции h(u) = h(u) +g{u), где g(u)—произ- g(u)—произвольная функция от и, удовлетворяющая граничным условиям на h(u), мы будем иметь е \h(u) +g(u)]>e [h(u)], если g(u) не равна тождественно нулю. Вообще если Л(и) = Л(и) + bg(u), (П5.1.3) то e[h(u)] достигает минимума, когда h(u)=h(u), т. е. при 6 = 0. Выражая это условие минимума через производные, получаем дЬ - = 0 (Ь = 0), >0 (П5.1.4)
¦250 Приложение П5-1 Подставляя в нашем частном случае в (П5.1.1) вместо h(u) выра- выражение (П5.1.3), получаем оо оо + j J [Л («) + *? («)] [а (г>) + ftg (г»)] Тхх (и - «) du dv о о (П5.1.5) дЬ о о Xf хх(и — v) dudv. (П5.1.6) Приравнивая 6 = 0 в (П5.1.6) и используя первое из условий (П5.1.4), получаем со  0 J (П5.1.7) поскольку ухх (и) —четная функция, как показано в разд. 5.2.1. Так как равенство (П5.1.7) должно выполняться для любой функции g(u), то h(и) должна удовлетворять условию о (и - v) dv, и > 0. (П5.1.8) Можно проверить, что вторая производная по b в точке 6 = 0 поло- положительна, так что это решение действительно соответствует мини- минимуму. Таким образом, h(u) должна удовлетворять интегральному уравнению (П5.1.8), которое называется интегральным уравнением Винера—Хопфа. Ограничение, требующее, чтобы соотношение (П5.1.8) было верным лишь при м^0, появляется из-за условия физической реа- реализуемости фильтра, а именно h(u) =0 при и < 0. Моменты линейного процесса 251 ПРИЛОЖЕНИЕ П5.2 МОМЕНТЫ ЛИНЕЙНОГО ПРОЦЕССА Рассмотрим общий линейный процесс E.2.6), а именно АГ@ — |* = j" h(v)Z(t-v)dv, (П5.2.1) где Z(t)—белый шум, обладающий следующими свойствами: E[Z(t)]=0, (П5.2.2) Cov [Z(t), Z(t + u)\= a|3 (и), (П5.2.3) E [Z (t) Z{t + и,) Z (t + u2)] = (x38 («,) 8 («2), (П5.2.4) ? [Z (t) Z(t + щ) Z (v) Z(v + u2)] = <& [8 («,) § («2) + + 8 (v - t) Ь (v — t + м2 — ux) + 1 + К4 (Z) b(Ui)l(v-t)b(v-t + «a). (П5.2.5) Как и прежде, б (и) обозначает дельта-функцию Дирака. Сейчас мы выведем младшие моменты случайного процесса X(t), считая, что процесс Z(t) обладает указанными свойствами. Из (П5.2.1) и (П5.2.2) получаем Г? I E[X(t) — v]=:E\ h(v)Z(t — v)dv\ = Lo J oo = J h (v) E \Z {t - v)\ dv = 0. (П5.2.6) 0 Аналогично из (П5.2.1) и (П5.2.3) имеем Cov [X(t), Л" (* + «)]= Cov J h(v)Z{t-v)dv, Lo T 1 J h(v')Z(t-\-u — v')dv' = о J OO CO = j j h (v) h (v') Cov [Z (< - -и), j j — v')] dvdv' = h (v) h (v1 oo -= o| J A («) А (г» + и) </г» = TjM (и). (П5.2.7»
252 Приложение П5.2 При и = 0 это сводится к Поэтому если интеграл J h2(v)dv конечен, то X(t) является стацио- о нарным процессом второго порядка, так как ковариационная функ- функция yxx(t, t + u) зависит только от запаздывания и. Аналогично получаем Е [(X (t) - 11) (X (t + щ) - ii) (X (t + u2) - ц)] = ОО [х3 j /г (v) h (v + «i) /г (г» -f и2) ato (П5.2.8) о Cov - 1х) (А- (/ + и,) - |1). (X (v) - v) (X (v + и2) - |i)] = ОХ (« - t - и,) + А (г»') (П5.2.9) где ухх{и) дается формулой (П5.2.7). Формула (П5.2.9) использо- использована в разд. 5.3.3 при выводе выражения для ковариаций оценок ковариационной функции. Отметим, что из (П5.2.9) следует, что четвертый кумулянт про- процесса X(t) равен четвертому кумулянту процесса Z(t), умножен- умноженному на интеграл от произведения четырех весовых функций, т. е. h(v) h(v + U u2) u3)dv. Для нормального белого шума Kt(Z) тождественно равен нулю, и, следовательно, Кь(Х) также является тождественным нулем. Для негауссовского белого шума интеграл оо j Л (v) h (v -j- и,) h(v -\~ u2) h(v-\- u3) dv, о oo вообще говоря, мал по сравнению с интегралами вида Jh(v)h(v + о + «i) dv, и поэтому кумулянтным членом в (П5.2.9) можно прене- пренебречь по сравнению с членами, содержащими ухх- Это приближе- приближение используется при выводе моментов оценок выборочной кова- ковариационной функции в разд. 5.3.3. i Логическая схема программы вычисления ковариаций 253 ПРИЛОЖЕНИЕ П5.3 ЛОГИЧЕСКАЯ СХЕМА ПРОГРАММЫ ВЫЧИСЛЕНИЯ КОВАРИАЦИЙ Ниже приводится логическая схема вычислительной программы, предназначенной для обработки NS рядов, каждый из которых со- состоит из N точек*'. Программа вычисляет NS автоковариаций и NS(NS — 1) взаимных ковариаций, причем максимальное запазды- запаздывание, до которого производятся вычисления, равно МАХМ. Про- Программа также считает приближенные авто- и взаимные ковариаций для первых разностей от входных данных. Выход состоит из пе- печати всех ковариаций и разностных ковариаций, графиков всех корреляций, над которыми построены графики разностных корре- корреляций, и записанных на магнитную ленту или на перфокарты зна- значений всех ковариаций и разностных ковариаций для последую- последующего использования в спектральных программах. Печатный выход используется главным образом в качестве повторного контроля, ко- когда ковариаций являются входом для следующей программы. Программа MULTICOR 1. Считывать NS, N, МАХМ. 2. Считывать IDENT(J), X(I, J), 1 = 1, М, J = 1,NS. 3. Вычислить средние значения NS- 4. Запомнить отклонения X(I, J)-XM(J) — X(I, J). 5. Вычислить ковариаций N-k COV (К, J, L) = -i-2 x(!- J)#X K = 0, MAXM + 1; J=l, NS 6. Вычислить разностные ковариаций DCOV(K, J, L) = -COV(K-1, J. L) + 2 _COV(K + 1, J, L). K = 0, MAXM; J = l, NS; L = . L), L = l, NS. COV (K, J, L)- NS. *> Авторы используют в приложении П5.3 некоторые стандартные обозначе- обозначения и символы, употребляемые в международном алгоритмическом языке ФОРТРАН. Подробнее о ФОРТРАНе см. [11*]. — Прим. перев.
254 Приложение П5.3 7. Вывести ковариации и разностные ковариации с помощью печа- печатающего устройства и перфоратора или магнитофона. 8. Вычислить корреляции = COV(K, J, L)/J/COV@, J, J)*COV@, L, L) COR(K, J, DCOR(K, J, = DCOV(K, J, L)/KDCOV@, J, J)*DCOV@, L, L) K = 0. MAXM; J=l, NS; L=l, NS. 9. Построить графики корреляций, а над ними графики разностных корреляций. Глава б СПЕКТР В гл. 5 было показано, что стационарный случайный процесс просто описывается с помощью ковариационной функции. Точно такое же описание дается его спектром мощности, который явля- является преобразованием Фурье ковариационной функции. Спектр мощности показывает, как дисперсия случайного процесса распре- распределена по частоте. В разд. 6.1 говорится о том, что классический анализ Фурье не применим к временным рядам. Так, оценка спектра, полученная по формулам анализа Фурье, а именно выборочный спектр, обла- обладает тем нежелательным свойством, что ее дисперсия не умень- уменьшается при увеличении длины временного ряда. Поэтому для вре- временных рядов методы гл. 2 нужно видоизменить. В результате мы приходим в разд. 6.2 к такому определению спектра, которое подходит для случайных процессов. В этом разделе рассматри- рассматриваются также спектры процессов авторегрессии и скользящего среднего. В разд. 6.3 показано, что с помощью сглаживания выборочного спектра можно получить улучшенную оценку спектра. Чем сильнее сглаживание, тем меньше дисперсия этой оценки, однако при этом возрастает смещение, или систематическое искажение. Поэтому нужно выбирать некоторый компромисс между смещением и дис- дисперсией. В разд. 6.4 выводятся дальнейшие свойства сглаженных оценок, в том числе свойства, связанные с понятием ширины полосы ча- частот. Показано также, что доверительные интервалы для каждой частоты легко получить, используя логарифм выборочной оценки спектра. 6.1. ВЫБОРОЧНЫЙ СПЕКТР 6.1.1. Применение методов Фурье к временным рядам Анализ Фурье. В гл. 2 было показано, что дисперсию, или сред- среднюю мощность, сигнала x{t) на отрезке — T/2^t^T/2 можно раз- разложить на вклады от гармоник fm = m/T основной частоты fl = \/T согласно формуле 772 оо 4 = 4" 1 ^{t)dt = ^ 1*тГ F-1.1) — Г/2 т=—ао
256 Гл. 6. Спектр Xm называется комплексной амплитудой гармоники fm = mjT. Она дает амплитуды синусоидального и косинусоидального членов сиг- сигнала х(t) на частоте fm. Комплексную амплитуду можно вычислить по формуле Т/2 x{t)e-fi™"T dt, F.1.2) -Т/2 подставляя в нее ^2e//r=cos- -nmt . . 2-nmt —j. J Sin j.— Напомним, что разложение x(t) в ряд Фурье имеет вид x(t) Аналогично для дискретного сигнала, наблюдаемого в моменты времени t = —пЛ, —(п—1)А, ..., (п—1)А, среднюю мощность можно разложить на вклады конечного числа гармоник основной частоты fi=\/NA (N = 2n), а равенства, соответствующие F.1.1) и F.1.2), имеют вид л —1 л —1 •*?= 2 \Хт?> FЛ.З) N л —1 X — — Лт— м —j2xmt Д/^Д 1 и—1 xte —j2r.mt/N F.1.4) t= —n Вклад \Хт\2 в среднюю мощность на частоте fm называется интен- интенсивностью сигнала на этой частоте, а график величин |^т|2 в за- зависимости от m называется линейчатым спектром Фурье. Пример такого спектра приведен на рис. 2.2. Спектр мощности детерминированных сигналов. Главное разли- различие в анализе детерминированных и случайных сигналов выявля- выявляется как раз тогда, когда длина записи неограниченно возрастает. Во многих технических учебниках это различие не объясняется, а используются рассуждения следующего характера. Из F.1.1) дисперсия бесконечной записи равна Г/2 оо со 1 x*(t)dt=\\m ^ {T\Xm\>)±r= \v{f)df,. -Т/2 где функция F.1.5) 6.1. Выборочный спектр 257 называется «спектром мощности» Фурье. Воспользовавшись фор- формулой F.1.2), функцию Т\Хт\2 можно записать в виде 12 Г/2 -Г/2 F.1.6) Отметим, что функция Cxx(f) определена на непрерывном интер- интервале частот —оо^/^оо. Она называется выборочным спектром, или выборочной спектральной плотностью *'. Для дискретного слу- случая выборочный спектр равен л-1 t= —п ' / л-1 л —1 , cos l\t=-n xtsin 2 t=-n п- 2Д . F.1.7) Частота 1/2Д в F.1.7) называется найквистовой. Мы обсуждали ее в гл. 2; это — наивысшая из частот, которую можно обнаружить по данным, отсчитываемым через А секунд. Заметим, что если преобразование Фурье сигнала x(t) является регулярной функцией, то предел F.1.5) для Г(/) равен нулю. Это происходит потому, что если преобразование Фурье функции x(t) существует, то сама она должна стремиться к нулю при /->±оо. Однако если x(t) не затухает на бесконечности, то функция Cxx(f) будет обычно стремиться к вполне определенному пределу Г(/). Для детерминированных сигналов CXx(f) сходится к Г(/) плавно в том смысле, что функция С (/), полученная при увеличении длины записи от Т до Т', является сглаженным вариантом функ- функции Cxx(f), вычисленной по записи длины Т. В следующем разделе будет показано, что определение F.1.5) не подходит для случая, когда x(t) является реализацией случай- случайного процесса. Основное различие в анализе Фурье детерминиро- детерминированных и случайных сигналов состоит в том, что во втором случае при увеличении длины записи от Т до Т>Т функция С (/) не становится более устойчивой, т. е. Cxx(f) не сходится в каком-либо статистическом смысле к предельному значению при 7->оо. *' В оригинале sample spectrum. Более точно было бы называть функцию Cxx(f) выборочной спектральной плотностью, однако ради краткости мы будем использовать и термин «выборочный спектр» там, где это не приводит к неяс- неясности. Для дискретного времени выборочный спектр F.1.7) часто называют периодограммой. — Прим. перев. 9 Заказ № 1210
258 Гл. 6. Спектр 6.1. Выборочный спектр 259 6.1.2. Выборочный спектр белого шума Чтобы проиллюстрировать результат применения анализа Фурье к случайному процессу, был взят ряд из 400 случайных нормаль- нормальных чисел (гауссовский белый шум). Выборочный спектр Czz@ вычислялся для четырех рядов, состоящих из первых 50, 100, 200 и 400 членов соответственно. На рис. 6.1 приведены значения выбо- выборочных спектров Czz(f), сосчитанные по формуле F.1.7), на часто- частотах / = 0,02; 0,04, ..., 0,50 гц для случаев N = 50 и N = 100 при Д = = 1 сек. На рисунке изображен также теоретический спектр, кото- который, как показано в разд. 6.2.3, равен константе в интервале -72^f<V2. Как видно из рис. 6.1, функции CZz(f) сильно колеблются, и на основании этих графиков трудно предположить, что истинный спектр равен константе, т. е. что временной ряд является белым шумом. Отметим также, что отклонения Czz(f) от истинного спек- спектра для jV= 100 такие же, как и для N = 50, что указывает на от- отсутствие статистической сходимости какого-либо типа. В табл. 6.1 представлены характеристики, полученные из выбо- выборочных спектров, сосчитанных по 50, 100, 200 и 400 членам. По- Поскольку теоретический спектр равен константе, флуктуации Czz{f) можно охарактеризовать, сосчитав среднее значение, дисперсию и среднеквадратичную ошибку величин C,z(/) при изменении частоты. Видно, что для каждого из рядов среднее значение близко к еди- единице— теоретическому спектру. Следовательно, значения C2z(f) группируются около некоторой центральной величины. Однако, как видно из табл. 6.1, дисперсии не уменьшаются с ростом N, что го- говорит о том, что выборочные оценки спектра, сосчитанные по 100, 200 или 400 членам, не лучше оценки, сосчитанной по 50 членам. Таблица 6.1 Поведение выборочных спектров белого шума по мере возрастания длины записи N Среднее Дисперсия Среднеквадратичная ошибка 0 0 0 50 ,85 ,630 ,652 1 0 0 100 ,07 ,777 ,782 1 0 0 200 ,00 ,886 ,886 0 0 0 400 ,95 ,826 ,828 В гл. 4 мы видели, что хорошие оценки обладают тем свойст- свойством, что их дисперсия убывает с ростом N. Отсюда можно заклю- заключить, что Czz(/) не является хорошей выборочной оценкой спектра, по крайней мере в том виде, в каком она здесь приведена. Чтобы показать, что выборочный спектр не сходится в каком- либо статистическом смысле и для процессов, отличных от белого 1х х N=100 —— Теоретический спектр Рис. 6.1. Выборочные спектры для'первой половины (N = 50) и для всей реали- реализации (/V=100) дискретного нормального белого шума. шума, рассмотрим процесс авторегрессии, построенный по формуле E.3.36). Теоретическая корреляционная функция и соответствую' щая выборочная функция, сосчитанные по реализации из 400 чле- членов, показаны на рис. 5.13. Теоретический спектр и выборочный спектр, сосчитанные по той же самой реализации, приведены на 9*
260 Гл. 6. Спектр рис. 6.2. Как и в примере с белым шумом, выборочный спектр очень сильно колеблется и мало похож на теоретический. N=400 Теоретический спектр Рис. 6.2. Выборочный спектр для реализации процесса авторегрессии второго порядка. Резюме. Для детерминированных сигналов, спектр является пределом (в обычном математическом смысле) выборочного спектра Cxx(f) при безграничном увеличении длины записи. Од- Однако, как показывает пример с белым шумом, поведение функции 6.1. Выборочный спектр 261 Cxx(f) для временного ряда является настолько неустойчивым, что она становится бесполезной для оценивания. Основная причина, по которой анализ Фурье неприменим к временным рядам, заклю- заключается в том, что он основан на предположении, что амплитуды, частоты и фазы фиксированы. Для временных же рядов харак- характерны случайные изменения амплитуд, частот и фаз. Поэтому тот вывод, что анализ Фурье для временных рядов следует видоизме- видоизменить, учитывая их случайную природу, не является неожиданным. 6.1.3. Соотношение между выборочной спектральной плотностью и выборочной ковариационной функцией Прежде чем дать более точное определение спектра стацио- стационарного случайного процесса, мы выведем фундаментальное соот- соотношение, связывающее выборочный спектр и выборочную ковариа- ковариационную функцию. Из определения выборочного спектра F.1.6) мы имеем Г/2 Г/2 С,,(/) = + j хУ)е-*"'(Н j x(t')e+Wdt. F.1.8) -Г/2 -Т/2 При замене переменных в двойном интеграле F.1.8) область интегрирования преобразу- преобразуется так, как показано на рис. 6.3. При этом F.1.8) переходит в Cxx(f) u)dv fu du -(Г/2) -и Вводя функцию схх(и), определенную равенством E.3.5), мы по- получаем = \cxx(u)e-i2*fudu, j F.1.9) Следовательно, выборочный спектр, или выборочная спектральная плотность, является преобразованием Фурье от выборочной кова- ковариационной функции. Обратное по отношению к F.1.9) преобразо- преобразование Фурье можно записать в виде оо схх{и)= f CxAf)ei2%/udf, - F.1.10)
262 Гл. 6. Спектр откуда при и = 0 получаем оо ) = s%= \Cxx{f)df. F.1.11) Таким образом, выборочная спектральная плотность показывает, как дисперсия, или средняя мощность, сигнала x(t) распределена по частотам. т " 2 I t Т 2 Т  1 2 t 2 -Г Рис. 6.3. Преобразование координат для выборочного спектра. Для дискретного времени выборочный спектр равен N-1 ~2Д~ • -4г</< 2Д F.1.12) что соответствует формуле F.1.9). Обратное преобразование F.1.12) дает 1/24 схх(и)= 1 Cxx{f)ei2Tfu df, -ЛАД<М<УУД, F.1.13) —1/2А что соответствует формуле F.1.10). Пары преобразований Фурье F.1.9), F.1.10) и F.1.12), F.1.13) являются математическими тождествами, которые верны незави- независимо от того, является ли x(t) детерминированным сигналом или реализацией случайного процесса. В следующем разделе дается интерпретация предельного значения Cxx(f) для случая, когда x(t)—реализация стационарного случайного процесса. 6.2. Спектр 263 6.2. СПЕКТР 6.2.1. Определение спектра случайного процесса Для описания изменчивости функции Cxx(f), продемонстриро- продемонстрированной в разд. 6.1.2, необходимо рассмотреть запись x(t), —Г/2 ^ t «S Г/2, как один из многих возможных временных рядов, которые могли бы быть наблюдены, т. е. как реализацию случай- случайного процесса. Таким образом, изменчивость записи будет охарак- охарактеризована случайными величинами X(t), —Г/2 ^ t ^ Г/2, как указывалось в гл. 5. При этом выборочная спектральная плотность Cxx(f) в некоторой точке f рассматривается как реализация слу- случайной величины Cxx(f), точно так же, как схх(и) считается реа- реализацией случайной величины сХх(и) *>. Получив распределение Схх (/) или ее моменты, можно объяснить неустойчивое поведение Схх((), показанное на рис. 6.1 и 6.2. Используя F.1.9), получаем первый момент оценки, соответст- соответствующей выборочному спектру Cxx(f): т Е [Схх (/)] = j E [схх (и)} e-J2r-fu da, —т что можно с помощью E.3.13) записать в виде [Схх (/)] = j Ьх (и) (l - -^L) e~J2*fu du. F.2.1) Таким образом, F.2.1) дает среднее распределение (по всем воз- возможным временным рядам длины Г) мощности по частотам. При увеличении длины записи Г первый момент E[CXx(f)] стремится к Гхх (/) = Ит Е [Схх (/)] = f lxx (и) e~j2*fuda. F.2.2) Т -уоо Математические вопросы, связанные с этим предельным переходом, более полно обсуждаются в [1]. *' Случайная величина Cxx(f) определяется равенством :(Л = ^ 7/2 X (О e~'2T-ft dt i = f cxx (") e~>2lzfu du, — со ^ / < со. — T Авторы используют для Cxx(f) термин sample spectrum estimator, который мы будем переводить как оценка, соответствующая выборочному спектру. — Прим. первв.
264 Гл. 6. Спектр Функция Txx(f) называется спектральной плотностью *\ Ра- Равенство F.2.2) показывает, что спектральная плотность является преобразованием Фурье от ковариационной функции процесса X(t). Пользуясь табл. 2.3, получаем обратное преобразование W«) = Положив и = 0 в F.2.3), получаем F.2.3) F.2.4) Следовательно, Txx(f) показывает, как дисперсия процесса X(t) распределена по частотам аналогично тому, как F.1.9) показы- показывает, как распределена по частотам средняя мощность одной кон- конкретной реализации длины Т. В частности, вклад в дисперсию про- процесса X(t), который вносят частоты в интервале от f до f + df, равен приблизительно TXx(f)df. Отметим, что, согласно определе- определению F.1.6), Txx(f) является неотрицательной для всех /. Для дискретного времени соотношения, соответствующие F.2.1) — F.2.3), имеют вид N-1 2 k=-(N-l) F.2.5) Тхх (/) = Jim Е [Схх (/)] = Д 2 (*) е k= — °о -&¦• F-2'6) 1/B4) 'XX1 = J df, k = 0, ±1, ±2, F.2.7) Некоторые примеры. Для выяснения вопроса о том, какую ин- информацию содержат спектры, на рис. 6.4 и 6.5 показаны теорети- теоретические спектры (спектральные плотности) процессов авторегрессии *' В оригинале power spectrum. Наряду с термином «спектральная плотность» мы будем также использовать для функции Г^^(/) (там, где это не приводит к неясностям) более короткие названья «спектр» или «спектр мощности». — Прим. перев. i 100 10 o,t 0,1 0,2 0,3 0,« 0,5 Рис. 6.4. а —реализация, б — автокорреляционная функция и в — спектр дис« кретного процесса авторегрессии первого порядка (ai= -1-0,9).
0,5 Рис. 6.5. а — реализация, б — автокорреляционная функция и в — спектр дис* кретного процесса авторегрессии первого порядка (cii= —0,9). Рис. 6.6. а — реализация, б — автокорреляционная функция и в — спектр дис- дискретного процесса авторегрессии второго порядка (ai = l,0; <Ха= — 0,5).
268 Гл. 6. Спектр первого порядка и их корреляционные функции. Аналитическое вы- выражение для спектра процесса авторегрессии будет получено в разд. 6.2.5. Из рис. 6.4 видно, что, когда параметр авторегрессии cti = 0,9, ряд изменяется плавно, и это находит отражение в том, что корре- корреляционная функция плавно затухает при увеличении запаздыва- запаздывания. Соответствующий спектр принимает большие значения на низ- низких частотах и малые — на высоких частотах. Следовательно, для плавно изменяющихся рядов характерны спектры, у которых боль- большая часть мощности сосредоточена на низких частотах. Заметим, что на рис. 6.4, 6.5 и 6.6 спектры изображены в логарифмическом масштабе, детальнее показывающем их в более широком диапа- диапазоне амплитуд. Другая причина, по которой спектр лучше изобра- изображать в логарифмическом масштабе, будет указана позднее. На рис. 6.5 мы видим, что, когда cci = —0,9, ряд очень быстро осциллирует, и это находит отражение в том, что корреляционная функция меняет знак. Соответствующий спектр принимает большие значения на высоких частотах и малые—-на низких частотах. Сле- Следовательно, для быстро осциллирующих рядов характерны спек- спектры, у которых большая часть мощности сосредоточена на высо- высоких частотах. На рис. 6.6 показан процесс авторегрессии второго порядка. Как указывалось в разд. 5.2.4, соответствующий временной ряд является квазипериодическим со «средним» периодом около 8 сек. Корреляционная функция отражает это периодическое пове- поведение; она представляет собой затухающую синусоидальную волну с периодом 8 сек. Соответствующий этому случаю спектр имеет пик на частоте fо = 0,125 гц. Так как процесс X(t) не является точно периодическим, его спектр не сосредоточен на единственной частоте /о = 0,125 гц, но рассеян по всем частотам в диапазоне —0,5 ^ f ^ 0,5 гц. Впрочем, большая часть мощности сосредотсь, чена вблизи частоты fo = O,125 гц. Нормированная спектральная плотность. Иногда приходится сравнивать временные ряды, значения которых измерены в разных масштабах. В таких случаях полезно нормировать Txx(f), разде- разделив ее на дисперсию огх. Функция называется нормированной спектральной плотностью *). Из F.2.2) *> В оригинале spectral density function (спектральная плотность). В нашей литературе спектральной плотностью называют функцию Txx(f). Поэтому мы будем называть функцию Txx(f№2x нормированной спектральной плотностью или часто, ради краткости, нормированным спектром. — Прим. перев. 6.2. Спектр 269 получаем, что оо . = Г F.2.8) так что нормированная спектральная плотность является преобра- преобразованием Фурье от корреляционной функции. Далее, нормированный спектр, будучи пределом неотрицатель- неотрицательных функций, сам является неотрицательной функцией. Так как интеграл от нормированного спектра равен единице, то с матема- математической точки зрения он обладает теми же свойствами C.1.8), что и плотность вероятности. В разд. 6.3 будет показано, что аналогия между нормированным спектром и плотностью вероятности рас- распространяется и на оценивание этих двух функций по записям ко- конечной длины. Использованный в этом разделе способ определения спектра не является единственно возможным. Другой способ, основанный на собственных значениях ковариационной матрицы случайного процесса, приводится в разд. 11.1.2. Замечания относительно определений спектра, используемых в технических работах. В разд. 6.1.1 мы уже сделали несколько критических замечаний по поводу определения спектральной плот- плотности в виде Г(/)=НтС, Т -*¦ оо с (Л. которое обычно приводится в учебниках по электротехнике (см., например, [2, 3]). Возражение против такого определения состоит в том, что если x(t) —реализация стационарного случайного про- процесса, то соответствующая случайная величина CXx(f) не сходится ни в каком статистическом смысле к предельному значению. Дальнейшая путаница проистекает из-за неправильного исполь- использования фундаментального равенства F.1.9), доказанного выше. Из того, что выборочная ковариационная функция схх(и) сходится при Г->оо во вполне определенном статистическом смысле к ухх(и), делается неправильный вывод, что допустима переста- перестановка интегрирования и перехода к пределу Г оо lim C,,(/)= j Ит схАи)е-*"иаи= j тхх («) еЧ2%/и da = Г (/). Г-*оо _j- Г->оо _оо В разд. 5.3.3 было показано, что среднеквадратичная ошибка оценки ковариационной функции Схх(и) имеет порядок 1/7, и по- поэтому ее распределение концентрируется все теснее около ухх(и) при Г->оо. Таким образом, Схх(и) является состоятельной оцен- оценкой ухх(и). Другими словами, средняя по времени величина схх(и) сходится к средней по ансамблю величине ухх{и). Это
270 Гл. 6. Спектр свойство обычно называют эргодическим. Для его выполнения тре- требуется, чтобы ухх(и) убывала достаточно быстро. Однако из того, что эргодическое свойство имеет место для схх(и), никоим образом не следует, что оно справедливо для его преобразования Фурье Cxx(f). В самом деле, если имеется состоя- состоятельная оценка статистического параметра, то ее преобразование Фурье обычно не является состоятельной оценкой для преобразо- преобразования Фурье этого параметра*). Иначе говоря, Cxx(f) являетея. примером выборочной функции, для которой эргодическое свой- свойство не имеет места. Интуиция подсказывает, что в такой ситуации интересно по- посмотреть, что происходит с функцией схх(и) при фиксированном \ запаздывании и, когда длина записи Т возрастает. В этом случае схх(и) собирает в себе все больше и больше информации в виде произведений x(t)x(t+u), и, следовательно, информация, содержа- содержащаяся в схх(и) относительно ухх(и), неограниченно возрастает при Т-*-оо. Позднее мы увидим, что информация, содержащаяся в Cxx(f) относительно rXx(f), рассеяна в полосе частот f±l/T. При увеличении Т полная информация, содержащаяся в Cxx(f), распределяется по полосам частот, число которых увеличивается, а ширина стремится к нулю. Точный результат состоит в том, что при увеличении Т можно оценивать среднюю мощность в полосе частот, ширина которой безгранично уменьшается; однако эффектив- эффективность выборочной оценки мощности в этой сужающейся полосе не улучшается. 6.2.2. Интеграл от спектральной плотности (спектральная функция) Случаи, когда спектральной плотности не существует. Ранее спектральная плотность была определена с помощью предела г Нт Е [Схх (/)] = lim j 7 (и) (\ - -ЦД е~^/и da, при условии, что этот предел существует. Чтобы Txx(f) была ко- конечной, достаточно выполнения неравенства J 'XX F.2.9) где М — конечная константа. Следовательно, достаточное (но не необходимое) условие существования конечной спектральной плот- плотности состоит в том, что Ухх(и) убывает достаточно быстро при и->-оо, так что интеграл F.2.9) сходится. *' Подразумевается, что как оценка, так и статистический параметр зависят от времени /. тяк что от них можно брать преобразование Фурье. — Прим. перев. 6.2. Спектр 271 В качестве примера случайного процесса, для которого это условие не выполнено, рассмотрим процесс X (t) = A cos 2nf0t + В sin 2nfot = R cos Bnfot + 9), F.2.10) где А и В — независимые случайные величины с нулевым средним значением и дисперсией а2. Каждая реализация x(t) является коси- нусоидальной волной Rcas Bnfat + ($), имеющей постоянную ам- амплитуду, частоту и фазу. Но при переходе от одного члена ан- ансамбля к другому амплитуда и фаза изменяются случайным об- образом, в то время как частота остается фиксированной. Из F.2.10) получаем Е [X(*)] = Е [A] cos 2и/У + Е [В] sin 2tzfut = 0. Следовательно, = Е [{A cos 2тг/0* + В sin 2*/У) (A cos 2u/0 (t + и) + + ?sin2rc/(* ] = о2 [cos 2я/0* cos 2tzf0 {t + u) + sin 2iz/ot sin 2u/0 (t + u)} = = a2 COS 2tc/0M. Функция уxx(и) не стремится к нулю при м->оо, так что для нее интеграл F.2.9) расходится. Однако можно определить спектраль- спектральную плотность через б-функции, используя B.2.12): ГххСЛ = 4 t8 С/ - /о) + 8 (/ + /оI- Следовательно, спектральную плотность случайного процесса F.2.10) можно считать равной двум б-функциям, имеющим пло- площадь 02/2 и сосредоточенным на частотах f = ±fo. Интеграл от спектральной плотности (спектральная функция). Даже в том случае, когда спектральная плотность содержит б-функции, имеет смысл говорить о дисперсии процесса, в кото- котором оставлены только частоты, не превосходящие некоторой час- частоты f. Эту дисперсию формально можно получить, интегрируя спектральную плотность. Так, интегрируя F.2.2) от f = —f до f = f, мы получаем спектральную функцию *\ Ixx (/') = I Гхх (/) df = j Тхх (и) ^Р~ da, 0 < /' < оо. F.2.11) *' Обычно в определении спектральной функции нижний предел интегрирова- интегрирования берут равным нулю. — Прим. перев.
272 Гл. 6. Спектр Эта функция похожа на функцию распределения, так же как нор- нормированный спектр похож на плотность вероятности. Таким обра- образом, мы имеем 0, /(оо) = а2 и /(/,)< /(Л) при /i ^ 12- Если спектральная плотность содержит б-функцию на частоте / = /о, т. е. ухх(и) содержит компоненту й cos 2я/0ы, тр спектральная функция имеет скачок величины k на частоте /о. Для дискретного времени спектральная функция имеет вид ' • 1хх (/) = (/) df = Д 1 sin 2л?/'Д 6.2.3. Спектр белого шума В разд. 5.2.1 чисто случайный процесс, или белый шум, Z(t) был определен как процесс, имеющий ковариационную функцию Yzz(m) =cr2z б (и). Этот процесс имеет бесконечную дисперсию и поэтому не может быть случайным процессом в обычном смысле. Однако мы показали, что его можно рассматривать как предел при т—>-0 процесса Башелье—Винера Y(t), имеющего ковариацион- ковариационную функцию О, |и|>т, Отсюда, согласно определению F.2.2), процесс Башелье—Ви- Башелье—Винера имеет спектральную плотность -oo</<oo. IYk(/)= \^(\- В пределе при т-»-0 функция Гуу(/) стремится к константе для всех /: limrKK(/) = rzz(/) = a|. F.2.13) •и-»-О Процесс Z(t) называется белым шумом по аналогии с белым светом в оптике, содержащим все оптические частоты с приблизи- приблизительно одинаковой интенсивностью. Строго говоря, белый шум 6.2. Спектр 273 нельзя реализовать физически, так же как и единичный импульс, ко- который можно рассматривать как математический аналог единичного импульса в технике. Способы генерации белого шума. При определении белого шума для дискретного времени не возникает никаких трудностей, так как ковариационная функция дискретного белого шума Zt равна 4, и = 0, О, й = ±Д, ±2Д, ±ЗД, .... 'ZZ Используя F.2.6), получаем 1 2Д F.2.14) так что все частоты в интервале —l/2A^f < 1/2A несут одну и ту же мощность, или дисперсию. Дискретный белый шум можно очень просто получить из непре- непрерывного небелого шума. Предположим, например, что имеется ис- источник непрерывного небелого шума, ковариационная функция ко- которого равна нулю при и > и0. Ясно, что если мы возьмем отсчеты процесса X(t), отстоящие друг от друга на А > uo, то получим про- процесс Zt с ковариационной функцией F.2.14). Частотная интерпретация этого метода генерации дискретного белого шума из непрерывного небелого шума состоит в следующем. Частота выбирания 1/А настолько мала, что происходит очень много наложений частот спектра ГХх(!) (см. разд. 2.4.2). Поэтому спектр дискретного сигнала (отсчитываемого в дискретные моменты вре- времени), равный сумме налагающихся участков ГХх(!), будет стано- становиться все более пологим, т. е. TZz(f) стремится к константе в ин- интервале — 1/2А^/^1/2Д. Этот процесс проиллюстрирован на рис. 2.11 для одного частного случая. Заметим, что, обсуждая во- вопросы, связанные с белым шумом, мы ничего не предполагали отно- относительно плотности вероятности Z(t). Белый шум Z(t) может иметь любую плотность вероятности. Строго говоря, белый шум нереализуем физически, но можно по- получить очень хорошее приближение к нему. Например, флуктуирую- флуктуирующий ток в электронной лампе дает очень хорошее приближение, так как его спектр мощности по существу равен константе в интер- интервале от 0 до 100 Мгц. Этот шум, называемый обычно дробовым, со- создается в результате случайной эмиссии электронов с катода лампы. Другим физическим примером шума, являющегося приблизи- приблизительно белым в широком диапазоне частот, служит тепловой шум. Этот шум представляет собой напряжение (или ток) в проводнике, обладающем сопротивлением R, вызванное тепловым движением электронов. Его спектр мощности почти постоянен в широком диа- диапазоне частот и равен
274 Гл. б. Спектр где Т — абсолютная температура и k—постоянная Больцмана. Бо- Более детальное обсуждение дробового и теплового шумов можно найти в [2]. 6.2.4. Спектр линейного процесса Мы сейчас получим выражение для спектральной плотности вы- выхода устойчивой линейной системы, на вход которой подается ста- стационарный процесс. В том случае, когда на вход подается белый шум, выходной спектр является спектром стационарного линейного процесса. Рассмотрим выходной процесс X(t) устойчивой линейной си- системы с откликом на единичный импульс h(u), когда входным про- процессом служит Z(t). Из E.2.8) ковариационная функция процесса X(t) равна * оо оо Тн (») = J J A (v) А (V) lzz (u + v- V) dv dv', 0 0 ^ и, следовательно, из F.2.2) спектральная плотность выхода равна = j e~i2xfa ) j A (v) h (v1) izz (й + щ- v') dv dv' du = —со О О OO OQ OO = j h (v) eJ2*fv dv\h (vr) e~J2*/v' dv j ^ (у) е~Jж/у dy, 0 0 —oo где у = u + v — v'. Отсюда ?xx if) = И (-/) H {f) Tzz (/) = 1 Я (/) |2 Yzz (/), - oo < / < oo. F.2.15) Это фундаментальное свойство утверждает, что спектральная плотность выхода линейной системы получается из спектральной плотности входа с помощью умножения на квадрат модуля частот- частотной характеристики системы. Если Z(t) — белый шум со спектральной плотностью rZz(/) = o2 Z и ковариационной функцией yzz(u) = o| б(и), то X(t) является ли- линейным процессом со спектральной плотностью ;оо. F.2.16) л ¦ 6.2. Спектр 275 1;|? Для дискретного времени соотношение, соответствующее F.2.15), имеет вид где Я(/)= Если вход является чисто случайным процессом с дисперсией а2, то выход представляет собой линейный процесс со спектральной плотностью </< F2Л8) Из F.2.15) или F.2.18) видно, что если есть источник белого шума и подходящий переменный аналоговый (или цифровой) фильтр, то можно получить случайный процесс с любым заданным спектром. В следующем разделе мы приведем некоторые примеры разнооб- разнообразных спектров, которые можно получить с помощью линейной фильтрации белого шума. 6.2.5. Спектры процессов авторегрессии и скользящего среднего Непрерывный процесс авторегрессии первого порядка. Рассмот- Рассмотрим непрерывный процесс авторегрессии первого порядка где Z(t) — белый шум. Эта линейная система имеет отклик на еди- единичный импульс А(я) = - т е оо, О, и<0, и частотную характеристику Отсюда, используя F.2.16), получаем спектральную плотность про- процесса X{t): — ОО ОО. F.2.19)
276 Гл. 6. Спектр 6.2. Спектр 277 График функции F.2.19) изображен на рис. 2.3, а. Из него видно, что большая часть мощности, или дисперсии, сосредоточена на низких частотах. Дискретный процесс авторегрессии первого порядка. Для дис- дискретного времени процесс авторегрессии первого порядка имеет вид В этом случае ь k = 0, 1, . . ., оо, Отсюда, используя F.2.18), находим спектральную плотность про- процесса Xt: а2 — 2а, COS 2я/Д 2Д F.2.20) Спектр F.2.20) изображен на рис. 6.4 и 6.5 для случаев oci = = +0,9 и ai = —0,9 соответственно, причем в обоих случаях А = 1 и а2 = 1. Как отмечалось в разд. 6.2.1, при положительном ai боль- большая часть мощности спектра сосредоточена на низких частотах, а для отрицательных ai — на высоких частотах. Заметим из F.2.20), что Txx{f) при а4 > 0 равна ТХх{ 1 /2Д — f) при at < 0. Непрерывный процесс авторегрессии второго порядка. Рассмот- Рассмотрим непрерывный процесс авторегрессии второго порядка "-2 - ?2 I "-1 dt I - В этом случае частотная характеристика равна 1 //(/) = • а0 и, следовательно, спектральная плотность процесса равна F.2.21) Выражение F.2.21) может давать как низкочастотные спектры (at или а2 велико), так и спектры с явно выраженным пиком (если характеристическое уравнение a2p2 + aip + a2 = 0 имеет комплексные корни). Дискретный процесс авторегрессии второго порядка. Дискрет- Дискретный процесс авторегрессии второго порядка E.2.31), а именно Xt - i» = a, (Xt_, - ц) + a2 (X,_2 - |») + Z,, имеет частотную характеристику 1 Г I ?\ 1 2Д 1 2Д и,следовательно, спектральную плотность 1 + о2 + а2 — 2oj A — а2) COS 2%fb. — 2а2 COS 4и/Д 1 2Д F.2.22) Для некоторых значений параметров ai, a2 выражение F.2.22) пред- представляет низкочастотный либо высокочастотный спектр, подобно дискретному процессу первого порядка. Но кроме таких спектров можно получить и спектры, имеющие пик, либо, наоборот, корыто- корытообразную впадину на некоторой частоте fo внутри интервала частот. Это происходит в случае, если |ai(l — а,2)\ <4<хг|. Частота fo, на которой получается пик либо впадина, определяется из выражения cos 2гс/0Д = 4а, Например, временной ряд, изображенный на рис. 6.6, получен с по- помощью процесса авторегрессии второго порядка с параметрами ai=lt a2 = —0,5. Спектр этого процесса имеет пик в точке fo = Четыре типа спектров, которые можно получить с помощью про- процесса авторегрессии второго порядка, перечислены на рис. 6.7. Ин- Интересная особенность, выявленная с помощью этого рисунка, за- заключается в том, что область а^ + 4а2<0 (в этой области корреля- корреляционная функция является затухающей синусоидой) частично пере- перекрывается с областью | cti( 1 — a2) I ^4 | a21, где спектр не имеет пи- пиков внутри интервала частот (на рис. 6.7 последняя область за- заштрихована). Для высокочастотного спектра это не является не- неожиданным, так как даже процесс авторегрессии первого порядка при ai<0 имеет осциллирующую корреляционную функцию, хотя его спектр и не имеет внутренних пиков. Однако и для низкочастот- низкочастотного спектра корреляционная функция может осциллировать, и при этом не будет ярко выраженных внутренних пиков. Обычно счи- считают, что осцилляция корреляционной функции сопровождается пиком в спектре, но этот пример показывает, что для этого ампли- амплитуда затухающих осцилляции корреляционной функции должна быть достаточно большой.
•278 Гл. б. Спектр Общие процессы авторегрессии — скользящего среднего. Общий непрерывный процесс авторегрессии — скользящего среднего E.2.21) имеет вид d'nX , , _ dX , IVir, ч ,. dlZ , а„ dtm dt • ¦ ¦ + dZ Высокочастотный спектр /Корытообраз- \. Низкочастотный спектр - ' ный спектр Кривая of + йаг=0 Пикообразнып спектр -1,0 Рис. 6.7. Область устойчивости и классификация спектров для дискретных про- процессов авторегрессии второго порядка. Его спектральная плотность равна bo+bj2nf + ... +bl(j2-nfI а0 F.2.23) Аналогично для дискретного времени процесс смешанного типа E.2.50), а именно имеет спектральную плотность 2Д F.2.24) Из выражения F.2.23) видно, что для того, чтобы TXx(f) была интегрируемой спектральной плотностью, соответствующей случай- случайному процессу X(t) с конечной дисперсией а2х, нужно, чтобы число I •*¦ "ft 6.3. Спектральные оценки удовлетворяло условию 1^т—1. Заметим, что в дискретном слу- случае нет никаких ограничений на /. Выражения F.2.23) и F.2.24) получены с помощью подстановки частотных характеристик B.3.19) и B.3.32) в F.2.15) и F.2.18) со- соответственно. В общем случае эти спектры могут иметь несколько пиков или впадин, если соответствующие характеристические урав- уравнения имеют комплексные корни. 6.3. СПЕКТРАЛЬНЫЕ ОЦЕНКИ 6.3.1. Вероятностные свойства оценок, соответствующих выборочному спектру, для случая белого шума Введение. Табл. 6.1 наводит на мысль о том, что оценка, соответ- соответствующая выборочному спектру, [/ и-1 \2 / я-1 \2~ ^2 ^008 2*/^ -ж<*<-к-> (б-3-1) для чисто случайного процесса (дискретного белого, шума) имеет дисперсию, не зависящую от числа наблюдений N. С другой сто- стороны, среднее значение выборочного спектра по частоте близко к теоретическому значению спектра. Это указывает на то, что оценка, соответствующая спектру, не является состоятельной, т. е. ее распределение не стягивается к истинному значению спектра при увеличении объема выборки. Чтобы убедиться, что это действительно так, рассмотрим слу- случайные величины, соответствующие действительной и мнимой со- составляющим Фурье дискретного процесса Zt, (—n^t^n— 1). Они задаются равенствами л —1 А(/) = л —1 B(f)= < sin 1 2Д 1 ~2Д 4г- F.3.2) В таком случае оценку F.3.1) можно записать в виде --9V</<^r- F-3.3) Исследовав свойства случайных величин A(f) и B(f), можно вы- вывести и вероятностные свойства Czz(/). В этом разделе будет пока- показано, что если Zt — чисто случайный нормальный процесс с нулевым.
280 Гл. 6. Спектр средним значением и дисперсией а2 , то для гармонических частот, (частот fft, кратных основной гармонике) следующие утверждения: 1) случайные величины k/NA, справедливы Да| =±l, ±2, .... ±(д- F.3.4) имеют х2-распределение с двумя степенями свободы; 2) Если /ь = 0, или же f& = — 1/2Д, то случайные величины Да| F.3.5) имеют х2-распределение с одной степенью свободы; 3) случайные величины Y(fk) взаимно независимы для k = 0, ±1, ±2, ..., ±{п— 1), —л. Этими результатами мы воспользуемся в разд. 6.3.2 при выводе критерия для проверки гипотезы о том, что шум является бельем. В разд. 6.3.3 дается краткое изложение более общих результатов, относящихся к вероятностным свойствам оценок, соответствующих выборочным спектрам. Эти результаты получены для произвольных частот и для процессов, не являющихся белым гауссовским шумом. Доказательства приведены в приложении П9.1. Х2-свойство оценки, соответствующей выборочному спектруч Так как ?[Z(] = 0, то из F.3.2) следует, что Е Отсюда для гармоник fh = k/NA получаем п —1 2 N = о| 2 *=±1, ±2 ±(л-1), k = 0, —п. F.3.6) Аналогично находим 9 N „% _ Ь —-J-1 4-9 4- (п Л Var [Д (/»)]=] F.3.7) О, й = 0, —«. Далее при ^ =# I имеем n —1 Cov[A(/ft), cos 2гс/у Д cos 2гс/,*Д == 0, F.3.8) /= —п CovlB(/ft), it б.З. Спектральные оценки 281 Кроме того, для любых k и / справедливо равенство Cov[A(A), Я(/,)]=0. F.3.9) Так как A(fh) и B(fh) являются линейными комбинациями гауссов- ских величин, то они также имеют гауссовское распределение. По- Поэтому каждая из случайных величин Л2 (fk) 2Л2 (fk) В2 (fu) 2В2 имеет х2-распределение с одной степенью свободы. Из F.3.8) и F.3.9) видно, что эти величины независимы, поскольку A (fh) и В (fh) имеют нормальное распределение. Поэтому их сумма 8 (/*) + я2 (/*)] = 2С, имеет х2-распределение с двумя степенями свободы. При k = 0 или k = —п величина B(fh) тождественно равна нулю. Следовательно, случайная величина y(f) Czz(fk) var [A Да| k-=0, —n, имеет х2-распределение с одной степенью свободы. Из равенств F.3.8) и F.3.9) следует, что случайные величины Y(fh) для различ- различных частот независимы, так как они получаются из независимых гауссовских величин A(fh), B(fk). Таким образом, утверждения A), B) и C) доказаны. Пользуясь этими результатами, можно объяснить флуктуирую- флуктуирующее поведение выборочного спектра на рис. 6.1. В разд. 6.2.3 было показано, что спектр чисто случайного процесса равен константе 1 1 2Д 2Д Используя C.3.6) и только что доказанные утверждения, получаем т. е. Следовательно, для гармонических частот оценка, соответствующая выборочному спектру, является несмещенной в случае, если шум белый. Это объясняет близость средних значений в табл. 6.1 к их теоретическим значениям.
282 Гл. 6. Спектр 6.3. Спектральные оценки 283 Аналогично, используя C.3.6), получаем = 4, т. е. Var[Czz(/ft)]=a4zA2==r|z(/ft). F.3.10) Равенства F.3.10) показывают, что по крайней мере для гармони- гармонических частот дисперсия этой оценки равна константе, независящей от объема выборки. Это объясняет тот факт, что выборочные оценки дисперсии случайной величины CZz(fk) не уменьшаются с увеличе- увеличением объема выборки, как видно из табл. 6.1. Важно отметить, что даже для негауссовского процесса Zt случайные величины A(f) и B(f) будут приближенно гауссовскими в силу центральной предель- предельной теоремы. Поэтому величина CZz(f) будет иметь распределение, близкое к ^-распределению с двумя степенями свободы, независимо от того, какое распределение у процесса Zt. Дисперсионный анализ. Важность полученных выше результа- результатов легче оценить, если рассмотреть разложение полной суммы квадратов случайных величин Zt. По теорем^ Парсеваля F.1.3) имеем л —1 я —1 „ ... 2 4- 2 -ZZl /= —я k= — л Используя то, что Czz(fh) = Czz(—fh), получаем л —1 я —1 Г °Z t=-n uaZ I . F.3.11) Так как Zt/oz — независимые нормальные величины с нулевыми средними значениями и единичными стандартными отклонениями, то стоящая в левой части равенства F.3.11) случайная величина имеет %2-распределение с N степенями свободы. Доказанные выше утверждения показывают в таком случае, что эта величина пред- представляется в виде суммы двух %2-величин с одной степенью сво- свободы или (я—1) х2"величин с Двумя степенями свободы. Таким образом, полное число степеней свободы раскладывается на сле- следующие слагаемые: Для нечетных N член с одной степенью свободы, соответствующий k = —п, исчезает из F.3.11). Это разложение представляет собой частный случай метода, называемого в статистике дисперсионным анализом. Если E[Zt]=^0, то проведенный выше анализ справедлив, но разложение F.3.11) в этом случае удобнее записывать в виде л-1 F.3.12) зложение F.3.11) в эом слу л-1 Г л- ~ 2 (Z,-ZJ = -V 2 2 °Z t--n U°Z I k =  J где Z—среднее арифметическое значение случайных величин Zt. 6.3.2. Критерий для проверки гипотезы о том, что шум белый Необходимость критерия. На практике часто возникают ситуа- ситуации, когда требуется проверить гипотезу о том, что наблюдаемый временной ряд является реализацией белого шума. Пример такой ситуации приведен в разд. 5.3.5, где критерий для проверки того, что шум белый, был применен к случайным гауссовским числам, по- полученным с помощью вычислительной машины. Другим примером служит проверка подобранной модели, например процесса авторе- авторегрессии E.2.39). Модель можно считать адекватной, если остаточ- остаточные ошибки (между подобранной моделью и данными) образуют белый шум. Приведенный в разд. 5.3.5 критерий для проверки того, что шум белый, полезен тогда, когда подозревают наличие «локальных кор- корреляций», т. е. когда есть подозрение, что соседние точки времен- временного ряда коррелированы. Иногда требуется обнаружить отклоне- отклонения от белого шума, вызванные периодическими эффектами. Так, например, после подбора модели для экономического временного ряда, содержащего сезонные вариации, несоответствие модели могло бы выразиться в периодичности остаточных ошибок. В таком случае более подходящим является частотный критерий, основан- основанный на выборочном спектре. Один такой критерий приведен ниже; его надо рассматривать как дополнение к критерию разд. 5.3.5, ос- основанному на корреляционной функции. Критерий. Равенство F.2.14) показывает, что спектр дискрет- дискретного белого шума имеет вид 1 2Д 2Д Отсюда спектральная функция линейно зависит от частоты.
284 Гл. 6. Спектр 6.3. Спектральные оценки 285 Предположим, что выборочный спектр Czz(f) сосчитан для гар- гармонических частот fh = k/NA, k = Q, I, ..., N/2. Рассмотрим тогда оценки /(fft) спектральной функции F.3.13) Заметим, что CZz@) = 0, если вычитается среднее значение. Так как ?[C(M] rM 2A2 то и, следовательно, I(fh) является несмещенной оценкой Izz(fk)- На практике удобнее нормировать I(fh), разделив ее на о2 . В этом случае /A/2А) = 1. Поскольку azz неизвестна в практических ситуа- ситуациях, ее следует заменить на оценку S2Z, так что в окончательном виде оценка нормированной спектральной функции .имеет вид I(fk)/S2z . Таким образом, соответствующая выборочная оценка, со- сосчитанная по временному ряду, равна Если построить график этой выборочной оценки, беря вкачестввир- гументов точки 2Afh, то точки графика должны лежать близко к от- отрезку, соединяющему точки @,0) и A, 1). Так как I(fk) представ- представляет собой сумму случайных величин с одинаковым распределе- распределением, то можно применить критерий Колмогорова — Смирнова [4], чтобы узнать, являются ли отклонения выборочной оценки нормиро- нормированной спектральной функции от прямой линии значимыми (обычно этот критерий применяют для проверки значимости отклонений вы- выборочной функции распределения от теоретической). Два примера. В табл. 6.2 приведены значения Czz(fh) для одной из выборок случайных нормальных чисел, использованных для вы- вычислений в табл. 6.1. Здесь N= 100, А = 1 и, следовательно, fft = 0,01; 0,02; ...; 0,50. На рис. 6.8 показан график i(fh)/s2 в зависимости от k для этого ряда. Из этого рисунка видно, что отклонения от пря- прямой невелики. Чтобы получить точное заключение о величине этих отклонений, можно при больших N воспользоваться критерием зна- значимости Колмогорова — Смирнова [4]. Он состоит в том, что надо .построить полосу ±K/(N/2—1I/а около теоретической прямой. Для уровней значимости 0,95 и 0,75 к равно 1,36 и 1,02 соответственно. В нашем случае N/2 = 50; поэтому 95%-ные границы равны ±1,36/У49= ±0,19; 75%-ные границы равны ±0,15. Эти границы Таблица 6.2 Выборочный спектр на гармонических частотах для выборки белого шума 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 с« С*) 1,13 1,41 0,74 1,08 1,28 0,06 0,85 0,23 0,71 0,79 0,51 0,46 1,38 0,11 0,37 0,50 /* 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 Czz (/*) 1,91 0,15 0,85 2,49 3,89 1,13 0,53 1,86 0,47 1,87 1,35 1,29 0,06 0,24 0,56 0,68 0,44 h 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 Czz С к) 1,75 0,25 1,84 3,98 0,22 1,52 1,48 0,44 1,16 1,20 2,73 1,66 1,34 0,17 1,43 1,03 показаны пунктиром на рис. 6.8, и мы видим, что значения i(fh)/sz попадают целиком между ними. Поэтому н,ет никаких доводов про- против того, что выборка получена из белого шума. Интерпретация 75%-ных границ, например, заключается в том, что в среднем на каждом четвертом графике максимальное отклонение от теоретиче- теоретической прямой будет выходить за границы, даже если процесс на са- самом деле является белым шумом. В табл. 6.3 показаны результаты вычислений для этого крите- критерия, выполненных по ионосферным данным из табл. 2.1. Для этих данных s2= 196,4. Значения Czz(fh) из табл. 6.3 можно получить, ум- умножая вклады в среднеквадратичное значение, помещенные в табл. 2.2, наЛГ=12. Из рис. 6.9 видно, что выборочная оценка спектральной функ- функции сильно отклоняется от прямой линии, поскольку i(fi)/s2 при- примерно в два раза больше соответствующего среднего значения для белого шума, a i(fz)/s2 почти в три раза больше. Доверительные границы, о которых мы говорили выше, здесь неприменимы, так как
6.3. Спектральные оценки 287 1,0 0,8 0,B 0,4 0,2 • Выборочные значения Теоретическая прямая Верхние keepumei границы доверительные ./у* / У / / // / .• /у // /f // / / /%» /у Нижние у,' /Л / доверительные У / /»% ' / границы // / 'у /' / ' ' // / /у / / /А '/ 10 го зо 40 50 Рис. 6.8. Проверка того, что шум белый, использующая интеграл от периодо- периодограммы. Таблица 6.3 Применение к 0,083 0,166 0,250 0,333 0,417 0,500 критерия проверки белого ионосферным данным Czz (?k) 753,6 1322,4 38,4 18,0 78,0 146,0 k 1 ^i r 0 0 0 0 о, 1 шума zz Ut) 32 88 90 91 94' 00 N слишком мало. Фактически, в этом случае и не требуется никакого критерия значимости, поскольку значения i(fh)/s2 так велики при /ft = 0,083n0,166. 1,0 0,8 0,6 Ofi 0,2 • Выборочные значения — Теоретическая прямая 0 /234 5 к Рис. 6.9. Проверка ионосферных данных на случайность. 6.3.3. Общие результаты о выборочных спектрах для белого шума В разд. 6.3.1 выведены выражения для среднего значения и ко- вариаций оценки, соответствующей выборочному спектру, на гар- гармонических частотах fk = k/NA в предположении, что Zt — гауссов- ский процесс. В приложении П9.1 выведены более общие резуль- результаты, применимые для любых частот и для негауссовских процессов. Моменты оценок, соответствующих выборочному спектру, для белого шума. Для дискретного времени эти более общие результаты имеют вид F-3.14)
288 Гл. 6. Спектр 6.3. Спектральные оценки 289 Соу[Си(/1). К sin гс./УД N sin ni (/i + /2) \2 (/! +/о) sin nNb. (/i -/2) \2 -5Д-, F.3.15) где /<4— четвертый кумулянт распределения Zt. Можно проверить, что F.3.15) равно нулю, когда f4 и f% кратны фундаментальной ча- частоте 1/УУА и Zt — гауссовский процесс, так что /<4 = 0. Таким об- образом, при этих предположениях оценки выборочного спектра неза- независимы, как показано в разд. 6.3.1. Для белого шума с непрерывным временем общие результаты имеют вид F.3.16) — 00 Соу[Си(/,). Кл Sinit7'(/1 00, Sin я У (/i -/2) -°°</i. /2<°°. F.3.17) где /<4— четвертый кумулянт процесса Заметим, что ковариация спектральных оценок имеет порядок 1/Г для негауссовских процессов, т. е. при КьфО, в то время как для гауссовских процессов /<4 = 0 и ковариация имеет порядок 1/Г2. В частном случае, когда fi и f2 — значения, кратные 1/Г, ковариация равна нулю. Далее, дисперсия спектральных оценок без учета чле- членов порядка 1/Г и более высокого равна Var[Czz(/)]=o4z. Это показывает вообще, что CZz(f) не является состоятельной оцен- оценкой rzz(f). ^-свойства оценок, соответствующих выборочному спектру, для случая белого шума. В разд. 6.3.1 было показано, что если Zt явля- является гауссовским белым шумом, то 2Czz(f)/Ao2z имеет %2-распреде- ление с двумя степенями свободы для гармоник fk — k/N&. В прило- приложении П9.1 этот результат обобщается следующим образом. Для гауссовского белого шума распределение величины 2CZz(f)/Aa2 Z точно совпадает с х2-распределением с двумя степенями свободы, в то время как для негауссовских процессов при больших N это со- совпадение распределений имеет приближенный характер. Для не- непрерывного времени результаты формулируются точно так же, за исключением того, что они относятся к CZz(f)/o2z . 6.3.4. Сглаживание спектральных оценок Способ сглаживания Бартлетта. Один прием, который можно использовать для получения спектральных оценок, имеющих диспер- дисперсию, меньшую, чем у CZz (/), был предложен Бартлеттом [5]. Предпо- Предположим, что вместо вычисления Czz(f) no реализации белого шума длины N = 400, как это делалось в разд. 6.1.2, эта реализация раз- разбивается на k = 8 рядов длины Nik = 50 и выборочный спектр С<») (/), г=1, 2, .... 8, вычисляется для каждого ряда длины 50. Среднее значение этих восьми выборочных спектров на частоте f равно if)' 1 = 1 2Д F.3.18) Оно называется выборочной сглаженной спектральной оценкой на частоте f. На рис. 6.10 построены графики Czz(f) и функции Czz(f), вычис- вычисленной по всем 400 членам, для частот f = 0; 0,02; ...; 0,5 гц. Отме- Отметим, что Czz(f) меняется более плавно и проходит ближе к Fzz (f). В табл. 6.4 показаны средние значения, дисперсии и среднеквадра- среднеквадратичные ошибки Czz(f) и Czz(f) при усреднении по частоте. Согласно F.3.10), дисперсия каждой C^z(f) равна о^. Так как Zt — белый шум, то отдельные ряды разбиения независимы и, следовательно, дисперсия Czz(f) равна 04z/8. Отношение двух наблюденных дис- дисперсий из табл. 6.4 @,139/0,826= 1/5,94) незначимо отличается от ожидаемого значения 1/8. Следовательно, с помощью усреднения, Таблица 6.4 Моменты несглаженной и сглаженной выборочных спектральных оценок (усреднение проводилось по частоте) ' С„ (/) i . . czz{f) Среднее значение 0,95 0,94 Дисперсия 0,826 0,139 Средне- Среднеквадратичная ошибка 0,828 0,143 ¦ Ю Заказ № 1210
290 Гл. 6. Спектр 6.3. Спектральные оценки 291 или сглаживания, величин, относящихся к отдельным частям раз- разбиения исходного ряда, дисперсию спектральной оценки можно уменьшить в нужное число раз. В предельном случае можно было '<5ы использовать разбиение исходного ряда на отдельные ряды из двух членов, и при этом дисперсия уменьшилась бы до 2a4z/A/. Чтобы понять, почему не имеет смысла так поступать, необходимо - czz(f),M=S0 -х Czz(f),/V=4O0 — Теоретический спектр Рис. 6.10. Выборочный спектр и сглаженная выборочная оценка спектра для нор- нормального белого шума. внимательно рассмотреть процедуру сглаживания и вывести мо- моменты сглаженных оценок. Корреляционные и спектральные окна. Из F.2.1) математиче- математическое ожидание оценки, соответствующей выборочному спектру, равно Е [Схх (/)] = j (l - "Г1") Ъс («) еЧ2%/" Ни. F.3.19) Оно представляет собой преобразование Фурье от произведения функции ухх (и) и функции w (и) = F.3.20) 1--Ш-. |и|<7\ О, \и\>Т. Отсюда, используя теорему о свертке B.4.3), получаем f° / Sin nTg \2 Е [Схх (/)] = j T (-^fg—J гхх (/ - g) dg, F.3.21) — 00 поскольку преобразование Фурье функции до (и) равно F.3.22) Равенство F.3.21) показывает, что математическое ожидание оценки СХх (/) соответствует как бы просматриванию теоретиче- теоретического спектра ГХх U) через спектральное окно W (f). В терминоло- терминологии гл.2 E[CxX(f)] соответствует пропусканию теоретического спектра ГХх (/) через фильтр с «откликом на единичный импульс» W (f). Названия спектральное окно для W (f) и корреляционное окно для w (и) были введены Блэкманом и Тьюки [6]. Поскольку W (/) в F.3.22) при больших Т ведет себя подобно б-функции, из F.3.21) и B.2.5) следует, что Um E[Cxx(f)]=Vxx(f), Г->-оо т. е. Cxx(f) — асимптотически несмещенная оценка TXx(f). Од- Однако для записи конечной длины из F.3.21) видно, что CXx(f) яв- является смещенной оценкой ГХх (/) со смещением B(f) = E[Cxx(f)}-Txx(f). Для белого шума Гхх (f) = Ao2z, и равенство F.3.21) сводится к для всех Т. Следовательно, для белого шума оценка, соответствую- соответствующая выборочному спектру, является несмещенной для всех Т. Спектральное окно W (f), грубо говоря, действует при сглажи- сглаживании как узкая щель, порядок ширины которой равен \/Т, так что для больших Т естественно считать ГХх (/) приблизительно кон- константой внутри этой щели. Поэтому F.3.21) сводится к \2 Е[Схх(Л)™Тхх(Л sin Таким образом, для достаточно больших Т смещение несглажен- ного выборочного спектра будет малым. 10*
292 Гл. 6. Спектр Спектральное окно Бартлетта. Рассмотрим теперь математиче- математическое ожидание случайной оценки CXx(f), используемой в способе сглаживания Бартлетта. При разбиении исходного ряда на k рядов, каждый из которых имеет длину М, из F.1.9) получаем м -м Отсюда сглаженная спектральная оценка равна ft Л! схх(Л = -т' -м где * Г Ш — и / = 1 I (i-l)AI 'du, F.3.23) и>0, F.3.24) а для и<0 эта функция определяется аналогично E.3.9). Матема- Математическое ожидание схх(и) в таком случае равно —М = f F.3.25) Следовательно, разделение записи длины Т на k частей длины М = = T/k каждая и построение сглаженной спектральной оценки F.3.23) эквивалентно сглаживанию выборочного спектра с помо- помощью окна F.3.26) Во временной области это эквивалентно умножению ковариацион- ковариационной функции на корреляционное окно М 1 — О, м | и | > М. F.3.27) Окна F.3.26) и F.3.27) называются спектральным и корреляци- корреляционным окнами Бартлетта. График спектрального окна Бартлетта 6.3. Спектральные оценки 293 изображен на рис. 6.11. Видно, что он симметричен относительно начала координат и имеет нули в точках / = ±1/М, ±2/М, .... Та- Таким образом, ширина окна (т. е. расстояние между первыми нулями с каждой стороны) равна 2'/М. Следовательно, выбирая длину М от- отрезка разбиения, можно регулировать ширину спектрального окна. Мы уже показали, что, выбирая М небольшим, можно сделать ма- малой дисперсию спектральной оценки. А малые значения М, как мы видим, соответствуют большим значениям ширины спектрального -f/M -3/М -Z/M -1/М О 1/М Z/М 3/М 4/Mf Рис. 6.11. Спектральное окно Бартлетта \VB (/) =Af (sin nfM/nfMJ. окна. Однако, если ширина окна велика, то происходит сглажива- сглаживание на большом диапазоне частот, т. е. «отклик на единичный им- импульс» W (f) очень широк, что может привести к большому смеще- смещению B(f) = E[CXx (/)] — Fxxif)- Таким образом, как и для всех статистических оценок, нужно выбирать компромисс между диспер- дисперсией и смещением. В следующем разделе такое компромиссное ре- решение изучается для более общего способа сглаживания выбороч- выборочных спектров. 6.3.5. Спектральные окна и сглаженные спектральные оценки Один общий класс сглаженных спектральных оценок. Описаный выше способ сглаживания Бартлетта показывает, что большую дис- дисперсию оценки, соответствующей выборочному спектру, можно уменьшить, вводя корреляционное окно F.3.27). Это наводит на
294 Гл. 6. Спектр мысль о том, чтобы рассмотреть более общие сглаженные спект- спектральные оценки вида со оо Схх (/) = 1 ™ («) схх (и) еЧ2%/а du = J ёхх (и) <Г;'2*/и da, F.3.28) —oo —oo у которых дисперсия будет меньше, чем у несглаженной оценки Cxx(f). 1,0 OJB 5. 3 прямоугольное ) ^арзена I 1 J L 0,4 0,2 О ОМ 0.2М 0,ЗМ 0,Ш 0,5М О.ВМ 0,7М 0?M 0,9V. M tt Рис. 6.12. Некоторые распространенные корреляционные окна. Корреляционное окно w (и) в F.3.28) удовлетворяет условиям: 1) «)@) = 1, 2) w(u) = w(—и), 3) w(u) = 0, \u\>T. F.3.29) На практике условие C) заменяют на 4) гю(и) = 0, |и|>УИ, М<Т, так как при этом нужно будет вычислять ковариации лишь до за- . паздывания М. Примеры корреляционных окон, широко применяе- применяемых в спектральном анализе, приведены в табл. 6.5, а их графики построены на рис. 6.12. Преобразования Фурье этих корреляцион- корреляционных окон, т. е. спектральные окна W (/), показаны на рис. 6.13. Используя свойство свертки B.4.3), равенство F.3.28) можно записать в виде = J w(g)Cxx(/-g)dg. F.3.30) 6.5 блица а 3 о V С t- i? О С «J 3 a X о a « Q. О a о о с ктр a си с и рмуЛ! <? X о о и о 5 ;цио( № 1 Ж •=: 4 rt Он 1 1 Наз! 8 V/ V/ 8 с "сд СМ II с; v/ Л а а — ~— •—" о" и V о s о рямоу с 8 У/ V/ б 1 С —-*, II с; \? Л а а — — —i О > л артлет @ см _с - 8 V >-, 5 V ^ с "*-. II -•" 5 ' ' ~|cs ^ см с "со сч с 3 ^ —^ С4 Ч-^ СМ "^¦^ 1 1 ^ II + II у/ Л а ч ^-— —-^, о г- гч О) О* . „ ¦ II ^^ а к, я Н 0 о V/ *к V/ о о см со II $ у + V/ cj_ 2—^ а — а|^ ~ Л. II II > рзена с У/ ; и сч а 5 - - 1 О"
296 Гл. 6. Спектр где Схх if) определена в примечании переводчика на стр. 263 в оо W{f)= j w(и)e~J2*fudu. F.3.31) — оо 2M wR(f) прямоугольное Wg(f) Барт лет та Рис. 6.13. Некоторые распространенные спектральные окна. Обратное преобразование оо = J W(f)eJ2lzfudf. ¦ F.3.32) дает возможность по спектральному окну W (f) вычислить корреля- корреляционное окно w (и). В соответствии со свойствами F.3.29) спект- спект6.3. Спектральные оценки 297 ральное окно W (f) удовлетворяет следующим условиям: оо 1) J W(f)df = v>@) = \, —оо 2) щ/)=\*7(_/)( F.3.33) 3) W (f) действует при сглаживании как щель ширины ~2/М. Математическое ожидание сглаженной спектральной оценки. Беря математическое ожидание от обеих частей F.3.30), получаем Е [Схх (/)] = j W (g) Е [Схх (/ - g)\ dg. F.3.34) —оо Однако, как показывает F.3.21), для больших Т следовательно, оо Е [Схх (/)] да j W(g) Txx(/ -g)dg = fxx{f). F.3.35) —оо •Функцию Тхх (f) будем называть средним сглаженным спектром. Теперь нам понадобится материал разд. 2.4.1. Поскольку спект- спектральное окно W(f) удовлетворяет условию F.3.33) — C), функция Fxx(f) будет выглядеть как несколько искаженная функция Тхх (/)¦ Этот эффект показан на рис. 2.10, где ТХх if) соответствует функции I Si (f) |, Тхх (f) соответствует функции I So (f) |, а корре- корреляционные окна w(u) соответствуют временным окнам w(t). Из рис. 2.10 видно, что чем меньше ширина корреляционного окна, тем сильнее отличается ТХх (f) от ГХх (/)• Следовательно, для того чтобы смещение = E [Схх] - Гхх (/) = Гхх (/) - Гхх (/) было малым, нужно выбирать большое М. Это противоречит упо- упоминавшемуся выше требованию выбора малого значения М для того, чтобы дисперсия Var [CXx(f)] была небольшой. В разд. 4.2.3 было показано, что нужно выбирать компромиссное решение, учи- учитывая и дисперсию, и смещение оценки. Те же самые рассуждения применимы и к оценкам спектра. Смещение можно сделать малым, лишь сужая W (f), т. е. выбирая ее как можно ближе к б-функции. С другой стороны, узкое спектральное окно W(f) приводит
298 Гл. 6. Спектр к большой дисперсии. Поэтому разумная процедура состоит в ми- минимизации среднеквадратичной ошибки [7]: Var[Cxx(/)]+52(/). Точная природа компромисса, который нужно сделать, будет за- зависеть от плавности изменения теоретического спектра ГХх (/). На- Например, если Гхх (/) очень плавно меняется, то дисперсию можно уменьшить с помощью широкого окна, не внося серьезного смеще- смещения. В частности, если tXx(f) плавно меняется в диапазоне — 1/М ^ (/ — g) ^ 1/M, то F.3.36) приблизительно равно [Схх (/)] оо (/) j W (g) dg = Тхх (/) F.3.36) в силу F.3.33) и F.3.34). Следовательно, если теоретический спектр изменяется достаточно плавно, то получается фактически несме-' щенная оценка, хотя спектральное окно при этом делается широ- широким для снижения дисперсии. Приближенные выражения для смещения. Если нельзя считать, что теоретический спектр изменяется плавно по сравнению со спект- спектральным окном, то можно, следуя Парзену [8], приближенно под- подсчитать смещение, соответствующее данному спектральному окну. Используя F.3.28) и E.3.13), мы можем записать смещение для больших Т также в виде в (Л IOO J -00 -;2х/и w{u)cxx{a)e-liKjadu -I —00 'XX (u)e'J2%f"du F.3.37) Подставляя в эту формулу корреляционные окна w (и) из габл. 6.5, получаем следующие выражения для смещений, соответ- соответствующих этим окнам: (Я — CO 1xx(u)e-^fuc 2ll/u da, , F.3.38) вР(Л> 0,152 6.4. Дальнейшие свойства сглаженных спектральных оценок 299 В приведенных выше выражениях T<®x(f) — вторая производная спектра. Эти формулы показывают следующее: 1. Если r<^x(f) отрицательна (как, например, в окрестности пика), то смещение отрицательно, и поэтому в окрестностях пиков оценки будут обычно давать заниженные значения. Наоборот, если Г*2* (/) положительна ( как, например, в окрестности впадины), то смещение положительно, и в этих точках оценки будут обычно да- давать завышенные значения. 2. Чем меньше ширина пика или впадины, тем больше Г® ,(f) и, следовательно, тем больше смещение. 3. Смещение BB(f) для окна Бартлетта имеет порядок \/М, и поэтому оно будет, вообще говоря, больше, чем смещения для окон Тьюки и Парзена, которые имеют порядок \/М2. 4. Смещение уменьшается с увеличением М, т. е. с уменьшением ширины окна. 5. При одинаковом значении точки отсечения М, т. е. максималь- максимального запаздывания, на котором корреляционное окно отлично от нуля, окно Парзена дает большее смещение, чем окно Тьюки. Это происходит из-за того, что спектральное окно Парзена шире, чем спектральное окно Тьюки (см. рис. 6.13). Однако дисперсия оценки Парзена меньше, чем дисперсия оценки Тьюки при одном и том же значении М, как будет показано в разд. 6.4.1. Формулы F.3.38) полезны для качественного описания свойств смещения, однако для получения количественной картины нужно построить график среднего сглаженного спектра, как будет пока- показано в разд. 7.1. 6.4. ДАЛЬНЕЙШИЕ СВОЙСТВА СГЛАЖЕННЫХ СПЕКТРАЛЬНЫХ ОЦЕНОК Мы уже исследовали одно важное свойство спектральной оценки, а именно ее смещение. Другое важное свойство описывается ее дисперсией. В разд. 6.3.4 было получено приближенное выраже- выражение для дисперсии в частном случае белого шума при использова- использовании окна Бартлетта. Теперь мы обобщим этот результат на случай произвольного процесса и произвольного окна. Зная дисперсию, можно на любой частоте построить доверительный интервал для истинного спектра. В этом разделе показано, что если две частоты отстоят друг от друга достаточно далеко, то ковариация оценок на этих частотах почти равна нулю. Поэтому для таких частот довери- доверительные интервалы можно строить независимо.
300 Гл. 6. Спектр 6.4.1. Ковариация сглаженных спектральных оценок Вывод точного выражения для ковариации сглаженных оценок на двух частотах довольно сложен. Поэтому здесь мы дадим эври- эвристический вывод результатов, а более подробное изложение будет приведено в приложении П9.1. В способе, излагаемом здесь, мы воспользуемся тем фактом (см. E.2.6)), что любой случайный процесс (X(t) со спектром Txx(f} можно представить в виде белого шума Z (t), пропущенного через линейный фильтр. Воспользовавшись этим фактом и формулами разд. 6.3.3 для ковариации оценок, соответствующих выборочному спектру, в случае белого шума, мы сможем вывести выражения для аналогичных ковариации, но в случае произвольного случайного процесса. Затем уже несложно получить выражения для ковариа- ковариации сглаженных спектральных оценок. Ковариация оценок, соответствующих выборочному спектру. Рассмотрим случайный процесс X (t) со спектром ГХх (f), получае- получаемый из белого шума Z (t) по формуле F.4,1) = j h(u)Z(t — Согласно F.2.16), спектр этого процесса можно записать в виде Гхх (/) = о% | Я (/) |2, - оо< / < оо. F.4.2) Для конечного отрезка процесса X (t) F.4.1) можно приближенно- записать следующим образом: оо X (t) = j h (и)Z(t-u)duxz XT(t), -Г/2 < t < Г/2, F.4.3) где ОО Хт (*) = j /г (и) ZT (t - и) du, -Г/2 < /,< Г/2. F.4.4) о В F.4.4) ZT (t) обозначает конечный отрезок процесса Z(t).. На интервале —Т/2 ^ t «Si 7/2 два процесса X (t) и Хт (t) будут идентичны, за исключением некоторого участка вблизи начала ин- интервала, при условии, что отклик на единичный импульс h (и) убы- убывает до нуля за время, малое по сравнению с Т. Мы предположим, что этим «начальным эффектом» можно пренебречь. В таком случае оценку, соответствующую выборочному спектру Cyy(f) = 4r Г/2 -Т/2 dt 6.4. Дальнейшие свойства сглаженных спектральных оценок 301 можно приближенно записать в виде Г/2 dt -Т/2 Т/2 оо \ZT(t — u)due dt j 1 -Т/2 О = \H{f)\2Czz(f). F.4.5) Таким образом, оценка, соответствующая выборочному спектру, для процесса X (t) приближенно равна соответствующей оценке для белого шума, умноженной на квадрат модуля частотной характери- характеристики фильтра. Поскольку 2CZz (f)/a2z распределена приближенно как х2 с двумя степенями свободы при любых /, то из F.4.5) сле- следует, что величина также распределена приближенно как %2 с двумя степенями сво- свободы. Теперь можно использовать результаты разд. 6.3.3 для спек- спектральных оценок белого шума. Так как E[CZz(f)] = o2z, то из F.3.16) получаем Е [Схх (П) « I Я (/) |2 а| = Гхх (/). F.4.7) Аналогично, так как Cov [Схх (/,), Схх (Л)] = Cov [! Н (/,) р Czz (/,), | И (/2) р Czz (/2)] = = IИ (Л) I21Н (/2) I2 Cov [Czz (/,), Czz (Л)], то из F.3.17) следует, что Cov[Cxx(/.), Cx F.4.8) где мы пренебрегли членом, содержащим Кь. Так как ГХх (/) = = о2 |#(f)|2, то на двух разных частотах /i и /2 ковариация оце- оценок, соответствующих выборочному спектру, для линейного про- процесса равна Cov [Схх (/.). Схх (Л)] ~ Гхх (/,) Тхх (/2) [( *11тТЛ++ы2) J + -J]. F.4.9)
302 Гл. 6. Спектр Формула F.4.9) показывает, что для любого гауссовского случай- случайного процесса X (t) Таким образом, мы получили обобщение результатов разд. 6.3.3, которые были получены только для белого шума. Заметим, что для больших Т выражение в квадратных скобках в F.4.9) ведет себя подобно б-функции с множителем 1/7\ Кроме того, ковариация в точности равна нулю, когда частоты (ft + fz) и (fi — f2) кратны ве- величине 1/7\ Ковариация сглаженных спектральных оценок. Из F.3.30) сгла- сглаженную спектральную оценку Схх if) для процесса X (t) можно записать в виде схх(Л= а, следовательно, ковариация CXx(fi) и Cxx(h) равна ,). Cxx(/2)] = = J \W (/, - g) W (/2 - A) Cov [Cxx (g), Cxx (A)] dg dA. — oo —oo Заменяя Cov [Cxx (g), CXx (h)] на F.4.9) и интегрируя по h, полу- получаем Cov \CXX (/,), Cv оо ~ -Y J T2XX (g) W (/, - g) [ W (/2 + ff) + \F (/2 - g)\ dg, F.4.10) — зо при условии, что Т настолько велико, что члены sin2 nfTI(nfTJ ве- ведут себя как б-функции. Равенство F.4.10) является окончатель- окончательным результатом, но можно еще вывести полезное приближение, предположив, что TXx{f) изменяется плавно на ширине спектраль-. ного окна W(f). При этом предположении F.4.10) переходит в Lxx , F.4.11) где f, ^ f ^ /2. 6.4. Дальнейшие свойства сглаженных спектральных оценок 303 Равенство F.4.11) показывает, что ковариация сглаженных спектральных оценок пропорциональна площади перекрытия спект- спектральных окон с центрами в fi и /г. Следовательно, если спектраль- спектральные окна почти не перекрываются, ковариация будет очень малой. Некоторые численные значения для ковариаций сглаженных спект- спектральных оценок при использовании различных окон будут даны в разд. 7.2. Дисперсия сглаженных спектральных оценок. Если fi = f2=/, то F.4.10) сводится к Var [Cxx(f)} J \^2(^)^, F.4.12) где мы пренебрегли членом J W(g)W(g + 2f)dg, малым по сравнению —оо оо с }W2 (g) dg. Воспользовавшись теоремой Парсеваля, равенство —оо F/4.12) можно переписать в эквивалентном виде Var [Cxx{f)\ Lxx (и) da = Г2ХХ (/) -L . F.4.13) Например, для окна Бартлетта wB {и) из табл. 6.5 имеем м '--II1- и, следовательно, Var[Cxx(/)] М г2 ххх (Л Это показывает, что дисперсию сглаженной спектральной оценки можно уменьшить, выбрав точку отсечения М корреляционного окна малой. Но, как указывалось в разд. 6.3.5, при уменьшении М увеличивается смещение, искажающее теоретический спектр, так как спектральное окно при этом расширяется. В таком случае, как показывает формула F.4.10), спектральные оценки на соседних частотах будут сильнее коррелированы из-за более полного пере- перекрытия спектральных окон. Поэтому точный выбор М является очень важным вопросом. Этот вопрос обсуждается в гл. 7. Заметим, что поскольку Var [CXx{f)]~T2xx{f), то величина F.4.14) Г2хх
304 Гл. 6. Спектр равна относительному уменьшению дисперсии, вызванному сгла- сглаживанием, т. е. использованием сглаженной спектральной оценки вместо оценки, соответствующей выборочному спектру. Значения отношений F.4.14), соответствующих спектральным окнам из табл. 6.5, приведены в третьем столбце табл. 6.6. Видно, что все они имеют вид с(М/Т), где с—некоторая константа, зависящая от окна. т Таблица 6.6 Свойства спектральных окон Название окна Прямоугольное Бартлетта Тьюки Парзена Формула окна M м sin 2л Sin 2гс sin я/Af \2 I sin 2%/M Х- 1 — B/AfJ 3 (sin (iz/M/2) у T \ «/Af/2 ) T 0,667^- 0,75^- 0,539^- M 3 2,667 7 т 0,5 1,5 1,333 1,86 Предположим, например, что точка отсечения М равна 0,17". Тогда для окна Бартлетта //Г = 2/з @,1) = 0,067. Следовательно, беря точку отсечения на расстоянии 10% длины записи, мы снизим дисперсию сглаженной спектральной оценки до 6,7% от дисперсии оценки, соответствующей выборочному спектру. Соответствующие величины для окон Тьюки и Парзена равны 7,5% и 5,4% соответст- соответственно. Следовательно, при фиксированном М из трех рассматривае- рассматриваемых окон наименьшую дисперсию дает окно Парзена. Это объясня- объясняется тем, что, как видно из рис. 6.13, окно Парзена является более широким и плоским, чем два остальных. В результате оно приводит к большим смещениям. Поэтому сравнения окон, сделанные только с учетом дисперсии, могут ввести в заблуждение, как мы увидим позднее. 6.4.2. х2-приближение к распределению сглаженных спектральных оценок В разд. 6.3.5 было показано, что оценка, соответствующая выбо- выборочному спектру Cxx(f), такова, что величина 2CXx(f)rXx(f) имеет приблизительно х2-Распределение с двумя степенями сво- свободы. В этом разделе мы покажем, что соответствующий результат 6.4. Дальнейшие свойства сглаженных спектральных оценок 305 для сглаженной спектральной оценки состоит в том, что величина v'Cxx (f)/Fxx (f) распределена приближенно как х2 с v степенями свободы, где v>2. Это означает, что сглаженные спектральные оценки будут иметь гораздо больше степеней свободы, чем оценка, соответствующая выборочному спектру, что приводит к уменьше- уменьшению их дисперсии. Оценка СХх (f) есть преобразование Фурье оценки ковариацион- ковариационной функции Схх (и), причем сХх («) = 0 вне интервала —Т ^ и ^ ^ Т. Если внутри интервала —Т ^ и ^ Т функция схх (и) пред- представляется некоторой периодической функцией схх(и), такой, что сРхх^ ""^л^""*"^' то ФУНКЧИЯ сРхх(и) представляется в виде ряда Фурье сХх(и) = е ./B*/и/2Г) t =—оо Поскольку корреляционное окно w (и)=0 при \и\^ М, функции crY («) = cvv (u)w(u) и с (и) = ср (u)w(u) совпадают при всех и, так что сглаженная спектральная оценка имеет два эквивалент- эквивалентных представления оо схх(/)= J W(f-g)cxx(g)dg Но и, следовательно, С хх (Л 1= —оо 2Т -L У г ( 1 27 -- °**Г2Г (= —00 \ W Таким образом, сглаженная спектральная оценка является взве- взвешенной суммой случайных величин СХХA/2Т) на субгармонических частотах 1/2Т. Эти случайные величины распределены как х2 t двумя степенями свободы. Следовательно, пользуясь результа- результатами разд. 3.3.5, распределение величины CXx(f) можно прибли- приблизить с помощью распределения величины ах2, где а — константа, и X2 —случайная величина, имеющая х2-распределение с v степенями
306 Гл. 6. Спектр свободы. Из C.3.14) и C.3.15) можно вычислить константы а и v: 2(? \С XX Var С XX F.4.15) F.4.16) Предполагая, что истинный спектр изменяется плавно по срав- сравнению со спектральным окном, получаем из F.3.36) и из F.4.13) Поэтому, подставляя эти выражения в( 6.4.15) и F.4.16), имеем 27 IT ^=~-^ =—• F.4.17) '¦ (и) da rvv(f F.4.18) Следовательно, случайная величина vCxx(f)/^xx(f) имеет х пределение с v степенями свободы, где v задается равенством F.4.17). Таким образом, число степеней свободы сглаженной спектральной оценки зависит от окна w(u). В столбце 4 табл. 6.6 приведены степени свободы, соответствую- соответствующие спектральным окнам, указанным в столбце 2. Например, если используется окно Бартлетта с точкой отсечения М на расстоянии одной десятой длины записи (т. е. М/Т = 0,1), то число степенен свободы оценки равно 3/0,1 = 30. Чем больше число степеней сво- свободы, тем надежнее оценка в том смысле, что ее дисперсия меньше. Однако, как указывалось выше, должен выбираться некоторый компромисс между числом степеней свободы и смещением. Из табл. 6.6 видно, что широкое окно, такое, как окно Парзена WP(f), дает меньшую дисперсию и, следовательно, большее число степеней свободы, чем более узкое окно, такое, как окно Бартлетта WbU). Это находится в согласии со сделанным выше замечанием о том, что чем шире окно, тем меньше дисперсия. 6.4. Дальнейшие свойства сглаженных спектральных оценок 307 6.4.3. Доверительные границы для спектра Поскольку vCxx(f)/Txx{f) имеет %2-распределение с v степе- степенями свободы, где v задается равенством F.4.17), то отсюда полу- получаем Pr U Jxx !--?-)}=!-а. F.4.19) где xv(a/2) определяется из равенства Pr{x* <*v(a/2)} =a/2. От- Отсюда, используя точно такие же рассуждения, что и в разд. 3.3.2, получаем, что интервал Г1-(«/2)] (а/2) F.4.20) является 100A—а) %-ным доверительным интервалом для ГХх(/). Для заданного отношения Т/М значение v, соответствующее дан- данному спектральному окну, можно взять из столбца 4 табл. 6.6. После этого доверительный интервал можно вычислить по F.4.20), взяв с рис. 3.10 множители v/xv(a/2) и v/xv[\ — (a/2)]. Например, выбо- выборочная сглаженная спектральная оценка, приведенная на рис. 6.10, была получена с помощью окна Бартлетта при М/Т = 0,125. По- Поэтому из табл. 6.5 находим v = 3/0,125 = 24. На частоте / = 0,1 гц Czz(f) =0,804, и, пользуясь рис. 3.10, находим 95%-ные доверитель- доверительные границы для Fzz(f): 0,61 • 0,804 = 0,49; 1,94 . 0,804 = 1,56. Аналогично 95%-ные доверительные границы для Fzz(f), получен- полученные с помощью несглаженного выборочного спектра на той же ча- частоте / = 0,1 гц, равны 0,27 • 0,622 = 0,169; 39,5 • 0,622 = 24,6. Эти границы значительно шире, так как при этом выборочной оценке соответствует меньшее число степеней свободы. Заметим, что равенство F.4.19) дает доверительный интервал для rXx(j) лишь на одной конкретной частоте /. Если задать дове- доверительные интервалы на q частотах, на которых оценки независимы, то уровень доверия будет A —a)q, что обычно значительно меньше, чем 1 — а. Отметим еще, что дисперсия будет полно характеризо- характеризовать свойства оценки лишь в том случае, когда мало смещение, как отмечалось в разд. 6.3.5. Поэтому построенные выше доверительные интервалы будут иметь значение лишь тогда, когда спектральное окно достаточно узкое, так что нет заметного смещения. Доверительные интервалы в логарифмическом масштабе. В разд. 7.1.2 будет показано, что выборочные спектральные оценки
308 Гл. 6. Спектр нужно строить в логарифмическом масштабе, так чтобы изменчи- изменчивость спектра могла быть выражена удобным образом. Логарифми- Логарифмический масштаб является также разумным с технической точки зрения, так как обычно важны относительные изменения мощности. Со статистической точки зрения также важно строить спектры в ло- логарифмическом масштабе, так как при этом построение доверитель- доверительного интервала для спектра сводится к откладыванию около выбо- выборочной спектральной оценки одного и того же интервала для всех частот. Таким образом, из F.4.20) доверительный интервал для lgrXx(f) равен (/) + lg-r7br- F-4.21) 6.4. Дальнейшие свойства сглаженных спектральных оценок 309 Поэтому при построении выборочной оценки спектра доверитель- доверительный интервал для всех частот можно указать одним вертикальным отрезком. Рассмотрим, например, выборочную сглаженную спектральную оценку Cxx(f) на рис. 6.10, для которой v = 24. Из рис. 3.10 и F.4.21) находим, что 95%-ные доверительные интервалы для lgrx*(/) равны Для Cxx(f), построенной на логарифмической бумаге, 95%-ный доверительный интервал можно было бы получить, просто построив точки @,61; 1,0; 1,94), взятые с рис. 3.10, в виде вертикального от- отрезка в логарифмическом масштабе. Этот способ мы проиллюстри- проиллюстрируем в разд. 7.2 и в других местах книги. 6.4.4. Ширина полосы частот спектрального окна В разд. 6.4.1 было показано, что полезную характеристику спек- спектрального окна дает величина /= j^w2(u) du, так как I/T есть мера уменьшения дисперсии оценки, обусловленного сглаживанием с помощью спектрального окна. Следовательно, для получения не- небольшой дисперсии нужно выбрать w(u) так, чтобы / было мало. Для заданного окна этого можно достичь, уменьшив М. Полезной характеристикой окна является также его ширина. В следующих разделах будет показано, что для получения хорошей оценки пика спектра «ширина» спектрального окна должна быть того же по- порядка, что и ширина пика. Поскольку спектральное окно отлично от нуля для большинства частот f в диапазоне —оо^/^оо, необхо- необходимо определить точнее понятие «ширины» спектрального окна. Один способ определения ширины, или ширины полосы частот, спектрального окна, который используют статистики [9], состоит в следующем. Рассматривают «полосовое» спектральное окно 1 h ^s r ^* h Это спектральное окно представляет собой прямоугольник в частот- частотной области, ширина которого равна h; таким образом, ширина по- полосы частот этого окна b = h. Из F.4.13) получаем дисперсию сгла- сглаженной спектральной оценки, использующей это спектральное окно; Var[Cxx(/)] тъ Для оценки, использующей спектральное окно отличное от прямо- прямоугольного, естественно определить ширину полосы частот окна как ширину такого прямоугольного окна, которое дает ту же самую дис- дисперсию, т. е. Var[Cxx(/)]. (и) du. F.4.22) Отсюда ширина полосы частот равна 1 1 J j* F.4.23) Например, для прямоугольного корреляционного окна wR(u) и кор- корреляционного окна Бартлетта Wb(u) из табл. 6.5 значения ширины полосы частот равны 1/2Л1 и 1/З.М соответственно. Иногда удобнее пользоваться нормированной шириной полосы частот Ь\, соответствующей значению М=\. Величина bi определя- определяется из соотношения .. F.4.24) м du Например, значения нормированной ширины полосы частот для прямоугольного корреляционного окна и окна Бартлетта равны 1/2 и 3/2 соответственно. В пятом столбце табл. 6.6 приведены значения нормированной ширины для окон из табл. 6.5. Мы видим, что окно Парзена wP имеет нормированную ширину полосы частот примерно в 1,4 раза больше, чем окно Тыоки wT- Инженеры узнают в выражении F.4.23) определение ширины по- полосы частот шума, пропущенного через фильтр. Точное определение ширины полосы частот не очень существенно. Например, некоторые авторы [10] используют в качестве такого определения расстояние между точками, в которых мощность убывает до половины своего максимального значения. Мы предпочли определение F.4.23) из-за
т -310 Гл. 6. Спектр того, что оно использует всю форму спектрального окна и поэтому с помощью этого определения легче отличать окна по их форме, чем по определению, основанному на точках половины максимума. Из F.4.23) видно, что дисперсия спектральной оценки обратно пропор- пропорциональна ширине полосы частот спектрального окна. Действи- Действительно, из F.4.22) и F.4.23) получаем (Дисперсия) X (Ширина полосы частот)= Константа. F.4.25) Следовательно, небольшая дисперсия соответствует широкой полосе частот и большая дисперсия — узкой полосе частот. Кроме того, ра- равенство F.4.17) показывает, что число степеней свободы v сглажен- сглаженной оценки равно Следовательно, из того, что полоса частот широкая, вытекает, что число степеней свободы сглаженной оценки велико, а дисперсия мала. Обратно, из того, что ширина полосы частот невелика, сле- следует, что число степеней свободы мало и, следовательно, дисперсия велика. Поскольку в разд. 6.3.5 было показано, что смещение умень- уменьшается при увеличении М, то отсюда следует, что малому смеще- ¦ нию соответствует и малое значение ширины полосы частот. В следующей главе введенные здесь понятия применяются к практическим задачам оценивания спектра наблюдаемых времен- временных рядов. ЛИТЕРАТУРА 1. Doob J. L., Stochastic Processes, John Wiley, New York, 1953. (Русский пе- перевод: Дуб Дж., Вероятностные процессы, М., ИЛ, 1956.) 2. L a n i n g J. Н., В a 11 i n R. H., Random Processes in Automatic Control, McGraw-Hill, New York, 1956. (Русский перевод: Лэнинг Дж. X., Бэт- Бэтти н Р. Г., Случайные процессы в задачах автоматического управления, М., ИЛ, 1958.) 3. James Н. М., N i с h о 1 s N. В., Р h i! 1 i p s R. S., Theory of Servomecha- nisms, McGraw-Hill, New York, 1947. (Русский перевод: Джеймс, Ни- колье, Филлипс, Теория следящих систем, М., ИЛ, 1953.) 4. Н а 1 d A., Statistical Theory with Engineering Applications, John Wiley, New York, 1952. (Русский перевод: Хальд А., Математическая статистика с техническими приложениями, М., ИЛ, 1956.) 5. Bartlett M. S., An Introduction to Stochastic Processes with Special Reference to Methods and Applications, Cambridge Univ. Press, Cambridge, 1953. (Русский перевод: Бартлетт M., Введение в теорию случайных про- процессов, М., ИЛ, 1958.) 6. В 1 а с k m a n R. В., Т и к е у J. W., The Measurement of Power Spectra from the Point of View of Communications Engineering, Dover, New York, 1958. 7. Grenander U., Rosenblatt M., Statistical Analysis of Stationary Time Series, John Wiley, New York, 1957. 8. P a r z e n E., Technometrics, 3, 167 A961). 9. Jenkins G. M., Technometrics, 3, 133 A961). 30. P r i e s t 1 e у М. В., Technometrics, 4, 551 A962). 1 ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА К ВЫПУСКУ 1 1*. Яглом А. М., Введение в теорию стационарных случайных функций, Усп. мат. наук, 7, вып. 5 E1), 3—162 A952). 2 *. Р а о С. Р., Линейные статистические методы и их приложения, М., изд-во «Наука», 1968. 3*. Линии к Ю. В., Метод наименьших квадратов и основы теории обра- обработки наблюдений, ГИФМЛ, М., 1962. 4*. Гельфанд И. М., Шилов Г. Е.. Обообщенные функции и действия над ними, М., ГИФМЛ, 1958. 5 *. Б е й т м а н Г., Э р д е й и А., Таблицы интегральных преобразований, I, изд-во «Наука», М., 1969. 6 *. Б о л ь ш е в Л. Н., Смирнов Н. В., Таблицы математической статистики, М., изд-во «Наука», 1968. 7*. Шеффе Г., Дисперсионный анализ, М., ГИФМЛ, 1963. 8 *. Джапаридзе К. О., Об оценке параметров спектра гауссовского стацио- стационарного процесса с рациональной спектральной плотностью, Теория веро- вероятностей и ее применения, XV, № 3, 548—554 A970). 9 *. И б р а г и м о в И, А., Об оценке методом максимального правдоподобия параметров спектральной плотности стационарного процесса, Теория веро- вероятностей и ее применения, XII, № 1, 128—134 A967). 10*. Хенна н Э., Анализ временных рядов, М, изд-во «Наука», 1964. 11 *. М а к ¦ К р а к е н Д., Д о р н У., Численные методы и программирование из ФОРТРАНе, М., изд-во «Мир», 1969.
Указатель 313 УКАЗАТЕЛЬ Автоковариационная функция 19, 194 Автокорреляционная функция 19, 182, 185 Амплитуда 38, 60 Ансамбль 179 Башелье — Винера процесс 198 Белый шум с ограниченной полосой частот 186 Боде графики 60—61 Вариационное исчисление 249 Вероятность 81 — плотность 84 Вероятные области 152 Весовая функция 27, 53—55; см. Функция отклика на единичный им- импульс Временное окно 68 ширина 70 Временные ряды 175 Выборочная оценка ковариаций 220 корреляционной функции 224 максимального правдоподобия 150 среднего правдоподобия 155 — спектральная плотность 257, 261 Выборочное распределение 102, 115, 117 — дисперсии 104 Выборочный спектр 257 белого шума 258 свойства оценок 287 Гармоники 36 Гаусс К. Ф. 116 Гаусса теорема 135 Гистограмма 86 Данные акселерометра 87, 89 — ионосферные 37 — о сроке службы ламп 149 — о токе коллектора 83 — о транзисторах 78, 121, 147, 160 — радиолокатора 177 — «скорость—время» 135 — турбогенератора 17, 19—20 Двойники 72 Дельта-функция 47 Диаграмма разброса 87 Дискретизация сигнала 70 Дисперсионный анализ 282 Дисперсия 92, 96 — нелинейной функции 100 Доверительные интервалы 119—124, 133, 137 — области 141, 171 Единичного скачка функция 50 Запаздывание 185 Ковариационная функция выбороч- выборочная 213 • линейного процесса 194 свойства оценок 214 эргодичность 220 Ковариация 95, 99 Комплексное сопряжение 40 Комплексные амплитуды 39 Корреляционная функция 182 оценивание 222 процесса авторегрессии 200 ¦ свойства 192 Корреляционное окно 290, 294 Коэффициент корреляции 97 — усиления 60 Критерий минимума среднеквадра- среднеквадратичной ошибки 189 — значимости 116, 131 Линейная теория наименьших квад- квадратов 165 Линейные системы 52 — уравнения в конечных разностях 65 Линейный процесс 195 ковариационная функция — — моменты 251 оценивание параметров 230 ¦ пример 196 спектр 274 Маргинальное правдоподобие 160 — распределение вероятностей 89 Математическое ожидание 91, 96 Матрица ковариаций 90, 113 — — оценок 142, 168 Метод выборочных распределений 117 — максимального правдоподобия 230 ¦— наименьших квадратов 211 — правдоподобия 115 Моменты выборочные 103 — линейных функций от случайных величин 94, 113 — многомерные 94 ¦— случайного процесса 182 — случайных величин 91 — старшие 94 Мощность средняя 39 Найквистова частота 257 Наложение частот 70 Нестационарность среднего значения 187 — — — и дисперсии 188 Нормальное распределение 159 Нормальные уравнения 135 Обобщенные функции 46 Обобщенный принцип наименьших квадратов 166 Оператор сдвига 67 Ортогональность оценок 143 Оценивание остаточной диспрессии 170 Оценка 118—120 — выбор 118 — максимального правдоподобия 119, 126 — свойства 124—126 Парсеваля теорема 38, 76 Передаточная функция 66 Период 34 Периодограмма 257; см. Выборочный спектр Плотность вероятности 85 — — нормальная 85 ¦— двумерная 89 нормированная 94 Полоса частот ограниченная 41 Постоянная времени 26, 53 Принцип наименьших квадратов 134 — правдоподобия 147 Проверка того, что шум белый 283 Программа MULTICOR 253 Процессы авторегрессии 200, 218 — ¦— выборочные оценки 236 — — корреляционные функции 204 определение порядка 240 оценивание параметров 230 — — спектры 275 — скользящего среднего — авторег- авторегрессии 24, 205 ¦ оценивание параметров 247 — — — — спектры 278 — конечного порядка 199 оценивание параметров 243 Разностные уравнения 65 Распределение вероятностей — — безусловное 89; см. Маргиналь- Маргинальное — — биномиальное 81 — — многомерное 90 — — нормальное (гауссовское) 19, 93 — — Пуассона 93 X2 Ю4, 111 Свёртка 52, 64, 76 Сглаженные спектральные оценки 289 — дисперсия 303 — — — ковариация 302 распределение 304 — свойства 299 Синтез следящих систем 189 Случайная величина 81 Случайное блуждание 188 — поле 178 Случайный процесс 179 — — строго стационарный 185 — телеграфный сигнал 209 Событие 81
314 Указатель Спектр 263 — белого шума 272 — доверительные границы 307 — линейного процесса 274 — мощности 21 — процессов авторегрессии и сколь- скользящего среднего 275 — случайного процесса 263 — средний сглаженный 297 Спектральная плотность 264 — — нормированная 268 — функция 270 Спектральное окно 68, 290 —¦ — Бартлетта 292 Парзена 294 прямоугольное 294 свойства 304 Тьюки 294 — — ширина полосы частот 308 Спектральные оценки 279 свойства 299 сглаживание 289 Среднее значение 91, 96 — — нелинейной функции 99 Среднеквадратичная ошибка 125 Стандартное отклонение 93 Стационарность 182 Степени свободы 106, ПО ¦Стьюдента /-распределение 108, 132 Теория наименьших квадратов 115 134 — проверки гипотез 131 Уиттекера интерполяционная форму- формула 71 Усиление 59 Условная плотность вероятности 181 Устойчивость 59, 63, 66 Фаза 38 ¦Фазовый угол 60 ¦Фильтр 61 — цифровой 23 Фишера количество информации 131, 152 — F-распределение ПО Функция отклика квадратичная 154 на единичный импульс 54 скачок 55 неквадратичная 154 приближение 155 свойства 147 —¦ правдоподобия 146 — распределения 83 двумерная 87 Фурье анализ 33 — интегралы 41 — комплексные ряды 39 — коэффициенты 34 — линейчатый спектр 39 — преобразование 42, 44—52 свойства 74—76 Характеристическое уравнение систе- системы 63 Центральная предельная теорема 85, 138 Частота 36 — основная 36 Частная корреляционная функция 242 Частотное распределение 79 Частотные характеристики 57, 60 Ширина полосы частот 61 Шум белый 194, 229, 283 выборочный спектр 258 спектр 272 способы генерации 273 Эргодичность 270 z-преобразования сдвига 66; см. Оператор ОГЛАВЛЕНИЕ Предисловие к русскому изданию 5 Предисловие 9 Обозначения '• '¦ 12" Глава 1. ЦЕЛИ И СРЕДСТВА АНАЛИЗА ВРЕМЕННЫХ РЯДОВ ... 15 1.1. Временные ряды и случайные процессы 15- 1.2. Описание временных рядов во временной и частотной областях 17 1.3. Цели анализа временных рядов 24 1.4. Круг вопросов, рассмотренных в данной книге 31 Литература : . : : 31 Глава 2. АНАЛИЗ ФУРЬЕ : 35 2.1. Введение :•..:: 33 2.2. Преобразования Фурье и их свойства 44 2.3. Линейные системы и свертки 52 2.4. Применения в анализе временных рядов 6fv Литература • • ¦ ¦ 73 Приложение П2.1. Операторные свойства преобразований Фурье . . 74 Глава 3. ТЕОРИЯ ВЕРОЯТНОСТЕЙ 7» 3.1. Частотные распределения и распределения вероятностей ... 78 3.2. Моменты случайных величин 91 3.3. Выборочные распределения 101 Литература ¦ > 112" Приложение П3.1. Моменты линейных функций от случайных величин ИЗ Глава 4. ВВЕДЕНИЕ В ТЕОРИЮ СТАТИСТИЧЕСКИХ ВЫВОДОВ . . 115 4.1. Историческое развитие теории статистических выводов .... 116 4.2. Применение метода выборочных распределений к статистиче- статистическим выводам : 117 4.3. Оценивание с помощью наименьших квадратов 134 4.4. Выводы, основанные на функции правдоподобия 146 4.5. Резюме : : : '. '. '. 162 Литература : : : 164 Приложение П4.1. Линейная теория наименьших квадратов . . . 165 Литература : : : 174 Глава 5. ВВЕДЕНИЕ В АНАЛИЗ ВРЕМЕННЫХ РЯДОВ 175. 5.1. Стационарные и нестационарные случайные процессы .... 175 5.2. Корреляционная и ковариационная функции . ,, s 192
316 Оглавление 5.3. Оценивание ковариационных функций 210 5.4. Оценивание параметров линейного процесса 230 Литература ! s ; : 248 Приложение П5.1. Вариационное исчисление 249 Приложение П5.2. Моменты линейного процесса 251 Приложение П5.3. Логическая схема программы вычисления кова- риаций : . . : 253 Глава 6. СПЕКТР : : : : 255 6.1. Выборочный спектр : 255 6.2. Спектр : : ? ; ? : 263 6.3. Спектральные оценки : 279 6.4. Дальнейшие свойства сглаженных спектральных оценок . . . 299 Литература :*«? 310 ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА К ВЫПУСКУ 1 311 Указатель 312 УВАЖАЕМЫЙ ЧИТАТЕЛЬ! Ваши замечания о содержании книги, ее оформле- оформлении качестве перевода и другие просим присылать по адресу: 129820, Москва, И-110, ГСП, 1-й Рижский пер., дом 2, издательство «Мир». Г. Дженкинс, Д. Ватте СПЕКТРАЛЬНЫЙ АНАЛИЗ И ЕГО ПРИЛОЖЕНИЯ Том I Редактор Э. А. Медушевская Художник А. Д. Смеляков Художественный редактор В. М. Варлашин Технический редактор Е. Н. Лебедева Сдано в набор 26/1 1971 г. Подписано к печати 18/vrWI- г. Бумага кн.-журн. 60Х90'/|«=Ю бум. л. 20 печ. л. Уч.-изд. л. 18,26. Изд. № 27/5888. Цена 1 р. 06 к. Зак. 1210. ИЗДАТЕЛЬСТВО «МИР» Москва, 1-й Рижский пер., 2 Главполиграфпром Комитета по печати при Совете Министров СССР. Отпечатано в ордена Трудового Красного Знамени Ленинградской типографии № 2 имени Евгении Соколовой. Измайловский пр., 29. Набрано в Ленинградской типографии № 8, Прачечный пер., д. 6.