/
Автор: Хардле В.
Теги: теория вероятностей и математическая статистика математика статистика прикладная математика естественные науки математическая статистика
ISBN: 5-03-002014-4
Год: 1993
Текст
Прикладная непараметрическая регрессия
Applied
nonpar arnetric
regression
Wolfgang Hardle
Facultat Rechts — und Staatswissenschaften
Wirtschaftstheoretische Abteilung II
Adenauerallee 24-26
Rheinische-Friedrich-Wilhelms Universitat
D-5300 Bonn
15.6. 1989
CAMBRIDGE UNIVERSITY PRESS
Cambridge
New York New Rochell Melbourne Sydney
А ХАРДЛЕ
Прикладная
непараметрическая
регрессия
Перевод с английского
А. В. Назина
под редацией
М. Б. Малютова
Москва «Мир» 1993
БВК 22.1
Х20
УДК 519.21
Хардле В.
Х20 Прикладная непараметрическая регрессия: Пер. с англ. —
М., Мир, 1993. — 349 с, ил.
ISBN 5-03-002014-4
Книга известного специалиста из Германии, посвященная но-
новому развивающемуся разделу математической статистики, со-
содержит основные идеи теории и дает обзор современных подходов
к практическому решению общего вопроса о скрытых (от "наблю-
"наблюдателя") зависимостей в имеющихся данных. Книга содержит
богатый материал по приложениям, доведенный до описания па-
пакетов программ для персональных компьютеров.
Для математиков-прикладников, инженеров-исследователей,
аспирантов и студентов вузов.
1602090000-105 ^
Х 041@1)-93 КБ-7-93~202 ББК 22Л
Федеральная целевая программа книгоиздания России
Редакция литературы по математическим наукам
ISBN 5-03-002014-4(русск.) © Cambridge University Press,
ISBN 0-521-38248-3(англ.) 1990
© перевод на русский язык,
А. В. Назин, 1993
Предисловие редактора перевода
Оценивание зависимостей с помощью измерений, возмущенных
случайными ошибками, называемое регрессионным анализом, —
одна из центральных задач статистики. В настоящем переводе
впервые в отечественной литературе дано довольно полное описа-
описание как прикладных, так и теоретических основ непараметриче-
непараметрического регрессионного анализа, иногда неформально называемого
сглаживанием данных.
В параметрической регрессии неизвестная зависимость предпо-
предполагается принадлежащей известному семейству функций, завися-
зависящих от конечномерного параметра. Последний оценивают путем
анализа измерений. Как правило, упомянутое семейство функций
представляет собой линейную комбинацию базисных функций, за-
заданных априори, — линейную регрессию. Размерность этого се-
семейства либо берется с запасом, либо определяется по выборке.
Если выбор конечномерного семейства определяется знанием
закона (например, физического), объясняющего данную зави-
зависимость, а также при недостатке данных или вычислительных
средств такой подход оправдан.
В других ситуациях попытка втиснуть изучаемую зависимость в
"прокрустово ложе" заданного априори семейства может привести
к искажению даже качественной информации об изучаемой зави-
зависимости, например ее особых точек, изменении характера зависи-
зависимости на разных участках и др. Особенно актуальны эти пробле-
проблемы для многофакторной зависимости, при обработке изображений,
т. е. многомерных разрывных зависимостей, при поиске преобра-
преобразований, упрощающих характер зависимости и др.
Методы непараметрической регрессии, разработанные для ана-
анализа таких случаев и не предполагающие включения искомой зави-
зависимости в заданное априори конечномерное семейство, интенсив-
интенсивно развиваются в последние десятилетия. Иногда их применяют
в первой стадии исследования для угадывания параметрического
семейства зависимостей, которое в дальнейшем анализируют.
Существенный вклад в разработку этих методов и их обоснова-
обоснование внесли и советские ученые: А. С. Немировский, Б. Т. Поляк,
6 Предисловие редактора перевода
Я. 3. Цыпкин, И. А. Ибрагимов, М. С. Пинскер, Р. 3. Хасьмин-
ский, В. Я. Катковник, А. П. Коростелев и А. Б. Цыбаков, что
нашло должное отражение в данной книге. Арсенал разработан-
разработанных методов весьма широк, их математическая теория глубока и
содержательна.
Автор книги основное внимание уделяет описанию алгоритмов и
обсуждению особенностей их применения, но интересующийся чи-
читатель найдет необходимую информацию о теоретических резуль-
результатах вместе с набросками их доказательств и ссылки на публика-
публикации, где они строго обоснованы.
Важное значение при сглаживании данных уделяется в книге
робастности методов, т. е. их устойчивости по отношению к изме-
изменению распределения погрешностей, особенно к наличию выбросов,
и развитию статистических выводов об оцениваемой зависимости,
например построению доверительных интервалов, оцениванию то-
точек экстремума и нулей функции регрессии и т. д.
Отметим, что в некоторых методах, например М-сглаживании
(гл. 6), базис пространства линейных по измерениям оценок опреде-
определяется из информации о классе возможных законов распределения
погрешностей (а не задается априори), в то время как размерность
модели определяется во всех методах на основе данных. Оказыва-
Оказывается возможным эффективно учитывать априорную информацию
о зависимости типа ее монотонности, унимодальности и др.
Весьма интересна гл. 10, где наш читатель впервые сможет по-
подробно познакомиться с такими методами непараметрического оце-
оценивания многофакторных зависимостей как
— поочередное усреднение для оценивания преобразования дан-
данных, после которого зависимость сводится к линейной модели;
— дерево регрессий;
— оценки средней производной, представляющей модификацию
метода целенаправленного проецирования, и др.
Сглаживание данных многократно используется как подпро-
подпрограмма в этих методах, что привело к созданию методов сглажива-
сглаживания экономных по вычислительным затратам.
Ценность данной книги повышается тем, что иллюстрация опи-
описанных методов осуществляется на основе интерактивного графи-
графического пакета XploRe программ для ПВМ, созданного под руко-
руководством автора. В настоящее время ведутся переговоры о его рас-
распространении в нашей стране. Информация об этом пакете содер-
содержится в приложении I.
Надеюсь, что появление перевода книги В. Хардле станет замет-
заметным событием для всех, кто занимается анализом данных и матема-
математической статистикой и книга не долго задержится на прилавках
магазинов.
Малютое М. Б>
Посвящается Ренате, Норе,
Виоле и Адриану
Предисловие
Теория и методы сглаживания получили свое развитие главным
образом в последние десять лет. Повышенный интерес к сглажи-
сглаживанию в течение прошедшего десятилетия обусловлен двумя при-
причинами: статистики осознали, что при анализе данных чисто па-
параметрический подход к задачам оценивания кривой не обладает
необходимой гибкостью, а развитие вычислительной техники поро-
породило потребность в создании современной теории вычислительных
методов непараметрического оценивания.
Методы сглаживания имеют давнюю традицию. В девятнадца-
девятнадцатом столетии непараметрический подход использовался в качестве
основного средства эмпирического анализа: в 1857 г. саксонский
экономист Энгель открыл свой знаменитый закон при построении
кривой, которую теперь мы назвали бы регрессограммой. С тех
пор методами непараметрического сглаживания долгое время пре-
пренебрегали, а развитие математической статистики, проходившее
в первой половине настоящего столетия, базировалось в основном
на чисто параметрическом подходе вследствие его вычислительной
простоты, соответствия предположениям рассматриваемых моде-
моделей, а также математического удобства такого описания.
Основное внимание в этой книге сосредоточено на статистиче-
статистических аспектах непарайетрического сглаживания регрессии с точки
зрения приложений. Рассмотренные методы могут использоваться
в биометрике, эконометрике, математике и технике. Обсуждаются
две центральные проблемы, возникающие на практике: выбор пара-
параметра сглаживания и построение доверительных интервалов. Пред-
Представлены и обсуждаются качественные аспекты различных методов
сглаживания, в том числе сплайны и разложение по ортогональным
полиномам. Для простоты изложения особенно подробно рассма-
рассматриваются методы ядерного сглаживания. Показывается, что все
методы сглаживания в асимптотическом смысле по существу экви-
эквивалентны ядерному сглаживанию. Таким образом, представляет-
представляется обоснованным подробное решение проблемы выбора параметра
сглаживания и доверительных интервалов для того метода, кото-
8 Предисловие
рый математически более удобен и проще для понимания на инту-
интуитивном уровне.
Результаты, как правило, сформулированы в довольно компакт-
компактном виде и доказываются только в простейших ситуациях. Я на-
намеренно старался по возможности избегать общности и строгости,
поскольку думаю, что существенные идеи, относящиеся к практи-
практической стороне анализа данных, могут быть поняты без привлече-
привлечения сложного математического аппарата. Обобщения и частные
случаи, а также дополнительные результаты вынесены в "Упраж-
"Упражнения" в конце каждого раздела. Я овдаю себе отчет в том, что это
решение, возможно, обескуражит многих теоретиков и некоторых
статистиков-практиков. Однако я уверен, что для среднего чита-
читателя, интересующегося применением методов сглаживания, такая
форма представления имеющихся средств и математических поня-
понятий будет удобной.
Я хотел бы выразить глубокую благодарность Тео Гассеру и Вер-
неру Хильденбранду. Тео Гассер ввел меня в проблематику, кото-
которую я развиваю в этой книге. Вез его понимания практических
проблем сглаживания я никогда не смог бы выработать точку зре-
зрения о математике-прикладнике. Безусловно, я заимствовал многие
из его идей без соответствующих ссылок. Вернер Хильденбранд от-
открыл для меня методы сглаживания в экономике, особенно в связи
с "законом спроса." Без его постоянной поддержки и глубоко кон-
конструктивной критики я не написал бы эту книгу.
В течение ряда последних лет я тесно сотрудничал с Адрианом
Боуманом, Рэйем Кэрролом, Юргеном Франке, Джеффом Хартом,
Энно Мамменом, Микаэлем Нуссбаумом, Дэвидом Скоттом, Алек-
Александром Цыбаковым и Филиппом Вьо. Их влияние и вклад в зна-
значительной мере определили содержание этой книги. Я хотел бы
поблагодарить их всех за чрезвычайно полезное сотрудничество.
На протяжении последних двух лет я преподавал методы сгла-
сглаживания в Рейнском университете Фридриха Вильгельма в Бонне,
научно-исследовательском институте Марселя (G.R.E.Q.E.), уни-
университетах Дортмунда, Тулузы, Сантьяго-де-Компостела. Мне до-
доставляло истинное удовольствие работать в этих местах и общаться
с коллегами и студентами.
Я особенно благодарен Стиву Мэрону, оказавшему большую по-
помощь в выборе центральных тем книги. Петер Шенфельд указал на
некоторые ошибки в предварительных вариантах рукописи и кон-
консультировал меня при изложении проблемы сглаживания. Я хотел
бы также поблагодарить Чарльза Мански, помогавшего мне в фор-
формировании точки зрения по экономической тематике. Ник Фишер,
Курт Хильденбранд, Джон Райе, Ханс-Петер Шмитц, Ритеи Ши-
бата, Бернард Сильверман и Роб Тибширани читали рукопись на
разных стадиях готовности и помогли улучшить изложение. Их
Предисловие 9
помощь и комментарии приняты с благодарностью. Набор текста
в компьютерной среде без визуализации тщательным образом осу-
осуществили Кристиан Вейер, Ирена Држенсла, Элизабет Фетч, Кат-
Катка Кукул и Рюдигер Плантико. Зигберт Клинке и Бервин Турлах
подготовили эффективные алгоритмы и принимали участие в вы-
вычислениях. Их помощь была значительной, и я благодарен им.
Наконец, я очень признателен за финансовую поддержку Air
Force Office of Scientific Research, the Koizumi Foundation и Deutsche
Forschungsgemeinschaft (Sonderforsehungsbereiche 123, 303).
Бонн i Вольфганг Хардле
ЧАСТЬ I
Сглаживание регрессии
ГЛАВА 1
Введение
"Что касается проблем спецификации модели, это область
исследования исключительно для статистика-практика, по-
поскольку случаи, когда качественная природа гипотетиче-
гипотетической генеральной совокупности известна, не связаны с
какими-либо проблемами подобного рода."
Р. Фишер A922)
Кривая регрессии описывает общую взаимосвязь между объясня-
объясняющей переменной X и переменной отклика У. Для данного~"на-
блюдения X среднее значение переменной У задается функцией
регрессии. Представляет большой интерес получение каких-либо
сведений об этом соотношении. Вид функции регрессии может
показать, для каких значений X следует ожидать наибольшие зна-
значения наблюдений У или обнаружен ли специальный вид зависи-
зависимости между двумя переменными. Особый интерес могут пред-
представлять, например, монотонность или унимодальность. Другие
характеристики включают расположение нулей или величину экс-
экстремального значения. Часто встречаются случаи, когда кривая
регрессии не является самоцелью, а интерес представляют ее про-
производные или другие функционалы.
При наличии п пар данных {(-^»>^)}?=i регрессионное соотно-
соотношение может моделироваться следующим образом:
У; =m(X,.)+ e,., * = 1,...,п,
здесь т — неизвестная функция регрессии, a ?f- — ошибки наблю-
наблюдения. Взгляд на массив точек с координатами Х{ и YJ-, изображен-
изображенных на плоскости, не всегда позволяет установить содержательную
регрессионную зависимость. Возможен обман зрения из-за большо-
большого числа точек или из-за нечетких структур. На рис. 1.1 приведен
пример множества точек на плоскости*&ля зависимости нормиро-
нормированной чистой прибыли Xi от расходов на картофель Yi, взятый из
1. Введение
11
t*'V;il.l:.. л
:
ii inn nth
Рис. 1.1. Расходы на картофель в зависимости от чисто-
чистого дохода. "Цветочный график", на котором У — расходы
на картофель, а X — чистая прибыль британских домаш-
домашних хозяйств в 1973 г. (обе величины выражены в десятках
пенсов), п = 7125. Единицы измерения пропорциональны
средней прибыли и средним расходам соответственно. Чи-
Число лепестков показывает частоту наблюдений, попавших
в ячейку, покрываемую цветком. Family Expenditure Survey
A968-1983).
Family Expenditure Survey A968-1983). Множество точек предста-
представлено в виде "цветочного графика'- (по поводу построения таких
графиков см. (Cleveland, McGill, 1984)).
В этой конкретной ситуации представляет интерес оценивание
средних расходов как функции прибыли. Основное количество
данных покрывает лишь четверть диаграммы с плохим отношени-
отношением "сигнал к чернилам" (Tufte, 1983); следовательно, определение
12 i. Введение
средних расходов для данной прибыли X представляется сложным.
Цель регрессионного анализа состоит в осуществлении разумной
аппроксимации неизвестной функции отклика т. За счет умень-
уменьшения ошибок наблюдения становится возможным сконцентриро-
сконцентрировать внимание на важных деталях средней зависимости У от X
при ее интерпретации. Эта процедура аппроксимации обычно на-
называется "сглаживанием".
По существу эта аппроксимация средней функции может быть
выполнена двумя способами. Довольно часто используется пара-
параметрический подход, заключающийся в предположении, что сред-
средняя кривая m имеет некоторую предписанную функциональную
форму, например, это прямая линия с неизвестными свободным
членом и наклоном. Альтернативой этому может служить попыт-
попытка оценить т непараметрически, без указания конкретного ее ви-
вида. Первый подход к анализу регрессионной зависимости называет-
называется параметрическим, поскольку предполагается, что вид функции
полностью описывается конечным набором параметров. Типичный
пример параметрической модели представляет собой полиномиаль-
полиномиальное уравнение регрессии, когда параметрами являются коэффи-
коэффициенты при неизвестных. Однако при параметрическом подходе
молчаливо предполагается, что кривая может быть представлена в
терминах параметрической модели, или, по крайней мере, имеет-
имеется уверенность в том, что ошибка аппроксимации для наилучшего
параметрического приближения пренебрежимо мала. Наоборот, в
непараметрической модели регрессионной зависимости не произ-
производится проектирования данных в "прокрустово ложе" фиксиро-
фиксированной параметризации, как в примере с аппроксимацией данных
по картофелю. Предварительное задание параметрической модели
может оказаться слишком ограничительным или чересчур малой
размерности для аппроксимации непредвиденных характеристик,
в то время как непараметрическое сглаживание предоставляет гиб-
гибкие средства анализа неизвестных регрессионных зависимостей.
Непараметрический подход приводит, таким образом, к гибко-
гибкому функциональному виду кривой регрессии. Существуют другие
понятия "непараметрических статистик", которые относятся глав-
главным образом к методам, не зависящим от распределения. В на-
нашем изложении, однако, ни распределение ошибок, ни вид средней
функции заранее не задаются.
Вопрос о том, какой подход следует использовать при анализе
данных, составлял предмет ожесточенного спора между Пирсоном
и Фишером. Фишер отмечал, что, как правило, непараметрический
подход дает низкую эффективность, в то время как Пирсон был
более обеспокоен вопросом спецификации модели. В работе (Tapia
and Thompson, 1978) подведен итог этой дискуссии в родственной
постановке оценивания плотности.
1.1. Мотивация 13
Фишер искусно обошел вопрос о том, что делать в случае,
когда функциональная зависимость неизвестной плотности не
определена. Ему удалось сделать это за счет разделения пробле-
проблемы определения еида неизвестной плотности (по терминологии
Фишера, проблемы "спецификации") и проблемы определения па-
раметров, характеризующих указанную плотность (по термино-
терминологии Фишера, проблемы "оценивания").
Обе точки зрения по-своему интересны. Пирсон отмечал, что це-
цена, которую мы должны заплатить за чисто параметрическое при-
приближение, — это возможность грубой ошибки при спецификации,
приводящей к слишком большому смещению модели. С другой сто-
стороны, Фишер выражал обеспокоенность в связи с рассмотрением
моделей без параметров в чистом виде, которые могут приводить к
большому разбросу оценок, особенно для выборок малого объема п.
Пример, иллюстрирующий эти два различных подхода, приве-
приведен на рис. 1.2, на котором прямая соответствует линейному па-
параметрическому приближению (Leser, 1963, 2а), а другая линия
представляет собой оценку непараметрического сглаживания. Обе
кривые моделируют потребность рынка в картофеле как функцию
дохода на основе множества точек, представленных на рис. 1.1. Ли-
Линейная параметрическая модель не может воспроизвести уменьше-
уменьшение потребности в картофеле как функцию возрастающего дохода.
Подход непараметрического сглаживания предлагает в этом слу-
случае более точную U-образную регрессионную зависимость между
доходами и расходами на картофель. Конечно же, чтобы сделать
этот графический способ оценивания качества аппроксимации бо-
более точным, нам необходимо знать, какую величину изменчивости
следует ожидать при использовании непараметрического подхода.
Это обсуждается в гл. 4. Другой возможный подход состоит в объ-
объединении преимуществ обоих методов в полупараметрической сме-
смеси, что и обсуждается в гл. 9 и 10.
1«1. Мотивация
Непараметрический подход к оцениванию регрессионной кривой
преследует четыре главные цели. Во-первых, он предоставляет гиб-
гибкий метод исследования соотношения между двумя переменными.
Во-вторых, он позволяет предсказывать наблюдения, которые еще
только должны быть сделаны, без привязки к фиксированной па-
параметрической модели. В-третьих, этот подход снабжает нас сред-
средством нахождения ложных наблюдений путем изучения влияния
изолированных точек. В-четвертых, он порождает гибкий способ
подстановки пропущенных значений или интерполяции между со-
соседними значениями переменной X.
14
I. Введение
Рис. 1.2. Расходы на катофель в зависимости от чистого
дохода. Линейное параметрическое приближение расхода
на картофель Y в зависимости от чистого дохода X (пря-
(прямая линия) и непараметрическая оценка ядерного сглажи-
сглаживания (ширина окна = 0.4) для тех же переменных, 1973
г., п = 7125. Единицы измерения пропорциональны сред-
средним расходам и доходам соответственно. Family Expenditure
Survey A968-1983).
Гибкость метода чрезвычайно полезна при предварительном ста-
статистическом анализе данных на стадии исследования. При отсут-
отсутствии модельной априорной информации о кривой регрессии ме-
метод непараметрического анализа может оказаться полезным при
определении подходящей простой параметрической формулировки
регрессионного соотношения. Пример изображен на рис. 1.3. В
иследованиях кривых роста человека основной интерес представля-
представляла первая (соответственно вторая) производная функции регрессий
(Gasser et al., 1984; J0rgensen et al., 1985).
Метод непараметрического регрессионного сглаживания вскрыл
дополнительный пик первой производной, так называемый средний
скачок роста в возрасте около восьми лет. Другие подходы, основан-
основанные на априорной фиксации параметрических моделей, приводя!
1.1. Мотивация
15
8 12
Возраст в годах
16
Рис. 1.3. Зависимость роста человека от возраста. На ма-
маленьком графике показаны исходные данные, точки кото-
которых соединены отрезками прямых (сплошная линия), и вы-
выборка в сечениях по годам (штриховые линии). Скорость
изменения роста девушек (наверху) и ускорение (внизу), по-
полученные непараметрическим сглаживателем (сплошная ли-
линия), представлены вместе с параметрическим приближени-
приближением (штриховая линия). Единицы измерения — см (высота),
см/год2 (ускорение). Из (Gasser and Muller, 1984, рис. 1) с
разрешения Scadinavian Journal of Statistics.
к значительным трудностям в обнаружении этого дополнительного
пика (штриховая линия на рис. 1.3).
Аналогичное положение в близкой области оценивания плотно-
плотности описано Хильденбрандом (Hildenbrand, 1986) при определении
плотности доходов британских хозяйств. В теоретической эконо-
экономике, особенно в теорий спроса и равновесия, важно иметь хоро-
хорошую аппроксимацию распределения доходов. Результаты общепри-
общепринятого параметрического приближения по модели Сингха — Ма-
Далла представлены на рис. 1.4.
16
J. Введение
Доход
Рис. 1.4. Зависимость плотности доходов от времени. Ап-
Аппроксимация Сингха — М ад ал л а чистого дохода X с 1969 г
по 1983 г. Единицы измерения — средний доход в каждом
году. Family Expenditure Survey A968-1983).
Параметрический класс моделей плотности Сингха — Мадалла
может воспроизвести только унимодальные плотности. Для срав-
сравнения на рис. 1.5 приведены результаты более гибкого непараме-
непараметрического метода сглаживания. Непараметрический подход да-
дает возможность оценивать функции более высокой сложности и
приводит в данном случае к бимодальному распределению дохода.
Эта бимодальность представлена для тринадцатилетнего периода с
1968 г. по 1981 г. и изменяет свою форму: большинство людей
вступают в "зону меньших доходов", и пик "среднего класса" ста-
становится менее доминирующим.
Пример, еще раз подчеркивающий гибкость при моделирова-
моделировании регрессионных кривых, представлен в работе (Engle, 1986). В
ней рассматривается нелинейное соотношение между потреблени-
потреблением электроэнергии и температурой с использованием процедуры
параметрически-непараметрического оценивания. На рис. 1.6 по-
показан результат применения процедуры сглаживания сплайнами,
которая хорошо моделирует изгиб кривой потребления электро-
электроэнергии.
J.I. Мотивация
17
<o
Доход
Рис. 1.5. Зависимость плотности доходов от времени. Ядер-
Ядерная непараметрическая оценка (ширина окна h = 0.2) плот-
плотности чистого дохода X с 1969 г. по 1981 г. Единицы изме-
измерения — средний доход в каждом году. Family Expenditure
Survey A968-1983).
Другой пример возникает при моделировании кривой концен-
концентрации алкоголя. Обычно в практике судебной медицины исполь-
используется аппроксимация кривой уменьшения этанола с помощью па-
параметрических моделей. А именно, используется модель линейной
регрессии, которая легко позволяет определить так называемую ве-
величину /?60 — уменьшение этанола в час. Конечно, на практике эта
модель может использоваться только на очень ограниченном интер-
интервале времени; распространение на "область остаточного уменьше-
уменьшения этанола" не представляется возможным. Непараметрический
анализ, основанный на сплайнах, привел к смеси кривых линейного
и экспоненциального уменьшения (Mattern, 1983).
Предсказание новых наблюдений представляет особенный инте-
интерес при анализе временных рядов. Многие исследователи сталки-
сталкивались с ситуацией, когда применение конкретных параметриче-
ских моделей оказывалось слишком ограничительным для получе-
получения разумных объяснений наблюдаемых явлений. Непараметриче-
Непараметрическое предсказание временных рядов изучалось в работах (Robinson,
1983) и (Doukhan and Ghindes, 1985). В (Ullah, 1987) используется
18
J. Введение
зо
40 50 60
Температура
70
80
90
Рис. 1.6. Функция температурной зависимости для шт.
Джорджия. Непараметрическая оценка представлена
сплошной кривой, а две параметрические — штриховыми.
Из (Engle et al., 1986) с разрешения Американской статисти-
статистической ассоциации.
ядерное сглаживание при обработке временных рядов цен на рын-
рынке акций и оцениваются индексы рынка. В работе (Deaton, 1988)
методы сглаживания использовались при изучении моделей спро-
спроса в Таиланде и исследовалось влияние знания этих моделей на
ценовую политику. В (Yakowitz, 1985b) для предсказания на день
вперед также применялись методы сглаживания. На рис. 1.7 по-
показана непараметрическая оценка вероятности паводка для реки
Санта- Мария.
Выявление больших выбросов — важный шаг в определении ха-
характеристик имеющихся данных. Экстремальные точки приводят
к такому масштабу графиков, при котором основная масса дан-
данных может стать неразличимой. Имеется обширая литература, по-
посвященная робастным параметрическим методам, в которой обсу-
обсуждается влияние различного рода выбросов. Существует множе-
множество методов диагностики для параметрических моделей, которые,
как правило, справляются с большими выбросами. Однако при
использовании некоторых параметрических моделей можно даже
не обнаружить нежелательное значение из-за возможного полного
искажения параметров большими выбросами. В особенности это
справедливо для изолированных (leverage) значений предикторной
1.1. Мотивация
19
Река Санта-Mapuu, март- май
Рис. 1.7. Непараметрическая оценка вероятности паводка
для реки Санта-Мария. Из (Yakowitz, 1985b) с разрешения
Центра исследования водных ресурсов.
переменной X (с большим плечом). В работе (Rousseouw and Yohai,
1984) приведен пример, в котором линейная регрессия аппроксими-
аппроксимирует несколько выбросов, но пропускает основную массу данных.
Непараметрическое сглаживание дает гибкий метод предваритель-
предварительного отбора данных в направлении оси х без привязки к конкрет-
конкретной параметрической модели. На рис. 1.8 приведен результат не-
непараметрического сглаживания в применении к анализу смодели-
смоделированного побочного воздействия научных занятий. Представлен-
Представленный результат является аппроксимацией вероятности смертельного
исхода как функции антропометрических и биокинетических па-
параметров. В этом случае ординаты У двоичные (У = 1 означает
смертельный исход). Кривая также наглядно демонстрирует, ка-
какие результаты можно получить при анализе влияния выбросов:
кривая имеет спад в области крайних справа изолированных точек
я. Эти точки можно идентифицировать как наблюдения, относя-
относящиеся к молодым людям, имеющим довольно необычную реакцию в
этих экспериментах; см. (Kallieris and Mattern, 1984). Этот пример
более подробно обсуждается в разд. 10.4.
Пропущенные данные довольно часто возникают в практических
задачах. Некоторые переменные отклика могут не записаться из-
за поломки измерительного оборудования или могут отсутствовать
ответы на некоторые заданные вопросы. Непараметрическое сгла-
сглаживание ликвидирует разрыв, вызванный пропуском данных, в то
вРемя как параметрические модели включали бы в интерполяцию
все наблюдения. В пространственной статистике применяется под-
ХоД, состоящий в интерполяции точек методом "кригинга." Этот
20
1. Введение
1.0
0.8
0.6
0.Z
h * 0.3 бвухвесовое яЭро
Эелыго»@.3937, 0.0432, 0.0101)
о» о ol
-0.6
-0Л -0.2
0.2
0.4
0.6
0.8
Рис. 1.8. Индикатор смертельного исхода (У = 1) как функ-
функция индекса стресса и оценка кривой регрессии. Из (Hardle
and Scott, 1988).
метод используется статистиками в гидрологии, горной и нефтя-
нефтяной промышленности и близок к методу предсказания значений
зашумленных данных непараметрическим методом; см. (Yakowitz
and Szidarovszky, 1986). В работе (Schmerling and Peil, 1985) была
использована локально полиномиальная интерполяция в исследова-
исследовании по экстраполяции пропущенных данных.
1.2. Обзор книги
В данной книге принята точка зрения статистика-прикладника,
интересующегося гибкими методами регрессионного анализа для
предварительного исследования. В этой связи основное внимание
будет концентрироваться на простых методах сглаживания и будет
проводиться анализ тех проблем, которые, как правило, возникают
в приложениях. Важными практическими вопросами являются
следующие:
Какова правильная степень сглаживания?
Насколько близка оценка к истинной кривой?
1.2. Обзор книги 21
Каким образом производить эффективное оценивание кри-
кривых при размерностях, превышающих три?
Одним из простейших методов является ядерное сглаживание.
Этот метод прост в применении, не требует дополнительных мате-
математических сведений и понятен на интуитивном уровне. В гл. 2
показывается, что ядерное сглаживание во многих случаях явля-
является подходящим средством. Обсуждаются также разнообразные
альтернативные методы сглаживания такие, например, как сплай-
сплайны. Из результатов гл. 3 видно, что в асимптотическом смысле они
эквивалентны ядерному сглаживанию.
Решающее значение имеет обсуждение вопроса о степени сгла-
сглаживания. Всякий метод сглаживания должен иметь некий упра-
управляющий параметр сглаживания, который устанавливает компро-
компромисс между степенью доверия данным и гладкостью оцениваемой
кривой. Выбор параметра сглаживания влияет на свойства оце-
оценок и должен производиться исходя из практических соображе-
соображений. Эта задача выбора параметра сглаживания обсуждается во
всех подробностях и составляет центральную часть книги (гл. 4 и
5). При использовании конкретного непараметрического метода
следует помнить, что окончательное решение относительно оцени-
оцениваемой кривой регрессии является отчасти субъективным, посколь-
поскольку даже асимптотически оптимальные оценки содержат значитель-
значительную долю шумов, которые оставляют возможность субъективных
решений. Следовательно, очень важно принимать такое решение с
учетом свойств данных, что в идеале означает необходимость иметь
вычислительные ресурсы с интерактивным графическим дисплеем.
Имея это в виду, основную часть дискуссии посвятим алгоритми-
алгоритмическим аспектам непараметрического сглаживания.
В гл. 6 и 7 обсуждаются методы сглаживания при наличии боль-
больших выбросов и корреляции соответственно. В гл. 8 представлены
методы сглаживания при качественных ограничениях, таких, как
монотонность или, в более общем случае, кусочная монотонность.
Сглаживание при размерностях, превышающих три, создает допол-
дополнительные проблемы в области вычисления оценки и определения
ее статистических свойств. С ростом размерности требуется боль-
большее время, необходимое для вычисления оценки, а точность умень-
уменьшается экспоненциально быстро. В гл. 9 представлены некоторые
полупараметрические подходы с целью включения фрагментов па-
параметрического оценивания в непараметрическое сглаживание. В
Гл- 10 обсуждаются аддитивные модели и приводятся эвристиче-
эвристические соображения по ряду вопросов, например почему эти модели
Достигают лучшей точности и в этом смысле смягчают проблему
Размерности.
Высокая гибкость непараметрического оценивания приводит к
начительным трудностям при строгом теоретическом описании
22 1. Введение
точности оценок для выборки конечного объема. Следовательно,
необходимы какие-либо упрощения. Здесь они обеспечиваются
двумя способами. Во-первых, математические формулировки име-
имеют асимптотический смысл, т. е. точность метода непараметри-
непараметрического сглаживания характеризуется в пределе при стремлении
объема выборки п к бесконечности. Во-вторых, класс методов сгла-
сглаживания, к которым приковано внимание, имеет очень простую
структуру (ядерные оценки).
Читателю, интересующемуся прикладными аспектами, не сле-
следует разочаровываться в связи с асимптотическим характером ма-
математических результатов. В книге предпринята попытка пред-
представить эти результаты в духе, соответствующем словам Мюррея
Розенблатта:
"Формулировки ... имели асимптотический смысл, и рассма-
рассматривать их слишком буквально как не имеющие отношения к вы-
выборкам конечного объема ошибочно. Именно использование асим-
асимптотических результатов при их верной интерпретации может
приводить к глубоким идеям."
Технические детали математической теории или просты, или вы-
вынесены в упражнения и дополнения. Каждая глава должна сти-
стимулировать выработку математического обоснования результатов.
Возможно, некоторые читатели, ориентирующиеся на практиче-
практические аспекты, пожелают применить описанные методы на прак-
практике. Это можно осуществить с помощью графически ориентиро-
ориентированных вычислительных средств и систем, таких, например, как
GAUSS A987), ISP A987), S A988) или XploRe A989).
ГЛАВА 2
Основная идея сглаживания
"Если есть уверенность, что m — гладкая кривая, наблю-
дения Я",- вблизи х должны содержать информацию о зна-
значении т в точке х. Таким образом, представляется воз-
можньШ использовать нечто вроде локального усреднения
близких к х данных для формирования оценки т(х).п
Р. Ойбанк A988, с. 7)
Сглаживание данных {(^» YJ)}?=i включает в себя аппроксимацию
кривой среднего значения отклика m в соотношении регрессии
?,., i^l,...,n. B.0.1)
Интерес может представлять сама кривая регрессии, некоторые ее
производные или функции от производных, как, например, экс-
экстремумы или точки перегиба. Набор данных может быть предста-
представлен разными способами. Бели имеются повторные наблюдения в
фиксированной точке X = х, оценивание т(х) может быть вы-
выполнено только за счет использования среднего соответствующих
значений У. Однако получать повторные отклики для данного х,
как правило, невозможно. В большинстве случаев соотношение ре-
регрессии B.0.1) содержит только одно значение переменной откли-
отклика У и одно значение предикторной переменной Х1 которая может
быть вектором в ГОЛ В качестве примера из биометрии приведем
эксперимент по изучению роста человека, описанный в гл. L В
примерах, часто возникающих в экономике, переменная У явля-
является дискретной (указывающей некоторый вариант), а вектор X
означает воздействующую переменную; см. (Manski, 1989).
Существуют другие ограничения на возможность изучения боль-
большого массива данных. Условия эксперимента могут быть невос-
невоспроизводимыми из-за разрушения рассматриваемого объекта. Это
Часто происходит в биомеханических экспериментах. Каллиерис
и Паттерн (Kallieris and Mattern, 1984) описали исследование бо-
боковых ударов, когда кривые ускорения в экспериментах с разру-
24 2. Основная идея сглаживания
шаемыми объектами записывались при моделировании столкнове-
столкновений. Бюджетные ограничения или причины этического характера
также могут заставить экспериментатора провести единственный
эксперимент. Несомненно, можно представить себе ситуации, в
которых проводить более одного эксперимента для определенного
уровня воздействующей переменной X слишком дорого. При этом
возникает следующий вопрос:
Если нет повторяющихся наблюдений, каким образом мы мо-
можем накопить информацию о кривой регрессии?
В простейшем случае, в котором т{х) постоянна, оценивание
m сводится к точечному оцениванию параметра сдвига, посколь-
поскольку среднее по ансамблю реализаций переменной отклика У дает
оценку значения т. Однако в практических исследованиях все же
неправдоподобно предполагать, что кривая регрессии постоянна
(или в это трудно поверить из-за отсутствия достаточного набора
значений отклика). Лучше моделировать предполагаемую кривую
гладкой функцией определенной структуры, являющейся "прибли-
"приближенно постоянной" в малой окрестности около х/ Исходя из ви-
визуального изучения графического изображения множества точек
даже в двумерном случае трудно судить, является ли кривая регрес-
регрессии постоянной. Вспомним, к примеру, случай двоичного откли-
отклика, представленный на рис. 1.8. Представляется сложным сделать
вывод, является ли функция регрессии m гладкой, исходя только
из вида этого набора данных. Тем не менее графическое иссле-
исследование данных иногда полезно. Осмотр двумерной гистограммы
или аналогичных графических представлений может служить под-
подтверждением такому предположению гладкости. Следует, однако,
иметь в виду, что даже при больших массивах данных функция гп
может иметь малые скачки и гладкая кривая регрессии является в
этом случае всего лишь аппроксимацией истинной кривой.
На рис. 2.1 изображен набор данных расходов на питание (У) и
дохода (X). Это графическое представление полного набора дан-
данных не выглядит достаточно ясным, особенно в левом нижнем углу.
Желательно иметь какой-либо метод, позволяющий увидеть ме-
места скопления данных. Иллюстрацией такого метода является так
называемый "цветочный график^ (Cleveland and McGill, 1984): на
рис. 2.2 показан пример зависимости питания от чистого дохода.
Цветочный график строится посредством определения сети ква-
квадратов, покрывающих плоскость (Х> У), и подсчета числа наблю-
наблюдений, попадающих в отдельные квадратики. Число "лепестков
цветка" соответствует числу наблюдений в квадрате этого "цвет-
"цветка", представляя эмпирическое распределение данных. Такой гра-
' В оригинале sunflower plot. — Прим. перев.
2. Основная идея сглаживания
25
2.0
2.5
3.0
Рис. 2.1. Зависимость расходов на питание от чистого до-
дохода. Множество точек зависимости расходов на питание У
от чистого дохода X (обе величины пропорциональны сред-
среднему расходу и среднему доходу соответственно), п = 7125.
(Аналогичный график зависимости расходов на картофель
от чистого дохода см. на рис. 1.1.) Family Expenditure Survey
A968-1983).
фик зависимости расходов на питание от чистого дохода указывает
на сосредоточение данных вокруг увеличивающейся группы плотно
упакованных "цветков". Форма этой группы позволяет предполо-
предположить гладкую зависимость кривой среднего отклика от х.
Другой пример представлен на рис. 2.3, показывающем зависи-
зависимость роста от возраста для группы женщин.
Длина каждой иголки на рис. 2.3 соответствует количеству на-
наблюдений, попавших в свой квадратик на плоскости (X, У). Связь
с Цветочным графиком непосредственная: длина иглы эквивалент-
эквивалентна числу лепестков цветка. Представляется, что для этих данных
зависимости роста от возраста кривая среднего значения отклика
лежит в полосе, которая резко увеличивается с возрастом (пример-
Но До 10-15 тыс. дней), а затем медленно уменьшается по мере
дарения ее членов.
26
2. Основная идея сглаживания
1
X
ill '
* X
X X
1 jj •
1
' 1 Д+*±
dn
я
» T t
1*
4- '
1*. 1
t Д+
tH
Ллл 1 i
I [:; ± j'
j ; |?|
1 i : I
i! -M
i
+
4-
1^
дТ
-r
1
1
1
1
1 ' 1
1 1
X. i 1
IAI ,
1 1 1
'ti
i i
л \хх i
Э1! '
1
|
i
i
i
r
1
1
Рис. 2.2. Зависимость расходов на питание от чистого дохо-
дохода. Цветочный график зависимости расходов на питание Y
от шстого дохода X (обе величины пропорциональны сред-
среднему расходу и среднему доходу соответственно), п = 7125.
Показаны данные по 1973 г. (Аналогичный график зави-
зависимости расходов на картофель от чистого дохода см. на
рис. 1.1.) Family Expenditure Survey A968-1983).
При взгляде на рис. 2.2 и 2.3, иллюстрирующие зависимости пи-
питания от чистого дохода и роста от возраста, наши глаза факти-
фактически проводят сглаживание: данные выглядят сконцентрирован-
сконцентрированными главным образом в гладкой группе (переменного размера).
Эта группа не имеет явно выраженных скачков или быстрых ло-
локальных флуктуации. Следовательно, разумной аппроксимацией
кривой регрессии т{х) будет какая-нибудь представительная точ-
точка вблизи центра этой группы значений переменной отклика. Со-
Совершенно естественно взять среднее значение переменной отклика
в окрестности точки х. Это "локальное усреднение" должно быть
таким, чтобы оно определялось только по наблюдениям из малой
окрестности точки х, поскольку У-наблюдения далеких от х точек
будут иметь, вообще говоря, сильно различающиеся между собой
средние значения. Эта процедура локального усреднения может
рассматриваться как основная идея сглаживания. Более формаль-
2. Основная идея сглаживания
27
34000
186
23000
11500
Рис. 2.3. Зависимость роста от возраста. Гистограмма дву-
двумерного распределения высоты Y (в см) в зависимости от
возраста X (в днях) для п = 500 женщин. Шаг по возрасту —
2 года, по высоте — 2 см. Длина каждой иголки соответству-
соответствует числу наблюдений, попавших в ячейку. Источники: Ин-
Институт судебной медицины, Гейдельбергский университет.
но эта процедура может быть определена как
B.0.2)
**=i
где {Wni(x)}?=l означает последовательность весов, которые могут
зависеть от всего вектора {Х{}?=1.
Каждый метод сглаживания, описываемый в данной книге, име-
имеет вид B.0.2), по крайней мере асимптотически. Довольно «асто
метод вычисления регрессионной оценки т(х) называют сглажи-
вапгелем, а получающуюся на выходе процедуры сглаживания ве-
величину — собственно оценкой (Tukey, 1977). Оценка для набора
Данных по картофелю уже была представлена на рис. 1.2. За счет
°пределения постоянных весов на соседних интервалах можно по-
получить очень простую оценку. Эта процедура сглаживания анало-
аналогична гистограмме; в связи с этим Тьюки (Tukey, 1961) назвал ее
Р€грессограммой. Для данных по картофелю регрессограмма пред-
28
2. Основная идея сглаживания
Рис. 2.4. Зависимость расходов на картофель от чистой
прибыли. Ступенчатая функция — непараметрическая
оценка (регрессограмма) расходов на картофель как функ-
функции чистого дохода. Данные были нормированы относитель-
относительно их среднего значения. Прямая линия означает линей-
линейное приближение кривой средних расходов, п = 7125, 1973 г.
Family Expenditure Survey A968-1983).
ставлена на рис. 2.4. Веса {И^п,(ж)}"=1 определялись здесь посто-
постоянными на блоках длины 0.6, начиная с 0. При сравнении с цве-
цветочным графиком у этого набора данных (рис. 1.1) заметно умень-
уменьшается влияние шума и, кроме того, видно, что регрессограмма
значительно отличается от линейного приближения.
Особое внимание следует обратить на тот факт, что по опреде-
определению сглаживатель производит усреднение наблюдений с различ-
различными средними значениями. Степень сглаживания регулируется
последовательностью весов {И^Дя)}^!, зависящих от параметра
сглаживания. Этот параметр управляет размером окрестности точ-
точки х. Локальное усреднение по слишком большой окрестности не
приведет к хорошим результатам. В этом случае будет происходить
"чрезмерное сглаживание" кривой, приводящее к смещению оценки
т. С другой стороны, определив параметр сглаживания так, что-
чтобы он соответствовал чересчур малой окрестности, мы исключим из
оценки важные данные. В этом случае лишь небольшое количество
наблюдений будет давать вклад й оценку т(х) в точке х, делая ее
грубой и непредставительной, а разброс оценки т(х) будет слиш-
слишком большой. Задачу выбора значения параметра сглаживания,
2. Основная идея сглаживания
29
Рис. 2.5. Зависимость расходов на картофель от чистой
прибыли. Извивающаяся и плавная кривые — две непара-
непараметрические оценки расходов на картофель как функции
чистого дохода. Данные были нормированы относительно
их среднего значения. Ядро квадратичное, h = 0.1 и h = 1.0
соответственно, п = 7125, 1973 г. Family Expenditure Survey
A968-1983).
которое соответствует компромиссу между чрезмерным и слабым
сглаживанием, называют задачей выбора параметра сглаживания.
Для ознакомления с задачей выбора параметра сглаживания рас-
рассмотрим рис. 2.5. Обе кривые представляют непараметрические
°Ценки кривой Энгеля — кривой зависимости средних расходов
как функции дохода. Менее плавная кривая была получена для
ядерной оценки с очень малым параметром сглаживания. Наобо-
Наоборот, более пологая кривая была получена при очень большом пара-
Метре сглаживания. Какое значение параметра сглаживания явля-
являйся правильным? Этот вопрос будет обсуждаться в гл. 5.
Существует другой способ трактовки формулы усреднения
U-0.2). Допустим, что веса {И^п,-(ж)} положительны и их сумма
30 2. Основная идея сглаживания
равна единице для всех х, т. е.
п
п ?>„<(*) = 1-
Тогда т(х) является оценкой наименьших квадратов в точке х,
поскольку мы можем записать т(х) как решение следующей задачи
минимизации:
min n-1 J2 \Уы(х)(У{ - в)* = п ]Г Wni(x)(Yt - m{x)f. B.0.3)
i = l 8=1
В этой формуле квадраты невязок суммируются с весами. Дру-
Другими словами, основная идея локального усреднения эквивалентна
процедуре нахождения оценки локально взвешенных наименьших
квадратов.
Из теории робастного оценивания хорошо известно, что при на-
наличии непредсказуемого сбоя в исходных данных можно ослабить
их влияние на свойства оценки локальных наименьших квадратов.
Если такие сбои или выбросы (в переменной Y) присутствуют, бо-
более предпочтительные характеристики можно ожидать от робаст-
ии.1 сглаживателей, придающих меньший вес большим невязкам.
Эти сглаживатели обычно определяются как нелинейные функции
данных, и в рамках локального усреднения механизм их прибли-
приближающего воздействия неочевиден. Однако для большого массива
данных они могут быть аппроксимированы взвешенным средним
соответствующих нелинейно преобразованных невязок; см. гл. 6.
Таким образом, основная идея взвешенного усреднения, выражен-
выраженная формулой B.0.2), применима и к подобным методам нелиней-
нелинейного сглаживания.
2.1. Стохастическая природа наблюдений
Рассмотрим две модели генерации данных {(X,-, У^)}"=1- В первой
постановке мы имеем дело с независимыми одинаково распреде-
распределенными случайными величинами {(^,У^)}"=1. Кривая регрессии
определяется как
т(х) = Е{У\Х = х). B.1.1)
Это определение корректно, если Е\У\ < оо. Если существует со-
совместная плотнбсть /(я, у), то т(х) можно вычислить следующим
образом:
m(x) = Jyf{x,y)dy/f(x), B.1.2)
2.2. Трудности сглаживания 31
где /(#) = / f(x,y)dy — маргинальная плотность X. Более деталь-
детальное обсуждение этого выражения см. в (Feller, 1971, с. 71). Эту
модель обычно принято называть моделью со случайным планом
эксперимента. Наоборот, модель с фиксированным планом экспе-
эксперимента соответствует управляемой неслучайной переменной X,
причем
У; = т(Х,.) + ?,-, 1 < г<п,
где {?,}?>! — случайные величины с нулевым средним и дисперсией
а2. Во многих экспериментах предикторные переменные {Х,}"-!
выбираются равноотстоящими на отрезке [а, 6]; без ограничения
общности можно предположить, что [а, 6] = [0,1] и Xf = i/n.
Примером применения модели с фиксированными точками на-
наблюдения является изучение изменения роста человека. Значения
переменной X полностью определялись группой врачей-педиатров
(Gasser et al., 1984). Напротив, данные рис. 2.3, выборка значе-
значений роста и возраста, не имеют подобного характера управляемой
переменной X, так как X и Y являются случайными. В обоих слу-
случаях следует произвести усреднение по соседним наблюдениям, а
интервал усреднения и величины весов увязать с относительной
частотой переменной X.
Большинство из представленных в этой книге результатов отно-
относится к случаю стохастического описания, поскольку рассматрива-
рассматриваемые здесь экономические приложения соответствуют именно мо-
модели со случайными наблюдениями. Изучение некоторых вопро-
вопросов для модели со случайными наблюдениями может приводить к
огромному количеству математических выкладок технического ха-
характера. Исходя из этого идеи статистического оценивания иногда
приводятся только для модели с фиксированными точками наблю-
наблюдения. Идеи такого рода переносятся на модель со случайными
наблюдениями, но это требует значительно большего объема утоми-
утомительных выкладок. Некоторые математические обоснования при-
приводятся схематично лишь для модели с фиксированными точками
наблюдения, так как указанный случай легче анализируется.
2«2. Трудности сглаживания
Сглаживание, как и любой другой метод статистического оценива-
оценивания, должно преодолевать некоторые преграды, что требует спе-
специального рассмотрения и согласования. Как уже упоминалось,
По сравнению с параметрическим подходом появляется большая
изменчивость в некотором асимптотическом смысле. С чисто ко-
количественной точки зрения можно убедиться в том, что уменьше-
{ие точности оценивания происходит "только в асимптотическом
смысле" и, следовательно, не приходится ожидать серьезных труд-
32 2. Основная идея сглаживания
ностей при обработке конкретных данных. Действительно, при
умеренных объемах выборки доверительные интервалы не будут
существенно больше, чем для параметрических моделей. Однако
естественно возникает вопрос, что происходит в процессе сглажива-
сглаживания — в качественном смысле — при обработке данных. Другими
словами, каковы "качественные преграды", например искажение
формы, ожидаемое при сглаживании конечного набора данных?
Наиболее простой способ получения ответа на этот вопрос состоит
в предположении об отсутствии шума. В этом случае наилучшая
стратегия — вообще не сглаживать.
Один из вопросов связан с поведением в области всплесков т.
Так как усреднение производится по соседним наблюдениям, оче-
очевидно, что оценка m в точке всплеска будет до некоторой степени
выравнивать этот максимум. Такое поведение указывает на то,
что следует ожидать смещения для конечной выборки, которое за-
зависит от локальной кривизны т. Безусловно, возможность "асим-
"асимптотического восстановления" состоит в стягивании окрестности
усреднения в точку я, но при обработке конкретного набора дан-
данных следует производить определенную настройку параметров (см.
разд. 5.3).
На границе интервала наблюдения процесс локального усредне-
усреднения сталкивается с асимметрией, т. е. половина весов Wni(x) не
определена и относится к точкам, лежащим за границей интерва-
интервала. Это также является причиной смещения: оценка будет зави-
зависеть от поведения касательной на границе. Модификации с учетом
влияния границы обсуждаются в разд. 4.4. Другая ситуация воз-
возникает в случае, когда имеются области, в которые редко попадают
данные. Если веса Wni(x) выбраны без учета этой специфики, мо-
может оказаться, что значения весов не определены из-за отсутствия
данных. Надежный способ обеспечения того, чтобы наблюдения
попадали в окно усреднения, заключается в выборе весов с пере-
переменным интервалом. Задачи подобного рода обсуждаются в гл. 3.
Какой объем вычислений мы ожидаем? В каждой точке х ве-
веса определяют некоторую окрестность, в которую попадает часть
значений X имеющихся данных. Простейший способ вычисления
оценки {^(^j)}"=i содержит вычисление при каждом г = 1,..., п
весов Wni(Xj) для всех j = 1,..., п. К сожалению, это дает О(п2)
операций. Если такой алгоритм реализуется какими-либо интерак-
интерактивным способом, то вычисления могут занять так много времени,
что в действительности процесс не будет интерактивным. Следо-
Следовательно, необходимо предпринять специальные меры обеспечения
эффективности численной реализации методов сглаживания. Вы-
Вычислительные аспекты различных схем взвешивания обсуждаются
в гл. 3.
2.2. Трудности сглаживания 33
Дополнения
Читатель, не интересующийся математическими деталями, может
опустить это дополнение к разд. 2.1. Допустим, что эксперимен-
экспериментатор выбрал значения переменной X в точках {Х|-}"=1 фиксиро-
фиксированного отрезка [0,1]. Существует ли способ выражения локаль-
локальной плотности наблюдений X? Определим эмпирическую функ-
функцию распределения Fn как
Предположим, что существует абсолютно непрерывная функция
распределения F на отрезке [0,1] такая, что Fn-+ F равномерно на
[0,1]. Примером нестохастической переменной X, имеющей регу-
регулярное распределение с плотностью / = F' на [а, Ь] = [0,1], является
Ясно, что
и, следовательно,
sup
<<
В случае стохастической переменной X достижимая скорость не-
несколько меньше. По теореме Гливенко — Кантелли (см. (Serfling,
1980, теорема 2.1.4Ь))
sup I^H-FMIsOtn-^OoglognI/2) п.н.
u
Таким образом, в обоих случаях можно говорить о маргинальном
распределении F переменной X, хотя в случае управляемой пере-
переменной X случайность отклика возникает только из-за помех на-
наблюдения {?,}?-!•
ГЛАВА 3
Методы сглаживания
"Первостепенная проблема состоит в выборе метода для ис-
использования в данной практической ситуации и, если мы
остановились на конкретном методе, в выборе различных
параметров, необходимых для его работы."
Сильверман A986, с. 32)
В этой главе проводится обзор основных методов сглаживания ре-
регрессии. Ядерные оценки будут более подробно обсуждаться в по-
последующих главах, но полезно прояснить некоторые общие струк-
структуры основных методов сглаживания до изучения конкретного ме-
метода. В частности, вводятся специфические Последовательности
весов {W'nt-fa)}?-! для ядерных оценок, сплайнов, методов k-NN-
сглаживания и сглаживания с помощью ортогональных рядов. Эти
последовательности весов сопоставляются друг с другом, и показы-
показывается, что одним из наиболее простых способов вычисления после-
последовательности весов является ядерное сглаживание. В представлен-
представленном здесь кратком обзоре наиболее употребительных методов.основ-
ное внимание уделяется функции регрессии одной переменной. Это
сделано по двум причинам. Во-первых, обозначения сильно услож-
усложняются для многомерной переменной X, Во-вторых, обсуждаемая
в гл. 10 аппроксимация аддитивной модели использует алгоритмы
одномерного сглаживания как простейшие составные блоки. При-
Приводится сравнение различных методов на модельном массиве дан-
данных и на данных о мотоцикле, представленных в табл. 1 и 2 при-
приложения 2.
3.1. Ядерное сглаживание
Идейно простой подход к представлению последовательности весов
{^п»(х)}?=г1 состоит в описании формы весовой функции Wni(x) по-
посредством функции плотности со скалярным параметром, который
регулирует размер и форму весов около х. Эту функцию формы
3.1. Ядерное сглаживание 35
принято называть ядром К. Ядро — это непрерывная ограниченная
симметричная вещественная функция К с единичным интегралом
K(u)du = 1. C.1.1)
Последовательность весов для ядерных оценок (для одномерного
х) определяется как
Wni{x) = Khn(x - *,)/Д», C.1.2)
где
п
t ( \ -1 ^Г v (~ v \
hn\x) = п / ,KhAx~'Ai)i
представляет собой ядро с параметром масштаба Лп. Подчеркнув
зависимость А = Ап от объема выборки п, условимся сокращен-
сокращенно обозначать последовательность весов C.1.2) через {И^Л|(ж)}р=1.
Функция Д() является ядерной оценкой плотности Розенбла-
та — Парзена (Rosenblatt, 1956; Parzen, 1962) для (маргинальной)
плотности переменной X. Вид C.1.2) ядерных весов Whi(x) был
предложен в работах (Nadaraya, 1964) и (Watson, 1964), и, как след-
следствие,
часто называют оценкой Надарая — Ватсона. форма ядерных ве-
весов определяется ядром Ку в то время как размер весов параметри-
зируется посредством переменной А, называемой шириной окна.
Нормализация весов Д(я) позволяет адаптироваться к локаль-
локальной интенсивности переменной X и, кроме того, гарантирует, что
сумма весов равна еденице. Вообще говоря, можно брать различ-
различные ядерные функции, нр как практика, так и теория ограничива-
ограничивают выбор. Так, например, ядерные функции, принимающие очень
малые значения, могут приводить к машинному нулю компьюте-
компьютера, поэтому разумно рассматривать такие ядерные функции, кото-
которые равны нулю вне некоторого фиксированного интервала. Обыч-
Обычно используется ядерная функция, обладающая некоторыми свой-
свойствами оптимальности, обсуждаемыми в разд. 4.5; это функция
параболического типа (Epanechnikov, 1969; Bartlett, 1963):
К(и) = 0.75A - u2)I(\u\ < 1). C.1.4)
36 3. Методы сглаживания
Рис. 3.1. Ядро Бпанечникова. Это ядро К(и) = 0.75A -
«2)/(|м| < 1) имеет параболическую форму и носитель [-1,1].
График этого так называемого ядра Епанечникова представлен на
рис. 3.1.
Заметим, что это ядро не дифференцируемо при и = ±1. Ядер-
Ядерная оценка не определена для значения ширины окна с fh(x) = 0.
Если такой случай /0" возникает, то rhh(x) определяется как 0.
Допустим, что ядерная оценка вычисляется только в точках на-
наблюдений {Х,}"=1. Тогда при h —> 0,
mh{X() -* К@)У{/К@) = У<;
следовательно, малая ширина окна воспроизводит данные. Иссле-
Исследуем теперь, что происходит при Л —> оо. Допустим, что К имеет
носитель [—1,1], как на рис. 3.1. Тогда К(х - Xjh) —> /\@) и,
следовательно,
3.1. Ядерное сглаживание 37
Слишком большое значение ширины окна приводит таким образом
к чрезмерному сглаживанию кривой — среднему арифметическому
значений переменной отклика.
Выясним, каким образом ядро Епанечникова воздействует на ре-
реальные данные и какова форма весов {Whi(x)}^=1? Чтобы прояс-
прояснить эти вопросы, рассмотрим опять данные зависимости расхо-
расходов на питание от чистого дохода (см. рис. 2.1 и 2.2). Экономиста
интересует оценка так называемой статистической кривой Энгеля
(Engel), определяющей средний расход на питание при заданном
уровне доходов. Ядерное сглаживание представляет собой одну
из возможных процедур оценивания этой кривой. Ядерные веса
{W/»(x)} зависят от значений наблюдений X через оценку плотно-
плотности //>(#)• На рис. 3.2 представлена эффективная весовая функция,
используемая для оценивания этой кривой Энгеля, описывающей
расходы на питание в 1973 г.; весовая функция центрирована в
точке х — 1 и имеет ширину окна h =0.1, 0.2, 0.3. Заметим, что
эффективная весовая функция зависит только от значений X.
С помощью этого рисунка можно уяснить два факта. Во-первых,
очевидно, что чем меньше ширина окна, тем больше веса концен-
концентрируется вокруг х. Во-вторых, в областях с редкими данными,
где оценка маргинальной плотности fh мала, последовательность
{W/ii(x)} придает больший вес наблюдениям, близким к х. Дей-
Действительно, в окрестности точки х = 1 оценка плотности Д(#) до-
достигает максимума, а в точке х = 2.5 плотность примерно в десять
раз меньше, чем ДA). (См. рис. 1.5 для 1973 г., четвертый контур,
считая сначала.)
Для многомерной предикторной переменной Х+ = (Xil}..., Xid)
можно использовать произведение одномерных ядер
Тогда в приведенном случае ядерные веса задаются соотношением
пРичем в определении оценки плотности Розенблата — Парзена
также используется произведение ядер.
В прикладных областях возникают ситуации, когда плотность
1(х) — F'(x) переменной X известна. Ядерные веса, изучавшиеся
в выборочной схеме такого рода (Greblicki, 1974; Johnston, 1979,
982; Greblic\i md Krzyzak, 1980) и (Georgiev, 1984a, 1984b), имеют
38 3. Методы сглаживания
Рис. 3.2. Эффективные ядерные веса для данных, предста-
представляющих зависимость расходов на питание от чистого до-
дохода. Kh(x - )/Д(х) в точках х = 1 и х = 2.5 для h = 0.1
(метка 1), h = 0.2 (метка 2), h = 0.3 (метка 3) с ядром Епа-
нечникова К(и) = 0.75A - u2)I(\u\ < 1) и оценкой плотности,
как на рис. 1.5; 1973 г., п = 7125. Family Expenditure Survey
A968-1983).
следующий вид:
^м (х) = Кн(х ~" Х{)//(х): C.1.5)
Часто наблюдения переменной X выбираются на одинаковом
расстоянии друг от друга и образуют равномерную решетку то-
точек некоторого интервала. Примерами могут служить наблюдения
величины, относящейся к долготе места, или дискретизированный
аналоговый процес; см. (Miiller, 1987). Не теряя общности, мож-
можно предположить, что наблюдения переменной X следует выбирать
из единичного интервала [0,1]. В этом случае можно использовать
модифицированные ядерные веса {И^(х)} с плотностью равно-
равномерного распределения / = /[0д], на [0,1]. Для модели с фиксиро-
фиксированным планом наблюдений, состоящим из почти равномерно рас-
распределенных на [0,1] неслучайных точек {Х,}?=1, Пристли и Чао
3.1. Ядерное сглаживание 39
(Priestley and Chao, 1972) и Бенедетти (Benedetti, 1977) рассмотре-
рассмотрели последовательность весов
W%\x) = n(Xi-Xi_l)Kh(x-Xi), (Xo = 0). C.1.6)
Интерпретация этой последовательности весов в терминах C.1.2)
возможна, если положить f(x) =± [п(Х4 — ^«i)] для х Е
(Xt_i,^,]- Гассер и Мюллер (Gasser and Muller, 1979) определили
последовательность относительных весов
Kh(x-u)dUi C.1.7)
где Xi_i < 5,_! < X+ выбираются среди упорядоченных данных пе-
переменной X. Ченг и Лин (Cheng and Lin, 1981) исследовали частный
случай, когда 5,- = Х±. Понятие асимптотической эквивалентности
весовых последовательностей {W?t- } и {W^f. } вынесено в раздел
упражнений. Заметим, что суммы весов для [W^]'} и {W^} не
обязательно равны единице, а для {W^ } равны 1.
Веса WJ^\x) относятся к так называемому сверточному сгла-
живанию1) по терминологии Кларка (Clark, 1980); см. упражне-
упражнение 3.1.1. Последовательности весов {W^'(x)} и {w?t- (ж)} исполь-
использовались главным образом для модели с фиксированными точка-
точками наблюдений. Теоретический анализ стохастического поведения
для моделей со случайными наблюдениями показывает, что диспе-
дисперсия оценки отличается от дисперсии ядерного сглаживателя На-
дарая — Ватсона; см. разд. 3.6.
Состоятельность ядерных оценок rhh с весами Надарая — Ват-
Ватсона Whi(x)> определяемыми соотношением C.1.2), указана в ни-
нижеследующем предложении. Доказательство состоятельности для
Других последовательностей весов совершенно аналогично и выне-
вынесено в упражнения.
Предложение 3.1.1. Допустим, что для модели со случайным
кланом эксперимента для одномерной предикторной переменной
X.
Ш) J\K(u)\dn<oo,
(At) Um|ll|_M)Oti#:(ti) = 0,
(
(A3) EY2 < oo,
(A4) п-юо, /in-»0, nhn -+ oo.
оригинале convolution smoothing. — Прим. перев.
40 3. Методы сглаживания
Тогда в любой точке непрерывности m(x), f(x) и <т2(х) пр
/(«) > о2)
Доказательство этого предложения содержится в дополнениях к
этому разделу. Сформулированный результат показывает, что ядер-
ядерная оценка сходится по вероятности к истинной кривой отклика
т{х). Естественно поставить вопрос, насколько быстрой может
быть эта сходимость. Одним из способов количественной оцен-
оценки скорости сходимости в точке х связан со среднеквадратичной
ошибкой
dM(x,h) = E[mh(x)-m(x)J.
Следующая теорема дает скорость убывания dM(x, ft) как функцию
ft и п. В целях наглядности она формулируется для модели с фик-
фиксированным планом эксперимента. Скорость сходимости для более
сложного случая модели со случайным планом эксперимента такая
же Однако константы иные, и они представлены в разд. 4.1.
Теорема 3.1.1 (Gasser, Muller, 1984)- Предположим, что рассма-
рассматривается модель с фиксированным планом эксперимента и для
одномерной предикторной переменной X используется ядро
ск
= I K2{u)du
dK= fu2K(u)du.
Пусть выбраны веса {WJ?'}, и
(АО) К имеет носитель [-1,1] с #(-1) = кA) = °>
(Al) m e С\
(А2) тах{\Х< - Х{_г\ = Oin-1),
(A3) уаг(е{) = <т2, г = 1,.. .,п,
(А4) п —> оо, ft —> 0, nft —> оо.
Тогда
dM(xy ft) « (nft)- Vc* + h4d2K[m"(x)]2/4.
Очевидно, автор подразумевает, что <т2(Х) = D(ei\Xt; = х). — ПриМ
ред.
3.1. Ядерное сглаживание 41
Среднеквадратичная ошибка состоит из Двух частей, дисперсии
и квадрата смещения. Сформулированная выше теорема утвержда-
утверждает, что смещение как функция Л возрастает, а дисперсия убывает.
Это качественное соображение раскрывает сущность задачи сгла-
сглаживания: Баланс между дисперсией и квадратом смещения. Мы
вернемся к этому вопросу в гл. 4.
Ядерные оценки как методы локально-
полиномиального приближения
Ядерные веса определяют некоторую окрестность вокруг точки х,
лежащей на сетке. Изучим вопрос полиномиального приближения
в такой окрестности.
Простейшим полиномом приближения в такой окрестности
является константа. Имеет место поразительная аналогия между
локально полиномиальным приближением и ядерным сглаживани-
сглаживанием. Для фиксированной точки х ядерная оценка rhh{x) с поло-
положительными весами Whi{x) является решением следующей задачи
минимизации:
- if = ?>„(* - Х№ - mh(x)J. C.1.8)
1=1 «=1
В этом смысле ядерная оценка может пониматься как локально по-
полиномиальное приближение в виде константы: она минимизирует
сумму квадратов невязок в окрестности точки х, форма и размер
которой определяются последовательностью Kh. Какова взаимо-
взаимосвязь между более сложными полиномиальными приближениями
и ядерным сглаживанием?
Изучим этот вопрос для модели с фиксированными точками на-
наблюдения. Рассмотрим равномерно расположенные точки Xi = i/n
и локально параболическое приближение. Возьмем точку х до-
достаточно далеко от границы интервала наблюдения. (Поведение
ядерных оценок на границе интервала наблюдения обсуждается в
Разд. 4.4.) Рассмотрим равномерное ядро Ки(и) = ^ 1(\и\ < 1),
которое параметризует окрестность точки х. Таким образом, мы
Должны минимизировать
п-1 ? К%(х - *4)(У4 - а - Ь(Х{ - xff
°тносительно аиЬ. Линейный член здесь не присутствует, посколь-
поскольку он "ортогонален" симметричному равномерному ядру. Нормаль-
42 3. Методы сглаживания
ные уравнения3^ для этой задачи имеют вид
г, ? К%(х - Х№ - а - 6(Х,- - хJ) = 0, C.1.9)
1
т. ?** (« ~ *<)A| ~ « " *(*< " *J)(*< - *J = 0.C.1.10)
Определим У как n"*1 ][\ /fj^(s — Xf-)YJ и после этого аппроксими-
аппроксимируем п"*1 ?^ /f{f(« - Jf,-) единицей. Для больших п сумму
можно заменить на
' K»(z-u)(x-ufdu.
J
Непосредственное интегрирование дает значение Л2/3. Использо-
Использование аналогичных рассуждений для n Y^/f^(x — Х^(х — Х^)А
показывает, что нормальные уравнения C.1.9), C.1.10) могут быть
переписаны в виде
у_а_(А2/3)б = 0,
А - (Л2/3) а - (Л4/5) 6 = 0,
где
Элементарные алгебраические вычисления показывают, что а удо-
удовлетворяет уравнению
ЗЛ2 У - 5А + (-3 + 5/3) Л2а = 0,
которое имеет решение
\
- ъ) C -
Аналогично может быть вычислена оценка 6, приводящая к "ло-
"локальной параболе" a + b(x — tiJ в малой окрестности точки х. В
Решение системы нормальных уравнений есть оценка наимень-
наименьших квадратов для параметров а и 6, см., например, Себер Дж.
Линейный регрессионный анализ. М.: Мир, 1980. — Прим, ред.
3.1. Ядерное сглаживание
43
-50
-Ю0
450
Рис. 3.3. Локально параболическое приближение. Ядерная
оценка для данных зависимости ускорения от времени (см.
разд. 8.1). Ядерная оценка сравнивается с локально парабо-
параболическим приближением в точках х = 525 и х = 620.
самой точке х оценка значения кривой регрессии т равна а. Вни-
Внимательное изучение соотношения C.1.11) показывает, что значение
а может быть записано в виде
где
2(«) = C/8) C -
представляет собой ядро с нулевыми первым, вторым и третьим
моментами. В рассматриваемой постановке задачи с равноотстоя-
*Цими значениями предикторной переменной ядерное оценивание с
ядром К * по существу является локально параболическим прибли-
приближением. На рис. 3.3 показаны некоторые "локальные параболы"
вместе с ядерной оценкой, основанной на ядре К?. Выборка взята
из массива данных зависимости ускорения от времени (обсужде-
(обсуждение см. в разд. 8.1).
Эквивалентность локально полиномиального приближения и
ядерного сглаживания подробно исследовалась в работе (Muller,
у0 Некоторые численные сравнения выполнены в (Schmerling
44 3. Методы сглаживания
and Peil, 1985, рис. 1). В последней работе использовалась последо-
последовательность весов гауссовского ядра
К(и) = B7т)-1'2 exp(-ti2/2)
и проводилось сравнение с локальными приближениями Констан-
Константой, линейной и параболической функциями для примера из обла-
области сельского хозяйства.
Ядерные оценки производных
Методы ядерного оценивания могут быть также применены и для
оценивания производных функции регрессии. Ядерные оценки
производных определяются посредством дифференцирования весо-
весовых функций по ж. Если веса достаточно гладкие и последователь-
последовательность ширины окна изменяется правильно, то эти оценки будут
сходиться к соответствующим производным функции т. Это мож-
можно легко продемонстрировать на примере равноотстоящего распо-
расположения точек наблюдения с ядерной оценкой, использующей веса
Пристли — Чао {И^'(ж)}. Взяв Jb-ю производную по я, получим
C.1.12)
ж и. i
Таким образом, ядерная оценка ife-й производной т представляет
собой локальное среднее значение переменной отклика, в котором
в качестве весов используются Аг-е производные я черных весов.
Предложение 3.1.2. Рассмотрим модель с фиксированными точ-
точками наблюдения одномерной предикторной переменной X и опре-
определим
ск =
Введем ядерные веса Пристли — Чао4) {WJ?\x)} и предположим}
что
(АО) К е <**> имеет носитель [-1,1] с
О, i = 0,...,*-l,
(А1) тЩх) € С2,
(At) Х{ = i/n, х = 1,...,п,
См. C.1.6). — Прим. ред.
3.1. Ядерное сглаживание 45
(AS) var(ei) = <т2, t = l,...,n,
(A4) " ^ oo, hn -» 0, пЛ*+1 -f oo.
rfM(», A) * (nA»+l)-Veg> + *«#> V*+S)(«)]f/(* + 2)!2.
Краткое доказательство данного предложения приведено в до-
дополнениях к этому разделу. В работе (Gasser and Miiller, 1984)
изучались несколько другие веса, основанные на производных
{Wfc? \х)}- ^ Учетом асимптотической эквивалентности весовых
функций {W^t- (х)} и {W^s- (х)} (см. упражнение 3.1.10) тот факт,
что ядерная оценка Гассера — Мюллера имеет то же разложение
среднеквадратичной ошибки, что и в предложении 3.1.2, неудиви-
неудивителен. На рис. 3.4 показан пример применения метода Гассера —
Мюллера, в котором вычисляют скорость и ускорение роста. Верх-
Верхние графики позволяют сравнить скорости роста (первая произ-
производная) мальчиков и девочек. Нижние графики демонстрируют
сравнение ускорений роста для обоих полов.
В случае неравномерно расположенных точек наблюдения, а так-
также для случайных X, последовательности весов становятся более
сложными. Здесь по-прежнему работает принцип дифференци-
дифференцирования ядерных весов с целью получения ядерных оценок для
производных функции регрессии. Например, первую производную
mf(x) можно оценивать, используя последовательности эффектив-
эффективных весов
вд
fh(*) (ЛИJ
где
t=l
является оценкой первой производной маргинальной плотности
Вычислительные аспекты ядерного
сглаживания
Редположим, что требуется вычислить ядерную оценку Нада-
рая — Ватсона в N различных точках. Непосредственное приме-
т€^? Ф°РмУлы C.1.2) для ядра с неограниченным носителем по-
Ре°овало бы 0(Nn) вычислительных операций для определения
46
3. Методы сглаживания
4 8 12 16
Возраст в годах
Рис. 3.4. Первая и вторая производные ядерных оценок.
Кривые средней скорости роста (наверху) и среднего уско-
ускорения (внизу) для мальчиков (штриховая линия) и для дево-
девочек (сплошная линия). Из (Gasser et al., 1984) с разрешения
Института математической статистики.
оценок в N точках решетки. Время вычисления можно несколько
сократить при использовании ядер с конечным носителем, напри-
например [—1,1]. При этом локальное усреднение производится только в
окрестности размером h с центром в каждой точке решетки. Коли-
Количество вычислительных операций будет равно O(Nnh), поскольку
примерно 2nh точек попадает в интервал длины 2Л. Так как Л = Л„
стремится к нулю, то использование ядер с ограниченным носите-
носителем представляется более предпочтительным.
Для оптимизации параметра сглаживания необходимо повто-
повторить процедуру сглаживания несколько раз, и, следовательно, да-
даже для выборки умеренного объема алгоритм был бы слишком ме-
медленным. Более эффективные алгоритмы ядерного сглаживаний
могут быть определены посредством предварительного разделения
3.1. Ядерное сглаживание 47
данных по интервалам разбиения5) вида
В(х; «о, Л) = [«о + kh> хо + (* +
для некоторого целого Агб\ Это означает, что переменная отклика
заменяется на кусочно-постоянную функцию со значениями, рав-
равными среднему арифметическому значений отклика, попавших в
соответствующий интервал разбиения. Аналогичным образом пре-
дикторная переменная заменяется на частоту попадания в соответ-
соответствующий интервал разбиения. Этот этап дискретизации требует
0(п) вычислительных операций.
Преимущество в количестве вычислительных операций возника-
возникает при построении взвешенных средних по округленным точкам
(WARPO). Рассмотрим, в частности, набор "начальных точек"
_
0-* -
м
и оценим, например, маргинальную плотность с помощью среднего
арифметического гистограмм с начальными точками Xq k,
м-г
Д|ТО(«) = m-1 ]Г #{': Xi 6 В(а:;хо,Л)}/(пЛ)
*=о
(М - |i|)#{t : Xi € В(«; «0, h)}/(nh).
Треугольные веса A — |ib| /M) можно, очевидно, заменить более об-
общей последовательностью весов. Например, использовать кварти-
ческое ядро
«2J/(|«| < 1),
которое соответствует весам
- *2/М2J, \к\ < М.
Используя это обобщение, перепишем полученные формулы в более
°бщем виде
\к\<М
5) ^
° оригинале bins. — Прим. персе
Десь к зависит от i,aio = хОк. — Прим. ред.
ARP — Weighted Average of Rounded Points. — Прим. перев.
48 3. Методы сглаживания
где i(x) — интервал разбиения, в который попадает х. Заметим, что
в рассмотренном выше случае сглаживания плотности RPX — ча-
частота округленных точек в t-м интервале разбиения8). Применение
этой идеи к сглаживанию регрессии дает оценку
WM(k)YileHk/f(z),
\к\<М
где У, — среднее значение переменной отклика по ?му интервалу
разбиения. Оценки этого типа обсуждаются в работе (Hardle and
Scott, 1988). После дискретизации данных число вычислительных
операций имеет порядок O(NM).
Другой подход опирается на преобразование Фурье
§(*) = / g(x)exp(-itx)dx.
Заметим, что преобразование Фурье числителя д(х) =
п5^7=1 Kh(x ~" XiWi в выражении оценки Надарая — Ватсона,
имеет вид
Бели используется гауссово ядро
то K(t) = exp(—12/2). Повышение вычислительной эффективности
возникает за счет выделения операции сглаживания из преобразо-
преобразования Фурье данных. Преобразование Фурье данных
может быть вычислено с помощью процедуры быстрого преобра-
преобразования Фурье. Если данные дискретизируются по N интервалам
разбиения, как описано выше, количество операций будет состз
влять O(N logN). Заметим, что для вычисления какой-либо ядер
ной оценки требуется лишь умножить нормированное преобрази
вание Фурье ядерной функции на преобразование Фурье даннЫ*
которое может храниться в памяти компьютера. Алгоритм, реал#
зующий этот подход, изложен в работе (Hardle, 1987a).
' RP — Rounded Points. — Прим, перев.
J.I. Ядерное сглаживание 49
упражнения
3.1-1- Вспомним определение последовательности весов ^
Рассмотрим линейную интерполяцию между двумя после-
последовательными наблюдениями (Ximml,Yimml) и (ХОУ{) при
(X0,Y0) = (СП)
Функция кусочно-линейной интерполяции данных может
быть записана в виде
(Clark, 1980) предложил рассмотреть свертку этой кусочно-
линейной интерполяции и ядерной функции с шириной ок-
окна h:
= j Kh(x-u)Gn(u)du
mi
Покажите, что при равноотстоящих точках наблюдения пе-
переменной х на отрезке [0,1], т. е. при Хг = i/n, последний
член сходится по вероятности к нулю.
3.1.2. Обсудите поведение ядерной оценки при замене одного из
наблюдений на очень большую величину, т. е. исследуйте
случай, когда (Х{, У^) —* (Хг, Y{±c) при с —> оо для фиксиро-
фиксированного I. Как изменяется кривая при таком возмущении?
Что произойдет при подобном возмущении переменной X,
т. е. при замене (Х,,^) - (Х{ ± с,У{)?
^•1.3. В ситуации с равномерно расположенными Xi = i/n мы
говорили, что локально линейное приближение не имеет
особого смысла при симметричном ядерном весе. Рассмо-
Рассмотрим теперь ситуацию со случайными X. Следует ли теперь
ожидать выигрыш при использовании локально линейной
аппроксимации?
50 3. Методы сглаживания
3.1.4. Получите по аналогии с предложением 3.1.1 разложе-
разложение асимптотической среднеквадратичной ошибки ядер-
ядерных оценок с последовательностями весов {И^,. } и {И^- }
соответственно.
3.1.5. Вернемся к взвешенному локальному приближению по-
полиномами. Если порядок аппроксимирующего полинома
<р0 = 1 равен р = О, то rhh(x) представляет собой обыч-
обычную ядерную оценку с весами W^(x) = Whi(x)/fh(x). Для
локально линейной аппроксимации имеем
?о(«) = 1,
<рх(и) = (и - х0) - Мп(х0)/М10(х0),
где
t=i
Это приводит к
_ М20(х)М12(х)-М21(х)Мп(х)
mh[X)~ MlQ(x)Ml2(x)-[Mn(x))* '
где
Опробуйте этот метод на практике. (В работе (Schmerling
and Peil, 1977) представлена ALGOL-программа, реализую-
реализующая эту процедуру.) Прокомментируйте отличие от обыч-
обычного ядерного сглаживания.
3.1.6. Убедитесь в том, что ядро К*, использованное выше при ис-
исследовании локально параболической аппроксимации (см.
3.1.13), действительно является ядром и имеет нулевые пер-
первый, второй и третий моменты.
3.1.7. Рассмотрим данные зависимости затрат на продукты пита-
нця от чистого дохода, представляющие набор положитель-
положительных чисел. Предположим, что ваша задача состоит в полу-
получении ядерной оценки на праврм конце интервала наблю-
наблюдений. Что произойдет, если ядро К имеет "отрицательные
концы", т. е. хвосты ядра К могут иметь отрицательные
значения?
3.1.8. Дайте строгое доказательство предложения 3.1.2. (Набро-
(Набросок доказательства приведен в дополнениях к этому разде-
разделу.) Сравните остаточные члены смещения для аппрокси-
аппроксимаций с последовательностями весов {WJ^\x)} и
соответственно.
3.1. Ядерное сглаживание 51
3.1.9. Используя теорему 3.1.1, получите скорость сходимости
dM(x,h) при оптимальном выборе Л, т. е. при
А = hoPt = SLTgmmdM(xyh).
З.1.Ю. Покажите асимптотическую эквивалентность последова-
последовательностей весов {WJ?\x)} и {wf?\x)} в следующем смы-
смысле:
3.1.11. Объясните, почему f(X^) = n(X^ — X^imml^)t как в после-
последовательности весов C.1.6), является разумным вариантом
при оценивании плотности. [Указание: рассмотрите асим-
асимптотическое распределение разностей Х^ — Ху_гу]
Дополнения
Доказательство предложения 3.1.1
Доказательство этого предложения следует методу, использованно-
использованному в (Parzen, 1962) для задачи оценивания плотности. Вспомним
определение ядерных весов
Whi(x) = Kh(x-Xi)/fh(x).
Рассмотрим числитель и знаменатель отдельно. Покажем, что
п
h\x Л1)*1 m\X)j\X) — тух)) yo.i.i^)
Д(«) = п-1 JT Kh(x - Х{) Л /(*). C.1.15)
» = 1
Из C.1.9) и C.1.15) по теореме Слуцкого (см. (Schonfeld, 1969, гл. 6))
следует, что
Докажем C.1.14). Соотношение C.1.15) доказывается совершен-
совершенно аналогично. Заметим, что
= J J
kh(x- ||
гДе /(ti, у) — совместная плотность распределения (X, У). Условное
сРеднее при фиксированном и равно
Kh{x-u)r(u)du,
52 3. Методы сглаживания
поскольку
тМ = / yf(y№)dy = J УН", y)dy/ J /(", y)dy.
Выполняя интегрирование с помощью подстановки (см. лемму 3.1.1
в этих дополнениях), получаем, что для 6 > О
\Erh(x) - г(*)| < sup \г(х - *) -
+ *-1 sup |,
Последние два члена этой верхней оценки стремятся к нулю при
п —> оо в силу (А1) и (А2). Теперь устремляем 6 к нулю; при этом
первый член в силу непрерывности г() будет стремиться к нулю.
Это доказывает, что Efh(x) — г(х) = оA) при п —> оо. Обозначим
теперь s2(x) = E(Y2\X = x). Интегрируя и используя получен-
полученную выше асимптотическую несмещенность гЛ(х), получаем, что
дисперсия гЛ(х) равна
уаг(г„(*)) = п-2
«=1
Последняя величина асимптотически близка к n~lh~l f K2(u)du
s2(x)f(x)y что можно показать аналогично тому, как это было сде-
сделано выше путем расщепления интеграла. Теперь видно, что дис-
дисперсия стремится к нулю при nh —> оо. Это завершает рассу-
рассуждение, так как среднеквадратичная ошибка E(rh(x) — г(х)J =
var(ffc(x)) + [Efh(x) - г(х)]2 -+ 0 при п -+ оо, nh -> оо, h —> 0.
Таким образом, гЛ(ж) —¦¦ г(х). Отсюда следует гЛ(х) —> г(х), см.
(Schonfeld, 1969, гл. 6). Приведенное доказательство молено обоб-
обобщить на случай ядерного оценивания с многомерной величиной
X. Если вектор X rf-мерный, Kh заменяется на h~dK(x/h), где К:
3.1. Ядерное сглаживание 53
IRa —> Ш,, а отношение, фигурирующее в аргументе функции К,
следует понимать покомпонентно.
Лемма 3.1.1. Оценка гЛ(х) функции г(х) асимптотически несме-
несмещенная.
Производя замену переменной интегрирования и используя тот
факт, что интеграл ядра равен единице, получим оценку сверху
\Ег„(х) - r(x)\ = f Kh(x - u)(r(u) - r(x))du
= JKh(s)(r(x-s)-r(x))ds
[ \Kh(s)\\r(x-s)-r(x)\d8
\Kh(S)\\r(x-s)\ds
[ \Kh(s)\\r(x)\ds
\s\>6
Первый член можно оценить следующим образом:
Т1п < sup \r(x -s)- r(x)\ j \К{8)\ ds.
\.\<s J
Третий член
T3n<\r(x)\J\K(s)\ds.
Оценим второй член:
Т2п= I \sKh(s)\\r(x-s)\/\s\ds
J\,\>s
< sup \sKh(s)\ I \r(x-s)\/\s\ds
\s\>t> J\,\>S
= 6~x sup \sK(s)\ f\r(s)\ds.
\s]>t/h J
аметим, что последний интеграл существует в силу предположе-
Ния (A3) предложения 3.1.1.
54 3. Методы сглаживания
Краткое доказательство предложения 3.1.2
Оценка производной rrrh \x) асимптотически несмещенная. Ис-
Используя интегрирование по частям, (АО) и (А4), получаем
1=1
=«/»-* I кЩи) m{x - uh)du C.1.16)
= Л~*+1 / *r(*-x)(«) т^\х - uh)du
= I K(u) mW(i - uh)du
, ~ т<*>(х) + h*™m<-k+2\x)/(k + 2)!, h — 0,
Как показывает следующее преобразование, дисперсия оценки
т\ \х) стремится к нулю при пЛ2*+1 —> со :
1 = 1
f[K^\u)]2du (т2. C.1.17)
3.2. Оценки А:-блиэкайших соседей
Конструкция оценок ближайших соседей отличается от ядерных
оценок. Ядерная оценка rhh(x) определялась как взвешенное сред-
среднее переменных отклика в фиксированной окрестности точки х,
причем веса определялись ядром К и шириной окна Л. Оценка
k-ближпйших соседей*^ представляет собой среднее взвешенное в
изменяющейся окрестности. Эта окрестность определяется только
теми значениями переменной X, которые являются к ближайшими
к х по евклидову расстоянию. Последовательность Jfc-iVW-весов бы-
была введена в работе (Loftsgaarden and Quesenberry, 1965) для близкой
задачи оценивания плотности и использовалась в (Cover and Hart,
1967) для целей классификации. Для рассматриваемой здесь зада-
задачи оценивания регрессии Jb-iVW-сглаживатель определяется как
^ИУ,, C.2.1)
k-NN — ^-Nearest Neighbor. — Прим. nepee.
3.2. Оценки k-ближайших соседей 55
где {^*|(х)}?=1 послеД°вательность весов, задаваемая множеством
индексов
Jx = {* : Х{ одно из ближайших Jfe наблюдений х}.
С помощью этого множества индексов соседних наблюдений после-
последовательность k-N TV-весов формируется следующим образом:
/*' если1€7г; C22)
, иначе. v '
Стремясь получить представление о том, каким образом строит-
строится последовательность весов, обратимся к следующему примеру.
Пусть выборка {(*,.,У;)}?=1 равна {A,5), G,12),C,1), B,0), E,4)},
и нужно вычислить k-N N-оценку тпк(х) для х = 4 и к = 3-. Тогда
ib наблюдениями, ближайшими к х, являются последние три точки
выборки, следовательно, Jx = J4 = {2,3,5}, и поэтому
WM = 0» WiwW = 0, Wk3D) = 1/3, ИЪ4D) = 1/3, И^вD) = 1/3,
откуда ш3D) = A + 04- 4)/3 = 5/3.
В экспериментах с равноотстоящим выбором значений перемен-
переменной X веса k-NN-оценки эквивалентны ядерным весам. Положим
k = 2nh и сравним {И^Дх)} с {Whi(x)} для прямоугольного ядра
К (и) = |/(|и| < 1) при значении х, достаточно удаленным от гра-
границы. Имеем для i E Jx:
Параметр сглаживания ib определяет степень гладкости оценки
кривой. Он играет ту же роль, что и ширина окна для ядерных
сглаживателей. Влияние переменного к на качественные характе-
характеристики оценки аналогично случаю ядерных оценок с прямоуголь-
прямоугольным ядром.
Рассмотрим при фиксированном п случай, когда к превосходит
п- Тогда k-NN-оценка, равна среднему значению переменной откли-
ка- В другом предельном случае, когда к = 1, в точках Х{ воспро-
воспроизводятся наблюдения, и в целом получается кусочно-постоянная
ФУнкцция, претерпевающая разрывы посередине между двумя со-
седними значениями предикторной переменной. Здесь мы снова
видим проблему выбора параметра сглаживания: ib следует выби-
Рать как функцию п или даже как функцию данных. Пресле-
?Уя первую цель — уменьшение влияния шума, можно положить
^ *п в виде неограниченно возрастающей функции объема вы-
Рки. Вторая цель состоит в обепечении малой ошибки аппрокси-
аЦии (смещения). Вторая цель достигается, если размер окрест-
ти точки х в пределе стремится к нулю. Это можно обеспечить,
56 3. Методы сглаживания
определяя к = кп с учетом условия кп/п —> 0. К сожалению, это
условие противоречит первой цели. Для того чтобы обеспечить воз*
можно малую дисперсию, следует выбирать по возможности боль-
большое значение к.
Итак, мы снова сталкиваемся с проблемой компромисса между
"хорошей аппроксимацией" функции регрессии и "хорошим пода-
подавлением" шумов в наблюдениях. Эта проблема компромисса может
быть сформулирована с помощью разложения среднеквадратичной
ошибки к- N TV-оценки на два слагаемых, соответствующих диспе-
дисперсии и квадрату смещения.
Предложение 8.2.1 (Lai 1977). Пусть к —> оо, к/п —* 0, п —> оо.
Смещение и дисперсия k-NN-оценки тк с весами, определяемыми
(S.2.2), описываются выражениями
Етк(х) - т(х) * —L-y [(m"/ + 2m'/')(*)] (ВД2,
уаг{т*(*)} » ?-&.
Таким образом, компромисс между квадратом смещения и дис-
дисперсией достигается в асимптотическом смысле при Jb ~ п4^5. При
этом сама среднеквадратичная ошибка сходится к нулю со скоро-
скоростью порядка Jb" ~ п~(А1ъ\
Другая последовательность весов Wki(x) была предложена в ра-
работе (Stone, 1977), где кроме "прямоугольных весов" C.2.2) рас-
рассматривались "треугольные и квадратичные k-NTV-веса". Вообще
говоря, можно представлять себе веса так, как будто они порожда-
порождаются ядерной функцией К:
где
— ядерная оценка плотности f(x) с последовательностью ядер
a R = Rn — расстояние между точкой а: и ее Jb-м ближайшим со
седом. В приведенном выше примере сж = 4и& = 3 расстоян^
R должно быть равно 2, так как наблюдение B,0) является 1
далеким из трех соседних с точкой х = 4.
3.2. Оценки k-ближайших соседей
57
Рис. 3.5. Эффективные к-NN-веса для данных зависимо-
зависимости затрат на питание от чистого дохода. KR(x — .)//я(х)
в точках х = 1 и х = 2.5 для к = 100 (метка 1), к = 200
(метка 2), к = 300 (метка 3) с ядром Бпанечникова К (и) =
0.75A - t*2)J(|ti| < 1) и той же оценкой плотности, что и на
рис. 1.3; 1973 г., п = 7125. Family Expenditure Survey A968-
Для того чтобы выяснить свойства этой последовательности ве-
с°в, рассмотрим опять пример с картофелем. На рис. 3.5 показа-
*Ь1 эффективные k-NN-веса WRi (x), аналогичные ядерным весам
^лН*) на рис. 3.2.
Совершенно ясно отличие между ядерными весами. На правом
конце данных, где наблюдения становятся редкими, i-JVW-веса
Размазываются шире по сравнению с ядерными весами, предста-
^енными на рис. 3.2. В работе (Mack, 1981) вычислены смещение
Дисперсия для этой параметризации весов {}
58 3. Методы сглаживания
Таблица 3.2.1. Смещение и дисперсия ядерных и k-NN-оценок
Источник: Маек A981, табл. 1).
Ядерная оценка fc-AW-оценка
Дисперсия ; ' ск —-—ск
nhf(x) к
Предложение 8.2.2 (Mack 1981). Пусть к —> оо, к/п —> О, п —» оо
и пусть cKidK определены так же, как в теореме 3.1.1. Тогда
C.2.5)
Как следствие этого предложения получаем, что баланс между
вкладами квадрата смещения и дисперсией в среднеквадратичную
ошибку такой же, как и для прямоугольных k-NN-весов C.2.2), и
он достигается при k = Jfcn, где кп пропорционально пА1ъ. Полагая
параметр ширины окна ft ядерных оценок примерно эквивалент-
эквивалентным величине ^nJfc", мы видим, что скорости убывания смещения
и дисперсии оценки rhR полностью эквивалентны аналогичным ве-
величинам ядерных оценок, а различаются лишь константы. Смеще-
Смещение rhR имеет тенденцию к увеличению на хвостах маргинально-
маргинального распределения. Ядерные оценки демонстрируют другое поведе-
поведение: их дисперсия пропорциональна /(х)", а в знаменателе смеще-
смещения стоит /(ж), а не /3(я). Сравнение свойств среднеквадратичной
ошибки для ядерных и k~NN-оценок можно найти в табл. 3.2.1.
Табл. 3.2.1 показывает асимптотическую зависимость смещения
и дисперсии от /, к и ft. Легко видеть, что элементы в каждой
строке табл. 3.2.1 становятся эквивалентными при соотношении
к = 2nhf(x). C.2.6)
Использование этого значения к приводит к одинаковым (асим-
(асимптотическим) среднеквадратичным ошибкам (в точке х) ядерных
и к-NN- оценок. Точность оценки тя может быть сформулирована
в терминах центральной предельной теоремы, что сделано в рабо-
работе (Mack, 1981, теорема 3). Скорости сходимости для этой k-NN"
оценки также получены в работах (Devroye, 1978a), (Gyorfi, 1981)-
3.2. Оценки k-ближайших соседей 59
Третий тип k-NN-оценок составляют симметризованные оцен-
оценки ближайших соседей. Пусть Fn — эмпирическое распределение
выборки из Xlt. ..,Хп. Пусть ширина окна Л стремится к нулю.
Оценка, предложенная в работе (Yang, 1981) и исследованная в
(Stute, 1984), имеет вид
(ВД)ад) У,. C.2.7)
Оценка C.2.7) также является оценкой ближайших соседей,
но теперь соседние точки определяются в терминах расстояния,
основанного на функции эмпирического распределения величин
{Х,}[*=1. Таким образом, используется последовательность весов
(симметричная в пространстве функций Fn(X))
Заметим, что в оценке mR усреднение всегда производится по
симметричной окрестности в пространстве точек X, но окрестность
в пространстве функций Fn(X) может иметь асимметрию. Наобо-
Наоборот, при вычислении тк^ усреднение всегда производится по оди-
одинаковому количеству точек слева и справа от х, но при этом со-
соответствующая окрестность в пространстве X может не быть сим-
симметричной. Укажем на интересную связь оценки тп^н) с k-NN-
оценкой, использованной в (Friedman, 1984). Переменный размах
оценки (суперсглаживатель), предложенный Фридманом, исполь-
использует тот же тип окрестности, что и rhk(hy, см. разд. 5.3. Оценка
C.2.7) внешне выглядит как ядерная оценка регрессии У не на X,
а на Fn(X). Определим величину математического ожидания
ГП
работе (Stute, 1984) показано, что при п —> оо, h —* 0 и nh3 —> оо
При таком выборе h оценка rhk(h)(x) имеет те же предельные
свойства, что и ядерная оценка или обычная оценка ближайших
с°седей, если порядок ее смещения есть О(Л2). Фактически нетруд-
0 показать, что смещение имеет порядок O(h2):
(m"f-m'f')(x)
C28)
(Carroll and Hardle, 1988) проведено сравнение C.2.8) с
гениями смещения ядерных оценок и Jfc-AW-сглаживателей.
60 3. Методы сглаживания
Рис. 3.6. Симметризованная оценка ближайших соседей и
ядерная оценка для данных зависимости расходов картофе-
картофеля от чистого дохода. Из (Carroll and Hardle, 1988) с разреше-
разрешения Elsevier Science Publishers.
В ней показано, что даже когда дисперсии всех трех оценок оди-
одинаковы (случай h = hf(x))y свойства смещения различны, если не
выполнено равенство
m'(x)f(x) = 0.
В других случаях параметр сглаживания, управляя балансом ме-
между дисперсией и квадратом смещения ядерных оценок и обычных
оценок ближайших соседей, будет приводить к другой среднеква-
среднеквадратичной ошибке по сравнению с симметризованной оценкой бли-
ближайших соседей. Пример приведен на рис. 3.6.
Для сглаживания этих данных использовалось квартическо*
ядро
Вычислялись обычная ядерная оценка тЛ(ж) и симметризованн^
оценка ближайших соседей rhk(h)(x)> ширина окна выбиралась М^
тодом кросс-проверки, см. гл. 4. Данные прогонялись через о#
на шириной Л = 0.25 для ядерного сглаживания на отрезке [0,3]
рис. 3.6, и Л = 0.15 для оси значений Fn(X). Получающиеся кр1'
вые регрессии практически совпадают для х < 1, где лежит б*
3.2. Оценки к-ближайших соседей 61
тая часть наблюдений. При больших значениях х наблюдается су-
существенное расхождение кривых: ядерная оценка показывает на
очевидное бимодальное соотношение, а симметризованная оценка
ближайших соседей указывает либо на асимптоту, либо даже на
слабое убывание с ростом дохода. В контексте задачи кажется,
что последнее содержит больше смысла с точки зрения экономи-
экономики, и эта зависимость очень близка к кривой, полученной в рабо-
работе (Hildenbrand and Hildenbrand, 1986). С позиций статистики эта
область данных соответствует малым значениям плотности /(я);
см., например, рис. 2.1. Именно в этом случае можно ожидать
наибольшее различие в оценках, причем ядерная оценка должна
быть более изменчивой, но менее смещенной.
Вычислительные аспекты fc-iVW-сглаживания
Большое преимущество Jfc-iVW-оценки C.2.1) состоит в том, что она
легко может быть вычислена для тех значений ж, которые содер-
содержатся в упорядоченном массиве Х-наблюдений. Алгоритм по су-
существу требует О(п) вычислительных операций для проведения
сглаживания во всех точках Х{ по сравнению с O(n2h) операци-
операциями при непосредственном вычислении ядерной оценки.
Сформируем Jb-iVW-оценку как среднее взвешенное по фиксиро-
фиксированному числу наблюдений с прямоугольными весами, как предпи-
предписано в C.2.2). Допустим, что данные предварительно были упоря-
упорядочены так, что Xi < Xi+l, t = 1,..., n— 1. Тогда если к-NN-оценка,
уже была вычислена в некоторой точке Х{, то соответствующая
оценка в точке Xt+1 может быть вычислена рекуррентно как
где [и] = sup{i : г < и].
Эта формула пересчета оценки применима также для локально
полиномиального приближения. Для простоты ограничимся рас-
рассмотрением локально линейного приближения. Параметр наклона
Р и постоянная а, оцененные по методу наименьших квадратов в
окрестности, определяемой прямоугольными весами C.2.2), зада-
Ются следующими выражениями:
где
х €x €,
Если добавляется наблюдение (Х,.+№/2]+1,УЖк/2]+1), а (Хй_[к/2],
Ч) выпадает из окна, по которому производится усреднение,
62 3. Методы сглаживания
можно использовать следующие формулы:
РХг+х = T*Xi + к~ № X
Этот рекуррентный алгоритм является составной частью супер-
сглаживйгпеля, описываемого в разд. 5.3.
Идея пересчета в принципе применима к k-NN-оценке rhR(x)
при использовании дискретной аппроксимации ядра К. Предполо-
Предположим, что для фиксированного it эффективные ядерные веса достаг
точно хорошо аппроксимируются суммой индикаторных функций
[к/2]
j=0
где Rn(k) — расстояние между точкой х и ее Jfc-м ближайшим сосе-
соседом. Тогда rhR(x) может быть представлена в виде суммы простых
Jk-iViV-оценок:
[к/2]
Каждый член этой суммы может пересчитываться рекуррентно,
как описано выше. Вычислительные затраты пропорциональны п
Упражнения
3.2.1. Покажите, что смещение и дисперсия оценки thR совпа-
совпадают со смещением и дисперсией rhk при использовании
прямоугольного ядра.
3.2.2. Определите dM(k) = дисперсия(?)+смещение2(Лг). ВычИ
слите
koPt = argrnindM(fc)
как функцию m, /иК. Найдите также dM(kopt). Сравни^
со скоростью сходимости ядерных оценок. Дайте интерпре
тацию константам, возникающим в этих выражениях.
3.2.3. Реализуйте fc-AW-алгоритм на компьютере и для срав*#
ния составьте программу ядерного сглаживателя. В ^
вы видите преимущества и недостатки алгоритма рекуГ
рентного пересчета?
3.3. Оценки ортогональных разложений 63
3.2.4. Проведите сравнение ядерных и Jb-iVW-сглаживателей. Ка-
Какому методу вы отдали бы предпочтение в той или иной
области данных?
3.2.5. Проверьте справедливость формулы C.2.8) для симметри-
зованной оценки ближайших соседей. Сравните со смеще-
смещением для обычной k-N TV-оценки и для ядерного сглажива-
теля.
3.3. Оценки ортогональных разложений
Предположим, что функция регрессии может быть представлена в
виде ряда Фурье
где {<Pj}fL0 — известная система базисных функций, a {Pj}fLQ —
неизвестные коэффициенты Фурье. В работе (Szego, 1959) приведе-
приведены условия, при которых такое представление m возможно. Хоро-
Хорошо известными примерами базисных функций являются полиномы
Лагерра и Лежандра. Как только фиксирован базис функций, про-
проблема оценивания m может быть сведена к оцениванию коэффи-
коэффициентов Фурье {/?j}. Конечно, существует определенная трудность,
состоящая в том, что может быть бесконечно много ненулевых ко-
коэффициентов /3j в C.3.1). Таким образом, при заданном конечном
объеме выборки п можно эффективно оценить лишь подмножество
коэффициентов.
Для простоты изложения предположим, что переменная X при-
принимает значения в интервале [—1,1] и что наблюдения {Vf}JLi со-
соответствуют равноотстоящим точкам {-Х,-}"-! из этого интервала.
Допустим, что система функций {<pj} образует ортонормальный
базис на [-1,1], т. е.
// \ / \j с f 0, если j ф к:
^rj\ ;rk\ ) J* \1, если j = к.
°гда коэффициенты Фурье /?, можно вычислить следующим обра-
образом: J
*=0
*=о
64 3. Методы сглаживания
-j:
Последний интеграл содержит не только известные функции бази-
базиса, но также и неизвестную функцию регрессии т(х). Бели она
может быть оценена каким-либо разумным способом, то с помо-
помощью этой формулы автоматически можно построить оценку для
Pj. Вспомним, что наблюдения соответствуют дискретному набору
точек из [—1,1]. Пусть {Д}"=1 — набор непересекающихся интер-
интервалов таких, что
п
= [-1,1] и Х{еА{, i=l,...,n.
Тогда формула для коэффициентов Фурье C.3.2) может быть пе-
переписана в виде
Pi = ? / rn{x)^{x)dx « ?>(*,) f Vj{x)dx, C.3.3)
i=l Ja* t=l Ja*
если интервалы Ai концентрируются вокруг Xt. Заменив гп(Х{)
значением Y{ переменной отклика, получим оценку для fy вида
Поскольку доступно лишь конечное число наблюдений, то не все
коэффициенты Фурье можно оценить одновременно. Опираясь на
N(n) членов разложения C.3.1), аппроксимируем функцию регрес-
регрессии выражением
N(n)
;=0
Полученная оценка m называется оценкой ортогонального разло-
разложения. Она представляет собой среднее взвешенное наблюдений
переменной У с весами
N(n)
WNi(x) = nJ2 Vj(u)du Vj(x). C.3.6)
j=0 JA*
Здесь параметром сглаживания является N(n) — число коэффИ'
циентов Фурье, входящих в C.3.5).
На рис. 3.7 представлена эффективная весовая функция WNi{x\
вычисленная при
n), п=100, А{ = [Х{_г,Х{1 Хо = 1
3.3. Оценки ортогональных разложений
65
-Z
-1.0
-0.5
Рис. 3.7. Эффективная весовая функция системы Лежан-
дра. Весовая функция WNi(x) C.3.6) для N(n) = 5, п = 100,
Ai = [АТ,-..!,^",-], Xq = 1 вычислена при Xi = — 1 + 2(i/n). В ка-
качестве базиса функций {^}^о была выбрана система нор-
нормированных полиномов Лежандра.
и предназначенная для оценивания в точке х = 0. Для этой эф-
эффективной весовой функции используются первые шесть нормиро-
нормированных полиномов Лежандра:
Р0(х) =
\
- 1)/\/575,
- ЗОх2
ps(x) = I F3*
О
Полиномы Лежандра образуют ортогональную систему функций
На L 1,1]. Их можно легко вычислить с помощью следующего ре-
кУррентного соотношения:
(т+ 1)Рт+1(«) = Bт + 1) х PJx) - mPm_^x).
татистические свойства оценок ортогональных разложений иссле-
•Довались, главным образом, в задаче оценивания плотности распре-
распределения; см. работы (Cenzov, 1962), (Wahba, 1975), (Walter, 1977).
66 3. Методы сглаживания
Среди разнообразных примеров применения в области непараме-
непараметрического оценивания регрессии мы рассмотрим только два ре-
результата, касающиеся состоятельности и точной оценки скорости
сходимости, и одно приложение в области сельскохозяйственных
экспериментов. Состоятельность rhN(x) вытекает из следующего
предложения.
Предложение 3.3.1. Если для некоторого О < s < 1
N(n)
lC*)!2 <oo C.3.7)
i=o x
и
Е\е{\9+1/з <оо,
то при N(n) —+ оо
rhN(x) А т(х).
Набросок доказательства представлен в дополнениях к этому
разделу. Подробное доказательство состоятельности rhN можно
найти в (Rutkovski, 1982). В работе (Szego, 1959) показано, что
sup|^(z)|~/, j = 1,2,3...,
х
с р = —1/4 для систем Эрмита и Лагерра, и р = 0,1/2 соответствен-
соответственно для систем Фурье и Лежандра. С учетом этих соотношений
предположение C.3.7) принимает вид следующего условия роста
N(n):
N{nJf>+lln1-' <C<oo прип —оо. C.3.8)
Для обеспечения состоятельности параметр сглаживания N(n) дол-
должен стремиться к бесконечности, но не слишком быстро, как по-
показывает C.3.8). Точные оценки скорости сходимости для оценок
ортогональных разложений даны в (Ilardle, 1984b), где рассмотрена
задача со случайными X. В этой работе использовались полиномы
Лежандра и последовательность весов
Wm(x) = KN(x; А'Л/n-1 ^ KN(x; Xt),
в которой
N(n)
j=0
3.3. Оценки ортогональных разложений 67
Оценки ортогональных разложений могут также использоваться
в локальной окрестности точки х путем замены масштаба в интер-
интервале [—1,1]. Этот подход изучался в работе (Schmerling and Peil,
1986). Применение оценок (локального) ортогонального разложе-
разложения к реальным данным изложено в (Schmerling and Peil, 1985). На
рис. 3.8 показаны кривые аппроксимации при N(n) = 0,1,2 соот-
соответственно. Видно, что увеличение степени аппроксимации N(n)
приводит к тому, что оценка точнее отслеживает данные.
Упражнения
3.3.1. Убедитесь в том, что полиномы Лежандра действительно
ортонормальны, т. е. покажите, что
3.3.2. Покажите, что для липшицевой функции регрессии m
Щ - Р.
3.3.3. Найдите дисперсию rhN и покажите, что она стремится к
нулю при условии C.3.7).
3.3.4. Сколько членов N(n) следует использовать в оценке mN для
обеспечения компромисса между дисперсией и квадратом
смещения?
3.3.5. Исследуйте точность аппроксимации в C.3.3), т. е. выяс-
выясните, насколько близок коэффициент /?;- к
[Указание: используйте теорему о среднем значении и тот
факт, что Х{ - Х,._! = 0{п~1). }
3.3.6. Рассмотрите более подробно {WNi(x)} C.3.6). Если поме-
поменять местами знаки суммирования и интегрирования, по-
получим
Г
WNi(x) = n
JA* \i=0
Это выражение очень похоже на последовательность весов .
Ид*'(я). Можно ли дать4вышеизложенному более точную
формулировку?
68
3. Методы сглаживания
85
75
65
55
х ж
X
XX
J I I I I L
I ¦ ¦ х»
10
18
Рис. 3.8. Количество сахара в сахарной свекле как функ-
функция температуры. Три оценки ортогонального разложения
(ЛГ = 0,1,2) функциональной зависимости между температу-
температурой и количеством сахара в сахарной свекле. Пунктирная
линия — (локально) постоянная аппроксимация, штриховая
линия соответствует добавлению линейного члена, а сплош-
сплошная линия — приближение по трем ортогональным полино-
полиномам. Из (Schmerling and Peil, 1985) с разрешения Gegenbaurs
Morphologisches Jahrbuch.
ЗА. Сглаживание сплайнами
Дополнения
69
Краткое доказательство предложения 3.3.1
Смещение ErhN(x) — т(х) стремится к нулю, если функция т лип-
шицева. Это следует из неравенств
\EmN(x) - т(х)\ <
i=0
N(n)
j=0
Исследование дисперсии предлагается читателю. [Указание: ис-
используйте предположение C.3.7), по существу налагающее условие
на скорость роста N(n).]
3.4. Сглаживание сплайнами
Общей мерой "близости к данным" для кривой д является сумма
квадратов невязок п
*=1
Если д может быть любой кривой — неограниченной в функцио-
функциональном смысле — то эта мера, имеющая смысл расстояния, рав-
равна нулю для всякой кривой у, интерполирующей данные. Подход,
основанный на сглаживании сплайнами, исключает эту нежела-
нежелательную интерполяцию данных за счет достижения компромисса
между двумя противоречивыми целями: получить хорошую ап-
проксимаЦию данных и получить кривую, не имеющую слишком
быстрых локальных изменений.
Известны различные способы количественной оценки локальных
изменений. Можно определить меру плавности кривой, основан-
основанию, например, на первой, второй и более старших производных.
Для успешного раскрытия основной идеи удобнее всего ввести ин-
т^грал от квадрата второй производной, т. е. для количественной
°Ценки локального изменения использовать штраф за нарушение
Плавности г
]{g"{x)?dx.
70 3. Методы сглаживания
Используя эту меру, рассмотрим взвешенную сумму
Sx(9) = ?(У< - я(Х,)J + A /V'(*)J dx, C.4.1)
где А — параметр гладкости, представляющий собой относительную
важность меры плавности кривой g и квадратичной меры невязок.
Задача минимизации Sx(-) в классе всех дважды дифференцирую
мых функций на интервале [а, 6] ±= [Х^уХ^] имеет единственное
решение тЛ(х), называемое кубическим сплайном] см. (Schoenberg,
1964; Reinsch, 1967; Good and Gaskins, 1971) и (Boneva et al., 1972)!
Основная идея восходит к работе (Whittaker, 1923), в которой это*
процесс сглаживания назван градуировкой или корректировкой на-
наблюдений. Полученная кривая тА(«) имеет следующие свойства:
тЛ(х) — кубический полином для х между двумя соседними значе-
значениями переменной Х\ в точках наблюдения Xi кривая гоЛ(-) непре-
непрерывна вместе со своими первой и второй производными, но третья
производная может иметь разрывы; в граничных точках Х^ и
Х(п) вторая производная гаЛ(ж) равна нулю.
Следует заметить, что эти свойства обусловлены конкретным вы-
выбором штрафа за нарушение плавности кривой. Можно определить
сплайны, скажем, пятой степени, вводя штраф за нарушение плав-
плавности, содержащий производные более высокого порядка.
Пример сглаживания сплайнами представлен на рис. 3.9: сгла-
сглаживание так называемых данных о мотоцикле, приведенных пол-
полностью в табл. 1 приложения 2.
Напомним, что рассмотренный сплайн представляет собой куби-
кубический полином между двумя соседними точками. Свойство "ло-
"локально кубического полинома*' показано на рис. 3.10, на котором
в трех существенных точках (локально) кубическое приближение
наложено на оценку, полученную процедурой сглаживания сплай-
сплайнами данных о мотоцикле. Значения этой кривой в точках {Xt-}p-i
вычислялись с помощью IMSL программы ICSSCU. Данные о мо-
мотоцикле приведены в табл. 1 приложения 2.
Концептуальная сложность сглаживания сплайнами заключает-
заключается в том, что тЛ определяется неявно как решение некоторой ва-
вариационной задачи минимизации. Это приводит к определенным
трудностям при изучении поведения оценки и при определении то-
того, как в действительности тА формируется по имеющимся дан-
данным. Следующее рассуждение показывает, что тЛ фактически
является средним взвешенным наблюдений У.
Минимум Sx(g) единственный, поэтому 5д(тод + otg) > 5А(тд)
для любых g G С2 и а Е R. Это означает, что функция Т(а) *
Sx(rhx + ад) имеет локальный минимум при а = 0. В частности
должно выполняться условие Эйлера — Лагранжа (см. (Hadley and
3.4. Сглаживание сплайнами
100 г
-100
* ^
I
20 40
Бремя (мс)
60
Рис. 3.9. Сглаживание сплайнами данных о мотоцикле. Из
работы (Silverman, 1985) с разрешения Королевского стати-
статистического общества.
Kemp10), 1971, с. 30-31»
ПО) = ?>« " ла(*<)) Я(Х{) + А / m'A'(*) g"(x) dx = 0
«'—1
(при всех дважды дифференцируемых д). Рассмотрим теперь два
сплайна т?\ т^2) для данных {(*,-,У/1})}?=1, ({№,^B))}?=i) со-
соответственно. Из приведенного выше условия Эйлера — Лагранжа
р
а = fh + fh
f'
= fh\ + fh\ является сплайном для данных {(Xi9Yf' +
i )}?=!• Если вектор данных {У^}?=1 записать как сумму векто-
Ров с одной ненулевой компонентой, то можно легко увидеть, что
10)
См. также Алексеев В. М., Тихомиров В. М., Фомин С. В. Опти-
Оптимальное управление. — М.: Наука, 1979, или Гельфанд И. М., Фо-
Фомин С. В. Вариационное исчисление. — М.: Физматгиз, 1961. —
Прим. ред.
72 3. Методы сглаживания
40
60
Рис. ЗЛО. Сплайн-оценка и приближение кубическими по-
полиномами. Данные о мотоцикле (табл. 1 приложения 2) вме-
вместе со сплайн-оценкой (Л = 2) и тремя (локально) кубиче-
кубическими полиномиальными аппроксимациями. Исходные дан-
данные {(Xt, Y;)}"=1, n = 150 показаны квадратиками. Сплайн-
оценка — сплошная линия. Локальные приближения — в
точках х = 21,40,55. Единицами измерения являются g
(ускорение свободного падения) для Y и ms (миллисекунды
после столкновения в модельном эксперименте) для X.
существуют веса Wxi(x)} для которых
C.4.2)
t=i
Таким образом, сплайн является линейной функцией по отно-
отношению к наблюдениям переменной У. Весовая функция может
быть построена графически, применяя метод сглаживания сплай-
сплайнами к выборке, в которой все значения переменной Y нулевые,
кроме одного, равного объему выборки п. Однако явный функ-
функциональный вид весов {^Л|(ж)}?=1 выписать трудно, а зависи-
зависимость от параметра сглаживания А и точек измерения крайне
сложна. Вспомним, что WXi() является сплайном для данны*
(Х1у 0),..., (Х{, п),..., (Хп, 0). Обобщая, определим сплайн в точ-
точке t как Wx(-,t). Сильверман (Silverman, 1984, теорема А) показал,
что имеющая место весовая функция Wx(,,t) похожа на ядро Ksi
3.4. Сглаживание сплайнами 73
где ядерная функция К8 определяется следующей формулой:
К,(и) = I ехр(- МЛ/2)81п(|«|Л/2 + т/4).
Теорема 3.4.1 (Silverman 1984)- Рассмотрим модель с фиксиро-
фиксированным планом эксперимента и с плотностью плана, описанной
в разд. 2.2. Кроме ряда условий исключительно технического по-
рядка, параметр сглаживания А зависит от п таким образом,
что An1""* —> оо при некотором е > 0. Возьмем произвольное фик-
фиксированное t такое, что а < t < Ь. Тогда
lt*x,t)-*K.(x)/№
при п —^ оо, для которых равномерно по всем х, t -f
*х лежит в [а, 6].
Аппроксимация функции W. \(Х^ = Wa*O> полученная в этой
теореме, показывает, что для больших п, малого А и точек Xiy ле-
лежащих не слишком близко к границе, имеет место
а локальная ширина окна ft(Xt-) определяется равенством
h(X{) = X^n-WftXi)-1'4.
Действительно, полагая t = Xi и используя подстановку и =
Х{ Н- ar/i(X1), получим из теоремы 3.4.1 формулу C.4.3). График
имеющей место ядерной функции К8 представлен на рис. 3.11.
Видно, что К8 является симметричной ядерной функцией с за-
заходом в область отрицательных значений по краям и что К8 име-
ет нулевой второй момент, т. е. f и2 К8(и) du = 0. Графическое
сравнение точной весовой функции WXi(x) с ее асимптотической
формой К8 приведено в (Silverman, 1984, рис. 2, с. 902).
Ядерная форма этой весовой функции изменяется при прибли-
приближении х к границе интервала наблюдения. В работе (Engle et
аЦ 1986) вычислена эффективная весовая функция для примера
сглаживания сплайнами температурного отклика (см. рис. 1.6).
*ис. 3.12 воспроизведен из этой статьи, где дана эквивалентная
яДерная функция для значений х, лежащих примерно в середине
интервала наблюдения.
Как показано на рис. 3.13, при перемещении точки наблюдения
вправо весовая функция становится более асимметричной.
Конечно, при сглаживании сплайнами также приходится ре-
Шать вопрос о степени сглаживания. Обзор литературы, в которой
74 3. Методы сглаживания
0.30 -
10
Рис. 3.11. Аппроксимация Сильвермана для эффективно-
эффективного ядра метода сглаживания сплайнами. Асимптотическая
ядерная функция КЛ = 1/2 ехр(—|и|/л/2) sin(|t*| /л/2 + т/4).
рассматриваются свойства среднеквадратичной ошибки при сгла-
сглаживании сплайнами, можно найти в (Eubank, 1988). Проблема вы-
выбора параметра сглаживания для этого класса оценок изучалась
главным образом в работах Вахба (Wahba). Из большого количе-
количества ее результатов упомянем здесь те, которые непосредственно
связаны с оптимизацией параметра А. В работах (Wahba, 1975,
1979) рассматривалась скорость сходимости сплайнов. В этом кон-
контексте первой работой по применению метода кросс-проверки была
работа (Wahba and Wold, 1975), которая позже была распростране-
распространена на сглаживание логарифмических периодограмм; см. (Wahba,
1980). Термин "обобщенная кросс-проверка" (GCV11)) был введен
в (Wahba, 1977). Подход минимаксного типа к вопросу о скоро-
скорости сходимости рассматривался в (Nussbaum, 1985), где получены
точные границы для интегральной квадратичной ошибки в пред-
предположении нормальности ошибок наблюдения.
Некоторые пакеты прикладных программ по статистике, вычи-
вычисляющие коэффициенты сплайнов типа локально кубических по-
я
линомов, требуют границу Л суммы квадратов невязок Y^Q^ ^
t=i
GCV — Generalized Cross-Validation. — Прим. перев.
3.4. Сглаживание сплайнами
75
Z0 40 60
Температура
80
Рис. 3.12. Эквивалентная ядерная функция для темпера-
температурного интервала от 40° to 45° по Фаренгейту. Из (Engle
et al., 1986, рис. 6) с разрешения Американской статистиче-
статистической ассоциации.
i)) . Эти программы решают эквивалентную задачу
f[g"(x)]4x = min
при ограничении У^(^ - <7(^,)J < Л. Параметры А и Л имеют
схожий смысл. Очень малое значение А приводит к чрезвычайно
изменчивой кривой, как и малое Л, так как кривой сплайна разре-
разрешено проходить весьма близко к данным. С другой стороны, боль-
большая величина Л позволяет производной д" быть близкой к нулю,
и тот же факт имеет место для параметра А. Связь между этими
Двумя параметрами может быть установлена следующим образом.
Предложение 3.12. Пусть <7(Л) = /«(*)J</х, где тА(х) - ре-
решение приведенной выше задачи минимизации. Тогда эквивалент-
н°е значение А определяется формулой
76 3. Методы сглаживания
3.0
2.5
1.5
1.0
0.5
0
0.5
-
-
-
-
-
i i
А
А
\
Л Г \ А
\ / \/V
1 1 1
го
40
Температура
60
80
Рис. 3.13. Эквивалентная ядерная функция для темпера-
температурного интервала от 60° до 65° по Фаренгейту Из (Engle et
al., 1986, рис. 7) с разрешения Американской статистической
ассоциации.
Это соответствие выведено именно для примера, представлен-
представленного в разд. 3.6. Аналогичные методы могут быть использованы
для получения эквивалентного значения Л при заданном параме-
параметре сглаживания А.
Эффективные веса при сглаживании сплайнами просто вычи-
вычисляются при Xi = i/n. В этом случае k-NN оценка тк и ядер-
ядерная оценка mh совпадают при fc, равном примерно 2nh. Хьюбер
(Huber, 1979) показал, что при условии периодичности m оценка
метода сглаживания сплайнами полностью эквивалентна среднему
взвешенному наблюдений переменной У ядерного типа. Он рас-
рассмотрел следующую функцию переменной Z = (Zx,..., Zn):
t=l
где b?Z{ = Zi+1 —2Zi -f Z{_x — вторая частичная разность. 3»'
метим, что S6 отличается от 5Л в двух отношениях. Во-первых,
штраф за нарушение плавности кривой определяется суммой вто-
вторых частичных разностей, а не интегралом от вторых произ-
производных. Во-вторых, Л соответствует п36, поскольку выражен^
3.4. Сглаживание сплайнами
77
Рис. 3.14. Аппроксимация Хубера для эффективной весо-
весовой функции сплайна: W6j = x~l f* dw. Показаны веса W6j
для 6 = 0.5,8,40.5,128,312.5.
аналогично интегралу /0 [g"(x)]2dx. Хубер по-
показал, что минимизация S6(Z) для данных {У{} на окружности да-
дает взвешенное среднее
где веса Й^. имеют следующий асимптотический вид:
6B sinw/2L
du).
C.4.4)
^та асимптотика справедлива при фиксированных j и 6 при п —>
?р- Интересно сравнить этот тип весов с аппроксимацией, данной
ильверманом (Silverman, 1984). На рис. 3.14 приведен вид весов
6j для различных значений 6. Веса W6j при малых 6 сосредото-
eiP>I B основном около нуля.
Кривые, представленные на рис. 3.14, очень похожи на анало-
Ичные кривые рис. 3.10.
78 3. Методы сглаживания
Упражнения
3.4.1. Используйте алгоритм сглаживания сплайнами для по-
построения графика точной весовой функции {И^Л|(ж)}. Срав-
Сравните с приближенной функцией, задаваемой выражением
Ks. Как изменяется аппроксимация при подходе х к гра-
границе?
3.4.2. Покажите, что функция Ks является ядром в смысле
разд. 3.1, и докажите, что
u)du = 0, 1 < j < 3,
Дополнения
Доказательство предложения 3.4.2
Доказательство следует из обобщения результата статьи (Pourciau,
1980, разд. 1), (правило множителей Джона). Существуют ненуле-
ненулевые fix,fi2 такие, что пара (Л,тЛ) минимизирует
, *(,)) - AI
Из этого следует, что
0=A
или
Следовательно, кривая сплайна с параметром Л может быть полу-
получена при А = /ij/^2 — ~-(&(Л))~1'
Доказательство эквивалентности аппроксимаций Хубера *
Сильвермана
Рассмотрим следующую аппроксимацию интеграла C.4.4). Дл*
фиксированного и и 6 —* оо положим j = u6llA. После замены
переменной и = t/б1^4 и аппроксимации линейным членом рлДд
Тейлора 2sin(u;/2) ^ а; получим
Для оценки этого интеграла рассмотрим f(z) = etuz/(l + z4). З
менатель имеет нули в точках rjk •=> exp{[iBt — 1)/4]аг}, к = 1,.. .г
3.5. Обзор различных сглаживателей 79
Интегрируя по границе большого полукруга на комплексной плос-
плоскости и используя теорему о вычетах, получим
i- j> f(z)dz = i{res[/(*); щ) + res[/(z);
ecos(u/y/2 - тг/4).
Последнее выражение, по определению Сильвермана (Silverman,
1984) представляет собой эффективную весовую функцию К8. Что-
Чтобы установить связь с аппроксимацией, установленной в теореме
3.4.1, вспомним, что 6 соответствует выражению An3, a W6j соот-
соответствует n-1PVA(^
3.5. Обзор различных сглаживателей
Выше было уделено внимание лишь некоторым методам сглажива-
сглаживания. Ядерные, ifc-NJV-оценки, ортогональные разложения и сплай-
сплайны, рассмотренные выше, широко известны, и для них существует
развитая математическая теория. Это объясняется двумя причи-
причинами. Во-первых, указанные оценки просты по своей структуре, и,
следовательно, их легко можно вычислить и исследовать теорети-
теоретические свойства. Во-вторых, эти оценки имеют широкую область
применимости и не предназначены для оценивания специальных
характеристик.
Методы сглаживания, представленные в данном разделе, не по-
получили столь подробного математического обоснования, но они
по-своему представляют определенный интерес, поскольку служат
примером возможного применения методов непараметрического
сглаживания с учетом особенностей решаемой задачи. Предста-
Представленные ниже методы сглаживания далеко не исчерпывают весь
список известных методов; заинтересованный читатель найдет до-
дополнительные ссылки в обзорной статье (Collomb, 1981).
Рекуррентные методы
{федположим, что данные {(XiiYi)}i>l наблюдаются не как вы-
°°рка фиксированного объема п, а как последовательность пар
^ 1» ^1I (Х2, Y2),..., поступающих с выхода некоторого устройства
^людения. Такие устройства присутствуют в задачах контроля
vsurveillance problems), управления (control operations) или вмеша-
ельства (intervention problems). В общем случае можно рассматри-
ать Данные как временной ряд. Поскольку непараметрическая
^енка обычно определяется по всей выборке, ее приходится пере-
итывать при поступлении новых данных. Следовательно, с вычи-
80 3. Методы сглаживания
слительной точки зрения предпочтительнее, чтобы оценка регрес-
регрессии, основанная на (п + 1) точках, строилась исходя из (п + 1)-го
наблюдения (Xn+i,Yn+i) и оценки, полученной по первым п точ-
точкам, без вызова предыдущих данных из памяти компьютера. В
соответствии с этим соображением в работах (Revesz, 1976, 1977)
предложено оценивать тп(х) с помощью следующей рекуррентной
процедуры:
™„-ц(*) = ™„(*) + п-^Лп+1 (х - Xn+1)(Yn+l - mn(x)), C.5.1)
где m0 == 0, &Kh — ядерная последовательность. Там же показана
сходимость последовательности этих оценок в разных нормах, а
также доказана асимптотическая нормальность.
Приведенный метод может также применяться для более общего
случая нестационарных систем, модель которых описывается ре-
регрессионным соотношением
с медленно меняющейся средней функцией щ(х). В работах
(Rutkowski, 1985a, 1985b) рассматривался аналогичный C.5.1) алго-
алгоритм, идентифицирующий в асимптотике функции регрессии. В
работе (Greblicki, Rutkowska and Rutkowski, 1983) определена оценка
ортогонального разложения для случая нестационарной регрессии
и получена скорость ее сходимости. Более простой случай постоян-
постоянных во времени функций рассматривался в (Rutkowski, 1981), где
построены оценки ортогональных разложений последовательного
типа.
В (Ahmad and Lint, 1976) изучались рекуррентные оценки числи-
числителя и знаменателя, фигурирующих в выражении оценки Нада-
рая — Ватсона
а именно:
К+Л*) = Nn(x) + Yn+1Khn+1(x -
Dn+1(x) = Dn(x) + Khn+i(x - Xn+1). C.5.2)
Оценки метода стохастической аппроксимации для оцениваний
нуля или экстремума тп(х) были предложены в (Hardle and Nixdorf
1987). Цыбаковым (Tsybakov, 1988I2) эта схема была распростри
нена на задачу пассивной стохастической аппроксимации (ПСА)
* См. также статью: Назин А. В., Поляк Б. Т., Цыбаков А.
Пассивная стохастическая аппроксимация. — Автоматика и
лемеханика, № 11, 1989, с. 127-134. — Прим. пере в.
3.5. Обзор различных сглаживлтелей 81
w
и
100
—orfb цлшццриДш о
V- ?¦
a °od a
nTT ° 1 Г
J a
a
Ob
1
TJ"'
20 40 60
Рис. 3.15. Регрессограмма сглаживания данных о работе
мотоцикла. Исходные данные отмечены квадратиками, ре-
регрессограмма (сплошная линия) имеет шаг разбиения 4 и
начало в точке 0.
Предположим, к примеру, что требуется оценить нуль функции т.
Рекуррентная схема
Zn+t = Zn- anKK(Zn - Xn)Yn C.5.3)
(значение Zx произвольное, {an} — последовательность чисел, схо-
сходящаяся к нулю ) будет при некоторых условиях сходиться к тре-
требуемой точке. Подробнее эти методы изложены в гл. 8.
Регрессограмма
Этот термин был введен Тьюки (Tukey, 1961) для того, чтобы под-
подчеркнуть связь этой оценки с гистограммой. Регрессограмма пред-
ставляет собой среднее тех значений переменных отклика, для ко-
т°рых соответствующие величины X попадают в один из интер-
интервалов разбиения пространства наблюдений переменной X (Tukey,
у4')- Ее можно рассматривать как аппроксимацию ш(х) ступен-
Чахой функцией, и она фактически является ядерной оценкой (с
пРямоугольным ядром), вычисленной в средних точках интерва-
°в разбиения. Сходимость в среднеквадратичном была показана в
Работах (Collomb, 1977) и (Lecoutre, 1983, 1984). На рис. 3.15 изо-
Р^Жены данные о работе мотоцикла и регрессограмма при шаге
Разбиения 4.
82 3. Методы сглаживания
Хотя регрессограмма представляет собой частный случай р
ной оценки, она по определению всегда является разрывной ступец.
чатой функцией, которая, возможно, не воспроизводит какие-то
свойства кривой, имеющие размер, "меньший, чем шаг разбиения".
Вернемся к рис. 1.2 и 2.5, на которых изображены средние расхо.
ды на картофель. Регрессограмма (см. рис. 2.4) отражает общую
унимодальную структуру, но не может выявить небольшой второй
максимум в районе точки х = 2, соответствующей уровню двой-
двойного дохода. Этот небольшой локальный максимум моделируется
ядерной оценкой, представленной на рис. 1.2.
Известен также k-NN-аналог регрессограммы. Вместо усредне-
усреднения переменных отклика в интервалах разбиения фиксированной
длины строится регрессограмма статистически эквивалентных
блоков путем усреднения ровно по к соседним точкам. В резуль-
результате снова получается ступенчатая функция, но теперь она име-
имеет переменную длину окна, по которому производится усреднение.
Сходимость и скорость сходимости последовательности этих оце-
оценок исследовались в работе (Bosq and Lecoutre, 1987).
Сверточное сглаживание13)
Идея сверточного сглаживания была предложена Кларком (Clark,
1977). Она тесно связана с ядерным сглаживанием (см. разд. 3.1).
CS-оценка (CS — convolution-smoothing) определяется как
mCS\x) z
где Gn(t) — результат линейной интерполяции данных
{(^,-,У|)}?=1> a Kh ядерная последовательность, как и в разд. 3.1.
В работе (Clark, 1980) изучались кривые предсказания и калибров-
калибровки углерода-14 и представлены результаты моделирования методом
Монте-Карло, причем параметр сглаживания h выбирался мето-
методом кросс-проверки, который детально рассматривается в разд. 5.1.
Легко видеть, что CS-оценку также можно представить в виде взве-
взвешенного среднего:
)Yi' C-5.4)
1 = 1
где
' В оригинале convolution smoothing. — Прим. перев.
3.5. Обзор различных сглаживателей 83
v@ — результат линейной интерполяции точек {(-Xj,^)}7=i»
^ . — символ Кронекера.
Оценки дедьтаобразной последовательностью
Дельтаобразная последовательность14) — это последовательность
взвешивающих функций сглаживания {?„(#)}, аппроксимирую-
аппроксимирующих й-функцию Дирака при больших п. Такие последовательности
использовались в работе (Johnston, 1979) для построения оценок
регрессии следующего типа:
,(*-*«). C.5.5)
Фактически, указанная оценка обобщает ядерную оценку Нада-
рая — Ватсона с DFS Kh(u). В работах (Watson and Leadbetter,
1963, 1964) сформулированы следующие условия:
(a) sup / |6n(ti)| du
n J
< оо,
(c) sup \6n(u)\ — 0 для всех a > О, C*56)
(d) I 6n(u) du—+ О для всех a > 0.
Можно показать, что при выполнении этих условий на {6п} и пред-
предположений непрерывности m и / имеет место сходимость
т6(х) А т(х).
Дополнительные ограничения на скорость сходимости DFS позво-
позволяют сформулировать центральную предельную теорему для т6
(Johnston, 1979). Существует богатейшая литература по оценкам
плотности на основе DFS (см., например, (Walter and Blum, 1979)).
Медианное сглаживание
Предположим, что целью аппроксимации является кривая услов-
условий медианы med(Y\X = ж), а не кривая условного среднего. После-
° оригинале используется аббревиатура DFS — Delta Function
Sequence. — Прим. перев.
84 3. Методы сглаживания
100
-100
ana аО а
20 40 60
Рис. 3.16. Текущая медиана и *-ЛГЛГ-оценка. Квадратики
обозначают исходные данные (о мотоциклах, см. табл. 3.2.1),
кривая 1 —- текущая медиана, кривая 2 — ib-JViV-оценка, к =
15.
довательность "локальных медиан" для значений переменной от-
отклика определяет медианный сглаживателъ. Этот метод оценива-
оценивания и соответствующие робастные сглаживатели изучаются в гл. 6,
но имеет смысл кратко рассмотреть их сейчас, поскольку медиан-
медианное сглаживание сыграло важную роль в историческом развитии
методов сглаживания. Формально оценка определяется как
где
Jx = {t: Xi — одна из к ближайших к х точек }.
Эта оценка имеет очевидную аналогию с Jb-JVW-оценкой C.2.1),
но отличается по крайней мере в двух аспектах: медианное сглажи-
сглаживание устойчиво по отношению к большим выбросам, и с помощью
этого метода появляется возможность моделировать разрывы кри-
кривой регрессии med (Y\X = х). На рис. 3.16 на примере данных о
мотоциклах приведено сравнение двух методов оценивания (табл. 1
приложения 2) — медианного сглаживания и fc-ЛГЛГ-оценки.
Этот пример выявляет свойство робастности медианного сгла-
сглаживания. Медианная оценка не подвержена влиянию группы воз-
возможных выбросов в районе точки х = 35, и она несколько ближе
3.5. Обзор различных сглаживателей 85
к основной массе данных в двух "областях всплесков" (х = 20,32).
Некоторый недостаток состоит в том, что по своей природе оценка
медианного сглаживания является грубой характеристикой.
Представляется, что медианное сглаживание требует большего
времени вычисления, чем i-NN-оценка (из-за операций сортиров-
сортировки). Простейший алгоритм текущей медианы производил бы сор-
сортировку в каждом окне. При использовании процедуры быстрой
сортировки это потребовало бы О(пк log(k)) вычислительных опе-
операций. В работе (Bent and John, 1985) показано, что использование
алгоритма быстрой медианы уменьшает число операций до О(пк).
В (Hardle and Steiger, 1988) вычислительная сложность уменьше-
уменьшена до О(п log(Jfc)) операций за счет поддержания двойной множе-
множественной структуры продвижении окна вдоль оси X .Таким обра-
образом, текущая медиана всего лишь в log(Jb) раз медленнее, чем А:-
AW-оценки.
Кусочно-линейные оценки
При теоретическом исследовании свойств непараметрических оце-
оценок удобно^ предположить, что оцениваемая кривая регрессии m
непрерывна. В некоторых случаях кривая со скачками, разрывны-
разрывными производными или даже точками самопересечения может более
соответствовать ситуации, чем гладкая кривая регрессии. Приме-
Примеры приведены в (McDonald and Owen, 1986); они включают кривую
Швези (Sweazy) типового спроса в микроэкономике (Lipsey, Sparks
and Steiner, 1976) и ежедневные регистрации температуры поверх-
поверхности моря. На рис. 3.17 показана пилообразная функция вместе
с ядерной оценкой.
Ядерная оценка непрерывна по определению и должна сглажи-
сглаживать разрывы. В работе (McDonald and Owen, 1986) показано, что
сглаживание текущей медианой не встречает трудностей в обнару-
обнаружении разрывов, но оказывается слишком грубым. Авторы предло-
предложили оценку кусочно-линейного сглаживания. Предположим, что
значения переменной X упорядочены, т. е. Xj < Xj+1. Оценка
кУсочно-линейного сглаживания начинается с построения для точ-
точки х семейства линейных приближений, соответствующего семей-
ству окон. Эти окна представляют собой ансамбль окрестностей
точки х различных размеров, имеющих центр в х или с одним из
концов в х. Затем получают оценку кусочно-линейной аппроксима-
аппроксимации в точке х как взвешенное среднее линейных приближений. Эти
Веса зависят от меры качества соответствующих линейных прибли-
приближений. На рис. 3.18 пилообразные данные представлены вместе с
У сочно- линейным приближением. Этот метод сглаживания нахо-
^Ит Разрыв пилообразной кривой, а в других точках дает непрерыв-
Ую кривую. Теоретические аспекты (доверительные интервалы,
Ходимость к т) описаны в (Marhoul and Owen, 1984).
86
3. Методы сглаживания
00
Рис. 3.17. Ядерная оценка пилообразной функции. Из
(McDonald and Owen, 1986) с разрешения Американской ста-
статистической ассоциации.
Эмпирическая регрессия
В работе (Schmerling and Peil, 1985) предложено оценивать неиз-
неизвестную совместную плотность f(x,y) пары переменных (XyY), a
затем формировать оценку функции т(х) по стандартной формуле.
В частности, авторы предложили использовать смесь
где /x-y(«iy; Jf,-,1|) — известные плотности. Оценивание условно-
условного математического ожидания на основе этой оценки приводит в
итоге к кривой, которую авторы назвали кривой эмпирической ре-
регрессии. Существуют различные возможности выбора fXY. Из вы-
выражения
= Kh(x-
3.5. Обзор различных сглаживателей
87
Рис. 3.18. Кусочно-линейное приближение пилообразной
функции. Из (McDonald and Owen, 1986) с разрешения Аме-
Американской статистической ассоциации.
следует, например, что
Это — оценка Надарая — Ватсона. Можно также использовать
бедующую двумерную гауссовскую плотность
1
•-Ф(-^И-
2;rcT2(detE)I/2 ~F v 2(T2 det(S) ''
компоненты матрицы 5 таковы:
t=l
КваДратичная форма имеет вид
Ъ - УJ).
88
3. Методы сглаживания
Y* Толщина миелиноеой оболочки (мкм)
Символы: • однократная точка
• двойная точка
х многократная точка
4 5 6 7 8 9
X «Диаметр аксона (мкм)
10 11 12
Рис. 3.19. Эмпирическая регрессии для толщины миелино
вой оболочки как функции диаметра аксона. Из (Schmerling
and Peil, 1985) с разрешения Gegenbaurs Morphologisches Jahr-
buch.
Тогда кривая эмпирической регрессии для гауссовского ядра опре-
определяется формулой
SUM
S
C.5.7)
Рис. 3.19 дает представление о том, как эмпирическая кривая
регрессии сглаживает реальные данные. За деталями отсылаем чи-
читателя к работе (Schmerling and Peil, 1985).
Упражнения
3.5.1. Измените "исходную" регрессограмму, т. е. определите ин-
интервалы разбиения, по которым следует усреднять перемен-
переменную отклика следующим образом:
= 0,...,m-l, i = ...-2,-1,0,1,2 —
3.5. Обзор различных сглаживателеи
89
Проведите качественное исследование поведения регрессо-
граммы при различных значениях ?.
3.5.2. Усредните тп регрессограмм, определенных в упражнении
3.5.1. Видите ли вы связь с методом ядерного оценивания?
[Указание: в разд. 3.1 этот метод взвешенного усреднения
по окрестным точкам мы назвала WARP-методом (Weighted
Averaging over Rounded Points).]
3.5.3. Найдите соответствие между условиями C.5.6) и предпо-
предположениями, сформулированными в предложении 3.1.1 о со-
состоятельности ядерной оценки.
Дополнения
Шмерлинг и Пейл рассматривали также более общий, чем введен-
введенный в разд. 3.1, вид полиномиального приближения. Локально-
полиномиальные приближения такого рода можно получить ап-
аппроксимацией полиномами более высокого порядка или за счет ис-
использования ядер, отличных от прямоугольного ядра в C.1.13); см.
также работы Катковника (Katkovnik, 1979, 1983, 1985) и (Lejeune,
1985).
Предположим, что в качестве аппроксимации тп(х) выбирается
полиномиальное приближение
р
**Г,<х,(х)<Р;(и-х), р+1 < п,
где <р^;(¦) — полиномы порядка,; и &j(x) — некоторые весовые коэф-
коэффициенты. Если используется последовательность весов Whi(x) =
Kh(x~~Xi) c положительным симметричным ядром А", коэффици-
коэффициенты {<*j(#)}J=0 определяют методом наименьших квадратов:
= min.
Необходимое и достаточное условие приводит к уравнениям
р
<рк(Х(-х) = О, Л = 1,...,п.
систему линейных уравнений можно легко решить в случае
°Ртогональности полиномов u?,s, т. е. если для некоторой констан-
константы п Y>
(Хй -х) = CxI{j = к).
1=1
90 3. Методы сглаживания
Следовательно, коэффициенты {aj(x)} наименьших квадратов
можно записать в виде
а локально-полиномиальное приближение
с эффективной последовательностью весов
Итак, в рассматриваемом случае локально-полиномиальное прибли-
приближение опять приводит к последовательности весов {И^(х)}, но эта
последовательность весов несколько более сложная, чем для обыч-
обычной ядерной оценки.
3.6. Сравнение ядерных, A>NN-оценок и сплайнов
Цель этого раздела — представить результаты сравнительного ис-
исследования трех ниболее употребительных и простых в использо-
использовании методов: ядерного, fc-ближайших соседей и сглаживателя
кубическими сплайнами. Сравнение производится теоретически
и эмпирически. Практическое сравнение основано на модельных
данных, представленных в табл. 2 приложения 2.
Теоретическое сравнение представлено для двух моделей наблю-
наблюдения: с фиксированными равноотстоящими и со случайными точ-
точками наблюдения. Ядерные оценки rhh с весовыми функциями
{^л$ } и {^лЛ (см- Р^Д- 3.1) сравниваются между собой и с к-
AW-сглаживателем rhR. Хотя сплайны имеют смысл также и для
случайной предикторной переменной, их статистические свойства
изучались главным образом для случая фиксированных точек на-
наблюдения. В разд. 3.4 было показано, что в этом случае сплай-
сплайны действуют почти так же, как и ядерные сглаживатели с со-
соответствующей шириной окна. Вспомним теорему об эквивалент-
эквивалентности ядерных оценок и сплайнов — теорему 3.4.1. Она утвер-
утверждает, что сплайн-оценка тл для регулярно распределенных точек
Xi = F((i — 1/2)/п) ведет себя как ядерный сглаживатель При-
Пристли — Чао с эффективной локальной шириной окна
h(x) =
З.б. Сравнение ядерных, k-NN-оценок и сплайнов 91
Таблица 3.6.1. Поточенное смещение и дисперсия
k'NN- и ядерных оценок для случая фиксированно-
фиксированного плана эксперимента. Источник: Jennen-Stein-
metz, Gasser A988, табл. 1)
Смещение Дисперсия
Ядерные веса {Whi}
Ядерные веса {<?>}
I — I
\nj
b 2a2
-dk ck
k
Эффективная локальная ширина окна представляет собой, таким
образом, плотность распределения переменной X в некоторой сте-
степени, т. е. fa(x).
Из табл. 3.2.1 было видно, что k-NTV-оценка mR имеет сравни-
сравнимую с ядерной оценкой среднеквадратичную ошибку при шири-
ширине окна R(x) ~ f(x). Следовательно, имеет смысл рассматри-
рассматривать ядерные сглаживатели с шириной окна, пропорциональной
/(*)"", * 6 [0,1].
Поведение смещения и дисперсии сглаживателей с весами {W^'}
и шириной окна h ~ fQ изучалось в работе (Jennen-Steinmetz and
Gasser, 1988). В табл. 3.6.1 приведены выражения для смещения и
дисперсии перечисленных выше трех оценок при равноотстоящих
точках наблюдения (d = 1, Х{ = г/п, а = 0). Для корректной интер-
интерпретации этой таблицы вспомним, что определение cKidK, данное
в Разд. 3.1. Табл. 3.6.1, ясно показывает, что две ядерные после-
последовательности {W?f. } и {И^д,} имеют одинаковую среднеквадра-
среднеквадратичную ошибку при фиксированном равноотстоящем расположе-
расположении точек наблюдения. Ранее отмечалось, что последовательность
Весов fc-NJV-оценки можно рассматривать как ядерную последова-
последовательность, если положить h = к/Bп).
Выражения для смещения и дисперсии в ситуации со случай-
ьгми точками наблюдения совершенно другие (см. табл. 3.6.2).
Точечное смещение и дисперсия являются сложными функцио-
оалами) зависящими не только от кривой регрессии т, но также и
т маргинальной плотности /.
ни ™еТИМ что как Уже отмечалось в радд- 3.2, все три способа оце-
н ^НИя имеют одинаковые свойства при фиксированных точках
Лк>Дения и к = 2nh. Это неверно при случайных точках наблю-
я- Для or = 0 дисперсия ядерной оценки с весами {W^ } в
92 3. Методы сглаживания
Таблица 3.6.2. Поточечное смещение и дисперсия k-NN- и
ядерных оценок при случайных точках наблюдения. Источ-
Источник: Jennen-Steinmetz, Gasser A988, табл. 1)
Смещение Дисперсия
Ядерные ,ее, {Wht} *<***'
пЛ
два раза превышает дисперсию оценки Надарая — Ватсона. С дру-
другой стороны, смещение оценки Надарая — Ватсона представляет
собой очень сложное выражение, содержащее функции т и /. Это
же утверждение справедливо при сравнении с дисперсией k-NN-
оценки при а = 1.
Эмпирическое исследование основано на использовании модель-
модельных данных, представленных на рис. 3.20: п = 100 точек порожде-
порождены функцией регрессии
т(х) = 1 - х + е~200 (*-1/?>2.
Случайная переменная X равномерно распределена на единичном
интервале, а ошибки наблюдения е{ имеют стандартное нормальное,
распределение. (При этом для генерации псевдослучайных чисел
использовались методы Марсаглиа (Marsaglia); см. (Morgan, 1984).)
Список величин {(^t-,^)}Jl=i представлен в табл. 2 приложе-
приложения 2. Посмотрев на рис. 3.20, можно сказать, что это в некотором
смысле крайний случай, поскольку "практически весь сигнал забит
шумом". Однако этот пример показывает, что реально может про-
происходить на практике. Цветочный график зависимости питания от
чистого дохода из примера гл. 2 приводил нас к такому лее понима-
пониманию "реальных данных". Заметим, что картина ошибок наблюде-
наблюдения в области значений х « 0.25 кажется перекошенной в области
положительных ошибок. Следовательно, любой метод сглаживания
будет иметь тенденцию расположить значения оценки несколько
выше истинной кривой регрессии в этой области. Это можно уви-
увидеть непосредственно из графика ядерной оценки (рис. 3.21).
Ядерные веса
3.6. Сравнение ядерных, k-NN-оценок и сплайнов 93
-2
0.5
«.О
Рис. 3.20. Модельные данные. Исходные данные
{(ХОУ|)}[*=1, п = 100 были получены в соответствии с мо-
моделью У; = m(Xt) + etJet ~ N@,1),Xt ~ tf@,1), m(x) =
2
°Ценки Надарая — Ватсона использовались здесь с гауссовским
ядром К(и) = Bтг)~1/2ехр(-и2/2) и шириной окна h = 0.05. Отме-
Отметим, что такая ширина окна не означает, что наблюдения усредня-
Ются в интервале длины 0.1. Более тогр, ядерные веса, основанные
На приведенной выше функции Л', распространяются на весь ин-
ТеРвал наблюдения, но подавляют те из них, которые расположены
Далеко от центра ядра. В этом примере Д « 1, так как распре-
^ление переменной А' равномерное. Наблюдения, расположенные
лизи ху получат веса 2.65, в то время как наблюдение, удаленное
ТД на 2А, будет взято с весом 0.35.
в Uc°6oe внимание должно быть уделено крайним точкам интер-
а наблюдения 0 и 1. Точки оценивания х, лежащие вблизи
^аницы, имеют "односторонние" окрестности, по которым следу-
^ Усреднять наблюдения переменной У. Следовательно, ядерная
енка должна обладать меньшей точностью на границе (матема-
ескую формулировку этой задачи см. в разд. 4.4). Эта потеря
94 3. Методы сглаживания
0.5
1
Рис. 3.21. Ядерная оценка для модельных данных. Кривая
1 показывает истинную функцию регрессии тп(х) = 1 — х +
е~" '*"" '*' . Кривая 2 — ядерная оценка тЛ(х), h = 0.05
с гауссовским ядром К(и) = ехр(—и2/2)/(у/2п), полученная в
результате сглаживания данных, представленных в табл. 2
приложения 2.
точности видна на рис. 3.21 около левой границы: большинство
наблюдений там лежит ниже истинной кривой регрессии; следова-
следовательно, асимметричное усреднение значительно занижает оценку
величины тп(х) для х « 0.
Ширина окна h = 0.05 была выбрана наугад. Опрос ряда коллег
показал, что, по их мнению, более сильное сглаживание должно су-
существенно "размывать" структуру зависимости, а меньшая ширина
окна должна давать слишком грубую кривую. Если бы использо-
использовалось другое ядро, например ядро с компактным носителем, кар-
картина была бы иной при этой же ширине окна h = 0.05. Причина
заключается в том, что различные ядра по-разному нормированы
Метод приведения ширины окна и ядер к одной шкале обсужДЗ'
ется в разд. 5.4.
3.6. Сравнение ядерных, k-N N-оценок и сплайнов
95
Рис. 3.22. Сглаживание модельных данных (табл. 3.6.1) с
помощью к-NN-оценки. Кривая 1 — истинная функция ре-
регрессии т(х) =й 1-х+е"00 t*-1/2J. Кривая 2 — fc-TV TV-оценка
mk(x),k = 11.
fc-TV TV-оценка дает несколько более грубую кривую. На рис. 3.22
показан график fc-TVTV-оценки C.2.2) для к = 11. Причина "раскач-
Ки кривой заключается в использовании так называемой последо-
вательности прямоугольных весов в C.2.2). Теоретически Jfc-TVTV-
°Ценка дает разрывную функцию.
**а практике это означает, что при перемещении окна весов по
интервалу наблюдения новые наблюдения появляются на грани-
Це прямоугольного окна" в соответствии с правилом ближайших
Оседей. Любое входящее таким образом наблюдение и имеющее
Качение, отличное от текущего среднего, будет приводить к скач-
^°°оразному изменению k-NTV-оценки. Этот эффект можно осла-
Ть, если использовать k-N TV-оценку с последовательностью весов,
^деленных по типу C.2.3).
^ ^есь также необходимо специально обсудить влияние границ
ТеРвала наблюдения. С приближением точки оценивания х к
НиДе интервал усреднения наблюдений (входящих в определе-
96 3. Методы сглаживания
ние оценки) становится асимметричным. Так же было и в слу-
случае ядерных оценок. Заметим, однако, что в противоположность
ядерному сглаживанию асимметричные области слева и справа от
х всегда имеют одинаковое число точек. Процедура усреднения
около границы включает, таким образом, несколько больше та-
тачек, которые, вообще говоря, имеют различные средние значения.
Это не столь существенно в нашем примере, поскольку кривая
регрессии относительно плоская на границе. В случаях, когда
функция регрессии более крутая вблизи границ, k-NTV-оценка, по-
видимому, должна давать большее смещение по сравнению с ядер-
ядерной.
Параметр сглаживания к также выбирался из субъективных со-
соображений. Большее значение к должно давать слишком сильное
сглаживание кривой по сравнению с исходными наблюдениями.
Меньшее значение к приводит к слишком грубой кривой и уси-
усиливает структуру локальных пиков, как, например, при X « 0.85.
На рис. 3.23 представлена сплайн-оценка тЛ(ж). Для получения
оценки тЛ использовался алгоритм Райнша (Reinsch, 1967). Пара-
Параметр сглаживания был равен Л = 75; таким образом, тЛ является
решением задачи минимизации
j[g'\x)}2dx = min!
при ограничении
*=1
Соотношение между Л и параметром сглаживания А было предста-
представлено в разд. 3.4.
В табл. 3.6.3 представлено соотношение между А и G(A) =
J(m^(a?)Jdx. С ростом А кривая сплайн-оценки все более и бо-
более приближается к прямой линии. В пределе она эквивалентна
оценке наименьших квадратов.
В табл. 3.6.4 приведены эквивалентные значения параметра Л
при различных значениях А. Из нее следует, что значению Л = 75
соответствует А = 0.6 х 10~5.
По построению сплайн выглядит очень гладкой кривой, посколь-
поскольку представляет собой функцию, склеенную из кусочков кубиче-
кубических полиномов. Общая форма сплайн-функции та же, что у ядер-
ядерной и у Jb-iVW-оценок. Пик в середине интервала наблюдения ап-
аппроксимируется относительно хорошо (рис. 3.24), но слева от него
все три оценки имеют несколько меньший всплеск, что является
проявлением случайного характера данных.
Заметим, что сплайн-оценка может принимать отрицательны6
значения в некоторых точках даже в случае, когда все наблюди
3.6. Сравнение ядерных, k-NN-оценок и сплайнов
97
Рис. 3.23. Сплайн-оценка для модельных данных (табл.
3.6.1). Кривая 1 — истинная функция регрессии т(х) =
1-х+е"00 (*-1/2K. Кривая 2 — сплайн-оценка тЛ(х), Л = 75,
вычисленная с помощью программы IMSL пакета ICSSCU.
ния положительны. Это можно понять исходя из асимптотиче-
асимптотического ядерного представления C.4.3) оценки тЛ. Поскольку ядро
К9 имеет на Краях отрицательные значения (рис. 3.11), может так
случиться, что при наличии редких данных полученный при сгла-
живании сплайн будет иметь отрицательные значения, хотя усред-
няются строго положительные наблюдения.
Сравнение поведения всех трех оценок можно провести с помо-
Щью рис. 3.24, на котором представлены кривые невязок ("оценка"
Минус "истинная кривая"). Все три сглаживателя имеют искус-
Ственный всплеск при х « 0.2, вызванный случайным характером
Ннь1х, и по существу одинаковое поведение в терминах кривых
Невязок.
98
3. Методы сглаживания
0.75
-0.75
0.5
1.0
Рис. 3.24. Графики невязок для k-NN-, ядерного и сплайн
сглаживания модельных данных (табл. 3.6.1). Пунктирная
линия (метка 1) — невязка k-NN-оценки, гпк(х) — гп(х),к =
11. Штриховая линия (метка 2) — невязка сплайна тЛ(я)-
т(х),Л = 75. Сплошная линия (метка 3) — невязка ядерной
оценки mh(x) — m(x) с гауссовским ядром и шириной окна
h = 0.15. j
Упражнения
3.6.1. Вычислите ядерную оценку и сплайн для модельных дан-
данных при различных значениях параметров сглаживания
Найдите "хорошее значение" параметра сглаживания.
3.6.2. Численно исследуйте поведение рассмотренных выше оце-
оценок вблизи границы интервала наблюдения. Допустим,
значение |га'(х)| относительно велико на границе. Что мож-
можно ожидать от метода локального усреднения в этой ситу-
ситуации?
Дополнения
Модельные данные приложения 2 не содержат повторных наблК>-
дений (по переменной X). В случае повторных наблюдений алго-
3.6. Сравнение ядерных, k-NN-оценок и сплайнов 99
Таблица 3.6.3. Функция G(A) =
f(m^x)Jdx параметра Л
л с
45
50
55
60
65
70
75
80
85
90
95
100
105
7(Л) = J(m'Jix)Jdx
0.18 X 109
0.72 X 108
0.29 X 108
0.11 х 108
0.36 X 107
0.10 X 107
0.21 X 106
0.24 X 105
0.35 X 104
0.38 X 103
0.23 X 102
0.23 X 101
0.68 X 10~26
ритм Райнша (Reinsch, 1967), вычисляющий сплайн-оценку, требу-
требует некоторых подготовительных шагов. При наблюдении несколь-
нескольких значений для фиксированного значения переменной X следу-
следует объединить соответствующие наблюдения У в одно наблюдение,
усреднив их. Предположим, что имеется N{ > 1 наблюдений для
каждого Л",-. Тогда сплайн-алгоритм решает задачу минимизации
ФУНКЦИИ п
1=1
J
Таблица 3.6.4. Параметр
А как функция от Л
Л
50
55
60
65
70
75
80
85
90
95
100
105
-1/С(А)
0.47 х 10*~7
0.12 X 10~6
0.28 X 10~6
0.70 X 10
0.20 X 10~5
0.61 X Ю-5
0.27 X 10~4
0.24 X 10~3
0.16 X 10~2
0.14 X 10
0.24
0.22 X 101
ЧАСТЬ И
Ядерный метод
ГЛАВА 4
Какова точность оценивания ?
"Совершенно очевидно, что в любом случае оценка будет
отличаться от параметра, а следовательно, всегда остается
доля неопределенности. Мера этой неопределенности выра-
выражена в терминах выборочной дисперсии оценки."
М. Кендалл и А. Стюарт A979)
При выборе параметра сглаживания подходящей функцией разме-
размера выборки п любая из рассмотренных выше оценок сходится к ис-
истинной кривой с ростом числа наблюдений. Конечно, сходимости
оценки еще недостаточно, как сказано в приведенной выше цитате
из книги М. Кендалл а и А. Стюарта. Обычно всегда интересуются
степенью неопределенности или скоростью сходимости. Кендалл
и Стюарт (Kendall and Stuart, 1979) описывают возможную проце-
процедуру оценивания меры точности классических оценок параметра:
степень неопределенности выражается в терминах выборочной дис
Персии оценки, стремящейся к нулю, как правило, со скоростью
квадратного корня из п.
В задаче непараметрического оценивания мы имеем другую си-
ситуацию: дисперсия сама по себе не дает полной количественной
оценки скорости сходимости. Обычно методы сглаживания приво-
приводят к смещенным оценкам регрессии. Есть глубокие причины того,
что вплоть до данной главы точность измерялась в терминах пото-
поточечной среднеквадратичной ошибки (MSEI), суммы дисперсии и
квадрата смещения. Одна дисперсия не является полной характе-
характеристикой точности, если оценка смещена.
В разд. 3.2 мы видели, к примеру, что поточечная MSE
Е[т(х) - т(х)]2
MSE — Mean Squared Error. — Прим. перев.
4. Какова точность оценивания ? 101
хремится к нулю для k-NN-оценки тк1 если к —* оо и А?/п —* 0.
а отношении этой сходимости возникают следующие естественные
вопросы. Насколько быстро MSE стремится к нулю? Следует ли
вычислять меру точности только в одной-единственной точке? По-
Почему бы не исследовать более "глобальную" меру, такую, как инте-
интегральная среднеквадратичная ошибка (MISEJ'. Целью данной гла-
главы является описание различных подобных мер расстояния между
функциями и изучение точности ш(-) как оценки ш(-) в равномер-
равномерном и поточечном смысле. В этой главе переменная отклика также
может быть многомерной переменной со значениями в ШЛ
Можно определить различные "глобальные" меры расстояния
между функциями. Например, интегральное абсолютное отклоне-
отклонение (взвешенное маргинальной плотностью /)
= /
)l f(x)dx
сходится почти наверное к нулю для ядерных оценок ш(х), как по-
показано в работах (Devroye and Wagner, 1980a, 1980b). Аналогичный
результат для регрессограмм получен в (Devroye and Gyorfi, 1985).
Другое расстояние определяется посредством наибольшего абсо-
абсолютного отклонения
dLoo{rn, т) = sup \rh(x) - m(x)\,
х
где supj. берется по рассматриваемому множеству X Е ГО, . Иссле-
Исследование скорости сходимости к нулю в терминах этого расстояния
для ядерных оценок проведено в работах (Devroye, 1978), (Mack and
Silverman, 1982) и (Hardle and Luckhaus, 1984).
Наибольшее внимание уделялось квадратичным мерам. Типич-
Типичным представителем является интегральная квадратичная ошибка.
(ISEK)
¦
d7(m, m) = J(m(x) - m(x)Jf(x)w(x)dx,
где xd — функция веса. Дискретной аппроксимацией dl является
Уборочная среднеквадратичная ошибка (ASEL)
dA(m, т) = п-1
MISE — Mean Integrated Squared Error. — Прим. перее.
ISE — Integrated Squared Error. — Прим. перее.
ASE — Averaged Squared Error. — Прим. перее.
102 4. Какова точность оценивания ?
На практике это расстояние вычисляется проще, чем мера d
так как исключается численное интегрирование. Изучалось так'
же условное математическое ожидание dA:
dc(rh,m) = E{dA(Thim)\X1,...,Xn}.
Расстояние dc случайное в силу случайного характера Хз. Взятие
математического ожидания dt по X приводит к MISE
Для того чтобы упростить изложение, будем рассматривать толь-
только ядерные оценки. Вычисления ошибки оценивания, выполнен-
выполненные в разд. 3.1 для ядерных сглаживателей, могут быть в основном
непосредственно распространены на случай сходимости ядерных
оценок к истинной кривой в терминах рассмотренных выше гло-
глобальных мер точности. Но кроме этих желаемых свойств сходимо-
сходимости важно как с практической, так и с теоретической точки зрения
оценить скорость сходимости на классе функций. Это составляет
предмет следующего раздела. В разд. 4.2 изучаются поточечные до-
доверительные интервалы. Границы глобальной изменчивости и раз-
размеры ошибок представлены в разд. 4.3. Граничная проблема, на-
например тот факт,что поведение сглаживателя качественно изменя-
изменяется на границе, обсуждается в разд. 4.4. Выбор ядерных функций
представлен в разд. 4.5. Способы уменьшения смещения методом
складного ножа изучаются в разд. 4.6.
4.1. Скорость сходимости оценки сглаживания
Этот раздел имеет в основном теоретический характер. Читате-
Читателя, больше интересующегося практическими следствиями теорети-
теоретических результатов, отсылаем непосредственно к упражнениям и
дополнениям.
В задачах параметрического оценивания скорость, с которой
оценки параметров стремятся к истинному значению, обычно рав-
равна n~ll2 (Bickel and Doksum, 1977, гл. 4.4). Наоборот, при непара-
непараметрическом оценивании кривой скорость сходимости, например в
терминах среднеквадратичного отклонения, обычно более медлен-
медленная, порядка п~г,0 < г < 1/2. Предметом данного раздела явля-
является выяснение зависимости этой скорости г от четырех важны*
качественных характеристик сглаживания регрессии:
(Г) Гладкость т;
(Р) Размерность d переменной X;
(О) Объект т^к\ производная fe-ro порядка функции №
которую требуется оценить;
(Т) Тип используемого метода оценивания.
4.1. Скорость сходимости оценки сглаживания 103
Другие меры расстояния, например равномерное отклонение
, (fft, га), зависят также от этих четырех характеристик сглажи-
ания регрессии, но, возможно, имеют несколько другую скорость
ходимости. Рассмотрим для начала интегральную среднеквадра-
среднеквадратичную ошибку dM(rh,m), в терминах которой мы хотели бы оце-
оценить скорость сходимости. Пусть Ьп — последовательность поло-
положительных констант. Назовем ее нижней скоростью сходимости,
если для некоторых с > 0 и п > п0
inf sup dM(rh,m) > cb\.
т тем
Здесь inf^ — инфимум по всем возможным оценкам га функции
m, a supm€<M — супремум по классу функций М с определенными
свойствами гладкости. Нижняя скорость сходимости Ьп является,
таким образом, числовой последовательностью, сходящейся к нулю
быстрее, чем сходится любая оценка га к функции га в равномер-
равномерном смысле. Говорят, что последовательность дает достижимую
скорость сходимости, если существуют оценка га и С > 0 такие,
что для п > п0
sup dM(rh,m) < СЬ2п.
тем
Достижимая скорость сходимости является, таким образом, по-
последовательностью, которая стремится к нулю медленнее, чем схо-
сходится конкретная оценка к истинной функции регрессии. Опти-
Оптимальная скорость сходимости — скорость, которая является как
нижней, так и достижимой скоростью сходимости. Следствием
этих определений является то, что если 6П является нижней скоро-
скоростью сходимости, а. Ь'п — достижимой скоростью сходимости, по-
последовательность Ьп должна стремиться к нулю быстрее, чем 6^,
в том смысле, что Ь'п > схЬп для некоторых сх > 0 и п > п0. По-
Понятие оптимальной скорости сходимости является неоднозначным,
поскольку при оптимальной скорости Ьп скорость 6ПA -Ь оA)) так-
Же является оптимальной. Оптимальные скорости сходимости от-
отличаются друг от друга в асимптотике только постоянным мно-
жителем, поэтому имеет смысл под оптимальной скоростью сходи-
м°сти понимать любую такую последовательность. Оценка га, для
КотоРой достигается оптимальная скорость, называется асимпто-
Ъически оптимальной.
До сих пор оптимальная скорость сходимости определялась по-
посредством интегральной среднеквадратичной ошибки (MISE) dM.
к&зывается, что для ядерных оценок понятие оптимальной ско-
Р°сти с таким же успехом может быть определено в терминах инте-
Р^ьной квадратичной ошибки dj или некоторых других мер рас-
т°яния, например dA; см. (Hardle, 1986b). Они определяют меры
104 4. Какова, точность оценивания ?
расстояния, эквивалентные по точности в асимптотике, как пока.
зано в следующей теореме из (Маггоп and Hardle, 1986, теорема 3.4)
Теорема 4.1.1. Предположим, что
(Al) E(Yk\X = x) <Ck <oo, fc= 1,2,...;
(AS) f(x) удовлетворяет условию Гелъдера и положительна
на носителе функции w;
(АK) К удовлетворяет условию Гелъдера.
Тогда для ядерных оценок
sup \dA(h) - dM(h)\ /dM(h) -+ 0 п.н,
sup \dI(h)-dM(h)\/dM(h)->0 п.н.,
где Нп = [n6~lld, n"% 0 < 6 < l/Bd) и d,(h) — сокращенная запись
Оптимальные глобальные оценки скорости сходимости непара-
непараметрических сглаживателей регрессии были получены для случал
d = 1 Ибрагимовым и Хасьминским (Ibragimov and Hasminskii,
1980), а для многомерного случая — Стоуном (Stone, 1982),
Нуссбаумом (Nussbaum, 1985) и Немировским, Поляком и Цыба-
ковым (Polyak and Tsybakov, 1985). В последней работе содержатся
общие результаты по оптимальной скорости сходимости, включая
оценки скорости с функцией потерь из Lp. Стоун (Stone, 1982) по-
получил оптимальную скорость сходимости, используя dj и другие
меры расстояния. Следующая теорема непосредственно следует из
теоремы 1, доказанной в (Stone, 1982). Для ее формулировки нам
понадобятся некоторые обозначения. Пусть М = Мр^ — класс
гладкости, содержащий все р раз дифференцируемые функции т,
заданные на числовой прямой, такие, что р-я производная удовле-
удовлетворяет условию Гельдера с показателем /?, т. е.
\ < Lp\u - vf}
где 0 < /? < 1.
Теорема ^1.2. Допустим, что
(Al) w(x) —индикаторная функция компакта X;
(А2) условное распределение Y при заданном X = х являет0*
нормальным с дисперсией <т2(ж);
(A3) условная дисперсия 0*2(х) ограничена сверху, а также о№
делена от нуля на некотором компактном множеств
X1 С X;
(А4) маргинальная плотность f(x) отделена от нуля на X'i
4.1. Скорость сходимости оценки сглаживания 105
(Г) тп(х) принадлежит классу гладкости Мр^;
(р) X — одномерная переменная;
(О) оценивается m^k\ к < р.
Тогда нижнаа скорость сходимости равна п~г с
В работе (Stone, 1982) доказано, что в условиях этой теоремы ско-
скорость п"г, где г определяется D.1.1), является также достижимой
в некотором более узком смысле, чем определено ранее. Там же по-
показано, что при некотором обобщении Мрр оптимальная скорость
в этом более узком смысле равна п~г с
где d — размерность X.
В упомянутых выше работах Ибрагимова и Хасьминского
(Ibragimov and Hasminskii, 1980), Нуссбаума (Nussbaum, 1985), Не-
мировского, Поляка и Цыбакова (Nemirovskii etal., 1985) доказа-
доказано, что эта скорость является достижимой при равномерном (или
почти равномерном) расположении точек наблюдения. Достижи-
Достижимость для одномерного случая становится очевидной из вычисле-
вычислений, представленных в этом разделе и в разд. 4.5. Поточечная ско-
скорость сходимости аналогична, она получена в работе (Stone, 1980).
Заметим, что оптимальная скорость тем больше, чем больше про-
производных имеет кривая регрессии. Оптимальная скорость умень-
уменьшается с ростом размерности переменной X иди с ростом порядка
оцениваемой производной т^ функции т.
Ядерные оценки асимптотически оптимальны при соответству-
соответствующем выборе последовательности ширины окна и ядерной функ-
функции. Рассмотрим модель с фиксированным планом эксперимента
пРи Х{ = г/п и Y{ = т(Х{) 4- ?,-, где е,- — нормальная случайная
^личина с дисперсией а2. Предположим, что т четырежды диф-
дифференцируемая, и требуется оценить вторую производную тB\х).
Теорема 4.1.2 утверждает, что для этой задачи оценивания (р =
4> к = 2, d = 1) наилучшая скорость сходимости **ожет быть только
71 ' . Если эта скорость еще и достижима, то она оптимальна. В
Четности, п~4/9 является нижней скоростью сходимости. (Вспо-
мним определение оптимальной скорости сходимости.) Покажем,
Что скорость п"*4/9 достижима на классе гладкости М40 для опре-
определенного ядра. Рассмотрим ядерную оценку Пристли — Чао с
106 4. Какова, точность оценивания ?
последовательностью весов {W^ }:
?
m<2>(*) = п-1/*-3 ? К™ (Х-=М Y{, D.1.3)
S = l ^ '
где К№ — вторая производная симметричной ядерной функции.
Нетрудно показать (см. дополнения к этому разделу и к разд. 3.1),
что
var{ra<2)(*)} = Oin-'h-5),
bias2{m(h2)(*)} = О ( f {m^\x)fw{x)dx /»Л , D.1.4)
при Л —* 0, пЛ5 —+ оо. Таким образом, если ширина окна имеет
порядок Л ~ п/9, то
sup dM(rh^\ m<2>) < Cn-4's
для некоторого С > 0 и для п> п0. Итак, п~4/9 — по определению
достижимая скорость сходимости.
Заметим, что если ft выбрана отличной от п/9, ядерная оцен-
оценка в этом примере не будет достигать оптимальной скорости. Для
иллюстрации этого рассмотрим последовательность значений ши-
ширины окна Л = п(~1/9)+* с положительным или отрицательным 6.
Если 6 > 0, то доминирует составляющая dM(rrvh ,гпB)), равная
квадрату смещения, и dM « п~4/9(п46). Если 8 < 0, то доминирует
дисперсия оценки в dM(m\ \m^) и dM « n"/9(n"*). В любом
случае скорость сходимости более медленная по сравнению с опти-
оптимальной скоростью п~4/9.
Этот пример показывает важность правильной настройки пара-
параметра сглаживания Л с целью достижения баланса между квадра-
квадратом смещения и дисперсией. В разд. 5.1 мы увидим, каким образом
можно формировать ширину окна для автоматического достиже-
достижения правильной скорости, обеспечивая оптимальные оценки. Мо-
Может показаться, что это несколько не согласуется с достоинствами
непараметрического подхода. Непараметрическое оценивание ре-
регрессии мотивируют желанием иметь более слабые предположения
о структуре функции т, чем при параметрическом подходе, но для
построения оптимальных оценок оказывается, что необходимо вы-
выполнение очень специфического предположения о существовании
старших производных вплоть до определенного порядка. В разд. 5.1
представлен способ разрешения этой дилеммы, основанный на том
факте, что параметр сглаживания можно адаптировать к степени
гладкости функции т, не имея априорной информации о степени
дифференцируемости т.
4.1. Скорость сходимости оценки сглаживания 107
С другой стороны, не следует столь буквально преследовать цель
достижения оптимальной скорости на конкретном классе гладко-
гладкости, поскольку в практической ситуации число n~ri, rt = p1/Bp1 +
1), не будет сильно отличаться от п"Г7,г2 = PiI^Vt, + !)• Допустим,
что Р\ = 16. Даже если мы удвоим степень дифференцируемое™
для достижения лучшей скорости сходимости, относительное улуч-
улучшение п~Гз/п~Г1 для объема выборки п = 100 составит лишь 3.5%.
Отметим, что существуют ядерные оценки вида D.1.3), которые
не достигают оптимальной скорости п~/9. Это связано с четвер-
четвертой характеристикой (Т) сглаживания регрессии: для достижения
оптимальной скорости сходимости тип оценки должен выбирать-
выбираться соответствующим образом. Предположим, что мы выбираем в
D.1.3) асимметричное ядро, которое не удовлетворяет условию ор-
ортогональности fu K{u)du = 0. После несложных преобразований
и интегрирования по частям получаем
ъ\*)} = / ^л (* ~ «) М2)(я) ~ rnW(u)] du
+ O{n-lh~l) + o{h) D.1.5)
« hm^\x) I uK(u)du, h^O, nh — oo,
откуда следует скорость сходимости более медленная, чем Л2, т. е.
чем порядок смещения при симметричных ядрах.
Скорость сходимости по неквадратичным
мерам расстояния
В литературе также рассматривались более общие меры расстоя-
расстояния вида,
<*?„ (Л, "»)=[/ И*) -m(*)|"u;(*)(te] ", i/>1
(Prakasa Rao 1983, с. 244). При v = оо расстояние обычно опреде-
ляется как максимальное равномерное отклонение5)
sup \rh(x) — m(x)\.
и для квадратичных мер расстояния, можно определить опти-
Мальную скорость сходимости. Стоун доказал, что для значения г,
Писанного в теореме 4.1.2, п~г является оптимальной скоростью
°ригинале uniform maximal deviation. — Прим. nepee.
108 4. Какова точность оценивания ?
сходимости для dLv, если 1 < v < оо. При v = оо оптимальная
рость равна n~r(logn)r. Таким образом, максимальное равномер.
ное отклонение сходится к нулю чуть медленнее. В дополнениях к
данному разделу показано, что при слабых предположениях
sup \m(x) - m(*)| = Op(max{(nh/(\ogn))-l'29h}). D.1.6)
Этот результат был получен также в работе (Mack and Silverman,
1982, разд. 3). Если последовательность ширины окна выбрать
как Л = hn = O((n/\ogn)~lf3), скорость в D.1.5) будет равна
Ор((п/'°8П)"'3)) что является оптимальной скоростью D.1.2) для
р = 1, Jb = 0, rf = 1 и1/ = оо. В работе (Hardle, Janesen and Serfling,
1988) показано, что эта скорость сходимости достижима при оце-
оценивании не только т, но также и других гладких функционалов
от условной функции распределения. Такие функционалы вклю-
включают непараметрическую кривую масштаба (см. также разд. 6.2)
и усеченные6^ L- или М-сглаживатели (разд. 6.1).
Упражнения
4.1.1. Из обсуждения, следующего после теоремы 4.1.2, мы ви-
видели, что для достижения оптимальной скорости сходимо-
сходимости следует также подбирать соответствующий тип метода
оценивания. Рассмотрим теперь задачу с фиксированным
планом эксперимента, m E С4 и последовательностью по-
положительных ядерных весов. При таком методе ядерного
сглаживания оптимальная скорость
не достигается. Почему? Какая при этом достигается ско-
скорость?
[Указание: вычислите смещение, как в разд. З.1.]
4.1.2. Проведите небольшое исследование методом Монте-Карло,
в котором сравните расстояния dL и dM при одинаковой
ширине окна. Наблюдается ли при этом более медленная
сходимость для dL<Ji
4.1.3. Опишите качественную разницу между мерами точности
<*Loo И <*М*
[Указание: рассмотрите ситуацию, в которой сглаженная
кривая мало отклоняется от истинной кривой, за исключе-
исключением единственного острого пика или всплеска.]
' В оригинале trimmed. — Прим. персе.
4.1. Скорость сходимости оценки сглаживания 109
4.1.4. Проведите строгое обоснование D.1.4) в случае фиксиро-
фиксированного плана эксперимента.
[Указание: воспользуйтесь статьей (Gasser and Miiller
A984).]
4.1.5. Вычислите оптимальную ширину окна, которая миними-
минимизирует первые два основных члена выражения MISE. Дай-
Дайте интерпретацию константам, присутствующим в выраже-
выражении асимптотически оптимальной ширины окна. Когда А
может быть большой? В каких случаях можно ожидать
малое значение Л?
4.1.6. Вычислите ширину окна, обеспечивающую баланс стоха-
стохастического члена и смещения для максимального отклоне-
отклонения. Сравните скорость сходимости к нулю полученной и
оптимальной для MSE ширины окна.
[Указание: как показано в дополнениях, стохастический
член имеет порядок Op((nA)~1/2(lognI/2. Член система-
систематического смещения, как мы видели выше, имеет порядок
О(Л2) для m G С2]
Дополнения
Для понимания причин появления дополнительного логарифмиче-
логарифмического члена в dL<jo рассмотрим одномерный случай d = 1. Мы долж-
должны оценить следующую вероятность:
P{snp\rh(x)-m(x)\>6bn}
= Р{ sup sup \rh(x) — m(x)\ > S bn}
/=1,...,M* \x-xt\<r,n
<P\ sup |m(*,) - m(a?,)| > | bn\
+ sup P\ sup \rh(x) - m(x) - (m(*,) - m(x,))| > - 6n I,
гДе Мп интервалов {x : \x — xt\ < rjn} покрывают исходное компакт-
н°е множество X. Если rjn выбрать достаточно малым, то второй
Член будет пренебрежимо мал по сравнению с первым. Первый
Член можно оценить с помощью неравенства Бонферрони, поэтому
Остается оценить сверху
1=1
< Мп sup P (|ra(*,) - тп(х,)\ > |бп
/=1 м» I 2
ПО 4. Какова точность оценивания ?
Предположим теперь, что m — ядерная оценка, d = l,Xt- = i/n
m имеет константу Липшица, т. е. р = 1. Тогда
= O(ft) +
Выбирая А = СЬпУ где С > 0 — достаточно малая константа, по-
лучаем
¦{«
Р |m(z,) -m(*,)| >-&Л,
> т«
Если предположить, что ошибки ограничены и |/^(ti)| < 1, то по-
последнюю вероятность можно оценить, используя неравенство Берн-
штейна (Uspensky, 1937):
где
Теперь легко можно увидеть, что при
и Мп = О(п) член
Мп sup Р {\т(х,) -
-6П
2
стремится к нулю при 6 —> со. Это означает,
*(х/) "" m(xi)\ ограничена по вероятности, а значит,
sup
= Op(n'^3 logn1/3).
4.2. Поточечные доверительные интервалы 111
а 2. Поточечные доверительные интервалы
Целью данного раздела является построение поточечных довери-
доверительных интервалов для ядерных оценок и создание базиса для
получения равномерных доверительных интервалов, которые из-
изучаются в следующем разделе. Основная идея состоит в получении
асимптотического распределения ядерных оценок и в последующем
использовании либо ассимптотических значений квантилей, либо
их аппроксимаций методом бутстрепа для построения доверитель-
доверительных интервалов. Скорость сжатия доверительных интервалов про-
пропорциональна п~г, оптимальной скорости сходимости при соответ-
соответствующем выборе ширины окна. Желательно использовать именно
такие оценки, которые являются асимптотически оптимальными,
так как они обеспечивают наиболее узкие доверительные интерва-
интервалы и одновременно поддерживают одинаковые порядки квадрата
смещения и дисперсии.
Читателю, более всего интересующемуся практической стороной
дела, не следует разочаровываться довольно теоретизированным
началом этого раздела, а вместо этого предлагается сразу перейти
к алгоритму 4.2.1, который описывает построение доверительных
интервалов в к различных точках.
Асимптотическое распределение оценки нормально. Центр этого
распределения сдвинут на величину асимптотического смещения,
которое зависит от производных функции регрессии и маргиналь-
маргинальной плотности X. Асимптотическая дисперсия является функци-
функцией условной дисперсии <т2(#), ядра К и маргинальной плотности
/(я). Асимптотическое.смещение — функция ядра К и производ-
производных т, /.
Прежде чем перейти к теоретическому изучению асимптотиче-
асимптотического распределения ядерных оценок, произведем некоторые упро-
упрощения. Ядерная оценка rhh(x) равна отношению случайных ве-
величин; следовательно, непосредственное применение центральной
предельной теоремы невозможно, и выражение оценки следует ли-
неаризовать. Ядерная оценка имеет то же предельное распреде-
распределение, что и правая часть следующего выражения, полученного в
Результате линеаризации:
3Десь
1=1
Значает, как и в разд. 3.1, знаменатель ядерной оценки Нада-
л Ватсона. Следующая теорема устанавливает асимптотиче-
112 4. Какова точность оценивания ?
ское распределение ядерной оценки Надарая — Ватсона для одно-
одномерной предикторной переменной..
Теорема 4.2.1. Предположим, что
(Al) f\K(u)\ du < оо для некоторого т/ > 0;
(А2) h ~ п-1/5;
(A3) т и f дважды дифференцируемы;
(А4) точки хх, х2,..., хк являются точками непрерывности
<r*(x)uE{\Y\2+'l\X = x}, ti/(*,.)> 0, i = 1,2 *.
Тогда при соответствующей нормировке ядерная оценка Нада-
Надарая — Ватсона rhh(Xj) сходится по распределению в к различных
точках xly...,xk к многомерному нормальному случайному век-
вектору со средним вектором В и единичной матрицей ковариаций:
где
В = (dK{m"(Xj) + 2m'(xj)(f'(xi)/f(xj))})kj=i. D.2.2)
Доказательство, данное в дополнениях, усиливает результаты
(Johnston, 1979) и (Schuster, 1972). Оно основано на приведегчой
выше линеаризации.
Асимптотическое смещение D.2.2.) пропорционально второму
моменту ядра и мере локальной кривизны т. Эта мера локальной
кривизны является функционалом не только т, но также и марги-
маргинальной плотности. В точках максимума или минимума смещение
пропорционально т"(я); в точках перегиба оно пропорционально
лишь m'(x)(f'(x)/f(x)).
Эту теорему можно использовать для определения доверитель-
доверительных интервалов. Допустим, что смещение пренебрежимо мало по
сравнению с дисперсией; тогда следующий алгоритм позволяет при-
приближенно вычислить доверительные интервалы.
Алгоритм 4.2.1
ШАГ 1.
Вычислить ядерную оценку mh и оценку плотности Д в
4.2. Поточечные доверительные интервалы 113
ШАГ 2.
Сформировать оценку <т2(х):
1 = 1
ШАГ 3.
Взять са, A00 — а)-квантиль нормального распределения, и
положить
CLO = thh(x) - ca42&(x)l(nhfh{
CUP = rhh(x) + cQc][2a(x)/(nhfh{
ШАГ 4.
Образовать интервалы [CLO^CUP] вокруг rhh(x) в Jb раз-
различных точках хг,...,хк.
Этот алгоритм не учитывает смещение оценки mh(x)y так как оно
представляет собой сложную функцию m и /. Оценки смещения
можно было бы встроить в алгоритм, используя оценки производ-
производных функций m и /, но это привело бы к существенному услож-
усложнению алгоритма. Так, если ширина окна Л ~ п"'5, то описан-
описанные выше шаги не ведут к точному доверительному интервалу. Од-
Однако если Л выбирается пропорционально произведению п"'5 на
медленно стремящуюся к нулю последовательность, то смещение
асимптотически исчезает.
Бели ши/ изменяются мало, следует ожидать незначительной
разницы между этими двумя последовательностями значений ши-
ширины окна, поэтому можно использовать несмещенные доверитель-
доверительные интервалы. Однако ча малых пиках (смещение велико) может
потребоваться сдвиг интервала [CLO, CUP] на величину смещения
°Ценки. Решение о присутствии таких пиков должно принимать-
приниматься статистиком. Анализ данных по расходам характеризуется тем,
что неожиданные и скачкообразные изменения функции т(х) ма-
маловероятны. На рис. 4.1 оценка кривой регрессии для зависимости
Расходов на картофель от чистого дохода (рис. 1.1) представлена
вместе с десятью доверительными интервалами.
Из этого рисунка с очевидностью следует, что длина доверитель-
доверительного интервала увеличивается с приближением к правой границе
Интервала наблюдения. Поскольку ядро фиксировано, это долж-
Но происходить из-за присутствия других факторов, влияющих на
Дисперсию ядерной оценки. Во-первых, это условная дисперсия
а (ж), которая возрастает с приближением х к правой границе
114 4. Какова, точность оценивания ?
Рис. 4.1. Оценка доверительных интервалов для зависимо-
зависимости расходов на картофель от чистого дохода. Показа-
Показаны 95%-ные доверительные интервалы для ядерной оценки
rhh(x), h = 0.6, n = 7125, ядро Бпанечникова. Вертикальная
ось нормирована величиной среднего расхода. Горизонталь-
Горизонтальная ось нормирована средним чистым доходом для этого го-
года. Family Expenditure Survey A973).
(сравните с рис. 1.1). Во-вторых, величина, обратная маргинальной
плотности распределения X, входит как сомножитель. Поскольку
данные разрежены вблизи правой границы (сравните с рис. 1.5),
оценка дисперсии также увеличивается по этой причине. График
функции &(х), оценки условного стандартного отклонения <г(я),
представлен на рис. 4.2.
В качестве возможного способа визуализации обоих эффектов
на одном графике можно предложить построение доверительных
интервалов в таких точках х;-, для которых число наблюдений ме-
между Xj и Жу+1 постоянно. С уменьшением маргинальной плотности
евклидово расстояние между соседними точками возрастает. Это
можно увидеть на рис. 4.3, на котором показана ядерная оценка
(Л = 0.6, ядро Бпанечникова) зависимости расходов на картофель
4.2. Поточечные доверительные интервалы 115
1.5
Рис. 4.2. Кривая условного стандартного отклонения для
зависимости расходов на картофель от чистого дохода. По-
казана кривая *(*) = (п ??=1 \Ум(х)(У, - mh(x)J)l/\ n =
7125, h = 0.6, являющаяся оценкой <r(x). Family Expenditure
Survey A968-1981).
от чистого дохода совместно с доверительными интервалами. Эти
интервалы расположены таким образом, что между двумя после-
последовательными интервалами присутствует по 700 точек имеющихся
Данных.
Между соседними точками Xj расположено по 700 наблюдений.
Н* этом графике видно не только возрастание дисперсии, но так-
Же и уменьшение маргинальной плотности /(#). Это очевидно для
пРавой границы: максимум справа от оцененного доверительного
интервала при х « 1.9 воспроизведен менее чем по пятнадцати на-
наблюдениям.
Другой метод построения доверительных границ основан на бут-
СтРепе. Вутстреп представляет собой метод итерирования выборки,
соответствии с которым берутся бутстреп-выборки путем исполь-
^вания такого же случайного механизма, который сгенерировал
НнЬ1е. Это приводит к необходимости по-разному трактовать слу-
116 4. Какова, точность оценивания ?
Рис. 4.3. Оценки доверительных интервалов для зависи-
зависимости расходов на картофель от чистого дохода. Показа-
Показаны 95%-ные доверительные интервалы для ядерной оценки
mh(x), h = 0.6, n = 7125, с ядром Бпанечникова. Довери-
Доверительные интервалы расположены таким образом, что число
наблюдений между соседними интервалами равно 700. Вер-
Вертикальная ось нормирована средним чистым доходом для
этого года. Family Expenditure Survey A973).
чаи стохастических и детерминированных переменных X, Точнее
говоря, в случае модели с фиксированным планом эксперимента
стохастическая природа данных обусловлена только ошибками в
наблюдениях, поэтому итерирование выборки должно быть связа-
связано с невязками. Если случайны и X, и У, то итерирование выборки
может быть осуществлено на основе пар данных {(Х{,У{)}^г в со-
соответствии со следующим алгоритмом.
Алгоритм 4.2.2
Ь=0
ПОВТОРЯТЬ
Ь=Ъ+1
4.2. Поточечные доверительные интервалы 117
ШАГ 1.
Образовать выборку {(X? ,?*)}?-г в соответствии с эмпи-
эмпирической функцией распределения данных.
ШАГ 2.
Вычислить ядерную оценку т?(я) по бутстреп-выборке
{()}
{(;7)?=i
ПОКА Ь=В=число бутстреп-выборок.
ШАГ 3.
Определить CLO* как оценку а/2-квантили по В оценкам
бутстрепа rh\(x). Аналогично определить CUP*.
ШАГ 4.
Построить интервалы [CLO*>CUP*] вокруг fhh(x) в к раз-
различных точках хЛ...,. Xl.
Этот алгоритм бутстрепа был предложен в фильме о рабочей
станции Орион, см. (McDonald, 1982). Теоретические свойства
этого так называемого наивного бутстрепа7) рассматривались в
(Dikta, 1988), вновь без учета смещения. На рис. 4.4 представле-
представлены результаты применения описанной процедуры бутстрепа при
В - 100 к модельным данным, приведенным в табл. 3.6.1.
Ядерная оценка, представленная на рис. 4.4, вычислена для ядра
Епанечникова (К(и) = C/4)A — ti2)/(|ii| < 1)) и для ширины окна
h = 0.1. Заметим, что эта ширина окна больше, чем использован-
использованная при вычислении оценки, показанной на рис. 3.21, но кривая
рис. 4.2 более гладкая, чем на рис. 3.21. Причина этого заключа-
заключается в использовании разных ядер. Возможный способ сравнения
значений ширины окна представлен в разд. 5.4.
В случае модели с фиксированным планом эксперимента с
гомоскедастической структурой ошибок можно использовать лишь
оценки невязок
Использование повторных выборок с этими невязками в качестве
^е» j?=i приводит к бутстреп-наблюдениям Y* = тл(х,) + е*. Ко-
Нетшо, это имеет смысл только при не. зависящем от х распределе-
распределении ошибок. В этом случае формируют оценки бутстрепа mj(x) и
ИзУчают распределение mj(x), соответствующим образом центри-
Р°ванное около mh(x). Детально эта процедура описана в разд. 5.3.
Этот метод бутстрепа по невязкам можно также применять и
Ри случайном плане эксперимента. Он позволяет учесть смеще-
°ригинале naive bootstrap. — Прим. перев.
118
4. Какова, точность оценивания ?
1.5
1.0
0.5
0
-0.5
- 1-П
* А
-
-
V
0.5
1.0
Рис. 4.4. Доверительные интервалы, полученные алгорит-
алгоритмом бутстрепа для модельных данных табл. 3.6.1. Вычисля-
Вычислялась ядерная оценка rhh(x)f h — 0.1, n = 100, В = 100 с ядром
Бпанечникова.
ние и называется диким бутпстрепом^\ см. (Hardle and Mammen,
1988). Он назван диким потому, что в каждой точке наблюдения X,
(при фиксированом или случайном плане эксперимента) наблюде-
наблюдение бутстрепа порождается одн оtf-единственной оценкой невязки
Это делается с целью лучшего сохранения характеристик условно-
условного распределения оценки. Такой метод отличается от описанного
в (Hardle and Bowman, 1988) метода итерирования выборки по пол-
полному набору невязок.
Другая возможность связана с итерированием выборки из на-
набора невязок, определенного функцией окна, но этот путь име-
имеет один недостаток, состоящий в необходимости выбора ширины
окна. Чтобы избежать этого, предлагается такой метод диког0
бутстрепа, когда каждая повторяющаяся невязка обусловлена ДВУ'
В оригинале wild bootstrap. — Прим. пер ее.
4.2. Поточечные доверительные интервалы 119
очечным распределением, имеющим нулевое среднее, дисперсию,
авную квадрату невязки, и третий момент, равный кубу невязки.
В частности, пусть
^ невязка для точки Х{. Определим теперь новую случайную ве-
величину ?*, имеющую двуточечное распределение Gt-, где
6< = 7«. + A-7)«» D-2.3)
определяется тремя параметрами а, 6, у, a 6a и 6b — точечные меры,
сосредоточенные в а и 6 соответственно. Некоторые вычисления
показывают, что параметры а, 6,7 в каждой точке Xi определяются
выражениями
D.2.4)
Эти параметры обеспечивают выполнение равенств Ее* = О,
Ее*2 = ё? и .Бе*3 = ?f. Геометрическая интерпретация этих
параметров связана с методом золотого сечения Евклида (Euclid-
300, Книга вторая, предл. 11), см. упражнение 4.2.5. В опреде-
определенном смысле распределение повторной выборки G, можно рас-
рассматривать как аппроксимацию распределения каждой невязки по
одному-единственному наблюдению. В связи с этим метод и назван
Диким бутстрепом. В действительности метод работает благодаря
совокупному действию всех этих невязок. В повторной выборке
определены новые наблюдения
ГДе %(ж) — ядерная оценка с шириной окна д, превосходящей h
Эвристическое объяснение важности этого приведено ниже).
Затем вычисляется ядерная оценка по бутстреп-данным {(Xif
J )j?=i с использованием ширины окна Л. Обозначим ее т?(я). На-
^Р копий mj(x) может быть использован для вычисления довери-
Тельного интервала, так как распределение разности rhh(x) — m(x)
Римерно совпадает с распределением т?(ж) — rhg(x), как показы-
ает теорема 4.2.2. Здесь У | X означает использование условного
^Определения Yu ..., Yn \ Хх, ..., Хп, а знак ¦ обозначает распре-
^ен бутстреп-выборки Y;,...,Y*\ (Xl9Yx), ..., (Xn,Yn).
120 4. Какова, точность оценивания ?
Теорема 4.2.2. Пусть выполнены предположения теоремы 4-2
Тогда для почти всех выборочных последовательностей z E IR
z}\ -> 0.
Для интуитивного понимания того, почему ширина окна д, ис-
используемая при формировании невязок бутстрепа, должна соот-
соответствовать большему сглаживанию, рассмотрим средние значения
разности rhh(x) — т(х) по условному распределению Y\X и раз-
разности mj(s) — тд(х) по *-распределению в простой ситуации, ко-
гДа маргинальная плотность f(x) постоянна в окрестности точки
х. Асимптотический анализ, проведенный по аналогии с работой
(Rosenblatt, 1969), показывает, что
h(x) - т(х)) « h2dKrn"(x)/2,
Следовательно, для совпадения смещений, соответствующих этим
двум распределениям, необходимо, чтобы га^(х) —> т"(х). Это тре-
требует более медленного стремления к нулю д по сравнению с опти-
оптимальной шириной окна h для оценивания гп(х) (см. разд. 4.1).
Преимущество метода бутстрепа состоит в том, что не надо вы-
вычислять различные сложные константы, как, например, смещение,
описанное в теореме 4.2.1. В связи с этим алгоритм 4.2.3 легче под-
поддается программированию, но требует несколько большего количе-
количества вычислений при обработке повторных выборок. Его вычисли-
вычислительная сложность может быть уменьшена за счет применения ме-
метода дискретизации (WARP-метода), основанного на быстром пре-
преобразовании Фурье, как описано в разд. 3.1.
Алгоритм 4.2.3
Ь=0
ПОВТОРЯТЬ
Ь=Ь+1
ШАГ 1.
Реализовать е\ в соответствии с двуточечным распределе-
распределением G,. D.2.3), где
и, как в D.2.4),
а = ф - \/5)/2,
4.2. Поточечные доверительные интервалы 121
ШАГ 2.
Образовать новые наблюдения
где rhg(x) — несколько "пересглаженная" ядерная оцен-
оценка с шириной окна д. Вычислить rh*h(x) по выборке
{(V)}
{(,V)}i
ПОКА Ь=В=число бутстреп-выборок.
ШАГ 3.
Определить CLO* как а/2-эмпирическую квантиль В бут-
стреп-оценки т\(х). Аналогично определить CUP*.
ШАГ 4.
Построить интервалы [CLO*,CUP*] вокруг rhh(x) в к раз-
различных ТОЧКаХ ?},...,??.
Упражнения
4.2.1. Покажите, что в условиях теоремы 4.2.1 разность между
тл(х)-т(х)
и ее линеаризованным выражением
Я*)
имеет порядок ор((пЛ)~1/2).
[Указание: запишите разность как
С-?)(Н
и объедините оценки сомножителей.]
4-2.2. Докажите формулу D.2.2), т. е. покажите, что
nhva.t{Hn(x)} -+ (/(х))-1^) JK\u)du;
п cov {Нп(х) Нп(у)} —* 0 при п —* оо.
•2.3. Напишите эффективную программу, реализующую метод
дикого бутстрепа с использованием WARP-метода, описан-
описанного в разд. 3.1.
122 4. Какова точность оценивания ?
4.2.4. Используйте оценки доверительных интервалов метода д»
кого бутстрепа в реальном примере. Сравните их с асим
птотическими доверительными интервалами, полученными
из теоремы 4.2.1.
4.2.5. Рикардо Као обнаружил связь метода дикого бутстрепа и
метода золотого сечения Эвклида (см. Euclid, -300). Ц^
кажите, что двуточечное распределение дикого бутстрепа
может быть найдено методом золотого сечения интервала
[Указание: метод золотого сечения дает интервал Е\ кото.
рый содержит 2?, причем отношение длин Е' и Е такое же
как и отношение длин Е и Е' — Е.]
Дополнение
Определим rh(x) = mh(x)fh(x) = n ??=1 Kh{x - Х{)У^ Разность
между
rhh(x)-m(x)
и ее линеаризованным выражением
имеет меньший порядок, т. е. op((nh) */2), см. упражнение 4.2.1.
Тогда смещение можно записать как
Этот член равен
что примерно равно
т„(ж) - тп(х),
где тп„(х) = Efh(x)/Efh(x). Отсюда видно, что
тп(х) - т(х)
~ X)})-1 У Kh(x - u)m(u)f(u)du - m(x)f(x)
+m(x)f(x) - m(x) J Kh(x - «)/(«)<*«} D.2.5)
4.3. Границы изменчивости для функции 123
JL J «2ЛГ(«)Л(/(*)Г 1(("»Л''(*) - m(x)f"(x))
Jtj u*K(u)du{m"(x) + 2m'(x)(f\x)/f(x))}.
Заметим, что
**-"»» = ihlf - (h/f)mn](f/fh)
и f(x)/fh(x) "^ *» поэтому тл(х) — тп(ж) будет иметь такое же
асимптотическое распределение, как и член в квадратных скобках.
Обозначим этот член Нп(х). Непосредственными, хотя и громозд-
громоздкими вычислениями можно показать, что при х ф у
пЛуаг{Яп(х)} -> (/(*))" V(«) J К\ч)Лщ
п cov{Hn(x) Hn(y)} -> 0 при п -> оо. D.2.6)
Отсюда, применяя подход Крамера — Вальда (Serfling, 1980, с. 18),
получим асимптотическую нормальность случайного вектора
4.3. Границы изменчивости для функции
Границы изменчивости для функций представляют собой интер-
интервалы [CLO(x),CUP(x)] (основанные на выборке {(*,-,><)}?=1)> для
которых с вероятностью 1 — а истинная кривая накрывается поло-
полосой [CLO(x),CUP(x)], т. е.
P{CLO(x) < m(x) < CUP(x) для всех xG^} = l-a, D.3.1)
где х принимает значения в некотором (компактном) интересую-
интересующем нас множестве X. Такие границы нелегко вычислять даже
Для параметрических моделей; см. (Working and Hotelling, 1929)
или (Wynn, 1984) по поводу вычисления границ полиномиальной
Регрессии. В более сложном случае непараметрического оценива-
ния оказалось полезным вычисление границ [СЬО()У CUP(-)], кото-
которые являются консервативными в том смысле, что равенство D.3.1)
с°храняется при замене "<" на ">". Обычно границы имеют вид
CLO(x) = thh(x) - bn(x) - caDn(x)y з
CUP(x) = mh(x) + bn(x) + cabn(x),
^e K(x) — смещение оценки (обычно нуль для параметрических
°Делей), Dn(x) — мера разброса, а са — квантиль, обеспечиваю-
^ ^-уровень доверительных границ.
124 4. Какова точность оценивания ?
Существует несколько подходов к вычислению верхних и ниж-
нижних границ CUP(-) и CLO(-). Один подход состоит в использова-
использовании поточечных доверительных интервалов на очень мелкой сетке
интервала наблюдения. Уровень этих доверительных интервалов
можно настраивать методом Бонферрони с тем, чтобы получить
однородные доверительные границы. Расстояние между точками
сети можно связать с условиями гладкости кривой регрессии.
Другой подход заключается в трактовке разности mh(x) — fn(x)
как случайного процесса (по х) с последующим получением асим-
асимптотической гауссовой аппроксимации этого процесса. Теория экс-
экстремальных значений гауссовских процессов дает искомые довери-
доверительные границы.
Третий подход основан на бутстрепе. Посредством генерации
повторных выборок пытаются оценить распределение величины
Zn = sup \rhh(x) - m(x)\,
x
которое дает CLO(-) и CUP() как границы, вычисленные по (а/2)-
и A — а/2)-квантилям Zn соответственно. Другой метод бутстрепа
основан на аппроксимации распределения величины rhh(x) — m(x)
в различных точках х с последующей одновременной корректиров-
корректировкой поточечных интервалов с целью получения вероятности по-
покрытия 1 — а.
Связанные границы ошибок
Подход, предложенный в (Hall and Titterington, 1986b), основан на
методе дискретизации, т. е. на одновременном формировании гра-
границ ошибок в различных точках. Холл и Титтерингтон рассматри-
рассматривали модель регрессии с фиксированным планом эксперимента на
единичном интервале, т. е.
где Xi = i/n, а ошибки наблюдений распределены нормально с ну*
левым средним и дисперсией с2. Возьмем ядерную оценку типа
Пристли — Чао с последовательностью весов
и прямоугольным ядром К. Конструкция Холла и ТиттерингтоНа
следующая.
Разбиваем интересующую нас область на М ячеек, где j-я
содержит те наблюдения (ЛГ,.,У^), для которых
4.3. Границы изменчивости для функции 125
Ядерная оценка с прямоугольным ядром для М ячеек может быть
записана как
jnh-l
шЛЦ.) = (ПА)
где #< лежит в блоке j, а ширина окна выбирается так, чтобы q =
nft. Математическое ожидание оценки тЛ(х7) равно
Я, =q-4rn(q(j - 1)/п) + mfoO" " 1)/" + V")
а дисперсия равна <r2/q. Границы изменчивости вычисляются по
одновременным интервалам для величин fij при условии
Р{# < l*j < ft, l<j<M} = a. D.3.4)
Пробелы между соседними ячейками устанавливаются в зависимо-
зависимости от гладкости т. Допустим, что первая производная функции
регрессии ограничена на соседних ячейках константами Cj, т. е.
sup |m'(ti)| < с,, 1 < j < M. D.3.5)
<<о+1)л
Тогда для х в j-й ячейке разность между гп(х) и /i^ может быть
ограничена величиной
/n)cif 0 < V < 1.
Отсюда получаем верхние и нижние доверительные границы в фик-
фиксированной ячейке j:
CUP({j 4 »?)Л) = /if + V}(i|), 0 < т, < 1;
Остается образовать одновременные доверительные интервалы fif
и Pj • Для начала предположим, что дисперсия ошибки о2 извест-
известна. Пусть Ф — стандартная нормальная функция распределения,
S решение уравнения 2Ф(с7) — 1 = 7. Определим
(if = rhh(x) - (nh)-1'2*^
а? из j-й ячейки. Заметим, что riih(x) имеет нормальное распре-
Ление с дисперсией (nh)"la2 и средним ^. Тогда
Pifif < Ъ < 1$, 1 < J < M) = 7м. D.3.6)
126 4. Какова, точность оценивания ?
Выбор 7 = <xllM сразу приводит к вероятности покрытия а.
В случае неизвестной дисперсии ошибки Холл и Титтерингтоц
(Hall and Titterington, 1986b) рекомендуют формировать оценку о-2
используя разности наблюдений, т. е.
•=2
Алгоритм 4.3.1
Определить М ячеек и вычислить ядерную оценку по фор.
муле D.3.3).
ШАГ 1.
Определить
и
где 2Ф(с ) - 1 = 7, Iм = а.
ШАГ 2.
Положить границу изменения
ВД = (l/2)(Bi, + 1)А + 1/п)с„ 0 < v < 1,
где С; — верхняя граница производной т'(х)у как в D.3.5).
ШАГ 3.
Определить в соответствии с D.3.6)
CUP((l + ф) = ff + V,(,7), 0 < I/ < 1;
ШАГ 4.
Образовать CLO(-) и CUP(-) вокруг
Как показано в (Hall and Titterington, 1986b), полоса
[CLO(x),CUP(x)] представляет собой равномерно доверительна
множество уровня а для т. Метод дискретизации использовал-
использовался также в работах (Knafl, Sacks and Ylvisaker, 1985) и (Knafl et
al., 1984).
На рис. 4.5 приведен пример равномерно доверительного м**0'
жества для данных по радиоуглероду (Suess, 1980). Переменны*1
являются возраст по радиоуглероду и возраст по годовым #
деревьев, измеренные до 1950 г. нашей эры, причем данные п
рительно обработаны с тем, чтобы достичь равномерности шк
по годовым кольцам деревьев. Более полное изложение этой зад*1*
4.3. Границы изменчивости для функции
127
4500
5400
5800
6200
6600
7000
7400
Рис. 4.5. Равномерно доверительное множество для данных
по радиоуглероду (Suess, 1980). Равномерно доверительное
множество построено при ширине окна h = 15. Из (Hall and
Titterington, 1986b).
калибровки см. в работе (Scott, Baxter and Aitchison, 1984). Всего
бЬ1ло включено 180 точек. Холл и Титтерингтон выбрали М = 30,
Так что q = 6. Границы строились для a = 0.05 в предположе-
Нии сУЩествования только первой производной т'(х), равномерно
0гРаниченной константой с = 1.
Другой подход к учету изменения функции тп(х) между точка-
Сети может быть основан на формуле длины дуги кривой т(х)
е}кДУ двумя последовательными узловыми точками. Адриан Боу-
^ н (Adrian Bowman) предложил вместо того, чтобы ограничивать
Изводные функции ш, ввести предположение об ограниченно-
и Длины дуги
х/1 + (m'(x)J<f*
128 4. Какова точность оценивания ?
между двумя точками сети Х{1Х^Х. В этом случае пространств
между точками сети связывается цепочкой эллиптических обоАо
чек с фокусами в граничных точках соседних доверительных иц'
тервалов.
Оценка доверительных границ
В теореме 4.2.1 было показано, что при соответствующем выборе
параметра сглаживания ядерная оценка rhh(x) имеет асимптоти-
асимптотически нормальное распределение
yfch(mh(x) - т(х)) Д N(B(x), V(x)), D.3.7)
где В(х) — смещение, a V(x) — асимптотическая дисперсия (зави-
(зависящая от ядра К и от ширины окна). Обобщая, рассмотрим теперь
левую часть D.3.7) как случайный процесс по х. Если этот про-
процесс сходится соответствующим образом к гауссовскому процессу
G(x) с известной ковариационной структурой, то можно постро-
построить равномерно доверительные границы, используя распределение
suPar |?(x)l- Это распределение хорошо изучено в теории экстре-
экстремальных эначений гауссовских процессов.
В работе (Johnston, 1982) этот подход использовался для задачи
непараметрического оценивания регрессии для ядерных весов (при
известной маргинальной плотности /)
В (Major, 1973) с помощью этого метода определялись границы из-
изменчивости регрессограмм. В работах (Liero, 1982) и (Hardle, 1987b)
результаты Джонстона были обобщены на Whi(x) типа Надарая -"
Ватсона.
Основная идея подхода этих авторов состоит в стандартизации
процесса y/nh[rhh(x)—m(x)] и аппроксимации его соответствующий
гауссовским процессом. Джонстоун (Johnstone, 1982) показал, что
после соответствующего перенормирования величина
Vnh[thh(x) - т(х)]
имеет приблизительно то же распределение, что и стационарны11
гауссовский процесс
G(x) = [ К(х- u)dW(u) D.3.8)
с ковариационной функцией f K(x)K(u—x)dx и стандартным ви**е'
ровским процессом W{x). Определение винеровского процесса сМ"
4.3. Границы изменчивости для функции 129
апример, в (Serfling, 1980, с. 41)9>. В работе (Bickel and Rosenblatt,
1973) было получено асимптотическое распределение супремума
up \G{X)\ nPOI*ecca D.3.8). Этот результат позволяет построить
приближенные доверительные границы.
Теорема J[.3.1. Определим
1=1
Допустим, что X = ГО, 1] и
(А1) то(я)>/(я) и а (х) дважды дифференцируемы;
(А2) К — дифференцируемое ядро с конечным носителем
[-А.А];
(A3) E(\Y\k \Х = х) < Ск, к = 1,2,...;
(А4) Функция /(•) строго положительна на X;
(А5) Л = n-', 1/5 < 6 < 1/3.
Тогда максимальное абсолютное отклонение rnh(x) от т(х) на
X имеет предельное распределение
1/2
)
-»ехр(-2 exp(-z)), n-»co.
Здесь
dn = B6\ogn)^ + „tJ^jiibgC^-1'* + (l/2)log(logn«)},
где
_ K2(A) + K2(-A)
Cx > 0, а в противном случае
где
_ f(K'(x)Lx
2ск
^м. также Ширяев А. Н., Вероятность. М.: Наука, 1989. — Прим.
Ред.
130 4. Какова точность оценивания ?
Из этой теоремы можно получить приближенные доверитель-
доверительные границы т. Возьмем, например, квартическое ядро К (и) -
A5/16)A - ti2J/(|ti| < 1). Для этого ядра ск = 5/7, и оно занувд.
ется на границе носителя [—1,1], поэтому Сх = 0 в теореме 4.3.1.
Следующий алгоритм предназначен для квартического ядра.
Алгоритм 4.3.2
ШАГ 1.
Определить ск = 5/7 и С2 = A5/7)/Bс^), а также
dn = B log 1/ЛI/* + B log 1/Л)/2 log (J^' 2,
CLO(x) = mh(x) - [cjB Ml/A)I'2 + <U*?.
и аналогично CUP(x), где ca таково, что
ехр(-2ехр(-са)) = 1 - а.
ШАГ 2.
Постройте асимптотические доверительные интервалы
CUP(z) и CLO(x) вокруг rhh(x).
Заметим, что эта теорема не содержит коррекции смещения, как
в алгоритме 4.3.1. Смещение отсутствует благодаря предположе-
предположению, что ширина окна Л стремится к нулю медленнее, чем опти-
оптимальная скорость п/5. Смещение можно было учесть, но его вы-
выражение D.2.2) имеет довольно сложный вид; см. теорему 4.2.1. В
алгоритме дикого бутстрепа реализована автоматическая коррек-
коррекция смещения.
На рис. 4.6 показано применение алгоритма 4.3.2: равномерные
доверительные границы в задаче оценивания кривой Энгеля рас-
расходов на питание при 1 — a = 0.95.
Границы бутстрепа
Идея границ бутстрепа состоит в аппроксимации распределения
величины
sup \rhh(x) - m(x)\
Х
методом бутстрепа. Следующая процедура, предложенная в
(McDonald, 1982), основана на наивном бутстрепе. К сожалению,
для этого алгоритма теоретические результаты неизвестны.
Алгоритм 4.3.3
4 3. Границы изменчивости для функции 131
0.5 1,0 1.5 Z.0 Z.5
Полные расходы
Рис. 4.6. Равномерные доверительные границы в задаче
оценивания кривой Энгеля расходов на питание для 1973 г.
Изображены ядерная оценка mh(x), h = 0.35 (квартическое
ядро), непараметрическая аппроксимация полиномами тре-
третьего порядка, проходящими через нуль. Family Expenditure
Survey A968-1981).
ПОВТОРЯТЬ
* = 6 + 1
ШАГ 1.
Сформировать выборку {(^*>^*)}?=i по данным
Построить ядерную оценку mj(-) по повторной выборке
^^?^<*)}?=1 и определить Zb = sup |m?(x) — rhh(x)\.
x
ПОКА Ь = В (число повторных выборок ).
^пРеделить CLO* как а/2 квантиль В повторных отклоне-
отклонений Zb. Аналогично определить CUP* как 1—а/2 квантиль.
ШАГ 4.
Построить интервалы [CLO*,CUP*] для каждой точки х
интервала наблюдения.
132 4. Какова точность оценивания ?
Приведенный алгоритм требует большого числа вычислений, по*
скольку в каждой точке сети статистика Zb должна быть вычи-
вычислена В раз. Менее тяжелая в вычислительном отношении проце.
дура получается при рассмотрении не границы, а полосы ошибки
основанной на бутстрепе. В основе этого метода лежит поточеч-
поточечная бутстреп-аппроксимация распределения rhh(x) — m(x). Ниже
описывается подход, данный в (Hardle and Marron, 1988), который
использует метод дикого бутстрепа для построения поточечных до-
верительных интервалов. Можно ли модифицировать эти поточеч-
поточечные доверительные интервалы, чтобы покрыть истинную кривую
тп(х) с вероятностью 1 — а?
Непосредственное распространение оценивания поточечных ин-
интервалов методом бутстрепа для получения М одновременных дове-
доверительных итервалов состоит в использовании метода Бонферрони.
Недостатком подхода Бонферрони является то, что часто получа-
получаются слишком длинные интервалы. Причина этого заключается
в том, что данный метод не позволяет использовать значительную
положительную корреляцию оценок кривой в соседних точках.
Более прямой подход к нахождению одновременной полосы оши-
ошибок состоит в рассмотрении одновременного покрытия поточечных
границ ошибки с последующей настройкой поточечного уровня для
получения вероятности одновременного покрытия 1 — а. В работе
(Fisher, 1987, с. 394) это названо "доверительной лентой", так как
поточечные доверительные интервалы расширяются до тех пор, по-
пока не будут иметь требуемую одновременную вероятность покры-
покрытия 1 — а. Общее описание, включающее как метод Бонферрони,
так и прямой метод, может быть сформулировано в терминах групп
точек сети.
Прежде всего, образуем разбиение на М групп, как в методе Хол-
Холла и Титтерингтона, состоящих из точек, в которых должны быть
вычислены границы ошибок. Пусть каждой группе приписано зна-
значение индекса .; = 1,..., М, а точки внутри j-й группы обознача-
обозначаются как Xj д., Jb = 1,..., Nj. Группы дол лены быть выбраны таким
образом, чтобы для каждого j значения х^к внутри группы отли-
отличались друг от друга не более чем на 2Л. В одномерном случае это
легко обеспечить делением оси х на отрезки длиной примерно 2ft-
Для того чтобы определить процедуру бутстрепа, имеющую пре*
имущество за счет учета этой положительной корреляции, рассМО"
трим множество точек Xj fc, k = 1,..., Nj, которые имеют одинако*
вое асимптотическое положение ск (не зависящее от п) относитель-
относительно некоторой эталонной точки х^0 в каждой группе j. Положим
xjtk = ckh
4.3. Границы изменчивости для функции 133
3 многомерном случае простейшая формулировка получается при
условии, что каждая группа расположена в гиперкубе со сторо-
стороной 2Л.
Теперь внутри каждой группы используем дикий бутстреп для
аппроксимации совместного распределения величин
Вспомним теорему 4.2.2 с целью аппроксимации этого распре-
распределения методом дикого бутстрепа. В ней было показано, что ве-
величины
Vnh[rhh(x) - m(x)] и Vnh[rh*h(x) - rhg(x)]
имеют одинаковое предельное нормальное распределение. Для ка-
каждой группы j это совместное распределение используется для по-
получения одновременных границ ошибки уровня 1 — аг/М, которые,
таким образом, являются одновременными для к = 1,..., Nj. Пусть
Р > О — общий размер всех доверительных интервалов. Цель со-
состоит в выборе /? так, чтобы получающийся в результате одновре-
одновременный уровень был равен 1 — а/М.
Для каждого Xjk, к = 1,..., Nj, определим интервал Ij *(/?), кон-
концы которого являются /3/2 и 1 — /3/2 квантилями распределения
(т?(ж^) — rhg(xj к)). Затем определим otp как эмпирический од-
одновременный уровень /3 доверительных интервалов, т. е. как до-
долю кривых, лежащих вне по крайней мере одного интервала груп-
группы j. Далее найдем значение /?, обозначаемое /?;-, при котором
a0j = ос/М. Получающиеся в результате ^ интервалы в каждой
группе j будут иметь коэффициент доверия 1 — a/М. Следователь-
Следовательно, для границы Бонферрони полный набор интервалов Ij k(/3j),
* = 1,..., Nj, j = 1,..., M, будет одновременно содержать rh\(Xj k)
вблизи rhg(xjk) с вероятностью, не меньшей 1 — а. Таким образом,
интервалы Ij^iPj) ~ ^(^i,*) + fhh(xjtk) будут одновременными до-
ВеРительными интервалами с коэффициентом доверия не меньше
* - Qf- Этот результат сформулирован в следующей теореме.
Те°рема 4-3.2. Определим М групп точек xjk, k = 1,...,^.,
^ ^ !>...,М, в которых должны быть установлены одновремен-
Не границы ошибок. Вычислим равномерные доверительные ин-
еРвалы для каждой группы. Скорректируем уровни значимости
Утри групп по методу Бонферрони. Тогда границы ошибок бут-
Щепа устанавливают асимптотически одновременные довери-
е*ъ интервалы, т. е.
134 4. Какова точность оценивания ?
В качестве практического способа нахождения /?;- для
группы j можно использовать следующий метод "деления попо.
лам". Вычисляем сначала /3 = а/2М и а3. Если в результате о
превышает а/М, то пробуем /? = a/AM; в противном случае по»
латаем /? = За/4 А/. Продолжаем этот процесс деления пополам
до тех пор, пока найденные соседние значения /Зф и 0* не будут
удовлетворять условию а^ < а/Af < а^«; так как осуществляется
только конечное число копий бутстрепа, число получаемых точек
/3 также будет конечным. Окончательно берем взвешенное среднее
интервалов для /?ф и /?*, причем веса равны {ар. — а/М)/(а^ — а.)
и (а/Л/ — а^#)/(а^. — а^#) соответственно.
Заметим, что теорема 4.3.2 в качестве частных случаев содержит
обоснование как метода Бонферрони, так и прямого метода одно-
одновременных границ ошибок. Метод Бонферрони соответствует слу-
случаю Nx = • • • = NM = 1, а прямой метод — М = 1. Одновременные
границы ошибок, получаемые диким бутстрепом, формируются в
соответствии со следующим алгоритмом.
Алгоритм 4.3.4
Ь=0
ПОВТОРЯТЬ
Ь=Ь+1
ШАГ 1.
Выбрать е\ из двуточечного распределения G{ D.2.3), где
ШАГ 2.
Сформировать наблюдения дикого бутстрепа
где тпд(х) — ядерная оценка с повышенным сглаживани-
сглаживанием и шириной окна </. Вычислить mj(x) в М различны*
точках по повторной выборке {(Х^У?)}"^.
ПОКА Ь=В=число повторных выборок.
ШАГ 3.
Вычислить Ij k(f3j) следующим образом.
Сначала положить /? = а/2М и вычислить ос р.
Бели результат превышает а/М, то попробовать 0 = a/
в противном случае провести вычисление для /3 = З/4
Продолжать этот процесс деления пополам до тех пор,
соседние значения /?ф и ft* не будут удовлетворять
afim < а/М < а^.
4.3. Границы изменчивости для функции
135
3.0
2.5
2.0
,1.5
1.0
05
1 1
- /*
1 1 1 1
-
-
0.5
1.0
1.5
X
2.5
3.0
Рис. 4.7. Равномерные границы ошибок для зависимости
расходов на картофель от чистого дохода в 1973 г. Сплошная
линия представляет ядерную оценку mh(x), h = 0.35 (квар-
тическое ядро). Family Expenditure Survey A968-1981).
Наконец, взять взвешенное среднее интервалов для Д, и /?*
с весами
соответственно.
Определить
*(*;,*)] = rhh(xjtk) - mg(xjik) 4- 1„Щ.
Шаг 4.
П°строить интервалы [СЮ*, CUP*] вокруг rhh(x) в М раз-
Ли^н точках «x,..., хм.
136 4. Какова точность оценивания ?
Описанный метод дикого бутстрепа использовался в примере с
зависимостью расходов на картофель от чистого дохода. На рис. 4.7
показаны границы ошибок для этих данных.
Для выяснения практического различия между описанными ме-
тодами определения границ ошибок в работе (Hardle and Marron
1990) рассматривалось распределение величины rhh(x) — m(x) щ
сети значений х для некоторых частных примеров. Исходная кри.
вая т(х) была взята в виде суммы линейной и колоколообразной
функций:
Для наглядности она изображена на каждой части рис. 4.8 сплош-
сплошной линией.
Маргинальное распределение X — нормальное N@,1), а услов-
условное распределение У\Х является нормальным N(m(X), a2) для <г =
0.3,0.6,1,1.5. Для каждого из этих четырех распределений гене-
генерировалось по 200 наблюдений. На рис. 4.8 показано по одной ре-
реализации для каждого из четырех случаев. Там же изображены
оценки гпЛо(ж), вычисленные для каждого случая по соответствую-
соответствующим данным, а также графики ядерных функций (внизу), показы-
показывающие эффективную меру локального усреднения в каждом слу-
случае. Ширина окна Ло была оптимальной, как в (Hardle and Marron,
1985b), где функцией веса w(x)> как и в статье, была индикаторная
функция отрезка [—2,2]. Как и ожидалось, при большей дисперсии
требуется большее сглаживание.
Для изучения различия между описанными методами постро-
построения границ ошибок было сгенерировано по 500 наборов псев-
псевдоданных. Затем вычислялись ядерные оценки в точках х -
—2,—1.8,—1.6,...,1.8,2 с использованием стандартной нормальной
плотности в качестве ядра. Ширина окна выбиралась равной Ло
На рис. 4.9 для распределения с <т = 1 показаны истинная кри-
кривая гп(х) и границы ошибок, которые являются различными кван-
квантилями распределения rhh(x). Центры этих границ соответствуй
средним распределений и ясно показывают смещение, присущее не-
непараметрической оценке регрессии. Отметим, в частности, сколь
существенно смещение зависит как от кривизны гп(х) в районе гор'
ба, так и от кривизны /(х) около точки х = —2,2. Границы **а
рис. 4.9а представляют собой поточечные границы ошибок УРоВ'
ня 80% . На рис. 4.9Ь показаны одновременные границы того #е
уровня. В случае рис. 4.9с значения х были разбиты на семейс^
{-2,..., -1}, {-0.8,..., 0}, {0.2,..., 1}, {1.2,..., 2} и был использ*
ван метод, описанный в теореме 4.3.2. Рис. 4.9d показывает гра**
цы ошибок уровня 80% для метода Бонферрони. .
Для простоты сравнения длин этих интервалов рассмотр
рис. 4.10. Он показывает длины различных интервалов для *
4.3. Границы изменчивости для функции 137
е значений ж, что и на рис. 4.9. Конечно, эти интервалы короче
центре, что отражает тот факт,4 что там больше данных, поэто-
поэтому и оценки более точные. Как и ожидалось, длины возрастают
oi поточечных интервалов через действительно одновременные и
иНтервалы по семействам до интервалов по Бонферрони. Заметим
также, что, как указывалось выше, разница между действитель-
действительно одновременными границами и одновременными границами по
семействам довольно мала, в то время как поточечные интервалы
заметно уже.
Упражнения
4.3.1. Усовершенствуйте алгоритм 4.3.2 с целью использования
ядер К(А) > 0.
4.3.2. Используя WARP-алгоритм из упражнения 4.2.3, реализу-
реализующий метод дикого бутстрепа; напишите программу, пред-
предназначенную для вычисления одновременных нижних гра-
границ по алгоритму 4.3.4.
4.3.3. Сравните границы наивного бутстрепа и границы ошибок
дикого бутстрепа. В чем вы видите существенное различие?
[Указание: рассмотрите смещение оценки rhh(x).]
4.3.4. Используя алгоритм 4.3.2, найдите равномерную довери-
доверительную границу оценки для данных о мотоцикле.
4.3.5. Можно ли получить аналог теоремы 4.3.1 для k-NN-
оценки, используя соответствующие утверждения из
разд. 3.6?
Дополнения
Важный вопрос связан с выбором пилотной ширины окна д. Не-
Несмотря на работоспособность бутстрепа (в смысле получения пра-
вильной асимптотики вероятностей покрытия) при довольно про-
произвольном 0, интуитивно ясно, что выбор д будет играть важную
Роль в том, насколько хорош метод бутстрепа на конечных выбор-
выборах. Поскольку основная цель пилотного оценивания состоит в
п°лучении правильной аппроксимации смещения, мы используем
^чность оценки смещения в качестве критерия. Теоретический
Нализ типа приведенного выше представляется более простым, чем
Ри возрастающих N, что еще раз говорит в пользу рассмотрения
°и общей идеи разбиения на группы.
вспомним, в частности, что смещение оценки rhh(x) регрессии
\XJ определяется выражением
138 4. Какова точность оценивания ?
Рис. 4.8. Сплошная линия — т(х), крестики — реализаД^
*i, ••., >200 Для (а) <т = .3, (Ъ) <т = .6, (с) a = 1, (d) a - ^
Пунктирная линия — mho(x); кривая внизу показывает э<Г
фективную ширину окна, использованную при вычислен00
rhho(x). Из (Hardle and Marron, 1988).
4.3. Границы изменчивости для функции
139
?о
1
1
CM
1
+
+
л*
и
+
я?
• ++
+ ++
+
.,, /
++ л
+
/\
+
+
•
•
-3 -2
-1
О
X
(ь)
+.А. ++VA й
140
4. Какова точность оценивания ?
Рис. 4.9. Покрытие истинной кривой т(х) с помощью эМ'
пирических квантилей распределения rhhQ(x) (по 500 реал*1'
зациям). Центры отрезков являются средними значения*1
распределений. Показаны границы ошибок (а) поточечны >
(Ь) одновременные, (с) по семействам и (d) по методу Б°
феррони — все уровня 80%. Из (Hardle and Marron, 1988)-
4.3. Границы изменчивости для функции
141
142 4. Какова точность оценивания ?
«о
о.
Q)
к
Ю
•
О
о
D
\
О
О
•
Г
Jl
О .
С
1 ' '
а
X
+
о
1 п
°оо
•
........
Бонферрони
Соседние
Одновременные
Поточечные
с
Q ¦-¦ 0
^ *г ^
(
Ооооооо0
%
a
J
а
•
о
о
о
-3-2-10 1 2 3
X
Рис. 4.10. Длины интервалов, представленных на рис. 4.9,
где значения точек х прежние. Из (Hardle and Marron, 1988).
Оценка смещения бутстрепа, получаемая при итерировании выбор-
выборки, равна
s=i
Следующая теорема дает асимптотическое представление
квадратичной ошибки оценивания bh(x) посредством bhtg(x)
сюда сразу находится величина д, минимизирующая это
вление ошибки. Такой выбор д будет означать близость друг
Y\X- и «-распределений.
Теорема 4-3-8- В условиях теоремы, 4.2.2 для почти всех
рочных последовательностей
in-lg-s + C2g%
4.4. Поведение на границе 143
je эквивалентность "~" понимается в том смысле, что отно-
отношение стремится к единице по вероятности, а
Из теоремы 4.3.3 непосредственно следует, что скорость сходимо-
сходимости g для d = 1 должна быть п"/9. Это уточняет приведенное вы-
выше интуитивное соотношение о том, что ядро g должно быть более
сглаживающим. Кроме того, при этих предположениях разумный
выбор h должен соответствовать порядку п"/5. Следовательно, те-
теорема 4.3.3 еще раз показывает, что ядро g должно стремиться к
нулю медленнее, чем Л. Доказательство теоремы 4.3.3 содержится
в работе (Hardle and Marron, 1988).
4.4. Поведение на границе
Любой метод сглаживания будет менее точным вблизи границы ин-
интервала наблюдения. Число наблюдений, усредняемых около гра-
границы, уменьшается, и это сказывается на дисперсии или смещении
°ценки. Рассмотрим ядерные веса: с приближением х к гранич-
граничным точкам они становятся асимметричными. Для внутренних
Т(>чек х интервала наблюдения такой "граничный эффект" отсут-
отсутствует, но для выборок малого и среднего объема влияние границы
может распространяться на значительную часть интервала наблю-
наблюдения. Рассмотрим, например, ядерную оценку, представленную
На Рис. 3.2. Использованное в этом случае гауссовское ядро все-
Гда частично усекается граничными точками. Таким образом, весь
нтервал наблюдения (строго говоря) подвержен воздействию гра-
^Цы. Заметим, однако, что это ядро практически зануляется вне
g HbI трех стандартных отклонений, поэтому лишь малая часть на-
*>Дений на каждом конце ощущает влияние границы.
ъл , Эт°м разделе рассматривается влияние границы и излагается
ни Тивное и простое решение граничной проблемы. Это реше-
П^Аложено в работе (Rice, 1984b) и использует (обобщенный)
3" складного ножа". Граничные явления обсуждались также
V°TaX (Gasser and Miiller, 1979) и (Miiller, 1984b) где предложе-
СПользовать вблизи границы так называемые граничные ядра.
цьСГЛажив^нии сплайнами смещение, вызванное влиянием гра-
!> вычислялось в работе (Rice and Rosenblatt, 1983).
144 4. Какова точность оценивания ?
Рассмотрим модель с фиксированным планом эксперимента ц
ядра, имеющие носителем отрезок [—1,1]. Возьмем ядерную оценку
математическое ожидание которой равно (см. упражнение 4.4.1)
fx/h
/ К(и) т(х - uh) du + O(n-lh-1) D.4 1)
¦/(*-!)/*
при nh —> со. В средней части интервала наблюдения проблем не
возникает, поскольку при малом Л имеем x/h > 1 и (х — l)//i < -1
Пусть теперь х = ph < 1 — Л; тогда, используя разложение в
ряд Тейлора, можно аппроксимировать математическое ожидание
rhh(x) выражением
т(х) ( К(и) du - hm\x) Г иК(и) du
+ hi*m"(x) I u2K(u) du
=т(х)шк@,р) - hm'(x)u>K(l,p)
+ ^-h2m"(x)uKB, p). D.4.2)
2
Конечно, если р > 1,
и мы получаем известное разложение смещения оценки Пристли ^
Чао. Идея Джона Раиса связана с определением ядра, зависящего
от относительного положения я, выраженного параметром р.
Асимптотическая несмещенность достигается для ядер
Кр() = К()/Шк@,р).
Если значения х отсутствуют вблизи левой границы, т. е. р > 1»т
приближенно смещение определяется третьим членом. Если р <
основным членом будет второй, имеющий порядок О(Л), и,
тельно, порядок смещения на границе меньше, чем в средней
интервала. ^
Обобщенный метод "складного ножа" (Gray and Schucany, ly
позволяет избавиться от этого члена меньшего порядка в смет
Пусть rhh р{) — ядерная оценка с ядром Кр, и пусть
rhJh(x) = A - R)mhp(x) + RrhQhp(x)
4.4. Поведение на. границе 145
^ оценка "складного ножа" функции т(х), представляющая собой
линейную комбинацию ядерных оценок с шириной окна huah. Из
разложения смещения D.4.2) следует, что основной член смещения
оценки ihi(x) можно исключить, положив
/443)
Этот метод использовался также в (Bierens, 1987) для уменьше-
уменьшения смещения внутри интервала наблюдения. В сущности, оценка
складного ножа использует ядерную функцию
К}(и) = A - Я)Я-(и) - (R/a)K(u/a), D.4.4)
где Я, ос и, следовательно, Кр зависят от р. В этом смысле Кр
можно интерпретировать как "граничное ядро". Райе (Rice, 1984b)
рекомендовал следующий выбор значения а:
а = 2 - р.
Для примера рассмотрим в качестве исходного квартическое
ядро
А» = A5/1б)A - и2J 1(\и\ < 1). D.4.5)
Числа u;^@,/>), ljkA,p) можно вычислить точно. На рис. 4.11 по-
показана последовательность граничных ядер Кр для р = 0.1, 0.2,
0.4, 0.6, 0.8. Заметим, что ядра имеют область отрицательных зна-
значений. На рис. 4.12 представлена непараметрическая оценка функ-
функции т(х) = х2 по п = 15 наблюдениям (гауссовский шум, а = 0.05).
Ширина окна h равна 0.4; таким образом, 60% интервала наблюде-
наблюдения подвержено граничному эффекту.
Упражнения
4.4.1. Вычислите константы и>к@, р),и>кA, р),и;кBур) из D.4.2)
для квартического ядра. Постройте алгоритм с коррекцией
смещения на границе.
[Указание: система XploRe A989) содержит этот алгоритм
для триквадратного ядра10).]
4«4.2. Докажите формулу D.4.1), сравнив
Erhh(x) = п-1 ? Kh(x - Х()т(Х{)
:
оригинале triweight kernel. См. формулу в упражнении 4.5.2. —
перев.
146
4. Какова, точность оценивания ?
Рис. 4.11. Модифицированные квартические граничные яд-
ядра KJp для р = 0.0, 0.2, 0.4, 0.6, 0.8. Здесь К{ — симметричное
ядро. Из (Rice, 1984b) с разрешения Marcel Dekker, Inc., New
York. '
-0.2
0.2
0Л
0.6 0.8 1.0
Рис. 4.12. Непараметрическая оценка функции тп(х) = * '
п = 15, р = 0.05, h = 0.4, квартическое ядро. Сплошная я11'
ния — истинная функция, пунктирная линия — немодяф11'
цированная ядерная оценка. Из (Rice, 1984b) с разрешений
Marcel Dekker, Inc., New York.
4.5. Точность как функция ядра, 147
с
где Д, = [Х({ттХ),Хт),Х0 = 0.
4.5. Точность как функция ядра
Эффективные весовые функции {Ww(x)} ядерных оценок по опре-
определению зависят от ядра К и последовательности ширины окна
h = hn. Точность полученной в результате оценивания кривой
rhh{x) является функцией не одной только ширины окна, но, бо-
более точно, есть функция пары (К, К). В этом разделе изучается
поведение квадратичных мер расстояния как функций ядра К.
Как показано ниже, вопрос об изменении этих мер расстояния как
функций ядра может рассматриваться отдельно от проблемы нахо-
нахождения хорошего параметра сглаживания. В конце этого раздела
показывается, что в практических задачах выбор ядра не столь ва-
важен. Точность оценки rhh — в большей степени вопрос выбора
ширины окна. Вспомним асимптотическую эквивалентность раз-
различных мер среднеквадратичной ошибки, сформулированную в те-
теореме 4.1.1. Имея в виду эту эквивалентность, мы сконцентрируем
внимание на поведении MISE как функции К.
В разд. 3.1 было показано, что MSE оценки rhh(x) может быть
записана в виде
CvcKn-lh~l + C2Bd2Kh\ D.5.1)
гДе CViCB — константы, зависящие от совместного распределения
\X)Y). Ширина окна, минимизирующая D.5.1), равна
С \1/5/г \1/5
&) (I)
(I)
^то выражение параметра сглаживания приводит к следующему
"ыражению MSE:
MSEopt = п-
°т минимум MSE зависит от ядра через произведение
V(K)B(K) = c\dK =П К2(и)ёи} f u2K(u)du. D.5.3)
148 4. Какова, точность оценивания ?
Таблица 4.5.1. Ядерные функции, минимизи-
минимизирующие V(K)B(K). Источник: Miiller, Mam-
mitzsch A985)
*|<1)
к р Ядро К(и)
О 2 C/4)(-и2 +1)
0 4 A5/32)Gи4 - Юи2 + 3)
1 3 A5/4)(u3 - и)
1 5 A05/32)(-9ti* + 14u3 - 5ti)
2 4 A05/16)(-5u4 + 6u2 - 1)
2 6 C15/64)G7ue - 135u4 + 63u2 - 5)
Рассмотрим более общий случай оценивания Jfc-й производной
р раз дифференцируемой функции т. При использовании прои>
водных ядер К№ этот функционал принимает вид
Г Г1 Р~"*1 Г1
V(K)B(K) = / (K^\u)Jdu\ I
L/-i J \J-\
Можно ли минимизировать это сложное выражение как функцию
К1
Для ответа на этот вопрос заметим прежде всего, что следует
стандартизировать ядра, используя инвариантность этого функ-
функционала относительно преобразования масштаба вида
КЮ(и) — s-(k+VK(k\u/s). D.5.4)
Известно несколько подходов к осуществлению этой стандартиза-
стандартизации. Рассмотрим подход, описанный в работе (Gasser, Miiller and
Mammitzsch, 1985), в которой предложено использовать ядра с но-
носителем [—1,1]. Возможный недостаток такой стандартизации со-
состоит в том, что может быть потерян смысл действительной ши-
ширины окна, используемой при обработке данных. Рассмотрим, на-
например, ядерную функцию
К(и) = СаA - и2)" Щи\ < 1),
имеющую при любом а носитель [—1,1]. Для больших а ядро ста-
становится очень крутым, и трудно интерпретировать значения Ши-
Ширины окна как величины, кратные длине носителя. В разд. 5.4 мь1
вернемся к этому вопросу стандартизации при обсуждении кано-
канонических ядер Маррона и Нолана (см. (Маггоп and Nolan, 1988))-
В работе (Gasser, Miiller and Mammitzsch, 1985) использовал^
вариационный метод минимизации V(K)B(K) относительно К- "
результате получаются полиномы степени р. Некоторые из
"оптимальных" ядер представлены в табл. 4.5.1.
4.5. Точность как функция ядра.
149
1.5
Рис. 4.13. Два оптимальных ядра для оценивания m (из
табл. 4.5.1). Метка 1 (сплошная линия): (ktp) = @,2). Метка
2 (штриховая линия): (А?,р) = @,4).
Говорят, что ядро имеет порядок (к,р), если оно удовлетворяет
следующим моментным условиям:
1огда
для
выполняются равентства
fl ,„ . Г о, j = o,...,Jb-i,*+i,...,P-i;
] К(к\и)и* du = I (-1)**!, j = fc;
^Оптимальные ядра, приведенные в табл. 4.5.1, имеют порядок
Hbi « ^3 табл* *-5-1 вытекает другой важный вывод: производ-
^е оптимального" ядра не являются "оптимальными" ядрами
н^л оценивания производных, например ядро для (к,р) = A,3)
^является производной ядра для (Аг,р) = @,4). Но заметим,
(к чПроизв°Дная этого последнего ядра удовлетворяет D.5.5) при
'?) = A,3).
Ис- 4.13 представляет два оптимальных ядра для р = 2,4 и Jfc = 0.
150
4. Какова, точность оценивания ?
-1.0
-0.5
Рис. 4.14. Два оптимальных ядра для оценивания га', пер-
первой производной функции m (из табл. 4.5.1). Метка 1 (сплош-
(сплошная линия): (к,р) = A,3). Метка 2 (штриховая линия)
(к,р) = A,5).
Заметим, что ядро с р = 4 имеет область отрицательных значе-
значений. При р = 2 "оптимальным" ядром для оценивания т являет-
является ядро Бпанечникова. Ядерные функции, предназначенные для
оценивания первой производной, должны быть нечетными функ
циями по построению. Графики двух ядер, оценивающих первую
производную функции т, представлены на рис. 4.14. Ядра, пред
назначенные для оценивания вторых производных, являются чет
ными функциями, что можно увидеть из рис. 4.15. Отрицательны*1
эффект, связанный с использованием ядер более высокого поряД'
ка, заключается в том, что по построению они имеют области <
цательных значений. Поэтому ядерная оценка (вычисленная
ядра высокого порядка) может принимать отрицательные
ния, даже если она вычислена при строго положительных
ниях переменной отклика. Такой эффект особенно нежелателен
теории спроса, когда ядерные оценки используются для аппро#с*
мации статистических кривых Энгеля; см. (Bierens, 1987).
Возникает естественный вопрос: в какой мере "субоптиМ^
ны" неоптимальные ядра, т. е. насколько увеличивается
4.5. Точность как функция ядра
151
20
10
0
-ю
-20
-30
.** * **
/ \
/f\\
\
\
i i
/¦"\
i
-1.0
-0.5
0.5
1.0
Рис. 4.15. Два оптимальных ядра для оценивания т", вто-
второй производной функции m (из табл. 4.5.1). Метка 1 (сплош-
(сплошная линия): (k,p) = B,4). Метка 2 (штриховая линия):
(Кр) = B,6).
ние V(K)B(K) для неоптимальных ядер? В табл. 4.5.2 приведе-
приведены выражения некоторых наиболее употребительных ядер (для
fc = 0,р = 2), а на рис. 4.16 дано их графическое изображение.
Для сравнения с ядром Бпанечникова введена величина
D(KoptiK) = [V(Kopt)B(Kopt)]~l[V(K)B(K)].
Изображение этих ядер дано на рис. 4.16. Ядра действительно
Выглядят различными, но табл. 4.5.2 говорит о том, что их MISE
п°чти одинаковы.
Суть табл. 4.5.2 состоит в том, что выбор различных ядер на
Основе среднеквадратичной ошибки не очень существен. При ошиб-
^е на 10% в определении ширины окна, минимизирующей MISE
(или
какую-либо другую меру точности), ухудшение точности оце-
и&ания значительно больше, чем при выборе "субоптимальных''
^еР- Следовательно, более правильно выбирать ядерную функцию
а основе других подходов, таких, как вычислительная эффектив-
ЧОсть (см. (Silverman, 1982), (Hardle, 1987a)).
152 4. Какова точность оценивания ?
Таблица 4.5.2. Некоторые ядра и их эффективно-
эффективности, [Замечание: ' эффективность вычисляется как
{V(Kopt)B(Kopt)/[V(K)B(K))}-W для к = 0, р = 2]
Ядро
Епанечникова
Квартическое
Треугольное
Гаусса
Прямоугольное
К(и)
C/4)(-и2 + 1) 1(\и\ < 1)
A5/16)A - u2J 7(|u| <
A - М) 7(Н < 1)
Bтг)-1/2ехр(-и2/2)
A/2) 1(\и\ < 1)
D(Kopt,K)
1
1) 1.005
1.011
1.041
1.060
Рис. 4.16. Положительные ядра для оценивания т Vй
табл. 4.5.2). Метка 1 — квартическое ядро; метка 2 — тРе
угольное ядро; метка 3 — ядро Бпанечникова; метка 4 ""
гауссово ядро; метка 5 — прямоугольное ядро.
4.5. Точность как функция ядра 153
Таблица 4.5.3. Некоторые ядра и их эффек-
эффективности. [Замечание: эффективность вычи-
сляется как {[V(Kopt)B(Kopt)]/[V(K)B(K)}}-^
для к = 0, р = 2]
Ядро
Епанечникова
Квартическое
Треугольное
Гаусса
Прямоугольное
Оценка 9
MSE
0.002214
0.002227
0.002244
0.002310
0.002391
5% доверительный
интервал
±0.000051
±0.000051
±0.000052
±0.000054
±0.000055
Упражнения
4.5.1. Проверьте "малую чувствительность относительно выбора
неправильного ядра" методом Монте-Карло. Выберите
т(х) = ехр(-х2/2), е ~ W@,1), X ~ ?/(-1, 1), n = 100.
В качестве h выберите оптимальную по MSE ширину ок-
окна для оценивания т@). Вычислите MSE при х = 0 для
различных ядер методом Монте-Карло по 10 000 экспери-
экспериментов.
4.5.2. Вычислите V(K)B(K) для триквадратного ядра
К(и) = С3A - к2K 1(\и\ < 1).
Проставьте полученные значения потери эффективности в
табл. 4.5.2.
4.5.3. Докажите инвариантность V(K)B(K) D.5.3) относительно
преобразования масштаба D.5.4).
4«5.4. Допустим, ваш коллега провел исследование методом
Монте-Карло, описанным в упражнении 4.5.1, для сглажи-
сглаживания плотности. Он взял / = <р, п = 100, х = 0 с MSE-
оптимальной шириной окна h. Обработав 10 000 реализа-
реализаций, он получил табл. 4.5.3. Соответствуют ли эти числа
значениям D(Kopt,K) из табл. 4.5.2?
Дополнения
Риведем эскиз доказательства оптимальности ядра Епанечнико-
а Прежде всего следует стандартизировать ядро в связи с инва-
иантностью V(K)B(K) относительно преобразования масштаба.
0 причинам, которые объясняются в разд. 5.4, используем стан-
ДаРтизацию V(K) = В(К). Тогда цель оптимизации V(K)B(K)
154 4. Какова точность оценивания ?
состоит в минимизации
IK\u)du
при ограничениях
(О
(и) K(u) = K(-u),
(in) dK = 1.
Если через АК обозначить малую вариацию в точке экстремума
при ограничениях (i)-(iii), вариация
/ K2(u)du + Хх | / K(u)du - 11 + А2 I / u2K{u)du - ll
должна быть равна нулю. Это приводит к уравнению
[ Г / 1 Г [ J]
2 / K(u)AK(u)du + А, / AK(u)du\ +Х2\ A^(ix)tz2 = 0.
J U J U J
Следовательно,
2K(u) + XX + X2u2 = 0.
Ядро К(и) равно нулю при и = ±(—А1/А2I/2. Таким образом, при
выборе А1э А2 с учетом ограничений в результате получаем ядро
Бпанечникова. Указанное выше условие стандартизации с2к = dK
приводит к перенормированной версии ядра
К{и) = 3/D • \ЪХ12){\ - (ti/151/2J/(|u/151/2| < 1)).
4.6. Методы уменьшения смещения
В этом разделе мы увидим, что при использовании "ядер повы-
повышенного порядка" возникает положительный эффект уменьшения
смещения. Ядра, изображенные на рис. 4.13, имеют повышенны*1
порядок. Ядро сглаживания сплайнами (рис. 3.10, 3.11) является*
к примеру, ядром повышенного порядка @,4). ( Определение tio0
рядка ядра было дано в предыдущем разделе.) Другим метоДоМ
уменьшения является метод "складного ножа". Ниже будет Да'
но объяснение связи этого метода с методом сглаживания с ЯДР°
повышенного порядка. }
Рассмотрим модель с фиксированным планом эксперимента пр^
равномерно расположенных на единичном отрезке точках {Xi '
4.6. Методы уменьшения смещения 155
j/n}. Допустим, требуется оценить производную ib-ro порядка тп^
функции т. Ядерная оценка для этой задачи имеет вид
где К^ — к-я производная к раз дифференцируемого ядра Ку для
которого требуется, чтобы
Носитель(Я) = [-1,1];
(-1) = 0, i = 0, ...,(*- 1).
Пусть т(-) р раз дифференцируема (р > к 4- 2), и предположим,
что ядро К таково, что для некоторой константы СК
Тогда К^к> удовлетворяет условиям
Г1
= |(-1)Ы 3 '¦" j = k- '""Р
D.6.2)
Математическое ожидание rirh (ж), можно аппроксимировать по
аналогии с C.1.17) или D.1.1) выражением
K(u)nSk\x - uh)du, 0 < х < 1. D.6.3)
Разлагая т^к\х — uh) в ряд Тейлора в окрестности точки х, можно
увидеть из D.6.3) и D.6.2), что если ядерная функция удовлетворя-
ет условиям D.6.1), то первый член разложения смещения rirh (x)'
равен
Г/
иХ dtil m«(i?). D.6.4)
Увеличивая р, порядок дифференцируемости функции и порядок
яДра, можно сделать эту величину сколь угодно малой. Этот метод
°бь1чно называют уменьшением смещения "ядрами повышенного
ПоРядка".
Ядерные функции повышенного порядка К^ удовлетворяют
^•6.1) с большим значением р (см. (Miiller, 1984a) и (Sacks and
Msaker, 1981)). Это означает, что у ядра К^ все первые к — 1 мо-
Ментов и моменты от (Jfc + 1)-го до (р — 1)-го порядков равны нулю.
156 4. Какова точность оценивания ?
Так как ядра повышенного порядка имеют области отрицатель*
ных значений, получаемые оценки приобретают это же свойство.
Например, в близкой задаче оценивания плотности сглаживание с
помощью ядер повышенного порядка может приводить к оценкам с
отрицательными значениями. Аналогично при использовании ядер
повышенного порядка в задаче сглаживания регрессии следует со-
блюдать определенную осторожность. Например, в случае с данньь
ми расходов, представленными на рис. 2.3, оценка кривой Энгеля,
полученная для повышенного порядка, может принимать отрица.
тельные значения. По этой причине, как правило, рекомендуется
использовать положительные ядра, хотя за это и приходится рас-
расплачиваться увеличением смещения.
Представляется уместным напомнить читателю, что ядра "повы-
"повышенного порядка" уменьшают смещение в асимптотическом смы-
смысле. Вспомним, что при оценивании m оптимальная скорость схо-
сходимости (разд. 4.1) для ядер с р = 2 равна п"/5. При использо-
использовании ядра с р = 4 оптимальная скорость равна п~4^9. Итак, ис-
использование ядра "повышенного порядка" приводит в результате
к небольшому улучшению B/45) в порядке величины наилучшей
достижимой квадратичной ошибки. Только для выборок астро-
астрономически больших объемов эта разница становится ощутимой.
Ядра повышенного порядка имеют другие нежелательные побоч-
побочные эффекты, как будет видно из последующего обсуждения под-
подхода складного ножа.
В работе (Schucany and Sommers, 1977) построена оценка плот-
плотности методом "складного ножа", обладающая свойством уменьше-
уменьшения смещения ядром повышенного порядка. Метод "складного но-
ножа" применим также для уменьшения смещения при сглаживании
регрессии. Рассмотрим "оценку складного ножа" (Hardle, 1986а)
G(rhhl,mh3)(x) = A - ^-'Kf.) - Rmh,(x)],
где R ф 1 — константа. Здесь mhi (x) — ядерная оценка с шири-
шириной окна hhl = 1,2. Предположим, что ядро К имеет порядок 2,
т. е. удовлетворяет D.6.2) при р = 2 и четырежды дифференцируй"
мой функции регрессии. Тогда смещение оценки "складного ножа
G(rhhi,rhh2) может быть выражено как
A - ЯГ1 JT[hlJ - RhlJ]Cj(K)mW\x). D.6.5)
Хорошим считается такой выбор Я, при котором смещение умень-
уменьшается по порядку величины. Положим
4.6. Методы уменьшения смещения 157
обращая в ноль коэффициент при тп^2\х) в D.6.5). Действительно,
сретение G(rhhi,гаЛз) было уменьшено по сравнению с каждой из
используемых ядерных оценок. Кроме того, оценка "складного но-
жа» с этим значением Я, будучи линейной комбинацией ядерных
оценок, сама может быть определена с помощью ядра
K(u)-c*K(cu)
K(c)W - A3^2)
при
c = hx/h2 = у/R.
Заметим, что К^ зависит от п через с. Уменьшение смещения
с помощью К/е\ также возможно вычислениями, аналогичными
разд. 4.6: К^ действительно является ядром "повышенного по-
порядка", удовлетворяющего D.6.2) при р = 4, но неоптимальным
в смысле минимизации V(K)B(K). По правилу Лопиталя предел
К,е\ при с —> 1 равен
в точках дифференцируемости К.
На первый взгляд использование метода "складного ножа" пред-
представляется хорошей стратегией. Если на первом шаге функции m
приписывается лишь малая степень гладкости, то на следующем
шаге оценка складного ножа действительно будет уменьшать сме-
смещение при условии, что га четырежды дифференцируема. Однако
более пристальный анализ этой стратегии показывает, что диспе-
Рсия (для фиксированного п) может увеличиваться.
Рассмотрим ядро Епанечникова
Тт
еп°средственные вычисления показывают, что
ск = I К2(и)Aи = 3/Ъ,
в л. 4.6.1 приведена зависимость этого числа от с и показано
Ристание дисперсии по сравнению с К.
явл ТИ ЦиФры со всей очевидностью говорят о необходимости про-
Ди ЛТЬ опРеДеленнУю осторожность при выборе с (и Л), поскольку
тОгПеРсия быстро возрастает при стремлении с к единице. Для
чтобы провести сравнение среднеквадратичных ошибок rhh с
158 4. Какова, точность оценивания ?
Таблица4.6.1. Компонента дис-
дисперсии f K?cJu)du для эффек-
эффективного ядра как функция с, и
дефект J Kjc)(u)du/ J K2(u)du
относительно ядра Епаненнико-
ва
с
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
/ К? Ju)du . (с)
J (C)V ' fK4u)du
0.610
0.638
0.678
0.727
0.783
0.844
0.900
0.979
1.050
1.058
1.065
1.073
1.080
1.087
1.095
1.102
1.110
1.117
1.017
1.063
1.130
1.212
1.305
1.407
1.517
1.632
1.751
1.764
1.776
1.788
1.800
1.812
1.825
1.837
1.850
1.862
O(mhi, mhj), можно уравнять дисперсии, положив
А1 = / K(c)(u)du/ I K2(u)du\ h.
Без потери общности можно предположить, что
тD)(х)/280 = 1. Тогда основной член смещения rhh равен Л2 + * '
а для смещения G(mhi, тЛз) при с = 0.99 — \/152.76Л4. Итак, если
Л2 > 1/(\/152.76— 1), то оценка "складного ножа" менее точна, чеМ
обыкновенная ядерная оценка.
Поскольку выбор R (и с) в практических примерах представляв
ся деликатным, интересно исследовать оценку "складного ножа" **а
модельном примере. Допустим, что т(х) = sin(x), п = 100, (г2 = *
требуется оценить среднеквадратичную ошибку при х = 7г/4. U*
рина окна Л, приблизительно равная 0.3, минимизирует среднек^ (
дратичную ошибку rnh(x) (с ядром Епанечникова). В табл.
4.6-2
4.6. Методы уменьшения смещения 159
'Таблица 4.6.2. Эффективность оценки "складного ножа"
Q\rhh , *иЛа] относительно обыкновенной ядерной оценки. [За-
мечание: В таблице приведены значения следующего отноше-
нИЯ: MSE {С[шЛ1,тЛз]}/М8Е {rhh} (для п = 100, т(х) = sin(s),
^2 - 1 и х = тг/4) для различных с, h и hx. Источник: (Hardle,
1986а), © 1986 IEEE]
\-
02
0)
04
<
0.2
1.017
1.52
2.035
\
0.2
03
0.4
г - 0.1 с - 0.2 с <
0.3 0.4 0.2 0.3 0.4 02 <
-0.3
0.3 <
с - 0.4 € - 0.5
04 0.2 0J 0.4 0.2 0.3
0.67 0.51 1063 0.709 0.532 113 0 753 0.565 1.212 0.808 0606 1.305 0.87
1.017 0.765 159 1063 0.798 1.695 1.13 0.847 1818 1.212 0.909 1.958 1.305
1.357 1.020 2127 1.418 1.064 2.26 1.507 1.13 2 424 1.616 1.212 1611 1.74
с - 0.6 с - 0.7
0.2 0 3 0.4 02 0.3 0.4
1407 0 938 0 703 1.517 1.011 0.758
2.111 1.407 1.055 1275 1.517 1.137
1815 1.877 1.407 3.034 1022 1.517
0.2
1.632
1448
3.264
с - 0.8 € - 0.9
0.3 0.4 0.2 0.3 0.4
1.088 0.816 1.751 1.167 0.875
1.632 1.224 1627 1.751 1.313
1176 1.632 3.503 1335 1.751
0.4
0.652
0.979
1.305
приведены значения отношения MSE G(rhhi,rhh2) и rhh для раз-
различных с и Л.
Таким образом, использование метода сглаживания с ядром по-
повышенного порядка по типу метода "складного ножа" может при-
прилети в результате к среднеквадратичной ошибке, в два раза пре-
превышающей MSE обыкновенной ядерной оценки с ядром Епанечни-
к°ва, как можно увидеть из табл. 4.6.2 для (Л, hu с) = @.3,0.3,0.9).
УпРажнения
4-6.1. Почему невозможно найти положительное симметричное
ядро порядка @,4)?
•"•2. Вычислите ск для ядер повышенного порядка @,р) как
функцию р. Наблюдается ли повышение значения ск с ро-
ростом р?
ГЛАВА 5
Выбор параметра сглаживания
"Все рассмотренные нами асимптотические результаты не
позволяют ответить на важный вопрос, который ставят
статистики-практики: как выбрать hn для фиксированно-
фиксированного п?"
Коломб A981, с. 82)
Одной из важнейших проблем в непараметрической регрессии
является проблема определения степени сглаживания. Прежде чем
искать ее решение, необходимо отметить, что выбор параметра
сглаживания всегда имеет отношение к определенной интерпрета-
интерпретации оценки. Если целью сглаживания является увеличение "от-
"отношения сигнал-шум" для имеющегося представления кривой ре-
регрессии или определение простых (параметрических) моделей, то,
возможно, предпочтительным будет субъективно выбранный па-
параметр сглаживания, приводящий к несколько "пересглаженнои
кривой. С другой стороны, если интерес представляет исключи-
исключительно оценивание кривой регрессии как таковой с подчеркивани-
подчеркиванием локальных структур, то подходящей может оказаться до неко-
некоторой степени "недосглаженная" кривая.
Однако хороший способ адаптивного выбора параметра всегДа
полезен в качестве начального приближения. Некоторое преимУ
щество адаптивного выбора ширины окна для ядерных оценок ^
стоит в возможности проводить сравнение между различными
бораториями на основе стандартизированного метода. Другим ЯР
имуществом адаптивного выбора является возможность приме
ния аддитивных моделей для изучения данных регрессии болЫ11 ^
размерности. Для сложных итеративных процедур, таких,
тод целенаправленного проецирования (Friedman and Stuetzle,
5.1. Проверка,, штрафные функции, подстановка 161
аи (АСЕ) метод чередования условных усреднений1) (Breiman and
Friedman, 1985), очень важно иметь хороший способ выбора пара-
параметра для одномерных сглаживателей, которые являются элемен-
элементарными блоками этих процедур.
В следующих разделах представлены различные методы выбо-
выбора параметра сглаживания. Выбор производится таким образом,
чтобы минимизировать некоторую глобальную меру ошибки. В
разд. 5.2 обсуждается вопрос о том, насколько далеки от оптиму-
оптимума значения параметра сглаживания, выбираемые адаптивно. Бу-
Будет показано, что в действительности существует целая область
субъективного выбора ширины окна внутри медленно сужающего-
сужающегося доверительного интервала, соответствующего оптимуму. Различ-
Различные возможности адаптации параметра сглаживания к локальной
кривизне кривой представлены в разд. 5.3. В частности, предла-
предлагается метод, основанный на бутстрепе по оцененным невязкам.
Здесь также описан суперсглаживателъ, предложенный в работе
(Friedman, 1984). Важный с практической точки зрения вопрос
сравнения различных способов адаптивного выбора ширины окна
обсуждается в разд. 5.4.
5.1. Кросс-проверка, штрафные функции и метод
подстановки
Точность ядерных сглаживателей, порождающих оценки как
Функции т, так и ее производных, является функцией ядра К и
ширины окна Л. Ранее мы показали, что точность зависит главным
образом от параметра сглаживания ft (разд. 4.5). В этом разделе бу-
Дут изложены различные процедуры выбора ширины окна, оптими-
оптимизирующие квадратичные меры ошибок оценивания кривой регрес-
регрессии и ее производных. В частности, мы рассмотрим расстояния
dj{h) = j[rhh(x) - m(x)]2w(x)f(x)dx,
dc(h) = E[dA(h)\Xv...,Xn],
w(x) — неотрицательная весовая функция. Выражения этих
сстояний содержат две компоненты: дисперсию (возрастающую
'О и квадрат смещения (убывающий по ft). Рассмотрим, напри-
°Ригинале Alternating Conditional Expectation (АСЕ). — Прим.
162 5. Выбор параметра, сглаживания
мер, dc(h) : здесь квадрат смещения — как функция h
а дисперсионная компонента
где Whi{x) = /<\(x — X{)/fh(x) — веса Надарая — Ватсона. Факт
возрастания 62(Л) с ростом h можно увидеть на рис. 5.1, на кото-
котором функция dc(-) аргумента Л представлена для модельных дан-
данных (табл. 2, приложение 2). Степень Л, с которой б2(Л) возра-
возрастает, зависит от выбранного ядра и степени дифференцируемости
функции регрессии; см. разд. 4.6.
На рис. 5.1 убывающая кривая показывает, что функция v(h)
приблизительно пропорциональна Л". Сумма обеих компонент
равна условной квадратичной ошибке dc{h), которая на рис. 5.1
представлена кривой, проходящей над б2(Л) и v(h).
Теорема 4.1.1 об асимптотической эквивалентности dJydA и dc
утверждает, что все три расстояния имеют примерно один и тот
же минимум. Приблизительная эквивалентность этих трех рас-
расстояний видна на рис. 5.2. Выбор параметра сглаживания крайне
желательно осуществлять таким образом, чтобы уравновесить си-
систематическую компоненту, представленную квадратом смещения,
и стохастическую неопределенность, выраженную величиной дис-
дисперсии. При таком выборе параметра сглаживания квадрат сме-
смещения и дисперсия суть функции одинакового порядка.
Как найти такой параметр сглаживания? Теоретический анализ
свойств MSE ядерных оценок уже был изложен в разд. 3.1. Н»м
известен асимптотически предпочтительный выбор Ло ~ n/5, H°
выражения MSE и, следовательно, Ло содержат сложные неизвест-
неизвестные, которые также должны оцениваться по имеющимся данным-
Основная идея, стоящая за всеми алгоритмами выбора параме-
параметра сглаживания, состоит в оценке ASE или эквивалентных мер (с
точностью до некоторой константы). Далее надежда связывается
с тем, что параметр сглаживания, минимизирующий эту оценку»
будет также хорошим приближением аргумента минимума само
5.1, Проверка, штрафные функции, подстановка
163
0.3
0.2
I
I
I
I
I
I
I
- l
I
I
\
0.06
0.28
0.36
Рис. 5.1. Условная квадратичная ошибка dc(h) как сумма
квадрата смещения b2(h) и дисперсии v(h) для модельных
данных (табл. 2, приложение 2). Использовалась весовая
функция w(x) = 1(\х - 1/2| < 0.4). Функция 62(Л) — воз-
возрастающая сплошная линия (линия 1). Дисперсия убывает
(линия 2), а dc равна сумме обеих кривых (линия 3).
ASE. Запишем разложение ASE
Каким образом можно оценить это выражение (с точностью до
3аНстанты)? На первый взгляд это возможно. Первый член не
Исит от параметра сглаживания. Второй член может быть пол-
треТЬ1? вычислен как функция данных. Если бы удалось оценить
4 Тий член и если бы он убывал быстрее, чем стремится к нулю
Ус' То сп°соб выбора ширины окна действительно можно было бы
ановить довольно легко.
164 5. Выбор параметра сглаживания
0.4
0.06 0.16
0.Z6
0.36
Рис. 5.2. Три меры точности dJydA, dc для весовой функции
w(x) = I(\x — 1/2| < 0.4). Интегральная квадратичная ошиб-
ошибка (вычисленная для сети из 300 точек) показана сплошной
линией 1. Средневзвешенная квадратичная ошибка показа-
показана линией 2, а мера ошибки dc — линией 3. Вычисления
проведены для модельных данных (табл. 2, приложение 2).
Простейшей оценкой третьего члена может служить выражение
в котором неизвестные средние m(Xj) заменены наблюдениямиУ; в
точках Xj. Это эквивалентно рассмотрению так называемой
ки повторной подстановки для ошибки предсказания
как средства выбора h. К сожалению, ошибка предсказания являе
ся смещенной оценкой dA. На рис. 5.3 функция p(h) показана в°3
растающей; следовательно, наилучшая ширина окна должна бы
сколь угодно малой величиной!
Причина смещенности p(h) интуитивно видится в том, чт0 **[
блюдение Yj используется (в оценке rhh(Xj)) для предсказания
5.1. Проверка,, штрафные функции, подстановка
165
0.06
0.16
0.26
0.36
Рис. 5.3. Ошибка предсказания p(h) для модельных данных
(табл. 2, приложение 2). Весовая функция w — индикатор-
индикаторная функция отрезка [0.1,0.9].
мой оценки. Для того чтобы разобраться в этом подробнее, рас-
рассмотрим разложение
Ьследний член можно переписать в виде выражения
[Х{)У{ -ш(^)\ю(Х^ E.1.1)
веющего условное математическое ожидание (при данных
t=i
i=i
и д^Веденная величина стремится к нулю с той же скоростью, что
сперсионная компонента в выражении dA, чем и объясняется
166 5. Выбор параметра сглаживания
смещенность p(h) как оценки dA(h). Существует по крайней мере
три возможных способа нахождения несмещенной оценки dA:
1) метод пропуска для получения нулевого математического
ожидания величины E.1.1);
2) модификация p(h) с тем, чтобы смещение, аналогичное
E.1.1), асимптотически исчезало;
3) метод "подстановки", использующий асимптотику последо-
последовательности "оптимальной ширины окна".
Метод пропуска, кросс-проверка
Метод пропуска основан на оценках регрессии, в которых одно,
скажем j-e, наблюдение пропущено:
^ед. EЛ.2)
Для этих модифицированных оценок формируют функцию
CV(h) = и J2\YS - Л^ОДМ*}), E.1.3).
которую принято называть функцией кросс-проверки, поскольку
она проверяет способность предсказывать {5j}"-i по подвыбор-
кам {(Х{,У{)}{^ (Stone, 1974). В контексте ядерного сглаживания
эта оценивающая функция, используемая для нахождения Л, была
предложена Кларком (Clark, 1975). Идея связана с выбором пере-
переменных в линейной регрессии. Аллен (Allen, 1974) предложил близ-
близкую величину PRESS2) — предсказание суммы квадратов. В работе
(Wahba and Wold, 1975) предложен аналогичный метод в контексте
сглаживания сплайнами. Общая структура методов сглаживания
для моделей линейной регрессии обсуждается в работе (Hall and
Titterington, 1986a).
Причина работоспособности метода кросс-проверки объясняется
просто: член попарных произведений в выражении функции CV,
аналогичный E.1.1),
Аббревиатура PRESS происходит от prediction sum of squares.
Прим. перев.
5.1. Проверка., штрафные функции, подстановка
167
1.00
0.75 -
0.50
0.06
0.26
0.36
Рис. 5.4. Функция кросс-проверки CV(h) для модельных
данных (табл. 2, приложение 2). Использовалась весовая
функция w(x) = 7(|х - 1/2| < 0.4).
имеет нулевое математическое ожидание. СК-функция для модель-
модельных данных показана на рис. 5.4.
Отметим, что сам по себе факт равенства нулю математического
ожидания E.1.4) не гарантирует, что h = arg min[CV(h)] миними-
минимизирует dA (или какую-либо другую эквивалентную меру ошибки).
Для этой процедуры нужно потребовать сходимость C2n(h) к нулю
Равномерно по Л. Заметим также, что предложенная здесь ширина
°кна, вычисленная с помощью кросс-проверки (для квартического
яДра, h = 0.1), не совпадает с шириной окна, выбираемой из субъ-
субъективных соображений, как описано в разд. 3.6. Можно указать две
пРичины этого. Во-первых, две ширины окна действительно могут
Различаться даже при "правильной шкале". Во-вторых, они мо-
ГУ различаться, так как рис. 3.21 был построен для гауссовского
а приведенная выше функция кросс-проверки вычислялась
квартического ядра. "Общая шкала" сравнения различных
получена в разд. 5.4.
Штрафные функции
Ыь\ ~° пРеДложение основано на соответствующем видоизменении
^ /с целью асимптотического устранения смещения E.1.1). Для
168 5. Выбор параметра сглаживания
этого вводим штрафную функцию Н(и), имеющую тейлоровское
разложение первой степени вида
Н(и) = 1 + 2u + O(ti2), u —0.
Ниже будет показано, что такой вид штрафной функции обеспечи-
обеспечивает достижение указанной цели. В выражение для ошибки пред.
сказания p(h) вводится член E(n~1H^lJ(X7)), т. е. рассматривается
модификация p(h) вида
G(h) = n-1 ?(Y;. - тк(Х,))*Е(п-1иГц(Х,)МХЛ). E.1.5)
Такое видоизменение объясняется тем, что корректирующая функ-
функция
штрафует слишком малые значения h. Вспомним, что простей-
простейший подход, состоящий в нахождении Л = argmin[p(/i)], приводит
к заниженному значению Л. За счет штрафования, состоящего в
замене p(h) функцией E.1.5), вводится коррекция для малых Л.
Действительно, используя указанное выше тейлоровское разложе-
разложение 5, функция G(h) с точностью до линейных членов равна
2eJ(m(Xi)-mh(Xj))]
Производя перемножение и пренебрегая членами более высокого
порядка, получаем
2ч
-1
5.1. Проверка., штрафные функции, подстановка 169
Заметим, что первый член не зависит от Л, а условное математиче-
математическое ожидание третьего члена (при данных {Хг,...,Хп}) равно
которое представляет собой математическое ожидание последнего
члена со знаком минус. Последние два члена асимптотически со-
сокращаются, поэтому значение G(h) примерно (с точностью до сдви-
сдвига на n" 5Z?=i ?]w(Xj)) равно dA(h). В литературе предложено
множество различных штрафных функций Е, простейшая из ко-
которых — в работе (Shibata, 1981):
S(ti) = 1 4- 2u.
Некоторые из известных корректирующих функций обсуждают-
обсуждаются в следующем разделе, где проводится сравнение их свойств.
Рис. 5.10 дает представление о некоторых корректирующих функ-
функциях Н.
Метод подстановки
Третий метод — процедура "подстановки" — основан на асимпто-
асимптотическом разложении среднеквадратичной ошибки ядерных сгла-
живателей:
MS-E = n"lh-1a2(x)cK/f(x)
+ hA[dK{m»{x) + 2m'(*)(/'//)(*))/2]2.
"Оптимальная ширина окна", минимизирующая это выражение,
пропорциональна п"/5 (как отмечалось в разд. 4.1) с константа-
ми, зависящими от неизвестных <т2(ж), тп"{х) и т. д. На практике
эти величины должны оцениваться на основе некоторого предва-
предварительного этапа сглаживания, что порождает проблему выбора
параметра сглаживания второго порядка. Хотя "метод подстанов-
подстановки" достигает той же эффективности, что и два других метода
(Разд. 5.2), он характеризуется значительной неопределенностью в
в°просе выбора ширины окна на первом этапе. Другой недостаток с
теоретической точки зрения состоит в том, что мы всегда ограниче-
Нь* некоторым классом гладкости (в приведенном выше разложении
Пассом дважды дифференцируемых функций регрессии).
Первые два метода, пропуска и штрафования, приводят к оценке
л (с точностью до сдвига по h) и, следовательно, к оценкам rf7, dc.
лучайная константа, на которую функция CV или функция G от-
иЧаются от dA, приблизительно равна величине п JZJ=1 e*w(Xj),
Тмящейся к J <r2(x)f(x)w(x)dx. На рис. 5.5 верхняя кривая
170 5. Выбор параметра, сглаживания
1.00
0.75 -
0.06
0.16
0.Z6
0.36
Рис. 5.5. Функция кросс-проверки CV(h) (метка 1) и сред-
средневзвешенная квадратичная ошибка dA(h) (метка 2) для мо-
модельных данных (табл. 2, приложение 2). Весовая функция
равна w(x) = 7(|х - 1/2| < 0.4).
представляет функцию CV, а нижняя, имеющая ту же форму, —
средневзвешенную квадратичную ошибку dA для модельного экс-
эксперимента (табл. 2, приложение 2).
Две кривые, изображенные на рис. 5.5, отличаются друг от друга
на константу со значением из отрезка [0.7,0.9], которая довольно
точно оценивается величиной
/,0.9
*2(x)f(x)w(x)dx = / ldx.
Jo.i
Рассмотрим пример определения кривой Энгеля для расходов на
картофель как функции чистого дохода. На рис. 1.1 данные пред-
представлены в виде "цветочного графика". Кривая кросс-проверки
CV этих данных показана на рис. 5.6.
Функция кросс-проверки имеет ярко выраженный минимум пр*1
Л « 0.35. Соответствующая ядерная оценка приведена на рис. 5 ' •
Полученная кривая указывает на ту же нелинейность, что и
рис. 1.2, но несколько менее точно.
Для того чтобы сделать методы кросс-проверки или штраф0'
вания математически обоснованными средствами выбора пара*16'
тров сглаживания, необходимо показать, что оценивающая фУ1**
ция (CV или G) аппроксимирует равномерно по Л (с точность
5.1. Проверка, штрафные функции, подстановка 171
1.10 -
1.09 1=
0.25
Рис. 5.6. Функция кросс-проверки CV(h) для данных за-
зависимости расходов на картофель от чистого дохода (см.
рис. 1.1). Оценка метода пропуска с квартическим ядром
вычислялась по 90% данных внутри области чистого дохода
A973 г.). Из Family Expenditure Survey A968-1983).
до константы) меру точности dA(h). В этом случае относительная
потеря при выборе ширины окна h равна
d.(h)
inf
/»€#«
E.1.7)
Hn — множество разумных значений ширины окна, a cft(«) —
°Дна из рассматриваемых мер квадратичного отклонения. Вычи-
Сл*емая по данным ширина окна Л, удовлетворяющая E.1.7), на-
Зывается асимптотически оптимальной. Следующая теорема, до-
доданная в (Hardle and Маггоп, 1985 b,c), утверждает, что функции
ИС приводят к оптимальному выбору ширины окна.
ТеоРема 5ЛЛ. Предположим, что
{Ai) для п = 1,2,..., Нп = [?,Л], где
h>C^n6-lld, h<Cn~6
для некоторых констант С, 6 Е @, l/Bd));
172 5. Выбор параметра сглаживания
Рис. 5.7. Оптимальная ядерная оценка для данных зависи-
зависимости расходов на картофель от чистого дохода с квартиче-
ским ядром, h = 0.35, п = 7125. Из Family Expenditure Survey
A968-1981).
(AS) ядро К непрерывно по Гельдеру, т. е. для некоторых L>
О, * € @,1)
\K(u)-K(v)\<L\\u-v\f,
где ||-|| — евклидова норма в JRd, и, кроме того,
|M|<|tf(u)|*i<oo;
(A3) функция регрессии т и маргинальная плотность f гель-
деровы;
(А4) условные моменты Y при данном X = х ограничены в
том смысле, что существуют положительные конста*'
ты СХ,С2,... такие, что для к = 1,2,... при любом г
E(Yk\X = х) < Ск; х
(А5) маргинальная плотность f(x) случайной величины
ограничена снизу на носителе функции w;
(А6) маргинальная плотность f(x) имеет компактный
тель. Л г
Тогда правило выбора ширины окна — "выбирать значение hf ^
нимизирующее CV(h) (ь < G(h))", — асимптотически М^
но.
5.1. Проверка,, штрафные функции, подстановка 173
Асимптотическая оптимальность ядерных оценок с веса-
весами WfciOO — Kh(x "~ Xi)/f(x) для несколько более широкого клас-
класса последовательностей ширины окна показана в работе (Hardle
and Kelly, 1987). В работе (Rice, 1984a) доказана близкая теорема
для штрафных функций при фиксированном плане эксперимента.
Как показано в работе (Hardle and Marron, 1985a), эти штрафные
функции не обеспечивают асимптотически оптимальных параме-
параметров сглаживания при случайном плане эксперимента.
Важно отметить, что приведенные выше методы обеспечивают
выбор оптимального параметра сглаживания независимо от клас-
класса гладкости, которому принадлежит функция m или /. Мини-
Минимизация по Л осуществляется по широкой области Нп возмож-
возможных значений ширины окна. Метод не ограничен только лишь
конкретной областью, например вида [ап"'5,6п~1/5], 0 < а < 6,
содержащей оптимальные параметры сглаживания для дважды
дифференцируемой функции регрессии. В этом смысле методы
кросс-проверки и штрафных функций обеспечивают оптимальные
параметры сглаживания равномерно по всем классам гладкости
(см. замечания разд. 4.1). Это в свою очередь выражается в
том, что настраиваемые по данным ядерные сглаживатели дости-
достигают "своей" оптимальной скорости независимо от гладкости ис-
исходной регрессионной модели (Hardle and Marron, 1985b, разд. 3).
С практической точки зрения это последнее теоретическое свой-
свойство кросс-проверочных последовательностей ширины окна являет-
является желательным. При использовании такого метода нет необходи-
необходимости беспокоиться о плавном характере исходной кривой. Кросс-
проверочная ширина окна автоматически обеспечит правильную
степень сглаживания независимо от гладкости (в терминах порядка
Дифференцируемости) истинной кривой регрессии. Это свойство
не достигается методом "подстановки".
Процедура кросс-проверки формально описывается следующим
5.1.1
ВЫПОЛНИТЬ ДОПОЛНИТЕЛЬНО (на плотной сети Нп
значений К)
ШАГ 1.
Методом пропуска вычислить оценку
в точках наблюдения.
174 5. Выбор параметра сглаживания
ШАГ 2.
Сформировать функцию кросс-проверки
CV(h) = п-1
где w — весовая функция.
КОНЕЦ ДОПОЛНИТЕЛЬНОГО ВЫЧИСЛЕНИЯ.
ШАГ 3.
Определить адаптивную ширину окна
h = aigmm[CV(h)].
Выбор ширины окна при оценивании
производных
Принципиальная идея выбора параметра сглаживания в задаче
оценивания производной та же, что и для нахождения ширины
окна при оценивании самой функции т. Следуя работе (Rice,
1985), рассмотрим задачу с равноотстоящими значениями предик-
торной переменной. Оценки методом пропуска при оценивании
т' определяются посредством отбрасывания наблюдений (Xj , У}) и
где {Wj[^ (x)} — ядерные веса производных (см. разд. 3.1). Теперь
вместо сравнения указанных оценок с исходными значениями пе-
переменной отклика (в п точках) оценивают ошибку предсказания (в
п2 = п/2 точках)
CV^(h) = nj $ ^
где {(Xyy Y,j\)} — входные данные, отсортированные по X, а
УК? = уМ"" J*-1) аппроксимация производной на основе П^Р
вой разности переменной У (отсортированной в соответствии с ^'
Заметим, что
\ХХ,...9ХЛ}- ^ х - m
5.1. Проверка., штрафные функции, подстановка 175
б ) € t^(i-i)'^O)]* Представим CV^l\h) следующим образом:
> ^«)]K«) m(fc«
Как и в случае обычной кросс-проверки (при оценивании т), член
попарных произведений асимптотически мал, поэтому функция
CV(l'(h) ведет себя (с точностью до константы) как
Плюс константа (не зависящая от Л). Для задачи со случайны-
случайными точками наблюдения этот подход рассматривался в (Hardle and
Carroll, 1989). В работе (Muller, Stadtmuller and Schmidt, 1987) пред-
1оЖен так называемый факторный метод, который также основан
1а подстановочном подходе. В основе факторного метода лежит
Равнение выражений ширины окна h0 для оценивания т с Лд Для
^нивания т(к\ Эти выражения ширины окна одинаковы с точ-
°стью до скалярного множителя, зависящего от к,р и от ядерной
^кЦии. Точнее говоря, для р раз дифференцируемой функции
^SE оценивания т^к\х) равна, как мы видели ранее,
MSE « n-1 A"B*+1 V2 f K^\u)du
(--iy) f up
176 5. Выбор параметра сглаживания
Ширина окна, минимизирующая MISE равна, как описано
разд. 4.L
разд
w)d«/p!]2 / m(kJ(x)dx\
п_1/Bр+1)
Если сравнить оптимум ft0 с Лд , то можно увидеть, что они от-
отличаются множителем
ГB*
Таким образом, оптимальная в смысле MISE ширина окна uq ' опре-
определяется соотношением
Зависимость параметра сглаживания от
весовой функции
Весовая функция вводилась с целью уменьшения граничных эф-
эффектов. Если бы весовая функция не была введена и критерий
выбора ширины окна формировался по всей области данных, то по-
последовательность ширины окна была бы оптимальной относительно
"граничного поведения" ядерного сглаживателя. Как отмечалось
в разд. 4.4, скорость сходимости в точках, расположенных вбли-
вблизи границы, несколько падает. Поскольку метод кросс-проверки,
например, по-прежнему асимптотически оптимален (в смысле тео-
теоремы 5.1.1), хочется искусственно занизить скорость сходимости в
середине области, где лежит основная часть данных.
Однако урезание представляющей интерес области, скажем Д°
90%, не решает проблемы, поскольку обычно ядерные веса охваты
вают больше чем 10% процентов области данных (см. рис. 5.6). ^°
поднимает вопрос о том, насколько чувствительна CV-функиия h
изменению функции w. На рис. 5.8 показана оптимальная яДеР
ная оценка массы печени как функции возраста. СК-функция вь
числялась без учета 5% с каждой стороны. Что происходит W
изменении весовой функции? е.
На рис. 5.9 показаны кривые кросс-проверки при весовом У"^
зании на 2, 4, 6, 8 и 10% данных на каждом конце интеря ^
Расположение минимума, определяющее оптимальную ширину
на, довольно стабильно кроме случая, когда только 80% инте^
л а данных подвергается кросс-проверке. Аналогичные ср
5.1. Проверка, штрафные функции, подстановка 177
500
10
20
Рис. 5.8. Зависимость массы печени от возраста у 300 умер-
умерших женщин (сглаженная при кросс-проверочной ширине
окна h = 22 года). Из (Hardle and Marron, 1985b) с разреше-
разрешения Института математической статистики.
"Роведенные для смоделированных данных (табл. 2, приложение 2),
показали качественно то же поведение: выбираемая ширина окна
в значительной степени независима от весовой функции.
УгФажнения
•1-1. Определите параметр сглаживания методами кросс-про-
кросс-проверки и штрафных функций для смоделированных данных,
приведенных в приложении.
в1-2. Вспомним асимптотическую эквивалентность k-NN- и
ядерных оценок. Как бы вы выбрали хорошее значение к
методом кросс-проверки?
•3« Как бы вы модифицировали штрафные функции в случае
^ fc-ЛГЛГ-сглаживания?
* -4- Напишите эффективный алгоритм вычисления функции
кросс-проверки.
[Указание: используйте WARP- метод или метод БФП.]
178 5. Выбор параметра сглаживания
105000
103000
101000
99000
97000
10
20
30
50
Рис. 5.9. Кривые кросс-проверки при изменении весовой
функции w. Наивысшая CV-кривая вычислялась при про-
пропуске 2% наблюдений на каждом конце. Кривые, идущие
ниже, соответствуют пропуску 4, 6, 8, 10% на каждом кон-
конце. Из (Hardle and Marron, 1985b) с разрешения Института
математической статистики.
5.1.5. Иногда утверждают, что асимптотически оптимальный па-
параметр сглаживания для m также хорош и для оценивания
тп!. Хорошая оценка для m должна давать хорошую оценку
и для т'! Можете ли вы найти аргументы, опровергающие
это утверждение?
5.1.6. Найдите Л = arg min[CV(h)] и ft1) = argmin[CTA)(/*)]-
Сравните Л с h^l\ Получается ли у вас h < Л^? [Указание:
изучите факторный метод. ]
Дополнения
Доказательство теоремы 5.1.1
Доказательство этой теоремы основано на равномерной аппроксИ'
мации (по Нп) расстояний dA,dj и т. д.; см. теорему 4.1.1. ДЗ'
точно доказать асимптотическую оптимальность для dA(). В
гельдеровости функций /С, т, / достаточно рассмотреть
5.2. Какой селектор следует использовать?
179
подмножество Н'п множества #п. Существование всех условных
моментов порядка к обеспечивает на этом достаточно плотном в
ц подмножестве Н'п следующее:
sup
E.1.8)
Ключевую роль в доказательстве E.1.8) играет неравенство Уиттяа
(см. (Whittle, I960)), дающее верхнюю оценку высших моментов
квадратичной формы независимых случайных величин. Используя
гельдеровость функций K,mn f и теорему 4.1.1, получаем
dA(h)-dA(h')-(CV(h)-CV(h'))
sup
Зафиксируем теперь е > О и положим
Ло = argmin[dA(h)],
E.1.9)
h = Bngmin[CV(h)].
Л€#„
Из E.1.9) с вероятностью 1 имеем
- dA(h0) - (CV(h) - CV(h0)) < g
Отсюда *
0 > CV(K) - CV(h0) >
что влечет
к *'
Так как е произвольно, то
Р\ lim
dA(b)
dA(h0)
,W < 1 -
1
«•}
(Л)-
f e
"е
-1,
(l + e)dA(h0),
Чт° означает асимптотическую оптимальность Л.
Какой селектор следует использовать?3)
УЩествуют различные адаптивные селекторы, порождающие
имптотически оптимальные ядерные сглаживатели. Ясно, что
Лектором здесь называется метод выбора ширины окна (пара-
етРа сглаживания). — Прим. ред.
180 5. Выбор параметра, сглаживания
можно использовать любой такой селектор, но для конкретного на-
бора данных один из селекторов может превосходить все осталь-
остальные. Возникает вопрос, какой селектор использовать и насколько
конкретная адаптивная ширина окна отличается от оптимальной.
Другой интер>есный вопрос заключается в том, насколько близко
отклонение d#(«), вычисленное при асимптотически оптимальной
ширине окна, к наименее возможному отклонению. Ответы на эти
вопросы неожиданные. Все представленные селекторы эквивалент-
эквивалентны в асимптотическом смысле. Скорость, с которой оцененная ши-
ширина окна стремится к наилучшей возможной ширине окна, чрез-
чрезвычайно низка. Кроме того, теоретические исследования показы-
гают, что оптимально подсчитанная по данным ширина окна имеет
отрицательную корреляцию с теоретически наилучшей возможной
шириной окна.
К сожалению, для изучения этих вопросов требуется довольно
сложная математика, поэтому я предпочитаю работать с моделью с
фиксированным планом эксперимента при равноотстоящем выбо-
выборе точек наблюдения на единичном интервале, т. е. {Xi = i/n}*-^
Будем далее предполагать, что ei имеют одинаковую дисперсию, ко-
которую обозначим о2. Рассмотрим ядерную оценку, предложенную
в работе (Priestley and Chao, 1972):
1=1
Распространение результата на случайные величины X, а также
на многомерный случай возможно, но требует существенно боль-
больших выкладок. Оптимальная ширина окна, обозначаемая в этом
разделе Ло, минимизирует выборочную среднеквадратичную ошиб-
ошибку (ASEL)
Ь(Х{) - т(Х{)J т(Х{).
Безусловно, это только один из способов определения оптималь-
оптимальной ширины окна. Асимптотически эквивалентной мерой точности
является математическое ожидание выборочной среднеквадратич-
среднеквадратичной ошибки5^ (см. теорему 4.1.1)
Таким образом, другой хороший способ выбора ширины окна сво-
сводится к вычислению величины Ло, минимизирующей dMA. Опт*1'
См. сноску на с. 101 (начало гл. 4). — Прим. ред.
В оригинале Mean Average Square Error (MASE). — Прим. пере6-
5.2. Какой селектор следует использовать? 181
маЛЬная ширина окна Ло дает наиболее близкую к кривой регрессии
m оценку rhh для имеющихся данных, в то время как ft0 оптими-
оптимизирует среднее расстояние по всем возможным наборам данных.
Насколько быстро ft0 и Ло стремятся к нулю? Мы видели, что Ло
и h0 примерно равны одной и той же величине
где
1"
_ Г <r>(fw(u)du)cK
°~1^л»)м)
Конечно, мы можем попытаться оценить Со методом подстанов-
подстановки, но результат может оказаться различным при использовании
подходов, основанных на кросс-проверке или штрафных функци-
функциях. В рассматриваемом случае равноотстоящих точек наблюдения
Х{ на единичном интервале штрафные функции, представленные
в разд. 5.1, могут быть записаны в виде
G(h) = p(h)E(n-1h-1),
где
— ошибка предсказания, a S — штрафная функция, которая кор-
корректирует смещенность p(h) как оценки dA(h).
Приведем простые примеры:
(О Обобщенная кросс-проверка (Craven and Whaba, 1979; Li, 1985):
EGCV (n-'h-1) = A - n-1/*-^(О));
И Информационный критерий Акаике (Akaike, 1970),
Г1*-1) =ехр Bп-
^1Ц) Метод конечной ошибки предсказания (Akaike, 1974),
Sfpsfa-1*-1) = A + п^Л-1*@))/A - гГ1/!-1/^@));
(lv) Селектор модели Шибата (Shibata, 1981),
Ss^*) = 1 4- 2n-1h-1K@);
' Селектор ширины окна Раиса (Rice, 1984a),
ET(n~lh-1) = A - 2n-lh
182 5. Выбор параметра, сглаживания
40
30
20
10
JS FPE
|аю
:
GCV
I
Т
i i I i
aoi
o.oz
о.оз
0.04
0.05
Рис. 5.10. Графики пяти корректирующих функций
Е(п Л /Г@)) аргумента h. Объем выборки полагался рав-
равным п = 75, и использовалось, окно Бпанечникова с К@) =
0.75.
Для выяснения вопроса, как различаются между собой эти
функции выбора, рассмотрим рис. 5.10.
Каждая из приведенных штрафных функций имеет одно и то
же разложение в ряд Тейлора, точнее говоря, при nh —¦ оо
Е (n^h-1) = 1 + 2n~1h-1 K@) + О(п-2Л~2).
Основное различие S-функций проявляется на левом хвосте, где ма-
малые значения ширины окна штрафуются по-разному. Заметим так-
также, что метод кросс-проверки может рассматриваться как штраф0"
ванне ошибки предсказания р(Л), поскольку
CV(h)/p(h) = 1 + 2n-1h-1K@) + Ор(гГ2Л-2). E.22)
Последнее утверждение можно распространить также на
ры ширины окна, основанные на несмещенном оценивании
1=1
см. (Rice, 1984a).
5.2. Какой селектор следует использовать? 183
Все рассмотренные выше, селекторы ширины окна асимптотиче-
асимптотически оптимальны, т. е. отношение оцененных потерь к минималь-
минимальным потерям стремится к единице:
dA\h0)
и отношение значений ширины окна стремится к единице:
Ло
E.2.4)
Ответ на вопрос, насколько быстро происходит сходимость в E.2.3)
и E.2.4), можно получить, вычисляя асимптотическое распределе-
распределение разности.
Теорема 5.2.1. Допустим, что
(А1) ошибки {?,} являются независимыми и одинаково распре-
распределенными с нулевым средним, дисперсией а2, конечными
всеми остальными моментами;
(А2) ядро К имеет компактный носитель с гельдеровой вто-
второй производной;
(A3) функция регрессии т имеет равномерно интегрируемую
непрерывную вторую производную.
Тогда при п —> оо
?l), E.2.5)
tie <r1 и Сг — константы, зависящие от ядра, функции регрессии
4 ошибки наблюдения, но не зависящие от выбранной 'Е-функции.
Точные формулы для ах и Сг приведены ниже. Доказательство
ой теоремы можно найти в работе (Hardle, Hall and Marron, 1988).
Скорость сходимости отношения между h и Ло E.2.5) формули-
формулируется в терминах относительной разности:
с (низкой) скоростью гГ1'10. Также и
184 5. Выбор параметра, сглаживания
имеет (низкую) скорость п1/5. Конечно, в прикладных исслед0Ва
ниях скорость сходимости h сама по себе не представляет интерн
са. Исследователя в большей степени волнует точность полученной
кривой, оцениваемая величиной dA(h). Однако обе эти скорое^
на первый взгляд кажутся слишком неутешительными, причем онц
имеют один и тот же порядок как для разности между Ло и Л0) Так
и для dA(h0) - dA(h0).
Теорема 5.2.2. Допустим, что выполняются условия (Al)~(ASj
теоремы 5.2.1. Тогда
n3/l0(h0-h0) -АГ@,(Т22),
n[dA(h0)-dA(h0)] Дс2х?, E.2.6)
где а\ и С2 определены ниже.
Константы ctj, <т2, С1УС2^ фигурирующие в формулировках по-
последних двух теорем, равны соответственно а\ = g\JC\, ct\ -
v\IC\, С\ = Сг(т\/2, С2 = С3а1/2, где (обозначая свертку посред-
посредством ¦ )
L(u) = -uK'(u),
= щ°А [/ «;2] У (К * К - К * LJ] +
Важное следствие обсуждаемых предельных теорем, описываю-
описывающих поведение адаптивно выбираемых значений ширины окна, со-
состоит в иллюстрации того факта, что метод "подстановки" при вы-
выборе Л (когда неизвестные составляющие выражения dM л заменя-
заменя) 2 j("y е?
р ( р M
ют оценками) даже при известных величинах а2 и j(m"yw,
степенную скорость сходимости6), не превосходящую скорость схо-
сходимости последовательности величин Л, формируемых алгоритме*
5.1.1. Следовательно, дополнительный шум, возникающий на праК'
тике при оценивании этих неизвестных составляющих, особенН
В оригинале algebraic rate of convergence. — Прим. перев.
5.2. Какой селектор следует использовать? 185
оставляющей второй производной в случае недостаточно гладкой
ривой т, бросает тень сомнения на применимость метода подста-
° г -22
Сравнение асимптотических выражении дисперсии <т\ и (т^ двух
последних теорем показывает, что <т\ < <т\, поэтому в терминах
асимптотических дисперсий Ло ближе к Ло, чем Л. Важно отметить
^зависимость асимптотической дисперсии <т\ от конкретного вы-
борафункции Н(п"'1Л"), хотя исследования путем моделирования,
о которых речь пойдет ниже, указывают на возможное различие
характеристик для разных Н-функций. В работе (Hall and Marron,
1987) для близкой задачи оценивания плотности показано, что от-
относительная скорость сходимости
не может быть выше, чем п/10. Это говорит о том, что даже для
рассматриваемого случая не существует лучшего по сравнению с h
оценивателя значения h0. Дальнейшее обсуждение этого вопроса
содержится в дополнениях к этому разделу.
Возможны различные обобщения сформулированных выше двух
предельных теорем. Например, предположение, что ошибки одина-
одинаково распределены, может быть заменено более слабым предполо-
предположением существования дисперсии (Т2(Х^ ошибки ?,-, где функция
дисперсии (Т2(х) является гладкой. Также пространство точек на-
наблюдения X не обязано быть одномерным. В многомерном случае,
когда Х{ имеют размерность d, показатели первых частей в E.2.5)
и E.2.6) изменяются с 3/10 на (d + 2)/B(d + 4)).
Также можно рассмотреть ядра А", принимающие и отрица-
отрицательные значения, с целью возможного увеличения скорости схо-
сходимости (разд. 4.1). В частности, если А' имеет порядок @,р)
(см. разд. 4.5) и если m имеет равномерно непрерывную произ-
ВоДную прядка р, то показатели сходимости 3/10 заменяются на
VBBp-fl)). Это говорит о том, что относительная скорость сходи-
м°сти для полученных оценок ширины окна ниже для функций т,
имеющих более старшие производные. Следует обсудить не только
ТУ часть предельных теорем, которая относится к ширине окна, но
Также предельные результаты для dA. В случае когда m имеет бо-
Лее старшие производные, dA сходится к нулю быстрее, а именно со
скоростью п~2р/Bр+1\ Кажется, однако, что это противоречит ин-
тУитивным представлениям. Почему относительная скорость для
Для ядер более высокого порядка меньше, чем для ядер более
Низкого порядка? Для выяснения этого рассмотрим рис. 5.11, по-
азьгвающий dMA(-) для ядер высокого и низкого порядков.
186
5. Выбор параметра сглаживания
,'«/5..
Рис. 5.11. Примерные графики dMA(-) для ядер высокого
(р = 4) и низкого (р = 2) порядков при 4=1.
Как видно из рис. 5.11, для ядра более высокого порядка dMA(•)
имеет более плоский минимум, чем для ядра меньшего порядка.
Следовательно, правильную ширину окна сложнее аппроксимиро-
аппроксимировать. Но так как значение минимума п~8/9 меньше, чем значение
минимума п~4/5 для ядра меньшего порядка, то не столь важно
ошибиться при оценивании аргумента Ло минимизации!
В работах (Rice, 1984a) и (Hardle, Hall and Marron, 1988) предста-
представлены результаты исследований по моделированию с целью выяс-
выяснения свойств различных селекторов на конечных выборках. Было
сгенерировано сто выборок, состоящих из п = 75 псевдослучайных
нормальных величин ?t- с нулевым средним и стандартным откло-
отклонением <т = 0.0015. Они добавлялись к кривой т(х) = х3A — хK, ко-
которая допускает "оценивание отражением) для исключения эф-
эффектов на границе. В качестве ядерной функции выбиралось пе-
ренормированное квартическое ядро
ЛГ(«) = A5/8)A - 4«2JД|ы| < 1/2).
Результат этих исследований качественно может быть описан сле-
следующим образом. Сравнение селекторов производилось метоД°м
Монте-Карло как числа превышений уровней 1.05,1.1,... и т. ^
из 100 повторов, или для отношения математического о
) В оригинале "wrap-around-estimation". — Прим. пер ее.
5.2. Какой селектор следует использовать? 187
уборочной среднеквадратичной ошибки (MASE)
или для отношения выборочной среднеквадратичной ошибки (ASE)
dA(h)/dA(h0).
В результате моделирования наилучшим оказался Т-селектор. Для
выяснения сути этого явления рассмотрим селекторы более подроб-
подробно. Селекторы имеют тривиальный минимум при h = n~lK@) =
0.025, что соответствует точке "без сглаживания"8\ где пгн(Х{) =
Y-. Ошибка предсказания p(h) имеет ноль второго порядка в точке
"без сглаживания". GCV подсчитывает ее с использованием мно-
множителя коррекции, имеющего двойной полюс в этой точке, как и
Т. С другой стороны, FPE имеет только один полюс, в то время
как AIC и 5 не имеют полюсов в точке "без сглаживания".
Упорядочение результатов обоих исследований может быть каче-
качественно описано посредством зависимости от числа полюсов, кото-
которые имел селектор в точке "без сглаживания". Чем больше полюсов
имела штрафная функция, тем лучше были ее характеристики в
этих исследованиях.
Рис. 5.12 иллюстрирует предельные теоремы в терминах истин-
истинных кривых, для одной из истинных кривых и для одного из 100
наборов данных (с<7 = 0.011ип = 75). Сплошная кривая на ка-
каждом графике соответствует т(х). Штриховые кривые — оценки
Ч(*)-
Представленная на рис. 5.12а штриховая кривая была вычисле-
вычислена при h = 0.26, что соответствует минимуму S для этого набора
Данных. На рис. 5.12b rhh вычислялась в точке h = 0.39 мини-
мУма ASE. Наконец, на рис. 5.12с показана кривая, соответству-
юШая всем другим селекторам (h = О.бб). Этот пример возмож-
возможного различия селекторов на конкретных данных был выбран для
е1Де одной демонстрации низкой скорости сходимости в сформу-
лированных выше предельных теоремах. Более подробно результа-
результаты этого исследования, например вопрос о близости распределения
(Л—Ло) к нормальному закону для выборки такого малого объ-
е*Ма, можно найти в работе (Hardle, Hall and Marron, 1988).
° табл. 5.2.1 приведены значения выборочного среднего и стан-
Ртного отклонения ширины окна, доставляющей минимум ука-
нной слева величине. Интересно, что селектором, дающим наибо-
' е Низкое к Ло среднее значение, является довольно сложно реали-
^еМый FP^-селектор, что неудивительно в свете приведенного вы-
к°мментария о полюсах. Селектор Т дает некоторое смещение в
°Ригинале "no smoothing" point. — Прим. nepee.
188 5. Выбор параметра сглаживания
30
20
-10
-20
_iII1г I Ii I I I I I I | I I I
-а Л и м м
I I I I I I I I I I I I I I 1 1 1 I I I I I I
0.2 0.4 0.6 0.8 I
Рис. 5.12а. График п = 75 наблюдений регрессии, смодели-
смоделированных для функции т(х) = х3A — хK (сплошная кривая),
и ядерная оценка (квартическое ядро) при h = 0.26. Из
(Hardle, Hall and Marron, 1988) с разрешения Американской
статистической ассоциации.
сторону h, a FPE больше смещает вниз. В последних двух столбцах
показаны выборочные коэффициенты корреляции для выбираемой
ширины окна сЛоис hGCV, минимизирующей GCV.
Результаты моделирования, представленные в табл. 5.2.1, по-
показывают, что, несмотря на эквивалентность всех селекторов, Т~
селектор Раиса имеет несколько лучшие характеристики. Как у#е
объяснялось, это вытекает из того факта, что Т-селектор имеет не-
некоторую тенденцию к пересглаживанию (полюс Т кратности Два
в "несглаживаемой" точке). Характеристики Т-селектора должны
ухудшиться при изменении постановки моделирования, когда "бо-
"более важным становится уменьшение смещения, чем уменьшение
дисперсии". Другими словами, правая ветвь кривой dA{h) стано-
становится круче левой.
Исследованию в этом направлении путем моделирования бы^а
посвящена работа (Hardle, 1986e). Выборка формировалась ДлЯ
п = 75 наблюдений с нормальными ошибками, <т = 0.05, и синУс°^
идальной кривой регрессии m{x) = sin(A27ra:). Выбиралось кварх11
ческое ядро. Изучалось число превышений (как сформулироваИ
выше) для А = 1,2,3.
5.2. Какой селектор следует использовать? 189
| I I I I | I I I I | I I I I I
0.2 0.4 0.6 0.8
Рис. 5.12Ь. График п = 75 наблюдений регрессии, смоде-
смоделированных для функции m(x) = x\l - хK (сплошная кри-
кривая), и ядерная оценка (квартическое ядро) при h = 0.39. Из
(Hardle, Hall and Marron, 1988) с разрешения Американской
статистической ассоциации.
Как и ожидалось, характеристики Т-селектора становились ху-
*е с ростом А, что подтверждает гипотезу о том, что относительно
хорошие характеристики Т были обусловлены особенностями мо-
моделируемой задачи. Однако в целом наилучшие характеристики
п°казал ССУ-селектор (обобщенная кросс-проверка).
УпРажнения
*21- Докажите, что в рамках этого раздела подход, основан-
основанный на функции кросс-проверки, также использует идею
штрафования, т. е. докажите формулу E.2.2)
CV(h)/p(h) = 1 + 2n-1h'lK @) + Op(n~2h-2).
'^ Покажите, что несмещенная оценка риска функции выбо-
выбора R(h) удовлетворяет соотношению
R(h)/p(h) = 1 + 2тГ1/Гх А'@) + oJn^h-1).
• Дайте интерпретацию штрафующему члену для прямо-
Угольного ядра, используя тот факт, что N = 2nh точек
Попадает в ядерную окрестность. Что означает "штрафо-
"штрафование" в терминах 7V?
190
5. Выбор параметра сглаживания
30
20
_jjj(iji т i
-10
-20
I I Гу Т I I Г | Г
м и
N м
-Mill
. I I
I I I I I I I I 1 1
0.2
0Л
0.6
0.8
1
Рис. 5.12с. График п = 75 наблюдений регрессии, смодели-
смоделированных для функции тп(х) = ж3A —хK (сплошная кривая),
и ядерная оценка (квартическое ядро) при h = 0.66. Из
(Hardle, Hall and Marron, 1988) с разрешения Американской
статистической ассоциации.
5.2.4. Докажите, что из относительной сходимости E.2.3)
следует, что отношение значений ширины окна стремится
к единице:
[Указание: Воспользуйтесь теоремой 4.1.1 и разложением0
ряд Тейлора.]
5.2.5. Вспомним выражения дисперсий из теорем 5.2.1 и 5.2>
Покажите, что
< а\
а\.
[Указание : Воспользуйтесь неравенством Коши —
5.2.6. Постройте доверительный интервал для ширины окна ^о
5.2. Какой селектор следует использовать?
Таблица 5.2.1. Статистическая сводка ре-
результатов для адаптивно выбираемого и
оптимального значений ширины окна по 100
наборам данных. Источник: Hardle, Hall,
Marron A988) с разрешения Американской
статистической ассоциации.
191
h
п
ASE
Т
CV
GCV
Я
FPE
AIC
5
п
ASE
Т
GCV
AIC
5
мм
.51000
.5603г*
.57287
.52929
.52482
.49790
.49379
.39435
.36010
.32740
.32580
.32200
.31840
.10507
.13845
.15411
.16510
.17852
.17846
.18169
.21350
.07198
.08558
.08864
.08865
.08886
Pn(h,h0)
—
1.00000
-.50654
-.47494
-.46602
-.40540
-.45879
-.46472
-.21965
=
1.00000
-.32243
-.31463
-.30113
-.29687
Pn(h,hccv)
75
-.46002
.85076
.87105
1.00000
.83565
.76829
.76597
.52915
500
-.31463
.99869
1.00000
.97373
.97308
5.2.7. Постройте доверительный интервал для расстояния
л@)
5*2.8 (повышенной трудности). Каким образом можно было бы
распространить теоремы 5.2.1 и 5.2.2 на случайный план
эксперимента.
[Указание: Посмотрите работу (Hardle, Hall and Marron,
1990) и используйте линеаризацию ядерной оценки, как в
разд. 4.2.]
Дополнения
г Как уже упоминалось выше, для близкой задачи оценивания
ни!?Н05ти в Ра^оте (Hall and Marron, 1987) получен результат о
границе, который показывает, что
быть меньше, чем п lf10. Естественно возникает вопрос,
hocl ° Ли уменьшить эту относительную разность при замене Ло на
ЧинУ Ло, минимизирующую MISE. В работе (Hall and Marron,
192 5. Выбор параметра, сглаживания
1988) показано, что эта относительная разность может быть
шена до п/2. Это представляется серьезным улучшением, но, как
показано в работе (Mammen, 1988), поиск такой ширины окна хе
оправдывается. В частности, там получена
Теорема 5.2.3. Допустим, что существует вычисляемая по дан-
ним ширина окна h, для которой
Тогда существует другая вычисляемая по данным ширина окна h
'такая, что
n(d,(A)-<
причем О < 7i < Ъ-
Эта теорема показывает, что
E(dj(h)) - E(d,(h0))
сходится к константе, которая строго меньше единицы. Очевид-
Очевидно, dj(h) > dj(h0) и dj(h) > df(h0). Следовательно, использование
ширины окна h приводит к меньшему риску, чем использование Л
Подробности см. в работе (Mammen, 1988).
5.3. Локальная адаптация параметра сглаживания
Параметр сглаживания, выбираемый одним из описанных Ра'
нее методов, оптимизирует глобальный критерий ошибки. Такой
"глобальный" выбор совсем не обязательно является оптимальны**
для оценивания кривой регрессии в одной конкретной точке, *аь
показывает тривиальное неравенство
inf / E(rhh - mJ > / inf E(mh - mJ.
[редставлены два метода локальной адап
___,. Г 1аживания. Первый метод основан на и___
мации распределения \fnh{mh — m) с помощью бутстрепа. Вт<>Р
В этой главе представлены два метода локальной адаптации вы6°"
параметра сглаживания. Первый метод основан на идее аппр0* „
5.3. Локальная адаптация параметра сглаживания 193
етоД, предложенный в работе (Friedman, 1984), — суперсглажи-
пГПель — построен на основе "локального метода кросс-проверки"
ля Jb-N-ZV-сглаживателей.
Локальное улучшение оценки с помощью
бутстрепа
Мы уже видели, что так называемый метод дикого бутстрепа
(разд. 4.2) позволяет аппроксимировать распределение y/nh(mh —
m). Далее, однако, будет рассматриваться несколько отличный от
бутстрепа метод для более простого случая независимых одинаково
распределенных ошибок. Этот более простой случай имеет то пре-
преимущество, что повторенная выборка может быть получена с ис-
использованием полного набора полученных невязок. Пусть Xi = i/n
и varfo) = <т2. Случайность наблюдений полностью определяется
содержащимися в них ошибками. Повторение выборки должно,
таким образом, производиться с использованием невязок
где g — пилотная ширина окна9). Поскольку вблизи границы сме-
смещение оценки больше, целесообразно использовать лишь невязки,
относящиеся к внутреннему подынтервалу [г;, 1 — 77], 0 < rj < 1/2.
Для того чтобы невязки, используемые в повторной выборке, от-
отражали поведение истинной кривой регрессии, они центрируются
относительно их среднего:
ё{ = ?,. - среднее{?J.
Затем формируются невязки бутстрепа {е*} посредством выбора
с замещением из множества {?,-}, порождая переменную отклика
ут
Утстреп-оценка т* функции т получается сглаживанием
"^п^Т*)} вместо {(Х{1 У()}. Принято говорить, что выполняется
пРинцип бутстрепа, если распределения оценок т*(х) и т(х) при
°ответствующей нормировке сближаются при возрастании объема
1б°рки п. Если установлена сходимость этих распределений в ме-
Рик Мэллоуза (Mallows) (Bickel and Freedman, 1981), то вторые
0 оригинале pilot bandwidth. — Прим. перев.
194 5. Выбор параметра сглаживания
моменты этих распределений также сближаются. Так как в фцк
сированной точке х нас интересует величина MSE
E(mh(x)-m(x))\
бутстреп-аппроксимация в терминах метрики Мэллоуза даст на^
метод оценивания локальной среднеквадратичной ошибки. ДЛя
упрощения последующих выкладок предположим, что ядро стан.
дартизовано, так что dK = 1.
В методе бутстрепа каждый член е{ заменяется на ej, и, следо.
вательно
J2 Kh(x - Х{)(тя(Х,) + ej)
является оценкой бутстрепа. Цель бутстрепа состоит в аппрокси-
аппроксимации распределения y/nh(mh(x) — т(х)), где
mh(x) - т(х) = п ^ Kh(x - Х{)е{
+ (Л2/2)т"(х) + оОГ1'8*-1'2 + Л2)
1 = 1
-h (h2l2)m'\x), h -н. О, nh — оо.
Бели это же разложение выполнено для бутстреп-оценки wij^» T0
следует прежде всего произвести центрирование вокруг математи-
математического ожидания по бутстреп-распределению, которое приблизи-
приблизительно равно
где
Kx(v\h%9) = Kk*K$ = j Kk(u)K9{v-u)du
— свертка ядер Khn Kg. Компоненту смещения (Л2/2)т;/(х)
но оценить посредством использования состоятельной оценки №*
т"{х). (В разд. 3.1 мы определили ядерные оценки производных*/
В результате приходим к бутстреп-аппроксимации
где т"(х) — произвольная состоятельная оценка второй произвоД
ной т"(х). В работе (Hardle and Bowman, 1988) доказано, V*H'
цип бутстрепа выполняется.
5.3. Локальная адаптация параметра сглаживания 195
f орсма 5.3.1. Если hug стремятся к нулю со скоростью п/5,
)ерНая функция К липшицева, а т дважды дифференцируема,
0 выполняется принцип бутстрепа, т. е.
d2(Vnh(thh(x) - т(х)),
V^h(mhjx) - тСХд(х) + (Л2/2)ш"(*)))Л 0,
где
y~q
- метрика Мэллоуза.
Теперь в качестве оценки MSE dM(x, h) = E(mh(x) — m(x)J мож-
можно взять
h\g{x) — rriQbgix) + (ft /2)th {x)) dF^,
где F* — эмпирическая функция распределения {?,}. Обозначим
через h(x) ширину окна, минимизирующую dM(ж; А) по множеству
параметров сглаживания Нп.
Такой выбор локально адаптивной ширины окна является асим-
асимптотически оптимальным в смысле теоремы 5.1.1 из работы (Hardle
and Bowman, 1988), т. е.
dM(x;h(x)) pL {5^2)
Этот метод адаптивного выбора h = h(x) иллюстрируется на
Рис. 5.13, на котором изображены некоторые данные, получен-
полученные добавлением нормально распределенных ошибок со стандарт-
стандартным отклонением 0.1 к кривой т(х) = sinDfl-x), оцениваемой при
=- юо ' J == 1» ••»п = 100- Для выбора хорошего глобально-
го параметра сглаживания (д = 0.03) использовался метод кросс-
пРоверки, и полученная в результате оценка функции регрессии
Указывает определенные трудные проблемы, вызванные смещени-
ем пиков и впадин, где величина |ш;/(х)| велика.
Чтобы увидеть, как в действительности используется локальный
ПаРаметр сглаживания, рассмотрим рис. 5.14. На этом рисунке
п°строен график локального параметра сглаживания, полученного
Минимизацией бутстреп-оценки dM(x,h), как функции х.
Для сравнения построен также график асимптотически опти-
^ параметров сглаживания
5. Выбор параметра сглаживания
Рис. 5.13. Модельные данные для кривой m(x) = sinDffi)
с распределением ошибок #@,@.1J): истинная кривая
(сплошная линия 1); глобальное сглаживание (штриховая ли-
линия 2); локальное сглаживание (штрихпунктирная линия 3).
Из (Handle and Bowman, 1988) с разрешения Американской
статистической ассоциации.
где
ад =
а2 с
к
1/5
[dK т»(х)У\
При этом получилась кривая, аналогичная графику локальног
сглаживания. Сравнение с локальными параметрами сглаживанй
метода "подстановки" (основанными на оценивании Со) показав
небольшое отличие для этого примера. Преимущество описан**
го выше метода бутстрепа заключается в том, что он нечувстви?
лен к нерегулярностям, появляющимся при оценивании т (*л
5.3. Локальная адаптация параметра сглаживания 197
0.08
0.06 -
0.04 -
0.02
ОД 0.3
Рис. 5.14. Локальные параметры сглаживания для модель-
модельных данных рис. 5.13: асимптотически оптимальный (спло-
(сплошная линия 1); непосредственная оценка (штриховая линия
2); бутстреп (пунктирная линия 3). Из (Hardle and Bowman,
1988) с разрешения Американской статистической ассоциа-
ассоциации.
(Hardle and Bowman, 1988). Кроме того, для метода подстановки
требуется оценивать смещение; см. (Miiller and Stadtmiiller, 1987).
Описанная выше идея бутстрепа на основе оцененных невязок при-
применялась при оценивании спектральной плотности в работе (Pranke
and Hardle, 1988).
Суперсглаживатель
Так называемый суперсглаживатпелъ, предложенный в работе
(Friedman, 1984), основан на линейной Jb-ЛГЛГ-аппроксимации в пе-
РеМенной окрестности оцениваемой точки х. Для оценивания опти-
^ьного размера окрестности как функции предикторной пере-
перечной применяется "локальная кросс-проверка". Алгоритм осно-
ан на формулах пересчета Jb-iVW-оценки, описанных в разд. 3.2.
а*им образом, он имеет высокую вычислительную эффектив-
эффективность.
Происхождение термина "суперсглаживатель" связано с исполь-
Ванием методов повторной выборки с целью оптимизации при ми-
Мальных вычислительных затратах. Основная идея суперсгла-
198 5. Выбор параметра сглаживания
живателя та же, что и для бутстреп-оценки. Целью обоих
дов является минимизация локальной среднеквадратичной щи^
ки. Суперсглаживатель формируется из трех начальных оценок
высокочастотной, среднечастотной и низкочастотной1^. Они
предназначены для воспроизведения трех основных частей спек*
тра т(х) и определяются как k-N N-оценки с Jb = 0.05n, 0.2п и 0.5п
соответственно. Далее вычисляются кросс-проверочные невязки
= К - **(*«)] (l" V* -
где через /Ix. и Vx. обозначены локальные среднее и дисперсия по к
ближайшим соседям Х{1 как в разд. 3.2. Затем определяются наи-
наилучшие значения размера окрестности к(Х{) путем минимизации
г(«)(*) в каждой точке Х{ для высокочастотного, среднечастотного
и низкочастотного значений к.
Поскольку оценка, основанная на этой последовательности раз-
размеров окрестностей с необходимостью имела бы на практике боль-
большую дисперсию, рекомендуется проводить сглаживание величин
|r(*)(^)| no ^s> используя полученные оценки для выбора наилуч-
наилучших значений размеров окрестности к(Х{). На следующем шаге
значения к(Х{) сглаживаются по Xi (с использованием среднеча-
среднечастотного сглаживателя). Получаемая в результате оценка размера
окрестности для каждого наблюдения имеет значение между высо-
высокочастотным и низкочастотным значениями.
Окончательная оценка кривой, являющаяся результатом супер-
суперсглаживания, получается интерполяцией двух (из трех) оценок с
наиболее близкими значениями размера окрестности. На рис. 5.15
показано п = 200 пар {(^,-,^-)}?=1 с {X,}, равномерно распределен-
распределенных на [0,1],
где {ef.} — независимые, одинаково распределенные стандартные
нормальные величины. Полученная оценка суперсглаживателя по-
показана сплошной линией.
На рис. 5.16 показан оптимальный размер окрестности ?(Х,-) *аК
функция Х+. В области "низкого уровня шума и большой кр1*'
визны" (х < 0.2) предлагается высокочастотное значение размер
окрестности. В остальных областях предлагается близкое к низ*
частотному значение размера окрестности.
' В оригинале tweeter, midrange и woofer соответственно. — "?
пер ев.
5.3. Локальная адаптация параметра сглаживания 199
-2 -
а г о.4 о.б 0.8
Точечный график п = 200 данных
1
0
Рис. 5.15. _
Точки Xi равномерно распределены на [0,1], Y{ = sinBir(l —
X,J + A'fct, et ~ N@,1). Сплошная линия соответствует су-
персглаживателю. Из (Friedman, 1984) с разрешения автора.
Если т(х) имеет высокую степень гладкости, можно получить
более точные оценки кривой за счет смещения параметра сглажи-
сглаживания в сторону больших значений размера окрестности. Один из
способов достижения этого состоит в использовании критерия вы-
выбора параметра сглаживания, штрафующего не только точку "без
сглаживания" 4=1. Например, селектор Раиса Г (рис. 5.10) стре-
мится сдвинуть оценку в направлении более гладких кривых. В
работе (Friedman, 1984) предложена параметризация этого "смеще-
Ния выбора" для усиления низкочастотной компоненты получае-
м°й оценки. Для этой цели введем размер окрестности
~" ё(Х- к ) Г
еРез ё(х,к) обозначена оцениваемая в точке х невязка с пара-
етРом сглаживания Jk, a kw = 0.5п — низкочастотный размер
Местности. Параметр 0 < а < 10 называется управлением то-
200 5. Выбор параметра, сглаживания
0.2 -
0.1 -
0 0.2 ОЛ 0.6 0.8 1
Рис. 5.16. Последовательность значений размера окрестно-
окрестности &(ATt), полученных для данных рис. 5.15. Из (Friedman,
1984) с разрешения автора.
номг1\ Величина а = 0 соответствует очень малому низкочастот-
низкочастотному усилению, a a = 10 — большому (максимум басов). Выбор зна-
значения а в промежутке между этими крайними значениями опреде-
определяет сдвиг процедуры выбора в сторону больших величин размеров
окрестности.
Упражнения
5.3.1. Докажите, что член тСЛ^(ж) является аппроксимацией
величины Ер+т^ (х) меньшего порядка по сравнению0
л/пЛ:
5*3.2. В чем разница между описанным в разд. 5.3 методом
диким бутстрепом? Можно ли доказать теорему 5.3.1
оценки смещения?
[Указание: Используйте пересглаженную оценку по повт
ной выборке fhg{x) для формирования наблюдений б
В оригинале tone control. — Прим. пер ее.
5А. Сравнение значений ширины окна 201
па Yf = тд(Х{) + е*. Разность
будет отражать, как и при диком бутстрепе, смещение оцен-
оценки mh{x)]
5.3.3. Покажите, что кросс-проверочные невязки E.3.3) проис-
происходят от метода пропуска, примененного к Лг-ТУЛГ-сглажи-
ванию.
5.3.4. Опробуйте низкочастотную, среднечастотную и высокоча-
высокочастотную оценки на модельных данных из табл. 2 приложе-
приложения 2. Сравните результаты с суперсглаживателем. Можете
ли вы пояснить, где и почему суперсглаживатель изменяет
параметр сглаживания?
[Указание: Используйте XploRe A989) или иной интерак-
интерактивный пакет.]
5.4. Сравнение значений ширины окна
(канонические ядра)
Заметим, что при использовании ядра вида
К,(и) = s-4<(u/s)
и изменении шкалы для ширины окна умножением на s получа-
получается та же оценка, что и для исходного ядра. Таким образом,
ядро можно рассматривать как класс эквивалентности функций
# с возможным перенормированием. Следствием такой зависимо-
зависимости от масштаба является неопределенность задачи выбора ширины
окна в случае, если ядро К задано только с точностью до масшта-
масштаба. Какой член этого класса эквивалентности является "наиболее
представительным" ?
Рассмотрим более общую ситуацию, в которой два статистика
анализируют один и тот же набор данных, но используют различ-
различные ядра для их сглаживания. Они выбирают значения ширины
°кна по своему усмотрению. При этом параметры сглаживания
°пределяются субъективно или адаптивным образом, но они вычи-
вычисляются для разных ядер и, следовательно, не могут быть сопоста-
сопоставлены друг с другом непосредственно. Для того чтобы сделать воз-
м°жным некоторое сравнение, необходима общая шкала для обо-
|JX параметров ширины окна. Каким образом можно найти такую
°йцую шкалу"?
Желательно, чтобы такая шкала обладала свойством, что два ме-
ТоДа ядерного оценивания с одной и той же шириной окна долж-
HbI предписывать одинаковую степень сглаживания данных. В
202 5. Выбор параметра, сглаживания
разд. 4.5 уже был предложен подход, позволяющий найти прел
ставителя в каждом классе эквивалентности ядер. Епанечникоь
(Epanechnikov, 1969) выбирал ядра с ядерной постоянной dK - j
Другой подход, принятый в работе (Gasser, Miiller and Mammitzsch
1985), требует, чтобы ядрь имели носителем отрезок [—1,1]. Отри'
цательной стороной обоих методов является то, что они доволь-
довольно произвольны и не направлены на придание одинаковой степени
сглаживания различным ядрам.
В работе (Маггоп and Nolan, 1988) предпринята попытка вве-
ввести такую общую шкалу посредством так называемых канониче-
канонических ядер в классе ядер К8. Она основана на хорошо известном
разложении MSE для d = 1,р = 2 и К = К8:
^ C» ft-0, nft-+oo,
где через Сх, С2 обозначены константы, зависящие от неизвестного
распределения данных. Легко преобразовать это выражение к виду
n-lh-lCx(8-lcK) + h*C2(s2dKJ. E.4.1)
Заметим, что задачи выбора К и h "расщепляются" при
Это расщепление легко можно обеспечить, положив
Таким образом, определим каноническое ядро К* как ядро из клас-
класса К8 cs = 5*. Для этого канонического ядра имеем
2
u2K*(u)du\ = f(K*{u)Jdu
,2/5
= (•) 'к = -щск
ск
= 4/54/5-
Следовательно, для канонического ядра
что еще раз демонстрирует расщепление задач выбора ядра и ширИ'
ны окна для канонического ядра К*. Заметим, что К* не зависит
от начального выбора К: можно заменить К любым ядром K,i и
Кт будет по-прежнему тем же.
Преимущество канонических ядер состоит в том, что они по-
позволяют легко проводить сравнение различных ядерных классов-
5.4. Сравнение значений ширины окна 203
Таблица 5.4.1. Канонические ядра из семейства
Ка .
Ядро
Прямоугольное
Бпанечникова
Квартическое
Триквадратное
Гауссовское
а
0
1
2
3
оо
Са
1/2
3/4
15/16
35/32
(9/2I/5
151/5
351/5
(9450/143I/5
A/D*)I/5
« 1.3510
« 1.7188
« 2.0362
« 2.3122
« 0.7764
Допустим, что К(л\ и К,2\ — канонические ядра каждого клас-
класса и требуется обеспечить одинаковую степень сглаживания двух
оценок регрессии, т. е. компромисс между дисперсией и квадра-
квадратом смещения должен быть одинаковым для обоих сглаживателей.
Это легко достигается использованием одинаковой ширины окна
для обоих оценивателей. При использовании канонических ядер
функции dM(h) будут выглядеть по-разному для разных ядер, как
будто они отличаются множителем, и каждая имеет минимум в
общей точке. Ядерный класс, имеющий наименьший минимум, за-
задается "оптимальным ядром" порядка 2, так называемым ядром
Епанечникова.
Одним из интересных семейств ядер, которое содержит многие
из используемых на практике ядер, является
где нормирующий множитель Са придает Ка свойство плотности
распределения:
Са = ГBа + 2)Г(а + l)-^-2*.
В первых двух колонках табл. 5.4.1 показаны значения <х иСа для
наиболее известных случаев. Гауссовское ядро соответствует пре-
предельному случаю а = оо. Легко убедиться, что коэффициент пере-
масштабирования для Ка равен
** = 2-1/5Г(а+1)-4/вBа+3J'вГBа+2J'5ГBа+1J'5ГDа+2)-1'5.
На практике используют ядра, не обязательно являющиеся кано-
каноническими, поскольку обычно рассматривают некоторый конкрет-
ный масштаб для ядер, например при гауссовском ядре умножают
На стандартное отклонение. Как при этом сравнить параметры
Улаживания Л1э Л2? Следующая процедура основана на канониче-
ских ядрах. Сначала преобразуем масштаб обоих ядерных классов
^я получения канонического ядра К*(и) = (s*)~lK(u/s*). Затем
204 5. Выбор параметра, сглаживания
сравним значения ширины окна для соответствующих канонир
ских ядер. Алгоритм 5.4.1 описывает эту процедуру более ф0*
мально.
Алгоритм 5.4.1
Допустим, что исследователь ,; использует ядро Kj и шири-
ширину окна Л-, ,; = 1,2.
ШАГ 1.
Преобразуем hj к каноническому масштабу
ШАГ 2.
Сравнивая /i* и Л?, определяем, одинакова ли степень сгла-
сглаживания у обоих исследователей или кто-то из них пере-
пересглаживает кривую по сравнению с другим.
Предположим, например, что исследователь 1 использует гаус-
совское ядро и остановил свой выбор на ширине окна, скажем,
hx = 0.05 (см. рис. 3.21). Другой статистик, номер 2, использу-
использует квартическое ядро и основывается на кросс-проверочной шири-
ширине окна Л2 = 0.15 (см. рис. 5.4). Типичная ситуация изображена
на рис. 5.17, на котором представлена выборочная среднеквадра-
среднеквадратичная ошибка dA(h) для ядерных сглаживателей с гауссовским
и квартическим ядрами в применении к модельным данным из
табл. 2 приложения 2. Очевидно, ширина окна, минимизирующая
ту или иную функцию, обеспечивает одинаковый компромисс ме-
между квадратом смещения и дисперсией.
Вычислим точное значение s* для этого примера. Коэффициент
s\ для гауссовского ядра равен
«I = (/ (^
/iI'5 * 0.776.
Отсюда Ширина окна для канонического гауссовского ядра h\ ~
hJO.776 = 0.0644. Для квартического ядра К{и) = A5/16H "
trJ J(|ti| < 1) имеем dK = 1/7 и ск = 15/21; следовательно, "кано-
"каноническое квартическое ядро" определяется выражением
5
= 351/5 = 2.036,
откуда h*2 = А2/2.036 = 0.0736.
Наконец, оптимальная ширина окна Ло = argmin[dA(/i)]
0.0736 (по канонической ядерной шкале), а это означает, что
ективный выбор ftj = 0.0644 в модельном примере рис. 3.21
чивал несколько меньшую степень сглаживания.
5.4. Сравнение значений ширины окна
205
11*
0.16
0.14
0.12
0.10
0.08
0.06
ОЛИ
1
•
1
• 1
1
- \
\
i i i
^—
S^~ * "*
V -^
1 . i i I i i • 1 • i
1
2
i
0.01
0.11
0.21
0.31
0.42
Рис. 5.17. Выборочная среднеквадратичная ошибка dA(h),
полученная для модельных данных (табл. 3.6.1) при гауссов-
ском (сплошная линия 1) и квартическом (пунктирная ли-
линия 2) ядерных сглаживателях с весовой функцией w(u) =
7(|м-0.5| < 0.4).
Упражнения
5.4.1. Вычислите каноническое ядро для треугольного ядра.
5.4.2. Вычислите канонические ядра для производных ядер из
разд. 4.5.
5.4.3. Опробуйте ядерное сглаживание на практике и преобра-
преобразуйте выбранную вами ширину окна с помощью алгорит-
алгоритма 5.4.1. Проведите сравнение с другой ядерной Оценкой и
вычислите ширину окна, обеспечивающую одинаковую сте-
степень сглаживания в обеих ситуациях.
ГЛАВА 6
Данные с большими выбросами
"При анализе реальных данных вместо обнаружения выде-
выделяющихся измерений при слабых предположениях о струк-
структуре данных было бы желательно использовать методы,
свойства которых мало меняются на широком классе рас-
распределений помех. Нелинейные методы сглаживания дан-
данных позволяют в практических задачах находить основные
зависимости для последовательно поступающих данных, за-
засоренных шумами с тяжелыми хвостами."
П. Веллемен A980, с. 609)
Допустим, что наблюдаются данные типа тех, что изображены
на рис. 6.1: основная масса данных лежит в узкой полосе вокруг
нуля, а небольшое количество наблюдений, определяющее масштаб
графика данных, лежит вне указанной области. Очевидно, эти не-
несколько точек представляют собой большие выбросы. Эта терми-
терминология не означает, что выбросы не являются частью выборки из
совместного распределения или что они не содержат никакой ин-
информации об оцениваемой кривой регрессии. Скорее это означав
что выбросы похожи на слишком малую часть данных, которая и
определяет поведение вычисляемой статистики. Любой метод сгл*'
живания (основанный на локальном усреднении), будучи примени
к данным типа изображенных на рис. 6.1, будет проявлять тенДеН'
цию "следовать за выбросами в наблюдениях". Методы обработку
данных, содержащих большие выбросы, называются робеет**1**
или устойчивыми1^.
С точки зрения аналитического описания данных неробастн^
поведение сглаживателя иногда нежелательно. Допустим, что »
стериори необходимо установить параметрическую модель кр#
В оригинале resistant и robust соответственно. — Прим. пере6-
б. Данные с большими выбросами 207
Рис. 6.1. Модельный набор данных с большими выбросами.
Совместная функция плотности распределения {(Xj, Y^)}?»!,
п = 100, была равна f(x,y) = д(у — т(х)I(х € [0,1]), где т(х) =
sin(irx), плотность смеси д(х) = (9/10)<р(х) + (l/10)(l/9)v?(s/9),
а через <р обозначена плотность стандарного нормального
распределения. Точки данных, реализованных той частью
смеси, которая моделирует тяжелые хвосты распределения
A/9)<р(я/9), отмечены квадратиками. Функция регрессии
т(х) изображена сплошной линией. Из (Hardle, 1989).
отклика. Любое неправильное поведение непараметрйческой пи-
л°тной оценки вызовет смещение параметров. Представим, напри-
МеР, ситуацию, в которой выброс не был определен и непараметри-
Ческий метод сглаживания воспроизвел небольшой пик в окрестно-
Ти этого выброса. Параметрическая модель, способная аппрокси-
иРовать этот "несуществующий" пик, должна иметь очень боль-
№ размерность.
о ti этом случае более предпочтительным должен быть робастный
^ениватель, или сглаживатель, нечувствительный к одиночным
с СЛ°ряД°чным выбросам. В работе (Carroll and Ruppert, 1988,
«о) авторы описали это следующим образом:
с^ °бастные оцениватпели способны справляться с неадекватно-
fJo*Mu как в данных, так и в модели. Они ослабят влияние оши-
Hbl* данных или, в некоторых случаях, полностью их устра-
208 6. Данные с большими выбросами
нят. Во многих ситуациях простая модель будет адекватно
проксимировать все данные, кроме некоторых необычных
дений.
В этой главе представлены различные устойчивые методы сгла-
сглаживания. Показано, каким образом основные идеи робастного оце.
нивания параметра сдвига могут быть использованы для непара,
метрического устойчивого сглаживания. Кроме того, обсуждение
позволяет наметить асимптотически эффективное правило выбора
параметра сглаживания.
6.1. Устойчивые методы сглаживания
Линейное локальное среднее само по себе не является робастной
оценкой относительно больших выбросов. Устремляя перемен-
переменную отклика в бесконечность, получим также бесконечно боль-
большую оценку. В этом смысле локальное усреднение имеет неогра-
неограниченную возможность реагировать на "очень далекие" наблюде-
наблюдения. Устойчивость, или "ограниченная подверженность влиянию"
больших выбросов, может быть достигнута путем уменьшения ве-
весов больших невязок, которые в противном случае оказывали бы
влияние на сглаживатель.
Мы уже встречались с простым устойчивым методом — меди-
медианным сглаживанием. Его робастность связана с тем, что экстре-
экстремальные наблюдения переменной отклика (со значениями предик-
предиктор ной переменной в окрестности точки х) не оказывают влияния
на (локальную) медиану переменных отклика. Небольшим недо-
недостатком медианного сглаживания является, однако, то, что в ре-
результате получается грубая и извилистая кривая. Повторное сгла-
сглаживание и дублирование2^ являются методами, направленными на
улучшение метанного сглаживания в этом отношении; см. работу
(Velleman, 1980); (Mallows, 1980).
Локальное взвешивание графика данных
В работе (Cleveland, 1979) предложен следующий алгоритм, так
называемый LOWESS3), который является устойчивым методов
основанным на локально полиномиальной аппроксимации. Основ'
ная идея состоит в следующем: начать с локально полиномиально1*
приближения наименьших квадратов, а затем произвести "°?^
стизацию". Термин "локальный" означает здесь окрестность
2) В оригинале resmoothing и twicing соответственно. — Прим» **еР
3) В оригинале LOcally WEighted Scatter plot Smoothing (LOWESS)- "
Прим. перев.
6.1. Устойчивые методы сглаживания 209 •
ипа. Процедура начинает с вычисления пилотной Jfc-iVW-оценки,
иТеративно определяет веса робастности4) и несколько раз произ-
производит повторное сглаживание.
Алгоритм 6.1.1
LOWESS
ШАГ 1.
Найдите полиномиальную аппроксимацию регрессии в ок-
окрестности х, т. е. определите коэффициенты {^.}?=0, ми-
минимизирующие
где через {И^,(х)} обозначены k-NN-веса,.
FOR i = 1 ТО число шагов DO BEGIN
ШАГ 2.
Используя оценки невязок {?,}, вычислите оценку мас-
масштаба a =med {|?,-|} и определите веса робастности
6t = K(ii/F&))i где К — квартическое ядро, К (и) =
A5/16)(l-tx2J I(\u\ < 1).
ШАГ 3.
Найдите полиномиальную аппроксимацию регрессии как в
пункте ШАГ 1, но с весами
END (* i *).
Кливленд (Cleveland) рекомендует выбор р = 1 (как для су-
ПеРшаживателя), обеспечивающий баланс между вычислитель-
н°й простотой и необходимой гибкостью при воспроизведении осо-
^нностей данных. Параметр сглаживания может быть определен
кРосс-проверкой, как в разд. 5.1. На рис. 6.2 показано применение
^горитма Кливленда к модельным данным. Совершенно очевидно,
1То LOWESS-оценка устойчива к "далеким" значениям переменной
°Тклика, находящимся вблизи границ рисунка.
?-сглаживание
й класс устойчивых сглаживателей задается локально усе-
нЫми средними*) значений переменной отклика. Если через
, °ригинале robustness weights. — Прим. перев.
°Ригинале trimmed averages. — Прим. перев.
210 6. Данные с большими выбросами
3F
10 20 30
Абсциссы
40
50
Рис. 6.2. График искуственно полученных данных (п = 50,
У^ = 0.02Л^ -f с-, Х< = i, с, ~ JV@,1)) и результат робастного
сглаживания при р = 1, moxiter = 2, * = [n/2]. Из (Cleveland,
1979) с разрешения Американской статистической ассоциа-
ассоциации.
^A)> ^B)> • • > %(N) обозначить порядковую статистику из N наблю-
наблюдений {2^}^!, то усеченное среднее будет определяться как
? Z0)l 0<а<1/2,
т. е. как среднее арифметическое "внутренних 100A - 2а)% ДаН'
Hbixw. Локально усеченное среднее в точке х для данных регрес-
регрессии {(-У,-,У^)}?=1 определяется как усеченное среднее переменны*
отклика Y{) для которых Х{ находится "в окрестности я". (Окре°т'
ность может быть параметризована, например с помощью п°сЛ^
довательности ширины окна А = Лп.) Применяя терминологий
робастной теории оценивания, такой тип сглаживания назыв*10
L-сглаживанием.
L-сглаживание является устойчивым методом: "далекие эКС*Р^
мальные данные" в точке х не входят в процедуру локальН0^
усреднения. При более общем подходе рассматривают у слов*1
6.1. Устойчивые методы сглаживания 211
^.функционал
/(*)= f1J{v)F-\v\x)dv, F.1.1)
Jo
fl(v\x) = inf{y : F(y\x) > v}, 0 < v < 1, — условная квантиль-
ая функция, соответствующая условной функции распределения
fl]x) переменной У при данном X = ж. Для J(v) = 1, /(х) со-
совпадает с функцией регрессии тп(х), поскольку при подстановке
FH^k) получаем
F~l(v\x)dv =
Зтот же результат имеет место для симметричной условной функ-
функции распределения в случае J(v) = /(а < v < 1 — «)/A — 2а), где
] < а < 1/2. Медианное сглаживание является частным случаем
кглаживания при a = 1/2.
На практике мы не знаем F(-\x) и должны ее оценивать. Если
через Fn(|x) обозначить оценку F(-\x), из формулы F.1.1) получим
L-сглаживатель. Оценки F(t\x) могут быть построены, например,
с помощью ядерного подхода:
откуда
= Г J{v)F?l(v\x)dv.
Jo
В работах (Stute, 1984; Owen, 1987) доказана асимптотическая нор-
м^ьность таких условных функционалов. Равномерная (опти-
^ьная) скорость сходимости для L-сглаживателей получена в ра-
^Те (Hurdle, Janssen and Serfling, 1988).
Д-сгла»сивание
^e один класс сглаживателей составляют R-сглаживатели, по-
|Ченные из Д-оценок параметра сдвига. Предположим, что F(-\x)
м^етрична относительно т(х) и что J — неубывающая функция
1я всех s € @,1) такая, что 7A - s) = - J(s)e\ Тогда функционал
Щ F(.\x)) = j~ J Q(F(t,|x) + 1 - F{26 - t;|x
, Ункцию J(s) принято называть функцией меток или меточной
Акцией. — Прим. пере в.
212 в. Данные с большими выбросами
равен нулю при 0 = т(х). Теперь идея сводится к замене рп
оценкой Fn(-\x). Если Fn(-\x) — оценка условной функции J'
пределения F(-|x), то этот функционал будет приблизительно J
вен нулю для хорошей оценки т(х). Обоснование этого метода I
сглаживания вытекает из ранговых критериев.
Рассмотрим двувыборочный ранговый критерий для сдвИг>
основанный на выборках {^JJLi и {20 — ^,}[*=1, т. е. втора
выборка является зеркальным отражением первой. Попытаем
ся теперь настроить 0 таким образом, чтобы тестовая статистик
Тп = n~l 5Z"=1 а(Д,), основанная на метках7)
Bп Г"
\ Л«-1)/
= 2п / J(s)ds ,
l)/2n J
соответствующих рангам R{ величин {Z{} в объединенной выборь^
{Zt} + {2в — Zf}, примерно равнялась нулю (см. (Huber, 1981, гл. 3
4). При этом обе выборки {Z,} и {20 — Z{) должны стать почти не
различимыми, или, другими словами, должна получиться хорошая
оценка для 0. Если в задаче сглаживания рассмотреть статисти
ку, аналогичную Тп, то получится приведенное выше выражение
n())
В общем случае решение уравнения Т@, Fn(-\x)) = 0 не един
ственно или может иметь нерегулярное поведение. В связи с эти1
в работе (Cheng and Cheng, 1986) предложена следующая оценка
кривой регрессии тп(х):
< = ±Н>{' : Ц0, Fn(.\x)) > 0}+mf{9 : Т(в, Fn(-\x)) < 0}]. F.1.2
Состоятельность и асимптотическая нормальность этого метод?
сглаживания показана в (Cheng and Cheng, 1987).
М-сглаживание
Устойчивые методы сглаживания, основанные на М-оценках п&Р
метра сдвига, называют М-сглаживателями. Напомним, что в
сглаживатели вида
можно рассматривать как решения (локальных) задач о i
ших квадратах; см. C.1.8). Основная идея М-сглаживания о
В оригинале scores. — Прим. перев.
S.I. Устойчивые методы сглаживания 213
еньшении влияния выбросов в наблюдениях путем использова-
'я неквадратичной функции потерь в C.1.8). Хорошо известным
Иимером (см. (Huber, 1981)) такой функции потерь с "облегчен-
] |МИ хвостами" является
,(„) = ((J/.2)' /<п 2 если М * с; F.1.3)
^v ' \ с\и\ - A/2)с2, если |и| > с. v '
Достоянная с регулирует степень устойчивости. Для больших ве-
ветчин с получается обычная квадратичная функция потерь. Для
алых величин (с « одно-два стандартных отклонений ошибки на-
наблюдения) достигается большая степень робастности.
В работе Сох A983) определена сплайн-оценка М-типа для зада-
задали сглаживания сплайнами:
. _ - ... . (б-1-4)
I »=1
-де, как и ранее, р — функция потерь с "облегченными" хвостами
по сравнению с квадратичной. Близкие методы М-сглаживания
'ыли рассмотрены в работах Хубера (Huber, 1979), Немировского,
Ъляка и Цыбакова (Nemirovskii, Polyak and Tsybakov, 1983, 1985)
Сильвермана (Silverman, 1985).
Ядерные сглаживатели могут быть сделаны устойчивыми с помо-
помощью тех же подходов. Предположим, что условное распределение
'[]*) симметрично. Это предположение обеспечивает оценивание
кетой же условной средней кривой т{х). Определим робастный
верный М-сглаживатель rhjf(x) как
Г А 1
argmin < п > Whi(x)p(Yi - в) > , F.1.5)
• I tei J
44 ^fci (*)}?-! — последовательность положительных ядерных ве-
в Дифференцируя F.1.5) по в и обозначая ф = /)', получаем
F.1.6)
дольку ядерный М-сглаживатель определен полностью, перей-
lr K Рассмотрению итеративных численных методов. Быстрый
°Ритм, основанный на быстром преобразовании Фурье и "одно-
•j Ов°й* аппроксимации rhjf, представлен в работе (Hardle, 1987a).
ifiht°Koe Р^нообР83116 возможных ^-функций дает состоятельные
: rhff(x). (Состоятельность следует из рассуждений, из-
в книге (Huber, 1981, гл. 3).) Заметим, что в частном
линейной функции ф(и) = и получается обычная ядерная
214 б. Данные с большими выбросами
оценка mh(x). Чтобы понять, каким образом происходит обработ
данных при М-сглаживании, определим ненаблюдаемые псевдоц *
блюдения
где
Следующие теоремы могут быть получены с помощью мето-
дов, приведенных в работах Цыбакова (Tsybakov, 1982a) и (Hardle
1984b).
Теорема 6.1.1. Пусть m^f(x) — М-оценка, вычисленная по вы-
выборке {(Xi9Yi)}^sslt и пусть rhh(x) — обычная ядерная оцен-
ка, сформированная по псевдоданным {(Х{,У*)}"-!,* тогк
y/nh(mh(x) — т(х)) и y/nh(rhff (х) — m(x)) имеют одинаковое асим-
асимптотически нормальное распределение со средним, как в D-2.1),
и асимптотической дисперсией
у ,, к) - *к Е(ФЧе)\Х = х)
Этот результат заслуживает некоторого обсуждения. Во-первых
он показывает, что ядерные М-сглаживатели могут интерпре
тироваться как обычные ядерные сглаживатели, примененные
к ненаблюдаемым псевдоданным с преобразованными ошибками
xl>{ei)/q(Xi). Это проливает свет на то, каким образом достигает
ся устойчивость М-сглаживателей: "экстремальные" ошибки на
блюдения ?,• "подавляются" посредством нелинейной ограниченной
функции ^(?t)/g(Xt). Во-вторых, теорема 6.1.1 показывает, что
смещение обычной ядерной оценки такое же, как и для ядерной до*
оценки. Нелинейное определение m^f(x) не влияет на (асимптоти
ческие) свойства смещения. В-третьих, выражение асимптотиче-
асимптотической дисперсии Vx(xl>j К) как произведения cK/f(x) и Е(ф2(е)\Х "
x)/q2(x) позволяет просто оптимизировать Ух(ф,К) раздельной
фи К.
Первая из этих двух задач оптимизации была решена в разд. *
Используя классическую теорию М-оценок параметра сдвига, м° ^
но рассмотреть вторую задачу аналогично тому, как это слелг\,
в книге (Huber, 1981, гл. 4), где применяется довольно
метод оптимизации; отсылаем читателя к стандартной л к . ^
по робастному оцениванию. Оптимизация параметра сглажива
обсуждается в работе (Hardle, 1984с) и в недавней статье (Ьеи
1988). Оба автора рассматривают прямой аналог кросс-про0еР^с
а именно формируют робастные сглаживатели с пропуском ofiP
наблюдения, а затем поступают так же, как описано в разд- ^
6.1. Устойчивые методы сглаживания
15.0
8.75 -
215
-3.75 -
-10.0
137.75
274.5
411.25
54&0
Рис. 6.3. Спектр Рамана с двумя одиночными острыми пи-
пиками. Из (Hardle and Gasser, 1984) с разрешения Королевско-
Королевского статистического общества.
Возникает естественный вопрос, сколько мы выигрываем или
проигрываем в асимптотической точности при использовании М-
сглаживателя? Смещение такое же, как для ядерного сглажива-
теля. Таким образом, сравнение обычного и устойчивого методов
сводится к изучению отношения асимптотических дисперсий
Е{ф\е)\Х = *)/«>(*)'
F.1.7)
ядерной оценки Надарая — Ватсона и ядерной М-оценки (осно-
(основанной на ядерных весах). Но эта относительная эффективность
F.1.7) такая же, что и для оценок параметра сдвига. Поэтому от-
отсылаем читателя к литературе по робастному оцениванию (см., на-
пРимер, (Huber, 1981)).
В качестве примера хотелось бы привести задачу сглаживания
Из физической химии. Важным инструментом исследования в этой
власти являются спектры Рамана. Возникает задача определения
Сложения и величины пиков и впадин спектральной полосы; см.
Работы (Hillig and Morris, 1982) и (Bussian and Hardle, 1984). К со-
солению, небольшой инструментальный шум и определенная доля
^Ума наблюдения, вызванного случайными внешними источника-
Ми> смазывают наблюдения. Ошибки последнего типа приводят к
Ь1сокочастотным сигналам, или к вспениванию выборки, и поро-
порождают острые пики, как показано на рис. б.З.
Результат оценивания с помощью обычного ядерного сглажива-
ejIi* Надарая — Ватсона rhh(x) представлен на рис. 6.4.
216 6. Данные с большими выбросами
М
137.75
274.5
411.25
5W.0
Рис. 6.4. Ядерная оценка mh(x), вычисленная по данным
спектра рис. 6.3, h = 9, K(u) = C/4)A - «2)/(|«| < 1). Из
(Hardle and Gasser, 1984) с разрешения Королевского стати-
статистического общества.
Очевидно, одиночные острые всплески привели к появлению
ложных соседних пиков. Противоположный этому результат при-
применения устойчивого метода ядерного сглаживания показан на
рис. 6.5.
Очевидно, что влияние выбросов уменьшилось. Используя ме-
методы, представленные в разд. 4.3, можно построить равномерные
1.0 137.75 274.5 411.25 548.0
Рис. 6.5. Устойчивая ядерная Af-оценка mj^(x), выч
ная по данным спектра рис. 6.3, h = 9, с = 0.9, К(и)
C/4)A - «2)/(|«| < 1). Из (Hardle and Gasser, 1984) с
шения Королевского статистического общества.
6.1. Устойчивые методы сглаживания 217
О 0.2 ОЛ 0.6 0.8 1.0
Рис. 6.6. Ядерная Af-оценка с равномерными доверитель-
доверительными интервалами и ядерная оценка mh(x). Исходные дан-
данные показаны на рис. 6.1. Из (Hardle, 1989).
доверительные интервалы, основанные на асимптотической теории
экстремальных значений8'; см. (Hardle, 1987b). На рис. 6.6 показа-
показаны ядерная М-оценка rh^f вместе с равномерными доверительными
интервалами, а также ядерная оценка Надарая — Ватсона rhh для
данных, представленных на рис. 6.1.
Результаты по оптимальной равномерной скорости сходимости
(см. разд. 4.1) для ядерных М-сглаживателей были получены в
(Hardle and Luckhaus, 1984). В контексте временных рядов робаст-
ное оценивание и предсказание обсуждали (Velleman, 1977, 1980),
(Mallows, 1980) и (Hardle and Tuan, 1986). Робастное непараметри-
непараметрическое предсказание временных рядов М-сглаживателями изуча-
изучаюсь в работах (Robinson, 1984, 1987b), (Collomb and Hardle, 1986)
и (Hardle, 1986c). Робастные ядерные сглаживатели, предназна-
предназначенные для оценивания производных, исследовались в (Hardle and
Nasser, 1985) и (Цыбаков, 1986).
^иражнения
"•1.1. Найдите условия, при которых L-сглаживатели, опреде-
определенные в F.1.1), порождают состоятельные оценки кривой
регрессии.
оригинале asymptotic extreme value theory. — Прим. перев.
218 6. Данные с большими выбросами
6.1.2. Найдите условия, при которых Д-сглаживатели, рд^
ленные в F.1.2), обеспечивают асимптотическую сходц,
мость оценок к истинной кривой регрессии.
6.1.3. Будет ли в общем случае L-сглаживатель F.1.1) порождать
более гладкую кривую, чем текущая медиана?
6.1.4. Постройте быстрый алгоритм для L-сглаживателей F.1.1)
Основываясь на идеях эффективного сглаживания теку.
щей медианой (см. разд. 3.5), найдите такой способ вычи-
вычисления текущей медианы, который требует О(п log к) шагов
(Jk — число соседей).
6.1.5. Докажите состоятельность М-сглаживателя F.1.4) для мо-
монотонных ^-функций.
[Указание: следуйте схеме доказательства из книги (Huber
1981, гл. 3).]
6.1.6. Можно ли обобщить доказательство упражнения 6.1.5 на
немонотонные функции ф типа функции Хэмпеля "с тремя
участками монотонности" 9)?
Дополнения
Для того чтобы сделать ядерную оценку М-типа инвариантной
относительно преобразования масштаба, ее следует объединить с
оценкой масштаба. Это объединение можно сделать путем одно-
одновременного оценивания кривых регрессии и масштаба. Для реали-
реализации этой идеи предположим, что
f(y\x) = A/<г(*))/о((у - т(х))/<т(х)), х € Ш.",
с неизвестными /0, кривой регрессии тп(х) и кривой масштаба <т(х).
Положим теперь
и
х(«) = (у>(«)« -1).
Определим также для v G Ш, w Е Щ+ и фиксированного х € П1
T^w) = Jф (^) dF(y\x), F.1.8)
T2(v,w) = JX (^) dF(y\x). F.1.9)
В оригинале HampePs "three part redescender". — Прим. перев.
6.1. Устойчивые методы сглаживания 219
Кривые (ш(ж),(т(х)) по определению удовлетворяют уравнениям
На практике функция F(-\x) неизвестна и, следовательно, невоз-
невозможно вычислить Тх или Т2. Воспользуемся подходом, состоящим в
замене условной функции распределения F(-\x) ее оценкой Fn(-\x),
и для получений желаемых свойств робастности предположим, что
функции ф и х ограничены. В книге (Huber, 1981, гл. 6.4) приве-
приведены примеры функций ф и х- Один из них следующий:
ф(и) = min(c, max(—с, ti)), с > О,
где 0 = Ефф2(и), а через Ф обозначено стандартное нормальное
распределение. Для нормальной модели можно показать состоя-
состоятельность оценки масштаба: в предположении, что ошибка име-
имеет стандартное нормальное распределение, функции ф(и) = и и
х(и) = ф2(и) — /3 = «2 — 1 дают условное среднее и условное
стандартное отклонение в качестве кривых регрессии т(х) и мас-
масштаба <г(х) соответственно. Параметр /? фактически играет роль
нормирующей константы: при необходимости "интерпретировать"
кривую масштаба относительно некоторого другого распределения
G, отличного от нормального распределения Ф, можно положить
о
Функции 7\ и Т2 можно оценивать с использованием ядерных
весов Надарая — Ватсона {И^|-(л?)}?=1 (как в C.1.1)):
flh(v, и,) = г» ? WhiW (^A , F.1.10)
= г, ?
T2h(v,w) = г,
Назовем совместное решение уравнений Txh(y,w) = Т2Л(г>, u;) = 0
устойчивой оценкой кривых регрессии и масштаба (т^(ж),
?д*(аг)). Состоятельность и асимптотическая нормальность этого
метода сглаживания были показаны в работе (Hardle and Tsybakov,
1988) в предположениях регулярности ядра и функций {т{х), <т(х)).
Оптимизация параметра сглаживания для этой процедуры рассма-
рассматривалась Цыбаковым10).
^ В списке литературы оригинала эта -ссылка отсутствует. Име-
Имеется в виду статья: Цыбаков А. Б. О выборе ширины окна в
ядерной непараметрической регрессии, Теория вероятностей и
ее применения, 1987, т. 32, N 1, с. 153-159. — Прим. перев.
ГЛАВА 7
Методы непараметрической
регрессии для коррелированных
данных
"Хорошо известно, что наилучшим предиктором для t/n+,
является условное математическое ожидание переменной
уп+/ при фиксированном прошлом zn,zn_lf... . Более того,
если (zt) — стационарный гауссовский процесс, это услов-
условное математическое ожидание принимает вид скользящего
среднего. В случае негауссовского процесса (zt) возникает
вопрос о том, как выглядит условное математическое ожи-
ожидание #(уп+||*п>*п_!,...) ."
X. Биренс A988)
Статистические свойства методов сглаживания регрессии были
изучены в основном для случая "наблюдений н.о.р.-структуры".
Предположение, что пары {(Х,-,У^)}^=1 образуют независимую вы-
выборку из неизвестного распределения, на практике зачастую может
быть обосновано и приводит к техническим упрощениям. Так, в
примере с данными о расходах, в котором наблюдения собирались
о вполне реальных выборках населения, предположения о незави-
независимости и постоянстве распределения представляются законными.
Однако существуют практические ситуации, в которых предпо-
предположения о независимости наблюдений (X1,Y1I(X2)У2),... не со-
соответствуют действительности. В частности если последователь-
последовательность данных получена с одного изучаемого объекта, то скорее все-
всего отклик объекта будет зависеть от предыдущего значения. Такая
структура зависимости может моделироваться различными спосо-
способами. Мы сосредоточим внимание на следующих трех математиче-
математических понятиях, для которых существует обширная литература.
7.1. Непараметрическое предсказание 221
(S) Наблюдается стационарная последовательность
{(t,^),i > 1}, которая может быть стохастически зависимой, и
требуется оценить m(x) = E(Y\X = х).
Модель (Т) Наблюдается временной ряд {Ziyi > 1}, а инте-
интерес представляет предсказание ?п+1 с помощью значения т(х) =
E(Zn+x\Zn = *). •
Модель (С) Ошибки наблюдения {ein} в модели регрессии с фик-
фиксированным планом эксперимента
образуют последовательность коррелированных случайных вели-
величин1).
В разд. 7.1 представлены первая модель (S) и идея сведения вто-
второй модели (Т) к первой. Приведены результаты по оптимально-
оптимальному непараметрическому предсказанию. Эти методы предсказания
применяются к временному ряду цен на золото. Разд. 7.2 посвящен
третьей модели (С), в которой предполагается только то, что ошиб-
ошибки наблюдения образуют коррелированную последовательность.
7.1. Непараметрическое предсказание временных
рядов
Задача непараметрического сглаживания изучалась при различ-
различных условиях перемешивания процесса наблюдения (см., напри-
например, (Collomb, 1985a, 1985b)). Одно из таких предположений в
рамках модели (S) состоит в том, что {(^i,^)}?=i является <р-
перемешанным процессом. Процесс {(XiyУ{),{ > 1} называется
^-перемешанным (равномерно перемешанным) (Billingsley, 1968),
если для бесконечно малой последовательности {<рк} неравенство
\Р(АПВ)-Р(А)Р{В)\<ПР(А)
справедливо для всех п > 1, к > 1 и любых множеств А из
любых множеств В из
Обозначение этих моделей буквами S, Т и С происходит от ключе-
ключевых слов Stationary sequence, Time series и Correlated random variables
соответственно. — Прим. nepee.
222 7. Методы яел араметри ческой регрессии
Другое условие — условие а-перемешивания или сильного пере,
мешивания — является более слабым, чем условие ^перемешива-
^перемешивания. Говорят, что последовательность является or-перемешанной
если для некоторой бесконечно малой последовательности {а^}
справедливо неравенство
sup \Р(А ПВ)- Р(А)Р(В)\ < ак
для всех n > l,Jb > 1.
Задача (Т) предсказания на один шаг для одномерных времен-
временных рядов может быть сведена к задаче с моделью первого типа.
Обозначим для стационарного временного ряда {Z^i > 1} задер-
задержанное значение Zi_1 через Х{ и представим Z{ как Y{. Тогда зада-
задачу предсказания Zn+1 по {^}"=1 можно рассматривать как задачу
сглаживания регрессии для {(Xif V^)}JL2 = {(^.1,2,-)}?=2- Очевид-
но если {Z+'yi > 1} удовлетворяет условию ^-перемешивания, то
{(Л,-,!^)} также удовлетворяет этому условию.
В работе (Doukhan and Ghindes, 1980) проведено, например, ис-
исследование процесса нелинейной авторегрессии Z{ = m(Zi_1) -he,.
В ней показано, что если m является ограниченной непрерыв-
непрерывной функцией, а случайные ошибки {?,} независимы и одина-
одинаково распределены на конечном носителе, то последовательность
(Х{,У{) = (ZiyZi+1) является ^-перемешанной. Таким образом, за-
задача предсказания для временного ряда {?,} совпадает с задачей
оценивания тп(х) = E(Y\X = x) для двумерного временного ря-
ряда {(A'i,YJ)}JL1. Подробности относительно процесса нелинейной
авторегрессии см. в (Gyorfi et al., 1989).
Яковиц (Yakowitz, 1987) рассмотрел Jk- N TV-предсказание (с рав-
равномерными весами) стационарной марковской последовательности
и провел сравнение непараметрических предсказателей с параме-
параметрическими предсказателями ARMA-моделей. Он показал, что
в предположениях, аналогичных условиям теоремы 4.2.1, k-NN-
сглаживатель в этой задаче предсказания при к ~ п4/5 обладает
следующим свойством:
Е(тк(х) - т(х)J = О (п~4/5).
Это соответствует результатам для случая н.о.р. ошибок, в част-
частности скоростям, приведенным в табл. 3.2.1. Кроме того, отсюда
видно, что в рассматриваемой постановке Jb-AW-оцениватель Д°"
стигает оптимальной скорости сходимости (разд. 4.1).
В работах (Yakowitz, 1985a, 1985b) ik-ЛГЛГ-предсказатель приме-
применяется для задачи оповещения о разливах рек. На рис. 7.1 приве-
приведено сравнение прогноза Zn+X для двух параметрических моделей
(Sacramento и ARMAX) и для непараметрического предсказателя.
7.1. Непараметрическое предсказание
223
640
320
160
0
640
480
S 320-
i
Я 160
Сакраменто
предсказанный
— истинный
IL.AJtil
ARMAX
\А
,a, АД А
640
480
320
180
K-NN
- 1
ji
Z0
40 60
Время t t
SO
100
Рис. 7.1. Измерения расхода воды в реках. Из (Yakowitz,
1987) с разрешения Basil Blackwell Ltd.
Автор приходит к выводу, что непараметричекий метод в целом
Урождает примерно ту же кривую прогноза, что и два параме-
параметрических подхода, но лучше моделирует уровни пиковых потоков.
Подробное обсуждение задачи о разливах рек может быть найдено
в Указанных выше ссылках.
Другой метод предсказания будущих значений У основан на
Функции моды (в предположении ее однозначности)
m(x) = argmax[/B/|*)],
у
224 7. Методы непараметрической регрессии
где f(y\x) — условная плотность У при фиксированном X. В работ
(Collomb, Наг die and Hassan i, 1987) построена оценка f(y\x) по n *
следовательности ^-перемешанных наблюдений. При этом исполь
зуется ядерная оценка для /п(у|х), определяющая эмпирически*
предсказатель моды как максимум fn(y\x) по у Е ГО,, и показыва-
ется равномерная (по х) сходимость этой оценки к функции моды
В работе (Truong and Stone, 1987b) рассмотрен метод пред^
сказания, основанный на локально медианном сглаживании и на
ядерном сглаживании при условии а-перемешивания. В ста-
статьях (Robinson, 1983), а также (Singh and Ullah, 1985) показана
сильная состоятельность и асимптотическая нормальность для с*.
перемешанных наблюдений.
В работах (Bierens, 1983, 1987) и (Collomb and Hardle, 1986) для
случая ^перемешивания рассматривался ядерный предсказатель
Надарая — Ватсона
G.1.1)
«-1 ?**(*-*<)
и получена равномерная состоятельность этого предсказателя и его
робастные варианты. Для результатов по равномерной состоятель-
состоятельности использовалось обобщение неравенства Бернштейна для <р-
перемешанных наблюдений, как в работе (Collomb, 1984).
Как найти параметр сглаживания в G.1.1), обеспечивающий ми-
минимум асимптотического выражения ASE
В работе (Hardle and Vieu, 1987) показана работоспособность метода
пропуска также и для уьперемешанных наблюдений. Определим,
как и в разд. 5.1, оценку метода пропуска
и функцию кросс-проверки
CV(h) = n-1 f^iYt - mA,(^)J w(Xf).
1 = 1
Теорема 7.1.1. Допустим, что в дополнение к предположени-
предположениям теоремы 5.1.1 процесс (Х,-,У|) экспоненциально (р-перемешан,
т. е. (рк = с*А*,А < 1. Тогда величина h, минимизирующая CV{p)
7.1. Непараметрическое предсказание
60
225
Рис. 7.2. Функция кросс-проверки как функция ширины
окна.
по дискретному набору значений ширины окна h ~ п"/5, мини-
минимизирует асимптотическое выражение ASE, т. е.
1.
MhdA(h)
Заметим, что теорема 7.1.1 использует более слабое понятие
асимптотической оптимальности. Кривая кросс-проверки для мо-
модельного процесса показана на рис. 7.2. Временной ряд для этого
примера генерировался вхоответствии с моделью (Т) по уравнению
с независимыми {^}?=1> п = 100, равномерно распределенными на
1-1, 1]. Начальное значение Zx генерировалось путем предваритель-
предварительной прогонки процесса с Z_l0Q до Zx.
Ширина окна, минимизирующая эту функцию, равна Л = 0.55, а
соответствующая ей кривая предсказания изображена на рис. 7.3.
В качестве приложения модели (Т) рассмотрим непараметри-
1еское предсказание цены золота. Проиллюстрируем этот метод
пРедсказания на примере временного ряда цены золота, любезно
Недоставленного Д. Зондерманом (D. Sondermann). На рис. 7.4 по-
«азан временной ряд {Z{} цены золота (в DM) с 1978 по 1985 г. как
v*,,Yj.) = (Zimml9Zi). Так как данные выглядят достаточно гете-
Роскедастичными, имеет смысл откладывать значения переменных
226 7. Методы непараметрической регрессии
|М II I MM , I 1 •
1ч-
4-
~ |
++
ч-
+
+
+
i i i ir
+
+
1 1
+ +
ч-
ч-
Ч- +
ч-
ч+
ч-
1 1 1 1
ч-
ч-
ч-
ч-
ч-
1 1 1
¦+
Ч-+
ч-
1 1
у.
V
+
, 1
+ +
+ ' Ч-+
+ч-
1 1 1 1' 1
ч-
>—7—-
ч-
1 1 1 1 1 1 1 1 1
. 2
ч-
1 1 1
1
1
-т
-г
-г
Рис. 7.3. Истинная кривая регрессии (спошная линия 1) и
ее оценка (штриховая линия 2) при ширине окна, миними-
минимизирующей CV-фунцию (рис. 7.2), а также исходные данные.
по обеим осям в логарифмическом масштабе, чтобы стабилизиро-
стабилизировать дисперсию. Функция кросс-проверки для данных в логариф-
логарифмическом масштабе показывает наличие явно выраженного мини-
минимума при h = 0.03 для ядра Бпанечникова. Подробности см. в
(Hardle and Vieu, 1989). Кросс-проверочная ширина окна показа-
показана на рис. 7.5, который демонстрирует существенно нелинейную
кривую предсказания, отличную от глобального линейного пред-
предсказания.
7.2. Сглаживание при зависимых ошибках
В этом разделе рассматривается модель (С), т. е. модель с фикси-
фиксированным планом эксперимента
при коррелированных ошибках {ein}. Для того чтобы дать
ставление о том, каким образом методы, разработанные для случаЯ
н.о.р. ошибок, распространяются на задачу сглаживания с корр6"
лированными ошибками, рассмотрим рис. 7.6. На нем изображены
точки исходных данных, соединенные отрезками прямых, а так-
также кривая регрессии для ошибок {ein} двух различных структур
7.2. Сглаживание при зависимых ошибках
800
227
0 200
Рис. 7.4. Данные о цене золота. Точечный график зависи-
зависимости цены золота завтрашнего дня У = 2Ti+1 = от цены
золота текущего дня X = Z{; = (обе цены даны в DM). Из
(Hardle and Vieu, 1989).
Левый график относится к случаю н.о.р. ошибок, а правый — к
авторегрессионным ошибкам.
Для обоих наборов данных вычислялась ядерная оценка с ис-
использованием кросс-проверки. Результат представлен на рис. 7.7.
Очевидно, что кросс-проверка приводит к сильно заниженной ши-
Рине окна из-за того, что этот метод интерпретирует корреляцию
ошибок как часть кривой регрессии. (Если бы мы попытались сгла-
сглаживать "на глазок", мы, вероятно, тоже произвели бы слабое сгла-
сглаживание.)
Проводимый здесь асимптотический анализ модели (С) следует
Работе (Hart and Wehrly, 1986). Как и в работе (Azzalini, 1984), там
пРеДполагается, что мы имеем набор временных рядов
Интерпретация состоит в том, что при каждом Х{ мы имеем N
Различных экспериментальных блоков. Допустим, что данные в
^м блоке коррелируют между собой, но выборки для различных
Кспериментальных блоков независимы. Формально, ошибки e^s
^Дполагаются несмещенными случайными величинами, удовле-
^Ряющими условию
если j =
если j Ф
228
7. Методы непар&метрической регрессии
0.050
0.025
0
-01025
-0050
:
: л 1
\Н
' Л 1 1 1 1 1
УМ
1
...1.1...
6
1111
7
Рис. 7.5. Кривая цены золота. График предсказанной зав-
завтрашней цены и цены текущего дня rnh(x) — х, h = 0.03 для
набора данных о цене золота при ширине окна, минимизи-
минимизирующей CF-критерий. Ядро К(и) = 0.75A - ti2)/(|t*| < 1). Из
(Hardle and Vieu, 1989).
Предположим также, что корреляционная функция р четная,
/>@) = 1, и \р(и)\ < 1 для всех и в [-1,1].
Задача оценивания m основана на усредненных откликах
N
Теперь, записывая модель в виде
обнаруживаем очевидную связь с анализом случая независимы^
случайных ошибок. Фактически, усредненные случайные ошибки
?|# удовлетворяют условию
cov(?<#,?t.) = (<r2/N) p (X{ - Xk). G.2.D
Задача оценивания m сводится теперь к задаче аппроксимаЯ*11*
кривой регрессии по усредненной выборке. Сглаживатель, исполЬ'
зованный в работе (Hart and Wehrly, 1986), представляет собой яДеР'
Сглаживание при зависимых ошибках
229
0.Z
-з-
Ис> 7.6. Исходные данные и функция среднего т(х) =
с°8C.15т), <т2 = 1. Рис. 7.6(а) соответствует н.о.р. нормаль-
^м ошибкам с дисперсией 1, а рис. 7.б(Ь) — коррелиро
8анным нормальным ошибкам, образующим процесс авто-
регРессии с р = 1. Из (Altman, 1988) с разрешения автора.
230
7. Методы непараметрической регрессии
0.2
0Л
0.6
0.8
Рис. 7.7. Сглаженные кривые рис. 7.6. Параметр сглажйра'
ния выбирался методом кросс-проверки. Из (Altman, 1988) с
разрешения автора.
7.2. Сглаживание при зависимых ошибках 231
ный метод, примененный к {Y<#}?-i с весами
гд0 iit t+Jfa n
Следующее предложение показывает, что ядерные оценки при
коррелированных ошибках не являются состоятельными для т(ж),
если число экспериментальных блоков N не стремится к бесконеч-
бесконечности при каждом Х{.
Предложение 7.2.1. Если т дважды дифференцируема, а функ-
функция р Липшицев а, то MSE оценки
равна
l i
E(rhh(x) - т(х)J » (<r2/N) f f p(h(u - v))K(u)K(v) du dv
—[m (j:)J d^, G.2.2)
n —> oo, TV —* oo, Л —> 0, пЛ —> oo.
Этот результат непосредственно следует из G.2.1) и из разложе-
разложения смещения, представленного в разд. 3.1. Теперь важно выяс-
выяснить, как изменится выбор ширины окна при возможной корреля-
корреляции ошибок {?fn}?=i- Точный ответ дан в теореме 4 работы (Hart
and Wehrly, 1986).
Теорема 7.2.2. Допустим, что р дважды дифференцируема, и
{N/n) = оA). Тогда асимптотическое представление MSE G.2.2)
°Ценки mh(x) равно
Е(т„(х) - m(z)J « (<г2/Л0A + *V'@) dK)
+ у \m"{x)f d\. G.2.3)
Эта теорема показывает, что оптимальный выбор ширины окна
вЬ1ражается формулой
_ f
*KWP/ '
232 7. Методы неплраметри ческой регрессии
138
133
128
^ 123
<5Г 118
113
108
103
8
10
12
Рис. 7.8. Две оценки для данных о соли лимонной кисло-
кислоты. Жирные точки обозначают Уг — средние по экспери-
экспериментальным блокам отклики. Штриховая линия — ядерная
оценка, использующая оценку оптимальной ширины окна в
предположении некоррелированности наблюдений. Сплош-
Сплошная линия — ядерная оценка с использованием оценки опти-
оптимальной ширины окна, допускающей корреляцию ошибок.
Из (Hart and Wehrly, 1986) с разрешение Американской ста-
статистической ассоциации.
что соответствует минимуму G.2.3) как функции N. Можно срав-
сравнить эту ширину окна с "оптимальной" шириной окна в случае
независимых наблюдений:
(см. разд. 5.1). Сравнение h^ и Луу показывает, что неравенство
"N < "n' невозможно при достаточно больших п и N. Однако,
если п мало, а корреляция соседних ошибок велика (т. е. р "плос-
"плоская" в окрестности нуля), неравенство может измениться на пр°"
тивоположное. На рис. 7.8 показана ядерная оценка rhh(x) Мя
данных о соли лимонной кислоты, использующая ширину окна в
предположении некоррелированности и коррелированности наблк^
дений соответственно. -
Ширина окна определялась посредством минимизации сред**е
усредненной квадратичной ошибки dM. В предположении незав
симости ошибок мера точности dM может аппроксимироваться т»
же, как в гл. 5. Для случая коррелированных наблюдений сле^
оценивать неизвестную корреляционную функцию р, присутс?0У
7.2. Сглаживание при зависимых ошибках
233
7.0
6.0
5.0
I40
| 3.0
-to
1.0
I
J_
I
I
I
1.0 2.0 3.0 4.0 5.0 6.0
7.0
Рис. 7.9. Две кривые CV-функции для данных о соли ли-
лимонной кислоты. Пунктирная линия вычислялась в предпо-
предположении некоррелированности наблюдений. Сплошная ли-
линия получена с учетом возможной корреляции наблюдений,
соответствующих разным точкам Хх. Из (Hart and Wehrly,
1986) с разрешения Американской статистической ассоциа-
ассоциации.
ющую в G.2.3). Можно использовать каноническую оценку
где
Две оцененные кривые dM представлены на рис. 7.9.
Ширина окна, которая должна быть выбрана для случая зависи-
Mbix наблюдений, несколько меньше, чем для независимых ошибок.
Итак, если есть причина для уверенности в том, что данные кор-
Релированы, рекомендуется построить графики двух таких оценок
точности для того, чтобы увидеть, как изменяется картина при
Учете коррелированности ошибок.
^"Ражнения
Выведите формулу G.2.1).
Получите точные условия, необходимые для доказатель-
доказательства разложения MSE G.2.2).
234 7. Методы непараметрической регрессии
7.2.3. Докажите формулу G.2.3). Почему неравенство Л^ > />B)
продолжает сохраняться при стремлении N и п к беско.
нечности?
Дополнения
Другой подход к моделированию зависимости в непараметрической
регрессии состоит в предположении, что кривая регрессии являет-
является в некотором асимптотическом смысле константой, погружен-
погруженной во временной ряд с фиксированной структурой зависимости.
Фактически эта концепция может трактоваться как использова-
использование модели, в которой ошибки наблюдения становятся все менее
зависимыми с ростом п до бесконечности. Более точно, если пред-
предполагается, что {ein} выбраны из непрерывного процесса V(t) c
убывающей корреляционной функцией, причем
где {<,} — точки дискретизации, а сп — бесконечно малая после-
последовательность, то ошибки {ein} становятся асимптотически менее
зависимыми.
В рамках этого подхода можно показать, что ядерные оценки
и их соответствующие робастные версии (ядерные М-оценки) схо-
сходятся к истинной функции регрессии и асимптотически нормаль-
нормальны с тем же смещением, что и в случае независимых ошибок. Асим-
Асимптотическая дисперсия в этом случае зависит также от ковариации
шумового процесса (Hardle and Tuan, 1986).
ГЛАВА 8
Поиск специальных
характеристик и качественное
сглаживание
"Многие экономисты без всякой критики принимают со-
соответствие функциональной форме, исходя из условности
и удобства; другие стремятся опробовать различные фор-
формы для описания своих соотношений, но останавливаются
на одной из них, которая в некотором смысле «выглядит
наилучшей» апостериори."
К. Хилдрет A954, с. 600)
Часто интересуются не только самой кривой, но также специальны-
специальными Качественными характеристиками. Функция регрессии может,
например, ограничиваться простыми характеристиками формы, и
желательно, чтобы оценка имела бы те же качественные характе-
характеристики. Довольно общей характеристикой формы является моно-
монотонность или унимодальность соотношения между предикторной
переменной и переменной отклика. Это априорное знание каче-
качественной формы кривой должно быть встроено в метод оценивания.
Учет таких качественных характеристик не обязательно приводит
к улучшению скорости сходимости, но помогает экспериментатору
в интерпретации полученных кривых.
В экономических приложениях, включающих спрос, поставки и
Цены, обычными являются функции с предписанной заранее фор-
м°й (монотонность, выпуклость и т. д.). В работе (Lipsey, Sparks
and Steiner, 1976, гл. 5) представлены различные выпуклые кривые
бывающего спроса и выпуклые кривые поставки (в обоих случаях
Усматривается цена как функция качества). Там же приводит-
Ся пример величины спроса как функции дохода хозяйства. Бо-
ее сложная процедура может быть применена к кривой Энгеля
в примере с картофелем, представленным на рис. 1.2. Непараме-
тРическое приближение показывает наличие участков частичного
236 8. Поиск характеристик и "сглаживание
роста и убывания. Эту кривую можно оценить посредством метода
унимодальной регрессии.
Другая качественная характеристика аппроксимации регрессии
состоит в расположении нулей и экстремумов. Часто они даю-j
грубое представление о кривой регрессии. Опыт, основанный на
учете таких характеристик, может непосредственно указывать на
некоторые свойства самой кривой, а информация, которую они со-
содержат, может быть достаточной для установления разумной па-
параметрической модели.
В данной главе мы обсудим методы сглаживания при следую-
щих качественных ограничениях: монотонность и унимодальность
(разд. 8.1). Оценивание нулей и полюсов представлено в разд. 8.2.
Более сложные процедуры учета ограничения формы, например
выпуклое (вогнутое) сглаживание, рассмотрены в работах (Hanson
and Pledger, 1976), а также (Wright and Wegman, 1980).
8.1. Монотонное и унимодальное сглаживание
Задача монотонного сглаживания по набору {(-У,-,У*)}?=1 Двумер-
Двумерных данных может быть формализована следующим образом. Сор-
Сортируем данные {{X^Y^}^ по X, получаем {(Хф, Уф)}?=1. Нахо-
Находим {m(^(»))}?=i> минимизируя n" ?"=1(Уф-т(Хф)J при огра-
ограничениях МОНОТОННОСТИ
Такое решение существует и может быть получено с помощью ал-
алгоритма замени соседних нарушителей1^ (Barlow et al., 1972, с. 13;
Hanson, Pledger and Wright, 1973). Алгоритм замены (начиная сле-
слева) соседних нарушителей формально может быть описан следую-
следующим образом.
Алгоритм замены соседних нарушителей
( Р AV-алгоритм )
Алгоритм 8.1.1
ШАГ 1.
Начиная с Y,xy движемся вправо и останавливаемся
пара (Уф, ?(,-+!)) нарушает условие монотонности, т. е. если
ф ()
> У(|+1)« Меняем Уф и следующую величину У($+1) **
В оригинале Pool Adjacent Violators algorithm, или PAV-алгорятМ-
Прим, перев.
8.1. Монотонное и унимодальное сглаживание 237
их среднее:
ШАГ 2.
Затем проверяем выполнение неравенства V(t_i) < У(*\-
Бели оно не выполняется, заменяем {^-1)>Ут>У(|+1)} на
их среднее. Продолжаем движение влево до тех пор, по-
пока не будут выполнены требования монотонности. Затем
продолжаем движение вправо. В конце получаем решение
Относительно этого решения установлено четыре существенных
факта. Во-первых, если данные уже монотонны, PAV-алгоритм
воспроизводит эти данные. Во-вторых, так как каждое значение
m(X/t\) является средним наблюдений в окрестности Хуу реше-
решение представляет собой ступенчатую функцию, как на рис. 8.1. В-
третьих, при наличии больших выбросов или аномальных данных
PAV-алгоритм будет давать длинные плоские уровни. В-четвертых,
допустим, алгоритм запускается справа с целью получения убыва-
убывающего (если смотреть справа) приближения. Приближения, начи-
начинающиеся слева и справа, различны (см. упражнение 8.1.5). Тре-
Третье свойство решения, касающееся зависимости от больших выбро-
выбросов, может быть изменено за счет предварительного сглаживания
(с помощью робастных методов) с последующим монотонизирова-
монотонизированием2) оценки. С другой стороны, можно сначала применить PAV-
алгоритм, а затем сгладить решение. В работе (Hildenbrand and
Hildenbrand, 1986) первая стратегия применялась для непараметри-
непараметрического оценивания кривых Энгеля. На рис. 8.1 показаны сплайн-
°Ценка и оценка PAV-сглаживания, полученные при оценивании
кРивой Энгеля для расходов на питание как функции дохода.
В противоположность этому подходу в работе (Friedman and
Tibshirani, 1984) предложено производить сглаживание данных на
ПеРвом этапе с последующим поиском монотонной аппроксима-
аппроксимации результата сглаживания. Этот второй алгоритм можно поды-
т°Жить следующим образом. Сначала сглаживаем У на X, т. е.
схРоим оценку т1(Л'/|ч) с кросс-проверочным параметром сглажи-
ания. Далее находим монотонную функцию гп(Х^)} ближайшую
^Cfy), посредством PAV-алгоритма. В работе (Friedman and
i, 1984) приведен пример использования этого алгоритма
° °ригинале isotonizing. Имеется в виду придание желаемого свой-
СТв (монотонности). — Прим. перев.
238
8. Поиск характеристик и сглаживание
Рис. 8.1. Сплайн-оценка по средним точкам ступенчатой
функции PAV-алгоритма. Кривая монотонной регрессии
вычислялась для данных зависимости количества питания
от дохода см. Family Expenditure Survey A968-1983). Из
(Hildenbrand and Hildenbrand, 1986) с разрешения Elsevier
Science Publishers.
для нахождения оптимального преобразования непараметрической
версии процедуры Бокса — Кокса (см. (Box and Cox, 1964)).
В работе (Kelly and Rice, 1988) использовалось монотонное сгла-
сглаживание в аналогичной модели оценки синергизмов. Цель непа*
раметрической процедуры Бокса — Кокса состоит в определении
оценки монотонной зависимости 0() параметра /? в модели
Ее можно достичь, отыскивая функцию <?(•) и оценку Д миними-
минимизирующие
8.1. Монотонное и унимодальное сглаживание 239
при условии
Заметим, что эта процедура является частным случаем PAV-
алгоритма (разд. 10.3) и состоит в нахождении /? для фиксирован-
фиксированного $(•), и наоборот.
Процедура Бокса — Кокса и метод, предложенный в работе
(Kruskal, 1965), представляют собой варианты описанной процеду-
процедуры. Процедура Бокса — Кокса состоит в использовании параме-
параметрического семейства преобразований
если А > °> г в 1 п
если А = 0, {ЬЛЛ)
моделирующего неизвестную функцию 0(). Крускал использовал
монотонную регрессию (посредством PAV-алгЬритма) для оценива-
оценивания #(•). Фридман и Тибширани (Friedman and Tibshirani) приме-
применили непараметрическую процедуру к тем же данным и показа-
показали, что монотонная оценка преобразования 0() оказывается очень
близкой к логарифмическому преобразованию, выбранному в рабо-
работе (Box and Cox, 1964); см. рис. 8.2 в этой главе.
На рис. 8.3 показан результат применения алгоритма Крускал а
вместе с логарифмическим преобразованием. Преобразование, по-
порученное методом Крускала, по построению недостаточно гладкое,
тогда как монотонная оценка свидетельствует о логарифмическом
преобразовании.
Конечно, интересно выяснить, какой метод предпочтительнее и
в какой ситуации. Должны ли мы сначала сглаживать, а затем
м°нотонизировать оценку посредством PAV-алгоритма или следу-
ет сначала применить PAV-алгоритм, а потом сглаживать? Этот
в°прос был изучен в работе (Mammen, 1987) для модели с фиксиро-
Ванным планом эксперимента. Теоретическое сравнение Маммена
^Дробно представлено в дополнениях к данному разделу. Важным
^едствием результатов Маммена является то, что ни один из ме-
ТоДов не оказался лучше другого. Точнее говоря, первоначальное
р°Нотонизирование наблюдений приводит к меньшей дисперсии и
^ль смещению. Метод Фридмана — Тибширани может иметь
значение MSE, но обеспечивающие это условия довольно
ы и зависят от неизвестной функции регрессии.
^аРиантами описанных выше методов являются монотонная ме-
^ и процентильная регрессия. Они исследовались в работах
et al., 1972) и (Casady and Сгуег, 1976). В (Bril et al., 1984)
240 S. Поиск характеристик и сглаживание
г
\
1
0
-1
-z
- i i i i
I '
Оценка
~__ преобразования
ч
i
Г
I I
—г i i | I i
^ 1
Логарифм
. i i I i i
-
-
-
—
. . 1 i i i i I
1000
2000
3000
Рис. 8.2. Монотонная оценка, полученная алгоритмом
Фридмана — Тибширани, и логарифмическое преобразова-
преобразование. Из (Friedman and Tibshirani, 1984) с разрешения Амери-
Американской статистической ассоциации.
представлен алгоритм AS 206, предназначенный для двумерного
монотонного сглаживания.
Задача унимодального сглаживания может быть сведена к моно-
монотонному сглаживанию. Допустим, что ш(х) имеет максимум при
х = а. Это означает, что
1 < Х2 ^
m(xl) ^
и
a
< хх < х2
Тогда функция
/ ч Г 2т(а) - т(х), если х > а,
д{<Х' "" \ т(х), если х < а,
монотонна.
jnviunna. ^q,
(Задача аи-образной регрессии" может быть определена »н ^
гичным образом посредством сглаживания — д(х).) ВозмоЯ^и
способ нахождения унимодальной оценки состоит в отражений
8.1. Монотонное и унимодальное сглаживание
241
" Оценка
-преобразования
1000
2000
3000
Рис. 8.3. Результат использования алгоритма Крускала и
логарифмическое преобразование. Из (Friedman and Tibsh-
irani, 1984) с разрешения Американской статистической ас-
ассоциации.
блюдений в предполагаемых точках максимума и последующем на-
х°ждении монотонной оценки частично отраженных данных.
Более формально, задача унимодальной регрессии состоит в на-
Хо*дении оценки, минимизирующей п'1 ]?? .(У/.-ч - m(X(i,)J при
ЛеДУющих ограничениях: ( } (°
< XU)
rh(X(i)) >
некоторого к.
Работе (Frisen and Goteborg, 1980) предложено трактовать
дачКС * как паРаметр и для каждого значения Jfe решать за-
(j* монотонно возрастающего сглаживания для данных
> (l)'^(t))}?=i и задачу монотонно убывающего сглаживания для
IbIX {(^(i)»y(i))}?=Hi' Далее выбирается эмпирическая точка
ч "иМума Х(ку для которой сумма квадратов невязок минималь-
242 8. Поиск характеристик и сглаживание
1.40 г
оло
1.00 2.00 3.00 4.00
Рис. 8.4. Унимодальная регрессия для примера зависимо-
зависимости расходов на картофель от чистого дохода. Точками
отмечена унимодальная регрессия, а сплошной линией —
сплайн-оценка ступенчатой функции унимодальной регрес-
регрессии. Из (Hildenbrand and Hildenbrand, 1986) с разрешения
Elsevier Science Publishers.
В работе (Hildenbrand and Hildenbrand, 1986) отмечается, что
описанный выше алгоритм приводит к всплеску в точке Х^ку В
связи с этим имеет смысл сначала оценить точку максимума ве-
величиной a = argmax[m(x)] на "этапе предварительного сглажива-
сглаживания". На втором этапе рассматривают унимодальную регрессию
с предварительно оцененным значением а посредством отражения
правой части данных в эмпирической точке максимума &. Этот ал-
алгоритм применялся в примере зависимости расходов на картофель
от чистого дохода; см. рис. 8.4.
Упражнения
8.1.1 (Kurt Hildenbrand).
Рассмотрим следующий алгоритм РАУ-сглаживаН*^
Вход содержится в Y[l.. .N], монотонный выход — в R[l-'
N]. Объясните роль вектора NEXT(I)!
8.1. Монотонное и унимодальное сглаживание 243
DO I = N ТО 1 BY -1;
R(I) = Y(I); NEXT(I) = 1+1;
DO WHILE (NEXT(I) <= N) IF R(I)*(NEXT(NEXT(I))-
NEXT(I))
< R(NEXT(I))*(NEXT(I)-I) THEN LEAVE; (этот цикл)
R(I) = R(I) + R(NEXT(I));
NEXT(I) = NEXT(NEXT(I));
END;
END;
DO I = 1 REPEAT NEXT(I) UNTIL (NEXT(I) > N );
IF NEXT(I)-I > 1 THEN DO;
R(I) R(I)/(NT(I))
())
DO II = I + 1 TO NEXT(I)-1; R(I1) = R(I); END;
END;
END;
8.1.2. Дайте качественное объяснение, когда бы вы предпочли
сначала сглаживать, а затем монотонизировать.
8.1.3. Найдите асимптотическое выражение MSE, используя те-
теорему 8.1.1 из дополнений к данному разделу.
8.1.4. Используйте оптимальную (в смысле минимума асимпто-
асимптотического выражения MSE) ширину окна Ло в (8.1.5). Как
при этом выглядит условие?
8.1.5. Перепишите PAV-алгоритм таким образом, чтобы он стар-
стартовал справа и производил замену по убыванию. Почему
ответ, вообще говоря, отличается от приближения, получа-
получаемого при старте слева?
Дополнения
Сравним два предложенных метода:
SI сначала сглаживание, затем монотонизирование;
IS • сначала монотонизирование, затем сглаживание.
Рассмотрим случай фиксированного плана эксперимента. Пусть
\{х) — ядерная оценка Пристли — Чао, a rhIhs(xIm^I(x) — ее
Варианты, соответствующие двум указанным выше методам. Сле-
Следующая теорема получена Мамменом (Mammen, 1987).
*еорема 8.1.1. Предположим, что
Ш) Х{ =i/n, t = 0,±1 ±п;
(А2) 2?(exp(tet-)) < oo для достаточно малых t;
Ш) шеС>'>0, х ? [-1,1], rn'(O) > 0.
Гогда
™*7@) = m,@) + op(l/n). (8.1.2)
°Аее того, существуют такие несмещенные случайные вели-
С/1п,С/2п, что для некоторых универсальных постоянных
244 8. Поиск характеристик и сглаживание
С1>с2>сз выполняются следующие соотношения:
mf/@) = ^ + [/ln+Op(n-2/3), (8.1.3)
<S@) = 0n + 6n + (l- r,n)Uln + U2n + ор(п-У% (8.1.4)
где
= j[K'(u)Lu.
Кроме того, п2^5[/1п и п8^15[/2п асимптотически нормальны с
дисперсиями &*ск и c1a10/3[m/@)]f3cK соответственно.
Эта теорема может быть использована для вычисления асимпто-
асимптотики MSE; см. упражнение 8.1.3. Маммен на основе моделирования
пришел к выводу, что сх < 2с2. Следовательно, метод IS приводит к
уменьшению дисперсии и возрастанию смещения. Далее, из (8.1.3),
(8.1.4) в результате вычислений показано, что rhjfiO) имеет мень-
меньшее MSE, чем ш?7@), тогда и только тогда, когда
hfdK[m»@)]> 2c,-с, ,
Универсальные постоянные возникают в результате использова-
использования подхода Маммена, состоящего в аппроксимации эмпириче-
эмпирической функции распределения последовательностью броуновских
мостов. Особенно интересно, что асимптотическая дисперсия оцен-
оценки rh{s@) имеет член второго порядка вида О(п~16/15), где констан-
константа этой скорости3) отрицательна и пропорциональна [га^О)]""
Это представляется вполне очевидным из интуитивных соображе-
соображений: если наклон в точке не слишком большой, мы ожидаем луч"
шего поведения IS-метода по сравнению с SI-методом. Точнее, если
производная т;@) мала, мы с помощью PAV-алгоритма можем по-
получить более широкое (случайное) окно.
Под константой скорости сходимости последовательности
ап = 0(п~а), где а > О, понимается значение \\тпаап. ¦—
перев.
8.2. Оценивание нулей и экстремальных точек 245
g.2. Оценивание нужен и экстремальных точек
Часто для описания формы кривой регрессии достаточно сообщить
несколько существенных ее точек. Такими существенными точка-
точками являются, например, точки нулей, пиков, впадин или перегиба.
Обычно эти существенные точки имеют естественную интерпре-
интерпретацию в терминах рассматриваемого приложения и, кроме того,
могут быть использованы для сравнения друг с другом аналогич-
аналогичных групп данных. Известны две различные модели и два подхода
к оцениванию нулей и экстремальных точек. Первая модель отно-
относится к ситуации, в которой статистик уже имеет выборку данных
и хочет оценить эти точки. Вторая модель имеет отношение к слу-
случаю, когда данные наблюдаются последовательно (например, при
исследовании изображений), и каждое новое наблюдение исполь-
используется для уточнения информации относительно текущей оценки
нулей и экстремальных точек.
В работе (Miiller, 1985) исследовался вопрос оценивания нулей и
экстремумов в рамках первой модели. Рассматривалась стандарт-
стандартная модель с фисированным планом эксперимента
где Х{ = г/п. Такая модель имеет смысл, например, при анали-
анализе кривой роста, когда сравниваются различные (но аналогичные
друг другу) индивидуумы. Сравнение индивидуумов может быть
проведено на основе точек и величин максимума кривой индиви-
индивидуального роста.
Предположим, что т(*)(ж), производная функции регрессии Jb-ro
порядка, имеет единственный максимум в точке ak1 т. е.
m<<k\ak) = max m(*)(x).
"' 0:6@,1)
По ядерной оценке гп\ \х) формируют эмпирическое значение
(обычно первой слева) точки максимума
akh = inf{x : rh\ \x) = max}
и величины максимума rrvh \ak Л). Таким же образом определяется
эмпирическое значение нуля функции т:
iM=inf{«: m[k\x) = 0}.
D.1.6), разд. 4.1, известно, что максимальное расхождение ме-
ядерной оценкой и истинной кривой регрессии сходится к
со скоростью 7П ~ maxKn/i/logn)"*1/2^} при условии лип-
ти т. Если т дважды дифференцируема, то, как мы уже
м**ого раз видели, смещение имеет порядок О(Л2). Уравновешивая
246 8. Поиск характеристик и сглаживание
смещение и стохастический член ядерной оценки, получаем, как ц
в разд. 4.1, для Л ~ (n/logn)/5 скорость
7n = 0((nlogn)-2/5)
для максимального отклонения
sup \mh(x) - т(х)\ = ОрGп).
Отсюда вытекает оценка скорости сходимости для точки экстрему-
ма в виде следующего предложения, полученного в работе (Miiller
1985).
Предложение 8,2.1. Если
|m(*)(ii) - m<*>(afc)| > c\u - aj<\ p > 1,
в окрестности тонки aki то
Аналогичный результат имеет место для нулей zk функции
Предложение 8.2.2. Если
в окрестности тонки zk, то
В работе (Miiller, 1985) вычислялось также асимптотическое рас-
распределение Qk Л, zkh. Этот метод работает достаточно хорошо да-
даже при малых выборках, как показывает рис. 8.5. Точками на этом
рисунке отмечено п = 15 гормональных уровней. Сплошная линия
соответствует ядру, имеющему порядок (&,р) = @,2) (см. D.5.2))»
тогда как штриховая линия вычислялась для (к,р) = @,4). Полу-
Полученные оценки координаты пика и его величины равны akh - I4•*
и »Пд (а* д) = 4.21 для первой ядерной оценки. Заметим, что яДР°
более высокого порядка моделирует пик немного точнее, чем яДР°
более низкого порядка. Значения ширины окна определялись ме-
методом Раиса Т, как описано в разд. 5.2.
Вторая модель оценивания нулей и экстремумов была исследи
вана сойсем недавно для случая стохастического плана экспер
мента. Предположим, что (X11Y1)}(X2,Y2),... приходят по
вательно. При использовании метода, аналогичного описани
8,2. Оценивание нулей и экстремальных точек
4.5
4.0
3.5
3.0
f 2.5
2.0
1.5
1.0
0.5
247
11.5 12.0 12.5 13.0 13.5 14.0 14.5 15.0 15.5
Время
Рис. 8.5. Пример с гормональным уровнем. Точками на
этом рисунке отмечено п = 15 гормональных уровней.
Сплошная линия соответствует ядру, имеющему порядок
(kfp) = @,2) (см. D.5.2)), тогда как штриховая линия вычи-
вычислялась для (к,р) = @,4). Полученные оценки координаты
пика и его величины равны atk h = 14.14 и rprh (oik h) = 4.21
для первой ядерной оценки. Из (Muller, 1985) с разрешения
журнала Scandinavian Journal of Statistics.
выше для случая фиксированной выборки, следовало бы пересчи-
пересчитывать всю кривую регрессии при получении новых наблюдений
Аля того, чтобы определить расположение и величину максимума.
Следовательно, этот метод оценивания может оказаться чрезвычай-
Но медленным и требующим большого объема памяти.
В ситуации, когда статистик может выбирать значения предик-
ТоРной переменной X, применимы более быстрые методы нахожде-
нахождения нулей и экстремальных точек, требующие к тому же меньшего
^ьема памяти. В пятидесятые годы в работах (Robbins and Monro,
ЭД 1) и (Kiefer and Wolfowitz, 1952) были определены рекуррент-
методы стохастической аппроксимации, предназначенные для
248 8. Поиск характеристик и сглаживание
оценивания этих точек. Например, процедура Робинса — Монро
определяется уравнением
(Новое наблюдение УЛ+1 = ™(^n+i) + ?n+i может быть получено,
пбскольку статистик имеет возможность наблюдать значение кри-
кривой (с точностью до ошибки измерения) в любой точке х.) При
соответствующем выборе {ап} эта последовательность сходится к
(единственному) нулю функции т(х).
Этот алгоритм может быть распространен на случай стохасти-
стохастического плана эксперимента. По аналогии с процедурой Робин-
Робинса — Монро определим последовательность оценок Zn нуля функ-
функции т(х) уравнением
Zn+1 = Zn-anKh(Zn-Xn)Yn, п>1, (8.2.1)
при произвольном случайном начальном значении и последователь-
последовательности {ап} положительных, стремящихся'к нулю чисел. Основная
идея этого алгоритма состоит в том, чтобы пассивно стоять, если
приходит наблюдение, лежащее вне некоторой окрестности нуля
функции т. Окрестность нуля определяется, как обычно, посред-
посредством ядерной последовательности. По этой причине такой под-
подход называют методом пассивной стохастической аппроксимации
(PSA); см. (Tsybakov, 1988).
Фактически последовательность {Zn} (8.2.1) с течением времени
будет сходиться к (единственному) нулю функции
г(х) = т(ж)/(х).
Соображения, положенные в основу оценивания точки z0, един-
единственного нуля функции т(х), могут быть распространены на за-
задачу оценивания экстремальных точек. Заметим, что т = г//, а,
следовательно,
При соответствующих предположениях задача определения экс-
экстремума т эквивалентна задаче нахождения (единственного) нул*
функции г;/ - г/;. В работе (Hardle and Nixdorf, 1987) была пред-
предложена следующая рекуррентная процедура оценивания:
К» =К~ anh-3Yn{K({Z'n - Xn)/h)K'((Z'n - Xn)/h) (8.2-2)
-K'((Z'n-Xn)/h)K((Z'n-Xn)/h)}, п>1-
Здесь {Хп} — дополнительная последовательность н.о.р. случа
ных величин с тем же, что и у X, распределением. Следующая те
рема показывает асимптотическую нормальность последователь
сти оценок.
8.2. Оценивание нулей и экстремальных точек 249
Теорема 8.2.1. Предположим, что кроме незначительных усло-
условий технического характера ап = п, Л = п^ и
inf (и — zo)r(u) > 0 для всех т] > О .
V<\u~*o\<V~l
Тогда последовательность {Zn}, определенная рекуррентным со-
соотношением (8.2.1), асимптотически нормальна, т. е.
где
B = r"(zo)dK/Br'(zo)-4/b),
V = ск(а2(х) + m2(x))f(z0)/Br'(z0) - 4/5).
Заметим, что скорость сходимости здесь несколько лучше (на
логарифмический член), чем в предложении 8.2.1 для р = 1. При-
Причина заключается в том, что предложение 8.2.1 доказано для рав-
равномерной скорости сходимости, тогда как при доказательстве тео-
теоремы 8.2.1 используются локальные свойства г около z0. Вопросы
оптимальности алгоритма пассивной стохастической аппроксима-
аппроксимации (8.2.1) рассматривались в работе (Tsybakov, 1988).
Упражнения
8.2.1. Докажите предложение 8.2.1, используя результат из
разд. 4.1 относительно равномерной скорости сходимости.
8.2.2. Вспомним равномерную скорость для функции повышен-
повышенной степени дифференцируемости. Как эта скорость изме-
изменяется от
Tn=O((n/logn)-2/5)
к более быстрой скорости при т Е С4?
8.2.3. Изобразите на графике условие из предложения 8.2.1 от-
относительно локального поведения т() около нуля.
Дополнения
При последовательном оценивании нулей и экстремальных точек
представляет интерес вопрос об остановке процедуры при достиже-
достижении требуемой точности оценивания. Для этой цели определяют
пРавило остановки
N{d) = Ы{п >l\Vn+ n-1 < п*'ЧУ(Яа/2J}, (8.2.3)
где d — требуемая точность оценивания нуля, Vn — оценка функ-
Ц V, асимптотической дисперсии оценки Zn по теореме 8.2.1, и
250 8. Поиск характеристик и сглаживание
q^j2 — A — <*/2)-квантиль стандартного нормального распредели
ния. Это правило остановки вместе с оценкой Вп величины В
доверительный интервал фиксированной длины
n - d, ZN(d) - n-*'*Bn + d].
Использование случайным образом остановленной последова-
последовательности не изменяет асимптотического распределения, как по-
казывает следующая теорема.
Теорема 8.2.2. Пусть ап u h определены также, как в теореме
8.2.1. Тогда если N(d) определяется формулой (8.2.3), то
где смещение В и дисперсия V определяются теми же выраже-
выражениями, что и в теореме 8.2.1.
Аналогичный результат может быть получен для оценивания
экстремальных точек с использованием последовательности {Z'n}.
В работе (Hardle and Nixdorf, 1987) этот алгоритм применялся для
определения возраста как функции роста по некоторым данным
судебной медицины.
ГЛАВА 9
Включение параметрических
компонент
"Мы должны ограничиваться теми формами, относитель-
относительно которых нам известно, как их обрабатывать, или для
которых были сформированы какие-либо необходимые та-
таблицы."
Р. Фишер A922)
Для прагматически настроенного исследователя заключение Фи-
Фишера (Fisher, 1922) "ограничиваться теми формами, относительно
которых нам известно, как их обрабатывать", должно иметь нео-
неодолимую силу притяжения. В самом деле, мы знаем, что задача
непараметрического сглаживания сложна, особенно при высокой
размерности. Почему бы в связи с этим не вернуться к параметри-
параметрическому оцениванию, хотя бы частично? Совмещение параметри-
параметрической и непараметрической составляющих может даже привести
к построению лучшей модели, чем непараметрический или параме-
параметрический подход! В этой главе будут представлены подходы обеих
точек зрения. Обсуждаемые модели включают как параметриче-
параметрические, так и непараметрические компоненты и поэтому называются
полупараметрическими моделями.
Здесь затронуты три темы. Во-первых, оценивание параметров
в частично линейной модели. Во-вторых, сравнение индивидуаль-
индивидуальных кривых в контексте инвариантных форм. В-третьих, предла-
предлагается метод проверки соответствия кривых параметрической ре-
регрессии путем сравнения с оценкой непараметрического сглажи-
сглаживания.
Примером непараметрической модели является
Y^fZi + miXJ+ei, i=l,...,n, (9.0.1)
гДе /3Т — (/?!,...,/?р) — р-вектор неизвестных коэффициентов ре-
рецессии, a m: JRd —¦ Ш, — неизвестная гладкая функция регрессии.
252 9. Включение параметрических компонент
Здесь отклик У зависит от пары предикторных переменных (JV, Z)
причем среднее значение отклика линейно зависит от Z G TRF (Па'
раметрическая составляющая) и, возможно, нелинейно от X ? щ<*
(непараметрическая компонента). В связи со спецификой парами
трической компоненты эта модель называется частично линейной
моделью.
Другая полупараметрическая модель мотивируется анализом
кривой роста. В этой постановке оказывается, что индивидуаль-
индивидуальные кривые различаются, но имеют некоторую основную общую
форму. Более формально предположим, что имеются по крайней
мере два набора наблюдений данных регрессии
Уу =т,(Ху) + еу, i = l,...,n, j=l,...,J, J>2, (9.0.2)
и что каждая "индивидуальная кривая" т (•) моделируется непа-
непараметрически. Вышеупомянутая "общая форма" кривых т; мо-
может быть выражена формально как существование преобразований
S$iT$, для которых
тДх) = 5,-1К(Тв-1(х))]) j>2. (9.0.3)
Таким образом, "индивидуальные кривые" т^ отображаются
друг в друга при некоторых преобразованиях, зависящих от пара-
параметров. Примерами возможных преобразований являются семей-
семейства преобразований сдвиг-масштаб, т. е.
™j(x) = e3j+e4jml((x-elj)/e2j)i j>2, (9.0.4)
t
где как S$, так и Тв — преобразования вида (х — v)/vy v ф 0.
Так как при этих конкретных преобразованиях Se, Т9 форма всех
индивидуальных кривых т;() одинакова для всех j, эта модель
получила также название модели инвариантной формы.
В качестве примера модели инвариантной формы рассмотрим во-
вопрос о кривых Энгеля постоянного спроса во времени (Hildenbrand,
1985). На рис. 9.1 показаны кривые Энгеля расходов на питание
как функции чистого дохода для пяти различных лет A969, 197Ь
1973, 1975, 1977). Все кривые выглядят одинаковыми, за исключе-
исключением того, что они имеют разные длины, что соответствует нал*5'
чию инфляции и изменениям цен по годам.
Учет такого параметра масштаба в модели инвариантной Ф°Р'
мы позволяет проверить и оценить эволюцию кривых Энгеля; сМ
работу (Hardle and Jerison, 1988).
Некоторые аддитивные модели для многомерных данных, **
пример для целенаправленного проецирования, можно — в стр
гом смысле — рассматривать также как полупараметрические. *
рактерной чертой этих моделей является, однако, аддитивность
9.1. Частично линейные модели
253
35000
30000
25 000
20000
15000
10000
5000
0
-
—
r-
-
--'мТ'
I*?
i I
2
5
0
0
0
/у'
1
5
0
0
0
0
** *'*
|
7
5
0
0
0
«»
1 i 1
1
0
0
0
0
0
.•*
s»
1 1
1
2
5
0
0
0
| |
1
5
0
0
0
0
I
1
7
5
0
0
0
1
2
0
0
0
0
0
.....
2
5
0
0
0
Рис. 9.1. Кривые Энгеля расходов на питание как функции
полных расходов. Наиболее короткая линия — кривая для
1969 г., следующая кривая — для 1971 г., а наиболее длин-
длинная вычислена по данным 1977 г. Family Expenditure Survey,
Annual Base Tapes A968-1983).
компонент. Именно по этой причине такие модели представлены в
отдельной главе, посвященной аддитивным моделям; см. гл. 10.
В разд. 9.1 представлены некоторые недавно полученные резуль-
т*ты по частично линейным моделям. Разд. 9.2 этой главы посвя-
посвящен моделированию с инвариантной формой. В разд. 9.3 прово-
^ится сравнение непараметрической и параметрической регрессий
п°средством оценивания квадратичного отклонения между этими
ДвУмя кривыми.
1* Частично линейные модели
^пстпично линейной моделью называется полу параметрическая мо-
Де*ь вида
У; = fZi 4- m(Xt) + ец г = 1,..., п,
4е Z. — предиктор в Ш,р, am — неизвестная одномерная функ-
ия регрессии. Такие модели исследовались в работах (Spiegelman,
254 9. Включение параметрических компонент
1976), (Green, Jennison and Seheult, 1985), (Robinson, 1987a)
(Speckman, 1988) и (Carroll and Hardle, 1989).
В работе (Speckman, 1988) приведена мотивировка совмещения
непараметрического сглаживания с параметрическим оцениванием
в этом контексте путем первоначального рассмотрения параметра
ческого представления га как Wj, где W — (n x д)-матрица полного
ранга, а 7 — дополнительный параметр. Тогда частично линейная
модель записывается в матричных обозначениях в виде уравнения
Нормальные уравнения для определения /3 и у
ZTZ0 = ZT(Y-Wy),
(9.1.1)
Wy = PW(Y - Zp\ J
где Pw = W(WTW)~lWT — проектор на пространство столбцов
W, a Z — (п х р)-матрица предикторов параметрической части.
В работе (Green, Jennison and Seheult, 1985) предложено заменить
оператор проектирования в (9.1.1) сглаживателем га с последующим
определением
(ZT(I - Wh)Z)-lZT{I - Wh)Y,
Оценки параметрической компоненты мотивируются следующим
образом. Поскольку матрица Pw идемпотентная, оценки для Р и
7 могут быть выражены в виде
= [ZT(I - PW)T(I - PW)Z)-'ZT(I - Pwf(I - PW)Y,
Другой способ рассмотрения этого решения состоит в оценивании
/? путем первоначальной настройки Z и У для непараметрической
компоненты с последующей оценкой регрессии невязки (J — PwY^
на невязку (J — PW)Z. Заменив Pw оператором ядерного сглажи-
вания Wh = {Whi)U, ИМХ,) = Kh(X{ - X,-)//„(*,), положим
Z = (I-Wh)Z
И
Y = (I-Wh)Y.
Тогда уравнения (9.1.2) имеют непараметрический аналог
0 = (ZTZ)->ZTY 3)
9.1. Частично линейные модели 255
Зги формулы снова можно интерпретировать как нормальные
уравнения для модели параметрической регрессии с частично на-
настраиваемыми невязками.
Предположим теперь, что элементы матрицы Z связаны с одно-
одномерной переменной X следующим образом:
r]Hi i= l,...,n, /= l,...,d,
где функции {<7/}f-x непрерывны, а случайные ошибки т) =
{^ilfsiisi таковы, что n~lr)Tt) стремится в пределе к положитель-
положительно-определенной (d х (^-матрице К. В работе (Speckman, 1988)
описано асимптотическое поведение параметрической оценки в чаг
стично линейной модели следующим образом.
Теорема 9.1.1. Допустим, что gum дифференцируемы р раз, а
ошибки наблюдения имеют дисперсию а2. Тогда для метода оце-
оценивания, определенного соотношениями (9.1.3),
l I
уаг(Д) = <г2п~l V" ^oin'1)
при h - п-1/^*1).
Заметим, что дисперсия сходится с "параметрической скоро-
скоростью" п", тогда как смещение имеет обычную "непараметриче-
"непараметрическую скорость" o(h2p). В противоположность этому смещение опи-
описанной выше оценки Pqjs имеет порядок O(hp); см. упражнение
9.1.3.
В работах (Engle et al.,1986), (Rice, 1986) и (Heckman, 1986) ис-
использовалось сглаживание сплайнами в частично линейной модели,
т. е. нахождение таких коэффициентов C и функции т, для ко-
которых выражение
1 = 1
Достигает минимума. Для сглаживания сплайнами в статье (Шее,
1986) найдена аналогичная взаимосвязь между параметрической и
^параметрической частями рассматриваемой частично линейной
^°Дели, как описано в теореме 9.1.1. В работе (Heckman, 1986) рас-
сМотрен случай <//(*) = constant и получено асимптотически нулевое
сМещение для /3. (Сравните с теоремой 9.1.1.) В статье (Speckman,
1988) описано приложение частично линейной модели в экспери-
эксперименте с полосканием рта. Контрольная группа (Z = 0) исполь-
3°вала для полоскания обычную воду, а экспериментальная группа
256
9. Включение параметрических компонент
ОЛ
0.6
0.5
ОЛ
0.3
0.Z
0.1
о Контрольная группа
0 Группа лечения
J I I L
I I I I I L
0.5
1.0
1.5
2.0
Рис. 9.2. Исходные данные и частично ядерные оценки ре-
регрессии для данных полоскания рта. Предсказательная пе-
переменная X = база SBI, отклик У = SBI индекс через трц.
недели. SBJ индекс представляет собой измеряемую вели-
величину, характеризующую сокращение десны. Из (Speckman,
1988) с разрешения Королевского статистического общества.
лечения (Z = 1) использовала широко распространенное болеутоля-
болеутоляющее средство. На рис. 9.2 показаны исходные данные и частично
ядерные оценки регрессии для этого набора данных.
Две оценки кривой регрессии гаЛ(х) и гаЛ(х) + /? (Zt- = 1 для
группы лечения) наложены на этот пунктирный график данных.
Отчетливо видно параметрическое смещение непараметрической
компоненты регрессионной модели благодаря эффекту лечения.
Упражнения
9.1.1. Еще один метод нахождения оценок для /3 состоит в вы-
вычислении средней производной
6 = ЕМЦ/)],
где через g обозначена сумма /3TZ + m(X) как функция
U = (Z,X). Покажите, что первые р компонент средне**
9.2. Моделирование с инвариантной формой 257
производной равны /?. Более подробно средние производные
рассматриваются в гл. 10.
9.1.2. Докажите, что (9.1.1) представляют собой нормальные
уравнения для частично линейной модели
9.1.3. Докажите, что смещение оценки Pgjs имеет порядок
O(hP).
[Указание: См. (Green, Jennison and Seheult, 1985).]
9.2. Моделирование с инвариантной формой
В работе (Lawton, Sylvestre and Maggio, 1972) рассмотрена задача
об объеме воздуха, выталкиваемого из легких, как функции време-
времени (кривые спирометрии). Авторы обнаружили, что эти кривые
спирометрии имели одинаковую форму, но отличались друг от дру-
друга сдвигом или масштабом. Это явление дало повод рассмотреть
следующий подход к сравнению подобных кривых. Пусть наблю-
наблюдаются данные {(Х{, У$)}?=1 и {(Х'о У/)}"=1 с функциями регрессии
т^х) и т2(х) соответственно. Идея формализации подобия двух
кривых ш2 и т1 заключается во введении преобразований S^,T^,
для которых
т2{х') = S-XOrr1*'), в G Ш4. (9.2.1)
Здесь через 5$, 7$ обозначены преобразования сдвиг-масштаб
S9(u) = 03+в4и и Т$(и) = вх+02и. Учитывая характер этих преобра-
преобразований, такую модель называют моделью инвариантной формы.
Пример описанного соотношения между двумя кривыми пред-
представлен на рис. 9.3. Он относится к исследованию боковых столк-
столкновений автомобиля (Kallieris and Mattern, 1984; Kallieris, Mattern
a»d Hardle, 1986).
Глядя на эти кривые создается впечатление, что они являются
^Шумленными версиями подобных кривых регрессии одинаковой
^°рмы. Основное различие состоит в том, что ось X сдвинута и
пРисутствует перенормирование по вертикали. Ниже этот пример
Усматривается более подробно.
Другой пример происходит из области анализа кривых роста че-
Ъвека (Gasser et al., 1985; Stuetzle et al., 1980). Индивидуальные
^ивые аппроксимировались методами непараметрического оцени-
^Ия, но они могли иметь простую (параметрическую) взаимо-
п Лзь- В работе (Kneip and Gasser, 1988) рассмотрено обобщение
, ем введения модели инвариантной формы со случайными коэф-
Циентами для аппроксимации индивидуальных разностей. Ав-
Ры исследовали метод одновременного оценивания т и в с ис-
Льзованием априорной информации.
258
9. Включение параметрических компонент
-50 -
Z00
600
800
Рис. 9.3а. Кривая ускорения для данных о боковых столк-
столкновениях. Переменная X — время (в миллисекундах), пере-
переменная У — ускорение (в д) после бокового удара, испыты-
испытываемый объект = ТО4.
Рис. 9.3Ь. Кривая ускорения для данных о боковых
новениях. Переменная X — время (в миллисекундах),
менная У — ускорение (в д) после бокового удара, испыт
ваемый объект = ТОЗ.
9.2. Моделирование с инвариантной формой 259
В настоящем разделе мы рассмотрим модель с фиксированным
планом эксперимента с равноудаленными друг от друга точками
ji на единичном интервале. Будем далее предполагать, что
где ?,-, 1 < i < я, — н.о.р. несмещенные случайные ошибки, имею-
имеющие все моменты, а функции 1712,1712 гельдеровы.
Предположим, что в (9.2.1) существует истинное значение пара-
параметра 0О, при котором тг отображается в т2, и наоборот. Хорошей
оценкой параметра 0О будет такая величина 0, для которой кривая
тх(х) достаточно точно аппроксимируется кривой
Точность оценки1) 90 будем измерять функцией потерь
L{0) = J[mx(x) - M(x,e)]2ti;(x)dar,
где w — неотрицательная весовая функция. Заметим, что
М(х,0о) = mx(x), значит, 0О минимизирует Ь@).
Неизвестные функции регрессии оцениваются ядерными мето-
методами типа сгл^живателя Пристли — Чао
«=1
1 = 1
Поскольку 0О минимизирует Ь@), естественно определить оцен-
КУ 0 параметра 0 как аргумент, минимизирующий
где
оценка в параметра 90 состоятельна, как показывает следую-
теорема.
11 в
°Ригинале effectiveness of an estimate. — Прим. перев.
260 9. Включение параметрических компонент
Теорема 9.2.1. Предположим, что функция Ь(в) локально выпу-
выпукла в том смысле, что для любого е > 0 найдется D(e) > 0, для
которого при \0 — во\ > е справедливо неравенство
L(O)-L(eo)>D(e).
Предположим, кроме того, что Se и Те гладкие в том смысле
что
sup sup |S?(x)| < оо,
sup sup \(Т?1У(х)\<оо,
где
Тогда при Л, Л' из интервала
имеем
sup 0 — 0О |^5'0, п —> оо.
Л,Л'€ЯЛ I •
Рассмотрим применение этого метода на примере с кривой уско-
ускорения. Из рис. 9.3а и 9.3Ь видно, что имеет смысл утверждать, что
основное ускорение кривой рис. 9.3а несколько "запаздывает" и ме-
менее "растянуто" по сравнению с рис. 9.3Ь. Таким образом, следует
применить к этим данным модель сдвиг-масштаб
(Эти обозначения соответствуют модели (9.2.1).) График функции
потерь Ь(в) для этих преобразований представлен на рис. 9.4.
Как и ожидалось из сравнения рис. 9.3а и 9.3Ь, выбор параме-
параметра 0Х более критичен, чем выбор в4. "Гребни" функции потерь со
знаком минус соответствуют значениям вг, и видно сопоставление
"первого пика" и "второго пика". Функция потерь имеет мини-
минимум при в = @!,04) = @.13,1.45). На рис. 9.5 показано, как rnh\
соотносится с Mh,(x,0).
Для того чтобы непосредственно получить асимптотическу
нормальность 0, предположим, что
и что SB зависит только от в3).. .,0d, где через d обозначена р&3
ность вектора параметров. Далее предположим, что h! = #2^ и
9.2. Моделирование с инвариантной формой
261
0.18
0.13
0.08
0.03
Рис. 9.4. Функция потерь со знаком минус — L(B) для набо-
набора данных о боковых столкновениях. Весовая функция —
индикатор для интервала @.1, 0.7). Из (Hardle and Marron,
1989) с разрешения Института математической статистики.
положительно определена, где Н(9) — d x ^-матрица Гессе,
-элемент которой равен
Ml{x,e)Mv{x,0)w(x)dx
Учетом обозначения
Имптотическое распределение в получено в (Hardle and Marron,
ЭД)
РеМа 9.2.2. При выполнении сформулированных выше предпо-
262
9. Включение параметрических компонент
-80 -
0.303
0.606
0.909
Рис. 9.5. Оценочные кривые rnhl(x) (метка 1, штриховая ли-
линия) и Mhi(x,0) (метка 2, сплошная линия), В = @.13,1.45)
для набора данных о боковых столкновениях. Из (Hardle
and Marron, 1989) с разрешения Института математической
статистики.
где 1,1'-элемент матрицы Е равен
Случай Т$(и) = 0г + в2и и Se(u) = в3 + 04и более подробно рас-
рассматривается в упражнении 9.2.1.
Упражнения
9.2.1. Для более глубокого понимания сути предположений Д*&
ного раздела рассмотрим случай Тв(и) = вг + в2и и 5^(^) "
0 ^
9.3. Сравнение кривых 263
Что при этом означает требование положительной опреде-
определенности матрицы Н@0)?
9.2.2. Какие еще возможны функции потерь, предназначенные
для сравнения качества аппроксимации?
9.2.3. Вспомним эксперимент с полосканием рта, упомянутый
в конце разд. 9.1, где через Z обозначалась индикаторная
переменная эффекта лечения. Эта конкретная частично
линейная модель может также рассматриваться в рамках
моделирования с инвариантной формой. Каковы при этом
преобразования Т9у S91
Дополнения
Доказательство теоремы 9.2.1
Для доказательства этой теоремы заметим, что при е > О
Р {sup \§ - во\ > е j < Р jsup(L@) - L@O)) > ?>(
< Р jeup(L($) - L($) + L($o) - Ц$о))
+ Р jsup(I@o) - LF0)) > ОД/2 J ,
где зирЛ означает supfc Л/€Яп. После некоторых преобразований с ис-
использованием неравенства треугольника достаточно показать, что
sup / (m1(x) — m(x)Jw(x)dx,
(Mh(x,0) - M(x,0)Jw(x)dx
стремятся к нулю почти наверное. Теперь, используя предложение
4-1-1 о равномерной сходимости также по 9, видим, что оба члена
в (9.2.2) стремятся к нулю с вероятностью 1.
'3* Сравнение непараметрической и
параметрической кривых
^ Соответствие параметрического моделирования данным регрес-
и может быть обосновано сравнением с результатами непараме-
сглаживания. Для этого можно использовать квадра-
264 9. Включение параметрических компонент
тичную меру отклонения двух приближений друг от друга. В дан-
данном разделе для оценки стохастического поведения этого отклоне-
отклонения будет использоваться дикий бутстреп. Как мы увидим, этот
метод работоспособен (в противоположность более классическим
видам бутстрепа).
Квадратичная мера отклонения может использоваться в каче-
качестве статистики критерия проверки параметрической модели, при-
причем критическое значение определяется диким бутстрепом. В част-
частности, мы применим этот метод для принятия решения относи-
относительно вида параметрического описания кривых Энгеля. В работе
(Leser, 1963, с. 694) подчеркивается, что основной акцент в стати-
статистическом оценивании кривых Энгеля делался на применение пара-
параметрических моделей, а методами гибкого описания пренебрегали.
Задача нахождения наиболее подходящего описания функции
Энгеля давно известна в эконометрике, но, видимо, до сих пор
не найдено общепринятого ее решения. Вообще говоря, может
быть, имеет смысл указать, что проблема спецификации вида
соотношений привлекала меньше внимания, чем методы оцени-
оценивания параметров для выбранных уравнений.
Это заключение привело автора к мысли одновременно рассмо-
рассмотреть параметрические и непараметрические кривые и решить,
основываясь на графическом методе, какая из них лучше прибли-
приближает данные. Для формализации этого рассмотрим в качестве опи-
описания кривой регрессии параметрическую модель
{тв:0ев}. (9.3.1)
Возможные параметрические модели кривых Энгеля включают
кривую Уоркинга (Working)
тв(х) = 0хх + 02x\ogx
или кривую Лезера (Leser). Параметрическое приближение тц бу-
будет вычисляться вместе с непараметрическим rhh.
Далее возникает вопрос, можно ли видимое различие между Щ и
rhh объяснить случайными флуктуациями или это различие озна-
означает, что нужно использовать непараметрические методы вместо
параметрических? Один способ действия состоит в измерении Р33"
личия между т§ и rhh в некоторой метрике и в использовании это
метрики в качестве статистики критерия проверки параметр**1^'
ской модели. Близкий подход в оценивании параметров линей
ной модели, основанный на пилотном непараметрическом сгла#
вании, разрабатывался в работе (Cristobal Cristobal, Faraldo R°c
Gonzalez Manteiga, 1987).
9.3. Сравнение кривых 265
Для формализации этой метрики обозначим через Kh n (случай-
(случайный) оператор сглаживания
Заметим, что E(mh(x)\X1,...1Xn) = IChnm(x). Поэтому, если мы
сравниваем с несмещенной параметрической моделью, нам следует
скорректировать параметрическую модель с учетом смещения (ил-
(иллюстративный пример см. в упражнении 9.3.5). Рассмотрим сле-
следующую модификацию квадратичного отклонения rhh и тц друг
от друга:
Тп =
Тп
J(rhh(x) - IChinme(x))>w(x)dx.
Тп может служить статистикой критерия проверки параметриче-
параметрической гипотезы
Для приближенного вычисления критического значения восполь-
воспользуемся асимптотическим распределением Тп для параметрической
кривой m = m0O) которое описывается теоремой 9.3.1. Далее,
для сравнения Тп с другими критериями качества аппроксима-
аппроксимации можно вычислить асимптотическую мощность Тп при усло-
условии, что тп принадлежит альтернативной гипотезе: скажем, тп(х) =
тв0(х) + сп^п(х)- Очевидно, 0О и Ап не определяются однозначно
Функцией т. Позже мы увидим, как выбирать 0О и Ап в зави-
зависимости от т. Наиболее правильно выбирать сп так, чтобы асим-
асимптотическая мощность Тп была отделена от единицы и от задан-
заданного уровня. Мы увидим, что можно выбирать Ап(х) = А (ж) при
Предположения относительно стохастической природы наблюде-
наблюдений и параметрического оценивателя функции регрессии подробно
изложены в дополнениях к данному разделу. Относительно метода
параметрического оценивания предполагается, что
(PI) mj{x) - тво(х) = п-1 E?=ifo(*),M*.-)ta + op(n\ogn)-^
(равномерно по я), где д и h — ограниченные функции,
принимающие значения в Ш,к для некоторого к, а (•) —
скалярное произведение в ГО,*.
Для ядра К и ширины окна h сделаем следующие стандартные
пРедположения:
\К1) Ядро К является симметрической ограниченной функцией
распределения с компактным носителем.
(К2) Ширина окна h = hn ~ пг'^4\
266 9. Включение параметрических компонент
Важно, что (К2) выполняется при любом асимптотически
мальном выборе ширины окна ft; см. разд. 5.1.
Следующая теорема показывает, что распределение Тп аппрокси-
мируется гауссовским распределением, возможно зависящим от п
Расстояние между этими распределениями измеряется в метрике
Мэллоуза (Mallows), так же как в разд. 4.3.
Теорема 9.3.1. Пусть выполняются предположения (А1)-(А5)
(PI), (Kl), (K2). Тогда
(с(Тп), N (б
2 (п (* |Л)) О,
где
Здесь через Kh обозначен оператор сглаживания
а К.]*' — j-я степень этого оператора свертки Kh.
Теорема 9.3.1 показывает, что для d = 1 мощность критерия ка-
качества аппроксимации, основанного на Тп, асимптотически посто-
постоянна в области вида
fm$o + п-9/20Д: f(IChAJw = const! .
Можно провести сравнение с поведением других критериев каче-
качества аппроксимации. Более классические критерии типа крите-
критериев Крамера — фон Мизеса (Cramer-von Mises) или Колмогоро-
Колмогорова — Смирнова имеют нетривиальную мощность в точках, близ-
близких к параметрической модели, т. е. при m = m$o + n"^2A» H°
они имеют дополнительную параметрическую природу в том смы-
смысле, что для них предпочтительны вполне определенные отклоне-
отклонения Дп1,Дп2,... (Durbin and Knott, 1972).
За непараметрическое поведение Тп (примерно одинаковую мощ-
мощность для всех отклонений фиксированной взвешенной L2~H°PM
приходится расплачиваться большим расстоянием (п"9^20
9.3. Сравнение кривых 267
rJ-1/2), при котором критерий работает. Таким образом, эта тео-
теорема должна интерпретироваться и применяться очень осторожно
и должна использоваться только для того, чтобы дать лишь гру-
грубое описание стохастического поведения Тп. Для практического
применения мы рекомендуем методы бутстрепа.
Метод наивного бутстрепа состоит в простом повторении вы-
выборки исходных наблюдений. Таким образом, выборка бутстре-
бутстрепа {(**, *?)}"* = 1 образуется из набора {(Х^У*)}?-! (с его за-
заменой). Затем формируют T*>N по аналогии с Тп путем вычи-
вычисления квадратичного отклонения параметрического и непараме-
непараметрического приближений друг от друга. По C(T*tN) определяют
A - а)-квантиль i% и отвергают параметрическую гипотезу, если
Тп > i%. Другая процедура состоит в корректировке смещения
в асимптотическом распределении, т. е. следует определить выбо-
выборочную квантиль по C*(T*tN — E*T*fN) и проверить, превышает ли
исходная величина Тп —bh это последнее значение A — а)-квантили
со скорректированным смещением, где bh — оценка 6Л, например
К = скп-1 ??в1(У, - Ч(х,.)J/(Е?=1 кк(х{ - X;)?.
В работе (Hardle and Mammen, 1988) показано, что эти процеду-
процедуры не работают в том смысле, что бутстреп-распределение величи-
величины T*>N не аппроксимирует распределение Тп.
На первый взгляд этот результат кажется странным и противо-
противоречащим представлениям о бутстрепе. Глубокая причина заключе-
заключена, однако, в том факте, что функция регрессии не является услов-
условным математическим ожиданием наблюдений по распределению
бутстрепа. Как альтернативу мы рекомендуем дикий бутстреп,
который связан с предложениями (Wu, 1986) (см. (Вегап, 1986)).
Этот подход не использует н.о.р. структуру (Х{, Y{). Он достаточно
конструктивен, причем
Для этого определяем, как и в разд. 4.2,
ii=Yi-mk(Xi).
Поскольку мы собираемся использовать эту единственную невязку
Ч Для формирования оценки F,- распределения (У{ — т(Х{)\Х{), мы
называем этот метод диким бутстрепом. Более точно, определим
и как двуточечное распределение, для которого Ep.Z2 = (e,J и
Ep.Zz = (?t-K. Теперь сформируем независимую величину е\ ~ F{
и используем
(Х,,У/ = т,(Х,) + е?)
в качестве бутстреп-наблюдений. Далее строим T*fW, как и Тп,
пУтем вычисления квадратичного отклонения параметрического и
268 9. Включение параметрических компонент
• непараметрического приближений друг от друга. По C(T*>W) опре
деляем A — а)-квантиль V% и отвергаем параметрическую гипотезу
если Тп > Р%. Следующая теорема показывает работоспособность
этой процедуры.
Теорема 9.3.2. Пусть выполняются предположения (А1),...,(Дп
(А5'),(Р1),(К1),(К2). Допустим, что для параметрической оцен.
ки в, основанной на выборке бутстрепа,
Тогда
где bh и V определены в теореме 9.3.1.
Проверим справедливость использования асимптотических ре-
результатов методом Монте-Карло. В первом модельном эксперимен-
эксперименте генерировались точки {Xt}Jl=1, n = 100, равномерно распределен-
распределенные на [0,1], и У^ = т(Х{)+?,-, т(и) = 2г/—и2 с ошибкой ?t- ~ a = 0.1,
не зависящей от Х^ Для построения ядерной оценки использова-
использовалось квартическое ядро. Повторение выборки при бутстрепе произ-
производилось В = 100 раз, а вся процедура выполнялась М = 1000 раз.
Рассматривалась параметрическая модель полиномов второй сте-
степени. Истинная функция регрессии т(-) принадлежала этому
классу. Ширина окна для ядерной оценки h = 0.2. На рис. 9.6
показаны четыре кривые эксперимента Монте-Карло.
Линия 1 означает ядерную оценку плотности методом Монте-
Карло для 1/2-расстояния по М прогонкам. Линия 2 является ядер-
ядерной оценкой плотности по одной бутстреп-выборке (взятой случай-
случайно) из М прогонок. Линия 3 соответствует теоретической нормаль-
нормальной плотности из теоремы 9.3.1, основанной на истинных bh и V-
Наконец, штриховая линия показывает теоретическую нормальную
плотность из теоремы 9.3.1, основанную на оценках величин bh и
V (метка 4). Во всех четырех случаях метод бутстрепа достаточно
хорошо оценивает расстояние. Аппроксимация нормальным рас-
распределением совершенно ошибочна. Для изучения мощности этого
бутстреп-критерия были взяты параметрическая модель
те(х) = вг + в2х + в3х2 (9.3.2)
9.3. Сравнение кривых
269
Рис. 9.6. Четыре оценки плотности величины Тп. Линия
с меткой 1 означает (ядерную) плотность распределения Гп,
полученную по всем прогонкам Монте-Карло (М = 1000). Ли-
Линия с меткой 2 является (ядерной) плотностью Тп по одной
прогонке Монте-Карло с использованием метода бутстрепа
для В = 100 бутстреп-кривых. Кривая, помеченная цифрой
3, — теоретическая нормальная плотность из теоремы 9.3.1
с известными постоянными bh и V. Кривая 4 является тео-
теоретической нормальной плотностью из теоремы 9.3.1 с оце-
оцененными постоянными Ьн и V. Из (Hardle and Mammen, 1988).
и) для различных с, функция регрессии
т(х) = 2х - х* + с (* - ±) (х - 1) (* - 5) • (9.3.3)
Оценки мощности методом Монте-Карло (а = 0.05) сведены в
табл. 9.3.1 для различных значений с и ширины окна ft. Очевидно,
бутстреп-критерий отвергает гипотезу при с = 1.
На рис. 9.7 показаны линейное приближение, кривая Уоркинга
и оценка непараметрического сглаживания кривой Энгеля для ко-
количества питания как функции полного расхода. Данные взяты
Из Family Expenditure Survey A968-1981). Бутстреп-критерий от-
Верг модель линейной регрессии при всех значениях ширины окна,
кривая Уоркинга была отвергнута при некоторых малых значени-
270 9. Включение параметрических компонент
Таблица 9.3.1 Оценки мощно-
мощности бутстр en-критерия мето-
методом Монте-Карло
Л, с
0.1
0.2
0.25
0.3
0.0
0.105
0.054
0.053
0.039
0.5
0.157
0.120
0.099
0.078
1.0
0.325
0.252
0.263
0.225
2.0
0.784
0.795
0.765
0.714
Рис. 9.7. Кривые Энгеля. Кривая 1 — оценка линей-
линейной регрессии для питания A973 г.), по данным из Family
Expenditure Survey. Кривая 2 — непараметрическая ядерная
оценка. Кривая 3 — кривая аппроксимации Уоркинга.
9.3. Сравнение кривых 271
ях ширины окна. Подробно это исследование, проведенное также
для других товаров, представлено в работе (Hardle and Mammen,
1988). ->
упражнения
9.3.1. Составьте программу для критерия точности приближе-
приближения на основе дикого бутстрепа. Примените ее к набору
модельных данных и проверьте, является ли регрессия ли-
линейной.
9.3.2. Рассмотрим линейную модель
me(x) = ei9l(x) + • • • + 0kgk(x) = @, </(*)>,
где д — функция со значениями в Ш,* (для некоторого к).
Для весовой функции W оценка взвешенных наименьших
квадратов 0п = в определяется формулой
в = argmin \J2 ЩХ4)(У - тв(Х{))Ц .
0 Lt=i J
Для линейной модели оценку в можно легко вычислить:
/ » \-i п
= Е Щх4)д(х,)д(хй)Т J2
Рассмотрим теперь фиксированную функцию регрессии т,
которая может принадлежать гипотезе или альтернативе.
Мы хотим записать m как т(х) = т9о(х) + спАп(х) для
некоторых 0О и Дп. Здесь в0 и Дп(я) можно выбрать сле-
следующим образом:
= argmin У W(x)(m(x) -
При таком выборе т$о и Дп и соответствующем скалярном
произведении вектор Дп ортогонален семейству {ш^(х): в G
0}:
W(x)f(x)An(x)g(x)dx = 0.
Отсюда следует, что математическое ожидание в приблизи-
приблизительно равно 0О. Это следует из стохастического разложе-
272 9. Включение параметрических компонент
ния в:
где
h(x) = (У W(x)f(x)g(x)g(x)Tdx^ W(x)g(x).
Подставьте теперь функции д, h в предполол^ение (Р1). Вы-
Выполняется ли (Р1) для этой линейной модели?
9.3.3. Покажите, что (Р1) выполняется также для оценок взве-
взвешенных наименьших квадратов в в нелинейных моделях,
если т() и W() являются "гладкими", а Дп и в0 выбира-
выбираются таким образом, что вектор Дп "ортогонален" параме-
параметрической модели. Заметим, что
(Очевидно, это охватывает параметрический случай: Дп =
= 0.) (Р1) выполняется при
9.3.4. Рассмотрим бутстреп-критерий для кривых и моделей
(9.3.2) и (9.3.3). Убедитесь, что "чрезмерно извилистая кри-
кривая" для с = 1 выглядит не очень хорошо на совместном
графике модели и истинной кривой.
9.3.5. Допустим, вы имеете кривую регрессии m(x) ~
A/10)^>(#/10) с острым пиком. Конечно же, для этой кри-
кривой существует параметрическая модель. Предположим ?е~
9.3. Сравнение кривых 273
перь, что вы применили метод непараметрического сглажи-
сглаживания и при этом пик сгладился. Теперь вы можете сказать,
что параметрическая модель очень сильно отличается от не-
непараметрической модели и, следовательно, вы ее отвергаете.
Как можно скорректировать это смещение?*
[Указание: посмотрите на определение расстояния Тп]
Дополнения
Предположения
(А1) Точки Xi с вероятностью 1 принадлежат компактному
множеству ([0, l]d без ограничения общности). Маргиналь-
Маргинальная плотность f(x) of Xi отделена от нуля.
(А2) го(*) и /(') Дважды непрерывно дифференцируемы. Функ-
Функция w непрерывно дифференцируема.
(A3) Дп(#) ограничена (равномерно по х и п) и сп = n"l2h"dlA.
В частности, это охватывает параметрический случай, так
как Ап можно выбрать = 0.
(А4) Функция <т2(х) = var(Y^|Xt- = x) отделена от нуля и равно-
равномерно ограничена.
(А5) Ее* < оо. Вместо этого условия иногда понадобится сле-
следующее более сильное предположение.
(А5') J?(exp(tet)) равномерно ограничена по г и п для достаточно
малых |/|.
Доказательство теоремы 9.3.1
Вез потери общности приведем доказательство только для d = 1
и w(x) = 1. Прежде всего заметим, что
1=1
= f(x) + Ор(п~2/Ъy/logn) (равномерно по х)>
rhh(x) = m(x) + Op(n~2'5\/logn) (равномерно по х).
Отсюда
Тп = пл/Л / (mh(x) - K,h rne{x)f dx
Jo
274 9. Включение параметрических компонент
Используем теперь (Р1) и ш(-) = тпво(-) + п~9^20Дп(-):
Непосредственными вычислениями получаем
где
П>2~ » ^ /W)W)
Заметим теперь, что
Таким образом, остается доказать асимптотическую нормальность
Тп 2- Воспользуемся подходом, который также работает при дока-
доказательстве теоремы 9.3.2. В соответствии с теоремой 2.1 из (de Jong,
1987) достаточно показать следующее:
п
«(^J/var^^-^O,
Е
где
еслн *фг'
= 0 иначе.
9.3. Сравнение кривых 275
Доказательство первого утверждения очевидно. Для доказатель-
доказательства второго утверждения заметим, что
j> ? EWijnWjknWktnWHn
= 3var(Tni2J
Здесь через Y^ обозначено суммирование по всем попарно разли-
различающимся индексам.
ЧАСТЬ Щ
Сглаживание прц
больших размерностях
ГЛАВА 10
Исследование множественной
регрессии аддитивными
моделями
"Несмотря на то что молено кодировать изображения пере-
переменными большей размерности, используя время (движе-
(движение), цвет, различные символы (глифы), система воспри-
восприятия человека реально не приспособлена для того, чтобы
иметь дело с непрерывной величиной размерностью более
трех."
П. Хьюбер A985, с. 437)
Основная идея сглаживания точечного графика данных может
быть непосредственно распространена на случай более высокой раз-
размерности. Теоретически сглаживание регрессии для d-мерной пре-
дикторной переменной может быть определено так же, как и в од-
одномерном случае. Процедура локального усреднения по-прежнему
будет давать состоятельную аппроксимацию поверхности регрес-
регрессии. Однако при таком подходе к множественной регрессии су-
существуют две большие проблемы. Во-первых, так как при боль-
большой размерности функция регрессии т(х) образует многомерную
поверхность и ее форма не может быть наглядно изображена для
d > 2, этот подход не дает геометрического описания соотношения
регрессии между X и У. Во-вторых, основной элемент непараме-
трического сглаживания — усреднение по окрестности — зачастую
будет применяться по отношению к небольшому набору точек, по
скольку даже выборки объемом п > 1000 характеризуются боль
шой разбросанностью точек при высокой размерности евклиДоВ
пространства. Следующие два примера Вернера Штуэтзла (Wern
Stuetzle) иллюстрируют это "проклятие размерности".
Возможная процедура оценивания двумерных поверхностей м
жет состоять в отыскании наименьшего треугольника с паралле
10. Исследование множественной регрессии 277
ы осям сторонами, содержащего все предикторные векторы,
л наложении регулярной сети на этот прямоугольник. Это да-
ет сто ячеек при разбиении каждой стороны двумерного прямо-
прямоугольника на десять частей. Каждая внутренняя ячейка будет
иметь восемь соседних ячеек. При выполнении этой процедуры
в пространстве размерностью десять общее количество ячеек бу-
будет Ю10 = 10000000000, а каждая внутренняя ячейка будет иметь
З10— 1 = 59048 соседних ячеек. Другими словами, при размерности
десять будет трудно найти соседние наблюдения!
Пусть теперь имеется п = 1000 точек, равномерно распределен-
распределенных в десятимерном единичном кубе [0,1]10. Каков шанс отыска-
отыскания нескольких точек в окрестности разумных размеров? Среднее
по окрестности диаметра 0.3 (по каждой координате) дает в резуль-
результате объем, равный 0.310 « 5.9 • 10~6 для соответствующего десяти-
десятимерного куба. Следовательно, ожидаемое число наблюдений в этом
кубе будет 5.9 • 10~3, и нельзя рассчитывать на удовлетворительное
усреднение. С другой стороны, если зафиксировать число к = 10
наблюдений, предназначенных для усреднения, диаметр типичной
(маргинальной) окрестности будет превышать 0.63, а это означает,
что усреднение распространяется на, по крайней мере, две трети
интервала по каждой координате.
Первый взгляд на разбросанность данных высокой размерности
может привести к выводу, что ситуация просто безнадежная —
у нас нет достаточно глины, чтобы приготовить кирпичи! Одна-
Однако этот первый взгляд является, как и во многих других случаях,
немного ошибочным. Предположим, например, что десятимерная
поверхность регрессии является функцией только х1у первой ко-
координаты Ху и постоянна по всем другим координатам. В этом
случае десятимерная поверхность сводится к одномерной задаче.
Аналогичный вывод имеет место, если поверхность регрессии со-
соответствует функции только некоторых линейных комбинаций ко-
ординат предикторной переменной. Основная идея аддитивных
моделей состоит в использовании преимущества, связанного с фак-
т°м возможного наличия у функции регрессии простой, аддитив-
ной структуры.
Дерево регрессии основано на такой структуре. Поверхность
Агрессии аппроксимируется линейной комбинацией ступенчатых
дикций
— непересекающиеся гиперпрямоугольники со сторонами,
^Раллельными координатным осям. Гиперпрямоугольники стро-
стройся последовательными разбиениями, что может быть представле-
i0 c помощью дерева. Рекуррентный алгоритм разбиения (RPR),
278 10. Исследование множественной регрессии
предназначенный для формирования такого дерева, описывается в
разд. 10.1.
Другой тип аддитивной модели представляет регрессия целена
правленного проецирования (PPR) (Friedman and Stuetzle, 1981)
Эта модель является обобщением модели дерева регрессии и опре-
определяется посредством проекций 0?хуЩ\\ = IJ = 1,...,р. Она
моделирует поверхность регрессии следующим образом:
см. разд. 10.2.
Модель PPR включает одномерные непараметрические функции
линейных комбинаций предикторных переменных, тогда как аль-
альтернативная АСЕ-модель1) определяет линейную комбинацию не-
непараметрических одномерных функций, действующих на коорди-
координаты предикторной переменной неизвестными, возможно нелиней-
нелинейными преобразованиями; см. разд. 10.3.
Последний из рассматриваемых здесь методов близок к модели
PPR:
Коэффициенты 6 определяются как 6 г= Е[т'(Х)]9 т. е. как сред-
средняя производная (ADE);2) см. разд. 10.4. Этот метод оценивания
также имеет важное значение в теоретической экономике, в частно-
частности, в вопросах, связанных с законом спроса (см. работу (Hardle,
Hildenbrand and Jerison, 1989).
10.1. Модели дерева регрессии
Структура оценок поверхности регрессии, которая заложена в мо-
модели дерева регрессии, имеет вид (Gordon and Olshen, 1980)
где Cj — постоянные, а Л^ — непересекающиеся гиперпрямоуголь
ники со сторонами, параллельными координатным осям, причем
*) АСЕ — Alternating Conditional Expectations. — Прим. перев.
2) В оригинале Average DErivative (ADE). — Прим. перев.
10.1. Модели дерева регрессии 279
Додели такого вида иногда называют кусочно-постоянными моде-
моделями регрессии, и их оценивание возможно с помощью метода ре-
рецессии с рекуррентными разбиениями (RPR).3) Если поверхность
регрессии т(х) сама является кусочно-постоянной моделью с из-
известными окрестностями Nj, нетрудно видеть, что наилучшими
оценками для ci (в смысле наименьших квадратов) являются
*,€*,}• (ЮЛ.2)
Таким образом, оценка т(х) для предикторных векторов Х{,
лежащих в Njy попросту равна среднему арифметическому Y-
наблюдений с предикторными векторами из Nj. Заметим, одна-
однако, что метод RPR отличается от описанных ранее методов сгла-
сглаживания. Окрестности могут быть вытянутыми в направлениях,
вдоль которых отклик изменяется не очень сильно, и могут быть
сжатыми вдоль направлений быстрого изменения отклика. RPR
достигает этого с помощью метода рекуррентного разбиения.
Рассмотрим сначала частный случай р = 2. Задача определения
окрестностей Nj решается посредством определения координаты
разбиения I и тонки разбиения s. Координата разбиения и точка
разбиения задают прямоугольники Nj как
где через хх обозначена 1-я координата вектора X. Соответствующее
разбиение выборки задается следующим образом:
Оптим
альные постоянные наименьших квадратов равны
видеть, что сумма квадратов невязок (RSSL) для модели,
с°ответствующей координате разбиения / и точке разбиения в, да-
оригинале recursive partitioning regression. — Прим. перев.
оригинале Residual Sum of Squares (RSS). — Прим. перев.
280 10. Исследование множественной регресс.
ется выражением
RSS(/,s) = var{y;|i G ЗД*)} + var{Y;|i G S2(/,«)}. A0..
Цель состоит в нахождении такой пары (/, «), для которой RSS(/, 8)
минимальна. Отметим, что это требует только (п — 1) разбиений
по каждой координате, поскольку RSS изменяется лишь тогда, ко-
когда 8 переходит через наблюдение. Если существуют 3 окрестности
{Nj}9 мы имеем (п — l)d возможностей для первого разбиения и
(n — 2)d возможностей для второго разбиения, если первое разби-
разбиение определено. Всего мы имеем (п — l)(n — 2)d2 операций для
нахождения наилучшего разбиения при р = 3 окрестностях. Для
произвольного значения р имеется
возможностей. Это число может быть слишком большим для про-
проведения исчерпывающего поиска, поэтому будут рекуррентно при-
применяться элементарные операции случая р = 2. В этом основная
идея рекуррентного разбиения. Начинают с задачи минимизации
для р = 2, как описано выше. Это дает координату разбиения и
точку разбиения (/, s), а также соответствующий гиперпрямоуголь-
гиперпрямоугольник Nl(l,sIN2(l,s). Первое разбиение теперь фиксируется, и та
же процедура применяется рекуррентно к двум прямоугольникам
TVjjTVj. В общем случае эта процедура не приводит к наилучше-
наилучшему разбиению, но она имеет то преимущество, что вычислительные
затраты растут всего лишь линейно по п и р.
Эта процедура разбиения может быть представлена двоичным
деревом, изображенным на рис. 10.1.
В каждой концевой вершине t аппроксимированное значение от-
отклика ш(х) является константой. Дерево можно также рассматри-
рассматривать как многомерную регрессограмму поверхности регрессии (см.
рис. Ю.2.).
Каждая вершина дерева соответствует
• прямоугольной области пространства предикторной пере-
переменной;
• подмножеству наблюдений, лежащих в областях, опреде-
определяемых парой (/, s);
• Постоянной с, которая равна среднему арифметическому
наблюдений, лежащих в 5(/, s).
Заметим, что это дерево (и каждое поддерево) полностью описы-
описывает некоторую кусочно-постоянную модель. Изображение в виДе
дерева имеет то преимущество, что оно позволяет бысто увиДеТ
полученную модель. Можно также получить некоторое преДс<га
вление о геометрии поверхности регрессии, что не так просто Д
рассмотренных ранее процедур локального усреднения.
10.1. Модели дерева регрессии
281
Рис. 10.1. Дерево регрессии с пятью концевыми верши-
вершинами, показанными квадратами. (Предсказанное значение
обозначено здесь через #(<)•) Из (Breiman et al.,1984) с разре-
разрешения Wadsworth Ltd.
В качестве примера рассмотрим набор данных по жилищному
фонду Бостона. В работе (Harrison and Rubinfeld, 1978) собрано n =
506 наблюдений для каждой переписи района Большого Бостона.
Предикторная переменная имела размерность d = 13:
отклик медианное значение стоимости личных домов в
тысячах долларов (MV)
предикторы доля преступности (CRIM)
процент земли, выделенной для больших
участков (ZN)
процент не подлежащего распродаже бизнеса
(INDUS)
указатель реки Чарльз Ривер: 1, если на Чарльз
Ривер, в противном случае: 0 (CHAS)
концентрация окиси азота (NOX)
среднее число комнат (RM)
процент построек до 1980 (AGE)
взвешенное расстояние до центров работы (&IS)
удобство подъезда к радиальным дорогам (RAD)
процент налога (TAX)
соотношение учеников и учителей (РТ)
284 10. Исследование множественной регрессии
Наилучший выбор значения А можно осуществить, например, с по-
помощью кросс-проверки.
Алгоритм 10.1.1
ШАГ 1.
Разделить обучающую выборку на N подвыборок.
ШАГ 2.
FOR j = 1 ТО N DO BEGIN.
ШАГ 3.
Отложить в сторону подвыборку j.
ШАГ 4.
Построить дерево по оставшимся наблюдениям.
ШАГ 5.
Вычислить все оптимально завершенные поддеревья Т(Л)
для различных А.
ШАГ 6.
Подсчитать CVj(\) =RSS npir предсказании j с использо-
использованием дерева Т(А)
END.
ШАГ 7.
N
Положить CV(\) = ? CV,(A).
ШАГ 8.
Найти наилучшее значение А как A t = argminCVr(A).
V A
Упражнения
10.1.1. Докажите, что коэффициенты Cj A0.1.2) являются оцен-
оценками наименьших квадратов параметров с;- модели A0.1.1).
Докажите также A0.1.3).
10.1.2. Рассмотрим случай одномерной переменной X ( d = 1)-
Опишите различие с регрессограммой.
10.1.3. Что получится в результате использования алгоритма RPR»
если поверхность регрессии требует проведения разбиения
не вдоль координатных осей, а вдоль линии, которая непа-
непараллельна ни одной из осей?
10.2. Регрессия целенаправленного проецирования
Метод регрессии с рекуррентными разбиениями (JttPR) в основ-
основном сводится к следующим действиям. Находится координата Р&3
биения, дающая наибольшее уменьшение дисперсии, и определ
ются два гиперпрямоугольника, на которых отыскиваются пр
ближения поверхности регрессии константами. Затем эта пр
10,2. Регрессия целенаправленного проецирования 285
цедура разбиения рекуррентно применяется к каждой получен-
полученной области. Очевидное ограничение этого метода RPR состоит
в том, что разбиение производится только параллельно конкрет-
конкретным координатным проекциям. Функции регрессии, являющиеся
кусочно-постоянными, но в другой, повернутой, системе коорди-
координат, хорошо аппроксимироваться не будут. Простая функция вида
т(я) = т(х1,х2) = ххх2 не была бы хорошо представлена методом
RPR.
Заметим, что эта конкретная^функция т может быть записана
как \(хг + х2J - \{хх - х2J, т. е. как разность двух функций,
зависящих от проекций
"<U)(")
\Х2/
На этом основано следующее обобщение RPR: вместо использова-
использования постоянных функций, зависящих от проекций на координат-
координатные оси, поверхность регрессии аппроксимируется суммой эмпири-
эмпирически определяемых гребневых функций^ одной переменной {<fy},
зависящих от проекций @Тх:
Это представление не обязательно единственное; см. упражнение
Ю.2.1 и работу (Diaconis and Shahshahani, 1984). Гребневые функ-
функции {д.} могут рассматриваться как обобщение линейных функ-
функций: они также постоянны на гиперплоскостях.
Идея аппроксимации функций высокой размерности с помощью
более простых функций, зависящих от проекций, восходит по край-
крайни мере к работе (Kruskal, 1969). В статье (Friedman and Tukey,
1974) эта идея поиска "интересных" проекций применялась при
анализе данных о физических свойствах частиц. (При интерактив-
н°м графическом анализе с помощью PRIM-9 (Fisherkeller, Friedman
and Tukey, 1974) предполагалось, что этот набор данных состоит из
божества "скоплений" малой размерности.) Теоретические аспек-
TbI метода PPR можно найти в работе (Hall, 1988). Обсуждение
*т°го метода с множеством примеров также из области оценива-
ия плотности методом целенаправленного проекцирования пред-
СХавлено в статье (Jones and Sibson, 1987).
ft
° оригинале ridge functions. — Прим. перев.
286 JO. Исследование множественной регрессии
Проекции аддитивных моделей A0.2.1) формируются итератив-
итеративным образом посредством циклического поиска /J^s и </;s. В работе
(Friedman and Stuetzle, 1981) предложен следующий алгоритм.
Алгоритм 10.2.1
Регрессия целенаправленного проецирования (PPR)
ШАГ 1.
Центрировать отклик: п" ]Г)Г=1 Y% = 0.
ШАГ 2.
Задать начальное значение текущих невязок
4°) = у;, i=i,...,n>
и положить р = 0.
ШАГ 3.
Осуществить поиск следующего члена в модели A0.2.1).
Для данной линейной комбинации Zi = 0^ Xi найти оценку
{^p+i(^t)}?=i- Оценить качество текущей оценки в терми-
терминах доли необъясненной дисперсии6)
t=i t=i
Найти вектор проецирования /?p^i, максимизирующий
Яр+Л&) (поиск проекции) и соответствующую оценку <7р+г
ШАГ 4.
Бели критерий приближения q(/3) меньше, чем указанный
пользователем порог, STOP.
Иначе, образовать следующий набор невязок:
_ Ар) _h
и перейти к ШАГУ 3.
Поскольку вычисления в этой процедуре сглаживания
итеративный характер, этот алгоритм должен быть эффективны
с вычислительной точки зрения. Мы бы рекомендовали использ
вать метод симметризованного Jb-^ЛГ-сглаживания (разд. 3.2) и
ядерный WARP-сглаживатель (разд. 3.1). Векторы проецир00
ния /?р+1, максимизирующие др+1(/?), могут быть найдены метод0
Ньютона — Рафсона. В работе (Friedman and Stuetzle, 1981)
строен искусственный пример с ш(х) = хгх2. Выборка объе
' В оригинале fraction of unexplained variance. — Прим. перев'
10.3. Чередование математических ожиданий , 287
п = 200 наблюдений генерировалась в соответствии с равномер-
равномерным распределением (Х1УХ2) на (—1,1J и е ~ #@,@.2J). Ниже
представлен процесс обучения для этих данных, выполненный в
вычислительной среде XploRe A989) и использующий описанный
выше алгоритм.
На рис. 10.4 показана зависимость У от начальной проекции на
f3x = A,0)т. Затем алгоритм использует метод Ньютона — Рафсо-
на для нахождения другого направления. Промежуточный шаг в
этом поиске показан на рис. 10.5. Первая оценка гребневой функ-
функции дг() изображена на рис. 10.6. Доля объясненной дисперсии
и значение /Зг представлены на рис. 10.7. Вектор проецирования
j}J = @.669, —0.74) был найден посредством поиска проекции с со-
соответствующей оценкой gY{Pjx). Затем продолжалось выполнение
алгоритма в вычислительной среде XploRe A989) с формировани-
формированием невязок и последующими вычислениями, описанными выше в
алгоритме.
На рис. 10.8 показан результат, полученный после аппроксима-
аппроксимации невязок с помощью алгоритма PPR. Вторая полученная оценка
гребневой функции д2(-) показана вместе с точками данных. Доля
объясненной дисперсии равна 0.80725, а значение /Ц = @.668,0.74).
Третья проекция не принята алгоритмом, поскольку критерий при-
приближения оказался ниже заданного пользователем порога 0.1. Чи-
Чисто квадратичные формы дх и д2 вместе с векторами коэффициен-
коэффициентов /?х и /?2 показывают, что метод PPR в основном нашел аддитив-
аддитивную форму функции тп(х):
тп(х) = ххх2 = -(а?! + х2J - -(xj - x2f .
Упражнения
Ю.2.1. Найдите бесконечно много представлений функции
т(хг,х2) =: ххх2в виде суммы двух гребневых функций.
Ю-2.2. Найдите функцию, которая не может быть представлена в
виде суммы конечного числа гребневых функций.
Ю.З. Чередование условных математических
ожиданий
^членение сложной регрессии со многими переменными на си-
°ТемУ более простых соотношений — каждое содержит меньшее
Исло переменных — вот желанная цель при моделировании дан-
н регрессии высокой размерности. В работе (Leontief, 1947a), на-
, рассматривается процесс производства стали и отмечается
288 10. Исследование множественной регрессии
ос
о.
1
-
1.8
0
-
-
-
х
X
т
X
1
X
*х
X
1
X
X
X х
>
X
X
1
1—
х
*
1
—г
1
X*
***
X X
г
*
X
*х
X
1
А
X
*\
хх
—|—
* *х
X
X
Xх
1
¦ г
X
*хх
X
х \
X
1
X
X
f
X
X
X
х Г-
X
X
X ~
X
X -
X
-
X _
-г.1
-1.05
x-PPR
1.05
Рис. 10.4. Зависимость отклика Y от начальной проекции
P{X,Pi = A,0). Выполнено с помощью XploRe A989).
необходимость объединения различных материалов, используемых
при производстве стали, в дополнительные промежуточные пере-
переменные. Такая цель может быть достигнута, например, с помо-
помощью аддитивной модели, в которой функция регрессии большого
числа переменных т(х) разлагается в сумму непараметрических
функций.
Более точно, пусть Ф(У),^1(Х1),... ,gd{Xd) — произвольные из-
измеримые функции с нулевым средним, зависящие от соответству-
x-PPR
1.05
Рис. 10.5. Отклик Y и оценка (симметризованного *- ^
сглаживания) на промежуточном шаге. Выполнено с я
щью XploRe A989).
10.3. Чередование математических ожиданий
289
1.8
0
-1.8
i
—
-
.•
i 1 i
1. i | i
1 i 1 i
-2.1
-1.05
x-PPR
1.05
Рис. 10.6. Отклик У и первая гребневая функция дх.
@.668,0.74). Выполнено с помощью XploRe A989).
ющих случайных величин. Доля дисперсии, не объясняемая при
помощи регрессии Ф(У) на Ylj=i9j(Xj), равна
е2(Ф,(/1,...,^) =
A0.3.1)
Определим оптимальные преобразования W ,д\,.. .,g*d, минимизи-
минимизирующие A0.3.1). Такие оптимальные преобразования существуют,
и АСЕ-алгоритм (Breiman and Friedman, 1985) дает оценки этих
1.8
0
(?
О.
^-1.8
1 1.1
-
•
-
•
г ^
_ ^^
projection pursuit regression
exit ppr
create residual workunit
optimize 1-0,61478
snou> standard deviations
dots smooth
UP step: 1.00000 deg
DOWN y
FWD ueci: 0.66987
BWD
uecZ: -0.7A247
-
-
—
• 1 1 1 1 1 1 1 1
-2,1
-1.05
x-PPR
1.05
Рис. 10.7. Меню управления PPR-модуля XploRe A989).
290 10. Исследование множественной регрессии
-2.1 -1.05 0 1.05
Рис. 10.8. Отклик Y и вторая гребневая функция g^, /?J =
@.668,0.74). Выполнено с помощью XploRe A989).
преобразований. В работе (Leontief, 1947b) такие модели названы
аддитивными сепарабелъными и описан метод проверки этой ад-
аддитивной сепарабельности.
Для случая двух переменных(е/ =1) оптимальные преобразова-
преобразования Ф* и д* удовлетворяют условию
p*(X,Y) =
где р — коэффициент корреляции. Величина р* известна так-
также как коэффициент максимальной корреляции между X и Y
и используется в качестве меры зависимости. По теоретическим
свойствам максимальной корреляции отсылаем читателя к рабо-
работе (Breiman and Friedman, 1985). Ее авторы также отмечают, что, в
соответствии с результатами Колмогорова, если (У, Хх,..., Xd) име-
имеют совместное нормальное распределение, то преобразования Ф,^
с максимальной корреляцией линейны.
Допустим, что данные порождены моделью регрессии
Отметим, что оптимальные преобразования при этом не соответ-
соответствуют функции условного среднего. Отыскание функций, макси-
максимизирующих корреляцию, не то же самое, что оценивание фун*~
ции условного среднего. Однако если функции gj(Xj) имеют со-
совместное нормальное распределение, а е — независимая нормаль-
нормальная случайная величина, то оптимальные преобразования в точно-
10.3. Чередование математических ожиданий
291
сТи совпадают с (линейными) преобразованиями Фи^. В общем
случае, однако, для модели регрессии данного вида с ошибками ?,
независящими от X, оптимальные преобразования отличаются от
преобразований, используемых для построения модели. На прак-
практике иногда это отличие преобразований, найденных с помощью
дСБ-алгоритма, имеет место, как будет видно из упражнений.
Для иллюстрации АСЕ-алгоритма рассмотрим сначала случай
двух переменных:
2 . A0.3.2)
Оптимальное преобразование Ф(У) для данного д(Х) при условии
=1 равно
•ЛУ) = E\g(X)\Y] /\\E\g(X)\Y]\\, A0.3.3)
где [| • || = [if(-J]1/2. Минимизация A0.3.2) относительно д(Х) при
фиксированном Ф(У) дает
9l(X) = E[*(Y)\X].
A0.3.4)
Основой следующего алгоритма итеративной оптимизации являет-
является чередование условных математических ожиданий A0.3.3) и
A0.3.4).
Алгоритм 10.3.1
Основной АСЕ
SET ЩУ) = Y/\\Y\\;
REPEAT <7i(X) = E[*(Y)\X];
Заменить g(X) на g^X);
ФХ(У) = E[g(X)\Y]/\\E[g(X)\Y}\\
Заменить Ф(У) на Ф^У)
UNTIL е2(Ф,^) перестает убывать.
Более общий случай многомерной предикторной переменной
можно трактовать по аналогии с основным АСЕ-алгоритмом. Для
Жданного набора функций {9j(XA}j:s:1 минимизация A0.3.1) отно-
относительно Ф(У) при условии ?Ф2(У) = l
Дает
Е
Далее A0.3.1) минимизируется относительно одной функции д^{Хк)
пРи заданном Ф(У) и при фиксированных flf1(X1),..., <7jt-i(^*-i)>
^+i(^*+i)» • • -i9d(Xd)' Эта итеративная процедура описывается
п°лным АСЕ-алгоритмом.
292 10. Исследование множественной регрессии
Алгоритм 10.3.2
Полный АСЕ
SET Ф(У) = У/ЦУ|| и д,(Х,) = 0, 1 < j < d;
REPEAT
REPEAT
FOR Ik = 1 TO d DO BEGIN
9кЛ(Хк) = Е[ЩГ) - Е^к9^)\Хк];
9k(Xk) = 9к,ЛХкУ,
END;
UNTIL е2(Ф,9i,...,gd) перестает убывать;
Ф(У) = ФХ(У);
UNTIL е2(Ф, </х,..., gd) перестает убывать.
На практике приходится использовать сглаживатели при оцени-
оценивании возведенных в степень условных математических ожиданий.
Рекомендуется использовать полностью автоматизированную про-
процедуру сглаживания такую, как суперсглаживателъ. На рис. 10.9
показан набор трехмерных данных (Х1УХ2,У), где Хг,Х2 — неза-
независимые стандартные нормальные случайные величины, а
со стандартными нормальными ошибками е. С помощью АСЕ-
алгоритма получено преобразование д1} представленное на
рис. 10.10.
Отметим значительную близость полученного преобразования к
преобразованию gi(xx) = хх. На рис. 10.11 изображена оценка пре-
преобразования Ф, которое очень хорошо аппроксимирует функцию
Чу) = у1/3-
В работе (Breiman and Friedman, 1985) методология АСЕ приме-
применялась в примере с набором данных по жилищному фонду Бостона
(Harrison and Rubinfeld, 1978; см. также разд. 10.1). Полученная в
результате модель, включающая четыре предикторные переменные,
имеет е2 = 0.89. (Применение АСЕ ко всем 13 переменным приво-
приводило лишь к увеличению е2 на 0.02.) На рис. 10.12а показан график
преобразования переменной отклика Ф(у), взятый из статьи Брей-
мана и Фридмана. Как видно, эта функция имеет положительную
кривизну для центральных значений у, соединяя два прямолиней-
прямолинейных отрезка разного наклона по обеим ее сторонам. Из этого сле-
следует, что логарифмическое преобразование, используемое в рабо-
работе (Harrison and Rubinfeld, 1978), может быть слишком простым-
На рис. 10.12Ь показано преобразование отклика для исходных не-
преобразованных данных переписи. Остальные графики рис. 10.12
показывают другие преобразования д^\ подробности см. в (in
and Friedman, 1985).
10.3. Чередование математических ожиданий 293
DYNAMIC 3D Graphics
X
X
X
M0DEL3
- MODEL3
Рис. 10.9. Набор модельных данных. Х1}Х2,е — независи-
независимые стандартные нормальные, Yi = (Xa + Xi2K + ei91 < i\ <
n = 100. Выполнено с помощью XploRe A989).
Упражнения
10.3.1. Докажите, что в случае двух переменных функция A0.3.3)
действительно задает оптимальное преобразование Ф*.
10.3.2. Докажите, что в случае двух переменных функция A0.3.4)
действительно задает оптимальное преобразование д*.
10.3.3. Воспользуйтесь АСЕ алгоритмом для реальных данных.
Какой метод сглаживания вы предпочли бы использовать
в качестве элементарного строительного блока?
Ю.3.4. В дискуссии к статье (Breiman and Friedman, 1985) исследо-
исследователи D. Pregibon и Y. Vardi использовали набор данных,
порожденных для
У = ХХХ2
при Хг ~ [/(—1,1) и Х2 ~ (/@,1). Какие возможны пре-
преобразования Ф,<7?
Ю.3.5. Воспользуйтесь АСЕ-алгоритмом для набора данных из
упражнения 10.3.4. Какие преобразования у вас получи-
получились? Совпадают ли они с преобразованиями, которые бы-
были вами вычислены в упражнении 10.3.4?
[Указание: См. обсуждение статьи (Breiman and Fried-
Friedman, 1985).]
294 JO. Исследование множественной регрессии
STATIC 2D Graphics
1.1
0
1.1
-
-
-
-
1
1 '
X
X
1 1
X
X
** **
1 1 1 1 1
-1.25 0 1.25 2.5
X-W0RK0NIT4
Рис. 10.10. Преобразование д\(Х{), полученное АСЕ-алго-
ритмом. Выполнено с помощью XploRe A989).
10.4. Оценивание средней производной
Основная потребность в изучении средней производной
S-= E[
где
=(ёг ъ
возникает в связи с моделями, в которых средний отклик зависит
от X только посредством линейной комбинации /3Тх. Это означает,
что аналогично регрессии с целенаправленного проецирования
тп(х) = д(хтр) (Ю.4.1)
для некоторой непараметрической функции д.
Средняя производная 6 пропорциональна вектору /?, поскольку
6 = E[m'(X)] = E[dg/d(xT/3)}/3.
Таким образом, вектор средней производной 6 определяет Р с т0
ностью до нормировки. В этом разделе строится непараметри
екая оценка 6 средней производной, достигающая скорость пор
ка п'2 (типичную для параметрических задач). Исходя из эт
10.4. Оценивание средней производной 295
STATIC 2D Graphics
-19
X-W0RKUN1T5
Рис. 10.11. Оценка преобразования ф(У). Выполнено с по-
помощью XploRe A989).
оценки 6 формируется оценка rh(x) = д(хТ6) функции многих пе-
переменных, которая достигает скорость п/5 (типичную для одно-
одномерных задач сглаживания). Взвешенные оценки средних произ-
производных были введены в работе (Powell, Stock and Stoker, 1989).
Предположим, что функция д(хт6) = E(Y\X = xT6) нормирова-
нормирована таким образом, что E[dg/d(x^6)] = 1. Метод оценивания средней
производной (ADE) позволяет непосредственно оценивать вектор
весов /? в A0.4.1). (Заметим, что в методе PPR модель A0.4.1) не
идентифицируема, если не сделать такого предположения норми-
Ровки.)
Пусть f(x) обозначает маргинальную плотность,
/' = д//дх
^ вектор ее частных производных, а
/ =-01og//0* = -/'//
~~ логарифмическая производная плотности со знаком минус. Ин-
Тегрирование по частям дает
6 = E[m'(X)] = E[IY\. A0.4.2)
I I I I T I I I I I I
2
Sc
ос
я
g -
1 1
-
-
-
VI
1 1 1 1 1 1 1
1
1 I 1 1 1 1 1
1 1 1 1 1 1
1 1 1 1 1
• I
I -
i i 1 • i Г
О
I
со
о
-li | i i i i ; i i
:4\.
I I
- ж
: <%
- a
', , i , . , i i i i
" i" " i''
..I....I..
i i j I i I I-
1 1 1 1
1 1 I I | I i
1 I I 1 I I I I 1 i .
.. 1. i. Г
J ¦ • I I M I ¦ I I I I I I I I • • I • •• • I ¦• T
\
", ,,, III, jI m . .!.«'. .l.i.i In
T- О T-
I I
1111
298 J0. Исследование множественной регрессии
Следовательно, если Д означает ядерную оценку /(я), а /(«) ^
—Д(ж)/Д(ж), то 6 можно оценивать по аналогии с выборочным
средним:
tssl
Поскольку эта оценка включает деление на Д, более целесообразно
использовать на практике улучшенный метод оценивания. По этим
соображениям предложена следующая оценка:
с индикаторной переменной
к = HIM) > U, *„ - о.
и оценкой плотности
Заметим, что здесь ядерная функция К содержит d аргументов.'
Такое ядро можно построить, например, как произведение одно-
одномерных ядер; см. разд. 3.1. Следующая теорема представляет
основной результат работы (Hardle and Stoker, 1989).
Теорема 10.4.1. Предположим, что в дополнение к условиям ис-
исключительно технического плана f — р раз дифференцируема*
функция, {Ьп} "медленно" сходится к нулю и nh2p~2 —> 0, где р ~~~
число производных функции f. Тогда оценка средней производной
6 имеет предельное нормальное распределение
где Е — матрица ковариаций случайного вектора
l(X)Y + [т'(Х) - 1(Х)т(Х)] .
go-
Прокомментируем важные моменты этого результата.
первых, условие на последовательность ширины окна искЛ10^тти-
оптимальную последовательность А ~ n~1/BP+d); CM. разд. 4.1.
рина окна h должна стремиться к нулю быстрее, чем оптималь
скорость, чтобы обеспечивать скорость убывания смещения он
10.4. Оценивание средней производной 299
I быстрее требуемой п/2. Аналогичное наблюдение можно сде-
сделать в контексте полупараметрических моделей; см. разд. 8.1. Во-
вторых, матрица ковариаций формируется из двух членов l(X)Y
и т'(Х) — 1(Х)т(Х). Если бы маргинальная плотность была из-
известна, то первый член l(X)Y определял бы матрицу ковариаций.
Именно оценивание 1(Х) вектором 1(Х) приводит к этому второму
члену. В-третьих, условие на ширину окна имеет качественный ха-
характер, т. е. оно требует, чтобы Л стремилось к нулю не "слишком
быстро" и не "слишком медленно". Более точный анализ (Нагdie,
Hart, Marron and Tsybakov, 1989) членов второго порядка показыва-
показывает, что для d = 1 значение MSE оценки 6 может быть представлено
в виде разложения
MSE{8) ~ n-1 + n-lh~* + Л4. A0.4.4)
Следовательно, ширина окна, минимизирующая это выражение,
должна быть пропорциональна п^7. В-четвертых, определение
срезающей последовательности 6П на практике связано с некото-
некоторыми трудностями; обычно рекомендуется срезать на уровне пяти
процентов величины 1(Х{).
Перейдем теперь к оцениванию g в A0.4.1). Предположим, что
на первом шаге получена оценка 6, дающая одномерные проекции
Ъ{ = 6ТХ{, г = 1,..., п. Пусть gh,{z) — ядерная оценка регрессии
Y на Z с одномерным ядром Кг, т. е.
K'h.(z - ZM/n-1 J2 KM* - Ъ). A0.4.5)
Предположим пока, что в A0.4.5) вместо Z{ используются Z{ =
* Х{. Хорошо известно (разд. 4.2), что в этом случае полученная
°Ценка регрессии асимптотически нормальна и имеет оптимальную
поточечную скорость сходимости п~2/5. Теорема 10.4.2 утвержда-
ет» что мы не расплачиваемся за использование оценок проекций
\2,}, т. е. за счет аддитивности достигается эффект уменьшения
Размерности, как отмечено в работе (Stone, 1985).
10.4-2. Если ширина окна Л' ~ п/5, то
Чмеет предельное нормальное распределение со средним B(z) и
Чсъерсией V(z), где, обозначив плотность проекции 6ТХ через
300 10. Исследование множественной регрессии
fzy имеем
Более формально процедура ADE описывается следующим алго-
алгоритмом.
Алгоритм 10.4.1
ШАГ 1.
Вычислить 6 A0.4.3) с уровнем срезки a = 5%.
ШАГ 2.
Вычислить g A0.4.5) по данным FТХО У|), используя ши-
ширину окна одномерной кросс-проверки.
ШАГ 3.
Обеъединить оба шага в функции
гп(х) = дFх).
Применение этого метода представлено в приложении 2, где
рассматривается необходимая вычислительная среда для методов
сглаживания при высокой размерности. Результаты моделирова-
моделирования ADE алгоритма для различных ненараметрических моделей
при размерности более четырех можно найти в работе (Hardle and
Stoker, 1989). Одна из моделей этой статьи
Y,Xi} +O.le,., i=l,...,n,
где ?,-, Х{ х,..., Xi4 — независимые стандартные нормально распре-
распределенные случайные величины.
Средняя производная имеет вид
и ряд скучных вычислений дают 60 = 0.135. В табл. 10.4.1 приведе-
приведены результаты по 100 реализациям Монте-Карло с правилом срезки
при a = 0.05. Важно, что даже в случае известной плотности (а
следовательно, при известной функции /) стандартное отклонен**^
(данное в скобках) имеет значения, близкие к случаю неизвестно
/. Это снова показывает, что мы не расплачиваемся (скорость пара
метрическая!) за незнание функции /. Вычисления, выполненнь>1
при п = 200, привели в результате к 6 = @.230,0.023,0.214,0.17У;
Корреляция между Z{ = 6ТХ{ и Z{ = 6ТХ{ равна 0.903.
ченная оценка ghi(z) изображена на рис. 10.13 вместе с точка
JO.5. Обобщенные аддитивные модели 301
Таблица 10.4.1 ADE оценка синусоидальной модели.
[Замечание: в скобках даны стандартные отклонения,
полученные методом Монте-Карло, п = 100, а = 0.05]
ь
h = 0.9
0.1134
@.0960)
0.1356
@.1093)
0.1154
@.1008)
0.1303
@.0972)
0.0117
h = 0.7
0.0428
@.0772)
0.0449
@.0640)
0.0529
@.0841)
0.0591
@.0957)
0.0321
h = 1.5
0.1921
@.1350)
0.1982
@.1283)
0.1837
@.1169)
0.2042
@.1098)
0.0017
Известная плотность
0.1329
@.1228)
0.1340
@.1192)
0.1330
@.1145)
0.1324
@.1251)
{^,У^}р=1. Ядерная оценка, основанная на истинных проекциях
Z{) показана вместе с оценкой ghi(z) на рис. 10.14. Полученная
оценка ghi(z) очень близка к истинной кривой регрессии, что под-
подтверждает рис. 10.15.
Упражнения
10.4.1. Докажите формулу A0.4.2).
10.4.2. Объясните условие ширины окна, "что ширина окна Л
должна стремиться к нулю быстрее оптимальной скорости",
используя формулу A0.4.4).
10.4.3. Рассмотрим частично линейную модель, как в гл. 8. Каким
образом можно оцепить параметрическую часть, используя
ADE?
10.4.4. Допусим, что X — стандартная нормальная случайная ве-
величина. Что в этом случае представляет собой функция /?
10.4.5. Что из себя представляет 6 в случае чисто линейной модели
Y = CТХ?
Обобщенные аддитивные модели
Щенные линейные модели (GLIMO) представляют собой моде-
и Регрессии, в которых линейный предиктор
г) = 0тХу ХЕШ*, A0.5.1)
°Ригинале Generalized Linear Models (GLIM). — Прим. перев.
302 JO.. Исследование множественной регрессии
1.5
-3 -2
Рис. 10.13. Полученная оценка gh*(z) и спроектированные
данные {Z^}^.
связан с дискретной переменной отклика У € {0,1} через функцию
связи8) G(-). Хорошо известна логистическая модель дозировки9',
когда при каждом значении X вероятность двоичного отклика
р(х) = P(Y = 1\Х = х)
моделируется логистической функцией
Здесь функция логит-связи
10)
A0.5.2)
A0.5-3)
8^ В оригинале link function. — Прим. перев.
' В оригинале logistic dose response model. — Прим. перев.
10' В оригинале logit link function. — Прим. перев.
10.5. Обобщенные аддитивные модели
303
-0.5 -
Рис. 10.14, Две ядерные оценки, основанные на {Zit V^}[*=1 и
{Z^YJJJLj соответственно. Тонкая линия — результат ADE
алгоритма, основанный на оценках проекций Zi = 6ТХ^
Жирная линия — ядерная оценка, основанная на истин-
истинных проекциях Z, = 6 Л\.
В экономической литературе такие модели называют моделями
декретного выбора11^ Многие эмпирически важные экономиче-
ские решения включают выбор сред!И дискретного набора альтер-
Натив. Индикаторная переменная У может, например, обозначать
^шение о виде транспорта (автомобиль или автобус). Много при-
МеРов можно найти в работе (Manski and McFadden, 1981). Основ-
^ идея дискретного выбора состоит в моделировании решения
р Некотором объекте экономической целесообразности посредством
^Номиалыюго распределения, зависящего от /3ТХ. В примере с
рением о виде транспорта предикторная переменная Л' может
^1Ть расстоянием до места работы, а индикатор — социальным
^атусом. Как правило, модель A0.5.2) является параметрической
своей природе, и можно было бы спросить, почему предиктор-
В
°ригинале discrete choice models. — Прим. перев.
304 JO. Исследование множественной регрессии
i.0
-0.5 -
Рис. 10.15. ADE оценка и истинная кривая. Тонкая ли-
линия — ADE оценка, как и на рис. 10.14 и 10.13; жирная ли-
линия — истинная кривая g{8T Х{).
ная переменная входит именно линейно в вероятностное описание
процесса принятия решения.
В работе (Hastie and Tibshirani, 1986) предложено обобщение рас-
рассмотренной выше аддитивной модели в форме
A0.5.4)
где gj — непараметрические функции регрессии. Авторы назв ^
ли модель A0.5.4) с известной функцией связи G() обобщенН°
аддитивной моделью (GAM).12) a
В рамках подхода GLIM (McCullagh and Nelder, 1983) параметр^
в A0.5.3) определяется с помощью метода взвешенных наимень ^
квадратов. Более точно, для заданного значения т) (текущая оие
Аббревиатура GAM происходит от Generalized Additive
Прим. перев.
Model-
JO.5. Обобщенные аддитивные модели 305
линейного предиктора) с соответствующим значением
ii = G-\f,)
формируют настраиваемую зависимую переменную
Z = ri + (Y-JA)(dri/dii). A0.5.5)
Затем определяют веса W из условия
где V — дисперсия У при /i = /i. (В случае логит-связи Wt =
p(Xt)(l — p(Xt)).) Далее для получения оценки E осуществляет-
осуществляется регрессия Z на X с весами W. Используя /?, вычисляют новые
значения (лиг). Вычисляется новое значение Z, и процесс повторя-
повторяется до тех пор, пока изменение логарифмического правдоподобия
не станет достаточно малым.
Эта же идея лежит в основе алгоритма локальных меток13\
предназначенного для аппроксимации обобщенных аддитивных
моделей; см. (Hastie and Tibshirani, 1987). Меткой в алгоритме
локальных меток является алгоритм обратной подгонки14), оцени-
оценивающий функции аддитивной регрессии
в предположении, что
Алгоритм 10.5.1
Обратной подгонки
INITIALIZATION
</•(*) = 0 для всех х, j, a = n ?"=1 Yt = У;
REPEAT
FOR j = 1 ТО d DO BEGIN
FOR i = 1 TO n DO BEGIN
U
gAXij) = SMOOTH^) AT X{j.
END
END
UNTIL RSS = ZiWi ~ & ~ E,- M*.j)J СХ°ДИТСЯ-
13)
В оригинале local scoring algorithm. — Прим. nepee.
В оригинале back fitting algorithm. — Прим. nepee.
306 10. Исследование множественной регрессии
Здесь SMOOTH AT X означает быстрый и эффективный метод
сглаживания, например ядерный БПФ-сглаживатель или k-NN-
сглаживатель с симметричными весами (разд. 3.1, 3.2). Мы реко-
рекомендуем k-NN при "среднем" ib как более простой метод. Более ис-
искушенные пользователи, возможно, пожелают воспользоваться су-
персглаживателем. Алгоритм локальных меток основан на методе
обратной подгонки и определяется следующим образом.
Алгоритм 10.5.2
Локальных меток
INITIALIZATION
g)°\x) = 0 для всех x,j, d<°> = hgit(Y).
REPEAT OVER к
FOR i = 1 TO n DO BEGIN
fp)(Xt) = &(*> + Й-i'iW
p(Xf) = logit-
Zf = П{к)Ш + (У, -
^=p№)(l№
END
OBTAIN
* , $
обратной подгонкой Zi по Х{ с весами И^.
UNTIL
DEV = -2 ?,-(У< logp(^) + A - У;) log(l - p(X{)))
СХОДИТСЯ.
В работе (Hastie and Tibshirani, 1987) приведен пример анализа
при изучении болезни коронарных сосудов сердца. Индикаторная
переменная У обозначала болезнь сердца. Предикторная перемен-
переменная X была шестимерной и включала такие факторы, как систо-
систолическое давление крови (SBPI5) и совокупное потребление табака
(CTII6) Результаты применения этого алгоритма локальных меток
представлены на рис. 10.16. Здесь показана оценка дг вклада SBP
в logit(p(x)), и можно увидеть, что она заметно отличается от клас-
классической линейной логит-модели. См. также рис. 10.17.
Ясно видна нелинейная структура кривой условной вероятности
в логит-масштабе. Теоретические свойства этого алгоритма до сих
пор не изучены.
15> Аббревиатура SBP означает Systolic Blood Pressure. — Прим. пере*-
1б) Аббревиатура CTI означает Cumulative Tobacco Intake (совокурн°е
потребление табака). — Прим. перев.
10.5. Обобщенные аддитивные модели
307
4F
100 120 140 160 180 200 220
Систолическое давление крови
Рис. 10.16. Оценка дх вклада SBP в logit(p(x)) — сплошная
жирная линия. Две штриховые линиии — д^ ± 2STD(gx).
Из (Hastie and Tibshirani, 1987) с разрешения Королевского
статистического общества.
Упражнения
Ю.5.1. В чем основное различие между моделью АСЕ и GAM?
Ю.5.2. Выведите выражения весов и настраиваемых невязок для
логит-случая
Ю.5.3. Примените метод GAM к данным о боковых ударах, при-
приведенным в табл. 3 приложения 2.
308 10. Исследование множественной регрессии
4
б 8 10 12 14 16 18 20
Потребление табака, кг
Рис. 10.17. Оценка д2 вклада CTI в logit(p(x)) — сплошная
жирная линия. Две штриховые линии — д2 ±2STD(g2). Из
(Hastie and Tibshiram, 1987) с разрешения Королевского ста-
статистического общества.
Приложение 1
"Наше понимание анализа данных в значительной степени
определяется той вычислительной средой, в которой этот
анализ выполняется."
МакДональд и Педерсон A986)
.Желаемая вычислительная среда
Статистик, изучающий с помощью процедур сглаживания неиз-
неизвестные соотношения исследовательского или экспериментального
характера, фактически выполняет особый вид работы программи-
программиста. МакДональд и Педерсон (McDonald and Pederson, 1986) были
одними из первых осознавших сильное влияние фактора вычисли-
вычислительной среды на анализ данных. Другими словами, вычислитель-
вычислительная среда определяет глубину проводимого анализа, а также резуль-
результат процесса построения модели, основанного на методах непара-
непараметрического сглаживания.
Этой цели более всего соответствует интерактивная вычисли-
вычислительная среда, проектируемая с учетом специфики эксперимен-
экспериментального программирования при сглаживании данных. Чтобы уви-
Деть, почему это экспериментальное сглаживание не может быть
представлено с помощью пакетно-ориентированных систем, рас-
рассмотрим следующий типовой цикл анализа.
Во-первых, оценка сглаживания вычисляется некоторым спе-
специальным методом с конкретным значением параметра сглажива-
сглаживания. Во-вторых, осуществляется исследование некоторых характе-
характеристик приближения и невязок (например, имеет ли оценка экс-
тРемумы в предполагаемых точках или сохраняется ли постоян-
постоянство структуры в изображении невязки?). На третьем шаге может
°Цениваться эффект и влияние обнаруженных характеристик на
кривую приближения. На последнем шаге этого круга, осуществля-
еМого при анализе данных, может проводиться сравнение текущей
°Ценки с другими приближениями, возможно полученными исхо-
310 Приложение 1
дя из альтернативных параметрических моделей. Конечно, такой
обход по этому циклу может повторяться очень много раз. Невоз-
Невозможно эффективно представить этот цикл анализа с помощью па-
кетно ориентированной вычислительной среды, поскольку в такой
среде технически доступной является лишь статическая последо-
последовательность представления результатов анализа.
Другой сценарий, требующий интерактивных возможностей, со-
состоит в маркировке точек данных (например, больших выбросов).
Может возникнуть желание пропустить некоторые из точек и вы-
выполнить некоторые операции с оставшимися данными, чтобы из-
изучить эффект исключения точек. Пакетно ориентированные си-
системы не приспособлены для таких целей интерактивного приня-
принятия решения, поскольку в основном приходится писать дополни-
дополнительные программы для идентификации точек, которые должны
быть отброшены. В интерактивной вычислительной среде такие
точки маркировались бы, например, нажатием клавиши манипу-
манипулятора "мышь".
Проектирование XploRe A989) в качестве таких пожеланий им-
импровизационного программирования включает широкое использо-
использование интерактивных графических методов (выбор и идентифи-
идентификация, ориентированные на использование манипулятора "мышь";
меню с вытеснением нижней строки). Кроме того, эта среда под-
поддерживает пользователя набором обслуживающих программ для
наложения, просмотра, маркировки и даже вращения данных.
Множества данных повышенной размерности могут анализиро-
анализироваться с помощью аддитивных моделей: регрессии, деревьев ре-
регрессии с рекуррентным разбиением, чередование условных мате-
математических ожиданий и оценивание средней производной.
Пользователь может связаться со справочными файлами через
набор "окон помощи". Проектировщик вычислительной среды
определяет, на какой стадии анализа и какие "окна помощи" долж-
должны появиться. Справочная информация получается простым на-
нажатием клавиши F1. Последовательное нажатие клавиши помощи
проводит через набор присоединенных окон помощи.
XploRe является открытой системой, написанной в сре-
среде TURBO PASCAL 5.0. В основном это структура, ожидающая
дополнительной "программистской работы", которая усилит вы-
вычислительные возможности. Ее конструирование находилось под
влиянием аналогичных систем, таких как S (Becker and Chambers,
1984) или DINDE (Oldford and Peters, 1985). XploRe использует
объектно-ориентированный подход и позволяет использовать кон-
концепцию наследования последовательно описываемых свойств. Д6"
тальное описание функций и процедуры введения в действие н*~
писанной пользователем программы дано в работе (Broich, Н&г<**е
and Krause, 1989). XploRe написана для IBM PC/AT, XT или IBM-
Анализ данных в среде XploRe 311
совместимых компьютеров (под операционной системой MS-DOS).
Версия SUN (написанная на языке Си) может быть получена по
адресу David Scott, Rice University, Houston, Texas.
Анализ данных в среде XploRe
XploRe представляет собой интерактивную графически ориенти-
ориентированную вычислительную среду, предназначенную для анализа
различного рода соотношений между данными и для применения
и сравнения разнообразных методов сглаживания. Среда XploRe
удобна для исследования данных высокой размерности. Она под-
поддерживает пользователя сложными инструментальными средства-
средствами управления данными, такими, как наложение, просмотр, мар-
маркировка и вращение данных.
XploRe — объектно-ориентированная система. Объект может
быть одного из четырех типов:
• VECTOR
• WORKUNIT
• PICTURE
• TEXT
Объект VECTOR — вектор данных как логический блок, с ко-
которым предстоит работать. Этот вектор может содержать стро-
строки или действительные числа и может иметь переменную длину.
Простейшей формой объекта WORKUNIT (рабочий блок) являет-
является упорядоченный набор векторных данных. Однако этот объект
может также включать дисплейные атрибуты и шаблонный вектор.
Дисплейные атрибуты такие, как символы маркировки, тип линии,
конфигурация линии, толщина линии и т. д., имеют отношение
к размещению, графиков данных. Объект TEXT необходим для
представления текстовой информации на дисплее. Это могут быть
анализируемые вами данные, документация, которую вы хотите из-
изучить, или выход системы. Объект PICTURE включает характери-
характеристики демонстрационного окна определяемого выми представления
Данных, например заголовок рисунка и название и масштаб осей. В
этом объекте хранятся углы поворота для трехмерного вращения,
начальное расстояние от точки сгущения, расположение начала ко-
координат и шаг изменения масштаба изображения.
Кроме того, объекты могут наследовать некоторые свойства.
Прежде чем более подробно остановиться на объяснении этого
принципа наследования, позвольте привести цитату из (Oldford and
Peters, 1985):
"Наследование позволяет избежать излишних спецификаций и
Упростить модификацию, поскольку общая информация уже опре-
делена, и требуется лишь внести изменение в одно из мест."
312 Приложение 1
Это разъяснение Олдфорда и Петерса ясно показывает положи-
положительные стороны принципа наследования при его использовании
для целей непараметрического сглаживания. Вспомним описанный
выше цикл анализа. Стандартной операцией этого цикла является
прохождение определенной информации через различные стадии
анализа. Одним из важных примеров, особенно при анализе дан-
данных высокой размерности, является маска, которая может быть
определена для выделения на экране некоторых интересных точек.
Эта маска может быть унаследована при выходе из рабочего блока,
скажем, это может быть оценка, вычисленная при работе с этим
блоком. Объекты WORKUNIT могут также наследовать дисплей-
дисплейные атрибуты, такие как тип линии или символы.
Среда XploRe имеет структуру меню. Две* полосы меню по-
появятся на вашем дисплее. Третья полоса меню появляется, если
вы нажимаете и держите клавишу <ALT>. Вы можете выбрать
опцию нажатием прописной буквы соответствующей компоненты
меню. Всякий раз когда возникает меню на следующем шаге, в
большинстве случаев можно получить быструю справку нажатием
< ALT>+F1. Например, если вы незнакомы с АСЕ-алгоритмом, вы
вводите эту ключевую последовательность, и на экране высвечива-
высвечивается справочный файл, объясняющий алгоритм. Основные ключи
разъясняются ниже.
OBJECTS (o,0) После ввода OBJECTS вы сможете увидеть спи-
список текущих имен существующих объектов. Кроме того, указыва-
указывается тип объекта (vector, workunit, ...).
CREATE (c,C) Вам следует ответить, какой объект вы хоте-
хотели бы создать. Ввод WORKUNIT покажет вам окно: "вы-
"выберите номер вектора: 1 или ESC", содержащий все векто-
векторы активного рабочего блока. Таким способом вы можете со-
создавать другие рабочие блоки из существующих объектов типа
VECTOR. Вы можете выбирать столько блоков, сколько пожела-
пожелаете. Ввод VECTOR позволит вам создать новый вектор из суще-
существующих векторов, например вычисляя логарифм. После вво-
ввода PICTURE следует ответить на вопрос о типе нужного вам ри-
рисунка. Выбором опции STATIC2DGRAPIIICS вы можете создать
объект picture для двумерной статической графики, тогда как оп-
опция DYNAMIC3DGRAPIIICS определяет объект для динамической
трехмерной графики. Компонента меню DRAFTMANSPLOT со-
создаст до 25 двумерных графиков данных путем изображения по-
попарной зависимости друг от друга (не более, чем из пяти) выбран-
выбранных векторов (хранящихся в том же рабочем блоке). После ввода
TEXT на экране появляется окно "создать текст". Это означает»
что вы вызвали редактор среды XploRe и готовы написать ASCH
текст. Теперь можно записывать наборы данных или комментарии
к данным, не выходя из XploRe.
Анализ данных в среде XploRe 313
дСТГУАТЕ (а,А) Вам следует ответить, объект какого типа вы
хотели бы активизировать. Вводом объекта определенного типа (в
окне "activation") вы активизируете этот объект. Это означает, что
по умолчанию объект становится набором данных или рисунком
для последующих операций.
DISPLAY (d,D) Этот признак позволяет вывести на экран лю-
любой из существующих объектов XploRe. Опять вам предстоит от-
ответить на запрос окна относительно выбора типа объекта для вы-
вывода на экран. Допустим, вы создали несколько рабочих блоков
и один из них хотите высветить на дисплее. Сначала будет задан
вопрос о выборе соответствующего объекта типа PICTURE указа-
указанием его в окне. Этот объект содержит характеристики демон-
демонстрационного окна (оси и начало координат) графического дис-
дисплея. Существуют три разновидности типов изображения. Опция
STATIC2DGRAPHICS покажет вам двумерный рисунок с изобра-
изображением двух выбранных векторов вашего набора данных, тогда
как DYNAMIC3DGRAPIIICS покажет трехмерную картинку с изо-
изображением соответственно трех векторов рабочего блока. Если вам
хочется вывести на экран набор данных с размерностью более трех,
вы имеете возможность изобразить двумерные графики данных пу-
путем изображения попарной зависимости друг от друга (из не более
пяти) выбранных векторов. В этом случае вы должны выбрать оп-
опцию DRAFTMANSPLOT1). Если вы хотите вывести на экран тек-
текстовый объект (векторы данных рабочего блока или соответствую-
соответствующие пояснения), сначала вы должны прочитать рабочий блок или
соответствующий текстовый файл как TEXT объект. После этого
вы можете вывести на экран векторы или объяснительный файл
справок.
READ (r,R) Вам следует ответить, объект какого типа вы хоти-
хотите считать. Если вы хотите вывести на экран данные как текст,
необходимо выбрать опцию TEXT. Затем вы должны выбрать под-
поддиректорию вашего файла. Можно выбрать стандартный трафарет
DOS'а. После вызова файла XploRe создает и затем читает требу-
требуемый объект.
WORKUNIT INFORMATION (i,I) Сначала вы должны вы-
выбрать рабочий блок с помощью опции меню INFO. После этого будет
Сказано окно со значениями этого конкретного рабочего блока.
MANIPULATE (m,M) С помощью этой операции вызывается
Управляющая часть XploRe. Для начала необходимо активизиро-
активизировать соответствующий объект, который вы хотели бы использовать
с помощью опции MANIPULATE (см. ACTIVATE). Затем можно
вЬ1брать операцию из содержимого меню MANIPULATE. На следу-
1)
Draftsman означает чертежник или рисовальщик. — Прим. перев.
314 Приложение 1
ющем шаге вы должны выбрать объект XploRe, который будет "бд^
ком" выбранной операции. Время вычислений зависит от сложно-
сти используемой процедуры. Результат этой операции запомина-
ется в новом рабочем блоке, который будет на самом верху содер.
жимого окна при вызове опции меню OBJECTS.
SESSION INFORMATION (s,S) Эта опция меню показывает ок-
окно, содержащее всю важную информацию относительно действую,
щего раздела XploRe. Это — активные объекты, время и свободная
память (число доступных байтов).
GRAPHICSTATUS (g,G) Эта опция позволяет менять графиче-
графический драйвер экрана вашего дисплея. Имеется выбор из восьми
драйверов. Это
CGA
MCGA
EGA64
EGAMONO
HERCMONO
АТТ400
VGA
РС3270
BASIC STATISTICS (b,B) Посредством этой опции можно вы-
выбрать одну из следующих четырех основных статистик. Опция
BOX PLOT показывает вам параллельный блок графиков всех век-
векторов, соответствующих рабочему блоку, который вы должны вы-
выбрать. В блоке, находящемся на левой стороне экрана, изображе-
изображены шкала (охватывающая интервал от минимума до максимума по
всем данным) и легенда, содержащая символы маркировки медиа-
медианы, среднего, внутренней и внешней заграждающих меток. Опция
STEM AND LEAF PLOT показывает соответствующее изображе-
изображение всех векторов после выбора желаемого рабочего блока. Опция
DATA SUMMARY дает сводку по выбранному рабочему блоку, по-
показывая минимум, максимум, размах, среднее, медиану, дисперсию
и верхнюю и нижнюю квантили всех векторов. Наконец, последняя
опция CORRELATION MATRIX показывает матрицу, содержащую
корреляции между всеми векторами рабочего блока. v
TOOLS (t,T) Здесь две возможности: EDIT WORKUNIT DISPLAY
ATTRIBUTES и EDIT PICTURE DISPLAY ATTRIBUTES2). ЕслИ
во время работы с XploRe вы создали много новых объектов и ва
не хочется записывать все объекты по отдельности, полезно вос-
воспользоваться опцией SAVE ALL, чтобы записать все имеющиеся
Что
WORKUNIT
PICTURE соответственно. — Прим. перев.
означает РЕДАКТИРОВАТЬ ДИСПЛЕЙНЫЕ АТРИБУТА
RKUNIT и РЕДАКТИРОВАТЬ ДИСПЛЕЙНЫЕ АТРИБУТ
Анализ данных в среде XploRe 315
памяти к этому моменту объекты. Чтобы прочитать все объекты
сеанса работы с XploRe обратно в память, вам следует воспользо-
воспользоваться опцией LOAD ALL.
HELP (h,H) Эта опция проинформирует вас о некоторых важных
ключах для получения справок или для выхода из XploRe.
CLEARSCREEN (<ALT>+c,C) Очищает экран, но оставляет в
том же состоянии активные объекты.
EXIT (<ALT>+x,X) С помощью этой опции вы можете поки-
покинуть XploRe и вернуться в DOS. He забудьте сохранить объекты
XploRe, которые вы хотели бы иметь на диске для дальнейшего
использования.
OS SHELL (<ALT>+o,0) Если вы желаете использовать оболоч-
оболочку DOS во время сеанса работы в среде XploRe, нажмите один из
указанных выше ключей. Чтобы вернуться обратно в XploRe, на-
наберите EXIT, и снова появится основное меню.
DELETE (<ALT>+d,D) Вам будет задан вопрос о том, какой
объект вы хотели бы стереть. Указание типа объекта и имени объ-
объекта приводит к стиранию объекта.
ENVIRONMENT (<ALT>+e,E) Эта опция показывает содер-
содержимое исходного паскаль-файла typedef .pas, включая описание
типов переменных, используемых паскаль-модулями XploRe.
INVERTSCREEN (<ALT>+i,I) Инвертирует действующее изо-
изображение экрана.
Приведем результаты анализа с использованием XploRe, вы-
выполненного для набора данных о боковых ударах, приведенного
в табл. 3 приложения 2. Источником данных является работа
(Kallieris, Mattern and Hardle, 1986). Эти данные были получены
при моделировании боковых ударов с посмертным тестированием
объектов (РМТОK). Переменная отклика У ? {0,1} — двоичная
переменная, обозначающая фатальный (У = 1) или нефатальный
исход (У = 0). Предикторные переменные Хг = AGE — возраст
посмертно тестируемого объекта, и Х2 = ROSYM — измеренное
Ускорение (в д) на уровне двенадцатого ребра. Цель анализа состо-
состоит в получении модели, по которой можно предсказать вероятность
Фатального исхода при некотором заданном х.
На рис. АЛ показан параллельный блок графиков для перемен-
переменных этого набора данных о боковых ударах. Сразу можно увидеть
диапазон и распределение переменных. Переменная AGE, напри-
МеР, имеет половину наблюдений в центре блока между 26 и 52
ГоДами.
На рис. А.2 показан график чертежника, система всех попарных
гРафиков данных. Используя щетку (на графике зависимости У от
3) " ~
В оригинале post mortal test objects (PMTO). — Прим. перее.
316 Приложение 1
244
183
122
61
О
о
к
.ооооо
.ооооо
.ооооо
.ооооо •
.ооооо •
nedian
мап
inner
outer
fence
Вокрlot of data set SIOMPACT
1Э9.ООООО
Т да.адооо
г
<1ОПРАСТ_1
SIDt1PACT_2
SIONPACT.J3
Рис. A.I. Параллельный блок графиков для переменных на-
набора данных.
Х2) и высвечивая значения с У = 0, можно увидеть, что эти на-
наблюдения примерно соответствуют наиболее низкому треугольнику
значений зависимости Хх от Х2- Видна также интересная груп-
группа из пяти точек, имеющих У = О, хотя на шкале возраста AGE
(график зависимости SIDEMPACTI от У) они расположены вы-
высоко. С помощью наложения маски на эти точки можно увидеть,
что они соответствуют наблюдениям с низким биомеханическим
входом (ROSYM). Далее с помощью той же щетки высвечиваем
наблюдения с У = 1 и видим, что они соответствуют верхнему тре-
треугольнику графика зависимости Хг от Х2. Гиперплоскость, раз-
разделяющая эти треугольники, должна, таким образом, хорошо раз-
разделять наблюдения. К сожалению, эта группа пяти точек (старые
РМТО, высокий ROSYM) не подходят под эту схему. Однако, к-
NN-оценка, показывает для каждого графика данных, что можно
по-прежнему ожидать монотонную зависимость соотношения ме-
между AGE, ROSYM и У (рис. А.4)
Затем применяем ADE-метод. Нажимаем "М" с целью упра-
управления и получаем меню разнообразных методов сглаживания
(рис. А.5). После нажатия клавиши ENTER, когда курсор нахо-
находился на линии "ADE", получаем запрос: "Ввести ширину окна h -
Используя ширину окна Л = 1, получаем значение S = @.187,0.07^
(рис. А.6).
Соответствующая зависимость проекции 6ТХ от У представлен
на рис. А.7 совместно с оценкой монотонизированной регрессий
итеративной Jfc-NN-оценкой. Отчетливо виден нелинейный хара
тер функции отклика из-за группы нерегулярных пяти точек.
Анализ данных в среде XploRe
317
___, ,,,...11111 i i imm ниш in ни
i
•
t
•
Рис. А.2. График чертежника со щеткой на графике дан-
данных зависимости Y от Х2.
SIOMPACT_1
11 . 17
69 83
1
1
1
i
!
1
I
i
Рис. А.З. График чертежника со щеткой на графике дан-
данных зависимости Y от Х2.
318 Приложение 1
•та?-1
"ЖК-"
1 ill п 1 иди 1 mm и ii
SIDTIPACT^
1.1O
Рис. А.4. График чертежника с k-NN-оценкой.
loRe - • conputing «nm
atory Reere
Jects Create Activet
elect • wnipula
;ro*sOaTid«i ion for kNN
^gVrYSSf6!•tributionFct
Iterative k-MN
IsotonicSnoootnine
rnt lSnootb ine^C
rnefOerivaf ivefnooi
irnelRobustSnootnine
.09N0rgalOensT t yF i t
IkplofU a.O UlrUche/Utheorle II, Unluer.HWi Ь«8Э06 Bonn —
<alt->Cl»creen <*lt-)eKit Session Info OrStatus MploRe iasTcsTool*
Рис. А.5. Возможности управления рабочими блоками при
сглаживании.
Анализ данных в среде XploRe
319
cortput ing tnwironwtnt for «ХрЮгвЮгц
f fttlt DiU R1 У** <^)О
[__ Average Dtriwitiw E«Hwatton ^^
SMOotHino parameter
erivtiv titimtlon
I KploRe 2.0
valt~>Clscreen <alt->eXit Session Info QrStatus XploRe Basics Tools
Рис. A.6. Запрос ширины окна в AD Е-процедуре.
Static 2DGraphics
к-SIOnPACT
Рис. А.7. Спроектированные данные, итеративная k-NN-
оценка и монотонизированная регрессия, изображенные че-
через опцию STATIC2DGRAPHICS.
Приложение 2
Таблица 1. Набор данных о мотоцикле. [Замечание: Значения
X означают время (в мс) после смоделированного столкновения с
мотоциклом. Переменная отклика У — ускорение головы (в #), по-
посмертного тестирования объекта. Из (Schmidt, Mattern and Schiiler
1981).]
X
2.4
2.6
3.2
3.6
4.0
6.2
6.6
6.8
7.8
8.2
8.6
8.8
9.6
10.0
10.2
10.6
11.0
11.4
13.2
13.6
13.8
14.6
14.6
14.6
14.6
14.6
14.6
14.8
15.4
15.4
15.4
15.4
15.6
У
0.0
-1.3
-2.7
0.0
-2.7
-2.7
-2.7
-1.3
-2.7
-2.7
-1.3
-2.7
-2.7
-2.7
-5.4
-2.7
-5.4
0.0
-2.7
-2.7
0.0
-13.3
-5.4
-5.4
-9.3
-16.0
-22.8
-2.7
-22.8
-32.1
-53.5
-54.9
-40.2
X
65.6
15.8
15.8
16.0
16.0
16.2
16.2
16.2
16.4
16.4
16.6
16.8
16.8
16.8
17.6
17.6
17.6
17.6
17.8
17.8
18.6
18.6
19.2
19.4
19.4
19.6
20.2
20.4
21.2
21.4
21.8
22.0
23.2
У
-21.5
-21.5
-50.8
-42.9
-26.8
-21.5
-50.8
-61.7
-5.4
-80.4
-59.0
-71.0
-91.1
-77.7
-37.5
-85.6
-123.1
-101.9
-99.1
-104.4
-112.5
-50.8
-123.1
-85.6
-72.3
-127.2
-123.1
-117.9
-134.0
-101.9
-108.4
-123.1
-123.1
X
23.4
24.0
24.2
24.2
24.6
25.0
25.0
25.4
25.4
25.6
26.0
26.2
26.2
26.4
27.0
27.2
27.2
27.2
27.6
28.2
28.4
28.4
28.6
29.4
30.2
31.0
31.2
32.0
32.0
32.8
33.4
33.8
34.4
У
* -128.5
-112.5
-95.1
-81.8
-53.5
-64.4
-57.6
-72.3
-44.3
-26.8
-5.4
-107.1
-21.5
-65.6
-16.0
-45.6
-24.2
9.5
4.0
12.0
-21.5
37.5
46.9
-17.4
36.2
75.0
8.1
54.9
48.2
46.9
16.0
45.6
1.3
X
34.8
35.2
35.2
35.4
35.6
35.6
36.2
36.2
38.0
38.0
39.2
39.4
40.0
40.4
41.6
41.6
42.4
42.8
42.8
43.0
44.0
44.4
45.0
46.6
47.8
47.8
48.8
50.6
52.0
53.2
55.0
55.0
55.4
57.6
У
75.0
-16.0
-54.9
69.6
34.8
32.1
-37.5
22.8
46.9
10.7
5.4
-1.3
-21.5
-13.3
30.8
-10.7
29.4
0.0
-10.7
14.7
-1.3
0.0
10.7
10.7
-26.8
-14.7
-13.3
0.0
10.7
-14.7
-2.7
10.7
-2.7
10.7
¦¦ —
Приложение 2
321
Таблица 2. Смоделированный набор данных. [Замечание: Исход-
Исходные данные {(Х{9У{}?=ип = 100, формировались в соответствии
с соотношениями У{ = т(Х{) + еое4 ~ ЛГ@,1),Х,. - 1/@,1) и
() 2^/J
X
0.00452
0.00837
0.01229
0.03682
0.03688
0.04753
0.07120
0.08281
0.08511
0.09017
0.09331
0.11212
0.11457
0.11467
0.11752
0.11922
0.11952
0.14354
0.14526
0.15239
0.17781
0.19420
0.19606
0.20214
0.20355
0.21694
0.21793
0.21796
0.23354
0.24067
0.27053
0.29464
0.29908
У
1.83613
-0.97443
0.53992
0.46113
2.00374
-0.72132
1.28708
-1.26908
2.63863
-0.25029
0.73673
0.26705
0.81824
0.05118
0.48483
2.22813
1.57051
0.57802
0.59176
0.89032
2.86420
0.92809
2.88992
0.07135
0.32582
0.95779
0.80795
0.85995
0.83378
3.08766
1.46206
0.41268
0.70020
X
0.30060
0.32759
0.35690
0.35891
0.36202
0.36487
0.36566
0.36627
0.38073
0.38979
0.40219
0.42153
0.45009
0.48200
0.50161
0.50202
0.50203
0.51123
0.52401
0.52426
0.52614
0.53805
0.54039
0.54042
0.54090
0 56182
0.57445
0 58101
0.59064
0.61799
0.62652
0.64060
0.65604
У
0.64960
-0.16932
1.12878
0.33772
1.05152
0.41197
-0.41853
3.03907
0.64303
-0.54217
0.71329
0.97109
1.97278
2.04211
3.54774
0.98850
0.28272
1.71133
2.83595
0.57377
1.84754
-0 12198
0.07410
2.70415
2.77430
0.18000
-0.32403
0.74803
-0.46347
-0.10944
0.12693
0.90819
-0.21575
X
0.68085
0.69696
0.70432
0.71094
0.71561
0.71813
0.72874
0.73008
0.76162
0.77494
0.78354
0.79327
0.81226
0.81868
0.82433
0.82645
0.82654
0.82768
0.84186
0.85518
0.86838
0.89536
0.89737
0.91137
0.91171
0.91372
0.91578
0.91668
0.91789
0.96018
0.96152
0.96505
0.96909
0.98453
У
-0.17996
-0.42336
-0.26322
-0.52858
0.50815
0.94339
-0.91171
0.27614
0.98254
0.63778
-0.80649
0.55979
-0.69888
-0.72442
-0.14897
-1.42030
-0.02744
-0.12909
0.36166
0.78004
-1.11895
0.18627
-0.14874
-0.55851
1.05371
0.41848
0.70488
-1.54878
-0.59214
-0.29103
-1.99601
-0.78273
0.51049
-0.10069
322 Приложение 2
Таблица 3. Набор данных о боковых ударах. [Замечание: Пере-
Переменная AGE означает возраст посмертно тестируемого объекта
ROSYМ — биомеханическое напряжение в грудной клетке, У -J
показатель исхода. Из (Hardle, Kallieris and Mattern, 1988).]
AGE ROSYM
AGE ROSYM
33.0000
53.0000
29.0000
39.0000
28.0000
42.0000
23.0000
50.0000
40.0000
44.0000
51.0000
27.0000
25.0000
54.0000
40.0000
43.0000
58.0000
41.0000
27.0000
24.0000
65.0000
63.0000
26.0000
47.0000
31.0000
50.0000
109.0000
162.0000
137.0000
152.0000
144.0000
239.0000
170.0000
198.0000
197.0000
140.0000
81.0000
103.0000
158.0000
67.0000
105.0000
217.0000
185.0000
150.0000
185.0000
62.0000
71.0000
89.0000
78.0000
106.0000
103.0000
107.0000
1.0000
0.0000
0.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0000
0.0000
0.0000
1.0000
1.0000
1.0000
1.0000
0.0000
0.0000
1.0000
1.0000
0.0000
0.0000
1.0000
1.0000
62.0000
23.0000
19.0000
29.0000
47.0000
22.0000
52.0000
59.0000
60.0000
30.0000
53.0000
64.0000
22.0000
21.0000
23.0000
36.0000
45.0000
49.0000
60.0000
59.0000
26.0000
41.0000
25.0000
53.0000
47.0000
141.0000
89.0000
243.0000
62.0000
82.0000
150.0000
155.0000
239.0000
122.0000
64.0000
145.0000
114.0000
46.0000
134.0000
100.0000
111.0000
98.0000
139.0000
111.0000
178.0000
138.0000
137.0000
102.0000
244.0000
213.0000
1.0000
0.0000
0.0000
0.0000
1.0000
0.0000
1.0000
1.0000
1.0000
0.0000
1.0000
1.0000
0.0000
0.0000
0.0000
1.0000
1.0000
0.0000
1.0000
1.0000
0.0000
0.0000
0.0000
1.0000
1.0000
Литература
Ahmad, I. A. and Lin, P. E. A976). Non-parametric sequential esti-
estimation of a multiple regression function. Bulletin of Mathemat-
Mathematical Statistics, 17, 63-75.
Akaike, H. A970). Statistical predictor information. Annals of the
Institute of Statistical Mathematics, 22, 203-217.
Akaike, H. A974). A new look at the statistical model identification.
IEEE Transactions of Automatic Control AC, 19, 716-723.
Allen, D. M. A974). The relationship between variable selection and
data augmentation and a method for prediction. Technomet-
rics, 16, 125-127.
Altman, N. S. A988). Kernel smoothing of data with correlated errors.
Journal of the American Statistical Association, to appear.
Andersen, A. H., Jensen, E. B. and Schou, G. A981). Two-way anal-
analysis of variance with autocorrelated errors. International Sta-
Statistical Review, 49, 153-157.
Azzalini, A. A984). Estimation and hypothesis testing of autoregres-
sive time series. Biometrika, 71, 85-90.
Azzalini, A., Bowman, A. and Hardle, W. A989). On the use of non-
parametric regression for model checking. Biometrika, 76,
1-12.
Barlow, R. E., Bartholomew, D. J., Bremner, J. M. and Brunk, H. D.
A972). Statistical inference under order restrictions, London:
Wiley.
Bartlett, M. S. A963). Statistical estimation of density functions.
Sankhya, Series A, 25, 245-254.
decker, R. A. and Chambers, J. С A984). S - An interactive com-
computing environment for data analysis. Belmont, CA: Wadsworth
Press.
Бескег, R. A., Chambers, J. C. and Wilks, A. R. A988). The new
S language: a programming environment for data analysis and
graphics. Pacific Grove, CA: Wadsworth and Brooks/Cole Ad-
Advanced Books and Software.
324 Литература.
Benedetti, J. К. A977). On the nonparametric estimation of regres-
regression functions. Journal of the Royal Statistical Society, Series
B, 39, 248-253.
Bent, S. W. and John, J. A985). Finding the median requires 2n
comparisons. Proc. 17th ACM Symposium on the Theory of
Computing, 213-216.
Beran, R. A986). Discussion to Wu, С F. J.: Jackknife, bootstrap
and other resampling methods in regression analysis. Annals of
Statistics, 14, 1295-1298.
Bickel, P. J. and Doksum, K. A. A977). Mathematical statistics: baste
ideas and selected topics. San Fransisco: Holden-Day.
Bickel, P. J. and Freedman, D. A. A981). Some asymptotic theory
for the bootstrap. Annals of Statistics, 9, 1196-1217.
Bickel, P. J. and Rosenblatt, M. A973). On some global measures of
the deviations of density function estimates. Annals of Statis-
Statistics, 1, 1071-1091.
Bierens, H. J. A983). Uniform consistency of kernel estimators of a
regression function under generalized conditions. Journal of
the American Statistical Association, 77, 699-707.
Bierens, H. J. A987). Kernel estimators of regression functions. Cam-
Cambridge University Press: Advances in Econometrics.
Bierens, H. J. A988). Model-Free Asymptotically Best Forecasting of
Stationary Economic Time Series. Unpublished manuscript.
Billingsley, P. A968). Convergence of probability measures. New
York: Wiley. (Биллингсли П. Сходимость вероятностных
мер. — М.: Наука, 1977.)
Boneva, L. I., Kendall, D. and Stefanov, I. A970). Spline transforma-
transformations: three new diagnostic aids for the statistical data analyst.
Journal of the Royal Statistical Society, Series B, 32, 1-71.
Bosq, D. and Lecoutre, J. P. A987). Theorie de Vestimation fonc-
tionnelle. Paris: Economica.
Box, G. E. P. and Cox, D. R. A964). An analysis of transformations.
Journal of the Royal Statistical Society, Series B, 26, 211-252.
Breiman, L. and Friedman, J. A985). Estimating optimal transfor-
transformations for multiple regression and correlation. Journal of tht
American Statistical Association, 80, 580-619.
Breiman, L., Friedman, J., Olshen, R. and Stone, С J. A984). Clas-
Classification and regression trees. Belmont, CA: Wadsworth.
Bril, G., Dykstra, R., Pillers, С and Robertson, T. A984). Isotonic
regression in two independent variables. Applied Statistics, «*«*>
352-357.
Broich, Т., Hardle, W. and Krause, A. A990). XploRe - a comput-
computing environment for eXploratory Regression. Springer-Verlag?
in print.
Литература 325
Bussian, В. М. and Hardle, W. A984). Robust smoothing applied
to white noise and single outlier contaminated Raman spectra.
Applied Spectroscopy, 38, 309-313.
Carroll, R. J. A982). Adapting for heteroscedasticity in linear models.
Annals of Statistics, 10, 1224-1233.
Carroll, R. J. and Hardle, W. A988). Symmetrized nearest neighbor
regression estimates. Statistics and Probability Letters , 7,
315-318.
Carroll, R.J. and Hardle, W. A989). A note on second-order effects
in a semiparametric context. Statistics, 20, 179-186.
Carroll, R.J. and Ruppert, D. A988). Transformation and weighting
in regression. New York: Chapman and Hall.
Casady, R. J. and Cryer, D. J. A976). Monotone percentile regression.
Annals of Statistics, 4, 532-541.
Cenzov, N. N. A962). Evaluation of an unknown distribution density
from observations. Soviet Math. Dokl, 3, 1559-1562. (Ченцов
H. II. Оценка неизвестной плотности распределения по
наблюдениям. ДАН СССР, 1 A962), с. 45-48.)
Cheng, К. F. and Cheng, P. E. A986). Robust nonparametric esti-
estimation of a regression function. Unpublished manuscript.
Cheng, P.E. and Cheng, K.F. A987). Asymptotic normality for robust
R-estimators of regression function. Unpublished manuscript.
Cheng, K. F. and Lin, P. E. A981). Nonparametric estimation of a
regression function. Zeitschrift fur Wahrscheinlichkeitstheorie
und verwandte Gebiete , 57, 223-233.
Clark, R. M. A975). A calibration curve for radiocarbon dates. An-
Antiquity, 49, 251-266.
Clark., R. M. A977). Nonparametric estimation of a smooth regression
function. Journal of the Royal Statistical Society, Series B,
39, 107-113.
Clark, R. M. A980). Calibration, cross-validation and carbon 14 II.
Journal of the Royal Statistical Society, Series A, 143, 177-194.
Cleveland, W. S. A979). Robust locally weighted regression and
smoothing scatter plots. Journal of the American Statistical
Association, 74, 829-836.
Cleveland, W. S. A985). The elements of graphing data. Belmont,
CA: Wadsworth.
Cleveland, W. S. and McGill, R. A984). The many faces of a scatter
plot. Journal of the American Statistical Association, 79,
807-822.
Collomb, G. A977). Quelques proprietes de la methode du noyau pour
l'estimation non-parametrique de la regression en un point fixe.
С R. A cad. Sc. Pans, 285, 289-292.
326 Литература
Collomb, G. A981). Estimation non-parametrique de la regression:
Revue Bibliographique. International Statistical Review, 49
75-93.
Collomb, G. A984). Proprietes de convergence presque complete du
predicteur a noyau. Zeitschrift fur Wahrscheinlichkeitstheorie
und verwandte Gebiete , 66, 441-460.
Collomb, G. A985a). Nonparametric time series analysis and predic-
prediction: uniform almost sure convergence of the window and k-NN
autoregression estimates. Statistics, 16, 297-307.
Collomb, G. A985b). Nonparametric regression: an up-to-date bibli-
bibliography. Statistics, 16, 309-324.
Collomb, G. and Hardle, W. A986). Strong uniform convergence rates
in robust nonparametric time series analysis and prediction: ker-
kernel regression estimation from dependent observations. Stochas-
Stochastic Processes and their Applications, 23, 77-89.
Collomb, G., Hardle, W. and Hassani, S. A987). A note on prediction
via estimation of the conditional mode function. Journal of
Statistical Planning and Inference, 15, 227-236.
Cover, T. M. and Hart, P. E. A967). Nearest neighbor pattern classi-
classification. IEEE Transactions on Information Theory, 13, 21-27.
Cox, D.D. A983). Asymptotics for M-type smoothing splines. An-
Annals of Statistics, 11, 530-551.
Craven, P. and Wahba, G. A979). Smoothing noisy data with spline
functions. Numer. Math. 31, 377-403.
Cristobal, C, Faraldo, R. and Manteiga, G. A987). A class of linear
regression parameter estimators constructed by nonparametric
estimation. Annals of Statistics, 15,603-609.
Cryer, J. D., Robertson, Т., Wright F. T. and Casady, R. J. A972).
Monotone median regression. Annals of Mathematical Statis-
Statistics, 43, 1459-1469.
Deaton, A. A988). Agricultural pricing policies and demand patterns
in Thailand. Unpublished manuscript.
de Jong, P. A987). A central limit theorem for generalized quadratic
forms. Probab. Th. Rel. Fields 75, 261-277.
Devroye, L. P. A978a). The uniform convergence of nearest neighbor
regression function estimators and their application in optimiza-
optimization. IEEE Transactions on Information Theory, 24, 142-151
Devroye, L. P. A978b). The uniform convergence of the Nadaraya-
Watson regression function estimate. Canadian Journal °J
Statistics, 6, 179-191.
Devroye, L. P. and Gyorfi, L. A985). Distribution-free exponential
bound for the Lx error of partitioning estimates of a regression
function. In: Probability and statistical theory, Proceedings oj
the 4th Pannonian Symposium on Mathematical Statistics, eds-
Литература 327
F. Konecny, J. Mogyorodi and W. Wertz. Dortrecht: Reidel,
67-76.
Devroye, L. P. and Wagner, T. J. A980a). Distribution free con-
consistency results in nonparametric discrimination and regression
function estimation. Annals of Statistics, 8, 231-239,
Devroye, L. P. and Wagner, T. J. A980b). On the Lx-convergence
of kernel estimators of regression functions with applications in
discrimination. Zeitschrift fur Wahrscheinlichkeitstheorie und
verwandte Gebiete , 51, 15-25.
Diaconis, P. and Shahshahani, M. A984). On nonlinear functions of
linear combinations. SI AM J. Sci. Statist Computing, 5, 175-
191.
Dikta, G. A988). Bootstrap approximations of nearest neighbor re-
gression function estimates. Unpublished manuscript.
Doukhan, P. and Ghindes, M. A980). Estimation dans le processus
Xn =/(Хп-1) + еп. Comptes Rendus, Acad. Sci. Paris, 297,
Ser A, 61-64.
Doukhan, P. and Ghindes, M. A983). Estimation de la transition de
probabilite d'une chaine de Markov Doeblin-Recurrente. Etude
du cas du processus autoregressif general d'ordre 1. Stochastic
Processes and their Applications, 15, 271-293.
Durbin, J. and Knott, M. A972). Components of Cramer-von Mises
Statistics I. J.Royal Statist Soc. (B), 34, 290-307.
Engle, R. F., Granger, W. J., Rice, J. and Weiss, A. A986). Semipara-
metric estimates of the relation between weather and electricity
sales. Journal of ihe American Statistical Association, 81,
310-320.
Epanechnikov, V. A969). Nonparametric estimates of a multivari-
ate probability density. Theory of Probability and its Applica-
Applications, 14, 153-158. (Епанечников В. А. Непараметрическая
оценка многомерной плотности вероятности. Теор. вероятн.
и ее примен., 14 A969), с. 156-161.)
Eubank, R. A988). Spline smoothing and nonparametric regression.
New York: Dekker.
Euclid (-300). Die Elemente. Reprint from Wissenschaftlische Bu-
chgesellschaft Darmstadt, 1980.
Family Expenditure Survey, Annual Base Tapes A968-1983). Depart-
Department of Employment, Statistics Division, Her Majesty's Sta-
Stationery Office, London 1968-1983. The data utilized in this
book were made available by the ESRC Data Archive at the
University of Essex.
Feller, W. A971). An introduction to probability theory and its appli-
applications, Volume II. New York: Wiley. (Феллер В. Введение в
теорию вероятностей и ее приложения. Т. 1,2. — М.: Мир,
1984.)
328 Литература
Fisher, L. and Yakowitz, S. J. A976). Uniform convergence of the
potential function algorithm. SIAM Journal of Control and Op.
timization, 14, 95-103.
Fisher, N. A987). Graphical methods in statistics: current and
prospective views. Proceedings of the 46. ISI Session, 3, 387-
400.
Fisher, R. A. A922). On the mathematical foundations of theoretical
statistics. Phil. Trans, of the Royal Society of London, Series
A, 222, 309-68.
Fisherkeller, M. A., Friedman, J. II. and Tukey, J. W. A974). PRIM-
9; an interactive multidimensional data display and analysis sys-
system SLAC- PUB-1408, Stanford University, Stanford, CA.
Franke, J. and Hardle, W. A988). On bootstrapping kernel spectral
estimates. Annals of Statistics, accepted.
Friedman, J. A984). A Variable span smoother. Department of Statis-
Statistics Technical Report LCS5, Stanford University, Stanford, CA.
Friedman, J. and Stuetzle, W. A981). Projection pursuit regression.
Journal of the American Statistical Association, 76, 817-823.
Friedman, J. and Tibshirani, R. A984). The monotone smoothing of
scatter plots. Technometrics, 26, 243-250.
Friedman, J. II. and Tukey, J. W. A974). A projection pursuit al-
algorithm for exploratory data analysis. IEEE Transactions on
Computers, C-23, 881-890.
Frisen, M. and Goteborg, S. A980). U-shaped Regression. In: Comp-
stat 1980. Wien: Physica Verlag.
Gasser, Т., Kohler, W., Muller, II. G., Largo, R., Molinari, L. and
Prader, A. A985). Human height growth: correlational and mul-
tivariate structure of velocity and acceleration. Annals of Hu-
Human Biology, 12, 501-515.
Gasser, T. and Muller, II. G. A979). Kernel estimation of regression
functions. In: Smoothing Techniques for Curve Estimation,
eds. Gasser and Rosen!>latt. Heidelberg: Springer-Verlag.
Gasser, T. and Muller, II. G. A984). Estimating regression functions
and their derivatives by the kernel method. Scandanavian Jour-
Journal of Statistics, 11, 171-185.
Gasser, Т., Muller, II. G., Kohler, W., Molinari, L. and Prader,
A. A984). Nonparamctric regression analysis of growth curves.
Annals of Statistics, 12, 210-29.
Gasser, Т., Muller, II. G. and Mammitzsch, V. A985). Kernels for
nonparametric curve estimation. Journal of the Royal Statisti-
Statistical Society, Series B, 47, 238-52.
GAUSS A987). GAUSS is a program for PCs available from Aptecb
Systems, Inc., Product Development, P.O. Box 6487, Kent, WA
98064.
Литература 329
Georgiev, A. A. A984a). Nonparametric system identification by ker-
kernel methods. IEEE Transactions of Automatic Control, 29,
356-358.
Georgiev, A. A. A984b). Speed of convergence in nonparametric ker-
kernel estimation of a regression function and its derivatives. An-
Annals of the Institute of Statistical Mathematics, 36, 455-462.
Good, I. J. and Gaskins, R. A. A971). Nonparametric roughness
penalties for probability densities. Biometrika, 58, 255-277.
Gordon, L. and Olshen, R. A. A980). Consistent nonparametric re-
regression from recursive partitioning schemes. Journal of Mul-
tivariate Analysis, 10, 611-627.
Gray, II. L and Schucany, W. R A972). The generalized jackknife
statistic. New York: Dekker.
Greblicki, W. A974). Asymptotically optimal probabilistic algorithms
for pattern recognition and identification (in Polish). Prace
Naukowe Instytutu Cybernetyki Technicznej No. 18, Seria:
Monografie No. 3, Wroclaw.
Greblicki, W. and Krzyzak, A. A980). Asymptotic properties of ker-
kernel estimates of a regression function. Journal of Statistical
Planning and Inference, 4, 81-90
Greblicki, W., Rutkowska, D. and Rutkowski, L. A983). An orthog-
orthogonal series estimate of time-varying regression. Annals of the
Institute of Statistical Mathematics, 35, 215-228.
Green, P., Jennison, C. and Scheult, A. A985). Analysis of field ex-
experiments by least squares smoothing. Journal of the Royal
Statistical Society, Series D, 47, 299-315.
Gyorfi, L. A981). The rate of convergence of kn-NN regression es-
estimation and classification. IEEE Transactions of Information
Theory, 27, 500-509.
Hadley, G. and Kemp, M. C. A971). Variational methods in eco-
economics. New York: North Holland.
Hall, P. A988). On projection pursuit regression. Unpublished
manuscript.
Hall, P. and Marron, J. S. A987). On the amount of noise in band-
bandwidth selection for a kernel density estimator. Annals of Statis-
Statistics, 15, 163-181.
Hall, P. and Marron, J. S. A988). Lower bounds for bandwidth selec-
selection in density estimation. Unpublished manuscript.
Hall, P. and Titterington, M. A986a). On the structure of smoothing
techniques in regression problems. Unpublished manuscript.
Hall, P. and Titterington, M. A986b). On confidence bands in
nonparametric density estimation and regression. Unpublished
manuscript.
Hanson,D. L. and Pledger, G. A976). Consistency in concave regres-
regression. Annals of Statistics, 4,1038-1050.
330 Литература.
Hanson, D. L., Pledger, G. and Wright, F. T. A973). On consistency
in monotonic regression. Annals of Statistics, 1, 401-421.
Hardle, W. A984a). A law of the iterated logarithm for nonparametric
regression function estimators. Annals of Statistics, 12, 624-
635.
Hardle, W. A984b). Robust regression function estimation. Journal
of Multivariate Analysis, 14, 169-180.
Hardle, W. A984c). How to determine the bandwidth of nonlinear
smoothers in practice? In: Robust and Nonlinear Time Series
Analysis, eds. J. Franke, W. Hardle and D. Martin. Heidelberg:
Springer-Verlag.
Hardle, W. A986a). A note on jackknifing kernel regression function
estimators. IEEE Transactions of Information Theory, 32, 298-
300.
Hardle, W. A986b). Approximations to the mean integrated squared
error with applications to optimal bandwidth selection for non-
parametric regression function estimators. Journal of Multt-
variate Analysis, 18, 150-168.
Hardle, W. A986c). Automatic curve smoothing. In: Proceedings
of the First World Congress of the Bernoulli Society. Tashkent:
VNU Science Press.
Hardle, W. A987a). Resistant smoothing using the Fast Fourier
Transform, AS 222. Applied Statistics, 36, 104-111.
Hardle, W. A987b). XploRe - a computing environment for eX-
ploratory Regression. In: Statistical Data Analysis Based on
the Lx-norm, ed. Y. Dodge. New York: North Holland.
Hardle, W. A989). Asymptotic maximal deviation of M-smoothers.
Journal of Multivariate Analysis.
Hardle, W. and Bowman, A. A988). Bootstrapping in nonparamet-
nonparametric regression: local adaptive smoothing and confidence bands.
Journal of the American Statistical Association, 83, 102-110.
Hardle, W. and Carroll, R. J. A989). Biased cross-validation for a
kernel regression estimator and its derivatives. Ostereichische
Zeitschrift fur Statistik und Informatik.
Hardle, W. and Gasser, T. A984). Robust nonparametric function
fitting. Journal of the Royal Statistical Society, Series B, 46,
42-51.
Hardle, W. and Gasser, T. A985). On robust kernel estimation of
derivatives of regression functions. Scandanavian Journal of
Statistics, 12, 233-240.
Hardle, W., Hall, P. and Marron, J. S. A988). How far are automat-
automatically chosen regression smoothing parameters from their opti-
optimum? (with discussion). Journal of the American Statistic^
Association, 83, 86-99.
Литература 331
Hardle, W., Hart, J., Marron, J. S., and Tsybakov, A. B. A989).
Bandwidth choice for average derivative estimation. Journal of
the American Statistical Association, submitted.
Hardle, W., Hildenbrand, W. and Jerison, M. A989). Empirical evi-
evidence for the law of demand. Econometrica, submitted.
Hardle, W., Janssen, P. and Serfling, R. A988). Strong uniform con-
consistency rates for estimators of conditional functionals. Annals
of Statistics, 16, 1428-1449.
Hardle, W. and Jerison, M. A988). Evolution of Engel curves over
time. Discussion paper No. A-178. SFB 303, University of
Bonn. Talk EC 48 at the Econometric Society Meeting in
Bologna 1988.
Hardle, W. and Kelly, G. A987). Nonparametric kernel regression
estimation - optimal choice of bandwidth. Statistics, 18, 21-35.
Hardle, W. and Luckhaus, S. A984). Uniform consistency of a class
of regression function estimators. Annals of Statistics, 12,
612-623.
Hardle, W. and Mammen, E. A988). Comparing nonparametric ver-
versus parametric regression fits. Unpublished manuscript.
Hardle, W. and Marron, J. S. A983). The nonexistence of moments of
some kernel regression estimators. Institute of Statistics Mimeo
Series 1537, Institute of Statistics, Chapel Hill, North Carolina.
Hardle, W. and Marron, J. S. A985a). Asymptotic nonequiva-
lence of some bandwidth selectors in nonparametric regression.
Biometrika, 72, 481-484.
Hardle, W. and Marron, J. S. A985b). Optimal bandwidth selection
in nonparametric regression function estimation. Annals of
Statistics, 13, 1465-1481.
Hardle, W. and Marron, J. S. A989). Semiparametric comparison of
regression curves. Annals of Statistics, in print.
Hardle, W. and Marron, Z. S. A991). Annals of Statisfics, 19, 778-
796.
Hardle, W. and Mattern, R. A983). Mathematische Modellierung
der Eliminationsphase des Ethanols. In: Fortschritte der
Rechtsmedizin, eds. II. Froberg, J. Barz, J. Bosche, R. Kappner
and R. Mattern. Heidelberg: Springer-Verlag.
Hardle, W. and Nixdorf, R. A987). Nonparametric sequential estima-
estimation of zeros and extrema of regression functions. IEEE Trans-
Transactions of Information Theory, IT-33, 367-372.
Hardle, W. and Scott, D. W. A988). Smoothing in low and high di-
dimensions using weighted averaging of rounded points. Unpub-
Unpublished manuscript.
Hardle, W. and Steiger, W. A988). Efficient median smoothing. Un-
Unpublished manuscript.
332 Литература
Hardle, W. and Stoker, T. A989). Investigating smooth multiple re-
regression by the method of average derivatives. Journal of the
American Statistical Association, 84, 986-995.
Hardle, W. and Tsybakov, A. B. A988). Robust nonparametric re-
regression with simultaneous scale curve estimation. Annals of
Statistics, 16, 120-135.
Hardle, W. and Tuan, P. D. A986). Some theory on M-smoothing of
time series. Journal of Time Series Analysis, 7, 191-204.
Hardle, W. and Vieu, P. A989). Nonparametric prediction by the
kernel method. Submitted to Econometrica.
Harrison, D. and Rubinfeld, D. С A978). Hedonic prices and the
demand for clean air. Journal of Environmental Economics and
Management, 5, 81-102.
Hart, D. and Wehrly, Т. Е. A986). Kernel regression estimation using
repeated measurements data. Journal of the American Statis-
Statistical Association, 81, 1080-1088.
Hastie, T. and Tibshirani, R. A986). Generalized additive models
(with discussion). Statistical S^^ence, 1, 297-318.
Hastie, T. and Tibshirani, R. A987). Nonparametric logistic and pro-
proportional odds regression. Applied Statistics, 1, 260-276.
Heckman, N. E. A986). Spline smoothing in a partly linear model.
Journal of the Royal Statistical Society, Series B, 48, 244-248.
Hildenbrand, W. A985). A problem in demand aggregation: per capi-
capita demand as a function of per capita expenditure. Discussion
paper A-12, SFB 303, University of Bonn.
Hildenbrand, W. A986). Equilibrium analysis of large economies.
Talk presented at the International Congress of Mathematicians,
Berkeley, California, August 3-11, 1986. Discussion paper A-72,
SFB 303, University of Bonn.
Hildenbrand, K. and Hildenbrand, W. A986). On the mean income
effect: a data analysis of the U.K. family expenditure survey.
In: Contributions to Mathematical Economics, eds. W. Hilden-
Hildenbrand and A. Mas-Colell. New York: North Holland.
Hildreth, C. A954). Point estimates of ordinates of concave functions.
Journal of the American Statistical Association, 49, 598-618-
Hillig, K. and Morris, M. A982). Raman spectra estimation. Applied
Spectroscopy, 36, 700.
Huber, P. J. A979). Robust smoothing. In: Robustness in Statistics,
eds. E. Launer and G. Wilkinson. New York: Academic Press.
Huber, P. J. A981). Robust statistics. New York: Wiley. (Хьюбер
П. Робастная статистика. — М.: Мир, 1984.)
Huber, P. J A985). Projection pursuit. Annals of Statistics, 13»
435-475.
Ibgragimov, I. A. and Hasminskii, R. Z. A980). On nonpararne^'
ric estimation of regression. Soviet Math. DokL, 21, 810-814-
Литература 333
(Ибрагимов И. А., Хасьминский Р. 3. О непараметрическом
оценивании регрессии, Доклады АН СССР, 21 A980), с. 810-
814.)
ISP A987). ISP is a program for PCs available from Artemis Systems
Inc.
Jennen-Steinmetz, C. and Gasser, T. A988). A unifying ap-
approach to nonparametric regression estimation. Unpublished
manuscript.
Johnston, G. J. A979). Smooth nonparametric regression analysis.
Institute of Statistics Mimeo Series 1253, University of North
Carolina, Chapel Hill, NC.
Johnston, G. J. A982). Probabilities of maximal deviations for non-
nonparametric regression function estimates. Journal of Multivari-
ate Analysts, 12, 402-414.
Jones, M. C. and Sibson, R. A987). What is projection pursuit ?
(with discussion). Journal of the Royal Statistical Society, Se-
Series A, 150, 1-38.
J0rgensen, M., Nielsen, С Т., Keiding, N. and Skakkebaek,
N. E. A985). Parametrische und Nichtparametrische Mod-
elle fur Wachstumsdaten. In: Neuere Verfahren der nicht-
parametrischen Statistik, ed. G. Pflug. Heidelberg: Springer-
Verlag. (English version available as Research Report 85/3 from
the Statistical Research Unit, University of Copenhagen.)
Kallieris, D. and Mattern, R. A984). Belastbarkeitsgrenze und
Verletzungsmechanik des angegurteten Fahrzeuginsassen beim
Seitenaufprall. Phase I: Kinematik und Belastungen beim Seit-
enaufprall im Vergieich Dummy/Leiche. FAT Schriftenreihe 36,
Forschungsvereinigung Automobiltechnik e.V. (FAT).
Kallieris, D., Mattern, R. and Hardle, W. A986). Belastbarkeits-
Belastbarkeitsgrenze und Verletzungsmechanik des angegurteten PKW-
Insassen beim Seitenaufprall. Phase II: Ansatze zur Verlet-
zungspradiktion. FAT Schriftenreihe 60, Forschungsvereinigung
Automobiltechnik e.V. (FAT).
Katkovnik, V. Y. A979). Linear and nonlinear methods for nonpara-
nonparametric regression analysis. Avtomatika, 35-46. (Катковник
В. Я. Линейные и нелинейные методы непараметрического
регрессионного анализа, Автоматика, 5 A979), с. 35-46.)
Katkovnik, V. Y. A983). Convergence of the linear and nonlinear non-
nonparametric kernel estimates. Avtomatika i Telemehanika, 108—
120. (Катковник В. Я. Сходимость линейных и нелинейных
непараметрических оценок ядерного типа. Автоматика и
телемеханика, 4 A983), с. 108-120.)
Katkovnik, V.Y. A985). Nonparametric identification and data
smoothing: local approximation approach. Moscow: Nauka.
334 Литература
(Катковник В. Я. Непараметрическая идентификация и
сглаживание данных. — М.: Наука, 1985.)
Kelly, С. and Rice, J. A988). Monotone smoothing with application
to dose response curves and the assessment of synergism. Un-
Unpublished manuscript.
Kendall, M. and Stuart, A. A979). The advanced theory of statistics,
Vol 2. London: Charles Griffin. (Кендалл М., Стыоарт А.
Статистические выводы и связи. — М.: Наука, 1975.)
Kiefer, J. and Wolfowitz, J. A952). Stochastic estimation of the max-
maximum of a regression function. Annals of Mathematical Statis-
Statistics, 23, 462-466.
Kleiner, В., Martin, R. D. and Thomson, D. J. A979). Robust esti-
estimation of power spectra (with discussion). Journal of the Royal
Statistical Society, Series B, 41, 313-351.
Knafl, G., Sacks, J., Spiegelman, C. and Ylvisaker, D. A984). Non-
parametric calibration. Technometrics, 26, 233-241.
Knafl, G., Sacks, J. and Ylvisaker, D. A985). Confidence bands for
regression functions. Journal of the American Statistical As-
Association, 80, 683-691.
Kneip, A. and Gasser, T. A988). Convergence and consistency results
for self-modeling nonlinear regression. Annals of Statistics, 16,
82-112.
Kruskal, J. B. A965). Analysis of factorial experiments by estimating
monotone transformations of the data. Journal of the Royal
Statistical Society, Series B, 27 , 251-263.
Kruskal, J. B. A969). Toward a practical method which helps uncov-
uncover the structure of a set of multivariate observations by finding
the linear transformation which optimizes a new "index of con-
condensation". In: Statistical Computing, eds. R. C. Milton and
J. A. Nelder. New York: Academic Press.
Lai, S. L. A977). Large sample properties of ifc-nearest neighbor pro-
procedures Ph.D. dissertation, Dept. Mathematics, UCLA, Los
Angeles.
Lawton, W. H., Sylvestre, E. A. and Maggio, M. S. A972). Self-
modeling nonlinear regression. Technometrics, 14, 513-532.
Lecoutre, J. P. A983). Almost complete convergence of the statisti-
statistically equivalent blocks estimator of the regression function. I
Probability and statistical theory, Proceedings of the fth P
nonian Symposium on Mathematical Statistics, eds. F. Konec-
ny, J. Mogyorodi and W. Wertz. Dortrecht: Reidel.
Lecoutre, J. P. A984). The L^optimal cell width for the regresso-
gram. Unpublished manuscript.
Lejeune, M. A985). Estimation non-parametrique par noyaux:
regression polynomiale mobile. Revue Statist. App., 33, 43-67.
Литература 335
Leontief, W. A947a). A note on the interrelation of subsets of in-
independent variables of a continuous function with continuous
first derivatives. Bulletin of the American Mathematical Soci-
Society, 53, 343-350.
Leontief,- W. A947b). Introduction to a theory of the internal struc-
structure of functional relationships. Econometrica, 15, 361-373.
Leser, С. Е. A963). Forms of Engel functions. Econometrica, 31,
694-703.
Leung, D. A988). Some problems in robust nonparametric regression.
Unpublished manuscript.
Li, K-C. A985). From Stein's unbiased risk estimates to the method
of generalized cross-validation. Annals of Statistics, 13, 1352-
1377.
Liero, H. A982). On the maximal deviation of the kernel regression,
function estimate. Mathematische Operationsforschung, Serie
Statistics, 13, 171-182.
Lipsey, R. G., Sparks, G. R. and Steiner, P. O. A976). Economics
Bnd ed). New York: Harper and Row.
Loftsgaarden, D. O. and Quesenberry, G. P. A965). A nonparametric
estimate of a multivariate density function. Annals of Mathe-
Mathematical Statistics, 36, 1049-1051.
McCullagh, P. and Nelder, J. A. A983). Generalized linear models.
London: Chapman and Hall.
McDonald, J. A. A982). Projection pursuit regression with the ORI-
ORION I workstation. A 25 minute film, available from Jerome H.
Friedman, Computation Research Group, Bin 88 SLAC, P.O.
4349, Standford, CA 94305.
McDonald, J. A. and Owen, A. B. A986). Smoothing with split linear
fits. Technometrics, 28, 195-208.
McDonald, J. A. and Pederson, J. A986). Computing environments
for data analysis: Part 3, programming environments. Labora-
Laboratory for Computational Statistics, Technical Report, 24, Uni-
University of Stanford, Stanford, CA.
Mack, Y. P. A981). Local properties of k-NN Regression Estimates.
SIAM J. Alg. Disc. Meth., 2, 311-323.
Mack, Y. P. and Silverman, B. W. A982). Weak and strong uni-
uniform consistency of kernel regression estimates. Zeitschrift fur
Wahrscheinlichkeitstheorie und verwandte Gebiete , 61, 405-
415.
Major, P. A973). On a nonparametric estimation of the regression
function. Studia Scientiarum Mathematicarum Hungaria, 8,
347-361.
Mallows, C. L. A980). Some theory of nonlinear smoothers. Annals
of Statistics, 8, 695-715.
336 Литература
Mammen, E. A987). Estimating a smooth monotone regression func-
function. Unpublished manuscript.
Mammen, E. A988). A short note on optimal bandwidth selection for
kernel estimators. Annals of Statistics, 2, 724-740.
Manski, C. F. A989). Nonparametric estimation of expectations in
the analysis of discrete choice under uncertainty. Unpublished
manuscript.
Manski, C. F. and McFadden, D. A981). Structural analysis of dis-
discrete data with econometric applications Cambridge, MA: MIT
Press.
Marhoul, J. C. and Owen, A. B. A984). Consistency of smoothing
with running linear fits. Technical Report 8, Stanford University,
Stanford, CA.
Maronna, R. A. A976). Robust M-estimators of multivariate location
and scatter. Annals of Statistics, 4, 51-67.
Marron, J. S. A985). Will the art of smoothing ever become a science?
In: Function estimates, ed. J. S. Marron. Amer. Math. Soc.
Contemporary Mathematics 59.
Marron, J. S. and Hardle, W. A986). Random approximations to an
error criterion of nonparametric statistics. Journal of Multi-
Multivariate Analysis, 20, 91-113.
Marron, J. S. and Nolan, D. A988). Canonical kernels for density
estimation. Statistics and Probability Letters, 7, 195-199.
Mattern, R., B6sche,J., Birk, J. and Hardle, W. A983). Experi-
mentelle Untersuchungen zum Verlauf der Alkoholkurve in der
spateren Eliminationsphase. In: Fortschritte der Rechtsmedi-
zin, eds. Froberg, Barz, Bosche, Kappner and Mattern. Heidel-
Heidelberg: Springer-Verlag.
Morgan, B. J. T. A984). Elements of simulation. London: Chapman
and Hall.
Miiller, II. G. A984a). Smooth optimum kernel estimators of densi-
densities, regression curves and modes. Annals of Statistics, 12,
766-774.
Miiller, H. G. A984b). Boundary effects in nonparametric curve esti-
estimation models. In: COMPSTAT, 84-89, Physica Verlag.
Muller, H. G. A985). Kernel estimators of zeros and of location and
size of extrema of regression functions. Scandanavian Journal
of Statistics, 12, 221-232.
Muller, H. G. A987). Weighted local regression and kernel methods
for nonparametric curve fitting. Journal of the American Sta-
Statistical Association, 82, 231-238.
Muller, H. G. and Stadtmiiller, U. A987). Estimation of heteroscedas-
ticity in regression analysis. Annals of Statistics, 12, 221-232.
Литература 337
Nadaraya, E. A. A964). On estimating regression. Theory Prob. Ap-
pl. 10, 186-190. (Надарая Э. А. Об оценке регрессии,
Теория вероятн. и ее примен., 9 A964), с. 157-159.)
Nemirovskii, A. S., Polyak, В. Т. and Tsybakov, А. В. A983). Es-
Estimators of maximum likelihood type for nonparametric re-
regression. Soviet Math. DokL, 28, 788-792. (Немировский
А. С, Пол як, Б. Т., Цыбаков А. Б. Оценки типа максимума
правдоподобия для непараметрической регрессии, ДАН
СССР, 273 A983), с. 1310-1314.)
Nemirovskii, A. S., Polyak, В. Т. and Tsybakov, А. В. A985).
Rate of convergence of nonparametric estimates of maximum
likelihood type. Problems of information transmission, 258-
272. New York: Plenum. (Немировский А. С, Поляк Б. Т.,
Цыбаков А. Б. Скорость сходимости непараметрических
оценок типа максимума правдоподобия. Пробл. передачи
информ., 21 A985), с. 17-33.)
Nussbaum, M. A985). Spline smoothing in regression models and
asymptotic efficiency in L2- Annals of Statistics, 13, 984-997.
Oldford, R. W. and Peters, S. C. A985). DINDE: Towards more sta-
statistically sophisticated software. Technical Report, Tr-55, MIT,
Cambridge, MA.
Owen, A. A987). Nonparametric conditional estimation. Technical
Report, 25, Stanford University, Stanford, CA.
Parzen, E. A962). On estimation of a probability density and mode.
Annals of Mathematical Statistics, 35, 1065-1076.
Pourciau, В. Н. A980). Modern multiplier rules. American Mathe-
Mathematical Monthly, 6, 433-452.
Powell, J. L., Stock, J. II. and Stoker, T. M. A989). Semiparametric
estimation of index coefficients. Unpublished manuscript.
Prakasa Rao, B. L. S. A983). Nonparametric functional estimation.
New York: Academic Press.
Priestley, M. B. and Chao, M. T. A972). Nonparametric function
fitting. Journal of the Royal Statistical Society, Series B, 34,
385-392.
Reinsch, H. A967). Smoothing by spline functions. Numerische Math-
ematik, 10, 177-183.
Revesz, P. A976). Robbins-Monro procedure in a Hilbert space and
its application in the theory of learning processes I. Studia Sci.
Math. Hung., 391-398.
Revesz, P. A977). How to apply the method of stochastic approxima-
approximation in the nonparametric estimation of a regression function.
Mathematische Operationsforschung, Serie Statistics, 8, 119-
126.
Rice, J. A. A984a). Bandwidth choice for nonparametric regression.
Annals of Statistics, 12, 1215-1230.
338 г Литература.
Rice, J. A. A984b). Boundary modification for kernel regression.
Communications in Statistics, Series A, 13, 893-900.
Rice, J. A. A985). Bandwidth choice for differentiation. Journal of
Multivariate Analysis, 20, 251-64.
Rice, J. A. A986). Convergence rates for partially splined models.
Statistics and Probability Letters, 4, 203-208.
Rice, J.A. and Rosenblatt, M. A983). Smoothing splines: regression,
derivatives and deconvolution. Annals of Statistics, 11, 141-
156.
Robbins, H. and Monro, S. A951). A Stochastic approximation
method. Annals of Mathematical Statistics, 22, 400-407.
Robinson, P. M. A983). Nonparametric estimators for time series. J.
Time Series Analysis, 4, 185-207.
Robinson, P. M. A984). Robust nonparametric autoregression. In:
Robust and nonlinear time series analysis, eds. Franke, Hardle
and Martin, 247-256. Heidelberg: Springer-Verlag.
Robinson, P. M. A987a). Asymptotically efficient estimation in the
presence of heteroskedasticity of unknown form. Econometrica,
55, 875-891.
Robinson, P. M. A987b). On the consistency and finite-sample prop-
properties of nonparametric kernel time series regression, autoregres-
autoregression and density estimators. Annals of the Institute of Statis-
Statistical Mathematics.
Rosenblatt, M. A956). Remarks on some nonparametric estimates
of a density function. Annals of Mathematical Statistics, 27,
642-669.
Rosenblatt, M. A969). Conditional probability density and regression
estimators. In: Multivariate Analysis II, 25-31. New York:
Academic Press.
Rousseouw, P. and Yohai, P. A984). Robust regression by means of 5-
estimators. In: Robust and nonlinear time series analysis, eds.
Franke, Hardle and Martin, 256-273. Heidelberg: Springer-
Verlag.
Rutkowski, L. A981). Sequential estimates of a regression function
by orthogonal series with applications in discrimination. In:
The First Pannonian Symposium on Mathematical Statistics,
eds. Revesz, Schmetterer and Zolotarev, 236-244. Heidelberg:
Springer-Verlag.
Rutkowski, L. A982). On-line identification of time varying systems
by nonparametric techniques. IEEE Transactions of Automatic
Control, 27, 228-230.
Rutkowski, L. A985a). Nonparametric identification of quasi-sta-
quasi-stationary systems. System and Control Letters, 6, 33-35. New
York: North Holland.
Литература, 339
Rutkowski, L. A985b). Real-time identification of time-varying sys-
systems by nonparametric algorithms based on Parzen kernels. In-
International Journal of Systems Science, 16, 1123-1130.
S A988). See Becker, Chambers and Wilks, A988).
Sacks, J. and Ylvisaker, D. A981). Asymptotically optimum kernels
for density estimation at a point. Annals of Statistics, 9,
334-346.
Schmerling, S. and Peil, J. A985). Verfahren der Lokalen Ap-
Approximation zur Nichtparametrischen Schatzung Unbekannter
Stetiger Funktionen aus MeBdaten. Gegenbaurs morphologisches
Jahrbuch Leipzig, 131, 367-381.
Schmerling, S. and Peil, J. A986). Improvement of the method of
kernel estimation by local polynomial approximation of the em-
empirical distribution function and its application to empirical re-
regression. Gegenbaurs morphologisches Jahrbuch Leipzig, 132,
29-35.
Schmidt, G. Mattern, R. and Schiiler, F. A981). Biomechanical in-
investigation to determine physical and traumatological differen-
differentiation criteria for the maximum load capacity of head and ver-
vertebral column with and without protective helmet under effects
of impact. EEC Research Program on Biomechanics of Impacts.
Final Report Phase III, Project 65, Institut fur Rechtsmedizin,
Universitat Heidelberg, West Germany.
Schoenberg, I. J. A964). Spline functions and the problem of gradu-
graduation. Mathematics, 52, 947-950.
Schonfeld, P. A969). Methoden der Okonometrie, Band I Lineare Re-
gressionmodelle. Verlag Franz Vahlen GmbH Berlin und Frank-
Frankfurt a.M.
Schucany, W. R. and Sommers, J. P. A977). Improvement of kernel-
type density estimators Journal of the American Statistical
Association, 72, 420-423.
Schuster, E. F. A972). Joint asymptotic distribution of the estimated
regression function at a finite number of distinct points. Annals
of Mathematical Statistics, 43, 84-88.
Schuster, E. F. and Yakowitz, S. A979). Contributions to the theory
of nonparametric regression, with application to system identi-
identification. Annals of Statistics, 7,139-149.
Scott, E. M., Baxter, M. S. and Aitchison, Т. С A984). A compari-
comparison of the treatment of error in radiocarbon dating calibration
methods. Journal of Archeological Sciences, 11, 455-466.
Serfling, R.J. A980). Approximation theorems of mathematical statis-
statistics. New York: Wiley.
Shibata, R. A981). An optimal selection of regression variables.
Biometrika, 68, 45-54.
340 Литература
Silverman, В. W. A982). Kernel density estimation using the Fast
Fourier Transformation. Applied Statistics 31, 93-97.
Silverman, B. W. A984). Spline smoothing: the equivalant variable
kernel method. Annals of Statistics, 12, 898-916.
Silverman, B. W. A985). Some aspects of the spline smoothing ap-
approach to nonparametric regression curve fitting (with discus-
discussion). Journal of the Royal Statistical Society, Series B, 47
1-52.
Silverman, B. W. A986). Density estimation for statistics and data
analysis. London: Chapman and Hall.
Singh R.S. and Ullah, A. A985). Nonparametric time series estima-
estimation of joint DGP, conditional DGP and vector autoregression.
Econometric Theory, 1.
Speckman, P. A988). Kernel smoothing in partial linear models.
Journal of the Royal Statistical Society, Series B, 50, 413-46.
Spiegelman, С. Н. A976). Two techniques for estimating treatment
effects in the presence of hidden variables: adaptive regression
and a solution to Reiersors problem Unpublished Ph.D. thesis,
Northwestern University, Dept. Mathematics.
Stone, C. J. A977). Consistent nonparametric regression (with dis-
discussion). Annals of Statistics, 5, 595-645.
Stone, С J. A980). Optimal rates of convergence for nonparametric
estimators. Annals of Statistics, 8,1348-1360.
Stone, C. J. A982). Optimal global rates of convergence for nonpara-
nonparametric regression. Annals of Statistics, 10, 1040-1053.
Stone, C.J. A985). Additive regression and other nonparametric mod-
models. Annals of Statistics, 13, 689-705.
Stone, C.J. A986). The dimensionality reduction principle for gener-
generalized additive models. Annals of Statistics, 14, 590-606.
Stone, C.J. and Koo, C.Y. A985). Additive splines in statistics. In:
Function Estimates, ed. J. S. Marron, J.S. Amer. Math. Soc.
Contemporary Mathematics 59.
Stone, M. A974). Cross-validatory choice and assessment of statistical
predictions (with discussion). Journal of the Royal Statistical
Society, Series B, 36, 111-147.
Stuetzle, W. and Mittal, Y. A979). Some comments on the asymp-
asymptotic behavior of robust smoothers. In: Smoothing techniques
for curve estimation, eds. T. Gasser, and M. Rosenblatt. Hei-
Heidelberg: Springer- Verlag.
Stuetzle, W., Gasser, Т., Molinari, L., Largo, R. H., Prader, A. and
Huber, P. J. A980). Self-invariant modeling of human growth.
Ann. Human Biology, 7, 507-528.
Stute, W. A984). Asymptotic normality of nearest neighbor regres-
regression function estimates. Annals of Statistics, 12, 917-926.
Литература 341
Suess, H. E A980). A calibration table for conventionel radiocarbon
dates. In: Proc. IXth Int. Conf. UCLA, 1976, 777-784. Los
Angeles: UC Press.
Szego, G. A959). Orthogonal polynomials. Amer. Math. Soc. Coll.
PubL, 23.
Tapia, D. and Thompson, J. A978). Nonparametric probability den-
density estimation. Baltimore, MD: The Johns Hopkins University
Press.
Truong, Y. K. and Stone, С J. A987a). Nonparametric time series
prediction: kernel estimators based on local averages. Unpub-
Unpublished manuscript.
Truong, Y. K. and Stone, C. J. A987b). Nonparametric time series
prediction: kernel estimators based on local medians. Unpub-
Unpublished manuscript.
Tsybakov, A. B. A982a). Nonparametric signal estimation when there
is incomplete information on the noise distribution. Problems
of information transmission, 18, 116-130. (Цыбаков А. Б.
Непараметрическое оценивание сигнала при неполной ин-
информации о распределении шума, Проблемы передачи ин-
информации, 18 A982), с. 44-60.)
Tsybakov, А. В. A982b). Robust estimates of a function. Problems
of information transmission, 18, 190-201. (Цыбаков А. Б.
Робастные оценки значений функции, Проблемы передачи
информации, 18 A982), с. 39-52.)
Tsybakov, А. В. A983). Convergence of nonparametric robust al-
algorithms of reconstruction of functions. Avtomation and Re-
Remote Control, 12, 1582-1591. (Цыбаков А. В. О сходимости
непараметрических робастных алгоритмов восстановления
функций, Автоматика и телемеханика, 12 A983), с. 66-
76.)
Tsybakov, А. В. A986). Robust reconstruction of functions by the lo-
local approximation method, Problems of information transmis-
transmission, 22,133-146. (Цыбаков А. Б. Робастное восстановление
функций методом аппроксимации, Проблемы передачи
информации, 22 A986), с. 69-84.)
Tsybakov, А. В. A988). Passive stochastic approximation. University
of Bonn, SFB 303 Discussion Paper.
Tufte, G. A983). The visual display of quantitative information. New
Haven, CT: Graphics.
Tukey, J. W. A947). Nonparametric estimation II. Statistically equiv-
equivalent blocks and tolerance regions. The continuous case. An-
Annals of Mathematical Statistics, 18, 529-539.
Tukey, J. W. A961). Curves as parameters and touch estimation.
Proc 4th Berkeley Symposium, 681-694.
342 Литература
Tukey, J. W. A977). Exploratory data analysis. Reading, MA;
Addison-Welsley. (Тьюки Дж. Анализ результатов наблю-
наблюдений. — М.: Советское радио, 1981.)
Tukey, J. W. A987). Discussion of "What is projection pursuit" of
Jones and Sibson. Journal of the Royal Statistical Society,
Series A, 150, 1-38.
Ullah, A. A987). Nonparametric estimation of econometric function-
als. Unpublished manuscript.
Uspensky, J. V A937). Introduction to mathematical probability. New
York: McGraw Hill.
Utreras, F. I A986). Smoothing noisy data using monotonicity con-
constraints. Numerische Mathematik, 47, 611-625.
Velleman, P. F. A977). Robust nonlinear data smoothers: definitions
and recommendations. Proc. Natl. Acad. Sci. USA, 74, 434-
436.
Velleman, P. F. A980). Definition and comparison of robust nonlinear
data smoothing algorithms. Journal of the American Statistical
Association, 75, 609-615.
Wahba, G. A975). Optimal convergence properties of variable knot,
kernel, and orthogonal series methods for density estimation.
Annals of Statistics, 3, 15-29.
Wahba, G. A977). A survey of some smoothing problems and the
method of generalized cross-validation for solving them. In:
Applications of Statistics, ed. P.R. Krishnaiah. Amsterdam:
North Holland.
Wahba, G. A979). Convergence rates of "thin plate" smoothing
splines when the data are noisy. In: Smoothing techniques
for curve estimation, eds. T. Gasser and M. Rosenblatt. New
York: Springer-Verlag.
Wahba, G. A980). Automatic smoothing of the log periodogram.
Journal of the American Statistical Association, 75, 122-132.
Wahba, G. and Wold, S. A975). A completely automatic French
curve: fitting spline functions by cross-validation. Commu-
Communications in Statistics, Series A, 4, 1-17.
Walter, G. A977). Properties of Hermite series estimation of proba-
probability density. Annals of Statistics, 5,1258-1264.
Walter, G. and Blum, J. A979). Probability density estimation using
delta sequences. Annals of Statistics, 7, 328-340.
Watson, G. S. and Leadbetter, M. R. A963). On the estimation of
the probability density, I. Annals of Mathematical Statistics,
34, 480-491.
Watson, G. S. A964). Smooth regression analysis. Sankhya, Series
A, 26, 359-372.
Watson, G. S. and Leadbetter, M. R. A964). Hazard analysis H-
Sankhya, Series A, 26, 101-116.
Литература 343
Whittaker, E. Т. A923). On a new method of graduation. Proc. Ed-
Edinburgh Math. Soc, 41, 63-75.
Whittle, P. A960). Bounds for the moments of linear and quadrat-
quadratic forms in independent variables. Theory of Probability and
its Applications, 5, 302. (Иттл П. Границы для моментов
линейных и квадратичных форм в независимости перемен-
переменных, Теория вероятн. и ее примен., 5 A960), с. 302.)
Working, H. and Hotelling, H. A929). Application of the theory of
error to the interpretation of trends. Journal of the American
Statistical Association, Suppl. (Proc), 24, 73-85.
Wright, I. W. and Wegman E. J. A980). Isotonic, convex and related
splines. Annals of Statistics, 8, 1023-1035.
Wu, С F. J. A986). Jackknife, bootstrap and other resampling meth-
methods in regression analysis. Annals of Statistics, 14, 1261-1343.
Wynn, H. P. A984). An exact confidence band for one-dimensional
polynomial regression. Biometrika, 71, 375-379.
XploRe A989). See Hardle A987b) and Broich, Hardle and Krause
A989).
Yakowitz, S. A985a). Nonparametric density estimation, prediction,
and regression for Markov sequences. Journal of the American
Statistical Association, 80, 215-221.
Yakowitz, S. A985b). Markov flow models and the flood warning
problem. Water Resources Research, 21, 81-88.
Yakowitz, S. A987). Nearest neighbor methods for time series analy-
analysis. Journal of Time Series Analysis, 18, 1-13.
Yakowitz, S. and Szidarovsky, F. A986). An introduction to numeri-
numerical computations. New York: Macmillan.
Yang, S. A981). Linear functions of concomitants of order statistics
with application to nonparametric estimation of a regression
function. Journal of the American Statistical Association, 76,
658-662.
Литература, добавленная при переводе:
Вапник В. Н. A979). Восстановление зависимостей по эмпириче-
эмпирическим данным. — М.: Наука.
Деврой Л., Дьёрфи Л. A988). Непараметрическое оценивание
плотности. Lx-подход. — М.: Мир.
Дороговцев А. Я. A982). Теория оценок параметров случайных
процессов. — Киев: Вища школа.
Жиглявский А. А. A985). Математическая теория глобального
случайного поиска. — Л.: Изд-во ЛГУ.
Ибрагимов И. А., Хасьминский Р.З. A979). Асимптотическая те-
теория оценивания. — М.: Наука.
Ибрагимов И.А., Хасьминский Р.З. A980). Асимптотические гра-
границы качества непараметрического оценивания регрессии
344 Литература
в Lp. Зап. научн. семинаров ЛОМИ. 97, с. 88, 101. —.
Л.:* Наука.
Ибрагимов И. А., Хасьминский Р. 3. A982). О границах качества
непараметрического оценивания регрессии. Теор. вероятн.
и ее примеч. 27, №1, с. 81-94.
Кошкин Г. М. A978). Об одном подходе к исследованию функци-
функционалов от условных распределений при статистической не-
неопределенности. Автоматика и телемеханика. №8, с. 53-
65.
Левит Б. Я. A975). Об эффективности одного класса непараме-
непараметрических оценок. Теор. вероятн. и ее примен. 20, №4,
с. 738-754.
Медведев А. В. A983). Непараметрические системы адаптации.
— Новосибирск: Наука.
Надарая Э. А. A965). О непараметрических оценках плотности
вероятностей и регрессии. Теор. вероятн. и ее премен.
10, №1, с. 199-203.
Надарая Э. А. A974). Об интегральной среднеквадратичной
ошибке некоторых непараметрических оценок плотности
вероятностей. Теор. вероятп. и ее примен. 19, №1, с. 131-
139.
Надарая Э. А. A983). Непараметрическое оценивание плотности
вероятностей и кривой регрессии. — Тбилиси: Изд-во
Тбил. Гос. ун-та.
Назин А. В., Поляк Б. Т., Цыбаков А. Б. A989). Пассивная стоха-
стохастическая аппроксимация. Автоматика и телемеханика.
№11, с. 127-134.
Немировский А. С, Поляк Б. Т., Цыбаков А. Б. A984). Обработ-
Обработка сигналов непараметрическим методом максимума прав-
правдоподобия. Пробл. передачи информ. 20, №3, с. 29-46.
Нуссбаум М. A986). О непараметрическом оценивании функции
регрессии, гладкой в области из Rk. Теор. вероятн. и ее
примен. 31, №1, с. 118-125.
Поляк Б. Т., Цыбаков А. Б. A989). Оптимальные проекцион-
проекционные оценки для функции регрессии неизвестной гладкости.
ДАН СССР. 304, №2, с. 297-301.
Поляк Б. Т., Цыбаков А. Б. A990). Асимптотическая оптималь-
оптимальность Ср-критерия при проекционном оценивании регрес-
регрессии. Теор. вероятн. и ее примен. 35, №2.
Цыбаков А.Б. A987). О выборе ширины окна в ядерной непара-
непараметрической регрессии. Теор. вероятн. и ее примен. 32
№1, с. 153-159.
Основные обозначения
X — предсказательная переменная в ГО,*
У — переменная отклика в Ш
f(x) — маргинальная плотность X
f(x>y) — совместная плотность X и У
f(y\x) = /(я, y)/f(x) — условная плотность У при данном X = х
F(y\x) — условная функция распределения У при данном X = х
f(x) — оценка f{x)
т(х) = E(Y\X = ж) — кривая регрессии У на X
т(х) — оценка т(х)
<г2(х) = 2?(У2|Х = х) — т2(х) — условная дисперсия У при данном
X = х
?2(х) — оценка <г2(ж)
Ф(х) — функция стандартного нормального распределения
<р(х) — плотность стандартного нормального распределения
1(М) — индикаторная функция, т. е. / = 1 на М> I = 0 вне М
х = argmax g(u) т.т.т. (тогда и только тогда, когда) </(•) имеет
единственный максимум в точке х
х = argmin д(и) т.т.т. д(-) имеет единственный минимум в точке х
Распределения
N@,1) — стандартное нормальное распределение
G(а, 6) — равномерное распределение на (а, 6)
{(Xt-,lj)}|jl=1 — выборка из п наблюдений
{XlJLj — порядковая статистика {^,}?=i в ГО,
V(,-))}?=i — упорядоченная выборка, где {^(,)}?=i получено
сортировкой X
? = а((Хг, Ух),..., (Хп, Уп)) — ^-алгебра, порожденная {(Xt,t. )}?=1
((n»yn)» •••) — с-алгебра, порожденная {(ХП,УП),...}
Среднеквадратичная ошибка
MSE = ?[ 2
Среднеквадратичная интегрированная ошибка
MISE = /[ ]2Ц)
346 Основные обозначения
Интегрированная квадратичная ошибка
ISE = dj(h) = f[mh(x) - m(x)]*f(x)w(x)dx
Усредненная квадратичная ошибка
ASE = dA(h) = ??=1К(Х.) - гп(Х()]МХг
Средняя усредненная квадратичная ошибка
MASE = dMA(h) = EdA(h)
Ядерные константы
dK = fu2K(u)du
Пусть an и /?n — последовательности действительных чисел
ап = Офп) т.т.т. an/f3n —> constant при п —> оо
<*п = °(^п) т.т.т. ап//?п — 0 при п -н. оо
ап ^ /?п т.т.т. ап//?п = с + оA) при п -> оо, с ^ О
Пусть Лп и J5n — последовательности действительных переменных
Ап = Ор(Вп) т.т.т. Ve > О ЭМ, ЗАГ: P{\AJBn\ >M}<e,4n>N
Ап = ор(Вп) т.т.т. Ve > 0 lirn^ P{\An/Bn\ > e) = 0
An «Bn т.т.т. Лп = Вп+ор(Вп)
Ana^A т.т.т. Pth^^^^ = A] = 1.
АПДЛ т.т.т. Лп — Л = орA) при п —> оо
ЛП-^Л т.т.т. ?7[ЛП — А]г = оA) при п —> оо
Лп—*Л т.т.т. Р{ЛП < х} —* Р{Л < х} = F(x) при п —> оо во всех
точках непрерывности F(x)
Сравните эти понятия с (Schonfeld, 1969, гл. 6)
д: IRd —> Ш, называется непрерывной по Гельдеру, если найдут-
найдутся постоянные С и 0 < ? < 1 такие, что \g(u) — g(v)\ <
C\u-vf, Vii,v
Оглавление
Предисловие редактора перевода 5
Предисловие 7
I Сглаживание регрессии 10
1. Введение 10
1.1. Мотивация 13
1.2. Обзор книги 20
2. Основная идея сглаживания 23
2.1. Стохастическая природа наблюдений 30
2.2. Трудности сглаживания 31
3. Методы сглаживания 34
3.1. Ядерное сглаживание 34
Упражнения 49
3.2. Оценки it-ближайших соседей 54
Упражнения 62
3.3. Оценки ортогональных разложений 63
Упражнения 67
3.4. Сглаживание сплайнами 69
Упражнения 78
3.5. Обзор различных сглаживателей 79
Упражнения 88
3.6. Сравнение ядерных, k-NN-оценок и сплайнов .... 90
Упражнения 98
348 Оглавление
II Ядерный метод 100
4. Какова точность оценивания ? 100
4.1. Скорость сходимости оценки сглаживания 102
Упражнения 108
4.2. Поточечные доверительные интервалы 111
Упражнения 121
4.3. Границы изменчивости для функции 123
Упражнения 137
4.4. Поведение на границе 143
Упражнения 145
4.5. Точность как функция ядра 147
Упражнения 153
4.6. Методы уменьшения смещения 154
Упражнения 159
5. Выбор параметра сглаживания 160
5.1. Кросс-проверка, штрафные функции и метод под-
подстановки 161
Упражнения 177
5.2. Какой селектор следует использовать? 179
Упражнения 189
5.3. Локальная адаптация параметра сглаживания .... 192
Упражнения 200
5.4. Сравнение значений ширины окна (канонические
ядра) 201
Упражнения 205
6. Данные с большими выбросами 206
6.1. Устойчивые методы сглаживания 208
. Упражнения 217
7. Методы непараметрической регрессии для коррелиро-
коррелированных данных 220
7.1. Непараметрическое предсказание временных рядов . 221
7.2. Сглаживание при зависимых ошибках 226
Упражнения 233
8. Поиск специальных характеристик и качественное
сглаживание 235
8.1. Монотонное и унимодальное сглаживание 236
Оглавление 349
Упражнения 242
8.2. Оценивание нулей и экстремальных точек 245
Упражнения 249
9. Включение параметрических компонент 251
9.1. Частично линейные модели 253
Упражнения 256
9.2. Моделирование с инвариантной формой 257
Упражнения 262
9.3. Сравнение непараметрической и параметрической
кривых -'*:.' 263
Упражнения \ 271
III Сглаживание при больших размерностях 276
10 Исследование множественной регрессии аддитивными
моделями 276
10.1. Модели дерева регрессии 278
Упражнения 284
10.2. Регрессия целенаправленного проецирования .... 284
Упражнения 287
10.3. Чередование условных математических ожиданий . 287
Упражнения 293
10.4. Оценивание средней производной 294
Упражнения 301
10.5. Обобщенные аддитивные модели 301
Упражнения 307
Приложение 1 309
Желаемая вычислительная среда 309
Анализ данных в среде XploRe 311
Приложение 2 320
Литература 323
Основные обозначения 345
Уважаемый читатель!
Ваши замечания о содержании книги, ее оформлении,
качестве перевода и другие просим присылать по адресу:
129820, Москва, ГСП, 1-й Рижский пер., д. 2,
издательство «Мир».
Научное издание
Вольфганг Хардле
ПРИКЛАДНАЯ НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ
Заведующий редакцией академик В. И. Арнольд
Зам. зав. редакцией А. С. Попов
Ведущий редактор М. 3. Хатунцева
Научный редактор В. В. Славова
Художник А. П. Купцов
Художественный редактор В. И. Шаповалов
Технический редактор О. Г. Лапко
Корректор С. С. Суставова
ИБ № 7611
Оригинал-макет подготовлен И. В. Терешкиной
в пакете Tj^i с использованием кириллических шрифтов,
разработанных в редакции АИП издательства «Мир»
Подписано к печати 13.07.93. Формат 60 х 88/16.
Бумага офсетная. Печать офсетная. Объем 11,00 бум. л.
Усл.-печ. л. 21,56. Усл. кр.-отт. 21,93. Уч.-изд. л. 21,72.
Изд. N* 1/8220. Тираж 2000 экз. Заказ НЪ7. С105
Издательство «Мир» Министерства печати и информации
Российской Федерации. 129820, Москва, 1-й Рижский пер., 2.
Московская типография JV* 9
МПО «Всесоюзная книжная палата»
109033, Москва, Волочаевская ул., 40.
У ВАС ЕСТЬ ПРОБЛЕМЫ
с публикацией Ваших научных статей?
Ваших издателей не устраивает качество набранных Вами формул?
У Вас есть компьютер и нет программы для набора
сложных научно-технических текстов?
ЗНАЧИТ — ВАМ СРОЧНО НУЖЕН
это универсальная система электронного набора и верстки, в
которой ведущие научно-технические издательства мира пред-
предпочитают получать от авторов их материалы. В этой системе молено поли-
полиграфически безупречно набрать самую замысловатую формулу, далее такую:
т>0 \ kltk7, ,fcm>0_
Вы теперь убедились:
Вам нужен Т$?\
Значит Вам нужна
Ассоциация
пользователей
кириллического
CyrTUG
Вступив в CyrTUG, Вы сможете:
к получить базовые комплекты системы 1]еХ (public domain);
* обмениваться Тонической информацией с нашими и зарубежными пользователями;
if участвовать в конференциях и посещать курсы, организуемые CyrTUG\
if публиковать результаты своих Т^Хразработок.
Мы поможем Вам вступить в CyrTUG, если Вы свяжетесь с нами
по телефону 286-06-22 или e-mail: cyrtug@mir.msk.su.
Исполнительный директор — Маховая Ирина Анатольевна
РОССИЯ, 129820, Москва, 1-й Рижский переулок, д. 2,
Издательство "Мир", CyrTUG, Маховая И.А.
Typeset by AmS-T&