Непараметрическое оценивание плотности. L1-подход - Деврой Л., Дьёрфи Л.

Автор: Деврой Л. Дьёрфи Л.
Теги: теория вероятностей и математическая статистика теория вероятностей математическая статистика комбинаторный анализ теория графов математика статистика издательство мир
ISBN: 5-03-000475-0
Год: 1988
Похожие
Прикладная непараметрическая регрессия
Непараметрические методы статистики
Статистический анализ Подход с использованием ЭВМ
Математика. Выпуск 8. Математическая статистика: Опорный конспект
Текст
                    
НЕПАРАМЕТРИЧЕСКОЕ
ОЦЕНИВАНИЕ
ПЛОТНОСТИ
Wiley Series in Probability and Mathematical Statistics
NONPARAMETRIC DENSITY ESTIMATION
THE M VIEW
LUC DEVROYE
McGill University
Montreal, Canada
LASZLO GYORFI
Hungarian Academy of Sciences
Budapest, Hungary
John Wiley & Sons
New York • Chichester • Brisbane • Toronto • Singapore
1985
Л.ДЕВРОЙ, Л.ДЬЁРФИ
НЕПАРАМЕТРИЧЕСКОЕ
ОЦЕНИВАНИЕ
ПЛОТНОСТИ
Li-ПОДХОД
Перевод с английского
А. Б. ЦЫБАКОВА
под редакцией
М. Б. МАЛЮТОВА
МОСКВА «МИР» 1988
ББК 22.172
Д25
УДК 519.22
Деврой Л., Дьёрфи Л.
Д 25 Непараметрическое оценивание плотности. Lx-подход:
Пер. с англ. — М.: Мир, 1988. — 408 с.
ISBN 5-03-000475-0
Книга известных специалистов (Канада, ВНР), представляющая собой пер-
вое достаточно полное изложение теории непараметрического оценивания плотно-
сти распределения — важного раздела современной математической статистики.
Описаны основные типы оценок плотности, приведены результаты, относящиеся
к их состоятельности и скорости сходимости. Основное внимание уделяется иссле-
дованию сходимости оценок в естественной для плотностей распределения мёт-
рике Li. Русское издание дополнено новым материалом.
Для научных работников, имеющих дело с обработкой статистических дан-
ных, для студентов, специализирующихся по математической статистике.
„ 1702060000—146
Л 041 (01)—88 27—881 ч- *
ББК 22.172
Редакция литературы по математическим наукам
ISBN 5-03-000475-0 (русск.)
ISBN 0-471-81646-9 (англ.)
© 1985 by John Wiley & Sons, Inc.
All Rights Reserved. Authorized trans-
lation from English language edition
published by John Wiley & Sons, Inc.
© перевод на русский язык, с дополне-
ниями, «Мир», 1988
Предисловие редактора перевода
Оценивание распределения повторных изменений и, в част-
ности, оценивание плотности распределения (существование ко-
торой обычно естественно предположить) — центральная задача
математической статистики. Гистограммная оценка плотности
издавна является общепринятым элементом описательной стати-
стики. Теоретические результаты о состоятельности и скорости
сходимости непараметрических оценок плотности, развивающих
гистограммные, начали появляться с конца пятидесятых годов
на основе теоретико-информационных результатов в теории при-
ближений. Оказалось, что наилучшая скорость сходимости та-
ких оценок — более медленная, чем для параметрических мо-
делей, в зависимости от априорного класса плотностей, которому
принадлежит искомая. В настоящее время для некоторых метрик
(например, £2) наилучшая скорость сходимости найдена с точ-
ностью до эквивалентности.
В книге Л. Девроя и Л. Дьёрфи основное внимание уделено
разработке красивой теории, изучающей состоятельность оце-
нок fn плотности f и скорость сходимости Lj-расстояния
А = f Ifn- f\dx.
Полученные фундаментальные результаты затем эффективно при-
меняются: к исследованию поведения широкого класса непара-
метрических оценок, охватывающего основные используемые на
практике приемы; к исследованию корректности применения оце-
нок плотности при приближенном статистическом моделирова-
нии искомого распределения (весьма популярном сейчас в связи
с развитием метода бутстрап)-, к задачам дискриминации попу-
ляций и классификации измерений.
Уже эти приложения оправдывают усилия, которые понадо-
бятся читателю для овладения содержательной, но сложной
теорией поведения величины Jn, впервые подробно представ-
ленной в этой книге. Список книг, посвященных более узким
классам оценок плотности или практическим аспектам их приме-
нения, приведен в литературе к гл. 1 и комментарию к ней.
В комментариях к пяти главам книги переводчик А. Б. Цы-
баков сообщил сведения о полезной дополнительной литературе
в
Предисловие редактора перевода
на ту же тему (в частности, советских авторов, мало цитируемых
в книге), о дополнительных результатах авторов, полученных
после выхода книги. Авторы любезно прислали также список
замеченных ими ошибок. Ряд неточностей был устранен А. Б. Цы-
баковым, деятельность которого намного превышала обычную ра-
боту переводчика.
Перевод книги снабжен двумя дополнениями, написанными
нашими известными специалистами Н. Н. Ченцовым и В. Н. Вап-
ником. В первом из них, в частности, объяснена важность под-
хода Lx, изучаемого в книге, с точки зрения общей теории стати-
стических решений и геометрии распределений. Во втором до-
полнении дана исчерпывающая теория состоятельности общих
оценок плотности и разработаны общие методы построения клас-
сов таких оценок, основанные на принципе упорядоченной мини-
мизации риска и общей теории некорректных задач.
Таким образом, в книге впервые дается изложение принци-
пов, лежащих в основе одной из центральных проблем математи-
ческой статистики, и углубленный обзор методов, применяемых
при ее решении. Книга послужит ценным пособием для студен-
тов, аспирантов и специалистов в области математической ста-
тистики и будет способствовать росту числа грамотных примене-
ний этих методов.
М. Б. Малютов
Предисловие к русскому изданию
Мы очень благодары издательству «Мир» за публикацию на-
шей книги в переводе на русский язык, благодаря чему более
широкий круг представителей сильной советской школы по тео-
рии вероятностей и математической статистике сможет познако-
миться с книгой.
Настоящее издание на русском языке нечто большее, чем просто
пассивный перевод, поскольку в нем содержатся важные редак-
ционные замечания А. Б. Цыбакова и М. Б. Малютова, а также
превосходные статьи Н. Н. Ченцова и В. Н. Вапника, поясняю-
щие уместность Lx-подхода к оцениванию плотности.
В нашей книге приводятся аргументы в пользу исследования
оценок плотности в метрике Затем мы проводим само исследо-
вание, обнаруживая ряд новых заманчивых свойств оценок плот-
ности. Хотя многие задачи при этом остаются нерешенными, мы
надеемся заразить своим энтузиазмом по поводу Lx-теории оце-
нивания плотности других ученых и полагаем, что издание на рус-
ском языке будет способствовать развитию советских исследова-
ний в этой области
Люк Деврой
Монреаль, март 1987 г.
Ласло Дьёрфи
Будапешт, март 1987 г.
Посвящается Би и Кати
Предисловие
В книге рассматривается сходимость в метрике оценок плот-
ности распределения, основанных на выборке из независимых
одинаково распределенных случайных векторов со значениями
в Rd. Мы предприняли попытку разработать хорошую ^-теорию,
так как более полно изученная Л2-теория приводит к ряду ано-
мальных эффектов и неправильных представлений. Было бы не-
верно утверждать, что в книге содержится исчерпывающее опи-
сание всех известных результатов в метрике Lr. Скорее, это изло-
жение совокупности взглядов, в котором упор делается на резуль-
таты, позволяющие лучше понять оценивание плотности. Умыш-
ленно ограничиваясь £гтеорией, мы, разумеется, не могли не упу-
стить некоторые интересные и зачастую глубокие исследования
по непараметрическому оцениванию плотности.
Хочется надеятся, что некоторые разделы книги увлекут чи-
тателя, и все-таки в основном она должна казаться довольно
скучной (всем, кроме редких любителей технических деталей).
Так что книга не рекомендуется ни для использования в качестве
шпаргалки, ни для изучения во время телевизионных рекламных
пауз. Надо было пожертвовать хоть чем-то ради краткости, общ-
ности и оптимальности — трех целей, которые мы перед собой
поставили. Например, неглубокие результаты, перегруженные
избыточными условиями, имеют, как правило, простые и короткие
доказательства. Иногда необходимо пройти длинными окольными
путями, чтобы обобщить эти результаты и избавиться от таких
удобных условий. По пути часто наталкиваешься на достойные
упоминания изящные побочные результаты, и вся работа превра-
щается, прежде чем успеешь это осознать, в почти непроходимые
джунгли из технических деталей. Создание книги сопровожда-
лось вспышками возбуждения и энтузиазма: нас охватывало
волнение всякий раз, когда одному из нас удавалось заполнить
пробел или построить мост между какими-нибудь понятиями,
а энтузиазм вызывали такие простые вещи, как красивые нера-
венства. Именно волнение и поспешность ответственны за ошибки,
которые читатель, быть может, обнаружит.
В выборе тем и математического аппарата на нас оказали влия-
ние ранние работы по непараметрическому оцениванию плот-
Предисловие
9
ности (Парзен, Розенблат), современная французская школа
(Жеффруа, Боек, Дехёвельс, Абу-Жауд, Бретаньоль, Юбер,
Бирже) и некоторые относительно надавние публикации на близ-
кие темы (Гиман, Стил, Стоун). Мы весьма признательны Терри
Вагнеру, Шандору Чиби, Кларку Пенроду, Полю Дехёвельсу,
Адаму Кшижаку, Питеру Холлу и*Годфриду Туссену за прямую
помощь, выразившуюся в форме обсуждений и советов. Мы также
благодарны канадскому фонду NSERC за щедрую финансовую
поддержку, а Макгиллскому университету за то, что он не сделал
из этой субсидии никаких вычетов. Наконец, мы хотели бы по-
благодарить всех коллег и друзей, которые, беседуя с нами, спо-
собствовали, сами того не осознавая, лучшему пониманию вопро-
сов оценивания плотности. Это — Ален Берлине, Люсьен Бирже,
Денис Боек, Жан Бретаньоль, Пэт Брокетт, Жерар Коломб,
Том Ковер, Бен Фокс, Стьюарт Гиман, Пит Грёнебом, Вилфрид
Гроссман, Антонио Гвалтиеротти, Катрин Юбер, Жан-Пьер Ле-
кутр, Фред Мэчелл, Мэнни Парзен, Георг Плюг, Пал Ревес,
Дэвид Скотт, Майк Стил, Джим Томсон и Вольфганг Вертц.
Монреаль, Канада,
Будапешт, Венгрия
Октябрь, 1984 г.
Люк Деврой,
Ласло Дьёрфи
Глава 1
Введение
В обширной литературе по непараметрическому оцениванию
плотности г) каждая книга неизбежно охватывает лишь ограничен-
ный круг вопросов. Не является исключением и данная книга.
При выборе подхода мы руководствовались общими принципами,
в частности в отличие от других работ рассматривали все плот-
ности как элементы пространства Lu а не L2 или L№. Мы также
не рассматривали оценки, не являющиеся плотностями, считая,
что плотности следует оценивать плотностями. Так как простран-
ство — естественное пространство для плотностей, то исполь-
зование его глубинных свойств приводит к очень хорошей тео-
рии, не обремененной ненужными условиями. Мы попытаемся
сформулировать все теоремы в наиболее общей и простейшей
форме.
В этой книге рассматривается следующая задача. Пусть
данные Xlt .... Хп — независимые одинаково распределенные слу-
чайные векторы со значениями в Rd, имеющие общую плотность
распределения f. Оценка плотности есть последовательность Д,
Д, ..., где fn (х) = fn (х; Хъ .... Хп) является действительно-
значной борелевской функцией своих аргументов при каждом п
и плотностью на Rd при фиксированных п, ..., Хп.
Выбор /^-расстояния Jn = J | fn — f | мотивируется тем,
что оно инвариантно относительно монотонных преобразований
координатных осей и всегда определено. Пусть, например, X
и Y — случайные векторы с плотностями f и g соответственно.
Применим к X и Y преобразование Т : Rd -> Rd, достаточно бо-
гатое в том смысле, что {Т_1В | В £	= Я, где $ — класс
всех борелевских множеств на Rd (это влечет за собой, что пре-
образование является взаимно однозначным). Независимо от
вида Т имеем
Jlf-g| = Jir-.TI.	(I)
х) Здесь и далее термин плотность означает плотность распределения слу-
чайной величины (вектора). — Прим, перев.
Гл. 1. Введение
11
где f* и g* — плотности распределения Т (X) и Т (У). В част-
ности, при d = 1 расстояние Jn инвариантно относительно не-
прерывных строго монотонных преобразований. Свойство (1)
вытекает из следующего результата.
Теорема 1 (Scheffe (1947)). Для любых плотностей f и g на Rd
имеем
|f-g| = 2sup I f- I g
i s
(2)
Доказательство. Пусть В — {f > g} и A £ f3. Так как
j (f — g) — 0, [ I/ —- g| = 2 j (f — g), то левая часть (2) меньше
в
или равна правой1. Кроме того,
стах /j(f-g), J (g-M
уде#,
где через Вс обозначается дополнение множества В. Соотноше-
ние (2) доказано.
Теперь легко получить свойство инвариантности (1):
Иными словами, при d = 1 можно получить наглядное представ-
ление о величине Jn, оценивая площадь между графиками плот-
ностей f и g, нарисованных в любом выбранном нами линейном
или нелинейном масштабе, или даже между графиками соответ-
ствующих преобразованных плотностей на [0, 1 ] при преобразо-
ваниях Т: R -> [0, 1]. Теорема 1 также устанавливает связь
Lx-расстояния между f и g с максимальным расхождением вероят-
ностей любых борелевских множеств, вычисленных с помощью
плотностей fug соответственно.
Рассмотрим теперь £р-расстояние — я1₽)1₽ Заменим X
и Y на аХ и aY, где а =#= 0 — масштабный множитель и размер-
12
Гл. 1. Введение
ность Хи У равна 1. Тогда плотность распределения случайной
величины аХ равна f* (х) — (1/а) f (х/а). Следовательно,
За исключением случая р = 1, все £р-расстояния	зависят от
используемого масштаба. Для их сравнения друг с	другом нет	J
такой универсальной основы, как соотношение (2).	Например,	
сравнение величин J (fn — /)2 и J (fn — g)2, где fn — некоторая	I
оценка, используемая как для /, так и для g, не имеет смысла
ввиду (3). В то же время в силу теоремы Шеффе х) величины	а
J|/я — /| и J|/n~~g| вполне сравнимы. При этом имеет смысл	|
утверждение типа: «оценка fn лучше для данной плотности /,
чем для плотности g».
Читатель без труда может доказать следующее утверждение:
для любых f и любых р > 1 существуют последовательности плот-
ностей [п и gn, такие, что J |/„ —/||0, j|fn — f|₽ | <»,	j
j |gn—f\ = c>0 и j|gn — f |P I 0- Отсюда видно, что не суще-	,
ствует простых соотношений или неравенств между Lr и £р-рассто-
яниями.	;
Все оценки плотности основаны на теореме Лебега о плотно-
стях:
limjW^-=f(x)	(4)	|
sxh	1
для почти всех х, где Sxh — замкнутый шар радиуса А с центром	|
в точке х и X — мера Лебега. Выражение под знаком предела	1
в левой части (4) равно Р (Ад С Sx/l)/X (Sx/J, так что его можно 1
аппроксимировать величиной	1
п	1
/п(х)=^ LmsJj1 ’	(5)	<
1=1
где I — индикаторная функция. Оценка (5) была предложена
Розенблатом в 1956 г.* Чтобы выражение под знаком предела I
в (4) хорошо аппроксимировало f (х), необходима малость А. Од-	1
нако при малых А дисперсия величины (5) возрастает, так как	1
уменьшается среднее число точек, попадающих в Sxh. При вы- 1
х) Теорема 1 данной главы. — Прим, перев.
Гл. 1. Введение
13
боре Л необходимо уравновесить эти два эффекта, в связи с чем
возникают интересные теоретические задачи.
В гл. 2 представлены общие аппроксимационные теоремы
типа (4). В гл. 3, 5 и 6 параллельно рассматриваются две
оценки — ядерная и гистограммная. В частности, приводятся
условия на ft, необходимые и достаточные для всех типов сходи-
мости величины Jn (гл. 3), результаты о скорости сходимости
средней ошибки Е (Jn), среди которых выделяется универсаль-
ная нижняя граница для lim inf r№E (JTl) при любых ядерных
оценках и любых плотностях f (гл. 5), и теоремы о сходимости
ядерных оценок, в которых h выбирается как функция от данных
(гл. 6).
В гл. 4 показано, что при любых оценках плотности можно
добиться стремления величины Е (Jn) к 0 с любой заданной ско-
ростью, если только выбирать f из соответствующих классов
плотностей, таких, как класс всех бесконечно дифференцируемых
плотностей или класс всех плотностей с носителем [0, 1), ограни-
ченных величиной 2. Таким образом, ни для какой сколь угодно
сложной оценки величина Е (Jn) не может убывать с некоторой
заданной скоростью при любых /. Для изучения скоростей схо-
димости величины Е (Jn) следует наложить некоторые условия
на f, причем из результатов гл. 4 ясно, что не достаточно только
условий на хвосты или только условий гладкости. В остальных
главах поясняются эти основные теоретические положения.
Главы 7—12 можно читать в любом порядке; их уровни слож-
ности различны и зависят от круга читателей, которому каждая
из них адресована. В гл. 9 обсуждается преобразованная ядер-
ная оценка. В гл. 12 рассматривается несколько оценок, связан-
ных с разложениями в ортогональные ряды. Другие оценки опи-
саны в гл. 7. Главы 8, 10 и 11 в большей степени ориентированы
на приложения. Так, в гл. 8 затрагивается проблема использо-
вания fn при численном моделировании.
В гл. 10 показано, что любая оценка плотности имеет аналог
в задаче классификации и что вероятность ошибки классифика-
ции тесно связана с величиной Jn. Наконец, в гл. И среди про-
чего рассмотрены некоторые приложения к теории обнаружения.
Далеко не все направления удалось осветить в книге и многие
вопросы так и остались без ответа. Наиболее существенным недо-
статком является отсутствие теории асимптотического распреде-
ления величины Jn, закона повторного логарифма для Jn, резуль-
татов о скоростях сходимости Е (Jn) в многомерном случае, ме-
тодов оценивания Jn и доверительных интервалов для Jn.
Каждая глава снабжена собственным списком литературы.
Дополнительные ссылки о других свойствах рассмотренных
здесь оценок (например, об их поведении в случае, когда Xt, ...
14
Гл. 1. Введение
Хп зависимы, об их свойствах в метриках Lp при 1 < р оо,
о законах повторного логарифма для них) или о других оценках
можно найти в монографиях Wertz (1978), Tapia, Thompson
(1978), Надарая (1983), Prakasa Rao (1983) и в обзорах и библио-
графиях Cover (1972), Fryer (1977), Foldes, Revesz (1974), Leo-
nard (1978), Revesz (1972), Tarter, Kronmal (1976), Wegman
(1972a, 1972b), Wertz, Schneider (1979) и Bean, Tsokos (1980).
В каждой главе формулы нумеруются (1), (2), (3) и т. д. а тео-
ремы имеют номера 1, 2, 3 и т. д. Если в некоторой главе есть
ссылка на теорему 3, то имеется в виду теорема 3 той же главы.
В противном случае добавляется номер главы, например теорема
2.3. Главы связаны друг с другом следующим образом: гл. 2
необходима для чтения гл. 3, 4 и 6; гл. 3 содержит предваритель-
ные сведения для гл. 7 и 10; гл. 4 нужна для чтения гл. 5; в свою
очередь гл. 5 содержит предварительные сведения для гл. 8 и 9.
ЛИТЕРАТУРА
Bean S. J., Tsokos С. Р.
(1980) Developments in nonparametric density estimation, International Statisti-
cal Review, 48, pp. 267—287.
Cover T. M.
(1972) A hierarchy of probability density function estimates, in Frontiers of Pattern
Recognition, Academic Press, New York, pp. 83—98.
Foldes A., Revesz P.
(1974) A general method for density estimation, Studia Scientiarium Mathemati-
carum Hungarica, 9, pp. 81—92.
Fryer M. J.
(1977) A review of some nonparametric methods of density estimation, Journal
of the Institute of Mathematics and Applications, 20, pp. 335—354.
Leonard T.
(1978) Density estimation, stochastic processes and prior information, Journal
of the Royal Statistical Society, B40, pp. 113—146.
Prakasa Rao B. L. S.
(1983) Nonparametric Functional Estimation, Academic Press, New York.
Revesz P.
(1972) On empirical density function, Periodica Mathematica Hungarica, 2,
pp. 85-110.
Rosenblatt M.
(1956) Remarks on some nonparametric estimates of a density function, Annals
of Mathematical Statistics, 27, pp. 832—835.
Scheffe H.
(1947) A useful convergence theorem for probability distributions, Annals of Mathe-
matical Statistics, 18, pp. 434—458.
Tapia R. A., Thompson J. R.
(1978) Nonparametric Probability Density Estimation, The Johns Hopkins Uni-
versity Press, Baltimore.
Tarter M. E., Kronmal R. A.
1976) An introduction to the implementation and theory of nonparametric density
estimation, The American Statistician, 30, pp. 105—112.
Wegman E. J.
(1972a) Nonparametric probability estimation. I. A summary of available methods,
Technometrics, 14, pp. 533—546.
Комментарий переводчика
15
(1972b) Nonparametric probability density estimation. II. A comparison of density
estimation methods, Journal of Statictical Computation and Simulation, 1,
pp. 225—245.
Wertz W.
(1978) Statistical Density Estimation. A Survey, Vandenhoeck and Ruprecht,
Gottingen, Applied Statistics and Econometrics Series, 13.
Wertz W., Schneider B.
(1979) Statistical density estimation: A bibliography, International Statistical
Review, 47, pp. 155—175.
Надарая Э. A.
(1983) Непараметрическое оценивание плотности вероятности и кривой регрес-
сии. — Тбилиси: Изд-во Тбилисского гос. ун-та.
КОММЕНТАРИЙ ПЕРЕВОДЧИКА
В перечне нерешенных проблем здесь указана задача оценивания Jn и по-
строения доверительных интервалов для Jn. Недавно достаточно полное решение
этой задачи найдено Девроем (см. Devroye (1987*) и комментарий к гл. 3). Ответ
на другой вопрос — об оптимальных скоростях сходимости для Е (Jn) в много-
мерном случае — можно извлечь, например, из общих результатов Birge (1983*),
конкретизируя их для определенных классов платностей.
Дополнительные сведения об оценках плотности можно найти в книгах
Тарасенко (1976*) и Silverman (1986*). В последней много внимания уделяется
прикладным аспектам.
ЛИТЕРАТУРА, ДОБАВЛЕННАЯ ПРИ ПЕРЕВОДЕ
Тарасенко Ф. П.
(1976*) Непараметрическая статистика. — Томск: Изд-во Томского гос. ун-та.
Birge L.
(1983*) Approximation dans les espaces metriques et theorie de Testi mation//Zeit-
schrift fur Wahrscheinlichkeitstheor. verw. Geb., 65, p. 181—237.
Devroye L.
(1987*) A course in density estimation. Boston e. a.: Birhauser. Silverman B. W.
(1986*) Density estimation for statistics and data analysis. London: Chapman
and Hall.
Глава 2
Дифференцирование интегралов
Наиболее важным инструментом в нашем исследовании яв-
ляется теорема Лебега о плотностях (1.4). Все аналогичные ей
результаты собраны в данной главе. За доказательствами и бле-
стящими обсуждениями мы отсылаем читателя к гл. 7 и 9 книги
Wheeden, Zygmund (1977) и гл. 1—3 книги Guzman (1975). См.
также Shapiro (1969), Stein (1970), Hayes, Раис (1970) и Guz-
man (1981). В этой главе X — мера Лебега на. Rd, К — борелев-
ская функция на Rd, f — плотность на Rd, h — положительное
число, Kh (*) = (l/hrf) К (x/h) и «*» — оператор свертки; напри-
мер, если К € М (^)> то
f (х) = р(у) К(х - y)dy = J K(y)f (х - y)dy.
Теорема 1. Для любых функций f, g £ Lj (%) имеем j |f*g| <
< J If I J |g| (неравенство Юнга). Для любых f, К £ М (А), таких,
что J К = 1, имеем
Л|0 J
Доказательство. Первое неравенство получается с помощью
перемены порядка интегрирования (допустимой в силу неотрица-
тельности подынтегральных функций):
J|f f(y)g(x-y)dy\dx<. JJ|f(t/)| \g(x-y)\dydx =
= J lf(l/)l J|g(*~0)|<fr<ty= J |g| J If I-
Доказательство второго утверждения теоремы 1 проведем
сначала для непрерывных f с компактным носителем. Пусть
© (/) — модуль непрерывности f, © (t) = sup | f (х) — f (у) I,
II X-у II
и пусть М — некоторое большое число. Представим Д в виде
К = К' + К", Д' — Л/[||хц<м], К" = КД^х^>м}. Ясно, что
Jlf*<-fl< j|f**A-f(J *0| +J lf*^l + Jf f|/G|-(l)
J
Гл. 2. Дифференцирование интегралов
17
Последние два слагаемых в (1) не превосходят величины 2 J | Kh | =
= 2 J | К" |, которую можно сделать сколь угодно малой за счет
выбора М. Первое слагаемое в правой части (1) есть о (1), по-
скольку оно равно
(j	\K'h(y)\dydx<
А	А
< (О (Mh) j j | K'h (y)l dy dx <
A
<(о(МЛ)Х(Л) J|K| = o(l),
где A — некоторый большой компакт. Для любых f и любых не-
прерывных g с компактным носителем имеем
j|f-g|*KA| + J |f-g| + J|g*KA-g| <
Это выражение можно сделать сколь угодно малым за счет вы-
бора g.
Теорема 2 (теорема Лебега о плотностях). Пусть 36 — класс
всех борелевских множеств на Rd, обладающих следующим свойст-
вом
X {наименьший куб с центром в 0, содержащий В) <
В(2&	М^)
Тогда для любой последовательности множеств Bk из такой,
что % (Bft) О, имеем
X+Bk
при почти всех х, и потому
S I	<3>
при почти всех х. Точки, в которых справедливы соотношения (2)
и (3), называются точками Лебега функции f. Множество точек
Лебега зависит только от f.
Доказательство теоремы 2 см. в книге
(1977, с. 108—109). Заметим, что в качестве Si (цожно^взятъпйтГо-
2 Деврой Л.. Дьёрфи Л.
18
Гл. 2. Дифференцирование интегралов
жество всех шаров с центром в начале координат (тогда получается
классический вариант теоремы Лебега о плотностях) или класс
всех множеств вида аА, где а > 0 и А — фиксированный компакт
в Rd, но нельзя взять класс всех прямоугольников, содержащих
начало координат.
Теорема 3. Пусть К G Lr (к) и j К = 1. Предположим,
что К имеет интегрируемую радиальную мажоранту ф £
С Ц (X) (ф (х) = sup | R (у) |). Тогда
II у II > II •» II
f*Kh-+f
при h | 0 для почти всех х.
Теорема 3 принадлежит Stein (1970, с. 77—78 по русскому из-
данию). В ней достаточно, например, предполагать, что функ-
ция К ограниченна, принадлежит Lr (1), j R — 1 и К (х)
< а/|| х ||</+е при некоторых в > 0, а > 0. В такой форме теорему 3
можно найти в работе Wheeden, Zygmund (1977, с. 152—153).
Конечно, в случае ограниченных К с компактным носителем тео-
рема 3 легко следует из теоремы 2.
Обратной к теореме 1 является
Теорема 4. Пусть К — плотность на Rd. Тогда j | f*Kh —
— f | > 0 при любых h> 0. Если h = hn — некоторая числовая
последовательность, то из соотношения lim ] |f *Rh — f | = 0
П-*со J
следует, что h-+0.
Доказательство. Пусть (риф — характеристические функции
плотностей f и К соответственно. Тогда характеристическая
функция f*Rh. равна ф (ht) ф (t), t £ Rd. Очевидно, из равенства
— f\ = 0 следует, что f = f*Rh для почти всех х и,
значит, <р (/) = <р (/) ф (ht) для всех t £ Rd. При q> (/) #= 0,
т. е. по крайней мере в некоторой окрестности нуля, имеем ф (ht) —
= 1. Но так как h Ф 0, отсюда следует, что ф не может быть ха-
рактеристической функцией плотности распределения на Rd.
Полученное противоречие доказывает первое утверждение тео-
ремы 4.
Для доказательства второго утверждения теоремы 4 предпо-
ложим сначала, что lim h = <х>. В силу леммы Фату соотношение
j\f*Kh — f |->-0 влечет, что lim inf |/*КА— /| = 0для почти
всех х. Но так как f * Kh -» 0 для почти всех х, то обязательно
/ = 0 для почти всех х, что невозможно. Предположим теперь,
Гл. 2. Дифференцирование интегралов
19
что limft = с £ (0, оо). Ясно, что j |/*КЛ — f|—
— jlf*КС —/*Кл|. Для завершения доказательства достаточ-
но показать, что j \f*Kc — f */СЛ|->0, и, учитывая первое ут-
верждение теоремы, прийти к противоречию. Пусть К' —
некоторая непрерывная функция с компактным носителем. В силу
теоремы 1 и теоремы Лебега о мажорируемой сходимости
< J I Ke - Кс I + J | Кс - Kk | + J I Кн - Kh I =
= 2 J и - /с 14- f |к; - K'h\ = 2 J|K - Я'|+о(1). (4)
Последнее выражение в цепочке неравенств (4) можно сделать
малым, выбирая К' близким к /( в Lj (X).
Для изучения гистограммных оценок нам понадобятся неко-
торые теоремы о сходимости мартингалов. Рассмотрим последова-
тельность разбиений — {AnJ, j = 1, 2, ...}, n 1, где
X (Anj) € (0, оо) при любых п, j и все AnJ — борелевские мно-
жества в Rd- Эта последовательность называется вложенной,
если при любом п разбиение ^*п+1 является измельчением разбие-
ния Фп. Последовательность разбиений называется кубической,
если существуют положительные постоянные alt .... аа и последо-
вательность положительных чисел h = hn, такие, что каждое из
d
множеств Anj- имеет вид П [а&Ь, at (kt 4- 1) /1), где klt ..., kd —
1=1
целые числа. Пусть в дальнейшем 3Sn = о (^п) есть о-алгебра,
порожденная разбиением £Рп, &’п = о ( U Фт\ и 3S —класс всех
борелевских множеств на Rd. Везде будет предполагаться, что
* = 'U.	(5)
П=1
Условие (5) означает, что последовательность разбиений должна
быть достаточно богатой.
Рассмотрим функции
gn(x)= J/Д(ЛПД x£AnJ.	(6)
AnJ
Лля последовательностей разбиений, удовлетворяющих (5), Abou-
Jaoude (1976) доказал следующий сильный аналог теорем 1 и 4.
2*
20
Гл. 2. Дифференцирование интегралов
Теорема 5 (Abou-Jaoude (1976)). Сходимость
JlfiTn-fl->o
при любых плотностях f имеет место тогда и только тогда,
когда для любого множества Л ( такого, что 0 < X (А) < со,
и любого в > 0 существует п0, такое, что при каждом п^ п0
найдется множество Ап из £п, удовлетворяющее условию
Л (АААП) <8 (здесь А — символ симметрической разности).
Теорема 5 доказана в работе Abou-Jaoude (1976, с. 216—219).
Теорема 6. В случае кубической последовательности разбиений
условие (5) и сходимость j | gn — /1 —0 при любых плотностях f
имеют место тогда и только тогда, когда lim h = 0.
Доказательство. Прежде всего ясно, что условие lim h = 0
необходимо и достаточно для (5). В частности, достаточность еле-
оо
дует из того, что в пересечении f| З6'п содержатся все множества
п=1
d
вида П (—оо, xt) при любых х = (х1( .... xd) £ Rd и что эти
«=1
множества порождают борелевскую п-алгебру.
Итак, остается просто проверить условия теоремы 5. Так как 1—
регулярная мера на Rd (т. е. все борелевские множества являются
пределами стягивающихся последовательностей открытых мно-
жеств), то будем рассматривать только ограниченные открытые
множества О. Но каждое множество О является счетным объеди-
нением прямоугольников. Следовательно, для любого 8 > 0
существует конечное множество прямоугольников Rlt ..., RN,
/	N	\
такое, что X О— J Rt I <8. Таким образом, достаточно уста-
\	<=> /
новить, что условия теоремы 5 выполнены для конечного числа
прямоугольников, т. е. по существу, для одного прямоугольника.
Но для одного прямоугольника эти условия удовлетворяются
тривиальным образом.
Отметим здесь, что для кубических последовательностей раз-
биений, вложенных или нет, из теоремы 2 легко следует, что
gn f для почти всех х.
Из предыдущего видно, что в теоремах о поточечной сходимости
обычно требуется больше условий, чем в теоремах об интеграль-
ной сходимости. Пример тому дает сравнение теорем 1 и 3. Это
вызвано тем, что поточечная сходимость является строго более
сильным свойством, чем сходимость в Lx.
Гл. 2. Дифференцирование интегралов
21
Теорема 7 (Scheffe (1947)). Пусть fn — последовательность
плотностей на Rd, сходящаяся почти всюду к плотности f. Тогда
Доказательство. Из теоремы 1.1 и теоремы Лебега о мажори-
руемой сходимости следует, что J | fn — f | — 2 J (f — fn) ->0.
f>fn
Теорема 8 (Glick (1974)). Пусть fn — оценка плотности на Rd
и f — плотность на Rd. Если fn-+- f по вероятности при п оо
для почти всех х, то J |fn — /|-> 0 по вероятности (и, следова-
тельно, в среднем) при п-+ <х. Если fn~+f почти наверное при
п -> оо для почти всех х, то J | fn — f | -► 0 почти наверное
при п—* оо.
Доказательство. Обозначим (-)+ положительную часть функ-
ции. По условию имеем (/— /п)+0 по вероятности при почти
всех х. Так как (/ — /п)+ < то в силу теоремы Лебега о маж-
орируемой сходимости Е ((/ — /п)+)	0 при почти всех х.
Применяя эту теорему еще раз, получим Е |/п — /|) =
= Е (2 J (f-f„)+) = 2 f E((f-fn)+)->0.
При доказательстве второго утверждения теоремы обозначим
через (й, Р) вероятностное пространство последовательностей
А\, Х2, ... и через (о — соответствующие элементарные исходы.
В силу теоремы Фубини соотношение
Р(<о:/п(х)^/(х)) = 0
выполнено для почти всех х по мере X тогда и только тогда, когда
множество {(<о, х): fn (х) f (х)} имеет РхХ-меру нуль, и тогда
и только тогда, когда
X (х: fn (х) -+> f (х)) = О
для почти всех (о по мере Р. Пусть й' — множество исходов со,
для которых выполнено последнее равенство. По теореме Лебега
о мажорируемой сходимости j | fn — f | -> 0 для всех о £ Q'.
Так как Р (й') = 1, то теорема доказана.
ЛИТЕРАТУРА
Abou-Jaoude S.
(1976) Conditions necessaires et suffisantes de convergence Lx en probabilite de
I'histogramme pour une densite, Annales de ГInstitut Henri Poincare, 12, pp. 213—
231.
22
Литература
de Guzman M.
(1975) Differentiation of Integrals in Rn, Lecture Notes in Mathematics # 481,
Springer-Verlag, Berlin. (Имеется русский перевод: Гусман М. Дифференциро-
вание интегралов в Rn. — М.: Мир, 1978.)
(1981) Real Variable Methods in Fourier Analysis, North-Holland, Amsterdam.
Devroye L.
(1983) The equivalence of weak, strong and complete convergence in Lr for kernel
density estimates, Annals of Statistics, 11, pp. 896—904.
Glick N.
(1974) Consistency conditions for probability estimators and integrals of density
estimators, Utilitas Mathematica, 6, pp. 61—74.
Hayes С. А., Раис C. Y.
(1970) Derivation and Martingales, Springer-Verlag, New York.
Neveu J.
(1975) Discrete-Parameter Martingales, North-Holland, Amsterdam.
Scheffe H.
(1947) A useful convergence theorem for probability distributions, Annals of Mathe-
matical Statistics, 18, pp. 434—458.
Shapiro H. S.
(1969)	Smoothing and Approximation of Functions, Van Nostrand Reinhold,
New York.
Stein E. M.
(1970)	Singular Integrals and Differentiability Properties of Functions, Princeton
University Press/ Princeton, New Jersey. (Имеется русский перевод: Стейн И.
Сингулярные интегралы и дифференциальные свойства функций.—М.: Мир/
1973.)
Wheeden R. L., Zygmund А.
(1977)	Measure and Integral, Marcel Dekker, New York.
Глава 3
Состоятельность
1.	Ядерная оценка
Ядерная оценка (Parzen (1962), Rosenblatt (1956), Cacoullos
(1966)) определяется равенством
* п
1=1
где h = hn — последовательность положительных чисел и К. — бо-
релевская функция (ядро), удовлетворяющая условиям К^О,
J К. = 1. Основной результат этого параграфа состоит в том, что
для ядерной оценки все типы сходимости Jn к 0 эквивалентны.
В теореме 1 ниже утверждается, что либо Jn -> 0 вполне *) при
любых /, либо Jn не стремится к 0 по вероятности ни при каких /.
Промежуточного варианта нет. Слабый аналог теоремы 1 для ги-
стограммных оценок приведен в § 3. Теорема 1 впервые была
опубликована Devroye (1983), но некоторые ее ключевые идеи
восходят к Abou-Jaoude (1977).
Теорема 1. Пусть К — неотрицательная борелевская функ-
ция на Rd, такая, что j К = 1. Тогда следующие утверждения
эквивалентны1.
(i)	Jn ->• 0 по вероятности при п оо для некоторой плот-
ности f;
(ii)	Jn -> 0 по вероятности при п~+ оо для любых f;
(iii)	Jn 0 почти наверное при п-+ со для любых f;
(iv)	Jn 0 экспоненциально при п-+ оо (т. е. для любого
е > 0 существуют г, п0 > 0, такие, что Р (Jn е) <
е~гп, п п0) для любых f;
(v)lim/i = 0, limnftd = oo.
П~>оо	n-*oo
*) То есть J] Р (Jn > 8) < оо при любых е > 0. — Прим, перев.
п—\
24
Гл. 3. Состоятельность
В (iv) число г можно выбрать не зависящим от f. Кроме того, (iv)
следует из (v), если К — просто абсолютно интегрируемая функ-
ция, такая, что | К = 1.
Замечание 1. Мы покажем, что из (v) следует неравенство
Р (Jn 3» в) < е~гпе‘ при любых е £ (0, 1) и любых п Js п0,
где п0 зависит от f и е. Для заданной плотности f существуют функ-
ции h0 (е) и с0 (е), такие, что эта экспоненциальная граница верна
при (с0 (e)/n)1/d < h < Ло (е). Таким образом, при заданном е
экспоненциальное неравенство остается в силе, даже если вели-
чина h является постоянной.
2.	Доказательство теоремы 1
Попытаемся выделить ключевые факты, необходимые для до-
казательства теоремы 1. Сформулируем их в виде ряда лемм,
представляющих самостоятельный интерес. Нам также понадо-
бятся теоремы 2.1, 2.2 и 2.4. Включение (i) => (v) будет установ-
лено в лемме 3, включение (v) => (iv) — в лемме 2. Так как, оче-
видно, (iv)=> (iii) => (ii) =>• (i), тем самым будет доказана теорема 1.
В этом параграфе будет использоваться обозначение
gft(x) = £(/„(x))= jrt (Z=l)fMdy. (1)
Лемма 1 (неравенство для полиномиального распределе-
ния). Пусть (Х>, ..., Хй)— случайный вектор, имеющий поли-
номиальное распределение с параметрами (п, рг, ..., рА). Для е £
£ (0, 1) и любых k, таких, что k/n < е2/20, имеем
z k	\
Р S I Xt - Е (Xi)| > П8 < 3e“"£,/2S.
X 1=1	Z
Доказательство основано на пуассонизации. Пусть — пуас-
соновская с параметром п случайная величина и Vlt U2, ... —
не зависящая от 2V последовательность независимых случайных
величин со значениями 1, ..., k, распределенных по закону:
Р (Ui = I) = Pt, 1 < i < k. Пусть Xi — число появлений зна-
чения i среди Ur, ..., Uп и Xz — число появлений значения i
среди Ult ..., UN. Ясно, что Х{, ..., X* — независимые пуас-
соновские’случайные величины со средними пръ ..., прк и что
Xlt ..., Хк — случайный вектор, имеющий полиномиальное
распределение с параметрами (n, plt ..., ph). Имеем
k	k	k
1=1	1=1	1=1
2. Доказательство теоремы 1
25
Далее, для пуассоновской с параметром X случайной вели-
чины U имеем Е (е* । и~К |) «С Е (е‘	4- е‘ и)) = el («'-О—**. -|-
+ 6х	26х («'->-0 при t > 0, так как е~* + t <С е‘ — t.
Таким образом,
Р (| U - к | > Хе) < Е (е< । и~'- 1-ш) < 2е~»£ех	=
= 2еК <«-<|+е)1п <1+е» < 2е~Хг’/2 <1+е> < 2е~Ке‘/4, (3)
где мы положили t = In (1 + е). Повторяя предыдущее рассуж-
дение, получим
(*	\
1=1	/
(k	\
| Х'( — npt | 3en/5 j <
k
< 2e-n (2e/5)./4 + e-tn (3e/5) ["[	(?-!-/)) < (в силу (3))
1=1
< 2e-n8’/25 | 2ken (eZ_1_z-3e*/5)	2e~ne’/25 | ek~n <3e/5),/4 <
(при t = In (1 + 3e/5))
< 3e-ne’/25	(если k < ne2/20). (4)
Замечание. После того как книга была сдана в печать, мы
заметили, что
где А — множество всех 2* подмножеств набора {1........k}. Сле-
довательно, применяя непосредственно неравенство Бонферрони
и неравенство Хёфдинга (Hoeffding (1963)), получим, что верх-
нюю границу леммы 1 можно заменить на 2*+1е“лг*/2 при любых k,
п и любых е > 0. Похожее неравенство для полиномиального
распределения доказано несколько иным способом в работе Вге-
tagnolle, Huber (1978).
Лемма 2. Для любой плотности f на Rd и любой абсолютно
интегрируемой функции К, такой, что К (х) dx = 1, утвер-
ждение (iv) имеет место, если
lim Л = 0, limn/i<z = oo.
П->оо	П-*оо
26
Гл. 3. Состоятельность
Доказательство. Пусть gh — функция, определенная в (1).
В силу теоремы 2 достаточно показать, что интеграл
f I fn (х) — gh (х) [Ях -* 0 экспоненциально. Заметим, что
Ш = ЬГа\ К Ип(^),
где цп — эмпирическая вероятностная мера для Хг, .... Хп. Для
заданного е > 0 найдем конечные постоянные М, L, N, ах..
и непересекающиеся конечные прямоугольники Лп ..., AN из
Rd, такие, что функция
X*(x)=£ai/Ai(x)
i=i
удовлетворяет следующим условиям: | К* | < М, К* = 0 вне
I—L, L]d и J | К (х) — К* (х) |dx < е. Определим gh и fn так же,
как gh и fn, подставляя К* вместо К. Тогда
J l/n(x)-g/,(x)|dx« j |/n(*)-fn(x)|dx +
+ j	W - & Wl dx + J Ig'h(x) - g/,(x)| dx c
+ j л-q | x* (^) - x (4^)| pn (dy)dx+
+ JlfA(x)— gh(x)|dx<
<	2e+ j |/S(x) - gh(x)\dx,
где дважды произведена замена порядка интегрирования. Но
j |/A(x)-gh(x)|dx<
<	Sl«dJ\h~d I f(y)dy — h~d J pn (dt/)| dx <
i=l	x+hA}	x+hAi
N
<	Mh~d J | p (x + hAt) - pn (x + ft A ;)| dx,
1=1
где |x — вероятностная мера, соответствующая f. Лемма 2 будет
доказана, если показать, что
j | р (х + hA) — pn (х + hA)\ dx О
2. Доказательство теоремы 1
27
экспоненциально при п -+ оо для любых конечных прямоуголь-
ников А из Rd, Выберем произвольный прямоугольник А и про-
извольное е > 0. Рассмотрим разбиение пространства Rd на мно-
жества В, представляющие собой d-кратные произведения ин-
тервалов вида [(/—1) h/N, ih/N), где i—целое и N— новая
постоянная, которая будет выбрана далее. Обозначим это разбие-
ние через У. Пусть
d
А = П [*n	min 5* 2/N
и
d
+ х. + аг-i/N).
t=i
Положим
Сх = х + ЛЛ- U B<=x + h(A - Л*) = С£.
В^х+ЛЛ
Ясно, что
J |н(х + ЛЛ)-p,n(x + M)|dx <
2 ln(5)-Hn(5)|dx+J(H(c;) + Hn(c;))dx. (5)
В (2 ЧТ,
B^x+hA
Последнее слагаемое в (5) равно
2Х (h (Л - Л*)) = 2hd X (Л - А *) =
. / d	d	\
= 2й</( П at - П (fli - 2/N)) =
\t==l	1=1	/
(d	\
1 —ПС1 — ттаг))«
1=1	/
d
^4^ЦА)^а{'/Ы ^Ehd
1=1
при некотором выборе Здесь мы воспользовались тем, что для
любого множества С и любой вероятностной меры v на борелев-
28
Гл. 3. Состоятельность
ских множествах из Rd выполнено равенство | v (х + hC) dx =
= к (hC). Первое слагаемое в (5) ограничено сверху величиной
J I Рп (В) - р (В)| J dx+-
В £4*.	В=х+ЛЛ
Bnsoft*0
+ J dx (рп (Soft) — p (Soft) + 2p (S$ft)),	(6)
Bczx+hA
где R > 0 — произвольная конечная постоянная. Здесь симво-
лом (-)с обозначается дополнение множества. Ясно, что
h~d j dx -< к (Л), и можно выбрать R так, что р (Soft) < е.
B^x+hA
Кроме того,
р (pn (Soeft)-P (SSft) > е) < а“2"е*
в силу неравенства Хёфдинга для биномиальных случайных ве-
личин (Hoeffding (1963)). Наконец, поскольку существует не
более чем (2RN/h + 2)d — о (п) множеств В £ таких, что
В П Зон ¥= 0, то в силу леммы 3
р( S I Рп (В) - Р (В)| > е\ с 3e“"e‘/2S
I в £ w,	I
\Bnsoft*0	/
при всех достаточно больших п. Теперь соберем вместе получен-
ные неравенства. Лемма 2 доказана.
Лемма 3. Пусть Ruf — плотности на Rd. Если Jn О
по вероятности при поо, то lim h — 0 и lim nhd = оо.
П->ОО	П-+-ОО
Доказательство. Так как Jn 2 при любых п, то Jn -+ О
по вероятности тогда и только тогда, когда lim J (Fn) = 0.
n->oo
Пусть gh — функция, определенная в (1). Тогда
£(Jn) = £ (J|fn(x)-/(x)|dx) >
J IВ (fn (*)) - f Wl dx = J | gh (x) - f (x)| dx.
Используя теорему 2.4, заключаем, что lim h = 0. Далее в до-
П-+-ОО
казательстве считается, что это условие выполнено. Докажем
второе утверждение леммы. Заметим, что £ Q |/n(x) — gh(x)\dx'j -►
-> 0 в силу теоремы 2.1. Пусть М — некоторое большое число и
2. Доказательство теоремы 1
29
К*(х) =/С(х)/[/((х)<Л1]. Определим f„ и g*h так же, как fn и gh,
подставляя К* вместо К- В силу теоремы 2.1
J Ifn(х) - gh(x)\dx^ J | f*n(x) - gh(x)\dx -
— J Ifn(x) - fn(x)|dx - J |gh(x) - gh(x)\dx =
= JIM(X) — gl(x)\dx - 2 J I K(x) - K*(x)\dx.	(7)
Введем следующие дополнительные обозначения: L — еще одно
большое число, А—событие, состоящее в том, что ни одно из
Значений Xf, Ici^n, ’не принадлежит Sx,hL, К'= K*ISoL,
К” = К* — К.', и и fn—функции, которые определяются так же,
как fn, при замене К на К' и на К”. Ясно, что
J £(lf:(x)-^(x)|)dx> jE(|f^(x)-gnx)|/A)dx^
f gl(x)P(A)dx - J E(fn(x) IA)dx = Un- Vn. (8)
Нам понадобятся следующие факты, являющиеся следствиями
теорем 2.2 и 2.3: gl (х) -*• f (х) J К* (х) dx при почти всех х и
ограниченных К* с компактным носителем; ц (Зу+лг, лд)/
1 ль) ->• f (у) при всех z С Rd и почти всех у £ Rd.
Предположим, что lim nhd = s £ (0, оо) и С — объем шара S01.
«-►оо
По лемме Фату
lim inf Un Ss I lim infgh(x)lim inf P(A)dx =
«-►00	«-►00	«-►00
= [ f (x) lim inf (1 — |Л ($ж, hL))n dx I X' (z)dz
J	П-+-ОО	J
S J/(x)exp (-limsup ( ,	)) * j =
= j f (X) exp (-sCLdf (x)) dx j №* (z) dz.	(9)
S0L
Кроме того,
( « \
fs=l	/
= Jf(t)	~ ^(Sx,hl))n-ldx =
30
Гл. 3. Состоятельность
= J/(y) J h~dK\(x -	- H(Sx>AL))n-1 dxdy <
<\КУ) J ^"(z)exp(— (n- l)li(Sx+,ZthL))dzdy.	(10)
z i $oL '
Подынтегральное выражение во внутреннем интеграле в (10)
ограничено интегрируемой функцией /<". Таким образом, в силу
теоремы Лебега о мажорируемой сходимости и сделанного выше
замечания получим
lim sup Vn <
П-*оо
p(«/) j /C*(z)exp (—
z i sol
= j f (!/) exp (—sCLdf (y)) dy j K* (z) dz.
z i StL
Неравенства (7), (8), (9) и (11) вместе дают
lim inf ( E(| fn (x) - gh(x)\)dx + 2 (| К (x) -	(x)|dx >
П-+00 J	J
(II)
> J f (x)exp (—sCLdf (x)) dx (2 j K*(z)dz - 1\. (12)
\	J
Так как M — произвольное число, то
lim inf f Е (| fn (x) - gh (x)|) dx	( fe-^df f 2 f К — 1 \.
n-*oo J	J	1 „J	|
\ S®L /
Выберем теперь в качестве L достаточно большое конечное число,
такое, что j /<>1/2. Тогда, для того чтобы правая часть
SoL
последнего неравенства равнялась 0, необходимо s = оо. Это про-
тиворечит предположению. Следовательно, никакая подпоследо-
вательность последовательности nhd не может стремиться к ко-
нечному пределу, и потому lim nhd — оо.
И->00
3.	Гистограммная оценка
Гистограммная оценка определяется последовательностью раз-
биений fPn — {Anj, j = 1, 2, ...}, п 1, где все Ani — борелев-
ские множества конечной меры Лебега. Будем считать, что по-
следовательность разбиений столь богата, что
Л о( U	(13)
п=1	\т==л	/
3. Гистограммная оценка
31
где Я — класс всех борелевских множеств и символ о исполь-
зуется для обозначения о-алгебры, порожденной классом мно-
жеств. Гистограммная оценка определяется соотношением
п
4=1
и ее среднее значение равно
g»W = £(/»(x))= J//A(A„;), х^Ап1.
Anj
Abou-Jaoude (1976 а, с) доказал следующее утверждение.
Теорема 2. Предположим, что последовательность разбиений Яп
удовлетворяет условию (13). Тогда следующие утверждения экви-
валентны.
(i)	Jn 0 по вероятности при п -> оо для любых f\
(ii)	Jn —* 0 почти наверное при п оо для любых f\
(iii)	Jn 0 экспоненциально при п —оо (см. теорему 1) для
любых f (как и в теореме 1, показатель экспоненты можно
выбрать не зависящим от f и от разбиения).
(iv)	Для любого множества А Я, такого, что 0 < А (А) <
< оо, и любого е > 0 существует п0, такое, что при лю-
бом п п0 найдется множество Ап £ о (Яп), удовлетво-
ряющее условию
А (АДАП) < е;	(14)
и
sup lim sup А/ (J Ап, ПС\=0.	(15)
М>0.	П-ОО	/
множества С
конечной
меры Лебега
Наше доказательство этой теоремы отличается от доказатель-
ства Abou-Jaoude только некоторыми деталями. Например, мы
сократили его, используя мощную лемму 1. Условия (14) и (15)
в ряде случаев легко проверяются. Рассмотрим, например, ку-
бическую гистограммную оценку, для которой каждое из мно-
d
жеств Anj имеет вид П [а^И, at (kt + 1) Л), где kt — целые
i~— 1
числа, h — параметр сглаживания, такой же, как в ядерной оценке,
и at — положительные постоянные. В теореме 2.5 было показано,
что для этой оценки (14) имеет место тогда и только тогда, когда
lim h — 0.
П-*-оо
32
Гл. 3. Состоятельность
Кроме того, легко видеть, что (15) имеет место тогда и только
тогда, когда
lim nhd = оо.
П->оо
Отметим, что в другой статье Abou-Jaoude (1976b) приведены
похожие необходимые и достаточные условия слабой состоятель-
ности в Lj гистограммных оценок на R1, для которых разбиения
зависят от порядковых статистик выборки ..., Хп. По этому
поводу см. теорему 7.3.
4.	Доказательство теоремы 2
Всегда имеет место неравенство £(j|/n~ J 1ST» ~ fl-
Кроме того, в силу ограниченности Jn сходимость Л к 0 в сред-
нем эквивалентна сходимости по вероятности. Следовательно,
по теореме 2.5 получим (i) => (14). Так как, очевидно, (iii) =>
=> (ii) => (i), то остается лишь доказать включения (iv) => (iii)
и (i) =4- (15). Это будет сделано в двух отдельных леммах.
Лемма 4. (iv) => (iii).
Доказательство. Мы знаем, что j |gn — /|—>-0 (теорема 2.5).
Таким образом, достаточно показать, что J|fn —£п|-*-0 экспо-
ненциально. Пусть р„ — эмпирическая мера для Xlt ..., Хп и
р — вероятностная мера на борелевских множествах из Rd,
определяемая плотностью f. Имеем
J I fn - gn I = 21 Hn (A »>) ~ H «/)!-
i
Разобьем множество натуральных чисел на две части — множе-
ство Нп, содержащее все целые /, для кбторых X (AnjC) > М/п,
и его дополнение Нсп. Имеем
f I fn gn |	2 I И'11 И (^nj) I +
>енп
+ 2 (Нп(Ап;) + р (An;))
i€ncn
< 2 I Рп (А,м) - Р (А,м) I I- 2р (Ап) 4-
К”п
+ |рп(Ап) — р(Ап)|,	(16)
где Ап = U Ап;.
itHn
4. Доказательство теоремы 2
33
Так как Л (Лп,- П Q > М/п при j £ Нп, то множество Нп
содержит не более 1 + пХ (С)/Л4 элементов. Кроме того, случай-
ный вектор (прп (Лп); пцп (AnjQ, j £ Нп} имеет полиноми-
альное распределение. Следовательно, если
А (С)/М + 2/п < е2/20,	(17)
то в силу леммы 1
( S I Нп G^n/) И (^n/) I I На G^n) Н I >
V€Hn	/
с 3 exp (—пе2/25).
Величину р (Л„) можно сделать сколь угодно малой за счет вы-
бора С. В самом деле,
р(Л„) = р(Л„ П С) + р(Лп П Сс) < о(1) + р (СО. (18)
где о (1) возникает в силу соотношения (15) (в котором утвер-
ждается, что А (Лп Q С) = о (1)) и того, что мера р абсолютно
непрерывна относительно А.
Таким образом, для заданного е > 0 выберем С так, что (18) <
< е + о (1), а затем выберем М так, чтобы (17) имело место при
всех достаточно больших п. Подстановка всех полученных не-
равенств в (16) дает
р (f I fn — gn 1 > 4е) с 3 exp (—ns2/25)
при всех достаточно больших п. Лемма 4 доказана.
Лемма 5. (i) => (15).
Доказательство. Сохраним обозначения леммы 4. В частности,
А! > 0 — постоянная, С — множество конечной меры Лебега.
Предположим, что А (С) > 0, и обозначим f — Ic/1- (С) и
zn = 2 ЧА п1 П С) i[Xi^Ani^^......г1.
!
Имеем
f \fn Sn I = 2 I P-П (^nj) p (Anj) I =
/
- 2 । Н» (4n>) - К(An) П Q/A (C) | > Zn.
/
Так как 0 < Zn < 1, то из (i) следует, что Е (Zn) -> 0. Далее,
Р(7 чК1 АМп/ПС) /, А(Дп;ПС)\п
t (/n) - МС) (1	Цё)—)
3 Деврой Л.. Дьёрфи Л.
34
Гл. 3. Состоятельность
. У Х(ЛП7-ПС) /. м \п
Zi А (С) V пА(С) )
i^Hn
А (Лп П С) / _	М/к(С)	\
А (С) ехр к 1-М/пк(С) )
.... МЛ„ПС) (_________м_\
А(С)	Р\	Х(С) /*
Но отсюда следует, что lim А (Ап П С) = О для любого множе-
Л1->ОО
отва С, такого, что А (С) > 0. Кроме того, если А (С) = 0, то ясно,
что А (Дп П С) = 0 при любых п. Таким образом, условие (15)
выполнено.
5. Относительная устойчивость
При сравнении различных оценок плотности работать с вели-
чиной Jn неудобно. Можно было бы использовать квантили или
моменты Jn, мы же воспользуемся величиной Е (Jn). Однако
такой выбор был бы неудачным, если бы величина Jn не была
близка к Е (Jn) в некотором смысле. В самом деле, желательно,
чтобы оценки были относительно устойчивыми (по вероятности,
почти наверное), т. е. чтобы выполнялось соотношение
' J п
E(Jn)
(19)
(по вероятности, почти наверное). Заметим, что обычно последо-
вательность случайных величин Jn называется относительно
устойчивой, если существует последовательность действитель-
ных чисел ап, такая, что Jn!an стремится к единице в некотором
стохастическом смысле. Наше определение несколько отличается
от этого, поскольку мы дополнительно полагаем ап = Е (Jn).
Тем не менее доказать соотношение (19) фактически так же трудно,
как установить предельное распределение Jn. К счастью, гораздо
легче доказать, что вариация оценки J | fn — Е (fn) | относи-
тельно устойчива. В силу лемм 6 и 7 это приводит к утвержде-
ниям относительно Jn, близким к соотношению (19).
Лемма 6. Для любой плотности f на Rd и любой оценки плот-
ности fn имеем
max (j — E(fn)|,	lfn-fl).
Доказательство. По неравенству Йенсена Е (J|/n—
j | Е (fn) — f\. Кроме того, по неравенству треугольника
5. Относительная устойчивость
35
f l/n —	J]fn - Е (/n)I — J |£(/n)-f I- Соединяя первое не-
равенство с усредненным вторым, получим требуемый результат.
Лемма 7. Если вариация оценки плотности относительно
устойчива по вероятности, т. е.
£(J l/n-£(/n)l)
no вероятности, mo P (Jn/E (Jn) (0, 3 + e)) -> 0 при n -*• oo
для любых в > 0. Если вариация относительно устойчива почти
наверное, то Р (Jn/E (Jn) (0, 3 + е) бесконечно часто) = 0
для любых е > 0.
Доказательство. Применяя лемму 6 и неравенство треуголь-
ника, имеем
Jn	f lfn-£(fn)| + Jlf-£(fn)l
E(Jn) " max (J|/-£(/n)|, ±е(||/п-Е{/„)|))
<2-^--------------r + l.
E (J | fn-E (fn) |)
Грубо говоря, если вариация оценки относительно устойчива,
то величина Jn/E (Jn) с большой вероятностью остается в интер-
вале [0, 3]. Это указывает на то, что величина Е (Jn) является ,
довольно хорошей мерой сравнения оценок плотности. (Именно
таким сравнением мы будем заниматься в гл. 4, 5, 7, 8 и 9).
Оставшаяся часть этого параграфа следует работе Abou-Jaoude
(1977), который показал, что вариации гистограммной оценки и
ядерной оценки с равномерным ядром К (х) =	1/2]<< относи-
тельно устойчивы по вероятности для любых f. Чтобы доказать
это, понадобятся некоторые неравенства для биномиального рас-
пределения.
Лемма 8 (неравенство для абсолютного уклонения биномиаль-
ной случайной величины). Пусть X — случайная величина, имею-
щая биномиальное распределение с параметрами (п, р), где р
< 1/2. Тогда
з*
р!ё* при р<.1/п,
cVp/n при p^sl/n,

36
Гл. 3. Состоятельность
где с = ()/4ле13''6)’1 — универсальная постоянная. Кроме того,
Доказательство. Пусть т — [пр} (наибольшее целое, не пре-
восходящее пр). С помощью элементарных вычислений получим
т
Е ({пр - Х)+) =	(«Р - ОI П. ) Р1 (1 - Р)"-1' =
«=о	\1 /
I п - \ \
= пр\ т \рт([~рУ1-п
при «^2. Если р < 1/п, так что т = 0, то эта величина равна
пр (1 — р)п пре-яр/о-р) пре~*. Если р l/п, так что т > О,
то по формуле Стирлинга получим
Е «»р - X).) = (2л)- p/i-	«).
где g (п, т) — ехр (ы/12п — v/l2m — w/12 (п — т)) ^ехр (—1/6)
(здесь и, v, w—числа, принадлежащие отрезку [0, 1]). Кроме
того, п — т~^ п/2 и т/п <; р. Более того, так как т = пр — г,
г С Ю, 1 ], то
/ Пр\т/»(1 — Р)\п~т /., г \-<яР-«>/. .	2	\-(я-
\т) \ п-т ) “V пр) \1+п(1-р))
/ ,	22	22	\ _
^exp(+z- —-Z- —
ехР (~ W > ех₽ С”2)-
Объединяя эти оценки, получим искомый результат для п^2.
Для п = 1 заметим, что Е {(р — Х/п)+) — р (1 — р) и, таким
образом, искомое неравенство выполняется для всех п. Верхнюю
границу легко получить, используя неравенство Коши—Шварца
и замечая, что Е {(р — Х/п)2) == р (1 — р)/п< р/п.
Лемма 9. (Geffroy; см. Abou-Jaoude (1977, с. 52—53)). Пусть pt,
р2> Рз — вероятностный вектор и Хг, Хг, Х3 — случайный век-
тор, имеющий полиномиальное распределение с параметрами
{п, plt р3, р3). Тогда
Р ((Р.-^Рг-^).Е^-^)+-)Е^,-^)+).
Доказательство. Пусть выполнено следующее условие:
Функция Е ((pi— 'V’)+1 ^2 = пг) монотонно возрастает
и выпукла по п2.	(20)
5. Относительная устойчивость
37
Тогда
Е ((* - 4-)+) = SР(Л! - п^Е ((* - v-)+lх'=">) =•
п2—0
Е ((рх — 4г)+ |	= [пр2]) Ss (по неравенству Йенсена)
Э=£((л-^-)+|х. = П!)
при любых п2 <: пр2. Таким образом,
Б ((pl - ^-)+ (р2 - -v-)+) = 2	~ Р = х
п2=0
* Е ((л-^-)+|^ = "=) < Е Е
что и требовалось доказать.	'
Теперь докажем (20). Необходимо показать, что функция
ф (т) = <р (т + 1) — ф \т) положительна и монотонно возра-
стает по т, где ф — функция, определенная в (20). Пусть Ym —
случайная величина при фиксированном Х2 = tn- Очевидно,
справедливо следующее разложение: Ym = Ym+1 + Z, где Z —
бернуллиева случайная величина с параметром рх/(1 — р2), не
зависящая от /т+1. Таким образом,
ф(т) = Е ((Р1 - ^-)+ - (Р1 - -Ь^1_ _ z)J = Е (и).
Но случайная величина U принимает следующие значения:
0,
Pl Ym+,/n,
\/П,
если Z = 0 или если Z—l, pi — Ym+1/n^Q,
V =
если Z = 1, 0 < рх — Ym+1/n < \/п,
если Z = 1, 1/п < рх — Ym+1/n.
Если z = прх — [прх ], то
ф (m) = Р (Z = 1) Р (Ym+1 = [лрх]) + 4 Р пР* “ 0) =
=	(^m+i< прх) + (1 -г)Р (Ут+х< пР1-1)).
Эта величина положительна. Заметим также, что в силу указан-
ного выше разложения она возрастает с ростом т. Лемма 9 до-
казана.
Лемма 10. Пусть Zx, Z2, ..., Zn— последовательность не-
отрицательных случайных величин, такая, что Е (Zn) =^= 0 и
38
Гл. 3. Состоятельность
Е (Z,2,) < оо при любых п. Тогда если
lim £ (Z2)/(£ (Z„))2 = 1,
то Zn/E (Zn) -* 1 по вероятности.
Доказательство. По неравенству Чебышева
Р	I |>е)	=о(1)
\1 Е (Zn) |	/	e2£2(Zn) v >
при любых е > 0.
Теорема (Abou-Jaoude (1977)). Предположим, что для гисто-
граммной оценки из § 3 найдется постоянная г) > О, такая, что
Ап(р) =	£	р(Ап;)=3т]1 п^п0,
Н(ЛП7.)<е
при любых е > 0 и некотором nQ. (Это условие выполнено для ку-
бической гистограммной оценки при h->0). Тогда вариация ги-
стограммной оценки относительно устойчива по вероятности:
—1---------------> 1
e(J |fn-£(/n)l)
по вероятности.
Доказательство. Заметим, что
J |fn- E(fn)\ = 2Zn,
где
Zn = S (Р (^п>) Рп ('4п;))+-
Ввиду леммы 10 и очевидного неравенства Е2 (Zn) Е (Z„)
достаточно показать лишь, что
lim sup Е (Z2n)/E2(Zn) < 1.	(21)
П->оо
Используя лемму 9, получим
Е (Z2) = ^£ ((р (Arf/) - р„ (Ап/)Я)
/
4“	(^п/))+(Н (^ni) Нп
<±2р(Л„;)(1-р(4п;))
/
5. Относительная устойчивость
39
+ 2 £ ((Il (AnJ) - рп (AnJ))+) Е ((р (Ап1) - рп (Ап<))+) <
<± + £2(Zn).	(22)
Но (21) следует из (22) и соотношения (Zn) -*• оо, которое
сейчас будет доказано. По лемме 8
|/nE(Z„)^c	£	]/р (Ап?) + Г2 Vп S р(Ап>)^
е>ц (Anj) >\/п	ц (Лп?.) < 1 /п
т] min (с/|/g, ]/п/е2), п^п0,
где с—постоянная из леммы 8. Теперь теорема 3 следует из
произвольности е.
Замечание. Мы знаем, что (в силу абсолютной непрерывно-
сти р относительно меры Лебега) sup р (Ап,)->0 для кубической
гистограммной оценки с параметром сглаживания h = hn -> О,
так что
lim Ап (е) = 1
П->со
при любых е > 0. Таким образом, выполнено условие теоремы 3.
Теорема 4 (Abou-Jaoude (1977)). Рассмотрим ядерную оценку
с ядром К (х) —	i/2]d и параметром сглаживания h -> 0.
Тогда ее вариация относительно устойчива по вероятности.
Доказательство. Обозначим (—1/2, 1/2 И через С, р (х+йС)—
через р (х) и pn (х + hC) — через рп (х). Напомним, что
sup р (х) ->• 0 при п -* оо в силу абсолютной непрерывности р
X
относительно меры Лебега. Рассуждая так же, как в доказатель-
стве теоремы 3, замечаем, что вариация равна 2Zn!hd, где
Zn ~ j (р Рп)+-
Снова достаточно установить (21). Пусть теперьD — множество
всех пар х, у из R2d, для которых Loo-расстояние ||х— у\\ не пре-
восходит й, и пусть Dc — дополнение D. Заметим, что
Е = IJЕ (О (*) - рп (*))+ о (у) - рп (#))+) dxdy
<\Е((р (х) - рп (х))+ (р (у)-рп (УУ)+) dx dy + Е2 (Zn) =
= an + E2(Zn),
где на Dc применена лемма 9. Для завершения доказательства
достаточно показать, что £ (Zn)/)/a^оо. Нтобы сделать
это, следует получить хорошие верхние границы для ап.
40
Гл. 3. Состоятельность
Рассмотрим теперь множества А = (х + hC) — (у + hC),
А' = (х + ЛС) f) (у + hC) и А" = (у + hC) — (х + hC) при
фиксированных х, у. Тогда
(Р (х) - рп (х))+ (р (у) - рп (уУ)+ =
= (р (Д + Д') - рп (Д + Л'))+(р (Д' + Л") - Ип (Д' + Д"))+ <
< ((р (Л) - Рп(Л))+ + (Р (Д') - Рп (Д'))+) X
х ((р (Д') - р„ (Д'))+ + (р (Д") - р„ (Д"))+) с
< (р (Д) - Р„ (Л))+ + 2 (Р (Д') - Р„ (Д> + (Р (Д") - Р„ (Д"))’ь
и математическое ожидание этого выражения не превосходит
4-(Р (Д) + 2р (Д') + Р (Д")) < ±(Р (х + АС) 4- р (у + ЛС)).
Таким образом,
«п< |4’^(х i-^C) + p(y + /iC))dxdi/ <
< 4- (2Zi)d J р (х + hC) dx = A 2dh2d.
Но если sup р (х) < 1/2, то по лемме 8
E(Zn)^ (	-4=- -^L=-^+ J e'2P(x)dx^>
2s /- min [	, e“2 —У dx
/n \ Ksupp(x)	hd
Теорема 4 следует теперь из того факта, что sup р(х) 0
и J (р (x)/hd) dx — 1.	'
Замечание. Распространение этого результата на случай об-
щего К мы оставляем в качестве упражнения. Если / £ L2 (R),
то интегральная квадратичная ошибка относительно устойчива,
т. е. j (/„ — f)2/E (j (fn — /)2) -*• 1 по вероятности, по крайней
мере если h, f и К. удовлетворяют некоторым условиям регуляр-
ности (Hall (1982)). В важной статье Hall (1984) недавно получено
асимптотическое распределение величины j (fn — /)2 в случае,
когда f имеет две ограниченные равномерно непрерывные произ-.
водные на Rd и К — ограниченная плотность, соответствующая
случайному вектору с нулевым средним и единичной матрицей
ковариаций.
Методы, использованные в доказательствах теорем 1 и 2, поз-
воляют получить полезные результаты об устойчивости почти
наверное. Ниже это показано для кубической гистограммной
оценки.
5. Относительная устойчивость
Теорема 5. Пусть fn —кубическая гистограммная оценка на
Rd, в которой используются положительные постоянные alt 1 <
< i < d, и параметр сглаживания h (обозначения из § 3), причем
lim h =0, lim nhd = оо. Пусть f —произвольная плотность
П-+СО	П-+ОО
на [0, 1 ld и с — постоянная из леммы 8. Тогда для любого в £
£ (0, 1) существует п0 > 0, такое, что
Р f1 + с ^2°---------------<
с J VI (1 —г) J
(/ d
— 1 П afArf(l — е)
\ 1=1
при п По. Если, кроме того, lim hd log п =0, то
П-+ОО
Hm sup с 1 +
П-<я a \Jn)	C I Vf
почти наверное.
Доказательство. Длины сторон прямоугольников AnJ, j =
= 1....определяющих кубическую гистограммную оценку, рав-
ны hat, i =1, d. Обозначим через N число прямоугольников
Anj, для которых р (Anj) > 0. Ясно, что
d
"<F1(2+7S7)-
1=1
Определим постоянную b =1 +/20 / (cf//(1 —е)]. Теперь,
используя обозначения § 3 и 4 и леммы 6 и 8, получим
P(Jn/E(Jn)^b)<
< Р (1 + 2 J |fn - Е (fn)\/E (j\fn-E (fn)|) > b) =
= Р ( JIРп (Лп>) - р (Лп1) | > -Цр- J Е (I Нп (Л„,)-р (Лп>) |)] =
= Р (SI Рп (Л п;) - Р (Лп/) I (Ь -1) 2 £((Р (Л п;)- Рп(Лп,))+)\ <
\ 7	7	/
< Р ( 21 Рп (Anj) - Р (Лns) I > (b - 1) х
X /
х 2 min (е-«р (Лп;); с/р (Лп,)//г)\ .
42
Гл. 3. Состоятельность
Но
min (е~2ц (Ап>	иМп,)/п) 5s
i	- - Ь
Ss=Sc/Н(АП;)/п -	2	СМ/О
/	/ : Ц (Лп^) < с*е‘/п
> S С j f /VnK (Anj) — NcW/n =
i Anj
= 4 /Г/ Kn«i № - 0 (l/(n^)).
Поскольку nhd —► оо, то, таким образом,
P (Jn/E (Jn) > b) < P ( 5 | p„ (AnJ) - p (An,) 1 6)
при достаточно больших n, где
б = /_______20_______\ 1/2
\(Иа0"ла о_ 4
Далее, заметим, что N/n 63/20 при достаточно больших п (так
как N/n ~ (nhd Пй;)-1). Таким образом, в силу леммы!
Р (Jn/E (Jn) ^b)^3 exp (—nS2/25),
что и требовалось доказать. Последнее утверждение теоремы 5
следует из этого неравенства и леммы Бореля—Кантелли.
ЛИТЕРАТУРА
Abou-Jaoude S.
(1976а) Sur une condition necessaire et suffisante de Lj-convergence presque com-
plete de Testimateur de la partition fixe pour une densite, Comptes Rendus de
rAcademie des Sciences de Paris Serie A, 283, pp. 1107—1110.
(1976b) Sur la convergence et Loo de Testimateur de la partition aleatoire pour
une densite, Annales de 1'Institut Henri Poincare/ 12, pp. 299—317.
(1976c) Conditions necessaires et suffisantes de convergence Li en probabilite de
rhistogramme pour une densite, Annales de Tlnstitut Henri Poincare, 12, pp. 213—
231.
(1977) La convergence et Loo de certains estimateurs d'une dens№ de probabi-
lite. These de Doctorat d'Etat, Universite Paris VI, Paris.
Bretagnolle J., Huber C.
(1978) Lois empiriques et distance de Prokhorov, in Seminaire de Probabilites XII,
Springer Notes in Mathematics, vol. 649, pp. 332—341.
Cacoullos T.
(1966) Estimation of a multivariate density, Annals of the Institute of Statistical
Mathematics, 18, pp. 178—179.
Devroye L.
(1983) The equivalence of weak, strong and complete convergence in for kernel
density estimates, Annals of Statistics, 11, pp. 896—904.
Комментарий переводчика
43
Hall Р.
(1982) Limit theorems for stochastis measurs of the accuracy of density estima-
tors, Stochastic Processes and Applications, 13, ррц Ш^25ц,,
(1984) Central limit theorem for integrated square error of multivariate nonpara-
metric density estimators, Journal of Multivariate Analysis, 14, pp. 1—16.
Hoeffding W.	; 7
(1963) Probability inequalities for sums of bounded random variables, Journal
of the American Statistical Association, 58, pp. 13—30.
Parzen E.
(1962) On estimation of a probability density function and mode, Annals of Mathe-
matical Statistics, 33, pp. 1065—1076.
Rosenblatt M.
(1956) Remarks on some nonparametric estimates of a density function, Annals
of Mathematical Statistics, 27, pp. 832—837.
КОММЕНТАРИЙ ПЕРЕВОДЧИКА
Исследованию предельного распределения интегрального риска J (fn — /)2,
о котором идет речь в замечании после теоремы 4, посвящено много работ, начи-
ная с Bickel, Rosenblatt (1973*). Более подробно об этом см. книгу Надарая
(1983*).
Понятие относительной устойчивости введено Abou-Jaoude (1977). Относи-
тельная устойчивость ядерной оценки плотности недавно доказана в работе
Devroye (1986а*), где из экспоненциальных границ для величины sup Р (| Jn —
h>Q, f
— Е (Jn) | > e) извлечен следующий результат:
Теорема 1. Пусть f — произвольная плотность на R\ fn — ее ядерная
оценка с неотрицательным ограниченным ядром К, имеющим компактный носи-
тель. Тогда если оценка fn состоятельна (т.е. Е (Jn) -+0),то она относительно
устойчива почти наверное.
Деврой (Devroye (1986а*)) получил аналогичные утверждения для оценок
плотности на Rd и для случая, когда параметр сглаживания h зависит от вы-
борки Xf, ..., Хп. При исследовании относительной устойчивости по вероят-
ности можно использовать следующий изящный результат, основанный на нера-
венстве Эфрона—Стейна (Efron, Stein (1981*)):
Теорема .2 (Devroye (1986b*)). Пусть f — произвольная. плотность на Rd>
Если fn — ядерная оценка с произвольным параметром сглаживания h и произ-
вольным ядром К, таким, что |х = 1, то
Var
Если fn—гистограммная оценка с произвольным параметром сглажива-
ния h> то
Var(j \fn-f |)^4/n.
Теорема 2 и частный случай теоремы 1 приведены в книге Devroye (1987*)
(см. список дополнительной литературы к гл. 1).
Из теоремы 2 и неравенства Чебышева следует, что если
(A)	lim }/"пЕ ( [ |/п — f |) = оо.
п->оо	\ J	f
44
Гл. 3. Состоятельность
то JnlE (Jn) —► 1, поо, т. е. оценка fn относительно устойчива по вероят-
ности. Условие (А) выполняется в типичных для непараметрического оценивания
случаях (см. теоремзд-2^ ф сл. 5), однако при некоторых сочетаниях К и h
оно нарушается (теорема 1/ гл. 5). Существует гипотеза (Devroye (1986b*)),
что Иn-состоятельные оценки плотности не являются относительно устойчивыми.
ЛИТЕРАТУРА, ДОБАВЛЕННАЯ ПРИ ПЕРЕВОДЕ
Надарая Э. А.
(1983*) Непараметрическое оценивание плотности вероятностей и кривой регрес-
сии. — Тбилиси: Изд-во Тбилисск. гос. ун-та.
Bickel Р., Rosenblatt М.
(1973*) On some global measures of the deviations of density function estimates//
Ann. Statist., v. 1, n. 6, p. 1071 —1095.
Devroye L.
(198§a*) The kernel estimate is relatively stable. Techn. Report, McGill Univ.
(1986b*) An application of the Efron—Stein inequality in density estimation.
Techn. Report, McGill Univ.
Efron B., Stein C.
(1981*) The jackknife estimate of variance//Ann. Statist., v. 9, n. 3, p, 586—596.
Глава 4
Нижние границы
для скоростей сходимости
1. Введение
В этой главе мы попытаемся получить нижние границы, со-
держащие общую информацию о возможных скоростях сходимости
для Е Q | fn —f |) при любых оценках плотности. Здесь возни-
кают две задачи:
(i) Получить нижние границы для
sup E(J|fn-f|),
где — соответствующим образом ограниченный класс плотно-
стей. Такие границы называются равномерными нижними гра-
ницами.
(ii) Получить нижние границы для
sup limsupa^’f ([ \fn — /|),
П-оо	w	’
где an—некоторая последовательность положительных чисел.
Таким образом, в (ii) ставится задача отыскания наихудших
скоростей сходимости для отдельных плотностей f из 5Гх).
Иногда мы будем называть величину inf sup Е (| I fn—/|)
fnt$F
(которая зависит только от п и ^") минимаксным риском, а ниж-
ние и верхние границы для нее —минимаксными нижними гра-
ницами и минимаксными верхними границами.
Рассмотрим следующие классы плотностей на R *:
G —класс всех плотностей, равных нулю вне [0, 1] и ограни-
ченных числом 2;
О» — класс всех плотностей, равных нулю вне [0, 11, огра-
ниченных числом 2 + 6 (при некотором 6 > 0) и бесконечное число
раз непрерывно дифференцируемых на [0, 1);
*) Границы для величины, указанной в (ii), под знаком sup далее назы-
ваются границами для фиксированной плотности f (в оригинале — individual
bounds). — Прим, перев.
46
Гл. 4. Нижние границы для скоростей сходимости
Я (g)—класс всех плотностей вида ptg (х+ х4), где g — про-
извольная задан#ая1:ийлотность, носитель которой содержится
в [0, 1],	те-вероятностный вектор1) и хг—возра-
стающая последовательность действительных чисел, такая, что
X$+i Х( > 1,
U — класс всех монотонных плотностей на [0, оо), имеющих
максимум в точке 0;
Ua, — класс всех симметричных бесконечное число раз непре-
рывно дифференцируемых унимодальных плотностей с центром
в точке 0.
Теорема 1. Пусть fn—произвольная оценка плотности. Тогда
(0	inf sup Е (J |fn -f|) ^с,
где с — 1 при — G, G^, Н (g) и с = 1/8 при Т = U, Ux.
(ii) Пусть {ап| —последовательность положительных чисел,
стремящаяся к 0. Тогда для всех классов , упомянутых в (i).
sup lim sup E ( [ | fn - f |) = oo.
П-+ОО an \j	/
Теорема 1 называется теоремой о медленной сходимости. Так
как она охватывает классы'[Л* и Н (g), то для исследования
скоростей сходимости произвольных оценок плотности, очевидно,
недостаточно условий непрерывности на#". Например, если g(x) =
= с ехр ( —1/х (1 —х)), 0 < х < 1, то любая плотность f из
Я (g) бесконечное число раз непрерывно дифференцируема. Более
того, так как класс G тоже включен в теорему 1, то одного условия
на хвосты или условия ограниченности также недостаточно. Та-
ким образом, для получения содержательных равномерных ниж-
них границ и нижних границ для фиксированной плотности /,
по-видимому, необходимо сочетание условий непрерывности и
условий на хвосты. Но даже при этом следует проявлять осторож-
ность, имея в виду класс G«>: недифференцируемость f в од-
 ной точке достаточна для того, чтобы получить результат о мед-
ленной сходимости.
Заметим, что в утверждении (ii) теоремы 1 выбирается одна .
плотность f из она обычно зависит от последовательностей fn
и ап, но, будучи выбранной, остается одной и той же при всех п.
Утверждение (ii) показывает, что на рассматриваемых здесь клас-
г) То есть р. > 0, i — 1, 2, ... и рг ~ 1. — Прим, перев.
1. Введение
47
caxiFдостигается любая скорость сходимости. Отметим, что в ут-
верждении (ii) можно заменить lim sup на lim inf (Birge (1983b)).
Теорема 1 (i) не вполне удовлетворительна^ьиб9возможно, что
значения Е (J | fn —велики для тех отдельных.jплотностей f
внутри классов^", для которых велики значёййя некоторого кри-
терия, измеряющего, насколько плотность / не гладкая и насколько
длинны ее хвосты. Одним из таких критериев, который еще раз
появится естественным образом в гл. 5, является
где fЕ * * * (s) есть s-я производная f. Отметим здесь, что j /7 — мера
того, насколько тяжелы хвосты f. Число s может принимать лю-
бое целое положительное значение. Теперь мы увидим, что теорема
1 (i) в сильной степени обусловлена присутствием внутри каждого
класса плотностей с большими значениями Ds (f).
Теорема 2. Пусть fn — произвольная оценка плотности и g —
произвольная плотность на (0,1], имеющая непрерывную s-ю
производную g(s). Тогда
lim inf n»/(2s+o SUp
f € н (g>
De(f)
(s/e(2s+ 1))S/(2S+')
Ds(g)
при любых S 5s 1.
Заметим здесь, что inf Ds (g) = C (s) > 0, для s = 1, 2 (cm.
e
гл. 5), так что нижняя граница равна
(s/e(2s+ 1))»/<2»+О
СЦ ’ S “ *’ Д
при условии, что верхняя грань по всем f из Н (g) заменена на
верхнюю грань по всем g на [0, 1) и всем f из Н (g).
Ясно, что в отличие от теоремы 1 верхнюю грань в теореме 2
нельзя приблизить плотностями, для которых Ds (f) = оо. Таким
образом, в теореме 2 речь идет о наихудших /, которые в некотором
смысле достаточно хороши (так как Ds (/) < оо). Теорема 2 также
указывает на важность нормирующего множителя.
Чтобы проиллюстрировать теорему 2 в случае s = 2, мы
немного забежим вперед и аннонсируем следующий результат
гл. 5 относительно ядерных оценок fn: при всех f имеем
Е
lim inf n2/5 —VJn ...—5» c> 0,
П-oo	Ui\l)
где c —универсальная постоянная, a £>2 (f) —величина, опреде-
ляемая так же, как и выше, для дважды непрерывно дифференци-
48
Гл. 4. Нижние границы для скоростей сходимости
руемых f (и иначе —для других /). В этом утверждении содержи-
тся информация, которую нельзя получить из теоремы 2, поскольку
это результат для фиксированной плотности f (а не равномерный).
Однако из него следует, что при s 3 нижняя граница теоремы 2
не достигается на ядерной оценке-. При s 3 нужны либо другие
оценки, либо существенно модифицированная ядерная оценка.
В § 5.9 и 7.6 будет показано, что достаточно допустить, чтобы
ядро К принимало отрицательные значения.
Внимательный анализ доказательства теоремы 2 показывает,
что Ds (fn) -> оо для плотностей f„ из класса Н (g), для которых
велико значение Е (j | fn — f^lDa(f). Мы можем теперь еще не-
много продвинуть технику получения границ, рассматривая классы
хороших плотностей, таких, как
Fs<r—класс всех плотностей на [О, I), имеющих s— 1
абсолютно непрерывных производных, s-ю производную /<s) и
таких, что Ds (/) < г,
или
Fs, о, — класс всех плотностей на [О, 1 ], имеющих s — 1
абсолютно непрерывных производных, s-ю производную f(s) и
таких, что Ds (f) < оо.
Эти классы не связаны операцией включения ни с какими из
рассмотренных до сих пор классов. Еще одна теорема гласит:
Теорема 3 (Bretagnolle, Huber (1979)) *). Существует число
г*> 0, зависящее лишь от s, такое, что для любой оценки
плотности fn
lim inf ns/(2s+1) sup E ( [ |— f |) 3s(2e)-4	— l')
«-►oo	f£Fs,r
при любых Г > Г* U
lim inf ns/(2s+I) sup £ (J |— f|) = oo.
f £ Fs> go
Теорема 3 сильнее, чем теорема 2, в том смысле, что в ней верх- .
ние грани берутся по классам плотностей FS)f с равномерно
ограниченными значениями Ds (/). По этой причине рассуждения
в ней более тонкие и изощренные. Заметим, что скорость n~s/(2s+D
х) В английском оригинале доказательства этой теоремы имеется пробел.
Значение г* в доказательстве, помещенном в переводе, не вычисляется. —
Прим, перев.
1. Введение
49
приближается к п-1/2 при s—>-оо. Хотя при s 3 эта скорость
не достигается на ядерной оценке ни для каких f, она достигается
на других оценках, во всяком случае, в смысле границ для фикси-
рованных плотностей f из FSt„, имеющих компактный носитель
(см., например, оценку Бартлета, описанную в § 7.6 и § 5.9).
Все рассмотренные до сих пор классы все же довольно об-
ширны. Ясно, что дальнейшее существенное сокращение размеров
классов приведет к уменьшению нижних границ. Если мы сокра-
тим классы так сильно, что останется семейство с одним-единствен-
ным параметром 0, то нижние границы должны выполняться для
всех параметрических оценок плотностей из данного семейства.
Нижние границы, полученные для таких семейств, обычно не
достигаются на общих оценках плотности, рассматриваемых в дан-
ной книге. Однако они достигаются на некоторых специальных па-
раметрических оценках плотности. В качестве примера рассмотрим
следующее простое семейство плотностей:
П (g) — класс всех плотностей вида f (х) = pg (х) +
+ (1 —p)g (х + 2), где g —произвольная плотность, носитель
которой содержится в [0, 11, и р £ [0, 11 — параметр смеси,
не известной пользователю.
Заметим, что все f из класса П (g) имеют компактный носитель
и бесконечное число раз непрерывно дифференцируемы, если g
бесконечное число раз непрерывно дифференцируема. Мы дока-
жем следующую теорему.
Теорема 4. Пусть fn —некоторая оценка и g —произвольная
плотность, носитель которой содержится в [0, 1 ]. Тогда
(i)	при любых га 4 имеем
sup /n£(f|f„- fl) >0,030153 ...
/ в действительности sup Е (j | fn — f |)
> (0,0849856 ... + о (l))//n ) ;
(ii)	sup lim sup j/TTE ( | l/n —/|) 2г0,0424928 ... .
/€n(g) n-'°°
Таким образом, можно сделать вывод, что при не совсем три-
виальном выборе класса {Г наилучшая из возможных скоростей
сходимости в LY равна l/j/п. Заметим, например, что если
содержит только конечное число элементов glt ..., gN и по опре-
делению /п = git где номер i вычисляется по данным .... Хп,
4 Деврой Л., Дьёрфн Л.
50
Гл. 4. Нижние границы для скоростей сходимости
то Е (J | fn — fl) < 2Р (gi =# /). Последняя величина стремится
к 0 экспоненциально с ростом п, если gt выбирается по принципу
максимума правдоподобия (см. § 11.9, посвященный обнаружению).
Таким образом, для всех f из этого конечного класса имеется
экспоненциально убывающая верхняя граница!
Пользователи обычно жалуются, что большинство статистиче-
ских теорий имеет асимптотическую природу. Что же можно сде-
лать при малых выборках? Существует ли «оптимальность при ма-
лых выборках»? Один способ получения хороших оценок при ма-
лых п состоит в том, чтобы подходящим образом ограничить мно-
жество рассматриваемых плотностей и решить следующую задачу
о минимаксе: для каких /п величина sup Е (j | fn—/|) ми-
нимальна? (Это минимальное значение т (п, 5Г) есть функция
только от п и ^F.) Здесь можно было бы рассмотреть классы всех
монотонных плотностей на [0, оо), всех симметричных унимодаль-
ных плотностей, всех С-липшицевых плотностей, всех логариф-
мически вогнутых плотностей с модой в точке 0, всех плотностей
с возрастающей интенсивностью отказов х) на [0, оо) и так далее.
В частности, если задано только (задача с одним наблюдением),
то что представляет собой fL для каких-либо из этих классов?
Интересно, конечно, получить хорошие границы для т (п, ST)
при любых п. Асимптотически хорошие границы можно получить,
как правило, методами, развитыми в этом и в следующем парагра-
фах, но ввиду сказанного они представляют меньший практиче-
ский интерес.
2. Лемма Ассуа
Идеи, на которых основаны результаты § 1, можно разбить
на три группы: во-первых, нельзя оценить плотность f на данном
интервале, если в этот интервал не попадает ни одно из наблюде-
ний Xi (теоремы 1 и 2), во-вторых, можно получать нижние гра-
ницы теоретико-информационными методами (теорема 3), в-треть-
их, можно использовать такие неравенства, как неравенство Кра-
мера—Рао, и свойства достаточных статистик (теорема 4). В этом
параграфе мы хотели бы привлечь внимание к мощной и простой
технике, изложенной в работах Assouad (1983) и Birge (1980,
1983, 1986), позволяющей заново вывести некоторые результаты
§ 1 и получить ряд новых нижних границ для важных классов
плотностей. Бирже использовал понятия е-энтропии и е-емкости,
-1) Интенсивностью отказов плотности f на (0,оо) называется функция X (х)=
— f (х)/(1 — F (х)), где F — функция распределения, соответствующая f. Это
понятие используется в теории надежности. — Прим, перев.
2. Лемма Ассуа
51
введенные Колмогоровым и Тихомировым (1959), что позволило
ему не только получить равномерные нижние, но и верхние гра-
ницы для минимаксного риска
inf sup
fn
Он успешно ответил на вопрос о получении для некоторых верх-
них и нижних границ, имеющих одинаковую зависимость от п
(но с различными коэффициентами). Вторая часть работы Бирже
здесь не рассматривается, поскольку важные верхние границы
будут получены в гл. 5.
Ключевым результатом является мощная лемма, принадлежа-
щая Ассуа (Assouad (1983)) (теорема 5 ниже). Она приводится
в виде, более удобном для применения в книге.
Теорема 5. (Assouad, 1983) (общая формулировка). Пусть г^>
1 —целое число и b = (йх, .... Ьг) £ {—1, 1}г —параметр
семейства плотностей f (Ь, •), содержащего 2Г элементов. Пусть
параметры bi+ и Ь{_ определены равенствами
= (&!» ^2, •••> +L ^«+i> •••>
bi- = (blt b2...b{_lt —1, bi+1, ..., br).
Если существует такое разбиение А о, A ..., А г пространства Rd,
что для любых b и любых 1 i г выполнены неравенства
-)-f(bt_, .)>а>0
Ai
и
то для любой оценки плотности fn
»	'	|(га/4)0».
В терминах величины у = 1 — р нижние границы можно заме-
нить на (га/2) (1 —у^2пу) и (га/4) (1 —у)2л соответственно.
(Частная формулировка) (Birge, 1986). Пусть г 1 —це-
лое число, пусть А = (0, /), I < 1/г, — интервал, на котором
определена измеримая функция g, удовлетворяющая условиям
И<1, jg = O,
А
пусть g — О вне А, и пусть yt, ..., уг —действительные числа,
такие, что множества А + уi не пересекаются. Пусть f0 — плот-
4*
52	Гл. 4. Нижние границы для скоростей сходимости
ноешь на R, принимающая значение 1 на множестве (J А +
Пусть F —класс 2Г плотностей, параметризованный с помощью
b = br) Е {-1, 1Г
элементы которого f (Ь, •) определяются следующим образом:
[ /оО). x^UA-i-yi,
f(b> *) =
Чо(х) + btg (х ~ yt), х £ A-j-yt.
Тогда
sup £ (J Ifn -/l) J |g| Л - 1 f 2n jg2^-y- J l£l
A \ V A / A
для любой оценки плотности fn, если п j g2 <; 1/8.
А
Если задано некоторое общее семейство то сперва следует
найти г, I, g, f0 и ylt уг, такие, что семейство F из теоремы 5
полностью содержится в&~. Тогда любая нижняя граница, полу-
ченная для F, необходимо является нижней границей для SF,
которую и требовалось найти. Покажем теперь, как действует
этот подход для некоторых важных классов.
Определим класс Липшица W (s, а, С) как класс всех плот-
ностей f, сосредоточенных на отрезке 10, 1 ], имеющих (s — 1)
абсолютно непрерывных производных и удовлетворяющих условию
|р)(х)_/<s>(y)| <С|х-у1“, х, y£R,
где s 0 — целое, С — положительное число и а £ (0, 1 ].
Говорят, что функция g является С-липшицевой, если
|£ГО) —я0)1 <С|Х-у|, х, y£R.
В анализе, проведенном в § 1, центральным понятием были
функционалы Ds (/). Здесь же мы начнем с небольшого и приятного
класса — класса Липшица W (s, а, С), не заботясь по началу
о величине Ds (f). В гл. 5 будет показано, что соответствующим
образом обобщенный функционал, близкий к Ds+1 (/), равномерно
ограничен на W (s, 1, С).
Наиболее важными классами Липшица являются W (1, 1, С)
и W (0, 1, С). Последний из них есть класс всех С-липшице*
вых плотностей, сосредоточенных на [0, 1 ]. Очевидно, класс
W (0, 1, С) пуст при С < 4 и содержит только один элемент
(равнобедренную треугольную плотность на [0, 1 ] *) при С = 4.
*) Равнобедренной треугольной плотностью на [0, 1] здесь и далее назы-
вается плотность f (х) = 4х, 0 х 1/2, f (х) = 4 (1 — х), 1/2 < х 1. —
Прим, перев.
2. Лемма Лесу а
53
Заметим, что точно так же любой из классов W (s, а, С) не пуст,
если С больше, чем некоторая постоянная Со, и пуст при всех
С <С Со.
Теорема 6. Пусть fn —произвольная оценка плотности. Для
любого целого s^O и любого а £ (0, 1] существуют положитель-
ные постоянные с2, с3, и у2, зависящие только от s и а, та-
кие, что
sup f(J|fn-f|)>
fEW'fs, а, С)
| (С3 + О(1)) С'/<2 <s+“> + »п- <s+“)/<2 (’+“> + 0,
I У14-((1бТ2«С2),/<2(’+в) + 1) + 4)-<’+«), п^Сс2,
для всех С Ci. Если W* (s, а) = J W (s, а, С), то
оо
lim inf sup Е (J |fn —/|) n(s+“)/d+2(«+“» = оо.
П-»оо f£w,(S' а)
Постоянные с2 и с3 можно вычислить следующим образом:
[(s + ay+’2'-“exp (-Ц^-ехр (liL))]"1,
Vi = ТоГ2 (s + а + 1) Г’* (2s + 2а + 2),
Т2 = УоГ2 (2s + 2а -И 1) Г~' (4s + 4а + 2),
Vs = Vo/4s+a,
с3 = -L (16у2)- (s+“)/(!+2 (s+a)).
Теорема 6 хороша тем, что она дает непрерывный спектр поли-
номиальных скоростей сходимости. К сожалению, постоянные ct
в теореме не оптимальны, так что стоит приложить дополнительные
усилия в надежде получить полезные нижние границы для IF (1,
1, С) и W (0, 1, С). Это сделано в следующей теореме.
Теорема 7. Пусть fn — произвольная оценка плотности. Тогда
21 / 12С \1/з	/1Л зс\
160 \ 25л )	’ тах V0, "50*/ ’
sup £(|l/n-
f£w (0,1,0	'
при любом C '^> 72 и
SUP £(Jlfn-
ftw (1,1,0
при любом С 288.
15C
368 ’
54	Гл. 4. Нижние границы для скоростей сходимости
В гл. 5 будет показано, что эти скорости достигаются на ядер-
ной оценке и только для W (0, 1, С) — на гистограммной оценке.
Если нижние границы для С представляются не реалистичными,
то пользователь может без большого труда понизить их за счет
увеличения коэффициентов при п-*/3 и /г2/5 в теореме 7.
Покажем теперь, что из теоремы 5 можно также получить те-
оремы о быстрой и о медленной сходимости в духе теорем 1 и 4.
Теорема 8. Пусть fn — произвольная оценка плотности, г
1 — фиксированное число и g — фиксированная измеримая функ-
1/г
ция на [0, 1/г), такая, что | g | < 1, Jg = 0. Пусть Qr (g) —
о
класс всех плотностей следующего вида:
/ (х) = 1 + edfg (х --у-) , у-<х<-Ц^~, t = 0, 1, ...,/•-1,
где е £ [0, 1 ] и числа bt £ | —1, 1}, 1 i	г. Тогда
sup ^(J	n	(8 j	.
' fanjg*	'
В частности, если g = 1 на [0, 1/ (2r)) и g = —1 на [ l/(2r), 1/г),
то
sup Е (f | fn — f |) V'r/32n,	n r/8,
и
sup f(J |fn-/|)> 1/2
r
при любых n.
Несмотря на свою простоту, теорема 8 содержит полезную ин-
формацию. Равномерная нижняя граница для Qj (g) имеет по-
рядок l/j/п. Эта нижняя граница применима к задаче параметри-
ческого оценивания, так как она остается в силе, даже если функ-
ция g задана и только е и bt неизвестны. Таким образом, ситуация
снова сравнима с тем, что было в теореме 4. Неудивительно, что
нижняя граница возрастает с ростом г и что для (J Q, (g) факти-
Г
чески получается результат, аналогичный теореме 1. В этом ре-
зультате нет ничего удивительного, поскольку (J Qr (g) — густо
Г
населенный подкласс класса G всех плотностей на [0, 11, огра-
ниченных числом 2.
2. Лемма Ассуа
55
В этом параграфе были представлены только равномерные ре-
зультаты. Индивидуальные нижние границы, такие, как в теореме
1 (и), тоже можно получить из теоремы 5 путем сложных построе-
ний (см., например, Birge (1986)).
Закончим этот параграф равномерной нижней границей для
класса Мв — |все монотонно невозрастающие плотности на [0, 1 ],
такие, что f (0)	В}. Ясно, что этот класс пуст, если В < 1.
Теорема 9. Для любой оценки плотности и любого В 2
имеем
5^ВЕ	16(3 + 2(n/4)'/3) ~*3г(4) ’
Ясно, что такая же нижняя граница верна для всех симметрич-
ных унимодальных плотностей на [—1, 1], таких, что f (0)
В/2, и для всех унимодальных плотностей на [—1, 1 ] с модой
т £ [—1, 11, таких, что f (т)	В/2. Полученная здесь нижняя
граница —далеко не наилучшая, хотя бы потому, что она не
возрастает с ростом В. Однако доказательство теоремы 9 удиви-
тельна просто и по крайней мере степень п (п~^3) является пра-
вильной, так как равномерные верхние границы для средней
ошибки ядерной и гистограммной оценок убывают как (это
будет показано в гл. 5). Урок, который отсюда следует, состоит
в том, что если предполагать только условия монотонности и
компактности, то ни от какой оценки плотности нельзя ожидать
очень хорошего поведения, и что, по-видимому, не очень выгодно
строить специальные оценки для Мв, возможно, не состоятельные
вне Мв, поскольку они не могут быть существенно лучше ядерной
оценки.
Важное замечание. Получение равномерных нижних и верх-
них границ для Е ([ | fn — f |) на неоднородных или очень широких
классах является рискованным и часто бессмысленным упраж-
нением. Оно очень напоминает определение максимального числа
червяков в яблоке из кучи, куда наряду с только что собранными
яблоками подброшена пара старых. С большой вероятностью
результат определяется старыми яблоками и дает мало информации
о только что собранных. Например, этот эффект возникает с
классами Липшица W (s, а, С), для которых верхняя и нижняя
границы возрастают с ростом С (при фиксированных s и а).
Из теорем 2 и 3 и из верхних границ, которые будут получены
в гл. 5, видно, что величина Ds (f) является очень хорошей мерой
«трудностей», доставляемых плотностью f. Но так как имеется
лишь весьма слабая связь между С и D8 (/), то теорема 6, напри-
мер, содержит очень мало информации о подавляющем больший-
56
Гл. 4. Нижние границы для скоростей сходимости
стве плотностей из класса IT (s, а, С). В связи с этим более ес-
тественными и реалистичными представляются классы Fg> г,
которые далее называются классами Бретаньоля—Юбер. Доба-
вим, что в отличие от W (s, а, С) классы FSt г замкнуты отно-
сительно перенормировок *).
3. Некоторые исторические замечания
Нижние границы, собранные в § 1, имеют некоторые аналоги
в Lp. По очевидным причинам подробное представление нижних
границ в Lp здесь неуместно. Однако интересно напомнить неко-
торые исторические вехи, которые позволят лучше понять разли-
чие между нормой Li и нормами Lp при р =4= 1.
В § 1 были рассмотрены результаты о медленной сходимости
(теорема 1), нижние границы с промежуточными скоростями схо-
димости (теоремы 2 и 3) и слабые нижние границы (теорема 4).
Например, теорема 1 позволяет сделать важное замечание от-
носительно результатов о сходимости в £2 ядерной оценки,
п
/п(х) = (пЛп)'12/<(^Г-)’	'
;=i	п
где К —ограниченная симметричная плотность. Розенблат (Ro-
senblatt (1971)) показал, что
если hn -И) и nhn -> оо при п -> оо и f — ограниченная плотность,
имеющая две непрерывные производные, и j (f)2 < оо. Посто-
янные равны
а - J №, р = (f х2К (х) dx)2 J (ГУ*.
Выбирая hn = (а/pn)1/5, получим оптимальную скорость сходи-
мости в £2:
(см. также Надарая (1974)). В то же время для некоторой плотно-
сти f из данного класса имеем
( J I /п f l) 2s log log log log n
x) To есть плотности вида (x) = or1/ (x/a), 0 < a < 1, принадлежат Fs, r
если f Q FSt r. — Прим, перев.
3. Некоторые исторические замечания
57
бесконечно часто. Действительно, достаточно в теореме I взять
класс Н (g), для которого g (х) = const-exp (—1/х (1 —х)) на
[0, I ], и заметить, что все f из Н (g) ограниченны и удовлетворяют
со
условию | (/")2 = 2 р}\ (яЭ2 < j (g’)2 < 00 • Другими словами,
1=1
классический результат Розенблата и большая часть других
результатов о скорости сходимости в £2 содержит мало ин-
формации о близости fn к f. При выборе параметра hn эти резуль-
таты следует использовать чрезвычайно осторожно. Такое несо-
ответствие между хорошими скоростями сходимости в и пло-
хими скоростями в £г вызвано тем, что в £2 менее существенны
хвосты распределений (и участки, где значения f малы). Заметим,
однако, что при дополнительных условиях на хвосты для класса
плотностей, рассмотренного Розенблатом, достигается оптималь-
ная в Lr скорость сходимости ядерной оценки п~2/5 (см. гл. 5).
Укажем без доказательства аналог теоремы 1 для Lp.
Теорема 10 (Devroye (1983)). Пусть fn —произвольная оценка
плотности, р^ 1-—фиксированное действительное число и
f£ Lp. Тогда
1
(i)	inf sup —^-7—------~^=F»
n	If P	2
где — H (g) при произвольном g или =G.
(ii) Пусть {an| —последовательность положительных чисел,
стремящаяся к 0. Тогда
. Е 1|/п-/|р
sup lim sup ап —“!_.------— оо.
I/р
Имеется также ряд аналогов нижних границ с промежуточными
скоростями сходимости. Эти аналоги будут приведены здесь без
доказательств или только с краткими набросками доказательств.
Читателю не следует забывать, что легко сбиться с курса в широ-
ком море результатов, представленных в литературе, — их столько
же, сколько нормирующих множителей, норм и классов плотностей
Ниже дается определение обобщенного множителя Dt (/)
для £р:
о.г(М>>|’),,да+,,и /<да+1>.
58
Гл. 4. Нижние границы для скоростей сходимости
Следующий результат (Breatagnolle, Huber (1979)), имеющий
место при d = 1, s > 1 и р > 1, служит дополнением к равно-
мерным нижним границам теорем 1 и 3:
lim inf n»p/(2»+n sup E (f | fn — f |pj rCsp > 0,
n-»oo	f g g-	'J	'
где Cap — постоянная, зависящая только от s и р, г > 0 — дей-
ствительное число и Т — класс всех плотностей, имеющих s — 1
абсолютно непрерывных производных, таких, что /<«> С Ер,
f £ Lp и Dap (f) г. Заметим, что при р 2 из условия
Dsp (f) г не следуют ограничения на хвосты f, так что дан-
ный результат не противоречит результату Розенблата о скорости
сходимости ядерных оценок в £2.
Подчеркнем еще раз важность нормировок. Например, при
р > 2 можно найти плотность g, такую, что Н (g)^ST. Это сле-
дует из того, что
D„(f)w = (Ър1)(Ъ Р?"ГО.р(лГ+‘
при f £ Н (g). Таким образом, в силу теоремы 9 имеем
sup E(j|fn-/|p)/JfP^l/2P-> при любых п и любых р > 2.
Будем теперь постепенно уменьшать размеры классов .
Прежде всего снова рассмотрим Н (g). Расчет, проведенный ниже
в § 5, показывает, что
sup Е (J | fn -/|₽) >
[ /2“<р-,) sup V рЧ (1 - pt)n >
J	все вероятностные
векторы Pi, .. 1—1
~ f ?o ((Р~ 1)/2)р~1
J8	п»~'
при п -> оо. При р = 1 эта нижняя граница равна 1 для любых
При р = 2 она пропорциональна 1/п независимо от выбора g.
В самом деле, так как j gp 1 при р > 1, то
£ (Jff« - » 2ёГ+ТехР (- тЬ-)
при любых п и g. Однако при другой нормировке получается
3. Некоторые исторические замечания
59
Теорема 11. Пусть g —бесконечное число раз непрерывно диф-
ференцируемая плотность с носителем [0, 1 ], и пусть d = 1.
Тогда
lim inf/np,/(2s+1) sup —- ga 1 (Psl(e (2s +1 )))p,/(2,+‘>
n-»<»	sp(i)	2P—1	Dsp(g)
для любых p, s> / и любых оценок плотности fn.
Как показано выше, наилучшая скорость сходимости в Ьг,
достижимая равномерно на любом классе Н (g), равна 1/п. Бойд
и Стил (Boyd, Steele (1978)) получили несколько более сильное
утверждение для небольшого класса BS всех нормальных с пара-
метрами (0, о2) плотностей.
Теорема 12 (Boyd, Steele (1978)). Для любой оценки плот-
ности fn существует плотность f £ BS, такая, что i
lim sup nE(J(fn-/)2)^c(f)>0,
П->оо	X J
где c (f) — постоянная, зависящая только от f.
Результат Бойда и Стила нельзя улучшить при оценивании
нормальных плотностей, так как если, например, оценкой fn
для f является нормальная с параметрами (Д, б2) плотность, где
Д и б2 —обычные выборочные оценки для ц и о2, то
где F — функция распределения величины 4V + 3U и V, U —
независимые случайные величины, имеющие распределение хи-
квадрат с одной степенью свободы (см. работу Мания (1969),
который также получил сходный результат при d > 1). Таким
образом, скорость, предсказанная Бойдом и Стилом, достигается.
( Теорему 12 следует рассматривать как аналог теоремы 4 для L2.
' Предположительно существует универсальная постоянная с, такая,
что
,seuLli”s“pZ"£(fi'- -
Кифер (Kiefer (1982)) приводит обзор литературы по нижним
границам скорости сходимости оценок плотности; до настоящего
времени основное внимание уделялось скоростям поточечной схо-
димости (см. Farrell (1967,1972), Wahba (1975), Stone (1980),
Ибрагимов, Хасьминский (1979)). Глобальные скорости сходи-
мости (скорости сходимости в Lp) рассматривались Самаровым
(1976) и Bretagnolle, Huber (1979). По поводу границ в L«, см.,
60
Гл. 4. Нижние границы для скоростей сходимости
например, Ибрагимов, Хасьминский (1979) и Stone (1983). Ско-
рость поточечной сходимости ядерной оценки подробно исследо-
вали Wahba (1975), Rosenblatt (1971) и многие другие. Скорость
сходимости ядерной оценки в L2 была найдена Rosenblatt (1971),
Надарая (1974), Deheuvels (1977а), Bretagnolle,Huber (1979) и
другими авторами. Для случая d > 1 укажем работу Deheuvels
(1977b).
4. Доказательство теоремы 1
Классы G и И (g). Начнем с определения двух семейств плот-
ностей. Семейство 1 параметризовано действительным числом b £
£ 10, 11 и вероятностным вектором (plt рг, ...). Указывая явно
только зависимость от Ь, запишем
Ж х) = £ ptg(x - 21 - bt),
i=l
где g — плотность с носителем, содержащимся в [0, 1 ], и bt
есть t-й бит в двоичной записи 0,дгЬ2Ь3 ... числа Ь. При каждом Ь
функция f (b, х) является плотностью по х.
Семейство 2 параметризовано тем же b и тем же вероятностным
вектором (plt р2 ...). Отрезок [0, 1 ] разбивается на множества
At, А}, такие, что J dx = j dx = pt/2, и затем определяется
лг	А[
В качестве А( и Л/ всегда можно выбрать смежные интервалы,
такие, что А\ = А( + рг/2. Ясно, что семейство 2 является под
классом G, а семейство 1 — подклассом Н (g).
Доказательство основано на следующей схеме вложения.
Пусть В —случайная величина, равномерно распределенная на
10, 1], и пусть Х\..Хп —независимые случайные величины,
не зависящие от В, с общей плотностью f (0, •)• Определим мно-
жества Ct = [2i, 2i + 2) для семейства 1 и Ct = Лг (J А\ для
семейства 2. Ясно, что в обоих случаях Р (X* £ Ct) = р(. Обоз-
начим Bi i-й бит в двоичной записи В. Определим теперь случай-
ные величины Xlt ..., Хп соотношениями
Xi^X*j-YBi при X*j^Ct
для семейства 1;
=	при х;ес,-
для семейства 2.
4. Доказательство теоремы 1
61
Кроме того, будут использоваться случайные величины =
п	п
= 2j	S	для которых N = (Ni, N2, ...) по
построению не зависит от В. Наконец, пусть В' и В" —-слу-
чайные величины, отличающиеся от В только в i-м двоичном знаке,
причем B'i =0, B't = 1.
Используются два основных приема. Первый прием основан
на том, что верхняя грань больше, чем среднее значение:
sup£(j|fn-/(b,.)|)^E(f|/n-f(B,.)| =
= Е Sfl/n-/(B.-)| • (1)
\i=l Сi	/
Второй прием состоит в том, что с использованием условной неза-
висимости Bt и Xlt .... Хп на множестве [Nt =0] из (1) исклю-
чаются fn. Имеем
1/п
—/(В,-)|	.... Хп
= Е р[лг.=о]/[в{=о] f\fn — f(B', -)| +
\	Ci
+	=0)^=1] j 1А» — f(B", -)|
Ci

Xi,
-/и.=0]£	+
\Ci
\\fn-f(B", .)| Xi,.... x„)
Ci
> /[jv<=Oj4-E//|/(B',	-)|\ =Р.-^=0]
\ Ci	/
(2)
для обоих семейств. Объединяя теперь (1) и (2), получим
ОО	00
sup Е (j I fn -f (b, •) I )> £ Pip <Ni = °) = S Pi 0 - Pi?' <3>
Неравенство (3) оказывается достаточно сильным, чтобы доказать
утверждение (i) для семейств G и Н (g), так как имеется еще сво-
бода в выборе (plt рг, ...). Пусть, например, р{ = l/M, 1 < i М
и pt = 0, i > М. Тогда правая часть (3) равна (1 — 1/Л4)я и
h
i
'	62	Гл. 4. Нижние границы для скоростей сходимости
верхняя грань этого выражения по М равна 1. Доказательство
для классов G», U и U«, пока отложим.
Для доказательства части (ii) необходима
Лемма 1. Если 0 < ап < 1/8 при всех п и lim ап = 0, то
П-+ОО
существует вероятностный вектор (рь р2, ...), такой, что
%Pi(l - Pi)n^an
z=i
при любых п.
Доказательство. Сперва построим последовательность
Эта последовательность такова, что а'п ап при всех пи 1/4
а! >• 02 ••• а’п | 0. Следовательно, найдутся целые 1 =
= <kz < ... и положительные числа pt, такие, что р,=
— 1 — 2а[ и
pi < (2п)~1,	£ Pi = 2 (an-i — а'п)
при п > 2, kn_i < i < kn. Заметим, что, в частности,
£ Pi ~ Pi + 2 2 (оп—1 — ап) = 1 — 2oj + 2oi — 1.
1=1	-1=2
Кроме того,
р.^\/2п
>4- 2	2 р,=
pf<l/2n
со
=	2 (^1—1	1	(^п otn
i~n
при п > 2. При п = 1 имеем pt (1 — рг) = 2а[ (1 — 2а\)
так что лемма доказана.
Доказательство утверждения (ii). Воспользуемся здесь преж-
ним вложением, но распространим его на бесконечные последо-
4. Доказательство теоремы 1
63
вательности X*, X?, ..., и Хъ Х3,	. Нам понадобятся величины
Л (b) = Е (J |/n - f (b, •) |) и 7n (b) = sup Jm (b)/am.
m>n
Пусть Dn = \b:	1}. Поскольку Dn монотонно убывает,
существует предельное множество D и, следовательно,
J dx | j dx — X (D) (1 — мера Лебега).
°пПЕ°’Ч Dn[0’ Ч
Пусть Dn — дополнение Dn.
Множество Dn введено для того, чтобы можно было применить
лемму Фату:
sup limsup	sup limsup (	\ /_e(b)^
b n-*oo “n b n-*oo ' an / Dn
Для членов последовательности, стоящей в (4), воспользуемся
соответствующим образом видоизмененными неравенствами (1)
и (2). Полагая X = (Хъ Х2, ...), изменим левую часть (2),
придав ей вид
Е	-/(В, -)| х)>
Э=	JI/. ~/(В-, -)| +
\	сг
С1
> 7(^=0] (2ал)	Jn(B’))<i] I•) —
)|
/("f=°l^’£	Jn (В">)<111 Х) >
где математическое ожидание последнего выражения равно
Pta-'PtNi^O, max(7n(B), 7„(В"))<
РРп1 (Р (Ni = 0) - Р {Nt = 0, 7„ (В ) >1)-
-Р(У, =0, 7„(В')>0)>
64
Гл. 4. Нижние границы для скоростей сходимости
> Pfin1 (Р (N{ = 0) - 2Р (N( = 0,7„(В)>1) —
-2Р(^ = 0. 7„(В)>1)) =
= Р&п' (Р (Ni = 0)-4Р (Nt = 0, В С о„)).	(5)
Пусть Ап = [&п-1> °°)> где kn определено в доказательстве лем-
мы 1. Определим также
Zn= 2 PillN^O].
Выше было показано, что
е Ч <в’) ’»Е (£) ~4£ (£ Ч («))
s=£(v)-4(£(f
(по неравенству Шварца).
Выберем теперь вероятностный вектор (plt pit ...), предписы-
ваемый конструкцией леммы 1. Тогда
е(А\ = 0-> 2 Л.(1_р0^о.
Кроме того,
Е (%п) — S Pi 0 — Pi) 4~ . t S. PiPi (1 ~ Pi — Pi)
i* iQAn
<2 S p?(i - pip + s pz(i-ponp/(i-p/)"«
‘€лп	1*1‘ '• i£An
<s2E2(Z„),
где используется тот факт, что (1 — pt)n 1/2 на Ап и что 1 —
— р{— pj < (1 — pi) (1 — pj) при любых i, j. Объединяя по-
следние два факта с (5) и (4) и учитывая соотношение lim Р (В £
«-►ОО
С Dn) = % (D), заключаем, что
sup limsup (1 — 4 j/2A,(D)) limsup E (—) .
b «->00	n-KOO '	'
В силу определения D всегда
sup limsup Jn~ty > K(D).
b n->co &n
Так как при к (£>) > 0 обязательно lim sup JH (b)/an > 0 для
«-►00
некоторого b и при X (D) = 0 то же самое выполнено в силу ра-
/
4. Доказательство теоремы 1
65
нее полученного неравенства, то можно заключить, что существует
некоторое ft, такое, что
lim sup ^^>0.
П-»оо аП
Но так как при выборе вероятностного вектора (plt p.iy ...) всегда
можно заменить ап на j/'аПУ то из этого результата следует ут-
верждение (п) для семейств G и Н (g).
Класс Goo- Изменим слегка определения семейства 2. Рас-
смотрим плотность g (х) = С ехр (—1/х (1 — х)) на 10, 11. Пусть,
далее, символами С1У С2, ... обозначаются интервалы (0, pj,
[pi, Pi + P2I...Разобьем каждый из интервалов на два ин-
тервала одинаковой длины и обозначим левый интервал А, и
правый интервал Л/. Далее, положим
f(b, х)= S 2 (&,£.•+(!
(=1
где gi — функция g (x/(pi /2)), сдвинутая вправо на рг + ...
... + Pi-i, и gi есть функция giy сдвинутая на рг/2 вправо. Таким
образом, gi равна нулю вне Л,- и gl равна нулю вне А}. Более
того, семейство 2 принадлежит GM. Чтобы убедиться в этом, дос-
таточно заметить, что максимальное значение /, т. е. удвоенное
максимальное значение g, равно 2С ехр (—4). Теперь
1	1/2
1ехР (-7(Т^г) = 2 fex₽ (-Т=П7)^ =
о	о
1/2	1//20
= 2е“4 j ехр (—dy^2e~* j (1 - 20//2) dy,
о	о
где было использовано неравенство е~и >1 — и и тот факт,
что 1 — 4#2 <1. Но данная нижняя граница равна 4е~4/(3 >/26).
Следовательно, 2Се~4 = 3j/~20/2 = 3}/5. Легко видеть, что для
любого 6 > 0 из определения класса G® можно выбрать подходя-
щую функцию g, постоянную на [е, 1 — е] и очень гладкую на
[0, в] и [1—е, 1 ]. Нетрудно установить, что доказательство
теоремы 1 переносится на такое Семейство без изменений.
Класс U. Рассмотрим подкласс класса U, параметризован-
ный, как и выше, с помощью b и (ръ pit ...). Величины Pi не
возрастают с ростом i, и их сумма равна 1/2. Прежде всего опре-
делим интервалы, вводя узловые точки
х0 = 0, хх = 1, xi+x — хг = 2lpt, i 5= 1.
5 Деврой Л., Дьёрфи Л.
66	Гл. 4. Нижние границы для скоростей сходимости
Плотность f (b, •) равна нулю всюду, кроме интервалов [xit
xj+1), на которых она постоянна. При х£ [хг, хг+1) она опре-
деляется следующим образом:
-г + Е'Т’ если 1’ = 0>
f(x) = |	^=*
2 ,	если i 0, bt = О,
2-<‘+1>,	если i^=0, bt = l.
j f=(*i - *о)/4
Заметим, что f унимодальна на [0, оо J и что она является плот-
ностью, поскольку
+ У, -уА + У (xi+1 — х() 2 1 1 +
>>1.	I	1>1.
**=*	у if=i
+S(Xi+i~Xi)2”‘=
Несколько сложнее теперь оказывается вложение. Начнем
с независимых случайных величин В, X*, ..., Хп, .... Yn,
где величина В такая же, как раньше, X* имеют плотность
f (0, •) (напомним, что f (0, х) — 1/2 на [х0, xj и f (0, х) = 2-*'
на [xi, xi+1), i > 1) и Yt — бернуллиевы случайные величины
с параметром 1/2. Определим выборку Хи .... Хп из f (b, •)
следующим образом:
если X*- £ [х0, xj
или если X*! £[х,, х(-|-1), i^l, и Ь,= О,
или если X*j С(хп х,+1), i 1, и Ь, = 1,-
= О,
если X*j Е(Х;, xi+1), i^=l, Ь, = 1,
Г/=1.
Таким образом, в последнем случае X/ заменяется на случайную
величину, равномерно распределенную на [х0, хт). Легко удосто-
вериться, что Xj имеют плотность f (b, •).
5. Доказательства теорем 2 и 11
67
Проверьте, что (1) остается в силе при замене Ct на lxit xi+1).
Далее, так как при N, = 0 (i 1), где Nt — число Xj в интер-
вале 1хг, х/+1), величины Bi и Хг, ..., Хп условно независимы,
то снова можно вывести (2) при всех i > 1 со следующими изме-
нениями: математическое ожидание брать при фиксированных
X*, У1( ..., ХИ, Yn и в последней строке заменить рг на pt/4.
Таким образом, можно заключить, что справедливо соотношение
(3) с правой частью, деленной на 4.
Эта нижняя граница зависит от п и от вектора величин pt.
Как показано выше, можно найти невозрастающую последова-
тельность величин pt, сумма элементов которой равна 1/2, такую,
оо
что S (pt (1 — pi)nlan)l4 -> оо при <х>. Кроме того, супре-
1=1
мум рассматриваемой нижней границы по всем таким векторам
величин pi равен 1/8. Это завершает доказательство утверждения
(i) для данного класса плотностей. Доказательство утверждения
(И) также не представляет значительной трудности.
Класс (/«,. Рассмотрим семейство кусочно-прямоугольных
унимодальных плотностей, построенное для U, и построим новое
семейство, содержащееся в [/«, и состоящее из сходных кусочно-
«почти прямоугольных» унимодальных плотностей. Это можно
сделать, определяя / (Ь, •) на каждом из интервалов [хь хг+1)
так же, как и прежде, за исключением окрестностей точек х1к
и х1+1, где делается поправка с целью получения непрерывной
функции. Так как U можно рассматривать в качестве предельного
случая для (/оо, то нетрудно видеть, что все предыдущие резуль-
таты остаются здесь в силе.
5. Доказательства теорем 2 и 11
Заметим, что теорема 2 есть не что иное, как частный случай
теоремы 11 (при р — 1). Рассмотрим снова семейство 1 из доказа-
тельства теоремы 1. Нетрудно проверить, что
>-(S₽5’)Je’
и
D.P tf) = D„ te)(E (E /№+'’.
Теперь снова проделаем выкладки (1) и (2) вплоть до предпо-
следнего выражения в (2), где следует заменить множитель 1/2
на 2~р. Интеграл J | f (В', •) — f (В", •) |р равен 2рр j g'’, откуда
Ci
sup Е (J |fn — f (b, •)|P)>2"(p-l)	•
b
5*
68
Гл. 4. Нижние границы для скоростей сходимости
Положим теперь pt = 1/М при i = 1, 2, .... М и pt = 0 при
других i. Тогда
Е ([ l/n-f(b, •)|Н
Т Dsp(f)-------------
fgP о-(р-1) / 1	1\«
DSp(g) 1	\м) к1 ~м) •
Положим М ~ nKpsl^s + 1)), заметим, что j gp 1 и устре-
мим п к ОО.
6. Доказательство теоремы 3
Так же как в доказательстве теоремы 1 (i), воспользуемся ме-
тодом рандомизации (см. (1)). Построим семейство плотностей,
строго вложенное в Fs,t и-группирующееся вокруг некоторой
центральной плотности g. Эта центральная плотность в свою оче-
редь равна свертке g0 * glt где g0 — плотность с носителем, содер-
жащимся в [—1/4, 1/4], имеющая непрерывную (s— 1)-ю произ-
водную, и gi — равномерная плотность на [—1/2, 1/2]. Таким
образом,
х+1/2
(go*gt W)(s)- J gP(y)dy = g{os~'\x + 1/2) - (x - 1/2)
x—1/2
И
f I (go * g.)(s) | = J | gtf-" (x + 1/2) - gtf-" (X - 1/2) I dx =
= 2	(x)|dx.
Чтобы произвести рандомизацию, рассмотрим случайную ве-
личину В, равномерно распределенную на ГО, 1 ] и имеющую
двоичную запись В = 0,ВгВ2 ..., в которой все двоичные еди-
ницы равны +1 или —1 (т. е. все символы 0 заменены на —1).
Отдельные реализации случайной величины В будут обозначаться
через Ь. Также потребуются последовательности действительных
чисел hj, Uj, 1, такие, что 6 jfy	1. О <	< 1. Найдем
теперь действительные числа Xj, 1, для которых множества
= [xj — 3hj/2, х} + 3hj/2] не пересекаются между собой и
содержатся в |х: g (х) = 1]. (Эго можно сделать, поскольку
б2Л/< 1.)
6. Доказательство теоремы 3
69
При фиксированном b £ [0, 1) определим плотность f (Ь, х)
из нашего семейства следующим образом:
(/ /х— х/ з
1 + bjUj{g	+ -j
— ё
X— Xj
hi
x €
и f (b, x) = g (x) при x, не принадлежащих никакому из мно-
жеств Aj. Легко проверить, что / > О, поскольку | Ь}и} | < 1
при любых / и g < 1. Кроме того, в силу определения g инте-
грал от f равен интегралу от g.
Ясно, что
sup Е (J\fn(x)-f(b, х) |) (J\fn(x)-f(b, x)|)d&2s
0<6<1	о
1 (	\
sfеи|^(*)-№ *)iН <б>
/ 0	\лу	/
где зависимость /п от выборки с плотностью f (Ь, •) и интегриро-
вание по dx не указываются. Рассмотрим теперь какое-либо из
слагаемых в (6) и фиксируем последовательность blt b2, ...,
bj_lt bj+1, . Пусть b+, Ь~ — числа, двоичной записью кото-
рых является данная последовательность с добавлением bj = +1
и Ь} — —1 соответственно 1). Тогда /-е слагаемое в (6), в котором
оставлено только усреднение в /-м двоичном знаке bj и усреднение
Е, равно 2)
4- (Е П I fn W - №, X) IА + Е ( JI fn (х) - f(b-, X) I
Обозначим у = (?г,.... zn) С Rn, и* = “+ (у) = j |/п (х; у) — f (b*, х) |,
= ( |/п(х; у)— f(b-, х)|,	/+ (у) = fl f (b+, и f~ (у) =
А}	|=1
г) Точнее д+ = 0,^ ... bj^ibj+i ... и Ь~ = 0,Ьг... bj^ — l^y+i •••
в двоичной записи. — Прим, перев.
2) Здесь учтено, что /-й двоичный знак Bj равномерно распределенной слу-
чайной величины В принимает значения +1 и —1 с равными вероятностями. —
Прим, перев.
70
Гл. 4. Нижние границы для скоростей сходимости
п.
= П/(й", Zi). Тогда последнее выражение ограничено снизу
1=1
величиной
4" (J «+ (.у) f+ (у) dy + j и~ (у) f- (у) dy)
> 4" Йы+ ’Ь min + г dy >
Jmin(f+’ /)>4'мехР("1^1о^('г))’ (7)
где и -- J | [ (Ь+, х) — f (b~, х) | не зависит от bit i f. Пос-
Ai
леднее неравенство в (7) доказано в теореме 8.2. Показатель сте-
пени в (7) равен n^f(b+, х) log (f (b~, x)/f (b+, x)). Кроме того,
так как
|<1+2)|°в(-ГТ7)-2г|<ТЧ7Г-
то, записывая / на Aj в виде g (1 + bjg J, получим
Р+ log (7+) = « JgO + gi) log (тТй) >
Учитывая, что и — 2 J | gr | 2ujhj, объединим все предыдущие
границы в одну и заметим, что (6) не меньше, чем
1	,	/ ^nu]hj \
j-2-иЛехр^----r=V/-	(8)
/
Положим Uj — и, hj = h,	N, так что 6hN = 1, u/h.s =
= а > 0. При таком выборе параметров можно вычислить Ds(f)
при каждом Ь. В частности, всегда
/| —й J Zi - f VTZi J /g.
f |Г> | = (1 + Wuh'-) J |g“ | - (I + f) j |g™ |
и, таким образом,
^(f)-^(g)(l+^)1/(2!+,),
7. Доказательство теоремы 4	-71
поскольку полагаем N -> оо, и 0. Минимум нижней грани-
цы (8), которую можно переписать в виде («/12) ехр (—4пы2 х
X (ula)ils/ (1 —и)), достигается приблизительно при и = ah?, Zi2s+’ =
= (s/(2s + 1))/4па2, и соответствующее значение этой нижней
границы равно
1	V/<2s+1)rtl/(2s+D	1 p-4~l/(2sd-l) -s/(2s+l)
12 \4»e(2s+l) ) a ^12e	"
Чтобы все плотности f (b, •) при достаточно больших п принад-
лежали Fs, г, должно выполняться неравенство (1 + a/3)1/<2s+* *> х
X Ds (g) < г. Поэтому выберем а = 3 ((r/Ds (g))2s+I — 1) (эта
величина, конечно, положительна при r>Ds(g)). Тогда в силу
неравенств 3’/(2s+')/12	2-4 и ((r/£>s(g))2s+* — l)l/<2s+l)^-7/D4(g) —
— 1 нижняя граница равна
Эта граница справедлива при всех г > Ds (g) и всех достаточно
больших п1).
7.	Доказательство теоремы 4
Пусть Jn — некоторая оценка плотности. Тогда оценка
fnW= Pg(x) + (l-p)g(x + 2),
где р = J In, лучше, чем Jn, поскольку
10. 1]
= J g|p-p|+ J g|(l - P)~ (1 -P)| =
[0, 1]	[0. 1]
Иными словами, при выводе нижних границ можно, не нарушая
общности, предполагать, что fn (*) = Pg W + (1 — Р) g (х + 2),
где р = р (Хь ..., Хп) — борелевская функция своих аргумен-
тов, принимающая значения из 10, 1 ]. Положим теперь N =
п
= 2j /(.V, g [0. !]] Тогда
£(J|fn-f|) = 2£(|p-p|)>2£(|£(p|M)-p|) =
	=2£(|ф(У)-р|),
*) Ясно, что существует функция g=go*gi, такая, что D$ (g)	г*, где
0 < г* < оо — некоторая постоянная. — Прим. ред.
72
Гл. 4. Нижние границы для скоростей сходимости
где ф — некоторая борелевская функция со значениями из [0, 1 ].
Здесь мы воспользовались условным вариантом неравенства
Йенсена и тем, что W — достаточная статистика для р.
Обозначим Ер математическое ожидание по распределению
вектора (Хъ Хп) в случае, когда параметр смеси для f равен
р. Пусть Np и Nq — случайные величины, имеющие биномиаль-
ные распределения с параметрами (п, р) и (n, q) соответственно,
где О < р q 1. Основным неравенством, на которое опи-
рается дальнейшее доказательство, является
-g- (^Р ( j 1/п - f l) -Ь £<?( J Ifn - f |)) > | p - q | p (Ng < np).
Это неравенство легко доказать следующим образом:
т(Мк«-fi)+^(Ji/n-/i))>
^E(№(Np)-p\)-\-E(\ty(Nq) — q\)^
/<пр
> E (IW-pl + IW -4\)P(Nq = j)^
i<np
^\p-q\P(Nq^np).
Часть (i) теоремы 4 получается непосредственно из нашего ос-
новного неравенства с помощью рандомизации. Пусть случайная
величина р распределена на [0, 1 ] с вероятностной мерой р.
Тогда
sup EP(J |/„ —л)> J£p(flA, -f \)?(dp).
Пусть половина массы меры р сосредоточена в точке а = 1/2
и половина — в точке b = 1/2 + с/'/'п, где с — некоторая по-
стоянная. В силу основного неравенства замечаем, что
sup Ер (J | fn — f |) yfn > cP (Nb < па) ~ сФ (— 2c),
где Ф — функция нормального распределения с параметрами
(О, 1). Последнее соотношение следует из центральной предель-
ной теоремы. Максимальное значение нижней границы сФ (—2с)
равно 0,0849856 ... ; оно достигается при 2с = 0,7517915241 ... .
Если требуется граница при каком-либо значении п, то можно
поступить различными способами; например, предположим, что
7. Доказательство теоремы 4
73
с = 19/100, п 4 (такой выбор нужен для дальнейшего). Заме-
тим, что п (1 — Ь) < [па] « nb. Slud (1977) показал, что
cP (Nb < па) == сФ (-1”а1 — я<>—
При четных п это выражение больше или равно
сФ (—(1/4) — с/2}/п) > сФ (—с/у^(1 — с)/4)—сФ (—2с/у^ 1 — с).
При нечетных п нижняя граница дается величиной сФ ((—2с —
— l/y^n)/}/1 — с) сФ ((—2с — \/2)!у^ 1 — с). Нижняя граница
при нечетных п меньше, чем при четных, и равна (19/100) х
х Ф (—44/45) (19/100) Ф (—1) = 0,030153 ... . Утверждение (i)
доказано.
Для доказательства утверждения (ii) обозначим Jn (р) =
= Ер (j| fn — f |) n и предположим, что р — случайная ве-
личина с равномерной вероятностной мерой р на [1/2 — е,
1/2 + е], где в > 0 — некоторое малое число. Кроме того, обоз-
начим q = eldп и выберем с так же, как в доказательстве утвер-
ждения (i), т. е. положим 2с = 0,7517915241 ... . Пусть а> 0 —
произвольная постоянная. По лемме Фату
sup lim sup	/limsup Jn(p)\^.
P П-+ОО	\	П-*0О	/
Ss E (lim sup min(Jn(p), a)) Sa
\ n-*oo
Sa lim sup E (min (Jn (p), a)) =
7l->oo
= lim sup (E (min (Jn (p), a)) + E (min (Jn (p © q), a)))/2ss
«->OO
Ss lim sup E (min ((Jn (p) + Jn (p Ф </))/2, a ))/2 Sa
«->OO
Sa lim sup E(min (cP (NP+q < np | p), a) /p+9Ci/2+e)/2,
rt-*-oo
где величина p © q по определению равна p + q, если эта сумма
меньше, чем 1/2 + е, и р + q + 2Ле при некоторых других це-
лых k, таких, что р + q + 2ke принадлежит отрезку [1/2 — е,
1/2 + е]. Символом Np+q обозначается случайная величина,
имеющая биномиальное распределение с параметрами (n, р + q).
Если положить а — с, то последний член рассматриваемой це-
почки неравенств равен
lim sup Е(cP (Np+q <пр\р)/р+?<1/2+е)/2.
П->оо
Теперь в силу центральной предельной теоремы cP (Np+q <
пр | р) сФ (—cf-y^р (1 — р)) при фиксированном р, таком,
74	Гл. 4. Нижние границы для скоростей сходимости
что р С 1/2 + е. Таким образом, теорема о мажорируемой сходи-
мости влечет за собой, что рассматриваемый верхний предел не
меньше, чем сЕ (Ф (—dYр (1 — р)))/2. Так как \р — 1/21< е
и е можно выбирать, то этот предел можно сделать сколь угодно
близким к сФ (—2с)/2 = 0,0424928 .... Теорема 4 доказана.
8.	Доказательства теорем 5—9
Доказательство теоремы 5. Снова будем действовать путем
рандомизации, используя равномерное распределение на множе-
стве всех возможных векторов b = (/>!.Ьг). Обозначим через
2 сумму по всем таким векторам, через bi+ и — г-векторы,
совпадающие с b во всех компонентах, кроме, быть может, i-й
компоненты, которая для bi+ всегда равна +1, а для bt_ всегда
равна —1. Обозначим через Хп вектор (Хр ..., Хп) £ Rn и
через хп — вектор (хъ ..., xn) С Rn- Наконец, все произведения
П будем брать по / = 1, ..., п, например П f (Ь, х;). Оценку
плотности /п (х), х Ё R> будет более удобно записывать в виде
fn (х, Хп), указывая явно зависимость от данных — выборки Хп,
состоящей из п независимых одинаково распределенных случайных
величин с плотностью / (Ь, х). Имеем
sup Е (J |/п ~f(b, -|)>
5* JJlfn(x> x„)-f(&, х)|</х-П/(Ь> Xj)dxn^
b-
x,)dxn =
b 1=1 A*
r
= 2"fSI	х)|^х.п/(^+, x7) +
Ь i=l
+ J|fn(x, xn)-f(bi_, x)|dx-*>)Vxn>
Ai	/
r
-£-min f (bt+, xf), [>!-. xj))^xn Ss
Ь	4 = 1
>^-inf J min (П / Xj), П f (6/_, x,))dxn.
8. Доказательства теорем 5—9
75
Далее, известно, что если fug — плотности, то
fg)21 2 (теорема 8.5) и j min (/, g) — 1 —
>• ( С/7 — Vя)2)'/2 (теорема 8.4). Но
min (A g} >
\f-g\P>
J	х}) Пx^dXn = nJ Vf(bi+, xj)f(bi_, x^dx^fF,
что доказывает первую часть теоремы 5.
Для доказательства второй части заметим, что а = 2 |* | g |
А
и у < [ g2. Это следует из того, что
А
1 —f W(^+.	х)= J (fo-Vfo+gVfo-g) =
A+Vi
= J (1 - /1 - g2) c J g2
A+y{	a
при любых b и i.
Замечание. Первая часть доказательства теоремы 5 в основных
чертах совпадает с цепочкой неравенств (6)—(7) в доказательстве
теоремы 3 (Bretagnolle, Huber (1979)).
Доказательство теоремы 6. Прежде всего выберем неотрица-
тельную функцию g0, содержащуюся в W (s, а, С) и такую, что
1 1
J I go | Y1C, J go С Y2C2, sup go < узС.
о	о
Затем так же, как в теореме 5, построим семейство функций сле-
дующим образом. Возьмем постоянную Оо> 1. Положим А —
= [0, 1/лог) и
go (2аогх)
(2a0r)s+“ ’
—go (2a0r (х — 1/(2а0г)))
(2a0r)s+“
2а0г	Uqt
Пусть yi = (1 — 1/а0)/2 + i/aor, i = 0, 1, ..., г— 1. Тогда
ил + yt = [(1 - 1/а0)/2, (1 + 1/Оо)/2], т. е. имеется разбиение
i
последнего интервала на г равных частей длины 1/аог каждая.
Функция А из теоремы 5 равна 1 на этом большом центральном ин-
тервале, а вне его ее следует аккуратно доопределить. В част-
76
Гл. 4. Нижние границы для скоростей сходимости
ности, нужно обеспечить выполнение следующих условий: fQ = О
вне [0, 1 ], J /о = 1,	> 0, /о° (0) = 0 при I = 0, 1, s — 1,
о
/о ((1 - 1/а0)/2) = 1 и ((1 - 1/а0)/2) = 0, i = 1. .... s - 1.
Кроме того, функция /0 должна принадлежать W (s, а, С) и
должна быть симметричным образом доопределена на ((1 4- 1/Оо)/2,
1 ]. Это всегда можно сделать, выбирая С просто выше некоторого
порога сг ($, а, а0). Далее будем полагать а0 = 2 (для этого нет
никаких особых оснований, кроме удобства), что позволяет ввести
условие С сх (s, а). Давайте быстро проверим, что семейство
из теоремы 5 действительно содержится в W (s, а, С). Прежде
всего
gp5) (2«огж)
(2аог)а ’
1
2а^г 9
gw W =
0 с х <
так что
I g(s) (*) - g(s) (у) I « (2аог)-“С (2аог)“ | х - у |а = С | х - у |“.
Кроме того,
СI в I = 2 f lg°l > 2у1С
J1SI	J (2aor)s+a+l " (2aor)s+a+1 ’
А	О
(’ вч _ о f_______§2______ < 2уаС2
J*	J (2a0r)2 <s+a)+1 " (2aor)2 <s+a)+1
А	0
sup I g | = sup -----1 goJ. „ < —.
/IS [0,1] (2a</)s+“ (2aor)s+a
Нижняя граница из теоремы 5 принимает теперь вид
г f I g |/2 >	= Т1С (2a0)-s-“-’ r4s+a)
А
при условии, что
п Ос	1
Jg (20or)2(s+a)+l	8
А
И
У^Р 1
(2aor)s+a ‘
Первое из этих дополнительных условий используется для опре-
деления г. Наилучший результат получается, если положить
Г = Г(2ао)“1(16?2пС2)1/<2 («+«)+!>!,
8. Доказательства теорем 5—9
77
где Г*] — ближайшее целое, большее или равное х. Тогда второе
условие становится нижней границей для п. Оно выполняется,
например, если
(16bnC*)(s+a),(2 (s+“)+l) узС,
что эквивалентно условию п Ccs. Подставляя а0 = 2 и получен-
ное значение г в нижнюю границу, получим асимптотический ре-
зультат, указанный в теореме 6. Используя тот факт, что Гу\
не больше, чем у + 1, получим нижнюю границу
__________TiC/4__________
((16y2rtc2)l/<2s+2a+1)+4)s+a ’
которая верна при всех п ’Сс2.
Остается указать исходную функцию g0. Мы умышленно рас-
смотрим не оптимальную, но удобную функцию g0, а именно
go(x) = Су0(х (I ~ x))s+a.
1 1
Без труда убеждаемся, что J |go I = Cyi, j go = С2у2 и sup g0 =
о	о
= Су3. Таким образом, теорема 6 будет доказана, если показать,
что g0 принадлежит классу W (s, a, С). Используя обозначение
1 при / = О,
U (и — 1) ... (и — /4-1)	. _ Л г,
—-----при />0, и ^R,
и теорему о биномиальном разложении, убеждаемся, что
/=0
оо
Функция g9 (х)/(Су0) имеет s-ю производную S (—1)' h} (х), где
/=о
Л;(х) =	“ j (s-j-a +/) ... (1 + a +/)х“+Л
Теперь при 0 < х у 1/2 имеем
\hi(x)-hj(y)\ =	(« + « + /) ••• О +« + /)Ixa+/-ya+/l
И
I _ ya+l I	XI ’ j
I (a + /) */“+'-* IУ - x I. /> 0-
78
Гл. 4. Нижние границы для скоростей сходимости
Объединяя все эти оценки в общую верхнюю границу, получим
|gos)(x)-£os4*/)|/Cvo<(s + a) .-.. (1 + а)| </— х|“
ОО
V* (s + a\
/=1
(OO	\
(s + a) ... (1 + a) + V <? + ”. ++ a>‘ ) <
2«т/ 1 j I	I
/=1 /
<|x/-x|“| (s + a) ... (I + a)4-
+ £ (s + «)•+' 21 -	<
/=1 /
< I у - x |a (s + а)5+'21_а exp exp (-^-) ) ,
где мы воспользовались неравенством (1 4- и) < е", и С R- Но
последнее выражение в цепочке неравенств равно | у — х |а/у0,
что и требовалось доказать.
Доказательство теоремы 7. В первой части, относящейся
к классу W (0, 1, С), будет показано, как можно оптимизировать
неравенство из теоремы 5 с целью получения хороших границ.
Поначалу будем следовать доказательству теоремы 6, используя
функцию g0 на [0, 1 ] вида
| Сх, 0 с х с 1/2,
£°W = ( С(1 _Х), 1/2<х<1.
1 1
Очевидно, J |^о I — C/4, (g$=C2/12 и supgb = C/2. Таким об-
о	о
разом, постоянные уь у2 и у3 из теоремы 6 формально можно
заменить на 1/4, 1/12 и 1/2. Определим функцию g через g0 так же, ,
как в теореме 6. Будем считать, что и величины а0 > 1, г 1
имеют такой же смысл, как в теореме 6. Тогда по теореме 5
sup E(J|/n-f|)>r j |g|(l - i/2njg2\ =
1,0 w	a \ V A )
= Vic / 1 _ _£_\
а» \ У уъ!2 /
8. Доказательства теорем 5—9
79
при достаточно больших С, где L = yf4уг(?п и у = 2а$г. Эта гра-
ница справедлива при у у3С. Если рассматривать данную ниж-
нюю границу как функцию только от у, то она достигает макси-
мума при у — (5L/2)2/3, принимая значение
1	^3/2 \2/з _ 3 / 12С \|/з
а0 • 5 \ 5L /	“ 20а0	25л /	*
Небольшое неудобство доставляет только множитель а0, который
необходимо выбрать так, чтобы решение г уравнения 2аог = у
было целым числом.
Пусть Ьо — некоторая другая постоянная, большая единицы,
и пусть г = [у/2Ь0~\. Тогда
ао = f//(2 Г^//2Ьо1) € [&0._ ^о/О — 2b0/y)] s [&о> ^о/(1 ио)]
при у 2bQ/u0. Наша нижняя граница теперь равна
3 1—и0/12С\1/з
20 Ьй \ 25л )
при условиях
(О У УзС (это эквивалентно тому, что п ЗС/50),
(ii) у > 2Ь0/и0.
Кроме того, построив С-липшицеву функцию f0 на [0, (1 —
— 1/а0)/2], получим, так же как в теоремах 5 и 6, нижнюю гра-
ницу для С. Рассмотрим функцию, состоящую из двух линейных
кусков с изломом в точке (1 — 1/а0)/4 (где значение этой функции
равно 3/2) и концами в точках 0 и (1 — 1/а0)/2 (где значения функ-
ции, очевидно, равны 0 и 1). Легко проверить, что
(1/2) (1-1/а.)
I /.=40-^г)
о
и что функция /0 является С-липшицевой при (1 — 1/а0) С/4
3/2, т. е. при С 6/(1 — 1/а0). Последнее условие всегда вы-
полнено, если
(iii) С > 6/(1 - 1/Ь0).
Положим &0 = 12/11, п0 = 1/22. Из условия (iii) следует, что
С 72. Условие (ii) влечет за собой, что п 12-483/(25СI 2).
Если С 72, то это неравенство выполнено при п 10. Подста-
новка значений и0 и 60 в нижнюю границу приводит к уменьшению
коэффициента 3/20 до 21/160. Этим завершается доказательство
первой части теоремы 7.
Прежде чем приступить к доказательству второй части, отме-
тим, что мы нашли компромисс между нижней границей, малой
в асимптотике, и нижней границей, пригодной при небольших
h
I
I	80	Гл. 4. Нижние границы для скоростей сходимости
значениях п. Заинтересованные читатели могут теперь без особого
дополнительного труда получить свои собственные границы для
интересующего их диапазона значений. Например, можно умень-
шить нижнюю границу для С за счет введения «уровня постоян-
ства» функции /0, значительно превосходящего 1. Это может ока-
заться полезным, хотя и потребует изменений во всех теоремах,
включая теорему 5. Для W (1, 1, С) можно решить задачу, по-
добную небольшой оптимизационной задаче, решенной при вы-
воде границы для W (0, 1, С), но мы поступим здесь иначе. Вме-
сто этого воспользуемся прямым методом, в котором значения
аог определяются из уравнения п jg2 = 1/8 и подставляются
в выражение г j | g|/2.
А
Для класса W (1, 1, С) начнем с определения функции g0 на
[0, 1J, имеющей вид
Сх2/2, 0	1/4,
g0 (х) = (С/8 - С(х - 1/2)2)/2, 1/4 < х с 3/4,
С(1—х)2/2, 3/4СХС1.
Ясно, что функция go0 является С-липщицевой и что g0 удовлет-
воряет всем требованиям, которые предъявлялись к ней в дока-
зательстве теоремы 6. Далее, j | gQ | = С/32, f go — 23С/(60-256),
sup g0 = С/16, так что в теореме 6 можно положить = 1/32,
у2 = 23/(256-60) и уз = 1/16.
Используя это, так же как в теореме 6, вычислим постоянные
с3 = (30/23)2/5/32, с2 = 15/368.
Таким образом, эта часть теоремы 7 следует непосредственно из
теоремы 6. Для удобства пользователя вычислим постоянную ct
в явном виде. Выше было принято «0 = 2. Необходимо соединить
точки (0, 0) и ((1 — 1/Оо)/2. 1) = (1/4, 1) с помощью функции /0
из IF (1, 1, С) со средним значением 1 на рассматриваемом интер-
вале. Утверждается, что это можно сделать при С 288. Сначала
определим на базовом отрезке длины 2а следующую функцию:
Сх2/2, 0 < х с а,
Са* — С(х — 2а)2/2, а < х С 2а.
Эта функция имеет С-липшицеву производную на отрезке (0, 2а 1
и нулевые производные на обоих его концах. Площадь под этой
функцией (интеграл от 0 до 2а) равна Со3, максимальное значение
функции достигается в точке 2а и равно Саг. Если взять такую же
функцию, но перевернутую, и с постоянной D вместо С, где D С,
и приклеить ее справа к первой функции, выбирая для нового
8. Доказательства теорем 5—9
81
куска определенную длину Ь, то получим искомую функцию /0
при условии, что разрешимы следующие уравнения:
(i) 2а + 2Ь = 1/4,
(ii) Са3 + Db3 + 2b = 2а + 2b (условие на среднее значение),
(iii) СаЕ 2 * * * 6 — Db2 = 1 (правильное значение на конце),
где D < С, а > О, б > 0. Решение а равно
Эта величина не превосходит 1/8 (и, таким образом, б > 0) при
С > 128. Наконец, D = 64-8а/(1 — 8а)2 < С тогда и только то-
гда, когда С 1£А	1 + <7/16, а последнее условие выполнено
при С 288. Теорема 7 доказана.
Доказательство теоремы 8. Из теоремы 5 следует, что уже для
подсемейства класса Qr(g) с фиксированным значением е имеется
нижняя граница (r/2) е| |g| при условии, что ne2 jg2 1/8.
Полагая теперь е= [ (8n g2)~l/2<C 1, получим первое неравенство.
Вторая граница следует из того, что при данном выборе g имеем
J | g | = g2 — 1 /г. Третья граница следует из второй при г — 8п.
Заметим, что первое неравенство также можно было получить,
используя более сильную половину теоремы 5 и проводя оптимиза-
цию так же, как в доказательстве теоремы 7.
Доказательство теоремы 9. Применим теорему 5 в общей фор-
мулировке. Семейство f (Ь, •) построим с помощью центральной
функции /0, такой, что /0 (х) = В (1 — 2/6), (г — 1)/гВ х
i/rB, i — 1, ..., г, и /0 (х) = 0 в остальной части отрезка [0, 1 ].
Здесь б = 1/2 (2г + 1). Площадь под этой функцией, т. е. ин-
теграл от нее в пределах от 0 до 1/В, равна
Е (В - 2*6) (г В)'1 = 1. - б (г 1)/В = 1 - (г + 1)/(2В (2r + 1)).
1=1
Возьмем теперь некоторое малое возмущение, такое, как функция
g0 (х), равная 6В на [0, 1/2гВ) и равная —6В на [1/2гВ, 1/гВ).
Интеграл от этой функции в пределах от 0 до 1/гВ равен 0. Так
как она меняется от 6В до —6В, то можно складывать ее кусочно
с /0, не нарушая монотонности; определим f (b, •), на [0, 1/В)
следующим образом:
fo(x)+g(x	на [-4^’ ~7в) ПРИ bt = l’
/о(0)	на	7^")	ПРИ fti = —1-
f(b, х) =
6 Деврой Л., Дьёрфи Л.
82
Гл. 4. Нижние границы для скоростей сходимости
Таким образом, при любом b функция f (6,.) монотонна на [О, 1/В)
и / (0) -С В. Теперь распределим остаток вероятностной массы
равномерно на [1/В, 1). Значение плотности на этом равномер-
ном участке равно
6(г+1)/а _ б('+ 1)
1 — 1/8	- В—1 •
На [0, 1/В) значения f (b, •) больше или равны В (1 — (2r + 1) X
X 6) = В/2. Чтобы имела место монотонность, должно выпол-
няться неравенство 26 (г + 1) < В (В — 1), или (г 4- 1)/(2г +
+. 1)	В (В — 1). Оно выполняется при любом целом г, если
В > 2. Теперь построение закончено. Требуется только вычис-
\!гВ
лить а и у из теоремы 5. В качестве а можно взять [ | g | =
о
= 6/г = 1/(2г (2г + 1)). Кроме того, можно положить у —
= 62/(2г (1 — 2г6)), что явствует из следующего неравенства,
справедливого при любых i и Ь:
i/rB
1 - J /f(bu,	= J (f0 - /fo(fo+g)) <
(i-l)/rB
В (1-2x6) ( _ -j/	6B	_ 1/. 6B \
2rB \ V * '8(1—2<6)	V 1 B(l—2x6)/^
1—2x6/ 6B \2
2г \ В (1—2x6)/ —
(в силу неравенства /1 -|-и -[-/1 - и^2 -u!, | и | < 1)
_ б2	62
— 2г (1—2x6) 2г (1— 2гб) •
Нижняя граница равна
_^_(1 _ ?)2п = _L (j__________________V" >
4	4	2г(1 — г/(2г+1)) /
Если г = Г(п/4)1/3 1, то ясно, что г/62 = 4r (2r + I)2	16 X
X ((л/4)*/3)3 = 4п, так что нижняя граница не меньше, чем
J_ =_______!_______>___________!________
8	16 (2г + 1)	16 (2 (л/4)1/3 + 3) ’
и теорема 9 доказана.
ЛИТЕРАТУРА
Assouad Р.
(1983) Deux remarques fcur Testimation, Comptes Rendus de FAcademie des Sciences
de Paris, 296, pp. 1021—1024.
Birge L.
(1980) These, 3е partie, Universite de Paris VII, Paris, France, 1980.
(1983) Approximation dans les espaces metriques et theorie de 1'estimation, Zeit-
Литература
83
schrift fur Wahrscheinlichkeitsteorie und verwandte Gebiete, 65, pp. 181—237.
(1986) On estimating a density using Hellinger distance and some other strange
facts, Probability Theory and Related Fields, 71, pp. 271—291.
Boyd D. W., Steele J. M.
(1978)	Lower bounds for nonparametric density estimation rates, Annals of Sta-
tistics, 6, pp. 932—934.
Bretagnolle J., Huber C.
(1979)	Estimation des dens^s: risque minimax, Zeitschrift fur Wahrscheinlich-
keitstheorie und verwandte Gebiete, 47, pp. 119—137.
Deheuvels P.
(1977a) Estimation non parametrique de la dens^ par histogrammes gёnёralisёs,
Revue de Statistique Арр^иёе, 25, pp. 5—42.
(1977b) Estimation non parantetrique de la dens№ par histogrammes gёnёralisёs,
Publications de 1'Institut de Statistique de I'Univers^ de Paris, 22, pp. 1—23.
Devroye L.
(1983)	On arbitrarily slow rates of global convergence in density estimation, Zeit-
schrift fur Wahrscheinlichkeitstheorie und verwandte Gebiete, 62, pp. 475—483.
Farrel R. H.
(1967)	On the lack of a uniformly consistent sequence of estimators of a density
function in certain cases, Annals of Mathematical Statistics, 38, pp. 471—474.
(1972) On the best obtainable asymptotic rates of convergence in estimation of a
density function at a point, Annals of Mathematical Statistics, 43, pp. 170—180.
Kiefer J.
(1982)	Optimum rates for поп-parametric density and regression estimates, under
order restrictions, in Statistics and Probability: Essays in Honor of C. R. Rao,
G. Kallianpur, P. R. Krishnaiah, and J. K. Ghosh Eds., North-Holland, Amster-
dam, pp. 419—428.
Rosenblatt M.
(1971)	Curve estimates, Annals of Mathematical Statistics, 42, pp. 1815—1842.
Slud E. V.
(1977)	Distribution inequalities for the binomial law, Annals of Probability, 5,
pp. 404—412.
Stone C. J.
(1980)	Optimal rates of convergence for nonparametric estimators, Annals of Sta-
tistics, 8, pp. 1348—1360.
(1983)	Optimal uniform rate of convergence for nonparametric estimators of a den-
sity function or its derivatives, Department of Statistics, University of California,
Berkeley, preprint.
Wahba G.
(1975)	Optimal convergence properties of variable knot, kernel and orthogonal
series methods for density estimation, Annals of Statistics, 3, pp. 15—29.
Ибрагимов И. А., Хасьминский P. 3.
(1979) Асимптотическая теория оценивания. — М.: Наука.
Колмогоров А. Н., Тихомиров В. Н.
(1959) е-энтропия и е-емкость множеств в функциональных пространствах//
Успехи матем. наук. — Т. 14. — 2. — С. 3 — 86.
Мания Г. М.
(1969) Квадратическая погрешность оценки плотности многомерного нормаль-
ного распределения поданным выборки//Теория вероятн. и ее примен. — Т. 14.—
1, С. 151—155.
Надарая Э. А.
(1974) Об интегральной среднеквадратичной ошибке некоторых непараметриче-
ских оценок плотности вероятностей//Теория вероятн. и ее примен. — Т. 19. —
1. — С. 131 — 140.
Самаров А. М.
(1976)	О минимаксной границе риска неи ч'а метрических оценок плотности//
Проблемы передачи информации. — Т. 12	3.—С. 108—111.
6*
84
Гл. 4. Нижние границы для скоростей сходимости
КОММЕНТАРИЙ ПЕРЕВОДЧИКА
Первые из известных нижних границ для минимаксных рисков оценок плот-
ности принадлежат Ченцову (1972*) и Farrell (1972). Нижние границы Ченцова
построены для £2-рисков оценок плотностей на абстрактных пространствах и
выражены через поперечники классов плотностей. Ченцов (1972*) также пока-
зал, что эти нижние границы достигаются по порядку величины на проекцион-
ных оценках. Нижние границы Farrell (1972) относятся к поточечным рискам
оценок. Правильные по порядку величины нижние границы в метрике Loo для
классов Гёльдера найдены Хасьминским (1978*), а в метриках Lp, 1 р < оо,
для классов FSi г — Bretagnolle, Huber (1979). Наиболее общим является по-
следующий результат Ибрагимова, Хасьминского (1980*), которые получили
нижние и верхние границы для рисков оценок плотности на Rd, d 1, в метри-
ках Lp> 1 р оо, для широкого класса функций потерь. Границы Ибраги-
мова, Хасьминского (1980*) охватывают классы Гёльдера, а *гакже классы ана-
литических плотностей. Нижние и верхние границы для поточечных рисков оце-
нок плотностей и производных плотностей на Rd получены в работе Stone (1980).
Невозможность построения оценок, равномерно состоятельных в на
классах гладких плотностей (теорема 1 (i)), была впервые замечена Ибрагимовым,
Хасьминским (1980*). Они показали, что теорема 1 (i) имеет место для класса
всех плотностей f на Rd, удовлетворяющих условию Гёльдера
j | f (х + й) - f (х) | dx L I h |₽. h£Rd,
Rd
с заданными L > 0, 0 < fl 1.
Первое утверждение теоремы 5 (названное в тексте леммой Ассуа) следует
из Bretagnolle, Huber (1979, с. 122). Лемма Ассуа (Assouad (1983)) — более
общий результат, позволяющий рассматривать также другие метрики и функции
потерь. С ее помощью, однако, не удается получить правильные по порядку
величины нижние границы в метрике Loo. Единственным способом получения
таких границ пока остается метод Ибрагимова, Хасьминского (1979), основанный
на неравенстве Фано (1965*, с. 220).
Можно выделить три общих приема получения непараметрических нижних
границ: 1) лемма Ассуа, т. е. сведение к большому числу задач различения двух
гипотез (Bretagnolle, Huber (1979), Assouad (1983)), 2) переход к некоторому
«плохому» параметрическому подсемейству класса ЯГ и применение известных
информационных нижних границ для этого подсемейства (Ченцов (1972*), Ибра-
гимов, Хасьминский (1979, с. 319)), 3) сведение к задаче различения большого
числа гипотез с применением неравенства Фано (Хасьминский (1978*), Ибраги-
мов, Хасьминский (1979, гл. VII)). Последний подход, по-видимому, имеет более
широкую область действия, хотя иногда дает более грубые границы.
ЛИТЕРАТУРА, ДОБАВЛЕННАЯ ПРИ ПЕРЕВОДЕ
Ибрагимов И. А., Хасьминский Р. 3.
(1980*) Об оценке плотности распределения//Исследования по матем. стати-
стике IV. Записки научн. семинаров ЛОМИ. — Т. 98. — Л.: Наука. — С. 61—85.
Фано Р.
(1965*) Передача информации. Статистическая теория связи. —М.: Мир.
Хасьминский Р. 3.
(1978*) О границе снизу рисков непараметрических оценок плотности в равно-
мерной метрике//Теория вероятн. и ее примен. — Т. 23. — 4. — С. 824—828.
Ченцов Н. Н.
(1972*) Статистические решающие правила и оптимальные выводы.—М.:
Наука.
Глава 5
Скорости сходимости в Li
1. Введение
Следует ожидать, что при конечном наборе данных любая
заданная оценка плотности имеет ограниченные возможности
даже для самых хороших плотностей f. Эта ограниченность воз-
можностей оценок в определенной степени обнаруживается в ниж-
них границах из гл. 4. В данной главе мы хотим получить очень
точную информацию относительно Е (Jn) для конкретных оценок
плотности, таких, как ядерная и гистограммная оценки. Нас
будут в особенности интересовать асимптотические выражения
для ошибки Е (Jn) этих оценок при d = 1.
Рассматриваемая здесь ядерная оценка имеет вид
п
1=1
(1)
(Parzen (1962), Rosenblatt (1956)), где h = hn — заданная после-
довательность положительных чисел и К — заданная плотность
(ядро), удовлетворяющая условию
К (х) = К (—х) при любых х, функция К ограниченна и (2)
имеет компактный носитель.
Кроме того, ввиду теоремы 3.1 не будут рассматриваться после-
довательности h, для которых не выполнены условия
lim/i = 0, limn/i = oo.	(3)
П-+ОО	n-^oo
В данной главе будут исследованы скорости сходимости ве-
личины Е (Jn) при фиксированной плотности f1). Будет пока-
зано, что значения этих скоростей тесно связаны с величинами
А(К) = (J
и

*) В оригинале individual rates of convergence. — Прим, перев.
86
Гл. 5. Скорости сходимости в Lt
Для упрощения записи будем обозначать величины У j № и
j х2К символами аир соответственно. Таким образом, А (К) =
= (а4Р)1''5. Величина В (/) будет рассматриваться для любых
плотностей f, принадлежащих классу функций, таких, что
(i) / абсолютно непрерывна и имеет п. в. производную
(ii) /' абсолютно непрерывна и имеет п. в. производную
(iii) /" непрерывна и ограниченна.
Но так как желательно еще иметь информацию о плотностях /,
не принадлежащих^",то определение В (f) надо обобщить. Опре-
делим для любых f величину
где * —’оператор свертки, ф— плотность с компактным носи-
телем, имеющая четыре непрерывные ограниченные производ-
ные, ф £ iF, ф" С и Ф/1 (•*)= (1/Л) ф (x/h). В лемме 5 будет
доказано, что величина В* (/) не зависит от выбора ф и что для
любых f из класса рассмотренные два определения совпадают,
т. е. В* (Д = В (f).
Наконец, для описания точного асимптотического поведения
величины Е (Jn) требуется ввести функцию
(и	\
и J е“*2/2 dx Ц- е~и*!21, и 0.
о	/
По-видимому, полезно получить представление о том, как ведет
себя функция ф. В силу формулы Миллза
< (1/и)г-«2/2
и
имеем ф(ы)^и. Заметим также, что ф (и) > У2/л. Таким об-
разом,	____ __________________
max (и, У2/л ) с ф (и) < и ф- У2/л ,
и
ф' (и) = 2/л [ e-*1/2 dx 0 (т. е. ф монотонно не убывает),
6
ф" (и)	0	(т. е. ф выпукла),
lim ф(ы) = У2/л .
и to
1. Введение
87
Теорема 1. Для любых плотностей f из класса , имеющих
компактный носитель, ошибка ядерной оценки, определенной
в (1)—(3), удовлетворяет соотношению
Е (Jn) = J (п, Л) + о (h2 * * + (пй)->/2),
где
J (п, ft) — f ф (/пй”5 * * В Р1 И.
4	' J КлА \ 2а К/ /
Кроме того,
Если f имеет компактный носитель, то*
E(jn) < /+ 4Л2 S“P J№ * Ф«)"1 +o((nft)-1/2),
где функция <р — такая же, как в определении величины В* (f).
В частности,
lim sup inf п2'5Е (Jn) < С* А (К) В* (/),
п-*оо Л>0
где
С* = 5(8л)-2/5 = 1,3768102 ....
В случае когда плотность f имеет компактный носитель и В* (/) <
< оо , данная верхняя граница не превышается при следующем
выборе параметра ft:
2ft sup [ I if * Фа)" I
fl>0 J
В верхней границе для J (п, Л) мы обнаруживаем составля-
ющую, которая соответствует смещению (второе слагаемое), и
дисперсионную составляющую (первое слагаемое). Утверждение
теоремы 1 состоит в том, что для плотностей с конечным значе-
нием В* (/) величина Е (Jn) убывает со скоростью п~2/5, если Л
выбрано пропорциональным п~1/5. Отметим, что при слабо отли-
чающихся условиях регулярности (задающих класс, не вложен-
ный в#") Розенблат (Rosenblatt (1979)) получил сходную верхнюю
границу с несколько большей постоянной 5/29/5 = 1,435872 ... .
В его доказательстве используется (хотя и без явной формули-
ровки) неоптимальное неравенство ф (и) < 1 + и.
Доказательство теоремы 1 и различных ее следствий будет
отложено и проведено в других параграфах, с тем чтобы здесь
можно было продолжить изложение основных результатов. В до-
88
Гл. 5. Скорости сходимости в Lx
полнение к верхней границе теоремы 1 предлагается следующая
нижняя граница.
Теорема 2. Для любых плотностей f ядерная оценка, опре-
деленная в (1) и (2), удовлетворяет соотношению
lim inf inf п^Е	С А (К) В* (/) CCL А (К) ССГС2 = С3,
/г->оо h
где
С = inf— 1,028493 ...
— универсальная постоянная,
Сх = inf В* (/) =	= 1,4459624 ...
« .
С2= inf А (К) =	1/5 = 0,59083538 ... .
четные	\ 1ZO /
плотности
К
В теореме 2 дается, таким образом, универсальная нижняя
граница, которую ввиду теоремы 1 нельзя очень сильно улуч-
шить: действительно, постоянная С* в верхней границе примерно
лишь на 35 % превосходит постоянную С в нижней границе.
Нижняя граница теоремы 2 в определенном смысле более инфор-
мативна, чем границы из гл. 4, — она относится ко всем плот-
ностям, а не только к «худшим» плотностям из некоторых клас-
сов. Еще более важно, что эта нижняя граница помогает принять
решение о том, достаточен ли имеющийся объем выборки п для
достижения требуемой точности в Lr.
Данная нижняя граница остается в силе, если h — случайная
величина, не зависящая от ..., Хп, Это может быть полезно
в случае, когда h оценивается адаптивно по независимой выборке,
объем которой обычно много меньше п.
Существование универсальной нижней границы С3/п2/5 яв-
ляется следствием замечания об универсальной ограниченности
снизу величины В* (/) постоянной Доказательство этого
утверждения содержится в теореме 3. Следует упомянуть, что
точная нижняя грань всех величин В* (/) достигается на равно-
бедренной треугольной плотности. Следовательно, с помощью
ядерной оценки легче всего оценивать равнобедренную треуголь-
ную плотность. На этом замечании основано исследование пре-
образованной ядерной оценки в гл. 9. Заинтересовавшийся чи-
татель мог бы сейчас непосредственно перейти к гл. 9, не потеряв
нити изложения.
2. Коэффициент В* (/)
89
Минимальное значение постоянной А (К) равно С2, и оно до-
стигается на ядре Епанечникова
К (х) = 3 (1 — х2)/4,	| х К 1
(см. Bartlett (1963), Епанечников (1969), а также Tapia, Thomp-
son(1978)).Краткое доказательство этого факта приведено в лемме
18. Строго говоря, эту функцию следовало бы называть не ядром
Епанечникова, как это делается обычно в литературе, а ядром
Бартлетта. Известно, что значения А (К) для наиболее есте-
ственных четных плотностей К очень близки к минимальному
значению С2 (см. Rosenblatt (1971) или Deheuvels (1977)).
В связи с важностью коэффициента В* (/) его изучению будет
посвящен целый параграф. Еще в одном параграфе будут при-
ведены основные леммы и доказательства. Затем' аналогичным
образом будет исследована гистограммная оценка, скорость схо-
димости которой, как мы увидим, равна п_|/3, а не гт2'5.
В § 9 рассмотрены равномерные верхние границы для средней
ошибки в £1( т. е. границы, которые можно применять при любом
значении п. Верхние границы для Е (Jn) такого же типа, как
в теореме 1, даны в § 10 применительно к плотностям f с не-
компактным носителем. Наконец, в § 11 показано, что для не-
которых гладких, но, как правило, имеющих длинные хвосты
плотностей и специальным образом построенной ядерной оценки
достигается неравенство Е (Jn) -^с/уЛп. За это заплачено доро-
гой ценой: оценка несостоятельна для подавляющего большин-
ства плотностей, в том числе для плотностей с компактным носи-
телем.
2. Коэффициент B*(f)
Из теорем 1 и 2 следует вывод, что коэффициент В* (/) яв-
ляется мерой сложности оценивания f с помощью обычной ядер-
ной оценки плотности. В этом параграфе будут установлены раз-
личные свойства величины В* (/) и ее составляющих. Грубо го-
воря, имеется составляющая j y/~f величины В* (/), которая слу-
жит мерой того, насколько тяжелы хвосты плотности f, и состав-
ляющая sup I (/ * ф/,)" | — мера того, насколько сильно плот-
h>0 J
ность f осциллирует. Рассмотрим эти составляющие раздельно,
начав с J yff.
Требуется пояснить утверждение о том, что из малости инте-
грала j следует малость хвостов плотности /, и обратно. Для
этого приведем сначала одно обобщение неравенства Карлсона
90
Гл. 5. Скорости сходимости в Lj
(Carlson (1934)) (см. Beckenbach, Bellman (1965, с. 242 по рус-
скому изданию)).
Лемма 1. Для любой случайной величины X с плотностью f
на R имеем (
(О J/7 </2S(Var(%))'/<.
(‘О J //< inf Ce(£(|X -a|' H9)i/2(i+e>,
а€ R
где e > 0 — произвольная постоянная и Cz = (8л sin-1 (л/(1 +
+ е)) е-е/(|+Е,)|/2 — величина, зависящая только от е.
Доказательство. Неравенство Карлсона для неотрицательных
функций g на [0, оо) имеет вид
оо	/со \1/4 /оо	\ 1/4
fg < /л J g2 J x2g2 .
б	\0 / \0	J
ОО	ОО	I оо
Положим теперь g = у4/, и пусть р = J f, а = J x2/ / J x2f.
0	0	/ —оо
Ясно, что тогда
f 17 <	(J ^)'/4 (Р|/4«1/4 + (1 - Р)1/4 (1 - а)|/4).
При фиксированном а £ (0, 1) последний множитель достигает
максимума, если р — Ь/(1 + Ь), где Ь — (а/(1 — а))1/3, причем
его максимальное значение (а1/3 + (1 — а)'/3)3/4, соответствующее
этому р, в свою очередь никогда не превосходит Таким обра-
зом, имеем
J тЛ/(№))1/4.
Но так как всегда можно сдвинуть X на некоторую постоянную,
скажем Е (X), то отсюда непосредственно следует (i).
Второе неравенство будет получено независимым образом.
При 8 = 1 его правая часть лишь вдвое больше, чем в неравен-
стве (i). Если Ь, с > 0 — постоянные, то всегда
Jv7<4<1 + blx|1+£)Z+ I /7<
с (1+6 |х р+е)
<C + teE(lXl1+,) + 2J + +t’lx+<°
- с + ЬеЕ (IX !+.) + X.	.
2. Коэффициент В* (/)
91
Если А, В — неотрицательные постоянные, то при с = В/А
функция сА + В/с достигает минимального значения, равного
2 у7"АВ. Отсюда следует, что интеграл J у^/ 'Огр’айичен величиной
2((1 +ЬЕ(|Х|1+е)р-1/(Н-е) 2^---. . !	У72.
" 1 mi//	1+е sin i«/(l + е)) /
Нетрудно проверить, что при b — (е,Е (| X |,+Е))*1 эта величина
достигает как функция от b своего минимального значения, рав-
ного верхней границе в (ii), где а = 0. Нижняя грань по всем
а £ R добавлена в силу того, что всегда можно сдвинуть X на
произвольную величину. Лемма 1 доказана.
Заметим, что доказанное очень близко к утверждению о том,
что из неравенства Е (| X |) < оо вытекает конечность интеграла
j 77 В силу следующего примера легко видеть, что это утверж-
дение верно не всегда. Пусть f монотонно не возрастает на [0, оо),
так что f (х) ~ (х log х)-2 при х -► оо. Ясно, что j 77 = оо, но
Е (|Х |)< оо.
С другой стороны, возможно, что Е (| X |) = оо и j < оо.
Пусть, например, f — индикаторная функция множества А. Ясно,
что Jy7 = 1. Но если выбрать А = |J [xit xt + 2-‘], где
У, хг2-‘ = оо, то Е (| X |) = оо. Таким образом, маленькие хвосты
обеспечивают малость величины j 77» тогда как обратное верно
разве что при особых условиях. Например, имеются обратные
неравенства, такие, как
Е (I X |) < sup (| х | 77) j /7.
Для плотностей с правильно меняющимися хвостами порядка г,
т. е. таких, что lim f (tx)/f (х) = t' при любых t > 0 и аналогии-
Х-*оо
ное соотношение имеет место в пределе при х ->—оо, значе-
ния j i/"f конечны при г < —2. В частности, [	< во для
всех плотностей с экспоненциально убывающим хвостом или
хвостами, но j 77 = оо для плотности распределения Коши.
Если г > —2, то j 77 = оо.
Рассмотрим теперь осцилляционный коэффициент1). Дока-
х) Этими словами здесь и далее называется величина sup | (f * <рд) Г. —
h >0 J
Прим, персе.
92
Гл. 5. Скорости сходимости в Lv
жем сначала, что при f £ он представляет собой не что иное,
Лемма 2. В* (/) = В (/) при любых f £ ST.
Доказательство, Вспоминая теорему 2.1, получйм
lim J |(f * <ph)" - f" I = lim J If * <₽h - f" | = 0
HO J	h |0 J
в случае, когда | f" | < оо. Для таких f имеем lim I (/ * ф^)" I =
J	но J
= j | f" |. Если J | f" | = оо, то, прибегая к помощи леммы Фату,
получим
lim inf J |(/ * <pft)"|ss J lim inf |f" * <ph| = I 1Г I
MO J	J hiO	J
в силу непрерывности f". Таким образом, В* (f) В (/) для
любых / из класса
Более того,
Jia •<pftri =
так что В* (/) < В (/). Лемма доказана.
Проведем теперь подготовку к доказательству того, что ве-
личина В* (/) не зависит от выбора <р. Наши усилия не пропадут
даром, поскольку некоторые из лемм, доказываемых в ходе этой
подготовки, окажутся весьма полезными в дальнейшем. Леммы 3
и 4 частично пересекаются с леммой 22, но пока они достаточны
для наших целей.
Лемма 3. Для любой плотности К, удовлетворяющей усло-
вию (2), и любой плотности f £ имеем
f * Kh-t = №Rh* г,
где К — некоторая неотрицательная симметричная функция
с компактным носителем, интеграл от которой равен Р/2, т. е.
j/<=4x2K=4-
Доказательство. Рассмотрим следующее разложение в ряд
Тейлора в окрестности фиксированной точки х:
и
Ну) = f (*) + (У - х)Г (х) + J (у - z)/''(z)dz.
2. Коэффициент В* (f)
93
В силу симметричности имеем
=	) J (У - 2) /" СО *у =
х g -- (\) а
= J 4 К j Уу^^ЛУ - z)f(z)dz +
{y-z)')f"(z)dz]dy =
= j -у (*</) I у>х!хг^г^у 4" Iу<х^х>2>у] X
х \y — z\f"(z)dzdy =
=‘‘11444"*
где
'!-т«(т2-) =
~ J К	x^z^y “Н y^xlx>z>y\ I у — 2 I dУ —
~ J К (Ц) [Ix—hu^xlx^z^x—hu “h Ix—hu^xlx>z>x—hul | X hu Z | dll =
=ft2 |K(u)[ZM<o/o^-x)/A<-w ~F Zw>qZo>(z—x)//i>—«]|^ H I du}•
Легко проверить, что если функция К ограниченна, симметрична
и имеет компактный носитель, то такими же свойствами обладает
и К. Кроме того,
J К = J К (ц)	и “Н ^«>oZо>—х>—и] | и я* | du dx =
(О	и	\
Z«<o j | и — х | dx - J- Zu>o j | и — х | dx j du ==
и	О	Z
=-1-= ₽/2’
что и требовалось доказать.
Лемма 4. Пусть плотность К удовлетворяет условию (2),
и пусть <р С — четырежды непрерывно дифференцируемая плот-
ность с компактным носителем, такая, что ср" £ 3^. Тогда спра-
ведливы следующие неравенства:
(О J\f*Kh-f|</i2(P/2)J | f" | при любых f и любых Л>0;
94
Гл. 5. Скорости сходимости в Lt
00 [ \f * Kh — f | <Л2(Р/2) lim inf [ |(f*<jpa)" I при любых f
J	a|0 J
Ч1 .	и любых ft^sO;
(iii)	J If	[(₽/2) J |	| - J |(f *фа)"" l]
при любых f и любых h, a > 0. (Здесь fJj — неотрицательная
постоянная, зависящая только от К.)
Доказательство. В силу леммы 3 интеграл в (i) равен
A2ji^*f"i</i2j ^fif"i=A24jiri-
где мы воспользовались теоремой 2.1. Это показывает, что выпол-
нено 0)-
Неравенство (ii) следует непосредственно из (i) и теоремы 2.1.
В самом деле, заметим, что
Jlf*Kh-fl<flf*^-f*<Pa*7<| + ||/-/*фа1 +
+ j	-f*4>a|< 2 j If-/*фа|+Л2-|- j|(f*<po)"|,
и устремим а к 0.
Для доказательства неравенства (iii) рассмотрим сначала че-
тырежды непрерывно дифференцируемые плотностиf из класса#",
такие, что f" £ #" и j (f" | < оо. В силу леммы 3
If *Kh - f | = |ft2 (f Kh(x - z)f(x) dz -
- j^h(x^z)(f"(x)-f"(z))dz)l^
• Л2 (4 I f" (*) I - | j	(x - г) (f" (x) - f" (г)) dz j) .
К последнему слагаемому снова применима лемма 3 при замене f
и К на и К. Таким образом, существует неотрицательная по-
стоянная Рх, зависящая только от такая, что
jif*^-/i^/i2 (4 Jin - л2₽1 j if""i).
В случае произвольной плотности f применим только что полу-
ченное неравенство к функции f * q>a при любом a > 0 и, объеди-
няя его с соотношением
J\f*Kh - f|^ J |(Мфа)*/<Л - f*q>al,
получим (iii).
2. Коэффициент В* (f)
95
Основной результат, относящийся к осцилляционному коэф-
фициенту, заключен в следующей лемме.
Лемма 5. Пусть f — произвольная плотность, К. — плот-
ность, удовлетворяющая условию (2), и ,<р —^четырежды непре-
рывно дифференцируемая плотность с компактным носителем,
такая, что <р" £	. Тогда следующие величины равны друг другу
и не зависят от К и <р:
I /I	,	,
lim J Ж------------- = lim inf J I (/* I = SUP J I (f * Фа)" I-
HO " P/z	a JO J	a>Q J
Доказательство. В силу леммы 4 (ii) первая величина не
превосходит
lim inf (| (/*<Ра)" I-
a|0 J
В силу леммы 4 (iii) она больше или равна, чем sup | (/ * фа)" I-
а>0 J
Следовательно, нижний предел совпадает с верхней гранью, что
влечет за собой равенство трех величин из леммы 5.
Таким образом, установлена прочная связь между смещением
ядерной оценки и осцилляционным коэффициентом. Покажем
теперь, что величина В* (/) ограничена снизу универсальной
постоянной. Мы будем продвигаться вперед очень медленно, чтобы
читатель смог понять существо рассуждений, используемых при
выводе таких нижних границ. Сначала покажем, что В* (/)	1
при любых f из класса ^". Затем покажем, что эта нижняя гра-
ница верна при любых f и, наконец, что ее можно улучшить до
(29/81)|/5, причем последнее значение достигается на равнобедрен-
ной треугольной плотности.
Лемма 6. В* (/) > 1 для любых f из класса .
Доказательство. Можно считать, что j | f" | < оо. Так как
функция f абсолютно непрерывна, то
у
Г(у)-Г{х)=\Г'{г)<12
X
при любых х < у. Так как функция /" ограниченна, то f' удов-
летворяет условию Липшица. Кроме того, f (х) стремится к О
при | х | -у- оо в силу того, что функция /" абсолютно интегрируема.
96	Гл. 5. Скорости сходимости в Lr
Таким образом, обозначая символами ( )+ и ( )_ положитель-
ную и отрицательную части функции, получим
ОО	00
J (Г (!/))- йУ < Г (*)< j(f"(y))+dy
—оо	—оо
при любых X и
оо	оо
J (Г(уМ+ J (Г(у)Му = о,
—оо	—оо
так что
оо
sup| f (х)I <4- J |/"(У)ИУ-
—оо
Но, кроме того, имеем 1 = | f sup f j j/f- Соединяя эти
неравенства, получим В (/)5 > sup | f (x)|/sup f2 (x). В силу гео-
метрических соображений ясно, что
1 = J f(x)dx> J (supf(x) — IУI sup | Г (x)\)+dy = s^YMx)T‘
Лемма 6 доказана.
Лемма 7. В* (f)	1 при любых f.
Доказательство. В этом доказательстве используются следу-
ющие утверждения.
А- J // = j * tpa (где <р и а такие, как в определении
величины В* (/)).
В.	j // * <po-SUp(y7 * Фа)> J(/f * Фа)2-
С.	lim inf I (]/ f * <ра)2	[ lim inf (y7 * <ра)2 (по лемме Фату)
a|0 J	J a|0
= J (> /)2 = (так как Т/7*Фа~>’/7 при почти всех х; см.
теорему 2.3)
D.	f * Фа €
Е.	sup | (/ * <ра)'| < I К/ * Фа)" 1/2 (см. доказательство леммы
6).
F.	1 sup (/ * <po)2/sup | (f ♦ фа)' | (см. доказательство леммы 6).
G.	(// ♦ Фа)2 </*Фа (по неравенству Йенсена).
2. Коэффициент В* (f)
97
Таким образом, при фиксированном а имеем
в* (/)5 - (J 69 * Фа)2)4 -	% - (в силу А, В, Е, F)
J	7 sup (J/ f * фаГ
2* (J 69 * ФаГ)4 (В СИЛУ G).
Перейдем к нижнему пределу при а | 0 и применим утвержде-
ние С.
Теорема 3. В* (/)	(29/81)|/5 при любых f. Эта нижняя гра-
ница достигается на равнобедренной треугольной плотности.
Доказательство. Предположим сначала, что f £ и j | f" | <
< оо. Пусть функции К и ф те же, что в (2) и в определении В* (/).
Имеем f (х) -> 0 при | х | ->оо. Таким образом, используя пред-
ставление /" —	+ f_ функции /" в виде суммы ее положитель-
ной и отрицательной частей, получим
j If I = 2 р; = - 2 f f >2(supГ - inf Г).
Следовательно, (В* (f))5 > (J у9)4 (sup f — inf /')• Введем класс
состоящий из всех плотностей, таких, что
— D (у - х) с f (у) - f (х) < С (у - х),
при любых х < у, класс 9 включает Здесь С и D — положи-
тельные постоянные. Среди таких плотностей минимум вели-
чины j У7 достигается на треугольной плотности с высотой b
и основанием, которое разбивается модой на отрезки длины с
и d, где b/с = С, b/d = D и be 4- bd = 2. Таким образом, с2 =
= 2/(С 4- CP/D), d2 = 2/(D + D2IC). Для плотностей f из класса 9
имеем sup f* 9 С и inf f —D. Следовательно, (В* (/))8
inf inf (С + D) (I Уg)4. Так как величина (С 4- D) (f p/g’)4
C.Dg^W	-	\J 1
инвариантна относительно масштаба, то можно положить С = 1.
Для упомянутой выше треугольной плотности имеем
(j /i)4 (1 + D) (2/3)*	+ /D rf3/2)4 (1 + D) =
= (2/3)* 8(14- D)2/D 2 (4/3)*,
замечая, что величина (1 4- D)2/D минимальна при D = 1. Та-
ким образом, inf (В* (Д)5 > 2 (4/3)*.
Пусть f — плотность с компактным носителем и — плот-
ность с компактным носителем, принадлежащая классу ST. Обо-
7 Деврой Л., Дьёрфи Л.
98
Гл. 5. Скорости сходимости в Lr
значим функцию / * К\/п через fn. Покажем, что В* (fn) <
< В* (/) (1 + о (1)). Так как каждая из функций fn имеет ком-
пактный носитель и принадлежит классу fF, то тем самым тре-
буемый результат будет получен для всех плотностей с компакт-
ным носителем. Прежде всего в силу леммы Фату и теоремы 2.3
lim inf [ >7 * Ki/n f I lim inf f * K\/n = [
fl->oo J	J rt“*oo	J
Кроме того, для достаточно большого компактного множества Т,
содержащего носитель f, и достаточно больших п имеем
f -/fn < J/|/п -71 + J
</M7j/Jl/n-/r+J/f = o(i) + J/A
где мы воспользовались теоремой 2.1. Далее, в силу того что
для любых плотностей <р из класса имеющих компактный
носитель, и для любых h > 0 выполнены соотношения
jК/ * К1/П * фЛП = J 1(7 * Фь)' * j 1(7 * Ф7'|.
получим, что В* (fn) < (1 + о (1)) В* (f).
Чтобы обобщить этот результат, полученный для всех плот-
ностей с компактным носителем, на всевозможные плотности,
нужны лишь обычные аналитические построения. Например,
можно аппроксимировать f последовательностью функций gt,
таких, что значение gt на [—t, /] равно 1, вне [—t— 1, t + 1]
равно 0, а на промежуточных интервалах функция gt является
непрерывной и гладкой. (Заметим, что метод свертки применять
нельзя, поскольку существуют плотности, для которых j /[ < оо,
но j у/ f *	= оо при любых плотностях К и любых h > 0.)
3. Доказательства теорем 1 и 2
В начале этого параграфа поясним, каким образом функция ф
проникла в выражение для J (п, К) из теоремы 1. С этой целью
приведем отдельно две важные леммы. В оставшейся части дока-
зательства теоремы 1 остановимся на некоторых результатах
о смещении и дисперсии ядерной оценки.
Лемма 8. Пусть Хг, ..., Хп — независимые одинаково рас-
пределенные случайные величины. Пусть Е (XJ = 0, Е (X"f) =
= о2 > 0 и р = Е (| Хх |3) < оо. Тогда
sup
a£R
}-E(\N-a\)
cpg~
Кп
3. Доказательства теорем 1 и 2
99
где с — универсальная положительная постоянная и N — нор-
мальная с параметрами (0, 1) .случайная величина. Заметим, что
£ (I N - а |) = |а|Р(| N | < |а |) +/2Ме-2/2 = ф(|а|).
Доказательство. Пусть Fn — функция распределения случай'
п
ной величины X — (о/n)-1'2jXj, и пусть Ф — функция распре-
i—1
деления N. Ясно, что
ОО	00
Е(|Х —а|)= J Р(|Х — а|>/)<//= J(1 - Fn(a+ + Fn(a - t))dt
О	о
и аналогичное равенство имеет место для N и Ф. Абсолютная
величина разности между правыми частями этих двух равенств
не превосходит
оо	оо
J|Ф(а + 0 - Fn{a + t)\dt + J |Ф(а - t) - Fn(a - t)\dt =
0	0
oo
= J |Ф(О-гп(О|Л-
—oo
В силу хорошо известных неравномерных оценок в центральной
предельной теореме типа Берри — Эссеена (Петров (1972, тео-
рема 14, с. 115))
| Ф (0 - Fn (/) | <-с^~3—- ,
1	1	(1 +|/|3) Ип
где с — некоторая универсальная постоянная. Так как функ-
ция (1 + 1113)-1 интегрируема, то получим требуемый результат.
Чтобы получить выражение для Е (| N — а |), заметим, что
при а > О
£(| N - а|) = £ (| У|) + £(| N - а| - |ЛГ|) =
= £ (| N |) -- аР (N < 0) + £ ((а - 2N) I[0<N<a}) -aP(N> а) =
= £ (| N |) + а - 2£ (NI[0<N<ai) - 2аР (N>d) =
а
,__ .	Г /р-^/2
= / 2/л -L а — аР (|М | > а) — 2 J  dt =
= /2/л — аР (| АГ | < а) — 2 (1 — е~°г^1у 2л,
что и требовалось доказать.
Далее в этом параграфе через Т обозначается произвольный
интервал, через [—г, г]—носитель К, через £*— верхняя
граница для К, через Т* — множество {х: | х — y\<^hr при
7*
100
Гл. 5. Скорости сходимости в Lx
некотором у С: Т\. Таким образом, Т* зависит от h. Кроме того,
пусть с — постоянная из леммы 8, Вп (х) = Е (fn (х)) — f (х) —
смещение в точке х, Vn (х) = fn (х) — Е (fn (х)) — вариация в точ-
ке х, ой (х) — Е (Vn (х))— дисперсия в точке х.
Лемма 9.
| е(1/п« - /(х)и -	| <
для любых плотностей К, удовлетворяющих условию (2).
Доказательство. Применим лемму 8 к случайным величинам
полагая а = Вп (х)/ип (х). Получим, что величина ошибки из
леммы 8 равна
£(1^13) сК*
пЕ (Yf) nh '
Лемма 10. Пусть Т — ограниченный интервал. Тогда для
любых h > 0 и любых плотностей К имеем
-/й/а-/[И*№-/|А(Т)<(/йй/а) [on-
Т т
Jl/
где № = К2 / [ №. Кроме того, j | <jnYnh/a — yrf\ = о (1) при
h | 0.	Т
Доказательство. Прежде всего заметим, что на ограниченных
множествах всегда j < оо. Имеем (х) = а (х) + b (х), где
г
z ч a2f (х)
а (х) = - ~
И
h(х) = С *	_ (/ * Khy
' '	nh	n
Ясно, что а (х) >- 0. Следовательно, У"а (х) + Ь (х) <	(х). +
+ Vb+ (х) и У а (х) + b (х) > а (х) — Y\ b (х) |. Интегрируя
по Т и применяя неравенство Коши—Шварца, получим
[ an < (a//nh) (( // h [ /|f * Kt — f |) C
T	XT	T	/
с (а//пй) Q /f + J If * Kt
3. Доказательства теорем 1 и 2
101
И
j an > (a// nh) ( J )/ f - / J | f * Kt — f | A (7) -
T	\T
— (yft/a) j f * Kh j •
Отсюда легко следует первое утверждение леммы 10. Второе
утверждение вытекает из соотношения J/| b (х) | = о(1). Но
т
это соотношение является следствием того, что h = о (1), X (7) <
< оо и J | f * Kh —f | = о (1) (см. теорему ,2.1).
Лемма 11. Для любых f £ ST, любых К, удовлетворяющих
условию (2), и любых ограниченных интервалов Т имеем
J 11	| — РЛ21/" |/21 = o(ft2)
г
при h | 0. Это отношение остается в силе при замене Т на R,
если плотность f имеет компактный носитель, f и ядро К
удовлетворяет условию (2).
Доказательство. Пусть К — функция из леммы 3. Тогда
г
по теореме Лебега о мажорируемой сходимости. Здесь использо-
вано то, что (2/Р)	* f" f" при любых х (теорема 2.3), функ-
ция | f" | ограниченна и | (2/0) Kh * f" | < sup | f" (х) |.
х
Чтобы приступить к доказательству теоремы 1, потребуется
еще одна техническая лемма.
Лемма 12. Если и, v, w, z — неотрицательные числа, то
|«ф(4г)	уЧН" -“’I-
Доказательство. Сначала проверяем, что 0 < ф' («)	1 при
любых а > 0 и | (мф (u/w))' | Y2/л при любых и > 0. Таким
образом,
I «Ф (1) - “’Ч’ Ш Н “Ч’ (1) - “ф (1) I +
+|«ф (v)	+
102
Гл. 5. Скорости сходимости в Lj
Доказательство теоремы 1. Теорема 1 состоит из нескольких
частей. Сначала предположим, что f £ $~и что функция f имеет
компактный носитель, заключенный в ограниченном интервале Т.
Пусть а — достаточно большое число, такое, что (и) = 0
при любых h < max hn и любых | и | > а. Выберем интервал Т
п
достаточно большим для того, чтобы для любого х из носителя
функции f отрезок [х — а, х + а] содержался в Т.
Воспользуемся сначала неравенством леммы 12 при
и=оп(х), о = |Вп(х)|,
w ~ аутю/^nh, 2 = p/i21Г(х)|/2.
По лемме 11
j |u-z| = о(й2),
т
и по лемме 10
j | и — W | = о ((пй)~|/2).
т
Подстановка этих соотношений в неравенство леммы 9 дает
j£(|fn-f|)-J(n,ft)
с
f E(\fn -f|)- J<M> (
^l+lf’»*^)

где мы воспользовались тем, что J (п, h) — | доф (г/до).
т
Неравенство для J (п, h) следует, из того, что ф(и) +
+ у/'2/п. Действительно,
J(n,h) =	р+ /^-]ДО-
т	т	т
Рассмотрим теперь всевозможные плотности f с компактным но-
сителем и обозначим через L величину sup [ | (/ * сра)" |, участ-
а>0 *
вукццую в определении В* (f). Снова в силу леммы 9 и неравен-
ства ф (и) < « + V2/л получим
т	т
3. Доказательства теорем I и 2
103
и в силу лемм 4, 5 и 10 эта величина в свою очередь ограничена
сверху выражением
/тТЙ И + /IfS /flP'ft-ZIMD +
+ тЛ2£ + -^ИП
где Л+ — плотность, определенная в лемме 10. Второе слагаемое
здесь равно о ((nh)~l/2) при Л — о (1) (теорема 2.1). Последнее
слагаемое равно о ((пА)~,/2) при nh-^oa. Тем самым доказана
первая верхняя граница для общих плотностей f. Если выбрать
значение h, указанное в формулировке теоремы (т. е. значение,
доставляющее минимум главному члену в верхней границе), то
/т J + т ы = с'л т •
и теорема 1 доказана.
Доказательство теоремы 2. Имеем
inf Е (Jn)5>min / inf E(Jn), inf E(Jn)\	(4)
h	Xh/nsjl	/'
Рассмотрим последовательность h, такую, что Е (Jn) ~
~ inf Е (Jn). Так как условие (3) достаточно для сходимости
h
Е (Jn) -> 0 (теорема 3.1), то ясно, что Е (Jn)-+0 при любых [.
Но в силу неравенства Е (Jn) > j | f * Kh — f | необходимо,
чтобы h-^Q (теорема 2.4). Рассмотрим теперь по отдельности
две нижние грани в (4).
Прежде всего, если последовательность Л такова, чтоЛ^- l/)/"п
при любых п и Е (J„) ~ inf Е (Jn), то, как указано выше, h ->0.
Кроме того, nh оо и в действительности n/i/n2/5->-oo. Пусть
теперь Т — ограниченный интервал и а > 0 — произвольная
постоянная. При таких h нижняя граница для Е (Jn) такова:
jE(|fn-/|)^ |опфИ |Bn| / j oJ - сК*ЦТ)/(пН)^
т	т \т I т /
(в силу леммы 9, выпуклости г|) и неравенства Йенсена)
С ( J on \4/5 / j | Вп | \1/5 — о (/г2/5) (по определению С)
\т / V /
Сп-^ (a J /fV/5 ((0/2) j |(f * <ра)"|V/3 (1 + о (1)) ~
т /	\ т	/
(в силу лемм 4 и 10)
I
104
Гл. 5. Скорости сходимости в
~п-^СА(К)
[1 П4 fi а *ф0)"|/2
т / т
1/5
(по определению А (К)).	(5)
Далее, пусть последовательность h такова, что h < 1/>Лг при
любых п и Е (Jn) ~ inf Е (Jn). В силу теоремы 3.1 известно,
h V7i^\
что n/i->oo. Кроме того,
E(Jn)^E[\\fn-f ♦ КЛ|)/2
в силу леммы 3.6. По лемме Фату
lim inf п^Е (Jn) > J lim inf ri^E	Kh |)/2,
n->oo	J П-+-ОО
и правая часть этого неравенства равна оо, если lim inf п2/5 X
П->оо
X Е(| fn — f*Kh |) = оо при почти всех х, таких, что f (х) > 0.
Чтобы показать это, применим центральную предельную теорему
Берри—Эссееца, которая использовалась в лемме 8. Пусть (х) =
= Var (Кп (Xi — х)) и М — произвольно большое положитель-
ное число. Пусть Z — нормальная случайная величина с пара-
метрами (0, 1). Тогда
n^E(|fn-f *Xh|)>
^MP(\fn-f *Kh\^MfnW) =
= MP (\fn-f * Kh\Vn/(jn^ M Уп/(апп2'5))
^M(P(\Z\^ Мп^°/ап) - 2со;3«- 1/2Е (| (Xj -х)-
— Е(ХЛ(Хх — х)) |3)).
Из доказательств леммы 10 и теоремы 2.4 легко извлечь, что
о2 (х) ~ а2/ (х)/Л для почти всех х при h -*• 0. Кроме того,
в силу сг-неравенства 2) и теоремы 2.3
Е (] Х„ (Xi — х) — Е (ХЛ (Xi - х)) |3) <
< 4Е (/г3№ (^) ) + 4 (Е (Хл (Xi - х)))3 =
= 4ft-2f *(№)/, + 4(f
~ 4/г2/ (х) j № 4 4f (х)3 - 4ft‘7(x) J №
г) Имеется в виду неравенство (а + Ь)г < 2Г-1 {аг + У), а, b > 0, г > 1. —
Прим, перев.
4. Гистограммная оценка
105
для почти всех х. Так как n1/l0/on (х) ~ nl/loi/ft/a yff (х)
<; l/(n3/20a Y[ (*))	0 при почти всех х, таких, что f (х) > 0, то
n2/5E(\fn — f * Kh\)^z
(	4 [ № KfW \
J = М(1 —о(1))
при почти всех х, таких, что f (х) > 0. Так как М произвольно,
то тем самым показано, что
lim inf inf п2'ъЕ (./n) = оо.
,	n-»-oo h у- I
Последнее вместе с (5), определением В* (/) и теоремой о моно-
тонной сходимости .дает
lim inf inf п2'5Е (Jn)	sup	CA (K)
n->ao h	a>0,
ограниченные T
/(l(f *<Pa)'lV/S
4/5	.	J
= CA(K)B*(f).
 Теорема 2 доказана.
4. Гистограммная оценка
Исследование гистограммной оценки на R можно провести
так же, как исследование ядерной оценки. Рассмотрим только
простейшую гистограммную оценку, которая определяется раз-
биениями вида
= {[kh, (k + l)ft), k — целое},	(6)
где h = hn — последовательность положительных чисел. Фридман
и Диаконис (Freedman, Diaconis (1981)) полностью разработали
La-теорию этой оценки для плотностей из класса cF2, т. е. функ-
ций, удовлетворяющих условиям
(i) f £ L2, f абсолютно непрерывна и имеет п. в. производную/',
(ii) 0<J(f')2< оо.
В частности, в работах Scott (1979) и Freedman, Diaconis (1981)
доказана
Теорема 4. При f £ гистограммная оценка, определяемая
разбиениями (6), удовлетворяет соотношению
((	(36 [ </'>а),/3 / 4
106	Гл. 5. Скорости сходимости в L±
и указанная^ этом соотношении скорость сходимости достигается
при h ~ (б/(n J(f)8))1/3
Теорема 4 формулируется здесь без доказательства, только
для последующих ссылок. Заметим, что при самых гладких плот-
ностях f указанная оптимальная скорость сходимости в L2 равна
п-2/э в отличие от скорости n-4/s для ядерной оценки. Поэтому
мы полагаем, что при гладких f ядерная оценка будет вести себя
в L2 лучше, чем гйёгбграммная, по крайней мере при больших п.
Покажем в этом параграфе, что то же самое остается в силе для
Е (Jn). Конечно, такая иерархия оценок не распространяется
на случай произвольных плотностей f. Например, если f — рав-
номерная плотность на 10, 1] и h = 1, то Е (Jn) = 0 при лю-
бых п, тогда как для ядерной оценки
lim inf n2/5E (Jn) = оо
П-*ОО
независимо от выбора h (теорема 2), поскольку sup | I (f * <ра)" I =
а>0 J
= оо и, следовательно, В* (/) = оо.
В этом параграфе через обозначим класс функций, удовле-
творяющих условиям
(i) f абсолютно непрерывна и имеет п. в. производную f'<
(ii) /' ограниченна и непрерывна. (Заметим, что j | [' | •< оо.)
Теорема 5. При любых f £ ошибка гистограммной оценки,
определяемой разбиениями (6), удовлетворяет следующей нижней
границе
lim inf inf nl/3E(Jn)^ EHBH(f)^ CH,
n-+<x> h
где
CH = inf y(u)l(2u)V3 = 0,880261...
U
U
В„(М(МН|ПЛГ
(последняя величина 1 при любых f из класса &").
В этом параграфе и в § 5 нам потребуется еще одна функция
гп, определяемая следующим образом:
при любых х £ Anj = la, b) = [jh, (j + 1) ft). Это — пилооб-
разная функция на действительной оси со значениями между 0
и 1. Нам также понадобится функция
zn(x) = (1 — 2гп(х))/'(х),
4. Гистограммная оценка
107
которая имеет смысл при любых f из класса Функция zu ко-
леблется между —/' и +/'.
Теорема 6 (точное асимптотическое поведение величины
Е Пусть плотность f £ имеет компактный носитель.
Ошибка гистограммной оценки, определяемой разбиениями (6)
и условием (3), равна
E(Jn) = J(n,h) + o[h+-^\, г".
где	__ •
Кроме того,
limsup inf n'/3£(jn) C*HBH(f),
п-*<х> h
где С*н = (27/4л)'/3 = 1,290381 ....
Таким образом, на ^величина Е (Jn) зажата между двумя
близкими друг к другу границами СНВН (/)/п1/3 и СнВн (f)/n'/s,
где Сн!СИ= 1,46590 .... Это показывает, что коэффициент BH(f)
в определенной степени является мерой сложности оценивания f
с помощью гистограммной оценки. Интересно, что BH(f) Ф В* (/).
Иными словами, плотности, которые легко оценивать с помощью
ядерной оценки, могут оказаться сложными для гистограммной
оценки, и наоборот. Например, В* (f) = оо для равномерной
на [0, 1 ] плотности и вместе с тем ее можно аппроксимировать
последовательностью из^со значениями Вн, стремящимися к 1,
т. е. к минимальному из возможных значений Вн. Таким обра-
зом, с помощью гистограммной оценки легче всего оценивать
равномерную плотность.
Второе следствие теорем 5 и 6 состоит в том, что средняя ошибка
в Lj для гистограммной оценки изменяется со скоростью, в луч-
шем случае равной п-1/3, что хуже, чем для ядерной оценки,
имеющей скорость сходимости n~2f5. При конечных п ответ на
вопрос о том, лучше ли ядерная оценка, в большой степени за-
висит от значений Вн (/) и В* (/).
Для гистограммной оценки нет свободных от распределения
нижних границ, таких, как границы для ядерной оценки из
теоремы 2. По-видимому, для их получения следует рассматри-
вать критерии вида
inf sup Е (Jn),
h х0
где заменяется на (х0) — {+ х0, (k + 1) h + х0),
k — целое}. Здесь это не делается, так как уже установлено, что
на большом подклассе класса гистограммная оценка, несом-
ненно, не является асимптотически оптимальной.
10В
Гл.’5. Скорости сходимости в Lr
5. Доказательства теорем 5 и 6 ’
В этом параграфе рп обозначает эмпирическую меру для
Xt, Хп, и |i — меру, соответствующую /. Пусть AnJ —
= (/Л. (/ + 1) Л),
X^AnJ,
и
^’Й’= Е(/П(х)) = ±ИнА_, х С AnJ.
На протяжении этого параграфа через Т обозначается огра-
ниченный интервал вида [—t, и.
Лемма 13. Если J | gn — f | '-* 0 для некоторой плотности
f £ то lim h = 0.
П->00
Доказательство. Заметим, что лемма 13 не является следствием
теоремы 2.6, так как ее условие выполнено не для всех f. Пред-
положим сначала, что lim Л = оо. Тогда gn -► 0 при любых х
п-*оо
и lim inf J |gn — /| J lim inf |gn — /| = 1, что противоречит
л-*оо J	J n-+oo
условию. Далее, предположим, что lim Л = с> 0. При Л = с
П->ОО	'
из условия j | gn — /1 = 0 следует, что /' = 0 п. в. Но в силу
абсолютной непрерывности / последнее влечет за собой, что
/ = 0 п. в. Таким образом, заключаем, что J | gn — /1 > 0 при
Л = с > 0. Будем теперь явно указывать зависимость от ft,
введя символ gh. Ясно, что будет снова получено противоречие,
если удастся показать, что из сходимости Л -> с следует J | gh —
— gc | -> 0. Этим противоречием будет доказана лемма 13.
Чтобы получить это противоречие, достаточно показать, что
gh -* gc при почти всех х, и применить теорему 2.8. Предположим,
не нарушая общности, что х > 0. Далее, х £ l/ft, (/+ 1) Л) П
П ike, (k + 1) с) при некоторых целых /, k. При й, достаточно
близких к с, имеем / = k. Пусть А — пересечение указанных .
двух интервалов и В — их симметрическая разность. Имеем
<-lAi£L + o(l) = o(l).
Лемма 13 доказана.
5. Доказательства теорем 5 и 6
109
Лемма 14. Если случайная величина X имеет биномиальное
распределение с параметрами (п, р), то
sup Р (X = t) < с/f/ пр (1 — р),
i
где с — некоторая универсальная постоянная.
Доказательство. Воспользуемся тем, k\ = (k + l)ft X
X yr2n(k+ l)g-<*+0 exp (0/12 (k + 1)) при некотором 0 <
< 0 < 1 (см., например, Whittaker, Watson (1963)). Тогда, в силу
того что все величины Р (X = t) меньше, чем k-я, где k = t(n +
Н" 1) pl (см. Feller (1968), с. 167 по русскому изданию), получим
р (X = о < (1 + —Г ._-...-е'+1/241<я + .1.. <
\	' п) |<2л(А4- 1)(п-й+ 1)
<_________е2+1/24рг2п	< с
" У2л (п + 1) р (n + 1) (1 — р)	—р) ’
где мы воспользовались неравенством (1 + и) е“. •
Лемма 15.
inf Вя(0 = 1.
Доказательство. Известно, что j y/~f J f /Vsup f = l/y4sup /.
Так как функция f абсолютно непрерывна, то j | f | > 2sup f.
Соединяя эти неравенства, получим
(W (Jir|)/2>1.
Для доказательства того, что эта нижняя граница достигается,
построим последовательность плотностей / = g * <pft из Д’ и
устремим h к 0. Здесь <р — нормальная плотность с параме-
трами (0,1) и g— равномерная плотность на [0,1].
Доказательство того, что |У#*фл-*-|ул£ = 1, является
простым упражнением из анализа.
Более того, так как свертка двух симметричных унимодальных
распределений унимодальна (Feller (1971), с. 197 по русскому
изданию), то каждая плотность f унимодальна. Следовательно,
J 1(Я * ФлУ | = 2sup(g * <p/,)-^2supg = 2
где h -► 0. Это показывает, что для рассматриваемой последова-
тельности lim sup Вн (/) < 1.
по
Гл. 5. Скорости сходимости в Lr
Сохраним обозначения § 2 и 3. В частности, ой (х) =
= var (fn (х)) = var (pn (An})/h), х £ Ап} и Вп (х) gn (х) — f (х).
Кроме того,
£(4)= S £(Л(АпУ)),
/
где Л(А)= jlfn-fl-
А
будем иметь ,
E(Jn(Anj))-
По аналогии с леммой 9 при любых /
j
J	\ W /
Anj
(7)
где для величины ошибки из леммы 8 использована оценка
С £ (| /лп7(Хх) - g (Л„,) |3/ft3)	с г с
J пВО/лп/Х^-нСЛп;)!2^)	nh J аХ ~ п ‘
Anj	Anj
Кроме того, по аналогии с (5) имеем
(c/n)(X(T)/ft + 2)>
^Сн ( j оп\2/3 (2 J | Вп |\'/3 _(с/п)(Л(Т)/Л + 2),
\т /	\ т /
(8)
поскольку Сн = inf 'ф («)/(2«)|/3.
Лемма 16. Предположим, что lim ft = 0. Тогда | | on /nft —
Z2-+-OO	j
— /71 = о (1).
Доказательство. Пусть х £ Anj. Тогда Оп(х) = р(Дп,)(1 —
— р (Ап;-))/(пй2) и, следовательно,
l^n/nft - //| = | / ц(Ап>)(1 - p(Any))/ft - Vf\ <
< P (An/)//ft -HI /p(AnJ)/ft -/7| =
= gn Vh | /g^ - //1 < /ft + / l^n - /1-
Взяв теперь интегралы от левой и правой частей этого неравен-
ства и воспользовавшись неравенством Коши—Шварца и теоре-
мой 2.6, получим
J I <ТП /п/i — Zf | < /ft—г- [ /|gn - Л <
Т	т
=о(1).
5. Доказательства теорем 5 и 6*
111
Лемма 17. П ред полом им, что lim h = 0 и что плотность
п-*<х>
f (z имеет компактный носитель. Тогда
qn(x) = o(h)
при любых X и
где qn (х) = | Вп (х) — (ft/2) zn (х) |. При любых f £ имеем
Г	/1Л	- м '
J <7п = о(Л)
г
и
Т	т	т
Доказательство. Используя разложение в ряд Тейлора с оста-
точным членом, получим
f(y) = f W + (у - x)f (х) + (у - x)(f (|) - /' (х)), х < | < у.
Таким образом, при х С Лп/ имеем
gn (х) = -J- j f = f (x) + -j- j (y - x)f' (x)dy +
Anj	Anj
+-T J(у-^)(/'а)-г(х))^=/(х)+4гп(х)+ь(х,й)>
AnJ
где функция I b (x, ft) | < sup | f (y) — f (x) | ft/2 не превосхо-
дит некоторой интегрируемой функции, умноженной на ft
(в силу того что f имеет компактный носитель и sup | f | < оо),
и b (х, ft)/ft->-0 при любых х (в силу того что f' непрерывна). Таким
образом, J^n < J |ft(x, ft)| = о (й) и qn (х) = о (ft) при любых х.
Если f имеет некомпактный носитель, то остается в силе соотно-
шение j qn = о (h).
т
Таким образом, j | Вп | ~ (ft/2) j |гп | при любых f £ ЯГ.
т	т
Доказательство леммы будет завершено, если показать, что
J 12п | ~ / | /' |/2 при f С • Пусть теперь Пп — набор индек-
т т
сов /, для которых Ап) s Т. Очевидно,
S J |fz 111 — 2гп | с 2ftsup |/' 1=0(1).
i^Nn T^Anj
г
I
112
Гл. 5. Скорости сходимости в
Так как функция f непрерывна на Т, то она равномерно непре-
рывна на Т. Именно, для фиксированного е > 0 имеем | /' (х) —
— F (у) I < 6 ПРИ любых х, у, £ Т, таких, что | х — у| <C/i,
где h — произвольное, достаточно малое число. Используя это,
получим следующую цепочку неравенств:

< S ДиР l/'l j |1 - 2гп| =
/£Л/ПГПЛП> Anj
h
= 2 sup If' I f 11 — %hIdx =
/С^п7’Плпу 0
= 2 SUP 1/'|Л/2<
IQNn T^AnJ
<2 J (lf|+e)/2 + O(/i) =
ieNnTnAnj
= f|f|/2 + Je/2-FO(/i).
т	т
Точно так же получается нижняя граница J |f'|/2—] е/2 —
т	т
— О (Л). Лемма доказана.
Доказательство теоремы 5. Используя неравенство
inf Е (Jn) min / inf E(Jn), inf E(Jn)\
h	\hVn>l	Л/п<1	/’
разобьем доказательство на две части. Пусть сначала последова-
тельность h такова, что Е (Jn) ~ inf Е (Jn). Известно, что /г->0
Л
(это имеет место в силу того, что Е (Jn) j | gn —/1 и по тео-
реме 2.6 и лемме 13 последняя величина стремится к 0 при
f С тогда и только тогда, когда h -* 0). Кроме того, 1/пЛ =
= о(п_,/3). Таким образом, объединяя (8) и леммы 16 и 17, по-
лучим
inf Е (Jn) - Е (J„) Е (Jn (Т)) >
Л/п>1
J |Bn||jon\ -(с/п)(Х(Т)/п + 2)>
Т	\Т	[Т /
Сн	^2/3 Q1 f'1 )1/3 (2п)_,/3 °+°(1))
5. Доказательства теорем 5 и 6
113
для любых Т = [—/]. Устремляя теперь Т к R, заключаем,
что
lim inf inf Е	(9)
n-^o° h
Далее, рассмотрим последовательность, для которой пх/3Е (Jn)
~ inf п{/3Е (Jn). По лемме Фату
h 1
n'/3£(Jn)2s f Um inf n'’3E (| fn - gn |)/2.
J П -* oo
Пусть x C Anj фиксировано и Z — случайная величина,
имеющая биномиальное распределение с параметрами (п, р(ЛП7)).
По лемме 14
n,/3E(| fn ~ gn I) = n^(nh)-' E (| Z - E (Z)|)^
MP (| Z - E (Z) | Mhnln'i^ >
л л /1	с	\ ✓ i n\
Л4 1----------r .............. 	(10)
\ пУ3 КпнМп,)(1-нМп?)/
при любом M > 0, где с — постоянная из леммы 14. В силу
теоремы 2.2 имеем р (Anj)h ->• f (х) при почти всех х, так
как h -> 0. Кроме того, р (Лп;)	0 при почти всех х. Таким обра-
зом, (10) ~ М (1 - 2Мс /An'/3// (х)) ~ М при почти всех х, таких
что f (х) > 0. Так как М — произвольное число, то
lim inf inf п^Е (Jn) - оо.	(11)
Л->0° h
Объединяя теперь (9) и (11) и применяя лемму 15, получим утверж-
дение теоремы 5.
Доказательство теоремы 6. Рассмотрим сначала неравенство
(7), считая, что Т — множество вида [—/, /], содержащее носи-
тель f. Тогда
IЕ (JJ -- j <М (| в. |/а.) | <	+ 2)	. (12)
Пусть qn обозначает то же, что в лемме 17, и через рп обозна-
чается величина | ап — j/"f/nh\. В лемме 16 было доказано, что
f pn = o(l/-j/n/i). Рассуждая так же, как в доказательстве тео-
ремы 1, получим

(4 -*44) - VI * (41 । V | + VI а
8 Деврой Л., Дьёрфи Л.
(13)
114
Гл. 5. Скорости сходимости в
Объединенные вместе соотношения (12), (13) и леммы 16 и 17
показывают, что Е (Jn) — J (п, h) = о (h + 1/-^ nh).
Для доказательства второго утверждения теоремы 6 восполь-
зуемся для J (п, h) неравенством ф (и) С 2/л + и. Получим
/(». *) < у 4 f V у+4 J । । ~ /4 J j/i+а j j f  ।.
Затем, выбирая значение Л, минимизирующее эту верхнюю гра-
ницу, т. е.
получим требуемый результат.
6. Выбор параметра сглаживания
В теоремах 1 и 6 были получены точные асимптотические выра-
жения для Е (Jn)\ К сожалению, последовательности ft, миними-
зирующие главные члены этих асимптотических выражений,
трудно выписать в явном виде. Для такой минимизации более
подходящими являются верхние границы теорем 1 и 6. В случае
ядерной оценки при выборе ядра Епанечникова 3 (1 — х2)^,
| х | < 1 (для которого j № = 3/5 и J х2К = 1/5) получим
Г_______f '12/5
п-'/5
h =
(14)
2л
при /, принадлежащих классу к плотностей, для которых спра-
ведлива теорема 1. Если f принадлежит классу И плотностей,
для которых верна теорема 6, то соответствующее значение h
для гистограммной оценки равно
Jr/'
2/3
n~V3e
(15)
Обратим внимание на то, что формулы (14) и (15) верны только
при f С к (или f £ н) и, следовательно, только для f с конеч-
ной величиной J У? и j I f" I (или J I f I). Если один из этих
интегралов бесконечен, то получается странный результат —
оптимальное значение ft приблизительно равно 0 или оо. Это
противоречие вызвано, разумеется, тем, что если один из уча-
ствующих в формуле членов равен бесконечности или нулю (см.,
например, верхнюю границу для J (п, ft) в доказательстве тео-
6. Выбор параметра сглаживания
115
ремы 6), то формальная минимизация неправомерна. Так как
трудно проверить все указанные условия на /, то любая попытка
определить h путем аппроксимации соотношений (14) или (15)
вызовет у пользователей серьезные опасения.
Выбор параметра h рассматривается также в § 5.8—5.10 и
в гл. 6 и 9. В частности, в гл. 6 и 9 приводятся очень общие тео-
ремы состоятельности для оценок плотности с зависящими от
данных параметрами сглаживания. Здесь же мы хотели бы ука-
зать лишь определенные черты параметрического метода опреде-
ления ft.
Предположим, что плотность f близка к некоторому элементу
параметрического семейства /е, 0 £ Rk или принадлежит этому
семейству. В силу предположения для этого семейства величины
(14) и (15) известны в явном виде и равны ск (0)/п1/5 и сн (&)/п1/3.
Построим обычным образом по набору данных оценку 0 пара-
метра 0 и воспользуемся величинами ск (0)/п,/5 и сн (Q)/n'^3
вместо (14) и (15). Желательно использовать робастные оценки 0,
если это в принципе возможно. Этот метод, называемый параме-
трическим, был предложен для выбора оптимальных в L2 значе-
ний параметра ft ядерной оценки в работах Deheuvels (1977) и
Deheuvels, Hominal (1980). Похожие рассмотрения в случае
гистограммной оценки можно найти у Scott (1979) и Freedman,
Diaconis (1981). В частности, для плотностей, удовлетворяющих
условию Розенблата (§ 4.3), оптимальное в L2 значение пара-
метра ft ядерной оценки равно
(в случае ядра Епанечникова), а для плотностей из теоремы 4
оптимальное в £2 значение параметра ft гистограммной оценки
равно
(17)
Выражения (16), (17) имеют очень мало сходства с (14), (15),
за исключением зависимости от п. Любопытно, что даже для са-
мых простых плотностей, таких, как нормальная плотность с па-
раметрами (0, 1), эти величины различны. Для такой плотности
величины (16) и (17), например, равны
/ 40 1/*« \>/5
ft = МОГл = 2,345 ... п-1/5
\ п /
и
/ 19]/’Н W3
h =	2,7706 ... n-1/3
\ п /
8*
j
116
Гл. 5. Скорости сходимости в
соответственно. Вместе с тем величины (14) и (15) равны
h = / 15е |<2л \|/5 = j бб44 1/5
\ 8п,	/
h = (4	= 2,7168 ... л-'/3
соответственно. (Легко проверить, что формулы (14), (15) остаются
в силе для нормальной плотности х).) Можно, разумеется, по-
строить более экстремальные примеры. Так, если приближать
плотность распределения Коши с помощью семейства /-плотно-
стей Стьюдента, то коэффициент при п в (16) стремится к неко-
торой постоянной, тогда как коэффициент при п в (14) стре-
мится к оо. Это вызвано тем, что /^-теория более чувствительна
к тяжелым хвостам распределений. В табл. 1 приведены значе-
иня f/Д Jlfl-
= KW2Jiri/2],/3.
cK (9) и cH (0) для различных семейств
распределений. Если f н, то вместо | | f | стоит предел ве-
личин [ | f | для последовательности плотностей из &"lh стремя-
щейся к f. Если f ?= к, то вместо величины j | f" | используется
ее обобщение sup | (f * <ра)" I.
а>0 J
В рассматриваемых семействах (и, следовательно, в выраже-
ниях для ск (0) и сн (0)) нет необходимости указывать параметры
сдвига и масштаба, поскольку
и
ск(Н>	?) = аск(0, 1, у)
Сн (н,	т) = осн(0, 1, т),
где р — параметр сдвига, о — параметр масштаба и у — набор
параметров формы, возможно пустой. Вычисление величин из
табл. 1 упрощается тем, что [ | f | = 2 sup f для унимодальных
плотностей / из п и что 11 f" | = 4 sup | f | для симметричных
f Е к с унимодальной на [0, сю) производной
Ни одна из плотностей в табл. 1 не имеет параметра формы.
Так как параметр масштаба можно выделить в виде множителя,
*) То есть утверждается, что неравенства из теорем 1, 6 верны в случае
нормальной плотности f (ср. с § 10 данной главы, где даются аналогичные нера-
венства, но с другими, более грубыми, числовыми коэффициентами). — Прим.
перев.
Таблица 1
Плотность		f 1 Г 1	J 1/"1	в ♦ ф	вн(П	ск(0)	с и (в)
Равномерная на [0, 1]	1	21)	оо2)	оо	1 (минималь- ное зна- чение) .	0	(2/л)'/3
Равнобедренная тре- угольная на [0, 1 ]	(23/2)/3	41’ •	16 2>	(2»/3«)|/5 (минимальное зна- чение)	(16/9)1/3	(5/192л)1/5	(4/9л)1/3
Нормальная с пара- метрами (0, 1)	(8л)1/4	/2/л	К 8/ле	(128л/е)‘/10	21/3	(225ле2/32)1/10	(4/8л)|/3
Лапласа (е~।х ^/2)	4//2	1 D	2 2)	64'/5	41/3	(15/л)1/5	(64/л)1/3
Экспоненциальная (е~х, х > 0)	2	2 11	оо 2)	ОО	41/3	0	(8/л)1/3
Коши (л (1 + х2))"1	оо	2/л	9/2л/"3	оо	оо	оо	оо
1/2(2/х), 0 < х 1	4/3/2	ОО	ОО 2)	оо	оо	0	0
Стьюдента /3, / 2/л /3	\ к (Ц-Х2/3)2 /	/2^31/4	4/(л/з)	500/81л/5	(2000л/54/5),/5	4</з	(81л33/4/100)2/5	(лз3/4)2/3
*) Предел последовательности плотностей из ^“н-
2) Обобщенное определение f | f" J.
. Выбор параметра сглаживания
118
Гл. 5. Скорости сходимости в
то в табл. 1 содержится полная информация относительно ск (9)
и сн (0). Например, если плотность f близка к нормальной, то
для гистограммной оценки можно было бы взять
Л = (уЛ8п)1/3стп~|/3,
где ст — оценка для ст, построенная по данным в предположении,
что они получены из плотности нормального распределения
с параметрами (р., ст2).
В общем случае можно строить робастные оценки для ст следу-
ющим образом. Выберем два числа, р, q £ (0, 1) и предположим,
что известны квантили хг и х2, соответствующие значениям р и q
функции распределения с параметрами ц = 0, ст2 = 1. Порядко-
вые статистики Х(,1р) и Х(Пр) набора Хп ..., Х„ можно, таким
образом, рассматривать как оценки для р + стхх и р + стх2 соот-
ветственно. Следовательно, можно оценивать ст величиной (Х(П<?) —
— Х(пр))/(х2 — *i)- Оценки такого типа обычно более предпоч-
тительны, чем оценки, основанные на усреднении. Например,
если в плотность распределения Коши из табл. 1 введен пара-
метр масштаба, то при р = 1/4, q = 3/4 для него получается
оценка (Х/зп/о — Х(п/4))/2 (в случае распределения Коши
усреднение было бы абсурдно). Имеется обширная литература со
сложным теоретическим обоснованием по робастным оценкам
параметра масштаба плотности нормального распределения.
Одним из примеров подробно изученных оценок параметра ст
плотности нормального (р, ст2)-распределения является
ст = 0,1174(Х(0 ,9765л) — Х(0,0235л) 4~ 2(Х(о,8721п) — X(Q, 1279л)))
(Kulldorf (1963, 1964)).
В табл. 1 заключена и другая полезная информация. В § 4
и 5 было установлено, что величины В* (/) и Вн (/) являются
мерами сложности оценивания f с помощью ядерного и гисто-
граммного методов соответственно. Мы знаем, что посредством
гистограммной оценки легче всего оценивать равномерную на
[0, 11 плотность f (Вн достигает своего минимального значения 1).
Таким образом, для гистограммной оценки не является препят-
ствием то, что плотность / разрывна, если она ограниченна. Для
неограниченных плотностей, таких, как 1/2 у^х, имеем Вн (f) —
= оо в силу того, что J | f | = оо. Конечно, ни гистограммная,,
ни ядерная оценки не могут очень хорошо работать для плот-
ностей с тяжелыми хвостами (см., например, плотность распре-
деления, Коши, для которой В* (/) = Вн (/) = оо). Укажем также
на различие между экспоненциальной и двойной экспоненциаль-
ной плотностями в случае ядерной оценки, которое возникает
из-за того, что у двойной экспоненциальной плотности нет раз-
рыва в нуле. Точно так же В* (/) = оо для равномерной на [0, 1 ]
6. Выбор параметра сглаживания
119
плотности. Наилучшей плотностью для ядерной оценки является
равнобедренная треугольная.
Таблица 1 слегка дезориентирует. Она приводит к мысли о том,
что, скажем, для равномерной на [0, 1 ] плотности при предлагае-
мых методах выбора h лучше использовать гистограммную оценку.
Это неправильно — таблица просто показывает, что оптимальная
скорость сходимости величины Е (Jn), равная п“2/5, не дости-
гается на ядерной оценке. Хорошим упражнением будет доказа-
тельство того, что для ядерной оценки и равномерной на [0, 1 ]
плотности наилучшая скорость сходимости величины Е (Jn)
равна л~|/3, и что эта скорость достигается, если h меняется как
с/п'Я (см. § 7 ниже).
Все плотности из табл. 1 — унимодальные. Интуитивно ясно,
что мультимодальные плотности оценивать сложнее. Изучим
то, как влияет наличие нескольких максимумов на величины В*
и Вн. С этой целью рассмотрим основную плотность f с носителем
[О, 1 ] и определим следующую мультимодальную плотность:
Так как j /7 = VN j /Д j | g' | = J | f | и J | g" | = J \f" |, т°
В* (g) = №/5B* (f)
И
BH(g) = N1'3BH(f).
Присутствие нескольких максимумов, по-видимому, хуже влияет
на ядерную оценку, чем на гистограммную. Параметрический
метод, который в основных чертах описан выше, следует приме-
нять для мультимодальных плотностей с исключительной осто-
рожностью. Хороший подход состоит в том, чтобы изолировать
различные максимумы и разбить задачу оценивания на несколько
простых подзадач с унимодальными плотностями.
Выше было показано, *что если плотность f ведет себя доста-
точно хорошо, то оптимальное значение h для ядерной оценки
имеет вид: h = cn~XfS. Важно понять, насколько ухудшается
качество оценки, т. е. величина Е в случае когда значение с
не оптимально. Изучение этого обычно называют анализом чув-
ствительности .
Аналитически слишком трудно исследовать точное выражение
для J (п, Л), приведенное в теореме 1; вместе с тем верхняя гра-
ница для J (п, h) равна и“2/5 (ас“1/2 + Ьс2), где
& = -|-sup j|(f * q>a)"|.'
120
Гл. 5. Скорости сходимости в Lj
Легко проверить, что эта верхняя граница как функция от с
достигает минимума при с = (а/4Ь)2/5, когда ее значение равно
произведению п~2/?‘ на С*А (К) В* (f). Обозначим это оптималь-
ное с через с0. Если истинное с равно гс0, то верхняя граница
для J (п, h) равна произведению п~2/5 на В* (/) А (К) С* и на
Н (г), где Н (г) = г2/5 + 4/5 Yг. При с = с0/г дополнительный
множитель в верхней границе для J (п, h) равен G (г) = 1/5г2 4-
+ 4)/г/5. Обе функции, Н (г) и G (г), разумеется, достигают
минимума в точке г = 1, где их значение равно 1. Покажем те-
перь, что G (г) < Н (г) при любых г > 1, т. е. что лучше зани-
зить, чем завысить с0 в г раз.
Доказательство неравенства G (г) < Н (г). Требуется дока-
зать, что 4г3/2 + г4 > 4r5/2 + 1 при г > 1. Положим г = 1 + и
и заметим, что из усеченного разложения в ряд Тейлора следует
4гз/2 + Г4 4 (! + 3ц/2) + (1 _i_ бы + 10ы2 4- бы3 + ы4) =
= 5 + 12ы + 10ы2 4- бы3 4- ы4 >
> 5 + 10ы 4- 15ы2/2 4- 15ы3/2 =
< । *. /. , 5и . / 5 3 \ и2 { 5	3	1 \ и3 \
= 1 + 4	) 2Г + hr—М зг) >
1 +4(1 +u)5/2 - 1 +4г5/2.
Наконец, заметим, что отношение Н (r)/G (г) изменяется следу-
ющим образом: 1 (г = 1), 1,038 ... (г = 1,21), 1,156 ... (г = 2),
2,232 ... (г = 4) и 6,787 ... (г - 9).
Закончим этот параграф одним интересным замечанием отно-
сительно оптимальных значений (14) и (15) параметра h в случае,
когда вместо J | /" | и J | /' | используются обобщенные определе-
ния этих величин. Замечание состоит в том, что при любых f
имеют место неравенства
h <	°«_|/5 = 6,7726100 .. . on-1/5	(18)
для ядерной оценки и
h < (16л2)1/3 шг-1/3 - 5,40513538 ... ап-1/3	(19)
для гистограммной оценки, где о = j/^Var (X) — стандартное
уклонение /. Чтобы убедиться в этом, воспользуемся соотноше-‘
ниями (14) и (15) вместе с теоремой 5.3 (В* (/) > (29/34)1/5), тео-
ремой 5.9 (Вн (/) + 1, см. § 8 ниже) и леммой 5.1
((J /?] / ]/Var (X)	2л]. Если заменить а хорошей оценкой,
построенной по выборке, то данные неравенства можно исполь-
зовать для получения очень грубых, но полезных верхних границ
для h при полном отсутствии информации относительно /.
7. Равномерная плотность
121
7. Равномерная плотность
Равномерная на [0, 1 ] плотность f заслуживает отдельного
рассмотрения, поскольку из того, что она разрывна, следует, что
lim inf й2/5 Е (Jn) = оо для ядерной оценки. В этом параграфе
«-►ОО
будет показано, что при подходящем выборе h величина Е (Jn)
убывает как п“1/3. Материал этого параграфа можно перенести
на плотности с более ярко выраженными разрывами, такие, как
бета-плотности
ха~' (1 — x)ft_|
В (а, 6)
О <х< 1,
/(*) =
R(n h\- r<fl)rW
В(а’ Ь’~ Г(а + &) ’
где можно положить а = b £ (О, 1 ]. Предлагается показать,
что оптимальная скорость сходимости Е (Jn) к 0 равна п~е,
где е зависит только от а и может быть выбрано сколь угодно
близким к 0.
В ходе проводимого анализа следует упомянуть несколько
интересных побочных результатов.
Лемма 18. При любых р > 0 имеем

где нижняя грань берется по всем плотностям К на 7?1. Нижняя
грань достигается при
*w=£ir’(1-ixi',)) и<1.
При р = 2 этот результат принадлежит Епанечникову (1969)
и Bartlett (1963).
Доказательство. Для плотности К, определенной в утвержде-
нии леммы 18, имеем j К. — 1, f | х |р К = 1/(2р +1) и j № =
= (р +’ 1)/(2р + 1). Так как величина ([ j | х |₽ ./( мас-
штабно-инвариантна, то достаточно взять нижнюю грань по
всем плотностям К, таким, что | |х|р/( = 1/(2р1). Эта норми-
ровка предполагается выполненной для всех рассматриваемых
здесь плотностей. Любую плотность g можно записать в виде
122
Гл. 5. Скорости сходимости в
g = К + g*, где j g* = 0 и J | х |pg* = 0 (поскольку J | х \рg
= j | х |р К). Таким образом,
1
Jg2 = f№ +j(g*)2 + 2 J£+X(l_|x|p)g* =
— 1
= j№ + Jfe*)2 + ^ j (|x|p-l)g‘^j№ +jOT
[-i. i]c
в силу того, что g* 0 на [—1,1 ]с (иначе функция g не была
бы плотностью) и | х |р 1 на [—1,1 К Правая часть этого не-
равенства минимальна, если g* = 0 почти всюду. Лемма 18 до-
казана.
Лемма 19. Пусть Вп = Е (fn)—f. Тогда для ядерной оценки
(1) при любых К С имеем
£(j|fn-f|)^J|Bn|~2/4|x|tf(x)dx, Л->0.
Доказательство. Первое неравенство следует из границы
Йенсена. Для доказательства второго соотношения заметим, что
величина Е (fn) не превосходит единицы на [0, 1), так что J | Вп | =
= 2 f E(fn).
гр. Uc
Но если плотности К соответствует функция распределения F
и Y — случайная величина с плотностью К, то
[о, i]c	[о, 1F
о
= j (—P(hY >1 -x)4-P(ftF>-x))dx +
—оо
+ f (P(hY< 1 - x) - P(hY < - x))dx =
1
= J (P (hY < - x) + P (hY > x)) dx +
0
+ j°(—P (hY > x) - P (hY < - x))dx =
1
= ft£(| У I) + О(Л)
при E (| Y I) < оо и h -» 0.
7. Равномерная плотность
123
Лемма 20. Если h -> 0, nh оо и К — ограниченная плот-
ность с компактным носителем, то Е (Jn) (а + о (1)) -j/2/nnh,
где а = ]/"J №.
Доказательство. Из леммы 9 и неравенства ф (и)	У2/л
следует
£(7пМ|/—--------------Я^’
т
где Т = [0, 1 ]. Кроме того, X (Т*) -► 1, так как h -> 0. В силу
леммы 10
Лемма 20 доказана.
Теорема 7. Если К — ограниченная плотность с компактным
носителем, то для ядерной оценки (1), примененной к равномерной
на [0, 11 плотности f, имеем
hrn int inj»''» Е (Л) 3» (A f № J I х I Куа э= (JL)1'3.
Доказательство. Воспроизводя доказательство теоремы 2, по-
лучим
inf Е (Jn) max min (2/11х| К,
где мы применили леммы 19 и 20. Данный максимум достигается
при t = (а2 / (2л« (J | х | Я)2))‘/3. Подстановка этого значения t
в максимизируемую функцию дает средний член в цепочке не-
равенств теоремы 7. Применяя лемму 18 при р — 1, получим
нижнюю границу, не зависящую от Д.
Теорема 8. Если К — ограниченная плотность с компактным
носителем, то для ядерной оценки (1), примененной к равномерной
на [0, 1 ] плотности f, выполнено неравенство
n-upinf^ (Л) , ((A)- + (A)-) (J „ । кГ.
Доказательство. Пусть Т = [0, 1], и пусть все символы,
используемые без определения, обозначают то же, что в § 2 и 3.
Из доказательства теоремы 1 следует
т
Г
I	124
1
Гл. 5. Скорости сходимости в Lx
В силу леммы 10
j	J У nh У nh
Далее, в силу неравенства ф (и) < ц + j/2/ji и леммы 19
Е (Jn) = Е (Jn (Г')) 4- Е (Jn (Г)) = Е / J М + Е (Jn (Т)) <
\ТС /
< Мш/тЬ -н J |В„| =
?с	Т Т
= 2h J |х| К + 0(h) + /4 А +
J	' я У nh \У nh /
Главные члены этой верхней границы достигают минимума при
Л3/2 = (а у2/я) / (4 j | х| Д’ Получаем
П'/3£ (/п) < (JL j | х | К j 1/3 (4’/з 4- 2-1/3 + 0 (1)),
что и требовалось доказать.
Здесь не исследовалось точное асимптотическое поведение
оптимальной ядерной оценки. Тем не менее с помощью незамысло-
ватых рассуждений были получены верхняя граница (теорема 8)
и нижняя граница (теорема 7), отношение которых равно
2>/з-L.2-2/3 = 1,8898816... .
Границы верны при любых ограниченных К с компактным носи-
телем. Значение h, при котором достигается верхняя граница
теоремы 8, равно
Таким образом, если имеющейся информации недостаточно для
исключения возможности того, что f — равномерная плотность
на [0, 11, то опасно позволять параметру h изменяться по закону
c*rt-i/5. в самом деле, при этом из леммы 19 явствует, что для
равномерной- плотности
Е (Jn) (| | х | К + о (1)) 2с*п~|/5,
т. е. скорость сходимости заведомо ниже, чем оптимальная ско-
рость, указанная в теоремах 7 и 8.
В заключение заметим, что для равномерной плотности f
оптимальным является не ядро Епанечникова (оно оптимально
8. Минимаксная стратегия выбора параметра сглаживания
125
для узкого класса ^"из теоремы 1), а равнобедренное треугольное
ядро I — | х |, | х| < 1. Это следует из теорем 7 и 8 и леммы 18.
Для остальных членов семейства бета-распределений получаются
другие оптимальные ядра, форма которых зависит от характера
имеющегося разрыва.
8.	Минимаксная стратегия
выбора параметра сглаживания
Возможны случаи, когда гладкость плотности f вызывает
сомнения, например, если есть подозрение, что f имеет разрыв.
Для таких случаев теорема 1 не дает никаких указаний по выбору
параметра h ядерной оценки. Действительно, .если f — равномер-
ная плотность на [0, 1 ], то, как показано в § 7, следует опасаться
выбора h в виде произведения некоторой постоянной на п-1/5.
Можно действовать осторожно, увеличивая класс плотностей,
находя на нем верхнюю границу для Е (Jn) и получая h в резуль-
тате минимизации данной верхней границы. В этом состоит мини-
максная смешанная стратегия. Стратегия такого типа для ядер-
ной оценки в случае критерия Ла разработана в статье Wertz
(1972).
Рассмотрим сначала класс плотностей из § 4, т. е. класс
всех абсолютно непрерывных плотностей Д имеющих ограничен-
ную и непрерывную п. в. производную f и, следовательно, таких,
что J । f | < оо. Для плотностей из этого класса был определен
коэффициент
в„т-((|//П|г|/2)1Л
Несколько обобщая определение этого коэффициента, положим
где С — некоторая непрерывно-дифференцируемая плотность
с компактным носителем.
Основное утверждение этого параграфа состоит в том, что если
выбрать h в виде произведения некоторой постоянной на п~1/3,
то Е (Jn) = о (п_,/3) для любых плотностей с компактным носи-
телем, для которых величина Вн (/) конечна. Этим условиям
удовлетворяют все абсолютно непрерывные плотности с компакт-
ным носителем и даже плотности с простыми разрывами, такие, как
равномерная плотность на . [О, 1]. Установим ряд свойств, анало-
гичных тем, которые найдены в § 2 и 3. В некоторых леммах
дадим лишь наброски доказательств.
1
126
Гл. 5. Скорости сходимости в
Лемма 21. Пусть f и К — произвольные плотности на R.
Тогда
f И * Kh - Л < hy lim inf j | (f * фа)' |
a |0 J
при любых h > 0, где у = j | x | К.
Доказательство. Пусть сначала f £ 3~. Так как
у
W = J f' (?) dz,
X
TO
j I f * V - л = j | J X (^) f (y)dy | dx,
где
Отсюда следует, что
J K(z)dz,
X
X
j tf(z)dz,
x^ 0,
x<0.
JI/* кл — f| eft JIГI j J к I = Л J/l/' IV.
Обобщение на случай произвольной плотности f проводится так
же, как в лемме 4 (ii); оно основано на том, что функция f * <ро
принадлежит классу при любых f и любых а > 0.
Теорема 9. Вн (/) = ВИ (/) при любых f £ При любых
f имеет место граница В*ц (/)	1, которая достигается на равно-
мерной плотности на [0, 1].
Доказательство. Доказательство первого утверждения не пред-
ставляет большого труда (см., например, аналогичное доказа-
тельство в лемме 2), и оно опускается. Второе утверждение ча-
стично, т. е. для всех f £	, доказано в лемме 15. Покажем здесь,
что оно справедливо при любых [. Используя неравенства
J VI> l//sup7 и J | (f * <ро)' | > 2 sup (f ♦ <ра)
(см. лемму 15), получим
Вн (f)3 sup (f * <p0)/sup f
при любых а > 0. Но так как f * фа -► / для почти всех х при
а | 0 (теорема 2.3), то ясно, что sup sup (f * фа) > sup f (между
а>0
8. Минимаксная стратегия выбора параметра сглаживания 127
прочим, всегда sup(f* <pa)<sup f) и, таким образом, ВЦ (f)3 >
Теорема 10. Пусть К — ограниченная плотность с ком-
пактным носителем, и пусть h удовлетворяет условию (3). Тогда
для ядерной оценки (1) и любой плотности f с компактным носи-
телем
1 /“2“ a f	r
Е (А) < У -г + Ay sup Г | (/ ♦ <pa)' | + о «nh)~^.
Т 31 V nh	a>0 J
Более того,	,
lim sup inf n1/3E (J„) < CM, (Л) B*H (f),
П-+-00 ft
где
С* = 3/л1/3 = 2,0483522 ...
u
Л1(К) = (а2Т)'/3.
Если величина Вн (/) конечна, то верхняя граница CMi (К) Вн (f)
не нарушается при следующем выборе параметра h:
' 31 2у sup I | (f * <pa)' I
а>0^
Доказательство. Так же как в доказательстве теоремы 1,
на ограниченных интервалах Т имеем
jE(|/n-f|)< j(yjLGn + |Bn|) +
т	т 4	'
< y'vT^T I + Л? SUP Л 1 + ° (.(nh)~i/2y
’ п У nh J	a>0 J
где мы воспользовались леммами 10 и 21. Если К имеет компакт-
ный носитель, то, выбирая интервал Т достаточно большим,
получим, что Е (Jn) = Е (Jn (Т)) при любых п, откуда следует
искомый результат.
Главные члены верхней границы имеют вид uhr1/2 + vh. Это
выражение как функция от h достигает при h — (u/2u)2/3 мини-
мума, равного (и2и)1/3 3/41/3. Но последнее выражение можно
записать в виде С*А* (Д) ВЦ (/), и теорема доказана.
Здесь надо сделать несколько замечаний. Во-первых, в силу
леммы 18 величина Лх (К) больше или равна (2/9),/3, и это ми-
нимальное значение достигается на равнобедренной треугольной
плотности 1 —| х | на [—1, 1]. Если подставить это значение
128
Гл. 5. Скорости сходимости в
Лх (К) в верхнюю границу, то она станет равной (6/л)1/3В‘/ (f) =
= 1,240701 ... Вн (f). Данный результат лучше, чем верхняя
граница теоремы 6 для гистограммной оценки, и он очень близок
к нижней границе теоремы 5 для той же оценки. Если исполь-
зуется оптимальное ядро К, то величина Л, указанная в теореме 10,
равна
(достаточно подставить а = /"2/3 и у = 1/3 в формулу для h).
Наконец, так как верхняя граница теоремы 10 достигает
минимума на равномерной на [0, 1.1 плотности (см. теорему 9),
то перед построением ядерной оценки пользователю выгодно
преобразовать данные, стремясь сделать их как можно «более
равномерными».
9.	Классы Липшица, классы Бретаньоля—Юбер
и равномерные верхние границы
Так же как в § 4.2, обозначим W (s, а, С) класс Липшица с па-
раметрами s, а, С, т. е. класс всех плотностей на [0, 11, имею-
щих (s — 1) абсолютно непрерывных производных и таких, что
I М (X) -	(у) I < С I X - у |“
при любых х, у £ R. Здесь а £ (0, 1], s — неотрицательное
целое число и С > 0. Обозначим Fs> г класс Бретаньоля Юбер
с параметрами хи г (s — положительное целое число и г > 0),
т. е. класс всех плотностей на [0, 1 ], для которых D*s (f) < г,
где величина DI (/) определяется следующим образом:
Ds* КТГ^Р 11 *4>o)(s) |J/<2S+I)-
Здесь ср — четная ограниченная плотность с компактным носи-
телем, монотонная на [0, оо) и имеющая s абсолютно непрерывных
производных. Заметим, что данное определение несколько отли-
чается от определений аналогичных величин в гл. 4.и § 5.1—5.8.
В теореме 4.6 было показано, что при достаточно больших С
для любых оценок плотности fn выполнено соотношение
sup Eif|fn-n)>
f£W(s,a,C) 'J	'
^.(Съ + О (1)) C!/<2 (s+“)+l)n- (s+“)/(2 («+<X)+1>
(в обозначениях теоремы 4.6). Напомним, что с3 — с3 (s, а) > 0.
Аналогичная минимаксная нижняя граница для Fs, г, равная
9. Классы Липшица и классы Бретаньоля—Юбер
129
с4 (г) /i-s/(2s+i)( получена в теореме 4.3 при достаточно боль-
ших г.
Наша цель сейчас — показать, что если несколько обобщить
определение ядерной оценки, то, с точностью до коэффициента
пропорциональности, не зависящего от п, С и г, на этой оценке
будут достигаться указанные границы. Отметим, что этот факт
очень важен. На других оценках можно достичь в лучшем случае
лишь уменьшения коэффициента пропорциональности в границе
сверху для минимаксного Lj-риска. Поэтому мы будем серьезно
рассматривать другие оценки только для специальных классов
плотностей (таких, как множество монотонных плотностей на
[О, 1 ] и т. д.).
Для классов Липшица рассмотрим только случай, когда а = 1,
поскольку случай 0 < а < 1, конечно, менее интересен. Однако
исследование этого случая после знакомства с общим анализом
при а = 1 является хорошим упражнением. Отметим еще, что
будет избран краткий способ доказательства: верхние границы
будут получены очень просто, путем весьма грубого раздельного
рассмотрения членов, соответствующих смещению и дисперсии.
Это приведет лишь к незначительному ухудшению коэффициентов
пропорциональности. При изложении будем частично следовать
работе Bretagnolle, Huber (1979).
Лемма 22 (равномерные границы для смещения). Пусть К —
измеримая симметричная функция, удовлетворяющая условиям
Jk = 1, |х‘Л = 0, i = l, ..., s — 1,
11 X» 11 к | < оо,
и пусть L — ядро, ассоциированное с К, т. е.
00
L (X) = (-1)« J	К ЛУ’ х > °’
L (—х) = (—1)» L (х), х < О,
Тогда j | L | < оо. Если s = 1, Д’О, то J | L | = J | х | К,
и если s = 2, К 0, то J | L | = [ х2/</2. Если функция! имеет
(s — 1) абсолютно непрерывных производных, то
J|£| Jlf(s) |.
При любых f имеем
f I f - fl < Л’ J | L | lim inf f | (f *<₽0)<‘> |.
9 Деврой Л., Дьёрфи Л.
130
Гл. 5. Скорости сходимости в Lt
При f С W (s— 1, 1, С), si> 1, последняя верхняя граница не
превосходит
Ch* J | L |.
Доказательство.
J| Ь | = 2 J J
0 X
оо / У	-	\	оо
о 'о	'	о
При s = 1, s = 2 и Д’ > О здесь везде выполнены равенства, что
позволяет получить в явном виде простые выражения для j | L |.
Если функция / имеет (s — 1) абсолютно непрерывных произ-.
водных, то, используя разложение в ряд Тейлора, получим
s—1	•	х+у
/->	X
Пусть через Lh обозначается (1/Л) L (x/h) и функция (£)Л опре-
деляется так же, как L, с заменой К на Тогда
= (L)h = h*f^*Lh.
Таким образом,
Известно, что при фиксированном й > 0 и любых f имеем
\f*Kh ~f I = Hm inf | (f*Kh — f)*4>a | =
a|0
= lim inf I	- f *4>a |
a |0
для почти всех x. Следовательно, при том же Л получим
f \f*Kh~f\ < lim inf f |/*Фа*Лл-/*ф0 | <
J	a{0 J
< lim inf Л® (| (f * фо)<я) | (| L |,
a|0 J
если воспользоваться леммой Фату. При любых f из класса
W (s — 1, 1, С) интеграл в последнем выражении ограничен
сверху величиной С в силу неравенства j |	* фа | •< С.
Для доказательства этого неравенства заметим, что функция
9. Классы Липшица и классы Бретаньоля—Юбер
131
/(S-I) является С-липшицевой. Но для любой С-липшицевой функ-
ции g на R имеем
| j £ (*/) ФИ* - У) dy\ = I J (g (у) - g (х)) q>; (х - у) dy | с
< J I ё (У) - g (х) 11 Фа (х - у) | dy <
< С j I х - у 11 <f>; (* — У) I dy =
= с J | Z 11 ф' (z) I dz =
= —2 j С?ф' (?) dz = 2С J ф (?) dz — С.
о	о
Так как lim inf | | g * фа I = 0 для любых С-липшицевых
°*°	[0, 1]с
функций g, сосредоточенных на (0,11, то лемма 22 доказана.
(Чтобы убедиться в этом, заметим, что функция g * фа ограничена
по абсолютной величине постоянной С и равна нулю вне [—аМ,
1 + аМ], где М — число, зависящее от носителя ф.)
Лемма 23 (равномерные границы для вариации). Пусть К —
ядро на R, равное нулю вне отрезка (—1, 11 и удовлетворяющее
условиям леммы 22. Положим Cs = lim inf | | (f * фа)<5> | и а =
____	а|0 J
= j № < оо. Тогда, если плотность f сосредоточена на [0, 1 ],
Е (J | fn - f * Kh |) < (nft)"'/2 (a J /Г + ________________
+ jZCr (/? + 2Л2) f | x | №/2 ).
Доказательство. Применяя к Е (| fn — f * Kh |) неравенство
Коши — Шварца, получим
е (J । п - f * Кл |) < (n/i)-i/2 f Ума,
где Кй(х) = (1/Л) № (x/h). Если обозначить К+ = № /|к2, то
эту верхнюю границу можно переписать в виде
(пЛ)-'/2 a J с («Л)-1/2а (J // + J	|) <
— \
(по неравенству Коши)
< (nh)~1'2 а
9*
132
Гл. 5. Скорости сходимости в
< (пЛ)-'/2а ( j // + У (1 + 2ft) hCt J | x | X+/2)
(по лемме 22),
что и требовалось доказать.
Теорема 11 (минимаксные верхние границы). Пусть функ-
ции К и L — такие же, как в леммах 22 и 23, и пусть а и Cs —
величины, определенные в лемме 23. Тогда для любых плотностей f,
сосредоточенных на [0, 1], имеем
|) < й®С8 J | L | +
+ (пЛ)~1/2 (a J /Г + У Ct (h + 2ft2) J | x | №/2 ),
где fn — ядерная оценка с ядром К. В частности, для W (s — 1,
1, С) при любых s 1 имеет место следующая минимаксная
верхняя граница'.
inf sup Е ( [|gn -f|) <
<	inf sup E([|fn-f|)<
h>Qt	(s—1, 1, C)	'
К
<	inf (2sC J | L | a2s n^)1/<2s+1) (1 + о (1)),
где через gn обозначается произвольная оценка плотности. Нижние
грани здесь берутся по всем К, удовлетворяющим условиям лемм 22
и 23. Последнее неравенство можно получить, например, если
выбрать
h = (_____-___\2/(2s+1) n-i/(2s+l)
2sC J | L | )
В частности, при s = 1 верхняя граница равна произведению
(1 + о (1)) на
Последняя величина получается при выборе треугольного ядра К
(для которого а2 = 2/3, J |х| К. = 1/3). В случае s = 2 нижняя
грань верхней границы, равная
(1 + о (1)) (225С/512)1/5п~2/5,
достигается на ядре Епанечникова 3 (1 — х2)+/4 (для которого
J х2Х = 1/5, и J № = 3/5).
9. Классы Липшица и классы Бретаньоля—Юбер	133
Доказательство. Первое неравенство следует из лемм 22 и 23.
Для доказательства второй цепочки неравенств требуются три
факта. Во-первых, для любых плотностей [, сосредоточенных на
(0,1], имеем Сх С2 < С3 ... < Cs. Кроме того, С3 < С
для любой плотности / £ W ($— 1, 1, С) (см. доказательство
леммы 22). Во-вторых, если плотность f равна нулю вне [0, 1 ],
то [ j/f 1. В-третьих, функция hsC j | L | + а/у^nh достигает
минимума при значении h, указанном в теореме. Формальной под-
становкой этого значения h получим требуемую верхнюю границу.
Оставшаяся часть доказательства очевидна,
Минимаксная нижняя граница теоремы 4.6 для W (s — 1, 1, С)
и минимаксная верхняя граница теоремы 11 зависят от п и С
одинаковым образом. Они отличаются друг от друга только коэф-
фициентами пропорциональности, которые в свою очередь зависят
только от s. Полезно понять, каково расхождение между этими
границами для наиболее важных классов W (0, 1, С) и W (1, 1, С).
Напомним, что для W (0, 1, С) коэффициент при (С/«)|/3 в теореме
4.7 равен (21/160) (12/25)1/3, так что отношение верхней границы
к нижней приблизительно равно 11. Для W (1, 1, С) это отноше-
ние порядка 30. Вне всякого сомнения, верхние границы не яв-
ляются точными: они получены для достаточно примитивной
оценки — ядерной с зависящим только от s, С и К параметром
сглаживания Л! Гораздо более эффективным представляется,
конечно, выбор параметра Л, зависящего от f (см. гл. 6, где рас-
сматривается адаптивный выбор Л).
Однако можно встать на пессимистическую позицию, выбирая
оценку так, чтобы минимизировать максимальный риск для
определенного класса, например, для W (s— 1, 1, С). (Это имеет
смысл, если требуется получить грубое начальное приближение
или если никакие другие методы не приводят к успеху.) В таком
случае следует выбирать h, как указано в теореме 11.
Кроме h требуется выбрать еще ядро К. Мы знаем, что в слу-
чаях s=l и s = 2 следует выбирать равнобедренную треуголь-
ную плотность К на [—1, 1] и ядро Епанечникова. При s>3
обязательно нужно, чтобы ядро К принимало отрицательные зна-
чения, и в связи с этим оценка fn уже не может быть плотностью,
несмотря на то что интеграл от нее по-прежнему равен единице.
Впрочем, как показано в § 7.6, такие оценки можно легко норма-
лизовать. Бартлетт (Bartlett (1963)) первым указал, что при вы-
боре таких ядер, как в леммах 22 и 23, можно получить улучше-
ние скоростей сходимости (см. также подробный анализ в § 7.6).
Кроме того, он нашел оптимальный вид К. при $ = 4. Не пред-
ставляет большого труда построить ядра К, удовлетворяющие
условиям лемм 22 и 23 в общем случае. Например, рассмотрим
134	Гл. 5. Скорости сходимости в
сначала некоторую исходную симметричную плотность К, сосре-
доточенную на [—1, 1 ]. При фиксированном s достаточно только
найти действительные числа pt (не обязательно положительные),
такие, что функция
N
S PiK\n
1=1
удовлетворяет требуемым условиям. (Кстати, выбор значений \/i
сделан по произволу, и их можно заменить на другие положитель-
ные числа из (0, 1).) Если Л, скажем, равномерная плотность
на [—1, 1], то получаются следующие условия:
SPi = 1, Е/>г1-2 = о, £/м~* = о,.... Epit-<s~2) = о
при четных s, s 4. Как правило, существует решение с N = s/2
компонентами смеси. См. также работу Bretagnolle, Huber (1979),
где даны другие методы построения, основанные на полиномах
Лежандра.
Из первого неравенства теоремы 11 видно, что верхняя гра-
ница для средней ^-ошибки при фиксированной плотности /
может быть гораздо меньше, чем минимаксная верхняя граница.
В частности, величина j j/J может быть значительно меньше
единицы, несмотря на то что имеет место следующий факт.
Лемма 24. Для любых f из класса W (0, 1, С), С 4, спра-
ведливы неравенства
3/2	ЗС1/4 *
Оба неравенства достигаются.
Доказательство. Верхняя граница достигается на равнобедрен-
ной треугольной плотности на [0, 1 ], которая равна 4х на [0, 1/2].
(Эта плотность в определенном смысле является «самой гладкой»
в классе W (0, 1, С).) Нижняя граница достигается на равно-
бедренной треугольной плотности на 11/2 — Ь, 1/2 + Ь], где b =
= I/]/'С (тангенс угла наклона сторон треугольника, конечна,
равен С).
Таким образом, при больших С минимаксная верхняя граница
теоремы 11 оказывается менее мощной — она не дает правильной
информации о большинстве плотностей из данного класса Лип-
шица.
Подход, принятый выше для классов W (s, 1, С), нельзя ис-
пользовать при получении равномерной верхней границы для
9. Классы Липшица и классы Бретаньоля—Юбер	135
классов Бретаньоля — Юбер Fs> г, ибо для них значение Л, пра-
вильным образом зависящее от г, оказывается не только функцией
от s, г и п, но и от Cs и | У7- Но так как величины С3 и [ Ff
не известны, то их требуется оценить. Поэтому, строго говоря,
следует рассматривать только ядерные оценки, у которых пара-
метр h зависит от выборочных данных и асимптотически стремится
к оптимальному h. Эта адаптивная стратегия использовалась
Бретаньолем и Юбер (Bretagnolle, Huber (1979)) при поиске мини-
максной верхней границы для FSt г. Отметим также, что на классе
FSt г величина j j/f не ограничена равномерно снизу, a Cs не
ограничена равномерно сверху. (Это следует из того, что для одной
и той же плотности можно использовать различные масштабы!)
Доказательство верхней границы для FSi г здесь не приводится,
поскольку это довольно нудная процедура, состоящая в следу-
ющем. Сначала разобьем данные на несколько частей и восполь-
зуемся одной из малых частей (объема о (п)) для оценивания h
и большой частью (объема ~п) для построения ядерной оценки
с таким h. Затем получим верхнюю границу для sup Е (| |/п — f |1,
fQF3,r
равную супремуму по FSt г математического ожидания правой
части первого неравенства теоремы 11. После того убедимся, что
эта граница не превосходит произведение величины гп-»/<2«+0
на постоянную, не зависящую от г и п.
Равномерное неравенство теоремы 11 полезно не только для
получения минимаксных верхних границ, но и во многих других
отношениях. Так, его можно применять при любых п, и потому
оно представляет большую ценность для тех, кто работает с малой
выборкой. Но более важно то, что с помощью этого неравенства
можно находить скорость сходимости ядерной оценки со случай-
ным параметром сглаживания h, не зависящим от Хх, ..., Хп.
Типичен случай, когда величина h является функцией от Х„+1, ...
..., Xn+m. Имеет место
Теорема 12. При условиях и обозначениях теоремы 11 для
ядерной оценки fn с параметром сглаживания h, не зависящим
от Х1( ..., Хп, остается в силе граница теоремы 11, если только
в правой ее части взять математическое ожидание по h. Пусть,
в частности, существует последовательность положительных чи-
сел hn0, такая, что hn0 —>- 0, лЛп0 -> оо, и
E(hs)~hsn0, E(h~',2)~hn^, Е(//Г)->0,
и пусть j | х | № < оо. Тогда
Е (J I fn - f |) < (ftnoCs f | L | + (nft„oF,/2 a J /Г) (1 + о (1)).

136	Гл. 5. Скорости сходимости в
Если Cs < оо, J < оо u	.
/ а f/Г V/(2S+°	*
' Лпо= -------S-----	«->/(2.4-1),
у 2sCsJ |L| J
mo
<	(2s j | L | a-n-‘)l/(2s+1) Dt (f) (1 +0(l)).
В случае когда параметр сглаживания ft зависит от данных,
требуется более сильная теорема. Состоятельность оценок в этом
случае изучается в гл. 6.
I
10. Плотности с неограниченным носителем
До сих пор мы откладывали рассмотрение задачи о поведении	?
оценок для плотностей f с неограниченным носителем. Тому	1
имеются две причины: меньшая важность этого случая (данные	|
всегда можно монотонно отобразить на [0, 1 ]; плотности с не-	|
ограниченным носителем реже встречаются на практике) и не-	;
желание перегружать текст дополнительными обозначениями и	I
понятиями, которые только отвлекали бы от основных идей.	I
В теоремах 2 и 5 получены нижние границы при любых /.	J
Поэтому достаточно вывести лишь верхние границы для Е (Jn).	।
Рассмотрим здесь только ядерную оценку, поскольку случай	•
гистограммной оценки аналогичен. Если исходить из равномерной
верхней границы теоремы 11, то можно сделать доказательства
очень короткими. Однако следует отдавать себе отчет, что при
этом мы несколько поступимся точностью по сравнению с грани-
цами теорем 1 и 6, полученными с помощью неравенств типа
Берри — Эссеена для отклонений от нормального закона. Из
леммы 23 и теоремы 11 получим следующий результат.	j
Лемма 25. Пусть fn — ядерная оценка на R с ядром К и функ-	{
цией L, такими, как в леммах 22 и 23, и пусть s > 1 — целое	i
число. Обозначим	,	|
= sup J | *Фо)<*> |,
а>0 J
где ср — четная ограниченная плотность с компактным носителем,
монотонная на [0, оо) и имеющая s абсолютно непрерывных произ-
водных. Тогда
£ (f I /п - f l) < h‘Cs J I L I + (nft)->/2 [ //*(№)„ .	fj
J
10. Плотности с неограниченным носителем
137
Равномерная граница леммы 25 указывает на важную роль
вездесущего множителя j // * (№)л. которому мы посвящаем
отдельную лемму.
Лемма 26 (множитель j V7 * (K2)h. Пусть К. — произволь-
ная измеримая функция на R, дополнительные условия на которую
указываются в различных утверждениях данной леммы, и пусть
f — плотность на R.
А. Существует плотность f на R, такая, что [ j/J < оо,
но j Vf * (№)д = оо при любых достаточно малых h и любых
ядрах /<, сосредоточенных на [—1, 1], ограниченных по абсолют-
ной величине некоторой постоянной и удовлетворяющих условию
j«=l.	—
в. j/RK’i.s.JrT У\№. в частности, J/мййл =
= оо при j Уf = оо.
с. j// * (№)л	к* при h | 0, если ядро К
ограниченно и имеет компактный носитель, а функция f удовлет-
воряет следующим условиям:
(i) Существуют положительные числа t, Т, такие, что
f 1/" sup f (у) dx < со.
(ii) Функция f непрерывна почти всюду.
D. Если функции f и К симметричны и унимодальны, то
J //Т/ё < 2 j у J № + У 2 j | К | .
Доказательство. А. Пусть f — индикаторная функция множе-
ства (J 12‘\ 2‘ + 1/i (i + 1)], i1. Ясно, что j = 1. Кроме
того, при h 1/2 имеем
00 2‘ + а (Ж))-1 +Л
2'—h
138	Гл. 5. Скорости сходимости в Li
оо 21 + (t (i+D)—Цл
2 j /*(№)h
i==i___2Z-/t_____________
"	sup Г/*(№)Л
-А<х-2‘<Л+ (i (i+D)-1
у Ум a +1) i r м2 _ M
i=i
где К* — равномерная граница для | К|.
В.	По неравенству Йенсена f * (№)д y/~f ♦ (№)Л /J№•
С.	Пусть t и Т — числа из условия (i), и пусть К. равно нулю
вне I—1, 1]. Имеем
W*(№)ft(x) < 1/ sup / (I/) J №.
Правая часть этого неравенства меньше, чем некоторая фиксиро-
ванная интегрируемая функция, при h < t (в силу (i)). По тео-
реме 2.3 f * (№)л -► /J № для почти всех х, так что теорема
Лебега о мажорируемой сходимости дает
f //*(№)„ -> I /Г У J №.
[—Т,Т]С	[—Т,
Кроме того, если положить № = № / J №, то
J1~	/f №| < / J № J |- /Г I <
r____ т
< 1/ J № [	<
]/2Tf- f | = о(1),
где мы воспользовались теоремой 2.1.
D.	Предположим, что х > 0. Тогда
\f(y)K4x-y)dy J f (у) K*(x/2)dy +
У<х/2
+ j / (х/2) № (х - у) dy <
х/2^у
^К2 (x/2) + f(x/2)j№.
10. Плотности с неограниченным носителем
139
Квадратный корень от правой части не превосходит величины
| К (х/2) | + V f (х/2) ]/”j №. Интегрирование по х приводит
к указанному в лемме неравенству.
Теорема 13. Пусть s 1 — целое число и К — симметричная
ограниченная функция с компактным носителем, удовлетворя-
ющая условиям леммы 22. Пусть L — функция из леммы 22 и
Cs — постоянная из леммы 25. При плотностях f, удовлетворя-
ющих условию С леммы 26, для ядерной оценки fn выполнено не-
равенство
£(jlfn-fl)«Cs +	]/j №(! + о(1))
npuh | 0. В частности, если Cs < оо и J < оо (т. е. DI (/) <
< оо) и
f/PMY/<2s+1)
h = Г J . ------ «-1/(23+!),
\ 2sC,J|L| J
mo
E (J | fn - f I) <	(2s f | L | (/jT2)2S "-s)1/(2S+1> X
xd; (/)(!+ o(l)).
Доказательство. Теорема 13 без труда следует из теоремы 11
и утверждения С леммы 26.
Таким образом, даже для плотностей f с неограниченным носи-
телем величина Dj (/), по-видимому, может рассматриваться как
мера сложности. Наиболее важными снова являются случаи
s — 1 и s = 2. В этих случаях ядро К, при котором граница мини-
мальна, не зависит от f и снова представляет собой равнобедрен-
ную треугольную плотность при s = 1 и ядро Епанечникова
при s=2. При таком выборе ядер К верхние границы принимают
вид
(3/2п)‘/3 Df (f) = (3/п)«/з В*н (f) (s = 1)
и
(225/512)I/5 n-2/5D2‘ (/) = (225/256)1/5 п~2'6В* (f) (s = 2).
Эти границы превышают соответствующие верхние границы тео-
рем 10 и 1 только в знаках после запятой. Оптимальные значения h
тоже очень мало отличаются от тех, которые были получены для
плотностей с компактными носителями в теоремах 10 и 1.
Завершим этот параграф замечанием о том, что условие С леммы
26 выполнено для любых ограниченных унимодальных и непре-
140
Гл. 5. Скорости сходимости в Lj
рывных почти всюду плотностей /, таких, что J у f < оо. Дей-
ствительно, если т — мода, то при х > т имеем
sup / (у) < f (max (х — t, т)),
I У—х । < t
и квадратный корень от последнего выражения является интегри-
руемой функцией при любом t.
И. Несмещенность и достижимость скорости
убывания ошибки 1/)/п
Скорость убывания средней ошибки ядерной оценки в Lx
равна п-*/(2»+О при любых f из классов FStr или W (s — 1, 1, С)
(см. теорему 11) и при соответствующем выборе Д' и Л. Если уве-
личивать s, то эти классы сужаются, а скорость приближается
к n~i/2. Вспомним еще, что наилучшая минимаксная скорость
сходимости любой оценки плотности на таких простых однопара-
метрических классах, как Qr (g) (теорема 4.8) или П (g) (теорема
4.4), равна 1/у4п. В промежуточном случае имеется пробел,
так как неизвестно, существует ли богатый класс плотностей^*,
такой, что lim sup пЕ ( | | fn — f 11 < оо для некоторой оценки
fn при любых / £ Под «богатым» подразумевается класс,
который нельзя описать конечным числом параметров. Следует,
однако, иметь в виду, что в силу нижних границ из гл. 4 класс ^*
не может быть слишком большим.
В случае L2 ответ на рассматриваемый вопрос — утвердитель-
ный. Именно Ибрагимов, Хасьминский (1982) получили следу-
ющий удивительный результат.
Теорема 14 (Ибрагимов, Хасьминский, 1982). Пусть Аг —
класс всех плотностей, характеристическая функция которых
равна нулю вне I—Т, Т]. Тогда
lim inf sup пЕ ( [ (fn - f)2) =	,
n-oo fn f^AT	Л
где через fn обозначается произвольная оценка плотности.
Здесь надо сделать несколько замечаний. Во-первых, класс Af
состоит из исключительно гладких плотностей, ибо условия
на хвосты характеристической функции соответствуют условиям
гладкости плотности. Так как характеристическая функция <р
абсолютно интегрируема, то можно выразить f через <р по формуле
обратного преобразования
f (x) = (2n)’> |е-‘^<р(/)Л
11. Несмещенность ошибки \/]f п
141
(см. Lukacs (1970)). На самом деле можно вычислить и f<s>, диф-
ференцируя з раз под знаком данного интеграла. Используя это,
получим
Р	1	7*5+1
JI /'•' I < -S- тгт
при любых натуральных з.
К сожалению, не существует неравенств, непосредственно свя-
зывающих ошибки в £х и в £2, и потому из теоремы 14 не следует,
что
lim sup n sup Е (| | fn — f |) < оо
п->оо	f£AT	7
для некоторой оценки fn. Имеется несколько косвенных
неравенств, но они ничего не дают. Примеры таких неравенств
приведены в теореме 8.3.
Тот факт, что скорость /г1/2 достигается на Ат, не удивителен,
поскольку этот класс является «почти» параметрическим. В самом
деле, известно, что по теореме Найквиста *) функция / может быть
полностью восстановлена (Feller (1971)) по своим значениям в точ-
ках iy, i = 0, +1, —1, +2, —2, ... , где у — достаточно малая
положительная постоянная. Следовательно,можно рассматривать
Ат как класс со счетным числом параметров.
Ибрагимов и Хасьминский, более того, показали, что предел
в теореме 14 достигается на оценке типа интеграла Фурье (ОИФ),
описанной Davis (1975, 1977) и Конаковым (1972). Достижимость
скорости сходимости ошибки 1/п в £2 для фиксированных плот-
ностей f С Ат была также замечена Davis (1975, 1977), который
опирался на результаты, полученные в £2 Ватсоном и Лидбетте-
ром (Watson, Leadbetter (1963)). ИОФ есть ядерная оценка с ядром
Заметим, что | К = 1, но [ | К | = оо. Кроме того, характе-
ристическая функция ядра К равна /pi, ц (/)• Интеграл от
оценки fn с таким ядром в точности равен 1, но она не является
абсолютно интегрируемой с вероятностью 1. Таким образом,
нельзя «нормировать» /п, полагая
f.n(x)=
J fn
fn>°
поскольку значения fn были бы равны нулю с вероятностью 1.
1) В отечественной литературе она называется теоремой Котельникова. —
Прим, перев.
142
Гл. 5. Скорости сходимости в Lr
Если бы оценка fn была абсолютно интегрируемой, то в резуль-
тате такой нормировки получилась бы настоящая плотность fn
и, более того, имело бы место неравенство
Jl/A— f I с	- f\.
(Оно следует из теоремы 11.4 о неотрицательной проекции).
Так как нам не известны какие-либо другие нормировки, при
которых не увеличивается ошибка в Llt то, придерживаясь общих
принципов, установленных в начале этой книги, мы не склонны
рекомендовать ОИФ в качестве оценки плотности. Дэвис, Ибраги-
мов и Хасьминский смогли получить в скорость сходимости 1/п
по той причине, что у них при каждом х в оценивании участвовала
вся выборка. Для ядерной оценки это означает, что h не стре-
мится к 0. Но отсюда в свою очередь следует, что | | f — f *
* Kh I = 0 при некотором положительном Л, т. е. оценка является
несмещенной! Если попытаться следовать этим рассуждениям,
то ключом к решению будет существование функции К, такой,
что J К = 1, J | К | < оо (чтобы ее можно было нормировать)
и [ I / — f * Кь \ = ® nPH некотором h > 0 и любых f £ Аг.
Такая функция К, в самом деле, существует, и, следовательно,
можно надеяться, что на Ат скорость сходимости средней ошибки
в Lx получится равной 1/п.
Рассмотрим сначала плотность Валле-Пуссена
К(х) = (2л)-1(^да-)2,
характеристическая функция которой равца (1—| /|)+. Далее,
при некотором постоянном а > 0 (которое будет выбрано ниже)
определим функцию ga (х) = (а + 1) К (х) —	•
Ясно, что j ga = 1 и J | go | < 2а + 1. Кроме того, характери-
стическая функция для ga равна
т. е.
4U0 = (a + l)(l-|d)+-«(l -l-Mr-dL’
\	| U	| / -f-
Фа (0 =
1,
(« + 1) (1 - I t I),
o,
111 < a/(l + a),
a/(l +o) « | /1 < 1,
|/|^1.
Установим теперь несмещенность рассматриваемой ядерной
оценки на АТ.
Теорема 15. Пусть Ат — класс всех плотностей, характери-
стическая функция которых равна нулю вне 1—Т, Т1. Ядерная
11. Несмещенность ошибки 1/Кп
143
оценка с ядром К. и параметрам сглаживания h является несме-
щенной (т. е. j | f — f * /(ft| = 0) в каждом из следующих случаев-.
1. К (х) = sin х/пх, h < 1/Т;
2. К (х) = ga (х) при фиксированном а > 0, h (а/(1 +
+ а)) (1/Т).
Доказательство. Пусть ф — характеристическая функция
для f. Известно, что характеристическая функция для f * Кк
равна ф (/) ф (th), где ф — характеристическая функция для /С
(если К. не является плотностью, то ф определяется как
J eitxK, (х) dx). Для справедливости равенства f = f ♦ Kh при
почти всех х достаточно, что ф (/) = ф (t) ф (th.) при любых t.
Так как / С Ат, то нужно проверить лишь, что ф (th) = 1 при
любых 111 < Т. Для первого ядра имеем ф (t) = 7[-i, ц (t),
и достаточно только потребовать, чтобы было h 1/Т (это рас-
суждение принадлежит Davis (1975, 1977)). Для второго ядра
нужно потребовать, чтобы выполнялось неравенство Th a/(l +
+ а). Теорема 15 доказана.
Прежде чем приступить к исследованию свойств ядерной
оценки с ядром ga при / £ Ат, разберемся в том, чего не следует
ожидать и чего нельзя сделать.
Теорема 16. Пусть fn — ядерная оценка с ядром К, таким,
что I К = 1, f | К | < оо и | sup | К (и) | < оо. Тогда
1)	если h-*-0, то у^~п.Е ( | fn — f |J -> оо при любых f;
2)	если h->Q, nh-^-oo и yff = оо, то f/ТЛЕ (J|/п-/|)->
—> оо;
3)	если характеристическая функция <р плотности f отлична от
нуля всюду, кроме, быть может, множества лебеговой меры нуль, то
/ п inf Е ( j| fn - f |) оо;
Л>0	'
4)	если К. является плотностью (но, возможно не имеет ин-
тегрируемой радиальной мажоранты), то
inf lim inf n2/5 inf Е (f | fn — f |) >0.
f Пч-оо h>0	'
В теореме 16 утверждается, что для построения ядерной
оценки, являющейся «нормируемой» и состоятельной при любых /,
необходимо устремить h к 0, и если это сделать, то скорость 1/у^п
не достигается ни при каких f\ По существу из утверждений 1 и 3
теоремы 16 следует, что нет смысла искать скорость сходимости
ошибки 1/п вне класса АТ. Наконец, в утверждении 4, идентичном
144
Гл. 5. Скорости сходимости в
теореме 2, дается еще более сильная нижняя граница при фиксиро-
ванной плотности f для случая ядер с неотрицательными значе-
ниями. Доказательство теоремы 16 основано на следующих ниж-
них границах.
Лемма 27. Пусть Zb ..., Zn — независимые одинаково распре-
деленные случайные величины с нулевым средним, такие, что
Е (| Zx |р) < оо при некотором р 2. Тогда существуют поло-
жительные постоянные Вр и Ср, зависящие только от р, такие,
что
/ / П \р/2\
ВРЕ I ( S Z-A < Е
п
Szf
i=l
Р\	/ / п \р/2
< СрЕ S ZH
(20)
Более того,
Полагая q = Р (| Zv | > и), и > 0, получим также
п
ng	ng	и ng
4J<2 8 +«7	20 J/2
при nq 2.
Замечание. Первое неравенство леммы 27 принадлежит Marcin-
kiewicz, Zygmund (1937) (см., например, работу Манставичуса
(1982) и указанные в ней ссылки). Ограничимся доказательством
других неравенств леммы 27.
Доказательство леммы 27. Мы будем неоднократно использо-
вать неравенство Е (| U + V |) Е (| U + Е (V |,(/) |), верное
для произвольных случайных величин и, V. Сперва симметризуем
задачу, используя тот факт, что
E(|L/|) = E(|t/|-|-| V|)/2^E(|f/-V|)/2 .
для независимых одинаково распределенных случайных вели-
чин U, V. Таким образом,
i
2,
где величины Z\....Z'n, Zx, ..., Zn независимы и одинаково рас-
пределены. По неравенству Сарека (лемма 28) и неравенству
Йенсена получим, что нижняя граница больше или равна
-^Т=-Е
2 К 2

У п/8Е (| Z\ —
11. Несмещенность ошибки 1/|^л
145
Чтобы убедиться в этом, представим Zt — Z\ в виде RtBt, где
Ri = | Zi — Z\ | и Bi = sgn (Z, — Z;) — не зависящие друг от
друга величины, и возьмем условное математическое ожидание
при фиксированных Rt.
Последнее неравенство леммы 27 получается следующим об-
разом. Положим v = Е (Rj | Ri и), заметим, что v и, и вве-
п,
дем W = У Имеем
п
— Е У S	i>u]
п
(это выражение получается, если взять условное математическое
ожидание при фиксированных Bit	и применить условный
вариант неравенства Йенсена)

' -N	n—N
2^4- 2 Bj+yE (/?r I Rl <
\ <=1	/=1
«)
N
2 vBi
1=1
(в силу независимости при фиксированном Af)
иЕ
Я Bi
1=1
(по неравенству Сарека).
Положим г = Р (| Z, — Zi | > и) и заметим, что г > Р (| Zj | >
> «)/2 = q/2. Так как величина N имеет биномиальное распре-
деление с параметрами (п, г), то, применяя при nr 1 неравен-
ство Чебышёва в форме Кантелли, получим
п
ZZi
1=1
) иЕ (]/jV/8)	«'У'nr Р (N	nrl2)ft
_ ,. Кпг____________(пг/2)2______
4	(пг/2)2 Ч-ПГ(1 — г)
j/"nr	nr	j/"nr Z nq
ii j.......   --и	и ——,
4	4 + nr	20 '	20 /2
что и требовалось доказать.
Лемма 28 (неравенства для биномиального распределения;
неравенство Хинчина). Пусть Уп Yn — независимые случай-
ные величины, принимающие значения +1 и —1 с равными вероят-
ностями. и alt .... ап— действительные числа. Тогда существуют
10 Деврой Л., Дьсрфи Л.
146
Гл. 5. Скорости сходимости в
положительные постоянные Вр и Ср, зависящие только от р> О,
такие, что
Г п
BpV Sa?
F 4=1
^atYt
4 = 1
< EVp
Оптимальными являются следующие значения постоянных:
Вр = 2^-Vp, 0 < р с р0,
Вр = 2>/2 (Г ((р + 1)/2)//^)1/р, р0 < р с 2,
5Р=1, р S== 2,
Ср = 2>/2 (Г ((р h 1)/2)//л )|/р, 2 с р,
Ср = 1, 0 < р с 2.
Здесь р0 = 1,8,4742 ... — решение уравнения Г ((р + 1)/2) =
= Г (3/2), принадлежащее интервалу (1, 2).
Замечание. Оптимальная постоянная Вг — 1/у^2 получена
в работе Szarek (1976) (мы называем соответствующее неравенство
неравенством Сарека). Наилучшие значения Ср, р^> 3, получены
в работе Young (1976). Все случаи одновременно рассмотрены
в работе Haagerup (1978). Кстати, заметим, что если величина Y
имеет биномиальное распределение с параметрами (п, 1/2), то
Е (| Y — п/2 |) > /Л/8.
Лемма 29. Пусть f — плотность с характеристической функ-
цией <р, и пусть К — борелевская функция, удовлетворяющая
условиям j К = 1, | | К | < оо- Предположим, что характери-
стическая функция для К равна 41 (О = j eitx К. (х) dx, t f R.
Тогда
J I f ~f *K I > sup | ф (/) - ф (/) ip (0 |.
Если h -> с, где c > 0 — некоторая постоянная, mo j | f ♦ Kh —
- f * Kc I -> 0.
Доказательство.
sup I ф — <рч|51 = syp | j (f (x) — (f * K) (x)) eiix dx | <
< Jlf(x)-(f*/<) (x)|sup |e"*|dx =
Для доказательства второго утверждения леммы 29 проверьте, что
соотношение (2.4) из доказательства теоремы 2.4 остается в силе.
11. Несмещенность ошибки 1/j/^n
147
Доказательство теоремы 16. Утверждение 4 теоремы 16 со-
держится в теореме 2. Для доказательства остальных утверждений
будут использоваться грубые неравенства
£(j|fn-(21)
Е ( j |/n - Л)э=£( Jl/n - f*Xh |)/2	(22)
(см., например, лемму 3.6). Предположим, что утверждение 1 до-
казано. Тогда утверждение 3 доказывается от противного. В са-
мом деле, если существует подпоследовательность h, для которой
величина У^ пЕ (j | fn — f |) остается ограниченной, то существует
постоянная с, такая, что h -> с на этой подпоследовательности.
Исходя из леммы 29, заключаем, что sup | <р (/) — ф (0 41 (с/) | =
= 0. Но отсюда следует, чтоф (/) = 1, т. е. мера, соответствующая
ф, является атомической с единичной массой в нуле. Мы пришли
к противоречию.
Рассмотрим теперь одновременно утверждения 1 и 2. Применим
лемму 27 при Zt = Zt (х) = (Хп (х — Xt) — Е (Хп (х — Xt)))/n.
Заметим, что Е (Zt (х)) = 0 и
Е ( J |fn - f*Kn |) = J E ( SZ.W
\ 1=1	/
3= j (2»	dx,
В
где a > 0 — число, которое будет выбрано далее; и В — множе-
ство всех х, для которых вероятность Р (|	(х) | > a/nh) больше
или равна 2/п. Здесь мы воспользовались леммой 27. Таким
образом,
/йлЕ (JIЛ, -! I) sj У	dx.
В
Пусть С — множество всех х, для которых | X (х) |	а/2,
и пусть число а > 0 столь мало, что j dx = b > 0 при некотором
с
положительном Ь. Из теоремы 2.3 следует, что Е (| Хп (х — Хг) |) —
— f * I X |л -> f j | К | при почти всех х. При таких х и при h,
достаточно малых для того, чтобы по крайней мере выполнялось
неравенство Е (| Хп (х — XJ |)	a/2h, имеем
р (I (х) | a/nh) > Р (| Хп (х - Хх) |
^a/h-E (| Хп (х - Хг) | )) >
10*
148
Гл. 5. Скорости сходимости в
 Р (| (х - Хх) | п/2Л) =/> (k( x~X1	=
— P(Xl^x — hC)^
~ / (х) ft J dx =	(при почти всех х по теореме 2.3)
= f (х) hb.
Таким образом, если nh ->• оо, то по лемме Фату
lim inf/nftp( [|fn-f|)=s
rt-*oo	J	1
[ lim inf 1в I/ P(\ZAx) \>al^
40/2 J n-.oo В '	Л
—7=^ ( Vf W dx.
f>o
Отсюда непосредственно вытекает утверждение 2 и частично утвер-
ждение 1.
Остается доказать лишь утверждение 1 в случае, когда
lim inf nh < оо. Очевидно, можно считать, что lim sup nh^ Со <
П-*оо	П-*оо
< oo, поскольку случай, когда lim sup nh = oo, можно затем
rt->oo
рассмотреть тривиальным образом. В силу последнего неравен-
ства леммы 27
/«" Е ( JI fn - f |) =э= 4/2" J 4"	* + nq dx’
где q P(|Z1(x) \^a/nh)^f(x)hb(l +°(1)) при почти всех x.
По лемме Фату получим, что нижний предел левой части этого
неравенства равен оо, если
при любых постоянных с > 0. Но последнее следует из того, что
lim inf nh > 0, ft -► 0. Остается рассмотреть случай, когда ft =
= о (1/п). Утверждение 1 теоремы 16 и тем самым сама эта теорема
будут доказаны, если показать, что из условия ft = о (1/п) следует
lim inf е( Г |/п —	1- •
/2->оо J
(Заметим, что это не вытекает из теоремы 3.1, поскольку здесь
допускаются ядра, принимающие отрицательные значения.) Имеем
Е (j\t.-/|)sB=£(Jff-Л)/)-
11. Несмещенность ошибки l/p^zz
149
В силу теоремы Лебега о мажорируемой сходимости для получения
желаемого результата достаточно показать, что fn 0 по вероят-
ности при почти всех х (относительно плотности /). Для доказа-
тельства этого факта ввёдем множество С = {х: | К (х) | >- е},
где е > 0 — произвольное число, и заметим, что если множество
х -) hC не содержит значений то е. Но Р (в х + hC
содержится хотя бы одно из XJ cn j f~+nhf(x) J dy при поч-
x4hC	С
ти всех х. (Это следует из теоремы 2.3, если функция 1С имеет
интегрируемую радиальную мажоранту, и, конечно, является
простым следствием того, что ядро /С имеет интегрируемую ра-
диальную мажоранту.) Далее, j dx < J | К |/е < оо, откуда в силу
с
произвольности е и того, что nh = о (1), следует желаемый ре-
зультат.
Так как множитель j У] равен бесконечности для многих
плотностей из Ат таких, как плотность Валле-Пуссена (в дей-
ствительности, можно показать, что он бесконечен для любых
плотностей с действительнозначными четными характеристиче-
скими функциями, выпуклыми на [О, 7] и равными нулю вне.
[—7, 71), то для того, чтобы можно было пользоваться равно-
мерной границей леммы 25 и неравенством D леммы 26, необхо-
димо в явном виде ввести требование конечности интеграла
По этой причине мы введем несколько более узкий класс плот-
ностей Л г, s, с, где Т, С — положительные постоянные и s >
1 — целое число.
АГ)с ~ [f: f имеет характеристическую функцию ф,
такую, что (i)<p = 0 вне [—7, 7] (т. е. ?£АТ);
(п) функции ф, ..., ф(5~’) существуют и абсо-
лютно непрерывны (их производные п. в. равны
Ф(1), . .	ф(5)); (iii) J | ф(г}) | < С},
Это непустой класс, который, безусловно, нельзя описать конеч-
ным числом параметров. Он, например, содержит все плотности,
характеристические функции которых представляют собой норми-
рованные-(так, чтобы их значение в нуле равнялось 1) свертки
достаточно большого числа функций вида (1 —111)+ (эти свертки
служат приближением для характеристической функции нормаль-
ного распределения). Без учета масштабных множителей такие
плотности имеют вид
х ) 9
где р — целое число. Ясно, конечно, что при некоторых значе-
ниях 7 и С класс ATi Si с пуст. Предупредим со всей определен-
150
Гл. 5. Скорости сходимости в Lj
ностью, что нас интересует не сам по себе класс АТ} Si с, который,
по-видимому, является довольно искусственным и нереалистич-
ным, а только факт существования достаточно богатого класса
плотностей для которого можно построить такую оценку, что
limsup sup -j/nE (I | /„ — f |) < oo.
П->оо fg#"	7
Теперь рассмотрим ядерную оценку с ядром /< (х) = ga(x)
и назовем ее трапецеидальной ядерной оценкой по причине того,
что характеристическая функция для ga имеет трапецеидальную
форму. Пусть а > 0 — фиксированное число, и пусть h > 0 —
фиксированное число, такое, что
h < (а/(1 + а)) (1/Т).	(23)
Тогда по лемме 25 и теореме 15
<(nh)-^\VT^)h. (24)
Теперь граница для последнего интеграла в (24) будет получена
просто из следующей равномерной верхней границы для любых /,
принадлежащих s, с:
Лемма 30 (неравенства, связывающие плотность f с ее харак-
теристической функцией ф). Для любой плотности f с характери-
стической функцией ф имеем
sup/c^J^.
При любых f £ Ат, з, с имеем
и
f (*) < g(x)=min (—, ——- \ .
' 4 ’ * v 1	1 я 2я | х |s /
Доказательство. Первое неравенство следует из того, что
f(x) = (2л)~> f e~iixq(f)dt < (2л)-1 J | Ф |.
Заметим, что при f £ АТ последняя ’величина не превосходит>
Т/л. Далее, интегрируя по частям формулу обращения и учитывая
абсолютную непрерывность функций ф, ..., ф*5”1), получйм
f (х) = (2л)-1 J (ix)-°e-iix<f^ (t)dt с
<(2л|х|0-' ||Ф<’>|.
Лемма 30 доказана.
11. Несмещенность ошибки 1/j/n
151
Класс Ат, з, с не замкнут относительно сдвигов, поскольку
в противном случае не существовало бы интегрируемой равно-
мерной границы для f. Легко, конечно, определить и класс, ин-
вариантный относительно сдвигов, но мы не хотим загромождать
этим изложение. Заметим, что величина J | <р | несет информацию
о максимальном значении Д а величина J | cp<s) | — о равномерной
верхней границе для хвостов плотности Д Сформулируем теперь
последний результат этого параграфа.
Теорема 17. Пусть s > 3 — целое число и числа Т и С до-
статочно велики для того, чтобы класс ATi Sf с не был пуст. Тогда
трапецеидальная ядерная оценка fn, для которой параметр сгла-
живания h выбирается, исходя из (23), и ядро К = glt удовлетво-
ряет неравенству
sup	|fn-f|)<
f^AT, s,C
I 16s	7-1/2-1/s /C\1/s , 4 \ 1
^\s-2	яЗ/2^2\2/
Доказательство. Вначале убеждаемся в том, что
|min(a, p/|x|v) = —... ai—Vvpi/v
при положительных а, р, у. Затем применяем в (24) следующие
неравенства: / < g, где функция g определена в лемме 30, и
| К (х) | < 2min (1 /2л, (4/х2) (1/л)) = min (1/л, (4/л) х-2) = К* (х)
(по определению функции К*). Кроме того, f * (№)h -С ё *
* (К*2)х- Так как функции g и К* симметричны и унимодальны,
то можно применить утверждение D леммы 26. Результат теоремы
получается, если заметить, что
J | К* | = 8/л, J К*2 = 16/Зл2,
Чтобы сделать правую часть неравенства теоремы 17 как можно
меньшей, нужно выбрать как можно большее h. Подставляя туда
значение h = 1/2Т, получим минимаксную верхнюю границу для
АТ, з, с- При различных значениях параметра а трапецеидальной
ядерной оценки получаются различные минимаксные границы.
Формальная оптимизация этих границ по а здесь не проводится.
В этом параграфе остался нерешенным вопрос о том, может ли
ядерная оценка с неслучайным h быть состоятельной для любых
152
Гл. 5. Скорости сходимости в Lr
плотностей, если h не стремится к О1). Так, не была построена
оценка плотности, состоятельная при любых h и удовлетворяющая
неравенству
limsup/«£([ |/„ <с
Л->оо	'J
при любых f из достаточно богатого семейства плотностей
Другой вопрос, оставшийся нерешенным, — существует ли оценка
fn, такая, что
limsup sup i/~nE (j |fn — f|) < 00 •
П->оо f С Лу
Ядро трапецеидальной ядерной оценки таково, что J х1К = О
при любых i > 0. Занимательное свойство этой оценки состоит
в том, что для нее в отличие от оценок Бартлета не нужно менять
ядро К в зависимости от гладкости /. Параметр Л, конечно, по-
прежнему нужно настраивать, исходя из гладкости /, или, при-
меняя альтернативный подход, оценивать h по данным одним из
методов, описанных в гл. 6.
Наконец, следуя интересной £2’теории, разработанной Watson,
Leadbetter (1963) и переоткрытой Davis (1975, 1977), можно рас-
смотреть вопрос о том, какие скорости сходимости достигаются
при различных условиях на хвост функции <р. При этом окажется,
что существует континуальное число скоростей сходимости между
l/j/'n и п~2/5 (таких, как log п/у^ пит. д.), зависящих от того,
как убывает хвост функции | (р |. Перечисление обычных условий
на хвосты было бы равнозначно признанию того, что описываемые
этими условиями классы важны. Но последнее неверно — они,
так же как и класс Ar> s, с, не являются важными. Редки случаи,
когда что-либо известно относительно гладкости /, и велика плата
за выбор «неправильного» параметра h ядерной оценки! (Напри-
мер, если ошибочно «сделать ставку» на то, что f принадлежит
классу ATi s> с, выбрать фиксированное значение h и воспользо-
ваться трапецеидальной ядерной оценкой, то наказание оказы-
вается суровым — fn может вовсе не сходиться к /.)
ЛИТЕРАТУРА
Abou-Jaoude S.
(1977)	La convergence et Loo de certains estimateurs d'une densite de probabi-
lite, These de Doctoral d’Etat, Universite de Paris VI, Paris, France.
*) В случае, когда ядро оценки неотрицательно, ответ на этот вопрос следует
из теоремы 3.1, где утверждается, что состоятельность в Lx при невоз-
можна. — Прим, перев.
Литература
153
Bartlett М. S.
(1963) Statistical estimation of density functions, Sankhya Series A, 25, pp. 245—
254.
Beckenbach E. F. Bellman R.
(1965) Inequalities, Springer-Verlag, Berlin. (Имеется русский перевод: Беккен-
бах Э., Беллман Р. Неравенства.—М.: Мир, 1965.)
Bretagnolle J., Huber С.
(1979) Estimation de densites: risque minimax, Zeitschrift fur Wahrscheinlich-
keitstheorie und verwandte Gebiete, 47, pp. 119—137.
Carlson F.
(1934) Une inegalite, Arkiv foer Matematik, Astromi och Fysik, 25B, pp. 1—15.
Davis К. B.
(1975) Mean square error properties of density estimates, Annals of Statistics, 3,
pp. 1025—1030.
(1977) Mean integrated square error properties of density estimates, Annals of Sta-
tistics, 5, pp. 530—535.
Deheuvels P.
(1977) Estimation non parametrique de la densite par histogrammes generalises,
Revue de Statistique Appliquee, 25, pp. 5—42.
Deheuvels P., Hominal P.
(1980) Estimation automatique de la densite, Revue de Statistique Appliquee, 28,
pp. 25—55.
Devroye L., Penrod C. S.
(1984) Distribution-free lower bounds in density estimation. Annals of Statistics,
12, pp. 1250—1262.
Feller W.
(1968) An Introduction to Probability Theory and Its Applications, Vol. 1, Wiley,
New York. (Имеется русский перевод: Феллер В. Введение в теорию вероятно-
стей и ее приложения. Т. 1. —М.: Мир, 1984.)
(1971) An Introduction to Probability Theory and Its Applications, Vol. 2, Wiley,
New York. (Имеется русский перевод: Феллер В. Введение в теорию вероятно-
стей и ее приложения. Т. 2. —М.: Мир, 1984.)
Freedman D., Diaconis Р.
(1981) On the histogram as a density estimator: £2 theory, Zeitschrift fur Wahr-
scheinlichkeitstheorie und verwandte Gebiete, 57, pp. 453—476.
Haagerup U.
(1978) Les meilleures constantes de Tinegalite de Khintchine, Comptes Rendus
de I'Academie des Sciences de Paris A, 286, pp. 259—262.
Kulldorf G.
(1963, 1964) On the optimum spacing of sample quantiles from a normal distribu-
tion, Part 1, Skandinavisk Aktuarietidskrift, 46, pp. 143—161, 1963; Part 2,
Skandinavisk Aktuarietidskrift, 47, pp. 71—87, 1964.
Lukacs E.
(1970)	Characteristic Functions, Griffin, London. (Имеется русский перевод:
Лукач Е. Характеристические функции. — М.: Наука, 1979.)
Marcinkiewicz J., Zygmund А.
(1937) Sur les fonctions independantes, Fundamentales de Mathematiques, 29,
pp. 60—90.
Parzen E.
(1962) On estimation of a probability density function and the mode, Annals of
Mathematical Statistics, 33, pp. 1065—1076.
Rosenblatt M.
(1956) Remarks on some nonparametric estimates of a density function, Annals
of Mathematical Statistics, 27, pp. 832—835.
(1971)	Curve estimates, Annals of Mathematical Statistics, 42, pp. 1815—1842.
(1979)	Global measures of deviation for kernel and nearest neighbor density esti-
mates, in Smoothing Techniques for Curve Estimation, Th. Gasser and M. Rosen-
154
Гл. 5. Скорости сходимости в Lj
blatt (Eds.), Lecture Notes in Mathematics # 757, pp. 181—190, Springer-Verlag,
Berlin.
Scott D. W.
(1979) On optimal data-based histograms, Biometrika, 66, pp. 605—610.
Szarek S. J.
(1976) On the best constants in the Khintchine inequality, Studia Mathematica,
63, pp. 197—208.
> Tapia R. A., Thompson J. R.
(1978) Nonparametric Probability Density Estimation, The Johns Hopkins Uni-
versity Press, Baltimore.
Watson G. S., Leadbetter M. R.
(1963) On the estimation of the probability density, Annals of Mathematical Sta-
tistics, 34, pp. 480—491.
Wertz W.
(1972) Fehlerabschatzung fur eine Klasse von nichtparametrischen Schatzfolgen,
Metrika, 19, pp. 131—139.
Whittaker E. T., Watson G. N.
(1963) A Course of Modern Analysis, 4th ed., Cambridge University Press, Cam-
bridge, U. К. (Имеется русский перевод: Уиттекер Э. Т., Ватсон Д. Н. Курс
современного анализа (в 2-х томах). — М.: Физматгиз, 1962—1963.)
Young R. М. G.
(1976) On the best possible constants in the Khintchine inequality, Journal of the
London Mathematical Society, 14, pp. 496—504.
Епанечников В. A.
(1969) Непараметрическая оценка многомерной плотности вероятности//Теория
вероятн. и ее примен. — Т. 14. — 1. —С. 156—161.
Ибрагимов И. А., Хасьминский Р. 3.
(1982) Об оценке плотности распределения, принадлежащей одному классу
целых функций//Теория вероятн. и ее примен. — Т. 27. — 3. — С. 514—524.
Конаков В. Д.
(1972) Непараметрическая оценка плотности распределения вероятностей//Теория
вероятн. и ее примен. — Т. 17. — 2. — С. 377—379.
Манставичус Э.
(1982) Неравенства для момента порядка р, 0 < р < 2, суммы независимых
случайных величин//Литовск. матем. сборник. — Т. 22. — 1. — С. 112—117.
Петров В. В.
(1972) Суммы независимых случайных величин. —М.: Наука.
Глава 6
Адаптивная ядерная оценка,
ее сходимость в Ц
и поточечная сходимость
1.	Основной результат
В этой главе изучается состоятельность адаптивной ядерной
оценки
п
= (1)
1=1
где К — некоторая фиксированная плотность и h = h (п, Хг, ...,
Хп) — борелевская функция от и и от данных. В идеальном
случае h не зависит от параметров, которые должен выбирать
пользователь, хотя оценки с такой зависимостью (в том числе
обычная ядерная оценка), строго говоря, тоже называются адап-
тивными ядерными оценками. Заметим, что зависимость h от х
не допускается, поскольку при этом могут получаться оценки,
не являющиеся плотностями на Rd.
Первый и основной результат этой главы аналогичен теореме
3.1 для обычной ядерной оценки. Он формулируется здесь без
доказательства (доказательство см. в § 5). В § 4 приведено не-
сколько примеров адаптивных ядерных оценок. В § 2 и 3 иссле-
дуется поточечная сходимость этих оценок.
Теорема 1. Пусть fn — адаптивная ядерная оценка, ядро К
которой — произвольная плотность. Если h + (пМ)-1 -> 0 вполне
(почти наверное, по вероятности), то J | fn — f |	0 вполне
(почти наверное, по вероятности) для любых плотностей f на Rd.
2.	Поточечная сходимость
адаптивной ядерной оценки
Другой, менее мощный способ доказательства состоятельности
в Li оценки плотности состоит в том, что устанавливается поточеч-
ная сходимость оценки при почти всех х и применяется тео-
рема 2.7. Шеффе или ее обобщение, принадлежащее Глику (тео-
рема 2.8). Имеется следующая теорема о поточечной сходимости
адаптивной ядерной оценки при любых плотностях f на Rd.
Теорема 2. Пусть К — интегрируемая по Риману плот-
ность с компактным носителем, fn — адаптивная ядерная оценка
156
Гл. 6. Адаптивная ядерная оценка
с параметром сглаживания h. Пусть f — произвольная фиксиро-
ванная плотность на Rd. Тогда
А.	Если h +	0 по вероятности, то fn -> f по ве-
роятности при почти всех х.
В.	Если h -> 0 и nhd/(\og log п) -> оо почти наверное, то ffl -+ f
почти наверное при почти всех х.
С.	Если h-+0 и nhd/(log п) -> оо вполне, то fn~+f вполне
при почти всех х.
Доказательство теоремы 2 приведено в § 5. Из утверждений А
и В непосредственно следует состоятельность в по вероятности
и почти наверное, но они слабее, чем соответствующие утвержде-
ния теоремы 1. Указание «при почти всех х» относится ко всем
точкам Лебега плотности /. Его нельзя опустить, поскольку плот-
ность f определяется с точностью до множества лебеговой меры
нуль. Теорема 2 по существу неулучшаема, ибо условия на h
в утверждениях А, В и С необходимы для состоятельности обычной
ядерной оценки (последнее было впервые установлено Дехёвель-
сом (Deheuvels (1974)) при различных условиях регулярности
на / и й). Уместно привести результат Дехёвельса. В следу-
ющем параграфе сформулировано его обобщение, свободное от
большей части условий регулярности. Доказательство приведено
в § 5.
В теореме 2 допускается, что параметр h зависит от х, но в слу-
чае, когда такая зависимость есть, из этой теоремы нельзя вы-
вести состоятельность оценки в Ьг, пользуясь теоремами 2.7 и 2.8.
Относительно равномерной сходимости адаптивной ядерной
оценки известно несколько результатов в духе теоремы 2, на-
пример Wagner (1975), Devroye, Wagner (1980), Deheuvels, Homi-
nal (1980). В последней работе дан набросок доказательства сле-
дующего утверждения: если h 0 почти наверное, nhrf/(log п) ->
оо почти наверное, плотность / равномерно непрерывна и ядро
А является интегрируемой по Риману плотностью, то
sup | fn (х) — f (х) | -> 0 почти наверное.
х
3.	Поточечная сходимость обычной
ядерной оценки
Определение. Последовательность положительных чисел ап
называется семимонотонной, если существует постоянная с > 0,
такая, что ап+т > сап при т, п 1. Заметим, что отсюда следует,
что либо lim inf ап = оо, либо sup ап < оо.
п->оо	П
Теорема 3. Пусть fn — обычная ядерная оценка, у которой
параметр сглаживания h зависит только от п, и К — ограничен-
ная плотность с компактным носителем.
4. Примеры адаптивных ядерных оценок
157
1. Слабый вариант. Следующие утверждения эквивалентны:
A.	fn f по вероятности при почти всех х для некоторой
плотности f.
В.	fn f по вероятности при почти всех х для любых f.
С.	h -> 0 и nhd -> оо.
D.	j \fn— /|->0 по вероятности для некоторой плотно-
сти f.
Е.	j | fn — f |	0 вполне для любых f.
2.	Сильный вариант. Пусть, кроме того, ядро К интегрируемо
по Риману и последовательность nhd/(\og log п) семимонотонна.
Тогда следующие утверждения эквивалентны:
A.	fn-+ f почти наверное при почти всех х для некоторой
плотности f.
В.	fn~+f почти наверное при почти всех х для любых f.
С.	/г -> 0 ц nhd/(log log п)	оо.
Интегрируемость по Риману ядра К не требуется для имплика-
ции А => С, и условие семимонотонности не используется в дока-
зательстве того, что С => В.
3. Вариант со сходимостью вполне. Пусть последовательность
nhd/(\og п) семимонотонна. Тогда следующие утверждения экви-
валентны:
A- fn f вполне при почти всех х для некоторой плотности f.
В. fn~*f вполне при почти всех х для любых f.
С. h -> 0 и nhd/(log п) -> оо.
Условие семимонотонности не требуется для импликации С => В.
Теорема 3 включена в эту книгу отчасти для того, чтобы пока-
зать, что обычная ядерная оценка может быть сильно состоятель-
ной в £х (т. е. j | fn — f | -> 0 почти наверное) и в то же время
не сходиться почти наверное при почти всех х. В частности, это
имеет место для любых f, если nhd равно log log log п или
Vlog log п, или с log log п, где с — некоторая положительная
постоянная.
4. Примеры адаптивных ядерных оценок
Большая часть методов адаптивного ядерного оценивания
относится к одному из следующих двух классов. Первый класс
содержит все методы, связанные с оцениванием по выборке не-
известных параметров главного члена в асимптотическом разло-
жении некоторого критерия качества. Ко второму классу отно-
сятся методы, в которых h получается путем непосредственной
минимизации некоторого критерия (например, должным образом
158
Гл. 6. Адаптивная ядерная оценка
видоизмененного критерия максимума правдоподобия). В по-
следнем случае часто требуется большее количество вычислений,
а также, как правило, усложняется теоретический анализ свойств
адаптивной ядерной оценки.
Оценки, основанные на асимптотических разложениях. Пер-
вым и наиболее важным из методов, основанных на асимптоти-
ческих разложениях, является параметрический метод, который
был изложен в § 5.6 на примере ошибки в Параметрический
метод дает превосходные результаты, если гипотеза о принадлеж-
ности плотности f к заданному параметрическому семейству
плотностей верна; Например, если это параметрическое семейство—
нормальное с неизвестным средним ц и дисперсией а2 и если а2 —
построенная по данным оценка для о2, то при параметрическом
методе используется параметр сглаживания
,	. / 15<?К2Й\1/5	1,6644 ... а
= а \~8n~~/	=-----^75—-
В силу теоремы 1 при любых /, таких, что б с почти навер-
ное, где с — некоторая постоянная (последнее выполнено почти
для всех плотностей, если б — разумная оценка, построенная
по данным), имеем j | fn — / | -> 0 почти наверное. Это утвер-
ждение остается в силе, если величина б отграничена почти на-
верное от нуля и от бесконечности (последнее выполнено при
любых f в случае, когда б — робастная оценка, основанная на
квантилях; см. § 5.6).
В действительности можно утверждать большее. В качестве
хорошего упражнения можно получить условия, при которых из
сходимости б -> с почти наверное (или слабой сходимости) сле-
дует, что £ (f | fn — f |) ~ E (j |/n—/|), где — ядерная
оценка, у которой в выражении для hn вместо б стоит с. Таким
образом, имеется не только состоятельность, но и информация'
о скорости сходимости. Заметим, однако, что эта скорость опти-
мальна только в случае, когда f действительно принадлежит рас-
сматриваемому параметрическому семейству; см. также § 7.
Параметрический метод впервые был глубоко исследован
Дехёвельсом (Deheuvels (1977)) для плотностей на R1 и критерия
Е (j (fn—/)2). Это исследование было основано на фундамен-
тальном результате Розенблата о том, что если К £ L2 — огра-
ниченная симметричная плотность, f £ L2 — ограниченная и
дважды непрерывно-дифференцируемая плотность и f £ L2, то
обычная ядерная оценка удовлетворяет соотношению
Е ( J(fn - Л2) ~ W1 + v Л4 (	(х) dx)2 J (/J (2)
4. Примеры адаптивных ядерных оценок	159
при h 0 и nh —> оо (Rosenblatt (1956, 1971)). Из (2) следует, что
наилучшее значение h равно h = [а/п J (П2]1/5, где коэффи-
циент А = j № / Q х2К (x)dx]2 зависит только от К. Единствен-
ным неизвестным в этом выражении является интеграл J (/")2,
который равен 3/(8>^лст5) для нормальной плотности. Даль-
нейшее обсуждение этого метода см. также в работе Deheuvels,
Hominal (1980). Параметрический метод для гистограммной оценки
разработан Scott (1979).
Другие авторы предложили оценивать неизвестный коэффи-
циент J (/'')2 в (2) по данным, применяя непараметрические методы. ;
При этом процедура становится двухшаговой — сначала оцени-
вается j (f')2, а затем — f, с использованием оценки интеграла
j (/")2 в формуле h = [л/n j (/")2]*/5 (Woodroofe (1970)), Нада-
рая (1974), Scott др. (1977), Deheuvels, Hominal (1980), Scott,
Factor (1981)). Эти результаты, по-видимому, непосредственно
переносятся на случай, когда ошибка измеряется в Lv Однако
в обоих случаях мы снова сталкиваемся с выбором параметров
непараметрических оценок (создавая, таким образом, новую
задачу, эквивалентную по сложности той, которую мы пытаемся
решить) и предполагаем, что существуют состоятельные оценки
таких величин, как J (/")2. С этой точки зрения параметрический
метод является более робастным. Наконец, все указанные методы
основаны на некоторых сильных предположениях относительно f,
которые могут и не выполняться. Например, если ошибка изме-
ряется в Lb то требуется оценить величины J -/7 и J | /’ | (или
соответствующее обобщение последней). Первая величина беско-
нечна для плотности распределения Коши, а вторая — для равно-
мерной плотности. Из рассмотрения сразу исключаются большие
и важные классы плотностей, чего хотелось бы избежать.
Эвристические оценки. Среди оценок, не основанных на асимп-
тотических разложениях, особый класс образуют оценки Wagner
(1975) Silverman (1978) и др. В отличие от оценок, основанных на
асимптотических разложениях, они не претендуют на /дости-
жение какого-либо теоретически предсказанного поведения и
в отличие от оценок, рассматриваемых далее, — на оптимизацию
какого-либо критерия.
Например, Wagner (1975) вводит расстояния Dnl, ... , Dnn
между точками Xt, ... , Хп и их £-ми ближайшими соседями соот-
ветственно, где k = [па ], 0 <а < 1, и предлагает несколько
способов выбора Л, таких, как
160
Гл. 6. Адаптивная ядерная оценка
(i)	h выбирается случайным образом из набора Dnl, ... ,Dnnt
п
(ii)	ft = S (£>ni/n),
1=1
(iii)	ft = maxDnj,
i
(iv)	ft = min Dni.
t
Число возможных способов выбора ft фактически неограниченно.
Для случая (i) Вагнер показал, что Л -> 0 почти наверное и nbh2d ->
-* оо почти наверное при любых f, если b < 1 — а. Таким обра-
зом, для ядер, рассмотренных в теореме 2, при любых f имеем
почти наверное при почти всех хи | |	— f | -> 0 почти
наверное.
Оптимизация некоторого критерия. Если выбирать ft так,
чтобы максимизировать некоторый критерий, то можно надеяться
получить оценку, заслуживающую доверия при любых (неизвест-
ных) / даже на достаточно малых объемах выборки. Первый и
наиболее важный критерий основан на принципе максимума
правдоподобия (МП). Для ядерных оценок плотности он был
впервые применен в работах Duin (1976) (она была сдана в журнал
в 1973 г.) и Habbema и др. (1974). См. также недавний обзор
Rudemo (1982). В этих работах предлагается выбирать ft из
условия максимума функции правдоподобия
п
(3)
где
fni = (,г-1)П S К ’	(4)
и использовать это значение h в обычной ядерной оценке. Опре-
деляемая таким образом кросс-проверочная г) ядерная оценка
плотности и аналогичная ей кросс-проверочная гистограммная
оценка, по-видимому, в большинстве случаев (но не во всех)
работают хорошо. Кросс-проверка* 2) нужна в первую очередь
п
потому, что величина П fn (Xt) достигает максимума при h ----- 0.
*) От английского «cross-validated». — Прим, перев.
2) От английского «cross-validation». В отечественной литературе также
используются термины «перекрестная проверка», «скользящий контроль». —
Прим, перев.
1
4. Примеры адаптивных ядерных оценок
161
Основная сложность состоит в доказательстве состоятельности
кросс-проверочных оценок. Теорема 1 позволяет свести его к дока-
зательству некоторых утверждений относительно параметра сгла-
живания h. Впервые доказательство состоятельности кросс-прове-
рочной ядерной оценки на Z?1 появилось в работе Chow и др.
(1983). Так как основной результат этой работы важен для прак-
тики и в его доказательстве используется новая методика, то
сформулируем здесь соответствующее его обобщение на Rd, сво-
бодное от ненужных условий на /. Доказательство будет дано в § 5.
Теорема 4. Пусть значение h выбрано так, что L (h)
a sup L (ft) при некотором а £ (0, 1). Пусть fn — кросс-про-
Л>0
верочная ядерная оценка плотности и f — плотность с компакт-
ным носителем. Предположим, что К — интегрируемое по Риману
ограниченное ядро с компактным носителем, такое, что К c/s
при некоторых с, г > 0 (напомним, что Sxr — замкнутый шар
радиуса г с центром в точке х). Тогда Л -> 0 и lim inf nftJ/(log п) >
П->оо
> 0 почти наверное.
Таким образом (вследствие теоремы 2), fn -> f почти наверное
при почти всех х и j | fn — / | -> О почти наверное.
Иногда для получения состоятельных оценок решения опти-
мизационных задач подвергают двустороннему усечению. Теорема
4 сильна тем, что в ней такое усечение не нужно. Единственным
требованием к плотности f является компактность ее носителя.
Вместе с тем в случае плотностей на 7?1 можно рассмотреть сле-
дующую модификацию указанного выше метода:
Шаг 1. Применим к данным монотонное преобразование, пере-
водящее R в [—1,1] (такое, как Т (х) = х/(1 + | х |)), в ре-
зультате чего получим значения ... , Yn.
Шаг 2. Построим кросс-проверочную ядерную оценку плот-
ности на [— 1, 1]. (Она всегда состоятельна в силу теоремы 4).
Шаг 3. Построим для f преобразованную кросс-проверочную
ядерную оценку плотности.
Так как расстояние в между плотностями инвариантно от-
носительно монотонных преобразований координатных осей, то
ошибка этого метода в равна ошибке при оценивании плот-
ности случайной величины посредством кросс-проверочной
оценки на шаге 2. Иными словами, рассмотренная здесь модифи-
цированная оценка состоятельна для любых плотностей /.
Хотя теорема 4 является обнадеживающей, в ней ничего не
говорится о скорости сходимости величины Е (J | fH — f |) к 0 —
эта задача, по-видимому, ждет своего решения. Еще мы не объяс-
11 ДеВрон Л., Дьёрфи Л.
162
Гл. 6. Адаптивная ядерная оценка
нили, откуда взялось жесткое условие на хвосты плотности f
в формулировке теоремы 4. Пусть f — плотность на R1, ядро К
равно нулю вне [—1,1] и X(d < ... < Х(л) — порядковые
статистики для Хъ ... , Хп. Если h < Х(л) — Х(п_\), то fni (Xt) =
= 0, где Xi = Х{пЬ так что L (А) = 0. Следовательно, параметр
А, выбранный методом кросс-проверки, удовлетворяет условию
h Х(П) — Х(п-1) при любых п. Пусть теперь X — ядро, огра-
ниченное величиной М. Для любого е > 0 найдется S > 0, такое,
что
f f^e>0.
6f>2M
Далее,
Jl/n-/1 = 2 J /-/п^2 J (f/2)^ J /
f>fn	f>2fn	f>2M/h
и последняя величина больше или равна е при А S. Здесь мы
молчаливо воспользовались тем, что fn M/h. Таким образом,
р (j I fn - f I Ss e) P (A 6) P (X(n) - %(„_!> 6).	(5)
Следовательно, если » Х(П) — Х(П-п -> со по вероятности, то
[ | fп — /| не может сходиться к 0 по вероятности. На это впервые
указали Schuster, Gregory (1981). Примером плотности, для кото-
рой Х(Л) — Х(„_о ->оо по вероятности, является любая плот-
loo	оо
ность, удовлетворяющая условиям lim f (х) / J f(y)dy = 0, J />0
J х	х
при всех х (в частности, любая плотность, хвосты которой убы-
вают с полиномиальной скоростью с/ха, а> 1). Этим условиям
удовлетворяют плотности распределений Коши, Парето, /-рас-
пределения Стьюдента и все устойчивые плотности, за исключе-
нием нормальной.
Шустер и Грегори (Schuster, Gregory (1981)) предложили метод
устранения несостоятельности в случае распределений с длин-
ными хвостами. По-видимому, пограничное положение между
состоятельностью и несостоятельностью соответствует экспонен-
циальному распределению (для которого А-/>0 по вероятности,
так что оценка не состоятельна). Для распределений с меньшими
хвостами, по-видимому, имеет место состоятельность. В силу этого
условие компактности носителя f из теоремы 4 является слиш-
ком жестким.
Экспериментальное обоснование метода кросс-проверки дается
в работах Scott, Factor (1981), Rudemo (1982), Schuster, Gregory
(1981). Chow и др. (1983) приводят результат типа теоремы 4 для
кросс-проверочных гистограммных оценок. Geman (1981), Geman,
4. Примеры адаптивных ядерных оценок	163
Hwang (1982) применяют принцип МП к ядерной оценке, у кото-
рой центры ядер расположены не в точках Xt, а в некоторых точках
плана xlt , хп. Schuster, Gregory (1978) искусственно разби-
вают выборку на две части, определяют h из условия максимума
функции
л/2
n/„/2(xz),	(6)
1=1
п
где fn/2(x) = (2/ri) У, h~dK((x — X/)/h), и используют это
/=и/2-}-1
значение h в исходной ядерной оценке. При таком подходе тре-
буется меньше вычислений, но результат, по-видимому, полу-
чается хуже, чем при кросс-проверке.
Наконец, Hall (1982а, Ь) показал, что если / — вогнутая
функция на [0, 11, то порядок величины параметра сглаживания h
в методе кросс-проверки равен п~'/3 (этот порядок, конечно, не
всегда является оптимальным).
Кроме критерия максимума правдоподобия в методе кросс-
проверки можно использовать и другие критерии. Так, можно
стремиться выбирать h из условия минимума величины | (/nft —
— f)2, где fnh — ядерная оценка с параметром сглаживания Л
и ядром К- С этой целью Hall (1983а, b), Rudemo (1982) и Bowman
(1982) предложили минимизировать критерий j fnh — 2Afnh. где
Mnh — выборочная кросс-проверочная оценка для J fnhf, на-
пример
п
Mn^^-^fnniiXi),
1=1
где
им - Л 2	-1.....я-
Stone (1984) заметил, что
i+l
i, i
Получаемое этим способом значение h* является наилучшим в том
смысле, что
Р/пМ-О2 ,
------------->1
min (fnh — f)2
Л j
11*
164
Гл. 6. Адаптивная ядерная оценка
почти наверное при любых ограниченных плотностях f на R, если
ядро R удовлетворяет условию Липшица (с любым положитель-
ным показателем степени), симметрично, имеет компактный но-
ситель и j /С2 <2R (0) (Stone (1984)). Ядру К не обязательно быть
неотрицательным, но нужна нормировка J R = 1. Подобный
результат для гистограммной оценки см. в работе Stone (1983).
Вопрос о состоятельности рассмотренной кросс-проверочной оценки
при любых f остается открытым. Мы уже видели, что минимизация
ошибки в L2 может на деле привести к тому, что скорость сходимо-
сти в будет исключительно низкой. Не решена еще'задача
построения оценки ft*, такой, что
почти наверное при любых /, или оценки, для которой вместо
стремления к 1 в последнем соотношении имеет место неравенство
«< С + о (1)».
5. Доказательства
Для доказательства теоремы 1 требуется несколько ключевых
лемм.
Лемма 1. Для любой плотности К на Rd имеем
lim [ | Rh - R | = 0,
h->l J
где Rh (x) - h~dR (x/h).
Доказательство, Если функция R непрерывна, то утвержде-
ние леммы, очевидно, следует из сходимости R\ -> R при любых
х и теоремы 2.7 Шеффе.
Если R — произвольная плотность, то для любого е > 0
можно найти непрерывную плотность R, такую, что ]|/< —
— R | < в. Но так как
J|Kh-K|< J|Kh-Kft| + J|Kft-K| + J |к- к|,
то
lim sup f | Kh — К | < 2e -j- lim [ \Kh - К | = 2e,
л-i J	Л-И J
и лемма 1 доказана.
5. Доказательства
165
Для произвольной плотности К обозначим
<р(6)= sup I j Kh - К |.
1—6<h<l+6 J
При любых 6 £ (0, 1) имеем 0<<р(б)<2. Кроме того, lim<р(6) =
6 ю
— О в силу леммы 1. Далее зависимость fn от h будет указы-
ваться явно — вместо fn будет использоваться обозначение fnh.
Лемма 2. Пусть имеется последовательность отрезков Нп =
= Ih'n, hn\, где hn —>~0 и п (hn)d -* оо. Тогда для каждого е > О
существуют положительные числа п0 и г, такие, что
Р (лTh J I	“ f I > е) < ехР (— гпе2)
при любых п п0.
Доказательство, В силу сделанных предположений
так что
1 < hnlhn = ann'/d,
где lim ап = 0. Пусть 6П 0 — решение уравнения
Л-*-оо
(1 + 6П)" = апп'И.
Ясно, что 6П -* 0. Далее, положим
hni = (1 + 6П)‘ Лп> i = 0, 1, 2, ..., п.
Здесь hn0 = h'n и hnn = ft„, так что
sup Jlfnft-flc sup H|Mn< 7| H
h $Hn	\
При каждом и > h имеем
j । - t.u । < 4 S11 **	- x')i -
166
Гл. 6. Адаптивная ядерная оценка
Таким образом,
sup
hni-i^h^hni
/ h
SUP Ф (j—
hni-l<h^hni Khni-1

Для каждого e > О существует число пх > 0, такое, что <р (6П) < е,
и пх. Таким образом, ввиду (7) и (8)
п
р ( sup [|fnh-/|>2e\ « £ p(j|fnAnU1-/|>е).	(9)
\л G нп '	)	1=1	4	'
Воспользуемся теперь замечанием 3.1. В обозначениях, принятых
в замечании 3.1, получим, что каждое слагаемое в правой части
(9) ограничено сверху величиной ехр (— гпе2) при п > п0, где
г и п0 — положительные постоянные, если
(c0(e)/n)1/d <ЛП< <Л0(е)
при каждом i £ {1.........п\. Но последнее условие выполняется,
если hn < h0 (е) и (с0 (e)/n)i/d < h'n. Следовательно, при всех
достаточно больших п правая часть (9) ограничена сверху величи-
ной п ехр (— гпе2), что доказывает лемму 2.
Доказательство теоремы 1. Докажем сходимость вполне. Дока-
зательство сильной и слабой состоятельности получается анало-
гичным образом при замене слова «вполне» на слова «почти на-
верное» или «по вёроятности». Предположим, что /[ft+1/(rtft</)>e] -* О
вполне при каждом 8 > 0. Это эквивалентно существованию после-
довательности е„ j 0, такой, что /[Л+1д„Л</)	-> 0 вполне.
Положим теперь
8„ = шах (еп, (1/га)1/(</+1))
и убедимся, что еп -> 0 и 7[ft+1/(nftd) j -> 0 вполне. Далее,
определим отрезок Нп = [hh, hn), где
hn = (П8д) / , hn ~ &п’
В силу определения 8П имеем h„ < hn. Более того, -> 0 и
п (h’n)d оо. Таким образом, учитывая, что
Z[A+l/(nA<*) > 8П] = ('pH-l/G^)	+ /[Л+1/(пЛ‘/)>(„ (ft;)d)"’])/2
> ('Ю +	= 7[лёнп] /2-
5. Доказательства
167
убеждаемся, что 1\н^.нп] -* 0 вполне. Из этого замечания,
леммы 2 и справедливого при любых е > 0 неравенства
zlf I fn-f । >ч	Iih ^"п]+ 1 г »«р j । fnh-i । > е 1
[лёнп	J
следует утверждение теоремы 1.
При доказательстве теоремы 1 по существу не потребовалось
никаких новых технических приемов по сравнению с теоремой 3.1,
что явно свидетельствует о силе и глубине последней. В доказа-
тельствах теорем 2 и 3 будет совсем немного новых элементов.
До конца доказательства теоремы 3 предполагается, что /С —
плотность, ограниченная величиной Д*, и ее носитель содержится
в замкнутом шаре Soc радиуса с с центром в нуле.
Лемма 3 (сходимость смещения). Пусть h"n — последователь-
ность положительных чисел, стремящаяся к 0 при п-+<х>. Для
любых плотностей f на Rd имеем
lim sup |/*Дл — /| = О
п-°° 0<h^hn
при почти всех х.
Доказательство. Выражение, стоящее под знаком предела
в утверждении леммы, ограничено сверху величиной
o<SX' f \((х-У)-Кх)\Кк(У)ау^
So,ch
ciin / f	Л/О x
J —( oc)’
\so ch
где X — мера Лебега. По теореме 2.2 Лебега о плотностях послед-
няя величина стремится к 0 при почти всех х.
Лемма 4. Для любой неотрицательной интегрируемой по
Риману функции К. ограниченной величиной /<* на [0, 1 И, и для
любого е > О существует целое N и неотрицательные числа ai £
Е [О, №4, 1 < i < Nd. такие, что функция
Nd
Д.(х) = S аДлАх), х£[0, 1]Л
<=1
где At — прямоугольники, образованные произведениями интерва-
лов вида [(/— 1)/N, j/П), 1 ^ /' < JV, или [(N — 1)/Д> 1 L удов-
летворяет условиям
(i)	| Д1 (х) — Д (х) | < е при любых х А,
(ii)	0 < К.! (х)	Д’* при любых х,
168
Гл. 6. Адаптивная ядерная оценка
где А — объединение нескольких множеств At, такое, что
(iii)	X (Л) < в.
Лемма 5 (основные неравенства для равномерного уклонения).
Пусть е > 0 — произвольное число, х — точка Лебега для f
(см. теорему 2.2) и h'n и h"n — последовательности положительных
чисел, такие, что 0 < h'n h’n 0. Пусть fnh — оценка (1)
с параметром сглаживания h. Тогда
sup Р (I fnh (x)-f* Kh (х) | е) с 2 ехр (— bn (h'n)d),
hn^h<hn
где в качестве b можно выбрать величину в2/(2/<* (f (х) + о (1) + в)).
Если ядро К интегрируемо по Риману, то также
Р I sup ЦплСО /* A’fc(х)I	е\ < _±!.хр (т bnW)
\h;^h^	)	(hn)a)
при^некоторых положительных постоянных а, Ь, Ь', не зависящих
от п.
Доказательство. В работе Bennett (1962) показано, что если
Zt — независимые одинаково распределенные случайные вели-
чины с нулевыми средними, такие, что | Zz |	/, то при любых
в > 0
/	1 п	\	’
₽ (|4-.Sz,l>e) с
<2exp(-i((1+g) log (!
< 2 ехР ( 2 (а2 + /е) ) ’
где о2 = Е (Z;). Последнее неравенство следует из того, что
log (1 4- и) 2и/(2 4- и) при любых и > 0.
Первое из доказываемых неравенств получается, если подста-
вить в качестве Zt- случайную величину h~d (К ((х — X^/h) —
— Е (К ((х — Х()/Л))), ограниченную по модулю значением t —
— K*lhd и такую, что ее дисперсия о2 удовлетворяет неравенству
а2 < K*f * Kh (x)lhd = Д’* (/ (х) 4- о (l))//id равномерно на [0,
hnl (в силу леммы 3).
Для доказательства второго неравенства выберем положитель1-
ное число 6 (оно будет конкретизировано далее) и положим hni —
= hn (1 4- 6)', i 0. Пусть номер i0 таков, что hni.-i < hn < hnia.
Имеем
sup | fn!,	— Ki, (x) I C
< syp [| fnhn. W - f * W I +
v<. I	L
5. Доказательства
169
+ sup | f * Ki, (a-) ~ f * Ki,'(x)\ +
hn, h'^hni .
SUP IMW-M'(x)|l =
hn s h'^hnt	J
n»i-l ’ ni	J
= sup КЛ + Vi + UZJ.
В силу первого утверждения леммы 5
/ —nhd . । е2 \
P(Ui е) < 2 ехр ^2К* ц (x)4-e + o(i)) j
при е> 0, где о (1) не зависит от t, так как 0<+ < i0. По лемме 3
sup У, <2 sup |f * Kh(x) — f(x)|->0.
Фиксируем e > 0 и найдем функцию Ki, числа N, alt , aNd
и множества Ait указанные в лемме 4 (заменяя там [0, 1 И на
[—с, c]d). Пусть .также через А обозначается то же множество,
что в лемме 4. Обозначим ц и gn меру, индуцированную плот-
ностью f, и эмпирическую меру для ... , Хп соответственно.
Пусть также А — оператор симметрической разности множеств.
Не нарушая общности, предположим, что все множества Д;
содержатся строго внутри одного ортанта, например внутри [0, с ]d.
Приведем теперь несколько геометрических фактов. Пусть числа
h, h' принадлежат отрезку 1ЛП, г-ь hni] и Aj— фиксированное
множество, например А} = [аь а[] X ... X [ad, ad], Тогда
(х + hAj) А (х + h'Aj) s (х + hniBj), где Bj — множество фик-
сированной формы, размеры которого зависят только от Aj, d
и 6. Кроме того, A (Bj) 2с^6.
Для доказательства этого первого геометрического факта доста-
точно только показать, что uAj A u'Aj <= Bj при любых и, и' £
£ [1/(1 + 6), 1]. Положим
Bj = [«!, ai] х • • • х (ad, ah] —
a[ 1
1+6]
[«d,
ah
1+6
X • • • X
+
+ [i"+6’ °<] X • • • x [г+6’	~ X  • • X [ad, ah],
где операторы «—» рассматриваются прежде, чем оператор объеди-
нения «+». Заметим также, что Bj содержится в [— с, c]d. Кроме
того,
ЦВ,) < (а[ (1 -	4- 01 (1 - irp)) a2fl3 ... a'd <
< 2а[аг • • •	< 2cd8.
Второй геометрический факт состоит в следующем. Пусть А — мно-
жество из леммы 4, т. е. объединение М непересекающихся пря-
170
Гл. 6. Адаптивная ядерная оценка
моугольников Aj, и пусть В = U иА. Тогда В s
и $ п/а+б), 1]
S [— с, с V и в силу проведенной выше выкладки для одного
м
прямоугольника А (В) < А (Л) + Е А (В;) < А (Л) + 2McdS *).
Теперь мы в состоянии получить следующую основную верхнюю
границу для Wit
Hn (dy)
fad
hn, 1-1
Nd
sup V f a J Ix+hAj (y) - Ix+h'Aj (y\ I pn (dy)/hdn, +
An, i-i<A- ft J 1	’	М Л
Nd
Qi.n Vn Нп((х+М?)Д(х + Л'Л/)>
blip	7 Uj-----------j------------
An, i.l<A- A'<Ani ft	hn, i-l
I 2epn(x4-[—c, c]d/ini> . 2K*pn (x + hniB)
,d
hn, i-l
hn. i-l
(Nd
У (* + hniBj) +
7=1
+ 28|xn (x + [— c, c]d hni) + 2/f*pn (x + hniB)) =
Nd
/=1
Для заданного т] > 0 выберем е, 6 > 0, такие, что математическое
ожидание каждой из величин не превосходит т] /3Nd и мате-
матические ожидания W'i и W'i не превосходят г\/3. Это эквива-
лентно тому, что
f (х) + о (1)) (1 + 6)« /<* (2^6) < т)/(3^</))
(f(x) + о(1))(1 +	< т]/3,
(/ (х) + с (1)) (1 + 6)" (2К*) (е + 2М^б) < т)/3.
Слагаемые о (1) снова не зависят от i, так что все три неравенства
выполняются при всех достаточно больших п равномерно по I.
Отметим здесь одну небольшую техническую деталь: по-видимому,
мм	м
х) Так как иА = U иА^с= (_|(Лу U (u^j ДЛу)) сг A (J при любом
« € (1/(1 + в), 1]. — Ьрим. перев.
5. Доказательства
171
сначала нужно выбирать е, считая, что 6	2. При этом фикси-
руются значения N и Л4, так что на следующем шаге можно вы-
брать 6.
При каждом i легко получим
Nd
Р (Wt > 2Т|) с 2	- Е	+
+ Р (lFt- - E(W<) > -3-) + Р (W"t -	.	(10)
Как показано выше, все математические ожидания здесь меньше,
чем т)/3, равномерно по i и j при любых п п0. Кроме того, каж-
п
дую из величин W^, Wi и W'i можно записать в виде (1/n) S Ym,
m—i
где Ym — независимые ограниченные неотрицательные случайные
величины, не превосходящие по абсолютной величине r/hhi, где
г = шах(2К*, 2е)(1+6/.
Таким образом, применяя еще раз неравенство Беннета (Bennett
(1962)), убеждаемся, что каждая из вероятностей в правой части
(10) не превосходит
2 ехр (----d ----------------------yr \ -А 2 ехр (— bnhni)-
\	2((Ti/3)(r/A^) + (r/A^)(Wd)/ —
Объединяя все полученные выше границы, мы видим, что при
любых п, больших некоторого п1(
р ( sup „ I fnh(x) - f * Kh(x) I > 4тЛ <
< S 2exp (-snQi’nY(1 + 6)d	>) +
z=i
+ (Wd + 2) 2 exp (- bn (h’ny (1 +	(11)
где s = t)2/4K* (/ (x) + t)). Правая часть (11) в свою очередь
ограничена сверху (хотя и очень грубо) величиной
ОО
У, b' ехр (- b'n (htf (1 + 6)‘) <
< Ё“р <-	(|+6i)) =	
i=0
где b', Ь” — некоторые положительные постоянные. Лемма 5
доказана.
172
Гл. 6. Адаптивная ядерная оценка
Лемма 6 (неравенство на хвосты биномиального распределения).
Пусть случайная величина Z имеет биномиальное распределение
с параметрами (п, р), где р = р (и) С (0» 0 зависит от п так,
что р + пр2 = о (1), но lim пр = оо. Тогда при 6 > 0 имеем
П-*<х>
P(Z^np^ бпр) S	ехр (-прн (6)),
где 0 < Н (6) = (1 + 6) log (1 + б) — б О при б | 0.
Доказательство. Пусть, k — \пр (1 + б)"|. Тогда
P(Z-np^6np)^( " )р*(1
(П,~ Pk (1 — pj* epk
Так как k2 = о (п), pk = о (1) и k\ ~ (А/е)* Y2nk, то нижняя
граница равна
(1+»(!)) (К)*
е~пр
V"2nk
= (1+0(1))
+~»Р(1 +6)-^
|/"2лЛ
^(1+0(0)
ebnp-k log (1+6)
V 2nk
Ml +o(l))
e-npH (6)
(1 +6) V2nk
откуда следует искомое неравенство.
Лемма 7 (экспоненциальные нижние границы для больших
уклонений). Пусть f — произвольная плотность на Rd и х —
точка Лебега плотности f, такая, что f (х) > 0. Пусть е >
> 0 — некоторая постоянная и h = hn — последовательность
положительных чисел, удовлетворяющая условиям h + nh2d =
= o(l),lim nhd = oo. Пусть, далее, H (•) — функция, определен-
П->оо
ная в лемме 6, и б = 2e/f (х).
Тогда для ядерной оценки (1) выполнено неравенство
+«)),« х
х exp (- nhdH(6)(f (х) + о(1))(2сХ).
5. Доказательства
173
Доказательство. Обозначим через Y случайный вектор, яв-
ляющийся сужением X на х + [— с, с И h. Положим
;=i
где случайные векторы Ylt У2, ... независимы и имеют то же рас-
пределение, что Y. Ясно, что fn (х) совпадает по распределению
с (N/n) gN (х), где случайная величина N не зависит от векторов
Yt и распределена как количество Хь попавших в х + [— c,c]d h.
Кроме того, Е (fn (х)) = рЕ (gn (х)), где р = Р (Xr С А = х +
+ [— с, c]d h) = (2ch)d (f (х) + о (1)). При всех достаточно боль-
ших п имеет место следующее неравенство:
Р (fn (х) ^E(fn (х)) + е) Р (N пр (1 4- 6)) х
<12)
В самом деле, на достаточно богатом вероятностном пространстве
можно считать, что fn (х) равно (N/n) gN (х), a Yr, ... , YN — часть
множества Хъ ... , Хп, попавшая в А. Если N пр (1 + б) и
gN (х) > Е (gN (х)) — е/2р (1 + б), то
W = ~ gN W > P(n+ (Е (gN ~ 2р(1 +6)) =
= р(1+6) =
= E(fn (х)) + 6E(fn (х)) --j- > E(fn (x)) + e
при достаточно больших п. Отсюда следует (12). Используя не-
равенство Чебышева и то, что Var (gk (х)) К* (f (х) + о (i)Wp,
получим, что правая часть (12) больше или равна
P(N — пр бпр) inf (1 — ( 2££Li^\2 Var (gh (х)Й
*>np (1+d) \	\	8	/	/
^P(N-np^6np)(l -	+	=
V	np(14-6)eVp	)
= P(N-np^6np)(l -o(l)).	(13)
К последнему выражению можно применить лемму 6, поскольку
случайная величина N имеет биномиальное распределение с пара-
метрами (п, р), где р 4- пр2 = о (1) и lim пр = оо. Лемма 7 до-
П->оо
казана.
В дальнейшем очень важную роль играет величина
Dn(x) = sup|fn„(x)-f(x)|,
Нп
174
Гл. 6. Адаптивная ядерная оценка
где верхняя грань берется по всем Л из отрезка Нп = [ЛА, ЛА1
и величины 0 < h'n < h'h < оо зависят только от п.
Лемма 8. Пусть К — ограниченная интегрируемая по Риману
плотность с компактным носителем и h'n = о (1). Тогда для каж-
дой плотности f на R1 выполнены следующие утверждения.
А.	Если п (h'n)d ->оо, то Dn (х)	0 по вероятности при
почти всех х.
В.	Если hn — правильно меняющаяся последовательность с
коэффициентом г < О (т. е. ЛрП]/ЛА tr при любых / > 0) и
п (ЛАг/log log п -> оо, то Dn (х) -> 0 почти наверное при почти
всех х.
С.	Если п (hn)d/\og п оо, то Dn (х) -> 0 вполне при почти
всех х.
Доказательство. Утверждения А и С следуют непосредственно
из лемм 3 и 5 и тривиального неравенства
£>n(x) < sup |/пЛ(х) — / * Kh(х)| + sup | f * Kk(x)-f(x)\.
Hn	Hn
Докажем утверждение В. Фиксируем малое 6 > 0 и введем
последовательность щ = [(1 + S)4, i = 0, 1, 2, ... . Положим
Et= sup sup \fnh(x)-f * КЛ(х)|,	(14)
где
Hi = Г inf h'n, sup h’n] = [/:*, hi*].
Lni<n<ni+i ^n<ni+l J
В силу леммы 3 ясно, что
sup Dn(x) < Et 4-o(l),	i—>-oo
nt<n<ni+i
в любых точках Лебега х. Таким образом, в силу леммы Бореля —
Кантелли для доказательства сходимости Dn (х) -> 0 почти на-
верное при почти всех х достаточно показать, что
f Р(Ег>8)<ОО
1=0
для любых точек Лебега, любых е > 0 и некоторого 6 (е) > 0.
При фиксированном h и любых пг п < п<+1 легко получить
границы
\fnh ~ f *	•< |fnh ~ fnth\ + | fnth f * К/, | <
/1	1 \ ni	1 "l+l
«S ~ S~ xi>+
+	~ f * Kh I <
5. Доказательства
175
< (6 Т О (1)) (fn{h г fnt+1-nih) b[fnik-f* Кн\<
<(l+6 + o(l))|fni.ft-f * КЛ| +
+ (6 + o(l))|fn.+i_„.,ft-f*7<A|
+ (6-|-о(1))2/*/<Л.	(15)
Здесь fnh — оценка, не зависящая от /пЛ, но распределенная
так же, как /пд. Ясно, что Et не превосходит верхней грани по
h £ Щ правой части (15). Так как ft” —► 0 при i->-oo, то по-
следнее слагаемое полученной таким образом верхней границы
для £< равно 26/ (х) + о (1) в силу леммы 3. Теперь фиксируем
е > 0, выберем 6 достаточно малым, чтобы выполнялись нера-
венства 6	1/2, 26/ (х) < е/4, и i достаточно большим, чтобы
все члены о (1) в (15) не превосходили 1/2 и член о (1) в слагаемом
26/ (х) + о (1) не превосходил е/12 (при этом данное слагаемое
не превосходит е/3). При таких больших i имеем
Et <2 sup |/„ ft-/ * Я„| + sup	ft-/ * Кл|4--|--
Л € Н*	h£ H*i
(16)
В силу леммы 5 существуют положительные постоянные а, а',
а", Ь, Ь', Ь", такие, что вероятности того, что первое и второе сла-
гаемые в правой части (16) больше, чем е/3, не превосходят
а ехр (— a'ni,(hi)d)
1 — ехр(— а?щ (hi)d)
(17)
и
b exp (— b' (ni+1 — ni) (hi)d)
1 — exp (— b" (ni+1 — nt) (juf)
соответственно. Постоянные не зависят от i.
Для любого М > 0 найдется достаточно большое i, такое, что
ni (M)d М log log ni М log (/ log (1 + 6)) при / > i. Гра-
ницы (17) при /> i меньше, чем величины
а + о(1)	» + о(1)
(/log(l+6))Ma' ’ (/log(l+6))Mfr'e
(18)
соответственно. Но оба выражения в (18) суммируемы по / при
Ma' > 1 и Mb'6 > 1. Следовательно, можно найти такое 6 (е) > О,
что
£ £(£4>е)<оо
1=0
176
Гл. 6. Адаптивная ядерная оценка
для любых е > 0 и любых точек Лебега плотности f. Лемма 8 до-
казана.
Доказательство теоремы 2 основано на неравенстве
I fn (*) - f WI « sup I fnlt (x) - f (x) I + OO • I(19)
H-n
где / — индикаторная функция событий и оо-О равно 0. Из
утверждений А и В о поточечной сходимости следуют утвержде-
ния об интегральной сходимости, если заметить, что fn является
плотностью на Rd при каждом п и что можно применить слабое
и сильное обобщения теоремы Шеффе (теорема 2.8).
Доказательства утверждений о поточечной сходимости полу-
чаются, если построить соответствующие последовательности
Нп = [hn, hn). При этом используются возрастающие последо-
вательности целых чисел n'k и п'£ соответственно. Во всех случаях
(А, В и С) считается, что п\ -= п{ 1. Кроме того, h'n - [/k на
[n£, n'k+\), так что hn 0 при £->оо. Наконец, на InJ, и
Ini', Иг) величины h'n и h'n определяются произвольным образом.
Утверждение А. Пусть
n'k = inf(n :	sup P	^^2,
n’k = inf I n : n > n*_|, sup P (mhdm < k) <	> 2,
\ n ]
h„ = (klnyd на [n'k, n'k+i), k^2.
Ясно, что n (h'n}d ->• оо. Кроме того, на [n'k, n'k+i) имеем P (hn
h’n) = P (hn l/k) < \/k -> 0 при k -► оо. Точно так же на
(nh, n’k+i) имеем P (nhd % n (h'n)d) — P (nhd < k) <C l/k и по-
следняя величина стремится к 0 при k -> оо. Применяя теперь
(19) и лемму 8, получим утверждение А.
Утверждение С. Пусть
n'k = inf fn:n>n"k-\, ^mkP	k ^2,
/n>rt	'
n'k = inf (n:n>n'k-i, mkP c fc) C kr-^2,
I	\ *°g m / I
\	tn>n	/
h'n=	на «;.)),	*>2.
5. Доказательства
177
Ясно, что п (/iA)d/log п -► оо. Кроме того,
ОО	+
2 пкр (.hn v)
л=1	k>2 п—п '^
k>2
Из таких же в точности рассуждений следует, что
Е Р (hn < h„) с «2 + Е 2'* < оо.
и=1	Л>2
Таким образом, УР(Ьп^ Нп) < оо, и, следовательно, с учетом
леммы 8 получим, что правая часть (19) стремится к 0 вполне.
Утверждение В. Пусть
fe>2,
«:«>М U k<2-‘
\m>n L	J /
hn = (k (log log n)ln)14d на \nk, nk+l), k 2.
Можно проверить, что n (hn)d/log log n -► оо и что hn h'n почти
наверное конечное число раз, поскольку на {n'k, n*+i)
Р( IJ	< Е Р\ U1 |< Е 2-/ = 2-^'-^0
\m>n	/	/—k	Yni^n-	/	f—&
при k -+ OO.
Аналогичным образом можно проверить, что hn < hn почти
наверное конечное число раз. Утверждение В будет доказано, если
найдется правильно меняющаяся последовательность положитель-
ных чисел hn < hn, такая, что п (h„)d/log log п -*• оо. Тогда
доказательство завершается применением леммы 8 и (19). По-
следовательность ф (п) = п (hn)d/log log п по построению моно-
тонно не убывает и стремится к оо. Определим функцию ф (0 на
действительной оси посредством линейной интерполяции значе-
ний <р (п). Попытаемся найти такую функцию ф (0, что 0 ф ф,
ф (0 f оо при t f оо и /ф' (0/ф (0 -> 0 при t -► оо. Эта функция ф
является медленно меняющейся (Seneta (1976) с. 10 по русскому
изданию). Затем положим hn = (^ (n) (log log n)/n)l/d и заметим,
что эта последовательность удовлетворяет всем указанным выше
требованиям.
12 Деврой Л., Дьёрфи Л.
178
Гл. 6. Адаптивная ядерная оценка
В качествеф выберем непрерывную кусочно-линейную функцию
с узлами в точках tt <t2 < ... , где th -> оо. Положим tr = 1 и
ф (0 = ф (0 на [0, 1 ]. При заданных tk и ф (th) определим tk+1
и Ф (4+1) следующим образом:
Ф(4+1) = min (ф(4), ф(4) (1 + 37^7)) >
4+1 = inf (/: / 5» 4 + 1, t/th	if: (th+1)/ф (4),
t _ f > (Ф (4+1) —Ф (4))^ log \
ft	Ф (4+1)	/'
Заметим, что tk k -> 00 при k -> 00, функция ф \t)/t монотонно
не возрастает и что
Ф' (0 <
Ф (4+1).	< Ф(0
4+i log k ''tlogk
на [lh, 4+1)- Существование 4+i следует из того, что всегда най-
дется 4 + 1, такое, что
4	lh
1 -(1о§0(1-ф(4)/ф(4+1)) •
В самом деле, знаменатель последнего выражения всегда больше
или равен 1/2 (иными словами, данное условие всегда выполнено
при t 24)- Наконец, 0 ф < ф и ф (0 f 00, поскольку ф (0 -*
-+ОО и
k=2
I 1	\ = °°-
2 logA/
Доказательство теоремы 3. Для доказательства утверждения 1
не требуется ничего нового. Эквивалентность С, D и Е установ-
лена в теореме 3.1. Очевидно, С => В => А в силу лемм 3 и 5.
Наконец, А => D в силу обобщения теоремы Шеффе, принад-
лежащего Глику (теорема 2.8).
Утверждение 3 частично доказано в леммах 3 и 5 (имеются
в виду включения С => В => А). Для доказательства того, что
А => С, заметим, что необходимость условия hn = о (1) следует
из утверждения 1 и необходимость условия n/id/log п -► оо сле-
дует из леммы 7. В самом деле, так как можно ограничиться точ-
ками Лебега функции f, в которых f (х) > 0, то, в силу леммы 7,
из условий hn = о (1), nhn -> 00 (оба этих условия вытекают из
утверждения 1 данной теоремы) и
S Ptfn(x)-£(fn(x))>e)<oo,
/1=1
5. Доказательства
179
при любых е > 0 и почти всех х следует
min (1, (nhn) 1/2 ехр (— anhn)) < оо '
п = 1
(20)
при любых а > 0. Если величина пЛп/log п не превосходит М,
то сумма в (20) больше или равна
S (/Wlogn)-1/2/:-^.
Последняя сумма бесконечна при а < ММ. Если же последова-
тельность nftn/log п не ограничена, то в силу ее семимонотонности
имеем lim (n/in/log п) = оо. Следовательно, А => С.
п->оо
Единственной нетривиальной частью теоремы является утвер-
ждение 2. Очевидно, В => А. Кроме того, если ядро К интегри-
руемо по Риману, то С => В в силу теоремы 2. Покажем теперь,
что для доказательства импликации А => С достаточно применить
лемму 7. Фиксируем постоянную а > 0 и введем последователь-
ность rii = [ехр (ai log i) ],	1. Заметим, что (ni+1 —~
~ (ei)a. Пусть уже доказано, что если nh„/log log п < М < оо,
hn 0, nhdnоо и х—точка Лебега функции /, такая, что
f (х) > 0, то
Р (|/и. (х) — Е (fn. (х))| > е бесконечно часто) = 1	(21)
при достаточно малых 8. Тогда в силу семимонотонности последо-
вательности nhnl\og log п имеем lim (nhdnl\og log п) = оо, так
П->оо
как в противном случае получается противоречие. Необходимость
условий hn = о (1) и lim nh„ = оо следует из утверждения 1 дан-
П->ОО
ной теоремы. Таким образом, остается доказать (21) при сформу-
лированных выше условиях. Имеем
где
(| ht (*) - & (f„t (х)) | > е б. ч.] =
э II ft W — Е (ft (х)) | > 2е б. ч.] П
П [ д"* -1 ft (х) — Е ([* (х)) | > е конечное число раз^ , (22)
j=-n.+\	«1+1
ni
f* (х) = и?1 V ""~<У>)/Лп^1)
/=1 h„
ni+l
12*
180
Гл. 6. Адаптивная ядерная оценка
Включение (22) следует из неравенства
I f",., W - £ Гч,«) I»I >' W - Е Л W) I -
п1+1
По лемме 5
< 2 exo ( — п hd	с*	_
р\ п<«п1+12к*(7(х) + е4-о(1))/“
-9ахп/_п hd	(е2 + о(1))(ера \
- 2 ехр nl+ihn.+i 2К* (f(x) + e + o (1)) )
Так как пЛ„->оо, то эта последовательность суммируема по i
при любых а, е > 0 и по лемме Бореля — Кантелли последнее
событие в (22) имеет вероятность 1. В силу независимости своих
элементарных составляющих среднее событие в (22) происходит
с вероятностью 1 тогда и только тогда, когда
£ Р (| h (х) - Е (Jt (х)) I >2е) = оо.	(23)
i=i
Нижняя граница для i-й вероятности в (23) дается леммой 7 при
замене там п и h на пг+1 —nt и hni соответственно. В силу сде-
ланных предположений имеем hn.+1 = о (1), (nj+1 — п() hnd.+l =
= о(1) .и (и;+1—rit) hd.+i -» оо, так что действительно можно
воспользоваться леммой 7. Нижняя граница для i-го слагаемого
при достаточно больших i равна
<ч(»1+1Ц+1Г1/2 ехр (- C2ni+I^j+1),	(24)
где при любых е > 0 постоянные q, с2 положительны и таковы,
что lim inf cr > 0, lim inf c2 ~ 0. Ясно, что-величина (24) больше
е|0	е|0
или равна
С1(М log logni+1)~1/2exp (— с2М loglogni+1)~
~ Ci (М log i)_ 1/2 (ai log
так что при c2 < ММ (т. е. при достаточно малых е) хвосты суммы
бесконечны. Тем самым доказаны соотношения (23), (21) и теорема 3.
Доказательство теоремы 4. Пусть Т — компактный носитель /,
М — граница для значений К, К = О вне So, г и К^> clSo г.
Пусть Ап — множество всех hn, для которых L (hn) > a sup L (h).
h>0
5. Доказательства
181
Имеются некоторые сложности с измеримым выбором hn из Ап.
Их можно обойти несколькими способами. Здесь предполагается,
что процесс выбора построен так, что hn —случайная величина.
Через F обозначается функция распределения, соответствующая
плотности f, через Fn —эмпирическая функция распределения
выборки .... Хп.
Доказательство теоремы 4 основано на ряде важных лемм. Они
выделены для удобства чтения.
Лемма 9 (неравенства больших уклонений для распределения
Пуассона). Если случайная величина X имеет распределение Пу-
ассона с параметром X, то
Р(|Х-Х|^Хе)<2ехр(—Хе2/2(1 + е))
при любых е > 0.
Доказательство. См. соотношение (3.3) и его доказательство.
Лемма 10. Пусть —семейство функций из Rd в R1, зави-
сящих от параметра 0, и пусть f —плотность с компактным
носителем. Тогда
sup |\gedFn — Jg0dF|->»O
0
почти наверное при следующих условиях-.
(i) sup sup | g0 (х) | <oo (семейство равномерно огра-
0 X
ничено),
(ii) семейство |ge) равностепенно непрерывно.
Доказательство. Пусть е > 0 — произвольное число. Разобьем
Т на прямоугольники Rit 1 < i N, такие, что sup sup || х —
i х, y^Ri
—гДе б >0 выбрано столь малым, что | g0(x) — g& (у)| <
<	е при любых 0, ||х —у||<6. Пусть хг С Rf,	—
произвольные точки из прямоугольников. Тогда
sup I f gedFn — jgedF\ с
e । j	j i
N
<	У supl j gedFn - J g-0 dF | <
»=i e Rt	Rt
N
<	2 SUP ( f I go W - go (*«) I (dFn T-dF) + go (-Ч)
<=i e
< 2e + N sup sup | ge (x) | sup J dFn — J dF ,
0 x	R R	R
182
Гл. 6. Адаптивная ядерная оценка
где /? — некоторый прямоугольник. Но в силу d-мерного варианта
теоремы Гливенко —Кантелли (см., например, Kiefer, Wolfowitz
(1958) или Kiefer (1961)) имеем
sup
я
c2dsup|Fn(x)-F(x)|->0
x
R	R
почти наверное. Лемма 10 доказана.
Лемма 11. При любых постоянных 0 < с, с2 < оо имеем
inf inf >0
x £ T
И
sup sup f*Kh(x) <g M/cdi < oo.
x e r
Доказательство. Второе утверждение леммы 11 очевидно. Для •
доказательства первого утверждения заметим, что
f*Kh(x)^c [ -г~—[ ------------------—-------,
J l(Sx,rh) " J (rc^MSo.i)
rh	.V, rci
где X—мера Лебега. Так как Т —компакт, то семейство
{SXt ГС1/2, х £ Т} содержит конечное множество сфер с центрами
в х19 ... , xNi являющееся покрытием для Т. Следовательно,
где с3 — положительная постоянная. Так как эта нижняя граница
не зависит от h, то лемма 11 доказана.
Лемма 12. Для любых плотностей f и К. удовлетворяющих
условиям теоремы 4, имеем
J -ТТКС л	+ M'h‘-
где Mlt М2 —постоянные, зависящие только от f, К и d.
Доказательство. Прежде всего заметим, что f ♦ Kh^h^c j f.
Sx. hr
Всегда можно найти покрытие Т множествами вида SXt йг/2, содер-
жащее самое большее М3 = М4 + Mhlhd множеств, где Mt —
постоянные, зависящие только от f и К. Это следует из того, что
5. Доказательства
183
наименьший замкнутый куб, содержащий Т, имеет такое покры-
тие. Пусть xlt х2, ... , хм3 —центры М3 множеств покрытия.
Ясно, что при любых х £ Sx,t hr/2 имеем [ /> j /. Таким
Sx,hr sxit hr/2
образом,
что и требовалось доказать.
Лемма 13 (свойства нормы L log L), Пусть f и К —плотно-
сти > удовлетворяющие условиям теоремы 4. Тогда справедливы
следующие утверждения'.
(i)	j f log (J* Kh)< J flog/ при любых h>0,
(ii)	lim j flog	j f log f,
MO
(iii)	Функция flog (f* К h) непрерывна no h на (0, oo).
Доказательство. Заметим сначала, что j f log (f * f(h) < oo
при любых h >0, но возможно, что j f log f = oo. По неравен-
ству Йенсена
j f log (-^) c log (J f • ^-h\ = log J f *Kh< 0
T	\t	/	T
при любых ft > 0.
Доказательство утверждения (ii) состоит из двух частей. Обо-
значим через log+ и log_ положительную и отрицательную
части функции log соответственно. Для первой части в силу леммы
Фату и теоремы 2.3 имеем
lim inf ff log+(f*^)=> ff lim inf log+ = [ flogj.
mo J	J MO
Далее нам потребуется следующий факт из анализа: для любого
действительного числа и С (0, 1) имеем
iog« + S<^^ S
/-0	/=ЛМ
184
Гл. 6. Адаптивная ядерная оценка
Из этой оценки хвоста ряда и леммы 12 следует, что для любых
целых J
f 1 Mt + M2hd
f * Kh Ч- 1 J “Ь 1
МЛ
J + l ’
где 1 —мера Лебега. С другой стороны, для любых целых j
имеем J f (1 —f * Kh)'+ -* j f (1 —/)( (по теореме Лебега о ма-
жорируемой сходимости и теореме 2.3). Объединяя все эти утвер-
ждения, полупим, что j f log_ (f * Kh) -> j f log. f. Но так как
log = log+ log., to lim inf | f log (f * Kh) I f log /, что вместе
htO J	J
с утверждением (i) данной теоремы влечет за собой (ii).
Для доказательства утверждения (iii) рассмотрим произволь-
ные h, h' > 0 и запишем сначала следующее неравенство:
| j / log (f * Kh) - J f logtf * A^) |чф | log (^) | •	(25)
Если ft' > О фиксировано и ft £ [ft72, 2ft' ], то в силу леммы 11
величина sup | log (f * KiJf * Kh’) | ограничена равномерно no ft.
Обозначим верхнюю границу для этой величины через св. Тогда,
в силу того что | log и — log v |	| и — v |/тах (и, v) при и, v >
> 0, подынтегральное выражение в (25) не превосходит
’ c\f\f*Kh-f*Kh’\.	(26)
Здесь —верхняя граница для sup sup 1/(/ ♦ Kh). Инте-
X g Т
грал от функции (26) не превосходит
<V2 J f +<Vsf\f*Kh — f*Kh’\	(27)
f >Сз
при любых c3 > 0, где с2 = sup sup f * Kh (это выражение
Л'/2^Л<2Л' X g Т
конечно также в силу леммы 11). Рассуждая так же, как при
выводе (2.4) в теореме 2.4, получим, что последнее слагаемое
в (27) есть о (1) при ft -> ft'. Первое слагаемое в (27) можно сделать
сколь угодно малым за счет выбора с3. Утверждение (iii) леммы 13
доказано.
5. Доказательства
185
Лемма 14. Пусть С принадлежит отрезку [ci, с21 s (0, оо)
и выполнены условия теоремы 4. Тогда
sup I log L (ft) - jf log(f*/Cft)|->0
h. С C
почти наверное.
Доказательство. Покажем сначала, что
п
sup 110gL(ft)-iy log(f»KA(Xt)) ->0
*€c n
почти наверное. Действительно, заметим, что
sup sup | fni (Xt) - fn (Xt) | < sup sup sup | fnt (x) - fn (x) | <
h^C {	h^Cx(;T 1
c /z"1 sup sup fni (x) + sup M (nhdy-{ = o(l)
h^C 1	h^C
И ЧТО
sup sup |/n(x) -f*/<A(x)|->0
h£c *
почти наверное в случае, когда ядро X ограниченно, имеет ком-
пактный носитель и непрерывно п. в. (см., например, Devroye,
Wagner (1980) или Bertrand-Retali (1978)). Используя равномер-
ные верхнюю и нижнюю границы для f * Xh из леммы 11, за-
ключаем, что
sup — У log (	О
h£c п La 6 \ f*Kh(Xt) /
почти наверное. Лемма 14 будет доказана, если мы покажем, что
п
sup 42log^*^ra-ffioga*^)
О
почти наверное. Положим gh — log (f * Xh). Требуется пока-
зать, что sup I ghdFn — | ghdF -*• 0 почти наверное. Для
л^с 1 J	J '
этого проверим условия леммы 10. Прежде всего семейство
|gA, ft € С} равномерно ограничено ввиду леммы 11. Таким об-
разом, достаточно проверить только равностепенную непрерыв-
ность. Применяя снова лемму 11, видим, что достаточно проверить
равностепенную непрерывность функций f * КА. Пусть х, у £ Т.
Тогда
sup |f *Xh(.x) -f*Xh(y)\< sup j Xh(z)\f(x — z) — f(y - z)\dz <
h^C	h$C
< (M/cf) J I f (x - z) - f (y - z) I dz. (28)
186
Гл. 6. Адаптивная ядерная оценка
Но последнее выражение равно о (1) при у -► х, что можно пока-
зать, аппроксимируя f в некоторой равномерно непрерывной
функцией f* с компактным носителем. Так как интеграл в (28),
таким образом, непрерывен по у при каждом фиксированном х
и так как х, у принадлежат компакту Т, то этот интеграл равно-
мерно непрерывен по х и у. Лемма 14 доказана.
Лемма 15 (первое утверждение теоремы 4). Если выполнены ус-
ловия теоремы 4, то hn ->• 0 почти наверное.
Доказательство. Множество Ап почти наверное не пусто, так
как L (ft) =0 при всех достаточно малых ft (это следует из ком-
пактности носителя К) и L (h) >0 при всех достаточно больших ft
(это следует из неравенства К cISq г).
Для доказательства леммы достаточно установить, что для
любого е > 0 существует 6 £ (0, е), такое, что
lim inf (aL (6) — sup L (h)) > 0	(29)
n->oo	ft>E
почти наверное. (Этого достаточно, так как тогда если у С 1е> °°)>
то L (у) sup L (h) < aL (б) < a sup L (ft) почти наверное при
й>е	й>0
всех достаточно больших п, и, следовательно, у & Дп). Но (29)
имеет место, если
lim sup sup — log L (ft)<
n->oo h>E n
< lim inf — log (aL (6)) = lim inf — log L (6). (30)
П-»оо П	П-»оо П
В силу леммы 14 правая часть (30) почти наверное равна
j f l°g (f * Де)- Если Mi—большое положительное число, то
также
lim sup sup — log L (ft) <
n->oo ft>E n
стах/lim sup sup — logL(ft), lim sup sup log <
\ n-*oo	П	П-+<Х> h>M\ \ h / /
стах/ sup (flog(f* Kh), log (M/Mi)\<
почти наверное (в силу леммы 14)
< Р log(f*Ae)
при некотором 0 < б < е. Последнее неравенство следует из
леммы 13 и того, что Mi можно выбрать сколь угодно большим.
Лемма 15 доказана.
5. Доказательства
187
Лемма 16 (второе утверждение теоремы 4). Если выполнены
условия теоремы 4, то lim inf (n/in/log п) > 0 почти наверное.
п-*<х
Доказательство. При любом а > 0 имеем
Р! sup h<Z а\ с Р /max min ||Хг- — Ху||< га\. (31)
\л€лп / V ‘ /*•	/
Это следует из того, что при h < (1 IT) max min || X, — X, || имеем
i i*i
L (h) = 0, так что, конечно, h Ап (в самом деле, L (Л) >0 при
всех достаточно больших h). Неравенство (31) является отправной
точкой доказательства. Чтобы не накладывать на f слишком
много ограничений, потребуются довольно тонкие рассуждения.
Предположим, что носитель Т плотности f содержится в замкну-
том квадрате Q, который, не нарушая общности, можно считать
равным [0, 1 К Воспользуемся неравенством (31) при а = ап =
= ((е log n)/n)1/rf, где е > 0 — некоторое малое число, которое
будет выбрано в дальнейшем. Разобьем каждую сторону Q на
[l/(ra) 1 интервалов равной длины (таким образом, длина каждого
интервала больше или равна га, и пропорциональна га при и->- оо).
Соответствующая этому разбиению сетка квадратов состоит из тп
ячеек Bt, причем, снова не нарушая общности, предполагается,
что тп кратно 3d. Каждая ячейка имеет d координат, а каждая
координата представляет собой целое число, лежащее между 1 и
[1/(га)1 и равное рангу интервала, который является соответ-
ствующей проекцией ячейки. Пусть С;—ячейки, все координаты
которых имеют вид 2 + 3/, / = 0, 1, 2, ... , и пусть Ct —сово-
купность ячеек, имеющих хотя бы одну общую вершину с С',.
Таким образом, Сг является сверхъячейкой, состоящей из 3d
первоначальных ячеек, и существует ровно mn/3d таких ячеек С;.
Предполагается, что первые mn!3d целых чисел в линейной нумера-
ции ячеек являются индексами ячеек типа С/. Пусть pt = | f,
C'i
Проведем теперь пуассонизацию объема выборки. Этот прием —
исключительно дело вкуса. Так, доказательство в R1 можно легко
провести без пуассонизации, поскольку хорошо изучены свойства
спейсингов на действительной оси. Пусть No, Nt —независимые
пуассоновские случайные величины с параметрами п — Ьп и 2Ьп
соответственно, где bn = уАМ*п log п и М*—большое число,
которое будет выбрано в дальнейшем. Случайная величина Л/ =
= No + Nt имеет, таким образом, распределение Пуассона с па-
раметром п + Ьп. При заданном N извлечем выборку из совокуп-
188
Гл. 6. Адаптивная ядерная оценка
ности с плотностью /, состоящую из независимых случайных век-
торов Хр ... , Xv. Далее, правая часть (31) равна
Р П [Sx.,ra содержит хотя бы одно X/, j=£i, j <
(тп/3<1
n [C- = 0]\j
\ 1=1
U [C'c =r0, Ci содержит хотя бы два Х}, j < n]j <
.]-P(N0>n) +
П (С; не содержит Xh j с ;V0] (J
i
и [С; содержит хотя бы одно Х}
при j < N; Ct содержит хотя бы
две точки с индексами j < ЛГ];
No<. п, N ^п
(32)
В силу леммы 9 первые два слагаемых в правой части (32) не пре-
восходят
2	1 9
2 «Ч> (- 2(» + 2Ы ) + 2 “Р (-£) =	•
и эта последовательность суммируема по п при М* > 2. Покажем,
что при фиксированном М* последнее слагаемое в (32) ограничено
сверху функцией, суммируемой по п. Отсюда в силу (31) и леммы
Бореля — Кантелли будет следовать, что sup h < ((е log n)ln)i/d
Л € лп
конечное число раз почти наверное, что и требуется доказать.
Исключим в последнем слагаемом в (32) ограничения No < п,
N п, тем самым увеличив его. В результате получим вероятность
пересечения независимых событий:
mn/3d
П (г (л ~ьп) + (I _ е~ <n+b^ pi -
- (п + Ь„) р-е~(n+bn)pJ-C’+M<
/ mnlbd
< ехр f S (е~ (n~hn) р1 — е~ (п+ь^ р‘) —
тп/3<1	\
- Е	(зз)
1=1	/
5. Доказательства
189
где мы воспользовались неравенством 1 + и еи, верным при
любых и. При 0 < и < v имеем е~и —e~v е-“ (и — и) < и — и.
Следовательно, первая сумма под экспонентой в (33) не превосходит
mn/3d
pi 26п.
i=i
Введем теперь следующие гистограммные аппроксимации плот*
кости:
Для последней суммы под экспонентой в (33) имеем
2 (n + bn)pie-^bn^i-
«„/3d
~3-“ 2
.=i ct
~3-rf J ng'n(x)e <n+b^ {3ra)d «n M dx.	(34)
Q
Но в силу леммы Фату и теоремы 2.2
-ж-	4 3-Ф wLnf V х
Xt-("+6n) ^a)“gn (X)dx
Здесь нижний предел бесконечен на множестве ненулевой /-меры:
lira inf ]/ехр (— (п + Ьп)(Зга/gn (х)) = оо.	(35)
В самом деле, по теореме 2.2 gn -* f ПРИ почти всех х. Кроме того,
(п + bn) (3ra)d ~ (3f)d е log п, так что выражение под знаком
нижнего предела в (35) равно
V 1^7Г ехР	(ЗГ)“ / W (е + ° (’)) log я)
при почти всех х. Эта величина стремится к оо на множестве по-
ложительной /-меры, если е достаточно мало. Таким образом,
при всех достаточно больших п правая часть (33) не превосходит
значений последовательности ехр (—Уп log п), суммируемой по п.
Лемма 16 доказана.
190
Гл. 6. Адаптивная ядерная оценка
6.	Инвариантное оценивание плотности
Проблема инвариантности оценок плотности относительно
определенных преобразований впервые была затронута Wertz
(1974а, 1976). В этом параграфе будет показано, что использование
адаптивных оценок плотности в общем случае мотивируется сообра-
жениями инвариантности.
Пусть ср —монотонно возрастающая функция, взаимно одно-
значно отображающая на /?, и пусть ф и обратная к ней функ-
ция абсолютно непрерывны на конечных интервалах. Говорят, что
оценка плотности fn на /? является ^-инвариантной, если
Лг(ф(*), Ч>(*1)...ф(*п))	= (ф-1(*))'/п(х, Xi.Хп)
при любых п и любых х, хь .... xn £ Rn+i. Это определение можно
перефразировать следующим образом. Предположим, что по-
строена оценка плотности fn(x, Хъ .... Хп). Тогда оценку плот-
ности величины Y = ф (Х\) можно получить двумя способами:
(i)	Обычным преобразованием плотностей; при этом получим
ф'(^)/п(ф(«/)> Ф(«/1), • • ; ФО/n)), У, У1.Уп€Кп+1,
где = ф-1.
(ii)	Построением новой оценки по данным ф (Хх), .... ф (Хп),
/п(Ф(х), Ф(Х1), . . Ф(Хп)) = /п({/, У1,   ; Уп),
У,	У1, • • ; 1/п€Яп+1-
По существу ф-инвариантность означает, что эти оценки совпа-
дают друг с другом. Иначе говоря, ф-инвариантность означает,
что
f fn(y, У1, • • > yn)dy = J f„(y, фСй). . . <f(yn))dy
В	Ф [В]
для любых борелевских множеств В, где ф IB 1 —множество зна-
чений ф (у), у £ В.
В частности, представляет интерес трансляционная инва-
риантность (ф (х) = х + а, а £ R) и масштабная инвариант-
ность (ф (х) — Ьх, b > 0). Трансляционная инвариантность почти
всегда рассматривается как само собой разумеющееся, и оценки,
не обладающие этим свойством, кажутся несколько странными.
Трансляционная инвариантность по существу эквивалентна тре-
бованию, что fn является функцией только от х — Хх, .... х — Хп-
Очевидно, что все ядерные оценки с фиксированным h трансля-
ционно инвариантны. Это утверждение остается в силе, если допу-
стить, что h зависит от всех попарных разностей Xt —Х} =
== (х —Xj) — (х — Xi). К сожалению, гистограммную оценку
можно сделать трансляционно инвариантной, только если не-
6. Инвариантное оценивание плотности
191
сколько изменить ее определение. Оценки типа делыпа-функции
Дирака (Walter, Blum (1979)) имеют вид
/nW = S wniKni(x, Xi),
i=i
где wni —веса и Kni —заданные действительнозначные функ-
ции. Оценки такого вида трансляционно инвариантны, только
если Kni (х, у) = Knt (х —у) для некоторых функций Knt-
Поэтому только в такой форме эти оценки рассматриваются в дан-
ной книге. В гл. 12 будет показано, что проекционные оценки на
действительной оси не являются трансляционно инвариантными.
Заметим также, что без трансляционной инвариантности трудно
добиться выполнения условия j fn = 1.
Для масштабно инвариантных оценок плотности имеем
bfn (bx, bXlt . . ., ЬХп) = fn (х, X..Хп)
при любых b > 0. К сожалению, обычная ядерная оценка с фик-
сированным h не является масштабно инвариантной при любых
ядрах К, поскольку условие
улг. Ь, Л>0.
выполнено, только если (х) = с/х или X (х) — с/| х | при не-
котором с £ R. Ядерные оценки с такими ядрами обладают очень
плохими свойствами: например, при К (х) = с/| х | имеем
j | fn | = оо при любых п и Е (fn (х)) — оо при почти всех х,
для которых f (х) > 0. При обычных условиях вида [ | К | < оо,
J К = 1 на ядро К ядерные оценки могут быть масштабно инва-
риантными, только если h зависит от данных. В частности, масштаб-
ная инвариантность имеет место, если h зависит от данных таким
образом, что
h(bXx, . .., bXn) = bh(Xl, .... Xn).
Это один из основных аргументов в пользу изучения адаптивных
ядерных оценок. Примерами функций h указанного вида являются
c(S|Xi-X>py/₽, р>0,
С(Х(ьп)~ Х(ап))>
где 1 < an< in и Х(1) есть i-я порядковая статистика вы-
борки Xi, ..., Хп- В обоих случаях с —соответствующим обра-
зом выбранная функция только от п.
192
Гл. 6. Адаптивная ядерная оценка
Инвариантность по отношению к другим преобразованиям
требуется редко. Так, существуют приложения, где нужны оценки
плотности в линейном и логарифмическим масштабах. Было бы
неприятно обнаружить, что обычное логарифмическое преобразо-
вание оценки с линейным масштабом не согласуется с оценкой,
построенной по логарифмически преобразованным данным. Если
разница есть, то какую оценку следует выбирать? Другой вопрос,
который здесь не был затронут, касается существования разумных
(состоятельных и т. д.) ф-инвариантных оценок при заданном
преобразовании ср.
7.	Скорость сходимости адаптивных
ядерных оценок
В этом параграфе приводится общая теорема, которая позво-
ляет делать выводы о скорости сходимости адаптивной ядерной
оценки при условии, что имеется некоторая информация о пове-
дении Л, в частности, о близости h к некоторой детерминированной
последовательности ап. Подчеркнем, что новое условие, наклады-
ваемое здесь на ядро, вводится только для удобства выкладок.
Теорема 5. Предположим, что fn —адаптивная ядерная оценка
с параметром сглаживания h и ядром К, где j К =1, и
-u~d), и^\,
с некоторой постоянной С. Если fna —обычная ядерная оценка
с параметром сглаживания а и тем же самым ядром К, то
I	- min- (i, А.)).
Доказательство. Не нарушая общности, предположим, что а <^ h.
Тогда
п
< 4 2 П '-'к (т^) ~ (-4*-) И*=
Замечание. Условие, накладываемое на К, выполнено для
большинства плотностей К, в частности для всех плотностей К
на Rd, которые не возрастают вдоль лучей, т. е. таких, что
# (их) К (х) при любых х £ Rd, « > 1. В этом случае С можно
7. Скорость сходимости адаптивных ядерных оценок
193
положить равным двум, что явствует из следующей простой вы-
кладки:
J |К и - к | С J |	(v) - u~dK w Idx +
+ JI u~dK (x) - (x) | dx == «-* f (X (-*-) -
- К (x))dx + (1 - u~*) = 2(1 - u-'O, и > 1.
Неравенство теоремы 5 получено без каких-либо предположе-
ний о параметре сглаживания, как то: сходимость к нулю и т. д.
Оно имеет много применений, лишь небольшая часть которых
будет перечислена ниже в леммах.
Лемма 17. Для адаптивной ядерной оценки fn с ядром К,
удовлетворяющим условиям теоремы 5, имеем
+ 2P(1_m,n<(i,
где ап, еп —последовательности положительных чисел и fnan —
обычная ядерная оценка с параметром сглаживания ап.
Эта лемма исключительно важна. Например, рассмотрим пара-
метры сглаживания вида
п/2
i=i
Здесь ап — произвольная последовательность положительных чи-
сел. Можно было бы рассмотреть и двойную сумму по всем | Xi —
— Xj |, но это было бы нелегко в численном отношении и, конечно,
запутало бы изложение. Справедлива
Лемма 18. Если ядро адаптивной ядерной оценки неотрица-
тельно, равно нулю вне [—1, 1’] и удовлетворяет условиям тео-
ремы 5, параметр сглаживания h выбирается, как указано в преды-
дущем абзаце, при некоторой произвольной последовательности
положительных чисел ап, и если Е (|	|р) < оо при некотором
р > 4, то
в обозначениях леммы 17.
Заметим, что условия на f исчерпываются указанным момент-
ным ограничением.
13 Деврой Л., Дьёрфи Л.
Гл. 6. Адаптивная ядерная оценка
Доказательство. Применим непосредственно лемму 17. В силу
теоремы 5.2 мы получим требуемый результат, если укажем после-
довательность еп, такую, что еп = о (п“2/5) и Р (| hl(anE (| Хх —
— Х21)) —1 I > еп) = о (п“2/5). По неравенству Чебышева по-
следняя вероятность не превосходит
Е р 4£(У(-Е(У0)
<Сре7₽ (4)₽£	£(У,.-Е(У,.))2
Р/2Х
(это имеет место при р > 2 и некотором Ср > 0 в силу неравен-
ства Марцинкевича и Зигмунда, см. лемму 5.27)
п/2
<	(f )Р/2~‘ J Е (I Y< - £(^)1₽)
< С„епр (-^у/22р-'Е(| У. |₽) < Ае~рп~р'2,
где Yt = |	—Хц | и А —некоторая конечная постоян-
ная. Если выбрать en ~ п~р12 <₽+*>, то е„ =о (п-2/5) при р > 4
и последовательность е^рп~р12 убывает так же, как еп, с точностью
до постоянного коэффициента пропорциональности. Лемма 18
доказана.
Замечание. Из теорем 5, 3.1 и рассуждений, сходных с теми,
которые приводят к лемме 17, явствует, что если интеграл от ядра
равен 1, ядро абсолютно интегрируемо и удовлетворяет условиям
теоремы 5, и если существует последовательность ап, такая, что
ап->0, пап ->• оо и hlan -+• 1 по вероятности (почти наверное),
т0 j I fn —f I ->0 по вероятности (почти наверное). Теорема
6.1 является более общей, поскольку в ней не накладывается ни-
каких дополнительных условий на К и не предполагается суще-
ствования центрирующей последовательности ап (тем самым до-
пускается большая изменчивость случайной величины Л).
ЛИТЕРАТУРА
Bennett G.
(1962) Probability inequalities for the sum of independent random variables,
Journal of the American Statistical Association, 57, pp. 33—45.
Bertrand-Retali M.
(1978) Convergence uniforme d'un estimateur de la densite par la methode du noyau,
Revue Roumaine de Mathematiques Pures et Appliquees, 23, pp. 361—385.
Литература
195
Bowman A. W.
(1982) A comparative study of some kernel-based nonparametric density estima-
tors, Manchester-Sheffield School of Probability and Statistics, Research Report
No. 84/AWB/l.
Bretagnolle J., Huber C.
(1979) Estimation des densites: risque minimax, Zeitschrift fur Wahrscheinlich-
keitstheorie und verwandte Gebiete, 47, pp. 119—137.
Chow Y. S., Geman S., Wu L. D.
(1983) Consistent cross-validated density estimation, Annals of Statistics, 11,
pp. 25—38.
Deheuvels P.
(1974) Conditions ^cessaires et suffisantes de convergence ponctuelle presque sure
et uniforme presque sure des estimateurs de la densite, Comptes Rendus Acadёmie
des Sciences de Paris Serie A, 178, pp. 1217—1220.
(1977) Estimation non parametrique de la densite par histogrammes generalises,
Revue de Statistique Appliquee, 25, pp. 5—42.
Deheuvels P., Hominal P.
(1980) Estimation automatique de la densite, Revue de Statistique Appliquee,
28, pp. 25-55.
Devroye L., Wagner T. J.
(1980)	The strong uniform consistency of kernel density estimates, in Multivariate
Analysis V, P. R. Krishnaiah (Ed.), North-Holland, New York, pp. 59—77.
Duin R. P. W.
(1976) On the choice of smoothing parameters for Parzen estimators of probability
density functions, IEEE Transactions on Computers, C—25, pp. 1175—1179.
Geman S.
(1981)	Sieves for nonparametric estimation of densities and regressions, Reports
in Pattern Analysis No. 99, Division of Applied Mathematics, Brown University,
Providence, Rhode Island.
Geman S., Hwang C.-R.
(1982)	Nonparametric maximum likelihood estimation by the method of sieves,
Annals of Statistics, 10, pp. 401—414.
Habbema J. D. F., Hermans J., Vandenbroek K.
(1974)	A stepwise disriminant analysis program using density estimation in COMP-
STAT. 1974, G. Bruckmann (Ed.), Physica Verlag, Wien, pp. 101—110.
Hall P.
(1982a) Cross-validation in density estimation, Biometrika, 69, pp. 383—390.
(1982b) Limit theorems for stochastic measures of the accuracy of nonparametric
density estimators, Stochastic Processes and Applications, 13, pp. 11—25.
(1983a) Large-sample optimality of least squares cross-validation in density esti-
mation, Annals of Statistics, 11, pp. 1156—1174.
(1983b) Asymptotic theory of minimum integrated square error for multivariate
density estimation, Proceedings of the Sixth International Symposium on Multi-
variate Analysis, Pittsburgh.
Kiefer J.
(1961) On large deviations of the empiric d. f. of vector chance variables and a law
of the iterated logarithm, Pacific Journal of Mathematics, 11, pp. 649—660.
Kiefer J., Wolfowitz J.
(1958) On the deviations of the empiric distribution function of vector chance
variables, Transactions of the American Mathematical Society, 87, pp. 173—186.
Rosenblatt M.
(1956) Remarks on some nonparametric estimates of a density function, Annals
of Mathematical Statistics, 27, pp. 832—837.
(1971) Curve estimates, Annals of Mathematical Statistics, 42, pp. 1815—1842.
Rudemo M.
S Empirical choice of histogram and kernel density estimators, Scandinavian
il of Statistics, 9, pp. 65—78.
13*
196
Гл. 6. Адаптивная ядерная оценка
Schuster Е. F., Gregory G. G.
(1978) Choosing the shape factor (s) when estimating a density, Technical Report,
Department of Mathematics, University of Texas, El Paso, Texas.
(1981) On the nonconsistency of maximum likelihood nonparametric density esti-
mators, in Computer Science and Statistics: Proceedings of the 13th Symposium
on the Interface, W. F. Eddy (Ed), Springer-Verlag, New York, pp. 295—298.
Scott D. W.
(1979) Optimal data-based histograms. Biometrika, 66, pp. 605—610.
Scott D. W., Tapia R. A., Thompson J. R.
(1977) Kernel density estimation revisited, Journal of Nonlinear Analysis, Theory,
Methods and Applications, 1, pp. 339—372.
Scott D. W., Factor L. E.
(1981) Monte-Carlo study of three data-based nonparametric probability density
estimators, Journal of the American Statistical Association, 76, pp. 9—15.
Seneta E.
(1976) Regularly Varying Functions, Lecture Notes in Mathematics, No. 508,
Springer-Verlag, Heidelberg. (Имеется русский перевод: Сенета Е. Правильно
меняющиеся функции.—М.: Наука, 1985.)
Silverman В. W.
(1978) Choosing the window width when estimating a density, Biometrika, 65,
pp. 1—11.
Stone C. J.
(1983)	An asymptotically efficient histogram selection rule, Proceedings of the
Neyman — Kiefer meeting..
(1984)	An asymptotically optimal window selection rule for kernel density esti-
mates, Annals of Statistics, 12, pp. 1285—1297.
Tapia R. A., Thompson J. R.
(1978)	Nonparametric Probability Density Estimation, The John Hopkins Univer-
sity Press, Baltimore, Maryland.
Wagner T. J.
(1975) Nonparametric estimates of probability densities, IEEE Transactions on
Information Theory, IT—21, pp. 438—440.
Walter G., Blum J.
(1979)	Probability density estimation using delta-sequences, Annals of Statistics,
7, pp. 328—340.
Wertz W.
(1974a) Invariante und Optimale Dichteschatzungen, Mathematica Balkanica,
4, pp. 707—722.
(1974b) On the existence of density estimators, Studia Scientiarium Mathematica-
rum Hungarica, 9, pp. 45—50.
(1976) Invariant density estimation, Monatshefte fur Mathematik, 81, pp. 315—324.
Woodroofe M.
(1970) On choosing a delta-sequence, Annals of Mathematical Statistics. 41,
pp. 1665—1671.
Надарая Э. A.
(1974) Об интегральной среднеквадратичной ошибке некоторых непараметриче-
ских оценок плотности вероятностей//Теория вероятн. и ее примен. — Т. 19. —
1.—С. 131—140.
Глава 7
Оценки, близкие к ядерной
и гистограммной оценкам
1.	Введение
Все оценки плотности, рассматриваемые в этой главе, являются
плотностями на Rd. Они в основном представляют собой обобще-
ния ядерной и гистограммной оценок, обладающие некоторыми
дополнительными свойствами:
(i)	лучшее поведение при малых выборках;
(ii)	робастность;
(iii)	простое рекуррентное задание;
(iv)	локально настраиваемое сглаживание.
Вообще говоря, легко убедиться в состоятельности этих оценок,
хотя результаты об эквивалентности в полном объеме теоремы 3.1
в настоящее время не известны. В гл. 3—5 была создана прочная
база для сравнения ядерных и гистограммных оценок. Гораздо
меньше известно о скоростях сходимости для обобщений этих
оценок. В отличие от состоятельности исследование скорости схо-
димости, как правило, является нестандартной задачей.
Рассматриваемые оценки будут довольно произвольным обра-
зом разбиты на следующие группы:
1.	Ядерные оценки с переменным параметром сглажи-
вания.
2.	Рекуррентные ядерные оценки.
3.	Оценки максимума правдоподобия.
4.	Переменные гистограммные оценки.
5.	Ядерные оценки с пониженным смещением.
6.	Оценка Гренандера для монотонных плотностей.
2.	Ядерные оценки
с переменным параметром сглаживания
В 1977 г. (Breiman, Meisel, Purcell (1977)) была предложена
следующая оценка:
(1)
7=1
198	Гл. 7. Оценки, близкие к ядерной и гистограммной
где X — заданное ядро и Hni — расстояние от Xt до /гп-го ближай-
шего соседа точки Х( среди ........ Хп J). Оценка (1) является
плотностью как функция от х и, по-видимому, обладает локально
настраиваемым параметром сглаживания, поскольку, грубо говоря,
значение Hnt велико там, где плотность f мала, и наоборот. Ко-
нечно, нужно еще выбирать kn, так что эту оценку едва ли можно
назвать адаптивной.
Оценка (1), вероятно, произошла от оценки ближайших соседей,
которую можно задать с помощью (1), заменяя там Hni на рас-
стояние Нп (х) от х до &п-го ближайшего соседа точки х среди
Хи ..., Хп-, см., например, Moore, Yackel (1977), Mack, Rosenblatt
(1979) и Loftsgaarden, Quesenberry (1965) (последние авторы впер-
вые дали определение оценки ближайших соседей при частном
выборе ядра X (х) = lSQl (х)/Х (S01)). Однако если вместо Hni
использовать Нп (х), то оценка не является плотностью: действи-
тельно, j fn = оо при любых п.
Идея локальной настройки параметра сглаживания заслужи-
вает дальнейшего изучения. Анализ, приведенный в гл. 5, показы-
вает, что параметр сглаживания должен быть большим, если вели-
чины 1// и | f" | малы. В областях высокой кривизны f (т. е. боль-
ших значений | f |) или малых значений f нужно уменьшать пара-
метр сглаживания. Так как параметр сглаживания Hnt не зависит
от кривизны, он по сути не является асимптотически оптималь-
ным. В самом деле, при фиксированной кривизне параметр сгла-
живания должен возрастать с ростом значений f, а не убывать,
как это имеет место в методах ближайших соседей.
Тем не менее экспериментальные результаты для оценок (1),
приведенные в работах Breiman и др. (1977), Habbema и др. (1978)
и Raatgever и др. (1978) по меньшей мере можно считать обнаде-
живающими. Однако большинство исследователей избегало под-
робного изучения свойств оценки (1), представляющей собой
сумму зависимых случайных величин. Деврой (Devroye (1985))
показал, что оценка (1) сходится в среднем в к / при любых f,
если X не возрастает вдоль лучей, kn — о (п) и lim kn = оо. Аб-
’ П~>оо
рамсон (Abramson (1982)) предложил еще один метод выбора
величин Hni, зависящих от х. Однако его метод нетрудно видоиз-
менить так, чтобы зависимости от х не было. При этом потребуется
теорема состоятельности в духе теоремы 6.2 (которую можно рас-
сматривать как частный случай, когда НП1 = ... = Нпп = Нп,
Нп — случайная величина), где условия будут налагаться,
скажем, на квантили последовательности Hnt.
!) &п-м ближайшим соседом точки х среди Х1( .... Хп называется точка Xj,
такая, что ||х — Х7-|| есть Лп-й элемент вариационного ряда для || х — Хх ||, ...,
||х — Хп ||. — Прим, перев.
3. Рекуррентные ядерные оценки
199
Дальнейшего исследования заслуживает еще одна задача —
выбор Hni. В методах ближайших соседей, таких, как в работе
Breiman и др. (1977), параметр сглаживания возрастает с ростом /.
При этом нет непосредственной зависимости от кривизны. Но,
как было показано в гл. 5 (хотя и для нелокального случая),
параметр сглаживания в идеале должен зависеть от f и f".
3.	Рекуррентные ядерные оценки
При рекуррентном определении оценок появляется два преиму-
щества: данные не нужно запоминать и оценки легко перестраи-
вать при получении новых данных. Последнее относится к случаю,
когда представляют интерес только значения f в ряде фиксирован-
ных точек х. Едва ли следует ожидать, что простые рекуррентные
аналоги ядерной оценки Парзена—Розенблата ведут себя так же
хорошо, как исходная нерекуррентная оценка.
Чаще всего рассматривается оценка, определяемая соотноше-
нием
п
Ш = +	(2)
1=1
Эта оценка введена в работе Wolverton, Wagner (1969а, b) и Yamato
(1971) (теоретический анализ ее см. в работах Davies (1973), De-
heuvels (1973а, b, 1974), Carroll (1976), Ahmad, Lin (1976), Dev-
roye (1979), Wegman, Davies (1979), Gyorfi (1981)). Здесь hn —
последовательность положительных параметров сглаживания.
Deheuvels (1973а, b, 1974) предложил также другие обобще-
ния, в частности
J К ((x-Xiy/ht)
fn{x) = -^—n------------,	(3)
2 atK ((x-Xt)/hi)
fn(x) = -^—n------------,	(4)
s «x
(=i
где at = g (hi) для некоторой функции g с положительными значе-
ниями. Один из его результатов состоит в том, что асимптотиче-
ская дисперсия оценки (3) меньше, чем для оценок (2) или (4)
(при di Ф 1).
В работе Deheuvels (1979) найдены асимптотически оптималь-
ные значения Ле- и at при критерии интегральной среднеквадра-
200
Гл. 7. Оценки, близкие к ядерной и гистограммной
тичной ошибки и показано, что если К — симметричная плот-
ность на R1, то оценка (2) оптимальна. Исходя из этого, ниже
будут подробно рассмотрены оценки (2) и (3). Хотелось бы также
привлечь внимание к общим классам оценок, введенным Вапоп
(1976) и Rejto, Revesz (1973).
Если at = 1/yTif, то оценка (4) близка к оценке из Wegman,
Davies (1979). Наконец, хотелось бы отметить работы Isogai (1978,
1980, 1982), который рассмотрел оценки, определяемые рекуррент-
ным соотношением
fn+i (х) = fn (X) + a„+1 (h~^K (~) - fn «) ,	(5)
оо
где 01 = 1, 0 < ап < 1, ап -+ 0 и £ап = оо.
П=1
Он привел достаточные условия для различных типов состоятель-
ности. Заметим, что при выборе ап — Мп соотношение (5) опреде-
ляет оценку (2).
Теорема 1. Пусть К —ограниченная плотность с интегри-
руемой радиальной мажорантой (см. теорему 2.3), и пусть \hn\ —
последовательность положительных чисел. Пусть fn —оценка (3).
Тогда следующие утверждения эквивалентны:
A. fn-*-f почти наверное при почти всех х для любых f;
В- Л -*• f по вероятности при почти всех х для некоторой
плотности f-
СО	п	I П
С.	2	= оо и lim 2 hdiltht>e] I 2	= 0 при любых е > 0;
П~1	П-*ОО 1 — 1	1 — 1
D.	j 1/п — f I -> 0 почти наверное для любых f ;
Е.	J |/п — f | -> 0 по вероятности для некоторой плотности f.
Приведем полное доказательство теоремы 1. Доказательство
взято по частям из работ Deheuvels (1973а, Ь, 1974) и Devroye
(1979). Заметим, что утверждается эквивалентность слабой и силь-
ной поточечной сходимости, которая для обычной ядерной оценки
не имеет места (см. теорему 6.3).
Заметим также, что утверждение С следует из условий -hn —
оо
= 0(1) и 2^п = но из него не следует, что hn =о(1). Дока-
м—1
зательство теоремы 1 основано на нескольких важных леммах.
Лемма 1. Для любой случайной величины X, имеющей абсо-
лютные моменты = Е (| X |г), выполнено неравенство
3. Рекуррентные ядерные оценки
201
Доказательство. При фиксированном а > 0 минимум функции
1/х + ах2 на (0, оо) достигается при х3 = 1/2а. Таким образом,
х +	(2а)|/3 + а (1/2а)2/3 = (3/2)(2а)>/3.
Отсюда после замены х на | X | и взятия математических ожиданий
получим
pi > (3/2) (2а)|/3 — ац4.
Эта нижняя граница, рассматриваемая как функция от а, макси-
мальна при а = (р2/щ)3/2/2. Подстановка этого значения а в гра-
ницу дает
h > 1*2/2/Н4/2-
Лемма 2. Если К —ограниченная плотность с интегрируе-
мой радиальной мажорантой и h -> 0, то
f ♦
при почти всех х и любых р > 0.
Доказательство. Эта лемма следует из теоремы 2.3.
Доказательство теоремы 1. В силу теоремы 2.8 имеем А =>
=> В => Е и А =>- D => Е. Покажем сначала, что С =ф- А, а затем,
что Е => С.
Положим
п
Д(*) =

при некотором е > 0. Тогда в силу С
|| < М £ Z(ft.> J £ Л? = о (1),
где M — верхняя граница для К. Кроме того,
п I п

р1»,в]+
Б?
где
V{ = hd (h~dK ((х - Х,)/Л,) - f * /Ц (x)) /р.<е],
202
Гл. 7. Оценки, близкие к ядерной и гистограммной
— независимые случайные величины. Последнее слагаемое в пра-
вой части этого неравенства состоит из двух частей, одна из кото-
рых может быть сделана малой за счет выбора малого е (ввиду лем-
мы 2), а вторая равна о (1) при любых е > 0 (в силу С) при почти
всех х. Таким образом, утверждение А будет доказано, если пока-
п In
зать, что	почти наверное при почти всех х, По-
1=1	/ i=i
следнее имеет место, если
П=1
(6)
(см., например, Loeve (1963, с. 267 по русскому изданию). Но за-
метим, что можно выбрать е так, что
Е (V2) < h2ndI[hn<t]hndf * Кьп < hdnI[hn<t] (f J K2 + 1)
при почти всех x по лемме 2. Следовательно, надо только прове-
рить, что
< 00.
Но это неравенство имеет место, поскольку
(п п—1	\
2Х Е л/
i=l (=1	/
Тем самым доказана импликация С => А.
оо
Покажем теперь, что Е=>	= оо. Будем рассуждать от
п=1
противного. Предположим, что эта сумма конечна и равна s. Тогда
h.n -+ 0 и из леммы 2 следует, что | Е (fn) — f | -> 0 при почти
всех х. Далее, в силу леммы Фату и утверждения Е имеем 0 =
= lim inf J Е (| fn — f I) > J lim inf E (| fn — f |) и, следовательно,
rt->oo J	J n-+<x>
liminfE(|fn-£O) = 0	(7)
rt-*oo
3. Рекуррентные ядерные оценки
203
при почти всех х. Ввиду леммы 1 противоречие с (7) будет полу-
чено, если показать, что
lim sup Е (| fn - Е (fn) |4) < оо
«-►оо
при почти всех х и
lim inf E(\fn - E(/n)|2)>0
«-►оо
(8)
(9)
при почти всех х. Положим Y, = К ((х —Xt)/hi), Zt —Yt —
— Е (Yt). В силу леммы 2 Е (Y't) ~ hdf (х) [ Кг при любых г > О
и почти всех х. Отсюда заключаем, что Е (Zty ~ Е (У?) ~ hd х
X f(x) J К2 при почти всех х и Е (Z*) ~ Е (Yl) ~ hdf (х) j К* при
почти всех х. Чтобы проверить (8), заметим, что при почти всех х
при п -> оо
/ «	\ 4	/ ✓ П	\4\
£(lfn-£(fn)l4) Ел?	<
\t = l /	\\l = l	/ /
< s*e (2 zt + 6 2 Е zm j < cs8,
\<=1 (=»/==! /
где c — некоторая постоянная, зависящая от х. Здесь мы восполь-
зовались тем, что величины Е (Z2)/hd и Е (Zt)/hd ограничены рав-
номерно по i при почти всех х.
Кроме того, Е (Z2) (f (х) hd j К2) / 2 для любых i N (х)
при почти всех х. Таким образом,
f(|f«-£(/n)|2)>s-2 2 E(Z})^
(х)
f (x) ( №
--------_____
2s2
00
S S A?>°
«=ЛГ (Л)	i=N (X)
при почти всех x. Отсюда следует (9). Таким образом, должно вы-
полняться первое условие из С.
Для доказательства второго условия из С воспользуемся ха-
рактеристическими функциями. Пусть <р и ф — характеристи-
ческие функции для f и К.. Так как е(||/п—f |) ->- 0 и
Е Q | fn — f |) > j | E (fn) — f |, то характеристическая функ-
204
Гл. 7. Оценки, близкие к ядерной и гистограммной
ция Е (fn) стремится к характеристической функции f. Характе-
ристическая функция Е (fn) равна
Из Е следует, что = оо.
п—Л
Предположим, что существуют положительные числа а и Ь,
п	I п
такие, что Srf/ /s hi b для п, принадлежащих неко-
Z=1	[ftf >0] / 1=1
торой подпоследовательности натурального ряда. Так как
<₽п (0-ф(0 = ф(0 ——„------->°-
s hi
то
п	In
Ей?(4(М-1) S hi -+ о
Z=1	/ 1=1
при достаточно малых t. Но действительная часть последнего выра-
жения не превосходит
sup (Re (ф (hi) - !)) -------------------
л>а	S
i==l
< — b sup (Re (ф (ht) — 1))
для п из рассматриваемой подпоследовательности. Таким образом,
sup Re (ф (ht)) = 1 при всех достаточно малых t. В силу непре-
h^a
рывности ф отсюда следует, что Re (ф (ht)) = 1 при некотором
h а, / =/= 0. Но последнее невозможно, так как ф — характери-
стическая функция случайной величины, имеющей плотность.
Таким образом, получено противоречие и, следовательно, Е =► С.
Оценка (2) обладает другими сильными поточечными свойст-
вами и сильными свойствами в Lx. По-видимому, все типы сходи-
мости этой оценки в L, эквивалентны, но здесь такое утверждение
не доказывается. Дается лишь кратная формулировка теоремы
о достаточных условиях сходимости. Необходимость этих условий
3. Рекуррентные ядерные оценки
205
доказана в Deheuvels (.1974) при различных условиях регуляр-
ности на f, К и hn. Во всей общности необходимость можно уста-
новить, используя методы теорем 3.1 и 7.1.
Теорема 2. Пусть fn —оценка (2), для которой К. —ограни-
ченная плотность с интегрируемой радиальной мажорантой.
Условия
lim hn = 0, lim nhd = оо	(10)
М->оо	П-*-оо
достаточны для сходимости по вероятности к 0 последователь-
ности | fn — f | при почти всех х. Если, кроме того,
..	«А„
nl® log log «
= со,
(11)
то | fn — f | -> 0 почти наверное при почти всех х. Наконец, если,
кроме того,
lim
П->оо
«А„
logn
= оо,
то | fn — f | -> 0 вполне при почти всех х.
Доказательство. Введем случайные величины Yn = h~d X
X К ((х — Хп)/йп). В силу леммы 2 Е (Уп) = f * Khn -> f при
п
почти всех х, если Лп->0. Далее, Е (fn) = п-1 S Е (У<) -> f «ри
<=1
почти всех х по лемме Теплица (Hall, Heyde (1980, с. 31)). Пусть
тп = inf hd и М — верхняя грань # (х) по всем х. Пусть с =
Кп
= sup Е (Y(эта величина зависит от х). Заметим, что Е (У1)
cMlhd и | У,- —Е (Уг) | -< Mlhd. По неравенству Беннета,
которое использовалось также в доказательстве леммы 6.5, при
произвольном е >0 и любых х, для которых с < оо, имеем
п
P(|f„(x)-E(fn(x))>C) = P
< 2 exp ( 2 (сМ/тп + еМ/т^ ) •
Последнее выражение стремится к 0 при любых е > 0, так как из
(10) следует, что птп -* оо (см. лемму 3, которая приведена сразу
после данного доказательства). Таким образом, сходимость по
вероятности имеет место при почти всех х, и первое утверждение
теоремы доказано.
Для доказательства сильной сходимости применим вариант
усиленного закона больших чисел (Loeve (1963, с. 267 по
206
Гл. 7. Оценки, близкие к ядерной и гистограммной
русскому изданию)): если | Yn | < ап при любых п и некото-
ром а < оо (это условие в рассматриваемом случае выполнено,
поскольку hn—положительные числа и nhdn!\og log п оо), то
/Г1 J] (Yi — Е (Yt))	0 почти наверное тогда и только тогда,
когда
2* + 1
2"к 2 (П-£(У0)
«=2*+1
при любых е > 0 (это утверждение называется также критерием
сходимости Прохорова (1949)). Применяя снова неравенство
Беннета, заключаем, что fn — Е (fn) -+ 0 почти наверное при
почти- всех х, если
2*е2
Это .неравенство выполнено, если 2*m2*/log й-> оо при k-*-oo.
Последнее в свою очередь следует из условия nmn/log log п -► оо
и, следовательно, из условия n/in/log log п-> оо (см. лемму 3).
Теорема 2 доказана.
Лемма 3. Если ап, Ьп^ 0, ап f оо, то ап1Ьп -> оо тогда
и только тогда, когда an/sup bt -> оо.
Доказательство. Заметим, что
ап \
sup bt I
i<N /
Чтобы получить утверждение леммы 3, нужно сначала выбрать
достаточно большое /V, а затем устремить п к бесконечности.
4. Оценки максимума правдоподобия
Согласно классическому принципу оценивания по максимуму
правдоподобия, в рассматриваемой задаче оценкой максимума
правдоподобия fn является плотность g, максимизирующая функ-
ционал
п
(12)
4. Оценки максимума правдоподобия
207
Максимум этого функционала не достигается, если нет ограниче-
ний на класс допустимых g. Грубо говоря, g может стремиться
к дискретному распределению с атомами в точках Х{. Имеется
несколько способов борьбы с этим. Например, способ, предложен-
ный Гренандером (Grenander (1981)),состоит в том, чтобы выбирать,
g из подходящего множества плотностей Сп, которое может мед-
ленно расширяться с ростом п. Последовательность множеств Сп
называется решетом, а соответствующий метод оценивания —
методом решета. Ниже приводятся некоторые примеры решет.
В последнем примере проводится связь метода решета с другими
известными методами оценивания плотности по максимуму прав-
доподобия.
Пример 1 (гистограммная оценка). Если
Сп = {g'. g постоянна на [(/ — 1)йп, /Лп). / — целое),
где Лп->0 при п -> оо, то максимум функционала достигается
на гистограммной оценке с фиксированным шагом
п
f" W = i 2 7lxi €[</-')ЛП* /Ап)1’ х £ К/ - 1)ЛП, jhn)
i=l
(см. Tapia, Thompson (1978, разд. 3.2)).
Пример 2 (сверточное решето). В работе Genian, Hwang (1982)
предложено решето
Сп = (g: g = Khn * v для какой-либо вероятной меры vj,
где hn -> 0 при п оо и К — плотность нормального распреде-
ления. Последовательность Сп называется сверточным решетом.
Для выбора плотности нормального распределения нет никаких
особых причин, кроме, быть может, удобства в теоретических
рассмотрениях. Так, максимум функционала (12) на нормальном
сверточном решете достигается для оценки вида
п
1=1
где (gi, ..., рп) — некоторый вероятностный вектор и (уи ..., уп)
— некоторые действительные числа, заключенные строго вну-
три интервала (min Xh max Xt) (этот факт был доказан Гиманом
и Маклюром; их доказательство можно найти в работе Geman
(1981)). Заметим, что, хотя ядерная оценка Парзена—Розенблата
принадлежит решету, она не является оптимальным решением.
Вычисление оптимальных значений уи ..., уп, pi, .... рп яв-
ляется сложной задачей. Если р, = l/п при всех i, то решение
получить несколько проще, чем в общем случае. Однако следует
иметь в виду, что вычислительные трудности неизбежны при на-
208
Гл. 7. Оценки, близкие к ядерной и гистограммной
хождении любых оценок, основанных на максимуме правдопо-
добия. Так как решения получаются в неявном виде, то анализ их
свойств также затруднителен. Результаты, касающиеся скорости
сходимости, отсутствуют, но в литературе можно найти некоторые
результаты о состоятельности оценок. Например, в случае нор-
мального сверточного решета
{п
g- £ W = i 2 \~~ft/*) при нек0Т0Рых • • • - S/п € Я1
п i=i	п
в работе Geman (1981) показано, что
sup flfn-f|->0	(13)
все
решения задачи
на максимум (12)
на Сп
почти наверное при следующих условиях:	0, nahn -*• оо
при некотором 0 < а < 1/4, f имеет компактный носитель и
JflogfCoo.	(14)
Одно из этих условий означает, что множеству Сп не разрешается
слишком быстро расширяться. Условие (14) на пики плотности /
возникает естественным образом, поскольку задача максимизации
функционала (12) эквивалентна максимизации функционала
п
^logg(Xi), среднее значение которого равно п j f log g. Но,
ввиду того что
Рlogg < рlog/, yf, g,
(это неравенство следует из неравенства Йенсена), можно надеяться
что максимизация (12) дает функцию g, близкую к f, по крайней
мере в случае, если применим какой-либо закон больших чисел,
т. е. если имеет место (14). Этот метод удобен тем, что между его
погрешностью и Li -ошибкой имеется некоторая слабая односто-
ронняя связь, а именно:
1^2 (J/logf — plogg)>f |Z — g|
(см. теорему 8.2).
Предположим теперь, что последовательность hn также яв-
ляется параметром сверточного решета, подлежащим оптимизации.
Тогда максимум функционала (12) достигается, если hn = 0 и
yt =< Xt при любых I. Таким образом, если мы хотим максимизи-
ровать и по Лп, то нужны другие приемы. Например, в работе
4. Оценки максимума правдоподобия	209
Ge man, Hwang (1982) предложено ограничивать сложность
смеси, вводя решето
Г	kn	, __'
Сп = lg: g (х) = -j-	К (—) для каких-либо h > 0, уг,...
I	п 1=1
	е*1 (ii)--
Для этого решета утверждение (13) остается в силе, если плот-
ность f ограниченна и имеет компактный носитель и если kn ->• оо
и k,Jna ->0 при п -> оо для некоторого а < 1/5 (Geman, Hwang
(1982)). К сожалению, остается еще задача выбора kn.
Пример 3 (метод максимума правдоподобия со штрафами).
Пусть 9 — подходящий класс плотностей и Сп определяется соот-
ношением
cn = {g. g£9, 4(g)^M},
где М —постоянная, возможно зависящая от п, и ¥ (g) —функ-
ция штрафа за колебательное поведение. Метод с таким решетом
был предложен, но не исследован в работе Geman, Hwang (1982).
Соответствующий ему метод множителей Лагранжа состоит в оты-
скании функции g из 9, максимизирующей функционал
п
S loggCXO-Wg),	(15)
1=1
где кп 0 —множитель Лагранжа. Этот множитель играет роль
параметра сглаживания. В качестве ¥ и 9 предлагаются различ-
ные функции и классы, например
(i) ¥ (g) = j (gyig, 9 = {g: (/g)' C U "(Good, Gaskins
(1971); см. также Tapia, Thompson (1978, c. 108—109));
(ii) ¥(g) = a J (g')2 + bj (g")2, 9 = (g: (/j)' G L2, (/g)" € b2),
a 0, b > 0 (Good, Gaskins (1971)).
Снова основное место здесь занимает проблема вычислений:
как найти максимумы по этим классам? Определенное решение
этой проблемы, основанное на квантовании выборочного простран-
ства, дается в работе Scott и др. (1980). Хотя оценка из этой ра-
боты состоятельна для больших классов плотностей f, к сожале-
нию, экспериментально найденная для нее асимптотическая ско-
рость сходимости в L2 несколько хуже, чем для обычной ядерной
оценки в ряде простых задач.
14 Деврой Л., Дьёрфи Л.
210
Гл. 7. Оценки, близкие к ядерной и гистограммной
Для сострятельности необходимо, чтобы кп -> 0 с ростом п.
Должны быть некоторые условия на скорость сходимости Хп,
так как при Хп = 0 получается вырожденное решение. Различные
условия на Т и /, обеспечивающие состоятельность, приведены
в работах de Montricher (1980), Klonias (1982) и Silverman (1982).
5. Переменная гистограммная оценка
Гистограммная оценка, изученная в гл. 3 и 5, не обладает ло-
кальной чувствительностью — размер ячеек, по которым она
строится, не может зависеть от х. Эта оценка есть не что иное, как
частный случай переменных гистограммных оценок, определяе-
мых следующим образом.
(i) Зададим счетное (возможно, конечное), разбиение Р1П1
Р2п, ... пространства Rd. Это разбиение может зависеть от дан-
ных Хъ ..., Хп.
(ii) Оценим плотность f на Pin постоянной cin таким образом,
чтобы полученная оценка тоже была плотностью, т. е. чтобы было
cin 0 при любых i и ^cinK (Pin) = 1 (X —мера Лебега). Обыч-
i
но (хотя и не обязательно) cin = Nin/nk (Pin), где Nin —число
точек выборки, попавших в Pin.
Таким образом, ядерная оценка с равномерным на [—1, 1]
ядром К классифицируется как переменная гистограммная оценка
Но более существенно, что класс переменных гистограммных
оценок достаточно широк, чтобы для некоторых f на нем достига-
лась асимптотическая скорость сходимости в./,, порядка n~‘2is.
Исходная гистограммная оценка с фиксированной решеткой в прин-
ципе не может обладать скоростью, лучшей, чем zr1/3.
Наиболее популярным типом переменной гистограммной
оценки, по-видимому, является оценка, основанная на статисти-
чески эквивалентных блоках J). Так, в Р1 рассматриваются по-
рядковые статистики Л\1>, ..., Х(Л), соответствующие данным, и
производится разбиение пространства на интервалы Р\п = [Хщ,
Х(А)], Рщ = (Х(*>, Х(2а>], •••, каждый из которых содержит
k или менее точек выборки. В качестве оценки для f (х) на мно-
жестве х £ Ptn принимается k/nk (Рщ)- Оценка определена при
Любых X ИЗ 1Х(1), Х(п)1-
Эта оценка бцла в неявной форме предложена в работе Ander-
son (1965), формально определена и исследована в Van Ryzin
(1970, 1973). Ее обобщения, представляющие собой гладкие сплай-
ны (возможно, не являющиеся плотностями), можно найти в ра-
*) Используется также термин «полиграмма», см. Тарасенко (1976*). —
Прим. ред.
6. Ядерные оценки с пониженным смещением
211
ботах Wahba (1971, 1975, 1976). Ее состоятельность в Lr была
впервые доказана при очень общих условиях в Abou-Jaoude>(1976),
а скорость ее сходимости в Lv была исследована в работе Hanna,
Abou-Jaoude (1981).
Теорема 3 (Abou-Jaoude (1976)). Для гистограммной оценки,
основанной на порядковых статистиках и имеющей по k точек
выборки в каждом интервале, следующие утверждения эквива-
лентны'.
A.	j | fn — f | -> 0 no вероятности для любых интегрируемых
по Риману плотностей f;
В.	J I fn — f I 0 вполне для любых интегрируемых по
Риману плотностей f;
С.	lim k ~ оо и lim (Л/п) = 0.
П-*оо	П-+оо
Существует много возможных обобщений рассматриваемой
оценки на Rd. В одном из них (Gessaman (1970)), первая коорди-
натная ось разбивается приблизительно на (n/k)Vd интервалов,
таких, что соответствующие им цилиндрические множества содер-
жат примерно одинаковое число точек выборки (такое разбиение
называется однородным). Каждое из полученных цилиндрических
множеств снова подвергается однородному разбиению на (n/k)Vd
частей, но теперь уже вдоль второй координатной оси. После d
однородных разбиений каждая из n/k полученных «ячеек» содер-
жит примерно k точек выборки. В работе Gessaman (1970) приво-
дятся некоторые результаты о поточечной состоятельности и
вполне справедливо обращается внимание на то, что оценку /п
можно быстро вычислить после того, как разбиение уже построено.
Другой способ — двигаясь по кругу, перебирать одну за дру-
гой координатные оси, разбивая их всякий раз так, чтобы остав-
шиеся данные делились ровно пополам, и прекращая этот процесс,
когда в каждой из ячеек останется приблизительно по k точек
выборки. С вычислительной точки зрения этот метод обладает тем
преимуществом, что его можно реализовать в виде сбалансирован-
ного двоичного дерева, число уровней которого приблизительно
равно log2 (n/k).
6. Ядерные оценки с пониженным смещением
В некоторых случаях модификации обычных оценок плот-
ности обладают лучшими скоростями сходимости ошибки Е (Jn),
чем полученные в гл. 5 скорости сходимости для ядерной и гисто-
граммной оценок. Улучшение, как правило, происходит из-за
понижения смещения j | Е (fn) — f\, и оно возможно только
14*
212
Гл. 7. Оценки, близкие к ядерной и гистограммной
для очень гладких /. В этом параграфе будут указаны некоторые
общие методы понижения смещения. Эти методы будут продемон-
стрированы на примере ядерной оценки.
В дальнейшем предполагается, что fn — оценка плотности f
(fn сама является плотностью по х) и gn — другая функция на Rd.
Аддитивная модификация fn определяется следующим образом:
= (fn+gn)+ . |^ = 0, J|gn|<00,
J(/n+gn)+ J	J
при любых п. Нормировка необходима здесь для того, чтобы функ-
ция fn была плотностью. Мультипликативная модификация fn
определяется соотношением
f*n=f-Sn_- gn^0,
J fngn
при любых п. Если речь идет о сходимости в Llf то нормировками
можно пренебречь в силу следующей леммы.
Лемма 4. Для любых плотностей f, любых оценок плотности
fn на Rd и любой аддитивной модификации выполнено неравенство
Jl/s-fl < f l(f« -Vgn)-f\.
Точно так же для любой мультипликативной модификации вы-
полнено неравенство
f I fn - f I < J I fngn - f I + I J fngn - 1 | .
Доказательство. По поводу аддитивной модификации сошлемся
на теорему 11.4 о неотрицательной проекции. В случае мультипли-
кативной модификации рассуждаем следующим образом. Если
J fngn < 1, ТО fn> fngn. так что
= Jlf-fn£n|+(l - Jfngn).
Если \fngn^ 1, ТО fn^fngn, И поэтому
Jl/л —/I = 2\(f*n-fh<-2\(fngn-f\ =
= j\fngn-f\ + (jfngn—l)-
6. Ядерные оценки с пониженным смещением
213
Основным примером оценки с пониженным смещением является
оценка Бартлета (Bartlett (1963)) на
п
/П(л)=(п/1г2^(24^)’
1=1
где К — борелевская функция со следующими свойствами:
(i)	К — симметричная ограниченная функция с компактным
носителем;
(ii)	J К = 1;
(iii)	(x2iK = 0, i = 1, 2..s — 1;
f	,	(16)
(iv)	J | x |2s | К | < oo ;
где s > 1 — фиксированное целое число. При s > 1 ядро К, а по-
тому и оценка fn могут принимать отрицательные значения: Легко
проверить, что оценка fn представима в виде суммы обычной ядер-
ной оценки с ядром К+/ ]Л+ и некоторой функции gn, интеграл
от которой равен нулю. Следовательно, плотность fn =
= tfn)+/ftfn)+ в действительности является аддитивной модифи-
кацией обычной ядерной оценки. Чтобы избежать неоднознач-
ности, будем называть fn оценкой Бартлета, a fn — нормирован-
ной оценкой Бартлета\ см. § 5.9, где эта оценка рассмотрена
с точки зрения, отличной от принятой здесь.
Теорема 4. Пусть А -> О и nh <х>. Тогда при любом целом
s 1 оценка Бартлета экспоненциально сходится, т. е. для лю-
бого е > О существуют положительные числа г и nQ, такие, что
р (J 1/п
Это свойство выполняется при любых f, но г можно выбрать не
зависящим от f. Теорема 4 остается в силе для нормированной
оценки Бартлета.
Доказательство. Теорема 4 следует непосредственно из теоремы
3.1, в которой на К накладывались.лишь следующие два условия:
j /( = 1, 11 Д’ | <оо. В случае нормированной оценки Бартлета
воспользуемся леммой 4.
Теорема 5. Пусть s > 1 — фиксированное целое число и h-+О,
nh->- оо. Пусть f — плотность с компактным носителем, имею-
щая 2s — 1 абсолютно непрерывных производных и непрерывную
214	Гл. 7. Оценки, близкие к ядерной и гистограммной

производную /(2s). В обозначениях гл, 5 для оценки Бартлета вы-
полнен о соотношен ие
причем для нее и для нормированной оценки Бартлета —
Здесь а =	[ К2 и j32s = j | х |2s К 0. Кроме того,
lim sup inf л2‘/<4»+1) Е (Jn) < C2sA2s (К) D2s (f),
n-*oo h
где
r _ 14-4s / 2 \2s/(4s+D / (2s) I \4s/(4s+D
C<2s ” (2s)! \ я )	\ 4s /
Лз(К) = (a4s I 02s |)I^S+I> = ((f K2 )2S I f x2sK | )'/<4s+l)
u
l/(4s+l)
Данная верхняя граница не нарушается, если выбрать
/	____ \2/(4s+l)
n-l/(4s+l)4
2 a (2s — 1)!
I Г Л 2 | 02S | J
Если p2s = 0 и D2s (Л < оо, пго
lim sup inf n2s^4s+^E (Jn) = 0.
n-+oo h
Если P2s — 0 и f — произвольная плотность с компактным носите-
лем, такая, что В* (/) < оо (в обозначениях теоремы 5.1), то
lim sup inf n2/5E (Jn) = 0.
n->oo h
Величина D2S (/) из верхней границы теоремы 5 присутствует
также в минимаксных нижних границах теорем 4.2 и 4.3. Более
существенно, что скорость сходимости для отдельных f с конеч-
ными значениями D2S (/) может быть гораздо лучше, чем скорость
„-25/(43+1), даваемая минимаксной нижней границей, если ядро К
просто удовлетворяет условиям (16) и p2s = J x2sK — 0. Это
очевидное противоречие объясняется тем, что улучшение не равно-
мерно на классе всех / компактным носителем, таких, что
6. Ядерные оценки с пониженным смещением
215
D2S (/) -Сг, где г — фиксированная постоянная. В действитель-
ности на этом классе достигаются все медленные скорости сходи-
мости последовательности п2’/(4,+1)Е (Jn) к нулю. Однако в по-
следнем утверждении теоремы 5 нет указания на то, как выбирать
h. Из доказательства видно, что лучше выбирать h = Afn*1/(4s+1),
чем h = Af*n-1/(4s+I), если М > М*, но, кроме этого, практи-
чески ничего нельзя сказать без дополнительных предположений
относительно /. Такая же проблема возникает для /(, и потому,
видимо, имеет смысл выбирать h и К так, чтобы минимизировать
минимаксную границу (такую, как в теореме 5.12). Например,
в теореме 5 можно было бы получить грубую, но удобную для
анализа верхнюю границу, заменяя 02s (в определении h и A2S (К))
на j x2s | К |, и выбрать К. из условия минимума Ais (Л). Отме-
тим здесь, что ядра
К (х) = (9/8) (1 - 5х2/3), | х | с 1 (Bartlett (1963)),
(х) = (3/2) (1 — х2/3) е-х’/2 (Rosenblatt (1971))
удовлетворяют пп. (ii), (iii) условия (16) и таковы, что [ x2sK. = О
при s — 1. Легко построить и другие такие ядра (Deheuvels (1977)).
Выбор ядра определяется предполагаемой степенью гладко-
сти f. Однако могут учитываться и другие соображения. Напри-
мер, в некоторых приложениях требуется одновременно оцени-
вать плотность f и одну или несколько ее производных. Если про-
изводные плотности f оцениваются соответствующими производ-
ными оценки fn, то очевидно, что ядро К должно быть гладким.
Об этом см. работы Miiller (1984) и Gasser и др. (1983). Заметим,
наконец, что если h ~ л-1/(4»+1) и при этом f не обладает требуе-
мой в теореме 5 гладкостью, то на самом деле ухудшение асимпто-
тических свойств оценки может быть существенным.
Доказательство теоремы 5. Существенное отличие от теоремы
5.1 заключается в выражении для смещения. Используя разложе-
ние f в ряд Тейлора в окрестности точки х,
2s
f (У) = 2 - ХУ L~iTL +	® “/(0 (х)) у ? х’
1=0
и симметричное разложение при у < х, получим
11 т к М Ч W “У -1 <ёт «| <
< J 4 * (^) 'W-- IР © - « I dy.
216
Гл. 7. Оценки, близкие к ядерной и гистограммной
где £ зависит от х, у и f. Иными словами, в силу условия (16) все
члены разложения в ряд Тейлора, кроме 2s-ro, исчезают после
свертки с Kh- Правая часть последнего неравенства\Оавна о (h2s)
равномерно по х из некоторого большого интервала 7дв силу рав-
номерной непрерывности /<2s) и компактности носителя К) и равна
нулю вне Т. Отсюда следует, что вместо леммы 5.11 имеем утвер-
ждение
Л|в.|-Жг1Ыт||-»(Л“).
где, так же как в гл. 5, Вп = Е (fn) — f.
Очевидно, что лемма 5.10 остается в силе, так что можно до-
словно повторить доказательство теоремы 5.1, заменяя там z на
h** I Pas I I /<2s) I /(2s)I. Тем самым доказано первое утверждение
теоремы 5.
Заметим, что асимптотическая верхняя граница имеет вид
uh~i/2 + vh2s, где и, v — некоторые положительные числа, не
зависящие от h. Формальной минимизацией по Л, получим, что
минимальное значение этой границы равно
(w4Sy)l/(4S+l) (4s	l)/(4S)4s/(4s+l).
Это значение достигается при h — (u/4sv)2/<4s+1). Заменяя и на
а j/f/2/лп и v на | P2s IJ I/<2s) |/(2s)l, получим указанную
в теореме верхнюю границу.
В случае p2s = 0, Dis (/) < оо положим h =	где
М — сколь угодно большое число, и заметим, что j | Вп | =
= о (/r2s/<4s+I>). Кроме того, в обозначениях леммы 5.10 имеем
Теорема доказана.
В качестве второго примера, частично перекрывающегося
с предыдущим, укажем испытанный метод складного ножа, при-
меняемый в статистике для понижения смещения оценок (Que-
nouille (1956); см. также Schucany и др. (1971)). Для оценивания
плотности этот метод был впервые разработан и продемонстриро-
ван в действии в работах Sommers (1972) и Schucany, Sommers
(1977).
Пусть /щ, ..., fnM суть М ядерных оценок плотности f, осно-
ванных на одной, и той же выборке Xlt ..., Хп, но, возможно,
имеющих различные ядра Ki, , Хм и различные параметры
сглаживания ftr, ..., hM. Предположим, что hi = hat, где at —
6. Ядерные оценки с пониженным смещением
217
некоторые постоянные, a h зависит только от п. Рассмотрим линей-
ную комбинацию
м
Xj ^ifni
fn = м >
2^ bi
где bM—постоянные, сумма которых не равна 0. Ясно,
что если интегралы от всех ядер равны единице, то интеграл от
fn также равен единице. Таким образом, в нормированном виде
эта оценка снова представляет собой аддитивную модификацию
обычной ядерной оценки. Нетрудно проверить, что fn совпадает
с оценкой Бартлета с ядром
м
2 bi (Шайках^))
К W = —-------м--------
2 bi
z=i
при надлежащем выборе Ьм, и потому к /п применимы тео-
ремы 4 и 5. Пусть теперь все Kt удовлетворяют только п. (i) усло-
вия Бартлета (16) (и не удовлетворяют пп. (ii), (iii), (iv)), все Kt
являются плотностями и f удовлетворяет условиям теоремы 5.
Тогда для поточечного смещения имеем следующее разложение
в ряд Тейлора:
Е(Im)=	Jx^Ki + 0
/=1
Первые s — 1 членов в смещении оценки fn равны нулю, если
м
2 mF J x2iK( = о, j = i, 2.....s -1.
i=i
Эта система уравнений имеет много степеней свободы. Например,
можно положить все Ki равными К и at — равными i. Тогда рас-
сматриваемая система уравнений принимает вид
м
2М2/ = 0, / = 1,2, .... s— 1.
i—1
Данная система имеет ненулевые решения относительно при
М s. Так, при s = М. = 2 решением является = 1, b2 =
= —1/4 и ему соответствует оценка складного ножа
fn = (4fni — /пг)/3 = /ni + (fm ~ fnz)/3-
218
Гл. 7. Оценки, близкие к ядерной и гистограммной
Последняя запись наводит на мысль о том, что (/п1 — /пг)/3 яв-
ляется смешанным поправочным членом для обычной ядерной
оценки fnl.
В качестве далеко не единственного примера мультиплика-
тивной модификации обычной ядерной оценки рассмотрим оценку
Террела — Скотта (Terrell, Scott (1980)). Пусть есть две ядерные
оценки fnj, /„г с одним и тем же ограниченным симметричным
ядром К, имеющим компактный носитель, и параметрами сглажи-
вания h и 2h соответственно. Обе оценки по-прежнему основаны
на одной и той же выборке Хъ ..., Хп. Образуем оценку
М>Г-
Если ядро выбрано унимодальным, то поправочный множитель
этой оценки всегда корректно определен и заключен между 0 и 21/3.
Доказательство состоятельности данной оценки стоит опреде-
ленного труда, поскольку требуется установить сходимость
Но левая часть здесь не превосходит
2'«)|М-Л+ p|(£tr-i|-
Таким образом, в силу теорем 3.1, 6.3 и теоремы Лебега о мажори-
руемой сходимости получается следующий результат.
Теорема 6. Пусть К — симметричная ограниченная унимо-
дальная плотность на R с компактным носителем, и пусть h 0,
nh -► оо. Тогда для любых плотностей f
по вероятности при п оо, где fn — нормированная оценка
Террела—Скотта. То же самое верно при любых поправочных
множителях gnr\ равномерно ограниченных снизу нулем и сверху
некоторой положительной постоянной и сходящихся поточечно
почти всюду к 1.
Существует вариант теоремы 6 со сходимостью почти наверное,
где требуется только добавить условие nft/log log п оо. В работе
Terrell, Scott (1980) показано, что если плотность f — достаточно
гладкая, то смещение равно О (А4) в каждой точке х, а дисперсия
равна О ((nh)-1) в каждой точке х. По-видимому, оценка Террела
и Скотта асимптотически ведет себя как оценка Бартлета при s =
х) То есть теорема 6 верна для оценок вида = fH1g^ / j fnlgH, где gn удов-
летворяет перечисленным далее условиям. — Прим, перев»
7. Оценка Гренандера для монотонных плотностей
219
= 2, но строго это не доказано. Основное преимущество мульти-
пликативных модификаций перед аддитивными заключается в их
хорошем поведении на хвостах — аддитивные модификации ядер-
ной оценки часто спадают резко к нулю из-за нормировки. Норми-
ровка мультипликативной модификации ядерной оценки является
менее жесткой.
7. Оценка Гренандера для монотонных плотностей
В этом параграфе будут рассматриваться только монотонные
плотности на (0, оо) (класс всех таких плотностей обозначается
через /И) и монотонные плотности на [0, 1 ], такие, что f (0)< В
(множество таких плотностей обозначается через Мв). Выше было
показано, что минимаксная нижняя граница для М больше или
равна 1/8 (теорема 4.1), но минимаксная нижняя граница для М2
равна (1/16 + о (1)) (4/п)1/3 (теорема 4.9). Люсьен Бирже доказал,
что при В 1,3, В/п 0, 026 существует минимаксная нижняя
граница для Л4в, равная 0,198 (log (В + 1)/п)|/3 (это неопублико-
ванный результат, и потому он не включен в данную книгу).
Учитывая перечисленные результаты, можно сравнивать различ-
ные оценки. Конечно, нет смысла рассматривать оценки, состоя-
тельные при любых /, поскольку представляют интерес только
плотности f из классов М и Мв. Одной из оценок, предназначен-
ных для этих классов, является оценка максимума правдоподобия
Гренандера (Grenander (1956)). Она представляет собой плот-
ность из /И, для которой максимально произведение
П/п(Х<).
1=1
Оптимизационная задача отыскания такой плотности имеет заме-
п
чательно простое решение: если Fn (х) = (1/п) £	—
эмпирическая функция распределения, то fn = GA, где Gn —
наименьшая вогнутая мажоранта для Fn (т. е. Gn — кусочно ли-
нейная функция, которая получается, если взять огромную эла-
стичную ленту, обвязать ею первый квадрант и отпустить, зафик-
сировав ее часть, лежащую вдоль оси х, — в результате лента ока-
жется натянутой на график Fn).
Глубокий анализ поточечных свойств этой оценки проведен
в работе Prakasa-Rao (1969). Однако основной интерес для нас
представляет поразительно красивый результат из работы Groe-
neboom (1983):
«i/б («V3 J |fn _ f | _ С(/)) —ЛГ (0, а2),
220
Гл. 7. Оценки, близкие к ядерной и гистограммной
jg?
где символом —► обозначается сходимость по распределению,
N (0, о2) — нормально распределенная случайная величина с па-
раметрами (0, о2), о>0 — постоянная, не зависящая от /, и
1
с (f) = СО J (I f I f/2)'/3,
о
где с0 — еще одна универсальная постоянная (из эксперименталь-
ных результатов, сообщенных Грёнебомом, следует, что она при-
близительно равна 0,82). Результат Грёнебома справедлив для
любых строго убывающих функций f на [0, 1 ], имеющих непре-
рывную и ограниченную вторую производную и таких, что f < 0
на (0, 1). Для таких / имеем
п^Е (J|fn-f|)->Co J(|f|f/2)'/3.
Поведение оценки Гренандера еще лучше в случае, когда f имеет
участки постоянства. Для равномерной плотности на [0, 1 ] дости-
гается скорость СХОДИМОСТИ П"1/2.
Сравним этот результат, полученный для фиксированных /,
с результатами о ядерных оценках. Для плотностей /, удовлетво-
ряющих условиям теоремы Грёнебома,
J (IГ I //2)1/3 < ((J v7)2 (fir l) / 2)1/3 = Вн (/).
Мы знаем, что для ядерной оценки с параметром сглаживания h,
выбранным согласно теореме 5.10, выполнено неравенство
п>/3£ (J | fn - f | ) < (1,24 ... + о (1)) Вн (/)• Это, как видим,
немного хуже, чем для оценки Гренандера. С другой стороны, сле-
дующая теорема показывает, что соответствующим образом под-
правленная в окрестности нуля ядерная оценка имеет скорость
сходимости п“1/3 при любых f из 7ИВ.
. Теорема 7. Пусть f — произвольная плотность из Мв и пара-
метр сглаживания h выбран следующим образом:
h - / 6 У/3
п ~~ \ лпВ* )	‘
Пусть К — равнобедренная треугольная плотность на [—1, 1].
Пусть, далее. gn — ядерная оценка, построенная по .... YnS
где величина Yt равна Xi со случайным знаком (определяемым бро-
санием монеты), и оценка fn задана соотношением
fn (х) = gn (х) + gn (—х), X > 0.
Тогда
lim sup n'/3£ ( J | f |) < (6/л)'/з £1/3.
7. Оценка Гренандера для монотонных плотностей
221
Доказательство. Имеем
ОО	. оо
J I fn - f I < J I gn (x) - f (x)/2 I dx + j I gn (—x) - f (x)/2 I dx <
0	0
oo
< J |g„ (x)-f (|x|)/2|dx.
—oo
Теперь применим теорему 5.10 непосредственно к величине послед-
ней Дрошибки. Эта довольно искусственная симметризация про-
ведена для того, чтобы обеспечить равномерную ограниченность
величины Вн (J) на рассматриваемом классе плотностей. Заметим,
что если выбрать в качестве ф из определения Вн (f) симметрич-
ную и унимодальную функцию, то функция f * фа совсем не
обязательно будет унимодальной. Вместе с тем если g (х) =
= f (| х |)/2, то функция g * фа действительно унимодальна
(Feller (1971)), так что j | (g * фо)' | = 2g * фа (0) = В при
любых а. Ввиду того что [ У'g = у^2 j ]/"f, имеем Вн(я) =
= ((j V7)2 ^)1/3 -С Bi/3- Оставшаяся часть доказательства сле-
дует непосредственно из теоремы 5.10.
Для ядерной оценки ситуация даже более благоприятна,
так как если плотность f удовлетворяет условиям теоремы
Грёнебома, то можно выбрать ft и К таким образом, что величина
п2/5£ Ц | fn — f |) стремится к постоянной. Чтобы получить этот
результат, нужно обязательно воспользоваться приемом симметри-
зации из теоремы 7 (иначе результат невозможен, так как имеется
разрыв в нуле). Иными словами, для отдельных плотностей под-
ходящим образом модифицированная ядерная оценка может быть
гораздо лучше оценки Гренандера.
Также имеет место следующая минимаксная верхняя граница,
которая достигается на модифицированной ядерной оценке.
Теорема 8. Для оценки fn из теоремы 7
lim sup п1/3 sup Е ( [ | fn — f |) < (6/л)1/3В,/3
«-►оо
при любых В ;> 1. .
Доказательство. Достаточно убедиться в равномерности члена
о ((пЛ)“1/2) из теоремы 5.10 по классу симметричных унимодальных
плотностей на [—1, 1], ограниченных величиной В/2. Остальные
рассуждения такие же, как в доказательстве теоремы 7.
222
Гл. 7. Оценки, близкие к ядерной и гистограммной
К сожалению, эта граница не самая лучшая, хотя для М2 от-
ношение минимаксной верхней границы к нижней всего лишь
около 16. Бирже (Birge (1985)) показал, что минимаксная верхняя
граница для Мв меньше, чем 1,89 (log (В + 1)/п)|/3 при В 1,3,
В/п 0,026. Очень правдоподобно, что эта улучшенная мини-
максная верхняя граница достигается на оценке Гренандера. Это
предположение основано на следующем факте.
Лемма 5. Пусть f — абсолютно непрерывная плотность из
класса Мв, имеющая почти всюду производную f. Тогда
J(|f |f)1/3< l+(logB)>/3.
Доказательство. Пусть точка и ( [0, 11 такова, что f (х) > 1,
х < и и f (х) < 1, х > и. Тогда по неравенству Йенсена
и	1	и
J (IГ I7)1/3 < J (IГ I /),/3 + f \Г |,/3 < р (| Г |/П1/3 +1 («)*/3 <
0	U	о
(и	\ 1/3	/	и	\ 1/3
р (I/'|//2)) 4-1= -p(logf) + 1 = (10gB)'/3+ 1.
о	/	\ о	/
В работе Birge (1985) построена гистограммная оценка с не-
одинаковыми длинами интервалов, для которой равномерная верх-
няя граница на Мв не превосходит 1,89 (log (В + I)//:)1/3 +
+ 0,20 (log (В + 1)/п)2/3.
В заключение приведем несколько ссылок относительно дру-
гих оценок, предназначенных для класса всех унимодальных
плотностей. Здесь укажем, например, работы Robertson (1967)
и Wegman (1969, 1970, 1975).
ЛИТЕРАТУРА
Abou-Jaoude S.
(1976) Sur la convergence Lr et Loo de Testimateur de la partition aleatoire pour
une densite, Annales de Tlnstitut Henri Poincare, В 12, pp. 299—317.
Abramson I. S.
(1982) On bandwidth variation in kernel estimates — a square root law, Annals
of Statistics, 10, pp. 1217—1223.
Ahmad I. A., Lin P.
(1976) Nonparametric sequential estimation of a multiple regression function,
Bulletin of Mathematical Statistics, 17, pp. 63—75.
Anderson T. W.
(1965) Some nonparametric multivariate procedures based on statistically equiva-
lent blocks, in Multivariate Analysis I, P. R. Krishnaiah (Ed).
Banon G.
(1976) Sur un estimateur non parametrique de la densite de probabilite, Revue
de Statistique Appliquee, 24, pp. 61—73.
Литература
223
Bartlett М. S.
(1963) Statistical estimation of density functions, Sankhya, Series A, 25, pp. 245—
254.
Birge L.
(1985a) Estimating a density under order restrictions. Technical Report, UER
de Sciences Economiques, Universite Paris X, Nanterre.
(1985b) On the risk of histograms for estimating decreasing densities. Technical
Report, UER de Sciences Economiques, Universite Paris X, Nanterre.
Breiman L., Meisel W., Purcell E.
(1977) Variable kernel estimates of multivariate densities, Technometrics, 19,
pp. 135—144.
Carrol R. J.
(1976) On sequential density estimation, Zeitschrift fiir Wahrscheinlichkeitstheorie
und verwandte Gebiete, 36, 136—151.
Davies H. I.
(1973) Strong consistency of a sequential estimator of a probability density function,
Bulletin of Mathematical Statistics, 15, pp. 49—53.
Deheuvels P.
(1973a) Sur une famille d’estimateurs de la densite d’une variable aleatoire, Comptes
Rendus de I'Academie des Sciences de Paris, 276, pp. 1013—1015.
(1973b) Sur I'estimation sequentielle de la densite, Comptes Rendus de Г Academic
des Sciences de Paris, 276, pp. 1119—1121.
(1974) Conditions necessaires et suffisantes de convergence ponctuelle presque sure
et uniforme presque sure des estimateurs de la densite, Comptes Rendus de Г Aca-
demic des Sciences de Paris, 278, pp. 1217—1220.
(1977) Estimation nonparametrique de la dens^ par histogrammes generalises,
Revue de Statistique Appliquee, 25, pp. 5—42.
(1979)	Estimation sequentielle de la dens^, Contrib. en Prob, у Est. Mat. Ens.
de la Mat. у Analisis, pp. 156—169, University of Granada.
De Montricher G. M.
(1980)	On the consistency of maximum penalized likelihood density estimation,
Technical Report, Department of Mathematics, Rice University, Houston, Texas.
De Montricher G. M., Tapia R. A., Thompson J. R.
(1975)	Nonparametric maximum likelihood estimation of probability densities
by penalty function methods, Annals of Statistics, 3, pp. 1329—1348.
Devroye L.
(1979) On the pointwise and the integral convergence of recursive kernel estimates
of probability densities, Utilitas Mathematica, 15, pp. 113—128.
(1985) A note on the consistency of variable kernel estimates, Annals of Sta-
tistics, 13, pp. 1041—1049.
Feller W.
(1971) An Intoduction To Probability Theory and Its Applications, Wiley, New
York. (Имеется русский перевод: Феллер В. Введение в теорию вероятностей
и ее приложения. Т. 1, 2.—М.: Мир, 1984.).
Gasser Т., Muller H.-G., Mammitzsch V.
(1983) Kernels for nonparametric curve estimation, Sonderforschungsbereich 123,
Stochastische Mathematische Modelie, Preprint 210, Universitat Heidelberg.
Geman S.
(1981)	Sieves for nonparametric estimation of densities and regressions, Reports
in Pattern Analysis No. 99, Division of Applied Mathematics, Brown University,
Providence, Rhode Island.
Geman S., Hwang C.-R.
(1982)	Nonparametric maximum likelihood estimation by the method of sieves,
Annals of Statistics, 10, pp. 401—414.
Gessaman M. P.
(1970)	A consistent nonparametric multivariate density estimator based on sta-
tistically equivalent blocks, Annals of Mathematical Statistics, 41, pp. 1344—1346.
224
Гл. 1. Оценки, близкие к ядерной и гистограммной
Good I. J., Gaskins R. А.
(1971)	Nonparametric roughness penalties for probability densities, Biometrika,
58, pp. 255—277.
Grenander U.
(1956)	On the theory of mortality measurement. Part II, Skandinavisk Aktuarie-
tidskrift, 39, pp. 125—153.
(1981) Abstract Inference, Wiley, New York.
Groeneboom P.
(1983) Estimating a monotone density, Proceedings of the Neyman-Kiefer Confe-
rence.
Gyorfi L.
(1981) Strong consistent density estimate from ergodic sample, Journal of Multi-
variate Analysis, II, pp. 81—84.
Habbema J. D. F., Hermans J., Remme J.
(1978) Variable kernel density estimation in discriminant analysis, in COMP-
STAT 78, L. C. A. Corsten and J. Hermans (Eds.), Physica Verlag, Wien.
Hall P., Heyde С. C.
(1980)	Martingale Limit Theory and Its Application, Academic Press, New
York.
Hanna B., Abou-Jaoude S.
(1981)	Sur la vitesse de convergence de Testimateur de la partition aleatoire d'une
densite de probabilite, Publications de 1'Institut de Statistique des Universites
de Paris, 26, pp. 51—67.
Isbgai E.
(1978) On strong consistency of a sequential estimator of probability density,
Science Reports of Niigata Univeisity, A 15, pp. 25—33.
(1980) Strong consistency and optimality of a sequential density estimator, Bulle-
tin of Mathematical Statistics, 19, pp. 55—69.
(1982)	Strong uniform consistency of recursive kernel density estimators, Science
Reports of Niigata University, A 18, pp. 15—27.
Klonias V. K.
(1982)	Consistency of two nonparametric maximum penalized likelihood estimators
of the probability density function, Annals of Statistics, 10, pp. 811—824.
Loeve M.
(1963) Probability Theory, Van Nostrand, Princeton, New Jersey. (Имеется рус-
ский перевод: Лоэв М. Теория вероятностей. —М.: ИЛ, 1962.)
Loftsgaarden D. О., Quesenberry С. Р.
(1965) A nonparametric estimate of a multivariate probability density function,
Annals of Mathematical Statistics, 28, pp. 1049—1051.
Mack Y. P., Rosenblatt M.
(1979) Multivariate k nearest-neighbor density estimates, Journal of Multivariate
Analysis, 9, pp. 1—15.
Moore D. S., Yackel J. W.
(1977) Consistency properties of nearest-neighbor density estimates, Annals of Sta-
tistics, 5, pp. 143—154.
Muller H.-G.
(1984) Smooth optimum kernel estimators of densities, regression curves and modes,
Annals of Statistics, 12, pp. 766—774.
Prakasa-Rao B. L. S.
(1969) Estimation of a unimodal density, Sankhya, Series A, 31, pp. 23—36.
Quenouille M.
(1956) Notes on bias in estimation, Biometrika, 43, pp. 353—360.
Raatgever J. W., Duin R. P. W.
(1978) On the variable kernel model for multivariate nonparametric density esti-
mation, in COMPSTAT 78, L. C. A. Corsten and J. Hermans (Eds.), Physica Ver-
lag, Wien.
«Литература
225
Rejtd L., Revesz P.
(1973) Density estimation and pattern classification, Problems of Control and
Information Theory, 2, pp. 67—80.
Robertson T.
(1967) On estimating a density which is measurable with respect to a o-lattice,
Annals of Mathematical Statistics, 38, pp. 482—493.
Rosenblatt M.
(1971) Curve estimates, .Annals of Mathematical Statistics, 42, pp. 1815—
1842.
Schucany W. R., Gray H. L., Owen D. B.
(1971) On bias reduction in estimation, Journal of the American Statistical Asso-
ciation, 66, pp. 524—533.
Schucany W. R; Sommers J. P.
(1977) Improvement of kernel type density estimators, Journal of the American
Statistical Association, 72, pp. 420—423.
Scott D. W., Tapia R. A., Thompson J. R.
(1980) Nonparametric probability density estimation by discrete maximum pena-
lized likelihood criteria, Annals of Statistics, 8, pp. 820—832.
Silverman B. W.
(1982) On the estimation of a probability density function by the maximum pena-
lized likelihood method, Annals of Statistics, 10, pp. 795—810.
Sommers J. P.
(1972) Improved density estimation, Technical Report 114, Department of Sta-
tistics, Southern Methodist University, Dallas, Texas.
Tapia R. A., Thompson J. R.
(1978) Nonparametric Probability Density Estimation, The Johns Hopkins Uni-
versity Press, Baltimore.
Terrel G. R., Scott D. W.
(1980) On improving convergence rates for nonnegative kernel density estimators, .
Annals of Statistics, 8, pp. 1160—1163.
Van Ryzin J.
(1970)	On a histogram method of density estimation, Technical Report 226, Sta-
tistics Department, University of Wisconsin, Madison, Wisconsin.
(1973) A histogram method of density estimation, Communications in Statistics,
2, pp. 493—506.
Wahba G.
(1971)	A polynomial algorithm for density estimation, Annals of Mathematical
Statistics, 42, pp. 1870—1886.
(1975)	Optimal convergence properties of variable knot, kernel and orthogonal
series methods for density estimation, Annals of Statistics, 3, pp. 15—29.
(1976)	Histosplines with knots which are order statistics, Journal of the Royal
Statistical Society, В 38, pp. 140—151.
Wegman E. J.
(1969)	A note on estimating a unimodal density, Annals of Mathematical Statistics,
40, pp. 1661—1667.
(1970a) Maximum likelihood estimation of a unimodal density function, Annals
of Mathematical Statistics, 41, pp. 457—471.
(1970b) Maximum likelihood estimation of a unimodal density, II, Annals of Mathe-
matical Statistics, 41, pp. 2160—2174.
(1975) Maximum likelihood estimation of a probability density function, Sankhya,
Series A, 37, pp. 211—224:
Wegman E. J., Davies H. I.
(1979) Remarks on some recursive estimators of a probability density, Annals of
Statistics, 7, pp. 316—327.
Wolverton С. T., Wagner T. J.
(1969a) Asymptotically optimal discriminant functions for pattern classification,
IEEE Transactions on Information Theory, IT-15, pp. 258—265.
15 Деврой Л., Дьёрфи Л.
226	Гл. 7. Оценки, близкие к ядерной и гистограммной
(1969b) Recursive estimates of probability densities, IEEE Transactions on Systems,
Science and Cybernetics, 5, p. 307.
Yamato H.
(1971) Sequential estimation of a continuous probability density function and
the mode, Bulletin of Mathematical Statistics, 14, pp. 1—12.
Прохоров Ю. В.
(1949) Об усиленном законе больших чисел//ДАН СССР. — Т. 69. — 5. С. 607—
610.
КОММЕНТАРИЙ ПЕРЕВОДЧИКА
Среднеквадратичная ошибка оценки Волвертона—Вагнера (2) исследова-
лась Кошкиным, Тарасенко (1976*), Булдаковым, Кошкиным (1977*). Оценка
плотности, основанная на статистической эквивалентности выборочных блоков
(полиграмма), введена Tarasenko (1968*). Асимптотическое распределение поли-
граммы изучено в книге Тарасенко (1976*).
ЛИТЕРАТУРА, ДОБАВЛЕННАЯ ПРИ ПЕРЕВОДЕ
Булдаков В. М., Кошкин Г. М.
(1977*) О рекуррентных оценках плотности вероятности и линии регрессии//
Проблемы передачи информации. — Т. 13. — 1. —С. 58—66.
Кошкин Г. М., Тарасенко Ф. П.
(1976*) Рекуррентное оценивание плотности вероятности и линии регрессии
по зависимой выборке//Матем. статист, и ее приложения. Вып. 4. — Томск:
Изд-во Томского гос. ун-та. — С. 135—136.
Тарасенко Ф. П.
(1976*) Непараметрическая статистика. — Томск: Изд-во Томского гос. ун-та.
Tarasenko F. Р.
(1968*) On the evaluation of an unknown probability density function, the direct
estimation of the entropy from independent observations of a continuous random
variable and the distribution-free test of goodness-of-fit//Proc. IEEE. — V. 56. —
11. — P. 2052—2053.
Глава 8
Моделирование, неравенства
и генерирование случайных величин
1. Выбор критерия
Рассмотрим ситуацию, когда требуются случайные величины
с функцией распределения F на Rd, но вместо них используются
случайные величины с функцией распределения О. Причины та-
кой замены бывают как экономическими (случайные величины,
распределенные согласно G, можно получить за меньшее время
или с меньшей затратой памяти ЭВМ), так и практическими (в рас-
сматриваемой прикладной задаче достаточно иметь лишь хоро-
шее приближение для F). Иногда функция F неизвестна, и ее
нужно оценить по данным. Во многих же случаях просто не хо-
чется тратить время на написание сложной программы генериро-
вания случайных величин с функцией распределения F. Какова бы
ни была причина замены, необходимо хорошо разобраться в том,
к каким последствиям такая замена приводит. Что нужно исполь-
зовать в качестве меры согласия приближения при моделирова-
нии?
Один из -классических критериев,
Л1 = sup | F (х) - G (х) |,
X
обладает тем недостатком, что он нечувствителен к локальным
расхождениям между распределениями. Например, если вся
масса распределения F сосредоточена равномерно на отрезках
[О, 1 ], [2, 3], ..., [2п — 2, 2п — 1 ], а вся масса G — равномерно
на отрезках [I, 2], [3, 4], .... [2п— 1, 2п], то Дх = 1/п. При
больших п значение этого критерия достаточно мало, но ясно, что
при моделировании никто .не захочет заменять F на G.
Предположим, что d » 1. Если функции F и G непрерывны
и U — случайная величина, равномерно распределенная на [О, I ],
то F'1 (U) и G-x (U) — случайные величины с функциями рас-
пределения F и G соответственно. Этот факт, как известно, лежит
в основе метода инверсии при генерировании случайных вели-
чин, приводящего к критерию
Д2 = sup I F'1 (и) - G-1 (и) I.
0<и<1
К сожалению, критерий Д2, так же как Дь не является локально
чувствительным и, кроме того, придает слишком большое значе-
15*
228
Гл. 8. Моделирование и случайные величины
ние хвостам распределений. Например, если носитель F беско-
нечен, а носитель G — компакт, то Д2 = оо.
Рассмотрим теперь критерий полной вариации
в в
где fug — плотности, соответствующие F и G. Как показано
в гл. 1, величина J дает верхнюю границу для абсолютной ве-
личины ошибки, возникающей при замене любой вероятности
вида [ f на ее приближение [ g. Если случайные величины
Л	а
нужны для оценки функционала J hdF (где Л 0) методом Монте-
Карло, то
| \hdF- j,AdG| =
f J dF(x)dt-\ j dG(x)dt
o h (xj > t	q h (x) > t
j . dF (x) — j dG (x) I dt < J sup h (x).
h (x) > t	h (x) > t I	x
Следовательно, при ограниченных h имеется четкая верхняя гра-
ница ошибки в случае, когда интеграл J hdG можно вычислить
точно. Часто величина J определяется без большого труда, но
иногда ее вычисление оказывается очень сложным. В § 2 приво-
дятся некоторые неравенства, которые могут быть полезны при
получении верхних границ для J.
2. Неравенства
В этом параграфе приводятся неравенства, устанавливающие
связь величины j | f — g | с другими мерами расстояния между f
и g. Одни из этих неравенств использовались при доказательстве
сходимости оценок в предыдущих главах; другие помогают поль-
зователя^ узнать нечто о свойствах оценок при мерах расстояния,
отличны* от £х.
Начнем с неравенств, которые находят применение при гене-
рировании случайных величин.
Теорема 1.
J I / - g I < 2 min (К„ Ke),
2. Неравенства
229
где
Кг = sup (1 — gif), Ke = sup (1 — f/g).
Доказательство. По теореме 1.1
J|f-g| = 2 J (f-g) = 2 J f (I — g/f) < 2Kr,
f>g	!»g
что в силу соображений симметрии влечет утверждение теоремы 1.
Постоянные Кг и Кс применяются при генерировании
случайных величин методами удаления и композиции.
Например, в алгоритме удаления величина Кг используется сле-
дующим образом:
Шаг 1. Генерировать случайную величину X с плотностью g
и не зависящую от нее случайную величину U, равномерно рас-
пределенную на [0, 1].
Шаг 2. Если Ug (X) < (1 — Kr)f {X), то вывести X; в про-
тивном случае возвратиться к шагу 1.
Метод композиции работает следующим образом:
Шаг 1. Генерировать случайную величину U, равномерно
распределенную на [0, 1 ].
Шаг 2. Если U < 1 — Кс, то вывести случайную величину X
с плотностью g; в противном случае вывести случайную вели-
чину X с плотностью (f — (1 — Kc)g)IKc.
Случайные величины, генерируемые обоими методами, имеют
плотность /, если арифметические операции выполняются с бес-
конечной точностью. В обоих алгоритмах предполагается, что
плотность g близка к f (т. е. значения Кс или Кг малы) и что можно
легко генерировать случайные величины с плотностью g.
В гл. 4 нам потребовалось теоретико-информационное нера-
венство между Lx-ошибкой и-величиной j f log (f/g).
Теорема 2.
4- J ц-« । «F1 - «ф (- j t ios (4-)) •
J min (f, g) -y-exp (— J f log (-£-)) .
230
Гл. 8. Моделирование и случайные величины
Доказательство. Пусть А = \f g\, В = {f < g\, h =
— g^l J g- Тогда по неравенству Йенсена
А	А
J* ilog ( Ja -0/г - J/i°srp/f A
A A \A / A /
Положим p = [ f, q =J g. В силу симметрии имеем
А	А
j f bg (f/g) piog (4-)+(i - p) log (4e|)=н (p- <?)•
He нарушая общности, предположим, что р = q + г при неко-
тором г Q. Запишем Н (р, q) в виде Н (q, г) = (q + г) log (1 +
+ r/q) + (1 — Q — г) log (1 — r/(l — q)) и заметим, что Н' (q, г) =
= log (1 + r/q) — log (1 — г/(1 — q)) и H" (q, г) = 1/р (1 — р) >
4, где производные берутся по г. Таким образом, используя
разложение в ряд Тейлора с остаточным членом, получим
Я(р, <7)^ 4(г»/2) == 2г» == J (f-g)Y = -I- ( J| f-g])2.
\t>g /
Первое неравенство доказано.
Для доказательства второго неравенства применим еще раз
неравенство Йенсена:
— Jf bg(4-) = Jf (log (min(-|-, l)) + log (max(-£-, 1)))<
< log ( J min (f, g)) + log ( J max (f, g)) .
Следовательно,
exp (— J f log (-£-)) « J min (/, g) [ max (/, g) -
Третье неравенство тривиальным образом следует из предыдущего '
рассуждения.
Первое неравенство теоремы 2 доказано в работах Kullback
(1967), Csiszar (1967) и Kemperman (1969). Другие неравенства
и их доказательства см. в Bretagnolle, Huber (1979). Существует
другая мера расстояния, равная J f2/g— 1 — J (р — g2)/g,
которая тесно связана с величиной [ f log (f/g) в том смысле, что
2. Неравенства
231
обе они конечны или бесконечны одновременно. В теореме 3 ука-
зывается связь этой новой меры расстояния с введенными ранее.
Теорема 3.
Кроме того, для произвольной функции g, не обязательно плот-
ности, имеем
J /г । f - g । < У J (f - gf •
Доказательство. Левое неравенство в первой цепочке полу-
чается, если заметить, что log и < и — 1 при и > О.о Правое
неравенство следует непосредственно из неравенства Йенсена.
Для получения второго утверждения теоремы применим неравен-
ство Гёльдера. Пусть числа a, q > 1 таковы, что 1/р + \/q — 1.
Тогда
Полагая р — q = 2, получим искомое неравенство.
Последнее утверждение следует непосредственно из неравен-
ства Коши—Шварца.
Расстояние Хеллингера Нр = (j | fl/p — g{/p |Р)1/Р, р 1,
так же как и Lj-ошибка Hlt обладает рядом хороших свойств,
а именно оно всегда конечно и инвариантно относительно строго
монотонных преобразований. Питмен (Pitman (1979)) использо-
вал расстояние Н2 при исследовании оценок максимума правдо-
подобия. К сожалению, линейной связи между Н2 и Н, =
= j | f — g | нет, т. е. не существует универсальной постоянной а,
такой, что Н2 ~ аН, при Н, -► 0. В самом деле, справедливы сле-
дующие неравенства:
Теорема 4.
Hl С Нг < Я2]Л - Hl с 2Я2.
Кроме того, для любых f существуют последовательности плот
ностей fn и gn, такие, что
Ну (f, fn)~2Hl(f, fn)-»-0,
НЛ, gn)~2Ht(f, gn)->0.
232
Гл. 8. Моделирование и случайные величины
Я,
Цоказательство. Имеем	,
= fl f~g\ = fl/Г - /Г I (/Г + /Г) г/
^fl/f-/FI2
— н2,
Н\ < f (/г - /F)2 f (/Г + /F)2 =
= //1 (2 2 j Vfg) =	- rf),
где мы воспользовались неравенством Коши—Шварца.
Последовательность gn строится так, чтобы она сильно пере-
крывалась с f. Пусть т — медиана для /. Положим gn =
= (1 + Рп) f на (—оо, т\ и gn = (1 — рп) f на (т, ,оо), где рп |
| 0 — некоторая последовательность. Ясно, что при каждом п
функция gn является плотностью. Кроме того, Нг = рп и Н;, =
= 2 — 2 f ^fgn = 2 — 1^1 — рп — >/1 + рп ~ р'п/4. Здесь исполь-
зовано то, что Y1 — х = 1 — х/2 — х2/8 + О (х3) при х | О
и V 1 + х = 1 + х/2 — х2/8 + О (х3) при х | 0.
Равенство = Н% достигается для неперекрывающихся f
и g, т. е. в случае, когда f y^fg = 0. Поэтому последователь-
ность fn строится частично на основе последовательности плот-
ностей, не перекрывающихся с f. Пусть тп есть (1/п)-квантиль
для /. Определим fn^такими соотношениями: /п = у/г/ на (— оо,
mn], fn = 0 — I/-/«) //(1 — М«) на (тп, °0)- Снова fn является
плотностью при каждом п. Легко проверить, что Нг =
= 2 (>/« — 1)/п ~ 2/Уп. Кроме того, Я2 = 2 - 2 [ }//7 = 2 —
_ 2/пз/4 _ 2 /(1 - 1/п) (1 - 1//п) — 2 - 2п'3/1 — 2(1-1 /2/п) ~
~ 1//п.
В теореме 5 формулируется неравенство Ле Кама (Le Cam
(1973)), которое существенно использовалось при доказательстве
леммы Ассуа (теорема 4.5).
Теорема 5.
j min (f, g) -±- ( j /fg)2
для любых плотностей f и g на Rd.
Доказательство. По неравенству Коши—Шварца
\f<g /	\f<.g	/	f<g
3. Обобщение выборки для генерирования случайных величин, 233
В силу симметрии
( J /fi)2 <2 J / 4- 2 j g = 2 J min (f, g).
f«t g<f
Рассмотрим, наконец, Ь^-норму ess sup | f — g|, где сущест-
венная верхняя грань берется относительно меры Лебега. Ясно,
что интеграл j | f — g | может быть мал, а при этом величина
sup \f — g | велика и, возможно, бесконечна. Обратно, из малости
значений £®-нормы не следует малость расстояния в L1( если нет
никаких предположений о хвостах плотностей f или g. В качестве
примера того, какие предположения на хвосты следует наклады-
вать, приведем несколько неравенств (Serfling (1979)).
Теорема 6. Пусть fug — плотности HaRd иг.— положитель-
ная постоянная. Положим vd —	(d/2 +1) и
Тогда
j | f — g | < 4Л<//(г+</) (yd ess sup | f — g	0 < r < oo,
и
jlf — Я I < 2/1^ ess sup |f — g|, /* — oo.
В определении величины Л можно заменить f на g.
Доказательство.
f(f-g)= ( (f-g)+ f (f-gx
f>g	||х|1</
f > g	f > g
< vdtd ess sup | f — g | 4- At~r
при любых t > 0. Слагаемые в правой части неравенства равны
между собой при tr+d = A/(vd ess sup | f — g|)* Подставляя зна-
чение t, удовлетворяющее этому условию, получим первое нера-
венство теоремы. Второе неравенство очевидно.
3. Обобщение выборки
для генерирования случайных величин
Пусть задана выборка Х1( ..., Хп, состоящая из независимых
случайных векторов со значениями в Rd, которые имеют одну и
ту же неизвестную плотность f, и требуется генерировать (т. е.
./4	;
234
Гл. 8. Моделирование и случайные величины
получить с помощью вычислительной машины) новую, не завися-
щую от исходной выборку независимых случайных векторов ...
Ym с той же плотностью f. Очевидно, что поставленная таким об-
разом задача не имеет решения. Некоторые из препятствий на
пути к решению можно преодолеть, если ввести следующие удоб-
ные и достаточно реалистичные предположения:
(i) вычислительная машина может хранить действительные
числа — в противном случае понятие «плотность» потеряло бы
смысл;
(ii) имеется источник, способный генерировать последователь-
ность Ui, U2, ... независимых случайных величин, равномерно
распределенных на [0, 1].
Так как плотность f неизвестна, то она должна быть явно
или неявно) оценена по выборке Х1( ..., Хп. В самом общем слу-
чае нас будут интересовать процедуры следующего вида:
Шаг 1. Построить оценку fn (х) = fn (х; Xlt ..., Хп) плот-
ности f (х).
Шаг 2. При i = 1, .... tn выполнять следующее:
генерировать новые равномерно распределенные на 10, 1 ]
случайные величины Ut\
вычислять Yt, используя fn и Ut.
Ясно, что имеется зависимость между двумя такими выборками.
Кроме того, оценка fn совпадает с / только в случае невероятного
везения. В данном параграфе обсуждается, до какой степени можно
ограничить проявление этих нежелательных эффектов.
Особый интерес здесь представляют вопросы независимости
выборок, состоятельности, неразличимости выборок, согласо-
вания моментов, построения генераторов для /п.
3.1.	Независимость выборок
С зависимостью между Хъ . . ., Хп и Yt, . . ., Ym почти
ничего нельзя поделать — остается только надеяться, что проис-
ходит приближение к асимптотической независимости при доста-
точно больших п. Еще отметим, что в некоторых приложениях
независимости выборок вовсе не требуется.
Так как Ylt . . ., Ym условно независимы при фиксирован-
ных Хг, . . ., Хп, то достаточно учитывать только зависимость
между Y = Yi и Хъ . . ., Хп. Мерой этой зависимости является
Dn = sup|P(yeA ХеВ)-Р(У(Е4)Р(ХеВ)|,
А. В
где верхняя грань берется по всем борелевским множествам А
из Rd и всем борелевским множествам В из Rnd и X — краткое
3. Обобщение выборки для генерирования случайных величин 235
обозначение для (Хь . . Хп). Будем говорить, что выборки
асимптотически независимы, если
lim Dn = 0.
rt->00
В случаях когда векторы	Хп используются для проек-
тирования или построения системы, а У\, ... ..Ym—для ее тести-
рования, зависимость выборок часто приводит к оптимистичным
оценкам. Без асимптотической независимости нет надежды на то,
что с ростом п эта тенденция к излишнему оптимизму будет умень-
шаться.
Приводимое ниже неравенство теоремы 7 показывает, что
условие lim Е (Jn) = 0 достаточно для асимптотической неза-
и-*оо
висимости.
Теорема 7.
Dn<E(Jn) = E[\\fn~f\).
Доказательство. Имеем
Dn < sup । р (у £ л, х^в)-р(хп^А, х еву | +
Л, В
+ sup I Р (Хп+1 С А, X С В) - Р (Хп+1 с А) Р (X € В) I +
Л,В
+suP|p(xn+1e4)P(xeB)-p(yeA)P(X(EB)|. <о
л,в
Последнее слагаемое в (1) равно
sup| Р (Xn+1£ А) — Р (У £ А) | =
л
= sup j Е (fn) - j f
A A	A

в силу теоремы 1.1 Шеффе. Второе слагаемое в (1), очевидно,
равно нулю, а первое слагаемое не превосходит
Теорема 7 доказана.
3.2.	Состоятельность
Теорема 7 показывает, что асимптотическая независимость
выборок следует из состоятельности оценки, т. е из условия
lim Е (Jn) = 0. Но более существенно, что состоятельность
и-* 8
236	Гл. 8. Моделирование и случайные величины
нужна для получения хороших приближений всевозможных
вероятностей, ибо
(2)
А 
(см. теорему 1.1, обсуждение в гл. 1 и § 1 данной главы).
3.3.	Неразличимость выборок
Одной из важных мер качества метода моделирования яв-
ляется неразличимость Xlt .... Хт и Ylt .... Ym при заданном
объеме выборки т. Если обозначить через Card (Л) и C^rd* (Л)
количества элементов выборок Хи ..., Хт и ..., Ym соответ-
ственно, попавших в Л, где Л — произвольное подмножество Rd,
то в качестве меры неразличимости можно предложить
Sn = sup | Е (Card (Л)) - Е (Card* (Л) | Х1( ..., Хп) |.
А
Если случайная величина Sn меньше, чем 1, то любые множе-
ства Л в среднем содержат от и — 1/2 до и + 1/2 точек каждой
выборки, где и — некоторое число. Такой строгий критерий не-
обходим, например, если важно избавиться от экстремальных
множеств.
Нетрудно видеть, что
Sn = т sup
А
Таким образом, мы снова приходим к Lj-критерию Jn.
Назовем оценку fn k-превосходной для выборок объема т, если
E(Sn) = -f-£(/„)< Л.	(3)
Понятие 1-превосходной оценки является очень сильным.
Чтобы продемонстрировать это, достаточно будет показать, сколь
плохо ведут себя произвольные, параметрические или непара-
метрические, оценки плотности. В табл. 1 для определенных
комбинаций оценок плотности fn и плотностей f вычислены поро-
говые значения п, ниже которых оценки не могут быть 1-превос-
ходными при заданных т. Рассматриваются следующие комби-
нации:
А.	Любые оценки /„ и некоторая плотность f вида pf +
+ (1 —р) g, где f и g—известные плотности с непересекаю-
щимися носителями и р — единственный неизвестный параметр —
число между 0 и 1.
3. Обобщение выборки для генерирования случайных величин
237
В.	Любые оценки fn и некоторая плотность f £ F2, г, где г —
произвольное число, большее или равное 2г* (см. гл. 4). По суще-
ству это класс всех плотностей с конечными значениями В* (/).
С.	Любые ядерные оценки (допустимы любые К и h) и любые
плотности f.
D.	Любые гистограммные оценки и любые плотности / £ ST,
т. е. любые абсолютно непрерывные Д имеющие ограниченную
и п. в. непрерывную производную f.
Числа из табл. 1 получены по результатам гл. 4 и 5, где от-
брошены члены о (1) асимптотических разложений и произведено
округление постоянных до первых двух значащих десятичных
цифр. Таким образом, эти числа являются лишь приближенными.
В столбцах А и В использовались соответственно приближение
Е (Jn) > _°’084^6- •_ („ли п > (0,0424928... т)2)	(4)
Таблица 1
м	А	в	с	D
10	1	1	40	85
100	18	1	13000	85000
1000	1800	1	4000000	85000000
10000	180000	77	1300000000	85000000000
100000	18000000	24000	400000000000	85000000000000
для неравенства из теоремы 4.4 и приближение
Е (./п) > (2е>-4 л-2/5 (или п ((2е)-4 /п/2)5/2)	(5)
для неравенства из теоремы 4.3.
Числа в столбце В меньше чисел в А, что объясняется
грубостью рассуждений, проведенных в теореме 4.4. Если
заменить 2г* на 5г*, то пороговое значение п увеличивается
в 45/2 = 32 раза. Отсюда следует, что при т = 10 000 для
любой сколь угодно хорошей оценки плотности найдется плот-
ность из класса F2if, г 5г*, такая, что данная оценка не яв-
ляется 1-превосходной при п < 32x77 = 2 464. Даже в слу-
чае простого класса А, где можно использовать очень простые
параметрические оценки, для существования 1-превосходных
(равномерно по f из этого класса) оценок нужно, чтобы исходная
выборка содержала по меньшей мере п = 180 000 точек при т =
= 10 000. Столбцы А и В таблицы свидетельствуют о том, что су-
ществуют плотности из определенных классов, такие, что для
них не может быть 1-превосходных оценок при слишком малых п.
238
Гл. 8. Моделирование и случайные величины
<акие именно эти плотности, неизвестно — они зависят от ис-
пользуемой оценки [п и от п. Здесь как раз проявляется слабость
нижних границ из гл. 4. Действительно, данный результат все
еще не является удовлетворительным, поскольку вполне может
оказаться, что, несмотря на таблицу 1, для оцениваемой плот-
ности f существуют 1-превосходные оценки. В этой связи более
мощными являются границы для фиксированных плотностей,
полученные в гл. 5.
Так, ни при каких / никакая обычная ядерная оценка не мо-
жет быть 1-превосходной, если т = 1000 и п < 4000 000. Это мощ-
ное утверждение следует из неравенства
Е (Jn) С3п~^ (или п	(0,43933402... /п)5/2)	(6)
теоремы 5.2. Исключений здесь нет — неравенство применимо
к любым плотностям. Таким образом, четырехмиллионная ниж-
няя граница объема выборки является абсолютной нижней гра-
ницей. Данные для гистограммной оценки (столбец D) еще более
разочаровывают, чем данные для ядерной оценки (столбец С),
поскольку нижняя граница при т = 1000 становится уже рав-
ной 85 миллионам и числа в столбце D возрастают со скоростью
порядка т3. Эти числа получаются из неравенства
Е (Jn) 0,880261... п-'/з (или п (0,4401305... /п)3)	(7)
теоремы 5.5.
Возможно, пользователю захочется предъявить более слабое
требование — чтобы оценка была ^-превосходной при k > 1.
В самом деле, высокое качество оценки, подразумеваемое усло-
вием Е (Sn) < 1, часто не требуется. В этом случае значения т
из табл. 1 следует умножить на k.
Тем не менее табл. 1 очень ясно показывает, что при больших
значениях т не следует использовать гистограммную оценку,
за исключением случаев, когда имеются другие, более важные,
чем Е (Jn), показатели, такие, как монотонность генератора слу-
чайных чисел (см. п. 3.5 ниже).
Границы (4)—(7) представляют собой отрицательные резуль-
таты. Позитивный же и обнадеживающий результат состоит
в том/что можно построить 1-превосходную при любых т ядер-
ную оценку, если определенной ценой заплатить за это. В теореме
5.1 было показано, что для любых f с компактным носителем
в первом приближении верно неравенство
Е (Jn) < 1,3768102.. .(9/125)’/5 В* (f) п~2'5,
если h и К выбраны оптимальным образом.
3. Обобщение выборки для генерирования случайных величин
239
Еще одна граница,
' Е (/„) с 1,240701.. .В*н (/) п-'/з,
дается в теореме 5.10. Используя эти два приближенных нера-
венства, можно убедиться в том, что если f — равнобедренная
треугольная плотность, то оценка является 1-превосходной при
/ 1,17624440...	\5/2
« > (-------2-----т) ,
и если f — равномерная плотность на [0, 1 ], то оценка является
таковой при
/ 1,240701... \з
п :> ( —:-------т У .
Это утверждение верно, во всяком случае если значение Л выбрано
оптимальным образом и К — ядро Епанечникова или равно-
бедренное треугольное ядро соответственно. Таблица 2 показы-
вает, как работают данные неравенства. В случае fe-превосходных
оценок значения т нужно умножить на k.
3.4.	Согласование моментов
Некоторые статистики и инженеры придают большое значение
моментам плотностей fn и /. При d = 1 невязкой i-го момента
называется случайная величина
Mn< = J x‘fn - j x‘f, i = l, 2, 3,...,	(8)
определенная в случае, когда функция | х |1 интегрируема отно-
сительно плотностей fn и f.
В теореме 8 даются невязки Мп1 и Мп2 для ядерной оценки.
Теорема 8. Для ядерной оценки на Z?1, ядро которой удовлет-
воряет условиям J хК = 0, j х2К = о2, имеем
п
1 = 1
п
М"2 = ~7гЪ(Х? ~ Е (Х|)) + h’a*
i=i
Кроме того,
Е (Мп1) = 0, Var (Mnl) = Var (Xx)/n, Е (Mn2) = ftV
и
Var (М„2) = Var
240
Гл. 8. Моделирование и случайные величины
Таблица 2
Равномерная на [0, 1]
плотность f
Равнобедренная
треугольная f
10
100
1000
10000
100000
239
239000
239000000
239000000000
239000000000000
83,9
26500
8390000
2650000000
839000000000
Доказательство. Воспользуемся тем, что fn — плотность слу-
чайной величины Y — Xz + hWf где Z, W — независимые между
собой и с Xi случайные величины, Z распределена равномерно
на’ {1, ...» п\ и W имеет плотность X. Утверждение теоремы 8
получается, если заметить, что
п	п
E(Y\Xlt..., ^n) =	=
1=1	1=1
и
Е(У2|ХЬ Xn) = E(Xl + 2hWXz + h2W2\X^ Хп) =
п
=vSx<+A’v-
1=1
Заметим. прежде всего, что на распределение величины Л4П1
не влияет выбор /1 и По слабому закону больших чисел Л4П1
стремится к 0 по вероятности, если Е (|	|) < оо, вне зависимости
от того, как h меняется с ростом п. Однако невязка второго мо-
мента складывается из случайной величины, не зависящей от Л
и Д, и постоянной составляющей Л2 ст2. Только из-за этой состав-
ляющей возникает положительное смещение Е (Мп2) = h2o2. Так
как мы не можем управлять величиной Var (Л1П2), то самое луч-
шее — максимально уменьшить смещение. Но это привело бы
к выбору столь малых Л, что значение Е (Jn) стало бы возрастать.
При оптимальном в смысле критерия Е (Jn) выборе параметра h
для многих гладких распределений он зависит от п как п~1/5.
В этом случае величина Е (Мп2) является хорошей мерой невязди
второго момента, ибо j/Var (Мп2) = 0(п~1/2) — о (Е (Мп2)).
Если, например, Д — ядро Епанечникова и параметр h выб-
ран оптимальным образом (см. (5.14)), то нормированная невязка
второго момента равна
Е (Мпг) 1 / 15 \2/5 rt-2/5(j^/f 1/'|)4/5	™
Var (X,)	5 \ 2л /	Var (XJ	‘	w
3. Обобщение выборки для генерирования случайных величин 241
Если использовать параметр h, оптимальный при заданном ядре К,
то получится выражение, достигающее минимума на ядре Епанеч-
никова. Поэтому выбор ядра Епанечникова вполне обоснован.
Выражение (9) трансляционно и масштабно инвариантно. В нем
существенна только форма плотности f. Чтобы грубо прикинуть,
каково численное значение (9), будем полагать, что f — плот-
ность нормального распределения. Тогда
= (--§й2 )'/5-g-«-2/5 = 0.5540591... л-2/5.	(10)
В табл. 3 приведены полученные из (10) значения процентных
уровней относительной невязки второго момента в случае плот-
ности нормального распределения в зависимости от п. Заметим,
что при обычных значениях п эти уровни заключены между 1 %
и 10 %. Следовательно, сглаживание, необходимое для обеспе-
чения состоятельности и малых значений Е (Jn), оказывает неже-
лательное побочное воздействие на невязку второго момента,
и это воздействие сильнее всего проявляется при малых п. За-
метим также, что, согласно табл. 3, почти безнадежно требовать,
чтобы относительная ошибка была порядка 0,1 % или меньше.
При d > 1 ситуация, разумеется, еще сложнее (см., например,
Shanmugam (1977), где обсуждается похожая проблема).
Таблица 3
п	Нормированная невязка второго момента (f — плотность нормального распределения, h — опти- мальный параметр сглаживания)
10 100 1000 10000 100000 1000000	0,2205... 0,08781... 0,03496... 0,01391... 0,005540... 0,002205...
Таблица 4
Абсолютная верхняя граница
п	нормированной невязки второго
момента
10	3,652...
100	1,453...
1000	0,5788..
10000	0,2304..
100000	0,09173.
1000000	0,03652.
16 Деврой Л., Дьёрфи Л.
242
Гл. 8. Моделирование и случайные величины
Заметим еще, что в силу (5.18) нормированная невязка второго
момента не превосходит величины
(1/5) х (6,7726100.. .)2 n-2/s = 9,1736492.. .п~™>,
если К — ядро Епанечникова и h выбирается согласно (5.14).
Значения данной универсальной границы при различных п при-
ведены в табл. 4.
3.5.	Генераторы случайных величин с плотностью fn
Для генерирования случайных величин с плотностью, пред-
ставляющей собой ядерную оценку
п
<=1
можно применить следующую процедуру:
Шаг 1. Генерировать случайную величину Z, распределенную
равномерно на {1, ..., п\, и генерировать не зависящий от нее
случайный вектор W с плотностью К..
Шаг 2. Вывести величину У +- Xz + hW.
Единственное осложнение может возникать из-за ядра К. Как
было показано, при d = 1 имеется ряд аргументов в пользу
выбора ядра Епанечникова К (х) = (3/4) (1 — х2), |х|<1.
Существуют два очень быстрых алгоритма генерирования случай-
ной величины W с такой плотностью распределения — метод
удаления и метод порядковых статистик.
Метод удаления с прямоугольной доминирующей плотностью.
Шаг 1. Многократно генерировать случайную величину W,
равномерно распределенную на [—1, 1], и не зависящую от нее
случайную величину U, равномерно распределенную на [0, 1 ],
до тех пор, пока не окажется выполненным неравенство U
< I — V».
Шаг 2. Вывести 1Г.
Метод порядковых статистик.
Шаг 1. Генерировать три независимые равномерно распре-
деленные на [—1, И случайные величины V2 и V8. Положить
W+- V3.
Шаг 2. Если | V31 > |	| и | V31 > | V21, то положить W ч-
ч- V2. Вывести W.
В методе удаления величина W принимается на ша-
ге 2 с вероятностью 2/3, так что на каждое получен-
3. Обобщение выборки для генерирования случайных величин
243
ное на выходе значение W в среднем используются по три равно-
мерно распределенных на I—1, 1] случайные величины. При
этом, однако, требуется производить умножения. В методе по-
рядковых статистик также требуются три равномерно распреде-
ленные случайные величины, но умножение заменяется несколь-
кими операциями взятия абсолютной величины.
Дехёвельс (Deheuvels (1977b)) нашел оптимальное в смысле
критерия L2 ядро К в Rd. Оно имеет вид
К (х) = Cd(d + 4 - ||x||f), ||х||22< d + 4,
где Cd — нормировочная постоянная, зависящая только от d.
Случайные векторы с такой плотностью распределения (это много-
мерная плотность Пирсона II-го типа) представимы в виде
/dT4 /Beta (d/2, 2) Td,
где Beta (d/2, 2) — случайная величина, имеющая бета-распре-
деление и Td — не зависящий от нее случайный вектор, равно-
мерно распределенный на единичной сфере в Rd. Генерированию
случайных величин с бета-распределением посвящены работы
(Schmeiser, Shalaby (1980), Schmeiser, Babu (1980)). В этих ра-
ботах, а также в Schmeiser (1980) можно найти дополнительные
ссылки. Вектор Td легко генерировать различными методами,
например методом спейсингов (Sibuya (1962), Tashiro (1977)),
полярным методом или специальными методами для малых зна-
чений d (см. обзорные статьи Deak (1979) и Rubinstein (1980)).
В полярном методе, например, используется тот факт, что
вектор Td распределен так же, как (N-JN....Nd/N), где •••>
Nd — независимые нормальные случайные величины с пара-
метрами (0, 1) и N = УN{ + • • • + N%.
По поводу выбора параметра h, зависящего от данных, сош-
лемся на § 5.6 и § 6.2. Иногда требуются и другие модификации
ядерной оценки, при которых необходимо модифицировать и
генератор случайных чисел. В гл. 9 вводится преобразованная
ядерная оценка, обладающая, как правило, пониженной величи-
ной ошибки £ (Jn) при d = 1. Преобразованная ядерная оценка
не имеет аналога при d > 1. Качество ядерной оценки можно
повысить также за счет использования информации о направле-
ниях разброса данных. Так, в работе Shanmugam (1977) (см. также
Deheuvels (1977b)) обсуждаются последствия замены Y = Xz +
+ hW на Y = Xz + hAW, где А —матрица размера dxd,
такая, что обратная к выборочной ковариационной матрице
равна А*А. Для оценки из работы Breiman, Meisel, Purcell (1977)
нужно изменить исходный алгоритм, полагая Y — Xz + hzW,
где hi — расстояние от точки Xt до ее fe-ro ближайшего соседа
среди Xit ..., Хп, причем целое число k выбирается заранее
(вместе с Xlt ..., Хп нужно хранить и значения ft1( ..., /in).
16*
244
Гл. 8/Моделирование и случайные величины
Если известно, что вся масса плотности f сосредоточена на
(О, оо) или на [О, I ], требуется еще одна модификация (см. гл. 9
ниже или работу Hominal, Deheuvels (1979)). В этом случае fn
I 00
можно заменить функцией fn = fn I j fn на [0, oo) и fn = 0 на
/ о
(—оо, 0). В теореме 11.3 будет показано, что такую замену можно
делать для любой оценки. Алгоритм генерирования случайных
чисел также легко видоизменить:
Шаг 1. Многократно генерировать случайные величины X
с плотностью fn до тех пор, пока не окажется выполненным нера-
венство X 0.
Шаг 2. Вывести X.
Среднее число повторений шага 1 в данном алгоритме уда-
I 00
ления равно 1 / j fn, что, как правило, близко к 1.
/ о
Приемы уменьшения смещения из § 7.6 усложняют дело лишь
незначительно. Рассмотрим сначала нормированную оценку Барт-
лета gn = (fn)+/ (j4)+, где fn — ядерная оценка с ядром К,
принимающим как положительные, так и отрицательные значе-
ния. Заметим лишь, что (fn)+ fn, где
п
/и*)=(«/о-12	•
1=1
Применим теперь метод удаления, принадлежащий фон Нейману
(von Neumann (1951); см. также Rubinstein (1981)):
Шаг 1. Многократно выполнять следующее:
Генерировать три независимые случайные величины I, W
и U, где I — случайное целое между 1 и п, U7-— имеет плотность
К+/ J Л+ и величина U распределена равномерно на [0, 1].
Положить X ч- Хг + hW. Теперь X имеет плотность fn / | fn-
Указанные действия выполнять до тех пор, пока не окажется,
п	in	\
что и S к+ ((X - Xt)/h) < I\ К ((X - Xi)/h) .
i=i	\t=i	/+
Шаг 2. Вывести X.
Среднее число итераций цикла на первом шаге равно
j fn/ j (fn)+ = J X+ / J (/»)+ < J x+. Данная верхняя граница
3. Обобщение выборки для генерирования случайных величин
245
точна, поскольку J (fn)+ -> 1 при h -*• 0, nh-+ оо (это является
следствием теоремы 7.4). Например, для ядра Бартлета
К (х) = (9/8) (1 - 5х2/3), |х|<1,
получим
/здГ
fX+=2j A(l--^)dx=/27/20 = 1,161895....
о
Вместе с тем вычисление сумм на первом шаге требует больших
затрат машинного времени. Очевидно, что их не следует вычис-
лять непосредственно, так как при этом длительность вычисления
будет линейно возрастать с ростом п. Если ядро К сосредоточено
на [—1, 11, как в рассмотренном примере, то можно, в частности,
хранить данные в виде массива, упорядоченного по возрастанию
их значений. Методом бинарного поиска (см. Knuth (1975)) можно
определить, в какой из интервалов (Хг, Хг+1) попадает X. Двигаясь
по массиву вверх и вниз от данного интервала, можно найти
все Xt, расстояние которых от X не превосходит h. Другие Xt
не влияют на рассматриваемые суммы. При некоторых условиях
на f можно показать, что среднее время работы такого алго-
ритма равно О (nh) + О (log п).
Если учитывать и вид ядра К, то можно еще больше сокра-
тить время вычислений. Например, если К — квадратичная функ-
ция на [—1, 1 ] (как ядра Епанечникова и Бартлета), то известно,
что ядерная оценка fn является кусочно-квадратичным сплайном
с изломами в точках Xt—h, Xt + h, i= 1, ...,n. Таким образом,
достаточно запомнить в упорядоченном виде эти точки, а также
по три коэффициента квадратичного полинома для каждого ин-
тервала. После того как найден интервал, которому принадле-
жит X (бинарным поискам это делается за время О (log п)), суммы
на первом шаге вычисляются мгновенно (за время О (1)). Конечно,
при этом методе значительно возрастает время предварительной
обработки, но и его можно ограничить разумными рамками, если
сначала упорядочивать данные, а затем, просматривая их еще раз
слева направо, вычислять все коэффициенты. В случае равномер-
ного ядра X оценка fn кусочно-постоянна, что позволяет еще
больше упростить указанную процедуру. В дальнейшем есть все
основания считать, что ядерную оценку можно вычислить за
время порядка О (log п), не учитывая время предварительной
обработки.
Оценка Террела — Скотта, также рассмотренная в § 7.6, при
отсутствии нормировки имеет вид fn = fnl (fnJfm)43, где попра-
вочный коэффициент (/П1//пг)1/3 всегда заключен между 0 и 21/3.
Таким образом, fn < 2,/3/ni- По сравнению с алгоритмом для
246	Гл. 8. Моделирование и случайные величины
оценки Бартлета здесь нужно внести совсем небольшие измене-
ния — на шаге 1 полагать, что X имеет плотность fnl, a IF —
плотность К, и проводить итерации до тех пор, пока не окажется
выполненным неравенство 2l/3U < (/п17пг)1/3- Среднее число ите-
раций равно 21/3 + о (1) (это следует из условия J fn 1, см.
теорему 7.6), и вычисление величины (fnl (X)/fni (Л))|/3 прово-
дится за время О (log п) равномерно для любых X.
Рассмотрим теперь гистограммную оценку, определяемую
разбиениями Фп = {Лп>, j—целое}. Легко найти алгоритм
генерирования случайных величин с плотностью fn. Приведем
пример такого алгоритма.
Шаг 0. Предварительная обработка. Вычислить и запомнить
вероятности pt = рп (АП|), такие, что pt 0 (рп—обычная
эмпирическая мера для Хь ..., Хп). Заметим, что требуется за-
помнить не более п вероятностей pt.
Шаг 1. Генерировать целочисленную случайную величину I,
такую, что Р (/ = i) = pt.
Шаг 2. Генерировать и вывести случайную величину X, рав-
номерно распределенную на Ап1.
В отличие от приведенного выше алгоритма для ядерной оценки
здесь требуется предварительная обработка. Если использовать
подходящие программы, то ее можно выполнить за время
О (п log п), поскольку для каждой точки Xt надо проверить, со-
держит ли множество Лп/, которому принадлежит Х{, другую
точку Хт. Аналогичный алгоритм без предварительной обра-
ботки имеет такой вид:
Шаг 1. Генерировать случайную величину Z, равномерно
распределенную на множестве {1, .... п\, и найти множество AnJ,
которому принадлежит Хг.
Шаг 2. Вывести случайную величину Y, равномерно распре-
деленную на Лп/.
В большинстве случаев этот алгоритм предпочтительнее алго-
ритма с предварительной обработкой. Однако в особых случаях
это не так, например если требуется получить случайные вели-
чины с максимальными отрицательными взаимными корреля-
циями для уменьшения дисперсии при моделировании методом
Монте-Карло. Известно, что если F — непрерывная функция
распределения, то две случайные величины с этой функцией рас-
пределения максимально отрицательно коррелированы, если
они равны Г-1 (U) и К-1 (1 —U), где U —равномерно распре-
деленная на [0, 1 ] случайная величина. В связи с этим Фокс
(Fox (1980)) предлагает всегда пытаться применять метод инвер-
сии (т. е. генерировать случайную величину с функцией распре-
3. Обобщение выборки для генерирования случайных величин
247
деления F в виде F-1 (7/)). К сожалению, ни один из приведенных
выше алгоритмов для ядерной и гистограммной оценок не осно-
ван на инверсии.
Закончим этот параграф обсуждением различных алгоритмов
инверсии для оценок плотности. Большинство интересных оце-
нок, таких, как гистограммная и обычная ядерная с равномерным,
треугольным или квадратичным ядром, сосредоточенным на
[—1, 11, являются кусочно-полиномиальными. Предположим,
что действительная ось разбита на части точками излома at <
< й2 <• • • < ап и оценка равна нулю вне Iflj, йп]. На 1а(, ам)
оценка имеет вид
/п (*) = bi0 btlx + Ь12х2 + • • • + btpX?.
Предположим также, что значения соответствующей функции
распределения Fn в точках излома известны и равны Fn (at) =
= с(. Нетрудно убедиться, что указанные коэффициенты, точки
излома и значения в точках излома для рассматриваемых оценок
вычисляются довольно просто.
Алгоритм инверсии работает следующим образом:
Шаг 1. Генерировать равномерно распределенную на [0, 1 ]
случайную величину U. Найти целое I, такое, что ct U <
< с1+1. (Так как q = 0 и сп = 1, то значение I заключено между 1
и п — 1.)
Шаг 2. Вывести решение X уравнения
(7 — Cj = bjo (X — й/) 4—2~ Ьц (X2 — а2)
+ ••• 4-74п-Мхр+‘-я?+1)-
Для кусочно постоянной оценки это уравнение решается
очень просто. Для кусочно-квадратичных оценок решение пред-
полагает нахождение корней полинома третьей степени. Во всех
случаях время, необходимое для выполнения шага 2, не зависит
от п и равно О (1). Если на шаге 1 используется последователь-
ный поиск интервала, то время счета растет линейно с ростом п.
Не рекомендуется и бинарный поиск интервала, потому что в худ-
шем случае он занимает время порядка log п. Для генерирова-
ния целочисленной случайной величины 7, распределенной
так же, как I на шаге 1, можно использовать метод эталона
(Walker (1977), Kronmal, Peterson (1979)), который тратит время
О (1) в худшем случае. К сожалению, этот метод неприемлем,
поскольку при инверсии U не получается целое число. По-види-
мому, наиболее подходящим для шага 1 является метод «путе-
водителей» (Chen, Asau, (1974); см. также исчерпывающий обзор
Ahrens, Kohrt (1981)). Этот метод в среднем занимает время О (1),
248
Гл. 8. Моделирование и случайные величины
но в худшем случае может работать гораздо дольше. Он основан
на простом принципе. При предварительной обработке строится
путеводитель, т. е. набор gh 1 п, где
gi = max (/: с,- < i/n\.
В частности, ясно, что gn = п —1. Поиск числа /, такого, что
Ci U < сг+1, осуществляется последовательно, начиная с места,
указанного в путеводителе. Таким образом, путеводитель почти
является таблицей инверсии.
Шаг 1. 1 ч- [nU + 1 ]. (Теперь число / таково, что
(/ — l)/n < U < 1/п.)
Шаг. 2 1-^- gi_v (Заглянуть в путеводитель.)
Шаг 3. Последовательно присваивать / назначение / + 1 до
тех пор, пока не окажется, что с/+1 < U.
Шаг 4. Вывести I.
Самое интересное в этом алгоритме то, что цикл на шаге 3
в среднем выполняется почти мгновенно. Это вызвано тем, что п
значений сг распределены по п интервалам и что величина U
распределена равномерно на [0, 11. Сам путеводитель можно
построить за время порядка п следующим образом:
Шаг 1. При i = 1, .... п положить gt ч- 0.
Шаг 2. При j — 1, ..., п положить i	[ncj + 1 ], gt +- j.
(Заметим, что (i — l)/n cj < i/n.)
ШагЗ. При i = 2, ..., n последовательно присваивать gt зна-
чение max (gi-i., gt). (Доопределение на пустых интервалах).
Заметим, что для гистограммных оценок с зависящими от
данных точками разрыва (точнее точками разрыва, совпадающими
с k-n, 2/г-й и т. д. порядковыми статистиками выборки) метод
инверсии исключительно прост в реализации (Fox (1980)). В ра-
боте Archer (1980) также рассматриваются простые генераторы
для fn и предлагается кусочно постоянная оценка плотности,
точки разрыва и величины скачков которой определяются из
условия совпадения моментов оценки fn с выборочными момен-
тами. К сожалению, в общем случае такой подход не приводит
к состоятельным оценкам. Метод генерирования случайных ве-
личин в Rd без построения fn в явном виде указан в Thompson,
Taylor (1982).
ЛИТЕРАТУРА
Ahrens J. Н., Kohrt К. D.
(1981) Computer methods for efficient sampling from largely arbitrary statistical
distributions, Computing, 26, pp. 19—31.
Литература
249
Archer N. P.
(1980) The generation of piecewise linear approximations of probability distribution
functions, Journal of Statistical Computation and Simulation, 11, pp. 21—40.
Breiman L., Meisel W., Purcell E.
(1977) Variable kernel estimates of multivariate densities, Technometrics, 19,
pp. 135—144.
Bretagnolle J., Huber C.
(1979) Estimation des densites: risque minimax, Zeitschrift fur Wahrscheinlich-
keitstheorie und verwandte Gebiete, 47, pp. 119—137.
Chen H. C., Asau Y.
(1974) On generating random variates from an empirical distribution, AIIE Trans-
actions, 6, pp. 163—-166.
Csiszar 1.1
(1967) Information-type measures of difference of probability distributions and
indirect observations, Studia Scientiarium Mathematicarum Hungarica, 2, pp. 299—
318.
Deak I.
(1979) Comparison of methods for generating uniformly distributed random points
in and on a hypersphere, Problems of Control and Information Theory, 8, pp. 105—
113.
Deheuvels P.
(1977a) Estimation non parametrique de la densite par histogrammes generalises,
Revue de Statistique Appliquee, 25, pp. 5—42.
(1977b) Estimation non parametrique de la densite par histogrammes generalises,
Publications de 1'ISUP, 22, pp. 1—23.
Devroye L.
(1982) A note on approximations in random variate generation, Journal of Sta-
tistical Computation and Simulation, 14, pp. 149—158.
Fox B. L.
(1980) Monotonicity, extremal correlations, and synchronization: implications
for nonuniform random numbers, Technical Report, Departement d'Informatique
et de Recherche Operationnelle, Universite de Montreal, Canada. ,
Hominal P., Deheuvels P.
(1979) Estimation non parametrique de la densite compte-tenu d'informations
sur le support, Revue de Statistique Appliquee, 27, pp. 47—68.
Kemperman J. H. B.
(1969) On the optimum rate of transmiting information, Probability and Informa-
tion Theory, Springer Lecture Notes in Mathematics, 89, Springer-Verlag, Berlin,
pp. 126—169.
Knuth D. E.
(1975) The Art of Computer Programming, Vol. 3; Sorting and Searching, Addison-
Wesley, Reading, Massachusetts. (Имеется русский перевод: Кнут Д. Искусство
программирования для ЭВМ. Т. 3. Сортировка и поиск. — М.: Мир, 1978.)
Kronmal R. A., Peterson А. V.
(1979) On the alias method for generating random variables from a discrete distri-
bution, The American Statistician, 33, pp. 214—218.
Kullback S.
(1967) A lower bound for discrimination information in terms of variation, IEEE
Transactions on Information Theory, 13, pp. 126—127.
LeCam L.
(1973) Convergence of estimates under dimensionality restrictions, Annals of Sta-
tistics, 1, pp. 38—53.
Pitman E. J. G.
(1979)	Some Basic Theory for Statistical Inference, Chapman and Hall, London.
(Имеется русский перевод: Питмен Э. Основы теории статистических выводов. —
М.: Мир, 1986.)
250
Гл. 8. Моделирование и случайные величины
Rubinstein R.
(1980)	Generating random vectors uniformly distributed inside and on the surface
of different regions, IBM Thomas J. Watson Research Center, Technical Report
RC 8409.
(1981)	Simulation and the Monte Carlo Method, Wiley, New York.
Schmeiser B. W.
(1980) Random variate generation: a survey, Proceedings of the 1980 Winter Simu-
lation Conference, Orlando, Florida.
Schmeiser B. W., Shalaby M. A.
(1980) Acceptance/rejection methods for beta variate generation, Journal of the
American Statistical Association, 75, pp. 673—678.
Schmeiser B. W., Babu A. J. G.
(1980) Beta variate generation via exponential majorizing functions, Operations
Research, 28, pp. 917—926.
Serf ling R. J.
(1979) A variation on Scheffe's theorem, with application to nonparametric den-
sity estimation, Report M502, Department of Statistics, Florida State University.
Shanmugam K. S.
(1977) On a modified form of Parzen estimator for nonparametric pattern recogni-
tion, Pattern Recognition, 9, pp. 167—170.
Sibuya M.
(1962) A method for generating uniformly distributed points on n-dimensional
spheres, Annals of the Institute of Statistical Mathematics, 44, pp. 81—85.
Tashiro Y.
(1977) On methods for generating uniform random points on the surface of a sphere,
Annals of the Institute of Statistical Mathematics, 29, pp. 295—300.
Thompson J. R., Taylor M. S.
(1982)	A data-based random number generator for a multivariate distribution,
Proceedings of the NASA Workshop on Density Estimation and Function Smoot-
hing, held at Texas A&M University, College Station, Texas, pp. 214—225.
Von Neumann J.
(1951) Various techniques in connection with random digits, National Bureau
of Standards AMS, 12, pp. 36—38.
Walker A. J.
(1977) An efficient method for generating discrete random variables with general
distributions, ACM Transactions on Mathematical Software, 3, pp. 253—256.
Глава 9
Преобразованная ядерная оценка
1.	Введение
Ядерная оценка
п
1=1
обладает тем недостатком, что параметр h в ней не настраивается
локально. Это находит отражение в результатах гл. 5, где пока-
зано, что поведение ядерной оценки ухудшается для менее глад-
ких плотностей f и для плотностей с тяжелыми хвостами. Можно
несколько смягчить возникающие здесь проблемы, если строить
оценку плотности преобразованной случайной величины, а затем
брать обратное преобразование.
В преобразованной ядерной оценке (Devroye и др. (1983)) ис-
пользуется строго монотонно возрастающее взаимно однозначное
непрерывно дифференцируемое преобразование Т, отображаю-
щее R1 на 10, J J и имеющее непрерывно дифференцируемое обрат-
ное преобразование. Преобразованная последовательность дан-
ных имеет вид У1( ..., Yn, где Уг = Т (Хг). Заметим, что плот-
ностью случайной величины Yi является
g(x) = f (Т"1 (х)) (Т-1 (х))'.
Если gn— оценка плотности g по данным Yи ..., Уп, то оценка
для f имеет вид
fn(x) — gn (Т (х)) Т' (х).	(2)
Самое главное, что если gn — плотность на [0, 1 ], то fn — плот-
ность на R1 и, более того,
Иными словами, £х-ошибка инвариантна относительно монотон-
ных преобразований. Далее, если gn — ядерная оценка, то ее
Lx-ошибка пропорциональна величине В* (g), введенной в гл. 5.
Следовательно, надо выбирать Т так, чтобы минимизировать
В* (g). В связи с этим возникает естественный вопрос: какая
плотность g является наилучшей? Ответ на этот вопрос, данный
в теореме 5.3, гласит: минимальное значение В* (g) равно
(29/34),/5 и оно достигается для равнобедренной треугольной плот-
252
Гл. 9. Преобразованная ядерная оценка
ности на [0, 1 ]. Поэтому надо выбирать Т так, чтобы плотность g
была равнобедренной треугольной. Если бы функции распреде-
ления F, соответствующая плотности f, была известна, то такое
оптимальное преобразование имело бы вид
TM = |/W'	(3,
11 - /(1 - F (х))/2, F(x)>l/2.
Вспомним, что если g — треугольная плотность и К — ядро
Епанечникова, то оптимальное значение h из табл. 5.1 равно
(5/192лп)1/5. Таким образом, оценки gn и fn полностью определены
при известной F. К сожалению, функция F не известна и должна
быть заменена некоторой оценкой. Кроме того, функция gn обы-
чно не является плотностью на [0, 1 ], поскольку часть массы gn
находится за пределами отрезка [0, 11. Учитывая это, будем
пользоваться оценкой
gn (x)=-,gn(x)	(4)
J gn (У) dy
О
вместо gn. Вычисление интеграла в (4) не составляет труда, ибо
I	П
jsn(x)=4-2 J *(*)<**•	(5)
О	1=1
Если положить fn (х) = gn (Т (х)) Т' (х), то, очевидно, J | fn —
— f I = J I gn—g I- и хотя теоретические результаты, исходя
из которых выбиралась плотность g, верны для gn, их можно
использовать и для gn, так как
f I ёп - g | < f I gn - g |	(6)
при любых g и gn (см. теорему 11.3).
Единственным неизвестным элементом конструкции осталось
преобразование Т. Заметим, что в случае преобразованной гисто-
граммной оценки оптимальное преобразование Т должно приво-
дить к равномерной плотности на [0, 1 ], так что оно имеет вид
Т (х) = F (х) при любых х. Значение Л, которое следует исполь-
зовать в гистограммной оценке, равно (2лп)-1/3 (табл. 5.1).
Так как Т-гладкая функция, то плотность g наследует глад-
кость плотности /. Поэтому преобразованные оценки едва ли мо-
гут сильно помочь в борьбе с разрывами. Преобразования исполь-
зуются в основном, чтобы улучшить поведение исходных оценок
на хвостах. Оптимальное обратное преобразование растягивает
2. Выбор преобразования
253
ядра на хвостах. Визуальный эффект при этом такой же, как в ме-
тоде с переменным h, зависящим от х: «видно», что параметр А,
как правило, больше на хвостах и меньше вблизи моды.
Еще один важный момент состоит в том, что оценку gn легко
строить графически, поскольку она имеет компактный носитель.
Из аналогичных соображений была введена и квантильная функ-
ция Парзена для плотностей (Parzen (1979)).
Имеется довольно мало работ, посвященных выбору h. Вме-
сте с тем мы знаем, что средняя Lj-ошибка не может убывать
быстрее, чем произведение п“2/5 В* (/) на некоторую постоян-
ную. В данной главе предлагается не обращать внимания на Л,
а попытаться расширить возможности ядерной оценки, работая
с множителем В* (/).
2.	Выбор преобразования
Выбор преобразования — дело не простое. Во многих прило-
жениях предполагают, что плотность f принадлежит некоторому
семейству плотностей (как правило, параметрическому) или по
крайней мере близка к определенному элементу такого семейства.
Если 0 — параметр семейства и F0 — соответствующая функция
распределения, то естественно найти некоторую робастную
оценку 0 параметра 0 и подставить Be в выражение для оптималь-
ного преобразования Т. Здесь и везде далее используется одно
и то же значение Л, оптимальное для равнобедренной треугольной
плотности на [0, 1].
Особенно привлекательны так называемые «простые и грубые» г)
робастные оценки, идея которых принадлежит Гаствирту (Gast-
wirth (1966)). Например, если Хц) < ... < Х(Пу — порядковые
статистики выборки Хъ к.., Хп? то оценка Гаствирта для среднего
нормального семейства равна
А — 0,ЗХ(Л/3) -к 0,4Х(я/2) + 0»ЗХ(2п/з)»
В работах Huber (1972) и Andrews и др. (1972) приводятся даль-
нейшие примеры таких простых робастных оценок сдвига. Для
робастного оценивания параметра масштаба можно использовать
двухквантильный метод из § 6 гл. 5. Этот метод дает, например,
следующую оценку параметра масштаба семейства Коши:
б = (Х(3Л/4) — Х(Л/4)/2.
За исключением тривиальных случаев, нормальное семейство и се-
мейство Коши слишком бедны для описания статистических моде-
лей. Обзор семейств с большим числом параметров дается в ра-
боте Schmeiser (1977). Мы не рекомендуем /непараметрические
4 В оригинале quick and dirty. — Прим, перев.
254	Гл. 9. Преобразованная ядерная оценка
семейства, поскольку для них трудно (а быть может, и невозмо-
жно) показать, что получаемые оценки состоятельны и обладают
некоторой скоростью сходимости. Если параметров мало, то
функция Т — всегда примерно одна и та же, и потому нет риска
потерять состоятельность.
3.	Оценивание плотностей с тяжелыми хвостами
Эффективность ядерной оценки определяется двумя факторами:
во-первых, наличием разрывов или резких осцилляций у оценивае-
мой плотности и, во-вторых, ее тяжелыми хвостами. Первый фак-
тор для гладких плотностей количественно выражается величи-
ной j | f |, а для плотностей с простыми разрывами, таких, как
равномерная плотность на [0, 1], равен бесконечности. Второй
фактор, измеряемый величиной У7. равен бесконечности для
плотностей с тяжелыми хвостами, таких, как плотность распреде-
ления Коши. Выше было показано, что если один или оба этих фак-
тора бесконечны, то для обычной ядерной оценки имеем
n2/5£ (7П) -> оо независимо от выбора h как функции от п.
Преобразование к треугольной плотности устраняет разрывы
и хвосты, и потому должно улучшать качество оценки в смысле
критерия Lt. При обратном преобразовании разрывы восстанавли-
ваются и создается впечатление, что преобразованная оценка ра-
ботает так же, как ядерная оценка с локально настраиваемым
параметром сглаживания h. Так, значения й, как правило, ка-
жутся больше на хвостах. Для описания этого явления восполь-
зуемся понятием изолированного холма х). С помощью данного
понятия будет отчасти объяснено получаемое уменьшение Lx-
ошибки.
Изолированный холм произвольной оценки плотности ассоции-
руется с одной из точек выборки Xt, ..., Хп, а именно считается,
что изолированный холм расположен в точке А'г, если сущест-
вует отрезок [а, й], такой, что X, £ (а, й], ни одна из других
ь
точек X; не принадлежит [a, b], j fn > 0и/п = Она [а — е, a) U
а
и (й, b + е] при некотором в > 0. Предположим, например,
что используется ядерная оценка с ядром Епанечникова. Тогда
изолированный холм расположен в точке X, в том и только том
случае, когда отрезок [Хг — 2й, Xt + 2й ] не содержит никаких
точек выборки, кроме Xt. Таким образом, часть графика функции
fn, относящаяся к отрезку [Xt — й, Xt + й], имеет вид изоли-
рованного холма, и создается впечатление, что Хг — как бы бес-
*) В оригинале isolated bump. — Прим, перев.
3. Оценивание плотностей с тяжелыми хвостами
255
полезная точка выборки. Заметим также, что число изолированных
холмов инвариантно относительно строго монотонных преобра-
зований, рассматриваемых в данной главе.
Общее число изолированных холмов Вп дает границу снизу
для числа локальных максимумов графика оценки. Например,
при оценивании унимодальной плотности желательно, чтобы был
лишь один изолированный максимум и чтобы выполнялось условие
Вп = 0. В этом параграфе мы покажем, что такого обычно не
бывает. Так, если для нормальной плотности рассматривается
оценка с оптимальным Л, то Е (Вп) возрастает по крайней мере как
пХ1Ъ1У log л, а для плотностей с тяжелыми хвостами ситуация еще
хуже. Мы покажем также, что для треугольной плотности
Е (Вп) = о (1).
Основная исходная формула имеет видх)
Е (Вп) — пР (отрезок [Хх — 2h, Хх 4- 2ft] не содержит точек
(*+2Л	\n~-l
1-	f	dx.
x—2h	/
Теорема 1 (общий результат). При любых f имеем Е (Вп) —
= о (п), если h-+0, nh^>- со.
Доказательство. Заметим, что Е (Вп)/п =' j f (х) rn (х) dx,
где функция гп (х) со значениями в [0, 1 ] такова, что
(	*4-2/1	\
— (л — 1) J f (у) dy I 0 при почти всех х
x—2h	/
(это следует из теоремы Лебега о плотностях (теорема 2.2), в силу
которой выражение под экспонентой асимптотически равно
4лЛ/ (х) при почти всех х). Теперь для доказательства теоремы 1
достаточно применить теорему Лебега о мажорируемой сходимости.
Теорема 2 (случай плотностей с правильно меняющимися
хвостами). Пусть плотность f строго монотонно убывает на
[0, оо) и имеет там однозначно определенную обратную функцию;
положим для удобства f = 0 на (—оо, 0). Предположим также,
что f - правильно меняющаяся функция порядка г < —1 на оо,
т. е.
lim f (tx)/f (х) = tr
х->оо
х) Эта формула и последующие результаты данного параграфа получены
в предположении, что fn — ядерная оценка, носитель ядра которой содержится
в I—1» 1L — Прим, пер ев.
256
Гл. 9. Преобразованная ядерная оценка
при любых / > 0. Если h-+Q, nh -> оо, то
Е (Вп) >
Цп)
(nh)l/r h ’
где L — некоторая медленно меняющаяся функция (т. е. правильно
меняющаяся функция порядка 0).
Доказательство. Воспользуемся следующими фактами:
/оо
I f (У) dy = ~г — 1 (Dehaan (1975), теорема 1.2.1);
*
(ii) функция f-1 (1/х) — правильно меняющаяся порядка
—1/г на оо (Dehaan (1975), с. 22);
(iii) f (х) = xfL (х), где L — некоторая медленно меняющаяся
функция (Seneta (1976), лемма 2.1).
Символ L будем использовать для обозначения любых медленно
меняющихся функций. Обозначим Ап множество всех х, для
x+2h
которых п [ f (у) dy < 1/2, и Ап — множество всех х> 2ft
x-2h
для которых 4nhf (х — 2h) < 1/2. Теорема 2 следует из соотно-
шений
В (Вп) л jf(x) G-n j f(y)dy\ dx^-%- J f j f ~
0	'	>-2Л	'+	An	A*
- 2^ГТ) (2Л + Г Ш) / О + Г1 Ш) ~
2 (/•+ 1)	1 ( 8nh )	1 ( 8nh ) )
—n	/ 1 \	1 _ L (8nh) (8nh)~l/r
2(r+l)' \ 8nh ) 8nh ~	— 16(г4-1)Л
Пример. Для плотности с/(1 + x*)(o+!>/2, х 0, а > 0, по-
ложительного /-распределения Стьюдента имеем г = —(а + 1),
так что
Е (Вп) > L (П) ft-1 (nh)'^a+i'> = L (п) nVO’+n ft-a/<a+D.
Для фиксированных е>0, ₽((0, 1) найдется а, такое, что
(1 + а£)/(1 + а) > 1 — в/2. Следовательно, для любого е > 0
и любой последовательности Л ~ с/п₽, 0 £ (0, 1), существует а,
такое, что Е (Bn) L (п) п1~е/2 > п1-Е при достаточно больших п.
Последнее неравенство следует из свойства медленно менющихся
функций (Seneta (1976) с. 38 по русскому изданию). Таким об-
3. Оценивание плотностей с тяжелыми хвостами
257
разом, для любой полиномиально убывающей и удовлетворяющей
условиям h 0, nh оо последовательности h можно выбрать
соответствующую плотность f из семейства /-распределений Стью-
дента так, чтобы величина Е (Вп) возрастала с заданной полино-
миальной скоростью и1”8. В частности, если h убывает как /г~1/5,
то имеем Е (Вп) L (n) ^d+^/d+a), Здесь показатель степени
изменяется в пределах от 1 (а | 0) до 1/5 (а-^оо).
Теорема 3 (случай равнобедренной треугольной плотности).
Если f — равнобедренная треугольная плотность на [0, 1 ], то
Е (Вп) <(14-о (1)) ((32пЛ2)“! + 32nh2e~*nh2)
при h -> О, nh -> оо. В частности, если nh2 -> оо, то Е (Вп) 0.
Доказательство. Прежде всего имеем
1/2	/	x±2h	\
Е (Вп) < 8п j х ехр I — (п — 1) j f(y)dy\dx.
О	\	х—2h	J
Разобьем этот интеграл на три части, соответствующие отрезкам
[О, 2h], I2h, 1/2— 2h] и [1/2 — 2h, 1/2]. Величина первой ча-
сти не превосходит 8и -2Лехр(—2 (п—1) (2Л)2) -2А = (32 +
+ о (1)) nh2 ехр (—8 nh2). Третья часть не превосходит 2п-2х
X 2h ехр(—(и—l)>4/i-4 (1/2—2ft)) = (8 +о (1)) nh ехр (—8 nh).
Вторая часть не превосходит
оо
2 14/ие~16гЛ <n~1> dx =
2Л
= (32Л2 (п - 1))-'	J dy 4	.
32(/г—!)/i3
Теорема 3 доказана
В силу теоремы 3 ядерная оценка с большой вероятностью не
имеет' изолированных холмов, если f — треугольная плотность
(в самом деле, Е (Вп) ~ О (п~3/5) при h ~ п~1/5). То же самое
верно для преобразованной ядерной оценки, если преобразование
«совершенное». При этом не только сокращается число изолиро-
ванных холмов, но и уменьшаются осцилляции оценки.
Наконец, заметим без доказательства, что в случае нормальной
плотности величина Е (Вп) при h 0, nh -> оо больше или равна
отношению некоторой постоянной к h j/^log (nh) и, значит, при
оптимальном выборе h эта величина возрастает не медленнее,
чем nx/3l^log п. Таким образом, преобразование к нормальной
плотности не дает выигрыша по сравнению с преобразованием
к треугольной плотности.
17 Деврой Л., Дьсрфи Л.
258
Гл. 9. Преобразованная ядерная оценка
4. Состоятельность
При фиксированном преобразовании Т: R1 -> 7?1, удовлетво-
ряющем условиям § 1, имеем Jn = j | gn— g|. так что, не-
сомненно, можно воспользоваться экспоненциальной границей
для Jn из теоремы 3.1. Эта граница имеет вид Р (Jn > е)
< ехр (-‘-си) при любых п >» п^, где с > 0 — некоторая функция
от е и п0 — число, зависящее от g и е. Более того, остается
в силе нижняя граница теоремы 5.2, тогда как верхняя граница
С*А (К) В* (f) для Е (Jn) nz/B (теорема 5.1) уже неприменима,
поскольку значение Л может быть неоптимальным для g. Все же,
выбирая ft = (5/192ЯП)1/5, можно гарантировать, что Е (Jn) убы-
вает как п-2/5 при В* (g) < оо. Напомним также, что величина
Е (Jn) относительно нечувствительна к малым отклонениям от
оптимального выбора h (см. § 5.6).
При переменном преобразовании Т следует позаботиться, чтобы
получаемая оценка была состоятельной.
Преобразование Y, = Т (Х{) обычно имеет вид
П = Тп(Хг; Хх, ..., Хп),
где Тп — борелевская функция, такая, что по первому аргументу
она строго монотонно возрастает, непрерывно дифференцируема
и отображает R1 на [0, 1 ]. Обратная к ней функция тоже не-
прерывно дифференцируема.
Рассмотрим преобразованную ядерную оценку с ядром К
Епанечникова и параметром сглаживания Л = (5/6лп)1/5/2, оп-
тимальным для треугольной плотности на [6,1]. Не будем пока
интересоваться выбором преобразований Тп: 7?1 -> [О, 1 ] и со-
ответствующими нормировками, поскольку, как показано выше,
это не сказывается на асимптотике. Имеем следующие плот-
ности:
f — плотность распределения данных Xlt .... Хп.
g — плотность распределения случайной величины Y — Тп (X)
при фиксированных Хх......Хп, где случайная величина X
не зависит от Xit ..., Хп и распределена так же, как Хх
g* — плотность распределения случайной величины Т (Хг),
где Т — некоторое заданное преобразование.
gn — преобразованная ядерная оценка, основанная на
Л, .... Yn.
gn — преобразованная ядерная оценка, основанная на Z( =
= Т (Xf), 1 < i < п.
Литература
259
При доказательстве сходимости | | gn — g | к 0 оказывается по-
лезным следующее неравенство:
J I gn - g I < J | g* - g I + J 1 gn - g* | + 6 sup I Tn (x) - T (x) |.
Чтобы убедиться в справедливости этого неравенства, заметим,
что К — ядро Епанечникова, и потому
п
JI е. - s; I « W J 21 к - к (|dy <
i—1
п
<-~r^l\Yt-Zi\c6sUp\Tn(x)-T(x)\
l-l		х
В качестве преобразования Т рассматривается определенный
предел последовательности Тп. В частности, если Тп получается
путем оценивания параметров, то истинная форма преобразования
Т известна. Хочется надеяться (и эта надежда обычно оправдана),
что основной вклад в оценку величины j | gn — g | дает среднее
из трех слагаемых в правой части неравенства и что потому при
исследовании скоростей сходимости можно по существу заменить Тп
фиксированным преобразованием Т.
Некоторые сложности возникают со слагаемыми I
Известно, что оно стремится к 0 по вероятности, если подынтег-
ральное выражение стремится к 0 по вероятности при почти всех
х (теорема 2.8). Но последнее имеет место, если плотность f
п. в. непрерывна, Т? Т"1 п. в. и (Т^У (Т~ )' п. в. по ве-
роятности.
ЛИТЕРАТУРА
Andrews D. F., Bickel Р. J., Hampel F. R., Huber P. J., Rogers W. H., Tu-
key J. W.
(1972) Robust Estimates of Location: Survey and Advances, Princeton University
Press, Princeton.
Dehaan L.
(1975) On Regular Variation and Its Applications to the Weak Convergence of
Sample Extremes, Mathematisch Centrum Tracts 32, Mathematisch Centrum Am-
sterdam.
Devroye L., Machell F., Penrod C, S.
(1983) The transformed kernel estimate, Technical Report, Applied Research
Laboratories, University of Texas, Austin, Texas.
17*
260	Гл. 9. Преобразованная ядерная оценка
Gastwirth J. L.
(1966) On robust procedures, Journal of the American Statistical Association,
61, pp. 929—948.
Huber P. J.
(1972) Robust statistics: a review, Annals of Mathematical Statistics, 43, pp. 1041—
1067.
Parzen E.
(1979) Nonparametric statistical data modeling, Journal of the American Statisti-
cal Association, 74, pp. 105—131.
Schmeiser B. W.
(1977) Methods for modelling and generating probabilistic components in digital
computer simulation when the standard distributions are not adequate: a survey,
Proceedings of the Winter Simulation Conference, pp. 51—55.
Seneta E.
(1976) Regularly Varying Functions, Lecture Notes in Mathematics, 508, Sprin-
ger-Verlag, Berlin. (Имеется русский перевод: Сенета Е. Правильно меняющиеся
функции. — М.: Наука, 1985).
Глава 10
Применения к задаче классификации
1., Задача классификации
Задача классификации (дискриминантного анализа, статисти-
ческого распознавания образов) обычно формулируется следую-
щим образом. Пусть наблюдение X — случайная величина со
значениями в Pd и метка Y — случайная величина со значениями
в {1,	Л4}. Требуется по заданному X угадать значение Y,
т. е. принять решение. Решением х) называется измеримая функ-
ция g:	.... Л4(, а вероятностью ошибки — величина
Р (g (X) =£ Y). Распределение пары (X, Y) определяется вероят-
ностной мерой р, с которой распределен вектор X, и функциями
регрессии
Pi(x) = P(Y = t | X = х), x£Rd, 1 < i с M,
которые также называют апостериорными вероятностями. Ре-
шение g* называется байесовским, если
Pg* <*) (*) = max pt (х)	(1)
i
при почти всех х по мере р. Если случайный вектор X имеет плот-
ность распределения f и условные плотности ft при фиксирован-
ном Y = i, 1 < i < М, то
при почти всех х по мере р, где pt = Р (Y = I). Таким образом,
для байесовского решения имеем
Pg* wfg* <ж> (*) = max Ptfi (*)	(2)
при почти всех х по мере, соответствующей плотности f.
В задаче классификации требуется минимизировать вероят-
ность ошибки в случае, когда pt и Д не известны и имеется вы-
борка Dn = {(Xi, У\), .... (Хп, Уп)}, состоящая из п независи-
мых случайных векторов, распределенных так же, как (X, Y).
Предполагается, что Dn и (X, Y) независимы. Оценкой для Y
х) Наряду с термином решение в литературе используются термины реша-
ющая функция и решающее правило. — Прим, перев.
262
Гл. 10. Применения к задаче классификации
теперь является gn (X) — измеримая функция от X и Dn (за-
висимость от Dn в обозначении не указывается), и представляет
интерес величина условной вероятности ошибки
In = р (gn (X) Y I D„).	(3)
В частности, хотелось бы найти последовательности функций gn,
для которых
Ln L* = min P(g(X)^ У)	(4)
g
почти наверное. Здесь L* обычно называется байесовской вероят-
ностью ошибки. Данная глава посвящена именно этому, т. е.
различным способом выбора последовательностей gn, для которых
выполнено (4). Иные свойства последовательностей gn подробно
рассматриваться не будут. Наша цель, Скорее. состоит в том,
чтобы показать, что (4) следует из полученных в гл. 1—9 резуль-
татов об оценках плотности. При этом мы будем считать,что слу-
чайный вектор X имеет плотность распределения f. Вместе с тем
подчеркнем, что большинство результатов, сформулированных
в данной главе, остается в силе для случая, когда вектор X рас-
пределен с произвольной вероятностной мерой ц на борелевских
множествах в Rd.
Байесовское решение аппроксимируется функцией gn, такой,
что
Pgn (х) (х) = max pt (х),	(5)
где pt — некоторые предварительные оценки для pit т. е. функ-
ции от Dn со значениями в [0, 1].
Если случайный вектор X имеет плотность распределения f
и Pitt (х) — оценка для Ptft (х) по выборке Dn, то gn (х) можно
определить соотношением
Pgn (х) (*) fgn Ы (х) = max PiTt (х).	(6)
Теорема 1. (i) Если g* —байесовское решение, то
L* = P(g*(X)=£Y).
(ii) Если gn удовлетворяет условию (5), то
м
0 с Ln - L* < J] J | Pi (х) - pt (х) | ц (dx).
£=1
(iii) Если случайный вектор X имеет плотность распреде-
ления и gn удовлетворяет условию (6), то
м
0 с Ln — L* J| pfo (х) - piti (x) | dx.
2. Медленные скорости сходимости
263
Замечание 1. Различные варианты соотношений (И) и (iii)
были доказаны в работах Van Ryzin (1966), Wolverton, Wagner
(1969), Csibi (1975), Gyorfi (1974, 1978), Devroye, Wagner (1976)
и Devroye (1982b).
Доказательство. В силу (1)
м,
р (g* (*)=/= n = i--2>	g*(X)=o=
1=1
м
- i - 2 J л W и (dx) =
[g* w -л
= 1 - J max pt (x) p (dx) < 1 - j pg (x) (x) p (dx) (7)
для любой функции g:	«-(1, ..., Afj. Взяв нижнюю грань
по всем g, получим (i). Кроме того
м
Ln = 1 - S J Pi (х) и (dx) = 1 - J Pgn W H <8)
1=1 [«»<*> = ']
так что, объединяя (7), (i) и (8), будем иметь
Ln - L* = j (max pt (x) - pgn w (x)) p (dx) =
— J (max pi (x) — max p, (x)j p (dx) +
+ J (Pgn <*> W - Pgn H (dx) <
M
< S J I Pi (*) ~ Pi W I H (dx)> <9)
<=1
откуда следует (ii). Утверждение (iii) легко следует из (ii), ибо
Pi W = Р ji (x)/f (x).
2. Медленные скорости сходимости
То, что вероятность ошибки ограничена сверху Л^ошибками
оценок плотности fit довольно интересно. Но существуют и раз-
ного рода обратные утверждения, например результат о том, что
вероятность ошибки Ln может стремиться к L* со сколь угодно
медленной скоростью (Devroye (1982а)).
Теорема 2. Пусть ап — последовательность положительных
чисел, стремящаяся к О, М = 2 и с £ [0, 1/2). Пусть gn —
произвольное решение. Тогда существует распределение пары
264
Гл. 10. Применения к задаче классификации
(X, У), где X — равномерно распределенная на [0, 1 ] случайная
величина, такое, что
р	£(£п) —с
hm sup ———------= оо
П-*оо	&п
при L* = с.
Доказательство следует общему плану доказательства утвер;
ждения (ii) теоремы 4.1. Опишем лишь в основных чертах конструк-
цию рандомизированного семейства для частного случая с = 0.
Пусть случайная величина X имеет равномерную плотность
распределения на [0, 1], и пусть b = 0,	... £ [0, 1 ]
(bi — коэффициенты в двоичном разложении для Ь). Положим
Р'2 (X) = fb (X) = £ btI[Xt, х.+1) (х), pi (X) = 1 - р2 (х),
y = l+f6(X), Yn —I-\-fb(Xn),
где 0 — Хх с х2 с ... < хп f 1. Положим qt = xt+1 — хь i =
= 1, 2, ... . Предположим, что случайная величина В =
= 0, Bxfix ... равномерно распределена на [0, 11 и не зависит от
X, Хъ Х2, ..., Х„, и обозначим Rn (b)=E (Ln), b £ [0, 1 ]. Имеем
sup Rn (6) Е (Rn (bj) = Р (gn (X, D„) =/= Y)
ь £ [0, 1]
= E(P(gn (X, Dn) Y | X, Хх, ..., Xn)) 2s
Е (IAP (gn (%, Dn) ¥= Y | X, Xv..., Xn)),
n
где через А обозначено событие f) [fB (X) fB (X() = 0]. Ha A
1=1
случайные величины Y и gn (X, Xlt Ylt ..., Xn, Yn) независимы
при фиксированных X, X2, Х2, .... Хп. Следовательно, на А
имеем Р (gn (X, Dn) Ф Y | X, Хх, ..., Хп) = 1/2, и потому
(п \
П1/в(Х)/в(Х1) = 0] =
оо
=-r2<7i(1 ~q^n-
*=i
Остальные элементы доказательства такие же, как для утвержде-
ния (ii) теоремы 4.1.
Из теоремы 2 следует, что результаты о скорости сходимости
величины Е (Ln) можно получить лишь в случае, когда предпо-
лагается определенная гладкость функции регрессии. Мы не бу-
дем исследовать вопрос об оптимальных скоростях сходимости
3. Ядерный метод классификации
265
для различных семейств распределений пары (X, У), а сосредо-
точим внимание на результатах о состоятельности наиболее ши-
роко используемых методов непараметрической классификации.
3. Ядерный метод классификации
Пусть К — функция из	такая, что j К. = 1. Рас-
смотрим модифицированную ядерную оценку плотности
п
/=1
Соответствующее решение определяется соотношением (6). При
некоторых дополнительных условиях на К в работах Devroye,
Wagner (1980) и Spiegelman, Sacks (1980) показано, что Ln -+• L*
по вероятности при п->оо, если йп-► 0, пйп-*оо. В работе
Devroye (1981) получена сильная сходимость при дополнительном
условии n/i^/log п -> оо. Во всех этих работах нет никаких условий
на распределение (X, Y). Теорема 3, которая приводится ниже,
верна, если случайный вектор X имеет плотность распределения;
утверждается, что Ln сходится к L* с экспоненциальной ско-
ростью. Условия сходимости в ней неулучшаемы.
Теорема 3. Если случайный вектор X имеет плотность рас-
пределения, hn -> 0 и nhn -> оо, то для ядерного метода, опреде-
ляемого соотношениями (6) и (10), верно следующее
Для любого е £ (0, 1) существует п0 > 0, такое, что
Р (Ln — L* > е) < ехр (—схпе2), п п0.
Здесь > 0 — постоянная, зависящая только от К.
Доказательство. В силу теоремы 1 достаточно лишь показать,
что
(м	\
2 J I Mt (*) “ Pifi (х) | dx > е I < ехр (—qne2), n n0.
1=1 '	z
Так как E (pjt (x)) = PtKhn * ft (x), по теореме 2.1 имеем,
j I Ptft — E (Mi) I “* 0 при любых i. Таким образом, достаточно
установить экспоненциальное неравенство для вероятности
(м	\
2 f I Mi W “ Е (Mi (*» | dx > в ).
I—1	/
266
Гл. 10. Применения к задаче классификации
Как и в доказательстве леммы 3.2, достаточно рассматривать лишь
ядра /С, являющиеся индикаторными функциями прямоуголь-
ников Л. Определим меры рг- и рпг- на борелевских множествах В
следующим образом:
(В) — Р (Yt = i, Х^В),
п
Hni (В) =	\i€Bb 1 < ( <'W-
/=1
Тогда
м
S f I PlTi (*) - Е (.PtTi (*)) I dx =
i=l
м
= S I Hni (* + hnA) — Hi (х + hnA) I dx.
t=i
Дальнейшее доказательство очевидно, поскольку можно приме-
нить тот же метод, что в лемме 3.2.
Предположительно теорема 3 остается в силе при любых рас-
пределениях пары (X, У).
4. Гистограммный метод классификации
Рассмотрим теперь гистограммные решения, в которых про-
странство Rd разбивается на множества Ап1, Ап2, J. и оценки
в (6) имеют вид
" /
1\е(Х>г,,=''' хеА-‘- (11)
т=1
Теорема 4. Если случайный вектор X имеет плотность рас-
пределения, последовательность разбиений удовлетворяет усло-
виям (3.13)—(3.15) и используется решение (6) с гистограммной
оценкой (11), то верно следующее'.
Для любого е С (0, 1) существует nQ > 0, такое, что
Р (Ln — L* > е) < ехр (—c2ne2), п nQ.
Здесь с2> 0 — универсальная постоянная.
Доказательство этой теоремы повторяет доказательство леммы
3.4 и потому здесь не приводится. Сходимость Ln к L* вполне
длй любых распределений пары (X, Y) показана в работе Dev-
roye, Gyorfi (1983). Условия сходимости по существу те же, что
для слабой состоятельности, чем опять демонстрируется эквива-
5. Метод ближайших соседей	267
лентность всех типов сходимости. По поводу гистограммных ре-
шений, в которых разбиение пространства Rd зависит от данных,
см. работу Gordon, Olshen (1978) и ссылки в ней. В этой работе
получены результаты о слабой состоятельности.
5. Метод ближайших соседей
Еще одно распространенное непараметрическое решение ос-
новано на понятии k ближайших соседей (Cover, Hart (1967)).
При заданном X выборка Dn упорядочивается по возрастанию
величин расстояний || Х( — X ||. В результате получается вектор
рангов (j?i (X)... /?п (X)), где Xr. <х) есть i-й ближайший
сосед точки X. В случае совпадения расстояний выбор ближай-
шего соседа производится исходя из сравнения индексов. За-
метим, что если случайный вектор X имеет некоторую плотность f,
то вероятность совпадения равна нулю. Решение принимается
большинством голосов среди Yr.(x), 1 < / < kn, vjyt kn —
некоторая «последовательность целых чисел. Стоун (Stone (1977))
также рассматривает случай взвешенного голосования: t-й бли-
жайший сосед голосует с весом vni, для каждого класса подсчиты-
вается общая сумма голосов и решение принимается в пользу
класса, для которого такая сумма максимальна. В случае когда’
решение принимается при одинаковых весах среди kn ближайших
соседей, заметим, что данная процедура эквивалентна исполь-
зованию в (6) оценки плотности методом ближайших соседей
(Fix, Hodges (1951, 1952), Loftsgaarden, Quesenberry (1965)), име-
ющей вид
.... I
Pil i W = — 7, x fS .X_x .A •
П I *’11 Не-
эквивалентность имеет место в силу того, что знаменатель в (12) —
один и тот же при любых I. Докажем следующую теорему.
Теорема 5. Пусть случайный вектор X имеет плотность рас-
пределения f, kn -* оо и kn/n -► 0. Тогда для решения (6), основан-
ного на оценке ближайших соседей (12), верно следующее:
Для любого е С (0, 1) существует п0 > 0, такое, что
Р(Ln — L*>ъ) <	—с3пе.2), п^п0,
где с3 > 0 зависит только от размерности.
Прежде чем привести доказательство, дадим краткую истори-
ческую справку. Стоун (Stone (1977)) показал, что Ln -> L* по
вероятности при любом распределении пары (X, Y), если kn -> оо
и kn/n -+• 0. Заметим здесь, что эти условия на kn являются необ-
268
Гл. 10. Применения к задаче классификации
ходимыми. Исходя из поточечной сходимости, Деврой (Devroye
(1982b)) показал, что Ln ->• L* почти наверное при любом рас-
пределении пары (X, Y), если kn/n -► 0 и &n/log log п -» оо.
Бек (Beck (1979)) доказал теорему 5 при некоторых дополнитель-
ных условиях гладкости на f и на функции ft. Приводимое здесь
доказательство более краткое и общее. Кроме того, в нем не на-
кладывается никаких условий на /. Итак, следующие условия
эквивалентны:
(i)	lim kn = оо, lim kn/n = 0;
П-*оо	' П->оо
(ii)	Ln -► L* по вероятности, если случайный вектор X имеет
плотность распределения;
(iii)	Ln ->• L* с экспоненциальной скоростью (т. е. для любого
е > 0 существует с > 0, такое, что Р (Ln — L* > е) < е~сп
при любых п), если случайный вектор X имеет плотность рас-
пределения.
Заметим также, что экспоненциальное неравенство теоремы 5
не обобщается на случай произвольных распределений пары
(X, Y) (при тех же условиях на Лп). Пусть, например, X = 0
с вероятностью 1, a Y принимает значения 1 и 2 с вероятностями
1/3 и 2/3 соответственно. Так как (УЛ( <«)> •••. УRh (ху) = (Уъ
Укп)> то
Ln = 1/3 + (1/3) /л, L* = 1/3,
где событие А = (1/Лп) У /[у4=1] > 1/2
. Следовательно, в силу
экспоненциальной нижней границы Колмогорова (Stout (1974,
с. 262) или лемма 6.6) имеем Р (Ln— L* е,)^. ехр (—ckn)
при любых п и некотором с > 0.
Для доказательства теоремы 5 требуется одно геометрическое
свойство, которое также применялось в работах Fritz (1975)
и Stone (1977). Определим конус с углом 0 и с центром в х как
множество всех точек у С Rd, таких, что угол (у — х, г\— х) <
< 0, где z £ Pd — некоторая заданная точка. Это множество
обозначается Cone (х, г, 0). Выберем теперь столь малое 0, что
при каждом v £ Cone (х, г, 0) выполнено
Сопе(х, z, 0) f) Sx, их—1>ц s Sv, цx—vц.	(13)
Зафиксировав 0, определим целое Md — минимальное число
конусов вида Cone (х, zit 0), 1 < i < Md, необходимое для того,
чтобы покрыть Rd.
Лемма 1. Пусть р — некоторая вероятностная мера на Rd и
Ва(х)= {г: р(Зг,цх-2||)<а}, x£Rd.
5. Метод ближайших соседей
269
Тогда
Н (Ва (х)) < Mda.
Доказательство. Пусть Ct, 1 < i < Md — множество кону-
сов вида Cone (х, zt, 0), покрывающее Rd, где каждый конус Ct
обладает свойством (13). Тогда
Md
Н(Ва(*))<Ен(СгПВа(х)).	(14)
’	1=1
При фиксированном i выберем произвольную точку t/ Е С/ П
П Ва (х). В силу (13)
М* . II х—у и П П Ва (х)) с р (Syt у у_х ц) с я,	(15)
где мы воспользовались тем, что у Е Ва (х). Так как точка у
произвольна, то
(16)
Утверждение леммы следует из (14) и (16).
Доказательство теоремы 5. Обозначим
k
= S ^[r^u)=st]
/=i
и
п
р* со=4- S ziy>=nzii хгх к <гп <*>]»
7=1
где k = kn и гп (х) — корень уравнения
k/П ~ р ($х, Гп (х)).	(17)
Заметим, что решение (5), где pt (х) имеет указанный выше вид,
эквивалентно решению, определяемому соотношениями (6) и (12).
Заметим еще, что корень гп (х) положителен, поскольку мера р
имеет плотность. Кроме того, из условия k/п -> 0 следует, что
гп (х) -> 0 при почти всех х по мере р. Если Cd — мера Лебега
единичного шара в Rd, то (17) эквивалентно соотношению
И (^Х, Г (*))
* =	(18)
Таким образом, учитывая теорему 2.2 и то, что k -> оо, получим:
пгп (х) -► °° при почти всех х по мере р.
Очевидно,
I Pi (*) - Pi (*) I < I Pi W - E (pl (x)) I +
4-1E (Pl (X)) - Pl (X) I + | Pl (X) - p, (x) |. (19)
270
Гл. 10. Применения к задаче классификации
Слегка обобщая теорему 2.2, получим
е(р?(х)) =
P(l|Xi-x||<rn(x), Y^i)
kin
Sxt rn (х)
Pi (z) |i (dz)
P (Sx, rn <X>)
M*)
(20)
при почти всех x по мере р. Таким образом, теорема Лебега о
мажорируемой сходимости дает: j | Е (р* (х)) — pt (х) | р (dx) ->
-*• 0 при любых I.
Пусть, далее, рп — эмпирическая мера для ........... Хп	и
Z — целое число из множества {!, ..., М\. Тогда
J | pl (х) - Е (pl (х)) I р (dx) = j	(dx)
J	3	И ( *• rn <*>)
где
п
v«G4) = 4- £ /ixJeA‘Yrib
/=1
v(A) = E(yn(A)),
A — борелевское подмножество Rd. Пусть ft = (k/n)xld, и пусть
9* — разбиение пространства Rd на кубы со сторонами h/N,
где N — некоторое большое целое число, которое будет указано
далее. Элементы 9* будут обозначаться через В, а центры этих
множеств В — через Ь. Пусть Т — фиксированный шар вида Sor,
г — некоторое большое число. Имеем
J | pl(x) - Е (pl (х)) | р (dx) с
rn (x)
p(dx)H-
BSS*. гп (ж)
(vn (5 Г1 Sx< (ж)) + v (5 fl Sx
n 2	---------------------------------"(dx}-
В-.вП8х>ГпМЧЬ0,	n
B^sx.rn(x)=^el
(21)
5. Метод ближайших соседей
271
Применяя лемму 1 при а = k/n, получим, что первое слагаемое
в правой части (21) не превосходит
В: ВПТ*0	' '	’ '
2	|vn(B)-v(B)|. (22)
В: В П
Последняя величина стремится к 0 с экспоненциальной скоро-
стью, но показатель экспоненты зависит от Afd (см. лемму 3.1).
Второе слагаемое в правой части (21) не больше, чем
ШРНнП	(23)
При заданном е > 0 выберем сначала г столь большим, что
ц (7е) < г/Ma- Тогда в силу неравенства Хёфдинга (Hoeffding
(1963)) имеем Р ((23) > Зе) « Р (| цп (Тс) | > e/Md) с 2 ' х
х ехр (—2п (e./Md)2)- Таким образом, остается рассмотреть лишь
последнее слагаемое в (21).
При оценке сверху последнего слагаемого в (21) введем обоз-
начения А = Sx, гп (х), А * = Sx, (гп <х)-л/л)+ и An= {х: (Cdf(x))l/d >
> y^N], где символом ( )+ обозначается положительная часть
функции. Последнее слагаемое в (21) не превосходит
J	+JTOFP»w
=j<24’
Первое слагаемое в правой части (42) можно записать в виде
t, (г) цп (dz), где | £ (г)| < Md- Последнее слагаемое тогда равно
£ (z) |i (dz). Из неравенства Хёфдинга следует сходимость
IJ £ (z) Рп (dz) —• j £ (z) р, (dz) | -> О с экспоненциальной скоро-
стью, где показатель экспоненты зависит от Md- Таким образом, ос-
тается лишь показать, что величина j £ (z) р (dz) (последнее сла-
гаемое в (24)) может быть сделана сколь угодно малой.
Выберем N так, что р (4W) < е, dlifN < 8, где е > 0 — неко-
торое произвольное число. Ввиду (18) и определения Л имеем
(h/rn(x))d^Cdf(x)	(25)
272
Гл. 10. Применения к задаче классификации
при почти всех х. Следовательно, при почти всех х & AN имеем
(1 - h/Nrn (х))+->(1 - (Cdf(x))‘/W+> (1 - l//tf)+> Ои гп (х)>
> h/N, где п достаточно велико. При таких х
ц(4)-ц(Л*)
> 1 - (1 -	< у=- <е-	(26)
Отсюда и из теоремы Лебега о мажорируемой сходимости следует,
что
lim sup j	) И (dx) с
п->оо J х Г	'
< Н Илг) + liin sup j ( и (Л)дЛ)(Л*' ) И (dx) < 2е.	(27)
лл/
Таким образом, величина J | pt (х) — Е (pt (х)) | р (dx) стремится к 0
с экспоненциальной скоростью.
Рассмотрим, наконец, последнее слагаемое в (19). Вновь, фик-
сируя i £ |1, ..., Л4}, получим, что почти наверное
\р*(х)~ Pt(x)\ =
п
п
Н/-*||<’'п (X)] - 2 Z[b=‘.
7=1
II Ху *||<||ХД/г (х)—х]
п
Т 217111 Хгх II < гп <*) 1 - 7[11 I < II *Rh w~x ||] I =
п
т2/Н1х;-д;11<гп<*)1_л
/=•
(28)
Рассмотрим новую задачу классификации, в которой данные имеют
вид (Xj, Wj), где Wj = i при любых /, и обозначим соответствую-
щие этой задаче функции р* (х) через q* (х). Тогда из (28) следует,
что
||р?(х)-^(х)|р(^х)< J|9?(x)-£(9?(x))|p(dx),	(29)
а последняя величина, как нам известно, стремится к 0 с экс-
поненциальной скоростью.
Чтобы убедиться, что показатель экспоненты скорости сходи-
мости не зависит от М, поступим следующим образом. Просумми-
руем по всем I левую часть (21). Тогда сперва получим сумму по
всем i выражений типа (22), к которой можно применить оценку
Литература
273
леммы 3.1. Второе и третье слагаемые в правой части (21) рас-
сматриваются совершенно так же, как выше. Что касается оценки
последнего слагаемого в правой части (19), то знак суммирования
вносится в первые две строки в (28). Неравенство в (28) остается
в силе без изменений. Наконец, остается просуммировать по всем
i неравенство (29). Теорема доказана.
ЛИТЕРАТУРА
Beck J.
(1979) The exponential rate of convergence of error for kn—NN nonparametric
regression and decision, Problems of Control and Information Theory, 8, pp, 303—
312.
Cover T. M., Hart P. E.
(1967) Nearest neighbor pattern classification, IEEE Transactions on Information
Theory, IT-13, pp. 21—27.
Csibi S.
(1975) Stochastic Processes With Learning Properties, Springer-Verlag, Berlin.
Devroye L.
(1981) On the almost everywhere convergence of nonparametric regression function
estimates, Annals of Statistics, 9, pp. 1310—1319.
(1982a) Any discrimination rule can have an arbitrarily bad probability of error
for finite sample size, IEEE Transactions on Pattern Analysis and Machine Intelli-
gence, PAMI-4, pp. 154—157.
(1982b) Necessary and sufficient conditions for the pointwise convergence of nearest
neighbor regression function estimates, Zeitschrift fur Wahrscheinlichkeitstheorie
und verwandte Gebiete, 61, pp. 467—481.
Devroye L., Gyorfi L.
(1983) Distribution-free exponential bound on the Lr error of partitioning estimates
of a regression function, in Proceedings of the Fourth Pannonian Symposium
on Mathematical Statistics, G. Pflug, W. Grossmann, and W. Wertz (Eds.), D. Rei-
del, Hingham, MA.
Devroye L., Wagner T. J.
(1976) Nonparametric discrimination and density estimation, Technical Report 183,
Electronics Research Centre, University of Texas, Austin, Texas.
(1980) Distribution-free consistency results in nonparametric discrimination and
regression function estimation, Annals of Statistics, 8, pp. 231—239.
Fix E., Hodges J. L.
(1951)	Discriminatory analysis, nonparametric discrimination, consistency pro-
perties, Report No. 4, Project 21-49-004, School of Aviation Medicine, Randolph
Field, Texas.
(1952)	Nonparametric discrimination: small sample performance, Report No. 11,
Project 21-49-004, School of Aviation Medicine, Randolph Field, Texas.
Fritz J.
(1975)	Distribution-free exponential error bound for nearest neighbor pattern classi-
fication, IEEE Transactions on Information Theory, IT-21, pp. 552—557.
Gordon L., Olshen R. A.
(1978)	Asymptotically efficient solutions to the classification problem, Annals
of Statistics, 6, pp. 515—533.
Gyorfi L.
(1974)	Estimation of probability density and optimal decision function in RKHS,
in Progress in Statistics, J. Gani, K. Sarkadi, and I. Vincze (Eds.), North-Holland,
Amsterdam, pp. 281—301.
(1978)	On the rate of convergence of nearest neighbor rules, IEEE Transactions
on Information Theory, IT-24, pp. 509—512.
18 Деврой Л., Дьёрфи Л.
274	Гл. 10. Применения к задаче классификации
Hoeffding W.
(1963)	Probability inequalities for sums of. bounded random variables, Journal
of the American Statistical Association, 58, pp. 13—30.
Loftsgaarden D. O., Quesenberry С. P.
(1965)	A nonparametric estimate of a multivariate density function, Annals of Mathe-
matical Statistics, 36, pp. 1049—1051.
Spiegelman C., Sacks J.
(1980)	Consistent window estimation in nonparametric regression, Annals of Sta-
tistics, 8, pp. 240—246.
Stone C. J.
(1977)	Consistent nonparametric regression, Annals of Statistics, 5, pp. 595—645.
Stout W. F.
(1974)	Almost Sure Convergence, Academic Press, New York.
Van Ryzin J.
(1966)	Bayes risk consistency of classification procedures using density estimation,
Sankhya, 28, pp. 261—270.
Wolverton С. T., Wagner T. J.
(1969)	Asymptotically optimal discriminant functions for pattern classifications,
IEEE Transactions on Information Theory, IT-15, pp. 258—265.
Глава 11
Операции над оценками плотности
Основной темой данной главы является связь между ^-ошиб-
кой оценки плотности и £гошибкой той же оценки после приме-
нения к ней таких операций, как взятие маргинальной плотности,
формирование произведения плотностей, свертка плотностей,
усечение плотностей и формирование неотрицательной проекции
плотности. Все эти операции применяются довольно часто. Мы
получим полезные неравенства во всех случаях, когда это воз-
можно.
1.	Маргинальные плотности
Пусть /* и g* — плотности на Rd (вообще говоря, они мыс-
лятся здесь как неизвестная плотность /* и некоторая построен-
ная по выборке оценка g*, но подразумеваемая случайность функ-
ции g* несущественна). Пусть f и g — соответствующие марги-
нальные плотности на подпространстве Rs из Rd. Тогда справед-
лива
Теорема 1.
Ji/*-ri-
Rs	Rd
Доказательство. Несколько пренебрегая точностью обозна-
чений, имеем
j J Г- J s’ < J
Rs	R“' Rd~s Rd~s	Rd
Теорема 1 часто почти ничего не дает, ибо существуют примеры,
когда при d — 2, s = 1 имеем f = g, но J | f* — g* | — 2. Один
из таких примеров прост: f* — равномерная плотность на [0, 1 F U
U (I, 2Р и g* — равномерная плотность на [0, Их [1, 2] (J
U П, 2] х [0, 1].
Неравенство теоремы 1, казалось бы, свидетельствует о том,
что если сначала оценивать f* посредством g*, а затем использо-
вать маргинальную плотность g для оценивания f, то потери
точности не происходит. Однако не надо забывать, что значение
18»
276
Гл. 11. Операции над оценками плотности
J I /* — £* I обычно слишком велико, ибо если g* — непараметри-
ческая оценка для /*, то скорость сходимости величины J И* —
— g* | к 0, как правило, зависит от d.
2.	Композиция (смесь) плотностей
Если две плотности f и g на Rd можно записать в виде конеч-
ных смесей YlPifi И XPigi’ ГДе fi И gi ~ плотности на Rd и (рь
рь ...) — некоторый вероятностный вектор, то имеем следующий
результат.
Теорема 2.
J | 2 Pifi ~ S PiSi | < £ Pi j I A - Si I-
Неравенство теоремы 2 тривиально, но оно имеет интересные
следствия. Пусть, например, известно, что f = pfx + (1 — р) f2l
где Д — известная плотность, принадлежащая некоторому не-
большому параметрическому семейству (такому, как семейство
нормальных плотностей), /2 — неизвестная плотность и параметр р
для простоты считается известным. Если предъявляются выборки
..., Хп и ..., Ym, извлеченные из Д и /2 соответственно,
то можно строить оценку для f в виде подходящей комбинации
параметрической оценки плотности с непараметрической оцен-
кой плотности /2. Так как ошибка последней оценки обычно до-
минирует, то произведение этой ошибки для объема выборки т
на (1 — р) служит приближенной верхней границей общей ошибки.
С другой стороны, если бы мы пренебрегли информацией относи-
тельно /j и смешали бы выборки, то могли бы построить непара-
метрическую оценку для f по выборке объема п -И т. Если mln —
величина порядка (1 — р)/р, то ошибка последней оценки, как
правило, больше, чем для рассмотренной сначала.
Если дана выборка из f и плотность частично или полностью
известна, то из такой дополнительной информации, по-видимому,
можно извлечь пользу, хотя сразу и не ясно, как это сделать.
Наконец, заметим, что неравенство теоремы 2 может быть
в большой мере неадекватным. Если, например, Д и g2 — рав-
номерные плотности на [0, 1J, /2 и gl — равномерные плотности
на [1, 2] и р! = р2 = 1/2, то J | f — g | = 0 и j | ft — gt | =• 2
при любых i,
3.	Сужения плотностей
Рассмотрим некоторую плотность f и некую ее оценку g, ко-
торая также является плотностью. Иногда известно, что носи-
тель f — множество А. Чтобы исключить бессмысленные случаи
4. Неотрицательные проекции	*277
(например, такие, когда часть массы оценки плотности лежит на
отрицательной полуоси, а оценивается плотность положительной
случайной величины), можно заменить плотность g ее сужением
на Л, т. е. функцией
g*(x) = А .
Такое сужение встречалось уже при рассмотрении преобразован-
ной ядерной оценки (гл. 9). Сужение всегда лучше, чем исходная
оценка g, о чем свидетельствует
Теорема 3.
j I f - g* I < j I f - g I-
Доказательство.
A
4.	Неотрицательные проекции
Предположим снова, что fug — плотность и ее оценка на Rd.
Хотя при этом | g = 1, но g может принимать отрицательные
значения, как, например, в случае оценки Бартлета (§ 7.5).
Функция
4 = {x:g(x)>0}
р
является уже настоящей плотностью. Она называется неотрица-
тельной проекцией g. Она снова оказывается лучше, чем исходная
оценка -g.
Теорема 4.
fl/-g*l < Jlf-fiTl-
Доказательство. Так как (g 1, то fg> 1. Следовательно,
А
g g* на Л. Таким образом,
Jlf-£*| = 2 JOf* — f)+ = 2 f (я* - /)+ -F 2 |(я*-/)+ =
Л	Ас
= 2|(Г-/)+<2 j(g-/)+ = 2 J te-/)+ = f|g-/h
A	A	g>f
278
Гл. 11. Операции над оценками плотности
5.	Произведения плотностей
Здесь рассматривается вопрос о том, насколько хороша оценка
d	п
П^(^) Для	xi£R’ если ft,	— одномер-
1=1	1—1
ные плотности и gi — одномерные плотности, являющиеся оцен-
ками для Предлагаются следующие неравенства.
Теорема 5. Пусть Hpi — расстояние Хеллингера между
и gi, т. е.
Hpl = (J|f’/p-gI/p|p)1/₽, 1
и пусть
Lt = \fi *°g	> 1 < i < d.
Тогда, вспоминая, что
|т1п(ПА. П^)=1 -т1|ПА-Пгф
будем иметь
/ min (fl ft, П gz) < ехр (— 4 2	ехр (“ 2 Я*0 ’
fmin^riM n^)^exp(-22=fc)’
J min (|~] fi, П gt) 4 ехР (~ 2 Li) •
Доказательство. Первое неравенство следует из того, что
f min(n^’ = ПО -4^)^
i	i
<exp (—42ЯМ’
и неравенства //2i > //н/2 (теорема 8.4). Второе неравенство сле-
дует из того, что
Jmin(n^’ П^)^Шт1п(/г’ =
= ПJmin<A> *)=П0 -T^)>exp(_2‘2^fc-)-
Наконец, последнее неравенство следует непосредственно из
теоремы 8.2.
6. Радиально-симметричные плотности
279
И fiz —g|¥=o, то
причине неравенства
J min (ПА, П§4).
Заметим, что если = gi = g
f I Пл — Figi |-> 2 при d-+co. По этой
теоремы 5 сформулированы для величины
6.	Радиально-симметричные плотности
Назовем /* радиально-симметричной плотностью на Rd,
если это плотность распределения случайного вектора YZ, где
Y — случайная величина с некоторой плотностью f на [0, оо)
и Z — случайный вектор, не зависящий от Y и равномерно рас-
пределенный на поверхности единичной сферы в Rd (так что || Z || =
= 1 с вероятностью 1). Если g* — другая радиально-симметрич-
ная плотность, которой отвечает плотность g на [0, оо), то имеет
место
Теорема 6.
Jir-ri-flZ-el-
Доказательство. Пусть В — борелевское подмножество Rd.
Тогда, обозначая через р равномерную меру на единичной сфере
в Rd, имеем Р (YZ С В) = J f (х) р (В/х) dx. Таким образом,
J If* — 5*1 = 2 sup Jf*-Jg*
в В в
= 2 sup | J f(x)n(B/x)dx — \ g(x) р (B/x)dx| =
= 2sup j (f — g)p(B/x)dx — J (g — f)n(B/x)dx <
B f>g	f<g
<2max (f-g), ( (g-h\= (|f-g|.
Кроме того, полагая В = {x: х £ Rd, f (|| x ||) > g (|| x||)}, заме-
чаем, что верно также обратное неравенство.
Теорема 6 важна, поскольку она показывает, что все наши
одномерные результаты по оцениванию плотности переносятся
на задачу оценивания радиально-симметричных плотностей на Rd
с известным центром симметрии. Так, если задано условие ра-
диальной симметрии, то всегда надо пытаться оценивать не f*,
а плотность f случайной величины У. Оценка для f* всегда вос-
станавливается по одномерной оценке g плотности f на основе
280
Гл. 11. Операции над оценками плотности
радиальной симметрии. Не надо объяснять, что это всего лишь
один из многих случаев, когда априорную информацию можно
использовать для понижения размерности (а значит, и слож-
ности) задачи.
7.	Свертки
Рассмотрим теперь задачу оценки плотности распределения
величины Fj + ... + где — независимые случайные вели-
чины с неизвестной общей плотностью /, по данной последова-
тельности Хъ ..., Хп независимых случайных величин с плот-
ностью /. В большинстве интересных случаев значение d огра-
ниченно либо по крайней мере очень мало по сравнению си —
если это не так, то лучше воспользоваться локальной центральной
предельной теоремой. Возможно, существуют методы решения
задачи, более хорошие, чем оценивание плотности f*d (d-кратной
свертки /) посредством где g — обычная оценка плотности /.
Тем не менее имеет место
Теорема 7.
Доказательство, Данное неравенство следует из того, что
< J J |Г-е|
для любых четырех плотностей /, g, f и g.
Таким образом, не гарантируется, что Lx-ошибка сохраняет
одно и то же значение. С другой стороны, неравенство, исполь-
зованное в доказательстве теоремы 7, очень грубое. Чтобы по-
нять это, достаточно рассмотреть плотности четырех гамма-рас-
пределений с различными параметрами a, b, с, d, удовлетворя-
ющими условию а + с = b + d.
Если d велико по сравнению с п, то возрастает роль локальных
предельных теорем. Пусть, например, f — плотность со сред-
ним ц, дисперсией о2 и третьим центральным моментом a, a g —
плотность нормального распределения с параметрами (dp, do2).
Тогда
[	_ g I =  I *1^(1 -L 4e-3/2) + o/_M
J1 1	3 /2nd	’	\ /d /
(см., например, Петров (1972, с. 263) или Сираждинов и Маматов
(1962)).
9. Применения в задаче обнаружения
281
8.	Унимодальные плотности
Рассмотрим, унимодальную плотность f на R с модой в нуле.
Теорема Хинчина (Feller (1971, с. 187 по русскому изданию))
утверждает, что существует функция распределения F, такая, что
ОО	— X
f(x)=(-^-dF(y), Н-х) = - J ~dF(y), х>0.
J У	J	и
X	—ОО
Таким образом, если f и g — унимодальные плотности на [0, оо)
с модой в нуле и с соответствующими функциями распределения
Хинчина F и G, то
х
dF{y)—dG(y)
У
Шу) dx^\\dF (у) - dG(у)|.
У	J
Если F и G имеют плотности /* ng*, то заключаем следующее:
Теорема 8.
J|/-g|< J И*-g*l-
оо
Плотности f и f* связаны соотношением / (х) = j (f* (у)/у) dy,
X
и потому ясно, что плотность g ближе к f, чем g*K f*, какова бы
ни была пара унимодальных плотностей f, g. К сожалению, обычно
мы не имеем в своем распоряжении выборки из /*.
9.	Применения в задаче обнаружения
Рассмотрим одну из простейших постановок задачи обнару-
жения. Пусть f и g — известные плотности на Rd и задана вы-
борка Xlt ..., Хп, состоящая из независимых одинаково распре-
деленных случайных векторов, плотность которых равна либо f,
либо g. Требуется принять решение в пользу одной из этих двух
альтернатив. Подходя более формально, введем число Z, при-
нимающее значения 1 или 2 в зависимости от того, какова плот-
ность наблюдений: f или g. Тогда решающее правило Y — боре-
левская функция от Х1( ..., Хп, принимающая значения 1 или 2Ч.
Представляет интерес индикаторная функция ошибки
Ln =
В классической теории обнаружения задача фактически асимме-
трична: там интересуются значениями и /[у*2] при Z = 2
Z = 1 соответственно, но ошибка одного рода хуже, чем другого.
282
Гл. 11. Операции над оценками плотности
Здесь такой случай не рассматривается. Не рассматриваются
также задачи различения f и «не /». Эти задачи лучше всего изло-
жены в книгах по критериям согласия. Дополнительные сведения
о задаче обнаружения можно почерпнуть в книге Rao (1973,
с. 399 по русскому изданию). Заметим, что теорема 9 ниже тесно
связана с результатами разд. 7а, 3 книги Rao (1973). В дальней-
шем считается, что Z — случайная величина, для которой Р (Z =
— 1) = р £ [0, 1 ]. Все границы и утверждения теорем 9—11
справедливы при любых р, в том числе при р = 0, р = \. Заме-
тим, ято Е (Ln) = рРг (У =/= J) + (1 — р) Р2 (Y 2), где ве-
роятности Plt Рг вычисляются по условным распределениям
Хг, ..., Хп при фиксированном Z = 1 и Z = 2 соответственно.
Если р = 1/2, то величина Е (Ln) минимальна при
п
1. если П/(ХМ(Х;)> 1,
i=i
2 в противном случае.
Это правило называется оптимальным детектором или де-
тектором максимума правдоподобия. Для удобства перепишем
его в виде
’	~	п
у 11, если (1/n) Elogtf(*<)№)) >с,
Т —	1=1
. 2 в противном случае,
считая пока, что с — произвольное действительное число. Отме-
тим, что оптимальный детектор зависит только от отношения f/g
и, следовательно, обладает желательным для любых детекторов
свойством инвариантности к монотонным преобразованиям коорди-
натных осей. Не исключено, что сумма в определении оптималь-
ного детектора принимает значения -|-оо или —оо, но она всегда
имеет смысл, поскольку Р (f (Xt) = g (Х{) при некотором Z) = 0.
Теорема 9. Если с С (— f g log (g/f), f f log (f/g)], moLn^0
почти наверное при любых f g (m. e. при f, g, таких, что
J I f — g I > 0)- Указанный интервал для с может быть беско-
нечным в одну или в обе стороны. Он всегда содержит значение 0.
При с = 0 имеем
P(Y^Z) = E(Ln)
exp(-nmin(fglog(f), Jflog(|)))
><yexp(-rt J|/-g|/(2-J|f-g|))
< exp (—(n/8) (j | f — g |)2)?
где q = min (p, 1 — p).
9. Применения в задаче обнаружения 283
Доказательство. Эти три неравенства получаются, если за-
метить, что
£(Ln) = p j ngi+(l- р) j nfi,
где ft = f (xt), gi = g (xt) и интеграл берется no rfxj rfx2 ... dxn.
Таким образом, E (Ln) / j min (nfit ngt) £ (q, 1]. Затем приме-
няется теорема 5.
Далее, вспомним, что при / =/= g значения j f log (f/g) при-
надлежат интервалу (0, оо] (теорема 8.2). Разобьем этот интеграл
на положительную и отрицательную части, представляя функ-
цию log в виде log+ + log_, и заметим, что отрицательная часть
ограниченна, ибо
О >Jflog_(f/g)>—!/₽.
Чтобы убедиться в этом, воспользуемся неравенством log+ (g/f)<
< g/ef, из которого следует, что
О < J f k>g+(g/f) < J g/e = 1/e.
Нам также понадобится усиленный закон больших чисел в сле-
дующей форме: если Z1( ..., Zn, .... — независимые одинаково
распределенные случайные величины, такие, что Е (Z^) > —оо,
п
то (1/п) 2 Zt Е (ZJ почти наверное при п->-оо, даже если
Е (Z,) = «.
Отсюда следует, что при Z — 1 выполнено соотношение
п
42>*ЖЧМ£)
1=1
почти наверное при п -> оо. Таким образом, если с < | f log (f/g),
то Р (Z = 1, У = 21 Xt, ..., Хп) -> 0 почти наверное при п -> оо.
Оставшаяся часть доказательства следует из соображений сим-
метрии.
Известно, что logP(Y=£Z) = п (log Н + о (1)), где Н =
= inf I f“gl~a — энтропия Реньи. Таким образом, из теоремы 9
0<а<1 J
следуют неравенства
284
Гл. 11. Операции над оценками плотности
Можно применять и другие детекторы. Так как они не опти-
мальны, необходимо указать случаи, когда это следует делать.
Например, если хотя бы одна из плотностей f и g точно не известна
и вместо неизвестных плотностей используются лишь хорошие
выборочные оценки, то оптимальный детектор может привести
к катастрофическим результатам из-за своей чувствительности
к событиям f = 0 и g (Хг) = 0. Другими словами, в таких
случаях желательно иметь более робастные детекторы. Здесь мы
введем и обсудим два типа таких детекторов — ДРО (детектор,
основанный на критериях распознавания образов) и ДЛ1 (детек-
тор, основанный на критерии LJ.
ДРО определяется следующим образом:
'	п
Y= 1’ если (1/n)S	/П(хг)/«(х<)<‘]>с,
. 2 в противном случае.
По существу в ДРО производится суммирование решающих пра-
вил, оптимальных для отдельных наблюдений. Заметим, что су-
ществуют случаи, когда при выборе с ~ 0 получается детектор,
вероятность ошибки которого Ln -> 1 почти наверное для Z = 1.
Например, предположим, что ,g — равномерная плотность на
Ю, 1 ], f = 2 на [0, а] и f = (1 — 2а)/(1 — а) на (а, 1 ], где
0<а< 1/4. Тогда g(Xt)>f (Xt) с вероятностью 1—2а>• 1/2.
Теорема 10. Если с Е ( f £ — J g, J f — j Д (этот ин-
\f>g f<g f>g f<t )
тервал не содержит значение 0), то Ln -*• 0 почти наверное при
п-><х> для любых f =/= g. Если выбрать
с = -г( I	j	+
\f>g	f<g	/
mo
E (Ln) < exp (—J- (j | f - g |)2) .
Доказательство. He нарушая общности, положим p = 1.
Слагаемые в сумме из определения ДРО независимы, одинаково
распределены, принимают значения из [—1, 1] и имеют сред-
ние J f — j f. Первое утверждение теоремы следует из усилен-
ие f<g
ного закона больших чисел и симметрии задачи.
Далее, если выбрать с, как указано в теореме, то
(п	\
±^(Wt-E(Wt))<c-E(Wj\,
1=1	/
9. Применения в задаче обнаружения
285
где F, = /p(xi)/«(xi)>ij-и	J f- f f-
f>g f<g
Имеем
C-E(F1) = ±/' J (g-f)- J & -M = -4 Jlf-ЯЬ
V>«	f<g /
Так как случайные величины | Wt — Е (U^)l независимы и оди-
наково распределены с нулевыми средними и принимают значе-
ния из [—1 — Е (FJ, 1 — Е (Ft)], то в силу неравенства Хёф-
динга (Hoeffding (1963)) получим
Е (Ln) < ехр (—2п ( j |f - g|2/2) / 4) = ехр	(J | f - g |)2) .
Д£1 определяется соотношением
п
1, если -LV((| _-S<*l>) -(1-1®-) )>с,
у =J	н' f(x^ '+	\ s(Xt))+)
2 в противном случае,
где с £ R — некоторая постоянная. По своим свойствам этот
детектор очень похож на ДРО, что видно из следующей теоремы.
Теорема 11. Если с с(—J f(l—g/f)+, f g(l — f/g)+), то
Ln -> О почти наверное при п-+ <х> для любых f =£ g. Если вы-
брать
то
E(L„)<exp (—(J |/-£|)2).
Доказательство. Слагаемые в определении Y являются слу-
чайными величинами со средними
P('-f)+-P('-B+=>0-i)2+
при Z = 1 и
при Z = 2, так что первое утверждение теоремы легко следует
из усиленного закона больших чисел для независимых ограни-
ченных случайных величин.
286
Гл. 11. Операции над оценками плотности
Для доказательства неравенства предположим, не нарушая
общности, что Z = 1. Заметим, что
Е (М = Р (4 2(^- Е (Г 0) <,-е/2 ),
\ i=i	/
где Wt — i-e слагаемое в определении Y и
-r+po-in-
Далее, в силу одной из разновидностей неравенства Беннета
(Bennett (1962)) получим
£	ех₽ (	8(о1 2-е/2) ) ’
где ст2 = Var (TJ. Это неравенство верно только для незави-
симых слагаемых Г< при | Г» | < 1 (в данном случае они таковы).
Но
г < Е (У?) - j / (1 -Л-У+ + f f (1 - X); « е.
так что Е (Ln) с exp (—пе/12). По неравенству Коши
ММ‘-Ш!+(И
и мы получаем требуемый результат.
Существует бесчисленное множество других примеров детек-
торов. Так, Ln 0 почти наверное для детектора
1 еСлИ	с
Y= ’	п
2 в противном случае
при с, принадлежащих интервалу (—Jg2//H~l> J/2/g—1).
который при f Ф g содержит интервал (—Q | f — g|^", (J | /—
(теорема 8.3). Неограниченные слагаемые очень чувствительны
к различиям между f и g, но эта чувствительность несколько
усложняет ситуацию в случае, когда хотя бы одна из функций f
и g точно не известна.
На практике fag известны редко. Обычно имеются случайные
векторы Ylt ..., Yh и Zlt .... Zk с плотностями f и gсоответственно.
По этим данным сначала строятся оценки Д и gk для fag, пред-
ставляющие собой плотности на Rd. Затем предлагается принять
решение о том, какую общую плотность — f или g — имеют
9. Применения в задаче обнаружения
287
случайные векторы Xlt ..., Хп. Индикаторная функция ошибки
здесь равна
В большинстве прикладных задач теории связи и теории
информации можно считать, что число k фиксировано, а -п, воз-
можно, и нет, что соответствует случаю, когда Xlt ..., Хп —
отсчеты переменного во времени сигнала. Таким образом, вели-
чина
Ы = lim sup (Ln) (п. н.)
П~>оо
является хорошим показателем качества оценок Д и gk. Оче-
видно, что Lk, так же как Ln, может принимать лишь значения О
и 1. Ожидать, что Р (Ц = 1) = 0, нереалистично. Вместе с тем
назовем детектор состоятельным, если
lim P(L*k = 1) = 0.
£->оо
Попытаемся теперь доказать состоятельность для некоторых
широких классов детекторов. Все приводимые ниже рассуждения
легко распространить на случай сильной состоятельности, т. е.
сходимости Ц -* 0 почти наверное при k -> оо. Рассматриваемые
далее детекторы основаны на существовании функции Н: 10, оо 1 ->
-> 1—1, 1], такой, что
при любых / g (т. е. при j | / — g | > 0). Примерами таких
функций Н являются Н (и) = /[и>и — /[и<ц (случай ДРО)
и Н (и) = (1 — 1/«)+ — (1 — и)+ (случай Д£1).
Детектор строится следующим образом:
1. Определяются оценки плотности fk и gh по выборкам ...,
Yk и Zlt ..., Zk соответственно. Вычисляется порог детектора
ск = J (fh + gk) Н (fklgk)l2.
2. Решающее правило Y определяется соотношением
п.
1, если -^^iH(fk(Xi)!gk(X^>ck,
‘ —	<=i
2 в противном случае.
Теорема 12. Основанный на выборочных данных детектор, ко-
торый определен выше, состоятелен, если
(i) А f и gk -* g no вероятности при k -> oo для почти
всех х,
(ii) функция Н непрерывна (это условие выполнено для ДИ)..
288
Гл. 11. Операции над оценками плотности
Доказательство. Не нарушая общности, предположим, что
Z = 1. Так как Н — ограниченная функция, то сразу ясно, что
L*k	(бг/в*)
почти наверное. Из определения И следует, что
Таким образом, остается доказать, что ch -> с по вероятности
по вероятности при &->оо. Последнее
следует непосредственно из теоремы Лебега о мажорируемой
сходимости и условий (i) и (ii). Кроме того,
|с* — с| С (J |/»- /1+ Jig,. - g|)/2 +
+ J О
где правая часть стремится к 0 по вероятности в силу (i), теоремы
2.8 Глика и (ii).
Детектор максимума правдоподобия не имеет непосредствен-
ного обобщения на случай, когда fag неизвестны. Одно из
препятствий здесь состоит в том, что при некоторых i величина
log (fk (Xt)/gk (Хг)) равна —оо, а при некоторых других i она
равна + оо. Эту неустойчивость, конечно, можно устранить,
усекая логарифмическую функцию сверху и снизу, т. е. приме-
няя процедуру так называемой винзоризации (см. обсуждение
винзоризованных детекторов максимума правдоподобия в книге
Huber (1981)т)). Ясно, что функция Н для винзоризованного
детектора максимума правдоподобия удовлетворяет условиям
теоремы 12, так что состоятельность этого детектора получается
без труда.
10. Симметризация и перестановочная инвариантность
В этом параграфе f — произвольная плотность на Rd и, если
не оговорено противное, fn — произвольная оценка плотности,
основанная на выборке объема п из совокупности с плотностью /.
Хорошо известно, что оценки можно улучшить, увеличивая число
наблюдений, и что оценки, не являющиеся симметричными функ-
циями от данных, можно улучшить за счет симметризации. Однако
*) О робастных детекторах см. обзор Kassam S. A., Poor Н. V. Robust tech-
niques for signal processing: a survey. Proc. IEEE, 1985, v. 73, No. 3, p. 433—
481. — Прим, перев.
10. Симметризация и перестановочная инвариантность
289
нужно еще и количественно указать, каковы эти улучшения при
фиксированном п. Этому посвящен данный параграф. Одновре-
менно мы воспользуемся случаем, чтобы продемонстрировать
красоту и изящество теории выпуклости по Шуру. С этой целью
построим доказательства всех результатов на основе неравенства
Маршалла — Прошана (Marshall, Proshan (1965)).
Лемма 1 (Marshall, Proschan (1965)). Пусть <р — выпуклая
функция п переменных, симметричная по своим аргументам.
Пусть весовые векторы а = (аъ ..., ап) и b = (ftn ..., bn) таковы,
что а мажорирует b (а>Ь), т. е.
k	k
2j &[Ф k = I, ..., n,
i=i	i=i
с равенством при k = n, где > ... ^> а[П] и бц] >	>
fynj — упорядоченные значения компонент векторов а и b.
Если Xi, ..., Хп — случайные векторы с перестановочно инвариант-
ными распределениями, то
Е (<р (аД, ..., апХп)) Е (ср (Ь.Х,, ..., ЬпХп)).
Теорема 13. Пусть fn — оценка вида
п
Xt),
1=1
где Кп — произвольные измеримые функции. Если ..., Хп,
Хп+1, •••> Хп+т — независимые одинаково распределенные случай-
ные величины, то
Е (JlS. -fl) < В (f|/„-Z|),
где
п-}Гт
х‘>-
1=1
Замечание. Для ядерной оценки (Parzen (1962), Rosenblatt
(1956)) с фиксированными ядром К и параметром сглаживания h
Арошибка является невозрастающей функцией от п.
Отложим доказательство теоремы 13 до того момента, когда
будут сформулированы все результаты.
Теорема 14. Пусть [п — оценка вида
fn (X) = £ wniKn (X, Xi),
1=1
19 Деврой Л., Дьёрфи Л.
290
Гл. 11. Операции над оценками плотности
где wni — веса, сумма которых равна /, и функции Кп такие
же. как в теореме 13. Тогда
£ (Jlf.~fl) «£(f 1Л-fl),
где
п
gn{x)=-^-^Kn{X, Xi).
i=l
Теорема 15. Пусть fn — оценка вида
п
4=1
где Kt — измеримые функции. Тогда
в (j Is.-fl) « £(j If. -fl),
где
n n
1=1 /=1
1
Замечание. Оценка gn из теоремы 15 имеет вид ~ 2j Ln (х —
* 4 = 1
— Х^. так что теорема 15 указывает на улучшение, которое
можно получить при замене рекуррентных оценок типа дельта-
функции Дирака (см., например, Walter, Blum (1979)) их нере-
куррентными аналогами.
Все сформулированные выше теоремы подчеркивают тот факт,
что наилучшие оценки всегда являются перестановочно инвари-
антными функциями от данных (см., например, Wertz (1976)).
Имеет место
Теорема 16. Если fn — произвольная оценка плотности, то
оценка
gn(x, Х„ =	2 Мх' •••’ **<">)
все перестановки
а(1)...а (п)
набора 1, ..., п
не хуже, чем fn, в том смысле, что
Доказательство теорем 13—16. Из доказательства будет ясно,
что улучшение, получаемое за счет симметризации, не только
глобальное. В действительности оно имеет место при каждом х.
Литература
291
Пусть Ya = fn(x,	..., Xa(n)) — f (x) и S — множество всех
nX перестановок ст набора I, п. Ясно, что \Ya, ст £	— мно-
жество случайных величин с перестановочно инвариантными
распределениями. Положим
<р(Ы1, . . Uni) ==
т
Ё Ui
1=1
и заметим, что эта функция выпукла и симметрична. Следова-
тельно, в силу леммы 1 и того, что а = (1, 0, 0, .... 0) )> b =
= (1/п!, .... 1/п!), имеем
п!
2 °
a—1
= Е(|У1|) = Е(|/П(х, Хх, .... Хп)-/(х)|)^
= E(|gn(x, Х„ ..., Xn) —f(x)|).
Интегрируя это неравенство по dx, получим результат теоремы 16.
(Заметим попутно, что Е (| gn — / |р) < Е (| fn — f |р) при лю-
бых х и любых р > 1.)
Теорема 15 легко следует из теоремы 16. Для доказательства
теоремы 13 построим оценку gn так же, как в теореме 16, и за-
метим, что
п
gn(x, Xi, ..., хп+т) =	=
a t=l
п-\-т	п-{-т
4 = 1	4 = 1
Для доказательства теоремы 14 можно непосредственно применить
лемму 1, полагая там а
п
<р (ult .... «„) =
— f (х) вместо Хг
= (шп1, .... wnn), ь = (1/п, .... 1/п),
и формально подставляя Кп (х> Хд —
4 = 1
ЛИТЕРАТУРА
Bennett G.
(1962) Probability inequalities for the sum of independent random variables, Jour-
nal of the American Statistical Association, 57, pp. 33—45.
Feller W.
(1971) An Introduction to Probability Theory and Its Applications, Vol. 2, Wiley,
New York. (Имеется русский перевод: Феллер В. Введение в теорию вероятно-
стей и ее приложения. Т. 2.—М.: Мир, 1984.)
19*
292
Гл. 11. Операции над оценками плотности
Hoeffding W.
(1963) Probability inequalities for sums of bounded random variables, Journal
of the American Statistical Association, 58, pp. 13—30.
Huber P. J.
(1981) Robust Statistics, Wiley, New York. (Имеется русский перевод: Хью-
бер П. Дж. Робастность в статистике.—М.: Мир, 1984.)
Marshall A. W., Proshan F.
(1965) An inequality for convex functions involving majorization, Journal of Mathe-
matical Analysis and Applications, 12, pp. 87—90.
Parzen E.
(1962) On estimation of a probability density function and mode, Annals of Mathe-
matical Statistics, 33, pp. 1065—1076.
Rao C. R.
(1973) Linear Statistical Inference and Its Applications, Wiley, New York. (Имеется
русский перевод: Рао С. Р. Линейные статистические методы и их применения. —
М.: Наука, 1968.)
Rosenblatt М.
(1956) Remarks on some nonparametric estimates of a density function, Annals
of Mathematical Statistics, 27, pp. 832—837.
Walter G., Blum J.
(1979) Probability density estimation using delta sequences, Annals of Statistics,
7, pp. 328—340.
Wertz W.
(1976) Invariant density estimation, Monatshefte fiir Mathematik, 81, pp. 315—324.
v Петров В. В.
(1972) Суммы независимых случайных величин.—М.: Наука.
Сираждинов С. X., Маматов М.
(1962) О сходимости в среднем для плотностей//Теория вероятн. и ее примен. —
Т. 7. — 4. — С. 433—437.
Глава 12
Проекционные оценки
1. Определения
Для построения оценок плотности можно использовать бога-
тую теорию ортогональных функций (Sansone (1977), Szego (1975)).
При этом, конечно, возникает ряд проблем, поскольку в исходной
математической постановке не учитывается, что оцениваемая
функция является плотностью и приближения функций частич-
ными суммами ортогональных разложений по большей части не
являются плотностями — они либо не принадлежат Llt либо не
удовлетворяют условию положительности.
Введем сначала ортонормальную систему на множестве В,
которое обычно считается равным R или [—л, л]. Функции
р0, ръ .... составляющие ортонормальную систему, по определе-
нию удовлетворяют условию
г [0, i=/= j,
\pipi = 1, i=/.
в	k	'
Коэффициенты Фурье at функции f на В определяются соотно-
шением
ai = \tPi-
В
Функция f на В допускает или не допускает разложение по си-
оо
стемеpt в зависимости оттого, сходится ли ряд £ aipt (х) и равна ли
1=0
его сумма f (х) или нет. Если этот ряд существует, то он называется
рядом Фурье для f. Если ряд Фурье не существует, то функцию f
нельзя восстановить по разложению в ортогональный ряд. Таким
образом, важно охарактеризовать случаи, когда f допускает
разложение по системе функций pt.
Ортонормальная система называется полной в Lp (В), если
для любой функции / С Lp (5) из условия \ fpt = 0, у/, следует,
что f = 0 почти всюду. Система называется базисом в Lp (В),
если для любой функции / £ Lp (В) существует единственное
294
Гл. 12. Проекционные оценки
разложение в сходящийся ряд вида 2 atpi. Известно, что если В —
компакт, то система полна в L2 (В) тогда и только тогда, когда
оо
В t=0
Это соотношение называется равенством Бесселя1). Если оно
выполнено, то имеет место сходимость частичных сумм в Ь2 (В):
(т	\ 2
f— S aiPi -*0’ tn-^OC.
i=Q	/
(См., например, Sansone (1977, с. 23)). В нет аналога этого
свойства. При изучении сходимости в частичных сумм
т
= 2] aiPi
i=0
(иногда будет использоваться обозначение Sm (f, х), чтобы под-
черкнуть зависимость от х) нельзя воспользоваться даже не-
равенством Коши—Шварца
f Ism(f)-f|< i/4B)f(sm(f)-7)2,
в	V В
чтобы перекинуть мост к В2-теории. Действительно, при этом
необходимо было бы ввести условие f £ Ь2 (В). Условие К (В) <
< оо менее ограничительно, поскольку всегда можно монотон-
ным преобразованием отобразить данные в некоторый компактный
интервал (см:, например, гл. 9).
Одно из замечательных свойств ортогональных разложений
состоит в том, что если функция допускает разложение с конеч-
ным числом членов, то ее очень легко приблизить и, по-видимому,
оценить. Если задана выборка Хъ ..., Хп из /, то несмещенной
оценкой коэффициента at = j fpi является
п
ап| = 4-2рг(ХД
/=1
а оценкой для f (х) — функция
fn (*) = £ amPt (х).
i=0
г) Чаще используется термин равенство Парсеваля. — Прим, перев.
1. Определения
295
т
Если f (х) = 2 atPi (х), где т — конечное число, то fn — несме-
щенная оценка для /. В общем случае функция / разлагается
в ряд с бесконечным числом членов, так что необходимо, чтобы
параметр т стремился к бесконечности с ростом и. Таким обра-
зом, проекционную оценку fn можно рассматривать как непосред-
ственное обобщение параметрических оценок.
Можно записать fn иначе:
п
=	Х}),
/=1
где функция
т
кт(х, !/)= S
1=0
называется ядром. Эта запись называется записью в правильном
виде, поскольку она напоминает определение ядерной оценки
(больше о связи с ядерной оценкой см. в § 8 ниже).
Полезным результатом из фурье-анализа является формула
суммирования Кристоффеля — Дарбу для ортогональных поли-
номов (см., например, Szego (1975) с. 42—43 по русскому изда-
нию):
К (х и} ~ b Рт+1	Рт+i (у)
где Ьт — kmlkm^ и km — коэффициент при старшей степени х
в полиноме рт.
Целое число т можно рассматривать как параметр сглажи-
вания. В этой главе в основном будет исследоваться состоятель-
ность и скорость сходимости проекционных оценок в случае,
когда т = тп — некоторая последовательность положительных
чисел. В частности, будет показано, что некоторые системы, такие,
как тригонометрическая или системы Эрмита, Лагерра и Лежан-
дра, недостаточно богаты для оценивания любых плотностей на В,
Этот недостаток, конечно, уравновешивается рядом больших
достоинств проекционных оценок, например их превосходным
поведением в случае, когда разложение функции f в ряд содер-
жит конечное число членов или является бесконечным с быстро
убывающими коэффициентами.
При оценивании плотности важно, чтобы оценки удовлетво-
ряли условию J* = 1. Для проекционной оценки на компактном
в
множестве В это условие выполняется, если первая функция р0
выбрана в виде
Ро—	(^)>
296
Гл. 12. Проекционные оценки
где / — индикаторная функция. Ясно, что
т	т
| fn — 2 J' Р1 ~	(В) j PiPo = ano V (^) =-
В i=0 В	1=0	В
= а0/Х(В)= J/= 1.
в
Если постоянная функция включается в некоторую ортонормаль-
ную систему на 7?, то в общем случае получаются оценки, не при-
надлежащие Др
Исследование проекционных оценок проведено в ряде работ:
Ченцов (1962), Van Ryzin (1966), Schwartz (1967), Kronmal,
Tarter (1968), Bosq (1969), Watson (1969), Foldes, Revesz (1974).
Многомерные проекционные оценки в данной главе не рассма-
триваются. По поводу многомерных оценок с тригонометрическим
рядом читатель может обратиться к работам Kronmal, Tarter
(1968), Schuler (1976), Sterbuchner (1980), Stegbuchner (1980),
Greblicki, Pawlak (1981), Krzyzak, Pawlak (1982).
2. Примеры ортонормальных систем
Тригонометрическую систему на В = [—л, л] образуют функ-
ции
п _	1	„	_ cos (7х) п SM«>)	,-^1
Ро~~№Г’ P2iM ' рМ~ Гл ’
Соответствующая проекционная оценка называется оценкой с три-
гонометрическим рядом или оценкой с рядом Фурье (см., напри-
мер, Kronmal, Tarter (1968)). Тригонометрическая система полна
в [—л, л], но не является базисом в [—л, л]. Иногда удобно
записывать оценку с тригонометрическим рядом в виде
f	1 4 У/Я	cos(tx) . sin(»x)\
а иногда — в виде
п
/=1
где Dm — ядро Дирихле,
2т + 1 ,	.
£>т(х, «/) =
2. Примеры ортонормальных систем
297
Заметим, что определение числа иг здесь несколько отличается
от принятого в § 1, поскольку на самом деле рассматривается
разложение в ряд с 2m + 1 членами.
Полиномы Лежандра образуют ортонормальную систему на
[—1, 1]. Эти полиномы можно определять многими способами.
Например, можно определить их формулой Родрига
»0-
Эта система полна в	[—1, 1] (Sansone (1977, с. 191)). Соответ-
ствующее ядро Кт (х, у) равно
Кт(х, у)= £ Pi(x)pf(i/) =
1=0
=- W + 1	(У) — Pm+i (*) Рт (У)
|<2m+1^2m + 3	У —*
Оценки с рядом Лежандра обсуждались в работах Crain (1974),
Viollaz (1980) и Hall (1982). Различные явные выражения для pt
и вывод формулы для Кт имеются, например, в книгах Sansone
(1977) или в Szego (1975). Существует ряд ортонормальных си-
стем, служащих обобщением системы Лежандра, например функ-
ции Феррера (Sansone (1977, с. 246—253)) и полиномы Якоби
(Szego (1975, гл. 4)).
Разложение в ряд Эрмита производится с помощью функций
Pi(x)= <!L JL(e-xt),
Эти функции образуют ортонормальную систему, полную в L2 (R).
Оценка с рядом Эрмита изучалась применительно к задаче оце-
нивания плотности в работах Schwartz (1967), Walter (1977),
Bleuez, Bosq (1979) и Greblicki (1981). Используя формулу (5.5.9)
из Szego (1975), получим ядро
.	-| Гт -4- 1 Рпг+1 (•*) Рт (У) — Рт (*) Рт+1 (У)
Кт<Х, у)= у -J------------------------------
Оценка с рядом Лагерра на В = [0, оо) основана на ортонор-
мальной и полной в £г Ю» °0) системе функций
Здесь а > —1 — параметр системы. Например, при а = 0 по-
лучим
/=о
298	Гл. 12. Проекционные оценки
Соответствующее ядро равно
К (Y -д __ Г (ffl 2) ffm+i (х) рт (у) рт (х) Рт+1 (у)
у) Г(т_|_а+1) у__х
Ортонормальная система Хаара отличается от всех предыду-
щих систем тем, что она является базисом в любых Lp [0, 1].
При заданном целом т функции этой системы определяются сле-
дующим образом. Пусть целые /г > 0 и /, 1 с / < 2* таковы,
что т = 2* + /. Тогда
[2Л/2,	хе(-Ц_1,
\ 2* 2k /
м*)=L*'2, 4L
j	\ 2k 2k /
10	в противном случае.
Эта система обладает тем нужным свойством, что Sm (/) -> f
почти всюду и j | Sm (/) — f | -> 0 при любых f С ^1 Ю, 1 ].
Оценка по этой системе, записанная в правильном виде, почти
совпадает с гистограммной оценкой (см., например, Bleuez, Bosq
(1979)). В самом деле, ее ядро принимает только неотрицательные
значения, так ч^О'/йегко видеть, что сама оценка fn является
плотностью. Единственное отличие от гистограммной оценки
с одинаковыми интервалами состоит в том, что интервалы при
различных значениях т соответствующим образом вложены (бла-
годаря двоичной конструкции функций рт). Оценка с рядом
Хаара наследует все свойства гистограммной оценки, включая
неотъемлемое ограничение на скорость сходимости средней Ьг-
ошибки, которая больше или равна величине, пропорциональной
п“1/3, и включая состоятельность при любых плотностях f на
[О, 1]. В данной главе эта оценка больше рассматриваться не
будет.
3. Общие свойства
В следующей лемме даются полезные, хотя и грубые верхняя
и нижняя границы для средней Lx-ошибки (см. также лемму 3.6).
Лемма 1. Пусть fn — проекционная оценка для f с т = тп
членами разложения, и пусть f имеет формальное разложение
в, возможно, не сходящийся ряд
f(x)~ % atPilx),
3. Общие свойства
299
где функции pt образуют ортонормальную систему на некотором
множестве В из R и at = J fpt. Предположим также, что все pt
абсолютно интегрируемы на В. Тогда
J|Sm(f)-f| + E(J|fn-E(fn)|)<
<	f 1^0-zi + f /£(a„-£(fn))2)<
<	J| +y= J Уе (K.2m{x, Xi))dx;
£(Jlfn-f|)^max(j|Sm(f)-f|> ljE(|fn-EO)’).
Лейма 2. Пусть f £ L2 (В), и пусть функции pt, t > 0,
образуют ортонормальную систему на В. Тогда проекционная
оценка fn с т членами разложения имеет следующую среднюю
Li-оишбку.
т	оо
i—0	i~ m-j-1
m	oo	, nr ,,, ,	oo
Sa?’
t=0	t=m+l	i—m+1
где все интегралы берутся по множеству В.
Доказательство. Заметим сначала, что
J (f п - f)2 = f (fП - Е (f n))2 + J (Sm (f) - f?.
В силу равенства Бесселя последнее слагаемое равно
оо	\ 2 оо
2 aiPi I = 2 a?-
i=m4-l	/	t=m+l
Здесь мы воспользовались свойством ортонормальности. Кроме
того,
/ т	\	т
J (/п - £о2 = J S 2 = 2 & -
\i=0	/	Z=0
откуда без труда получается нужный результат.
Так как мы требуем интегрируемости оценок, разумно потре-
бовать, чтобы все функции pt ортонормальной системы были
абсолютно интегрируемы. Однако это ограничение приводит
300
Гл. 12. Проекционные оценки
к некоторым плохим побочным эффектам в случае, когда рассма-
тривается проекционная оценка на неограниченном множестве.
Эти побочные эффекты описаны в следующей лемме.
Лемма 3. Пусть pit i 0, — ортонормальная система на R
(или на [0, оо)) и все функции pt абсолютно интегрируемы.
Тогда
’i) если оценка fn трансляционно инвариантна (см. § 6.6),
то J fn = 0;
(ii) невозможно, чтобы равенство j fn = 1 выполнялось почти
наверное при любых f.
Доказательство. Если оценка fn трансляционно инвариантна,
то функция Кт (х, у) должна иметь вид Кт (х — у), где Кт —
некоторая функция, и интеграл J Кт (х, у) dy должен не зави-
сеть от х. Следовательно, величина
tn
Pi(x)^pt(y)dy
I—0
должна не завиеет^ттж. Так как все функции р{ невырожденны
(J = 1) и ни одна из них не равна постоянной почти всюду
т
(в силу ТОГО ЧТО j р} = 1), ТО ЯСНО, ЧТО 2 j pi (у) dy = 0, и
1—0 J
потому j Кт (*, У) dx = 0 при любых у. Таким образом, j fn =
= 0.
Докажем утверждение (ii) от противного. Если j fn = 1
tn
почти наверное при любых /, то J} J A W Pi (у) dx = 1 при
почти всех у. Возводя это равенство в квадрат и интегрируя
по dy, получим
(т	\2	т	т
2 pi (у) I ) dy = S J p2‘ (I p<)2 = 2 (I p-j2 ’
i=0	J	i=0	1=0
что, очевидно, невозможно в силу сделанных предположений.
Лемма 3 не оставляет сомнений в том, что возможности проек-
ционных оценок на R или на [0, оо) ограниченны. По этой при-
чине мы будем в основном рассматривать свойства проекционных
оценок на компактных множествах.
4. Состоятельность оценки
301
4. Состоятельность оценки
с тригонометрическим рядом
В этом параграфе преследуются три цели. Строятся плотности
на [—л, л] со сходящимися рядами Фурье, такие, что для них
непригодна оценка с тригонометрическим рядом при сколь угодно
больших п. Чтобы уравновесить этот результат, приводятся сла-
бые достаточные условия состоятельности. Наконец, очень
кратко рассматривается вопрос о необходимости этих условий.
Теорема 1 (несостоятельность оценки с тригонометрическим
рядом). Пусть ат | 0 — последовательность чисел, выпуклая как
функция от т и такая, что aQ = \/Ул. Тогда ряд
COS (IX)
1 /л
сходится всюду, кроме, быть может, одной точки, и является
рядом Фурье некоторой плотности f на [—л, л].
Пусть fn — оценка с тригонометрическим рядом, построен-
ная по выборке объема п и имеющая параметр а Если
lim inf ат log т >л3/2 /2,
т-*оо
то
inf Е (J\fn - /|)>0.
п, tn	7
Если lim т = оо и lim log m = oo, mo
n-+<x>	m-^<x
lim inf	яз/2 •
n-°° am log m
В теореме 1 утверждается, что многие плотности на [—л, л),
даже такие, ряд Фурье которых сходится (всюду, кроме одной
точки), невозможно оценить ни при каком выборе тип. При-
чина тому — уход смещения (| | Sm (/) — /1	00 ПРИ п -► оо,
если m-► оо, log m-> оо). Таким образом, величина
Е ([ | fn — f |j может возрастать с любой заданной скоростью,
равной о (log m) при m->oo.
Для доказательства теоремы 1 требуются некоторые вспомога-
тельные результаты, в частности ряд свойств ядра Дирихле
302
Гл. 12. Проекционные оценки
Dm (х, у). Так как оно является функцией только от разности х — у,
то в дальнейшем мы позволим себе писать
п 6Л _ sin «от+ 1/2)“)
п' w 2л sin (u/2)	’
Другая важная функция — ядро Фейера
т+\ Л }	2я(т+1)\ sin (п/2)	/ '
1=0
Лемма 4 (свойства ядер Дирихле и Фейера).
A.	j Dm(u)du = J Fm(u)du = 1.
В.	| Dm(u) | < 1/21 и |, | и | < л;
IDm(u)| < (m + l)/2, | и| с л.
C.	j | Dm | ~ (4/л2) log tn при m-^-oo. (j |Dm| называется по-
стоянной Лебега).
D.	j | Dm | < 2 (4/л2) log m, m 1.
E.	Fm («) c л/2 (tn + 1)и2, | и | < л, Fm (u) < (m l)/4.
Доказательство. Свойство А хорошо известно. Оно следует
непосредственно из определения Dm и Fm и условий ортонор-
мальности. Свойство В следует из неравенств
| Dm (и)| < (2л I sin (и/2) О-1 < sup I -Д-1 —Д- с =- -г
где и, v — любые числа, принадлежащие [—л, л).
Свойство С читатель может найти у Бари (1961, с. 115). Оно
наполовину следует, конечно, из свойства D, полное доказатель-
ство которого будет сейчас приведено:
Л	Л/2
J 1 т 1 л J I sin (и/2) I л J I sin у »
о	0
л/2	Л/2
2_ г| ЧМ<2« + 1)»Ь +A [|_1--------------
Л J I у	v 1 П J I Sin у у V
о	о
4. Состоятельность оценки
303
Обозначим последние два слагаемых /х и /2. Легко проверить, что
/2 < л2/48. Это получается интегрированием неравенства
I У ~ sin У I < I У8/6 I
I у sin у I I (2/л) у2 I
ли л _ л
Рассматривая слагаемое 4, поступим так же, как Бари (1961,
114) или Edwards (1979, с. 80—81). Полагая (2m + 1) у = t,
получим
(2т+1) л/2	2т	(*4-1) л/2
д=4 J	ITK4S	1
0	k~Q	kn/2
2т (fe+1) л/2
J
A—1 Лл/2
2m
4Ет+14(|+|ч(2'"»+1-
k=\
Замечая теперь, что л2/48 + 1 + 4/л2 + 4 log 2/л2 с 2, получим
свойство D.
Наконец, свойство Е следует из неравей£тв -
(и) < (2л (m + 1) sin2 (и/2))-1 < (2 (т + 1) и^~1 л
и
т
FmМ т+Т S О + т) =
1=0
__	1 /т + 1 . т (т + 1)\ __ т + 1
“ 2(т+ 1) \ 2	'	2	/	4 *
Лемма 5 (теорема Фейера—Лебега, см., например, Бари
(1961, с. 143)). Если положить
л
— Л
то для любых плотностей f на [—л, л] имеем ит (/) -> f при
т -+ оо для почти всех хи j | ат (f) — f | -> 0 при т -> оо.
Замечание. Удобно доопределить / вне [—л, л] по периодич-
ности. Это упростит обозначения. Заметим также, что Dm и Fm—
периодические функции с периодом 2л.
304
Гл. 12. Проекционные оценки
Доказательство леммы 5.
I- f I < J |f(« + x)-f(x)\Fm(u)du <
f |/(M + x)-f(x)|d«(^)6 +
i«i=se
If (ц-f-x) —f (x)| л ,
2(т+1)иг uu"
|u|>6
Здесь 6 > 0 — произвольное число. Выберем 6 = l/(/n + 1) и
заметим, что первое слагаемое в правой части тогда равно о (1)
при почти всех х по теореме Лебега о плотностях. При анализе
второго слагаемого введем обозначения g (и) = | / (и + х) — f (х) |
и
и G (и) — J g (v) dv. Имеем G (и) = о (и) при и | 0 для почти
о
всех х. Интегрируя по частям, заметим, что
I ^^(т+1)и2
и3
(Л
</(л)	G(6) , f 2G(u)
л2 62	' J
д
л	/ оо	\
=°(1)+4 f	=0(1)
l/(l-hm)	\\/т	1
при почти всех х. Второе утверждение леммы следует из первого,
если заметить, что ит является плотностью при любых т.
Доказательство теоремы 1. Приведем сначала некоторые
хорошо известные свойства рядов Фурье. Рассмотрим ряд
До । V п. cos
|Л 2л * К л *
1—1
где а0 у 2, alt а2, а&, ... — невозрастающая последовательность,
стремящаяся к 0. Этот ряд сходится всюду на [—л, л], за исклю-
чением, быть может, точки 0, и сходимость его равномерна па
[е, л] при любых е > 0 (простое доказательство этого см. Бари
(1961, с. 95)). Если, кроме того, эта последовательность выпукла,
то ряд сходится к некоторой неотрицательной интегрируемой
4. Состоятельность оценки
305
функции f на [—п, п] (всюду, кроме, быть может, точки х — 0)
и является ее рядом Фурье, т. е.
Л
1^1;
J гл
— л
л
“•= J ,(s'>VSdx
— л
(см. _Бари (1961, с. 100)). Так как в нашем случае а9 здесь равно
l/j/2/i, то f действительно является плотностью на [—л, л].
Для удобства обозначений положим b0 =	2/л,	п,
i > 1, так что
Sm(f) = b0/2 + 2 bt cos(tx)
i=i
и последовательность bt выпукла и монотонно стремится к 0
при i -+• оо. Таким образом, Д6г = bt — bi+1 0 при любых i
и Д2дг = ДЬг — Д&1+1	0 при любых i.
т	т
Заметим, что Dm (х) = 1/2+2 cos 0'х) и 2	(х) = (т + 1) х
1=1	t=0
х Fm (х). Используя эти тождества и преобразование Абеля,
получим
m—1
sm (f)/x = 2	(х) + bmDm (х) =
m—1	m—2 i
= AVx-EA(x)+ 2A2M]Ofc(x) + femDm(x) =
1=0	1=0	л=о
m—2
= Дb^mF^ (x) + 2 &bt (i + 1) Ft (x) + bmDm (x).
1=0
Первые два слагаемых в последнем выражении неотрицательны.
(Кстати, тем самым показано, что частичные суммы сходятся
к неотрицательной функции, поскольку последнее слагаемое
в последнем выражении равно о (1) при х += 0.) Сумма интегра-
лов по [—л, л ] от первых двух слагаемых равна
m—2	m—1
/nAbm_! +20 + 1) Д2Ь/ = 2 Ын = ь9 - ьт.
i=0	i=0
Следовательно,
f I Sm(W > (М I I + ^ - М Я =
= ^я[ат J|Dm|+am-a0/’2)=am/n(l + j | Dm |) - 1,
20 Деврой Л., Дьёрфи Л.
306
Гл. 12. Проекционные оценки
и, значит, в силу леммы 1
Е (Jlfn - f|) $= J - f\^am /л(1 -н J |DTO|) - 2.
По лемме 4 эта нижняя граница равна (4/л3/2 + о (1)) ат log т —
— 2. Отсюда непосредственно следует последнее утверждение
теоремы 1. Докажем второе утверждение теоремы 1. Заметим,
что существуют положительные постоянные с, М, такие, что
inf J|Sm(f)-f|>C.
т^М J
Но так как, очевидно, inf j Sm (f) — f| > 0 при любых конеч-
тх^М
ных Л4, то второе утверждение доказано.
Примерами к теореме 1 являются хорошие плотности, потому
что их ряды Фурье сходятся при всех х #= 0. Следует отметить,
что существуют плотности f £ Lt [—л, л], для которых суммы
Sm (Л не сходятся ни в одной точке. Такие f в некотором смысле
хуже, чем плотности из теоремы 1. Так как сама по себе поточеч-
ная сходимость нас не интересует, то мы приведем лишь форму-
лировки некоторых известных результатов о поточечной сходи-
мости частичных сумм интегрируемых функций f.
Лемма 6 (поточечная сходимость рядов Фурье).
А.	При любых f £ L1 [—л, л] имеет место сходимость
Smk (Л f почти всюду, где тк — некоторая подпоследователь-
ность. Более того, Sm (Л — о (log т) при почти всех х и
J I Sm (Л | = о (log т).
В.	Если f £ Lp [—л, л] при некотором р > 1, то Sm (f) ->
-> f при почти всех х.
, С. Существует функция f из Lr [—л, л], такая, что
1 imsupSm(f) — oo при любых x. В действительности, lirnsup|SmX
m->oo	m-*oo
X (/)|/log log m = oo при любых x для некоторой функции f из
I—л, л].
D.	Для любой последовательности тк f оо существует функ-
ция f из Li I—л, л], такая, что lim sup SmA (Л = оо при почти
k-+co
всех х.
Е.	Для любой последовательности ст | 0 существует функ-
ция f из Li [—л, л], такая, что lim sup J | Sm (Л |/(cm log m ) =
m->co
= oo.
Замечание. Утверждение А можно найти в Zygmund (1959,
разд. 7.3) и Edwards (1979, с. 167, 180). При р = 2 свойство В
известно под названием теоремы Карлесона (Carleson (1966)).
4. Состоятельность оценки
307
Общее утверждение при р > 1 было доказано Hunt (1968) (см.
также Mozzochi (1971) и книгу Jorsboe, Mejlbro (1982), где при-
ведены другие доказательства этой глубокой теоремы Карле-
сона—Ханта). Первая часть утверждения С известна как контр-
пример Колмогорова (Kolmogorov (1926); см. Zygmund(1959,
разд. 8.4)). Вторая часть утверждения С связана с уточнением,
принадлежащим Korner (1981), который также доказал D, опи-
раясь на идеи Кахана и Стейна. Свойство Е можно найти у Ed-
wards (1979, с. 180). Заметим также, что теорема Карлесона—
Ханта была обобщена на d-мерный случай в работах Fefferman
(1971) и Sjolin (1971).
Установив, что оценка с тригонометрическим рядом не яв-
ляется универсально состоятельной, получим все же некоторые
позитивные результаты о ее состоятельности для определенных
классов плотностей. Сильную сходимость ^-ошибки оценки
изучать не будем. Следующая лемма поможет нам при анализе
смещения j | STO (/) — f\.
Лемма 7. Пусть f— плотность на [—л, л]. Тогда
(i) lim (| Sm (f) — f |p = 0 при любых p £ (0, 1).
m-*oo J
(ii) lim J |Sm(/) — f | = 0, если f £LP при некотором p > 1.
m-*oo J
(iii)lim f |Sm(f) —/I = 0, если f/logj<oo,
m-*oo J	J
a J|Sro(f)| < A plogJ + B, где А, В — некоторые универсальные
постоянные.
Замечание. За доказательством леммы 7 мы отсылаем читателя
к разд. 7.3 книги Zygmund (1959).
Лемма 8. Для любых плотностей f на [—л, л] и оценки
с тригонометрическим рядом, имеющей параметр т, выполнено
неравенство
j/S=-L+ J|Sm(f)-f|.
Если lim т = оо, то
«-►оо
Е (J If.-f|) « VT+ «(!))+ J|Sm ff)-fl-
Теорема 2 (состоятельность оценки с тригонометрическим ря-
дом). Пусть f — плотность на [—л, л], удовлетворяющая усло-
20*
308	Гл. 12. Проекционные оценки
вию на пики J f log+ f < оо (это условие выполнено, если
f С Lp [—л, л] при некотором р > 1). Пусть fn — оценка с три-
гонометрическим рядом для f, имеющая параметр т, и пусть
limm = oo, lim(m/n) = 0.
/1->оо	П-+-ОО
Тогда Е (J | fn — -> 0 при п -*• оо. Если, кроме того, f £
£ Lp [—л, л 1 при некотором р > 1, то Е ((/„ — /)2) -> 0 при
п—+ оо для почти всех х.
Доказательство леммы 8 и теоремы 2. Первое неравенство
леммы 8 следует из леммы 1. Член
-pUJyE(D^(x-Xj))dx
равен
J VE^x-X^dx <
<	V \E(F2m(x — Xyj)dx = /-^±1,
где мы воспользовались неравенством Коши — Шварца и лем-
мой 4. Используя обозначение о2т (/) = Е (Fam (х — Х^) из
леммы 5, вспоминая, что а2т (/) — плотность по х при каждом т
и что J | оат (/) — f | -> 0, перепишем этот же член в виде
и получим
J/аат(0 = j /(ОшО- f) + / < J	+ J/Г<
< |Л2л J|oam(f) - f | + Jk7= 0(1) + J/Г-
Лемма 8 доказана.
Первое утверждение теоремы 2 следует из лемм 7 и 8. Остается
доказать лишь утверждение о сходимости почти всюду. В силу
теоремы Карлесона — Ханта (лемма 6, утверждение В) доста-
точно показать, что Е ((fn — Е (/п))2) -* 0 при почти всех х.
Но fn - E(fn) = (l/л) $ Yh где Y} = Dm(x -	- E(Dm(x-X})\
Следовательно, достаточно, чтобы было Е (Ytyjn 0 почти всюду.
Это в свою очередь следует из того, что Е (Dm (х — Х^/п -► О
почти всюду. Но Dm (и) = ((2т + 1)/2) Fam (и) при любых и.
Таким образом, достаточно условия т/п -+0 и того, чтобы вели-
4. Состоятельность оценки
309
чина Е (F2m (х — XJ) = а2т (/) была ограничена при почти всех х.
Но последнее является следствием теоремы Фейера — Лебега
(лемма 5).
Наконец, кратко рассмотрим вопрос о необходимости условий
на т. Ясно, что если f не имеет конечного разложения в ряд
Фурье, то условие т -► оо необходимо для того, чтобы было
J | Sm (/)—/ |	0, и, следовательно, необходимо для сходи-
мости Е (J | fn — /1) -> 0. Следующее простое построение показы-
вает, что в действительности существует много плотностей с конеч-
ным разложением в ряд Фурье: используя многократно формулу
cos2 х = (1 + cos 2х)/2 и формулу бинома, убеждаемся, что функ-
ции вида (cos х)2', где г — натуральное число, имеют разложение
со старшим ненулевым коэффициентом Фурье а2Г+1- Таким обра-
зом, если нормировать эти функции, превращая их в плотности,
и взять фиксированное т, большее или равное 2Г, то получится
в (J 1Л.-/1)
Правая часть этого неравенства стремится к 0 со скоростью 1/)Лп.
Заметим, что ядерная оценка не может достичь такой скорости
сходимости для таких плотностей. Конечно, это связано с тем,
что оценка с тригонометрическим рядом как бы специально пред-
назначена для плотностей такого вида.
Лемма 9 (достижимость ошибки порядка О (1/}/^п). Пусть f —
плотность на [—л, л], и пусть fn — оценка с тригонометри-
ческим рядом, имеющая параметр т. Тогда из неравенства
limsup Е (J |fn —/|)/« < оо следует, что limsup т < оо.
П-^ОО	•	7	п->оо
Доказательство. Достаточно показать, что для любых плот-
ностей f на [—л, л ], таких, что j | Sm (/) — f | -> 0 при т оо,
из условия lim т = оо следует, что
П-*оо
Е (J|fn -/|)^^-(Д + о(1)),
где А > 0 — некоторая универсальная постоянная.
При т оо для любых f имеем
Е (J(JlA»~ £(fn)|)/2 (по лемме 1)
> (32л)-1/2 J Е (| Dm (х - Х0 - Е (Dm (х — Х0) |) dx (по лемме 5.27)
310
Гл. 12. Проекционные оценки
> (32n)-1/2 J (£(| Dm(х - Хх)|) - IS^OQdx
(32п)“1/2 (f | Dm | - J | Sm (f) f | - 1).
Если J | Sm (f) — f | -> 0 при m oo, то в силу леммы 4 получен-
ная нижняя граница асимптотически ведет себя как
(4/л2) log ml (У 32л). Лемма 9 доказана.
Из леммы 5.27 с помощью некоторых рассуждений можно также
получить, что условие т/п = о (1) необходимо для состоятель-
ности оценок. Здесь эти рассуждения приводиться не будутг.
Отметим, что Bosq, Bleuez (1978) и Bleuez, Bosq (1979) показали,
что для плотностей f £ £a [—л, л], ряд Фурье которых сходится
всюду, и в предположении, что lim т = оо, следующие условия
эквивалентны:
(О fn -*• f по вероятности при любых х и любых заданных f\
(ii) £ (|/n —/|)-> 0 при любых х и любых заданных /;
(iii)	£ ((/п — fy) 0 при любых х и любых заданных
(iv)	£(| (fn —/)2j-> 0 при любых заданных
(v)	lim m/n = 0.
п->оо
Используя имеющуюся информацию (см., например, лемму 2),
читатель может легко доказать этот результат. В цитированных
работах Bleuez и Bosq результаты такого типа получены для
многих проекционных оценок как следствие из очень общей
теоремы.
5.	Скорость сходимости оценки
с тригонометрическим рядом
Из предыдущего параграфа непосредственно следует, что ско-
рости сходимости оценки с тригонометрическим рядом и ядерной
оценки несравнимы. В случае равномерной плотности на [—л, л]
для оценки с тригонометрическим рядом имеем fn — f при tn — 0,
тогда как ядерная оценка не может сходиться к этой плотности
быстрее, чем со скоростью п_,/3. Это же ограничение снизу на
скорость сходимости имеет место для плотностей, представля-
ющих собой смеси равномерной плотности с плотностями, пропор-
циональными (cos х)2', где г — натуральное число, | х | < л.
Для таких смесей оценка с тригонометрическим рядом достигает
скорости сходимости 1/}^п, если последовательность т ограни-
ченна и т 2r. С другой стороны, оценка с тригонометрическим
рядом часто не является даже состоятельной (теорема 1).
5. Скорость сходимости оценки
311
В этом параграфе нашей первой целью является доказатель-
ство того, что при подходящем выборе т оценка с тригонометри-
ческим рядом имеет равномерно ограниченную на классах Лип-
шица W ($, а, С) (см. § 4.2) Lj-ошибку и что граница для ошибки
совпадает с точностью до константы с минимаксной нижней гра-
ницей теоремы 4.6. Этим свойством обладает также и ядерная
оценка. В конце этого параграфа сделаем некоторые замечания
о поведении оценки с тригонометрическим рядом на классах
Бретаньоля — Юбер и классах Соболева. В определении класса
W (s, а, С) заменим интервал [0, 1] на [—л, л) и будем пред-
полагать, что условия Липшица и гладкости на f имеют место
на всей действительной оси (так же, как в гл. 4). Это предположе-
ние очень важно, поскольку оно влечет за собой, что f = 0 в точ-
ках —л и -Ьл и что функция f является достаточно гладкой вблизи
этих точек. Таким образом, нас не будет интересовать эффект
Гиббса (см., например, Hall (1981)).
Исследование скоростей сходимости для фиксированной плот-
ности f оказывается гораздо более трудным, чем в случае ядерной
оценки, поскольку оно зависит от того, с какой скоростью стре-
мится к 0 величина 11 Sm(f) — f | (см. лемму 1), а эта скорость
не связана, во всяком случае явно, с такими обычными количе-
ственными характеристиками, как j | /(г> |. Например, для плот-
ностей с конечным разложением в ряд Фурье трудности начи-
наются при получении нижних границ для средней /^-ошибки.
Лемма 10. Если f — плотность из L2 [—л, л! с коэффициен-
тами Фурье ait то
|5т(/)-/|«/2Я1/ Е at
J	F t=2m+l
Доказательство. В силу неравенства Коши — Шварца и усло-
вия ортонормальности
JI Sm (f) - f I < /2^ ]/ j* (Sm (f) - f)2 = /2^ ]/. Jj+ •
Лемма 11 (неравенство Лоренца; см. также Бари (1961, с. 208).
Пусть f С (0, Q при некотором а £ (0, 11, и пусть коэф-
фициенты Фурье функции f равны ait i 0. Тогда
2 tai < уС2/т2а,
где у = л2а+1/(4“ — 1), т 1.
312
Гл. 12. Проекционные оценки
Доказательство. Для удобства обозначений предположим, что
f — периодическая функция с периодом 2л (доопределим ее вне
[—л, л] по периодичности). Если разложение функции f в ряд
Фурье имеет вид
оо
ао ! 5? / Л cos ix , л sin ix \
то разложением в ряд Фурье для f (х + Л) — / (х — Л) как функ-
ции от х (h — постоянная) будет
оо
n /	sin	cos ix \ , .<
2 Zj ~77=^ — a2i-i-77=- sin lfl-
LJ \	у n	у я /
i—1
В силу равенства Бесселя и условия Липшица
4 2 (4-! + а22{) Sin2 ih = j (f (х + ft) - f (x - ft))2 dx <
1=1	—Л
Л
< f (C(2ft)“)2dx = 2лС2(2Л)2“.
— Л
Следовательно, при каждом т
2m—1
S (a2i-1 + a2i) Sin2 ih с (n/2) 4“C“ft2a.
i—m
Полагая ft = л/4/n и замечая, что sin ih sin (л/4) = 1/}/2_при
m < i < 2m — 1, получим
2VT* /2	2 \	л2а+| C2
/ . (a2.-l + a2i) < 4am2a •
i—m
Таким образом,
OO	OO	• i oo ЛИ2/+1 —1
(4-1 + a2i} = 2 У (a2>-l + a2<) <
i=2m—1 i=m	/=0 l==m2/
Sn2a-j-lc2________Я2а+1С2 t
,=d 4“(m2O201 - 4a/n2“
что и требовалось доказать.
5. Скорость сходимости оценки
313
Лемма 12. Пусть f £ W (s, а, С), где s > 0 — некоторое
целое число и а £ (0, 11. В обозначениях леммы 11
2 а? с yC2/m2s+2a,
1—2т—1
где
Г 4“-4~s
m^ 1.
Доказательство. Заметим сначала, что если f имеет s — 1
абсолютно непрерывных производных и функция /(s> удовлетво-
ряет условию Липшица, то допустимо формальное дифференци-
рование ряда Фурье и f(s) раскладывается в ряд Фурье
S.s(,	1\’/2л COSix I ,	i\S/2„ . sinix \
‘l(_1) ‘"W1 "vr)
при четном s и в ряд Фурье
У Г/(_	sin^ +(_
\	у Л	У Л /
1=1
при нечетном s. Из равенства Бесселя следует
. <=>
Это равенство полезно для дальнейшего. Нетрудно проверить,
что функция /<s) (х + h) — /<s) (х— h) при четном $ и фиксиро-
ванном h раскладывается в ряд Фурье
оо
Г)	/ z	1 \s/2	/ Sin IX \ । z l\S/2 л COS IX \ . • *
2	* ((— О «2i-i (—/и-/ + (— 0	h'
i=i
При нечетном s имеет место аналогичное разложение. Следова-
тельно, рассуждая так же, как в доказательстве леммы 11, по-
лучим
4	(°2г—1 + a2i) i2s Sin2 ih = f (f(s) (x + Л) — fw (x — h))2 dx <
1=1	— Л
< f (C(2ft)“)2dx = 2nC2(2ft)2“.
— Л
314
Гл. 12. Проекционные оценки
Так же как в лемме 11, получаем
2m—1
i’=m
Отсюда
2	=2
i—2m—1 i—m
со m2/~H—1
<2 2 ^‘-i+i2s (m2')~2s <
/=0
Л2а+'С2 /	/х_2а-25 _	Л2а+‘С2
4a	4a(l_4-a-s)m2a+2s ’
что и требовалось доказать.
Теорема 3. Пусть фиксированы a £ (0, 1 ], С > 0 и целое
s 0. Тогда для оценки с тригонометрическим рядом [п, име-
ющей параметр т, выполнено неравенство
sup Е (J I fn - f |) < У 4- с /2^ (^П-)’+“ -
f£U7(s, а. С)	. F п	\m-i-i/
где
„2а+1
V“4a-4~s
— постоянная из леммы12. В частности, если т ~ (Ст/л?2 (а +
+ s))2/(l+2(a+s))nl/(l.+2(a+s)) , mQ
limsup sup Е ([|fn-f|)n<“+s)/<1+2<a+s))<
«-►оо f (s, а, С) VJ	'
« (C/S-V2(« + s))'™«(l+^°+,))/2.
Доказательство. Первое неравенство следует из лемм 8, 10.
и 12. Его правая часть представима в виде суммы и у^т + twi-<a+s>
и членов более высокого порядка малости, если lim т = оо.
___	П~*оо
Здесь и = Vх 2/n, v = Су^2лу, Минимум правой части по т
достигается, если т — решение уравнения
•>.	и — v(a + s) _ л
2 Vm ma+s+1
5. Скорость сходимости оценки	315
Отсюда следует, что желательно выбирать значения т ~ (2ц (а +
+ s)/u)2/(I+2 <a+s)). Подстановка таких т в исходное неравенство
дает требуемый результат.
Замечание. Для важного класса W (0, 1, С) получаем
limsup sup пуз £ (J|fn-f|) </2С-^)'/3/2
n-oo fQWW.l.C)	'	\ ИЗ/
при m ~ (4С®л*/Зп)1/3. Правую часть этого неравенства следует
сравнить с нижней границей теоремы 4.7, заменяя там С на 2лС
(так как теорема 3 верна для плотностей на [—л, л], а не на
[О, 11). Заметим, что верхняя граница теоремы 3 в общем случае
зависит от С и п так же, как минимаксная нижняя граница тео-
ремы 4.6. Чтобы получить аналогичный результат для ядерной
оценки, мы должны были менять ядро в зависимости от s и а.
Здесь, напротив, достаточно лишь настраивать параметр сглажи-
вания tn.
Из теоремы 3 следует, что оценка с тригонометрическим рядом
в принципе может иметь любую скорость сходимости вплоть до
l/y^п — эта скорость зависит от гладкости f. Классы Бретань-
оля — Юбер определяются величинами f | f(s) | и [ y/~f. Из
леммы 8 видно, что для получения на этих классах скоростей
сходимости, сравнимых в асимптотике со скоростями убывания
минимаксных нижних границ, достаточно при некоторых усло-
виях гладкости на f оценить сверху величину f | Sm (f) — f
выражением, пропорциональным j | f(s) |/ms. К сожалению, в пол-
ной мере достичь этого не удается из-за наличия дополнительного
множителя log tn. Такого рода верхнюю границу можно быстро
получить следующим образом. Пусть ACS — класс всех плотно-
стей на [—л, л], имеющих s — 1 абсолютно непрерывных произ-
водных (на действительной оси) и таких, что j |f<s> | < оо. Пусть
Тт — пространство всех тригонометрических полиномов сте-
пени т, т. е. линейных функций от cos ix и sin ix, 0 < i < tn.
Тогда по второй теореме Джексона (см., например, Butzer, Nessel
(1971, с. 97—99))
inf J if-/т| < (-f)s fir I, feAcs.
4 f T J	\ Hl / J	л
Отсюда сразу следует верхняя граница для смещения
f |Sm(f)-f|< f|Sm(f)-/m| + J|/m-f| <	(/т€Тт)
316
Гл. 12. Проекционные оценки
< f lAn I f I/ —*П»| +f If — fml < (неравенство Юнга)
< (3 4- log mj J | f — tm I,	(лемма 4)
и, выбирая наилучшее tm из класса Тт, приходим к следующему
результату.
Теорема 4. Пусть f — плотность на I—л, л 1 из класса ACS,
где s 0 — фиксированное целое число. Тогда для оценки с три-
гонометрическим рядом, имеющей параметр т, справедливо не-
равенство
Е (11 - !\ <	+ (3 -г £ logm) (-£)' j I/"> |.
Первое слагаемое в правой части этого неравенства можно заменить
на (1/ m/лп) (J	+ о (1)).
Таким образом, возникает вопрос о том, действительно ли
существен дополнительный множитель log т. Мы знаем, что
при s = О это так (см., например, теорему 1). По-видимому, и при
s > 0 этот множитель нельзя уменьшить (см., например, Butzer,
Nessel (1971, с. 108) или Quade (1937)). Именно это послужило
для нескольких исследователей препятствием к изучению пове-
дения оценки с тригонометрическим рядом в терминах характе-
ристики j | f<s> |. Так, в Wahba (1975) рассматриваются классы
Соболева, т. е. пространства плотностей f, имеющих s — 1 абсо-
лютно непрерывных производных и таких, что J | f(s> |₽ < Af <
< до, где р > 1—еще один параметр, определяющий класс
Соболева. В своем знаменитом исследовании она сравнивает пове-
дение нескольких оценок плотности на этих классах. Поведение
оценки с тригонометрическим рядом при любых р > 1 легко
проанализировать с помощью неравенства Хаусдорфа — Юнга
(см. Бари (1961, с. 211)), связывающего q-ю норму коэффициентов
Фурье с р-й нормой функции при 1/р + l/q = 1. При р = 2
оно совпадает с равенством Бесселя, и на этом частном случае мы
покажем, как оно применяется.
Лемма 13. Пусть f — абсолютно непрерывная плотность
с носителем, содержащимся в [0, 1 ], и пусть j (f)2 < оо. Тогда
для оценки с тригонометрическим рядом, имеющей параметр т,
справедливо неравенство
Е (f |Л -f |) <	+ т /ЙП’^т.
где у = л3/2/^3.
6. Оценка с рядом Эрмита
317
Замечание. Верхняя граница леммы 13 убывает со скоростью
О (п-1/3), если т возрастает как п1/3. Обобщая приведенные ниже
рассуждения по типу обобщения леммы И в лемме 12, можно
рассмотреть все классы Соболева при р = 2 и получить границы
в терминах величин j (f(s))2. Сравнение этого результата с теоре-
мой 4 сразу показывает, что множитель log т действительно
устранен за счет введения дополнительного условия /<s> £
С L2 [—л, л].
Доказательство леммы 13. Воспользуемся леммами 8 и 10.
Кроме того, применим рассуждения из леммы 11 с некоторыми
изменениями. Иначе, чем в лемме 11, оценим величину
Л
\	-\-К) — f(x — h^fdx.
— Л
Продолжая f снова до периодической функции, мы видим, что
эта величина равна
л fx-\-h \2	л ! x+h \
J J Г dx < J 2ft j (f')2 dx = (2ft)2 J (f')2-
— л \x—h /	— л \x—h	/
Таким образом, можно повторить остаток доказательства
леммы 11, заменяя там формально а на 1 и 2лС2 на ((f)2. В ча-
стности,
i—2m—1
Лемма 13 доказана.
6. Оценка с рядом Эрмита
Оценка с рядом Эрмита, несомненно, является наиболее по-
пулярной проекционной оценкой плотности на действительной
оси (Schwartz (1967), Bosq, Bleuez (1978), Bleuez, Bosq (1979),
Walter (1977), Greblicki (1981)). В этом параграфе мы вкратце
исследуем основные свойства этой оценки. Почти все из приводи-
мых ниже результатов остаются в силе для оценки с рядом Ла-
герра на 10, оо).
Теорема 5 (несостоятельность оценки с рядом Эрмита). Орто-
нормальная система Эрмита не является базисом в Lp при р £
С (1,4/31 и р £ [4, оо). Если fn—оценка с рядом Эрмита,
имеющая параметр тп и частичные суммы Smn (/), и если
lim/nn = oo, | тп — mn_i | < 1, Vrt>
rt-*oo
318
Гл. 12. Проекционные оценки
то найдется плотность f, такая, что
lira sup ( | Sm (f)-f| = oo
n->oo J	’ •
и, следовательно,
lim sup £(j |/„ - f|) = oo.
/1-+-ОО
От условия на Lp здесь нельзя легко избавиться, что явствует
из следующего классического результата анализа.
Лемма 14 (Askey, Wainger (1965); см. также Muckenhoupt
(1970)). При любых f £ Lp, р £ (4/3, 4) имеем
Hmf|Sm(f)-f|p = O.
При любых р Ф (4/3, 4) существует функция f £ Lp, такая,
что
limsup J |Sm(f) —/1₽>0.
Лемма 15 (границы Сковгарда; см. Askey, Wainger (1965,
с. 700)). Пусть pt есть i-я функция ортонормальной системы
Эрмита. Тогда существуют положительные постоянные С1( С2,
С3, С4, не зависящие от i и х, такие, что

при любых X, I,
при любых | х | с 1^41, 11 х | — ^211 > (2t)-l/6
С2 ехр (— С4х2) при любых | х ] уЛи.
Доказательство теоремы 5. Так как Sm — линейный оператор,
то для любых функций flt имеем
j I (fl + A) - (fl + A)l < J I Sm (fl) - f 1 I + J | Sm (f2) - f2 |.
Полагая Д — (f)+, f2 = (/)_, где f £ Lr — некоторая функция,
легко видеть, что достаточно доказать соотношение
lim sup f |Sm (f) —f | = оо, где f £ L, — некоторая функция.
Л-*оо J ’	1
В силу принципа равномерной ограниченности х) (см., например,
Теорема Банаха—Штейнгауза (см., например, Люстерник Л. А., Собо-
лев В. И. Краткий курс функционального анализа. — М.: Высшая школа, 1982,
с. 116). — Прим, перев.
6. Оценка с рядом Эрмита
319
Butzer, Nessel (1971, с. 18—19)) доказательство будет завершено,
если показать, что
f|Sm(f)|
sup sup ------ = OO.
m ffZLi J|f|
Будем теперь рассуждать от противного. Если предположить, что
существует конечное М, такое, что j |	< М J |/ | при лю-
бых т, f £ Llt то
flSmtf)- Sm-l(f)l=j|Wm| <2М jin-
Но J |ampm| = | j I Pm I- Мы знаем, что для некоторой
функции f £ Lt выполнено
I	l/leSSSUPlPml>
так что
esssup |pm| j |	| < 4Л4.
Ясно, что последнее невозможно, поскольку ess sup | рт | >•
> ст~1/12 при достаточно больших т и некотором с > 0 (точная
верхняя грань достигается приблизительно при х = и
j | рт |	с/n’/4, /п > 1, где с > 0 — некоторая другая постоян-
ная. (Эти соотношения следуют не из границ Сковгарда, по-
скольку последние неточны, а из точных границ (Askey, Wainger
(1965)).) В этом заключается требуемое противоречие. Заменим
теперь т на тп и потребуем, чтобы последовательность тп стре-
милась к бесконечности и модуль разности | тп — тп_х | не пре-
восходил 1 при каждом п. Тогда limsup | I Smn (/) — /I = оо для
некоторой функции / Е М-
Первое утверждение теоремы 5 здесь не доказывается.
Лемма 16. Пусть fn — оценка с рядом Эрмита, построенная
по независимой выборке Х1( ..., Хп из совокупности с плотностью f.
Тогда
lim (|/„(х + а, Xi + «....Хп-}-о)| = 0
а-*оо J
почти наверное при любых п^ 1 и любых параметрах m > 1 и
HmE(J|A,(x + a, Xt+a, .... Хп + а)|)=0.
320
Гл. 12. Проекционные оценки
Доказательство.
j I fn (* +	Хп + #)|<
п
т
1=0	/=1
<
п т
<422 | pi (X; 4- а)| J I pi I с (т + 1) sup j | pt | sup | pt (Х;+а) |.
/=1 1=0	1	z
Но величина sup j | pt | конечна в силу границ Сковгарда (лемма 15)
и sup | Pi (Xj + а) | -> 0 при а -> оо тоже в силу леммы 15.
Лемма 16 доказана.
То, что оценка с рядом Эрмита, возможно, не является транс-
ляционно-инвариантной, следует из леммы 3 о проекционных
оценках на действительной оси. Свойство, указанное в лемме 16,
довольно неожиданно, поскольку, казалось бы, нельзя ничего
гарантировать относительно величины [ | fn |, не говоря уже
о J fn. Учитывая еще и теорему 5, заключаем, что оценка с рядом
Эрмита, по-видимому, плохо приспособлена для оценивания плот-
ностей общего вида на действительной оси.
Оценка с рядом Эрмита состоятельна в Lp при любых р £
С (4/3, 4), f С Lp. В лемме 17 это будет показано при р — 2.
Доказать сходимость в Lx затруднительно по той причине, что,
так как интегрирование ведется по R, нельзя оценить сверху
J I (f) — f I с помощью неравенства Гёльдера через некоторую
Lp-норму функции Sm (/) — f- Можно близко подойти к сходи-
мости в Lx, используя другие приемы. Muckenhoupt (1970) пока-
зал, что при фиксированных b > 0, В b + 1/3 выполнено
соотношение
pSm(f)-f| . Q
J Н + |х||6
оо,
где предполагается, что J f logj<.oo, J/l-Ч *°8+/ <.°°»
J/|x|B+2<oo. К сожалению, здесь нельзя положить b = 0,
В = 1/3.
6. Оценка с рядом Эрмита
321
Лемма 17 (сходимость в £а оценки с рядом Эрмита). Пусть
fn — оценка с рядом Эрмита, имеющая параметр т, и пусть
limm = oo, НтД-=0.
П->оо	n-*oo n“
Тогда E (— Л2) -*0 при n —oo для любых плотностей f
из L2.
Доказательство. В силу леммы 2 и равенства Бесселя (см.
также лемму 14) видно, что достаточно доказать сходимость к О
дисперсионного члена £	(/« — £(Л))2) .Она следует из того, что
т
f f^Pl = о(п).
1=0
При | х | > 4т в силу границ Сковгарда имеем
S pl с (т 4- l)Cjexp (—2С4х2) < (т 4- 1)Сз ехр (—864/77),
(=0
так что
т
j _ 7	=о(с-"') = oW.
| X I > /4/71	1=0
Далее, введем
tn
Ят (х) ~	) ^1| х | < /4т, | | х | - /2? | < (2i)_,/6J’
t=l
Тогда в силу леммы 15
tn	tn
J	+ 5>.-,'4)1 +
I x К /4m t==1	t=1
tn
4-- 2Сзехр(-8С40 = /, 4- /2 4- /3.
1=1
Ясно, что /3 = О (1). Кроме того, /2 — О т) = о (п). Наконец,
нетрудно показать, что индикаторная функция в определении
q,n (х) отлична от нуля для почти 65/тг|/3 индексов i равномерно
по всем | х | < /4т, где 65 > 0 — заданная постоянная. Таким
образом, qm (х) = О (ттг5/18) = о (п) равномерно по таким х, и лемма до-
казана.
21 Деврой Л.» Дьёрфи Л.
322
Гл. 12. Проекционные оценки
Замечание. Лемма 17 была получена в работе Schwartz (1967)
при более сильном условии т = о (п) и в работе Greblicki (1981)
при условии т = о (п6^5). Необходимость условий на т, указан-
ных в лемме 17, для сходимости при любых f Е L2 получена
Bleuez, Bosq (1979).
Замечание. До сих пор мы не рассматривали вопрос о пото-
чечной сходимости оценки с рядом Эрмита. На основании теоремы
Карлесона — Ханта в Muckenhoupt (1970) доказано, что Sm (/)
при почти всех х, если | f (log+ /)2 < оо. Этот результат вместе
с границами Сковгарда можно использовать для доказательства
поточечной сходимости данной оценки.
Замечание. Оценка с рядом Лагерра очень похожа по своему
поведению нд оценку с рядом Эрмита. Важные сведения о смеще-
нии оценки с рядом Лагерра имеются в работах Askey, Wainger
(1965) и Muckenhoupt (1970а, b, с).
; 7. Оценка с рядом Лежандра
Предложение использовать при оценивании плотности оценку
с рядом Лежандра принадлежит Crain (1974) и Hall (1982) (см.
также Viollaz (1980)). Эта оценка сходится и расходится при
условиях, во многих отношениях похожих на соответствующие
условия для оценки с рядом Эрмита. Последнее становится оче-
видным после сравнения леммы 14 со следующим результатом.
Лемма 18. Полиномы Лежандра образуют базис в Lp [—1, 1 ]
тогда и только тогда, когда 3/4 < р < 4. Для f С Lp I—1, 11>
3/4 < р < 4, имеем
j|Smtf)-/|₽-0
при т -> оо. Для каждого р (3/4, 4) существует функция f
из Lp [—1, 1], такая, что
limsup Г | Sm(f) —/|р>0.
/П->оо J
Лемма 18 принадлежит Pollard (1947) и Newman, Rudin (1952).
Она была распространена на полиномы Якоби в работах Pollard
(1948, 1949); см. также Muckenhoupt (1969). Так как мы в основном
интересуемся метрикой Llt то, по-видимому, полезно будет при-
вести пример плотности, которую нельзя оценить посредством
оценки с рядом Лежандра.
7. Оценка с рядом Лежандра
323
Теорема 6 (несостоятельность оценки с рядом Лежандра).
Рассмотрим плотность
=	И<1-
Тогда плотность f принадлежит Lv [—1, 11 при любых р £
6 (1,4/3),
lim inf ( J | Sm (f) - f | 4- J | Sm+l (f) - f |) > 0,
lim sup I | Sm (/)-/|> 0,
m-*oo J
Jnf (e (J\fn,m ~f |) + E ( J -f|)) ^>0,
где fn> m — оценка с рядом Лежандра, имеющая параметр т
и объем выборки п.
Доказательство. Легко проверить, что f £ Lp, 1 < р < 4/3.
Остальные утверждения теоремы следуют из леммы 1 и соотно-
шения
+	j|Sm(f)-Sm_1(f)| = |am|J|pm|,
где am > Л! + о (1), ] | рт | > Л2 + о (1) при т -> оо и Лъ Л2 —
положительные постоянные (см. Szego (1975, с. 256 и с. 173
соответственно)).
Замечание. В теореме 6 мы подошли близко к доказательству
того, что
infE({ |fn,m-f|) >0
для указанной плотности f. В этом доказательстве нужны гораздо
более сложные рассуждения.
Теорема 7 (состоятельность оценки с рядом Лежандра).
Если f — плотность на [—1, 11, f £ Lp [—1, 11 при некотором
Р > 4/3,
j (1 -x2)-1/2f(x)dx<oo,
-Л
lim/n = oo, lim—= 0,
П~*-со
21*
324
Гл. 12. Проекционные оценки
то
\ыЕ (j |fn-f|) = О,
где fn — оценка с рядом Лежандра, имеющая параметр т.
Доказательство. Если р ;> 4, то положим р* = 2, в против-
ном случае р* = р. Определим q равенством 1/р* + 1/q = 1. В силу
леммы 18 и неравенства Гёльдера
j |5m(f) - f| < 2'* (J |Sm(f) -/Г)'/Р* + 0
при т -+ оо. Учитывая лемму 1, неравенство Коши — Шварца
и лемму 2, получим
Е (J |fn - ЕДП)|) с j /E((fn-E(fn))2) <
_____________________________ /	т
</2 j£((fn-E(fn))2)</2|/
По первой теореме Стилтьеса (Sansone (1977, с. 199))
«/1+-L 4/4(11^1.
Г	I Т л	ул
Так как р0 = 1/]/2, эта граница верна и при i = 0. Следова-
тельно,
т
2р1<(/п + 1)-^(1-хТ1/2>
4=0
так что Е Q |fn — E(fn)|) ->-0.
Ни одно из условий сходимости в теореме 7 нельзя полностью
исключить. Холл (Hall (1982)) приводит убедительные аргументы
в пользу оценки с рядом Лежандра, в частности то, что для нее
достаточно небольшого числа членов разложения, чтобы обеспе-
чить хорошую скорость сходимости в L2 I—1> 11 для определенных
классов плотностей. Вопрос о скорости сходимости здесь не рас-
сматривается. Отметим еще, что оценка с рядом Лежандра не
является трансляционно-инвариантной, но тем не менее J fn = 1
при любых п, т.
8. Сингулярно-интегральные оценки
325
8. Сингулярно-интегральные оценки
Сингулярно-интегральная оценка плотности f с ядром Кт
определяется соотношением
1 п
fn(x)=±-%Km(x-X}').
/=1
Частными случаями оценок такого вида являются ядерная оценка
и оценка с тригонометрическим рядом (для которой Кт — ядро
Дирихле). Для большей общности можно было бы писать Кт (х, Х})
(при некоторых условиях на Кт такие оценки называются оцен-
ками типа дельта-функции Дирака, см. Walter, Blum (1979)),
но требование трансляционной инвариантности заставляет рас-
сматривать только случай, когда слагаемые имеют,вуд Кт (х —
— Xj). Мы будем заниматься оцениванием только'плотностей
на [—л, л], накладывая на Кт следующие ограничения:
Л
Кт(х) = Лт(—х);	J Кт = 1; Кт~ периодическая функция с
-л
л
периодом 2л; j | Кт I < °° • (1)
-Л
Ввиду периодичности Кт интеграл от Кт по действительной оси
равен оо, так что ядерная оценка уже не является частным слу-
чаем сингулярно-интегральной оценки с ядром, удовлетворя-
ющим условиям (1).
Исследование сингулярно-интегральных оценок проведем
обычным образом. Сначала покажем, что можно выбрать такие
последовательности ядер, что сингулярно-интегральная оценка
состоятельна при любых / £	(—л, л]. Можно даже выбрать
все ядра Кт неотрицательными, так что fn будет плотностью
на [—л, л] при любых п, т. Затем исследуем скорость сходимости
оценок и заметим, в частности, что если Кт 0, то так же, как
в случае ядерной оценки, средняя £гошибка не может стремиться
к 0 быстрее, чем /г2/5.
Прежде всего дадим несколько определений. Определим син-
гулярный, интеграл Sm (f) (или Sm (f, х)) соотношением
Л
Sm(f)= р(х — и)Кт(Ц)<1и,
 -л
где функция / продолжена на К по периодичности. Остается в силе
неравенство Юнга
J |5m(/)|< J |/| J |Кт|-
326
Гл. 12. Проекционные оценки
Будем говорить, что Кт — дельтаобразная последовательность г),
если выполнено условие (1) и
sup <С<оо,	(2)
т J
Ит (	\Km(u)\du=0	(3)
m">0° d < I и I < Л
при любых б > 0. Последовательность Кт называется сильно
дельтаобразной последовательностью* 2), если вместо (3) выпол-
нено условие
lim sup |Кт(и)| = 0	(4)
tn^oo д < | U | < Л
при любых 6 > 0.
Лемма 19. Для любых дельтаобразных последовательностей
и любых f £ Lx [—л, л] имеем
J is,„(f)-/Но
при т —> оо.
Доказательство.
л
sm(f) - f = J (f (x - и) - f (x))
-Л
Л
Пусть g(u) = j |f(x — u) — f(x)\dx. По неравенству Юнга
-Л
л
J|Sm(D-/l< \g(u)\Km(u)\du<
-Л
<	[ supg(v)\ Кт(и)\du ±
+ f	[|f| « C sup g(n) 4-o(l).
x) В оригинале approximate identity (этот термин дается co ссылкой на
Butzer, Nessel (1971, с. 31)). —Прим, перев.
2) В оригинале strong approximate identity. — Прим, перев.
8. Сингулярно-интегральные оценки
Но мы знаем, что lim g (v) = 0 при любых f £	[—л, л].
Лемма 19 доказана.
Теорема 8 (состоятельность сингулярно-интегральных оценок).
Пусть fn — сингулярно-интегральная оценка с параметром т,
таким, что lim т = оо. Предположим, что последователь-

ность ядер Кт — дельтообразная и что \ Кт = о (п) при п -> оо.
Тогда

при п оо для любых плотностей f на [—л, л].
Доказательство. В силу леммы 19 достаточно доказать,
что Е (J| fn — Е(fn)|) при п -> оо. (Заметим, что Е(/n) = Sm (/).)
Применяя дважды неравенство Коши — Шварца, получим
£(Jlfn-f(fn)l) =
= IЕ (4- 2{Кт (х ~ Xj) -Е (Кт (х -Х;)))) *
< J /ar(Кт(х - X,)) < /2л /4 J Var (Кт(х - Хх)) <
J/G
где все интегралы берутся по [—л, л]. Теорема 8 доказана.
Ранее мы уже встречались с дельтаобразными последователь-
ностями. Например, ядра Фейера
неотрицательны и образуют дельтаобразную последовательность.
Чтобы убедиться в этом, вспомним, что в силу леммы 4 J Fm = 1,
J |	| = 1 и J Fm (и) du < J л (2/nw2)"1 du < л x
ft < I U I < Л	6 < I // I < я
x (2m6)“1->0 при m->oo для любых 6>0.
Последовательность Dm, напротив, не является дельтаобраз-
ной ввиду теоремы 1 или леммы 4. Приведем краткий перечень
328
Гл. 12. Проекционные оценки
дельтаобразных последовательностей. Все они, за исключе-
нием двух, тоже неотрицательны.
(i)	Ядро Рогозинского (Butzer, Nessel (1971, с. 56))
— {рт (х + 2m + 1 ) Т Dm (х — 2m + 1 )) 
(ii)	Ядро Джексона (Butzer, Nessel (1971, с. 60—61))
_____________________3__________/sin (mx/2)x4
2лт (2m- +1) \ sin (x/2) /
(iii)	Ядро Фейера — Коровкина (Butzer, Nessel (1971, c. 79—
80))
sin2 (n/(m + 2)) / cos ((m + 2) x/2)	\2
я (m -H 2) \cos (я/(т + 2)) — cos x /
(iv)	Ядро Валле-Пуссена (Butzer, Nessel (1971, c. 112))
ml2 In >z4£, / X \\2m
2n(2m)l \ C0S\2//	’
(v)	Ядро Джексона — Валле-Пуссена (Butzer, Nessel (1971,
с. 131)
2 + cosx /sin (mx/2)\*
4nms \ sin (x/2) )
(vi)	Второе ядро Валле-Пуссена (Butzer, Nessel (1971, c. 108))
(1 + 2 cos mu) Fm_i (и).
Сингулярно-интегральные оценки Фейера, Рогозинского и
Фейера — Коровкина исследованы и сравнены друг с другом в
в работе Hall (1983). Некоторые свойства сингулярно-интеграль-
ной оценки Фейера получены в работе Krzyzak, Pawlak (1982).
При определенных условиях непрерывности на f и при оптималь-
ном выборе т скорости сходимости средней Л2-ошибки ядерной
оценки и сингулярно-интегральной оценки Рогозинского совпа-
дают, но асимптотическая константа для последней меньше (Hall
(1983)). Это неожиданное замечание вдохновляет нас на исследо-
вание сингулярно-интегральных оценок и побуждает провести
анализ их скоростей сходимости в Lx. Прежде чем приступить-
к этому, мы хотели бы указать на тесную связь между сингулярно-
интегральными оценками и оценкой с тригонометрическим рядом.
Сингулярно-интегральные оценки часто можно записать в виде
оо
Г / \ I \ ч / cos ix , л sin ix \ А г-
~ 2^+ / ,	у- ।
1=1
8. Сингулярно-интегральные оценки
329
где ani те же самые, что и для оценки с тригонометрическим
рядом, т. е. это обычные оценки коэффициентов Фурье аг функции f
по тригонометрической системе. Такое представление сингулярно-
интегральных оценок следует из разложения
оо
„	/ ч 1 I	A COS iu
К’п ~ 2л + / । kmi /л ’
(=1
справедливого для любых четных ядер, ряд Фурье которых схо-
дится, и формулы cos (i (х — у)) = cos ix cos iy + sin ix sin iy.
Таким образом, величины в определении fn являются коэффи-
циентами Фурье ядра Хт-
Данное представление для fn особо интересно с практической
точки зрения в случае, когда коэффициенты Xmi равны нулю при
всех достаточно больших i. При этом удобно вычислять и запоми-
нать значения ani вместо Xj.
В работах Watson (1969) и Rosenblatt (1971) предложены сгла-
оо
женные проекционные оценки вида A.m/an<pi( где веса Kmt
играют роль сглаживателей. Ясно, что при kmi =1, i < т,
Ъп1 = 0, i > т> никакого сглаживания нет, и мы получаем снова
проекционные оценки. Сглаживание полезно во многих отноше-
ниях: грубо говоря, при правильном сглаживании получаются
оценки, состоятельные в L, для любых плотностей. Примером
являются сингулярно-интегральные оценки с дельтаобразными
последовательностями ядер. Однако мы теряем в точной настройке,
т. е. для определенных классов плотностей скорость сходимости
сглаженной оценки ниже, чем скорость сходимости исходной
проекционной оценки. Это тоже будет показано-в данном пара-
графе. Интересно, что Ватсон (Watson (1969)) нашел наилучшие
коэффициенты Xmi при фиксированно,м п в смысле минимума
критерия (fn —f)2]. Они имеют вид
а?+ (!/«) (j fP2i — а?)
(что проверяется в две строчки). К сожалению, от этого мало
пользы, поскольку величины а; не известны и речь идет
об £2-ошибке. В литературе имеются различные предложения
относительно выбора коэффициентов Xmi в общем случае и для
конкретных ортонормальных систем; см., например, Whittle
(1958), Fellner (1974), Brunk (1977, 1978), Kronmal, Tarter (1968)
и Wahba (1978). Зачастую дается различное обоснование этих
предложений. Так, в работах Brunk (1977, 1978) применяется
330
Гл. 12. Проекционные оценки
байесовский подход, использующий априорную информацию,
что kmt имеют вид с,/(сг + 1/п), 1 с i < п. В Wahba (1978) рас-
сматриваются оценки, для которых Xmi = (1 + ci₽)-1, I < 1 < п,
где с, р > 0 — постоянные. Формула Ватсона сразу наводит на
мысль об адаптивных методах выбора коэффициентов Xmi. Адап-
тивные варианты проекционных оценок и их сглаженных версий
рассматриваются, например, в работах Kronmal, Tarter (1968),
Tarter, Kronmal (1976), Crain (1973), Asselin de Beauville (1978)
и Wahba (1977, 1978).
Вернемся теперь к сингулярно-интегральным оценкам, т. е.
сглаженным оценкам с тригонометрическим рядом. Рассматривай
ядро Дирихле
D’"W = i + 24C0Stx-
заметим сразу, что
_ I 1/-/л, 1 с i с tn,
^mi | л ;
(	0,	t^>m.
Приведем еще несколько примеров.
(i)	Ядро Фейера
1 — z/(nr -f- 1),
1 с i с т,
i>tn.
(ii)	Ядро Рогозинского
^mi г Я
1 ci т,
(iii)	Ядро Фейера — Коровкина
+ sin (n±±^)-(m-t-+l)sin («^)

2(OT + 2)sin(^)
1 < i c m,
i >m.
(iv)	Ядро Валле-Пуссена
ml2
8. Сингулярно-интегральные оценки
331
(v)	Второе ядро Валле-Пуссена

1,
2 — i/(2m -f- 1),
О,
1 с i < т,
m<zi <2т — 1,
i > 2т.
Веса Xmi играют важную роль в исследовании скоростей схо-
димости сингулярно-интегральных оценок. В следующей лемме
приводится основное неравенство, из которого мы будем исходить.
Лемма 20. Пусть Sm (/), S*m (f) — сингулярные интегралы
для f с ядрами Кт и К?т / J Кт соответственно, и пусть fn — сингу-
лярно-интегральная оценка с ядром Кт. Тогда
(5)
для любых плотностей f на I—л, л]. Если Кт / jКт — дельта-
образная.последовательность, то граница сверху равна j | Sm (/) —
-я+(j //+«(1))(И /п)'/2 . Все интегралы берутся по
[—л, л].
Доказательство. Вернемся к доказательству теоремы 8 и за-
метим, что справедливы неравенства
Е (J \fn - Е (М) < J / E^Kl(x-xS}dx =
= rt’l/2 J /J - y)f(y)dydx <
< n‘1/2 J // /J Km + n'/2 J / |J K2m(x - y)(f(y) - f(x))dy\dx
Последнее слагаемое здесь не превосходит величины
Л"'/2 / J Ki f /|5WWi < П'1/2 / J К2т У \ | S^f) -ЙЧ.
которая равна о малому от первого слагаемого, если Кт / (Кт—
дельтаобразная последовательность (лемма 19).
332
Гл. 12. Проекционные оценки
Замечание. Если Кт — дельтаобразная последовательность и
\	sup sup 7<m(w) / f Кт<оо,	(6)
т и	I J
то Кт / JКт — дельтаобразная последовательность.
Начиная с этого места, мы будем заниматься только оценкой
величины| | Sm (/) — f |, а стандартные рассуждения о выборе т
из условия минимума верхней границы леммы 20 предоставим
читателю. Из леммы 20 можно, разумеется, получить нижние
границы как для фиксированной плотности f, так и равномерные.
Например, если [ | Sm(f) — /| = О(т~а) и sup | Кт(ц)\ — О(т₽)
J	и
при некоторых а, 0 > 0, то при т ~ я1/(₽+2а> получим
£(Jl^~^)=0(n‘“/(₽+2a>)-
Для всех ядер (за исключением ядра Валле-Пуссена, для которого
§ = 1/2) имеем Р = 1. Напомним, что важными значениями a
являются a = 1 и a = 2. При этих значениях а и ядрах, для ко-
торых р = 1, достигаются скорости сходимости п-1/3 и и-2/5 соот-
ветственно. Оставшаяся часть этого параграфа в большой степени
посвящена вычислению а для широких классов плотностей и ядер.
Напомним, что ACS — класс всех функций f £ Lx [—л, л],
имеющих s — 1 абсолютно непрерывных производных и таких,
что j | f(s) | < оо. Хотя все последующие утверждения верны,
если эти условия выполнены для периодического продолжения /,
мы будем считать, что они выполнены для исходной плотности f
как функции на действительной оси. Это позволит затем провести
содержательное сравнение сингулярно-интегральных оценок с дру-
гими.
Следуя Butzer, Nessel (1971), определим модуль непрерывности
в функции f Li [—л, л ] соотношением
<о(Л 6)= sup [ |/(x + ft)-/(x)|dx, 6>0,
lftl<6-л
и модуль непрерывности в второго порядка соотношением
<o*(f, 6)= sup [|/(x + ft) + /(x-/i)-2f(x)|dx, S>0.
|Л|<6 i
8. Сингулярно-интегральные оценки
333
Напомним также определение классов Липшица W (s, а, С) при
а £ (0, 1 ], С > 0 и целых s 0: W (s, а, С) — класс всех плот-
ностей из ACS, для которых
k(s)(x)-f(sM<C|«/-x|a
при любых х, у £ R.
Лемма 21 (границы для модулей непрерывности в LJ.
А.	со* (Д б) с 2<о (/, б) при любых б > 0 и <о (Д б) -> 0 при
6 | 0 для любых f £	[—л, л].
В.	При f £ № (0, a, С) имеем
б)с2лСб“, и*(Д б)<4лСб“, б>0.
С.	При f С W (1, a, С) имеем
6)<2лСба+1, б>0.
D.	При f £ АСг имеем
о)(Д б) < б J | f |, ®*(Д б) < бо)(Д, б),
<о*(Д б)<2б||Д|, 6>0.
Е.	При f £ АС2 имеем
<о*(Д б)<б»| |Г|, б>0.
Доказательство этой простой леммы опускается. В лемме 22
будут получены верхние границы для j | Sm (f) — f | в терминах
модуля непрерывности в Lx второго порядка. Нам понадобятся
величины
rmi = 1 — /л%гоЬ
Лемма 22. Если Кт — четное ядро, то
Л
J|Sro(O-f|< |<0*(Д u)\KM\du
о
при любых f С М I—л, л]. Если — четное неотрицательное
ядро и f С М I—л, л], то
где А = (1 4- л/}/2)2/2 — универсальная постоянная.
334
Гл. 12. Проекционные оценки
Доказательство. Заметим, что
л
5m (/)-/= J (f(x + и) + f(x -и)- 2/(.v)) Km(u)du,
о
так что
j|5m(f)-/| С u)\KM\du.
о '
Для доказательства второго утверждения леммы 22 потребуются
некоторые дополнительные рассуждения. Имеем
J и(i) 2Кт (u) du < j л2 sin2 (и/2)	(и) du =
-л	-л
= \ ^-(1 - COSй) Кт(и)du = -^-(1 - Хт1 Ул) = л2гт1/2
-Л
И
л	/л	л	\ 1/2
J |u|Km(u)du < I fu*Km(u)du j | Km | j с л /гт1/2.
Л-	\-л	-Л	/
Используя тот факт, что со (/, /6) с (1 + t) со (/, б), со* (f, /б) <
< (1 + /)2 со* (/, б), t, б > 0, получим
л
j I Sm(f) - f I < CO* (f, ±) j (1 + Zu)2 Km(u)du <
0
< co* (f, 4) 4- + 2/ j uKm (u) du 4-t2 j u2Km (u)du) <
\	0	0	/
C CO* (f, 4) (r + VrJT + V •
Подставим сюда значение \/t = У rml.
Величина rml характеризует точность оценивания с неотрица-
тельным ядром: меньшим значениям гт1 соответствует меньшее
смещение при одних и тех же условиях непрерывности на f. При-
ведем значения rmi для некоторых из указанных выше ядер.
(i) Ядро Фейера rml = l/(/n + 1).
(ii) Ядро Джексона гт1 = 3/(2т2 + 1).
(iii) Ядро Фейера — Коровкина гт1 = 1 — cos (л/(т + 2)) <
< л2/2т2 (и гт1	л2/2т2).
8, Сингулярно-интегральные оценки
335
(iv) Ядро Валле-Пуссена rml = l/(m + 1).
(у) Ядро Рогозинского гт1 ~ л2/8тг.
(vi) Второе ядро Валле-Пуссена гт1 — 0.
Ядра (у) и (vi) принимают отрицательные значения, и потому их
нельзя сравнивать на основе второго утверждения леммы 22.
Исходя из леммы 22 и перечисленных значений гт1, заключаем,
что ядра Джексона и Фейера — Коровкина — более мощные, чем
ядра Фейера и Валле-Пуссена. Объединяя леммы 21 и 22, получим
следующие явные границы:
Теорема 9 (границы для смещения). Пусть Кт >0 — четное
ядро и rml < CJrnP при некоторых Clt р > 0. Тогда смещение
j | Sm (f) — /| не больше, чем
4nACCi/2m-pal2, f£W(Q,a,C),
2лДСС{“+1)/2т’р <0t+1)/2, f е W (1, а, С),
2А-/С'1\\Г\т-р/2, f^ACx,
АС^Пш-р, f£AC2,
где А — постоянная из леммы 21.
Объединяя теорему 9 с границами теоремы 8 или леммы 20,
убеждаемся, что при некотором выборе т сингулярно-интеграль-
ные оценки Джексона и Фейера — Коровкина удовлетворяют
соотношению
е (11/"-Н) =0(n-(s+o)/(1+2(s+a))),
где a £ (0, П, $ = 0 или s — 1. Итак, на классах Лип-
шица с параметрами s = 0 и s = 1 величина Е Q |fn — равно-
мерно ограничена сверху произведением минимаксной нижней
границы для этих классов на постоянную, не зависящую от С и п.
Таким образом, эти оценки ведут себя так же, как ядерная оценка
с неотрицательным ядром. При фиксированной плотности f асимп-
тотическое поведение границ из леммы 20 и теоремы 9 тоже сходно
с поведением аналогичных границ для неотрицательных ядерных
оценок, например они одинаковым образом зависят от J у/,
J|f' |(/С ACi) и от J | f" | (f £ AC2). К сожалению, при > 0
мы сталкиваемся с теми же ограничениями, что и в случае ядерной
оценки. Это вытекает из следующей леммы, взятой из Butzer,
Nessel (1971).
336
Гл. 12. Проекционные оценки
Лемма 23 (ограниченные возможности сингулярно-интеграль-
ных оценок). Пусть ядро Кт удовлетворяет следующим условиям:
(i)	= 0 при i > т (или при I > ст с некоторым с > 0),
(ii) lim inf mprmk > 0 при некотором р > 0 и всех Л > 1.
П->оо
Тогда если
lim inf т» -/| = 0
для некоторой плотности f на [—л, л], то f (х) = 1/2л почти
всюду. |х| < л. Если ядро Кт удовлетворяет условию (i) и не-
отрицательно, то для любых функций f £ Lr [—л, л], не равных
почти всюду постоянной,
lim inf т2 f | Sm(f) — f | > 0.
Доказательство. Заметим, что Sm(f) — тригонометрический
полином степени, не большей т (т. е. линейная комбинация функ-
ций sin kx, cos/гх, k < m). Кроме того,
Г с ,£ ч cosfev ,
j S,n(f, x)-y=-dx =
1 < k c m,
k>m,
ч sin kx ,
1 с/г < m,
k>m.
Таким образом,
f (Sm(f, x) - f (x))(c..0Sfex--risin^Adx =	- 1)(a2ft_x - ia2k),
J	\ V n /
где i — мнимая единица. Следовательно,
j7=- J I Sm (f) - f I SS I - 1 I /Й2А-1 +	= | r,nk \V dik-\ + alk.
Пусть сначала a|*-i + alk — 0 при любых k Ф 0. Тогда ясно, что
Sm (f, x) = 1/2л при любых т и f (х) - 1/2л при почти всех х,
поскольку функция f однозначно определяется своими коэффи-
циентами Фурье. С другой стороны, если a^-i + alk > 0 при
данном k =/= 0, то
,	. f (\Sm(f)~ f\	r- ----------5- '
hm inf -—_— -----is/л j/ 4-	> 0
/n-*oo	I I
8. Сингулярно-интегральные оценки
337
при этом k, откуда следует первое утверждение леммы. Для до»
казательства второго утверждения воспользуемся неравенством
из Boas, Кас (1945), согласно которому
X'mft COS (f/n/Jfe) + 2) ’
1 с k < tn,
если ядро Кт удовлетворяет условиям леммы 23. Таким образом,

11 m-i"f IГ,пк ।	’Т?"f 2 Wk] 4- 2)«	2
Теперь применим первое утверждение леммы при р = 2.
Таким образом, в случае неотрицательных Кт величина
j | Sm (/) — f I не может быть меньше, чем О (т~2), ни при каких
условиях гладкости на f. Это значит, что при использовании таких
ядер можно выиграть по сравнению с ядрами Джексона или
Фейера — Коровкина разве лишь в постоянном множителе.
Остается надеяться только на то, что смещение уменьшается при
ядрах Кт с отрицательными значениями. Это будет показано
далее.
В лемме 23 содержится много информации о наилучших ско-
ростях сходимости. В частности, для ядер Кт^>0, удовлетворя-
ющих условию (i) леммы 23, имеем
lim inf т2 |"|Sm(/)	sup/л-^- yfa«-i +Q24>
/П-*ОО	J	k>\	Z
где правая часть равна бесконечности, если
lim sup k21 ак | = оо.
k-*oo
В случае ядер Фейера и Валле-Пуссена и не постоянной f
смещение ограничено снизу некоторой постоянной, деленной
на т. В теореме 9 такие же границы получены только для классов
W (1, 1, С) и АС2. На самом же деле сингулярно-интегральная
оценка Фейера имеет смещение О (1/тп) при f £ ACS и при / £
£ W (1, а, С) для любых а > 0. Таким образом, применение
теоремы 9 иногда приводит к неоптимальным границам. Для
получения верхних границ правильного порядка можно исполь-
зовать первое неравенство леммы 22. Это будет показано ниже
на примере сингулярного интеграла Фейера.
22 Деврой Л., Дьёрфи Л.
338
Гл. 12. Проекционные оценки
Лемма 24. Пусть Sm (/) — сингулярный интеграл Фейера
для плотности f на [—л, л]. Тогда
J|Sm(/)-/| =
О (1/m),	/€ №(1, а, С) при любых а£(0, 1]или f£ ДС2,
= О (log mini), f£W(0, 1, С) uMif^ACi,
, О (т~“), f £ W (0, а, С), а £ (0, 1).
Доказательство. Воспользуемся такими же оценками, как
в Butzer, Nessel (1971, с. 81). В силу леммы 4
12а-,л (т + 1)1-а, 0<и <. \/т, 0<а < 1,
2ли Fm(u) |я2ыа-2(т - I)-1, ОСысл, 0<а<2.
1/т
Отсюда j uaFm (и) du < m-*, 0 <z а < 1, и
о
Л
f uaFm(u) du <
1/m
(1 — а)-1 m~a, 0 < а < 1,
я log (пт) _ .
2	m+1 ’ а—*•
Отсюда следуют границы
Л
J uaFm (и) du с
о
т-“('+2-(гЬг)' “6(0,1),
1 I п 1об (ГС”1)	„ _ 1
т ' 2 m+1 ’	~ ’
Из этих границ, леммы 21 и первого неравенства леммы 22 следует
лемма 24. (Для всех интересующих нас классов плотностей вы-
Л
полнено неравенство J | Sm (f) — f | с С j uaFm (и) du, где С
о
и а — некоторые постоянные.)
Для сингулярно-интегральной оценки Фейера соотношение
£ Ц | fn —/ |) = о (п-1/3) по существу можно получить разве лишь
в случае, когда f — равномерная плотность на [—л, л]. В этом
смысле сингулярно-интегральные оценки Фейера и Валле-Пуссена
ведут себя так же, как гистограммная оценка. На другом конце
шкалы точности находятся сингулярно-интегральные оценки не-
ограниченной мощности, т. е. такие оценки, что
 J|5m(D-/|=0(m-₽)
8. Сингулярно-интегральные оценки
339
для каждой степени 1/2 при «достаточно гладких» f. Из
леммы 23 видно, что в этом случае ядро Кт обязательно должно
принимать отрицательные значения и при любых i =/= О, р > О
должно выполняться условие
lim inf tnprmi = 0.
m->oo
Последнее условие выполнено для второго ядра Валле-Пуссена
(поскольку гт1 = 0, 1 < i с т) и для ядра Дирихле. По суще-
ству нужно, чтобы значения kmi были постоянны вблизи нуля
(у^nkmi = 1 при любых t, меньших, чем некоторое число, стре-
мящееся к бесконечности при т -* оо). Есть надежда, что, ис-
пользуя такие ядра, не меняющиеся в зависимости от гладкости
плотности, можно получить любую скорость сходимости. Анало-
гичным образом ведет себя трапецеидальная ядерная оценка.
Заметим, что принимающее отрицательные значения ядро
Рогозинского удовлетворяет условиям (i) и (ii) леммы 23 со сте-
пенью р = 2. Таким образом, оно обладает такими же ограничен-
ными возможностями, как ядро Джексона и другие ядра с поло-
жительными значениями. Это приносит определенное разочарова-
ние, поскольку, жертвуя положительностью оценки плотности fn,
можно было бы выбирать и ядра неограниченной мощности, ука-
занные выше. Холл (Hall (1983)) сравнил сингулярно-интеграль-
ную оценку Рогозинского с другими оценками, основанными на
положительных ядрах, и нашел, что она обладает такой же ско-
ростью сходимости в L2, но с меньшей константой. В некотором
смысле это «надувательство». На самом деле, как мы увидим
далее, при использовании ядер неограниченной мощности дости-
гается лучшая скорость сходимости при тех же самых условиях
гладкости на /.
Завершим этот параграф описанием свойств одного ядра не-
ограниченной мощности. Для получения уточненных скоростей
сходимости воспользуемся первой и второй теоремами Джексона.
Это еще один технический прием, которым может вооружиться
читатель (напомним, что в § 5 при анализе поведения оценки
с тригонометрическим рядом применялось неравенство Лоренца).
Лемма 25 (теоремы Джексона). Пусть Тт — класс всех три-
гонометрических полиномов степени, не превосходящей т, и пусть
f С Lx I—л, л].
Первая теорема Джексона.
inf J | tm - f | < 2AW (f, 1/m),
tm^Tm
где A — постоянная из леммы 22.
22*
340
Гл. 12. Проекционные оценки
Вторая теорема Джексона.
inf f | tm — f | c
36-(36г + 1) ш. /„	n
ms	\	m /
при любых f C ACS, s> 0.
Доказательство. He будем стремиться получить наилучшие
константы (см., например, Butzer, Nessel (1971), где имеются
ссылки на работы, посвященные наилучшим константам, и пол-
ное доказательство второй теоремы Джексона). Докажем только
первую теорему Джексона.
Заметим, что в случае ядра Фейера—Коровкина Sm (f) С Тт,
так что
inf	<J|Smtf)-f|.
Кроме того, в силу леммы 22 получим
J |	(/)-/1<	(1 - cos (^)),/2) « Л».(/,	«
< А (1 H-n//2)2®*(f, l/m) = (l/2)(l+n//2)4<o*(f, 1/m).
Первая теорема Джексона доказана.
Теорема 10 (сингулярно-интегральная оценка со вторым ядром
Валле-Пуссена). Пусть fn — сингулярно-интегральная оценка со
вторым ядром Валле-Пуссена (обозначаемым здесь через Кт)>
и пусть Sm (/) — соответствующий сингулярный интеграл для
плотности f на [—л, л].
А. Кт—дельтаобразная последовательность, и потому
V/-
в. J|S„tf)|«3 J|y| при любых g t^-ll—л, л].
С.	J|Sm0-f|<4 inf
^тп^Тт
D.	j Km/n < 9m/4«.
Е.	К~т I {Дт — дельтообразная последовательность.
F.	Если lim т = оо, lim (т/п) = 0, то
П-+ОО	П-*(Х>
vf-
8. Сингулярно-интегральные оценки
341
G.	inf j|/m-f| +
Tm
(J Vf +o{\)]V^miAn
У 9лт/2п.
H.	Если М —целочисленная постоянная, f £ Тм и т— по-
стоянная, т^> М, то
\\Sm(f)-f\ = Q, £(J|f„-/|) = O(n-'/2).
• I. Если f С ACS, где s > 0 — целое, то
inf £(J|fn-f|)=o(n-V(2s+O).
т
J. Если f С ACs, где s > О — целое, то

(j ГТ+о(1))/9я/4п.
V^nm/2n
К. Если f £ W (s, а, С) при некотором целом s > О, а £
С (0, 1 ], С > 0, то
Е (J Ifn - f|) <4(36)436* 4-1)	+ /т’
inff (j |fn -f|) = O(n-(»+«)/(2<s+a) H>).
Доказательство. Утверждение А следует из леммы 19. Для
доказательства В заметим, что
f |Am| < J 1(1 + 2cos(mu))|Fm_1(u)du < 3 J F^iujdu = 3,
и потому
J|5m(g)| < J|g| J|Am| <3 J |g|.
‘ При tm £ Tm имеем Sm (tm) = tin. Таким образом,
J|5m(f)-f|< inf (J|Sn,(f)-Sm(/m)| -u J\tm - f |) <
hn Tm
<4 inf	f|,
342
Гл. 12. Проекционные оценки
откуда следует С. Утверждение D получается, если применить
грубые границы из леммы 4:
< 9 J Fm-i c9supFm_] <9/n/4.
Утверждение Е тривиально. Состоятельность (утверждение F)
следует из A, D и теоремы 8. Утверждения С и D вместе с нера-
венствами из теоремы 8 и леммы 20 дают утверждение G. Из
него непосредственно вытекает утверждение Н. Учитывая, что
1/т) = о (1) при f С получим, что I следует из G
и последнего неравенства во второй теореме Джексона. Исполь-
зуя первое неравенство во второй теореме Джексона, приходим
к утверждению J. Наконец, утверждение К вытекает из G, вто-
рой теоремы Джексона и утверждения В леммы 21.
Сингулярно-интегральная оценка из теоремы 10 — лишь не-
значительно видоизмененная оценка с тригонометрическим рядом,
но она надежнее последней, ибо обладает свойством универсаль-
ной состоятельности. Кроме того, граница смещения (утвержде-
ние С) лучше, чем соответствующая граница для оценки с триго-
нометрическим рядом (теорема 4), на множитель порядка log m.
Средняя Li-ошибка рассматриваемой здесь оценки, так же как
и оценки с тригонометрическим рядом или трапецеидальной ядер-
ной оценки, достигает минимаксной нижней границы для клас-
сов W (s, а, С) при любых s с точностью до константы (см. утвер-
ждение К). Поэтому мы называем ое оценкой неограниченной мощ-
ности. Она достигает даже скорости сходимости О и в этом
случае является несмещенной при любых п (утверждение Н).
Наконец, утверждение I показывает, что даже на классе АС2
данная оценка лучше любых сингулярно-интегрдльных оценок
с ядрами > 0 и оценки Рогозинского — для последних ошибка
в лучшем случае равна О (п~2/5), так как их смещение не меньше,
чем величина порядка гтг2 (лемма 23).
ЛИТЕРАТУРА
Anderson G. L., de Figueiredo R. J. P.
(1980) An adaptive orthogonal-series estimator for probability density functions,
Annals of Statistics, 8, pp. 347—376.
Askey R., Wainger S.
(1965) Mean convergence of expansions in Laguerre and Hermite series, American
Journal of Mathematics, 87, pp. 695—708.
Asselin de Beauville J. P.
(1978) Estimation de la densite de probabilite par une serie de polyndmes d'Her-
mite. Determination du nombre optimal de termes de la sdrie, Comptes Rendus
de TAcademie des Sciences de Paris, 286, pp. 309—311.
Bleuez J., Bosq D.
(1976) Conditions necessaires et suffisantes de convergence pour une classe d'esti-
mateurs de la densitd, Comptes Rendus de Г Academic des Sciences de Paris, 282,
pp. 63—66.
Литература
343
(1979) Conditions necessaires et suffisantes de convergence de 1'estimateur de la
densite par la methode des fonctions orthogonales, Revue Roumaine de Mathema-
tiques Pfires et Appliquees, 24, pp. 869—886.
Boas R. P., Kac M.
(1945) Inequalities for Fourier transforms of positive functions, Duke Mathemati-
cal Journal, 12, pp. 189—206.
Bosq D.
(1969) Sur Г estimation d'une densite тиШуапёе par une serie de fonctions orthogo-
nales, Comptes Rendus de 1'Academie des Sciences de Paris, 268, pp. 555—557.
Bosq D., Bleuez J.
(1978) Etude d'une classe d'estimateurs non-parametriques de la dens^, Annales
de 1'Institut Henri Poincare, 14, pp. 479—498.
Brunk H. D.
(1977)	Univariate density estimation by orthogonal series, with application to esti-
mation of wildlife populations by line transect surveys, unpublished manuscript.
(1978)	Univariate density estimation by orthogonal series, Biometrika, 65, pp. 521—
528.
Butzer P. L., Nessel R. J.
(1971)	Fourier Analysis and Approximation, Vol. 1, Birkhauser Verlag, Basel and
Stuttgart.
Carleson L.
(1966)	On convergence and growth of partial sums of Fourier series, Acta Mathe-
matica, 116, pp. 135—157.
Crain B. R.
(1973)	A note on density estimation using orthogonal expansions, Journal of the
American Statistical Association, 68, pp. 964—965.
(1974)	Estimation of distributions using orthogonal expansions, Annals of Sta-
tistics, 2, pp. 454—463.
Edwards R. E.
(1979)	Fourier Series. A Modern Introduction, Vol. 1, Springer-Verlag, Berlin.
Fellner W. H.
(1974) Heuristic estimation of probability densities, Biometrika, 61, pp. 485—492.
Fefferman C.
(1971) On the convergence of multiple Fourier series, Bulletin of the '•American
Mathematical Society, 77, pp. 744—755.
Foldes A., Revesz P.
(1974) A general method for density estimation, Studia Scientiarium Mathemati-
carum Hungarica, 9, pp. 81—92.
Greblicki W.
(1981) Asymptotical efficiency of classifying procedures using the Hermite series
estimate of multivariate probability densities, IEEE Transactions on Information
Theory, IT-27, pp. 364—366.
Greblicki W., Pawlak M.
(1981) Classification using the Fourier series estimate of multivariate density func-
tions, IEEE Transactions on Systems, Man and Cybernetics, SMC-11, pp. 726—730.
Hall P.
(1981) On trigonometric series estimates of densities, Annals of Statistics, 9,
pp. 683—685.
(1982) Comparison of two orthogonal series methods of estimating a density and
its derivatives on an interval, Journal of Multivariate Analysis, 12, pp. 432—449.
(1983) Measuring the efficiency of trigonometric series estimates of a density,
Journal of Multivariate Analysis, 13, pp. 234—256.
Hunt R. A.
(1968) On the convergence of Fourier series. Orthogonal expansions and their con-
tinuous analogues, Proceedings of a Conference held at Edwardsville, Illinois, 1967.
Southern Illinois University Press, Carbondale, pp. 235—255.
344
Гл. 12. Проекционные оценки
Jorsboe О. G., Mejlbro L.
(1982) The Carleson—Hunt theorem of Fourier Series, Springer-Verlag, Berlin.
Kolmogorov A. N.
(1926) Une serie de Fourier—Lebesgue divergente partout, Comptes Rendus de
ГAcadёmie des Sciences de Paris, 183, pp. 1327—1328. (Имеется русский перевод:
Колмогоров А. Н. Избранные труды. Математика и механика.—М.: Наука,
1985, с. 8—12.)
Korner Т. W.
(1981) Everywhere divergent Fourier series, Colloquium in Mathematics, 45,
pp. 103—118.
Kronmal R., Tarter M.
(1968) The estimation of probability densities and cumulatives by Fourier series
methods, Journal of the American Statistical Association, 63, pp. 925—952.
Krzyzak A., Pawlak M.
(1982) Estimation of a multivariate density by orthogonal series, in Probability
and Statistical Inference, W. Grossman et al. (Eds.), Reidel, Hingham, MA,
pp. 211—221.
Lorentz G. G.
(1948) Fourier-Koeffizienten und Funktionenklassen, Mathematische Zeitschrift,
51, pp. 135—149.
Mozzochi C. J.
(1971) On the Pointwise Convergence of Fourier Series, Springer-Verlag, Berlin.
Muckenhoupt B.
(1969) Mean convergence of Jacobi series, Proceedings of the American Mathema-
tical Society, 23, pp. 306—310.
(1970a) Equiconvergence and almost everywhere convergence of Hermite and La-
guerre series, SIAM Journal of Mathematical Analysis, 1, pp. 295—321.
(1970b) Mean convergence of Hermite and Laguerre series. I, Transactions of the
American Mathematical Society, 147, pp. 419—431.
(1970c) Mean convergence of Hermite and Laguerre series. II, Transactions of the
American Mathematical Society, 147, pp*. 433—460.
Newman J., Rudin W.
(1952) Mean convergence of orthogonal series, Proceedings of the American Mathe-
matical Society, 3, pp. 219—222.
Olevskii A. M.
(1975) Fourier Series with Respect to General Orthogonal Systems, Springer-Verlag,
Berlin.
Pollard H.
(1947)	The mean convergence of orthogonal series. I, Transactions of the American
Mathematical Society, 62, pp. 387—403.
(1948)	The mean convergence of orthogonal series. II, Transactions of the American
Mathematical Society, 63, pp. 355—367.
(1949)	The mean convergence of orthogonal series. Ill, Duke Mathematical Journal,
16, pp. 189—191.
Quade E. S.
(1937)	Trigonometric approximation in the mean, Duke Mathematical Journal,
3, pp. 529—543.
Rosenblatt M.
(1971) Curve estimates, Annals of Mathematical Statistics, 42, pp. 1815—1841.
Sansone G.
(1977) Orthogonal Functions, Krieger, Huntington, NY.
Schuler L.
(1976) Uber die Konsistenz einer Schatzung mehrdimensionaler Dichten auf der Ba-
sis trigonometrischer Reihen, Metrika, 23, pp. 77—82.
Schwartz S. C.
(1967) Estimation of a probability density by an orthogonal series, Annals of Mathe-
matical Statistics, 38, pp. 1262—1265.
Литература
345
Sjolin Р.
(1971) Convergence almost everywhere of certain singular integrals and multiple
Fourier series, Arkiv ftir Mathematik, 9, pp. 65—90.
Stegbuchner H.
(1980) Dichteschatzungen mit Gleichverteilungsmethoden, Periodica Mathematica
Hungarica, 11, pp. 161 — 175.
Stein E. M.
(1981) On limits of sequences of operators, Annals of Mathematics, 74, pp. 140—
170.
Sterbuchner H.
(1980) On nonparametric multivariate density estimation, Revue Roumaine de
Mathematiques Pures et Appliquees, 25, pp. Ill—118.
Szego G.
(1975) Orthogonal Polynomials, Vol. 23, 4th Ed., American Mathematical Society
Colloquia Publications, Providence, RI. (Имеется русский перевод: Сегё Г. Орто-
гональные многочлены. — М.: Физматгиз, 1962.)
Tarter М. Е., Kronmal R. А.
(1976) An introduction to the implementation and theory of nonparametric density
estimation, The American Statistician, 30, pp. 105—112.
Van Ryzin J.
(1966) Bayes risk consistency of classification procedures using density estimation,
Sankhya, Series A, 28, pp. 261—270.
Viollaz A. J.
(1980) Asymptotic distribution of L2 norms of the deviations of density function
estimates, Annals of Statistics, 8, pp. 322—346.
Wahba G.
(1975) Optimal convergence properties of variable knot, kernel, and orthogonal
series methods for density estimation, Annals of Statistics, 3, pp. 15—29.
(1977)	Optimal smoothing of density estimates, in Classification and Clustering,
J. Van Ryzin (Ed.) Academic Press, New York, pp. 423—458.
(1978)	Data-based optimal smoothing of orthogonal series density estimates, De-
partment of Statistics, University of Wisconsin, Technical Report 509.
Walter G. G.
(1977) Properties of Hermite series estimation of probability density, Annals of
Statistics, 5, pp. 1258—1264.
Walter G. G., Blum J. R.
(1979)	Probability density estimation using delta sequences, Annals of Statistics,
7, pp. 328—340.
Watson G. S.
(1969)	Density estimation by orthogonal series, Annals of Mathematical Statistics,
40, pp. 1496—1498.
Whittle P.
(1958)	On the smoothing of probability density functions, Journal of the Royal
Statistical Society, В 20, pp. 334—343.
Zygmund A.
(1959)	Trigonometric Series, Vols. 1, 2, Cambridge University Press, Cambridge,
U. К. (Имеется русский перевод: Зигмунд А. Тригонометрические ряды (в 2-х то-
мах). — М.: Мир, 1965.)
Бари Н. К.
(1961) Тригонометрические ряды.—М.: Физматгиз.
Ченцов Н. Н.
(1962) Оценка неизвестной плотности распределения по наблюдениям//Докл.
АН СССР. — Т. 147. — 1. — С. 45—48.
г
1
346	Гл. 12. Проекционные оценки
КОММЕНТАРИЙ ПЕРЕВОДЧИКА
Сингулярно-интегральные оценки плотности введены в работе Watson,
Leadbetter (1964*). Необходимые и достаточные условия сходимости сингулярно-
интегральных оценок в получены Мнацакановым, Хмаладзе (1981*). Оценка
с рядом Лагерра исследована Хашимовым (1973*). Равномерная сходимость
проекционных оценок плотности доказана в работе Mirzahmedov, Hasimov
(1972*).
Ефроймович, Пинскер (1982*) нашли сглаженные проекционные оценки
плотности, асимптотически эффективные в точном минимаксном смысле в ме-
трике L2. Приведем формулировку их результата, используя обозначения, при-
нятые в данной главе. Пусть f g L2 [0,1],	— ортонормальная тригономет-
рическая система на [0,1]. Обозначим ^({^}, Q) класс плотностей f (Е
€ £а [0,1], для которых
где —заданная положительная числовая последовательность, а.— коэф-
фициенты Фурье для f и Q < оо. Рассмотрим сглаженную проекционную оценку
тп
fn W — ^nianiPi (*)»
t=0
где
ani = —’	Pi
n /=1
[ k	\
mn = max
I /=0	J
= 1	(P'n^i)^2>	J = 1, ....	mn,
Г mn	I [ mn \ ]2
и,-Ч	r+S‘,) 
n L /=о n I \	/=o 7 J
Теорема (Ефроймович, Пинскер (1982*)). Пусть последовательность
. монотонно не убывает и lim bj — оо. Тогда
/~>оо
sup в([ (;„ — /)2)=О2(1 4-0(1)), л->оо,
тп
где — п-1 У] Ь .. Если, кроме того, lim b. In"1 / = оо, то
i=i	/-*«>
inf sup £( ( (Тп — f)2\ =v2n (1 4-о(1)), n->oo,
где inf — нижняя грань no всевозможным оценкам Tn= Тп (х,	..., Хп).
т
п
Пример. Пусть 60 = 0, b2j —	= (2л/)2а, / = 1, 2, ..., а —- натураль-
ное число. Тогда ({fy}, Q) — множество плотностей, имеющих квадратично-
Комментарий переводчика
347
интегрируемые периодические производные до порядка а — 1 включительно
и а-ю производную такую, что
1
j (/<а) (x))2dx< Q.
о
В этом случае
V2 = Г<? (2а + 1) (	**	)2“ ] 1/<2а+1)п-2«/<2а+|> (1 + о (1)), п -оо.
L	\ zji -j- * / / J
ЛИТЕРАТУРА, ДОБАВЛЕННАЯ ПРИ ПЕРЕВОДЕ
Ефроймович С. Ю., Пинскер М. С.
(1982*) Оценивание квадратично-интегрируемой плотности вероятности случай-
ной величины//Проблемы передачи информации. — Т. 18. — 3. — С. 19—38.
Мнацаканов Р. М., Хмаладзе Э. В.
(1981*) Об Lj-сходимости статистических ядерных оценок плотности распреде-
лений//Докл. АН СССР. — Т. 258. — 5. С. 1052—1055.
Хашимов Ш. А.
(1973*) Оценка плотности вероятности полиномами Лагерра//Случайные про-
цессы и статист, выводы. Вып. 3. — Ташкент: Фан, с. 186—191.
Mirzahmedov хМ. A., Hasimov S. А.
(1972*) On some properties of density estimation//Colloq. Math. Soc. J. Bolyai. —
V. 9. Budapest. — P. 535—545.
Watson G. S., Leadbetter M. R.
(1964*) Hazard analysis II//Sankhya, ser. A. — V. 26. — 1. — P. 101 —116.
Дополнение 1
Почему Д-подход и что за горизонтом?
Н. Н. Ченцов
Монография Л. Девроя и Л. Дьёрфи посвящена задаче стати-
стической оценки плотности распределения по наблюдениям.
В книге сделан обзор современного состояния исследований
в этой области, доведенный в ряде мест до 1983 г., подробно рас-
смотрены наиболее интересные и важные результаты, а также во-
просы, остающиеся нерешенными. Название книги точно отра-
жает ее содержание, так что неискушенному читателю может
показаться, что книга двух сравнительно молодых специалистов
посвящена узкому, даже экзотическому специальному вопросу.
Между тем Лх-подход является наиболее простым и естественным
в рассматриваемой проблеме, и можно дать тому строгое матема-
тическое доказательство. Для этого надо лишь обратиться к об-
щей теории статистических выводов, заложенной А. Вальдом [11.
В предлагаемом ниже кратком очерке некоторых основных поня-
тий математической статистики выясняется место рассмотренной
в книге проблематики и тем самым дополняются и уточняются
суждения авторов на этот счет (в частности, по поводу Lrподхода
и его сравнения с £2’ПОДХОД°М)-
В теории вероятностей случайное явление задается своим
вероятностным пространством (Q, «я/, Р). В этой идеализирован-
ной схеме Q — пространство всех мыслимых исходов со £ Q
эксперимента, «я/ есть о-алгебра подмножеств А Q, называе-
мых событиями, Р— вероятностная мера на <я/, называемая
распределением вероятностей подходов. Измеримое пространство
(Q, задает качественное описание случайного явления, а' мера
Р — количественное. Пусть со1, ..., со27 — последовательность не-
зависимых наблюдений данного явления, т. е. PN {d&\ =
= Р {do1} ... Р . Тогда л о закону больших чисел для
любого события А £& частота	где vN (А) =
= Card \a>k : a>k £ A, k = I, N\, причем точность и надеж-
ность (по PN-вероятности) этого предсказания растут с увеличе-
нием IV. Задача предсказания частот является одной из основных
в теории вероятностей и во многом определяет ее практическую
ценность. В математической статистике мы сталкиваемся с об-
ратной задачей: нам дана последовательность наблюдений со1, ...,
Н. Н. Ченцов
349
co/v некоторого случайного явления с известным качественным
описанием (й, st) и требуется оценить «наблюдаемое» распреде-
ление Р или какую-то его характеристику либо выяснить наличие
у этого неизвестного наблюдателю закона Р тех или иных свойств.
В первом случае говорят о задаче статистической точечной
оценки (с. т. о.), и именно одна из ее постановок и составляет
предмет исследования Девроя и Дьёрфи, а также нашего рас-
сказа. Здесь только следует добавить, что при решении иных
статистических задач процедура точечного оценивания закона Р
используется как удобный промежуточный этап, когда о свойс-
твах Р судят по построенной его оценке Р*.
Обратные задачи математической физики, как правило, не-
корректны. Не составляет в этом отношении исключения и обрат-
ная задача теории, вероятностей. Для ее корректной сильной раз-
решимости нужна дополнительная априорная информация. На-
пример, может быть заранее известно, что наблюдаемое Р при-
надлежит семейству Ф = {Р6, 0 £ 6}. Когда «координатизи-
рующее» множество & конечно, задачу статистической точечной
оценки называют задачей проверки (нескольких простых) гипотез.
Когда законы Ре гладко зависят от конечномерного векторного
параметра 9, говорят о параметрической задаче оценивания.
Основное внимание в этой книге уделяется случаю, когда такое
априорное семейство 3 законов может быть гладко запараметри-
зовано только счетным числом вещественных координат. Так бу-
дет, например, если известно лишь, что наблюдаемая случайная
величина ограниченна, а ее распределение имеет плотность р (х),
принадлежащую функциональному пространству С(2>. Наконец,
семейство 3 может быть столь обширно, что оно не допускает
даже счетномерной гладкой параметризации. Так будет, напри-
мер, когда известно лишь, что координаты наблюдаемой двумер-
ной случайной величины независимы (друг от друга), и ничего
более. По традиции обе последние постановки объединяют под
названием задачи непараметрического оценивания, хотя они резко
отличаются и по подходам, и по методам решения. В частности,
последняя задача корректна лишь в слабом смысле. Приведен-
ный перечень не дает, разумеется, исчерпывающей классификации
всех возможных постановок задачи с. т. о. Мы указали лишь наи-
более важные из них, расположив их в порядке убывания апри-
орной информации и вытекающего отсюда убывания точности
решения. Так, при проверке простых гипотез вероятность ошибки
убывает экспоненциально, в конечно-параметрической задаче
с. т. р. погрешность в значении параметра и закона имеет поря-
док ЛН/2, а в счетно-параметрической порядок убывания не до-
стигает и этой величины. Как мы уже отмечали, именно последняя
задача и связанные с нею аспекты конечно-параметрической за-
дачи являются предметом нашего рассмотрения.
350
Дополнение 1. Почему Lx-подход
Согласно догме Вальда [1], в каждой статистической задаче
кроме вводных данных должно быть указано измеримое простран-
ство (А, Я) выводов б £ Д, к одному из которых мы должны
прийти в результате статистического анализа данных экспери-
мента. Тогда каждое детермированное решающее правило (т. е.
избранная статистиком процедура обработки наблюдений) за-
дается своей функцией б = / (со1,	<&N), а стохастическое (или
рандомизированное) — функцией б = f (<а1, ..., <aN-t tj), где т) —
случайный параметр, который приходится дополнительно разыг-
рывать. Теоретически рандомизированные (и даже детерминиро-
ванные) решающие правила удобнее описывать неявно, переход-
ным распределением вероятностей Ш (со1, ..., <bw; d6), не фикси-
руя способа конструирования дополнительного случайного экс-
перимента, в котором будет «разыгран» вывод.
Точность выбранного решения б Вальд предлагает опреде-
лять функцией потерь ^(0, б) — убытком, который терпит ста-
тистик, принявший решение б, когда на самом деле он наблюдает
явление Рв. Тогда качество решающего правила Ш можно оха-
рактеризовать математическим ожиданием потерь — риском
сю = £^(0, б) = J (Р$Ш) (d6) S>(0, б),	(1)
А
где вероятностная мера Р^ш = Р&Ш задается, как
Р{Л\-\ = J . . ..со"; -)JPe{dco,l ...Pe{dG)W).	(2)
Qn
Заметим в скобках, что вместо риска можно рассматривать ка-
кой-либо квантиль случайных потерь. Так или иначе, зная се-
мейство Ф = (Рв), мы можем заранее вычислять распределе-
ния P(Q,\U и подбирать по ним наиболее «выгодное» решающее
правило Ш.
В обратной задаче теории вероятностей пространством Д
всевозможных ответов Р* является в принципе вся полная сово-
купность Cap (Q, st) всех распределений вероятностей Р на
(Q, st). Для лебеговых измеримых пространств (й, st), преодо-
лев, следуя Ю. В. Прохорову, некоторые технические трудности,
см. [2, § 29], можно снабдить эту совокупность ст-алгеброй со-
бытий и построить измеримое пространство случайных вероят-
ностных мер Сар (Сар (й, st,) Ж (st^. При этом параметрами за-
кона Р служат значения Р (4^ на некоторой системе образую-
щих At алгебры st и зависимость Р от параметров Ж (st) изме-
рима, но не гладка.
Н. Н. Ченцов
351
В качестве величины погрешности оценки Р* искомой вероят-
ностной меры Р естественно в первую очередь взять вариацию
их разности
|Р*-Р| = sup	inf [Р* |Л} - Р |Л}], (3)
т. е. задать ее через сильную норму в линейном пространстве
Лх (й, всех (знакопеременных, вообще говоря) счетно-адди-
тивных мер на (й, £х (й, $$) = Lin Сар (й, •»£).
Следующий точный результат принадлежит автору этих строк,
см. (3, теорема 4]:
Теорема 1. Когда погрешность оценки с. т. о. измеряется
сильной нормой, задача с. т. о. для совокупности Сар (Е, sf-*),
где Е — единичный отрезок, а st* — алгебра верх его абсолютно
измеримых лебеговых подмножеств, без дополнительной априор-
ной информации некорректна.
Оказывается, что для любой последовательности решающих
правил
Ш (N): Cap (EN, &'N)-+Cap(Cap(E, &), Л!" («$£*))
существует такой вероятностный закон Р £ Сар (£, л^*), что
lim (W) (Р)>1.	(4)
N -*оо
Наряду с сильной на совокупности Сар (£, st-*) и ей подобных
существуют и слабые метрики, выражающиеся через функции
распределения. Простейшая из них задается С-расстоянием
р (Р, Q) = sup | Г (х) — G (х) |,
X
где F (х) = Р {[0, х)}, G (х) = Q {(0, х)|. По известной теореме
Гливенко [4] при N оо
sup |\Fn (х) — £ (х) |->-0
X
почти наверно, так что эмпирическая функция распределения Fn
является состоятельной оценкой для теоретической F. Таким
образом, некорректность обратной задачи теории вероятностей
не слишком сильна — примерно такая же, как и у операции
численного дифференцирования в вещественном анализе.
Мы не будем здесь выяснять, насколько приближения в сла-
бой метрике менее информативны приближений в сильной ме-
трике, отсылая за этим читателя к [5]. Ограничимся примером.
Как известно, всякая мера на прямой может быть разложена
в линейную комбинацию мер трех типов — дискретной, непрерыв-
ной и сингулярной. Мера первого типа сосредоточена на не бо-
лее чем счетном множестве точек, имеющих каждая положитель-
352
Дополнение 1. Почему Lx-подход
ную меру, мера второго типа имеет плотность (по лебеговой
длине), а мера третьего типа, не имея точек положительной меры,
сосредоточена на каком-то подмножестве лебеговой длины нуль.
Эти три типа мер резко различаются по виду функции распре-
деления. Разделены они между собой и в сильной метрике — ва-
риация разности двух мер разных типов равна 2. А в слабых ме-
триках непрерывный и сингулярный типы не разделены. И не-
сколько препарируя доказательство теоремы 1, можно показать,
что не существует состоятельных решающих правил, позволяю-
щих по возрастающей выборке определить, непрерывен или син-
гулярен «наблюдаемый» закон Р. Любопытно отметить, что отли-
чить дискретный тип от остальных или выделить дискретную ком-
поненту можно, только обладая способностью устанавливать
абсолютно точное совпадение двух результатов эксперимента, и
невозможно в противном случае.
Из приведенных соображений нетрудно вывести, что макси-
мальным семейством, для которого задача с. т. о. может иметь
смысл в сильной метрике, является подсовокупность всех доми-
нированных мер Capd (Q, Z) на каком-либо измеримом про-
странстве (Q, с фиксированным идеалом Z нуль-множеств,
в частности подсовокупность всех распределений вероятностей
на вещественной прямой или единичном отрезке, имеющих плот-
ность (по лебеговой длине). Для таких подсовокупностей рас-
стояние по вариации превращается в обычное /^-расстояние между
плотностями распределений:
|Q-P| = ||<7(<о)-р(со)||л{Ло},	(5)
Й
где р — доминирующая мера, например р \dx\ = dx для единич-
ного отрезка, а оценка вероятностного закона сводится к оценке
его плотности. Корректность такой постановки задачи с. т. о.
была установлена в 1976 г. независимо Абу-Жаудом [6] (его ре-
зультаты приведены Девроем и Дьёрфи) и Э. А. Надарая [7].
Первый в качестве оценки плотности использовал гистограммы,
а второй — оценки типа ядра. Из инвариантности подсовокуп-
ности всех распределений вероятностей непрерывного типа от-
носительно взаимно измеримых сохраняющих длину отображе-
ний отрезка на себя легко вытекает, см. [31, что универсальное
состоятельное решающее правило не может быть на этой прд-
совокупности равномерно состоятельным. Однако для более уз-
ких априорных семейств законов те же решающие процедуры
могут приводить к равномерно на всем семействе убывающему
риску.
Дело теоретика — искать в первую очередь наиболее общие
закономерности, наиболее общие подходы. Попытаемся сейчас
выяснить, чем же £2“ПОДХОД в этом отношении хуже Lj-подхода.
Н. Н. Ченцов
353
Каждое статистическое решающее правило Ш задает аффин-
ное отображение совокупности Cap (QAZ, s£N) в Сар (А, ^). Это
связано с тем и только тем, что правило Ш задается переходным
распределением вероятностей. Рассмотрим все возможные объ-
екты Cap (Q, <$/) и все возможные переходные распределения ве-
роятностей Ш из какого-либо одного измеримого пространства
(Q, в какое-то другое (Q', «я/'). Они образуют алгебраическую
категорию САР, объектами которой служат совокупности
Сар (й, ^), а морфизмы (здесь это марковские отображения)
задаются переходными распределениями вероятностей по правилу
(?{•} =	= jp{d<o} ZZf(o);-).
Я
При этом выполнены все аксиомы категории:
Г. Тождественное отображение И каждого объекта на себя
принадлежит категории, И (о; В) = %в (со), где %в (.)— инди-
катор множества В.
2°. Композиция ШЖ двух марковских отображений снова
есть марковское отображение П:
П(<о;-)= [zz/(<o; бйо')Ж(<о';-).
Я'
3°. Композиция является ассоциативной операцией, Ш (ЖЦ) =
= (ШЖ} Ц, как композиция отображений.
Этот факт был впервые отмечен Н. Н. Ченцовым [8] и неза-
висимо Н. Морсом и Р. Сакстедером [91. Кроме того, в этой ка-
тегории САР имеется дополнительная операция умножения объ-
ектов и связанные с ней операции умножения и усреднения мор-
физмов, [10]. Отсюда нетрудно установить, см. [10], [111, что
два семейства распределений вероятностей |Р0, 0 £ в] и ]Qe>
0(0), координатизированные одним и тем же множеством 0,
обладают одинаковыми статистическими свойствами тогда и
только тогда, когда существуют такие два марковских мор-
физма Ш и Ж, что
PeZZ/ = Qe, QeM = Pe, Св-
Во всякой теории общий закон должен допускать эквива-
риантную формулировку. Другими словами, его утверждение
не должно изменяться при переходе от одной ситуации к другой,
эквивалентной первой (эквивалентной в рамках этой теории),
иначе он не будет общим законом. В классической геометрии та-
кие переходы образуют группу, в теории статистического вы-
вода — категорию, порождающую своеобразную геометрию. Се-
мейства распределений играют в ней роль «фигур», а марковские
морфизмы — «движений». И многие основные понятия математи-
23 Деврой Л., ДьёрфиЛ.
354
Дополнение 1. Почему Lx-подход
ческой статистики получают истолкования как инварианты, ко-
варианты или более сложные эквиварианты этой геометрии. Так
как марковские морфизмы, вообще говоря, необратимы, кроме
обычного для групповой геометрии понятия инварианта — ве-
личины, принимающей одинаковые значения для конгруэнтных
фигур (т. е. статистически эквивалентных семейств), возникает
понятие монотонного инварианта. Нам оно понадобится только
для случая пары вероятностных законов, определение для слу-
чая более обширных семейств совершенно аналогично.
Определение. Функцию f (Р, Q) от двух аргументов, опреде-
ленную на квадрата.х всех объектов Cap (Q, ^), назовем моно-
тонным инвариантом, если
f(PUI,	(?)	(6)
при всех допустимых наборах Р, Q, Ш аргументов.
Примерами монотонных инвариантов от пары распределений
могут служить вариация разности | Р — Q |, см. (3), относитель-
ная энтропия
Э(Р, Q) = j [^(«>)ln-g-(«>)] Р ИМ = j [ln-g-(M] <ЭИМ>
a L	a L
расстояние Бхаттачария
s (Р, Q) = 2 arc cos J У Р \d<a} Q {da>\,	(7)
порождаемое квадратичной формой Фишера (фишеровской ин-
формацией). Кстати, это расстояние — единственная с точностью
до постоянного множителя инвариантная риманова метрика на
объектах категории САР. И говоря о гладких конечномерных се-
мействах {Рв, 9 £ 0}, мы почти всегда молчаливо предполагаем,
что функция Ре аргумента 0 в области 0 s Рп дифференцируема
в смысле этой метрики. К классу монотонных инвариантов от-
носятся, как нетрудно установить, и ф-дивергенции Чисара
[12, 13]
/ф(л =	.(«))<?ИМ,
где <р — выпуклая функция на Р+. Для взаимно абсолютно не-
прерывных мер определение энтропии упрощается до
Э(Р, (?)= J[ln^]<7(MHWM.	(8)
о
а форма Фишера на семействе {Ре\ записывается как
do. d»t J д81  31п 8) Р, w.	(9)
а, 0	й а
Н. Н. Ченцов
355
Исключительная роль Lj-нормы в классе инвариантных ме-
трик устанавливается следующей теоремой, см. [14].
Теорема 2. Если метрика р на объектах категории САР
монотонна в категории, то
р(Л q)^1p(/?i/2, ад-iP-Qi,	(Ю)
где Re — распределения вероятностей на Q2 = {<о1э <о2],
Ре{®1[=0. Р0{со2] = 1—0, О<0<1.
Таким образом, если статистическая задача некорректна в рас-
стоянии по вариации, то она остается некорректной и при изме-
рении величины погрешности любой другой инвариантной мет-
рикой (обратное неверно). В то же время, см. [2], расстояние
по вариации является единственным (с точностью до множителя)
инвариантным расстоянием, определяемым нормой разности.
Точнее если метрика р на объектах категории САР инвариантна
относительно категории и однородна, т. е.
P-Q = X(P' — Q')=>p(P, Q) = Vp(P', Q'),
то
Р(Р» Q) = P (Р1/2» ^1/4)'|P — Q|-
Сходная ситуация имеет место и для функций потерь самого
общего вида (для ф-дивергенций это было доказано Чисаром),
лишь только бы они являлись монотонными инвариантами, см.
[14]:
Теорема 3. Для монотонного инварианта 2? (Р, Q) ср свойст-
вом
Q^P=>2(P, ty + 9?(P, Р)
существуют константа с = S (Р, Р), уР, и монотонная чис-
ловая функция
Я(г) = 2|^|>гр(^’	(Н)
где 0 < г < 2, g (г) > 0 при г > 0, g (0) — 0, такие, что
S(P, ^c^giXP-^.
Отсюда вытекает, что ^-подход, излагаемый авторами этой
книги, является наиболее общим инвариантным подходом в ста-
тистической задаче оценки плотности, что мы и обещали строго
доказать.
23*
356
Дополнение 1. Почему Li-подход
Что же касается Ь2-подхода, который также рассматривают
Деврой и Дьёрфи, то он неинвариантен, поскольку квадрат
нормы
J [р (со) - q (<о)]а ц {d®}	(12)
о
уже зависит от выбора доминирующей меры р. И вполне может
случиться, что при замене меры конечная норма разности превра-
тится в бесконечную (в то же время характеристики (5) и (8)
близости двух вероятностных законов инвариантны относительно
этого выбора). Тем не менее для некоторых классов априорных
семейств 0 удается развить квазиинвариантный подход, исполь-
зующий целый «букет» эквивалентных £2 (Р)-норм. Этот подход
будет указан несколько далее.
Несмотря на неинвариантность, £2-подход удобен тем, что
позволяет строить простые алгоритмы восстановления неизвест-
ной плотности по независимым наблюдениям и легко характери-
зовать их точность в выбранной £2-норме. С ним, например, есте-
ственно связаны так называемые проекционные оценки плотности,
см. гл. 12, предложенные впервые нами в 1958 г. и исследованные
затем в [15], [16]. Как показали эксперименты В. В. Статуляви-
чюса [17], при их использовании обработка данных может идти
на порядок быстрее, чем при использовании ядерных оценок
Розенблата—Парзена с фиксированной формой ядра, а резуль-
таты обработки требуют на порядок меньшего объема памяти для
хранения. Но они, как и всякие ядерные методы со знакоперемен-
ными ядрами, обладают существенным недостатком. Отрезок ряда
Фурье с подставленными оценками коэффициентов может не ока-
заться неотрицательной функцией, т. е. построенная проекцион-
ная оценка не будет плотностью вероятностной меры. Разумеется,
можно заменить ее на участках отрицательности нулем и отнор-
мировать к единичному интегралу. Как показывают Деврой и
Дьёрфи, см. с. 277, £х-погрешность при этом только уменьшится.
Но при такой дополнительной процедуре теряются и простота
конструкции и простота хранения. Возникает естественное жела-
ние построить метод, лишенный указанного недостатка, доста-
точно точный и к тому же эквивариантный. Заметим, что требо-
вание точности является существенным. Как известно, полигон
частот, построенный по гистограмме сходится по вероятности
к искомой гладкой плотности класса С(2) со скоростью М-2/о.
Такоз же порядок погрешности ядерных оценок с неотрицатель-
ными ядрами ввиду их смещенности.
Отмеченных выше недостатков лишен экспонентный метод
оценивания плотности, предложенный Р. Л. Стратоновичем [181
и независимо автором этих строк [2]. Идея состоит в том, чтобы
приближать линейным агрегатом не саму плотность, а ее лога-
Н. Н. Ченцов
357
рифм. Поскольку интеграл от функции р0 (со) exp [s%-(<o)],
где по совпадающим верхнему и нижнему индексам предпола-
гается суммирование, не обязан быть тождественно равен еди-
нице, эту функцию надо отнормировать, что дает формулы
р (w; s) = р, (<о) exp [siqj (©) - 'К (s)],	(13)
Т (s) = In J exp [siqj (©)] p0 (<o) p (d©},	(14)
где ф (s) — логарифм нормирующего делителя. Формула (13)
имеет смысл, когда интеграл в (14) конечен. Нетрудно показать,
что функция ф (s) выпуклая, так что область : ф (s) < + оо}
выпукла (хотя и может быть пустой).
Таким образом, мы построили экспонентное семейство у рас- .
пределений вероятностей с каноническим параметром s и обла-
стью задания Dom у = }s : ф (s) < + оо}. Естественно, что
каноническая параметризация определена с точностью до аффин-
ного преобразования параметров и направляющих статистик q. (и).
Экспонентные семейства возникают в очень многих вопросах
математической статистики (и статистической физики). За их
последовательной теорией мы отсылаем к [2, 19, 20 J. Введем
вектор-функцию
t = Т(s) = Jq(©)p(©; s)p. }dw}.	(15)
о
Хорошо известно, что Т (s) = grad ф (s) — взаимно однознач-
ная и аналитическая вектор-функция внутри области Dom у,
являющаяся преобразованием Лежандра, так что
s = grad [s'(t) tj — (s (t))J.
Несколько более сложны связи s и t на границе области Dom у,
см. [2].
Параметр t мы будем называть натуральным параметром
экспонентного семейства. Для него существует простая несмещен-
ная статистическая оценка
г = ^-чЧ(®‘)4----+ч(<Н.	(16)
Эта оценка эффективна, т. е. неравенство информации для нее
обращается в равенство. Отметим, что справедливо и обратное:
если параметр семейства допускает эффективную оценку, то это
семейство является экспонентным, а параметр — его натураль-
ным параметром. Самое сложное в процедуре оценивания — ин-
терпретация t*, т. е. вычисление значения s* канонического пара-
метра, отвечающего t*, поскольку плотность вероятностного за-
кона задана нам формулой именно через s. Но эту трудность
нельзя считать принципиальной, поскольку решать систему урав-
358
Дополнение 1. Почему Lj-подход
нений grad ¥ (s) = t* надо лишь один раз в конце обработки.
В наши дни для этой цели можно эффективно использовать пер-
сональный компьютер с универсальной стандартной программой
решения таких систем.
Плотность р0 (со) определена с точностью до постоянного мно-
жителя, а направляющие статистики q. (со) — с точностью до
постоянйого слагаемого. Если же принять р0 (о) = р (со; 0),
q (со) = q (со; 0), где j q (со; 0) р (со; 0) dp = 0, то Т (s) =
= Э (Ps, Ро), где относительная энтропия определена формулой
(8), и
р (со; s) = р (со; 0) ехр [s’qj (со; 0) — Э (Ps, Ро)].	(17)
Сравним это представление (17) и представление плотности се-
мейства гауссовских законов с единичной матрицей ковариаций
и переменным средним s:
р(х, s) = p(x, 0)exp[s'X; — (s, s)/2].	(18)
Из этого сравнения видно, во-первых, [2], что гауссовские се-
мейства являются единственными, в которых канонические пара-
метризации совпадают с натуральными (для примера, в статисти-
ческой физике натуральный параметр — температура t = s-1).
И во-вторых, что относительная энтропия является обобщением
половины квадрата евклидова расстояния. Аналогия заходит
столь далеко, что для относительной энтропии справедлива, см.
[211, несимметричная теорема Пифагора.
Теорема 4. Если Ро = arg min Э (R, Ps), где у = [Ps\ —
S
экспонентное семейство, о £ Int Dorn у, то
3(R, PS) = 9(R, Р„) + Э(Ра, Ps) vsEDomy. (19)
Когда направляющие статистики qf (со; 0) в (17) ограниченны,
дополнительное условие на а излишне.
В свое время Лаплас предложил измерять потери статистика
расстоянием от сделанной им оценки до истинного значения ар-
гумента. Но, как заметил Гаусс, теория сильно упрощается,
если считать потери 5? квадратичной функцией ошибки оцени-
вания, см. [22]. Для негауссовских вероятностных законов, как
мы видим, естественно брать 2! = 2Э (Р*, Pq), а не какие-либо
L2 (ц)-нормы, зависящие от выбора ц. Дальнейшая цель теоре-
тика — указывать в задаче с. т. о. разумные априорные семей-
ства с гарантируемой скоростью убывания характеристики по-
грешности (максимума риска, байесовского риска и т. п.). От-
метим, что в отличие от /^-подхода задача с. т. о. с энтропийной
г~
Н. Н. Ченцов
359
функцией потерь для всей доминированной подсовокупности
Capd (£, si*, Z) уже.некорректна, см. [3, теорема 6].
Выше мы уже упоминали, что задача статистического оцени-
вания плотности по наблюдениям в самой широкой постановке
не является равномерно состоятельной [3]. Построить равномерно
сходящиеся алгоритмы ее восстановления удается только для бо-
лее узких семейств Ф априори возможных законов. Проще всего
предположить, что
C-!<-g-(®)<C: ywC-Q, уР,	(20)
при некоторой положительной константе с. Заметим, что это
условие является весьма сильным. В частности, все нормы Lp (R)
1 < р < оо, R £ задают на 0 одну и ту же топологию, все
нормы L2 (R) эквивалентны при	В таких условиях ква-
зиинвариантности мер удается указывать нижние границы для
точности восстановления плотности и строить алгоритмы, опти-
мальные по порядку точности [2, 23]. Однако класс семейств,
удовлетворяющих (20), слишком узок. К нему не принадлежит,
например, семейство (18) гауссовских законов.
Если же вместо L2 (Р)-нормы разности в качестве функции
потерь принять энтропию, для которой, как известно, всегда
Э(Р, Q) < || Р — Q ||р,	(21)
то разумным оказывается следующее достаточное условие квази-
однородности семейства предложенное нами еще в [21:
<С (22)
при некоторой фиксированной константе С и любых Р, Q, R',
R" С Этому условию локально удовлетворяют, например,
семейства, зависящие от векторного параметра, регулярно глад-
кие в смысле Крамера—Рао. Наметим для них сейчас, следуя (21,
основные результаты теории оптимального оценивания.
Теорема 5. Пусть {Ре, 0 £ 0} —компактное гладкое се-
мейство вероятностных мер, 0 — замкнутая область в Rn.
Тогда при Z (0, Р*) = 23 (Р*, Р)
lim АГ- inf sup <n) (0) = dim 0,	/Оо\
N-»oo Ш (N) 0 £ в
где не обязательно ограничиваться оценками Р* £ {Р0}, а асим-
птотически оптимальной является оценка максимума правдо-
подобия П:
sup | ЛГ-&П <w)(0) — dim© | -► 0.	(24)
e€e	A'-”00
360
Дополнение 1. Почему ^-подход
Впрочем, и саму оценку максимума правдоподобия можно
истолковать как оценку минимума относительной энтропии, см.
[24, 25], также [2].
Комбинируя теорему 5 с теоремой 4, мы развили в [2] для
квазиоднородных семейств с правильно убывающими информа-
ционными поперечниками теорию почти оптимального «непара-
метрического» (точнее счетно-параметрического) оценивания плот-
ности. Как мы видели, этот наш подход близок к Л2-подходу, даже
совпадает с ним на этапе построения средних значений от ба-
зисных (направляющих) статистик q. (со), но отличается в «ин-
терпретации» построенных средних (и только при построении
гистограммы оба подхода дают совпадающие результаты). Заин-
тересовавшийся читатель может ознакомиться с деталями по мо-
нографии [2]. Нам кажется, что благодаря своей эквивариант-
ности экспонентный метод оценивания плотности не менее пер-
спективен, чем ставшие традиционными, см, например, моногра-
фию [26], метод сглаживающего ядра или метод ортогонального
разложения, рассмотренные в книге Девроя и Дьёрфи.
ЛИТЕРАТУРА
1.	Wald A. Contributions to the theory of statistical estimation and testing hy-
potheses//Ann. Math. Statist. — 1939. — V. 10. — 4. — P. 299—326.
2.	Ченцов H. H. Статистические решающие правила и оптимальные выводы. —
М.: Наука, 1972.
3.	Ченцов Н. Н. О корректности задачи статистического точечного оценива-
ния//Теория вероятн. примен. — 1981. — Т. 26. — 1. С. 15—31. Препр.
Ин-та прикл. матем. им. М. В. Келдыша АН СССР. — 1979. — 193.
4.	Гливенко В. И. Sulla determinatione empirica di una legge di distribytione//
Giorn. dell'Istituto Italiano degli Attuari. — 1933. — V. 4. — 1. — P. 83—91.
5.	Соболь И. M. Многомерные квадратурные формулы и функции Хаара. — М.:
Наука, 1969.
6.	Abou-Jaoude S. Conditions necessaires et suffisantes de convergence en pro-
babilite de I'histogramme pour une densite//Ann. de Г Inst. H. Poincare. —
1976. — Ser. В. — V. 12. — P. 213—231.
7.	Надарая Э. А. О непараметрической оценке байесовского риска в задаче
классификации//Сообщ. АН Груз. ССР. — 1976. — Т. 82. — 2. — С. 277—
280.
8.	Ченцов Н. Н. Категории математической статистики//Докл. АН СССР. —
1965. — Т. 164. —3, 511—514.
9.	Morse N., Sacksteder R. Statistical isomorphism//Ann. Math. Statist. —. 1966. —
V. 37. — 1. — P. 203—214. (Имеется русский перевод: Морзе Н., Сакстедер Р,
Статистический изоморфизм//Сб. «Математика». — 1968. — Т. 12. — 6. — С.
J47—160.)
10.	Cencov N. N..Algebraic foundations of mathematical statistics//Math. Opera-
tionsforsch. Statist., ser. Statistics. — 1978. — 9. — 2. — P. 267—276.
11.	Cencov N. N. On basic concepts of mathematical statistics//Banach Center
Publ. — 1980. — 6. — P. 85-94.
12.	Csiszar I. Information-type indices of the divergence of distributions. I, II//
Magyar Tud. Akad. Mat. — 1967. — V. 17. — 2. — P. 123—149. — 3.—
P. 267—291.
Н. Н. Ченцов
361
13.	Csiszar I. On topological properties of f-divergence//Studia Sci. Math. Hun-
gar. — 1967. — N. 2. — 3—4. — P. 329—339.
14.	Morozova E. A., Cencov N. N. Markov maps in noncommutative probability
theory and mathematical statistics//Proc. 4th Intern. Vilnius Conf. Probabi-
lity Theory Mathem. Statistics (1985). — V. 2. — VNU Science Press.— 1987.—
P. 287 — 310.
15.	Ченцов H. H. Оценка неизвестной плотности распределения по наблюде-
ниям//Докл. АН СССР. — 1962. — Т. 147. — 1. — С. 45-48.
16.	Фролов А. С., Ченцов Н. Н. Использование зависимых испытаний в методе
Монте Карло для получения гладких кривых//Тр. 6-го Всесоюзн. совещ.
по теории вероятн. матем. статистике (Вильнюс, 1960). — Вильнюс, 1962. —
С. 425—437.
17.	Статулявичюс В. В. Некоторые свойства асимптотически минимаксных ста-
тистических оценок плотности распределения//Дисс. к. ф.—м. н., Виль-
нюсский гос. университет им. В. Капсукаса. — 1986. — 109 с.
18.	Стратонович Р. Л. Быстрота сходимости алгоритмов оценки плотности рас-
пределения вероятностей//Изв. АН СССР, сер. техн, киберн. — 1969. — 6. —
1. — С..3—15.
19.	Ченцов Н. Н. К систематической теории экспоненциальных семейств распре-
делений вероятностей//Теор. вероятн. примен. —1966. — 11. — 3. — С. 483—
494.
20.	Barndorff-Nielsen О. Information and Exponential Families in Statistical
theory. — Wiley, 1978.
21.	Ченцов H. H. Несимметричное расстояние между распределениями вероят-
ностей, энтропия и теорема Пифагора//Матем. заметки. — 1968. — 4. — 3. —
С. 323-332.
22.	LeCam L. On some asymptotic properties of maximum likelihood estimates
and related Bayes estimates//Univ. Calif. Publ. Statistics. — 1953. — 1. —
P. 267—329. (Имеется русский перевод: ЛеКам Л. О некоторых асимптоти-
ческих свойствах оценок максимального правдоподобия и относительных
байесовских оценках//Сб. «Математика». — 1960. — Т. 4. — 2. — С. 69—
119.)
23.	Ибрагимов И. А., Хасьминский Р. 3. Об оценке плотности распределения//
Сб. Исследрвания по математической статистике, IV. — Записки научн.
семинаров ЛОМИ. — 1980. — Т. 98. — С. 61—86.
24.	Hartigan J. A. The likelihood and invariance principles//Ann. Math. Sta-
tist. — 1967. — T. 38. — P. 533—539.
25.	Kriz T. A., Talacko J. V. Equivalence of the maximum likelihood estimator
to a minimum entropy estimator//Trab. Estadist. Invest. Oper. — 1968. —
T. 19. — 1—2. — P. 55—65.
26.	Надарая Э. А. .Непараметрическое оценивание плотности вероятностей и
кривой регрессии. — Тбилиси: ТГУ, 1983.
Дополнение 2
Принципы оценивания плотности
распределения вероятностей
В. Н. Вапник
Говорят, что всякая проблема включает в себя три элемента:
постановку проблемы, ее разрешение и анализ качества разре-
шения проблемы. В задаче оценивания плотности вероятностей
эта структура имеет особенности, которые могут вызвать неудов-
летворенность исследователя: слишком много существует спосо-
бов разрешения проблемы оценивания плотности (метод ядерных
функций, проекционные методы, метод гистограмм, метод макси-
мума правдоподобия со штрафными функциями, метод решета
и др.) и нет оснований думать, что все возможные методы оцени-
вания исчерпаны.
В таких случаях уместен вопрос: «А не существует ли общего
принципа построения оценок, следуя которому можно получить
известные методы оценивания и, быть может, конструировать
новые?.»
Попытке ответить на этот вопрос и посвящено настоящее до-
полнение. В нем мы рассмотрим две постановки задачи оценивания
плотности вероятностей: косвенную и прямую, и покажем, что
в рамках каждой из них на основе одной и той же системы идей
могут быть получены различные методы оценивания плотности.
1. Косвенная постановка задачи
оценивания плотности вероятностей
Косвенная постановка задачи оценивания плотности вероят-
ностей восходит к схеме, предложенной Р. Фишером [1 ] и впер-
вые в достаточно общем случае исследованной А. Вальдом [2].
Пусть задано множество плотностей х) р (х, а), а С А, со-
держащее искомую плотность р (х, а0). Рассмотрим функционал
На., (а)= — [1пр(х, а)р(х, a0)dx,	(1)
определенный на функциях этого множества.
г) Для простоты мы ограничимся случаем х С Хс Однако все приве-
денные здесь результаты переносятся и на случай X С Rn.
В. Н. Вапник
363
Известно, что минимум функционала (1) (пусть минимум
существует) достигается на функциях р (х, аЛ), которые могут
отличаться от р (х, а0) разве лишь на множестве меры нуль.
Более того, известно (см. теорему 8.2 книги), что
f IР (*> а*) — Р (х, а0) | dx с -\Г2 (Нщ (а*) — Яа4 (а0)).	(2)
Поэтому функции р (х, а*), доставляющие функционалу (1)
значения, е-близкие к минимальному, будут >/2е-близки в ме-
трике Lx к оцениваемой плотности.
Таким образом, задача оценивания плотности р (х, а0) (в слу-
чае когда для нее существует энтропия Шеннона Яа„ (а0) =
— — j In р (х, а0) р (х, а0) dx < оо) эквивалентна задаче ми-
нимизации функционала (1). Однако в нашей постановке функцио-
нал (1) не определен явно: плотность р (х, а0) неизвестна, но
задана случайная независимая выборка
*1, •., xh	(3)
распределенная согласно р (х, а0).
Проблема как раз и заключается в том, чтобы в этих условиях
минимизировать функционал (1), т. е. предложить метод построе-
ния последовательности функций р (х, а;), az = а (хх, ..., xz),
обеспечивающий сходимость
На, (az) - На, (а0) = — j In	Р(х, а0)dx-~ 0.	(4)
Функционал — j In р (х, а0) dx получил название
метрики Ку'льбака (согласно (2), сходимость в метрике Кульбака
обеспечивает сходимость в Lx).
Р. Фишер указал на следующий путь минимизации функцио-
нала (1) по эмпирическим данным (3). Он предложил в качестве
искомой оценки выбирать плотности, минимизирующие на задан-
ном множестве р (х, а), а £ А эмпирический функционал
i
Яэ(а) = — -у 2 1п р (Хг’	(5)
1=1
построенный по выборке (3).
Как мы увидим ниже, такой путь разрешения проблемы мини-
мизации функционала (1) (он получил название метода макси-
мума правдоподобия) является не самым удачным: он гарантирует
состоятельность оценки лишь для достаточно узких классов функ-
ций. Ниже мы остановимся на условиях состоятельности метода
максимума правдоподобия и рассмотрим его обобщение. Сейчас же
для нас важно, что задача оценивания плотности была сведена
364
Дополнение. 2. Принципы оценивания плотности
к другой задаче — минимизации функционала среднего риска (!)
по эмпирическим данным (3), и в этом смысле постановка Фи-
шера—Вальда является косвенной в отличие от возможной пря-
мой. Однако, прежде чем перейти к прямой постановке задачи
оценивания плотности вероятностей, заметим, что, используя
параметрическую форму записи множества р (х, а), а £ Л, мы
никаких ограничений на множество параметров Л не налагаем:
оно может быть как множеством конечномерных векторов, так
и множеством абстрактных элементов.
2. Прямая постановка задачи оценивания
плотности вероятностей
Прямая постановка задачи оценивания плотности вероятно-
стей сформулирована сравнительно недавно [3].
Согласно определению, плотность вероятностей есть решение
интегрального уравнения
ь
j 0 (х — х')р(х', a) dx' = Ра, (х),	(6)
а
{О, если z<0,
1, если г^О,
определенного на некотором множестве 0 функций р (х, а),
«ЕЛ, где Ра„ (х) — функция распределения вероятностей.
Оценить плотность р (х, а0) на основе выборки (3) — значит
найти приближения р (х, а,,) к решению р (х, а0) интегрального
уравнения (6) в условиях, когда функция распределения вероят-
ностей Ра. (х) неизвестна, но задана выборка, полученная сог-
ласно Ра<) (х). .
Построим на основе выборки (3) эмпирическую функцию рас-
пределения
i
^(*)=-г2е(х~х<)-	(7)
>•=1
Согласно теореме Гливенко—Кантелли с ростом объема выборки I
эмпирическая функция распределения сходится п. н. к истин-
ной в метрике С:
SUp | F, (X) - Ра. (X) 114 0-
X	1-+ОО
Таким образом, проблема состоит в том, чтобы, используя после-
довательность функций Fi (х), I =1,2, ..., сходящуюся к Ра„ (х),
найти последовательность функций р (х, az), сходящуюся в ме-
трике множества Ег к решению р (х, а0) уравнения (6).
В. Н. Вапник
365
Принципиальная трудность решения уравнения (6) на основе
последовательности эмпирических функций Г/ (х), I — 1, 2,
состоит в том, что для сколько-нибудь широкого класса функций
р (х, а), а £ Л, отыскание решения уравнения (6) является не-
корректно поставленной задачей.
В 60-х годах были найдены различные методы решения некор-
ректно поставленных задач: метод квазирешений В. К. Ива-
нова [4], метод регуляризации А. Н. Тихонова [5], метод «не-
вязки» Д. Филлипса [61. Вее они, как потом выяснилось, идейно
близки друг другу. Однако еще раньше многие оценки плотности,
являющиеся решением прямой задачи, были предложены разными
авторами. В разд. 12 мы укажем на связь хорошо известных ме-
тодов оценивания плотности с решением интегрального уравне-
ния (6) на основе последовательности функций F{ (х), 1=1,
2....
3. Состоятельность метода
минимизации эмпирического риска
Рассмотрим задачу минимизации среднего риска по эмпири-
ческим данным, охватывающую задачу оценивания плотности,
вероятностей в косвенной постановке [7]. Пусть на множестве из-
меримых функций Q (х, а), а £ Л, задан функционал среднего
риска
/ (а) = J Q (х, a) dP (х).	(8)
Требуется минимизировать (8), если вероятностная мера Р (х)
неизвестна, но задана случайная независимая выборка х1( ..., х{,
полученная согласно Р (х).
Введем эмпирический функционал (функционал эмпирического
риска)
z
/3(a) = -J-2Q^’	(9)
i=i
минимум которого Q (х, az) примем за оценку функции
Q (х, а0), минимизирующей средний риск (8). Такой путь миними-
зации среднего риска называется методом минимизации эмпири-
ческого риска.
Говорят, что решение задачи минимизации среднего риска
на множестве Q (х, a,), а £ Л методом минимизации эмпириче-
ского риска является состоятельным, если
f Q (х, a;) dP (х) -Д j Q (х, а0) dP (х)
J	/->0О J
366
Дополнение 2. Принципы оценивания плотности
И
z
а'^ I а<>нр(х).
i=l
Однако приведенное определение состоятельности допускает сле-
дующую возможность. Пусть на множестве функций Q (х, а),
а £ Л, метод минимизации эмпирического риска не является
состоятельным. Рассмотрим новое множество Q (х, а), а £ Л*,
состоящее из множества Q (х, а), а £ Л, и еще одной функ-
ции <р (х), такой, что ф (х) < Q (х, а), а £ Л, ух £ X. На этом
множестве минимум функционала (9) будет всегда достигаться
на функции ф (х) и, следовательно, метод минимизации эмпириче-
ского риска будет состоятельным. Из приведенного примера сле-
дует, что необходимые условия состоятельности должны содер-
жать сравнение функций множества. Для того чтобы построить
общую теорию, не содержащую сравнения функций, введем оп-
ределение строгой состоятельности [8].
Определение. Решение задачи минимизации среднего риска
на множестве Q (х, а), а £ Л, методом минимизации эмпириче-
ского риска является строго состоятельным, если на любом
подмножестве Q (х, а), а £ Л (с), таком, что
Л (с) — {a: j Q (х, a) dP (х) >• с и а £ Л}, с £ (—оо, оо),
имеет место сходимость по вероятности
i
inf у- У Q (х«> а) -р* inf ( Q (х, a) dP (х).
а€Л(<?) S	J
Замечание. Из строгой состоятельности метода минимизации
эмпирического риска на Q (х, а), а £ Л, следует состоятельность
метода
( Q (х, az) dP (х) Л- ( Q (х, а0) dP (х).
Для того чтобы сформулировать условия, обеспечивающие стро-
гую состоятельность метода минимизации эмпирического риска,
нам понадобятся два понятия.
Определения. На множестве Q (х, a), a £ Л, имеет место
равномерная сходимость средних к их математическим ожида-
ниям, если
sup j Q (х, a) dP (х) - -у- У Q (хг, а)
а€Л J	(Zi
1>0.
В. Н. Вапник
367
На множестве функций Q (х, а), а С Л, имеет место равномерная
односторонняя сходимость средних к их математическим ожида-
ниям, если
(I	\
[ Q (х, а) dP (х) - -у У Q а) 7^* 0.
где
{г, если z 2s 0,
0, если г <Z 1.
Пусть теперь Q (х, а), а £ Л, — множество функций, удов-
летворяющих для некоторых — оо<а<4< + оо условию
а < jQ(x, a)dP(x) с А.	(10)
Теорема 1 [8]. Для функций, удовлетворяющих (10), следую-
щие два утверждения эквивалентны;
1) на множестве функций Q (х, а), а £ Л метод минимизации
эмпирического риска является строго состоятельным;
2) на множестве функций Q (х, а), а £ Л, имеет место рав-
номерная односторонняя сходимость.
Таким образом, условия строгой состоятельности метода ми-
нимизации эмпирического риска полностью определяются усло-
виями равномерной односторонней сходимости.
4. Необходимые и достаточные условия
равномерной односторонней сходимости
для множества равномерно ограниченных функций
Введем дальнейшие ограничения на множества функций
Q (х, а), а £ Л: пусть Q (х, а), а £ Л, — множество равномерно
ограниченных по модулю функций
| Q (х, а) | < В < Ч-оо,
удовлетворяющих подходящим условиям измеримости. Пусть
хг, .... х(—случайная независимая выборка объема I, полу-
ченная согласно неизвестной мере Р (х). Поставим в соответ-
ствие каждому набору хг.х{ множество /-мерных векторов
q (а) = (Q (Хх, а), ..., Q (х„ а)), а £ Л,
принадлежащих /-мерному кубу с ребром 2В.
368
Дополнение 2. Принципы оценивания плотности
Определим число элементов минимальной е-сети множества
q (а), а £ Л, в метрике С-
Pc(<7i> 7г) = sup | Q(xf,	а2) |,
которое будем обозначать NA (е; хг......xt).
Величину Нл (е; хх, xt) = In NA (е; хх, xz) называют
энтропией множества Q (х, а), а £ Л, на выборке хг, ..., х;,
а величину
НА (е, Z) = Е In NA (е; хх, ..., х,)	(11)
средней энтропией множества функций Q (х, а), а £ Л, на выбор-
ках объема I. В определении (11) математическое ожидание бе-
рется по мере Р1 (х).
В следующих теоремах устанавливается, что условия равно-
мерной сходимости средних к их математическим ожиданиям
на Q (х, а), х £ Л, определяются особенностями асимптотиче-
ского (по /) поведения функции НА (е, /).
Теорема 2 (9]. Для того чтобы на множестве равномерно
ограниченных по модулю функций Q (х, а), а £ Л, имела место
равномерная сходимость средних к их математическим ожида-
ниям, необходимо и достаточно, чтобы для любого е > 0 выпол-
нялось равенство
Um	= a
Z~>OO
(т. е. средняя энтропия на элемент выборки стремится к нулю
с ростом I).
Теорема 3 (81. Для того чтобы на множестве равномерно
ограниченных по модулю функций Q (х, а), а С Л, имела место
равномерная односторонняя сходимость, необходимо и достаточно,
чтобы для любых положительных е, б и г| нашлось множество
функций R (х, Р), р £ &, удовлетворяющее двум условиям-.
1)	для всякой функции Q (х, а*) существует функция R (х, р*),
такая, что
Q (х, а*) R (х, р*),	|(Q(x, а*)-Я(х, p*))dP(x)<6; '
2)	для любого е > 0 энтропия множества R (х, Р), Р £
на выборках объема I удовлетворяет условию
.. ня (г, I)
11Ш ----’	< Т].
/-*00
В. Н. Вапник
369
Замечание [101. Если имеет место равномерная сходимость,
то она имеет место п. н.
Итак, согласно теореме 1, условия теоремы 3 являются необ-
ходимыми и достаточными условиями строгой состоятельности
метода минимизации эмпирического риска на множестве ограни-
ченных функций.
Эти условия для заданной вероятностной меры Р (х) описы-
вают степень разнообразия множества функций и никак не свя-
заны с особенностями функций, образующих множество. Грубо
говоря, теоремы утверждают, что если множество функций «не
очень разнообразно», то метод минимизации эмпирического риска
является строго состоятельным, в противном случае не является.
5.	Достаточные условия равномерной сходимости
Приведенные в предыдущем разделе необходимые и достаточ-
ные условия равномерной сходимости средних к их математиче-
ским ожиданиям опирались на свойства энтропии, которая кон-
струировалась с помощью неизвестной вероятностной меры Р (х)..
Однако часто необходимо иметь более грубую характеристику
разнообразия множества Q (х, а), а £ Л, в терминах которой мож-
но было бы установить достаточные условия равномерной сходи-
мости для неизвестной вероятностной меры. Такой характеристи-
кой мог бы служить факт существования конечной е-сети множе-
ства Q (х, а), а £ Л, в метрике С. Пусть ЛМ (е) — минимальное
число элементов е-сети множества Q (х, а), а £ Л, в метрике С.
Тогда для любого / справедливо неравенство
7VA (е; хь ..., хг) < NA (е)
и, следовательно,
ЯЛ(е, 1)	In AZА (е)
I	I	/~*ОО
что, согласно теореме 2, влечет за собой существование равномер-
ной сходимости. Более того, для этого случая справедлива
Теорема 4 [7 ]. Пусть множество ограниченных по модулю
функций | Q (х, а) | с В, а £ Л, имеет г-сеть в метрике С,
состоящую из 1VA (е) элементов. Тогда
Р
sup
j Q (х, а) dP (х) -
еЧ
<2ЛГА(-|-)е 4(2В)*.
(12)
х/г 24 Дев рой Л.» Дьёрфи Л.
370
Дополнение 2. Принципы оценивания плотности
Из неравенства (12) следует, что
Р {| j Q (х, «/) dP (х) - j Q (х, а0) dP (х)| > 2е} <•
е2/
<2Л7л(-Г)е	.
Приведенная характеристика позволяет установить существо-
вание равномерной сходимости лишь для множеств непрерывных
функций. Поэтому рассмотрим другую, весьма общую характе-
ристику разнообразия множества Q (х, а), а £ Л — емкость мно-
жества. Определим ее сначала для множества <о (х, а), а £ Л,
индикаторных функций (со = 0, 1).
Как и при построении энтропии, поставим в соответствие
выборке хх, X/ множество (бинарных) векторов
<7<о (®) = (о (хх, а), ..., со (хь а)), а £ Л.
Для множества qa (а), а £ Л, количество элементов минималь-
ной е-сети не зависит от е и равно числу ДЛ (хь ..., xz) различных
элементов множества qa (а), а £ Л.
Введем функцию
/пЛ(/) = max Да (xlt ..., хг),	(13)
xi...xi
которая обладает следующим замечательным свойством.
Теорема 5 [10]. Функция тА (I) либо определяется равенством
тА (/) = 2',	(14а)
либо, если найдется такое I = h + 1, что тА (Л + 1)	2h+1,
оценивается неравенством
тА (/) < /*.	(146)
Определения. Емкость множества индикаторных функций
<о (х, а), а С Л» равна h, если имеет место оценка (146), и равна
бесконечности, если для всех I имеет место равенство (14а).
Пусть теперь Q (х, а), а £ Л, — множество произвольных
функций. По всякому с С (— оо, <») построим множество инди-
каторных функций
©с (х, а) = 0 (Q (х, а) + с), а £ Л.
Емкость множества функций Q (х, ос), а £ Л, равна h, если
h = sup hc,
С
где hc есть емкость множества индикаторных функций <ос (х, а),
а £ Л.
В. Н. Вапник
371
Теорема 5 дает возможность оценить емкость любого множе-
ства. В частности, емкость множества функций, заданных в виде
п—1
Q (х, а) = £ аг<рг (х),
i=0
где Фо (х),	, Фп-i (х) — линейно независимые функции, равна
п [10].
Для множества равномерно ограниченных по модулю функций
| Q (х, а) | с В, а £ Л, имеющего емкость Л, справедлива оценка
2В
NA (е; хь ..., х,) < (/А) Е
и, следовательно,
НА (е, 0	2Bh In I	n
l	в I
иA /g
Согласно же теореме 2, условие —» 0 влечет за собой
равномерную сходимость. Более того, справедлива
Теорема 6 [7]. Для множества равномерно ограниченных по
модулю функций | Q (х, а) | с В, а £ Л, имеющего емкость Л,
справедливо неравенство
I
р sup [ Q (х, а) dP (х) - У Q (xit а) > в
ас л J	1
еч
6(2/)Ае 4(2B,,
а£Л
(15)
Из неравенства (15) следует, что
p{|jQ(x, а0) dP (х) - J Q (х, a/)dP(x)|>2e}<6(2Z)fte_^>i.
(16)
6.	Принцип структурной минимизации риска
Приведенные в теореме 3 необходимые и достаточные условия
строгой состоятельности устанавливают, в частности, что метод
минимизации эмпирического риска применим лишь в ограничен-
ных случаях. Поэтому рассмотрим следующее его обобщение.
Пусть по-прежнему стоит задача о минимизации функционала
среднего риска (8) по эмпирическим данным хх, ... , xz, и пусть
наряду с Q (х, а), а £ Л, на X задана структура
с S2 с ... с Sn с ...
(17)
V» 24»
372	Дополнение 2. Принципы оценивания плотности
функций Sn = {/? (х, 0) : Р (Е £п\, такая, что
inf [ R (х, р) dP (х) —> f Q (х, а0) dP (х).
Зададим закон п — п (/), определяющий номер п элемента Sn
структуры (17) в зависимости от объема I выборки хх, ... , xz.
В качестве приближения к искомой функции Q (х, а0), мини-
мизирующей на Q (х, а), а £ Л, средний риск, будем выбирать
такую функцию R (х, pz), которая на элементе Sn(Z) структуры
(17) минимизирует эмпирический риск
1
'э(Р)=4-2₽(хг’₽>
1=1
I
(т. е. R (х, pz) = arg min J] 7? (x;> P))- Такой метод минимизации
Э £ f9n ,=1
среднего риска назовем методом структурной, минимизации
риска х) 18,10].
Будем требовать, чтобы каждое из множеств R (х, р), р £ ^п,
удовлетворяло достаточным условиям равномерной сходимости,
приведенным в предыдущем разделе. В этом случае можно указать
такой закон п — п (/), для которого метод структурной мини-
мизации риска будет состоятельным.
В частности, если потребовать, чтобы каждый элемент Sn
структуры (17) удовлетворял условиям теоремы 4:
1) функции из R (х, Р), р £ £п, ограничены по модулю вели-
чиной Вп (Вп_! < Вп);
2) число элементов минимальной е-сети в метрике С множества
R (х, Р), р £ Яг, не превосходит (е) (Nn-i (е) < Nn (в)), то
состоятельность (фактически сходимость п. н.) метода структур-
ной минимизации риска обеспечит такой закон п = п (/), для
которого при любом е > 0 будет выполнено равенство
lim в; (ж ,(в|+,„ о = о	(18)
/-*00
Используя теорему 4, можно оценить и асимптотическую скорость
сходимости J R (х, pz) dP (х) J Q (х, а0) dP (х).
Пусть теперь каждый элемент Sn структуры (17) удовлетворяет
условиям теоремы 6:
1) функции R (х, р), Р С ограничены по модулю вели-
чиной Вп (Вп_! < Вп);
1) В этом названии подчеркивается приоритет определения подходящего
элемента структуры перед определением функции, минимизирующей эмпириче-
ский риск. В книге аналогичный метод называется методом решета.
В, Н. Вапник
373
2) емкость множества функций R (х, 0), 0 £ dSn, равна hn
(An-i Ап).
Для такой структуры справедлива
Теорема 7 [7]. Метод структурной минимизации риска обеспе-
чивает сходимость п. н. с асимптотической скоростью, имеющей
порядок
V(0=( inf J/?(x, 0)dP(x)-jQ(x, a0)dP(x)) +
/ B2n In I
+ у	---- (19)
(т. e. P (lim V’1 (/) ( f R (x, 0;) dP (x) - J Q (x, a0) dP (x)) =
= const j = 1), если закон n = n (l) таков, что
ВП (l)^n (/> *П l	1
/	I ->oo
Заметим, что скорость сходимости (19) представлена суммой
двух слагаемых. Первое слагаемое
r„(O= inf [ R (х, 0) dP (х) — J Q (х, a0) dP (х)
₽€#n<bJ
определяет величину уклонения среднего риска, доставляемого
искомым решением, от среднего риска, доставляемого наилучшим
в Sn приближением (чем больше п = п (I), тем меньше уклоне-
ние). Второе слагаемое
д	ВП liftin') I ,п 1
(о = у --------j-----
оценивает величину уклонения среднего риска наилучшего в Sn
приближения от среднего риска, доставляемого выбранной функ-
цией (чем меньше п = п (/), тем меньше уклонение). Таким обра-
зом, скорость сходимости определяется двумя противоречащими
друг другу требованиями к закону п = п (Z).
7. Условия состоятельности метода
максимума правдоподобия
Используем приведенные в разд. 5 и б теоремы для выяснения
условий состоятельности метода максимума правдоподобия.
Определения. Метод максимума правдоподобия является со-
стоятельным методом оценивания плотности из р (х, а), а £ Л,
24 Деврой JI., Дьёрфи JI.
374
Дополнение 2. Принципы оценивания плотности
inf
асл
в метрике р (рх, р2), если для любого р (х, а0), а0 £ Л, справед-
ливо
Р (Р (*, “/). Р (х, а0)) -А 0.
1-+-СО
Метод максимума правдоподобия является строго состоятельным
методом оценивания плотностей множества р (х, а), а £ Л,
если для любой плотности р (х, а0), ао € Л, имеет место сходи-
мость по вероятности
i	\
— ~Г 2ln Р (х1' а) j ~ f1п р (х> “о) р (х> ао)dx-
i=i	/
Замечание. Если метод максимума правдоподобия является
строго состоятельным методом оценивания плотностей из р (х, а),
а £ Л, то он является состоятельным методом оценивания в мет-
рике Кульбака
— (In - у- --у р (х, а0) dx 0.
J р (х, а0) r v 07 /-оо
Изучение условий строгой состоятельности метода максимума
правдоподобия мы начнем с частного случая: класс плотностей
р (х, а), а £ Л, равномерно ограничен и равномерно отделим от
нуля:
0 < а с р (х, а) с А < оо	(20)
(а и Л не зависят от х и а). С помощью теоремы 3 для заданного
класса плотностей (20) устанавливается
Теорема 8 [8]. Для того, чтобы на множестве равномерно
ограниченных и равномерно отделимых от нуля плотностей метод
максимума правдоподобия был строго состоятельным, необходимо
и достаточно, чтобы на множестве (равномерно ограниченных по
модулю) функций — In р (х, а), а £ Л, имела место равномерная
односторонняя сходимость относительно меры, заданной некото-
рой (любой) плотностью р (х, а0), а0 £ Л.
Иначе говоря, чтобы на множестве функций Q (х, а) = — In р (х,
а), а £ Л выполнялись условия теоремы 3.
Как следует из замечаний, приведенных в разд. 6, достаточным
условием строгой состоятельности метода максимума правдо-
подобия является существование на множестве In р (х, а), а £ Л,
конечной е-сети в метрике С. Можно показать, что необходимым
условием строгой состоятельности является факт существования
конечной е-сети в метрике Lt.
В. Н. Вапник
375
8. Обобщение на множество неограниченных функций
Перейдем теперь к общему случаю: р (х, а), а £ Л, — про-
извольное множество плотностей. Для того чтобы сформулировать
условия состоятельности метода максимума правдоподобия в мет-
рике Llt нам понадобится новое понятие.
Определение. Для плотности р (х, а0), а0 £ Л, существует
регулярная оценка метода максимума правдоподобия, если най-
дется такое число /0 — I (а0), для которого оценка величины
максимального правдоподобия
/о
sup U In р (xt, а) < L (хь ..., х/л)
а£Л i=l
удовлетворяет условию
EL (хи ... , xi„) < оо,
где математическое ожидание берется по мере (х).
Замечание. Если для плотности р (х, а0) регулярная оценка
максимума правдоподобия существует для I = 10, то она суще-
ствует и для любого I > 10.
Легко убедиться, что
1) для любой ограниченной сверху плотности регулярная
оценка существует, начиная с I = 1;
2) для плотности нормального закона
р(х; а, ст) = ехр { — j, а £ (—оо, оо), 0^(0, о),
(дисперсия неотделима от нуля) регулярная оценка максимума
правдоподобия существует, начиная с I = 2, так как
sun (__	~ а)2____(*2 ~ а)2__—1п 2лст2^ < In 1
„fk 2о2	2а2	2 ,П2ЯСТ |ха —хх|
и
оо	_ (X,— о<,)« + (хг—а<,)г
-2^Г I 1П |ха-х~g 2°° dX1 dX* < °°-
—00
Введем функцию
{Q (х, а), если | Q (х, а)| < В,
В sgn Q (х, а), если | Q (х, а) | > В,
с помощью которой сформулируем теорему.
Теорема 9 [8]. Для того чтобы метод максимума правдопо-
добия был состоятелен в метрике Llt достаточно, чтобы для
любого а0 £ Л
24*
376
Дополнение 2. Принципы оценивания плотности
1) существовала регулярная оценка метода максимума правдо-
подобия (начиная с l0 = I (а0));
Г '°
2) для любого В на множестве функций — У] In р (х‘, а)
L 1=1
а £ Л (/0 = I (а0) переменных х1,	, х1°) существовала равно-
мерная односторонняя сходимость относительно меры Ра„ (х).
в’
Теорема 9 устанавливает, по-видимому, достаточно общие
условия состоятельности метода максимума правдоподобия. Ее
формулировка содержит дв,а требования: существование регуляр-
ной оценки и емкостную ограниченность множества, в котором
ведется оценивание. (Для равномерно ограниченных и отделимых
от нуля плотностей эти два условия совпадают с условиями тео-
ремы 8, т. е. являются необходимыми и достаточными условиями
строгой состоятельности.) Здесь уместно еще раз отметить, что
параметр а, задающий элемент множества р (х, а), а £ Л, —
не обязательно конечномерный вектор, а потому метод максимума
правдоподобия есть инструмент не только параметрических мето-
дов оценивания (т. е. методов оценивания в классе плотностей
р (х, а), а £ Л, заданных с точностью до конечного числа пара-
метров).
Приведем пример множества гладких плотностей, для которого
метод максимума правдоподобия является состоятельным.
Пример 1. Рассмотрим множество Л плотностей р (х, а),
а £ Л, заданных на отрезке 10, 11, таких, что
11п<*> р (х, а) | с A, k 1.
Для этого множества существует регулярная оценка метода макси-
мума правдоподобия, начиная с I = 1, а множество функций
In р (х, а), а £ Л, образует компакт в метрике С.
Следовательно, метод максимума правдоподобия на множестве
0>к, л состоятелен в метрике Кульбака. Свойства оценки метода
максимума правдоподобия на 5**, Л устанавливает
Теорема 10 [11]. Оценка максимума правдоподобия на
1)	единственна-, v
2)	представима в виде р (х, at) = exp и (х), где и (х) — сплайн
порядка k, такой, что |	(х) | = А, причем «<*> (х) меняет
знак между двумя элементами выборки не более k раз-,
3)	удовлетворяет равенству
i
j хтр (х, а;) dx = -j- т = 0, 1, 2, ..., k — 1,
<=i
где Xt — элементы выборки.
В. Н. Вапник
377
Для k = 1 оценка определяется решением уравнения
(X
j еи dx' — Fi (х)
о
1
je“<*>dx = 1.
о
Можно найти порядок скорости сходимости (в метрике Куль-
бака) оценки р (х, at) к искомой плотности р (х, а0) [11]. Оценка
сходится почти наверное со скоростью 1п , т. е.
Р 1 lim ~\f , . . ( — fin р^х> р (х, а0) dx = const 1=1.
I	V In In Z \ J	p (x, a0) r v °'	|
9. Метод максимума структурного правдоподобия
К сожалению, метод максимума правдоподобия оказывается
состоятельным лишь для узких классов плотностей. Так, он не
состоятелен уже при оценивании смеси
р(х; a, <r) = yp=-(j? 2 +— е	2®‘ J, а£(—оо, оо),
а).
(не существует оценки) или при оценивании плотностей, принадле-
жащих множеству индикаторных функций (для этих плотностей
существует регулярная оценка, но не выполнены емкостные усло-
вия теоремы 9).
Поэтому модифицируем метод максимума правдоподобия, ис-
пользуя принцип структурной минимизации риска. Пусть для
плотностей р (х, а), а £ А, существует энтропия Шеннона. Тогда
если принять Q (х, а) = — In р (х, а), а £ A, R (х, 0) = — In q (х,
0), 0 £ $ (q (х, 0), 0 Е — множество плотностей, всюду плот-
ное в р (х, а), а £ А, в метрике Кульбака), построить на мно-
жестве 7? (х, 0), 0 £ Si, структуру, удовлетворяющую требова-
ниям разд. 7, то принцип структурной минимизации риска (кото-
рый для задачи оценивания плотности назовем принципом макси-
мума структурного правдоподобия) в соответствии с теоремой 7
(или условием (18)) обеспечит сходимость п. н. оценки к искомой
плотности.
Пример 2. Для множества плотностей, заданных на [— л, л 1
и имеющих энтропию, рассмотрим структуру
с Ss с ... с Sn сг ...,
378
Дополнение 2. Принципы оценивания плотности
где элемент Sn содержит функции q (х, 0), 0 С $п. такие, что
'	п
R (х, 0) = In q (х, 0) = а0 (ar sin rx -f- br cos гх),
Г—1
_	(21)
sup | R (х, 0) | < 1 + >Лп п.
X
Построенная структура удовлетворяет условиям теоремы 7 с па-
раметрами
hn = 2n, Bn = 1-j-j/lnn,
и, следовательно, метод максимума структурного правдоподобия
будет сходиться к искомой плотности п. н., если закон п = п (/)
таков, что
п (/) in и (/) 1п I _Л
/	/-со и-
При этом будет достигнута асимптотическая скорость сходимости
в метрике Кульбака, имеющая порядок
V (0 =>»(/>+ V. n(01n”(f)ln< ,	(22)
где rn = inf J In р (х, а0) dx'j — скорость аппрокси-
мации искомой плотности на элементах структуры.
Для того чтобы оценить порядок скорости сходимости (22),
надо уметь оценить скорость аппроксимации гп. Это можно сделать,
лишь имея априорную информацию об оцениваемой плотности.
Так, если плотность р (х, а0) такова, что функция In р (х, а0)
разложима в конечный ряд Фурье, то, начиная с некоторого
п = п0, будет выполнено равенство гп = 0, и, следовательно,
выбрав п — п (/) достаточно медленно растущей функцией, можно
приблизиться к асимптотической скорости у
Если искомая плотность — гладкая функция, например
11п<*> р (х, а0) | < М, k $> 1,
то, согласно теореме об аппроксимации рядами Фурье гладких'
функций 1121, существует такая константа А, что
гп с АМ-^т-.
пг
1
Выбрав п — l2k+\ получим
k
V (Z) - (In Z) Г .
В. Н. Вапник
379
Замечание. Для того чтобы построить структуру, обеспечи-
вающую состоятельность оценки на бесконечном интервале,
достаточно в (21) вместо тригонометрических полиномов исполь-
зовать ортонормальные полиномы Эрмита.
Пример 3. Пусть р (х, а), а £ Л — множество плотностей,
заданных на (а, 6), — оо < а < b < оо. Рассмотрим структуру,
элемент которой Sn состоит из плотностей, удовлетворяющих
ограничению
|1п<*>?.(х, ₽)| <Вп, РС^П-	(23)
Как показано в теореме 10, функция и (х) = In q (х, р,),
максимизирующая на множестве (23) правдоподобие, единственна
и является сплайном порядка k.
Для того чтобы определить закон п = п (/), обеспечивающий
состоятельность оценки плотности q (х, pz) = еи <*>, найдем число
элементов минимальной e-сети множества (23).
Известно 113 ], что число ячеек минимальной е-сети в метрике С
множества функций In q (х, Р), р £	(J г?(х, P)dx = 1), удов-
летворяющих (23), ограничено величиной
С	1	1
Л^п(е) с exp j А k (b — а) I,	(24)
где А — абсолютная константа.
Согласно (18), метод максимума структурного правдоподобия
обеспечит сходимость оценки к искомой плотности п. н., если
будет выбран такой закон п = п (/), что для любого е выполнится
равенство
При этом будет достигнута асимптотическая скорость сходимости,
равная по порядку величины
V(/) = rn(/)+e;,
где е* — корень уравнения
Пусть теперь плотность р (х, а0) — гладкая функция, такая, что
11п<*> р(х, а0) | < оо, & > 1. Тогда, начиная с некоторого п = п0,
скорость аппроксимации будет равна нулю. Положив Вп — п и
п = х (/), где х (/ — сколь угодно медленно стремящаяся к беско-
1
380	Дополнение 2. Принципы оценивания плотности
вечности функция, получим порядок асимптотической скорости
сходимости
k
V(/) = X (/)/	.
Замечание. Для плотностей, заданных на интервале (—оо, оо)
(оо
j |х|тр (х, a)dx<
—оо
< оо^, состоятельный метод максимума структурного правдо-
подобия может быть получен с помощью структуры с элементами
п
Sn = 1) sm, где sm — множество плотностей q (х, 0), 0 £ &т,
т—1
удовлетворяющих на интервале (— т, т) условию sup |	(х,
X
0) | < Вт и равных | х |-(1+т) вне этого интервала.
Если sup 11п(*> р (х, а0) | < оо, то для Вт = In т, т =
X
порядок асимптотической скорости сходимости составит V (/) =
k
k
2^+1+-—-	<
= I т In /.
10. Методы решения некорректно поставленных задач
Перейдем теперь к изложению прямых методов оценивания
плотности, т. е. методов решения интегрального уравнения (6)
на основе эмпирических данных (7). Как уже говорилось в разд. 3,
трудности здесь связаны с тем, что задача решения интегрального
уравнения (6) относится к так называемым некорректно постав-
ленным задачам математической физики.
Рассмотрим операторное уравнение
Af - ST,	(25)
взаимно однозначно отображающее элементы f £ ^метрического
пространства Ег в элементы ST £ Л9 метрического пространства Е^
Пусть А — непрерывный оператор, т. е. близкие (в метрике Ег)
элементы f £ Л он переводит в близкие (в метрике Е2) элементы
Говорят, что решение операторного уравнения (25) устойчиво,
если обратный оператор Л"1 является непрерывным.
Говорят также, что задача решения операторного уравнения
(25) поставлена корректно по Адамару, если решение существует,
единственно, устойчиво.
В. Н. Вапник
381
К сожалению, большое количество задач (и к ним относится
задача оценивания плотности (6)) оказываются некорректно
поставленными из-за отсутствия устойчивости решения.
Идея устранения неустойчивости решения связана с сужением
класса возможных решений до множества Л* с: Л (множество
корректности). Задачу решения операторного уравнения (25)
называют корректной по Тихонову на множестве Л*, если реше-
ние уравнения существует (и принадлежит .Л*), единственно и
устойчиво относительно АС* = АЛ*.
При Л* = Л, АС* = АС понятие корректности по Тихонову
совпадает с понятием корректности по Адамару. Смысл опреде-
ления корректности по Тихонову заключается в том, что коррект-
ность может быть достигнута за счет сужения рассматриваемого
множества решений Л до множества корректности^#*. Основная
идея в решении некорректно поставленных задач состоит в том,
что если сузить множество возможных решений Л до компакта
Л*, то оно образует множество корректности.
Лемма (об обратном операторе). Если на компакте Л* cz Л
задан непрерывный взаимно однозначный оператор А, то обратный
оператор А-1 непрерывен на множестве АС* = АЛ*.
Этот факт лежит в основе различных методов решения некор-
ректно поставленных задач. Рассмотрим один из них — метод
регуляризации [5].
Пусть Q (/) — полунепрерывный снизу функционал (стабили-
затор), обладающий следующими свойствами:
1)	решение операторного уравнения (25) принадлежит области
определения функционала □ (/);
2)	функционал Q (f) принимает неотрицательные значения;
3)	все множества Лс = Q (/) < с} являются компактами.
Метод регуляризации состоит в том, чтобы, используя после-
довательность функций Д,, минимизирующих функционалы
R(f, ^) = Р£,(АЛ ^) + ТЙ (/),
где у > 0, у —> О, получить решение
f = limfv-
у->0
Приближения Д. называются регуляризованными решениями урав-
нения (25).
Пусть теперь вместо правой части уравнения (25) дана
последовательность функций такая, что р£г (&~,	* 0.
В этом случае последовательностью регуляризованных решений
Д, будет последовательность функций Д,(с), минимизирующих
функционалы
Rt> (f,	= Ре, (Af, <Г6) + у (б) Q (f).	(26)
382	Дополнение 2. Принципы оценивания плотности
Справедливы следующие две теоремы.
Теорема 11 [5]. Пусть Е1иЕг — метрические пространства,
и пусть для £ Л9 существует решение уравнения (25). Тогда
если вместо правой части уравнения (25) известны приближения
ST ъ, такие, что Ре2 , ^7~6) < б, а значения параметра у = у (б)
таковы, что
У (6) т—*• 0> lim —тгг = а < оо,
1 v 7 e-о в-о У <«)	.
то последовательность регуляризованных решений сходится
в метрике Et к искомому решению уравнения при у (б) —- 0.
В гильбертовом пространстве для линейного оператора А
можно выбрать функционал Й (/) = || f ||2. И хотя множества
Ле = \f: й (/) с с) оказываются только слабо компактными,
сходимость регуляризованного решения к искомому имеет место.
Теорема 12 [5]. Пусть Ех — гильбертово пространство,
й (/) — II/ II2 и для	существует решение уравнения (25).
Тогда если вместо правой части ЁГ уравнения (25) известны прибли-
жения ^6, такие, что рЕ, (&~, ь) 0, а значения параметра
у = у (б) таковы, что	б^°
у (б) —► 0,	> о.
г v 7 е-о у (6) 6-0
то регуляризованные решения Д,^) сходятся к искомому f в мет-
рике L2.
И. Теоремы о стохастической регуляризации
и задача оценивания плотности вероятностей
Метод регуляризации может быть распространен на решение
некорректно поставленных стохастических задач [31.
Пусть стоит задача о решении операторного уравнения (25)
в ситуации, когда вместо правой части ЯГ уравнения задана по-
следовательность случайных функций ЗГ, I = 1,2, ... .сходящаяся
к ЁГ в метрике Е2 по вероятности:
Р|р£!(^. ^)>М	0.	(27).
Пусть у/ — последовательность положительных величин, стре-
мящихся к нулю. Определим последовательность функций fh
минимизирующих функционал'
R (f, Fi) = Ре, (Af, + у,Й (/),	(28)
где й (/) — стабилизирующий функционал, удовлетворяющий со-
ответствующим условиям разд. 10.
В. Н. Вапник
383
Справедливы следующие две теоремы.
Теорема 13 [3]. Для любых е > 0 и 6 > 0 найдется такое
I (е, 6), что для всех I > I (в, 6) выполнятся неравенства
Р (Л fi) > е} < Р {pl, (ЗГ, <Гг) > Т6}.
Теорема 14 [3]. Пусть Ег — гильбертово пространство L2 (а,
ь
Ь), А — линейный оператор, Q (f) = j /2 (х) dx. Тогда для всякого
а
е > 0 найдется такое число I (е), что для всех I > I (е,) будут
выполнены неравенства
Р
ь	1
(x))2dx>e <2Р{р2в,(^,
Воспользуемся этими теоремами для построения методов оце-
нивания плотности. Для того чтобы получить не одно, а мно-
жество приближений к искомой плотности, рассмотрим наряду
с уравнением
ь
j б (х - х') р (х', a) dx’ = F (х)	(29)
а
уравнение
ь
В j 0 (х — х') р (х', a) dx’ = BF (х),	(29а)
а
где В — линейный невырожденный оператор. Хотя точные реше-
ния уравнений (29) и (29а) совпадают, приближенные решения
этих уравнений, найденные на основе одних и тех же эмпириче-
ских функций распределения Ft (х), будут различными в зави-
симости от оператора В.
Будем искать решение уравнения (29а) методом регуляриза-
ции в условиях, когда расстояние рв, (F, Ft) от оценок .Ft (х) до
функции F (х) подчинено следующему достаточно слабому огра-
ничению:
Ре. (BF, BF,) < Фв (F) sup | F (х) - Ft (х) |,
X
где Фв (F) — функционал, зависящий от В. Пусть р (х, а;) —
последовательность регуляризованных решений (29а), найденных
на основе эмпирических функций распределения Ft (х), т. е.
последовательность минимумов функционалов
(ь	\
В J 0(х — х')р (x't a)dx', BFi(x) j + уй (р(х,а)),
о	/
(30)
384	Дополнение 2. Принципы оценивания плотности
Тогда из оценки Колмогорова
Р j sup | F (x) - F; (x) | > e } < 2e~2el‘	(31)
и теоремы 13 следует, что для всяких е > 0, 6 > 0 найдется
такое I (е, 6), что при / > I (е, 6) выполнятся неравенства
2<У,д
Р (р£1 (р (х, dt), р (х, а0)) > е} < 2е Ф* <F>.	(32а)
Если же р (х, а0) £ L2 (а, Ь), то из теоремы 14 и неравенства (31)
следует, что для всех I > I (в) выполнятся неравенства
Ь	А
Р j (р (х, аг) — р (х, а0))2 dx > 8 } < 4е (F).	(326)
о	J
Из (32a), (326) вытекает, что условия
Vz —► 0, Ivi —> оо
обеспечивают сходимость по вероятности регул яр изованны х ре-
шений к искомым, а условие
л I
fi —> 0, -т—г Yi —* 00
/->оо	In I	1-+оо
— сходимость п. н.
12. Методы оценивания плотности вероятностей
Приведем различные оценки плотности вероятностей, полу-
ченные на основе метода стохастической регуляризации.
Пример 4 (тригонометрические оценки проекционного типа).
Пусть искомая плотность принадлежит Л2 (— л, л). В соотноше-
нии (30) определим В — единичный оператор, р£, (F, F,) =
= j (F (х) — F[ (х))2 dx и Q (р) = j р2 (х, a) dx.. В результате
-л	-л
получим функционал
R (р, Fi)= J | j Р (х', a) dx’ — Fi (x)'j dx у, J р2 (х, а) dx.
— л \—л	/	—л
(33)
В. Н. Вапник
385
Будем искать функцию, минимизирующую (33), в виде разложе-
ния в ряд Фурье. Получим оценку
Р (х) = Pi (х) + рг (х),	(34)
где
Л=1
I	л
2 I — 2 Х[ ~ f XPl w dx I OO
n (r\=	‘=i -Л_____________V (—l)'‘«sin«x
л(1+2Го(Т/)) Zl l+№
n=l
oo
r° fro=2 i+?(n2 •
Найденная оценка сходится к искомой плотности в метрике
2^2 ( я> л).
Если же k-я производная искомой плотности (k 1) при-
надлежит L2 (— л, л), а разложение плотности в ряд Фурье
допускает 6-кратное почленное дифференцирование, то исполь-
зуем функционал х)
R (р, Ft) = J ( j р (х, a) dx — F (х) | dx + у J (р<*> (х, а))2 dx,
—-л \—л	/	—л
(33a)
минимум которого достигается на оценке
Р (х) = Pl (X) + Рг (х),	.	(34а)
где
/ I	\	/	/	\
°° I -р 2 sin nxi I sin nx + I ~ 2 C0S nXi / C0S nx
Pl w = зг+ 2	я(1+Т(Я2(Л+‘1))‘
x) Для задачи оценивания плотности можно использовать стабилизатор
Ь
Q (р) = j (/><*’ (х, a))2 dx с k > 0.
а
386	Дополнение 2. Принципы оценивания плотности
(I	л	\
— 2 Xi ~ f XP1	dx I	00
______________<=1 -л_____£	V	(—l)nnsinnx
F2W	л(1 +2rft (ц))	Zi	l+Y,n2(*+>)	’
n=l ’ ’ ‘
oo
гл (T«) = 2 i+Tz„2(*+0 •
Оценка сходится к искомой плотности в метрике С*-1 (— л, л).
Пример 5 (проекционные оценки). Пусть р (х, а) £ L2 (а, Ь).
Найдем оценку плотности в виде разложения в ряд по различным
базисным функциям. Пусть В — линейный невырожденный опе-
ратор, действующий из La. Тогда
ь
ВТ(х) = \K(z, x)T(x)dx.
а
Обозначим
ь	ь
Gp (х', а) = J К (г, х) j 0 (х — х') р (х', а) dx',
а	а
I Ъ
Фг (г) = BF, (х) = -1-2 I К (г’
1=1 Xi
Пусть
Ф1 (х),	, фп (х), ...
— собственные функции самосопряженного оператора GG*;
Фх(г), ... , фп (г), ...
— собственные функции оператора G*G;
1?, .... к2п, ...
— соответствующие им собственные числа. Функции фг (х), фг (?) и
числа 1г связаны соотношением
6фг (х) = М/ (?), 0*ф,- (?) = ktcpt (х).
Будем искать, минимум функционала
ь	ь
R(p, Fl) = J (Gp (x, a) — Фг (?)У d? + уг j p2 (x, a) dr (35)
a	a
в виде разложения в ряд по системе фг (х), i = 1, 2, ... ,
р (х, а,) = апфп (х).
В. Н. Вапник
387
Функционал (35) достигает минимума, когда
ь
где bn = j Ф/ (z) фп (z) dz.
а
Задавая различные операторы В (ядра К (г, х)), можно полу-
чать разные системы функций <рг (х) и фг (г). В частности, для
единичного оператора В и интервала (0, л) получим
р (х, az) = р! (х) + р2 (х),
где
Пример 6 (сплайн-оценки). Пусть k-я производная плотности
интегрируема с квадратом на (а, 6) (k 0). Выберем в качестве В
ь
единичный оператор, стабилизатор Q (р) = j (p(ft) (х, a))2 dx
а .
и метрику
ь
Ре, (F, Ft) = f | F.(x) - Ft (х) | dx.
а
Будем искать оценку плотности р (х, az), минимизируя функционал
(ь	\2 ь
J I F (х) - F, (х) | dx + yi J (Pw (х, a))2 dx,
а	/а
или, что то же самое, функционал
ь	ь
Pi) = J I F (x) - Ft (x) I dx + P; J (p® (x, a))2 dx.
a	a
388
Дополнение 2. Принципы оценивания плотности
Оценка плотности р (х, az), найденная методами оптимального
управления, будет сплайном порядка 2k + 1, являющимся ре-
шением системы дифференциальных уравнений
p(2fe+D (Х1 а;) = Sgn (В (х) - Fl (х)),
F(i) (х) = р (х, а,),
удовлетворяющим условиям
р(г) (а, а() = 0, р<г> (Ь, а;) = 0, г = k 1, ..., 2k -I- 1.
При k^ \ и — оо < а < b < оо оценки сходятся к искомой
плотности в метрике Ck~l (а, Ь), при k = 0 — в метрике £г (а, Ь).
Пример 7 (оценки Парзена—Розенблатта). Пусть р (х, а) £
С £2 (— °°> оо) и В — линейный оператор, действующий из Ь2
с ядром Л (г — х)
оо	оо
ВТ (х) = J K(z-x)T(x)dx, p2Es(F,Fi)= J (FW-Ftlxtfdx,
—oo	—oo
Q (p) = J p2 (x, a) dx.
<—oo
В этих условиях функционал (30) примет вид
R (р, Fi)= j I j К (z — x) j 9 (x — x') p (x', a) dx' dx —
—oo \ —oo	—oo
— j К (z — x) Ft (x) dx | dz + Уг J p2 (x, a) dx. (36)
—oo	/	—OO
Приравнивая нулю вариацию (по р (х, а)) этого функционала
и решая полученное уравнение методом преобразования Фурье,
получим
i
,	\	1	Х?/* —хг\
— ядерную оценку Парзена — Розенблатта, где ядро g (•) связано
с .ядром К (•) оператора В соотношением
g (и) = -JL f g (<в) d<o, g (®) =------К (а>)К ( ~ю)-,
2л J	у/<о2 + К (со) К (—<о)
—оо
К (а) = J К (и) е~‘и,л du.
В. Н. Вапник
389
(Используя в (36) вместо j р2 (х, a)dx стабилизатор вида
—оо
оо / оо	Л-2
j | j (х — х') р (х', a) dx' 1 dx, получим
—оо \ -оо	/
g (»)=—=J <“)«<-"> __________________,
(о) К, (-и) + К (ш) К (-и)
ОО
где Ki (©) = J Лу (и) e~‘‘‘adu.) В частности, если В — единич-
ный оператор, то минимум (36) определяет оценку
i	1*~^1
’'• "J-	
Для плотностей, у которых существует интегрируемая с квад-
ратом производная
J (р(1> (х, a))2 dx < оо
--ОО
функция, минимизирующая функционал
Я (р, Ft) = J f J 0 (х — х) р (х', a) dx’ — Fi (х)^ dx
+ 7/ J (P(l) (X, а))2 dx,	(37)
— оо
(Лх (ю) = — io) определяет оценку
р (х, а;) — —4 1— V е	t/4vz cos	.
”	24/4Vz	4/4Yz
Если плотность задана на ограниченном носителе, эта оценка
сходится в метрике С.
Пример 8. Пусть р (х, а0) £ L2 (а, Ь). Будем искать оценку
р (х, az), минимизируя функционал
b	ь
R (р, Fi) = j (F (х) — Ft (х))2 (d р (х, a))dx h уг J р® (х ау dx<
а	а
390
Дополнение 2. Принципы оценивания плотности
где d > 0. Минимизация этого функционала сводится к задаче
оптимального управления: найти управление и (х), доставляющее
минимум функционалу
R (и, Ft) = f (F (х) - Ft (x))2 (d + и (x)) dx + Y/ J u2 (x) dx
при ограничении F (x) = и (x). Оптимальная траектория здесь
определяется решением системы дифференциальных уравнений
F («) = (Ф (х) - (F (х) - Ft (х))2),
ф (х) = 2 (F (х) - Ft (х)) (rf + —L_ (ф (х) - (F (х) - Ft (x))2) ,
удовлетворяющим условиям
ф (а) = 0, ф (Ь) — 0.
Оценка р (х, а() = F (х) сходится к искомой плотности в метрике
£2 (а, Ь).
Пример 9 (гистограммные оценки). Пусть плотность р (х,
а0) € ^2 (а> Ь) имеет абсолютно интегрируемую производную.
Будем искать оценку, минимизируя функционал
R (р, Ft) = j (F (х) - Ft (x))2 (d + | p<>> (x, a) |)dx + J p2(x, a) dx,
(38)
где d > 0. Для этого будем решать задачу оптимального управ-
ления: найти управление и (х), доставляющее минимум функ-
ционалу
R (и, Ft) = J (z2 (х) - Ft (х))2 (d + | и (x) |) dx + V( J zf (x) dx
при ограничениях
z2 (x) = ?! (x),
(x) = и (x).
Функция p (x, az) zx (x), полученная на основе неособого реше-
ния этой задачи, будет кусочно-постоянной. Она сходится к ис-
комой плотности в метрике Л2 (а, Ь).
В. Н. Вапник
391
13. Замечания о прямых методах
оценивания плотности вероятностей
Г. Итак, задавая разные способы определения расстояния от
функций Fi (х) до функции F (х) и разные функционалы Q (р),
можно конструировать различные оценки плотности. Приведен-
ные в предыдущем разделе примеры были подобраны так, чтобы
получить конструктивные идеи основных методов оценивания,
изложенных в этой книге: метода ядерных оценок (пример 7),
проекционных методов (примеры 4, 5), метода гистограмм (при-
мер 9). Однако лишь в одном случае оценка, полученная методом
стохастической регуляризации, совпала с оценкой, используемой
для разрешения проблемы оценивания плотности вероятностей.
Это ядерная оценка Парзена — Розенблатта. В остальных слу-
чаях используются «упрощенные» аналоги оценок стохастической
регуляризации.
Так, отбросив второе слагаемое в оценках плотностей (34),
(34а) (что мало повлияет на результат при оценивании гладких
плотностей), получим оценки с проекционными окнами [14].
Для достаточно гладких плотностей они близки к классическому
варианту проекционных оценок [15].
Гистограммная оценка, определенная в примере 9, задает
кусочно-постоянную функцию так, что по выборке определяются
интервалы постоянных значений функции (в классических гисто-
граммных оценках интервалы постоянства обычно фиксируются
заранее).
2°. Несмотря на универсальный характер оценок Парзена —
Розенблатта, их применение на практике при восстановлении плот-
ности на заданном ограниченном носителе (особенно в многомер-
ном пространстве) приводит к искажениям в точках, близких
к граничным [16]. В этих случаях, видимо, преимущество имеют
оценки проекционного типа (примеры 4,6), полученные путем
минимизации того же самого функционала, что и ядерные оценки
Парзена — Розенблатта, но определенного на заданном (а не бес-
конечном) интервале.
3°. Как следует из общей схемы, все приведенные в предыду-
щем разделе оценки являются состоятельными, коль скоро вы-
полнятся условия
у> —► 0, Ivi —> оо.
•е 1->-оо	" l-oo
Однако при работе с выборками ограниченного объема возникает
необходимость определения подходящего параметра регуляриза-
ции fi (параметра сглаживания). Для определения этого пара-
метра в оценке Парзена — Розенблатта используются, различные
варианты метода скользящего контроля (cross-validation) [7,17, 18].
392
Дополнение 2. Принципы оценивания плотности
В некоторых (но не всех) ситуациях они обеспечивают состоятель-
ность оценивания [18, 171.
При поиске приближенного решения некорректно поставлен-
ных задач оптимальную константу регуляризации yz определяют
на основе принципа невязки [19], суть которого состоит в том,
чтобы выбрать константу yz, обеспечивающую равенство
Ре, (Fv, fi) = Ре, (F, Ft) = 6,	(39)
где ре, (F, Ft) — близость искаженной правой части Ft (х) к ис-
тинной F (х), Fv (х) = Afv, [у — решение, полученное методом
регуляризации с константой у.
Основная трудность в реализации метода невязки состоит
в том, чтобы оценить величину 6. При решении задачи восста-
новления плотности вероятностей этой трудности часто удается
избежать. Так, известно распределение <о2-статистики Смирнова
со2 = 1 J (Ft (х) - F (х))2 dF (х)
или распределение Dj-статистики Колмогорова
‘Dz = /Г sup | F (х) - Ft (х) |.
X
Для приближенной 2) реализации метода невязки (где в (39) мет-
рика ре, (.) заменяется метрикой L2 (F) или С) следует задать
нужную квантиль 0 соответствующего распределения и опреде-
лить такое у, чтобы получить равенство
I j(Fv(x)-Fz(x))2dFv(x) = 0,	(40)
или, если используется статистика Колмогорова, равенство
/Г sup | Fv (х) - Ft (х) | = 0v
X
Левая часть равенства (40) представима в виде, удобном для
вычисления
i
I J (Fv (х) - Ft (х))2 dFv (х) =.J (Fv (it) -	+	,
i=l
где xz есть i-й элемент вариационного ряда выборки-хь ... , х{:
Равенство
PE,(F„ Л) = /-^х(0,
х) Для оценки, полученной в примере 8 при малых d, статистика со2 обеспе-
чит почти точную реализацию метода невязки.
В. Н. Вапник
393
где X (0 — произвольная (как угодно медленно) стремящаяся
к бесконечности функция, обеспечит состоятельность любой оценке
плотности вероятностей, полученной методом стохастической
регуляризации.
14. О принципах индуктивного вывода
В этом дополнении мы рассмотрели две постановки задачи
оценивания плотности вероятностей: косвенную и прямую. В каж-
дой из них можно получать различные состоятельные методы оце-
нивания.
В обоих случаях успех определила мысль о том, что, вообще
говоря, оценку плотности надо искать не на заданном множестве
функций, а на более узком множестве, зависящем от объема
выборки. В разных постановках эта идея реализовалась по-раз-
ному: в косвенной — с помощью метода структурной минимиза-
ции риска, в прямой — с помощью метода стохастической регу-
ляризации. Однако в обеих реализациях неизменным оставалось то,
что на заданной структуре выбиралось подмножество с подхо-
дящей емкостной характеристикой, определяемой особенностями
компакта (или емкости множества) /? (х, 0), 0 £ <Зп, в методе
структурной минимизации риска и особенностями компакта
Q (/) < с в методе стохастической регуляризации.
В такой ситуации, вероятно, оправданна мысль о том, что
эта ключевая идея отражает общие принципы индуктивного вы-
вода'.
Принято считать, что существуют два способа рассуждений,
дедуктивный, осуществляющий движение от общего к частному:
и индуктивный — от частного к общему.
Идеалом дедуктивного пути является схема, в которой за-
дается система аксиом и правил вывода, с помощью которых по-
лучают различные следствия. Дедуктивный путь должен гаранти-
ровать, что из истинных посылок будут получены истинные след-
ствия.
Индуктивный путь рассуждений состоит в том, что из отдель-
ных частных высказываний создаются общие суждения. При этом
полученные на основе истинных частных высказываний общие
суждения не всегда оказываются истинными. Тем не менее счи-
тается, что существуют такие методы индуктивного вывода, что
обобщающие суждения являются оправданными.
Формулировка этих методов вывода традиционно была пред-
метом обсуждения в философии, где в конце концов было принято,
что индуктивные методы должны быть условно-кумулятивными,
т. е. такими, что содержание выбранного обобщающего суждения
принадлежит как можно большему числу частных высказываний
при условии, что оно удовлетворяет некоторому специальному
25 Деврой Л.. Дьёрфи Л.
394
Дополнение 2. Принципы оценивания плотности
свойству. Вопрос об этом специальном свойстве и явился пред-
метом дискуссий. Отказ от учета особенностей обобщающего суж-
дения определили кумулятивный принцип индукции (наивный
эмпиризм), провозглашенный Ф. Бэконом: содержание обобща-
ющего суждения должно принадлежать всем высказанным част-
ным суждениям. Напротив, если предъявлять к особенностям об-
общающего суждения слишком сильные требования, то будет
отдан приоритет априорному знанию перед эмпирическим.
Обычно эти споры носили весьма общий характер. Однако
в последнее время ситуация изменилась. В XVIII в. появилась
теория вероятностей, которая в наше время с помощью аксиома-
тики А. Н. Колмогорова обрела классическую дедуктивную форму.
Основную задачу теории вероятностей можно сформулировать так:
известно пространство исходов эксперимента с заданной на нем
вероятностной мерой, требуется определить распределение на
исходах эксперимента. В начале нашего века возник новый
раздел математики — математическая статистика, основная за-
дача которой формулируется как задача, обратная теории веро-
ятностей: по результатам эксперимента оценить вероятностную
меру. (Для случая, когда вероятностная мера имеет плотность,
задача оценивания плотности вероятностей по наблюдениям
является, таким образом, основной задачей статистики.)
С появлением математической статистики сложилась новая
ситуация в изучении процессов индукции: возник раздел мате-
матики, в котором строится и изучается простейшая модель
индукции. При этом исследованию подлежат задачи, обратные
задачам теории вероятностей — раздела математики, построен-
ного по классической дедуктивной схейе. Однако этому обстоя-
тельству, по-видимому, долгое время не уделялось достаточного
внимания, и математическая статистика развивалась вне связи
с анализом методов индукции *).
Между тем в первой половине нашего века интерес к вопросам
логики науки, в том числе и процессам индукции, оказался ис-
ключительно большим благодаря работам Венской школы фило-
софов. Одним из наиболее значительных достижений здесь явилась
концепция К. Поппера [21].
Основная проблема, которую пытался разрешить К. Поппер,
была проблема демаркации И. Канта: чем отличаются методы
с оправданным индуктивным шагом от методов, где индуктивный
шаг не оправдан? К. Поппер считал, что необходимым условием
оправданности индуктивного шага является принципиальная воз-
можность фальсификации метода, т. е. существование такого
набора высказываний, для которого с помощью данного метода
х) Хотя во многих книгах по математической статистике указывается на
такую связь. См., например, [20].
В. Н. Вапник
396
нельзя отыскать общее суждение с содержанием, принадлежащим
всем высказываниям набора.
Применительно к задаче оценивания функциональной зависи-
мости по эмпирическим данным в классе а» (х, а), а £ Л индика-
торных функций фальсифицируемость метода оценивания озна-
чает, что существует такая п-ка пар хГ, ©Г, ... , х„, ®п. что ни
при какой выборке х1( ©j, ... , хг, ©; с помощью данного метода
не может быть получена оценка © (х, аг), удовлетворяющая
равенствам
© (х*, «/) = ©*, i=l, 2, ..., п.
В этом случае n-ка хГ, ©]*, ... , х„, ©А фальсифицирует метод
оценивания в классе функций © (х, а), а $ Л.
При доказательстве необходимых условий равномерной одно-
сторонней сходимости в классе равномерно ограниченных функ-
ций Q (х, а), а ЕЛ (теорема 3) центральным оказалось утвержде-
ние о том, что отсутствие (двусторонней) равномерной сходимости
влечет за собой нефальсифицируемость метода минимизации эмпи-
рического риска на некотором множестве пар х, у. А именно:
если условия теоремы 2 не будут выполнены, то найдутся две
функции фх (х) > фо (*) и число г > 0, удовлетворяющие нера-
венству
J (Ф1 W — Фо СО) dP (х) > г,
такие, что для всякой двоичной последовательности ©lf ..., ©;
всякого 6 > 0 и почти всякой выборки х1( ..., X/ в классе Q (х, а),
а £Л, отыщется функция Q (х, а*), для которой выполнятся
неравенства
| фи. (хг) — Q(хь а*) | < S, t = i, 2,..., I.
Согласно результатам разд. 5, условия фальсифицируемости
метода минимизации эмпирического риска определяются ограни-
ченностью емкости множества функций, в котором ведется оцени-
вание, причем в классе функций ограниченной емкости метод
минимизации эмпирического риска (отражающий кумулятивный
принцип индукции в статистике) является состоятельным.
При оценивании плотности более глубоким, чем кумулятивный,
оказался условно-кумулятивный принцип индукции, основанный
на «правильном» соотнесении емкостной характеристики элемента
структуры с количеством имеющихся эмпирических данных.
Является ли используемая здесь мера «правильного» соотне-
сения выражением общего условия оправданности индуктивного
шага? Если принять эту мысль, то, учитывая, что понятие «емкость
множества» определено для произвольных множеств функций,
быть может, следует придать принципу структурной минимиза-
25*
396
Дополнение 2. Принципы оценивания плотности
ции более общий смысл с тем, чтобы использовать его для созда-
ния различных индуктивных систем, в том числе и индуктивных
логик.
ЛИТЕРАТУРА
I.	Fisher R. A. Theory of statistical estimation//Proc. Cambridge Phil. Soc. —
1925. — P. 700—725.
2.	Wald A. Note of consistency of M. L. estimate//Ann. Math. Stat. — 1945. —
20. — P. 595—601.
3.	Вапник В. H., Стефанюк А. Р'. Непараметрические методы восстановления
плотности вероятностей//АиТ. — 1978. — 8. — С. 38—52.
4.	Иванов В. К., Васин В. В., Танана В. П. Теория линейных некорректных
задач и ее приложения.—М.: Наука, 1978.
5.	Тихонов А. Н., Арсенин В. Я. Методы решения некорректных задач. —М.:
Наука, 1974.
6.	Phillips D. L. A technique for numerical solution of certain integral equations
of the first kind//J. Assoc. Comput. Math. — 1962. — V.9. — N 1. — P. 84—87.
7.	Вапник В. H. Восстановление зависимостей по эмпирическим данным. —
М.: Наука, 1979.
8.	Vapnik V. N., Chervonenkis A. J. Estimation of expected risk from empirical
dataZ/Тезисы 1-го Всемирного конгресса общества математической стати-
стики и теории вероятностей им. Бернулли. — 1986. — Т. 2. — С. 580—583.
9.	Вапник В. Н., Червоненкис А. Я. Необходимые и достаточные условия рав-
номерной сходимости средних к их математическим ожиданиям.//Теория
вероятн-. и ее примен. — 1981. — Т. XXVI. — 3. — С. 543—563.
10.	Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.:
Наука, 1974.
11.	Айду Ф. А. Сплайны в задаче непараметрической оценки плотности.//АиТ. —
1987.
12.	Тиман А. Ф. Теория приближения функций.—М.: ГИФМЛ, 1960.
13.	Витушкин А. Г. Оценка сложности задачи табулирования. — М.: ГИФМЛ,
1959.
14.	Бенткус Р., Казбарас А. Оптимальные статистические оценки плотности
распределения в присутствии априорной информации//Литовский матема-
тический сборник. — 1982. — Т. XXII. — 3. — С. 29—40.
15.	Ченцов Н. Н. Статистические решающие правила и оптимальные выводы. —
М.: Наука, 1972.
16.	Shuster Е. F. Incorporating Support constrains into nonparametric estimators
of densities/ZCommunication in statistics. — Theory Math. — 1985. — 14. —
5 _ p. П23—1136.
17.	Shuster E. F., Gregory C. On the nonconsistency of maximum likelihood non-
parametric density estimators//Computer science and statistics: Preceding
of the 13 Symposium on the interface. — Springer-Verlag 1981.
18.	Hall P. Large sample optimality of least squares cross—validation in density
estimation//Ann. Stat. — 1985. N 11. —P. 1156—1174.
19.	Морозов В. А. О регуляризации некорректно поставленных задач и выборе
параметра регуляризации//ЖВМ и МФ. — 1966. — Т. 6. — 1. — С. 170—
175.
20.	Боровков А. А. Математическая статистика.—М.: Наука, 1984.
21.	Поппер К. Логика и рост научного знания. —М.: Прогресс, 1983.
Именной указатель0
Abou-Jaoude S. 19, 20, 21, 23, 31, 32,
35, 36, 38, 39, 42, 152, 211, 222,
224
Abramson I. S. 198, 222
Ahmad I. A. 199, 222
Ahrens J. H. 247, 248
Anderson G. L. 342
Anderson T. W. 210, 222
Andrews D. F. 253, 259
Archer N. P. 248, 249
Asau Y. 247, 249
Askey R. 318, 319, 322, 342
Asselin de Beauville J. P. 330, 342
Assouad P. 50, 51, 82, 84
Babu A. J. G. 250
Banon G. 200, 222
Bartlett M. S. 89, 121, 133, 153, 213,
215, 223
Bean S. J. 14
Beck J. 268, 273
Beckenbach E. F. 90, 153
Bellman R. 90, 153
Bennett G. 168, 194, 286, 291
Bertrand-Retali M. 185, 194
Bickel P. J. 43, 44, 259
Birge L. 15, 47, 50, 51, 55, 82, 222, 223
Bleuez J. 297, 298, 310, 317, 322, 342,
343
Blum J. R. 191, 196, 290, 292, 345
Boas R. P. 337, 343
Bosq D. 296, 297, 298, 310, 317, 322,
342. 343
Bowman A. W. 163, 195
Boyd D. W. 59, 83
Breiman L. 197—199, 223, 243, 249
Bretagnolle J. 25, 42, 48, 58, 59, 60,
75, 83, 84, 129, 134, 135, 153, 195,
230 249
Brunk H. D. 329, 343
Butzer P. L. 315, 316, 319, 326, 328,
332, 335, 338, 340, 343
Cacoullos T. 23, 42
Carleson L. 306, 343
Carlson F. 90, 153
Carroll R. J. 199, 223
Chen H. C. 247, 249
Chow Y. S. 161, 162, 195
Cover T. M. 14, 267, 273
Crain В. Я- 297, 322, 330, 343
d К с. 1 -347.
Csibi S. 263, 273
Csiszar I. 230, 249
Davies H. I. 199, 200, 223 , 225
Davis К. B. 141, 143, 152, 153
Deak I. 243, 249
De Figueriedo R. J. P. 342
De Guzman 16, 22
Dehaan L. 256, 259
Deheuvels P. 60, 83, 89, 115, 153, 156,
158, 195-, 199, 200, 205, 215, 223, 243,
244, 249
De Montricher M. 210, 223
Devroye L. 15, 22, 23, 42, 43, 44, 57,
83, 153, 156, 185, 195, 198—200, 223,
249, 251, 259, 263, 265, 266, 268, 273
Diaconis P. 105, 115, 153
Duin R. P. W. 160, 195, 224
Edwards R. E. 303, 306, 307, 343
Efron B. 43, 44
Factor L. E. 159, 162, 196
Farrell R. H. 59, 83, 84
Fefferman C. 307, 343
Feller W. 109, 141, 153, 221, 223, 281,
291
Fellner W. H. 329, 343
Fix E. 267, 273
Foldes A. 14, 296, 343
Fox B. L. 239, 248, 249
Freedman D. 105, 115, 153
Fritz J. 268, 273
Fryer M. J. 14
Gaskins R. A. 209, 224
Gasser T. 215, 223
Gastwirth J. L. 253, 260
Geman S. 162, 195, 207—209, 223
Gessaman M. P. 211, 223
Glick N. 21, 22
Good I. J. 209, 224
Gordon L. 267, 273
Gray H. L. 225
Greblicki W. 296, 297, 317, 322, 343
Gregory G. G. 162, 163, 196
Grenander U. 207, 219, 224
Groeneboom P. 219, 224
Gyorfi L. 199, 224, 263, 266, 273
Haagerup U. 146, 153
398
Именной указатель
Habbema J. D. F. 160, 195, 198. 224
Hall P. 40, 43, 163, 195, 205, 224, 297,
311, 322, 324, 328, 339, 343
Hampel F. 259
Hanna B. 211, 224
Hart P. E. 267, 273
HaSimov S. A. 346, 347
Hayes C. A. 16, 22
Hermans J. 195, 224
Heyde С. C. 205, 224
Hodges J. L. 267, 273
Hoeffding W. 25, 43, 271/274, 285, 292
Hominal P. 115, 153, 156, 159, 195,
244, 249
Huder C. 25, 42, 48, 58, 59, 60, 75, 83,
84, 129, 134, 135, 153, 195, 230,
249
Huber P. J. 253, 259, 260, 288, 292
Hunt R. A.. 307, 343
Hwang C.-R. 162, 195, 207, 209, 223
Isogai E. 200, 224
Jorsboe O. G. 307, 343
Kac M. 337, 343
Kassam S..A. 288
Kemper man J. H. B. 230, 249
Kiefer J. 59, 83, 182, 195
Klonias V: K. 210, 224
Knuth D. E. 245, 249
Kohrt K. D. 247, 248
Kolmogorov A. N. 307, 343
Korner T. W. 307, 344
Kronmal R. A. 14, 247, 249, 296, 329,
330, 344, 345
Krzyzak A. 296, 328, 344
Kullback S. 230, 249
Kulldorf G. 118, 153
Leadbetter M. R. 141, 152, 154, 346, 347
Le Cam L. 232, 249
Leonard T. 14
Lin P. 199, 222
Loeve M. 202, 205, 224
Loftsgaarden D. O. 198, 224, 267, 274
Lorentz G. G. 344
Lukacs E. 141, 153
Machell F. 259
Mack Y. P. 198, 224
Mammitzch V. 223
Marshall A. W. 289, 292
Marzinkiewicz J. 144, 153
Meilbro L. 307, 343
Meisel W. 197, 223, 243, 249
Mirzahmedov M. A. 346, 347
Moore D. S. 198, 224
Mozzochi C. J. 307, 344
Muckenhoupt B. 318, 320, 322, 344
Muller H.-G. 215, 223, 224
Nessel R. J. 315, 316, 319, 326, 328,
332, 335, 338, 340, 343
Neveu J. 22
Newman J. 322, 344
Olevskii A. M. 344
Olshen R. A. 267, 273
Owen D. B. 225
Parzen E. 23, 43, 85, 153, 253, 260,
289, 292
Раис C. Y. 16, 22
Pawlak M. 296, 328, 343, 344
Penrod C. S. 153, 259
Peterson A. V. 247, 249
Pitman E. J. 231, 249
Pollard H. 322, 344
Poor H. V. 288
Prakasa Rao B. L. S. 14, 219, 224
Proshan F. 289, 292
Purcell E. 197, 223, 243, 249
Quade E. S. 316, 344
Quenouille M. 216, 224
Quesenberry С. P. 198, 224, 267, 274
Raatgever J. W. 198, 224
Rao C. R. 282, 292
Rejtd L. 200, 225
Remme J. 224
Revesz P. 14, 200, 225, 296, 343
Robertson T. 222, 225
Rogers W. H. 259
Rosenblatt M. 12,' 23, 43, 44, 56, 57,
60, 83, 85, 87, 89, 153, 159, 195, 198,
215, 224, 225, 289, 292, 3'29, 344
Rubinstein R, 243, 244, 250
RudemoM. 160, 162, 163, 195
Rudin W. 322, 344
Sacks J. 265, 274
Sansone G. 293, 294, 297, 324, 344
Scheffe H. 11, 22
Schmeiser B. W. 243, 250, 253, 260
Schneider B. 14, 15’
Schucany W. R. 216, 225
Schuler L. 296, 344
Schuster E. F. 162, 163, 196
Schwartz S. C. 297, 317, 322, 344
Scott D. W. 97, 115, 154, 159, 162, 196,
209, 218, 225
Именной указатель
399
Seneta Е. 177, 196, 256, 260
Serfiing R. J. 233, 250
Shalaby M. A. 243, 250
Shanmugam K. S. 241, 243, 250
Shapiro H. S. 16, 22
Sibuya M. 243, 250
Silverman B. W. 15, 159, 196, 210, 225
Sjolin P. 307, 345
Slud E. V.-73, 83
Sommers J. P. 216, 225
Spiegelman C. 265, 274
Steele J. M. 59, 83
Stegbuchner H. 296, 345
Stein E. M. 16, 18, 22, 345
Stein C. 43, 44
Sterbuchner H. 296, 345
Stone C. J. 59, 83, 84, 163, 164, 196,
' 267, 268
Stout W. F. 268, 274
Szarek S. J. 146, 154
Szego G. 293, 295, 297, 323, 345
Tapia R. A. 14, 89, 154, 196, 207, 209,
223, 225
Tarasenko F. P. 226
Tarter M. E. 14, 296, 329, 330, 344, 345
Tashiro Y. 243, 250
Taylor M. S. 248, 250
Terrell G. R. 218, 225
Thompson J. R. 14, 89, 154, 196, 207,
209, 223, 225, 248, 250
Tsokos С. P. 14
Tukey J. W. 259
Vandenbroek K- 195
Van Ryzin J. 210 , 225 , 263, 274 , 296,
345
Viollaz A. J. 297, 322, 345
Von Neumann J. 244, 250
Wagner T. J. 156, 159, 185, 195, 196,
199, 225 , 263, 265, 273, 274
Wahba G. 59, 60, 83, 211, 225, 316,
329, 330, 345
Wainger S. 318, 319, 322, 342
Walker A. J. 247, 250
Walter G. G. 191, 196, 290, 292, 297,
317, 345
Watson G. N. 109, 154
Watson G. S411, 152, 154, 296, 329,
345—347
Wegman E. J. 14, 199, 200 , 222, 225
Wertz W. 14, 15, 125, 154, 190, 196,
290, 292
Wheeden R. L. 16, 17, 18, 22
Wittaker E. T. 109, 154
Whittle P. 329, 345
Wolfowitz J. 182, 195
Wolverton С. T. 199, 225, 263, 274
Woodroofe M. 159, 196
Wu L. D. 195
Yackel J. W. 198, 224
Yamato H. 199, 226
Young R. M. G. 146, 154
Zygmund A. 16—18, 22, 144, 153, 306,
345
Бари H. K. 302—304, 311, 316, 345
Булдаков В. M. 226
Епанечников В. А. 89, .121, 154
Ефроймович С. Ю. 346, 347
Ибрагимов И. А. 59, 60 , 83, 84, 140,
154
Колмогоров А. Н. 51, 83, 344
Конаков В* Д. 141, 154
Кошкин Г. М. 226
Маматов М. 280, 292
Мания Г. М. 59, 83
Манставичус Э. 144, 154
Мнацаканов Р. М. 346, 347
Надарая Э. А. 14, 15, 43, 44, 56, 60,
83, 159, 196
Петров В. В. 99, 154, 280, 292
Прохоров Ю. В. 206, 226
Самаров А. М. 59, 83
Сираждинов С. X. 280, 292
Тарасенко Ф. П. 15, 210, 226
Фано Р. 84
Хасьминский Р. 3 . 59, 60 , 83, 84, 140,
154
Хашимов Ш. А. 346, 347
Хмаладзе Э. В. 346, 347
Ченцов Н. Н. 84, 296, 345
Предметный указатель
Адаптивная ядерная оценка 155—196
-------асимптотически оптимальная
в L>2 163
-«-----масштабная инвариантность
191
------- основанная на асимптотиче-
ских разложениях 158
------------- оптимизации критерия
160
-------скорость сходимости 192—194
------- состоятельность 155, 156
------- эвристическая 159
Адаптивное оценивание 88, 135
Аддитивная модификация оценки ^плот-
ности 212
Анализ чувствительности 119
Апостериорная вероятность 261
Ассуа лемма 50, 84
Бесселя равенство см. Парсеваля ра-
венство
Биномиальная случайная величина,
неравенство для абсолютного укло-
нения 35
------------ максимальной вероят-
ности 109
------------р-го момента 145, 146
----------на хвосты 172
Бхаттачария расстояние 354
Вариация оценки плотности в мет-
рике 34
------- точке 100
------- равномерные границы 131
Вероятность ошибки байесовская 262
---- условная 262
Верхняя граница минимаксная 45, 132
------- для классов аналитических
плотностей 140, 151
-----------------Бретаньоля —
Юбер 135, 136
-----------------Липшица 132,
314, 340, 341
-----------------монотонных плот-
ностей 221
-----------------Соболева 316
Винзоризация 288
Выпуклость по Шуру 289
Генерирования случайных величин ме-
тод инверсии 227, 247
---------- композиции 229
----------порядковых статистик 242
----------путеводителей 247, 248
----------удаления 229, 242, 244
---------- эталона 247
Гиббса эффект 311
Гистограммная оценка 13, 19, 30—34,
85, 89, 97, 128, 159, 207, 210, 237,
298, 338, 352, 356, 390, 391
----выбор параметра сглаживания
114—120
----генерирование случайных вели-
чин 246—248
----кросс-проверочная 160, 162
---- кубическая 31, 41
----нижняя граница для /^-ошибки
106
----относительная устойчивость 38,
41, 43
---- переменная 210—211
---- преобразованная 252
---- скорость сходимости 105—107
----смещение 111
— — состоятельность 31, 32
---- трансляционная инвариантность
190
Данные 10
Дельтаобразная последовательность
326
Детектор 282—288
— максимума правдоподобия 282, 284
-------винзоризованный 288
— оптимальный 282, 284
— основанный на выборочных дан-
ных 287
Предметный указатель
401
-------критерии (Д£1) 284—287
------- критериях распознавания об-
разов (ДРО) 284, 285, 287
— робастный 284, 288
— состоятельный 287
Дискриминантный анализ см. Класси-
фикация
Достаточная статистика 72
Емкость множества функций 370
Инвариантность оценок плотности мас-
штабная 121, 190, 191
-------к монотонным преобразова-
ниям 10, И, 251, 252, 254, 282, 354,
355
-------перестановочная 288—291
-------трансляционная 190, 191, 300,
320, 324, 325
Изолированный холм оценки плотно-
сти 254
Классификация 261—273
— ближайших соседей метод 267
— гистограммный метод 266
— ядерный метод 265
Класс плотностей аналитических 84,
140, 149
----Бретаньоля — Юбер 48,	56,
128—136, 311, 315
----Гельдера 84
----Липшица 52, 128, 129, 134, 311,
333, 335
----монотонно невозрастающих 46,
55, 219—222, 255
----Соболева 311, 316, 317
Колмогорова контрпример 307
— нижняя граница 268
Корректность по Адамару 380
----Тихонову 381
Кристоффеля — Дарбу формула сум-
мирования 295
Кросс-проверка 160—162
Кулъбака метрика 363
Лебега постоянная 302
— точка 17, 156, 168, 172
Максимума правдоподобия метод 363,
373—377
-------со штрафами 209
----оценка 206, 359
-------Гренандера 219
--- принцип 160
— структурного правдоподобия метод
377—380
Минимаксный риск 45, 84
Минимизации эмпирического риска ме-
тод 365
Модуль непрерывности в 332
---верхние границы 333
--- второго порядка 332
Монотонный инвариант 354
Монте-Карло метод
---оценка функционала 228
---уменьшение дисперсии 246
Мультипликативная модификация
оценки плотности 212
Невязка Лго момента 239
Независимость выборок 234
Некорректные задачи оценивания 351,
352, 365, 380—384
Неотрицательная проекция плотности
277
Неравенство
— Беннета 168, 206, 286
— Берри — Эссеена 98, 99, 136
—	для равномерного уклонения 168
—	Карлсона 90
—	Крамера — Рао 50
—	Ле Кама 232
—	Лоренца 311
—	Марцинкевича — Зигмунда 144
—	Маршалла — Прошана 289
—	Сарека 144—146
—	Фано 84
—	Хаусдорфа — Юнга 316
— Хефдинга 28, 271, 285
—	Хинчина 145
— Юнга 16
Неразличимость выборок 236
Несмещенность 140—152, 342
Нижняя граница
---для фиксированной плотности
45—47, 57, 59, 238
---минимаксная 45—55, 57—60, 84,
128
--- равномерная 45
---экспоненциальная для больших
уклонений 172
Обнаружения задача 281—288
Обобщение выборки 233
Ортонормальная система 293
--- базис 293
---Лагерра 295
402
Предметный указатель
----Лежандра 295
---- полная 293
---- тригонометрическая 296
----Хаара 298
----Эрмита 295, 297
Относительная устойчивость 34, 43
Оценка плотности 10
— Бартлета 49, 152, 213, 244, 277
----нормированная 213
— ближайших соседей 198, 267
— Волвертона — Вагнера 199, 226
— гистограммная см. Гистограммная
оценка
— Гренандера 219
— ^-превосходная для выборки объ-
ема т 236
— максимума правдоподобия 206, 359,
363, 373—377
— Парзена — Розенблата см. Ядер-
ная оценка
— проекционная см. Проекционная
оценка
— сингулярно-интегральная см. Син-
гулярно-интегральная оценка
— складного ножа 217
— сплайн 387, 388
— Террела — Скотта 218, 245
— типа дельта-функции Дирака 191,
290, 325
----интеграла Фурье 141, 142
— ядерная см. Ядерная оценка
----адаптивная см. Адаптивная ядер-
ная оценка
---- преобразованная 251—259
----рекуррентная 199—206
----с переменным параметром сгла-
живания 197—199
Параметр масштаба 116, 118
— сглаживания
----адаптивный выбор 155—196
---- локальная настройка 198
----минимаксная стратегия выбора
125—128
----оптимальный выбор для гисто-
граммной оценки 114—120
------------ядерной оценки 114—
120
----параметрический метод выбора
115, 158—159
— сдвига 116
Парсеваля равенство 294
Плотность аналитическая 84
— бета-распределения 121, 125
— Валле-Пуссена 142, 149
— Коши 91, 116—118, 159, 162
— Лапласа 118, 177
— маргинальная 275
— монотонная 46, 55, 219—222, 255
— мультимодальная 119
— нормальная 59, 109, 115—118, 159,
162, 207, 241, 257, 280
—	Парето 162
—	равнобедренная треугольная 52, 88,
95, 97, 117, 119, 127, 133, 134, 139,
239, 251, 252, 257
—	равномерная 106, 107, 109, 117—
119, 121, 123—126, 128, 159, 239,
252, 310, 338
—	радиально-симметричная 279
— с неограниченным носителем 136—
140
----полиномиальными хвостами 162
----правильно меняющимися хво-
стами 91, 255—257
— Стьюдента 116, 117, 162, 256
— с тяжелыми хвостами 254—257
— унимодальная 46, 55, *66, 67, 109,
116, 119, 137, 139, 221, 222, 255, 281
— устойчивая 152
— экспоненциальная 117, 118
Полиграмма 210, 226
Полиномы Лежандра 297
— Якоби 297, 322
Полная вариация 11, 228, 351
Поперечник класса плотностей 84
Порядковые статистики 118, 162, 191,
210, 242, 248, 253
Правильно меняющаяся функция 91,
255-256
----последовательность 174, 177
Проекционная оценка 295, 293—342,
356, 384—387, 391
---- адаптивная 330
---- многомерная 296
----сглаженная 329, 346
----с рядом Лагерра 297, 317, 322,
346
----------Лежандра 297, 322—324
----------несостоятельность 323
---------- состоятельность 323
---------- трансляционная инва-
риантность 324
----------фурье 296, 301—317, 327,>
342, 384—386
------------достижимость ошибки
O(\/Vn) 309
------------несостоятельность 301
------------связь с сингулярно-ин-
тегральными оценками 328, 329
----:-------сглаженная 330
------------скорость сходимости
310—317
Предметный указатель
403
------------смещение 307
------------ состоятельность 307
----------Хаара 298
----------Эрмита 297, 317, 322
------------ несостоятельность 317
------------состоятельность 321, 322
------------ трансляционная инва-
риантность 320
-----тригонометрическим рядом см.
Проекционная оценка с рядом Фурье
Произведение плотностей 278
Прохорова критерий сходимости 206
Пуассонизация 24, 187
Путеводитель 248
Разбиения 19, ,20, 30, 105—107
— последовательность вложенная 19
----- кубическая 19
Распознавание образов см. Классифи-
кация
Регуляризация 365, 381, 382
— стохастическая 382—384
Решение 261
— байесовское 261
Решета метод 207, 372
Решето 207
— сверточное 207
Робастная оценка параметра масштаба
118, 158, 253
----- сдвига 253
Свертка плотностей 280
Семимонотонная последовательность
156, 157, 179
Сильно дельтаобразная последователь-
ность 326
Симметризация оценок плотности 288—
291
Сингулярно-интегральная оценка
325—342, 346
-----границы для смещения 335, 336
-----неограниченной мощности 338,
342
—	•— несмещенность 342
-----состоятельность 327
Сингулярный интеграл 325
—	Фейера 338
Складного ножа метод 216
----- оценка 217
Сковгарда границы 318
Скорость сходимости адаптивной ядер-
ной оценки 192—194
-----Бартлета оценки 213—216
-----Гренандера оценки 219, 220
-----кубической гистограммной оцен-
ки 105—107
---проекционной оценки с триго-
нометрическим рядом 310—317
---сингулярно-интегральной оцен-
ки 335—342
---ядерной оценки 54, 60, 85—105,
128—140, 158, 220—221
Смесь плотностей 275
Смещение 87, 95, 98, 100, 129, 167
— методы понижения 211—219
Согласование моментов 239
Состоятельность адаптивной ядерной
оценки 155, 156
—	Бартлета Оценки 213
—	Волвертона — Вагнера оценки 205
—	гистограммной оценки 31, 32
— детекторов 287
— кросс-проверочной ядерной оценки
161
— оценки Гренандера 220, 221
---максимума правдоподобия 208,
209, 373—375
— оценок плотности, полученных ме-
тодом стохастической регуляриза-
ции 384, 391
— переменной гистограммной оценки
211
— преобразованной ядерной оценки
258, 259
— проекционной оценки с рядом
---------Лежандра 323
---------Фурье 307, 308
---------Хаара 298
------------Эрмита 321
— рекуррентной ядерной оценки 200,
205
— Террела — Скотта оценки 218
— ядерной оценки 23, 156, 157
-------с переменным параметром
сглаживания 198
Спейсинги 187, 237
Структурной минимизации риска ме-
тод см. Метод решета
Сужение плотности 276, 277
Сходимость вполне 23, 155—157
Теорема Берри — Эссеена 99, 104
— Джексона вторая 315, 340
--- первая 339
— Карлесона — Ханта 306, 307, 322
—	Котельникова 141
—	Лебега о плотностях 17
—	локальная предельная 280
—	Найквиста 141
— о медленной сходимости 46, 54, 263
—	Фейера — Лебега 303
—	Хинчина 281
404
Предметный указатель
— центральная предельная 72, 73,
99, 104
— Шеффе 11, 21
Феррера функции 297
Фишеровская информация 354
Функция С-липшицева 52
— медленно меняющаяся 177, 256
— правильно меняющаяся 91, 255, 256
— регрессии 261
— характеристическая 140—143, 146—
152, 203, 204
Фурье ряд 293
----поточечная сходимость 306
----частичная сумма 296
Хеллингера расстояние 231, 278
Чисара ф-дивергенция 354
Экспонентное семейство 357
Экспоненциальная сходимость 23,
265-267
Энтропия относительная 354, 358
— Реньи 283
— Шеннона 363
Ядерная оценка 13, 106, 107, 121 — 124,
129, 132, 135, 142, 143, 151, 152,
172, 193, 200, 207, 209, 210, 212,
217, 237-239, 251, 254, 257, 258,
289, 295, .309—311, 315, 325, 328,
335, 352, 356, 388, 389, 391
-----адаптивная см. Адаптивная ядер-
ная оценка
-----асимптотическое распределение
-----— Li-ошибки 87
----------L2-ошибки 40, 43
----выбор параметра сглаживания
114—120, 125—128
----генерирование случайных вели-
чин 242—247
----инвариантность 190—192
----кросс-проверочная 160—164
----нижняя граница £гошибки 88
----относительная устойчивость 39,
43
---- преобразованная 88, 251—256
----рекуррентная 199—206
----скорость сходимости 54, 60, 85—
105, 128—140, 158, 220—221
----смещение и дисперсия 98
----состоятельность 23, 156, 157
----с переменным параметром сгла-
живания 197
-------пониженным смещением 211 —
219
----трапецеидальная 150—152 , 339,
342
Ядро ассоциированное 129
— Бартлета см. Ядро Епанечникова
— Валле-Пуссена 328, 330, 332, 335,
337
----второе 328, 331, 335, 339, 340
— Джексона 328, 334, 337, 339
— Джексона — Валле-Пуссена 328
— Дирихле 296, 301, 302, 325, 339
— Епанечникова 89, 114, 115, 124, 132,
133, 139, 239—242, 245, 252, 254, 258,
259
— неограниченной мощности 339
— равнобедренное треугольное 125,
127, 132, 239
— Рогозинского 328, 330, 335, 339
— Фейера 302, 327, 330, 334, 337
— Фейера — Коровкина 328, 330, 334,
337, 340
Оглавление
Предисловие	редактора перевода ...................................... 5
Предисловие	к/русскому изданию....................................... 7
Предисловие........................................................... 9
Глава 1. Введение.................................................... 10
Литература.................................................... 14
Комментарий переводчика....................................... 15
Глава 2. Дифференцирование интегралов................................ 16
Литература.................................................... 21
Глава 3. Состоятельность ............................................ 23
1.	Ядерная оценка............................................. 23
2.	Доказательство теоремы	1	  24
3.	Гистограммная оценка...................................... 30
4.	Доказательство теоремы	2................................ 32
5.	Относительная устойчивость ................................ 34
Ли	тература................................................. 42
Ко	мментарий переводчика..................................... 43
Глава 4. Нижние границы для скоростей сходимости..................... 45
1.	Введение................................................... 45
2.	Лемма Ассуа............................................... 50
3.	Некоторые исторические	замечания.......................... 56
4.	Доказательство	теоремы	1.................................. 60
5.	Доказательства теорем 2 и 11............................... 67
6.	Доказательство	теоремы	3.................................. 68
7.	Доказательство	теоремы	4.................................. 71
8.	Доказательства теорем 5—9................................. 74
Ли	тература................................................. 82
Ком	ментарий переводчика.................................... 84
Глава 5. Скорости сходимости в Lj.................................... 85
1.	Введение................................................... 85
2.	Коэффициент В* (/)......................................... 89
3.	Доказательства теорем 1	и 2............................... 98
4.	Гистограммная оценка..................................... 105
5.	Доказательства теорем 5 и 6.............................   108
6.	Выбор параметра сглаживания.............................. 114
406
Оглавление
7.	Равномерная плотность................................... 121
8.	Минимаксная стратегия выбора параметра сглаживания ...	125
9.	Классы Липшица, классы Бретаньоля—Юбер и равномерные
верхние границы............................................ 128
10.	Плотности с неограниченным носителем.................... 136
11.	Несмещенность и достижимость скорости убывания ошибки
1/Кп ....................................................... 140
Литература.................................................. 152
Глава 6. Адаптивная ядерная оценка, ее сходимость в и поточеч-
ная сходимость.................................................... 155
1.	Основной результат ..................................... 155
2.	Поточечная сходимость адаптивной ядерной оценки.......	155
3.	Поточечная сходимость обычной ядерной оценки............ 156
4.	Примеры адаптивных ядерных оценок....................... 157
5.	Доказательства.......................................... 164
6.	Инвариантное оценивание плотности....................... 190
7.	Скорость сходимости адаптивных ядерных оценок........... 192
Литература................................................. 194
Глава 7. Оценки, близкие к ядерной и гистограммной оценкам ....	197
1.	Введение................................................ 197
2.	Ядерные оценки с переменным параметром сглаживания ...	197
3.	Рекуррентные ядерные оценки............................. 199
4.	Оценки максимума правдоподобия.......................... 206
5.	Переменная гистограммная оценка......................... 210
6.	Ядерные оценки с пониженным смещением................... 211
7.	Оценка Гренандера для монотонных плотностей............. 219
Литература................................................. 222
Комментарий переводчика...................................  226
Глава 8. Моделирование, неравенства и генерирование случайных ве-
личин ....................................‘....................... 227
1.	Выбор критерия.........................................  227
2.	Неравенства ...........................................  228
3.	Обобщение выборки для генерирования случайных величин 233
Литература................................................. 248
Глава 9. Преобразованная ядерная	оценка.......................... 251
1.	Введение................................................ 251
2.	Выбор преобразования.................................... 253
3.	Оценивание плотностей	с	тяжелыми хвостами............. 254
4.	Состоятельность t....................................... 258
Литература.................................................. 259	>
Глава 10. Применения к задаче классификации....................... 261
1.	Задача классификации ................................... 261
2.	Медленные скорости сходимости........................... 263
3.	Ядерный метод классификации............................. 265
4.	Гистограммный метод классификации....................... 266
5.	Метод ближайших соседей................................. 267
Литература................................................. 273
Оглавление	407
Глава 11. Операции над оценками плотности.......................... 275
1.	Маргинальные плотности............................ 275
2.	Композиция (смесь) плотностей............................ 276
3.	Сужения плотностей ...................................... 276
4.	Неотрицательные проекции................................. 277
5.	Произведения плотностей.................................. 278
6.	Радиально-симметричные плотности......................... 279
7.	Свертки.................................. ....... 280
8.	Унимодальные плотности................................... 281
9.	Применения в задаче обнаружения.......................... 281
10.	Симметризация и. перестановочная	инвариантность..	288
Литература................................................... 291
Глава 12. Проекционные оценки ..................	293
1.	Определения............................................... 293
2.	Примеры ортонормальных систем............................ 296
3.	Общие свойства .......................................... 298
4.	Состоятельность оценки с тригонометрическим	рядом ....	301
5.	Скорость сходимости оценки с тригонометрическим рядом . .	310
6.	Оценка с рядом Эрмита.................................... 317
7.	Оценка с рядом Лежандра................. ........ 322
8.	Сингулярно-интегральные оценки........................... 325
Литература........................................... 342
Комментарий переводчика.............................. 346
Дополнение 1. Почему подход и что	за	горизонтом?	Н.	Н.	Ченцов.	.	348
Литература........................................... 360
Дополнение 2. Принципы оценивания плотности распределения вероят-
ностей. В. И. Вапник ...................	362
Литература.......................................... 396
Именной указатель.......................................... 397
Предметный указатель....................................... .	400
УВАЖАЕМЫЙ ЧИТАТЕЛЬ
Ваши замечания о содержании книги, ее оформле-
нии, качестве перевода и другие просим присылать
по адресу:
129820, Москва, И-110, ГСП,
1-й Рижский пер., д. 2, издательство «Мир».
Монография
Люк Деврой, Ласло Дьёрфи
НЕПАРАМЕТРИЧЕСКОЕ ОЦЕНИВАНИЕ ПЛОТНОСТИ
Заведующий редакцией профессор | Б. В. Шабат |
Зам. зав. редакцией А. С. Попов
Ст. научи, редактор И. А. Маховая
Мл. научн. редактор Т. А. Денисова
Художник | А. В. Шипов |
Художественный редактор В. И. Шаповалов
Технический редактор Е. В. Алехина
Корректор Н. А. Гиря
ИБ Ns 6311
Сдано в набор 18.05.87. Подписано к печати 09.11.87.
Формат 60X8871 с• Бумага книжно-журнальная. Печать офсетная.
Гарнитура литературная. Объем 12,75 бум. л. Усл. печ. л. 25,50.
Усл. кр.-отт. 25,50. Уч.-изд. л. 24,94. Изд. № 1/5225. Тираж 4500 экз.
Зак. 176. Цена 3 р. 20 к.
ИЗДАТЕЛЬСТВО «МИР» 129820,
ГСП, Москва, И-110, 1-й Рижский пер., 2
Набрано в Ленинградской типографии № 6 ордена Трудового Красного Зна-
мени Ленинградского объединения «Техническая книга» им. Евгении Соко-
ловой Союзполиграфпрома при Государственном комитете СССР по делам
издательств, полиграфии и книжной торговли. 193144, г. Ленинград, ул. Мо-
исеенко, 10. Отпечатано по офсету в Ленинградской типографии № 4 ордена
Трудового Красного Знамени Ленинградского объединения «Техническая
книга» им. Евгении Соколовой Союзполиграфпрома при Государственном
комитете СССР по делам издательств, полиграфии и книжной торговли.
191126, Ленинград, Социалистическая ул., 14.
А