/
Текст
С.И. ЕРМАКОВ
А.А. ЖИГЛЯВСКИЙ
МАТЕМАТИЧЕСКАЯ
ТЕОРИЯ
л
ККЖЭПА
С. М. ЕРМАКОВ
А. А. ЖИГЛЯВСКИЙ
МАТЕМАТИЧЕСКАЯ
ТЕОРИЯ
ОПТИМАЛЬНОГО
ЭКСПЕРИМЕНТА
С предисловием г. И. МАРЧУКА
Допущено Министерством
выеме го и среднего спе ща гь чогэ образования СССР
d качестве учебного пособия для студентов вузов
по специальности «Прикладная математика»
МОСКВА «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
1 987
ББК 22.18
Е72
УДК 519.6
Ермаков С. М., Жиглявский А. А. Мате-
матическая теория оптимального эксперимента: Учеб,
пособие.— М/ Наука Гл. ред. физ.-мат. лит., 1987. —
320 с.
В основу положен курс лекций по оптимальному
планированию эксперимента в ЛГУ. Систематически
излагается математическая теория планирования
эксперимента. Имеется много примеров и упражне-
ний. Включен не только классический материал, но и
новейшие результаты.
Для студентов факультетов и отделений при-
кладной математики, аспирантов и преподавателей
вузов, а также для инженеров.
Табл. 9. Ил. 7. Бйблиогр. 52 назв.
Рецензенты:
кафедра автоматики 1ЧЭИ
доктор физико-математических наук М. Б. Малютов
1702070000— 029
058(02)-87
54-86
Е
© Издательство «Наука».
Главная редакция
физико-математической
литературы, 1987
ОГЛАВЛЕНИЕ
Предисловие........................ч................. . .........5
Предисловие авторов . . . ......................................... 6
Введение............................................................ 9
Глава 1. Линейный регрессионный анализ..............................13
§ 1. Классическая линейная регрессионная модель и ее обобщения 13
§ 2. Линейный регрессионный анализ при наличии априорной инфор-
мации о параметрах...................................... ... .41
§ 3. Основные понятия дисперсионного анализа....................45
Глава 2. Факторные планы.............................................53
§ 1. Полные факторные планы и их дробные реплики.............53
§ 2. Латинские планы.............................................62
§ 3. Неполноблочные планы........................................70
Глава 3. Классическая теория планирования эксперимента по оценива-
нию параметров линейных регрессионных моделей .... ... 83
§ 1. Основные понятия и вспомогательные результаты...............83
§ 2. Теоремы эквивалентности................................... 105
§ 3. Некоторые следствия теорем эквивалентности.................114
§ 4. Численные методы построения оптимальных планов.............126
Глава 4. Планирование регрессионного эксперимента (дальнейшие по-
становки задач и результаты).................................. . . 139
§ 1. Планы первого порядка......................................139
§ 2. Некоторые обобщения классической постановки задачи планиро-
вания регрессионного эксперимента ..............................148
§ 3. Линейная теория возмущений и планирование эксперимента . . 166
§ 4. Планирование эксперимента при неадекватности линейной мо-
дели ...........................................................171
Глава 5. Анализ и планирование эксперимента для нелинейных регрес-
сионных моделей............................................... 192
§ 1. Нелинейный регрессионный анализ . 192
§ 2. Планирование эксперимента по оцениванию параметров нелиней-
ной регрессии .... .......... . 200
$ 3. Последовательное планирппрние..............................204
1* 3
Глава 6. Планирование экстремального эксперимента...............210
§ 1 Сходимость псевдоградиентных алгоритмов................ 210
§ 2. Методы планирования экстремального эксперимента при наличии
ограничений 218
§ 3. Поисковые алгоритмы................................... 223
§ 4. Выбор длины шага и направления движения в методе крутого
восхождения.................................................235
Глава 7. Планирование эксперимента по проверке гипотез..........247
§ 1. Планирование дискриминирующих экспериментов ...........247
§ 2. Планирование отсеивающих экспериментов.................253
Глава 8. Планирование имитационного эксперимента................271
§ 1. Имитационный эксперимент............................. 271
§ 2. Метод существенной выборки при одновременном оценивании
нескольких интегралов...................................284
Приложение 1. Сведения из теории матриц....................298
§ 1. Матричная алгебра . _..................................298
§ 2. Неравенства выпуклости..................................305
§ 3. Матричный анализ.......................................308
Приложение 2. Нормальное распределение и распределения, связан-
ные с ним ... 312
Список литературы.............................................. 315
Предметный указатель.......................................... 317
ПРЕДИСЛОВИЕ
В связи с многочисленными приложениями научного и техни-
ческого характера получила широкое развитие теория планиро-
вания эксперимента, которая развивается на стыке таких мате-
матических дисциплин как вычислительная математика, матема-
тическая статистика, дискретная математика, теория оптимиза-
ции. Число работ (как теоретических, так и прикладных) в
области планирования эксперимента практически необозримо.
В этой связи актуальной задачей является создание соответ-
ствующих учебных руководств.
Предлагаемый вниманию читателей учебник в доступной фор-
ме и на хорошем математическом уровне позволяет ознакомиться
с основными направлениями современной теории планирования
эксперимента. Наряду с традиционными разделами он содержит
такие важные для развития науки разделы, как планирование
эксперимента для решения обратных задач (основанное на тео-
рии возмущений), связанный с ним раздел, посвященный плани-
рованию эксперимента в функциональных пространствах, а так-
же теорию имитационного и отсеивающего экспериментов. Впер-
вые в учебной литературе .освещаются вопросы, в которые
авторы внесли значительный личный вклад: планирование экспе-
римента при неадекватности линейной модели, планирование
имитационного и экстремального экспериментов.
Сказанное позволяет рекомендовать книгу С. М. Ермакова,
А. А. Жиглявского «Математическая теория оптимального экспе-
римента» широкому кругу читателей — студентам, инженерам и
научным работникам.
Академик Г. И. Марчук
ПРЕДИСЛОВИЕ АВТОРОВ
Книга написана на основе лекционных курсов, читавшихся
авторами в течение ряда лет на математико-механическом фа-
культете Ленинградского государственного университета им.
А. А. Жданова.
Методы планирования эксперимента, возникшие первона-
чально в связи со статистическими приложениями в сельском
хозяйстве и медицине, получили в последние десятилетия ши-
рокое развитие и новые области применения. Особое значение
эти методы приобрели в связи с крупными программами про-
ведения и автоматизации научных исследований. Известно, что
применение методов планирования эксперимента может дать
более или менее значительный экономический эффект, но отсут-
ствие соответствующего плана может сделать эксперименталь-
ную программу полностью безрезультатной. Это диктует необ-
ходимость подготовки специалистов различного уровня, владею-
щих уже известными методами планирования эксперимента и
способных разрабатывать новые методы применительно к раз-
личным предметным областям.
Книга ориентирована на студентов факультетов и отделений
прикладной математики, математиков и инженеров с повышен-
ной математической подготовкой. Наряду с подробным изло-
жением разделов, ставших ныне традиционными (теория D-опти-
мальных непрерывных планов регрессионного эксперимента,
элементы теории блок-схем и др.), курс включает новые раз-
делы, вошедшие в теорию оптимального эксперимента в послед-
нее десятилетие (робастное, или несмещенное, планирование,
планирование эксперимента в функциональных пространствах,
планирование имитационного эксперимента). В книге сделана
попытка проследить также связи между различными разделами
теории.
Важный вопрос, который остался вне рамок книги — это
создание математической модели'реального эксперимента. Пе-
реход к такой модели должен осуществляться в рамках соот-
ветствующей предметной области.
Для сельского хозяйства подобный переход требует понима-
ния аграрных или животноводческих вопросов, в химии нужно
иметь априорное понимание условий протекания соответствую-
ч
щих реакций: аналогичные проблемы возникают в физике, тех-
нике, биологии и др. В каждой области существуют специфиче-
ские ограничения, и только специалисты могут указать группы
факторов, которыми можно пренебречь. Вместе с тем специа-
лист в конкретной предметной области редко владеет в полной
мере математическим аппаратом. Обычно планирование реаль-
ного эксперимента требует совместной работы группы специали-
стов. Будущим математикам — участникам такой группы —
в первую очередь адресована эта книга.
Хотя планирование эксперимента, в особенности с использо-
ванием ЭВМ, может дать большой экономический эффект, да-
леко не всегда бывает просто преодолеть дополнительные труд-
ности, связанные с организацией планирования эксперимента.
Оно требует достаточно точного осуществления условий опти-
мального протекания эксперимента, что в свою очередь может
привести к дополнительным затратам и предъявляет повышен-
ные требования к квалификации персонала, осуществляющего
эксперимент. Эти соображения должен, безусловно, иметь в
виду каждый специалист в области математической теории пла-
нирования эксперимента.
Теория планирования эксперимента — наука сравнительно
молодая, сформировавшаяся немногим более полувека назад.
Основателем теории принято считать английского статистика
Р. Фишера, а основополагающей работой — его книгу [49]. Ряд
работ Фишера посвящен разработке методов статистического
анализа и планирования эксперимента в задачах повышения
урожайности сельскохозяйственной продукции. Из этих работ
впоследствии развились дисперсионный анализ и факторное
планирование.
Наличие большого числа прикладных задач стимулировало
развитие математической теории оптимального эксперимента.
Среди зарубежных ученых, внесших большой вклад в ее разви-
тие, прежде всего нужно назвать американских ученых
Дж. Бокса и Дж. Кифера, которые в 50-х годах опубликовали
несколько выдающихся результатов. Боксу принадлежат ре-
зультаты по планированию регрессионного эксперимента для
полиномиальных функций регрессии, планированию экстремаль-
ных экспериментов, конструированию критериев оптимальности.
Кифер в значительной мере является создателем классической
теории планирования регрессионного эксперимента — наиболее
развитого в настоящее время раздела теории оптимального экс-
перимента.
Ряд оригинальных направлений в теории планирования
эксперимента возник в нашей стране благодаря влиянию совет-
ской школы теории вероятностей и математической статистики
(А. Н. Колмогоров, Ю. В. Линник и их ученики) с одной сто-
роны, и вычислительной математики (Г. И. Марчук и его уче-
ники)—с другой. Существенный вклад в развитие теории пла-
нирования эксперимента и ее приложений внесли советские
ученые В. В. Налимов, В. В. Федоров, Г. К. Круг, Е. В. Марко-
ва, М. Б. Малютов и другие. Среди работ, оказавших большое
влияние на развитие теории имитационного эксперимента, можно
отметить работы Н. Н. Ченцова и Г. А. Михайлова.
С современным состоянием теории планирования экспери-
мента можно ознакомиться по [16, 46, 48, 51]. Дополнительные
сведения по регрессионному анализу можно получить в [И, 30,
35, 36, 52], по дисперсионному анализу — в [35, 44], по теории
матриц — в [5, 9, 35]; по планированию эксперимента: фактор-
* ного — в [8, 26, 39, 43], регрессионного — в [4, 12, 15, 23, 24, 25,
40, 41, 47, 48, 50], экстремального — в [1, 10, 18, 32, 33], ди-
скриминирующего— в [40], имитационного — в [14, 17, 18, 19,
29]. Работы [1, 3, 10, 13, 19, 22. 23, 26, 30, 31, 38, 47] доступны
лицам, не обладающим высокой математической подготовкой.
Для понимания материала книги от читателя требуется вла-
дение аппаратом теории матриц в объеме большем, чем это
содержится в стандартных учебниках по алгебре (дополнитель-
ные сведения из теории матриц изложены в приложении 1) и
основными понятиями теории вероятностей и математической
статистики (в объеме, например, [21]). Кроме того, в некоторых
местах книги используются результаты выпуклого анализа и
теории экстремальных задач. В качестве руководства по тео-
рии вероятностей рекомендуется [45], по математической ста-
тистике — [6, 7], по выпуклому анализу и теории экстремальных
задач— [2, 34].
ВВЕДЕНИЕ
Эксперимент является важнейшей частью научного исследо-
вания. Мы будем рассматривать лишь математические модели
эксперимента. Это означает, что реальные физические, биологи-
ческие и другие эксперименты будут фигурировать в дальнейшем
изложении разве лишь в виде примеров. Преимущество такого
подхода состоит в общности. Каждая математическая модель
оказывается приложимой во многих конкретных ситуациях.
Математические модели эксперимента тесно связаны с та-
кими математическими дисциплинами, как теория вероятностей
й математическая статистика. Отношение теории вероятностей
к «действительному миру опыта» может быть определено схе-
мой А. Н. Колмогорова [20], которая включает, в частности,
задание некоторого комплекса S условий, допускающего неогра-
ниченное число повторений, и изучение определенного круга со-
бытий, которые могут наступать в результате осуществления
этих условий. Выбор экспериментатором некоторых из условий
S и является планированием эксперимента.
Применение теории вероятностей к изучению реальных экспе-
риментальных ситуаций привело за последние 50 лет к замеча-
тельным научным результатам. Тем не менее возможны модели
описания эксперимента, отличные от теоретико-вероятностных.
Среди них важное место занимают модели, связанные с экспе-
риментом, осуществляемым с помощью ЭВМ (имитационным
экспериментом).
Математические методы планирования эксперимента оказы-
ваются во многих случаях общими для моделей, имеющих раз-
личное происхождение. Это не может вызвать удивления, если
более подробно остановиться на содержании понятия «плани-
рование эксперимента». Возможность планирования возникает
в том случае, когда известно априори, что интересующий экспе-
риментатора ответ может быть получен в результате различ-
ных, вообще говоря, экспериментов. Иными словами, имеется
множество совокупностей условий <ji, о2, .причем каждая из
совокупностей может дать ответ на интересующий вопрос.
Предполагается, что для каждого 07 определено значение затрат
где J и I— заданные множества, и задача
9
состоит в выборе такого г, при котором si минимально. Множе-
ство J при этом может иметь достаточно сложную природу, и
следует предполагать, что функция s ограничена снизу на J.
Таким образом, экспериментатор может осуществить выбор
из множества / и получить нужные ему данные, создавая сово-
купность условий о/. Эксперимент, осуществляемый на основе
предварительного выбора i е /, принято называть активным.
В книге будут рассматриваться лишь активные эксперименты.
Планирование активного эксперимента включает два этапа:
1) определение множества I и построение функций
2) нахождение г’о^Л для которого Si достигает наименьшего
значения.
Последовательное решение этих двух задач и составляет
содержание математической теории планирования эксперимен-
та. Формирование критерия оптимальности в задачах планиро-
вания эксперимента имеет ряд специфических особенностей. Ре-
шение же соответствующей экстремальной задачи может часто
укладываться в рамки хорошо разработанных методов. Можно
тем не менее указать и специфические подходы к решению та-
ких задач, заслуживающие отдельного рассмотрения и оказав-
шие влияние на общую теорию экстремальных задач и нелиней-
ного программирования.
Для всех математических моделей мы считаем результатом
эксперимента математический объект — число, множество чисел,
кривую и т. п. Значительный круг прикладных задач имеет
своей целью восстановление по экспериментальным данным не-
известного оператора. Предполагаются заданными два множе-
ства объектов: {x}=Fi, {у}= F2, и оператор A: Fi-+F2. Экспе-
римент сопоставляет объекту х значение у = Ах, которое отли-
чается от Ах (в силу случайных экспериментальных погреш-
ностей). Относительно F2 разумно предположить, что для лю-
бых двух его элементов yi и у2 определено расстояние р(уь у2)>
так что F2 является метрическим пространством. Если экспери-
мент таков, что y^F2 при каждом xeFi, то число р(Дх, Ах)
служит мерой близости между у и у.
При восстановлении оператора А исследователь, кроме того,
выбирает априори множество операторов А— «моделей»,
определенных на с множеством значений в F2. Предпола-
гается, что в можно найти оператор Ао, достаточно близкий
к Л, и фактически строится Ао.
При такой постановке задачи при каждом х рассматривают
два вида погрешностей: р(Дх, Ах)—систематическую (погреш-
ность модели) и р(Ах, Ах)— статистическую (случайную). При
этом р(Ах, Ах)г=С р(Ах, Ах) + р(Ах, Ах). Эти два вида погреш-
ностей и функция $(х), определяющая стоимость проведения
эксперимента при заданном значении х, обычно служат исход-
ными для формирования критерия качества эксперимента:
Л(р(Ах, Ах), р(Ах, Ах), s(x)). Если критерий зависит от вели-
чин и функций, которыми может распоряжаться эксперимента-
10
тор (их совокупность обозначим через |), то естественной ока-
зывается постановка задачи об оптимальном выборе которая
и является в данном случае задачей планирования эксперимен-
та. Эксперимент, для которого множество S возможных значе-
ний g содержит по крайней мере два различных элемента, яв-
ляется в соответствии с принятой нами терминологией активным.
Если S не определено или содержит всего один элемент, то
эксперимент является пассивным.
Относительно способов формирования критерия К можно
сделать следующие общие замечания.
1. Как правило, экспериментатора интересует не один кри-
терий,- а некоторое их множество. Например, р(Ах, Ах),
р(Ах, Ах), s(x) могут быть такими критериями (считаем, что они
зависят от £). Иными словами, более естественной является за-
дача векторной оптимизации. Предварительный эксперимент
(или теоретическое исследование) бывает необходимым для
выяснения относительной значимости каждого критерия и кон-
струирования с учетом этих сведений единого компромиссного
критерия. Таким критерием может быть взвешенное среднее
отдельных критериев, причем вес должен отражать значимость
каждого из них.
2. В общем случае критерий К (%) зависит от оператора А,
подлежащего определению. Можно говорить, что задача много-
критериальна — имеется столько критериев, сколько может быть
различных А в совокупности {А} = Обозначим эти критерии
через К (А, £).
Обычным способом построения компромиссного критерия яв-
ляется взятие верхней грани по всем возможным А, если такая
верхняя грань имеет смысл, т. е. /<(£)= sup К (А, £) (минимакс-
ный подход).
Другим распространенным способом построения компромис-
сного критерия является осреднение критериев К(А, £) по мно-
жеству S&'. На следует определить меру [i(dA) (меру пред-
почтительности). Если это удается, то строится так называемый
байесовский критерий К(%)—\к(А, £)p(dA). В конечном счете
приходим к необходимости решения экстремальной задачи —
определению оптимального g, — которая может оказаться очень
сложной.
Альтернативным подходом к указанным методам построе-
ния критерия может быть последовательный подход. Экспери-
мент разбивается на этапы и по мере уточнения сведений о зна-
чимости каждого критерия или о виде оператора А уточняется
и сам критерий (сужается множество s&' или более четко лока-
лизуется мера ц). На каждом этапе нужно решить экстремаль-
ную задачу определения оптимального | для следующего этапа
эксперимента.
Описанная общая схема постановки задач, связанных с пла-
нированием эксперимента по восстановлению неизвестного опе-
11
ратора, показывает, что эти задачи могут быть весьма слож-
ными и требуется развитие специальных математических мето-
дов для их решения. В действительности, как мы увидим ниже,
даже частные виды этой схемы связаны с содержательной тео-
рией. Так, если искомый оператор есть функция, определенная
в области из R"1 (функция регрессии), известная с точностью
до конечного числа неизвестных параметров, то мы приходим
к классической задаче планирования регрессионного экспери-
мента, методы решения которой подробно излагаются в третьей
главе. Другим «крайним» случаем является отсутствие случай-
ной ошибки при наличии ошибки систематической. В частном
случае, когда А является функцией, возникают задачи теории
аппроксимации — обширного и развитого раздела математики.
При создании математической модели эксперимента и вы-
боре метода планирования большую пользу может принести
имитация эксперимента с помощью ЭВМ. Коль скоро создана
некоторая модель эксперимента, безусловно, полезным является
попытка его имитации. Имитация состоит в создании алгоритма,
который доставляет результаты, аналогичные результатам экспе-
римента. Конечно, речь идет об эксперименте, близком к изучае-
мому, или эксперименте такого же типа. Так, если рассматри-
вается задача восстановления неизвестной функции по резуль-
татам измерения ее значений, то полезно брать более или менее
похожую функцию, вычислять ее значения на ЭВМ и добавлять
ошибку, имитирующую процесс измерения. Ошибку генерируют
с помощью датчика случайных чисел. Далее можно испытать на
этой модели различные приемы планирования эксперимента и
обработки данных. Для сложного эксперимента, как мы уви-
дим ниже, теоретическое решение задачи планирования может
быть очень трудным делом. Иногда эта трудность встречается
даже при получении в явном виде критерия оптимальности.
Здесь имитационный подход может оказаться незаменимым.
Таким образом, планирование эксперимента предполагает
наличие математической модели и критерия (критериев) опти-
мальности. Сложный характер критериев требует специальных
методов оптимизации. Ряд таких методов был специально раз-
вит для решения задач планирования эксперимента.
Модель создается на базе априорных (или полученных в про-
цессе предварительных экспериментов) сведений. Использова-
ние ЭВМ позволяет строить имитационные модели и отрабаты-
вать на этих моделях методы планирования натурных экспери-
ментов. Наряду с этим создаются специальные методы плани-
рования имитационного эксперимента, тесно связанные с про-
цедурами оптимизации в статистическом моделировании.
Глава 1
ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Статистическая теория линейного регрессионного анализа
является фундаментом многих разделов теории планирования
эксперимента. В данной главе основные положения линейного
регрессионного анализа подробно объясняются и обосновыва-
ются. Лицам, знакомым с теорией линейного регрессионного
анализа, достаточно лишь бегло просмотреть главу с целью
. ознакомления с используемыми далее понятиями и обозначе-
ниями.
Материал главы изложен на языке теории матриц с исполь-
зованием целого ряда результатов матричного анализа. Лицам,
недостаточно знакомым со специальными фактами теории мат-
риц, полезно перед изучением данной главы ознакомиться с § 1
приложения 1. Кроме того, читатель должен понимать основные
задачи теории статистического оценивания и проверки стати-
стических гипотез, для чего он может обратиться к [6, 7].
§ 1. Классическая линейная регрессионная модель
и ее обобщения
1.1. Описательная регрессия. Одной из наиболее часто встре-
чающихся проблем, встающих перед учеными различных спе-
циальностей, является проблема нахождения зависимости
между некоторым набором величин. Эта зависимость может
быть выведена из теории и (или) может быть получена на осно-
вании экспериментальных исследований. Если зависимость вы-
ведена из теоретических соображений, то довольно часто она
может быть приближенно представлена в аналитическом виде,
заданном с точностью до нескольких неизвестных параметров.
Если же в основе построения зависимости лежат эксперимен-
тальные исследования, то параметрическая зависимость посту-
лируется. В обоих случаях при построении математической
модели должны использоваться сведения об исследуемом объ-
екте, на основании которых мог бы быть сделан вывод о доста-
точной точности описания объекта моделью и, следовательно,
о том, что приведенные для модели статистические выводы в
определенной мере справедливы и по отношению к самому
объекту.
13
Ниже описан «наивный» анализ зависимости внутри задан-
ного набора наблюдаемых количественных величин.
Пусть имеется набор tn + 1 количественных величии у, хь ...
..., хт (например, у — характеристика получаемой продукции,
Xi (/ = 1, ...» т)—количества покупаемого сырья и характе-
ристики производственных режимов) и /V (N tri) результатов
совместных измерений этих величин, которые сведены в матрицу
эмпирических данных
(к, П =
-Уу
У2
*21
х\т -
х2т
(1.1)
X..
Ntn-J
где
У =
Ух
У2
yN
*11
х\т
XNm
(1.2)
у/, х/1 ... Xjm а = У, ..., N)— значения величин у, х\, ..., хт
в J-м измерении.
Представление матрицы данных в виде (1.1) означает, что
величина у зависит от величин х\, ..., хт, и основная задача
анализа состоит в нахождении этой зависимости. В практиче-
ских расчетах обычно у\, .... уп являются результатами каких-
либо измерений, а значения хц— входными для изучаемого яв-
ления, т. е. могут быть измерены до проведения измерений у/
Рис. 1
или даже могут быть выбраны экспериментатором. Этим обус-
ловлено название вектора У и матрицы F: У называется векто-
ром результатов измерений, а матрица F — матрицей плана экс-
перимента или просто матрицей плана.
Если имеются только две переменные у и xi (т. е. m = 1), то
эмпирические данные могут быть представлены графически
(рис. 1). Подбор прямой линии к набору измерений — одна из
наиболее часто встречающихся процедур, применяемых во мно-
гих отраслях науки; графики, подобные приведенному на рис. 1,
14
являются распространенным средством определения статистиче-
ской зависимости.
Если у и Xi трактовать как случайные величины, то на
рис. 1 в случае б имеет место положительная корреляция
между у и %1, в случае в — отрицательная, в случае а корреля-
ция отсутствует. Напомним, что наличие у случайных величин
I и ц положительной (отрицательной) корреляции означает, что
в среднем, чем больше значения £, тем больше (соответственно
меньше) значения ц.
В подавляющем большинстве случаев может быть найдена
лишь достаточно сложная функция (например, полином высо-
кой степени), проходящая через каждую точку графика, но на
практике обычно требуется найти относительно простую функ-
цию, которая с удовлетворительной точностью аппроксимирует
предполагаемую статистическую зависимость.
В общей постановке задача описания эмпирической зависи-
мости с помощью параметрической регрессии предполагает, что
задается функция, определенная с точностью до нескольких
параметров, которые подбирают таким образом, чтобы полу-
чающаяся функция с максимальной точностью соответствовала
матрице данных (1.1). Функция ц при этом называется эмпири-
ческой регрессией. Если т| линейна как функция неизвестных
параметров, то регрессия называется линейной (в противном
случае — нелинейной).
Простейшим примером линейной регрессии является
Г| (х) = Т) (Хр • • • > Х^, 0j, . . ., 0/n) = 6]Xi -|- ... 0/nXm, (1.3)
где 0i, ...» 0m — неизвестные параметры регрессии. В частном
случае, когда значения величины х\ тождественно равны еди-
нице, функция регрессии (1.3) принимает вид ц(х) = 01 +
+ 02х + ... + втХт или — после очевидной замены нумера-
ции— вид t|(x) = 0q+ 61X1 + ... + 0*х*. Если линейность ка-
жется неподходящей, часто можно найти преобразования над
данными, которые приводят к приблизительной линейности (по-
добные преобразования прекрасно описаны в [30]), и поэтому
линейные зависимости для практики более важны, чем это мо-
жет показаться на первый взгляд.
Следующей проблемой после выбора типа функции т) яв-
ляется определение таких численных значений неизвестных па-
раметров 01, ..., 0m, при которых функция регрессии будет до-
статочно хорошо (или даже наилучшим образом) описывать
эмпирические данные. Для ее решения прежде всего необходимо
задать критерий, который определял бы степень соответствия
эмпирических данных и регрессионной зависимости. Любой
такой критерий должен учитывать отклонения между измерен-
ными значениями у\, ..., уя и приближенными значениями
tn
dj=^xliQi. U-4)
15
Следовательно, необходимо учитывать отклонения 8/ (/ =
= 1, N), определяемые по формуле
= /=1. •... N. (1.5)
С учетом (1.4) формула (1.5) переписывается в виде .
т
0/= + в/, /=1, .... V. ' (1-6)
В матричной форме это записывается так:
r = F6 + e, (17)
где 0 =(0i, 0т)Т — вектор неизвестных параметров, е =
= (еь ..., е#)7— вектор отклонений. При заданной матрице
(1.1) вектор е зависит от значений 0, и поэтому от удачного вы-
бора 0 зависит качество регрессионного описания. Критерии
оптимального выбора 0 могут быть заданы различными спосо-
бами. Например, наилучшим могут считаться те 0, для которых
величины
N N
max |eJ, Z 1^/1, У 8/ = 8Те
/ = 1 N / = 1 / = 1
минимальны. Ниже рассматривается только третий из указан-
ных критериев. Это объясняется тем, что получающиеся фор-
мулы расчета значений 0 относительно просты с вычислитель-
ной точки зрения, а сами эти значения обладают определенными
свойствами оптимальности и хорошо зарекомендовали себя на
практике.
По определению вектор
0 = arg min (У — F0)r (7 — F0) — arg min 8Г8 (1.8)
0€=RW
называется (эмпирической) оценкой метода наименьших ква-
дратов (МН К).
Здесь впервые встретился символ arg min, который неодно-
кратно будет использоваться в дальнейшем и обозначает сле-
дующее. Пусть на множестве X задана ограниченная снизу
функция f(x), которая на этом множестве достигает минималь-
ного значения. Тогда под argminf(x) понимается любая точка
х=Х
минимума функции f на множестве X, т. е. такая точка х*, ко-
торая принадлежит множеству X и в которой выполнено
f(x*) = min f(x).
Одно из важнейших свойств оценки МНК сформулировано
ниже и заключается в том, что задача ее вычисления сводится
к задаче решения системы линейных алгебраических уравнений
FTFQ — FTY, которая называется системой нормальных урав-
нений,
JS
Лемма 1.1. Вектор (1.8) является решением системы урав-
нений
FTF8 — FTY. (1.9)
Доказательство. Примем обозначение
Q (0) = (У — F8)T (У - F0) = Д (yf - Д XjiQ^ .
Функция Q(0) задана на и является неотрицательно опре-
деленной квадратичной формой. Поэтому у нее существует ко-
нечный минимум Qmin, и, чтобы получить систему уравнений
для точки минимума функции Q(0) (этой точкой является
(1.8)), достаточно продифференцировать Q(0) по 0i, ..., 0™ и
полученные производные приравнять нулю.
Для вычисления производных можно воспользоваться ре-
зультатами из § 3 приложения 1, но мы вычислим эти произ-
водные непосредственно.
Имеем
^=41, s х;Ау]/«,=
= Z 2 (у - ,Е x/fit ) |d («/, - х{Д |/d0z ] =
= 2 Е (/// - Д х,-Д ) (-хц) = 2 [ £ Д xnxifii ~ Z] W,] •
Записывая полученное выражение в матричном виде, получаем
VQ(0)=(^|^-, •••, =2 [FTF8- FtY].
Приравнивая VQ(0) нулю, получаем (1.9). Лемма доказана.
Поскольку число неизвестных в системе нормальных уравне-
ний (1.9) не меньше, чем число линейно независимых уравне-
ний, эта система всегда имеет по крайней мере одно решение.
Если матрица FTF невырожденна, то система нормальных
уравнений (1.9) имеет единственное решение
Q = (FtF)~1 FTY, (1.10)
которое однозначно определяет оценку МНК.
Пример 1.1. Предположим, что результаты измерений пе-
ременной у в точке х равны у(х) — х2, измерены значения у в
точках X(i) = 0, х(2) = 1/2, х(3) = 1, а аппроксимируется кривая
у(х) прямой q (г) = 0102Х. В данном примере переменная х\
тождественно равна единице, переменная Хг заменена на х,
[° л ri о -1
1/4 , F = 1 1/2 .
1 J L1 1 J
17
Вычислим МНК-оценку (1.10). Имеем
-1]
2 J’
vira-m-
Таким образом, по результатам вычисления функции у{х) — х2
в точках 0, 1/2, 1 указанная функция приближается линейной
функцией (—1/12 +я), рассчитанной по МНК (рис. 2).
Математической моделью рассмотренной выше схемы описа-
тельной регрессии является классическая линейная регрессион-
ная модель, определение которой
дается в п. 1.2 и изучение кото-
рой составляет суть данного па-
раграфа.
1.2. Основные определения и
некоторые свойства оценок.
В матричном виде произвольная
линейная регрессионная модель
(схема линейной регрессии)
представляется как
y = F0 + e, е~(0, S), (1.11)
где У = (4/1, ..., Ум)т — случай-
ный вектор результатов измере-
ний (N— число измерений); F =
= 1Ы1 — фиксированная Ny^tn-
Рис. 2
матрица плана (вектор У и матрица F имеют вид (1.2)); 9 =
= (01, 0m) т~ вектор неизвестных параметров, которые
должны быть оценены по результатам измерений r/i, ..., у^\
8 ==(81,..., 8д/)г — вектор ненаблюдаемых случайных ошибок*),
математические ожидания которых равны нулю (Ee = 0); S —
фиксированная, положительно определенная NX W-матрица,
являющаяся дисперсионной матрицей случайных ошибок (S =
= ЕС8г = ||Ее/е/|£/=1).
Обозначение е ~ (0, S)— сокращенная запись того, что слу-
чайный вектор е имеет распределение с нулевым вектором сред-
*) Т. е. случайных величин, определенных на одном и том же вероятное!’
ном пространстве.
18
них (Ее = О) и дисперсионной (ковариационной) матрицей
Ее8Г = 2. При необходимости проверки гипотез знания первых
двух моментов случайного вектора е недостаточно: необходимо
полностью знать его распределение (см. п. 1.6 и § 3).
Удобное краткое обозначение модели (1.11), которое далее
и-спользуется, — упорядоченная тройка (У, F0, S).
Отличие модели (У, F0, 2) от рассмотренной выше модели
описательной регрессии (1.7) состоит в дополнительных пред-
положениях о случайности вектора отклонений е (который те-
перь называется вектором случайных ошибок) и о том, что
Ee = 0, De = 2. Эти предположения будут ниже служить осно-
вой для изучения свойств оценок МНК.
Так же как и для модели описательной регрессии (1.7), при
использовании схемы (У, F0, 2) подробная запись результатов
измерений r/i, ..., yN имеет вид (1.6). Это соответствует тому,
что функция регрессии*) имеет вид (1.3).
Далее неоднократно будут исследоваться линейные регрес-
сионные модели, описанные в следующих трех примерах.
Пример 1.2. Линейная регрессия на отрезке:
т) (х) = 0, + 02х, хе[-1, 1]. (1-12)
В этом случае модель (1.6) для результатов измерений записы-
вается в виде
^/= 0j + 02Ху + вр /=1, ..., N, (1.13)
или в матричном виде: У = F0 + 8, где
В данном случае величины хь ..., X/v представляют собой зна-
чения переменной х, которая совпадает с переменной хг из
формулы (1.3). Переменная xi из формулы (1.3) принимает зна-
чения, тождественно равные единице.
Пример 1.3. Квадратичная регрессия на отрезке:
-q (х) = 0j + 02х + 03х2, х е [— 1, 1]. (1.15)
Для матричной модели результатов измерений
торы У и 8 те же, что ив (1.14),
0 = (01, 02, 03)г,
У = FQ + е век-
(1.16)
*) Функцией регрессии называется функция, вычисляемая со случайной
ошибкой, математическое ожидание которой равно нулю.
19
Если представить функцию регрессии (1.15) в виде (1.3), то в
качестве переменной х\ следует взять постоянную функцию,
тождественно равную единице, в качестве х2— функцию х, а
в качестве хз— функцию х2.
Пример 1.4. Сформулируем схему регрессии для задачи
определения весов 01, 62, 0з трех предметов на весах с двумя
чашками. Предположим, что результат /-го измерения есть раз-
ность веса содержимого второй и первой чашек плюс некорре-
лированная с остальными случайная ошибка е/ со средним О
и дисперсией о2, т. е.
У1 = 0!Х1у + 02х2/ + 03Х3у + 8/,
Ее/ = 0, Ее/ = о2, Eeze/ = 0, i =/= /,
где
_____( (—1)т//, если Z-й груз взвешивался в /-м эксперименте,
Х// I 0 в противном случае,
mij — номер чашки, на которой в /-м взвешивании лежал Z-й
груз (Z = 1, 2, 3).
В данном случае функция регрессии имеет вид
’ Т] (х) = 0^ + 02х2 + 03Х3, (1.17)
где переменные хь х2 и хз могут принимать лишь три значе-
ния: — 1, 0, 1.
Ниже часто будет использоваться класс линейных однород-
ных оценок, г. е. оценок 0 вида 0=СУ, где С — произвольная
матрица порядка При этом слово «однородная» будет
опускаться. Линейность оценки 0 означает, что все компоненты
этой оценки — линейные комбинации результатов измерений
Уь • • •, Ум-
Одним из важнейших свойств оценок является условие не-
смещенности *). Оказывается, что необходимое и достаточное
условие несмещенности линейных оценок параметров 0 имеет
достаточно простой вид.
Лемма 1.2. Для схемы линейной регрессии (У, F0, S) ли-
нейная оценка 0 =CY является несмещенной оценкой пара-
метров 0, если и только если
CF — Im. . (1.18)
Доказательство. Поскольку ЕУ = Г0, то Е0 = ЕСУ =
==CF0. Покажем, что выполнение
CFQ = 0 для всех 0 g= R™ (1.19)
равносильно выполнению (1.18). Действительно, умножая спра-
ва обе части матричного равенства (1.18) на 0, получаем (1.19).
*) Оценка 0 параметров 0 называется несмещенной, если Е0= 0 для всех0.
20
С другой стороны, взяв в (1.19) в качестве 0 вектор Ci =
= (0, ..., О, 1, 0, 0), все компоненты которого равны нулю,
кроме 1-го, равного единице, получим векторное равенство,
являющееся z-м столбцом матричного равенства (1.18). Проде-
лав это для всех i = 1, ..., т, получим (1.18). Лемма доказана.
Обозначим: 3(0)—множество всевозможных линейных не-
смещенных оценок параметров 0; D0 — дисперсионная матрица
оценки 0. Наилучшей линейной несмещенной (НЛН) оценкой
параметров 0 называется (в случае ее существования) такая
оценка 6eS(0), что D0^D0*) для всех 0еЗ(0).
Ниже будет показано, что для схемы регрессии (У, F0, S)
НЛН-оценка существует и совпадает с оценкой, полученной по
методу наименьших квадратов (МНК-оценкой).
Из свойств неотрицательно определенных матриц следует,
что если 0 = (0Ь ..., 0т) есть НЛН-оценка параметров 0 =
= (6,. 0m)reRm, то detDe < det De, ar[D0]a<ar[D0]a
и [De]H<[D0]/z для всех 0е3(0), a<=Rm (/= 1, ..., tn)
(здесь [£>],,• — диагональные элементы матрицы D). Отсюда сле-
дует, в частности, что оценка 0/ каждой компоненты 0, вектора
0 обладает наименьшей дисперсией (в классе 2(0)) и для лю-
бого aeR® оценка аг0 является НЛН-оценкой скалярного па-
раметра arQ.
Пусть задана линейная регрессионная модель (У, F0, S),
где матрица F имеет полный ранг пг, т. e.'fang F = т (при этом
говорят, что модель невырожденна или является моделью пол-
ного ранга). Стандартной МНК-оценкой параметров 0 назы-
вается вектор
Q = (FTF)~'FTY, (1.20)
который по виду совпадает с эмпирической оценкой МНК (1.10).
Слово «стандартная» обычно будет опускаться. Своим назва-
нием оценка (1.20) обязана тому, что в силу леммы 1.1
0 = arg min (У — F0)r (У — F0). (1.21)
Очевидно, что оценка (1.20) является линейной. Кроме того,
легко видеть, что эта оценка несмещенная. Действительно, для
всех 0 имеем
Её = (FtF)~1Ft (ЕУ) = (FtF)~'FtFG = 0,
что эквивалентно условию несмещенности оценки (1.26). При-
ведем примеры вычисления стандартных МНК-оценок.
*) Неравенство А В (А > В) для квадратных матриц А, В одного
порядка означает, что матрица (А — В) неотрицательно определена (соот-
ветственно положительно определена).
21
Пример 1.5 (МНК-оценка для линейной регрессии на
отрезке). Рассмотрим линейную регрессионную модель (У, Я)
g2In), где У, F, 0 определяются по формулам (1.14). Выведем
явный вид МНК-оценки 0 =(0ь 02)т. Имеем
= (det FTF)~l
Z Z «Q “ Z */ Z xi«i
_ w Z^i-Zx/Z^/ _
Следовательно, в общем виде МНК-оценки 0|, 02 параметров
01, 02 линейной регрессии (0i -f- 02х) вычисляются по формулам
01 = (Z Z У} — Z xt Z xtyt)/[N £ х/ — (Z */)2|, (1-22)
02 = (# Z — Z xi Z У/)№ Z x/ — (Z */)2L (i-23)
где все суммы берутся по j от 1 до N.
Обычно рассматривается такой способ выбора точек прове-
дения измерений Xj (/ = 1, ...» N)9 для которого выполнено
равенство
N
^х, = 0. (1.24)
Это условие выполнено, например, если измерения проводятся
в точках, расположенных симметрично относительно нуля. При
22
выполнении условия (1.24) формулы (1.22) и (1.23) упроща-
ются и принимают вид
' (1.25)
ЛГ I N
02 = Е Х,У! I £ X2j. (1.26)
/=| I /=1
Формула (1.25) означает, что при выполнении (1.24) оценка fh
для 0j является средним арифметическим результатов изме-
рений.
Вычислим теперь оценки 01, 02 параметров регрессии 0i + Q2x
в случае, когда N = 3, а измерения проводятся в трех точках:
Xi = —1, х2 — 0, хз = 1. Имеем
А__Г(£/1 + Уъ + #з)/3"|
°”L (Уз~У1)/2 Г
Конечно, эта формула — частный случай формул (1.25), (1.26).
Пример 1.6 (МНК-оценка для квадратичной регрессии).
Рассмотрим функцию регрессии (1.15) и предположим, что
измерения проводятся в точках X/, симметрично расположенных
относительно нуля. Для этих точек будут выполнены соотно-
шения
N N
2//=о, 2//=°’ О-27)
одно из которых совпадает с (1.24). Вычислим МНК-оценку
параметров 0 =(0i, 02, 0з)г-
Используя (1.16) и (1.27), имеем
-1 1 - 1 X1 *1
F1 F — X! . • • XN =
2 L*i • * • XN - J XN XN.
N Ex- E xT 0 M * to
= £xi E*? = 0 Ex< 0
_e*i E*? E< 1 M 0 E4
Примем
N N
а=Е4 c = Nab-a3 (1.28)
23
и предположим, что с = det FTF Ф 0. Тогда
(FrF)-' =
abjc
О
— а2! с
О
(Nb — а2)/с
О
— я2/с“|
0 ’
Na/c 1
(1.29)
Nb — a2 v
—-с— L xiVi
(1.30)
В частности, если N = 3 и измерения проведены в точках х\ =
— —1, xi? = 0, хз=1, то из (1.30) получаем
91 —
02 = 4^-f/l). (1-31)
63 — 13 (У\ + Уз) — 2 (^! + у2 + у3)] = -£- [г/| + Уз] — у2-
Впрочем, формулы (1.31) легко получить и непосредственно.
Тип дисперсионной матрицы DK = 2 определяет как на-
звание линейной регрессионной модели (У, F0, S), так и опти-
мальные способы оценивания неизвестных параметров. Наибо-
лее простой случай — это случай, когда ошибки е =(еь ..., &N)T
некоррелированны и имеют одинаковую дисперсию, т. е. 2 =
= o2!n, где о2 > 0 — дисперсия одного измерения (возможно,
неизвестная). В этом случае модель (У, F0, называется
классической линейной регрессионной моделью.
В п. 1.3 доказан один из основных теоретических фактов
линейного регрессионного анализа, согласно которому для клас-
сической линейной регрессионной модели НЛН-оценкой явля-
ется стандартная МНК-оценка.
1.3. Теорема Гаусса — Маркова для классической линейной
регрессии. Прежде чем доказывать основную теорему, покажем,
как вычисляются дисперсионные матрицы линейных несмещен-
ных оценок.
Лемма 1.3. Пусть g— некоторый случайный вектор раз-
мерности р, Dg — Е (£ — Е£) (ё — Е£)г ““ его конечная диспер-
сионная матрица, а — произвольный детерминированный q-век-
тор и I.— фиксированная q\ р-матрица. Тогда дисперсионная
матриц^ случайного вектора r)=^L| + a равна Dt] = LD£Lt.
24
Доказательство. По определению дисперсионной ма-
трицы имеем
Dtj = Е (т| — Ец) (ц — Ец)г = Е (Д + а — ЕД — а) X
X № + а - ЕД - а)? = EL (| - ЕЮ [L (g - ЕЮ]Г =
= Л [Е а — ЕЮ (g - ЕЮГ] LT = LOW.
Лемма доказана.
Лемма 1.4. Пусть задана классическая линейная регрес-
сионная модель (У, FQ, g2In) и Q = CY — произвольная линей-
ная статистика (оценка). Тогда
D0 = o2CC7'. (1.32)
Доказательство. Используя лемму 1.3 с заменой g на
8, а на F0, L на С, имеем
D0 = DCY = С [DK] Ст = <j2CInCt = а2ССт.
Лемма доказана.
Из утверждения леммы 1.4 следует, что если задана клас-
сическая линейная регрессионная модель полного ранга, то
дисперсионная матрица стандартной МНК-оценки (1.20) равна
D6 = o2(FrF)-1. (1.33)
Действительно, б = C0Y, где Со = (FTF)~1FT; поэтому из (1.32)
получаем
D0 = а2СосГ = о2 (FrF)~' Fr [(FTF)r' Fr]r =
= о2 (FTF)~1 FtF (FtF)"' = <j2 (F7/7)-1.
Теорема 1.1 (теорема Гаусса — Маркова). Пусть задана
классическая линейная регрессионная модель (У, F0, cr2/,v), где
N X m-матрица F имеет полный ранг, равный т. Тогда МНК-
оценка (1.20) является НЛН-оценкой.
Доказательство. Пусть 0 —CY — произвольная линей-
ная несмещенная оценка параметров 0, а 0=СоУ— МНК-оцен-
ка. Здес^. Со = (F7F)-1Fr. В силу леммы 1.2 условия несмехцен-
ности оценок 0 и 0 записываются в виде
CF = Im, СйР = 1т. (1.34)
Положим А = С—Со. Из (1.34) получаем
AF = (С — Со) F = CF — C0F = — lm = 0,
откуда АСо — AF (FtF)-1 = 0. Используя полученное равенство
и выражения (1.32), (1.33) для дисперсионных матриц оценок
0 и 0, получаем
D0 = о2ССт = о2 [Со + Л] \СТО + Лг] = о2 [СоСоГ + С,АТ + АСТО +
+ ААт 1 = о2С0Саг [ЛСэ + (ЛСо)Г1 + (J2AAt = D0 + а2ААт.
Так как матрица ААТ неотрицательно определена, то D0 D0
Теорема доказана.
25
1.4. Оценивание дисперсии в классической линейной регрес-
сионной модели. В данном пункте приведена оценка неизвестной
дисперсии одного измерения о2 в невырожденной классической
линейной регрессионной модели (У, F0, о2/#).
Теорема 1.2. Несмещенной оценкой для о2 в невырожден-
ной модели (У, F0, g2In) является статистика
s2 = (У — Fe)T (У - F0)/(N - т), (1.35)
где 0 есть МНК-оценка (1.20).
Доказательство. Положим ё=У — F0. Имеем
е = Y -F FTY = FQ + e-F (FtF)~' Ft (F9 + e) =
= FQ + 8 - F (FTF)~' FtFG - F (FtF')~1 FTe, = 8 — F(FtF)-1 FTe,
t. e. e= Ge, где G=In — F(FTF)~]FT, Легко проверяется, что
G = GT и G2 = G (т. e. матрица G идемпотентна). Отсюда по-
лучаем
ёгё = eTGTGe = ег GGe = erGe.
Согласно теореме 1.10 из приложения 1, для любых согласован-
ных прямоугольных матриц Л, В справедливо равенство
tr4B = trBX. (1.36)
Применяя (1.36) с А = ет, В = Ge и учитывая, что операции
взятия математического ожидания и следа перестановочны (по
определению интеграл от матрицы — матрица из интегралов
см. с. 308), получаем
Еег8 = Е tr erGe = Е tr G88r = tr G (E88r) =
= O2tr G = о2 [tr 1N - tr F (FTF)~' F7"]
Снова применяя (1.36) (теперь c A=F, В = (FrF)~lFT), по-
лучаем
Ее7е = a2 [tr 4 - tr /т] = а2 (N - tn). (1.37)
Это соотношение эквивалентно тому, что Е$2 = <т2 (т. е. несме-
щенности оценки s2). Теорема доказана.
Пример 1.7 (продолжение примера 1.5). Пусть в обозна-
чениях примера 1.5 справедливо соотношение (1.24). Тогда
оценки 0 неизвестных параметров 0=(0i, 0г)т регрессии 01 + 02х
определяются по формулам (1.25), (1.26). Далее
г Г 1 х‘ 1
~ Г У' 1 1 *2 Г
у_F0 = | • • • - ....
vL Vn J Li *vJ
s2 = (fz — 01 — 02*;)2=с
1 л ( 1 N
= IV-2 V‘ ~ ~N /=1 y> ~ Xi
Vl — 0! — 02^1 '
0
—0, — 02xw.
z N \~1\-
(ZxH ).
\/=l / /
(1.38)
N
ЕЯ№ ’ТгТГЖЖ-'raPi/'Z,j AДОЧВЫV Y.ист-.ягг>га-J
26
В качестве примера расчетов по формулам (1.25), (1.26) и
(1.38) рассмотрим следующий случай. Предположим, что истин-
ная функция регрессии имеет вид ti(x)=1+2x, М = 6, точки
измерений имеют значения Xi = — 1, *2 — —0,6, Хз = —0,2, х4 =
= 0,2, xs = 0,6, Хб=1. Значения ошибок измерений et выберем
из таблицы нормально распределенных случайных величин с дис-
персией о1 2 = 1 (табл. 4 из приложения 2). Пусть
е1 = —0,49, е2 = 1,68, е3 = —0,06,
е4 = —1,23, е5 = —0,49, е6 = 0,86.
Таким образом, считаем, что результатами эксперимента яв
ляются числа
у( = -1 —0,49 = —1,49, z/2 = —0,2+ 1,68= 1,48,
Уз = 0,6 — 0,06 = 0,54,
у4= 1,4- 1,23 = 0,17, «/5 = 2,2-0,49= 1,71,
у6 = 3 + 0,86 = 3,86.
Построим МНК-оценку
01 + О2Х. Имеем
0 =(01, 02)г параметров регрессии
Рг₽-Г 11 11
г L—1 -0,6 —0,2 0,2
Uh
1
0,6
“1
1
1
1
1
J
-1
-0,6
-о,2 Гб 0 1
0,2 L0 2,8 J’
0,6
1 _
1 111
—0,6 —0,2 0,2 0,6
--1,49"
1,48
11 0,54 (6,271
lj 0,17 =[5,41]:
1,71
3,86
0 I [6,271 _ 10,17 X 6,271 _ Г 1,071
03бЛб,41] 1.0,36 X 5,41] L1.95J*
Вычислим теперь s2 (несмещенную оценку о2 = 1):
(У - F0) =
—1,49” “1 -1
1,48 1 -0,6
0,54 1 —0,2 fl,071
— 0,17 1 0,2 L1,95J “
1,71 1 0,6
3,86_ J 1
+-1,49- 1,07+ 1,95 -о,бГ
1,48- 1,07 + 0,6-1,95 1,58
0,54 - 1,07 + 0,2-1,95 —0,14
0,17— 1,07-0,2-1,95 — 1,29
1,71 - 1,07-0,6- 1,95 —0,53
3,86— 1.07— 1.95 0,84_
(У _ f о/ (у — F0) = 0,37 + 2,50 + 0,02 + 1,66 + 0,28 + 0,70 = 5,53,
s2 = 5,53/(6 - 2) = 5,53/4 = 1,38.
27
1.5. Принцип максимального правдоподобия в классической
линейной регрессионной модели. Для приведенных выше резуль-
татов не требуется задание типа распределения вектора ошибок
измерений е, а необходимо лишь задание среднего и дисперсион-
ной матрицы этого вектора. В этом и следующем пунктах будет
предполагаться, что случайный вектор е имеет нормальное рас-
пределение е ~ Af(O, о2/лг), где обозначение ъ ~ N(a, S) есть
краткая запись того, что случайный вектор 8 имеет многомерное
нормальное распределение с вектором средних, а и дисперсион-
ной матрицей 2. Плотность этого распределения в случае невы-
рожденности матрицы 2 равна
f(x; a, S) = (2n)~NI2 [det SJ"1/2 exp {-i-(x-a)rS-1(x-a)};
в частном случае a = 0, 2 = о2In
' f(x\ 0, o2//v) = (2no2)-yv/2exp{—Л/(2о2)}.
При рассмотрении линейных регрессионных моделей вектор Y
представляет собой выборку из распределения с некоторой плот-
ностью L(y, 0), зависящей от у е= и неизвестных параметров.
Функцию £(У, 0) как функцию от 0 в математической статистике
называют функцией правдоподобия, а значение 0 = 0, для кото-
рого функция правдоподобия принимает максимальное значе-
ние, — оценкой максимального правдоподобия.
Теорема 1.3. Пусть задана невырожденная классическая
линейная регрессионная модель
Y = Fe + e, е~ЛГ(О, о2^). (1.39)
Тогда МНК-оценка (1.20) является также оценкой максималь-
ного правдоподобия параметров 0, а статистика §n=(N — пг) s2/N
(величина s2 определяется по формуле (1.35))—оценкой
максимального правдоподобия параметра о2.
Доказательство. Поскольку из (1.39) следует, что
Y ~ N(FQ, g2In), функция максимального правдоподобия пара-
метров 0, о2 имеет вид
£(У, 0, о2) = (2ло2)-^ехр {- (У - F6)T(Y- F0)}, (1.40)
поэтому можно решать задачу максимизации по 0, а2 функции
In L (У, 0, о2) = - 4- In (2лст2) - (У - F0)T (У - F0) (1.41)
(логарифма правдоподобия). Дифференцируя (1.41) по 0 и о2
(дифференцирование по 0 производится так же, как и при до-
казательстве леммы 1.1) и приравнивая производные нулю, по-
лучаем
o2^L£=F'(y _ /?0) = о, (1.42)
2а2 = - JV + ~ (У - F0f (У - F0) ~ 0. (1.43)
2S
Система уравнений (1.42) не что иное, как система нормаль-
ных уравнений (1.9), решение которой есть оценка МНК (1.20).
Решением (1.43) является Й/. Теорема доказана.
Отметим, что оценка максимального правдоподобия sjj
для а2 является смещенной (т. е. Е$дг #= о2), но при N —>оо —
асимптотически несмещенной (т. е. Esw-хт2, Af->oo).
Пример 1.8. Предположим, что функция регрессии — кон-
станта, т. е. результаты измерений представимы в виде у/ =
= 0 4-6/ (функция регрессии зависит от одной переменной, ко-
торая тождественно равна единице). Пусть, как обычно,
£8/8/ = 0 при I j и Ее, = о2. В данном случае матрица F—
это столбец, состоящий из единиц:
/V , ЛГ
FTF — N, (FTF)-' = N-', FTY=^yi, £yt=y.
Следовательно, МНК-оценка параметра 0 — это выборочное
среднее.
Несмещенной оценкой для дисперсии является
1 N
Из теоремы 1.3 вытекает классический результат о том, что
при наличии одномерной повторной выборки из нормального
распределения с неизвестными средним 0 и дисперсией о2 оцен-
кой максимального правдоподобия для 0 является выборочное
среднее у, а для о2 — выборочная дисперсия N'' Z (.У) —у}2-
1.6. Проверка гипотез о коэффициентах регрессии. В данном
пункте показано, как для регрессии (1.39) проверять гипотезу
HQ: Qi —а о равенстве заданному числу некоторого 0/ при фик-
сированном i (1 i т) при альтернативе Нс. 0/ =^= а. В слу-
чае a=Q гипотеза HQ называется гипотезой значимости пара-
метра 0/.
В рассматриваемой модели
e = (9b .... em)r~Az(e, а2(ггг)~1),
поэтому при справедливости гипотезы Но имеем
0z~W(a, D0/),
где D 0г= o2[(FrF)~1]J7; Ац есть i-й диагональный элемент мат-
рицы А.
Если значение а2 известно, то при справедливости гипотезы
Но статистика __
и = (0г — (1.44)
имеет нормальное распределение 7V (0, 1) и может быть выбрана
в качестве, тестовой статистики для проверки указанной ги-
потезы.
29
Если величина а2 неизвестна, то она может быть оценена
статистикой s2. Оказывается, что в этом случае при справедли-
вости гипотезы HQ аналогом статистики (1.44) является стати-
стика __________
f=(ez-a)/[s Vl(FrF)~4J, (1.45)
которая имеет стандартное распределение, носящее название
t-распределения Стьюдента с N — пг степенями свободы. Ука-
занный факт вытекает из результатов п. 3.1.
Для проверки гипотезы Но следует использовать таблицы
1 и 2 приложения 2, в которых имеются значения квантилей
нормального распределения и /-распределения Стьюдента.
Пусть зафиксировано некоторое число а (0 < а < 1), опре-
деляющее уровень доверия приведенных процедур проверки ги-
потезы Но. Гипотеза Но должна быть отвергнута, если модуль
величины и, определяемой по формуле (1.44), превышает мо-
дуль а/2-квантиля стандартного нормального распределения
/V(0, 1) или (при использовании статистики (1.45)) если |/|
превышает модуль а/2-квантиля /-распределения Стьюдента с
N — m степенями свободы. Для приведенных процедур вероят-
ность того, что гипотеза Но будет отвергнута при условии, что
она верна, равна а.
Пример 1.9 (продолжение примера 1.7). Проверим гипо-
тезу Но: 01 = 0 по результатам расчетов параметров регрессии
1 + 2х, приведенных в примере 1.7. а) Пусть а = 0,05 и ст2 = 1.
По формуле (1.44) рассчитаем статистику
м= 1,07/д/0Д7 = 2,60.
Значение модуля а/2-квантиля нормального распределения
W(0, 1) равно 1,96, т. е. меньше, чем |и|. Следовательно, на
уровне значимости 1 — а =0,95 при о2 = 1 гипотеза Н^. 01 = 0
должна быть отвергнута, б) Пусть теперь о2 неизвестно. По
формуле (1.45) рассчитаем статистику /:
t = 1,07/(s 70Л7) = 2.6/VT38 = 2,21.
Значение модуля а/2-квантиля (а = 0,05) /-распределения с
JV— m = 4 степенями свободы равно 2,78, и поэтому на уровне
значимости 1 — а = 0,95 гипотеза HQ: 0i =0 должна быть при-
нята (несмотря на то что истинное значение 01 равно 1).
1.7. Обобщенный метод наименьших квадратов. Обобщенной
линейной регрессионной моделью называется модель (У, F0,
а2Ц7), где W — известная положительно определенная
матрица (W > 0), а параметр о2 может быть неизвестен.
Одной из типичных ситуаций, когда используется обобщен-
ная линейная регрессионная модель, является такая ситуация,
когда в классической модели измерения в точках повторяются.
Действительно, пусть имеются результаты измерений
^/ = бГХ(/) Н-8/( (1.45)
30
где X(/)=(x/i, ..., Xjm)T — точки проведения измерений, е, — не-
коррелированные случайные ошибки с одинаковой дисперсией
о2, и пусть среди точек х</} (/=1, ./V) лишь М (М N)
точек различные. Обозначим эти точки через х(1), х(м), а
через г/ — число измерений в точке хщ 1, £ rt —
Усредняя результаты различных измерений в точках х</), по-
лучаем модель
& = 0Tx(Z) + ez, /=1.......М, (1.47)
где yi — средние арифметические результатов наблюдений у;
в точках Х(/)‘, 8Z—средние арифметические ошибок измерений
8,; Её/ = О; Её/ё^=^О (/#=&); Её/ = Модель (1.47) является
обобщенной линейной регрессионной моделью (У, Л), o2lF), где
W — диагональная М X Л4-матрица с элементами 1/п на глав-
ной диагонали.
Пусть имеется обобщенная линейная регрессионная модель
(У, F0, g2W). Поскольку W > 0, то в силу теоремы 1.3 из при-
ложения 1 существует такая невырожденная ЛТХ N-матрица V,
что W = VVT. Полагая У = У-1У, F = V~'F, ё = и умно-
жая обе части (1.11) слева на V-1, получаем, что модель
(У, F0, o2U/) эквивалентна модели (У, Fti, о2/лг), так как
De = Еёёг = EV’V (У-1)г = (V"‘)r =
= oiy-'VVT(VT)-l = a2Itf.
МНК-оценка для модели (У, F0, g2In) записывается в виде
0 = (FrF)-1 FY = (Fr (W7')-1 F)-1 Ft (VVt>)~'Y =
= (FTW~'F)~l FTW~lY.
По определению оценка
f) = (FTW~lF)~lFTW~lY (1.48)
называется обобщенной МНК-оценкой. В силу леммы 1.1 эта
оценка минимизирует выражение
(У - FQ)T (У - FQ) = (У - FQ)TW~1 (У - FQ). (1.49)
В частном случае диагональной матрицы W выражение (1.49)
называется взвешенной суммой квадратов отклонений.
Дисперсионная матрица обобщенной МНК-оценки (1.48)
равна, как нетрудно видеть,
= о2 (FTW~iF)~l. (1.50)
Действительно, используя лемму 1.3, имеем
D6 -- (FtW~'fY' FrW~'DY [(FTW~'F)~l =
= <r (FTW"'Fy' FrW 'WW~lF (FTW~lF)~' = 0' {F^W^'py1.
31
В силу теоремы Гаусса — Маркова (теорема 1.1) обобщен-
ная МНК-оценка (1.48) является НЛН-оценкой для модели
(У, FQ, &Чы) и, следовательно, для модели (У, F0, о2 IV7).
Пример 1.10 (продолжение примера 1.7). Предположим,
что истинная функция регрессии r|(x) = 1 + 2х, и шесть измере-
ний проводится в трех точках: Xi =—1 (трижды), х2 = 0 и
х3=1 (дважды). Будем считать, что дисперсия ошибок изме-
рений о2 равна единице, а сами эти ошибки те же, что и в при-
мере 1.7:—0,49, 1,68, —0,06 (при измерениях в точке xi); —0,49,
0,86 (при измерениях в точке х3); —1,23 (при измерении в точ-
ке х2).
Усредняя результаты измерений в точках х\ и х3, получаем
у{ = - 1 + 4- (—0,49 + 1,86- 0,06) = - 0,56,
□
1/2= 1 — 1,23 = -0,23,
//з = 3 + 4 (-0,49 + 0,86) = 3,19.
Дисперсии ошибок при измерении у2, уз равны соответствен-
но о2/3, о2, а2/2. Таким образом, в рассматриваемой модели
(У, F0, о2Г) имеем
-11 Г1/3 0 0 1
о I о 1 о
1J L О 0 1/2 J
Вычислим обобщенную МНК-оценку (1.48):
(F^-'^-^P29 1/291
W Г) |j/29 6/29j,
ГО, 17 0,0341 Г4,471 = ГО,77 + 0,281 _ Г 1,051
[0,034 0,207J |_8,031 [0,16 + 1,66J [ 1,82 J *
В предположении о2 = 1 проверим, согласно процедуре п. 1.6,
гипотезу Но: 02 = 2 (т. е. проверим, значимо ли отклонение
32
оценки 62=1,82 от истинного значения 02 = 2). Дисперсия
оценки 02 равна
D02 = a2[(FrU7-1F)-1]22 = 4- = 0’207-
Поэтому величина (1.44) для а =2 равна
1,82 — 2 Л .Л . . л.
и — -----— 0,40, 1и « 0,4,
Vo,207
и, следовательно, для любого разумного значения уровня до-
верия 1 — а гипотеза Но должна быть принята. Действительно,
пусть а = 0,05, тогда модуль а/2-квантиля нормального распре-
деления ЛЦО, 1) равен 1,96, т. е. больше, чем |и|.
1.8. Последствия неправильного задания дисперсионной мат-
рицы ошибок измерений. Предположим, что для оценки парамет-
ров обобщенной линейной регрессионной модели (У, FQ, o2W)
используется оценка
0 (4) = (FTA~lFy~l FTA~lY,
где 4>0 — некоторая матрица, обычно являющаяся некото-
рым приближением к W.
Как нетрудно проверить, эта оценка является несмещенной
и имеет дисперсионную матрицу
D [6 (4)] = a2 (FTA~ 'F)~1 FTA~lWA ~lF (FtA~'fY1.
Поскольку 0 (W) является НЛН-оценкой,
D[0(4)]>D[6(IT)].
В наиболее интересном частном случае А = /w, т. е. когда
используется оценка (1.20), потеря эффективности определяется
формулой
D [0 (/W)J - D [0 (Г)] = a2 (UFT - SFTW~l) W(FU-W lFS) =
= о2 (UFT WFU -S)> 0,
где S = (FtW~'fYx, U = (Ft-fY1.
Отсюда, в частности, следует, что точность оценки (1.20)
такая же, как и оценки (1.48), в том и только том случае, когда
выполнено
UFT = SFTW~'.
Рассмотрим теперь последствия задания матрицы 4 = IN
вместо W при оценивании а2, т. е. при использовании формулы
(1.35) для оценивания о2 в модели (У, F0, ст2 W7).
Имеем s2 = e7e/(W — m), где
ё = У - FUFTY = GY, G — IN — FUFT, G2 = G, trG = N-m
2 С. M. Ермаков, А. А. Жиглявский 33
(см. п. 1.4). Аналогично доказательству теоремы 1.2 получаем
Ее'е = ЕУГО2У = EYTGY = Е (F0 + е)г G (F8 + е) =
= 8rFTGF8 + EerGe = 8TFTF8 - 8TFTF8 + E tr GesT =
= tr GEeer — o2 tr GW = <r2 tr IF - a2 tr FUFTW =
= <r2 [tr IF — tr (FTWFU)].
Следовательно,
_2_ Eere _a2[frG + tfG(«7-//V)] _
tS V - m N -m
==^+1j^^G{W-IN') = ^-1^\iv{FTWFU}-m\.
Таким образом, s2 не является, вообще говоря, несмещенной
оценкой для о2.
1.9. Вычисление МНК-оценок для моделей неполного ранга.
Говорят, что линейная регрессионная модель (У, F8, S) имеет
неполный ранг, если rang F = р <_ т. Линейные регрессионные
модели неполного ранга распространены, в частности, в зада-
чах дисперсионного анализа. Для указанных моделей система
нормальных уравнений имеет неединственное решение. Опишем
способ построения МНК-оценок, т. е. решения системы нормаль-
ных уравнений
FTF8=FTY. (1.51)
Предположим, что ранг матрицы FTF равен р (rang FTF—p),
где 0 р т. Не ограничивая общности, можно считать, что
первые р столбцов Xlt Хр NX m-матрицы F линейно неза-
висимы. Имеем 77 = (Г(1), Р(2)), 0=(0(i), 0(2))г, где
Fw = (Xit .... Хр), F(2) = (Xp+1.Хт)
суть матрицы размера NXp и — р) соответственно,
Ош = (01, .... 0Р)Г, 0(2) = (0р+1, .... 0т)г.
Так как rang F = rang Fw = р, то столбцы матрицы Р<2) ли-
нейно зависят от столбцов F(d, т. е. существует такая рХ
Х(т — р) -матрица L, что F(^ = FmL. Система нормальных
уравнений (1.51) записывается в виде
ЛГ1Л1) f(V(i)L 1.р«>1 = [ F")Y 1
1л2) J J ’
(1-52)
Первые p строк этой системы уравнений имеют вид
+ F^F(l)L8(2) = F^Y. (1.53)
Остальные tn — р уравнений (1.52)—линейная комбинация
уравнений (1.53); поэтому любое решение системы уравнений
(1.53) представляет собой решение системы (1.51).
34
Поскольку rangF(j)=p, у матрицы Ffi)F(i) существует об-
ратная. Домножим обе части (1.53) слева на (F^Fa))-1:
6(» = (ЛоЛо)"1 F^Y - L9(2). (1.54)
Поскольку (т — р) -мерный вектор 0(2> может быть выбран про-
извольным образом, то формула (1.54) определяет (т — димер-
ное многообразие решений системы нормальных уравнений
(1.51).
Пример 1.11. Пусть функция регрессии имеет вид (1.17),
т. е. л (х) = 01X1 + 02х2 + 03х3, а измерения проводятся в трех
точках: (1, —1, 0)г, (0, 1, —1)г, (—1, О, 1)г. В интерпретации
схемы взвешивания трех предметов А, В, С на двухчашечных
весах (см. пример 1.4) это соответствует тому, что при первом
взвешивании на левой чашке находился предмет А, на пра-
вой— предмет В; при втором взвешивании на левой — предмет
В, на правой — предмет С; при третьем — соответственно С и А.
Матрица F имеет вид
[1 -1 От
о 1 -11.
-1 О 1J
Имеем
’ г 2 -1 -in Гг/1-«/з1
FF = 1-1 2 -11, Fy = p2-y1 ;
L—1 —1 2j lj/з — Уг-1
поэтому система нормальных уравнений имеет вид
20] — 02 — 0з = i/i — Уз>
—01 4 202 — 03 = Уз — У\,
— 0i — 02 + 203 = у3 — у2.
Третье уравнение является следствием первых двух и полу-
чается после их сложения и умножения обеих частей получив-
шегося уравнения на —1. Следовательно, значение 03 можно
выбрать произвольным, а первые два уравнения преобразовать
так, чтобы 0] и 02 выразить через у\, у2, уз и 0з.
Из второго уравнения получаем
0] = 202 — 0з — У2А~ У \
и подставляем последнее в первое уравнение системы:
402 — 20з — 2у2 -|- 2yi — 02 — 0з — У{ — Уз-
Окончательно имеем
02 = у (—У\ + 2г/2 — г/3) + 0з,
01 ~ у (—2j/] -|~ 4г/2 2г/3 40з — 30з — 3z/2 -f- Зу() =
= (У\ 4 Уг — 2р3) + 0з.
2*
35
Построим теперь МНК-оценку, используя (1.54). Положим
гит г 1 -ч Г °1
0(1) = а* I. Ло= 0 l|. Л2)= — 1 I = £())£,
W2j L-i oj L ij
где = Тогда
^.>=[_; ? -;][_»_:]-u -a-
£]. ^=К;:Д.
и по формуле (1.54) получаем
й г2/з 1/31 у,] . ге31 Г(1/3) (у, - 2уэ + </2) + еэ ]
(1) L1/3 г/зЛ.уз-уЛ'Г LOaJ L(i/3) (-у, - у3 + 2Уг) + e3J
Оба способа решения привели к одинаковому результату.
Если 0 — оценка параметров 0, то оценкой вектора значений
функции регрессии F0 является, конечно, F0- Покажем, что при
оценивании по МНК оценка вектора значений функции регрессии
не зависит от выбора решения системы нормальных уравнений.
Лемма 1.5. Пусть rangF = p^m. Любые два решения
0(>) и §(2) системы нормальных уравнений (1.51) приводят к од-
ной и той же оценке вектора значений функции регрессии, т. е.
F0(1* = /?0<2>
и, кроме того, Q (0(1)) = Q(0(2)), г^е
Q (0) = (У — F0)r (У - F0). (1.55)
Доказательство. Любое решение 0 системы уравнений
(1.51) представимо в виде 0 = (0(d, 0<2>)т, где 0(2> произвольно,
a 0(i) определяется по формуле (1.54). Отсюда получаем
F0 = (Гц,, Гц,!) Г * FwY ~ l0(2)1 =
L 0(2) J
= Лп (^(1)Л1)) 1 F«)Y — F(nL0(2) + F(i)L0(2)»
t. e. FO однозначно определяется по матрице данных (1.1).
Теперь очевидно, что так же определяется и функция Q(0),
Лемма доказана.
Из леммы 1.5 следует, в частности, что любое решение си-
стемы нормальных уравнений (1.51) доставляет минимум функ-
ции Q, т. е. является оценкой МНК. Обратное утверждение (лю-
бая оценка МНК является решением (1.51)) следует из
леммы 1.1.
Другой способ представления решений системы уравнений
(1.51) основан на использовании псевдообратных матриц (см.
п. 1.6 приложения 1): любое решение системы нормальных
36
уравнений (1.51) может быть записано в виде
0 = (FTF)~ FTY, (1.56)
где Л- — обобщенная обратная матрица для квадратной ма-
трицы Л, т. е. такая матрица, что ЛЛ~Л=Л. Отметим, что
(1.54) и (1.56) различаются только формой записи.
Для случая, когда rang/7 = р < т несмещенно оценить все
неизвестные параметры модели (У, FQ, S) невозможно, но мож-
но оценить некоторые линейные комбинации неизвестных пара-
метров 0 (параметрические функции). Любая параметрическая
функция представима в виде т = tTQ, где t есть т-вектор.
Говорят, что параметрическая функция т=Г’0 оцениваема,
если для нее существует линейная несмещенная оценка вида
т = 6гУ (6е^).
Лемма 1.6. Для модели (У, FQ, S) параметрическая функ-
ция т = tTQ оцениваема тогда и только тогда, когда t е 3? [77Г] ,
т. е. t является линейной комбинацией столбцов матрицы FT>
Доказательство. В силу несмещенности оценки т = 6ГУ
для всех 0 имеем
/г0 = Е^ = Е&гУ=6г/70.
Это равносильно тому, что tT = bTF или t = FTb (см. доказа-
тельство леммы 1.2). Лемма доказана.
Теорема 1.4. Пусть задана модель (У, F6, о2In) , rang F —
= р m ид — произвольное решение системы нормальных
уравнений (1.51). Тогда, если параметрическая функциях = tTd
оцениваема, то
а) вид оценки tTQ не зависит от выбора решения системы
нормальных уравнений*,
б) tTd является НЛН-оценкой для т.
Доказательство. Пусть параметрическая функция т =
— tTQ оцениваема. Из леммы 1.6 вытекает, что ^существует такой
Af-вектор Ь, для которого tr — bTF, откуда tTQ = bTFQ. В силу
леммы 1.5 правая часть последнего равенства определена одно-
значно. Утверждение второй части теоремы доказывается точно
так же, как теорема 1.1. Теорема доказана.
Приведенная теорема легко обобщается на тот случай, когда
необходимо оценить векторную параметрическую функцию х —
= Т0, где Т — такая m-матрица, что ее строки являются ли-
нейными комбинациями строк матрицы F (в этом случае, со-
гласно лемме 1.6, существует линейная несмещенная оценка
для т, т. е. т оцениваема).
Теорема 1.5 (обобщение теоремы 1.4). Пусть задана мо-
дель (У, ГО, о2/лг), rangF==p^m и 0 — произвольное решение
системы нормальных уравнений (1.51). Тогда, если векторная
параметрическая функция т==7'0 оцениваема, то оценка х = Тд
определяется единственным образом и является НЛН-оценкой
для х.
37
Доказательство второй части теоремы аналогично доказа-
тельству теоремы 1.1, а первая часть (единственность т) дока-
зана выше.
1.10. Смещенное линейное оценивание. Оценка МНК § являет-
ся наилучшей в классе линейных несмещенных оценок. Однако
если отказаться от условия несмещенности, то* можно получить
оценки, которые в некоторых случаях обладают рядом преиму-
ществ по сравнению с МНК-оценкой.
Рассмотрим невырожденную модель (У, F0, o4N) Преоб-
разуем функцию (1.55). Учитывая, что FTY = FTFQ, где 0 есть
МНК-оценка (1.20), получаем
Q(0)==(y_ FQ)T (Y — FQ) = [Y — FQ — F (Q —0)]ГХ
X [Г - F0 - F (0 - 0)] = (У - F0)r (Y - FQ)— (Y - FQ)T F (0 - 0) -
- (0 - Q)TFT (Y - FQ) + (0 - 0)r FTF (0 - 0) = Qrain + a (0),
где
Qmin = Q (0) = (Г - FQ)T (Y - FQ), a (0) = (0 - Q)TFT F (0 - 0).
Существует многообразие векторов 0, удовлетворяющих со-
отношению
Q (0) = Qmin + а0> (1.57)
где ао > 0 — заданное число. При заданном соотношении (1.57)
минимизация одного из возможных критериев качества оцен-
ки— квадрата ее длины (квадрат длины вектора 0 по опреде-
лению равен 0Г0) — в силу известного в теории экстремальных
задач метода множителей Лагранжа [2] ведет к задаче поиска
минимума по 0 функции
у? (0) = 0Г0 + (l/k) [(0 - 0)г FTF (0 - 0) - а0], (1.58)
где 1/k— множитель Лагранжа. Функция 7?(0)—квадратичная
форма, и поэтому (см. доказательство леммы 1.1) для нахожде-
ния точки минимума этой функции достаточно решить систему
уравнений V/?(0) = O. Обозначим элементы матрицы FTF через
mz/ (*> /— 1, • ••» /п) и заметим, что тц = тц. Имеем
т п»
= 20,
<—i i, i
т
X — X (0« — 9<)wi/(0/—0/) =
*=1 i^i
tn
— 20, + у- 2/тг,, (0, — 0,) + -у У (0, — 0,) та =
= 2
т
+ т X т“
1-1
38
Следовательно,
= ..... «12>у^[е + 4^(0-е)].
Поскольку из вида МНК-оценки имеем
FTF8 = (FTF) (FtF)-' FtY = FTY,
система уравнений V/?(0) = O записывается в виде
e + -^FTF8=±FTY.
Преобразуя эту систему уравнений, получаем
(klm + FTF)8 = FTY,
8 = (kIm + FTF)~lFTY.
Полученная оценка
0(^ = (^ + ^т)‘7гУ (1.59)
называется гребневой. Число k однозначно связано с числом а0
соотношением (1.57):
Q(0(6)) = Qmin + ao. (1.60)
Легко понять, что при малых k оценки 0(&) и 0 почти совпа-
дают (0 (/?)-> 0 с вероятностью 1 при А->0). Преимущества
гребневой оценки (1.59) по сравнению со стандартной МНК-
оценкой (1.20) проявляются в тех случаях, когда матрица FTF
плохо обусловлена. Отметим, что в отличие от стандартной
МНК-оценки гребневая оценка однозначно определяется вне
зависимости от того, вырождена модель или нет.
Гребневая оценка (1.59) встречается в § 2 как оптимальная
при наличии разного рода априорной информации о пара-
метрах.
Другой распространенный тип смещенных линейных оце-
нок— сжимающие оценки (называемые также оценками Джейм-
са — Стейна) 0 (а) = а0, где 0 — стандартная МНК-оценка
(1.20), 0<а<1. Для невырожденной классической линейной
регрессионной модели (Y,FQ, o2IN) для всех 0 имеем
Е0 (а) = аЕ0 = а0,
D0 (a) = a2D0.
Таким образом, оценка 0 (а) смещенная (в среднем недооце-
нивает вектор 0), но дисперсионная матрица оценки 0(a) всегда
меньше, чем дисперсионная матрица МНК-оценки 0. Следова-
тельно, разумный выбор близкого к единице числа а позволяет
за счет некоторого смещения уменьшить дисперсии и ковариа-
ции оценок.
39
Упражнения.
I. В обозначениях примера 1.5покажите, что оценки (1.22) и (1.23) не-
коррелированы (т. е. E0i©2 = E0iE02) тогда и только тогда, когда выполнено
условие (1.24).
2. Пусть
У, = 01 + 02Х/ + оз (ЗХ/ - 2) + Вр / = 1, 2, 3,
е~(0, о2/3), Xi = —1, х2 = 0, х3=1.
Найдите МНК-оценки параметров 01, 02 и покажите, что эти оценки совпа-
дают с МНК-оценками, полученными при условии 0з = 0.
3. Выберите из табл. 4 приложения 2 другие значения ошибок измерений
и проведите вычисления, аналогичные проведенным в примере 1.7.
4. Пусть У ~ NfFfy а2/дг), где W X ^-матрица плана F имеет ранг /и,
и пусть s2 вычисляется по формуле (1.35), а матрица А—по формуле
^Г+2 -г
Вычислите Ds2 и Е [(УГ4У — а2)2] и покажите, что
Ds2 > Е [(УГЛУ - о2)2],
т. е. что оценка YTAY для о2 имеет меньшую среднеквадратичную ошибку,
чем s2.
5. Пусть yi = 0 + 61, у2 = —0 + в2,
8j - У (0, а2), е2 ~ У (0, 10а2), Е = 0
Запишите эту схему линейной регрессии в стандартном виде. Найдите обоб-
щенную МНК-оценку для 0 и дисперсию этой оценки.
6. Пусть
#/~(0. wjo2), /==1, ...,7V,
причем случайные величины z/i, ..., yN некоррелированы. Найдите НЛН-оцен-
ку для 0.
7. Пусть
y/~tf(/0, /2о2), /= 1, ... , N,
причем случайные величины yi.......уы некоррелированы. Найдите НЛН-
оценку для 0 и покажите, что ее дисперсия равна <yz/N.
8. Приведите пример, когда W =£ lNi но дисперсионная матрица стан-
дартной МНК-оценки совпадает с дисперсионной матрицей обобщенной
МНК-оценки.
9. Показать, что для схемы регрессии (У, Г0, g21n) линейная форма аг0
оцениваема тогда и только тогда, когда
ат (FTF)~ FTF ат.
10. Покажите, что если в схеме регрессии (У, F0, а27лг) линейная форма
аг0 оцениваема, то
11. Пусть имеется схема линейной регрессии (У, F0, g4n). Выведите вы-
ражение для дисперсионной матрицы оцениваемой векторной параметрической
функции.
12. Для схемы регрессии, приведенной в примере 1.10, напишите выраже-
ние для гребневой оценки. Используя (1.60), выведите уравнение связи между
параметрами k и а0.
§ 2. Линейный регрессионный анализ
при наличии априорной информации о параметрах
2.1. Основные виды априорной информации о параметрах.
Обобщенная МНК-оценка (1.48) является НЛН-оценкой для
модели (У, F0, о2^). При этом источником информации о неиз-
вестных параметрах являются результаты измерений У и вид
регрессионной модели.
Часто в распоряжении исследователя имеется дополнитель-
ная информация о параметрах модели. Правильный учет такой
информации позволяет построить линейные оценки, обладаю-
щие лучшими свойствами, чем МНК-оценки.
Простейшим видом априорной информации о параметрах
является вид линейных ограничений типа равенств. В этом слу-
чае получающаяся задача оценки параметров легко приводится
к стандартной, рассматривавшейся в § 1 (см. п. 2.2).
Более сложно учитывать априорную информацию о пара-
метрах модели, заданную в виде ограничений типа неравенств.
Ниже предполагается, что указанные ограничения задают па-
раметрическое множество Q, являющееся эллипсоидом:
Q = {0eR'"|(0-0o)rB(0-0o)<^. (2.1)
Здесь В — положительно определенная матрица, 0oeRm —
центр эллипсоида, k 0. Априорная информация состоит в том,
что 0ей. При такой априорной информации наиболее есте-
ственный подход — минимаксный, рассмотренный в п. 2.3.
Часто дополнительная информация о параметрах модели
(У, F0, о2 IF) представима в виде
г = /?0 + <р, <р~(0, V), К>0, Е<рег = О, (2.2)
где г — некоторый известный Z-вектор, R — фиксированная
/X m-матрица, V — известная /X /-матрица. В этом случае г
играет роль вектора наблюдений в линейной регрессионной мо-
дели (г, /?0, 7), q>—вектор ошибок измерений, причем случай-
ные векторы ф и е некоррелированы. НЛН-оценки параметров 0
при наличии априорной .информации (2.2) построены в п. 2.4.
Априорная информация вида (2.2) встречается в том случае,
когда в распоряжении исследователя имеются дополнительные
выборочные данные по изучаемой или аналогичной модели и
когда уже имелась предварительная оценка 0 всех неизвестных
параметров (в этом случае r = 0, R = Im, 1 = т) или их части.
Отметим, что априорная информация^ рассматриваемая в п. 2.2,
может быть записана в виде (2.2). Действительно, если У = 0,
то (2.2) сводится к линейным ограничениям /?0 = г.
В п. 2.5 предполагается, что на о-алгебре подмножеств мно-
жества Q имеется априорное распределение с заданными век-
тором средних и дисперсионной матрицей. Как и в п. 2.4, задача
нахождения НЛН-оценок в этом случае сводится к классической.
41
2.2. Линейные ограничения на параметры. Пусть в рамках
схемы (У, F0, а2^) имеются ограничения на параметры 0 вида
/?0 = г, где R есть дХт-матрица ранга q (0<Zq<m), г—q-
вектор. Согласно следствию 1.1 из приложения 1 общее решение
системы уравнений RG = г имеет вид 0 = 0О + Вр, где 0о —
частное решение, р— произвольный (т— q) -вектор, а В есть
тХ(т— q) -матрица ранга т— q. Положим Z=Y— FQq.
Имеем
EZ = ЕУ - F0O = F (0О + BP) - FOo = FSp.
Следовательно, рассматриваемая схема регрессии эквива-
лентна схеме (Z, FBp, а2№), в которой роль вектора результа-
тов измерений играет Z=Y— F0O, а новыми параметрами яв-
ляются р. Несмещенная оценка параметров р может быть най-
дена в случае, когда матрица FB имеет полный ранг. Оценкой
параметров 0 является 0==0о-|-Вр, где р— оценка для р.
2.3. Минимаксное оценивание. Пусть — фиксирован-
ный ненулевой вектор. Запишем функцию, зависящую от неиз-
вестных параметров 0 и их оценок 0, в виде
Г (0, 0) = Г (0, 0, а) = аТ [Е (0 - 0) (0 - О)7] а. (2.3)
Качество оценки в данном пункте будем измерять величиной
тахг(0, 0), (2.4)
а линейную по измерениям оценку
0 — arg min [max г (0, 0)Ъ (2.5)
Q *-0 S Я J
на которой достигается минимум указанной величины, будем
называть минимаксной оценкой.
Теорема 2.1. Если имеется схема регрессии (У, F0, o2W)
и параметрическое множество Q имеет вид (2.1), то минимакс-
ная оценка (2.5) может быть записана в виде
' = + (У-Г0о) + 0о. • (2.6)
Доказательство. Не ограничивая общности, положим 0О — 0
(если 0о =/= 0, то заменяем 0 на 0 — 0о и делаем соответствующие изменения
в формулах для оценок).
Для любой линейной однородной оценки 0 — CY имеем
б - 0 = (CF - lm) 0 + Се,
г (0, 0, а) = a2arCWCTa + 0тВ1/2аа7’В|/20, (2.7)
где симметричная пг X m-матрица В1/2 определяется из условия (В1/2)2 = В,
a = (Bl<2)~l(CF-lm)r а.
В силу теоремы 1.9 из приложения I для любой m X д/г-матрицы А имеем
max (О7В|/2ДВ,/?О)/(ОГВ0) = Ашах (Л). (2.8)
0-?ьО
42
Применяя (2.8) к (2.7) при А = аат, получаем
max г (0. 0, а) = cf2arCWCTa -J- /еЛтах (4).
егвес&
Обозначим правую часть этого равенства через /(С). Поскольку А — аат, то
%тах(4) = ата, и поэтому
j (С) = a2aTCWCTa + kaT (CF - Im) B~1 (CF - Im)T a. (2.9)
Возьмем производную от (2.9) по С:
= 2 [(<т2Г + kFB~[FT) Стааг - kFB~xaaT]
(здесь использованы результаты § 3 приложения 1). Приравняв эту производ-
ную нулю, получаем, что минимальное значение функционала /(С) достига-
ется на матрице
С, = kB~xFT (а2Г + kFB~xFT}~X.
С помощью элементарных преобразований получаем
(о2В + kFTW~lF)C, = fea2/^-^ (а21Г + kFTW~xF)~l +
+ kFTW~l (kFB~{FT) (a2W + kFTVF~lF)~l = kFTW~l.
Отсюда следует (2.6) при 0o == 0. Теорема доказана.
Важным свойством минимаксной оценки (2.6) является то,
что ее вид не зависит от вектора а, фигурирующего в (2.3).
В частном случае 0о = 0 и W = In (т. е. центр эллипсоида
(2.1) находится в начале координат и линейная регрессионная
модель является классической) минимаксная оценка (2.6) при-
нимает вид
0(M) = [4-S + /77>rlfry- (2Л0)
Сравнивая (2.10) и (1.59), видим, что гребневая оценка яв-
ляется минимаксной линейной при наличии априорной инфор-
мации вида 0Г0 o2/k.
При больших k (т. е. при малой априорной информации)
оценка (2.6) близка к обобщенной МНК-оценке (1.48) и в пре-
деле (при £->со) совпадает с ней. Отсюда следует, что МНК-
оценки являются минимаксными для случая, когда априорная
информация о параметрах отсутствует.
Теорема 2.2. В классе линейных несмещенных оценок
обобщенная МНК-оценка (1.48) является минимаксной.
Доказательствd. Из условия несмещенности оценки
0 = CY имеем CF = Im, и поэтому в (2.7) а = 0, в силу чего
шахг(0, 0, а) = o2aTCWCTa = arDQa.
В силу результатов п. 1.7 минимум в последнем выражении для
любого достигается при С = (FTW~1F)-~iFTW~\ Теорема
доказана.
43
2.4. Смешанное оценивание. Смешанной моделью называется
модель (У, F0, o2U7) при наличии априорной информации (2.2).
Смешанная модель может быть записана в виде
(Г, ?0, о2Г),
где
МЯ- МоАГ
Применяя результаты п. 1.7 для модели (F, FQ, ст2 IF), полу-
чаем, что оценка
6 (о2) = (FTW~lF)~l FTW~'Y =
= (g~2FtW~1F + RTV~lR)~l (a-2FTW-'Y + RTV~lr) (2.11)
является НЛН-оценкой для смешанной модели. Поскольку зна-
чение о2 обычно неизвестно, также неизвестна и 0(о2). В том
случае, когда дисперсии и ковариации случайного вектора оши-
бок <р пропорциональны соответствующим величинам вектора е,
т. е. когда V = (o2/k)W (где k — известное число), оценка (2.11)
принимает вид
0 = + kRTV~iR)~x (FTW~lY + kRTV~lr). (2.12)
В общем случае на практике ограничиваются подстановкой в
(2.11) вместо ст2 какой-либо оценки для ст2 (например, s2 для
смешанной модели).
2.5. Байесовское оценивание. Пусть на ст-алгебре подмножеств
множества й задано распределение P(d0) со средним г и дис-
персионной матрицей V, независимое от распределения в
г=^0Р(</0), V= J(G — r)(6 — r)TP(d&),
Q Q
и пусть это распределение отражает априорные сведения о зна-
чении 0: P(d0) является распределением вероятностей для зна-
чений неизвестных параметров. В этом случае априорная ин-
формация может быть записана в виде (г, ImQ, V), и, следова-
тельно, НЛН-оценкой является
0 (^ = (a~2FTw~lF + У-1)"’ (<T2FtW~1Y + V-1r). (2.13)
Оценка (2.13) называется байесовской оценкой.
Отметим, что в случае W = In, V — Im, г = 0 оценка (2.13)
совпадает с гребневой оценкой (1.59). Следовательно, гребневая
оценка (1.59) является байесовской для классической линейной
регрессионной модели при наличии априорного распределения
с известным вектором средних г = 0 и дисперсионной матрицей
V = Im.
44
Упражнения.
1. Положим
G = |\5!is + Fr1F-1/| *.
Покажите, что если выполнены предположения теоремы 2.1, то для оценки
(2.6) имеют место следующие равенства:
Е0(М) - 0 = - SL ов (0 - 0О), D0(M) = a2GFTW~lFO,
sup г (0(М), 0, а) = cFaTGa.
6 €=<2
2. Предельным переходом при &->оо получите из (2.12) явный вид НЛН-
оценки параметров 0 в схеме регрессии (У, F0, a2IF) при наличии линейных
ограничений Я0 = 0:
0 = (ftW~'F + RTR)-{FTW~lY.
§ 3. Основные понятия дисперсионного анализа
3.1. F-критерий для проверки линейных гипотезе параметрах
линейной регрессии. Предположим, что имеется схема линейной
регрессии (У, F0, о2/лг), в которой вектор результатов измере-
ний У нормально распределен:
y~N(F0, g2In), (3.1)
а матрица FTF не обязательно имеет полный ранг. Пусть Т —
матрица размера k\m9 rang? — k < m, и строки матрицы Т —
линейные комбинации строк матрицы F, т. е. существует
такая &Х N-матрица L, что Т = LF. При этом условии, как сле-
дует из леммы 1.6, k параметрических функций (i = 1,..., k)
оцениваемы. Здесь ..., tk— строки матрицы Т. Обозначим
МНК-оценку векторной параметрической функции т = Т0 че-
рез т.
В силу теоремы 1.5 т = Г0, где 0 — любое решение системы
нормальных уравнений FTFB = FTY, т. е. 0 есть МНК-оценка
параметров 0, записываемая в виде (см. 1.56))
0 = (FrF)"FrF, (3.2)
где матрица (FTF)~ (обобщенная обратная для FTF) обладает
тем свойством, что
FTF(FTF')-FTF = FTF. (3.3)
По лемме 1.5 величина
/?2 = (У-Р0)г(у_ГО), (3.4)
которая называется остаточной суммой квадратов, определяется
однозначно. То же самое относится и к оценке
т = Т&. (3.5)
Покажем, что величины $ и f независимы.
45
Теорема 3.1. Для схемы нормальной регрессии (3.1)
в случае Т — LF статистики (3.4) и (3.5) независимы.
Доказательство. Преобразуем выражения (3.4) и (3.5):
R2o = (Y - FQ)T (У - FQ) = YTY - YTFQ - QT FTY + QTFTFQ =
= YTY — YTF^FrF)- FTY — YTF (FTF)~ FTY +
+ YTF (FTF)~ FtF (FTF)- FTY YTY — YTF (FTF)~ FtY =
= yt(in-f(ftf)~ft] Y,
% = TQ = LF(FtF)~ fty.
Следовательно,
_$ = УГЛУ, t = BY, (3.6)
где
A=*In — F(FtF)~Ft, B = LF(FTF) Ft. (3.7)
Покажем, что BA = 0. Имеем BA = LG (FTF) ~FT, где
G = F — F (FtF)~ FrF. (3.8)
Подсчитаем GTG\
GTG = (FT - FTF (FTF) ~Ft) (F-F (FtF')~FtF') =
= FrF - FTF (FTF) ~FtF- FtF (FtF)~ FtF +
+ FTF (ftF)~ FtF (FtF)~ FtF.
Из (3.3) вытекает, что GTG = 0 и, следовательно, G = 0; по-
этому BA = 0.
Теперь покажем, что из условия ВА = 0 следует независи-
мость квадратичной и линейной форм (3.6). Воспользуемся тео-
ремой 1.1 из приложения 1 для спектрального разложения
матрицы Л, представив ее в виде А = У KtPiPi, где X/ и Pi —
собственные числа и ортонормированные собственные векторы
матрицы Л. Теперь из ВА — 0 следует, что BPi — Q (t = l, ...
..., Af). Поэтому вектор BY некоррелирован со случайными ве-
личинами р[у(/=1, ... , N) ив силу нормальности У не за-
висит от них. Утверждение теоремы следует из того, что
Rl = YTAY= (/W
Теорема доказана.
Лемма 3.1. Пусть имеется схема регрессии (3.1). Тогда
(те, nV(FtF)~Tt\ (3.9)
где t — МНК-оценка векторной параметрической функции
т = TQ, Т — матрица, представимая в виде Т = LF.
46
Доказательство. Поскольку случайный вектор У имеет
нормальное распределение, то случайный вектор т также нор-
мально распределен. Имеем
Ет = ЕГО = ЕГ (FrF)~ FTY = Т (FTF)~ FtFQ = LF (FTF)~ FtFQ.
При доказательстве теоремы 3.1 было показано, что матрица
(3.8) состоит из нулей. Следовательно,
F = f(FtF)~ FtF, (3.10)
откуда Ет = Т0.
Дисперсионную матрицу вектора т вычислим, используя
(3.10) и лемму 1.3:
Dt = DLFQ = DLF (FTF)~ FtY = LF (FTF)~ Ft [DK] F (FTFy X
X FTLr = a2LF (FTF)~ FtF (FtF)~ FtLt = <?LF (FTFY FtLt =
= <j2T (FTF)~ Tt.
Следовательно,
Dt = <r2V, где V — T(FtF)~Tt. (3.11)
Лемма доказана.
Лемма 3.2. Для схемы регрессии (3.1), в которой tn-
матрица F имеет ранг г (rang F = r min (m, N)) остаточная
сумма квадратов (3.4), умноженная на о-2, имеет ^-распреде-
ление с N — г степенями свободы:
R20~<J2x2(N-r). (3.12)
Доказательство. Используя представление (3.6) для
Ro и теорему 1 из приложения 2, получаем
Ro2-a2x2(trA),
где матрица А определяется по (3.7).
Осталось показать, чтоЛгА = М— г. Имеем "
tr А = tr (IN - F (FTF)~ FT) = tr IN - tr F (FTF)~ Ft.
По лемме 1.5 матрица F(FTF)~FT определена однозначно, т. е.
не зависит от выбора способа обобщенного обращения матрицы.
Выберем способ, определяемый формулой (1.15) из приложе-
ния 1. Тогда
tr F (FTF}~ Ft = tr FTF (FTF)~ = rang FTF = rang F = r. (3.13)
Лемма доказана.
Задача проверки общих линейных гипотез о параметрах ли-
нейной регрессии ставится следующим образом. Пусть имеется
схема регрессии (3.1), где УХ m-матрица F имеет ранг г sg
min(m, У), k X m-матрица Т имеет ранг k (k г) и допу-
скает представление Т = LF. Общую линейную гипотезу о па-
раметрах 0 модели (3.1) запишем в виде
Но: Те-то, (3.U)
где то — фиксированный й-векгор.
Для МНК-оценки т векторной параметрической функции
х = 7’0 выполнено (3.9). Используя формулу (4) из приложе-
ния 2, получаем
(<-т)гу-’^-т)~а2х2(Л), (3.15)
где матрица V определена в (3.11).
Из (3.12) и (3.15) следует, что при справедливости гипотезы
(3.14) выполнено
Г = ~ F (k, N - г), (3.16)
т. е. статистика имеет распределение Фишера с k и N — г
степенями свободы (см. приложение 2).
Теперь выясним тенденцию поведения статистики ЗГ в случае,
когда гипотеза Яо неверна. Используя (3.9), имеем
E(t-TO)rV-*(t-To) _
k
= -t tr У-1 E (t — X + X — To) (t — X 4- X — x0)r =
=-£-tr У1 [E(t — x) (t — x)r 4-(x — x0)(x — x0)r] =
= J- tr У "* [о2У + (x — x0) (x — ХоЛ =
= -j- tr Ik + у-(т — х0)г У1 (x — x0) =
= o2 + 4- (x — х0)ГУ *(x — T0).
Следовательно, равенство
c ~ T»)r V~l (т — x0) _ 2
Б k
имеет место только в случае справедливости гипотезы Hq.
Поскольку (т — х0)У-1(х— то)>О при всех х=#=То, то при
невыполнении гипотезы Но выполняется неравенство
Е > о2, (3.17)
причем, чем больше х отличается от то, тем больше разница
между правой и левой частью (3.17). С другой стороны, безот-
носительно к справедливости гипотезы Но выполнено
р2
Ev=t- = o2 (3.18)
(вывод этой формулы аналогичен доказательству теоремы 1.2
и использует (3.13)).
Таким образом, при невыполнении гипотезы HQ числитель
правой части (3.16) в среднем превосходит знаменатель, причем
48
величина этого превышения зависит от того, насколько то отли-
чается от истинного значения т. Следовательно, большие значе-
ния статистики свидетельствуют о том, что выборочные дан-
ные противоречат гипотезе Но.
Если выбрать величину Fa из условия
P{F>Fa} = a, где F~F(k, N — r), (3.19)
то при справедливости гипотезы Но вероятность выполнения не-
равенства
= (ЗЭД
будет равна а. Поэтому, если а мало и выполнено неравенство,
противоположное (3.20), можно считать, что выборочные дан-
ные не противоречат гипотезе Но (т. е. гипотезу Но следует
принять). Если же выполнено (3.20), то гипотезу Но следует
отвергнуть, поскольку она не согласуется с результатами из-
мерений.
В частном случае при k — 1, когда проверяется гипотеза
только об одном параметре регрессии, описанная процедура про-
верки гипотезы Но эквивалентна процедуре, описанной в п. 1.6.
Для вычисления статистики из левой части (3.20) можно
пользоваться другой процедурой, которая не требует явного
вычисления МНК-оценок векторной параметрической функции
т = TQ. Эта процедура основана на использовании следующей
леммы.
Лемма 3.3. Пусть имеются схема регрессии (У, FQ,<j2In)
ukX m-матрица Т, допускающая представление Т = LF. Тогда
(t-T)rV-’(t-T) = /??-/?l (3.21)
где х— МНК-оценка векторной параметрической функции TQ,
матрица V определена в (3.11) и
fli — min (У — F0)r (У — F0)
е: те-т.
(т0 — фиксированный k-вектор).
Доказательство. С помощью метода множителей Ла-
гранжа (см. [2]) получаем, что минимум в (3.22) достигается
на векторе 0», являющемся при некотором Х = решением
системы уравнений
FTFQ + ТтК = FTY,
TQ = Tq.
(3.22)
(3.23)
Поскольку
Rl = (У - FQ,)T (У - F0.) =
= (У — Г0)г (У — F0) + (0 — QfFTF (0 - 0.),
где 0 = (FTF) ~FTY — оценка МНК параметров 0, то для доказа-
тельства справедливости (3.21) необходимо показать, что
(0 - 0.)г FTF (0 - 0,) = (t - tq) У "- то). (3.24)
49
Матрица Т допускает представление Т = LF. Отсюда сле-
дует, что она допускает и представление Т = CFTF, где С — не-
которая &Х ^-матрица. Из (3.23) .находим
FTF (0 - 0.) = Т\ = FTFC\'
Поэтому
(0 - 0,)г FTF (0 - 0.) = ^CFTFC\. (3.25)
Далее из (3.23) получаем
CFTFQ, - Г0, + СТ\ = CFTY - т0>
откуда
СТ\ = ^ — х0.
Это равенство переписывается в виде
CFrFC\ = t-To.
Отсюда
Л. = уч(*-т0).
Подставляя это выражение в (3.25), получаем (3.24). Лемма
доказана.
Из (3.21) вытекает, что статистику F, находящуюся в левой
части (3.20), можно переписать в виде
р2 р2 / п2
= -1 ь ° ~м - - • (3.26)
k / N—r v f
Вычисления, приводящие к статистике часто располагают
в виде так называемой таблицы дисперсионного анализа.
Таблица 3.1
Число степеней свободы Сумма квадратов Средний квадрат
Остаточная сум- ма Полная сумма Отклонение от ги- потезы tf-r N-r + k k = min (У - FQ)T (Y - Г0) 0 /?? = min (У — F0)Г (У — FQ) 6: Тб-тс %; | 1 1 =& О ND
Задачи проверки линейных гипотез вида (3.14) о параметрах
линейной регрессионной модели (3.1) называют задачами дис-
персионного анализа. При этом часто предполагают, что пере-
менные, от которых зависит функция регрессии, являются ка-
чественными, т. е. принимают конечное число значений, соот-
ветствующих каким-либо качествам. В задачах дисперсионного
анализа указанные переменные принято называть факторами.
Значения, которые принимает тот или иной фактор, называют
его уровнями. Множество допустимых уровней количественного
60
фактора обычно представляется в виде отрезка прямой, каче-
ственного— в виде нескольких чисел.
Часто качественный фактор принимает значения на двух
уровнях 0 и 1, символизирующих «нет» и «да». Это может быть,
например, отсутствие или наличие того или иного ингредиента
в смеси, неучастие или участие того или иного вещества в реак-
ции, отсутствие или присутствие при проведении эксперимента
некоторого лица и т. п. В других случаях число уровней каче-
ственного фактора / больше двух (например, / — число различ-
ных сортов семян в сельскохозяйственном эксперименте или
различных доз лекарства в медицинском).
Возникающие в дисперсионном анализе задачи планирования
эксперимента носят специфический характер и направлены в
основном на уменьшение числа проводимых измерений и на
упрощение процедуры анализа. Эти задачи рассмотрены в гл. 2,
а в п. 3.2 в качестве примера использования изложенной выше
общей методики проверки гипотез рассмотрим задачу однофак-
торного дисперсионного анализа, являющуюся одной из про-
стейших задач подобного рода. -
3.2. Однофакторный дисперсионный анализ. Предположим, что
имеется т повторных выборок
Гх = 011, ... , y{Ntf, ... , Ym = (ym\9 ... , ymNjny (3.27)
объемов М, ..., Nm из значений нормально распределенных
случайных величин с неизвестными средними 01, ..., 0™ и не-
известной общей дисперсией о2. Предполагается, что измерения
f/z/ = 0i + e£7 (/=1,*..., т\ /=1, ..., Ni) проводились при
разных значениях некоторого фактора, влияние которого может
сказываться на значениях среднего 0£. Гипотеза
Яо: 01=02 = ...—0/л ,(3.28)
означает, что указанные факторы на результаты измерений не
влияют.
Задача проверки гипотезы (3.28) по результатам измерений
(3.27) может быть записана в виде задачи проверки гипотезы
(3.14) о параметрах регрессионной модели (3.1), если положить
= + ... 0 = (0Ь 0w)r,
Y = («/11, .... Уше Уы, , У2М2...........Ум........У^т)Т,
1 1
о о
>т
1 0 0 ... О ... О 0 ... 0“
0. 1 1 ... 1 ... о о ... о
Lo о ... о о о ... о ... 1 1 ... 1J
i 'v 2 'v m
“1 0 ... 0 -1-
0 1 ... 0 -1
Lo о ... i -1J
r0 = 0, k — m — 1, r = tn.
51
Если гипотеза (3.28) верна, т. е. все 0/ (i=l, т) рав-
ны 01, то минимум суммы квадратов отклонений У, (yii — 0J2
равен
R? - min X (»„ - 9,)»- £ й, - ± (£ у У. (3.29)
01 i.i i.l \iti /
Остаточная сумма квадратов 7?о равна
^0= min E(f/l7-0(.)2 =
0r ..., 0m f, J
m / Ni x
- S ”}ta £ (y,, - e,)! = S (£ yl, - b>/n ,),
где
Nt
Bi = E ytl.
Следовательно, сумма квадратов за счет отклонения от ги-
потезы (3.28) имеет т— 1 степеней свободы и равна
р2 d2 d2
^-«0 = ^-+...+-^--^-, (3.30)
где
В = Bi + ... + Вт = 2 У if
i.i
На практике проще вычислять Ri и /?о по формулам
(3.29) и (3.30), а затем вычислять Соответствующая таб-
лица дисперсионного анализа выглядит следующим образом.
Таблица 3.2. Однофакторный дисперсионный анализ
Число степеней свободы Сумма квадратов Средний квадрат
Остаточная сумма (рас- N — т /?о (получается вычитанием) %
хождение внутри вы- борок) Полная сумма У-1 А? — iO I А? 1 •—to А? || о to U « см дМ3 ^1 ь "i 1 •*. to 1 • 1 *1 N — tn
Отклонение от гипо- тезы (расхождение между выборками) m — 1 э 1 1
Упражнения.
1. Пусть модель регрессии и результаты измерений те же, что и в при-
мере 1.7, и пусть значение о2 неизвестно. Проверьте гипотезы: a) 0i = 02;
б) 0t = 02/2; в) 01 = 02 + 1; г) 0, = 02 — I.
2. Пусть схема регрессии та же, что и в примере 1.10. Сформулируйте
задачу однофакторного дисперсионного анализа. Проведите однофакторный
дисперсионный анализ для данных примера 1.10.
Глава 2
ФАКТОРНЫЕ ПЛАНЫ
Исторически теория планирования эксперимента начала раз-
виваться с факторного планирования. Основы факторного пла-
нирования были заложены еще в 30-х годах нашего столетия.
Суть теории факторного планирования состоит в построении
экономичных планов, по результатам измерений в точках кото-
рых можно проводить просто реализуемые процедуры статисти-
ческих выводов о неизвестных параметрах полиномиальных
функций регрессии. Эта теория широко используется на прак-
тике и неразрывно связана с такими областями комбинаторики,
как блок-схемы, латинские квадраты, конечные геометрии.
В данной главе дается элементарное введение в факторное
планирование. Описаны простейшие методы построения дробных
факторных планов, ортогональных латинских квадратов и сба-
лансированных блок-схем, процедура проведения дисперсион-
ного анализа для латинских планов и соотношения между па-
раметрами сбалансированных неполных блок-схем.
§ 1. Полные факторные планы и их дробные реплики
1.1. Понятие о факторном планировании. Рассмотрим схему
регрессионного эксперимента, в которой результаты измерений
зависят от значений некоторого числа т > 1 переменных Xi
(i=l, ..., m), называемых факторами. При этом предпола-
гается, что фактор Xt может принимать конечное число значе-
ний Si 2, которые называются уровнями фактора, и что выбор
уровней факторов находится в распоряжении экспериментатора.
Метод, состоящий в рассмотрении влияния факторов на ре-
зультаты измерений по одному, называется классическим экспе-
риментом. В отличие от него в методе факторного планирования
уровни всех факторов комбинируются. Как правило, при рав-
ном числе измерений оценки неизвестных параметров регрессии,
получающиеся для разумно спланированного факторного экспе-
римента, более точны.
Схема регрессии, в рамках которой проводится тот или иной
факторный эксперимент, называется факторной моделью. Фак-
торные модели могут быть различными. В качестве функции
53
регрессии в этих моделях при st 2 обычно рассматривается
полином степени k /и, в котором присутствуют только члены
вида
(1.1)
где все г/ равны либо нулю, либо единице. В общем случае та-
кая функция регрессии имеет вид
n(*i......хт)=е0+ £о,хг + £ 0,/х,х/ +
<=1 /</
+ Z OqW + •••+£ е<1<2„.гтхг,х/2... Х1т, (1.2)
ixjxt ’ <"1т
где некэторые из параметров 0/, 0</, ... неизвестны, а некоторые
априори равны нулю. Параметр 0О в (1.2) называется общим
средним, параметры 0/ (/=1, т)— главными эффектами
(взаимодействиями нулевого порядка), 0</— эффектами взаимо-
действий первого порядка (эффектами двухфакторных взаимо-
действий) , Qiji — эффектами взаимодействий второго порядка
(эффектами трехфакторных взаимодействий) и аналогично
0ц12.. tk — эффектами взаимодействий порядка k—1 (эффек-
тами k-факторных взаимодействий). Число ^-факторных взаи-
модействий равно
k\(m — k)\
В частности, имеется m главных эффектов, tn(m—1)/2 эффек-
тов двухфакторных взаимодействий и один эффект /п-фактор-
ного взаимодействия.
Наиболее часто используется два частных случая функции
регрессии (1.2):
Л (хь ... , хт) = 0О + 01X1 + ... + 9тхт (линейная), (1.3)
и
т
^(Xl ... , хт) = 0О + £ Q{xt + £ QifXiXj (квадратичная); (1.4)
i = l ></
последняя называется также неполной квадратичной в силу
предположения о том, что коэффициенты 0п при одночленах х2.
равны нулю.
Факторный план называется полным, если, согласно этому
плану, измерения проводятся по одному для каждой возможной
комбинации уровней факторов. Эксперимент, проведенный по
полному факторному плану, называется полным факторным
экспериментом. Полный факторный план требует проведения
sj ... sm измерений, где si— число уровней фактора Х[. Если
st = s (/=1, ..., пг), т. е. количество уровней всех факторов
одинаково и равно $, то полный факторный план обозначается
так: план sm. Факторный план называется дробным, если он
54
предназначен для проведения числа измерений, меньшего чем
Si ... Sm>
Большое распространение на практике получили двухуровне-
вые планы, т. е. такие планы, факторы в которых принимают
значения только на двух уровнях. Это связано с тремя обстоя-
тельствами. Во-первых, если какой-либо4 фактор xt принимает
значения на s уровнях, то можно заменить этот фактор на s
новых двухуровневых факторов, соответствующих уровням фак-
тора (т. е. рассматривая каждый уровень фактора Xi в каче-
стве нового фактора). Во-вторых, даже если фактор может
принимать значения на многих уровнях (возможно, бесконечном
числе), то часто выбирают только два крайних, считая при
этом, что, чем больше различие в значениях факторов, тем точ-
нее МНК-оценки неизвестных параметров функции регрессии
(если рассматривается функция регрессии (1.3), то это всегда
верно). В-третьих, при проведении реального эксперимента ти-
пичной является ситуация, в которой факторы могут либо* при-
сутствовать, либо отсутствовать, т. е. имеют только два зна-
чения.
При рассмотрении двухуровневых планов уровни факторов
кодируются числами 1 и — 1 и условно называются соответственно
верхним и нижним. Отметим, цто если используется двухуровне-
вый план, то включать в функцию регрессии слагаемые вида
(1.1) с каким-либо г; 2 бессмысленно: действительно, если
четно, то Ху/=1, а если нечетно, то хр = х/е
Рассмотрим способы построения дробных двухуровневых
планов.
1.2. Дробные реплики плана 2т. Полный факторный план
2т является удобным с точки зрения простоты проведения ста-
тистического анализа параметров функции регрессии (1.2).
Кроме того, для линейной модели (1.3) и куба как множества
планирования этот план является* в определенном смысле опти-
мальным (см. § 1 гл. 4). Тем не менее при большом числе фак-
торов т план 2W используется крайне редко, так как предна-
значен для проведения большого числа 2т измерений. Число 2т
быстро растет с ростом т и при больших т существенно пре-
вышает число т + 1 неизвестных параметров линейной функции
регрессии (1.3), которая наиболее часто используется на прак-
тике.
За счет потери части информации, не очень существенной
при построении линейных моделей, при т 3 количество изме-
рений можно существенно сократить. Для этого вместо плана
2т следует использовать описанный ниже дробный факторный
план 2т~р, который предназначен для проведения 2т~р измере-
ний-(натуральное число р выбирается из условия 2m-p^m 1).
Сначала рассмотрим линейную функцию регрессии, завися-
щую от трех факторов:
Т)(Х1, %2» *з) ~ °о 4" 01*1 4“ 02*2 4“ 03*3• (1*5)
65 ‘
Применение полного факторного плана 23, предназначенного
для проведения восьми измерений в точках вида
(хь х2, х3) = (+1, ±1, ±1),
позволяет, как показано ниже, несмещенно оценить не только
общее среднее 0О и главные эффекты 0Ь 02, 0з, но также и все-
возможные взаимодействия первого и второго порядков, т. е.
все параметры неполной кубической модели
% "Ь 01*1 + 02*2 4" ®3*3 4" 012*1*2 4" 013*1*3 4“
4“ 023*2*3 4" 6123*1*2*3* (1 -0)
Для оценивания параметров функции регрессии (1.5) можно
построить план, предназначенный для проведения не восьми,
а четырех измерений. Для построения такого плана факторы
*1 и х2 будем варьировать, как в плане 22, а в качестве уровня
фактора хз будем выбирать значение Хз = *1*2- Получим план,
определяемый следующей матрицей:
Первый столбец матрицы содержит значения фиктивной пере-
менной Хо, которая тождественно равна единице (параметр 0q
является коэффициентом перед
0о, ...» 0з функции регрессии
переменной хо).
Плану, определяемому матри-
цей (1.7), соответствуют те точ-
ки рис. 3, которые отмечены
крестиками. На этом рисунке
нижний уровень факторов обо-
значен символом 0, а все поме-
ченные точки в совокупности
определяют полный факторный
план 23.
По результатам измерений в
точках плана, определяемого по
(1.7), можно оценить параметры
(1.5), так как матрица плана F
невырожденна.
Рассмотрим теперь функцию регрессии (1.6). Из результа-
тов п. 1.9 гл. 1 вытекает, что поскольку число измерений в рас-
смотренном плане равно четырем, а число параметров функции
50
регрессии (1.6)—восьми, то все эти параметры несмещенно оце-
нить невозможно. Для модели (1.6) матрица плана, аналогич-
ная (1.7), выглядит следующим образом:
Номер изме- рения Матрица плана F
хо XI Х2 ХЗ Х1Х2 XJX3 х2хз Х1Х2ХЗ
1 1 1 1 1 1 1 1 1
2 1 -1 1 -1 — 1 1 -1 1
3 1 1 — 1 -1 -1 -1 1 1
4 1 -1 — 1 1 1 —1 1
(1-8)
В выписанной матрице плана первый столбец совпадает с
восьмым, второй — с седьмым, третий — с шестым, четвертый —
с пятым. Следовательно, при использовании этого плана нет
различия между xq и Х1Х2Хз; Xi и х2хз; х2 и XiX3; Хз и XiX2, т. е.
х0 = л:1х2Хз, х1 = х2х3, х2 = х1х3, x3 = xtx2.
(1-9)
Поэтому вместо отыскания оценок восьми параметров функции
регрессии (1.6) можно найти лишь оценки четырех смешанных
коэффициентов:
00 + 0123» 01+023» 02+ 013» 03 + 012- (1’10)
Символически это записывается так:
0Q—>00 + 0123» 01~>61+ 023»
02 “> 02 + 013»
03 03 + 012*
Таким образом, общее среднее и главные эффекты оцени-
ваются независимо друг от друга, но смешиваются соответ-
ственно с эффектами взаимодействий второго и первого по-
рядка. Если постулируется линейная модель (1.5), то эффекты
взаимодействий считаются незначимыми, и набор смешанных
коэффициентов (1.10) превращается в набор параметров мо-
дели (1.5).
Рассмотренный план называется полурепликой или планом
23-1. Он получается из полного факторного плана 23 путем при-
равнивания единице произведения xix2x3. Действительно, из со-
отношения
1=Х1х2х3 (1.11)
следуют все четыре соотношения (1.9), при этом учитывается,
чтох0=1, х|=1 (i=l, 2, 3). Соотношение (1.11) называется
определяющим для полуреплики (1.8).
Полуреплика (1.8) не единственно возможная. Другая полу-
реплика 23”1 получится, если уровни фактора х3 устанавливать
57
в соответствии с равенством хз = —Х\Х2. Тогда матрица плана,
аналогичная (1.8), примет вид
Номер измерения Матрица плана F
ХО XI Х2 ХЗ XJX2 Х1ХЗ Х2Х3 X 1X2X3
1 1 1 1 —1 1 —1 -1 -1 (1-12)
2 1 -1 1 1 -1 -1 1 -1
3 1 1 -1 1 -1 1 -1 -Г
4 1 -1 — 1 -1 1 1 1 — 1
Определяющим соотношением для полуреплики (1.12) яв-
ляется
1 = — ххх2х3. (1-13)
Вспоминая, что х0=1, х|=1, и умножая обе части (1.13) по-
следовательно на х\, х2, Хз, получаем аналог соотношений (1.9):
Хо =z — Х1Х2Х3, Xj = — Х2Х3, Х2 == — Х1Х3, Х3 = —— Х[Х2»
Отсюда следует, что при использовании полуреплики (1.12)
можно несмещенно оценить четыре смешанных коэффициента:
00 — 0123» — 023» ®2 — 013» 03 — 012»
т. е.
0О~>0О — 0123» 01^*01—023» 02*^02 — 013» 03^03 — ®12«
Объединение двух полуреплик (1.8) и (1.12) дает, как не-
трудно видеть, полный факторный план 23.
При большом числе факторов т для оценивания параметров
линейной функции регрессии (1.3) можно строить дробные реп-
лики высокой степени дробности. Так, при т — 7 можно по-
строить дробную реплику из полного факторного плана 23 для
первых трех факторов, приравняв четыре оставшихся фактора
к двухфакторным и трехфакторному взаимодействиям трех дру-
гих факторов, положив, например,
х4 = х1х2х3, х5 = х1х2, хб = х1х3, х7 = х2х3. (1.14)
Такая реплика записывается как 27~4.
В общем случае дробную реплику будем обозначать через
2т~р, если р факторов приравнены к произведениям остальных
т — р факторов, уровни которых выбраны согласно полному
факторному плану. Дробную реплику 2т~р можно строить раз-
личными способами. Для анализа системы смешивания коэф-
фициентов пользуются понятиями генерирующих и определяю-
щих соотношений.
Генерирующими называются соотношения, с помощью ко-
торых построена дробная реплика. Так, для реплики (1.8) гене-
рирующим является соотношение х3=Х1Х2, для реплики (1.12) —
58
соотношение х3 = —xix2. Для указанной выше реплики 27-4 ге-
нерирующими являются соотношения (1.14).
Определяющим соотношением называется равенство, в левой
части которого стоит единица, а в правой — какое-либо произ-
ведение факторов. Для дробной реплики 2т~р можно получить
р различных определяющих соотношений из генерирующих пу-
тем умножения обеих частей последних на их левые части с по-
следующей заменой х? на 1 (i= 1, ..., т). Другие определяю-
щие соотношения получаются путем перемножения ранее полу-
ченных и выделения среди них новых. Например, для реплики
(1.8) определяющим является соотношение (1.11), для реплики
(1.12)— соотношение (1.13).
Получим определяющие соотношения для реплики 27-4, за-
даваемой генерирующими соотношениями (1.14). Умножая обе
части равенств (1.14) на их левые части, получаем четыре опре-
деляющих соотношения:
1 = Х[Х2х3х4, 1=х1х2х5, 1=х1х3х6, 1=х2х3х7. (1.15)
Попарное перемножение этих четырех соотношений дает шесть
новых:
1 = х3х4х5, 1 — х2х4х6,
1 = Х!Х4Х7, 1 = х2х3х5хв,
1 = Х[Х3Х5Х7,
1 = Х[Х2Х6Х7.
(1.16)
Перемножение каждой тройки из четырех соотношений (1.15)
дает еще три определяющих соотношения:
1 = X|X4XgXg, 1 = Х3Х4Х6Х7, 1 = Х5Х6Х7. (1.17)
Наконец, перемножая все четыре соотношения (1.15), получаем
1 — х1х2х3х4х5х6х7. (1.18)
Легко понять, что, кроме (1.15) — (1.18), других определяю-
щих соотношений для рассмотренной реплики 27~4 нет.
Знание определяющих соотношений позволяет найти всю
систему совместных оценок без изучения матрицы планирования
дробной реплики. Для того чтобы определить, с какими взаи-
модействиями смешано данное, нужно на него умножить обе
части всех определяющих соотношений.
Определим, например, с какими взаимодействиями смешан
главный эффект 03 в дробной реплике 27-4, определяемой гене-
рирующими соотношениями (1.14). Для этого умножим все
определяющие соотношения (1.15) — (1.18) на х3. Получим
Х3 = Х{Х2Х4 = Х!Х2Х3Х5 — х{х6 = х2х7 = х4х5 =
= Х2Х3Х4Х6 — X{X3X4X7 — Х2Х5Х6 = ХхХ3Х7 —
= XxX2X3XqX7 = X{X3X4X$Xq = x4xQx7 — х3х5х6х7 — х1х2х4х5х6х7.
Следовательно, главный эффект 03 смешан с эффектами
взаимодействий первого порядка
016> ®27> 045>
&
с эффектами взаимодействий второго порядка
0124, 0256> ®157, 0467»
третьего порядка
01235» 02346» 01347» 03567»
четвертого порядка
. 012367» 013456
и пятого порядка
0124567*
Символически это записывается в виде
Оз 03 + 016 + 027 + 045 + 0124 + 0256 + 0157 + 0467 + 91235 +
+ 02346 + 01347 + 03567 + 012367 Н" 013456 + 0124567 (1.19)
и означает, что МНК-оценка параметра 0з линейной функции
регрессии (1.3) является МНК-оценкой суммы параметров, на-
писанной в правой части (1.19), если истинная модель имеет
вид (1.2) с т = 7.
В конкретной практической ситуации для выбора подходя-
щей дробной реплики полного факторного плана необходимо
использовать все априорные сведения теоретического и интуи-
тивного характера об объекте планирования с целью выделения
тех факторов и произведений факторов, влияние которых на ре-
зультаты измерений существенно. При этом смешивание нужно
производить так, чтобы общее среднее 0О и главные эффекты
01, ..., 0m были смешаны с эффектами взаимодействий самого
высокого порядка (так как обычно они отсутствуют) или с эф-
фектами таких взаимодействий, о которых известно, что они
оказывают несущественное влияние на результаты измерений.
Отсюда следует, в частности, что недопустимо произвольное
разбиение полного факторного плана 23 на две части для выде-
ления полуреплики 23-1.
Качество дробного факторного плана иногда характеризуют
с помощью разрешающей способности плана, которая равна
наименьшему числу символов в правых частях определяющих
соотношений. В частности, для плана разрешающей способности
III ни один главный эффект не смешан ни с каким другим глав-
ным эффектом, но главные эффекты смешаны с эффектами
двухфактбрных взаимодействий. Для плана разрешающей спо-
собности IV главные эффекты не смешаны друг с другом и
с эффектами двухфакторных взаимодействий, но последние друг
с другом смешаны. Для плана разрешающей способности V
главные эффекты и эффекты двухфакторных взаимодействий
не смешаны, но последние смешаны с эффектами трехфакторных
взаимодействий. Все три рассмотренные выше дробные реплики
имеют разрешающую способность III.
Кратко остановимся на методе вычисления МНК-оценок па-
раметров функции регрессии вида (1.2) по результатам изме-
60
рений, проводимых согласно полному факторному плану и его
дробным репликам.
Сначала покажем, что при выборе любой функции регрессии
вида (1.2) матрица плана F для полного факторного плана 2т
обладает свойством
FTF — NlSt (1.20)
где N = 2т, h — единичная матрица порядка s (s — количество
параметров функции регрессии).
Столбцы матрицы плана F обозначим через
Ь = (Л(1)....fi№)T, / = 0, ... , S-1.
Поскольку все fi(j) равны 1 или —1, то диагональные элементы
матрицы FTF равны fTifi = N (i = 0, ... , s—1).
Покажем теперь, что все столбцы fi матрицы F ортого-
нальны. Это эквивалентно тому, что при любом I (z I т)
и любых ii < ... < ii выполнено равенство
N
... xit(j) = o, (1.21)
где Xi(j) — значение фактора Xi в /-м измерении. Чтобы убе-
диться в справедливости (1.21), достаточно провести перенуме-
рацию:
х (/)==( .....-ВД’
1—1, /е{ЛГ/2+1..........N}-,
( Ь /^{1. ••• , ВДида+1..............N-N/4},
Х{2(1) 1-1, /еда+1..........N/2}U{N — N/4+l........N}-,
( 1, /<е{1.......W2Z)U ... U{N-N/2t~1+ 1, ...
... | ... .N-N/21},
V" 1-1, /e{JV/2'+1, ••• , W2Z-I)U ... U {N —N/2 +
I * +1,
Тогда левая часть (1.21) будет иметь вид
(1+ .•• + !) - .(! + ••• + 1) + • • • “ (1 + - • + 1).
N/21 N/21
Таким образом, доказана справедливость (1.20). Отсюда и
из вида МНК-оценки ((1.20) из гл. 1) вытекает, что МНК-
оценка параметров 0а имеет вид
(1.22)
/ /~1
61
где N = 2m; 0а —один из параметров 0^ ... i(
функции регрессии (1.2); ft — столбец матрицы плана F, соот-
ветствующий параметру 0а; у\, у я— результаты измерений.
Если случайные величины у\, yN некоррелированы и имеют
одинаковую дисперсию о2, то из выражения для дисперсионной
матрицы МНК-оценок следует, что оценки (1.22) также некор-
релированы, а их дисперсии равны tj2/N.
Дробную реплику 2т~р, примененную для схемы регрессии
вида (1.2) с числом параметров, не превосходящим W = 2'n_₽,
можно рассматривать как полный факторный эксперимент 2Г
(г = т — р), примененный к модели того же вида, но с пара-
метрами 0а, замененными согласно генерирующим соотноше-
ниям. Поэтому формулы для расчета МНК-оценок неизвестных
параметров 0а и их дисперсий остаются такими же, как и для
полного факторного плана 2т.
Упражнения.
1. Аналогично рис. 3 изобразите полуреплику 23“\ определяемую мат-
рицей плана (1.12).
2. Выпишите определяющие соотношения и систему совместных оценок
для дробной реплики 25~2, которая определяется генерирующими соотноше-
ниями Х4 = Х1Х2Х3, == Х1Х2. Определите разрешающую способность этой
дробной реплики.
3. Задайте генерирующие соотношения дЛя дробной реплики 27-2 разре-
шающей способности: a) III; б) IV.
4. Задайте генерирующие соотношения для полуреплики 27-1 разрешаю-
щей способности: а) III; б) IV; в) V; г) VI; д) VII.
§ 2. Латинские планы
2.1. Латинские квадраты.Латинским квадратом порядка «на-
зывается расположение символов в виде квадратной таблицы
с п строками и п столбцами такое, что каждый символ один раз
появляется в каждой строке и один раз — в каждом столбце.
Например,
А В
С D
Е А
В С
D Е
Существование латинских
дует из примера
В С
С D
D Е
Е А
С D Е
Е А В
BCD
DEA
ABC
квадратов любого порядка сле-
С D Е
D Е А
Е А В,
АВС
BCD
который обобщается на квадраты любого порядка.
Схема латинского квадрата в статистике возникла на основе
сельскохозяйственного эксперимента, типичным примером кото-
62
рого является следующий. Предположим, что нужно сравнить
урожайность пяти сортов пшеницы. Для этого в эксперименте,
проводимом по схеме латинского квадрата, прямоугольное поле
делят на 25 участков (ячеек),разделенных на пять строк и пять
столбцов, причем каждый сорт встречается однажды в каждом
столбце и в каждой строке. При этом предполагают, что истин-
ное среднее участка является суммой эффекта строки, эффекта
столбца и среднего урожая сорта. Такая схема применима, если
среднее участка является суммой среднего урожая и эффекта
плодородия, причем имеются колебания плодородия по строкам
и столбцам (вызванные, например, различными видами почвы
или удобрений).
Число различных латинских квадратов растет с ростом
порядка. Новые латинские квадраты могут быть получены из
заданного, например, путем перестановки-' строк, столбцов, а
также перестановки символов.
Каждому латинскому квадрату порядка п соответствует ла-
тинский план трехфакторного эксперимента, в котором все три
фактора имеют п уровней, а общее число измерений равно п2.
Такое соответствие можно получить, если номер строки отож-
дествить с уровнем первого фактора, номер столбца — с уровнем
второго, а символ с уровнем
третьего.
При указанном соответствии ла-
тинскому квадрату
1 О
о 1
соответствует изображенная на
рис. 3 полуреплика 23-1 полного
факторного плана 23, а латинскому
квадрату
-1 0 1
Рис. 4
о 1 -1
1 -1 о
соответствует план трехфакторного эксперимента, изображен-
ный на рис. 4. На этом рисунке уровни факторов равны —1, О,
1, а все помеченные точки соответствуют полному факторному
плану.
2.2. Дисперсионный анализ для латинских квадратов. Предположим, что
имеются три фактора а, Ь, с, принимающих значения* на п уровнях, зануме-
рованных числами 1, 2, ..., п, и что планом эксперимента является латинский
план, причем латинский квадрат, соответствующий плану, выбран из множе-
ства всевозможных латинских квадратов порядка п случайным образом.
Пусть yijk — результат измерения при условии, что фактор а находился на
уровне I, фактор b — на уровне /, фактор с — на уровне k. Множество из п2
значений, которые может принимать упорядоченная тройка (t, /, &), обозна-
чим через Л.
Преимущество латинского плана по сравнению с полным трехфакторным
экспериментом заключается в существе::;. Ол! сокращении числа измерений —
63
с п3 до п2. Недостатком является то, что при применении латинских планов
числа уровней всех факторов должны быть одинаковыми, а также в том, что
дисперсионный анализ для латинских планов проводится при более ограничи-
тельных предположениях — необходимо, чтобы взаимодействия между фак-
торами отсутствовали.
Пусть измерения проведены согласно латинскому плану. Предположения
о модели, при которых будет проводиться дисперсионный анализ, заключа-
ются в следующем:
!/</fe = U + a/ + 0/ + Y* + 8z/b (2.1)
где (/, /, k) s Л; случайные величины {ez/4 независимы и нормально рас-
пределены с нулевым средним и конечной неизвестной дисперсией о2; ц., az,
Р/> Y* (t, /, k = 1, ..., n) —неизвестные параметры, называемые общим сред-
ним и эффектами факторов а, Ь, с соответственно; не ограничивая общности,
можно считать, что
л п п
£₽/ = £ Yft = 0. (2.2)
i = l /=i
поскольку если какая-нибудь из сумм не равна нулю, то ее значение можно
включить в ц. Проверяемые гипотезы о независимости результатов измере-
ний от факторов а, Ь, с записываются в виде
На: а; = О, i = 1, ... , л;
р/ = О, = 1, ... , га;
Vk = 0, k = 1, ... , п
Сначала при рассмотренных предположениях найдем МНК-оценки пара-
метров ц, az, Р/, минимизируя по указанным переменным функцию
(M.fe)sA
Приравнивая нулю производную dQ/dyL, получаем
a,
Суммируя по всем (i, /, k) еЛ, мы суммируем по всем наблюдениям, и для
каждого i параметр az складывается п раз; следовательно,
Е а>= Е(иа<)=°-
a, i
Аналогично получается и для {р/} и {ул}- Отсюда получаем, что МНК-
оценкой параметра ц является
J, j, fe)eA
Приравнивая нулю производную dQ/dyki получаем
Е = (2-3)
где Ал является множеством таких п пар (/, /), для которых (Z, /, k) е Л.
По определению латинского квадрата при каждом k множество Л* состоит
из таких п пар (i, j), в которых i и / принимают одно и только одно значе-
ние из множества {1, ..., п}. Следовательно, выполнены равенства
п п
Е ai = Eai = 0- Е Р/ = Ер/ = °-
/в1
64
С учетом этого выражение (2.3) сводится к равенству
У- • k — Н “ Ук = О,
где
y--k=T 2 yw
а. 1ык
Таким образом, МНК-опенка параметра у* равна
V* ==^-*'••••
Аналогично
где
У—= S yHk’
{i, i, fe)eA
а величины y.^ определяются аналогично
Вычисляя теперь остаточную сумму квадратов
Ro “ Z (У*/* — ц - - Р/ - Ыг,
(«. /,Т)еЛ
имеем
Е y2iik- Е (h+^+pz+V-
(А/,1)<=Л (/, /, fe)e=A
После элементарных преобразований это равенство переписывается в виде
п2 ___ о2 с2 q2 q2
к0 —
где
S0 = E y2iik ~E> Sa = « E V2- - E’
a, /,a i
Sf^n^y^.-E, S2c = n^t£.k-E,
В модели (2.1) имеется Зп + 1 параметров, подчиненных трем допол
нительным связям (2.2), и, следовательно, г = Зп — 2 независимых парамет-
ров. Поэтому числом степеней свободы величины R& имеющей %2-распреде-
ление, является п2 — г — п2 — Зп + 2.
Пусть теперь наряду с исходными предположениями выполнено
«с- Ъ“°- * = 1.........................«•
Минимизируя по g, а/, функцию
(i,/,I)sA
получаем, что при выполнении гипотезы Нс МНК-оценки параметров ц, а/, 0/
будут совпадать с полученными выше, а минимум функции Qc равен
min Qc = min Q + S2,
где
sc “ n E Yfe = « E У2 • k “ E-
k k
Случайная величина имеет %2-распределение с п— 1 степенями свободы.
Таким образом, при выполнении гипотезы Нс статистика
[s2/(n~l)]/|/?5/(n2-3n + 2)]
3 С. М. Ермаков, А. А. Жиглявский
65
имеет F-распределение Фишера с п — 1 и п2 — Зп + 2 степенями свободы и
может использоваться в качестве тестовой при проверке этой гипотезы.
Аналогично проверяются гипотезы На и Нь.
2.3. Ортогональные латинские квадраты. Два латинских ква-
драта порядка называются ортогональными, если при на-
држении одного на другой каждая из /?2 пар символов (i, /)
(Z, j= 1, .п) встречается только один раз.
Рассмотрим, например, следующие два латинских квадрата,
составленных из латинских и греческих букв:
А В С D Е а ₽ Y д 8
С D Е А В два Р V
Е А В С D Руд 8 а
В С D Е А в а р Y д
D Е А В С уде а Р
После наложения этих квадратов получаем квадрат
Аа вр Су £>д Ег
Сд D& Еа АР By
£0 Ау В6 Сг Da
Вг Са Еу Ад
Dy Е6 Аг Ва Ср
в котором каждая буква латинского алфавита встречается с
каждой буквой греческого лишь один раз.
По аналогии с рассмотренным примером квадраты, получае-
мые после наложения латинских квадратов, называют греко-
латинскими.
Греко-латинские квадраты могут быть использованы анало-
гично латинским для проверки гипотез об отсутствии влияния
факторов на результаты измерений в четырехфакторном диспер-
сионном анализе (конечно, для случая, когда взаимодействия
факторов отсутствуют). При использовании таких квадратов
достаточно проводить п? измерений вместо п4, необходимых при
проведении стандартного четырехфакторного дисперсионного
анализа.
Существование ортогональных латинских квадратов и их по-
строение при данном значении п является вопросом далеко не
простым. Так, в 1782 г. Леонард Эйлер предположил, что для
всех п = 4& + 2 (й = 1, 2, ...) ортогональных латинских ква-
дратов не существует. Предположение Эйлера было опроверг-
нуто только в 1959 г. Оказалось, что ортогональные латинские
квадраты существуют для всех п, кроме п = 2 и п = 6.
Если имеется k попарно ортогональных латинских квадрата
(легко показать, что k^n—1), то по ним аналогично преды-
дущему можно проводить (k + 2) -факторный дисперсионный
анализ. План эксперимента, построенный по такой системе ла-
тинских квадратов, по сравнению с полным многофакторным
дисперсионным анализом гораздо более экономичен как с точки
зрения количества необходимых измерений, так и с точки зрения
вычислений.
2.4. Пример построения полной системы латинских квадратов.
Полной системой латинских, п X п-квадратов называется набор
из k = п — 1 попарно ортогональных латинских п X п-квадратов.
Между существованием полной системы латинских- квадра-
тов и так называемыми полями Галуа существует глубокая
связь. Мы рассмотрим эту связь лишь в .простейшем случае,
когда п = р — простое число.
Пусть р = 5. Построим поле вычетов по модулю 5, которое
является полем Галуа (о полях Галуа можно подробно прочи-
тать в [43]).
Говорят, что два целых числа I и m сравнимы по модулю 5,
если I — m = 5r, где г — какое-либо целое число. Это записы-
вается в виде
/ = m(mod5).
Приведенная операция сравнения определяет поле, состоящее
из пяти элементов: 0, 1, 2, 3, 4. Составим таблицы сложения и
умножения в этом поле:
Сложение Умножение
0 1 2 3 4 1 2 3 4
1 2 3 4 0 2 4 1 3
2 3 4 0 1 3 14 2
3 4 0 1 2 4 3 2 1
4 0 12 3
Рассмотрим латинский квадрат, образованный таблицей сло-
жения, и построим еще три латинских квадрата. Для того чтобы
построить /-й латинский квадрат (/ = 2, 3, 4), строку первого
квадрата, начинающуюся с числа tn (m = 0, 1, 2, 3, 4), заменяем
строкой, полученной из первой сложением ее элементов с чис-
лом mXZ (имеется в виду сложение и умножение в рассматри-
ваемом поле). Таким образом, получаем еще три латинских
квадрата: 1 X m 2-й квадрат
2X0 = 0 0 1 2 3 4
2X1=2 2 3 4 0 1
2X2 = 4 4 0 1 2 3
2X3= 1 1 2 3 4 0
2X4 = 3 3 4 0 1 2
3-й квадрат
3X0 = 0 0 1 2 3 4
3X1=3 3 4 0 1 2
3X2=1 1 2 3 4 0
3X3 = 4 4 0 1 2 3
3X4 = 2 2 3 4 0 1
4-й квадрат
4X0 = 0 0 1 2 3 4
4X1=4 4 0 1 2 3
4X2 = 3 3 4 0 1 2
4X3 = 2 2 3 4 0 1
4X4=1 1 2 3 4 0
3* 67
SiHuiwiiw
Сначала проверим, что полученные квадраты действительно
являются латинскими. Предположим, что в i-й строке квадрата,
полученного с помощью множителя I (1 — 0, 2, 3, 4), имеется
два одинаковых элемента: один в /гм столбце, другой в /2-м.
В соответствии с правилом образования элементов имеем
xl, + lxi = xi, ^xi (mod 5)’
т. е. — х/2 = 5г, где г — целое, а хд и хА меньше -б. Следо-
вательно, /1 = /г. Аналогично, если два одинаковых элемента
имеются в /-м столбце и в /j-й и *2-й строках, то
Ху + lxti = Ху 4- lxti (mod 5),
т. е. I (xfi — х<2) = 5г. Вследствие того что число 5 простое и
I < 5, получаем
Ху яв х1г (mod 5),
и, следовательно, ix — i2 (так как xf| < 5, х1г< 5).
Покажем теперь, что любые два квадрата, соответствующие
множителям /1 и /2 (h > /2)> ортогональны. Для этого нужно
показать, что любая пара элементов при наложении квадратов
встречается только один раз. Предположим, что одинаковые
пары встретились в клетках (i’i, /1) и (i2, /2). Тогда
xh + lixi,e xi, + lixi, (mod 5).
xi, + l2xi,^xi, + l2xi, (mod 5),
откуда
х/, + /Л1“х/!-/Л2 = 5гр
Х/, + Z2XZ, ~ ХЛ “ Z2Xi, = 5Г2*
(Zi ~ Zs) (х«!— xh)= 5 (r!— rz)‘
Поскольку число 5 простое и — /2 < 5, то хц — делится
на 5, и, следовательно, = Z2, так как хц < 5, х^ < 5. Анало-
гично получаем /1 = /2. Таким образом, обе одинаковые пары
могут находиться только в одной клетке. Это означает, что
квадраты ортогональны.
Точно таким же образом строятся полные системы латин-
ских квадратов’для случая, когда число п = р отлично от 5, но
является простым. •
2.5. Латинские прямоугольники. Использование латинских
планов часто бывает неудобным, так как три исследуемых фак-
тора должны иметь одинаковое число уровней. Избежать этого
позволяют латинские прямоугольники, которые можно опреде-
лить как подмножество строк (столбцов) латинского квадрата.
Однако не любые указанные подмножества обладают свой-
ствами, делающими удобным соответствующий дисперсионный
68
г. р, v Л7..Т(|Г.ГГ<Г-Л[1, ц Ш| пп, ।№wu>,wwwnui»i iiwf iii—hiii
анализ. Хорошими (см. § 3) считаются так называемые пХ^-
квадраты Юдена (k<n), т. е. такие латинские пХ^-прямо-
угольники, в которых каждая пара символов появляется вместе
в Л = £(£—1)/(п—1) столбцах. Например, 7X4-квадратом
Юдена является
' Е D О В С A F
D С F А В G Е
A G С Е F D В
F Е А С D В G
2.6. Латинские кубы. Кроме латинских прямоугольников на
практике широко используется еще одно обобщение латинских
квадратов — латинские кубы.
Латинский п\п\п-куб первого порядка — это такое куби-
ческое размещение п символов, что каждый символ повторяется
п2 раз во всей кубической таблице и ровно’ п раз в каждой из
плоскостей, параллельных трем координатным плоскостям (ука-
занные плоскости будем называть слоями). Обычно используют
регулярные латинские кубы, т. е. такие, у которых все слои яв-
ляются латинскими квадратами. Например, регулярным латин-
ским 4Х4X4-кубом первого порядка является куб со слоями:
12 3 4
А В С D В A D С С D А В D С В А
В A D С А В С D D С В А С D А В
С D А В D С В А А В С D В A D С
D С В А С D А В В A D С А В С D
Латинский n X и X л-куб второго порядка — такое кубическое
размещение п2 элементов, каждый из которых повторяется п
раз в кубической таблице и только один раз в каждом слое.
Например, латинским пХ^Хи-кубом второго порядка явля-
ется куб со слоями:
1-й слой
0 4 8
1 5 6
2 3 7
2-й слой
3 7 2
4 8 0
5 6 1
З-й слой
6 1 5
7 2 3
8 0 4
Латинские nX^X^-кубы первого порядка могут использо-
ваться аналогично латинским квадратам для проведения четы-
рехфакторного дисперсионного анализа в случае, когда все че-
тыре фактора имеют одинаковое число п уровней, а кубы вто-
рого порядка — в случае, если три фактора имеют п уровней, а
четвертый имеет п2 уровней.
Во всех планах, построенных на основе латинских кубов,
фигурируют п и п2 уровней, а число измерений равно п3.
Аналогично греко-латинским квадратам могут быть построе-
ны греко-латинские кубы, обладающие похожими свойствами.
Разумеется, по аналогии с латинскими кубами можно опре-
делить и латинские гиперкубы.
69
Упражнения.
1. Аналогично рис. 3 изобразите латинский план, соответствующий ла-
тинскому квадрату
1 О
2. Аналогично рис. 4 изобразите латинский план, соответствующий ла-
тинскому квадрату
-1 1 О
1 0 -1
О -1 1
3. Постройке греко-латинские квадраты третьего и четвертого порядка.
4. Постройте три попарно ортогональных латинских квадрата седьмого
порядка.
5. Укажите, какой из приведенных ниже прямоугольников является квад-
ратом Юдена, а какой не является:
12345 12345
34512 23451
51234 34512
2 3 4 5 1
6. Является ли латинским кубом куб, все четыре слоя которого представ-
ляют собой одинаковые квадраты
12 3 4
2 14 3
3 4 12
4 3 2 1
7. Приведите примеры латинских 2 X 2 X 2-кубов первого и второго по-
рядка.
§ 3. Неполноблочные планы
3.1. Основные понятия. В § 1, 2 рассматривались три типа
факторных планов: полные факторные планы, дробные реплики
от них и планы, основанные на комбинаторных конфигурациях
типа латинских квадратов. Более общими способами построения
факторных планов являются способы, основанные на построении
так называемых блок-схем.
Двумерные блок-схемы определяются следующим образом.
Пусть заданы два конечных множества
Л = {й1....а„}, В = {В1...Вь}.
Говорят, что эти множества порождают инцидентную структуру,
если между их элементами установлено отношение инци-
дентности (принадлежности) at е В,. Двумерной блок-схемой
называется инцидентная структура, порождаемая множествами
Л, В\ при этом ai (/=1, v) принято называть элементами,
образцами или способами обработки, а В/ (/ = 1, ..., &)—
блоками.
Понятие двумерной блок-схемы может быть обобщено на
многомерный случай. При этом в определении возрастает число
70
множеств и отношений инцидентности. Трехмерной блок-схемой
является, например, латинский квадрат размера v X а, в ко-
тором рассматриваются отношения инцидентности множества
элементов Д={аь av} к столбцам В/ (множество В) и
строкам (множество С). Греко-латинский квадрат является
примером четырехмерной ..блок-схемы, в которой дополнительно
к указанным двум отношениям инцидентности добавляется еще
одно — отношение множества латинских букв к множеству гре-
ческих. Четырехмерную блок-схему индуцирует и латин-
ский куб.
Ниже будут рассматриваться только двумерные блок-схемы,
причем слово «двумерный» будет опускаться.
Параметрами произвольной блок-схемы являются: v — число
элементов; b — число блоков; kj (/ = 1, ...» Ь)— число элемен-
тов в блоке В/; п (i=l, ..., v) — число блоков, содержащих
элемента.; /2=1, .vj — число блоков, содержащих
пару элементов {aZ|,
Задание блок-схемы эквивалентно заданию блочного плана
двухфакторного эксперимента, в котором элементы а, соответ-
ствуют уровням первого фактора, а блоки В/ — уровням второго.
Следовательно, каждое утверждение о блок-схеме можно истол-
ковывать как утверждение о блочном плане двухфакторного
эксперимента.
Блок-схема называется правильной, если все блоки имеют
один и тот же размер k, т. е. kj = k (/ = 1, ..., b).
Правильная блок-схема называется полной, если k = v, и
неполной, если k < v. Основной интерес представляют непол-
ные блок-схемы, поскольку полные соответствуют полному фак-
торному эксперименту. Выбор неполной блок-схемы может быть
связан как с соображениями экономии числа измерений, так
и с невозможностью выбора k = v\ например, при сравнении
v (о > 4) марок различных автомобильных шин естественный
блок состоит из четырех колес автомобиля.
Блок-схема называется равноповторной, если п = г (1 =
= 1, ..., у). Правильная равноповторная блок-схема называ-
ется симметричной, если v — b. Правильная равноповторная
схема называется сбалансированной, если любая пара элемен-
тов принадлежит одному и тому же числу Л блоков, т. е. если
выполнено условие
=== М ^*2 — 1 > 2, . .., V. (3.1)
Правильная равноповторная схема называется частично сбалан-
сированной при выполнении некоторого ослабления (3.1).
Существуют разные способы задания блочного плана и со-
ответствующей ему блок-схемы. Приведем наиболее известные.
Способ 1—задание в виде набора блоков В = {Вь ..., Вь}.
Способ 2 — задание в виде таблицы с b столбцами, где столбец
соответствует блоку. Если блок-схема является правильной, то
71
получающаяся таблица будет прямоугольной (имеет k строк
и b столбцов). Этот способ наиболее экономный. Способ 3 —
задание в виде матрицы инциденций # = ||п«/|| (<=1, ..., V,
/ = 1....Ь), где
( 1, если at е В/,
(О, если at ф В].
Способ 4 — задание в виде таблицы факторного эксперимента,
по сути аналогичный предыдущему. Способ 5 — задание в виде
матрицы плана F вида (1.2) из гл. 1. Этот способ задания блоч-
ного плана требует предварительного задания вида модели, в
которой план используется.
Стандартной моделью, в которой применяются блочные пла-
ны, является модель линейного регрессионного анализа, соглас-
но которой результат измерения i-ro элемента (1—1.........v)
в /-м блоке (/ = 1.....Ь) представляет собой случайную ве-
личину
У1/ = 1* + «/ + ₽/ + (3.2)
где ц, а,, Р/ — неизвестные параметры; гц— случайные ошибки,
предполагающиеся некоррелированными и имеющими нулевое
среднее и дисперсию о2. Параметр ц. в (3.2) называется общим
средним, a,t — эффектом i-го элемента (образца), р, — эффектом
j-го блока (столбца). Число измерений случайной величины уц
равно
Ь о
= = Е п-
/=1 i=l
Параметры модели (3.2) не являются независимыми, они удов-
летворяют соотношениям
,?,“'=£л=о-
Схему измерений (3.2) можно записать в виде классической
линейной регрессионной модели (У, F6, а21ы),
6 = (Ц, <4, .... а0, Р|..р6)г
есть вектор неизвестных параметров, а матрица F имеет N
строк, в каждой из которых v + b — 2 нулей и три единицы,
причем единицами являются первая, (£ + 1)-я и (v + 1 + /)-я
компоненты, где i и / — соответственно номера элемента и бло-
ка, для которых проводилось измерение (3.2).
Некоторые блочные планы могут быть заданы также в виде
набора реплик, где каждая реплика состоит из нескольких бло-
ков и содержит одинаковое число раз все элементы a; (i =
= 1, ..., о). Задание блочных планов в виде реплик встре-
чается, когда проводимые измерения неоднородны во времени.
В этих случаях общее время, отведенное на эксперимент, де-
лится на несколько равных промежутков, в каждом из которых
72
элементы измеряются одинаковое число раз. Тем самым эле-
менты равномерно распределяются во времени.
Пример 3.1. Блочный план с параметрами о = Ь = 4,
k = г = 3, X = 2 можно представить следующими спосо-
бами.
Способ 1 (набор блоков):
^ = {1, 2, 3), В2 = {2, 3, 4}, В3 = {3, 4, 1}, В4 = {4, 1, 2).
Способ 2 (прямоугольная таблица, в которой столбцы со-
ответствуют блокам):
12 3 4
2 3 4 1
3 4 12
Способ 3 . (матрица инциденций):
0 11-
1 0 1
110*
1 1 IJ
Способ 4 (таблица факторного эксперимента):
Способ 5 (матрица плана F для модели (3.2)). Пусть из-
мерения (3.2) проводятся в том порядке, в каком они выписаны
в способе 1. Тогда матрица плана F модели (У, FQ, аЧм) имеет
вид
"110001000"
1 0 1 0 0 1 0 0 0
1 0 0 1 0 1 0 0 0
1 0 1 0 0 0 10 0
1 0 0 1 0 0 1 0 0
р= 100010100
Г 1 0 0 1 0 0 0 1 0
1 0 0 0 1 0 0 1 0
1 1 0 0 0 0 0 1 0
1 0 0 0 1 0 0 0 1
1 1 0 0 0 0 0 0 1
_1 О 1 О О О О О 1_
Еще один способ представле]
на рис. 5.
Пример 3.2. Блочный плг
k = 3, г = 4, к = 1 представим
н с параметрами о = 9, 6=12,
следующими способами.
73
Способ 1 (блоки):
S, = {1, 2, 3), В2 = {4, 5, 6), В3 = {7, 8, 9),
В4 = {1,4, 7}, В5 = {2, 5,8), В6 = {3, 6, 9),
В7 = {1,5, 9}, В8 = {2, 6, 7), В9 = {3, 4, 8},
В,о = {1, 6, 8), Вн = {2, 4, 9}, В12 = {3, 5, 7}.
Способ 2 (таблица):
147123123123
258456564645
369789978897
Способ 3 (матрица инциденций):
" 1 0 0 1 0 0 1 0 0 1 0 0"
1 0 0 0 1 0 0 1 0 0 1 0
1 0 0 0 0 1 0 0 1 0 0 1
0 1 0 1 0 0 0 0 1 0 1 0
N — 0 1 0 0 1 0 1 0 0 0 0 1
0 1 0 0 0 1 0 1 0 1 0 0
0 0 1 1 0 0 0 1 0 0 0 1
0 0 1 0 1 0 0 0 1 1 0 0
_0 0 1 0 0 1 1 0 0 0 1 0_
Способ 4 (таблица факторного эксперимента):
плана (ее порядок — 36X22). Рассматриваемый план предста-
вим на рис. бив виде набора реплик:
Реплика I
Bi = {1, 2, 3)
В2 = {4, 5, 6}
В3 = {7, 8, 9}
Реплика II
В4 = {1, 4, 7)
В5 = {2, 5, 8}
В6 = {3, 6, 9}
Реплика III
В7 = {1, 5, 9}
В8={2, 6, 7}
В9 = {3, 4, 8}
Реплика IV
В10 = {1, 6, 8}
В„ = {2, 4, 9}
В12 = {3, 5, 7}
Блочный план, соответствующий неполной сбалансированной
блок-схеме, называется BIB-планом (от английского термина
balanced incomplete block design).
Блочный план, соответствующий неполной частично сбалан-
сированной блок-схеме, называется PBIB-планом (от partially
balanced incomplete block design).
Планы, приведенные в примерах 3.1 и 3.2, являются В1В-пла-
нами, а план из примера 3.1 еще и симметричен (т. е. ему соот-
ветствует симметричная блок-схема).
BIB-планы часто применяются в практическом эксперименте,
поскольку обладают рядом свойств оптимальности, простотой
проведения дисперсионного ана-
лиза и тем, что при оценивании
по МНК эффектов элементов
ои, ..., а0 дисперсии всех оценок
и все ковариации этих оценок
равны между собой. Как пока-
зано в п. 3.2, BIB-планы могут
быть построены далеко не при
любых значениях параметров у,
ft, k, г, Л. В случаях, когда та-
кое построение невозможно, ис-
пользуются другие планы, напри-
мер PBIB-планы, для которых
процедура дисперсионного анали-
за также не слишком сложна, а
дисперсии МНК-оценок эффектов
элементов тоже равны.
Мы не будем останавливать-
ся на статистических процедурах, 0 1 3 б 7 9 а
связанных с указанными плана-
ми, а в п. 3.3 опишем простой, Рис. 6
но типичный способ построения
В IB-планов (существует несколько десятков методов построе-
ния В IB-планов и еще большее число методов построения
РВ1В-планов).
3.2. Некоторые свойства параметров неполных сбалансиро-
ванных блок-схем. Сбалансированная неполная блок-схема
(BIB-схема) характеризуется пятью параметрами —числом эле-
ментов v, числом блоков &, числом повторений каждого эле-
мента в схеме г, размером блоков k и числом К повторений
каждой пары элементов в блоках.
Выведем некоторые соотношения, которым должны удовле-
творять параметры v, b, г, k, Л произвольной В1В-схемы.
Во-первых, поскольку блок-схема является неполной, то
k < v. (3.3)
Во-вторых,
bk = vr, (3.4)
поскольку общее число N инциденций в блок-схеме, соответ-
ствующее общему числу измерений в факторном эксперименте,
может быть представлено двумя способами: с одной стороны,
75
N = bk (каждый из b блоков содержит по k элементов) и, с дру-
гой стороны, N = vr (каждый из v элементов принадлежит
ровно г блокам).
Сосчитаем теперь двумя способами число пар элементов, в
которые входит фиксированный элемент В каждом блоке,
в котором содержится аь содержится еще k—1 элементов, и,
следовательно, этот элемент входит в г(k—1) пар. С другой
стороны, элемент а\ входит в пары со всеми остальными v—1
элементами, причем каждая пара встречается Л раз; следова-
тельно, элемент а\ встречается в X(v—1) парах. Доказано, та-
ким образом, что
r(k- 1) = Л(у- 1). (3.5)
Далее, если N =||ш/|| (f = 1, ..., v; j = 1, :.., b)— матрица
инциденций BIB-схемы, то
NNT = " г К . . . Л ~ % г . . . % (3.6)
_ % X . . . г
где Л —единичная X ^-матрица, а Л является у Х^-матри-
цей, состоящей из единиц. Соотношение (3.6) эквивалентно тре-
бованию о том, что каждый элемент встречается в схеме г раз,
а каждая пара элементов — Л раз.
Лемма 3.1. Определитель матрицы (3.6) равен
detNNT = (r-k)v-1(vX-K + r). (3.7)
Доказательство. Вычтем первый столбец матрицы
(3.6) из всех остальных, а затем прибавим вторую, третью, ...
..., у-ю строки к первой. Тогда все элементы, расположенные
выше главной диагонали получившейся матрицы, равны нулю;
на главной диагонали первый элемент есть r-j-(y—1)Х, а
остальные равны г — Л. Отсюда и следует (3.7). Лемма до-
казана.
Если г —X, то блок-схема является полной, поскольку при
г —Л каждый элемент ai может появляться в блоке только
вместе с каждым другим элементом а/ и, следовательно, каж-
дый блок содержит все v элементов. Из (3.7) теперь следует,
что для BIB-схемы
rangAWr = tL (3.8)
С другой стороны, ранг оХ^-матрицы W не превосходит Ь.
Поскольку ранг произведения матриц не превосходит ранга
сомножителя (см. теорему 1.13 из приложения 1), то
rang NNT rang N b.
76
Отсюда и из (3.8) получаем неравенство
(3.9)
которое называется неравенством Фишера. Следствием (3.4) и
(3.9) является неравенство
k С г. (3.10)
Выведем еще одно ограничение, которому должны удовле-
творять параметры В1В-схем.
Теорема 3.1. Если числа v и b равны и являются четными,
то k — X есть точный квадрат.
Доказательство. Так как b = v, то N — квадратная
матрица, и из формулы (3.7) получаем
(dety)2 = (fe-X)°-'(fX-X + ^). (3.11)
Равенство (3.5) с учетом соотношения k = г, которое следует
из (3.4) и b = v, переписывается в виде
k(k- 1) = %(и- 1).
Отсюда
— К + k = fe2,
т. е. второй множитель в правой части (3.11) является точным
квадратом. Левая часть (3.11) — точный квадрат в силу того,
что матрица N состоит из целых чисел и det N — целое число.
Следовательно, первый множитель в правой части (3.11), т. е.
(k — Z)^1, также является точным квадратом. Утверждение
теоремы вытекает из четности v. Теорема доказана.
<Из доказанной теоремы следует, в частности, что В1В-схемы
существуют не для всех значений параметров v, 6, г, k, %, удов-
летворяющих равенствам (3.4), (3.5) и неравенствам (3.3),
(3.9), (3.10).Так,указанным соотношениям удовлетворяют числа
v = Ъ = 22, г — k = 7, X — 2. Но так как а четно, a k — % = 5
не является точным квадратом, BIB-схемы с указанными значе-
ниями параметров не существует.
3.3. Построение неполных сбалансированных схем с помощью
проективных геометрий над полями Галуа. В данном пункте
рассматривается один из относительно простых способов построе-
ния неполных сбалансированных схем (BIB-схем), определяе-
мых параметрами о, ft, k, г, %.
Для построения BIB-схем используем конструкцию, основан-
ную на связи этих схем с проективными геометриями над по-
лями Галуа. Будем рассматривать лишь простейший случай,
когда поле Галуа содержит р чисел (р — простое число). В этом
случае, как указано в п. 2.4, полем Галуа является поле выче-
тов по модулю р, элементами этого поля являются числа 0, 1, ...
..., р—1, а под сложением и умножением понимается сложе-
ние и умножение по модулю р. Указанное поле Галуа обозна-
чим через GF(p), а определяемую ниже /n-мерную проектив-
ную геометрию над этим полем Галуа — через PG(m, р).
77
В пространстве PG(m, р) точкой является совокупность
т+1 координат g\, gm+i, принадлежащих полю Галуа
GF(p) и не равных одновременно нулю. Две точки g = (gi, ...
..., gm+i)T ng' — (g{, .... g^+1)r считаются совпадающими, если
найдется такое К е GF(p), Л ф 0, что для всех i = 1, ..., in + 1
выполнено равенство gt = Xg- (т. е. координаты точек пропор-
циональны). Точка, все координаты которой равны нулю, не
входит в пространство PG(m, р).
Прямой в пространстве PG(m, р) является множество точек
g вида
g = MI> + W2)>
где gw и g™ — различные точки из PG(m, р), А,ь Л2е GF(p).
Прямая, следовательно, образована множеством точек с коор-
динатами
\г'," + М».....\Й>+, + «+„
где g{P (i = 1, ..m+ 1; /=1, 2) — координаты точки g^.
По аналогии с прямой (/-мерная плоскость определяется как
множество точек g вида
г = ^я(1) + М(2)+ +4+^(<z+l,>
где Ki^GF(p) (i — 1, ...,(/ + 1), , g(*+1) — линейно
независимые точки из PG{m, р).
Установим несколько простых свойств проективных геомет-
рий над полями Галуа.
Из соображений симметрии получаем, что в PG(m, р) через
каждую точку проходит одинаковое число v (/-мерных плоско-
стей (точки мы будем ассоциировать с элементами блок-схемы,
а (/-мерные плоскости — с блоками). Из соображений симме-
трии получаем также, что все (/-мерные плоскости содержат
одинаковое число точек k (т. е. каждый элемент встречается в
блоках одинаковое число k раз). Наконец, из тех же соображе-
ний через каждую прямую в PG(m, р) проходит одинаковое
число Л (/-мерных плоскостей (это соответствует тому, что лю-
бая пара элементов встречается в блоках одинаковое число
Л, раз). Найдем выражения для параметров, получающихся в
сформулированной схеме.
Подсчитаем число точек пространства PG(m, р). Каждая
координата может принимать р различных значений, а каждая
точка имеет m-f- 1 координат. Исключая точку со всеми нуле-
выми координатами, имеем — 1 точек. Теперь учтем то, что
некоторые из этих рт+х— 1 точек совпадают — точка с координа-
тами Kgi идентична точке с координатами gt. Поскольку Л s
^GF(p) и Л#=0, то можно взять р—1 различных значений X,
откуда следует, что одна точка представляется р — 1 различ-
78
ними формулами. Поэтому число различных точек простран-
ства PG(m, р) равно
v = v(tn, p) = A__L==i+p+ ... +р-». (3.12)
Для того чтобы подсчитать, сколько точек принадлежит
«/-мерной плоскости в PG (т, р) (в частности, при q = 1 — пря-
мой), докажем следующее вспомогательное утверждение.
Лемма 3.2. q-мерная плоскость (q < т) проективной гео-
метрии PG(m, р) является проективной геометрией PG(q, р).
Доказательство. Согласно определению, «/-мерная пло-
скость определяется с помощью «/ + 1 линейно независимых то-
чек из PG (т, р), т. е. таких точек g(,\ .... g(q+1\ что если
••• +^+1g<’+1)=o
и Ль ..., е GF(p), то Xi=A,2= ••• =Х9+1 = 0. При этом
«/-мерная плоскость состоит из точек вида
^'*4- ••• +р9+1^+1\ (3.13)
где pi, ..., ji9+i е GF(p) и не все р« равны нулю одновременно.
Будем считать координатами точек вида (3.13) величины pi, ...
..., р?+1;при этом две точки с координатами p = (pt.l*?+i)r
и р' = (рр р'+1)г должны совпадать тогда и только
тогда, когда существует такое veGF(p), v=/=0, что pf = vp^
для всех i = l, ..., q -f-1.
Из свойств PG(p, tn) сразу получаем, что если это соотно-
шение выполняется, то точки с координатами g и / совпадают.
С другой стороны, если точки с координатами р и р' совпадают,
то при любом i=l, ..., m-f-1 для всех «/4*1 координат этих
точек в исходном пространстве PG(p, tri) выполнено равенство
+ Н2^2) + ... +Pfl+1g)’+1) =
= v(H^i1) + u^2)+ ••• + н'+1^+1))-
Отсюда следует, что у точки
О*! — VP{) £(1) + (Р2 — Vp') g<2> + ... 4-(р?+1 —Vp'+1)g(?+1>
все координаты нулевые. Используя линейную независимость
точек gw, ..., g(<?+1), имеем
»*i-*h;==i*2-vja;= ... =nfl+1-vp'9+1=o.
Это эквивалентно требуемому соотношению p = vp'. Лемма до-
казана.
В качестве следствия доказанной леммы и формулы (3.12)
получаем выражение для числа точек ^-мерной плоскости:
k = k(p, q)=l+p + p^+ ... +/. (3.14)
Теперь рассмотрим способ построения //-мерных плоскостей
и определим, сколько существует таких плоскостей.
79
Сначала произвольным образом выберем первую точку g(,).
В силу (3.12) количество способов такого выбора равно 1 +
+ р + ... + рт. Вторая точка gm должна быть отлична от
первой и поэтому может быть выбрана р + р2 + • • • + Рт спо-
собами. Третья точка g(3) должна быть линейно независимой от
первых двух, т. е. отличной от точек прямой
которая содержит в силу (3.14) 1+р точек. Следовательно,
число способов выбора точки g<3) равно
р2 + р® + ... +рт.
Аналогично /-ю точку £(/) (/<</ + 1) можно выбирать из
(1 + р+ • • • + Рт) — (1 +р+ • • • + Pl~3) = p'~l + Р1 + • • • +рт
точек пространства PG(m, р), которые не принадлежат (/ — 2)-
мерной плоскости, проходящей через точки g(1), ..., Та-
ким образом, получаем
(1 + р + ... + рт) (р + • •. + д'") ... (р’+...+р'п) (3.15)
«/-мерных плоскостей, определяемых по формуле (3.13).Эти пло-
скости, однако, не все различны, поскольку одна и та же пло-
скость может быть получена разными способами.
Действительно, каждая «/-мерная плоскость содержит
1 + р + ... + рч
точек, а определяется эта плоскость через q + 1 точек, выбран-
ных из них. Следовательно, эту плоскость мы получим столько
раз, сколько можно найти наборов </+ 1 линейно независимых
точек в ^-мерной плоскости (порядок точек в наборах не имеет
значения). В силу леммы 3.2 количество таких наборов опре-
деляется по формуле (3.15) с заменой пг на q-, поэтому общее
число различных ^-мерных плоскостей в PG(m, р) равно
b — b(m, q, р) =
(1+р+...+ рт)(р+...+РП») ... (Р?+...+Рт) . fi.
— (1 + р+ ... + р«) (р + ... + р«) ... р« ’
Итак, поставив в соответствие точкам проективной геоме-
трии PG(m, р) элементы двумерной блок-схемы, а ^-мерным
плоскостям этой геометрии — блоки этой схемы, мы показали,
что схема будет сбалансированной, и нашли выражения для
трех ее характеристик — v, k, Ъ (формулы (3.12), (3.14), (3.16)).
Две другие характеристики — г и % — находятся по формулам
(3.4), (3.5).
Пример 3.3. Построение BIB-схемы с помощью двумер-
ных плоскостей проективной геометрии РО(3, 2). В приведенных
80
обозначениях т = 3, р = 2, q — 2. По формулам (3.12), (3.14),
(3.16), (3.4), (3.5) находим все характеристики BIB-схемы:
о= 1 + 24-22 + 23= 15,
Л=1+2 + 22 = 7,
6 = 6(3, 2, 2)= 15,
г = 7-15/15 = 7,
Х = 7-6/14 = 3.
Точки пространства PG(3, 2), соответствующие элементам
блок-схемы, будем обозначать числами. Эти точки определяются
своими четырьмя координатами, соответствующими двоичному
разложению чисел:
8 = (1, О, О, Of,
4 = (0, 1, 0, Of,
2 = (0, 0, 1, Of,
1 = (О, 0, 0, If,
12 = (1, 1, 0, 0)г,
0 = (1, 0, 1, Of,
9 = (1, О, О, If,
6 = (0, 1, 1, Of,
5 = (0, 1, О, If,
3 = (0, 0, 1, If,
14 —(1, 1, 1, Of,
13 = (1, 1, 0, If,
II = (1, 0, 1, 1)г,
7 = (0, 1, 1, If,
15 —(1, 1, 1, If.
Построим теперь по указанной выше схеме двумерные пло-
скости (соответствующие блокам BIB-схемы), проводя эти пло-
скости через две точки, выбираемые каждый раз минимально
возможными (при интерпретации их как чисел), и отыскивая
остальные точки плоскостей; при этом помним, что каждое число
должно встречаться семь раз, а пары чисел — по три раза.
Общее количество плоскостей (т. е. блоков) равно 15, каждой
плоскости соответствует в приведенной ниже таблице столбец:
1 1 1 1 1 1 1 2 2 2 2 3 3 3 3
2 2 2 4 4 6 6 4 4 5 5 4 4 5 5
3 3 3 5 5 7 7 6 6 7 7 7 7 6 6
4 8 12 8 10 8 10 8 9 8 9 8 9 8 9
5 9 13 9 11 9 И 10 11 10 И 11 10 11 10
6 10 14 12 14 14 12 12 13 13 12 12 13 13 12
7 11 15 13 15 15 13 14 15 15 14 15 14 14 15
Этой таблицей и задается искомая В1В-схема.
Упражнения.
1. Укажите, какие из приведенных блок-схем являются сбалансирован-
ными и какие частично сбалансированными:
а) 0123456 б) 11114322
1234560 24325435
3456012 55436666
в) I 4 7 1 2 3 1 2 3
2 58456564
369789978
81
2. Выпишите матрицы инциденций для блок-схем из предыдущего упраж-
нения
3. Постройте сбалансированные блок-схемы с параметрами v — 4, k = 2,
г = 3, b = 6, X = 1 и v — 5, k = 2, г = 4, b — 10, X = 1.
4. Покажите, что система нормальных уравнений при оценивании пара-
метров а= («1, .otv)r схемы регрессии (3.2) в случае использования
BIB-плана с матрицей инциденций /V имеет вид Са = Q, где
C = rlv-k-'NNT, Q — YA—k~lNYB,
Ya есть ц-вектор, компонентами которого являются суммы результатов изме-
рений уц элементов at (i = 1, ..., v), YB есть 6-вектор, компонентами кото-
рого являются суммы результатов измерений по блокам.
5. Постройте BIB-план с помощью прямых проективной геометрии
PG(3, 2).
6. Чему равно число двумерных плоскостей проективной геометрии
PG(7, 3)?
7. Докажите, что всевозможные комбинации из v элементов по k обра-
зуют блоки BIB-схемы с параметрами v, k, Ь = r = X-C^zl (y
Глава 3
КЛАССИЧЕСКАЯ ТЕОРИЯ ПЛАНИРОВАНИЯ
ЭКСПЕРИМЕНТА ПО ОЦЕНИВАНИЮ ПАРАМЕТРОВ
ЛИНЕЙНЫХ РЕГРЕССИОННЫХ МОДЕЛЕЙ
В данной главе изложена классическая теория планирования
эксперимента по оцениванию параметров линейных регрессион-
ных моделей, называемая также теорией планирования регрес-
сионного эксперимента. Начала этой теории были заложены в
работах видного американского математика Дж. Кифера, ко-
торый, в частности, ввел в рассмотрение понятие непрерывного
плана эксперимента.
В § 1 вводятся фундаментальные понятия. В § 2 рассматри-
ваются теоремы эквивалентности. В § 3 на ряде примеров по-
казано, что с помощью теорем эквивалентности удается изучить
свойства оптимальных планов, а в ряде случаев и аналитически
построить их> Теоремы эквивалентности являются также осно-
вой описанных в § 4 алгоритмов приближенного построения
оптимальных планов, суть которых состоит в редукции размер-
ности экстремальной задачи (исходная задача оптимизации вы-
сокой размерности сводится к последовательности задач опти-
мизации меньшей размерности).
§ 1. Основные понятия и вспомогательные результаты
1.1. План эксперимента. Пусть X— некоторое компактное
подмножество конечномерного евклидова пространства *) Rfe.
Это подмножество будем называть множеством планирования.
Точки множества X иногда называют условиями проведения
измерений. В данной главе будет рассматриваться схема про-
ведения измерений, согласно которой результат измерения у(х})
в точке Xj е X представляется в виде
m
= + (1.1)
i «1
*) На самом деле для справедливости большинства результатов доста-
точно предполагать, что X — ограниченное замкнутое подмножество некото-
рого метрического пространства.
83
где 0i, 0m — неизвестные параметры; fi(x), fm(x)—из-
вестные измеримые функции на X, которые будем называть ба-
зисными функциями (в дальнейшем будем предполагать их
непрерывность); е/ = 8 (х/) — случайные ошибки, удовлетворяю-
щие условиям: а) центрированности (Ее/ = 0), б) некоррелиро-
ванности (Ee.fi/ = 0 при различных измерениях в точках xt,
х/ е X, где i =£ j, но условия проведения измерений xi и х/
могут совпадать), в) равноточности (Ее2 = о2<оо для любой
точки X/ е X).
В схеме измерений (1.1) функцией регрессии является
т
1) (х) = Еу (х) = Z Mi (X) = 07 (X), (1.2)
/==1
где 0 = (0ь ..., 0m)Т — вектор неизвестных параметров, f(x) =
= (fi (х), ..., fm(x))T — вектор базисных функций.
В случае, когда измерения по схеме (1.1) проводятся в точ-
ках xi, ..., х#еХ (некоторые из этих точек могут совпадать),
получаем классическую линейную регрессионную модель
(У, F0, а2Лг), где
Г 1 Г fl (Xt) ... fm(Xi) "I Г fT (х,) Л
У = • • • I F = .......................... = • • I (1.3)
l- Ун J l-f1(xJV) ... fm(Xf/)J Lf (Xtf) J
Обычная запись из § 1 гл. 1 получается, если положить х/, =
= fi(x/) (j = 1....N; 1 = 1, ..., т). Как известно из п. 1.2
гл. 1, другой формой записи модели (У, F0, а2/н) является
y = F0 + e, 8~(0, ст%у). (1.4)
Как было показано в гл. 1, точность оценивания параметров
0 зависит от матрицы F или (в нашем случае) от выбора то-
чек х/. Это дает возможность ставить задачу об оптимальном
выборе точек — планировании эксперимента. Набор этих точек
(возможно, повторяющихся) иногда называют планом экспери-
мента (дискретным, ненормированным).
Для нас удобнее называть планом эксперимента
^===^ЛГ = { 1/ЛГ.1/ЛА } ’ (1’5)
т. е. вероятностную меру, сосредоточенную в этих точках с рав-
ными весами. Планы (1.5) назовем дискретными (точными) пла-
нами. Множество всевозможных дискретных планов вида (1.5)
будем обозначать через
В тех случаях, когда среди точек ..., Хы плана (1.5)
имеются одинаковые, этот план удобно записывать в виде
5 "-6>
84
здесь n^N,
Pi>0, Pt^rJN, t=l.........n, (1.7)
f=l
где n— число повторений z-й точки плана (1.6) в плане (1.5),
соответствующее числу измерений, проводимых в точке X/ плана
(1.6). План вида (1.6) с ограничениями (1.7) также является
дискретным планом.
Одной из распространенных постановок задач планирования
эксперимента по оцениванию параметров регрессии (1.2) яв-
ляется задача построения такого дискретного плана вида (1.5),
что получаемые НЛН-оценки неизвестных параметров по ре-
зультатам измерений (1.1) в точках этого плана были бы опти-
мальны в заданном смысле.
Как мы увидим ниже, критерии оптимальности являются
сложными функциями точек плана. В большинстве случаев по-
лучить точное решение указанной задачи оптимального плани-
рования в множестве Зл очень трудно. Тем не менее, если мно-
жество допустимых планов расширить, удается получить содер-
жательные математические результаты. Если считать число то-
чек п ограниченным, а W сколь угодно большим, то придем к
так называемым непрерывным планам (в литературе можно
также встретить термин «распределение эксперимента»). В анг-
лийской научной литературе термину «непрерывный план» со-
ответствует термин «приближенный план» (approximate design),
более точно отражающий смысл плана.
Непрерывным планом называется план вида (1.6), для кото-
п
рого ограничения (1.7) ослаблены: pi >= О, S Pz=l(/=1, •••
..., и). Таким образом; непрерывным планом является вероят-
ностная мера
п
!>=' (>»)
где Xi (i=l, ...» ri)— произвольные точки множества X. Если
все точки Xf (/=1, ..., п) в (1.8) различны, то говорят, что
план | сосредоточен в п точках.
В отличии от множества дискретных планов множество
всевозможных непрерывных планов вида (1.8) является выпук-
лым, т. е. для любого а <= [0, 1] и любых планов g2 вида
(1.8) выпуклая комбинация этих планов (1—a)|i + a£2 может
быть представлена в виде (1.8) и поэтому также является не-
прерывным планом. Действительно, поясним, что собой пред-
ставляет выпуклая комбинация 5 = (1 — a) + ag2 непрерыв-
ных планов gi и Ь- Пусть точки X/, на которых сосредоточены
и g2, совпадают (если это не так, то несовпадающие точки
85
добавим в планы и припишем им нулевые веса), а сами эти
планы имеют вид
Тогда
I = (1 - аН, + а|2 = {(, _ а) р(1> + ар<2)> ’ (1 _ а) рш + ар<2)},
т. е. g имеет вид (1.8) с pt — (1 — а)р\1) + ар(.2) (i = l, п).
С целью построения последовательной математической тео-
рии обобщим понятие непрерывного плана. Непрерывным пла-
ном (на множестве планирования X) будем называть произволь-
ную вероятностную меру на измеримом пространстве (X, ^),
где & есть о-алгебра борелевских подмножеств множества X.
Это обобщение позволяет привлечь для решения задач опти-
мального планирования удобный математический аппарат ре-
шения экстремальных задач в замкнутых множествах.
Множество всевозможных непрерывных планов на X будем
обозначать через S.
1.2. Информационная и дисперсионная матрицы. Информаци-
онной матрицей (Фишера) для модели (1.4) называется ма-
трица М = FTF. Поскольку для рассматриваемой схемы измере-
ний и плана эксперимента (1.5) матрица F имеет вид (1.3), то
Г fT (*.) 1 Д
M = FrF = (f(x1)....f(x.N)) • • • =yf(xz)f(x,). (1.9)
L fT (xN) J /=i
Если план эксперимента имеет вид (1.6) и удовлетворяет
ограничениям (1.7), то информационная матрица равна
п п
А4 = S rj (xz) (хг) = У X Pif (xz) (х/)> (1.10)
i=1 1 = 1
где (согласно (1.7)) pi — rt/N (i = 1.N).
Информационная матрица (1.10) играет, как следует из ре-
зультатов гл. 1, определяющую роль при построении наилучших
линейных оценок неизвестных параметров 0 модели (1.4).
В частности, если матрица FTF. невырожденная, то НЛН-оценка
0 параметров 9 имеет вид
Q = (FTF)~l FTY, (1Л1)
а дисперсионная матрица этой оценки равна
D0 = a2 (FTF)~l. ‘ (1.12)
При математических построениях, связанных с оптимальным
планированием эксперимента, более удобно работать не с ин-
формационными матрицами вида (1.9) и (1.10), а с нормиро-
ванными информационными матрицами.
86
Нормированной информационной матрицей дискретного пла-
на вида (1.5) называется
N
м^-^Нх^х,). О-13)
/=1
Если план имеет вид (1.6) и удовлетворяет ограничениям
(1.7), то
п п
М (1лг) = У f (xt) fT (Xf) = У Pif (Xi) fT (Xi).
/«1 i = l
По аналогии с этим нормированной информационной матри-
цей непрерывного плана (1.8) называется матрица
п
(1.14)
;=|
а произвольного плана g = g(dx)— матрица
W) = \f(x)fT(x)l(dx)t (1.15)
х
где интегрирование ведется по вероятностной мере, являющейся
планом эксперимента, а интеграл от матрицы — это по опреде-
лению матрица из интегралов ее элементов. Другая форма
записи матрицы (1.15):
Slim
fi(x)fl(x)l(dx)\\ .
II X / = 1
Далее слово «нормированная» будет опускаться и, следова-
тельно, под информационной матрицей плана будет пониматься
одна из матриц (1.13) — (1.15).
Пусть задан дискретный план вида (1.5) с невырожден-
ной информационной матрицей (1.13). Выразим определяемую
по (1.12) дисперсионную матрицу НЛН-оценок 0 параметров 0
через (1.13):
D0 = а* (FTF)~l = °2 4* (jT FrF)'! О"'-
Матрицу будем называть дисперсионной ма-
трицей дискретного плана £лг. Аналогично, если £— произволь-
ный непрерывный план с невырожденной информационной ма-
трицей Af(g), то дисперсионной матрицей плана g будем назы-
вать матрицу’
Д(|) = (Л4 (?))"'.
В дальнейшем планы, информационные матрицы которых невы-
рождены, будем называть невырожденными планами.
Отметим, что как информационная, так и дисперсионная мат-
рицы плана не зависят от неизвестных параметров (включая
87
и ст2) и результатов измерений. Кроме того, если имеется ди-
скретный план g вида (1.6) с ограничениями (1.7), то обе ма-
трицы M(g) и D(g) не зависят от того, проводить по этому
плану /V или kN измерений (при любом натуральном k), вы-
бирая точки Xi по kri раз (i= 1.п).
Используя указанные свойства информационных и диспер-
сионных матриц, качество непрерывных планов будем выражать
через эти матрицы. Если имеются такие два невырожденных
плана gi и g2, что
D&) </>&),
(1-16)
будем считать, что план g2 лучше плана gi. Как правило, будем
считать также, что план g2 лучше плана gi, если вместо строгого
неравенства (1.16) выполнено нестрогое Z)(g2) £>(gi) (т. е.
матрица D(gi)—D(g2) неотрицательно определена) и D(gi)^=
1.3. Примеры сравнения планов. Приведем два простых при-
мера.
Пример 1.1. Дана линейная регрессия на отрезке Х =
= [-1. 1]:
1/^ = 0, + 02Ху + е., Ее/ = 0, = 0, / =# /, Ее^ = ст2. (1.17)
Здесь 0 = (0i, 02)r, f(x) = (l, х)т.
В качестве плана gi выберем план
. _1 о 1 |
И”Ь/3 1/3 1/3 J ’
сосредоточенный в точках Xi = —1, х2 = 0, хз = 1. Для этого
плана
D(Bi) = [o 3/2]•
План g2 выберем в виде
Е - I-1 Ч
62 I 1/2 1/2 J
(т. е. план g2 сосредоточен на концах
ными весами). Имеем
и+Я-!
0(b)-[J ;]<О(Ь).
интервала [—1, 1] с рав-
-11=р °1
ij Lo 1J’
Пусть число измерений, проводимых по планам gi и g2, крат-
но 6, т. е. М = 6й. Тогда при использовании плана gi НЛН-оцен-
ки 01, 02^ параметров 01, 02 некоррелированы, а их дисперсии
равны D0! = ct2/(6A)> D02 = ct2/(4&). При использовании плана g2
88
эти оценки также некоррелированы, а их дисперсии равны
О0! = а2/(6А?) и D&2 ===== сг2/(6&). Следовательно, план |2 лучше пла-
на gi (даже несмотря на то, что строгое неравенство (1.16) не
выполнено).
Пример 1.2. Рассмотрим введенную в примере 1.4 гл. 1
схему взвешивания трех предметов на двухчашечных весах:
У/ 01X/J + 02х/2 + 0зХ/3 +
Ее, = 0, De, = о2, Ее,е, = О, i j,
где хц могут принимать лишь три значения, а именно —1, 1, О,
в зависимости соответственно от того, взвешивался f-й предмет
в /-м измерении на правой или левой чашке или вообще не
взвешивался.
Пусть сначала число измерений равно 24, а план gi сосре-
доточен в точках
(1, 0, Of, (0, 1, Of, (0, 0, If
с равными весами (это означает, что по плану gi Взвешивается
каждый предмет отдельно на левой чашке по восемь раз). Вес
каждого предмета оценивается по МНК:
N
/=1, 2, 3.
/-1
При этом оценки некоррелированы и D0, = a2/8, поскольку
[ 1/3 0 0 1 гз 0 01
0 V3 о I d &) = озо
о о 1/з J Loo3j
Положим теперь М = 8и план g2 запишем в виде (1.5), где
точки плана — различные комбинации (±1, ±1, ±1). Для та-
кого плана НЛН-оценки параметров 0/ (/=1, 2, 3) некоррели-
рованы и равны
8
D^=v
/=i
(в данном случае матрицы Л4(£2) и £>(£2) единичные). Таким
образом, проводя восемь измерений по плану g2, мы достигаем
той же точности МНК-оценок неизвестных параметров, что и
после 24 измерений по плану gi (который на первый взгляд
кажется подходящим). Ясно, что в данном случае выполнено
строгое неравенство (1.16).
1.4. Свойства информационных матриц. Согласно (1.15), ин-
формационная матрица плана £ записывается в виде
= \f(x)fT(xK(dx).
х
89
Этот вид позволяет вывести полезные свойства информацион-
ных матриц, которые сформулированы ниже в виде отдельных
утверждений.
Лемма 1.1 (свойство 1). Для любого плана | информацион-
ная матрица Л4(£) неотрицательно определена (в частности,
является симметричной).
Доказательство легко следует, из определения неотрицатель-
ной определенности матриц иz того, что для всех zeR™ вы-
полнено
zTM 0) z = J [zrf (х)]21 (dx) 0.
X
Лемма 1.2 (свойство 2). Если план g имеет вид (1.8) и
п < т, то этот план вырожденный, т. е. det М (g) = 0.
Доказательство. В силу (1.14)
M® = £iPif(xt)fT(xt).
Используя теорему 1.13 из приложения 1, получаем
п
rangМ(g)< Е rang f (xt) fT(xj.
i = l
Утверждение леммы будет доказано, если показать, что
rang/(x)f(x)^ 1 для любого фиксированного хе!
Выберем такое /е{1, ..., т}, что f/(x)=/=O (если такого /
не существует, то rang/(х)/г(х) = 0). Каждый /-й столбец ма-
трицы
f(x)f? (x) = ||fi(x)f/(x)C/.I
можно представить в виде произведения /-го столбца на
fr(x)/f/W-
Следовательно, все столбцы матрицы f(x)fT (х) линейно за-
висят от одного из них; поэтому rangf(x)fT(x) = 1. Лемма до-
казана.
Обозначим через ЭЛ множество информационных матриц
М(£), соответствующее всевозможным непрерывным планам
g е S.
Лемма 1.3 (свойство 3). Множество ЗЯ выпукло*).
Доказательство. Необходимо проверить, что для лю-
бого ае[0, 1] и для любых непрерывных планов |2 матрица
М = (1-а)М(^) + аМ(У (1.18)
принадлежит множеству ЭЛ. Определим план | по формуле
5 = (1 — a) Si + «52-
*) Множество V называется выпуклым, если вместе с любыми двумя
точками Vj и Vz оно содержит и весь отрезок {у|у = аУ1+(1—а)ог,
а & [0, 1]}.
90
Покажем, что М = Л4(|); действительно,
М = (I - а) М (Ы + аМ &) = (1 - а) J f (х) fT (х) (dx) +
+а Jf(x)f J f(x)rW[(l-a)Si(^)+at2(dx)] =M(g).
Лемма доказана.
Кроме выпуклости важным с математической точки зрения
является свойство компактности множества информационных
матриц 5R. Для полного понимания доказательства этого свой-
ства следует ознакомиться с понятием слабой сходимости ве-
роятностных мер и ее основными свойствами [45]. Нам потре-
буются определение и одно фундаментальное свойство. Напо-
мним их.
Пусть вероятностные меры Pi (£=1, 2, ...) и Р заданы на
борелевских подмножествах множества X. Говорят, что после-
довательность {Pi}™^ слабо сходится к Р, если для любой не-
прерывной ограниченной функции g на X выполнено условие
$ g W Pi (dx) \g(x)P (dx) (i -> oo).
X X
Лемма 1.4. Если множество X компактно, то семейство
вероятностных мер, заданных на борелевских подмножествах
множества X, слабо компактно (т. е. из любой последователь-
ности вероятностных мер можно выделить подпоследователь-
ность, слабо сходящуюся к некоторой вероятностной мере, опре-
деленной там же).
Доказательство имеется в [45].
В случае X cz R утверждение леммы 1.4 называется теоремой
Хелли.
Лемма 1.5 (свойство 4). Если множество планирования
X — компакт, а функции fi(x) (i= 1, ...., tn) непрерывны на X,
то множество информационных матриц SW компактно.
Доказательство. В силу леммы 1.4 множество непре-
рывных планов 3 слабо компактно. Следовательно, из каждой
последовательности планов {M7=i можно выделить слабо схо-
дящуюся подпоследовательность причем предел ука-
занной подпоследовательности в силу компактности X является
вероятностной мерой, т. е. непрерывным планом. Слабая сходи-
мость {&,} к В* означает, что для любой непрерывной на X
функции g(x) имеет место равенство
lim ( g (х) (dx) = \g{x) g, (dx).
X X
Выбирая в качестве g(x) компоненты матрицы f(x)fr(x),
получаем
lim =
/~>оо 1
91
Отсюда следует, что из любой последовательности информаци-
онных матриц {Af(gt)} можно выделить подпоследовательность,
сходящуюся к элементу множества ЗЯ. Это и означает, что мно-
жество 2Й компактно. Лемма доказана.
Для вывода еще одного свойства информационных матриц
потребуются приведенные ниже сведения из выпуклого анализа.
Выпуклой оболочкой множества V называется пересечение всех выпуклых
множеств, содержащих множество V. Выпуклая оболочка множества V обо-
значается символом conv V.
Пусть Vi....V* — точки из некоторого множества V. Выпуклой комби-
нацией точек vti ..., vk называется точка
k
где
А,>0, 1=1.......k, Ё*7=1-
i-1
Точка v множества V называется крайней точкой этого множества, если она
не представима в виде выпуклой комбинации любых других точек множе-
ства V, т. е. если из того, что
v = (1 — a) + аа2» 0 < а < 1, v2 е V,
следует Vi = v2.
Докажем простое вспомогательное утверждение.
Лемма 1.6. Выпуклая оболочка множества V состоит из всевозможных
выпуклых комбинаций точек множества V.
Доказательство. Обозначим через U множество всех выпуклых
комбинаций точек из V. Имеем V с: U. Множество U выпукло, поскольку
если
mi
= Е аи°п>
i-1
ml
Еа//=1’ ai/>0>
то для любого a s [0, 1]
mi
auj + (1 - a) v2 - £ aa0Pn + £ (1 - a) a^/2,
i — l /==1
и, следовательно, avi+(l — a)v2 является выпуклой комбинацией точек
ин, v2{, ...» umil, o12, ...» vmi2‘ Отсюда получаем, что conv V c: U. С другой
стороны, по индукции доказывается, что каждая точка из U содержится в
любом выпуклом множестве, содержащем V, и поэтому U cz conv V. Лемма
доказана.
Лемма 1.7. Пусть V о Rft, Vi е V (i = 1, ..., г). Если г > k + 2, то
существуют такие не равные одновременно нулю числа pi. рг, что
Е/^=о- (1Л9)
Доказательство. Точке
О/ = (Ог(1), .... 0(.(Z>))reR*
°2 = ^ai2Vi2’
i=l, ...» j == 1, 2,
пи
92
поставим в соответствие точку
5/-(1, t>z(D...о, (k))T <= R*+1.
В R*+1 любые k + 2 векторов линейно зависимы, и поэтому существуют такие
не равные одновременно нулю числа Pi, ..., рг, что
g₽A = o-
Приравнивая нулю отдельно первую координату и п оставшихся, получаем
требуемое. Лемма доказана.
Отметим, что если система уравнений (1.19) имеет только нулевое ре-
шение pi = ...== рг = 0, то множество векторов fpb ..., vr} называется
аффинно зависимым.
В лемме 1.7 утверждается таким образом, что в R* существует не более
чем k + 1 аффинно независимых векторов.
Теорема 1.1 (теорема Каратеодори). Пусть V — компактное подмно-
жество R". Тогда каждая точка множества conv V может быть представлена
в виде выпуклой комбинации с положительными коэффициентами не более
чем k 4- 1 крайних точек множества V.
Доказательство. В силу леммы 1.6 любая точка v из conv V мо-
жет быть представлена в виде
г г
Vs=sXiaivif Z=l, г, 1
(в определении выпуклой комбинации а/ 0, но нулевые а/ можно опу-
стить). Допустим, что г п + 2. В силу леммы 1.7 существуют такие не
равные одновременно нулю числа Pi, ..., Рг, что выполнено (1.19). Положим
в = min (а./р.), а, = а. — еР», / = 1...г.
{/13/>0}v '' '' 1 1 1
Поскольку среди коэффициентов рь ..., рг существуют положительные, то
е > 0. Величины сн удовлетворяют соотношениям
г
^^=1, (^>0, Z-1, ...» г,
причем по крайней мере одно из чисел сч обращается в нуль. Замечая те-
перь, что
г-1
получаем представление точки v как выпуклой комбинации г — 1 точек из V.
Продолжая далее аналогично, получаем представление, в котором г k + 1.
Теорема доказана.
Следствие 1.1 (свойство 5). Если множество ЗЯ компактно,
то для любого плана £ информационная матрица М (£) предста-
вима в виде
По Пр
М Q) = £ PiM (Xi), OCp/^l, Zp/=1,
i-1
где M (x) = f (x) fT (x)—информационная матрица плана со-
средоточенного в точке х, и
Ло<4т(/п+1)+Ь (1.20)
93
Доказательство. Так как любая информационная ма-
трица симметрична, то она полностью определяется своими / =
= т(т-\- 1)/2 элементами, т. е._ ей можно сопоставить вектор
размерности I. Утверждение следствия вытекает из теоремы
Каратеодори и того очевидного факта, что крайними в множе-
стве являются только точки вида М(£*) = f(х)fT(х), соответ-
ствующие планам = Следствие доказано.
Из следствия 1.1 вытекает, что непрерывные планы с тре-
буемыми свойствами информационной матрицы (в частности,
оптимальные планы) можно строить на множестве планов вида
(1.8) с п т(т + 1)/2 + 1.
1.5. Критерии оптимальности. Как указано в п. 1.2, матрица
£)(|) = Л1_|(£) является матричной характеристикой невырож-
денного плана
Приведем пример, показывающий, что не из любой пары пла-
нов gi, & можно выбрать тот, который лучше.
Пример 1.3. Пусть функция регрессии имеет вид г)(л) =
= 91 + 02*-ЬОз*2, *е[—1, 1]. Здесь f(x) = (l, х, х2). Положим
(-1, о, Mt _ f-i. °- 1 1
jl/3, 1/3, 1/3 Г *2 11/4, 1/2, 1/4 J’
Имеем
М (Si) ==^4 х‘
/=1
I*3
xi
„2-.
xi
Xi
X4
J
Г 1
= 0
L 2/3
0 2/31
2/3 0 ,
0 2/3 J
з Г 1 *i
det/W(£i)=4p
[з о —31
0 3/2 о ,
—3 0 9/2 J
[10 1/2-1 Г 2 0 —21
0 1/2 0 , detM(y=-g, D(£2)= 0 2 0
1/2 0 1/2 J L—2 0 4 J
Матрица
Г 1 0 -1!
D(g1)-D(g2)= o —1/2 о
L —1 0 1/2 J
имеет на главной диагонали как положительные, так и отрица-
тельные элементы и поэтому не свидетельствует о том, что ка-
кой-либо из планов безусловно лучше другого. Отметим, что
оба плана и £2) оптимальны, но по разным критериям.
Поскольку в подавляющем большинстве случаев задача ми-
нимизации матрицы D(g) однозначного решения не имеет, то
рассматривают задачу минимизации некоторого функционала Ф,
94
заданного на множестве дисперсионных матриц, т. е. задачу
поиска плана
Г = arg min Ф [D (g)] (1-21)
на фиксированном множестве планов (S или Здг). При этом,
не оговаривая особо, всегда предполагается, что
minФ [D (g)] > — <х>.
План (1.21) называется Ф-оптимальным (или просто опти-
мальным). Функционал Ф называется критерием оптималь-
ности. Если допустимое множество планов — S (что далее
почти всегда и предполагается), то задача построения плана
(1.21) называется задачей непрерывного оптимального плани-
рования (или просто оптимального планирования).
Основными свойствами, которыми обладают практически все
функционалы Ф, имеющие статистический смысл, являются сле-
дующие:
а) монотонность Ф(£>1) Ф(О2), если Di D?,
б) однородность Ф(рД) = у(Р)Ф(О),
где у(р)—возрастающая функция;
в) выпуклость
Ф [Z> ((1 — а) + ag2)] < (1 - а) Ф [D (gx)] + аФ [D (g2)] (1.22)
для любых планов g2 2 и 0<а< 1.
Большинство приведенных ниже функционалов строго вы-
пуклые, т. е. для них в (1.22) имеет место строгое неравенство
для всех 0<а<1 при D(£i)#= Z>(1;2). Отметим, что условие
однородности обеспечивает независимость оптимального плана
от Af.
Наиболее нетривиальным из выписанных условий является
условие выпуклости (и строгой выпуклости). Доказательства
выпуклости приводимых ниже функционалов содержатся в § 2
приложения 1; результаты о выпуклости очень важны для по-
нимания материала данного пункта.
Приведем два почти очевидных свойства непрерывных опти-
мальных планов.
Теорема 1.2. 1) Любая комбинация непрерывных опти-
мальных планов является непрерывным оптимальным планом,
т. е. множество непрерывных оптимальных планов выпукло.
2) Если функционал Ф строго выпуклый, то все непрерывные
оптимальные планы имеют одну и ту же дисперсионную ма-
трицу.
Доказательство. 1) Пусть планы g, и оптимальны.
Тогда из (1.22) следует
Ф Ю (Г)] <(1 - а)Ф[О (IJ)] + аФ [D (g^)] = minФ [D ®],
95
где f = (1 — a) I* + а&2- Следовательно,
Ф [D (Г)] = min Ф [£(£)],
5
и поэтому план оптимален.
2) Предположим, что имеется два оптимальных плана £*,
причем D (£’) Ф D (£*)• В силу строгой выпуклости Ф для
плана
Г = (1-а)^ + аГ2, 0<а<1,
имеем
Ф [D О < (1 - а) Ф [£> (£)] + аФ [£> (£)] = min Ф [D (§)],
но в силу 1) план должен быть оптимальным. Теорема до-
казана.
Для того чтобы вывести еще одно, более нетривиальное
свойство оптимальных планов, докажем следующую теорему,
являющуюся дополнением к теореме Каратеодори (теореме 1.1).
Теорема 1.3. Пусть V — компактное подмножество R*, v — граничная
точка множества conv V.. Тогда v может быть представлена в виде выпуклой
комбинации с положительными коэффициентами не более чем k точек из V.
Доказательство*). В силу теоремы 1.1 существуют такие векторы
У1, ...» Oft+i из V, что
й+1 £+1
° = X Т, = >• (1-23)
причем будем считать, что все а/ (i == 1, ..., k + 1) положительны, а век-
торы Vi, . ., Ofe+i аффинно независимы (иначе доказывать нечего). Посколь-
ку v — граничная точка выпуклого компакта conv V, то по теореме об отде-
лимости (см. [2, с. 53]) найдется такой ненулевой вектор а= (а1} ..., аЛ)г,
что
(а, и) < (а, и)
для всех и s conv V (здесь (•, •) — скалярное произведение в R*). В част-
ности,
(а, 1^)<(а, и) (1.24)
при всех i = 1, ...» k + 1.
Из (1.23) имеем
k+\ k+\
(a, v) = У at (a, £ а( = 1.
Z = l
Отсюда с учетом положительности всех а/ и неравенств (1.24) следует, что
последние являются равенствами. Положим
afe+1 = —(а. и)== — (а, vj, Z — 1, ..., k + 1.
Относительно неизвестных коэффициентов at, ..., имеем, следовательно,
систему уравнений
(а, ^) + аЛ+1=»0. /=1, ...,fc+1 (1.25)
♦) Приводимое доказательство принадлежит В. Н. Малоземову,
96
Аффинная независимость векторов ...» t^+i эквивалентна, как нетрудно
понять, тому, что система уравнений (1.25) не имеет нетривиальных решений.
Следовательно, а — 0, и поэтому получили противоречие. Теорема доказана.
Следующая теорема дополняет следствие 1.1.
Теорема 1.4. Пусть множество ^SSl компактно, выполнено
условие однородности и оптимальный план g* невырожден. Тогда
этот план может быть записан в виде (1.8) с п m (m + 1 )/2.
Доказательство. В силу теоремы 1.3 достаточно пока
зать, что матрица ЛЩ*) принадлежит границе множества 9Я.
Действительно, если Л4(£*)—внутренняя точка то существует
такое а> 1, что аЛ4(^*)е2Н, причем аМ(|*)—информационная
матрица некоторого плана g. Поэтому
Ф [АГ1 (|’)] > Y (4) ф ' (ЭД = ф [“"’М"1 (ЭД - ф (М-1
что противоречит определению оптимального плана. Теорема до-
казана.
С информационными матрицами работать проще, чем с дис-
персионными, поэтому критерий оптимальности часто записы-
вают как функционал ’F, заданный на множестве информацион-
ных матриц 2Я.
План
r = argminT.[M(t)] (1.26)
называют 4f -оптимальным.
Задачу Т-оптимального планирования (1.26) рассматривают
для случая, когда функционал Ч' выпуклый (т. е. удовлетво-
ряющий неравенству (1.22) с заменой Ф, D на Д', М), монотон-
ный и однородный.
Известно довольно много критериев оптимальности планов.
Ниже приведены наиболее часто используемые из них.
План
|‘ = argmaxdetAf(£)=argniindetD(|) (1-27)
называется D-оптимальным. Функционалы
O[D] = lndetD, Ф [М] = — In det М (1.28)
называются критериями D-оптимальности (от английского тер-
мина «determinant», т. е. «определитель»).
Строгая выпуклость функционалов Ф и определяемых по
формуле (1.28), следует из формулы (2.6) приложения 1. Для
функционала Ф[£>] = In det D не выполнено условие однород-
ности Ф[а£>] = у(а)Ф[£>], но выполнено условие
Ф [aD] — tn In а + In det D, (1-29)
которое его заменяет. Отметим, что утверждение теоремы 1.4
остается справедливым при замене условия однородное ги на
(1.29).
4 С. М, Ермаков, А. А Жиглявский
97
При D-оптимальйом планировании минимизируется объем
области, ограниченной эллипсоидом рассеяния НЛН-оценок 0
неизвестных параметров.
Напомним (более подробно это понятие изучается в курсе
математической статистики), что если имеется /п-мерный слу-
чайный вектор т| с вектором средних Ет) и дисперсионной мат-
рицей Вт|, то эллипсоид рассеяния этого случайного вектора
определяется как эллипсоид, равномерное распределение внутри
которого имеет вектор средних Е*П и дисперсионную матрицу Dr|.
Этот эллипсоид имеет вид
{х g Rm| (х - Еп)г Dt] (я — En) = m + 2}.
Объем области, ограниченной этим эллипсоидом, как нетрудно
убедиться прямым подсчетом m-мерного интеграла, равен
V = (т + 2)'п+2л'п/2 (det От])1/2/Г (-j- + 1) '
Для рассматриваемого случая, когда случайный вектор г)
представляет собой НЛН-оценку 0 параметров 0, эллипсоид рас-
сеяния имеет вид
{х 6= Rm | (х - 0)г D0 (х - 0) = т + 2}, (1.30)
а его объем пропорционален квадратному корню из определи-
теля дисперсионной матрицы плана. Отметим также, что если
распределение случайных ошибок е/ в (1.1) нормально, то рас-
пределение случайного вектора 0 также нормально, а эллипсоид
рассеяния (1.30) является поверхностью равного уровня рас-
пределения случайного вектора 0.
Важным с практической точки зрения свойством непрерыв-
ных D-оптимальных планов является их инвариантность отно-
сительно любых невырожденных линейных преобразований ба-
зисных функций и неизвестных параметров.
Теорема 1.5. Пусть g* есть D-оптимальный план для.мо-
дели (1.4), L — произвольная невырожденная m\m-матрица.
Тогда план будет D-оптимальным, во-первых, для модели
Ф =
(У, Ф0, a2IN),
Ф1(«1) ... фт(х()
<₽1(М ••• Ш
<р(х) = Lf (х),
и, во-вторых, для модели
(у, F0(1), a2IN), 0U) = Lr0.
Доказательство. Докажем первое из утверждений тео-
ремы. Функцию регрессии запишем в виде
П(х, 0) = 07(х) = 0(г1)ф(х), б», == (£~‘)Г0-
Пусть 0 — НЛН-оценка 0 при любом плане g с дисперсион-
ной матрицей D(0, |). Тогда, согласно теореме 1.4 из гл. 1,
98
0(1) =(L-1)TQ—НЛН-оценка параметров 0(i), причем диспер-
сионная матрица этой оценки по лемме 1.3 из гл. 1 равна
D(0U), g) = (L-,)rD(0, g)L’1.
Отсюда
det 0(0(1), g) = (det L)-2 det D (0, g).
Минимизируя обе части последнего неравенства по g, получаем
Г = arg min det D (0, g) = arg min det D (0<i), g).
Второе утверждение теоремы доказывается аналогично. Тео-
рема доказана.
Перейдем к следующему критерию оптимальности.
План
Г = arg min det [ATD (g) A] (1.31)
называется обобщенно D-оптимальньем. Здесь A — матрица пол-
ного ранга размера т X s, s ^т. В наиболее важном частном
случае А — (Is, 0)Т имеем
ATD(£)A=Ds(g),
где Ds(l)—главный минор порядка s матрицы DQ), а план
(1.31) называется Ds-оптимальным. Этот случай соответствует
ситуации, когда экспериментатора интересуют только первые $
из m неизвестных параметров. Отметим, что если s = m (а по-
этому и rangX = m), то обобщенно D-оптимальные планы со-
впадают с D-оптимальными.
Функционал
Ф (D) = In det (ЛГОЛ) (1.32)
называется критерием обобщенной D-оптимальности.
Выпуклость функционала (1.32), так же как и выпуклость
D-критерия, следует из формулы (2.6) приложения 1.
Очевидна статистическая интерпретация Ds-оптимальности:
для Ds-оптимального плана минимален объем эллипсоида рас-
сеяния, соответствующего НЛН-оценкам интересующих нас s
параметров.
Свойства критерия обобщенной D-оптимальности аналогичны
свойствам D-критерия.
Критерий обобщенной D-оптимальности может быть исполь-
зован в случае, когда необходимо оценить некоторую вектор-
ную параметрическую функцию ТВ (Т есть $Х rn-матрица). Для
этого нужно сделать невырожденную замену параметров
0(п = Ле = (Г0, S0f
(где S есть (пг— $)Х /n-матрица), а модель (1.4) заменить на
(Г, fW), F^ = FA~l.
4*
99
Такая замена позволяет, в частности, повысить точность оце-
нивания тех параметров (или их линейных комбинаций), кото-
рые особенно интересуют исследователя, за счет отказа от точ-
ности оценивания остальных.
Кроме /^-критерия широко распространены также линейные
критерии оптимальности.
Линейно оптимальным (или ^оптимальным) называется
план
g* = argmax trLD(g), (1.33)
где L — фиксированная, неотрицательно определенная m X m'
матрица. Функционал
O(D) = tr£0 (1.34)
называется линейным критерием оптимальности или критерием
L-оптимальности (от английского слова «linear» — линейный).
Функционал (1.34) называется линейным потому, что для
любых тХ/п-матриц А, Д, и положительного числа с имеют
место равенства
ф (Л + В) = Ф (А) + Ф (В), Ф (с А) = <?Ф (Л).
Функционал Ф, не представимый в виде (1.34), указанными
свойствами линейности обладать не может.
Выпуклость функционала (1.34) следует из теоремы 2.4 при-
ложения 1, отсюда же следует строгая выпуклость (1.34) в слу-
чае L > 0.
Статистический смысл L-оптимального плана заключается в
том, что для него обобщенные квадратичные потери
r(L, 0, 0) = Е (0 - 0)г L (0 - 0)
минимальны (здесь 0 = 0(g)—НЛН-оценкидля ©^соответствую'
щие плану g). Это станет очевидным, если r(L, 0,0) записать
в виде
r(L, 0, 0)==EtrL(0-0)(0-0)r = trLE(0-0)(0-0)r = trLD0.
Ниже приведены три критерия, имеющих ясный статистиче-
ский смысл и являющихся частными видами L-критерия.
L-оптимальный план с L = Im называется А-оптимальным
(от английского термина «average variance» —- средняя диспер-
сия). При Л-опгимальном планировании дисперсионная матрица
плана имеет наименьший след, а НЛН-оценки неизвестных пара-
метров— минимальную суммарную дисперсию. Благодаря про-
стоте критерий Л-оптимальности является одним из наиболее
часто используемых.
Прежде чем формулировать следующий критерий, докажем
простое вспомогательное утверждение.
Лемма 1.8. Пусть план эксперимента g невырожден и
имеет вид (1.5), 0— НЛН-оценки параметров 0. Тогда при всех
100
x^X QTf(x) является НЛН-оценкой функции регрессии q(x)=
q2
= Qrf(x), а дисперсия этой оценки равна -^-d(x, £), где
d(x, £) = f(x)D(i)f(x). (1.35)
Доказательство. Из теоремы 1.4 гл. 1 следует, что
оценка QTf(x) является наилучшей в множестве линейных не-
смещенных оценок величины QTf(x). Подсчитаем дисперсию этой
оценки:
DQTf (х) = Е (07 (х) - 07 (х))2 = Е [(0 — 0)г f (х)]2 =
[т ^2 г т 1
g (0/ - 90 fi W J = E [ (S t fi to (0/ - 00 (0/ - 0/) fi to J =
A A -2
= E [f (x) (G - 0) (0 - Г f (x)] = Г (x) D0f (x) = -^ f (x) D (I) f (x).
Лемма доказана.
Функцию (1.35) иногда называют дисперсией оценки поверх-
ности отклика (т. е. функции регрессии), хотя, как следует из
утверждения леммы 1.8, ее правильнее было бы называть нор-
мированной дисперсией оценки поверхности отклика.
Следующий критерий — критерий Q-оптимальности (от анг-
лийского термина «quadratic mean error» — среднеквадратичная
ошибка). Q-оптимальным называется план
V = arg min \ d (х, £) w (х) dx,
5 z
где функция d(x, £) определяется по формуле (1.35), w(x) — не-
отрицательная функция на множестве Z, задающая относитель-
ную важность тех или иных точек хеZ. Множество Z может
не совпадать с X. В частности, при Z с X имеем задачу интер-
поляции, а в случае Z П X ф Z — задачу экстраполяции.
Q-оптимальные планы являются L-оптимальными для
L = ^f(x)fT(x)w(x)dx (1.36)
z
(проверить!) и используются в тех случаях, когда исследователя
в первую очередь интересует точность оценки функции регрессии
во всем множестве X или в некотором его подмножестве.
Оптимальным планом для экстраполяции в точку х0 (эта
точка может не принадлежать множеству X) называется план
g* = argmind(x0, |), (1.37)
который, как нетрудно проверить, является L-оптимальным с
L = f(Xo)n*o).
Для плана (1.37) дисперсия НЛН-оценки функции регрессии
в точке х0 минимальна.
101
Приведем также три распространенных критерия, которые
относятся к классу минимаксных. Первый из них — критерий
С -оптимальности
ф [D] = max fT (х) Df (х). (1.38)
Соответствующий этому критерию план
g* = arg ruin [max d(x, g)] (1.39)
£ хеХ
называется G-оптимальным.
Величина (1.38) называется обобщенной дисперсией (gene-
ral variance). Выпуклость G-критерия следует из теоремы 2.4
приложения 1.
При G-оптимальном планировании экспериментатор гаран-
тирует, что во всех точках xg X дисперсия НЛН-оценок функ-
ции регрессии не слишком высока — максимальная по хеХ
дисперсия минимизируется.
Как показано в § 2 непрерывный G-оптимальный план обла-
дает тем замечательным свойством, что совпадает с непрерыв-
ным D-оптимальным. Отметим, что это свойство дает еще одну
статистическую интерпретацию D-оптимальному планированию.
План g* называется Е-оптимальным, если на нем достигается
минимум максимального собственного числа дисперсионной мат-
рицы:
g* = argmin[Xmax(D(g))] (1.40)
(по-английски eigenvalue — собственное число). При D-опти-
мальном планировании минимизируется длина максимальной
оси эллипсоида рассеяния НЛН-оценок параметров. В силу тео-
ремы 1.9 из приложения 1 максимальное собственное число
невырожденной матрицы совпадает с минимальным собствен-
ным числом матрицы, обратной к ней, и поэтому D-оптимальным
является также план
Г = arg max [%min (М (|))].
£
Выпуклость критерия D-оптимальности
Ф[£>] = %Шах(Я) (1.41)
вытекает из теоремы 2.3 приложения 1.
План
|’ = arg mini max dH(£)] (1-42)
£ (“1..m
называется MV-оптимальным (от английского термина «maxi-
mal variance.» — максимальная дисперсия); функционал
Ф [£>] = max (1.43)
называется MV-критерием.
102
В (1.42) и (1.43) du — диагональные элементы матрицы D.
Смысл MV-оптимального планирования состоит в нахождении
такого плана, при котором максимальная из дисперсий оценок
неизвестных параметров будет минимальной. Выпуклость MV-
критерия следует из теорем 1.5, 2.4 и формулы (2.8) приложе-
ния 1.
1.6. Некоторые множества планов. Для формулировки задачи
поиска оптимального плана необходимо задать также множество
допустимых планов. Ограничения на множество планов диктуют-
ся либо реальными условиями эксперимента, либо выбранным
методом оптимизации.
Как указывалось выше, наиболее содержательные математи-
ческие результаты получаются в*том случае, когда множеством
допустимых планов является 3 — множество всех непрерывных
планов на X.
В практических постановках задачи оптимального планиро-
вания множеством допустимых планов обычно является 8^—
множество всех дискретных /V-точечных планов, т. е. планов вида
(1.5). Оптимальные планы в этом случае могут строиться либо
путем прямой минимизации критерия на множестве XN, либо с
помощью методов., использующих специфику задачи и описан-
ных в § 4.
Важным частным случаем множества 8/у является 8„—мно-
жество так называемых насыщенных планов (при насыщенном
планировании число измерений равно числу неизвестных пара-
метров регрессии).
В тех случаях, когда число п точек, в которых могут прово-
диться измерения, фиксировано, а само количество У измерений
может быть выбрано достаточно большим, множеством допусти-
мых планов является 8(п)—множество планов вида (1.8) при
фиксированном п.
Оптимальные планы на 3 (п) могут строиться путем миними-
зации критерия на множестве Хп X Rn~l (т. е. на множестве то-
чек ..., хп и весов pi, ..., Рл-i). Точнее, вместо Rn^ в ука-
занном множестве нужно поставить
= • • > Рп-\ 1рг>0 (/=1,
Кроме того, можно считать, что
Р1>Р2> •••
поскольку информационная матрица плана (1.8) не зависит от
того, в каком порядке записаны точки х\, ..., хп. Для построе-
ния оптимальных планов на 3(п) может быть также использо-
ван метод, описанный в § 4.
Применяется также постановка задачи поиска оптимальных
планов на множестве 8лгП2(п). Методы § 4 могут быть легко
переформулированы и для этого случая.
ЮЗ
На практике (особенно в задачах планирования экстремаль-
ного эксперимента, см. гл. 6) часто используются планы из мно-
жеств S, S2v или Е(п), обладающие дополнительно свойствами
ортогональности и (или) ротатабельности.
Невырожденный план называется ортогональным, если его
дисперсионная матрица диагональна.
При ортогональном планировании все оценки параметров не-
коррелированы, а главные оси эллипсоида рассеяния направ-
лены по координатным осям в пространстве параметров. Объем
вычислительной работы, необходимый для обработки результа-
тов измерений при ортогональном планировании, относительно
мал, и даже при больших щ и N (ортогональные планы обычно
выбираются в множестве S#) соответствующие вычисления лег-
ко могут быть проведены без помощи ЭВМ. Это основная при-
чина широкой распространенности ортогональных планов в прак-
тических расчетах.
План g называется ротатабельным относительно некоторой
точки xq, если определяемая по формуле (1.34) функция d(x, g)
не изменяется при вращении плана относительно х0, т. е. если
для любых таких xi, х% е X, что ||xi — Хо11 = 11^2 — хо||, имеет
место d(xb g) = cl(x2, Ь-
Ротатабельность плана g относительно точки х0 означает,
что дисперсия НЛН-оценки функции регрессии QTf (х) в точке
х одинакова для в,сех точек, удаленных от х0 на равное расстоя-
ние. Ротатабельные планы часто используются в алгоритмах
экстремального планирования, в которых функцией регрессии
является градиент целевой функции в некоторой точке, оценка
функции регрессии нормируется и по ней строится оценка на-
правления наибольшего возрастания целевой функции из ука-
занной точки, а следствием ротатабельности является равноточ-
ность оценки направления (по всем направлениям).
Хотя в принципе приближенно оптимальные планы в мно-
жестве ортогональных или ротатабельных планов могут быть
построены путем прямой минимизации критерия с учетом соот-
ветствующих ограничений, ввиду сложности учета этих огра-
ничений экстремальные задачи оказываются настолько слож-
ными, что указанный способ на практике не используется. Для
построения оптимальных ортогональных (ротатабельных) пла-
нов обычно используют специальные методы, разработанные для
определенных классов регрессионных моделей (см., например,
§ 1 гл. 4).
Упражнения.
1. Для схем регрессии, рассмотренных в примерах 1.1 и 1.2, вычислите
дисперсионную матрицу равномерного плана g0(dx) = — dx (—1 <х^1).
2. Докажите, что всегда найдется по крайней мере один Ds-оптимальный
план вида (1.8) с числом точек п s (2m — s+ 1)/2.
3. Покажите, что при 4-оптимальном планировании эллипсоид рассеяния
(1.30) имеет минимальную сумму квадратов длин осей и наименьшую длину
диагонали параллелепипеда, описанного около этого эллипсоида.
104
4. Сформулируйте критерий Q-оптимальности. Проверьте, что Q-опти-
мальный план является L-оптимальным для матрицы L, определяемой по
формуле (1.36). Докажите аналог теоремы 1.5 об инвариантности непрерыв-
ных Q-оптимальных планов относительно невырожденной линейной замены
базисных функций и неизвестных параметров.
5. Пусть в схеме регрессионного эксперимента (1.1) измерения не явля-
ются равноточными, и пусть дисперсия измерения в точке х s X равна
и2/Х(х), где функция Х(х) положительна и известна. Покажите, что с по-
мощью преобразования базисных функций fi(x) л/К (х) fi(x) такая схема
сводится к схеме измерений вида (1.1) с равноточными измерениями.
§ 2. Теоремы эквивалентности
2.1. Общий случай. В данном параграфе предполагается, что
множеством допустимых планов является S, и тем самым рас-
сматривается только задача непрерывного оптимального плани-
рования.
Ниже приведены две формулировки общей теоремы эквива-
лентности (для Ч**- и Ф-оптимальных планов). Несмотря на то,
что любую из этих теорем можно получить как следствие дру-
гой, обе теоремы мы докажем. Первое доказательство очень
простое, но использует общее необходимое и достаточное усло-
вие оптимальности, второе — чисто формальное.
Сначала рассмотрим задачу. Т-оптимального планирования
(1.26) и предположим, что функционал Т выпуклый, а множе-
ство информационных матриц ЭЛ компактно. Обозначим через
А(Л41,7И2) производную по направлению М2 — Mi в точке М\
функции Т [М]:
Д(М1( M2) = lirn +
<x->0+ a
(для выпуклого функционала такая производная всегда суще-
ствует): Из хорошо известного факта теории экстремальных
задач*) (см. [2, 34]) вытекает, что необходимым и достаточ-
ным условием оптимальности матрицы М* является выполнение
неравенства
inf Д(ЛГ, М)>0, (2.1)
что означает неубывание производной по любому направлению
в точке М*.
Для того чтобы получить из (2.1) конструктивный результат,
необходимо воспользоваться спецификой задачи планирования
и наложить на Т кроме условия выпуклости дополнительное
условие дифференцируемости. Будем предполагать, что функция
дифференцируема по элементам матрицы М в окрестно-
сти точки М* (более подробно см. § 3 приложения 1).
*) Пусть X — выпуклое множество, f — выпуклый функционал на X,
Х*^Х. Тогда x*==arg min f (х), если и только если inf Д(х*, х)^ О, где
хе=Х х&Х
Ь(х,у) = lim a-’ ((1 — а) х + ay) — f (х)].
а->0+
105
Имеем
Д (АГ, М) = 1(1 ~ 4- aMl I = tr Ф [ЛГ] (Л1 — АГ),
оа 1а=0+
где
Ш]=ЭД ,
J дМ Im-Mo
а само выражение для производной получено по правилу диффе-
ренцирования сложной матричной функции (см. (3.9) из прило-
жения 1).
Далее,
inf Д (АГ, М) = inf ( tr Ф [ЛГ] f (х) fT (х) g (dx) -
м t, J
- tr ЛГФ [AT] = inf fT (x) Ф [Al*] f (x) - tr Л1’Ф [ЛГ]. (2.2)
X
По существу, отсюда и вытекает следующая теорема.
Теорема 2.1 (теорема эквивалентности). Если Т — выпук-
лый дифференцируемый функционал и множество информацион-
ных матриц ЭЛ компактно, то необходимым и достаточным усло-
вием W-оптимальности плана g* является выполнение для всех
х ее X неравенства
i|)(x, g*)>trM*4f[M*], (2.3)
где
ф(х, = ©]/(х). (2.4)
Кроме того, план g* сосредоточен в тех точках х^Х, в которых
в (2.3) достигается равенство.
Первая часть теоремы доказана выше, а вторая вытекает из
(2.3) и из следующей леммы, примененной к плану g = g*.
Лемма 2.1. Для любого плана geS справедливо тожде-
ство
J ф (х, I) g (dx) = tr М (g) Ф [Л4 ®], (2.5)
где функция чр(х, g) определяется по формуле (2.4).
Доказательство. Используя лемму 1.4 из гл. 1, имеем
J ф (X, £) | (dx) = J fT (X) Ф [Л1 (ё)] f (X) | (dx) =
= $ tr fr (X) Ф [Al (I)] / (X) I (dx) = tr [ J f (x) г (x) | (dx)] Ф [Л4 (&)] =
=НгМ(£)Ф[ЛШ)].
Лемма доказана.
Докажем еще одно вспомогательное утверждение.
Лемма 2.2. Пусть Ф — дифференцируемый функционал,
go — невырожденный план, ае(0, 1), £а = (1 — a)£o + agi, где
gi — произвольный план.
100
Тогда
~ptfo(la)J j =tr<b(g0)D(g0)-U(x, Во)Ы<И, (2.6)
aa la=o+ J
где
Ф(В) = ^^-| . Ф(х, g) = f(x)D(B)6(t)D(B)f(x). (2.7'
°u Id=d'£)
Доказательство. По правилу дифференцирования слож-
ной функции (см. (3.9) из приложения 1) получаем
ЗФP(gg)l 1 (U) 1
да — да f’
Дифференцируя по а обе части соотношения
М-'(^в)М(ёв) = /т,
имеем
М (U + D = о,
dD (Ba) _ гч х дМ (Ba) a /t \
да ~ 1SaJ да и^а>-
Формула (2.6) получается теперь из
дМ (Ba) = д [(1 -а)М + аМ (§,)] =
tr Ф (Во) D (Во) М (В() D (Во) = J tr Ф (Во) D (Во) f (X) fT (х) D (Во) Si (dx) ==
= J fT (x) D (Во) Ф (B>) D (Bo) f (x) B, (dx) = J <p (x, Bo) Si (dx)
Лемма доказана.
Отметим, что в частном случае В1=£х — {*} (т. е. если
план сосредоточен в точке г) формула (2.6) принимает вид
дф1В(1- а)Во + «1х] I = tr Ф (Во)£> (Во) ~ ф(х, Io)- (2.8,
оа> >а=0+
Лемма 2.3 (аналог леммы 2.1). Для любого невырожден-
ного плана имеет место равенство
$ф(х, BWx) = tr<5(B)Z)(B), (2.9)
X
где функция <р(х, 5) определяется по формуле (2.7).
Доказательство. Аналогично доказательству леммы 2 1
имеем
5 ф (х. В) g (dx) = J tr Ф (В) D (В) f (х) fT (х) D (В) в (dx) =
= tr Ф (В) D (В) J f (x) f‘ (x) В (dx) D (B) = tr Ф (B) D (B).
Лемма доказана.
107
Теперь сформулируем и докажем теорему эквивалентности
для Ф-оптимальных планов.
Теорема 2.2. Пусть Ф — выпуклый дифференцируемый
функционал и существует невырожденный Ф-оптималъный план
i*. Тогда 1) Ф-оптимальностъ плана g* (г. е. выполнение (1.21))
эквивалентна тому, что
тахф(х, Г) = 1гО(Г)Ф(Г)> (2.10)
х е= X
где функция <р(х, |) определяется по формуле (2.7); 2) план
сосредоточен в тех точках х е X, в которых
Ф (х, Г) = п1ахф(х, Н- (2-Н)
х <= X
Доказательство Положим ga=(l—а)£*+аВь где
йе(0, 1), и допустим, что план g* оптимален. Тогда
для всех ссе(0, 1) выполняется неравенство
Ф[Ж)]>Ф[т
Поэтому
дФ [D (ga)] I
дъ la=o+
В силу (2.8) для go = это неравенство переписывается в виде
ф(х, Г)<1гФ(Г)О(Г). (2.12)
Из этого неравенства (используя (2.9) для g = g*) получаем
соотношение (2.10) и второе утверждение теоремы.
Пусть теперь выполняется (2.10). Покажем, что план g* оп-
тимальный. Допустим, что план g* неоптимален, и пусть опти-
мальным является план gi. Положим
£а = (1 — а) Г -Fall-
Из выпуклости Ф и определения gi имеем
Ф [D О < (1 - а) Ф [П (Г)] + аФ [D (g,)],
ЗФ I <Ф Р&)]- Ф[Р(Г)]<0.
1а» 0+
Используя (2.6), отсюда получаем
дФ-1^~ I = tr Ф (Г) D (Г) - U (X, Г) (dx) < 0.
aa la=0+ J
С другой стороны, из (2.10) вытекает справедливость нера-
венства (2.12) для всех х^Х. Интегрируя (2.12) по мере %\(dx),
получаем
J ф (X, Г) ?! (dx) < tr Ф (Г) D (Г), (2.13)
что противоречит предыдущему неравенству. Теорема доказана.
108
2.2. Теорема эквивалентности Кифера — Вольфовица. Задачу
поиска £)-оптимального плана (1.27) представим в виде задачи
Т-оптимального планирования с
ip [Al] = _ in det Al.
Из формулы (3.19) приложения 1 получаем
^ [— In det Л1] _
дМ ' т '
откуда для любого плана ?
tr Л4 (?) Ч1, (?) = — tr/^ == — т,
Ф (X, Ю = ~ Г (*) М-1 (?) f (X) = -d (х, ?)
(функция d(x, ?) та же, что и в § 1). Поэтому из теоремы 2.1
с учетом теоремы 1.4 вытекает следующий классический резуль-
тат.
Теорема 2.3 (Кифера — Вольфовица). Если множество ин-
формационных матриц компактно, то следующие утверждения
эквивалентны:
а) ?* = arg max det Л4(?),
£eS
т. е. план ?* D-оптималещ
б) ?*===argmin[maxd(x, ?)],
х^Х
т. е. план ?* 0-оптимален\
в) maxd(x, ?*) = m.
Информационные матрицы всех планов, удовлетворяющих
одному из трех указанных утверждений, совпадают между со-
бой. В точках Xi этих планов d(xi, ?*) = пг.
Теорема 2.3 утверждает, в частности, что D- и G-оптималь-
ные планы совпадают, т. е. задачи D- и G-оптимального плани-
рования эквивалентны. Поэтому теорема 2.3 называется теоре-
мой эквивалентности. Более общие теоремы 2.1, 2.2, а также
аналогичные теоремы для других критериев были доказаны
позднее, но и они по аналогии с теоремой 2.3 были названы
теоремами эквивалентности (другое возможное название тео-
рем 2.1, 2.2— теоремы оптимальности).
Ввиду принципиального значения теоремы 2.3 докажем ее,
не обращаясь к приложению 1 и не используя общие теоремы
эквивалентности. Сначала докажем лемму, которая будет вы-
полнять роль леммы 2.2.
Лемма 2.4. Пусть ? — (1 — а) ?0 + а?ь где а g(0, 1), план
?о невырожден, a ?i произволен. Тогда
^J-ndet^-(ltt) | =Д d (х, ёо) (dx) — m. (2.14)
аа ‘а «О J
Л
Доказательство. Ниже используются следующие два
хорошо известных соотношения: о разложении определителя не-
вырожденной матрицы M=\\in, ||?y = i по элементам строки и
о представлении элементов обратной от нее матрицы ЛС1 =
(2.16)
/-1
т!1=-=(— 1У+1\Мц\!6&1М, I, / = 1......т. (2.16)
Здесь |M,/| — определитель матрицы, полученной из матрицы М
вычеркиванием i-й строки и j-го столбца.
По теореме о дифференцировании сложной функции имеем
д In det М (Ед) =_£___ д det М (Ед) =
да det М (Ед) да
= * V ^etMGa) ^/(Е,)
detM(E„) 2-i dm,, да
i, ч
где пи/ = —элементы матрицы M(ga). Из соотношения
(2.15) получаем
(JiTljj
Используя (2.16), получаем
1 ddetM _ ji
det M дтц m
Кроме того,
дтц(1а) 5[(l-a)mi/(E0) + ami/(l1)] _
---;------------------da--------------тЧ — тч
Следовательно, используя симметричность информационной мат-
рицы, имеем
т
(^о) а>) — "Ч/do)] =
= Д (Ы [mlf (g,) - m(l (go)] = tr ЛГ* (g0) [Af (g.) - M (go)] =
= tr M~‘ (g0) M (gt) - tr Zm = tr M~* (g0) J f (x) Г (x) gt (dx) - m =
= J f? (x) Af-‘ (go) f (x) gj (dx) - tn = J d (x, go) g1 (dx) - m.
Лемма доказана.
Следующее утверждение, по сути, является частным случаем
еммы 2.1.
НО
Лемма 2.5. Для любого невырожденного плана д* спра-
ведливо
d (х, g*) (dx) =/п, (2.17)
maxd(x, (2.18)
х е X
Доказательство. Аналогично доказательству леммы 2.1
имеем
$ d (х, Г) Г (dx) = J fT (х) D (Г) f (х) Г (dx) =
= tr D (f) J f (x) f r (x) Г (dx) = tr D (Г) M (Г) = tr lm = m,
t. e. (2.17) выполняется. Неравенство (2.18) следует из (2.17).
Лемма доказана.
Доказательство теоремы 2.3. Обозначим через £а
план £а = (1 — a)g* + a£i, где ае(0, 1). Сначала предположим,
что выполнено а), т. е. план g* D-оптимален. Тогда detЛ1 (£*):>
detM(ga), и поэтому
din detM(ga) I <()
<?« 1а-0+ ""
Применяя (2.14) для £0 = В*> £1 = = { * }> Для всех хеХ имеем
? de2 М (gct) I = d(x, g*)-m<0.
т 1(х=0
Используя (2.18), отсюда получаем в) и G-оптимальность плана
g*. Следовательно, доказали, что из а) следуют б), в).
Пусть теперь выполнено б), и предположим, что G-оптималь-
ный план £*, для которого
maxd(x, (2.19)
х^Х
(для D-оптимального плана в (2.19) будет равенство, следова-
тельно, для G-оптимального — неравенство), не является
D-оптимальным (т. е. не выполнено а)). Тогда в качестве
выберем D-оптимальный план. Из выпуклости функционала
(—In det М (g)) имеем
In det М (U >(1 - a) In det М (Г) + а In det М (^).
Поэтому
д In det At (ga) I ln det M _ ln det м > 0
flu la=o +
Прнменяя (2.14) для £ = В*, получаем строгое неравенство
rf(x, £*)£i (dx) > т9
Ш
которое противоречит (2.19). Это означает, что из б) следует а)',
а поэтому ив). Эквивалентность утверждений а), б), в) дока-
зана.
То, что в точках х/ D-оптимального плана |* имеет место
d(xt,1-*) = пг, следует из утверждения в) и соотношения (2.17).
Тот факт, что информационные матрицы всех D-оптимальных
планов совпадают, вытекает из строгой выпуклости критерия
D-оптимальности (—In detМ) и теорем 1.2, 1.3. Теорема дока-
зана. 4
2.3. Обобщенный D-критерий. Для обобщенного D-критерия
(1.32) функция (2.7) имеет вид
ф (X, ё) = f (X) D Й) A [ATD G) Л]-1 ATD (g) f (х),
а правая часть (2.10) в случае, когда план невырожден,
равна
1гО(Г)Ф(Г) = «.
Поэтому, если множество компактно и план невырожден,
то, согласно теореме 2.2, утверждения
а) I* = arg min det [ATD © Л];
б) £’ = arg min [max ф (x, £)];
xgX
в) тахф(х, |‘) = $.
x e X
эквивалентны.
Это и есть теорема эквивалентности для критерия обобщен-
ной D-оптимальности.
2.4. Линейные критерии. Для L-критерия tr LD функция (2.7)
имеет вид
Ф (х, I) = fT (X) D (£) LD а) f (х), (2.20)
а правая часть (2.5) (для случая невырожденного плана £*)—
вид
tr D (g‘) ф (£’) = tr LD (|‘). (2.21)
Формулы (2.20) и (2.21) следуют из того, что для L :> 0
Эту формулу легко проверить непосредственно (проверьте!), но
можно сослаться и на формулу (3.10) из приложения 1.
Таким образом, теорема эквивалентности для L-оптимальных
планов имеет следующий вид.
Теорема 2.4. Пусть множество компактно и существует
невырожденный L оптимальный план (если rangL — tn, то
112
оптимальный план всегда невырожден). Тогда следующие
утверждения эквивалентны-.
а) £* — arg max tr LD (£);
£ s S
6) тахф(х, g*) = tr LD(l*)
x<=X
(здесь ф(х, g) определяется no (2.20)). При этом в точках х-,
L-оптимального плана имеет место равенство
<p(xf, n = tr LD&).
Для критерия 4-оптимальности функция (2.20) имеет вид
Ф(х, l) = fT(x)D2®f(x).
Для Q-оптимальности:
Ф (х, g) = d2 (х, z, g) w (z) dz,
Z
где функция
d(x, z, $ = fT(x)D®f(z)
пропорциональна ковариации НЛН-оценок функции регрессии в
точках х, z.
Для экстраполяции в точку:
Ф (х, g) = d2(x, х0, £).
2.5. Теорема эквивалентности для минимаксных критериев. Критерий оп-
тимальности ^'[М] будем называть минимаксным, если
Т' [М] = max Т [М, и], (2.23)
ut= U
где множество U — компакт, функция ^[Af, и] непрерывна по и, и при всех
и е U Т является выпуклым дифференцируемым по элементам матрицы М
функционалом на множестве информационных матриц 2W, которое будем
предполагать компактным. Минимаксными являются, в частности, рассмо-
тренные в § 1 критерии Е-, G- и AfV-оптимальности.
Согласно хорошо известному результату выпуклого анализа [34], произ-
водная по направлению М — М* из точки М* для минимаксного критерия
(2.23) равна
-Д(ЛГ, М) = sup -а)Л1‘ + аМ, и], (2.24)
и е U (£*)
где U (£) — подмножество множества U, состоящее из точек
и* = arg max Ф1 [/И (£), и],
и^и
т. е. решений экстремальной задачи max У [/И (£), и].
не и
С учетом (2.24) и полученного в начале параграфа выражения для про-
изводной по направлению дифференцируемого критерия необходимое и до-
статочное условие оптимальности (2.1) записывается в виде
sup inf \ [Ф (X. u) £ (du)> °, (2.25)
£ X X J
U (Г)
113
где^супремум берется по множеству вероятностных мер, сосредоточенных на
Ф (х, g. а) = fT (х) V (Af а) / (х),
Упражнения.
1. Сформулируйте теорему эквивалентности для критерия Q-оптималь-
ности.
2. Покажите, что непрерывный план £* является одновременно D- и
Л-оптимальным, если для некоторой константы с > 0 выполнено =
— Обобщите это утверждение для произвольного критерия А-опти
мальности (L !т)'
3. Сформулируйте теорему эквивалентности для критериев Е- и AlV-опти-
мальности.
§ 3. Некоторые следствия теорем эквивалентности
3.1. Оптимальные планы для полиномиальной регрессии на
отрезке. Сначала рассмотрим задачу построения непрерывных
D-оптимальных планов для полиномиальной регрессии на от-
резке, т. е. для схемы измерений (1.1) с X =[—1, 1]:
= /= 1, ...» т. (3.1)
Функция d(x, g) имеет вид
т
d(x, g) = r(x)D(g)/(x)= £ dtl®x^-\ (3.2)
I, /»|
где (i, j= 1, m)—элементы матрицы D(g). При фик-
сированном плане g функция (3.2) представляет собой много-
член степени 2т — 2, ее производная — полином степени 2т — 3,
поэтому d(x,g) как функция от х имеет на интервале (—1,1)
не более чем 2т — 3 локальных экстремумов. Учитывая возмож-
ные локальные экстремумы в точках 1 и —1, получаем, что об-
щее количество локальных экстремумов функции (3.2) не пре-
восходит 2т — 1.
Поскольку D-оптимальный план всегда невырожденный и
в силу теоремы 2.3 сосредоточен в точках локальных максиму-
мов функции (3.2), а локальные максимумы функции (3.2) че-
редуются с локальными минимумами, то функция (3.2) (при
D-оптимальном плане £) на промежутке [—1, 1] имеет ровно т
локальных максимумов, два из которых —в точках 1, —1. Та-
ким образом, D-оптимальный план имеет вид (1.8) с п — т,
— 1 = <С Хт— i Хт == 1-
Из формулы (1.17) приложения 1 следует, что для любого
плана указанного вида
tn
det/И(Ю = Пр, (detF)2, (3.3)
i — l
где
114
Из (3.3) сразу следует, что для D-оптимального плана
р;=р;=... =р;„=i/m. (3.4)
Далее
det F = det || х'~= ft (Xl - хД (3.5)
S4”1
Продифференцируем (3.5) по xt (I — 1.....т) и производ-
ные приравняем нулю. Получим, что точки D-оптимального
плана являются решением системы уравнений
х '- + • • • + ----Ь г — г----h • • • + х Jr; ' — 0* (3.6)
xi~ Х1 xl xi-t xi *i+l I m
Положим
<p (x) = (x — x2)... (x — xm_t).
Тогда (3.6) примет вид
—Ч---------Ц- + -М-Т = 0’ г‘ = 2..........т-1, (3.7)
+ 1 - 1 ф' (х.) 4 9
ИЛИ
(х2 — l)qp"(x.) + 2x.qp'(x.) = 0, / = 2, m — 1
Последнее равенство говорит о том, что многочлен
(х2 — 1) ф" (х) + 2хф' (х)
обращается в нуль в нулях многочлена ф(х) и имеет такую же
степень т — 2. Следовательно,
(х2 — 1) ф" (х) + 2хф' (х) = const ф (х).
Сравнивая коэффициенты при хш~2, находим, что const — 3 и
функция ф(х) является решением дифференциального уравне-
ния
(х2 — 1) ф" (х) + 2хф' (х) — Зф (х) = 0.
Из теории ортогональных многочленов известно (см. [37]),
что это уравнение на множестве многочленов имеет единствен-
ное с точностью до постоянного множителя решение — производ-
ную m-го полинома Лежандра:
Ф (х) = Р'т (х).
Следовательно, D-оптимальный план единственен и сосредото-
чен с равными весами в нулях полинома
(1-х2)^(х)^(1-х2)Р'т(х).
Таким образом, доказана следующая теорема.
Теорема 3.1. Непрерывный D-оптимальный план для по-
линомиальной регрессии на отрезке [—1, 1] единственен и сосре-
доточен с равными весами в пг точках, являющихся нулями по-
линома (1 — х2) р'т (х), где Рт(х) — полином Лежандра.
115
Отметим, что из доказательства теоремы вытекает способ вы-
числения верхней границы числа I локальных максимумов функ-
ции d(x, £) для случая, когда базисные функции ft(x) (i— 1, ...
.. , m)—произвольные полиномы на отрезке Х — [а, &]. Пусть
К — максимальная степень указанных полиномов, тогда для лю-
бого плана g степень полинома d(x,%) равна 27(, число локаль-
ных экстремумов функции d(x, |) (включая экстремумы в точ-
ках а, Ь) не превосходит 2/C + 1 и, следовательно, /^К+1.
Для случая, рассмотренного в теореме, К — т— 1 и 1 — т. По-
добные рассмотрения нужны при выборе алгоритмов поиска
максимума функции d(x, £), которые являются составной частью
алгоритмов из § 4.
Из утверждения теоремы 3.1 и известных результатов об
асимптотическом распределении нулей ортогональных полино-
мов (см. [37]) вытекает тот факт, что при возрастании т по-
следовательность D-оптимальных планов %>т для полиномиаль-
ной регрессии степени т—1 на отрезке [—1, 1] слабо сходится
к плану
^(dx) = —7=rdx, (3.8)
л VI — х2
т. е. к вероятностной мере с плотностью
План (3.8) можно использовать в случае, когда точная сте-
пень полинома неизвестна, чтобы оценивать параметры сразу
нескольких полиномиальных регрессий с целью выбора среди
них наиболее подходящей. В этой связи возникает вопрос о том,
как ведут себя характеристики точности предельного плана |<»
при его использовании для полинома точной степени п.
Пусть dn(x, |)==f(rn)(x)M-‘(g)/!(n)(x) —дисперсия оценки по-
линома точной степени п в точке х по наблюдениям плана
f(rn)(x)=(l, х...хп)— вектор базисных функций; М(га)(|) —
= $ № Ап) (х) — информационная матрица для регрес-
— 1
сии степени n;d„(g) = max dn(x, g) — максимальное значение
XS(-I, l|
дисперсии на интервале наблюдения.
Используя инвариантность величины dn(x,l-) относительно
выбора базиса (см. теорему 1.5), переходим от полиномов 1, х,
х2, ... к ортонормированным относительно меры полиномам
Чебышева I рода:
1, У2Г,(х), ..., д/2Т„(х),
Tk(cos<p) = cos/г<р, k-— 1, ...» га.
Н6
Получим
П
d„(x, g)=l+2X^W==« + y + 4^W>
где t7ft(cosqp)= sin(jfe + l)<p/sin(p — полином Чебышева II рода
от переменной х = созф. Отсюда dn(l£x>') = 2п + 1, что примерно
вдвое больше оптимального значения dn (£*) = п Ц- 1.
В качестве иллюстрации на рис. 7 для случая п = 4 приве-
дены графики функций d (х, d (х, и d (х, g0) (обозна-
чены соответственно цифрами 1, 2, 3), где go—равномерный
план
g0(dx)==ydx, хе[- 1, 1]. (3.9)
Обратимся к простейшим видам полиномиальной регрессии
на отрезке X — [—1,1].
Пример 3.1. Дан полином нулевой степени q(x, 0)=0ь
Очевидно, что для любого плана g выполнено равенство A4(g) =
==Z)(g)=r, поэтому любой план является оптимальным.
Пример 3.2. Дана регрессия первого порядка
П(х,0) = О1 + О2х, = *)г, Х = [~1, 1].
117
Для любого плана £
W) =
1
х% (dx)
— 1
1
*5 (dx)
— 1
1
J x2l(dx)
-1
1 Г 1 I2
det М (g) = x2l (dx) — xg(dx) j .
(3.10)
Первый член в правой части (3.10) не больше единицы (так
как хе[—1, 1]), а второй не больше нуля. Поэтому, если най-
дется план £*, для которого
1
J x2g (dx) = 1, J (dx) = О,
— 1
то этот план и будет оптимальным. Первое из этих условий
показывает, что план может быть сосредоточен только в точ-
ках 1, —1, а второе — что этим точкам он может приписывать
только равные веса. Такой план существует и имеет вид
& = {1/2 1/2 }'
Проверим теперь D-оптимальность плана (3.11) по теореме
эквивалентности Кифера — Вольфовица. Имеем
M(n=|J ?|- n=(i. х)г=1+х2.
Максимум функции 1 + х2 равен 2 и достигается только в точ-
ках 1, —1, и поэтому план (3.11) является D-оптимальным.
Пример 3.3. Дана квадратичная регрессия
n(x, 0) = e1 + 02x + e^x3, f(x) = (l, х» х2)г, (3.12)
на отрезке [—1,1]. Проверим с помощью теоремы 2.3, что план
I* = J 1 £ 1 1/3 0 1 1 1/3 l/з J (3.13)
О-оптимален. Действительно,
II 1 0 2/3II 3 0 -3 II
М(П= 0 2/3 0 , м~,(Г)= ° 3/2 ° 1
II2/3 0 2/31| -3 0 9/2 ||
d(%, ё*) = з- -|х2(1-х2).
118
g
Максимум функции 3 —ух2^—х2) равен 3 и достигается
только в точках —1,0, 1.
Более сложно построить дискретный D-оптимальный план
для случая, когда N не кратно 3. Можно доказать (доказатель-
ство здесь не приводится), что при любом N дискретный D-опти-
мальный план для квадратичной регрессии на отрезке [—1,1],
так же как и непрерывный, всегда сосредоточен в точках —1,
0, 1.
В связи с обсуждением дискретных оптимальных планов в
следующем примере покажем, что в отличие от непрерывного
случая дискретные D-оптимальные планы могут не совпадать
с дискретными G-оптимальными планами.
В этом легко убедиться на следующем примере.
Пример 3.4 (продолжение примера 3.2).Пусть X = [—*1, 1],
^(х^Й! -|- 02х, и пусть число измерений задано и равно 3. Сна-
чала найдем дискретный D-оптимальный план g вида
& = {1/з 1/з 1/з}’ (3.14)
где по крайней мере две *из точек хь х2, х3 различны (иначе
план (3.14) является вырожденным).
По определению
з
М ® = X "З = "з [ + Х2 + х3 xf + X* + х| ] ’
det М (g) "g (xf 4" х2 -4- х| х|хз— ^2^з)'
Приравнивая частные производные от det М(g) по xj (j = 1, 2, 3)
нулю, получаем систему уравнений
2х, — х2 — х3 — 0,
— Х| + 2х2— х3 = 0,
— Xi— х24-2х3 = 0,
решением которой является xi = х2 = хз = с, где с — произволь-
ная константа. Для этих значений xi, х2, х3 план (3.14) вырож-
ден и, следовательно, не является О-оптимальным.
Таким образом, в качестве xi, хг, хз могут быть выбраны
только граничные точки 4-1, —1. Для обоих получающихся
планов
t _J-i и t _|-1 ч
S1 11/3 2/3 f’ 52 ~ 12/3 1/3 J
значения det М (g,) совпадают:
det М (g0 = det М (g2) = 8/9.
119
Для плана gi имеем
«(MJ, п
4-з/1 "ЯШ=
=[4--h -4+4*]Ш-4-4‘-4‘+4*’-
= 4- (9 - 1 + 1 - Ьх + 9х2) = 1 + -у <3х “ О2,
max d(x, £i) = d(— 1, £i) = 3.
*e[-l. 1]
Аналогично проверяется (проверьте!), что
max d(x, g2) = d(l, g2) = 3.
xe[-l, 1]
Теперь рассмотрим план
g _f-l 0 1 1
S3—U/3 1/3 i/3j •
Для этого плана имеем
"И-тЁ 3> ^> = С з%1-
<Ц1, Ы = 1+4--'г’
max d (x, £3) = 5/2 < 3.
xel-l, 1]
Следовательно, дискретные D-оптимальные планы £i и g2 по
критерию G-оптимальности хуже плана |3 и поэтому не являют-
ся дискретными G-оптимальными.
Покажем, как для построения D-оптимальных планов может
быть использована теорема 3.1. Для этого сначала приведем не-
сколько первых многочленов Лежандра:
Р0(х)=1, Р1(х) = х, Р2(х) = (3х2—1)/2,
Р3 (х) = (5х3 - Зх)/2, Р4 (х) = (35х4 - 30х? + 3)/8,
Р5 (х) = (63х5 - 70х3 + 15х)/8,
Р6(х) = (231х6-315х4+ 105х2 — 5)/16.
В общем виде многочлен Лежандра Рп определяется по фор-
муле
Пример 3.5. Х = [-1, 1], г)(х) = е1 + е2х + &3х2 + е1г3. По
теореме 3.1 непрерывный D-оптимальный план сосредоточен
в четырех точках Xj — — 1, х2, х3, х4 = 1 с равными весами.
120
Точки х*, хз являются нулями многочлена Рз (х) =(5х3 —
— Зх) = -у (15х2 — 3) = -у (5х2 — 1). Следовательно, х2 =
= —1/V5, х3=1/л/'5.
Перейдем к примерам применения теоремы эквивалентности
для линейных критериев оптимальности.
Пример 3.6. Д-оптимальный план для квадратичной рег-
рессии т)(х) = 01 + 02-^ + бзх2 на отрезке [—1, 1].
Из соображений симметрии предположим, что Д-оптималь-
ный план имеет вид
1-Р /У (ЗЛ5)
и найдем р (0 < р 1) из условия минимума функционала
tr D(£). Имеем
[1 о р-i Г 1/(1-Р) о —1/(1 -р)
о Р 0 , D(g)= О 1/Р о
Ip о pj L—i/(i —р) о i/[p(i —р)]
trD(£) = 2/[p(l — р)].
Минимум этого выражения достигается при р=1/2 (проверьте!).
Используя теорему эквивалентности (теорему 2.4 для L =
= Лп), покажем, что полученный план
(-1 О I )
[1/4 1/2 1/4 J
Д-оптимален. Действительно,
2
О(Г)= о
L-2
[2
0
—2
= [2-2х2 2х
О -2-1
2‘ о, trD(D = 8,
О 4J
Г 2 — 2х2 "
—2 4- 4х2] 2
1—2 + 4х2.
= (2 - 2х2)2 + 4х2 + (2 - 4х2)2 = 8 - 20х2 (1 - х2).
Очевидно, что
maxq>(x, Г) = 8 = tr D (g‘),
jce X
и этот максимум достигается в точках —1,0, 1, откуда и следует
Д-оптимальность плана д*.
Пример 3.7 (продолжение примера 3.6). Пусть в обозначе-
ниях предыдущего примера O[D] = trLD, где L — диагональ-
ная матрица с элементами 1, 2, 1. Из соображений симметрии
121
опять предположим, что оптимальный план имеет вид (3.15),
и выберем оптимальное значение р. Имеем
Г1 0
tr £0 (|) — tr I ° 2
L0 О
01 Г 1/(1 — р)
° о
ij L-1/(1 - р)
О
1/Р
О
-i/(i-Р) л
о
1/1р(1-р)1-
= 1/(1 — р) + 2/р + 1/[р (1 — р)].
Минимизируя эту функцию по р, получаем р* — 3 — д/б (про-
верьте!).
Проверим £-оптимальность получившегося плана
, f — О, 11
=t(3 —д/б)/2. л/б~—2. (3 — V6D/2J
с помощью теоремы 2.4. Имеем
trD(g*) = 5 + 2 д/6,
Ф (х, Г) = -+ з3х4- —±х2 + 5 + 2д/6,
шах ф(х, £*) = <р(0, £•) = <₽(!, £’) = <₽(—1, Г) = 5 + 2^6.
хе[-1, 1]
Следовательно, план £* L-оптимален.
Приведем теперь пример, показывающий, что информацион-
ные матрицы Di-оптимальных планов могут различаться.
Пример 3.8. Пусть Х = [—1, 1], ц(х) = 01 + 02*,
о]. »<»<!•
__(—а а) «. _(—6 0 6)
|— (1/2 1/2 j’ fe2—U/3 1/3 1/3J’
С помощью теоремы эквивалентности проверим, что планы
и g2 D-оптимальны, т. е. минимизируют det4D(g)4 по всем
планам g. Имеем
Г1 01 Г1 0 1
"«>=[» «4 «-4
Г1 ° 1 Г1 0 1
M(52) = [o 2&2/3 J’ D^)=Lo 36-2/2j’
Для обоих планов £ = gi и £ = £2
Ф(хЛ) = [1 х]ЛП(|)Л[ ‘ ] = [1 x][J
шахф(х, g) = 1,
х^Х
откуда следует Di-оптимальность планов gi и g2 несмотря на
то, что их информационные матрицы различны.
3.2. D-оптимальные планы для тригонометрической регрессии
на отрезке.
122
Теорема 3.2. Пусть Х = [0,2л), m — 2k + 1,
к
Г) (х, 0) = 0, + S [02/ cos /х + 02/+| sin /х]. (3.16)
/=|
Непрерывным D-оптимальным планом для регрессии (3.16) яв-
ляется любой план
<ЗЛ7)
где число N четно,
xi = -^-2n, 4 = 1, .... N, ЛГ>2&+1
(х/ — равноотстоящие точки на [0,2л)), а также равномерный
план
l(dx) = -^-dx. (3.18)
Доказательство. В силу ортогональности базисных
функций
f(x) = (l, sin х, cosx, ..., sin kx, coskx)T
план (3.18) имеет диагональную информационную матрицу
'1 0 0 ... 0 -
0 1/2 0 ... 0
0 0 1/2 ... 0
.0 0 0 ... 1/2 J
(3.19)
Действительно, для любого натурального / имеют место
2л 2л
sin jxdx = 0, cos /х dx = 0, (3.20)
о о
2л 2л
Jr$sin2jxdx = -^r$(
о о
-±- $ COS2 /X dx = J -l+^L dx = 4-.
о о
Представляя произведения синусов и косинусов от аргументов
/х и kxAk j) через полусумму (полуразность) синусов и коси-
j — k j + k
нусов от аргументов — х, — х, получаем нулевые внедиа-
гональные элементы матрицы М(£).
Обратная к матрице (3.19) равна
г1 0 ... от
L0 0 ... 2J
123
следовательно,
d(x, =
= 14-2 (sin2 x 4- cos2 x 4- ... 4- sin2 kx 4- cos2 kx) = 1 4- 2fe = tn.
В силу теоремы 2.3 получаем, что план (3.18) D-оптимален.
Для того чтобы доказать D-оптимальность плана (3.17), до-
статочно проверить, что его информационная матрица имеет
вид (3.19). В силу указанных выше тригонометрических фор-
мул достаточно показать, что имеют место аналоги формул
(3.20):
N N
У sin /ж, = 0, У, cos jxt = 0.
i == 1 i —- 1
Эти форхмулы для четного W следуют из того, что прямые, на-
правленные из начала координат под углами <xz — jxt =
= -2л(г = 0, ..., N—1), пересекают единичную окруж-
ность в точках, расположенных симметрично относительно обеих
координатных осей. Теорема доказана.
Из теоремы 3.2 следует, в частности, что D-оптимальный
план для регрессии вида (3.16) является D-оптимальным и для
регрессии того же вида, но с меньшим числом неизвестных па-
раметров.
3.3. Пример D-оптимального плана, сосредоточенного в максимально воз-
можном числе точек. Во всех приведенных в данном параграфе примерах
оптимальные планы можно было выбирать сосредоточенными в минимально
возможном числе точек, равном т. Такой простой ситуация бывает далеко не
всегда. Приведем пример случая, когда не существует оптимального плана,
сосредоточенного менее чем в m(m 1)/2 точках для произвольного т > 1
(при т — 1 проблемы нет).
Пусть X = {х^ 11 i т} — конечное множество, состоящее из
/п(т+1)/2 точек хц. Выберем число а такое, #го 2(2m —4)/(2т— 3) <
<а<2 (например, а= (4m— 7)/(2m— 3)). Положим h (xj/) == V<*fy/,
fi (xlj) == + fy/, / =/=/> где t, /, I = 1, ..., m, a
д f 0, t ¥= /,
6"-U, i = j,
есть символ Кронекера. Пусть g — произвольный непрерывный план на мно-
жестве X, согласно которому вес точки хц равен рц
Элементы информационной матрицы М (£) плана g равны
/—1 т
тц (Ю = Раа 4- У Ри 4- У Рц, тц (?) = тц (|) = рц, i < j.
l = i j = i + l
=•
Пусть есть D-оптимальный план, который точкам хц приписывает веса
рц. Покажем, что все эти веса р^ строго положительны.
Поскольку критерий D-оптимальности является строго выпуклым функ-
ционалом, то информационные матрицы всех D-оптимальных планов совпа-
дают. Из приведенных выражений для элементов информационной матрицы
следует, что оптимальный план через матрицу А4(£*) определяется одно-
значно и поэтому также единственен.
Далее, D-оптимальные планы инвариантны относительно перестановок па-
раметров (частный случай линейного преобразования параметров). Поэтому
124
будем рассматривать только класс планов, инвариантных в следующем смысле.
Для любой перестановки л = (jti, ..., лт) элементов 1.....т определим
gQi = %
если
gxn = s 11
(*Я/Я|. если
Тогда
(ge)rHg*) = 07 И*)
и инвариантность планов — это инвариантность относительно всевозможных
преобразований g указанного вида. Для всех инвариантных планов
Рн = а, РИ^Ь, i<i,
где параметры а и b удовлетворяют соотношению
та + т (т — I) Ь/2 == 1. (3.21)
Для таких планов
М (|) = (аа 4- (/и — 2) b) 1т + bJm, (3.22)
Jm — матрица порядка тХт. состоящая из единиц. Определитель матрицы
(3.22) равен
det М (£) = [аа + 2 (т - 1) Ь[ [аа + (т - 2) />]"*“*. (3.23)
Из (3.21) выразим а и Ь:
а = [1 —• т (т — 1) Ь/2}1т, (3.24)
b = 2 (1 - та)/[т (т - 1)]. (3.25)
Подставив (3.24) в (3.23) и взяв производную oi det М (g) по Ь, полу-
чаем, что эта производная при b = 0 отрицательна (в случае а< 2). Под-
ставив (3.25) в (3.23) и взяв производную от det М (|) по а, получаем стро-
гую положительность этой производной при а = 0 (в случае а > 2(2т — 4)/
1(2т — 3)). Следовательно, для D-оптимального плана а =^= О, Ь #= 0. Поэтому
D-оптимальный план сосредоточен во всех точках множества X.
Упражнения.
1. Для линейной регрессии т)(х) * 01 Ц-02х на отрезке [—1,1] сравните
по критериям Д-, Q-, G-, AfV- и D-оптимальности планы
( — 1 1 1 J—1 0 1 1 _1_ ,
11/2 1/2J’ (1/3 1/3 1/Зр 2
Укажите, какие из них являются Д- и G-оптимальными.
2. Для квадратичной регрессии т| (х) = 0< + 02х + 0зх2 на отрезке
[-1. И:
а) постройте дискретный D-оптимальный план для Af — 12 измерений;
б) сравните по критериям Д-, Q-, G-, MV- и В-оптимальности планы
1-1 0 1 | ( — 1 0 1 ) J_ .
(1/4 1/2 1/4J’ (1/3 1/3 1/ЗГ 2 ЛХ'
в) с помощью теорем эквивалентности проверьте, являются ли выписан-
ные планы оптимальными по указанным критериям.
3. Используя теорему 3.1, постройте D-оптимальные планы для полино-
миальной регрессии четвертой степени на отрезке [—1, 0].
4. Не используя теорему 3.1, докажите, что план из примера 3.5 является
D-оптимальным.
5. Для квадратичной регрессии q(x) = 0i + 02х + 03х2 на отрезке [—1, 1]
постройте в множестве планов вида (З.Ш) Q-оптимальный план для w(x) = lt
12о
Z — X, после чего с помощью теоремы эквивалентности убедитесь, что по-
строенный план является Q-оптимальным в множестве 3.
6. С помощью теоремы эквивалентности проверьте, что для функции
регрессии т] (х) — 01 + 02х + 0зх2 + О4*3 на отрезке Г—1, 1] Q-оптимальным
планом при w(x) = I, Z = X является план
..(-1 -1/V5 1/V5 П
I Р 1/2- р \/2 — р рУ
где Р = 1/(2 + 2д/5).
7. С помощью теоремы эквивалентности проверьте, что для функции ре-
грессии q(x) = 01 + 02* + 03х2 на отрезке [—1, 1] оптимальным планом для
экстраполяции в точку хо = 2 является план
(-10 1 )
Г = < S.
b (1/7 3/7 3/7J
Сравните этот план с D-оптимальным.
8. Постройте D-, G- и Д-оптимальные планы для функции регрессии
t](x) = 0! -f-02sinx на отрезке [0, 2л).
9. Для регрессии 4 (х) = 0i + 02 sin х + 0з cos х на отрезке [0, 2л) по-
стройте дискретный D-оптимальный план для проведения V = 5 измерений.
Проверьте, является ли построенный план непрерывным Я-оптимальным.
10. Используя формулы тригонометрии, покажите, что требование четно-
сти числа /V в теореме 3.2 излишне.
11. Покажите, что планы (3.17) и (3.18) являются 4- и Q-оптимальными
(для w(x) = 1, Z — X) по оцениванию параметров функции регрессии (3.16).
12. Пусть множество планирования
Х = { х = (х (1),
k
>,x(k))T 22[х(г)]2<!
/ = 1
есть единичный 6-мерный шар, а функция регрессии
k
Т] (X) = 0> + £ 0г+1х (/) + £ е х (I) х (/)
<=1 i<i
есть полином второго порядка (здесь число параметров равно т =
= (6 + I) (6 + 2)/2). Доказать (сначала для случаев 6 = 2 и 6 = 3), что
D-оптимальным является план £* = agi + (1 — а)|2, где а = 1/т, план gi
сосредоточен в нуле, а план £2 представляет собой равномерную меру на
поверхности сферы
k
£ Iх (012 = 1
Z = 1
X = (х (1).......X (k})T
§ 4. Численные методы построения оптимальных планов
4.1. Построение непрерывных оптимальных планов. Рассмот-
рим некоторые особенности исходной экстремальной задачи по-
иска минимума Ч7 [А4 (£)]. Эта задача, как ясно из следствия 1.1,
может быть сведена к конечномерной задаче с размерностью
не более чем (l/2)m(m+ 1)(^+ 1), где tn—число неизвестных
параметров, a k — размерность X (Xcz R*).
Получающуюся задачу оптимизации можно решать с по-
мощью общих методов численного поиска экстремума. При этом |
возможны два подхода. Первый из них — поиск минимума Т[А4] |
в пространстве элементов информационной матрицы при огра- |
126
ничениях М^ЯЙ, где ЯЙ—множество информационных матриц:
ЯЙ ={Л4 (g) | g е S}. Поскольку ф* [Л4] = Ф [О] — выпуклая функ-
ция, то имеем задачу выпуклого программирования, для реше-
ния которой имеется большое число хорошо изученных числен-
ных процедур поиска оптимального решения. Второй подход —
минимизация T[A4(g)] по набору аргументов {xi9 piYl^x при
п
ограничениях е X, р, О, £ pt = 1. Эта задача не является
задачей выпуклого программирования.
В обоих случаях серьезной трудностью является большая
размерность экстремальной задачи. При использовании первого
подхода дополнительную трудность представляют описание об-
ласти ЯЙ и поиск плана g*, соответствующего М* (оптимальной
точке из Яй), при котором необходимо решать нелинейную си-
стему алгебраических уравнений относительно {ph При
втором подходе основная трудность экстремальной задачи со-
стоит в ее многоэкстремальности.
Опишем методы, использующие специфику минимизируемых
функционалов. Классический подход к задаче построения опти-
мальных планов
В* = arg min Ф (О (В))
состоит в следующем. Пусть имеется план gs. Рассмотрим план
gs+1 =(1 —a)g5+ ag 1). При достаточно малых а и
необходимой гладкости функции Ф по формуле Тейлора имеем
Ф [D (U1)] « Ф [D (gs)] + аЛ [D (U, D (g)],
где Д(Л, В)— производная функционала ф в точке D(g$) по на-
правлению 0(B)— ^(В^) (определена в п. 2.1 с заменой Y на
ф). Естественно выбрать план g таким, чтобы величина A[D(gs),
0(g)] была мала (но велика по модулю).
Одним из таких планов является план g = g(x(s)) с единич-
ной мерой, приписанной точке
x(s) =argmax<p(x, gs). (4.1)
re X
Действительно, в классе планов вида
L,+i = (l — a)L + «L
(где g*— произвольный план) при малых а максимальное умень-
шение функционала Ф достигается на плане
(1 — a)^ + a|(x(s)),
поскольку по лемме 2.1
d(DfD(L^i)]| о Г
----------1 |Г = tr D (У Ф (В,) - J ф(х, у t (dx), (4.2)
а максимальное значение \ ццх> Bs)B*(^^) равно тахф(х, gs)
127
и достигается в случае, когда мера l*(dx) сосредоточена в точке
(4.1).
Таким образом, производная (4.2) минимальна в направле-
нии плана %(xs), что соответствует локально максимальному
уменьшению функционала в направлении плана g(xs). Если
указанные действия повторять несколько раз, то получим сле-
дующий алгоритм, основной принцип которого совпадает с прин-
ципом градиентного метода — классического общего алгоритма
локальной оптимизации.
Алгоритм 4.1 (процедура Федорова — Уинна).
1) Выбираем невырожденный начальный план g0 вида (1.8),
полагаем $ = 0.
2) Отыскиваем точку (4.1).
3) Строим план
5s+l ==: (1 ““ Ys) 5s 4" Ys5 (X(s))
и переходим к шагу 2) с заменой s на s + 1.
Скорость сходимости этого алгоритма в значительной сте-
пени определяется выбором последовательности {.yj, который
может быть осуществлен различными способами, аналогичными
способам выбора подобных последовательностей для класси-
ческого градиентного метода. Приведем два из них, наиболее
известных и хорошо себя зарекомендовавших.
Первый из них —
Vs — arg min Ф [D ((1 — у) L + (4.3)
Y>0
г. e. в качестве выбирается то значение у, которое минимизи-
рует значение критерия оптимальности в множестве планов
вида (1 — у) Ь + VK-M-
Второй способ, называемый методом деления пополам, за-
ключается в том, что в качестве ys выбирается 1, если вы-
полнено неравенство
Ф [П ((1 — Ys-i) 5s + Vs-15 (Xs))] < Ф [D (У],
в противном случае ys-i уменьшается вдвое до момента выпол-
нения неравенства, после чего уменьшенное значение ys-i и вы-
бирается в качестве у«.
Алгоритм 4.1 и рассмотренные ниже его модификации эф-
фективны при малых размерностях множества X cr R* (скажем,
&<10). При больших размерностях X (k одного порядка с
т(т+ 1 )/2 или более) целесообразно искать оптимальную ин-
формационную матрицу, а потом решать систему нелинейных
уравнений для определения точек и весов оптимального плана.
Несмотря на то, что сходимость алгоритма 4.1 может быть
получена на основе общих теорем о сходимости методов гра-
диентного типа, мы докажем теорему о сходимости этого алго-
ритма, поскольку приводимое доказательство достаточно про-
стое и дополнительно проясняет сущность самого алгоритма.
128
Сначала сформулируем вспомогательное утверждение.
Лемма 4.1. Пусть выполнены условия теоремы 2.2. Тогда
для любого невырожденного плана £
max ф (х, g) - tr D (g) Ф (g) > Ф (D (g)] - min Ф р (g)]. (4.4)
xc=X I
Доказательство. Рассмотрим план
ga = (1 - a)g + ag*.
где g* — Ф-оптимальный план. В силу выпуклости Ф
Ф [D (la)] < О - а) Ф Р (I)] + аФ [D (g*)],
|а=0+ < Ф Р (Г)] -ФР (I)].
С другой стороны, из формулы (4.2) для g, — g, g* = g* имеем
I = tr D (g) Ф (g) - ( ф (x, g) g* (dx) >
сих ia»o+ J
> tr D (g) Ф (g) - max Ф (x, g).
x<=X
Объединяя эти неравенства, получаем (4.4). Лемма доказана.
Из утверждения леммы 4.1 следует, в частности, простое
правило прекращения счета в алгоритме 4.1 (то же самое пра-
вило можно использовать и при использовании приведенных
ниже алгоритмов 4.2, 4.3).
Пусть задана необходимая точность конечного результата
Ф Р (Is)] - inf Ф р (I)] < V, v > 0.
В алгоритме 4.1 расчеты следует прекратить, как только на
шаге 2) будет выполнено неравенство
тахФ(х, gs)-trD(gi)O>(gs)<v. . (4.5)
хеХ
Из (4.4) следует, что если выполнено второе из этих двух не-
равенств, то выполнено и первое.
Положим 2>(С) = р|Ф[О] С, D-1eSW}. Тогда имеет ме-
сто следующее утверждение о сходимости алгоритма 4.1.
Теорема 4.1. Пусть множества X и SR — компакты, Ф —
такой выпуклый дифференцируемый функционал, что Ф-опти-
мальный план g* невырожден и существуют ограниченные про-
изводные
d^[D]/(dDtldD„), I, j, и, о=1, 2, .... т, (4.6)
по элементам матрицы D^3)(C) при любом О 0. Пусть, да-
лее, последовательность {ys} определяется по формуле (4.3).
Тогда алгоритм 4.1 сходится в том смысле, что
lirn Ф р (g,)] = min Ф Р (|)],
s->00
5 С. М. Ермаков, А. А. Жиглявский
129
причем из последовательности {gs} можно выделить подпоследо-
вательность планов, слабо сходящуюся к одному из Ф-оптималь-
ных планов |*. Если, кроме того, функционал Ф строго выпук-
лый, то
limD(U = D(D.
S->oo
Доказательство. В силу (4.3) алгоритм 4.1 релакса-
ционный, т. е. последовательность {Ф [£)(£$)]} монотонно убы-
вающая. Поскольку эта последовательность ограничена снизу,
то она сходится, т. е.
НтФ[Л(У] = Ф[Я(Г)],
S->0O
где £* — некоторый план, существующий в силу компактности
множества 8Й.
Покажем, что план оптимален. Предположим противное:
Ф[О(Г)] > min Ф [0(g)],
Тогда в силу леммы 4.1 и сходимости последовательности
{Ф[Я(Ь)]} можно найти такие 6 > 0 и s0, что для всех s s0
выполняется неравенство
max ф (х, ls) — tr D (У Ф (У > б > 0. (4.7)
хеХ
В силу дважды дифференцируемости ф и формулы Тейлора
величины <b[D(gs+i)] могут быть представлены в виде
Ф [О (Ui)l = Ф [О &)] “ Ys [ф (*s+i. У - tr D (У Ф (У] - v2sf" (у),
(4-8)
где
f (у) = Ф [D [(1 - у) + yg (xs)] — Ф [D (У],
0<y<ys.
Положим С = Ф[£>(|о)]. Из ограниченности производных
(4.6) на множестве &>(С) следует, что существует такое Q < оо
(зависящее от С), при котором имеет место неравенство
0< sup /"(yXQ- (4-9)
Ve=[0, 1]
Из (4.7)—(4.9) получаем
Ф[£>(У]-Ф[Л(У1)]>уД (4.10)
Покажем теперь, что при s s0 должно выполняться нера-
венство ys б/Q. Имеем
Г (0) = ф (Xs, Is) - tr D (У Ф (У > б.
Поскольку для любых у1, у2 е [0,1]
If'(Yi) —f'(Y2)KlYi — Y2I max f" (у),
O<V<1
130
ТО При Y1 = О, У2 — V получим
If (0) —Z'(y)KyQ;
откуда следует, что при
Y < IГ (0) I/Q < 6/Q
производная f'(y) в нуль не обращается, и поэтому при ys <
.< б/Q функция f(y) минимума не достигает.
Из (4.10) имеем
ф[Щ^)]-Ф[п&+1)]>б2дэ.
Отсюда получаем
ос
ПтФРОСС- £ =
£->09 4я“/ Ч
S = $Q
Это противоречит тому, что
inf Ф [/)(£)]> —оо.
£
Следовательно, план g* оптимальный.
Последнее утверждение теоремы следует из слабой ком-
пактности множества S (см. с. 91) и из теоремы 1.4. Теорема
доказана.
Приведем две модификации алгоритма 4.1. Численные рас-
четы показывают, что скорость сходимости алгоритма 4.1 уве-
личивается, если в качестве допустимых включить движения
по направлениям, определяемым точками xis плана gs с отри-
цательными ys.
Алгоритм 4.2.
1) Выбираем невырожденный начальный план go, полагаем
s — 0.
2) Отыскиваем точку
xs = arg max {ф (xt, gs) — tr D (gs) Ф (gs), tr D (gs) Ф (g,) — ф (x?, g,)},
где
xt = arg max ф (x, gs), x7 = arg min ф (x, gs),
Xs — множество точек плана gs.
3) Строим план gs+1 = (1 — ML + М(М> где ₽s = ys, если
xs — xt, и ps= —min{as, pls/( 1 — p(s)}, если x = x? (pls — вес
точки xis = Xs в плане последовательность {asJ выбирается
по тем же правилам, что и {ys}.
4) Переходим к шагу 2) с заменой s на $ 4- 1.
При использовании алгоритма 4.2 удается исключить те
точки начального плана, которые выбраны неудачно, Кроме
5* 131
того, алгоритм 4.2 выгоднее алгоритма 4.1 тем, что при его ис-
пользовании в плане, приближенном к оптимальному, содер-
жится сравнительно мало точек (всем «плохим» точкам припи-
сываются нулевые веса и они тем самым исключаются из пла-
на). С вычислительной точки зрения алгоритм 4.2 имеет тот
недостаток, что на каждой его итерации решается довольно
сложная задача — ищется максимум функции ф(х, gs) на X, а
результат решения этой задачи — точка — используется не
всегда. В случае большой размерности множества X более эф-
фективен следующий алгоритм, в котором экстремальная задача
(1.1) решается только в том случае, когда не удается добиться
гарантированного уменьшения функционала значительно более
простыми операциями уменьшения и добавления весов точкам
плана.
Алгоритм 4.3.
1) Имеем невырожденный план
И
Отыскиваем
X/ =< = arg tnin <р (х, gs).
S xi^Xs
2) Если
Ф (^S > 5s) < tr D (5s) Ф (5s)
то составляем план
Ui = (l + ₽s)^-P^U7),
где последовательность {ps} выбирается по тем же правилам,
что и {у«} в алгоритме 4.1, но при условии 0ss^pzs/(l—P»s),
и переходим к шагу 6).
3) Отыскиваем
•4 = arg тах <₽(*» k);
xeXs
если
q)(x/s)>trD(^)<b(U + fis,
то переходим к шагу 5) с X(S) = Xjs, в противном случае — к
шагу 4).
4) Отыскиваем точку (4.1).
5) Составляем план
£s+l = (1 Ys) Bs + YsB (-^(s))*
6) Переходим к шагу 1) с заменой $ на s + 1.
Последовательность {6S} определяет минимальную точность,
получаемую на каждом шаге алгоритма. Для обеспечения схо-
димости она должна выбираться с учетом условия
de>c[max<p(x, — tr D (gs) Ф (Щ, с > 0.
132
В частности, хорошо зарекомендовал себя следующий выбор
{М =
ds = min (4*(Hs-i — trD&-1)Ф6S_,
если на (s—1)-м шаге вычислялся Hs-i = тахФ(х> и
хеХ
6s = ds__i, если не вычислялся.
Доказательства сходимости алгоритмов 4.2 и 4.3 аналогичны
доказательству сходимости алгоритма 4.1.
Рассмотрим особенности приведенных алгоритмов для D-кри-
терия. При D-оптимальном планировании
ф(х, $ = d(x, £) = fT (х) D(g)f (х), trDft)d>(g) = m
для любых х^Х и £eS. Специфика D-критерия позволяет
существенно упростить и вспомогательные вычисления, которые
необходимо проводить при использовании алгоритмов 4.1—4.3.
Теорема 4.2. Положим
gs+l = (l — у)Ь +vBW.
где план gs невырожден, план £ (х) сосредоточен в точке х е X,
—р(х)/[1— Р(Х)]<Т< 1, р(х)—вес точки х в плане gs
(р(х) = О, если точка х в план не входит). Тогда
а) Ой».)=^ [/„ - (g ] о (Ы; (4.U)
б) det^(gs+l) = (l-Yr[l+^^]detA4(gs); (4.12)
в) если у = ?s выбирается из условия (4.3), Ф [D] = In det D
и х = xs, то
г) максимальное увеличение определителя (4.12) в случае
у > О достигается при у = у$, выбранном по (4.13), при этом
det М ((1 - у№ + уЛ (х)) = Q (f- У" * (1^Гй),В det М (U
(4.14)
Доказательство, а) Имеем
М (U>) = (1 - Y) м (Ц + уМ (g (х)) = (1 - Y) м &) + Yf (X) Г (х),
D (Ui) = А*"1 (Ui) = [(1 - у) М (У + yf (х) f (х)Г =
= (1 - Y)’1 [/» + -nzy D (U f (х) F (х)]’1 D &).
Положим
-l^D(ls)f(x) = A, fT(x) = B, p = m, 7=1
133
и воспользуемся формулой (1.10) из приложения 1. Получим
pm + D f fT W]“ = Up + =
- Ip - A (I, + ВЛ)’1 В = 1т - D &) f (х) X
X[1 + -r^fT(x)D&)f (х)]” Г(4
откуда и следует (4.11).
б) Для того чтобы получить (4.12), запишем
м (ио=а - y) [м ал+T^vf (х) fT (х)] •
detAf &+I) = (1 - у)" det [м &) + fT (х)]
и воспользуемся формулой (1.12) из приложения 1 с
л = м(и1). в = д/й^'Нх)-
в) Для того чтобы получить (4.13), прологарифмируем
(4.12), продифференцируем полученное выражение по у и про-
изводную приравняем нулю. Получим
rf (х, gs) — 1 m — 1 n
l-y + Yd(x,£s) 1-y u’
что равносильно утверждению в).
Утверждение г)—простое следствие б) ив). Теорема до-
казана.
Формула (4.11) позволяет вычислять дисперсионную ма-
трицу плана gs+i при всех s, не прибегая к операции обращения
матриц; операцию обращения, таким образом, необходимо при-
менять только для вычисления £>(£о). Польза этого несомненна
не только в случае D-критерия, но и для других критериев Ф.
4.2. Методы построения дискретных оптимальных планов.
Непрерывные планы с точки зрения практического экспери-
мента являются приближенным решением исходной задачи пла-
нирования. Приближение тем лучше, чем больше число N воз-
можных наблюдений (меньше сказывается дискретность весов
pi = ri/N). Естественной процедурой построения планов, при-
ближенных к дискретному оптимальному
|w = arg max ^[Al^)], (4.15)
$№ В
является процедура округления непрерывного Т-оптимального
плана
Гг ”” (4Л6)
I Р1> Рп )
134
Простейшие процедуры округления плана (4.16) состоят в
том, что в качестве плана, приближенного к (4.15), выбирается
[ < ..., х*
&v = | п + «1 гп +ап ),
N ........ М
(4.17)
где целые числа г,- (i=l, ..., п) должны удовлетворять соот-
ношениям rt^-Npi и могут быть определены, например, по
формуле
= = (4.18)
или
n = n(JV) = L^J (4.19)
(здесь [aj — целая часть а, [а] — ближайшее к а целое число,
которое больше а; целые неотрицательные числа a, (i=l, ...
..., п) выбираются произвольно с учетом ограничения
У а< = N{ = N — 2 гь AfjCn.
Очевидной представляется следующая процедура выбора
cq, ..., ап: величины Npj — Г} располагаются в порядке убы-
вания их значений; если Npi — стоит на одном из первых Ni
мест в указанном упорядоченном наборе, то полагаем аг = 1,
в противном случае af = 0.
Оценки точности обеих процедур округления оказываются
одинаковыми в том смысле, что точность зависит только от бли-
зости числа Afj к N. Само же число Afi при использовании раз-
ных процедур имеет различные значения.
Теорема 4.3. Пусть выполнены условия монотонности и
однородности для функционала Тогда для плана (4.17) при
любом способе получения чисел п (ri^Npi, i=l, ..., и)
справедливо неравенство
V [М (Г)] - у [М&,)] < (1 - V [М (Г)1, (4.20)
п
где N\ — N — У, rz.
i=i
Доказательство. Имеем
Y(tf)T[M&)] = T [ЯМ (!„)] =
Г п п 1
- * 11 rtf (xj) f w) + z aif (x;) г (хП| >
L i = \ i = l J
> w [ £ Nptf (xj) f (xj)] = W [(Я - Я.) M (V)] =
что равносильно (4.20). Теорема доказана.
135
Из (4.20) с учетом того, что и Ж [Л4 (£лг)] С
Чг [Л4 (|*)], вытекают следующие неравенства: -ч
W [Л4 (Г)] - Т [М (1л,)] < (1 - Y("~n)) Т [Л4 (Г)], (4.21)
Т [М (f)] - V [Л4 (&)] < (1 - vy(~ n)-) V [Л4 (Г)] (4.22)
(оценка близости значений критерия для непрерывного ^-опти-
мального и дискретного Ч'-оптимального планов),
т [Л1 (&)] - Т [Л4 (!„)] < (1 - УУ(ДГ)”- ) М (f) (4.23)
(оценка близости значений критерия планов (4.17) и (4.15)).
Из рассмотрений оценок (4.20) — (4.23) можно сделать сле-
дующие выводы:
а) вообще говоря, выгоднее округлять те непрерывные пла-
ны (4.16), у которых количество точек п в плане мало;
б) при фиксированном N из двух процедур округления
п
(4.18), (4.19) выгоднее та, для которой величина N\ — N— У, rt
меньше (процедура гарантирует большую близость приближен-
ного плана к оптимальному);
в) более выгодными, чем процедуры (4.18), (4.19), могут
оказаться их модификации, основанные на замене в формулах
(4.18), (4.19) N на
N — min 1 k
Zrt(k) = N
1 = 1
и составлении плана (4.17) с а,—0 (i = l, ..., п). Оценка
(4.20) в этом случае имеет вид
¥ [М О - v [М (I„)] < (1 - W-) Т {М (Г)];
\ у (/V) /
г) если N мало (не намного больше /г), то приведенные
процедуры неэффективны, и более целесообразно для прибли-
женного построения дискретных оптимальных планов использо-
вать другие алгоритмы (в частности, рассматриваемый ниже).
Переходим к рассмотрению алгоритма, идея которого совпа-
дает с идеей алгоритма 4.2 и в основе которого (как и алгорит-
мов 4.1—4.3) лежит теорема эквивалентности. Для удобства
изложение снова проводится в терминах функционалов Ф от
дисперсионных матриц и в предположении, что дискретные опти-
мальные планы
£tf = arg min Ф[£>(^)] (4.24)
невырождены.
136
Алгоритм 4.4.
1) Выбираем невырожденный начальный план
ю> (?0)
S(0> = < *1.s
U/v....i/И
и полагаем s = 0.
2) Отыскиваем точку
x£) = argmax<p(x,
хе X
(4.25)
3) Составляем план
6!v+l = (1 — у ф j + уф ! £ =
= ( » •••• *$. x(t) I
I 1/GV +1)..... 1/(W + 1). i/OV-H) )'
4) Отыскиваем точку
*(s) = arg min ф(х, $+!),
хе Xs
где Xs — множество точек плана +
5) Составляем план
6) Если Х(7> совпала с x<t), то вычисления прекращаем (даль-
нейшего уменьшения функционала Ф происходить не будет),,
в противном случае — переходим к шагу 2) с заменой s на
s + 1.
Суть алгоритма 4.4 чрезвычайно проста — на каждой ите-
рации в план добавляется «лучшая» точка из X, а затем из
полученного плана удаляется «худшая» его точка. Исходя из
этих соображений, сходимость последовательности {Ф [D (|$) ]}
очевидна, однако ее предел не обязательно совпадает с
inf Ф[ПО.
Гарантировать это совпадение можно лишь при совпадении
плана с одним из непрерывных оптимальных планов (что опре-
деляется при выполнении шага 2) алгоритма 4.4).
Легко построить различные модификации алгоритма 4.4. На-
пример, на каждой итерации можно включать в план и исклю-
чать из него не по одной, а по несколько точек.
4.3. О построении планов, оптимальных в S (п). Для построе-
ния планов, приближенных к оптимальным в множестве 3(п)
(определение этого множества содержится в п. 1.6), можно
использовать очевидную модификацию алгоритма 4.4. Планы g(s>
137
должны быть вида g(s> = g(s>(n), т. е. ви^а (1.8) с фиксирован-
ным п; на шаге 3) вес плана |(x(t)) может быть не равным
1/GV+1), а выбираться любым из способов, рассматривав-
шихся при описании алгоритма 4.1; на шаге 5) нужно со-
ставлять план
где р_ — вес точки в плане g<s) (для того чтобы удалить
точку х^) из плана g(s)).
Упражнения.
1. Предположим, что для функции регрессии н(*) = Gi + 02* на отрезке
[—1, 1] требуется численно построить D-оптимальный план. Выбирая ys по
формуле (4.13) и начальный план
_ С —1/2 1/2)
1/2 1/2 Г
провести по пять итераций алгоритмов 4.1, 4.2, 4.3.
2. Округлить различными способами D-оптимальный план (3.14) для
квадратичной регрессии на отрезке [—1, 1] при N — 10 и N == 11. На этих
примерах проверить точность формулы (4.20).
Глава 4
ПЛАНИРОВАНИЕ РЕГРЕССИОННОГО ЭКСПЕРИМЕНТА
(ДАЛЬНЕЙШИЕ ПОСТАНОВКИ ЗАДАЧ И РЕЗУЛЬТАТЫ)
В данной главе содержатся методы оптимального планиро-
вания регрессионного эксперимента: с одной стороны, для ряда
частных постановок, которые могут быть вписаны в рамки клас-
сической, и, с другой — для схем регрессии, отличных от рас-
смотренной в гл. 3. Последние дают некоторое представление
о современных направлениях развития математической теории
планирования регрессионного эксперимента. При первом чтении
§ 2—4 могут быть пропущены.
§ 1. Планы первого порядка
1.1. Основные понятия. Основные результаты данного пара-
графа можно получить из общих теорем гл. 3. Представляется
поучительным, однако, получение этих важных для приложений
результатов непосредственно из определений и элементарных
фактов алгебры и анализа.
Предположим, что функция регрессии — полином первой сте-
пени от т переменных xi...хт, т. е.
П(х) = е04-е1х1 + ... +0л, (1.1)
а ошибки измерений, как обычно, центрированы, некоррелиро-
ваны и имеют одинаковую дисперсию ст2.
Для удобства в данном параграфе нумерация неизвестных
параметров начинается с нуля (число неизвестных параметров
равно m-j-1). Поэтому информационные и дисперсионные ма-
трицы планов имеют размер (m-f- l)X(ni + 1).
Дискретный план
^v = { 1//J.1/tf }’ f1,2)
который позволяет получить несмещенные МНК-оценки пара-
метров 0О, ..., 0m функции регрессии (1.1), будем называть
планом первого порядка.
139
Планы первого порядка находят широкое применение в
практике экспериментальных исследований. Это связано, в част-
ности, с тем, что любая линейная по неизвестным параметрам
функция регрессии может быть приведена к виду (1.1) введе-
нием новых переменных, и с тем, что построение планов первого
порядка- является важной частью некоторых стратегий плани-
рования экстремального эксперимента (см. гл. 6).
План (1.2) удобно представлять в виде матрицы
-*п *12 . . . х\т "
D = *21 *22 . . . *2т
-XN\ . . . XNm-
(1.3)
где хц (i=l, т)—координаты точки X/ (/=1, ..., N).
Матрица плана (в терминологии гл. 1) имеет вид
"*Ю *11 • . « *1/П “
F = *20 *21 . О . х2т (1-4)
-хт XNl . . . XNm -
где х/о = 1 (/=1,2, .... N).
Поскольку план (1.2) предполагается невырожденным, то
W т 4* I. rang D = т, rang F = т + 1.
В соответствии с определением из § 1 гл. 2 план первого по-
рядка (1.2) ортогональный, если столбцы матрицы F попарно
ортогональны, т. е. если
N
= Л / = 0, 1, .... т, (1.5)
Для ортогонального плана первого порядка выполняется усло-
вие симметрии
N
%хи-0, г = 1> 2, .т, (1.6)
<=i
которое следует из (1.5) при / = 0.
На двух примерах посмотрим, как влияет выбор плана на
дисперсии D0/ МНК-оценок 0/ неизвестных параметров 0/
(/ = 0, 1, .... т).
Пример 1.1. Пусть М = 6, т = 2. Рассмотрим два плана
и вида (1.2), которым соответствуют матрицы
”1-1 О' 1 1 — л/з" ~1 -1 -1“ 1 -1 -1
F,= 1 -1 0 1 1 - ут 1 -1 0 _1 1 ,0_ *,= ; । zi =m 1 -1 1 _1 -1 1-
140
Пример 1.2. Пусть т = 3,
-1
1
1
-1
—1
1
—1
I
-1
-1
1
1 -
-1
-1
1 -
N = 4,
-1
1
1
-1
F2 =
Очевидно, что план Ц1) — ортогональный план первого по-
рядка и
6
W = 6- / = 0, 1, 2.
Поэтому дисперсии МНК-оценок параметров 0О> 0ь 02 равны
<у2/6, и (в силу ортогональности эти оценки некоррели-
рованы.
Для плана ^2) также
в
Zffl’-s. /=о,1,2.
(=1
План ^2) не является ортогональным, поскольку дисперсион-
ная матрица МНК-оценок равна
[1/4 1/8 1/8-1
1/8 1/4 1/8 .
1/8 1/8 1/4 J
Отсюда получаем, что дисперсии всех трех МНК-оценок
равны о2/4, т. е. больше, чем для плана ^1)- Кроме этого,
МНК-оценки при использовании плана ^2) получаются коррели-
рованными.
-1 -1 -1“
1 -1 —1
-1 1 -1 *
1-1 1 -
План соответствующий матрице /д, является ортогональным
планом первого порядка, при использовании которого получаем
D0y = o2/4 (/=0, 1, 2, 3). Легко проверить, что при использо-
вании неортогонального плана |<2), соответствующего матрице Рг,
D0O = о2, D0/ = <т2/2, /=1,2,3,
и, следовательно, план £(42) существенно хуже плана £(41) с точки
зрения величин дисперсий МНК-оценок неизвестных пара-
метров.
В приведенных примерах при использовании ортогональных
планов дисперсии МНК-оценок имели меньшие значения, чем
неортогональные. В п. 1.2 показано, что это было не случайно:
при определенных предположениях дискретные 4-оптимальные
т
(т. е. такие, для которых Е об/ минимальна) планы первого
/=о
порядка сосредоточены в множестве ортогональных планов.
1.2. А-оптимальность ортогональных планов первого порядка.
Как и в п. 1.1 рассматривается линейная регрессионная модель
(Г, F0, о24), (1.7)
141
где матрица F имеет вид (1.4). Поскольку при проведении из-
мерений значения факторов (т. е. переменных хь ..., хт) огра-
ничены Множество планирования X здесь не конкретизируют-
ся), будем считать, что выполнены ограничения
N
£x2ti = C2, 1 = 1, ...,т, (1.8)
где Cf заданы. Заметим, что если выполнено (1.8), то выпол-
нено и
N
= 1 = 0,1....tn, (1.9)
t=i
где C% = N.
Теорема 1.1. Пусть заданы модель (1.7) и класс дискрет-
ных планов первого порядка вида (1.2) таких, что выполнено
N
Zx2ti^C2, 1 = 0, 1......tn. (1.10)
Тогда
□ё/><т7С/, / = 0, 1, ..., т. (1.11)
Причем в том случае, когда план ортогональный и выполнено
(1.9), в (1.11) достигается знак равенства, и поэтому любой
ортогональный план первого порядка, удовлетворяющий (1.9),
является А-оптимальным в рассматриваемом множестве планов.
Доказательство. В силу невырожденности планов
матрица F имеет ранг т + 1, поэтому матрица M = FTF невы-
рожденная и, следовательно, положительно определенная.
В силу положительной определенности матрицы М ее можно
представить в виде М — ВТВ, где В — невырожденная верхняя
треугольная матрица (см. теорему 1.4 из приложения 1).
Пусть
FTF = BTB, (РТРГ' = (ВТВ)~' = В~'(В~1)Т. (1.12)
Примем обозначения
FTF = (mlj), B = (btl), B~' = (btl), (РтРГ' = (д(1).
Очевидно, что В~1 — тоже верхняя треугольная матрица, при-
чем Ьц = \/Ьц (i = 0, 1....tn). Из формулы для дисперсий
М.НК-оценок 0/ следует, что
DG/ = a2dIJt j = 0, 1, ..., tn.
Из (1.12) вытекает равенство
d//= Ё / = 0» !> • m-
142
Имеют место очевидные неравенства:
т т
Ё ь2ц ь2ц = 1/&п > i/Z ь2ц-
i-о «=о
Но в силу (1.12) и (1.10)
т N
^Ь2ц = ти=^^С},
1=0 4 П *=1 4 '
и поэтому d/j^Cf2, откуда и следует (1.11).
Если план (1.2) ортогональный и выполнено (1.9), то все
неравенства превращаются в равенства. Теорема доказана.
Очевидно, что если в (1.8) все С/ (/=1, ..., т) равны, то
соответствующий ортогональный план является и ротатабель-
ным. Такие планы удобны при практическом использовании, по-
скольку: очень просто вычисляются оценки неизвестных пара-
метров; оценки параметров некоррелированы (т. е. параметры
регрессии оцениваются независимо друг от друга); все пара-
метры регрессии определяются с одинаковой и минимальной
(в смысле теоремы 1.1) дисперсией; планирование является ро-
татабельным (т. е. информация, содержащаяся в уравнении
регрессии, равномерно «размазана» по сфере).
Особенно часто ортогональные ротатабельные планы пер-
вого порядка используются при планировании экстремальных
экспериментов (см. гл. 6), когда оптимизация производится без
использования ЭВМ.
В п. 1.3 приведен пример использования теоремы 1.1 в зада-
чах другого рода.
1.3. Задача оптимального взвешивания. Пусть рь р2, 03 —
неизвестные веса соответственно трех предметов Л2, А3. Не-
обходимо наилучшим образом оценить эти веса по результатам
четырех взвешиваний на одночашечных весах, которые взве-
шивают предметы со случайной ошибкой.
Введем величины гд, Z/2, z/з. Будем считать, что если пред-
мет Ai находится на весах при /-м измерении, то гц = 1, в про-
тивном случае <гд = 0 (/= 1, 2, 3); результат /-го измерения —
случайная величина
у. = Ро + + 02^/2 + Рз^/з + /=1, 2, 3, 4, (1.13)
где р0 —математическое ожидание показания шкалы весов при
отсутствии предметов на весах, т. е.
Ро = Е {yt | zn = z/2 = zj3 = 0);
£e/ = 0, Z)8/ = o2, E8f8j = 0 (г =И=/).
Для удобства заменим zy на величины хц:
xH = 2zfi — 1, Z= 1, 2, 3; /=1, 2, 3, 4.
143
Получаем, что если i-й предмет в /-м измерении находился на
весах, то хц — 1, если нет, то хц = — 1. Положим также х,0 — 1
(/=1,2, 3,4).
Модель (1.13) переписывается в виде
^ = 0о + 01Л!/1 + 02Х/2 + езХ/з + 8/, /=1,2,3, 4, (1.14)
где 0О = ро + (Pi + Р2 + Рз)/2, 0, = Рг/2, i = 1, 2, 3.
Матрица /7 = ||X/J|, Z = 0, 1, 2, 3; / = 1, 2, 3, 4, опреде-
ляет план эксперимента. Поскольку |х/(| = 1 (при всех i, /), то
выполняется
Д4 = 4’ / = 0> 2> 3’
(1-15)
т. е. (1.9) с С2 = 4.
В соответствии с теоремой 1.1 минимальные дисперсии МНК-
оценок 0< (i = 0, 1, 2, 3), а стало быть, и оценок Р< можно полу-
чить, используя любой ортогональный план, для которого
|x/J=l (при всех I, /). Такой план определяется, например,
матрицей
' *0 *1
1 -1
F = 1 1
1 -1
L1 1
Х2 Х3-
-1 1
-1 -1
1 -1
1 1.
(1.16)
В силу теоремы 1.1 D0| = <т2/4 (i ==0, 1, 2, 3), и, следовательно,
DPi = o2 (i = 1, 2, 3). При этом
Pi = 20j = 2 (— уг 4- у2 — у3 у4),
Р2 = 202 = 2 (— Ух — у2 4" УЗ + Уа)>
Рз = 203 = 2 (ух — у2 — у3 4- </4)-
Результаты легко обобщаются на случай произвольного
числа т предметов и числа N > т взвешиваний, являющегося
степенью двойки (план может быть выбран как дробная реп-
лика полного факторного эксперимента, см. гл. 2).
1.4. Непрерывные А-оптимальные планы. Теорема 1.1 сле-
дующим образом обобщается на непрерывные планы*).
Теорема 1.2. Для функции регрессии (1.1) любой орто-
гональный план g* является А-оптимальным в множестве непре-
рывных планов удовлетворяющих ограничению
m m
£ Jx^(dx)<£ Jx2g‘(^). (1.17)
Z = 1 X i = l X
Доказательство аналогично доказательству теоремы 1.1. За-
метим, что из утверждения теоремы не следует, что Д-оптималь-
*)Непрерывные планы первого порядка определяются аналогично диск-
ретным, см. с. 139.
144
ный план всегда ортогонален: в зависимости от вида множества
X может оказаться, что
* X
в множестве всех непрерывных планов больше соответствую-
щего супремума в множестве ортогональных планов. Лишь при
совпадении указанных супремумов (такая ситуация возникает,
например, когда X является яг-мерным кубом, см. ниже) можно
гарантировать ортогональность Д-оптимального плана.
1.5. D-оптимальные планы первого порядка на m-мерном кубе.
В данном пункте Х = [—1, 1]т, т. е. множество планирова-
ния— единичный /n-мерный куб.
Сначала покажем, что непрерывным D-оптимальным яв-
ляется план g*, сосредоточенный с равными весами во всех 2т
вершинах куба X. Эксперимент, состоящий из 2т наблюдений и
проводимый согласно этому плану, носит название полный фак-
торный эксперимент (для ш факторов, меняющихся на двух
уровнях).
Записав матрицу (1.4) для этого плана, представленного
в виде (1.2) с N = 2т. видим, что выполняются (1.5) и (1.9)
с C] = N (z —О, ..., tri). Поэтому информационная матрица
M(g*) плана g* является единичной (Zm-ы), откуда
пг
d(x, Г)=1 + Zx2(i),
i=i
где х( 1), ..., х(т)— координаты точки х.
Максимум
max d (х, Г) = ш + 1
х s X
достигается в точках плана g*. На основании теоремы эквива-
лентности Кифера — Вольфовица (теорема 2.3 из гл. 3) заклю-
чаем, что план g* является D-оптимальным. Заметим, что этот
план также ортогональный, ротатабельный и Д-оптимальный.
Поскольку информационные матрицы всех D-оптимальных
планов совпадают, любой D-оптимальный план первого порядка
на кубе ортогонален, ротатабелен и имеет единичную информа-
ционную матрицу.
Несмотря на ортогональность, ротатабельность и D-оптималь-
ность полного факторного плана, при больших т он использует-
ся редко, так как требуемое им число 2т измерений с ростом т
растет экспоненциально, и возникают трудности, вызванные не-
обходимостью практической реализации такого числа измере-
ний. Для практического использования больший интерес пред-
ставляют насыщенные планы, сосредоточенные в минимально
возможном числе точек, равном m+ 1. Выяснить структуру та-
ких планов удается с помощью следующего утверждения.
145
Теорема 1.3. Насыщенный план вида (1.2) первого по-
рядка имеет информационную матрицу, пропорциональную еди-
ничной, тогда и только тогда, когда он сосредоточен в вершинах
правильного m-мерного симплекса (г. е. правильного т-мерного
многогранника с количеством вершин m + 1).
Доказательство. Обозначим строки матрицы (1.3) че-
рез Х(,), а строки матрицы (1.4) через Z(<> (i = 1.Af). По
определению
z(i)= [ 1 х( о]’ г’ = 1 > • • • >
а Хц) — это точки плана (1.2). Обозначим через <р// угол между
векторами х(1) и х(г>; по определению
. , m
cos <p/t = ||x(y()|j.|p(>z)|i ’ где (x,/” X(/)) = S 11 x 11 = V(*> x)-
To, что информационная матрица плана (1.2) пропорциональна
единичной, записывается в виде
ГП S Г\
, к V1 | 0, если / =# Л
(2(/)’2(о)--ЕхЛ-{С1> если / = z>
(1-18)
где Ci > 1 — некоторая константа (если информационная мат-
рица равна единичной, то Ci = N). Поскольку х/0 = 1 (/ = 1, ...
..., N), то (1.18) эквивалентно тому, что
( — 1, если / =/= I,
(х(/)> М = { с, _ 1, если / = I,
т. е. тому, что ' __________ _________
II Х(/)1| ~ л/(*(/)’ XU)) = Vе! — 1 >
C0S(p/z = -l/(C1-~l), /=И=/, /, /=1, N.
Это эквивалентно тому, что точки x<d, ..., лежат в верши-
нах правильного zn-мерного симплекса. Теорема доказана.
Планы, сосредоточенные в вершинах правильного симплекса,
называются симплекс-планами.
Из теоремы 1.3 следует, что D-оптимальный насыщенный
план первого порядка на кубе существует, если существует пра-
вильный симплекс, все вершины которого совпадают с некото-
рыми из вершин куба. Однако этого можно достичь не для всех
размерностей. Например, при m = 3 это возможно, а при m —
= 2 — нет.
Построение правильных симплексов с указанным свойством
эквивалентно построению (m + 1 )Х(^ + 1 )-матриц Адамара.
Приведем некоторые сведения об этих матрицах.
Матрицей Адамара называется квадратная л Хи-матрица А = || ац Ц,
элементы Дц которой равны +1 или —1 и выполнено равенство
ААт = п1п. (1.19)
146
Свойства матриц Адамара:
1) матрица Адамара имеет максимальное по модулю значение определи-
теля в множестве всевозможных квадратных матриц того же порядка с эле-
ментами, по модулю не превосходящими единицы;
2) любые две строки матрицы Адамара ортогональны;
3) из ААТ = nl„ следует АТА — nln, и наоборот;
4) перестановка строк или столбцов и их умножение на —1 приводит
к матрице Адамара;
5) если А =. || aij || и В — матрицы Адамара порядков tn X tn и п X п
соответственно, то матрица С — II а^В || является матрицей Адамара порядка
mn X tnn.
Матрица Адамара, у которой первая строка и первый столбец состоят из
+ 1, называется нормализованной. Именно такие матрицы порядка (т + 1)Х
X (т+1) и могут быть выбраны в качестве матрицы плана F. Матрицы Ада-
мара порядка п X п построены, например, для всех п вида п = 4k (k =
= 1, 50, кроме k = 47). Методы построения матриц Адамара содер-
жатся в [43].
1.6. Общее свойство непрерывных D-оптимальных планов.
Теорема 1.4. Пусть множество планирования X — ком-
пактное подмножество R”!. Тогда все точки D-оптимального
плана первого порядка лежат на границе множества X.
Доказательство. Обозначим через x(i) координаты
точки х^Х (t=l, ..., /п) и х(0)=1. Тогда базисные функ-
ции /Дх) равны fi(x)=x(i).
Пусть £— произвольный план первого порядка. Тогда
d(x, %) = fT (х) М~1 (%) f (х) —
= (1, х(1), .... х(пг))М-1®(1, х(1), .
m
= Z(W«) +
., х (m))T =
m
Л /=о
i Ф /
где d»/(£)—элементы матрицы £>(£). Отсюда
д24 (х, £) _л л г.
д (х (/))» 2di( W > 0 •
и, следовательно, максимум функции d(x,t>) не может дости-
гаться ни в одной внутренней точке множества X. Но по тео-
реме эквивалентности Кифера—Вольфовица (теорема 2.3 из
гл. 3) для D-оптимального плана £* максимум функции d(x, £*)
достигается в точках этого плана. Поэтому все точки плана g*
должны лежать на границе множества X. Теорема доказана.
Упражнения.
1. Пусть дана схема регрессии (1.13). Сравните точность МНК-оценок,
получаемых при использовании планов, определяемых матрицами (1.16) и
-1 1 1 -1~
1-111
11-11
Li 1 1 1J
-1 1 -1 1-
1-1 1-1
111—1
L1 _i _1
-1-1-1 1 -
1 i—i—i
1-1 1-1
Li -1 -1 -iJ
2. Докажите, что план, определяемый матрицей (1.16), является полу-
репликой факторного эксперимента 23, и выпишите для этой полуреплики
генерирующее и определяющее соотношения.
147
3. Постройте матрицы Адамара порядков 2X2 и 4X4.
4. Приведите пример А-оптимального плана, который не является орто-
гональным для функции регрессии (1.1).
5. Докажите теорему 1.2.
6. Докажите, что симплекс-планы являются не только £>-оптимальными,
но и А-оптимальными.
§ 2. Некоторые обобщения классической постановки
задачи планирования регрессионного эксперимента
2.1. Планирование эксперимента с областью действия в функ-
циональном пространстве. Классическая теория планирования
регрессионного эксперимента (см. гл. 3) развита в рамках
схемы регрессии, в которой аргумент х линейной по парамет-
рам функции регрессии ц(х, 0) выбирается из некоторого мно-
жества планирования X, а 0=(0Ь ..., 0т)г — вектор неизвест-
ных параметров. Формально множество планирования X не
обязано быть конечномерным, однако большинство конкретных
результатов классической теории (включая численные методы
построения планов и практические приложения) относится к
случаю, когда это множество конечномерно.
Для широкого круга задач планирования, связанных с по-
становкой физических экспериментов, типичной является ситуа-
ция, когда единичное наблюдение реализуется с помощью функ-
ционала х: {/} -+ R, сопоставляющего состояния наблюдаемого
объекта со значениями некоторой вещественной переменной, т. е.
отображающего множество состояний {/} в вещественную пря-
мую. В тех случаях, когда состояние объекта наблюдения опи-
сывается некоторой функцией ...) пространственных, вре-
менных и т. п. координат и функция f принадлежит определен-
ному функциональному классу Зг, указанное отображение за-
дает соответствующий функционал над классом Следова-
тельно, в описанной ситуации множество планирования X яв-
ляется некоторым множеством функционалов на функциональ-
ном классе
Метрика на множестве планирования X индуцируется метри-
кой исходного функционального класса согласованной с фи-
зической природой задачи.
Если есть полное нормированное (банахово) простран-
ство (что далее и предполагается), то, ограничиваясь линей-
ными функционалами, получаем в качестве множества плани-
рования сопряженное банахово пространство ST* (простран-
ство ограниченных непрерывных линейных функционалов на#*).
Формулировка теории планирования эксперимента на языке пары
сопряженных функциональных пространств (#*, #**) является
наиболее естественной при изучении бесконечномерных задач
планирования эксперимента средствами функционального ана-
лиза.
В терминах сопряженных функциональных пространств
(#*,#**) задача планирования регрессионного эксперимента, со
148
ответствующая классической схеме линейной по параметрам рег-
рессии, формулируется следующим образом. Пусть —полное
нормированное пространство и — его /n-мерное линейное
подпространство. Выбирая в L базис, т. е. набор линейно неза*
висимых элементов {в\, ..., еп}, каждый элемент f^L можно
представить в виде линейной комбинации
т
f=ZQtei. (2.1)
i = l
Эксперимент, предназначенный для оценивания параметров
0=(0i, 0т)г, состоит в наблюдении значений случайных
величин у\...yN:
= + (2.2)
где Xj — линейные ограниченные функционалы ня т. е. эле-
менты сопряженного банахова пространства fF*, а случайные
ошибки Е/, как обычно, центрированы, некоррелированы и имеют
одинаковые конечные дисперсии. С точки зрения оценивания па-
раметров 0ь ..., 0т задача (2.1), (2.2) эквивалентна обычной
(конечномерной) задаче оценивания параметров линейной ре-
грессии
т
У1 = ^1Х1(е1) + г1, /=1......N, (2.3)
с МНК-оценками в качестве наилучших линейных несмещенных
оценок.
Для того чтобы привести (2.3) к рассматривавшейся в гл. 1
классической линейной регрессионной модели, достаточно поло-
жить Xji — Xj(ei) (j = 1, ..., У; i = 1, ..., т). Аналогично гл. 3
непрерывным планом эксперимента £ будем называть набор
f х„ .... х„1 (2.4)
, 1 Pi..Pni v ’
функционалов X/ и их весов рр.
^P/=l, р!>0, х,<=Х, /=1......N.
Множеством планирования является подмножество X сопряжен-
ного банахова пространства F*, которому по условию принад-
лежат функционалы х/ плана
План эксперимента можно рассматривать и как вероятно-
стную меру, сосредоточенную не обязательно на конечном под-
множестве множества X.
Информационной матрицей плана (2.4) является матрица
M(g) с элементами
п
Mik{Z)=^p!xj(el)xj(ek), i, k = l, ..., п. (2.5)
Если множество планирования X ограничено и замкнуто в
норме сопряженного пространства #"*, то семейство матриц
149
Эй = {Л4 (g)} образует выпуклое компактное множество и спра-
ведливы остальные утверждения гл. 3 относительно информа-
ционных матриц. В частности, для любого плана g элементы
матрицы At(g) могут быть представлены в виде (2.5) с п
С т(т + 1)/2+ 1.
Как и в гл. 3, оптимизация плана g может проводиться как
на основе характеристик точности НЛН-оценок параметров 0,
так и с точки зрения точности оценивания функционалов из не-
которого множества У с: ^** (указанное множество не обяза-
тельно, вообще говоря, совпадает с X). В соответствии с этим
получаем аналоги основных критериев оптимальности' планов.
Так, D-оптимальным является план
g‘ = arg max det M (£).
В случае невырожденности матрицы М (g) для любого функцио-
нала х е числовая функция
т
rf(^a = ig=i[M’l(^)Lx(e/)x(eft)
определяет дисперсию НЛН-оценки функционала х по резуль-
татам эксперимента (2.3), а план
g* = arg min [max d (x, g)]
5 x<=x
является G-оптимальным.
В определенном смысле описанная формулировка задачи
планирования экспериментов шире классической, так как для
получения последней требуется в качестве пространства вГ вы-
брать пространство Си функций f(«), непрерывных на некото-
ром компакте U, а в качестве «функциональной» области пла-
нирования X <= Су — множество функционалов вида хи (f) =
= f(u), u^U, где U — «обычная» область планирования (на-
пример, ограниченное множество в пространстве Rm).
С точки зрения оценивания параметров 0 в схеме измерений
(2.3) расширение множества планирования X до подмножества
сопряженного функционального пространства не дает ничего но-
вого— каждая точка (т. е. функционал хеХ) представлена
в схеме измерений и в информационной матрице плана M(g)
только своими значениями на элементах базиса {еь ..., еп}.
Покажем, что и задача планирования в определенном смысле
эквивалентна конечномерной.
Фиксируем базис подпространства L сг в разложении (2.1)
и рассмотрим отображение сопряженного пространства .9** в
/n-мерное евклидово пространство Rm:
ср: Sr',->Rm: x-><p(x) = (z., .... zm)T,
zt—x (е(), I = 1....tn. '
150
Отображение (2.6.) сопоставляет каждому функционалу
вектор ф(х), составленный из значений этого функцио-
нала на элементах базиса {вь ет}. Отображение (2.6) не-
прерывно и переводит каждое ограниченное замкнутое множе-
ство в компактное. В частности, ограниченное замкнутое множе-
ство планирования X отображается в компакт Z“{cp(x),xE
eX}cz Rm. При этом информационные матрицы оптимальных по
любому критерию планов для множества планирования X cz ST*
в функциональном пространстве совпадают с информационными
матрицами соответствующих планов для линейной регрессии
вида
т
Ey(z)=Z^{ (2.7)
1=1
на множестве планирования Z = <p(X)cz Rw.
Задача оптимального планирования на компактном множе-
стве Zc для функции регрессии (2.7) может быть решена с
помощью теоретических результатов и численных методов, со-
держащихся в гл. 3. Отметим, что при решении задачи опти-
мального планирования могут встретиться дополнительные труд-
ности, поскольку сложным может быть вид множества Z = ф(Х).
За исключением простейших случаев, указанный подход еще
не обеспечивает окончательного решения задачи оптимального
планирования. Действительно, с помощью отображения (2.6)
бесконечномерная задача планирования сводится к конечномер-
ной в том смысле, что решение последней позволяет найти ин-
формационную матрицу оптимального «бесконечномерного» пла-
на. Однако в конкретных задачах этого недостаточно: необхо-
димо реализовать оптимальный план с помощью функциона-
лов— элементов функционального пространства 9Г*.
Пусть в результате решения конечномерной задачи для об-
ласти Z = <р(Х).с: Rw получен оптимальный план g*. Как из-
вестно (см. с. 97), этот план всегда можно считать сосредото-
ченным на конечном множестве точек, число которых не превы-
шает т (т + 1) /2. Пусть z* — (z*, ..., z^) s Z - одна из
таких точек с весом р* >> 0; тогда для восстановления соответ-
ствующей ей «функциональной» точки необходимо найти функ-
ционал, удовлетворяющий системе уравнений
x*(ef) = z*> /=1, ...» /п, (2.8)
и принадлежащий множеству Приписав такому функ-
ционалу х* вес р* и повторив эту операцию для каждой точки,
входящей в план Ц с ненулевым весом, получим план в X с той
же информационной матрицей и поэтому оптимальный в смысле
того же критерия, что и план
В различных приложениях естественным является различный
выбор пары пространств (#~, #~*). Наиболее часто в каче-
стве используют Ь2— пространство функций, суммируемых
151
с квадратом. С математической точки зрения этот случай прост,
поскольку ЯГ = На нем мы далее и остановимся.
Будем предполагать, что = L2{T, ц)—гильбертово про-
странство функций, интегрируемых с квадратом относительно
некоторой меры ц на компакте Г. Норма функции f е ЗГ опре-
деляется по формуле
llflf = $l/(/)fMd/).
т
В этом случае —тоже пространство L2{T, р) и для любых
х е f е ЗГ выполнено равенство
X (F) = J X (/) f (/) ц (df), II X If = J I X (0 I2 Ц (d/).
т т
Пример 1.1. Пусть множество планирования X — единич-
ный шар в сопряженном пространстве У* = Lz(T, ц):
1 = {хе£2(Г, И) 11|х||< 1}.
Функции вь ..., ет ортонормированы в £2(Ли):
f ( 1, i — k,
Г 4
В качестве конечномерного множества Z получаем
z={*=(*...............+«1).
т. е. единичный шар пространства Rm.
Как известно (см. § 1), оптимальный план Для линейной
регрессии на шаре сосредоточен с равными весами в/п+ 1 точ-
ках, лежащих на поверхности шара в вершинах правильного
симплекса. Пусть z* = (z*, ..., — одна из таких точек.
Этой точке соответствует функционал я*, определяемый функ-
цией
т
Для этого функционала справедливость системы уравнений
(2.8) очевидна.
Построив указанным образом т -f- 1 функций яД/), соответ-
ствующих всем вершинам правильного симплекса, и приписав
им равные веса (m + 1 J-1, получим D-оптимальный план.
Результат примера может быть существенно обобщен: для
случая бесконечномерная задача планирования
всегда легко сводится к конечномерной.
Пусть хе L2(T, р), L — m-мерное подпространство простран-
ства L2(T, р), {еь ет}—р-ортонормированный базис под-
152
пространства L. Тогда проекция x(L) точки х на L записывается
в виде
т
х(Ь)=^ etx (е,).
i = '
Теорема 2.1. Пусть X<zzL2(T, ц). Тогда информационная
матрица Af(g) любого плана g вида (2.4) совпадает с информа-
ционной матрицей Al(g(L)) плана
£ (Т \ f *1 (^)> • • •» ХП (М 1
*(£)=1 Р„:..,Рп р
где
m
X/ (L) = Е etX, (et), j = 1, ...» п,
суть проекции точек Х/^Л2(Т, ц) на /n-мерное пространство,
порожденное ортонормированным базисом {ei, ..., em}>
Доказательство. Поскольку Xj(et)—проекция точки X/
на элемент базиса et> то для всех i= 1, m, /= 1, п
выполнено равенство
х/(^) = [х/(£)](е/). (2.9)
По определению информационная матрица M(g(L)) плана |(L)
состоит из чисел
Mik (g (£)) = g Р{ [xz (£)] (ef) [x; (L)] (ek),
где i, & = 1, ..., m, С учетом (2.9) эти числа совпадают с
(2.5)—элементами информационной матрицы Af(g). Теорема
доказана.
Из доказанной теоремы вытекает, что без потери информа-
ции (т. е. без изменения множества информационных матриц)
в случае XczL2(T, ц) можно ограничиваться планами экспери-
мента, сосредоточенными на конечномерном множестве XQL.
2.2. Планирование регрессионного эксперимента при коррели-
рованных наблюдениях. Следующий класс задач, имеющих важ-
ное прикладное значение, составляют задачи с коррелирован-
ными ошибками наблюдений. В этих задачах результаты изме-
рений имеют аддитивную погрешность, представляющую собой
значение реализации случайного процесса в соответствующей
точке.
Сначала остановимся на случае, когда имеется только один
неизвестный параметр. Предположим, что на промежутке Т —
==[0, 1] задан случайный процесс
г/(0 = е/(0 + е(0, (2.10)
где f(t)—известная непрерывная функция на Г; 0 — скалярный
неизвестный параметр; е(0—случайный процесс с нулевым сред-
ним, известной ковариационной функцией
/((S, /) = Е [е (s) в (/)] (2.11)
153
и траекториями, непрерывными с вероятностью единица. Обо-
значим через произвольное множество из W точек проме-
жутка Г:
Tn — Ui* •••> /лг|0</1</< ... </дг^1}. (2.12)
Будем предполагать, что функция K(s,t) образует невырож-
денную матрицу при замене множества Т на произвольное мно-
жество вида (2.12), т. е. что det KN =# 0, где KN = |Ю;, tk)||^ft=I>
ti^TN (z = 1, N). Пусть множество TN фиксировано
и определяет точки проведения измерений, т. е. план экспери-
мента для N измерений. Тогда вектором результатов измерений
является вектор
yW = (l/(6). •••> Of
Ковариационной матрицей этого вектора является матрица Кы-
Таким образом, в обозначениях гл. 1 имеем линейную рег-
рессионную модель (Yn, FnQ, Кн), где FN = (f(tl), ...,
Согласно результатам п. 1.7 гл. 1, HJIH-оценкой параметра 0
является
QN = (FTNlCN1FNylFTNKN1YN. (2.13)
Дисперсия этой оценки равна
Оё^^Кл'Гдг)"1. (2.14)
Примем обозначение
||fll2 = sup FtnKnFn,
N. TN
где супремум берется по всевозможным конечным набором Тц
вида (2.12).
Определим в множестве ограниченных по указанной норме
функций — {f | ||f|| < оо) скалярное произведение по формуле
(f, g)K = sup FnKn'Gn,
TN
где GN=(g(ti).......g(tn))T, ti^TN (i=l,...,N). Легко
проверить (проверьте!), что множество функций ST удовлетво-
ряет следующим двум свойствам: а) при любом t^T функция
/<(•,/) принадлежит б) для любой функции /е^Ги любого
t выполнено равенство
(Л *(•> (2.15)
Множество функций с указанными свойствами называется гиль-
бертовым пространством с воспроизводящим ядром, а свойство б)
называется воспроизводящим свойством ядра К.
Из свойств гильбертовых пространств с воспроизводящим
ядром вытекает, что пространство ST сепарабельно, содержит
только непрерывные функции и порождается всевозможными
линейными комбинациями £ щК t), i е Т.
154
Рассмотрим проблему оптимального выбора плана экспери-
мента, т. е. конечного набора TN- Пусть Sn={Tn}—множество
всех конечных наборов вида (2.12), содержащих ровно N раз-
личных точек. Оптимальным дискретным планом для модели
(2.10) является план
r; = Arg sup || /||Глг, (2.16)
где норма || • ||Глг, соответствующая плану TN, порождается
квадратичной формой с матрицей /G1:
II/II* ^FtnKn'Fn. (2.17)
w
Из (2.14) следует, что для плана (2.16) дисперсия НЛН-оценки
неизвестного параметра 0 минимальна в множестве всех пла-
нов вида (2.12) при фиксированном N.
Дискретные оптимальные планы (2.16) могут быть найдены
путем прямой максимизации критерия (2.17) по точкам
ti, ..., tN плана (2.12). При этом типичной является такая си-
туация, когда оптимальный план T*N+i для проведения (N + 1)-го
измерения лучше оптимального плана T'N для /V измерений, т. е.
Исключением является случай, когда при некотором N функция
f из (2.10) представима в виде
N
= t(). (2.18)
В этом случае
Ilf II = llf llr*, (2.19)
причем оптимальный план T*N состоит из точек /р фигурирую-
щих в (2.18). План с наименьшим возможным N, для кото-
рого имеет место (2.19), называется глобально оптимальным.
Очевидно, что если ни при каком конечном N представления
(2.18) не существует, то глобально оптимального плана также
не существует.
Поскольку для всех f е справедливо равенство
||f||= iim sup ||f lb-
W->оо Гд/ е S/у
то представляется естественным ослабить требование точной
оптимальности плана при каждом N до асимптотической опти-
мальности последовательности планов {TN, N^oa}. Пусть в мо-
дели (2.10) /(^—непрерывная функция, допускающая пред-
ставление
1
/ (0 = Л (s, 0 ф (s) ds, (2.20)
о
155
где функция cp(s) также непрерывна на Г = [0,1] (поэтому,
в частности, f е &"). Последовательность планов (7\, Afr^l}
называется асимптотически оптимальной, если
Il hi- -Il /Hi
lim —5-------------—х—= 1.
Ilf II2— sup ||f||-,
r'N^SN N
Без доказательства приведем теорему, результат которой описывает струк-
туру асимптотически оптимальной последовательности планов.
Теорема 2.2. Пусть ядро K(s, t) непрерывно на квадрате TXT и
имеет непрерывные производные до второго порядка включительно во всех
точках квадрата вне главной диагонали (s ф t)\ на диагонали s = t функция
X(s, t) имеет все правые и левые производные до второго порядка включи-
тельно и ненулевой скачок первой производной: функция
а (/) = lim 4- К (s, 0 - lim 4- К (s, t) (2.21)
s^t ds Os
строго положительна и непрерывна на Т. Пусть далее д2К(-, t)ldt2&&" при
любом 1еТ и нормы этого семейства функций ограничены в совокупности.
Тогда асимптотически оптимальная последовательность \ТN, N -> 00}
определяется через функцию h(t) = [а(0ф2(0]1/3 следующим образом:
о о
причем /* — наименьшее число, удовлетворяющее написанному условию.
Приведенные в формулировке теоремы условия на ядро /((s, t) связаны
с разрешимостью интегрального уравнения (2.20) относительно функции qp(s)
в множестве непрерывных функций. Примером семейства ядер, удовлетворяю-
щих указанным условиям, является
со
/С (s, t) = exp {— х [ t — s I } p (x) dx, (2.22)
0
где p(x) —плотность распределения вероятностей на [0, 00) с конечным треть-
им моментом.
Ряд приведенных выше результатов относительно модели
(2.10) может быть обобщен на случай, когда имеется несколько
неизвестных параметров, т. е. вместо (2.10) справедлива модель
у(0=е7(х) + в(0. <бГ=[о,11,
где 9 =(0i, ..., 0т)г—вектор неизвестных параметров, f(x) =
= (А (х) , .... fm (х))т— вектор базисных функций, а предполо-
жения относительно случайного процесса е(^) те же, что и
раньше. Явный вид НЛН-оценок Олт параметров 8 определяется,
так же как и раньше, по формуле (2.13), а дисперсионная мат-
рица D0tf оценок 0лг —по формуле (2.14).
В отличие от случая скалярного параметра 0 выражение
(2.14) является не числом, а матрицей, и задача ее минимиза-
ции является неопределенной. Можно лишь, так же как и в гл. 3,
156
минимизировать выпуклые функционалы на множестве диспер-
сионных матриц. Для того чтобы соответствующие критерии ка-
чества имели смысл, необходимо, как и в одномерном случае,
чтобы все функции Д(/) (i= 1, ..., т) принадлежали гильбер-
тову пространству с воспроизводящим ядром К.
Относительно дискретных оптимальных планов в этом слу-
чае, так же как и для случая скалярного параметра, ничего не
известно, за исключением ситуации, когда существует глобально
оптимальный план, т. е. когда все функции fi(t) представимы
в виде конечных линейных комбинаций t), tj^TN}.
Асимптотически оптимальные последовательности планов опре-
деляются, как в одномерном случае, только вместо функциона-
лов типа || f\\TN используется некоторый критерий Ч7 (Dfyy). Для
построения таких последовательностей также используется пред-
ставление через квантили некоторой положительной функции
h(t), определяемой по ядру K(s, t), по совокупности решений
cpt(s) интегральных уравнений (2.20) для всех ft и по крите-
рию Y.
Рассмотренные выше подходы к решению задачи оптималь-
ного планирования эксперимента по оцениванию параметров
случайных процессов существенно отличаются от классического
подхода, рассмотренного в гл. 3. Для некоторых достаточно
простых постановок могут быть получены результаты, похожие
на результаты классической теории. Ниже рассмотрена одна из
таких постановок.
Рассмотрим задачу оценивания неизвестного среднего 0 слу-
чайного процесса
у(/) = 0 + е(/), t<=T = [O, 1], (2.23)
где, как и выше, е(0—случайный процесс с нулевым средним
и ковариационной функцией (2.11), а множеством планирования
X является Т = [0, 1]. Модель (2.23) является частным случаем
модели (2.10), получающимся при f(t) = 1. Для оценивания па-
раметра 0 будем использовать не НЛН-оценку, как выше, а
стандартную МНК-оценку, которая по результатам измерений
y(ti) в точках ti^TN из набора (2.12) строится очень просто:
N
<2-24>
/“1
т. е. 0w является средним арифметическим результатов измере-
ний. Дисперсия этой оценки равна
_ N -2 N
d0№e
L /-! J *./-1
X <2-25>
i,
157
Аналогично классической теории планирования регрессион-
ного эксперимента введем в рассмотрение непрерывные планы
эксперимента на X — Г, т. е. произвольные вероятностные меры
£ на борелевских подмножествах множества Т = [0,1]. Множе-
ство непрерывных планов обозначим, как и в гл. 3, через Е.
Если план эксперимента имеет вид
^ = { 1/ЛГ, .... 1%}’ (2’26)
то измерения случайного процесса y(t) проводятся в точках
6, tN (т. е. в точках множества (2.12)). Положим
D
(В)= J tn(ds)l(dt).
(2.27)
т т
Для случая (2.26) выражения (2.25) и (2.27) совпадают, и, сле-
довательно, D(£) можно рассматривать как дисперсию оценки
^z/(O£(d/) (непрерывного аналога оценки (2.24)) и как крите-
рий качества плана эксперимента g, который необходимо мини-
мизировать на множестве S.
Нашей основной целью является доказательство теоремы
типа теоремы эквивалентности. Для этого необходимо, во-пер-
вых, доказать, что функционал D(g) является выпуклым на мно-
жестве непрерывных планов S, и, во-вторых, уметь вычислять
производные этого функционала пр направлениям. Этим вспомо-
гательным целям служат две приводимые ниже леммы.
Лемма 2.1. Функционал (2.27) является выпуклым на мно-
жестве непрерывных планов В, т. е. для плана
U = (l-«)&) + <& (2-28)
выполнено неравенство
+ (2.29)
где go, gi— произвольные непрерывные планы, а а — любое
число из промежутка [0,1 ].
Доказательство. Используя симметричность функции
K(s,t) (т. е. то, что K(s,t) = K(t,s) для всех s, /еТ), имеем
D = J $ К (s’ ° Hl - a) lo (ds) + ag, (ds)] [(1 - a) g0 (dt) +
+ agj (d/)] = (1 - a)2 J J К (s, t) go (ds) go (dt) +
+ 2a (1 - a) $ J К (s, t) g0 (ds) (dt) +
+ a2 J J К (s, t) g, (ds) gt (dt) = (1 - a) D (go) + aD (gt) - a (1 - a) A,
где
4 = J J к (s, t) [g0 (ds) g0 (dt) + g1 (ds) g, (dt) - 2g0 (ds) gj (d/)].
158
Для доказательства справедливости неравенства (2.29) до-
статочно показать, что А 0. Для этого обозначим через po(s)
и pi(s) плотности вероятностных мер ^o(ds) и gi(ds) относи-
тельно некоторой вероятностной меры v(ds) (в качестве v мож-
но взять, например, v = (g0 + gi)/2), после чего преобразуем
выражение для А:
Л = К (s, /) [р0 (5) Ро (0 + Pi («) Pi (0 — 2ро (s) Pi (01V (ds) v (dt) =
= Ц К (s, t)a (s) a (t) v (ds) v (dt),
где a(s) = po(s)—Pi(s). Это выражение неотрицательно в силу
свойств ковариационной функции K(s,t). Действительно, если
мера v сосредоточена на конечном числе точек ti, tn, то
неотрицательность А вытекает из неотрицательной определен-
ности матрицы ||K(ti, ij)\\Nitj^x- В общем случае А представляет
собой дисперсию непрерывной МНК-оценки ^z(/)v(d/) пара-
метра 6, полученной по плану v(dt) для процесса z(Z) = 0 +
+ a(t)s(t). Лемма доказана.
Лемма 2.2. Пусть план имеет вид (2.28). Тогда
T^L^2 [$$*(*> t)Ws)lt(dt)-D&)]. (2.30)
, Доказательство. Используем полученное при доказа-
тельстве леммы 2.1 выражение для D (go). Имеем
-о)!№>+л>а.)+
+ 2а (1 - а) К (s, i) I, ids') 5, (Л)] |а_а -
= - 2D (Во) + 2 J J К (s, t) Во (ds) В! (dt).
Лемма доказана.
Используем теперь необходимое и достаточное условие опти-
мальности для выпуклого функционала, аналогичное условию
(2.1) из гл. 3. В данном случае план В* оптимален, если и
только если для любого плана g выполняется неравенство
дР((1 -а)Г + аЮ I
да |а-о
Учитывая (2.30), перепишем (2.31) в виде
inf \\K(s, t)l*(ds)lt(dt)>D(V).
Si е S J J
Минимум в левой части (2.32) достигается на плане сосредо-
точенном в точке минимума функции
ф(/)= J/((s, t)V(ds),
(2.31)
(2.32)
169
и поэтому необходимое и достаточное условие оптимальности
(2.32) переписывается в виде
inf ( К (s, t) g* (ds) D (Г). (2.33)
teT J
На самом деле в (2.33) вместо знака неравенства стоит знак
равенства. Это вытекает из того, что по определению
О(Г)= t)V(ds)t(dt),
и поэтому в точках Г плана l*(dt) выполнено равенство
J K(s, Г) Г (<fc) = ^ЧЛ-
Итак, нами доказана теорема, которую по аналогии с теоре-
мами § 2 гл. 3 можно назвать теоремой эквивалентности.
Теорема 2.3 (теорема эквивалентности). Необходимым и
достаточным условием оптимальности плана g* (т. е. того, что
g* = argminZ)(B)) является выполнение равенства
inf ( К (s, О Г (ds) = D (g‘). (2.34)
ZeT J
Аналогично § 4 гл. 3 можно построить алгоритмы численного
нахождения оптимальных планов. Аналогом алгоритма 4.1 из
гл. 3 является следующий
Алгоритм 2.1.
1) Выбираем некоторый план g0 (возможно, сосредоточен-
ный в одной точке) и полагаем I = 0.
2) План gt+i строим по формуле
£/+i = (1 at+i) "Ь а/+At)> (2.35)
где g(z) = £(/(<•))—план, сосредоточенный в точке
Ао = arg min К (s, t) g, (ds). (2.36)
feT J
3) Переходим к шагу 2 с заменой i на i + 1.
Основанием для выбора в (2.35) плана g(t) = £(Ao), гДе Ао
определяется по (2.36), является то, что при таком выборе
плана g(,> производная
<?£>((! —Ct) gf + a^o)
да
a=o+
минимальна и поэтому функционал D в направлении плана g(t>
убывает наиболее быстро.
В качестве последовательности {a,+i} в (2.35) естественно
выбирать одну из двух: либо
at+i = !/(* + 2), (2.37)
либо
«г и = arg min D((l — a)gz + ag(/m)). (2.38)
' < О < |
160
Если в алгоритме 2.1 план |0 сосредоточен в одной точке, а
а/+] выбираются по (2.37), то планы & являются дискретными —
веса входящих в них точек равны l/(i + 1 )• Способ выбора (2.38)
соответствует максимально возможному уменьшению критерия
D за счет выбора а/+ь Величины аж из (2.38) легко выражают-
ся в явном виде. Действительно, из формулы, полученной в до-
казательстве леммы 2.1, имеем
D((l -a)g, + ag(/(0)) = (l -а)2О&) +
+ 2а (1 - a) J К (Л /(П) (dt) + а2 К (t„v /(0) = а + 26а + са2,
где
а = D (g,), b = $ К (t, I (dt) - D (l{),
c = D (&,) + К (tw t(i}) -2\K(t, tw) (dt).
Минимум по а квадратного трехчлена a + 26a + ca2 дости-
гается при a =—6/c и равен a — 3b2/c (в данном случае, как
нетрудно проверить (проверьте!), 6^0, с > 0, |6|^с). Итак,
формула (2.38) эквивалентна формуле
D(M-
«»•+1 =------------------=------------. (2.39)
D (М + * ('«>• '(<>) ~ 2 И (*’ '(о)
2.3. Планирование эксперимента при использовании оценок
типа гребневой. Пусть имеется схема регрессии (У, F0, <т2/Д
рассматривавшаяся в гл. 1. Как указано в гл. 1, кроме НЛН-
оценок для 0, полученных с помощью метода наименьших квад-
ратов, часто имеет смысл использовать и оценки вида
bN = (FTF + A)"' FTY. (2.40)
Приведем примеры оценок, имеющих такой вид. Для гребне-
вой оценки (1.59) из гл. I матрица А пропорциональна единич-
ной. Если априорная информация о параметрах 0 регрессионной
модели (У, FQ, в2 In) имеет вид
9gq = {9e Г । егте < k),
то минимаксная оценка (2.5) из гл. 1 выражается по формуле
@ 2
(2.40) с А—^Т. Если, наконец, на параметрическом множе-'
стве Q задано априорное распределение P(d0) с нулевым векто-
ром средних и дисперсионной матрицей V > 0, то байесовская
оценка (2.14) из гл. 1 также записывается в виде (2.40), но
с А =
Отметим, что во всех указанных случаях матрица А поло-
жительно определена и известна, возможно, с точностью до
скалярного множителя а2.
Оценка (2.40) является смещенной.
6 С. М. Ермаков. А А Жиглявский
161
Действительно,
E0v = (FTF + ,4)“' FrEK = (FTF 4- 4)"' FTFQ = 0 - (FrF 4- 4Г1.40,
и, следовательно, T0v#=0 при 0=#=O. Дисперсионная матрица
оценки (2 40) равна
D0V - Е (0v - E0V) (0V - E0v)r =
= E |(f •' F + /1)“' FT (Y - FB) (У - F0)r F (FrF + Д)-11 =
= a2 (FTF 4- Д)-' FTF (FTF 4- Д)-1 =
= a2 (FTF 4- 4)"' - a2 (FTF 4- 4)"' A (FTF 4- 4)’1.
Рассмотрим схему регрессионного эксперимента, описанную
в § 1 гл. 3. Для этой схемы оценка (2.40) строится в предполо-
жении, что план эксперимента предназначен для проведения N
измерений и имеет вид
^w=={1/jV...\N/n}'
где Xi, ..., xN— некоторые точки из множества планирования X.
Информационная матрица плана (2.41) равна
В терминах этой матрицы выражение для DBN переписывается
в виде
• D0„ = 4 (М (Ы + ВГ' - 4 (М (Влг) + В)-' А (М (g„) 4- В)-1, (2.42)
где B = При больших, но конечных JV (этот случай мы и
будем рассматривать ниже) матрица (2.42) почти полностью
определяется матрицей
Db(U) = (A4(^) + B)_1, (2.43)
которую мы будем рассматривать как основу для построения
критериев оптимальности планов, пренебрегая смещением оценки.
Матрица (2.43) определена для любых непрерывных пла-
нов g:
+ (2.44)
где
M(g) = (2.45)
х
есть информационная матрица плана g, свойства которой изу-
чены в гл. 3. Обратная от матрицы (2.44) равна
Мв (?) = М (£) 4- в (2.45)
и в литературе называется байесовской информационной мат-
162
рацей (по той причине, что задачи планирования чаще всего
рассматривались в предположении, чго оценка (2.40) является
байесовской).
Ниже рассматривается задача минимизации в множестве не-
прерывных планов S выпуклого функционала
ад-'плм^)],
где Мв(В) определяется по формуле (2.46), а матрица В > 0
фиксирована. При этом следует иметь в виду, что, поскольку
матрица В зависит от числа планируемых измерений ЛГ, от
этого числа будут зависеть и оптимальные непрерывные планы.
Изложенные в п. 1.4 гл. 3 свойства информационных матриц
Л1(|) переносятся на байесовские информационные матрицы
вида (2.46) с единственным изменением: байесовские информа-
ционные матрицы Мв(£) всегда невырожденны (поскольку
В > 0). Отсюда следует, в частности, что оптимальные по неко-
торым критериям планы могут быть сосредоточены в одной точке.
Критерии оптимальности планов 'F могут быть выбраны те
же, что и в гл. 3. Очевидно, что выпуклость функционала ЧИ на
множестве неотрицательно определенных матриц влечет его
выпуклость на множестве — {Л1В(g), S}.
Предположим, что выбранный функционал Т* [М] является
дифференцируемым по элементам матрицы М. Для доказатель-
ства теорем эквивалентности типа теорем из § 2 гл. 3 можно ис-
пользовать описанную в указанном параграфе стандартную тех-
нику. Единственным отличием рассматриваемой в данном
пункте задачи является несколько иной вид производной
4вв„у= lim
а-»0+ u
функционала Тв по направлению g2 — Bi в точке е 3.
Необходимое и достаточное условие оптимальности плана £*,
аналогичное условию (2.1) из гл. 3, имеет вид
inf ДВ(Г £)>0. (2.47)
5 е= 3
Вычисляя производную Л/?(^*, |), имеем
Ав (r, g) в + | =
_ [(1 - а) М (Г) + «М ($) + В] I _
|а=0
= к[М(&)-М(Г)]ЧЧЛ1в(Г)]==
= tr М (» й [Мв (Г)] - tr м (Г) V [Мв (Г)] =
“ J Фв (х, Г) I (dx) - tr М (Г) ф [Мв (Г)1,
6*
163
где
(2.48)
tB(x, Г) = Г
° , . ЗТ [AfJ I
чЧМа (£)]== дМ |м_МвЮ
Следовательно,
inf Дв (Г. 6)e infn 5 <*’ Я {dx) -
|е8 ssa
- tr М (Г) W [MB (DJ = inf Фв (X, Г) - tr М (Г) $ [Мв (Г)1 •
хе X
Таким образом, из (2.47) вытекает справедливость следую-
щей теоремы, аналогичной теореме 2.1 из гл. 3.
Теорема 2.4 (теорема эквивалентности). Пусть Ч'1 — вы-
пуклый дифференцируемый функционал на множестве неотри-
цательно определенных (m X т) -матриц. Тогда необходимым и
достаточным условием того, что
r-argminV[AfBa)L (2.49)
Е
является выполнение для всех х е X неравенства
ta (х, Г) > tr М (Г) i [AfB (Г)]. (2.50)
Из этой теоремы можно получить аналоги теорем эквивалент-
ности для различных критериев оптимальности. Для примера
рассмотрим критерий Д-оптимальности
Т[М] = —In det AL
В этом случае, используя результаты п. 2.2 гл. 3, получаем
Ч>в(х;Г)-----Г(х)[Мв(Г)]‘7(х),
tr м (Г) т [мв О=- tr м (Г) рив О" *;
следовательно, необходимым и достаточным условием того, что
Г — arg max det [Al (£) + В],
является выполнение неравенства
' Г (X) [М (Г) + В]-1 f {X) < tr М (Г) [М(Г) + В]-’ (2.51)
для всех х G X.
Отметим, что в отличие от классического случая, получаю-
щегося при В = 0, правая часть неравенства (2.51) не равна
числу неизвестных параметров т.
Упражнения.
1. Используя формулу (1.9) из приложения 1, показать, что при добавле-
нии новых результатов измерений дисперсия (2.14) оценки Одг, рассмотренной
в п 2.2, не возрастает.
2. Докажите справедливость формулы (2.15).
164
3. Выведите явный вид функции (2.21) для случая (2.22) и
К ($, 0 =
Г—s|
о
[1 — х 11 — $ | ] е х dx.
4. Пусть Т = [О, 1], K(s, t) = О, s ф t. Найдите план, оптимальный по
критерию (2.27).
5. Пусть Т = [О, 1], /<($, 0 = |/ —s|. Сравните по критерию (2.27)
два плана: равномерный l>(dt) = dt и сосредоточенный с равными весами в
точках нуль и единица. Проверьте оптимальность этих планов с помощью
теоремы 2.2.
6. Покажите, что величины a/+i из (2.39) удовлетворяют неравенству
О < a/+i С 1.
7. Сформулируйте модификацию алгоритма 2.1, в которой аналогично
алгоритму 4.2 из гл. 3 допускаются отрицательные значения величин a/+i.
Выведите формулу для отрицательных значений a/+i, аналогичную формуле
(2.39).
8. Покажите, что оценка (2.40) является асимптотически несмещенной.
9. Покажите, что матрица вторых моментов отклонений оценки (2.40) от
истинных значений параметров 0 равна
Е -0) (Од, - 0)г = (FTF + ЛГ’+СР’Р+Л)-1 А (МТА - /„)(FTF + Л)-1.
Выведите отсюда, что эта матрица при больших значениях W близка к мат-
рице (FTF + А)’1.
10. Докажите, что для любого непрерывного плана £ выполнено равен-
ство
J % (X. I) 6 (dx) = tr М Ш £ [Мв (&)].
X
11. Используя результат предыдущего упражнения, покажите, что в точ-
ках плана (2.49) неравенство (2.50) превращается в равенство.
12. Покажите, что для критерия L-оптимальности Т[М] = tr LM~i функ-
ция фв(х, |) имеет вид
(X, 6) = fT (X) [A1B (g)]"1 L [Мв (5)]-* f (х),
а правая часть неравенства (2.50) — вид
tri^CDJ-'AKF) [Мв (Г)]’1..
13. Используя результаты упражнений 11 и 12, сформулируйте теорему
эквивалентности для байесовских L-оптимальных планов.
14. Сформулируйте численные методы построения оптимальных байесов-
ских планов (2.49), аналогичные алгоритмам 4.1—4.3 из гл. 3.
15. Пусть функция регрессии имеет вид т| (х) « 01 + 0г*, X == [—1, 1],
а матрица В пропорциональна единичной: В == с12, с>0. По критериям байе-
совской £>-оптимальности и байесовской А-оптимальности сравните планы
g,(dx) —ydx, Ь = |1/2 1/2}> 1/3 1/3 р (1
С помощью теоремы эквивалентности проверьте указанные планы на опти-
мальность.
165
§ 3. Линейная теория возмущений
и планирование эксперимента
3.1. Сопряженные операторы и уравнения. Пусть X— некою
рое измеримое множество, v — заданная на о-алгебре его под-
множеств сг-конечная мера, <р — заданная на X вещественная
функция.
Часто при изучении сложных физических, биологических и
других процессов априорная информация о функции ф(х) со-
стоит в том, что ф(х) является решением линейного уравнения
L<p(x) — q(x), (3.1)
где q(x)— известная функция, L — некоторый линейный опера-
тор. Линейность оператора — это сравнительно просто проверяе-
мое свойство. Относительно оператора L не предполагается, что
он известен, и нашей целью в п. 3.3 будет восстановление этого
оператора.
Для простоты будем предполагать, что
L: L2(X, v)-+L2(X, v)
и соответственно что все рассматриваемые функции принадле-
жат L2(X, v).
Типичной является ситуация, в которой результаты измере-
ний— линейные функционалы от некоторой функции, а интере-
сующие исследователя характеристики могут быть выражены
в виде линейных функционалов от неизвестной функции ф.
Как известно, любой линейный функционал может быть за-
писан в виде скалярного произведения.
• Для функции р е L2(X, v) положим
, /Р[ф] = (ф> Р)= $<p(x)p(x)v(dx). (3.2)
х
Наряду с оператором L будем рассматривать сопряженный
к нему оператор L*, определяющийся из условия выполнения
равенства
(g, Lh) = (h, L'g) (3.3)
для любых функций g, h из L2(X,v).
Наряду с исходным уравнением (3.1) введем неоднородное,
сопряженное к (3.1) уравнение
Гф*р = р, (3.4)
где р(х)—некоторая произвольная пока функция.
Подставляя в формулу (3.3) вместо функций h и g решения
уравнений (3.1) и (3.4), а именно ф и ф*, получим
(ф’„, £ф)==(ф, гФ;)
или, воспользовавшись уравнениями (3.1) и (3.4),
(фр> <7) = (ф> Р)- (3.5)
166
В других обозначениях
[фр] = [ф]
Таким образом, если нужно найти значение функционала
/Р]ф], то можно либо решать уравнение (3.1) и вычислять (3.2),
либо решать уравнение (3.4) и определять ту же величину по
формуле
4(ф1=7Л<]=(ч>;. ?)•
Следовательно, каждому линейному функционалу [ф] мо-
жет быть поставлена в соответствие функция ф* (я), удовлетво-
ряющая уравнению (3.4), причем в качестве свободного члена
в этом уравнении следует использовать именно функцию р(я),
фигурирующую в указанном функционале.
Это соотношение двойственности оказывается весьма полез-
ным при решении задач планирования эксперимента.
3.2. Теория возмущений для линейных функционалов. Пред-
положим, что имеются линейный оператор L и возмущенный
оператор L' = L + 6L. Обозначим через ф'(я) решение урав-
нения
£'ф' = q. (3.6)
Кроме того, положим
7р = 7р[ф]. Z'p=7pfa>'L б/р = 7'-7р.
Предположим, что возмущение §L = L' — L оператора L
мало и не слишком сильно искажает функцию ср» ч. е. ф « <pz.
Установим связь между возмущением 6L оператора L и из-
менением функционала 6/р-
Домножим обе части уравнения (3.6) скалярно на ф*, а обе
части (3.4) скалярно на ф'; получим систему уравнений
(фИ'ф')=(ф;, ?),
(ф'> ь фр) = (<р', р).
Вычитая теперь второе уравнение из первого, слева получаем
(ф;, гФ;) = (ф> £'ф')-(ф‘р, £ф')=(Ф;, б/.ф'),
а справа
(ф‘> Я) - (ф'. р) -- /р [ф] - Zp [ф'] = - б7Р-
Таким образом, получено общее соотношение для прираще-
ния функционала
Ь?р = ~^р> W). (3.7)
В силу предположения о малости возмущения 6L имеем при-
ближенное равенство ф' « ф. Подставив теперь в (3.7) ф вместо
Ф', получим так называемую формулу малых возмущений
6^P = H<’6L<₽)- <3-8)
167
3.3. Планирование эксперимента при восстановлении линей-
ного оператора. Предположим, что истинный оператор Ги, опре-
деляемый изучаемым процессом, неизвестен, но известен близ-
кий к нему оператор L, для которого может быть точно решена
основная задача (3.1), а для любых р,L2(X,v)—сопряжен-
ные задачи
/=1’2- •••
Предположим также, что для любых р/ e£2(Iv) (/=1,2,...)
могут быть со случайной ошибкой измерены функционалы
Хр [фи] от решения основного уравнения \
^иФи =
результат измерения для функции р, —случайная величина
V/ = (Фи> Р/) + 8/ = ZP/ [фи] + 8/,
где случайные ошибки ei, 82, ... взаимно независимы, одинаково
распределены, имеют нулевое среднее и конечную дисперсию о2.
Положим U = Ln, <р' — фи. Приращение оператора 6L будем
искать в параметрическом виде: предположим, что
dL=EMh (3.9)
i = l _
где At (i = l, ..., т)—известные линейные операторы, 0Ь ...
..., 9m — неизвестные параметры, подлежащие оцениванию.
Задача планирования эксперимента заключается в таком вы-
боре функций рь ..., рн (N—число, измерений), чтобы неиз-
вестные параметры 0=(0Ь .0т)т были оценены наиболее
точно.
По формуле малых возмущений (3.8) имеем
(Ф;/( й£ф)=-д/Р/, /=1,.... n. (зло)
Используя (3.9) и то, что функционалы /рДфи] вычисляются
со случайной ошибкой, из (3.10) имеем
т
л<ф)—(3-п>
Обозначив fi(x)= Дф(х) (i = 1, ..., m), замечаем, что рас-
сматриваемая задача планирования эксперимента по оценива-
нию параметров 0, может быть рассмотрена с общей позиции
планирования регрессионного эксперимента в функциональном
пространстве (см. п. 2.1). Приведем простейший путь решения
этой задачи.
Положим
F“IK ML,
/-1.
Л,-р|
, Е= .........
N О’ ' ' ' '
т _ PN ~ °N
3.12)
168
и перепишем уравнение (3.11) в матричном виде ЕУ = FQ. Учи-
тывая условия на ошибки измерений, пишем Y ~(F9,o2/n) и,
следовательно, приходим к классической линейной регрессион-
ной модели (У, F9, o2/w) (см. п. 1.2 гл. 1).
Выбирая в качестве метода оценивания метод наименьших
квадратов, получаем, согласно (1.20) из гл. 1, оценку
9 = (FTF)~l FTY
для неизвестных параметров 0. Информационная матрица FTF
в рассматриваемом случае равна
II N
^=|Е(ф;,. л,Ф)
т
Следовательно, нормированная информационная матрица А1(|)
произвольного плана (т. е. произвольной вероятностной меры
на L2(X, v)) равна
Так же, как и в п. 2.1, посредством преобразования
2<=(ф;> л<р)
задача планирования приводится к задаче планирования для
линейной модели
т
Еу (z) = У, 9iZj, г е Z с R"1.
f-i
Формулируя критерий оптимальности плана и находя с по-
мощью результатов гл. 3, 4 оптимальный план, на следующем
этапе с помощью процедуры п. 2.1 восстанавливаем функции
Фр > •••» Фрд,’ соответствующие N точкам дискретного оптималь-
ного плана.
Наконец, замечаем, что нашей целью являлся оптимальный
выбор не функций ср**, а функций ...» pN-t оптимальные
функции pj легко находим через оптимальные функции <р*^ по
формуле
P/ = L4r
Выше рассмотрен случай, когда решение модельной задачи
близко к решению реальной, т. е. когда можно пользоваться
формулой малых возмущений (3.8). Если точность формулы
(3.8) мала, то получаемую после проведения указанных выше
вычислений оценку истинного оператора можно считать лишь
первым приближением к решению задачи его восстановления,
используя эту оценку при аналогичных вычислениях в качестве
невозмущенного оператора. Проведение такого рода последова-
тельных вычислений соответствует применению последователь-
ного подхода (см. § 3 гл. 5).
169
Методы планирования эксперимента, основанные на теории
возмущении операторов, применимы также и в том случае,
когда априорная информация о функции ф(х) задается уравне-
нием
Дф = <7> ” (3.13)
где А — нелинейный оператор. Рассмотрим этот случай, который
не менее важен в практическом отношении.
Пусть F\ (множество, на котором определен оператор Л) и
F2 (множество значений А) есть подмножества линейного нор-
мированного пространства и оператор А имеет производную
Фреше в окрестности интересующего нас решения ф уравнения
(3.13). Из существования производной Фреше А' оператора А
следует, в частности, что,малым по норме возмущениям правой
части q соответствуют малые по норме возмущения ф.
По определению производной Фреше справедливо прибли-
женное равенство А (ф + бф) — Аф ~ А'бф (т. е. А'бф ~ б^), ко-
торое обычно рассматривают как точное, пренебрегая величи-
нами более высокого по норме порядка малости, чем бф. По-
скольку АФ — линейный при фиксированном ф оператор, то мы
приходим к линейному случаю.
Дополнительным требованием для получения содержатель-
ных результатов является непрерывная (по норме) зависимость
Аф от ф, что, безусловно, имеет место, если существует вторая
производная Фреше Афл Выполнение условия непрерывности
позволяет в приближенном равенстве
Афбф 6q
использовать значение Аф для приближенного значения ф, а
не для точного ф. Это очень важно в практических задачах.
Далее можно ввести в рассмотрение, как и в линейном слу-
чае, сопряженное уравнение
и'ф)’ф*[ф, h] = h. (3.14)
Здесь обозначение ф* [ф, h] для решения сопряженного уравне-
ния подчеркивает его зависимость как от ф, так и от h. Даль-
нейшее применение идей последовательного подхода не требует
специальных пояснений.
Если А=А(ф,а), ^==^(0) (где а =(аь ..., ап)т, 0 =
= (₽ь ..., 0m)т—параметры из некоторых параметрических
множеств) и соответствующие производные от А и q суще-
ствуют и непрерывно зависят от этих параметров, то равенство
Аф — q для возмущенной системы часто заменяют приближен-
ным равенством
п _ m
(зл5>
i-l /-1
170
где az = di + 6а/, Р/ —fit + 6Р/, а черта над символом соответ*
ствует невозмущенному состоянию системы. Так как Аф = д, то
приближенное равенство (3.15) может быть очевидным образом
упрощено.
Упражнения.
1. Пусть X [0, 1], а
А = — а (х) 4- b (х)
dx dx
есть оператор, определенный для таких дважды дифференцируемых функций
ф(х), что ф(0) = ф(1) = 0:
а (х) = а (х) + ахих (х) 4- а2и2 (х),
b (х) = b (х) + Ьхщ (х) 4- b2v2 (х).
где а, «1, «2, б, «1, и2 — известные функции, ait аг, bi, b2 — неизвестные пара*
метры. Эксперимент состоит в измерении функционалов
{рь Ф) = Pi (х) ф (х) dx
X
где pi (/ = 1, ... М) заданы, ф — решение уравнения Дф = q. ф (0)=ф (1) =
= 0t функция q задана А — невозмущенный оператор 'оператор А при «
= а2 == Ь} = Ь2 = 0)
Запишите для рассматриваемого случая уравнения вида (3.4) при
а (х) = 1. «| == х, и2 = х2. b (х) =0, = 1 v2 = х р/ = х1 (/ = 1,2, ..., 6),
q = 1
Вычислите при тех же данных элементы матрицы F (см. (3.12)).
2 Пусть Дф = — d2q!dx2 4- (а (х) ф + b (х)) ф ф (0) -ф (1) -0, а (х) =
= 1 4- 6 (х)= 1 4“ где а\ и — неизвестные параметры. Изме-
ряются скалярные произведения (х1 ф), ф — решение уравнения — d2yjdx2 4-
4- ф24- ф== 1.
Напишите для рассматриваемого случая уравнение вида (3.13).
Напишите выражение для матрицы F при линеаризации оператора Д.
§ 4. Планирование эксперимента при неадекватности
линейной модели
4.1. Постановка задач. В классической постановке задачи
планирования регрессионного эксперимента предполагается, что
функция регрессии т| (х) = Ег/ (х) является линейной комбина-
цией базисных функций fi(x), ..., fm(x), т. е. представима в
виде
п(Х) = 0П(х). (4.1)
где 0=(0Ь дт)т — вектор неизвестных параметров, f(x) =
==(fi(x), ..., fm(x))T. На практике более реальной является
ситуация, когда представление (4.1) выполняется не точно, а с
некоторой погрешностью, т. е. вместо (4.1) имеет место равен-
ство
Г](Х) = О7 (х)-Ь t (х),
(4.2)
171
где неизвестная функция ф(х) априори принадлежит некоторому
множеству Т, причем обычно предполагают, что множество Т
состоит из функций, в каком-то смысле не слишком отличаю-
щихся от нуля. Задачи планирования для случая (4.2) принято
называть устойчивыми (робастными) по отношению к предполо-
жению о справедливости модели (4.1). Планы, оптимальные для
наихудшей функции ф из множества Ч1*, называют робастными
планами.
Следующий пример показывает, что применение в ситуации
(4.2) планов, оптимальных для ситуации (4.1), может приво-
дить к неудовлетворительным результатам.
Пример 4.1. Пусть множество планирования X — отрезок
[—1,1], m = 2, D#(x) = o2, f\(x)==it f2(x) = x,
W cz {ф(х) = ах2, xg[-1, 1], as R}.
Таким образом, в рассматриваемом случае модель (4.1) ли-
нейная (т](х) = 01 + 02х), а модель (4.2) квадратичная (т](х) =
= 01 + 02х + 0з*2). Согласно результатам § 3 гл. 3, для модели
(4.1) оптимальным в различных смыслах является план, сосре-
доточенный с равными весами в точках х\ — 1, х2 = —1. Однако
для квадратичной модели указанный план является вырожден-
ным и не позволяет получить несмещенные оценки всех трех па-
раметров квадратичной функции регрессии.
В данном параграфе будут рассматриваться различные кон-
кретизации следующей общей постановки задач оценивания
регрессии.
Предположим, что в точках х/ е X cz R* (/ = 1, ..., N), опре-
деляемых планом проведения эксперимента, могут быть вычис-
лены значения
И*/) = П(*/)4-«(*/). £«(*/) = О,
Ее2 (х) = а2 (х), Ев (х{) е (х,) = 0 (i =А /),
причем функция регрессии ц(х) априори принадлежит некото-
рому множеству функций 3~. Например, в случае справедли-
вости представления (4.2) ={т| |т] (х) = 0rf(x)+ф(х), феТ}.
Если множество функций бесконечномерно, то задача оцени-
вания функции регрессии tj(x) называется задачей непараметри-
ческого оценивания регрессии. В качестве оценок fj(x) функции
регрессии т|(х) будем рассматривать только линейные оценки,
т. е. оценки, представимые в виде
лг
n W = (*) = £ <7. N W У {xj), (4.4)
где коэффициенты chN(x) (/ = 1, ..., N) не зависят от резуль-
татов измерений и неизвестной функции регрессии т](х), н0 мо-
гут зависеть от Af, х, xi, ...» х#.
В качестве меры точности оценки функции регрессии fj (х)
будем использовать среднеквадратичную погрешность, квадрат
172
которой определяется по формуле
/ = Е (fj (х) — г) (х))2 w (х) dx. (4.5)
х
Здесь &у(х)—неотрицательная весовая функция, которую вводят
при необходимости придать различную значимость ошибкам при-
ближения функции регрессии в различных точках множества X.
Ничего не изменится, если в (4.5) вместо меры w(x)dx исполь-
зовать произвольную <т-конечную меру v(dx) на о-алгебре
т. е. записывать J в виде
J = E J(fj(x)-Tj(x))2v(dx).
X
Преобразуем выражение (4.5).
Лемма 4.1. Предположим, что конечны величины
В = (л (х) — Efi (х))2 w (х) dx, (4.6)
х
V = Е J (Efj (х) - f| (х))2 w (х) dx. (4.7)
X
Тогда величина определенная по (4.5), представима в виде
суммы
] = B+V. (4.8)
Доказательство. Имеем следующее разложение по-
грешности т|(х)— fj(x):
Т) (х) — f) (х) = [т) (х) — Efj (X)] + [En (х) — fj (X)].
Возводя обе части этого равенства в квадрат, получаем
h (х) - fj (x)F = [Т) (х) - Efj (х)]2 +
+ 2 [г] (х) - Efj (х)] [Efj (x) - fj (x)] + [Efj (x) - ц (x)]2.
Полученное равенство интегрируем по мере w(x)dx и берем ма-
тематическое ожидание. Соотношение (4.8) вытекает из того, что
Е [т] (х) — Efi (х)] [Ef| (х) — fj (х)] w (х) dx =
х
= Е {[Т] (х) — Efi (х)] [Efj (х) — fj (х)]} w (х) dx =
х
== $ In (*) “ Efi (X)] [Efi (х) — Efj (X)] w (х) dx == 0.
х
Согласно теореме Фубини, перестановка интеграла и мате-
матического ожидания в приведенной цепочке равенств воз-
можна, если конечна величина
7= Е ( | Е h (X) - Efi (х)1 [Ef| (X) - fj (х)] | w (x) dx.
x
173
В силу неравенства Коши — Буняковского имеем 72 BV, и по-
этому величина 7 конечна. Лемма доказана.
Величина л/В, где В определяется по формуле (4.6), назы-
вается систематической погрешностью и показывает, насколько
в метрике пространства В2 математическое ожидание оценки
fj(x) удалено от истинной функции регрессии ц(х). Обозначение
квадрата систематической погрешности символом В объясняется
тем, что указанная величина представляет собой меру смеще-
ния оценки (от английского эквивалента термина «смещение» —
bias).
Величина где V определяется по формуле (4.7), назы-
вается случайной погрешностью и является характеристикой,
аналогичной обычной дисперсии (по-английски «дисперсия»—
это variance, отсюда и символ V). Более того, поскольку при
фиксированном хеА' дисперсия оценки fj(x) равна *
Df)(x) = E(Efj (х)-п(х))2.
то квадрат случайной погрешности V может быть записан в виде.
V = [Df| (х)] w (х) dx. (4.9)
х
Величина -\/7, где 7 определяется по формуле (4.5), назы-
вается суммарной погрешностью.
В рассмотренной ситуации возможны различные постановки
задачи планирования эксперимента. Эти постановки зависят от
вида рассматриваемой’ модели регрессии (т. е. от множества
функций <F), от способа оценивания функции регрессии и от
критерия оптимальности, который обычно конструируется путем
смешивания погрешностей В и V или предпочтения одной из
них.
Постановки задач оптимального планирования при неадек-
ватности линейной модели, рассмотренные в этом параграфе, не
охватывают всего их разнообразия, но дают о них некоторое
представление. Существенно иной класс задач планирования по-
лучается в случае, когда функция регрессии известна с точ-
ностью до нелинейно входящих в нее параметров (этому классу
задач посвящена гл. 5).
4.2. Оптимальное планирование в конечномерных простран-
ствах функций. Рассмотрим случай, когда о2 (х) = о2, функция
регрессии ц(х) представима в виде (4.2) и множество функций
конечномерно. Пусть множество ЧР порождается функ-
циями gi (х), ..., gi (х), т. е. для любой ф <= Т можно найти та-
кие числа 01, ..., 0/, что
i
(х) = Е Р igi (х) = prg (х), (4.10)
i = 1
где
0 = (₽!, • , 0/)Г, g М = (g! (х), . . ., gt (х))Г,
174
причем будем считать, что функции
/1> • • • > fm> Sl> • • • > Si
ортонормированы с весом w(x). Согласно (4.2) и (4.10), для ис-
тинной функции регрессии q(x) справедливо представление
n(x)=07(x)+₽rg(x), (4.11)
где 0 и р — векторы неизвестных параметров. Предположим, что
в силу какой-либо причины исследователь вынужден вместо
оценки функции регрессии (4.11) ограничиться оценкой функции
Ц1(х)= 6Tf(x) (например, в силу невозможности оценивания
всех параметров функции (4.11)). В качестве оценки ц кх) для
т|(х) выбирается, таким образом,
f,(x) = 0rf(x), (4.12)
где 0—некоторая оценка параметров 0, построенная по резуль-
татам измерений вида (4.3).
Пусть хь ..., Хд/ — точки проведения измерений (не обяза-
тельно различные), У=(у(х1), ..., y(xN) )г — вектор результа-
тов измерений. В силу линейности метода оценивания стати-
стика 0 записывается в виде
0==ДУ, (4.13)
где 4 — некоторая т X N-матрица, определяемая способом оце-
нивания. По лемме 1.3 из гл. 1 дисперсионная матрица оценок 0
равна
D0 = ДОГДг==о2Д4г. (4.14)
Запишем план эксперимента в виде
Н;:: <4J5>
где pi = п/N (i = 1, ..., n), п — число наблюдений в точке xz.
Тогда (4.13) и (4.14) примут вид
0 = СУ» (4.16)
D0 =-у-СР-*Сг, (4.17)
где С—некоторая т X «-матрица (зависящая от точек xi, ...
..., хп, но не зависящая от р\, ..., рп), n-вектор Р составлен нз
среднеарифметических результатов измерений у(х,) в точках
xi (i = 1....п), а матрица Р имеет вид
Pi о ... О “
р __ о Р2 . . . 0
_ О О ... рп_
175
Аналогично классической теории регрессионного планирова-
ния в качестве дисперсионной матрицы непрерывного плана '
Н»:j?'-1' <4|8>
можно выбрать матрицу
D(y = CP-|Cr. (4.19)
В силу (4.9), (4.17) и ортонормированности функций ft, ...
..., fm квадрат случайной погрешности V при проведении изме-
рений согласно плану (4.15) равен
V = (Dr) (х)) w (х) dx = j D [QTf (x)] w (x) dx =
x x
= tr DO J f (x) fT (x) w (x) dx = -y- tr D (£).
x
Для рассматриваемого случая квадрат систематической по-
грешности В равен
В = (л (х) — Efj (х))2 w (х) dx —
х
= J [(О - Е0)7 (х) + firg (х)]2 w (х) dx =
X
= [(0 — Е0)г/ (х)]2 w (х) dx 4- [prg (х)]2 w (х) dx.
X X
Отсюда следует, что квадрат систематической погрешности В
минимален, если оценки ё несмещенные, т. е. Е0 = 0 для всех 0.
С-учетом (4.16) это условие переписывается в виде
0 = СЕГ=СР0. (4.20) ,
где 0 =(0, Р)т — вектор размерности т 4- I,
P = ...fm(Xz), grlXi)...£/(*«)
Поскольку 0 = 70, где T=||/m, 0||, то выполнение равенства
(4.20) для всех 0 эквивалентно матричному равенству
CF = T, (4.21)
которое представляет собой условие только на точки плана
(4.15). г
Полученные результаты позволяют сформулировать следую-
щую задачу непрерывного оптимального планирования экспери-
мента, которую в литературе иногда называют задачей несме- .
щенного планирования. j
176
Предположим, что измерения (4.3) проводятся согласно не-
прерывному плану эксперимента (4.18), истинная функция ре-
грессии имеет вид (4.11) и оценкой для нее является (4.12), где
0 определяется по (4.16). Выбирая из условия (4.21) точки
Xi....хп плана (4.18) и метод оценивания, определяемый мат-
рицей С, мы тем самым минимизируем систематическую по-
грешность д/В. Оставшуюся свободу в выборе весов рь ..., рп
плана (4.18) используем для минимизации квадрата случайной
погрешности
V = ctr£>®, (4.22)
где дисперсионная матрица плана | определяется по (4.19). От-
метим, что рассматриваемая задача наиболее интересна, если
на число точек п плана £ наложено ограничение п < k + /,
так как в противном случае в качестве g можно выбрать план,
невырожденный для модели (4.11).
Покажем, что задача минимизации случайной погрешности
по весам плана легко решается. Преобразуем (4.22):
V = с tr D (Ю = с tr СР~'СТ = с tr (СГС) Р- *.
Обозначим диагональные элементы матрицы СТС через bl
(t= 1, ..., п). Тогда
" b2
tr(CrC)P-' = £^. (4.23)
Из неравенства Коши (следствие 2.2 из приложения 1) сле-
дует, что
причем равенство имеет место только при
b2i/pi= kpi9 k > 0,
Отсюда вытекает, что минимальное значение выражения (4.23)
на множестве
pi....pnlp«>o, Ерг= 1
достигается при
п
В принципе можно поставить задачу минимизации произ-
вольного выпуклого функционала Ф [D (|)] по весам плана £. Эта
задача является частным случаем задачи (2.4) из гл. 8.
177
4.3. Влияние способа смешивания погрешностей на вид оп-
тимального плана. Из (4.6) вытекает, что квадрат систематиче-
ской погрешности В = В(х\) зависит от неизвестной функции тр
Поэтому вместо него обычно рассматривают величину
Вшах = max В (ц),
т. е наихудшее значение квадрата систематической погрешности
на множестве функций ST. При замене В на Втах квадрат сум-
марной погрешности J аналогично заменяется на
/max = Вшах+V. (4.24)
Если на множестве можно определить меру X, отражающую
дополнительные сведения о неизвестной функции т] 6= ST, то
вместо Втах рассматривают величину
В (n) X (dr))
&
(байесовский критерий).
В отличие от систематической погрешности при любом ли-
нейном способе оценивания (4.4) случайная погрешность не за-
висит от неизвестной функции регрессии. Действительно, исполь-
зуя условия (4.3), для оценки (4.4) получаем
V — Е [fj (х) — Efj (х)]2 w (х) dx =
х
Г N -12
= J Е X ci’N W —11 w W dx =
х L/..J J
= $ X °2 с2 w w I ® wdx-
х L/~i J
Случайная погрешность aJV не зависит от неизвестной
функции г|, но зависит от дисперсий измерений, которые обычно
неизвестны. Таким образом, критерий оптимального выбора ли-
нейной оценки (4.4) и плана эксперимента, определяющего точ-
ки проведения измерений, однозначно определен быть не мо-
жет. Величины же Втах и V по отдельности с точностью до по-
стоянного множителя обычно определяются, и поэтому могут
быть выбраны в качестве критериев оптимальности.
В большинстве постановок задач планирования эксперимента
при неадекватности линейной модели критерий Втах предпо-
читается критерию V. Тем самым способ оценивания и план
эксперимента выбираются так, чтобы величина Втах была наи-
меньшей. Условие минимизации Втах при этом не полностью
определяет план эксперимента, и оставшаяся свобода в выборе
плана используется для минимизации случайной погрешности.
Получающиеся при таком подходе планы называются робаст-
178
ными или несмещенными. Происхождение последнего термина
поясняется в п. 4А.
В некоторых случаях (один из них рассмотрен в п. 4.5) си-
стематическая погрешность полностью определяется выбранным
методом оценивания, и поэтому в качестве критерия оптималь-
ности плана эксперимента выбирается величина случайной
погрешности. Существенно иной подход к конструированию
критерия оптимальности содержится в п. 4.6 и состоит в требо-
вании равенства скоростей убывания систематической и случай-
ной погрешностей при числе измерений стремящемся к бес-
конечности.
Ниже на простом примере показано, что способ смешивания
случайной и систематической погрешностей оказывает суще-
ственное влияние на вид точного оптимального плана.
Пусть Х = [0, 1], w(x)— 1, о2(х) = о2, оценка fj (х)—много-
член первой степени, методом оценивания является метод наи-
меньших квадратов, ЗГ — множество функций q, имеющих на
[0,1] такую интегрируемую с квадратом первую производную,
что
max| q' (х) | С М.
хе X
При указанных предположениях имеем для т](х) представле-
ние
X
Т] (х) = П (0) + $ п' (0 dt,
и
ИЛИ
I
q (х) = q (0) + q' (0 Е(х — t) dt,
где
f 1, если z > 0,
£ (z) = S Л п
(0, если г^0.
Отсюда получаем
N 1
q (*) “ X C/./V (*) П (*/) = 5 W А’ (х, /) di,
/=! . 0
где
К (х, t) = E(x — t) — ^ Cj, N (х) Е (х, — I).
Следовательно,
11 Ml
J < М2 J J № (х, I) dxdl + о2 £ J с2 N (х) dx, (4.25)
О 0 /=1 о
причем в множестве функций 3^ существует такая (наихудшая)
функция, для которой в (4.25) достигается знак равенства.
179
Отсюда вытекает, что в рассматриваемом случае квадрат
суммарной погрешности (4.24) имеет вид
11 N I
/шах = Л42 К2 (х, t) dxdt + a2^ с2 N (х) dx.
0 0 1-10
Если известно отношение а2/Мл, то оптимальный план мож-
но найти, минимизируя величину /тах по набору точек xi, ...
..., Хдг. Если отношение ст2/Л42 неизвестно, то задача планиро-
вания оказывается двухкритериальной.
В случае Л1 = 0 функция регрессии имеет вид t](x) = 0i +
4* GjX, поэтому точки оптимального плана расположены на кон-
цах промежутка [0,1] с равными весами. Для ст2/Л42, отличных
от бесконечности, точки плана распределены по всему отрезку.
Оптимальные планы для случая N — 5 при разных a2/Mz при-
ведены в табл. 4.1.
Таблица 4.1
*/ <j2JM2
0 0.2 0,4 0,6 0,8
0,085 0,043 0,017 0 0
*2 0,283 0,222 0,185 0,157 0,130
Хз 0,5 0,5 0,5 0,5 0,5
0,717 0,778 0,815 0,843 0,870
Хь 0,915 0,957 0,983 1 1
4.4. Рандомизованные несмещенные планы. Развивая точку
зрения непрерывного планирования, которая рассматривает
план эксперимента как вероятностную меру, можно наметить
подход, который получил название несмещенного планирования
Пусть г)(х) = г)(х,хь ..., xN)—оценка функции регрессии,
построенная по результатам т/(х.)....y(xN) измерений функ-
ции у(х) в точках хь ..., хщ. Будем считать xi....xN случай-
ным вектором, т. е. определим вероятностную меру на множе-
стве таких векторов. Пусть эта мера определяется плотностью
совместного распределения р(хь ..., xN). Пусть плотность рас-
пределения р, которую будем называть планом эксперимента,
выбирается так, чтобы в некоторой метрике р расстояние
РР = Р (П (х), Efj (х, х„ ..., xN))
было минимальным (при этом символ математического ожида-
ния означает осреднение по плану эксперимента как по вероят-
ностной мере, так и по выборочному пространству, в рамках ко-
торого производится эксперимент). План эксперимента р*, для
которого расстояние рр# минимально, будем называть несмещен-
ным планом (несмещенным по отношению к элементу наилуч-
шего приближения в метрике р).
180
Сравнительно простые результаты удается получить для
случая, когда метрика р является квадратичной (в этом случае
Пусть L2(X, ц)—пространство функций, интегрируемых с
квадратом на множестве X относительно вероятностной меры р,
и пусть Л(х), fm(x)—заданный набор ортонормированных
функций из L2(X, ц).
Функцию регрессии т](х) будем приближать линейной комби-
т
нацией У $tfi (х) с помощью метода наименьших квадратов,
определяя 0/ путем решения задачи минимизации по 0Ь ..., 0Ш
суммы квадратов отклонений
(V / т \2
. (4.26)
где y{Xj) — г](х/)+ е(х/)—результаты измерений в точках
X/ (/= 1....N), Ее(х) = 0. Полученные таким образом зна-
чения 0,- будут отличаться от тех значений 0/, при которых ли-
т
нейная комбинация У, Q{ft (х) доставляет минимум расстоянию
i-i
Г m *12
(4.27)
. х L i-i -I
Как известно, этот минимум достигается при 0/=(т],/О. где
Ob М = $п(*)Л
X
есть коэффициенты Фурье функции т) по системе функций ...
..., fm*
Если р(%1, ...» Хм)—плотность совместного распределения
точек Х|, xN, а Ер~ символ математического ожидания
по мере, определяемой этой плотностью, то условия несмещен-
ности плана р записываются в виде
E6t‘ = (Tb fi), Z=l, m, (4.28)
где Е = ЕуЕр — символ полного математического ожидания
(по мере выборочного пространства эксперимента и мере, опре-
деляемой плотностью р).
Записывая систему нормальных уравнений для задачи мини-
мизации (4.26) в виде
mN N
Z Z fi (*/) fk (*i) = S fk (*i) у (Xf), k = 1.tn, (4.29)
181
получаем по формуле Крамера
det [|| [/, /J. . •.. М- V, И П/4-t М.М 117-1] от
-------------"'[»', м с.-.] '
где / = 1.....т, "
If. Ч>1 = Е f (Xt) ф (xt)
i — I
для любых L2(X, ц).
Отсюда видно, что 0/ можно представить в виде
N
Qi=^y (xt) A'i* (xi....xN)>
а условия несмещенности (4.28) переписать следующим обра-
зом:
N
Еб/= Е (х,.....xw)] =
i = l
N
= Е Eph(-Vz) 4'/’(xi...Xjv)] = (t), fl)-
i = l
Предполагая точки xi, ..., xN равноправными, что естествен-
но, полагаем функцию р симметричной относительно своих аргу-
ментов Это приводит к условиям несмещенности в виде
N 5 . $ ц Х|)Л(|П(х1.xjv)p(x!, .... хлг)р. (dx,) ... p(dxN) =
X X
= 1) (х) f! (х) р. (dx).
Если мы предполагаем, что эти условия выполнены для любой
функции т)е£2(Х, ц), то при всех /= 1, ..., т имеем
# $ ... .....хлг)р(х,....xw)p(dx2)...p(dxw) = /:/(xi).
х х
(4.31)
При мер4.2. ПустьX = [0, 1], f, (х)= 1, f2(x) ==2a/3(x - 1,2),
N = т = 2. В данном случае решение системы нормальных
уравнений (4.29) имеет вид
е, = -.!/?) г ^(х.-1/2) > ^^(^-^ж-хо.
Л2 — Л|
Отсюда получаем
^(хь х2) = (х2— 1/2)/(х2 — Xi), Д(12)(х1, х2) === 1/(лт? — %i).
Если положить р(%1, х2) = 6(%1 —-х2)2, то условия несмещенности
(4.31) выполняются. Это свидетельствует о существовании в
данном случае несмещенного плана эксперимента.
182
Сравним построенный рандомизованный план с D-оптималь-
ным планом, который сосредоточен на концах интервала с рав-
ными весами. С одной стороны, если функция ц(х) не является
линейной, то применение D-оптимального плана может привести
к сколь угодно грубым ошибкам. План, определяемый плот-
ностью 6(xi — х2)2, «разбрасывает» точки по отрезку [0, 1] слу-
чайно, отдавая предпочтение более удаленным парам точек. По-
лучаемые с помощью этого плана оценки функции регрессии бу-
дут иметь своим средним отрезок ряда Фурье функции т](х),
что гарантирует нас в метрике Л2 [0, 1] от грубых’ просчетов.
С другой стороны, при использовании плана 6(xi— х2)2 имеем
D [Qj + б2/2 (*)]=
= [1 + 12 (х - 1/2)2 + 2а2]| J т]2 U) dx - £ (т), М21
*-о z=i J
(проверьте!). По сравнению с D-оптимальным планом это не
очень хороший результат. Впрочем, можно показать, что суще-
ствуют более «хорошие» несмещенные планы.
Несмещенные планы, аналогичные плану из предыдущего
примера, указаны в формулировке следующей теоремы.
Теорема 4.1. Функция
p(xt, .... xN)=-^^bdetHfk, MU
является плотностью no отношению к мере
(dxt....dxN) — ц (dxt)... ц (dxN)
и для нее выполнены условия несмещенности (4.28).
Доказательство. Из ортонормированности функций
fi(x) следует, что матрица ||(/о fk) ||^ft=I является единичной.
Поэтому выполняется равенство
$ I** (dXi..dxN) det || [fft, M || = 1.
Справедливость условий (4.28) легко следует из (4.30) и тео-
ремы 1.21 приложения 1. Теорема доказана.
Из утверждения доказанной теоремы вытекает, что несме-
щенные планы эксперимента существуют при весьма широких
предположениях и дают еще одну характеризацию определителя
информационной матрицы: нормированный определитель инфор-
мационной матрицы является несмещенным планом экспери-
мента.
Пусть ..., Хдг)—функция, определяющая стоимость
измерений в совокупности точек хь ..., х^. Тогда оптимальным
несмещенным планом можно назвать плотность
р*= argminEp#^, xN), (4.32)
реЛ
183
где 5%—множество симметричных плотностей распределений р,
для которых выполнены условия несмещенности (4.31).
Экстремальная задача (4.32) является задачей линейного
программирования (бесконечномерного, если мера ц не сосредо-
точена в конечном числе точек). Решение такого рода задач
линейного программирования — дело трудное. В настоящее вре-
мя не получен даже для простейших случаев несмещенный ана-
лог D-оптимальных планов, т. е. планов (4.32) для
H(xp ..., xAr)=l/det||[M МН.
Однако не являющиеся оптимальными несмещенные планы, ука-
занные теоремой 4.1, в отдельных случаях могут использоваться
на практике. Они особенно удобны при проведении имитацион-
ного эксперимента (см. гл. 8).
4.5. Оптимальный выбор рандомизованного плана экспери-
мента при непараметрическом оценивании регрессии оценками
ядерного типа. Пусть X cz R*; Д(х, ?) — функция, заданная на
множестве XXX и близкая к б-функции б(х—-z); хь ..., xN —
независимые реализации случайного вектора в X, имеющего
плотность распределения q(x); y(xi), ..., у(хдг)—результаты
измерений в точках ..., Положим
лг
n (X) = j-f У у (х,) к (X, Xj)/q (Xj). (4.33)
/-1
Оценка (4.33) для функции регрессии т](х) является одной из
наиболее распространенных непараметрических оценок и назы-
вается оценкой ядерного типа (при этом функция К(х, z) назы-
вается ядром).
Лемма 4.2. Пусть выполнено (4.3) и плотность распреде-
ления q(x) положительна во всех точках хеХ. Тогда для оцен-
ки (4.33) имеют место выражения
Efj (х) = т) (z) К. (х, z) dz, (4.34)
х
Dfi (х) = N~1 ^(г\+^2{г} К2(х, z)dz -
— Г)(z)#(х, z)dz]21. (4.35)
Доказательство. Имеем
АГ
Efj (х) = Е У у (xj) К (х, x,)/q (X/) =
= Е, Е11 x^q =
/-1
= Е,п (Х1) к (X, xt)/q (х,) = п (z) К (х, z) dz,
X
184
т. е. получили формулу (4.34). Далее
• Dfj (х) = Efj2 (х) — [Efj (х)]2
Первый член правой части представим в виде
г N 12
Efi2 (х) = ЕЛН2 • £ у (х,) К (х, x,)/q (xf) J =
= N- ' { E E {y K (x> X№ M2 +
+ Z Ej/ (хг) у (x,) к (X, xt) К (X, x,)/[<7 (x£) q (x,)]
i./=i
i + I
F= N- * {ATE [y (x,) к (X, x,)/7 (X,)p +
+ АГ (АГ — 1) Ey (X|) у (x2) К (x, xO К (x, x2)/[<7 (xt) q (x2)]} =
= N- 'E, h2 (xO + <r2 (x,)] Г (x, Xl)/q* (Xj) +
+ (1 — N~') [E^r] (x,) К (x, Xl)/q (x,)] E^rj (x2) /< (x, x2)'q (x2) =
= ' j j2(X1^J2(X1) № (x, x.) dXi + (1 - N~') [En (x)j2.
Подставляя полученное выражение в формулу для дисперсии,
получаем (4.35). Лемма доказана.
Из (4.34) вытекает, что если функция Л'(х, z) близка к
б-функции б(х — z) и функция т| удовлетворяет условию Лип-
шица на множестве X, то математическое ожидание оценки
(4.33) равномерно близко к значениям ц(х) при всех хе Ж Из
(4.9) и (4.35) следует, что при Af->oo квадрат случайной по-
грешности V оценки (4.33) убывает со скоростью N~}. Из лем-
мы 4.2 следует, кроме того, что способ оценивания (4.33) пол-
ностью определяет систематическую погрешность, и, следова-
тельно, естественным критерием оптимального выбора плотности
распределения является случайная погрешность. В следующей
теореме показано, что задача минимизации случайной погреш-
ности по плотности q легко решается.
Теорема 4.2. Пусть имеется схема измерений (4.3), число
измерений N, функции т)(х), о2(х), /<(х, z) фиксированы, непа-
раметрической оценкой функции регрессии г|(х) является (4.33)
fe2 (z) = К2 (х, z) w (х) dx < оо, а2 (х) сг0 > О,
х
а множество допустимых плотностей q(x) состоит из плотно-
стей, всюду положительных на X.
Тогда минимум квадрата суммарной погрешности /тах дости-
гается на плотности •
q* (х) в [т)2 (х) + (х)Г/?k (х) 1Г)2 (г) + О2 (Z)]1'2 k (г) dz, (4.36)
/ X
185
а также на плотностях, совпадающих с q*(x) во всех точках,
кроме точек из любого подмножества X меры нуль.
Доказательство. Из (4.9) и (4.35) вытекае!» что квад-
рат случайной погрешности V для оценки (4.33) равен
V = J [Df| (х)] w (х) dx = -ft- Г J dz —
х Lx
—- ( Г ( n (г) К (х, z) dz ]2 w (х) dx,
xl х J
где v2 (z) — [ц2 (z) + a2 (z)] К2 (х, z) w (х) dx.
х
Как указывалось выше, систематическая погрешность не зави-
сит от выбора плотности q, всюду положительной на X. Исполь-
зуя неравенство Коши — Буняковского, убедимся в минималь-
ности квадрата случайной погрешности V для плотности (4.36).
Имеем
NV + $ П Л С?) # (*> z) dzl^ w (x) dx =
X 1 X J
X X i X J
LX J X
Теорема доказана.
Так как функция регрессии т|(х) априори неизвестна, то не-
известна и оптимальная плотность (4.36) (т. е. оптимальный
рандомизованный план эксперимента). Поэтому в практических
расчетах следует использовать стандартный последовательный
подход. В данном случае суть последовательного подхода со-
стоит в уточнении плотности распределения q*(x) по мере про-
ведения измерений и оценивания функций т| (х) и о2(х).
4.6. Планирование эксперимента при проекционном оценивании функции
регрессии. Проекционное оценивание является одним из наиболее распростра-
ненных способов непараметрического оценивания регрессии.
При проекционном оценивании регрессии предполагается, что имеется та-
кая возрастающая последовательность {Lm} линейных m-мерных пространств,
что
с lim Lm. ' (4.37)
т-»оо
а число измерений N либо растет, либо постоянно, но достаточно велико. За-
дача проекционного оценивания состоит в таком выборе размерностей
tn = m(N) пространств Lm, последовательности заданных до начала измерений
точек проведения измерений *t, ... Xn (т. е. плана эксперимента) и метода
параметрического оценивания функции регрессии в предположении ц е Lm,
чтобы полученная оценка наилучшим в некотором смысле образом
приближала истинную функцию регрессии г] е
186
Проекционная оценка функции q(x) записывается в виде
Ид, (*) = Е 0,/, W <4.38'
/-1
где fi(x), ..., fn(x)—базис пространства Lm\ 0i, ....0m — оценки парамет-
ров линейной функции регрессии
Е 0,/, (х) <4.39)
/"I
построенные по точкам xi, ..., Xn и результатам измерений y(xi), ..., у(хм).
Как обычно, предполагается, что погрешность оценки функции регрессии
определяется по формуле (4.24), что относительно результатов измерений
выполнено (4.3) и что метод оценивания является линейным (в данном слу-
чае это означает, что статистики 0/ являются линейными функциями от
, y(xN)). Будем предполагать также, что о2(х) = о2 > О и что
функции fi, f2, ... ортонормированы с весом w(x), т. е. выполнено
Sr / х с 1 если I = А
если^/.
X
При фиксированном т минимально возможное значение квадрата систе-
матической погрешности В max paBHO
(У, Lm) = sup inf ( (») (х) — t)m (х))2 w (х) dx (4.40)
Ve£m J
Обозначим
0f (q) = q (x) (x) w (x) dx, /=1,2......
x
коэффициенты Фурье функции q по базисным функциям fi, f2r ... Тогда
(4.40) может быть переписана в виде
sup Е О/(П) (4-41)
Получим теперь нижнюю границу для квадрата случайной погрешно-
сти V.
Теорема 4.3 Пусть имеется схема измерений (4.3), о2(х)=о2>-0,
функции fi, fi, ... ортонормированы с весом w(x) и равномерно ограничены
по модулю константой К, статистики 0/ являются линейными, а при фиксиро-
ванных tn, N, X], ..., xN и q е Lm — несмещенными оценками коэффициен-
тов Фурье 0z(q) (i = 1....../п). Тогда для квадрата случайной погреш-
ности проекционной оценки (4.38) выполняется неравенство
V>(a2IK2)(m/N) (4.42)
Доказательство. Пусть тп и Л7 фиксированы. Положим
f (х) = (Л (х)..........Im (X))7 0 = (0> (п). • • •• 0m (п))Г»
0 — (0) ♦ • • 0/п)
В силу (4.9) и ортонорзлированности функций fi, ..., fm имеем
^=J[Df)A,(x)] w (х) dx = j[D (Qrf (X))] w (x) dx ==
X X
= fT (x) D0 f (x)w (x) dx = tr D0 f (x) fT (x) w (x) dx = tr D0,
x x
где D0 — дисперсионная матрица оценок 0.
187
Оценки б параметров 0 — линейные несмещенные в предположении
ц e Согласно теореме Гаусса — Маркова (теорема 1.1 гл. 1), величина
trDO минимальна для случая, когда оценками 0 являются оценки МНК. По-
этому далее будем считать, что оценки б являются МНК-оценками. Для этих
оценок
(4.43)
где
л
/-1
есть нормированная информационная матрица рассматриваемого плана экспе-
римента, записанного в виде
^“{1/JV.......UN }• (4,44)
Пусть теперь | — произвольный невырожденный план эксперимента на X,
М(|)-Jf(x)fr(x)l(dx)
X
есть информационная матрица этого плана. В частности, план £ может иметь
вид (4.44). Применяя к матрице 4=[М(£)]-1 теорему 1.19 из приложе-
ния 1, получаем
т
tr [Л4 (I)]”1 > m2/tr Af (J) = m2f2 (x) £ (dx) > m2 (m№)-1 = m[K2.
• i — 1 X
Учитывая (4.43), получаем (4.42). Теорема доказана.
Процедуру проекционного оценивания функции регрессии будем называть
асимптотически оптимальной, если при ЛГ -> оо порядок убывания квадрата
суммарной погрешности (4.24) проекционной оценки (4.38) достигает наи-
большего значения.
Важную роль при определении максимально возможного порядка убы-
вания квадрата суммарной погрешности /max играет следующее следствие
теоремы 4.3.
Следствие 4.1. Пусть выполнены условия теоремы 4.3 и #->со,
m — m(N) -> оо, tn/N-^0.
Тогда порядок убывания квадрата суммарной погрешности (4.24) проек-
ционной оценки (4.38) не может быть меньше
%* (Г, Lm) + m/N. (4.45)
Утверждение следствия вытекает из того, что константа о2/№ в правой
части неравенства (4.42) не зависит от m и N.
Опишем одну из простейших процедур проекционного оценивания, для
которой при достаточно широких предположениях относительно класса функ-
ций Ф квадрат суммарной погрешности имеет порядок убывания (4.45).
Пусть w(x) = 1 и имеется схема измерений (4.3), точки проведения из-
мерений Xi, х2, ... в которой представляют собой независимые реализации
случайного вектора, имеющего распределение с плотностью q(x)t всюду по-
ложительной на множестве X, Положим
лг
W"1 И-46)
188
Статистики (4.46) являются простейшими оценками метода Монте-Карло ин-
тегралов Of (*0), т. е. коэффициентов Фурье функции т].
Если числа т и N фиксированы и статистики 0/ выбраны по формуле
(4.46), то проекционная оценка (4.38) функции регрессии т|(х) является част-
ным случаем оценки ядерного типа (4.33), получающейся при
(x)tt (z).
Ml
Применяя лемму 4.2 получаем, во-первых, что 0< являются несмещенны-
ми оценками коэффициентов Фурье 0/(т|) (поэтому соответствующий рандо-
мизованный план является несмещенным) и, во-вторых, что дисперсионная
матрица оценок 6= (01, ..., 0т)г равна
D0 = Е (0 - 0) (0 - 0)r = 11" ?г f (х) fT (X)dx _ еог j . (4.47)
Из несмещенности оценок (4.46) следует, что систематическая погреш-
ность Втах получающейся проекционной оценки (4.38) достигает минимально
возможного значения:
Bmax = <W LmY (4.48)
Используя ортоиормированность функций fi, /2, ... и (4.47), получаем
V =. v (?) = Е j (Ef)„ (X) - (х))2 dx =
/ т \2
X \-1 '
i, /-1 X
Согласно (4.36), минимальное значение квадрата случайной погрешности
V(q) достигается на плотности
[т -11/2 г т I1/2
(n2 (х) + <?) (х) I /и (t)2 (z) + a2) £f2 (z) I dz
t-i J x*- i-i -I
и равно
V(?*) = №' ^(т)2(*) 4-о2) fj(x)J dxj — ^02(t))|- (4.49)
Если множество X ограничено, функции fi, f2, • • • равномерно ограни-
чены и имеет место
sup | п (х) [ < оо,
(4.50)
189
то из (4.49) получаем, что для некоторой константы С 1 при q = g* вы-
полнено неравенство
V(q)^CmlN (451)
Более того, неравенство (4.51) выполнено не только для оптимальной плот-
ности q — q*, но и для многих других плотностей, например, для рав-
номерной плотности qQ(x) = const. Факт существования такой константы
с > 0, что V(g*) ^cmlN, очевидно следует из (4.49). Таким образом, для
получающейся при q — q* или q = q0 процедуры проекционного оценивания
получаем, что порядок убывания квадрата суммарной погрешности опреде-
ляется по формуле (4.45). Асимптотически оптимальный выбор последова-
тельности т = m(N) в рассмотренной процедуре проекционного оценивания
получается путем приравнивания порядков убывания V(g) и (4.48), т. е. пер-
вого и второго слагаемых в (4.45).
Упражнения.
1. Используя условие несмещенности (4.21), покажите, что если суще-
ствует квадратурная формула
п
<7 (*) w (х) dx ял £ (ху),
X 1-1
точная для попарных произведений
ft (*) fj (*) fi(x)gk(x), Z,/=l......m, fe=l......../,
то в качестве точек хь ..., хп плана (4.15) можно выбрать узлы квадра-
турной формулы, а в качестве матрицы С из (4.16) — матрицу С = F^B, где
^ = ['1(0’ •••• ^ = а,./>о = 0(/./=1.........я)
2. Пусть X = [- 1, 1], f (х) =» (1, х, х2), g (X) = (х3 4), Xj = - 0,7746, х3 =
= — хь х2 = 0, «1 == а3 = 0,2778, а2 « 0.4444.
Постройте матрицу С согласно способу, указанному в упражнении 1. По-
кажите, что выполнено условие несмещенности (4.21). Докажите, что для
указанных точек хь х2, х3 план, минимизирующий квадрат случайной погреш-
ности (4.22), имеет вид
= С - 0,7746 0 0,7746 |
g I 0,2602 0,4796 0,2602 J
3. Пусть X = (0, 1], f, (х) = I. h (X) = { _ [; * J
а) Пусть Л/ = 2. Проверьте, что плотность р (xb х2) = (f2 (х2) — f2 (*i))2
является несмещенным планом. Покажите, что при использовании этого пла-
на точки xi и х2 не могут находиться в одной и той же половине интервала
[0, 1]. Вычислите соответствующую этому плану дисперсию оценки функции
регрессии по методу наименьших квадратов.
б) Для W = 3 вычислите det || [ffc, Проверьте несмещенность
полученного плана. Вычислите дисперсию оценки функции регрессии.
4. Пусть мера Ц сосредоточена в точках 0, 1/2, 1 с равными весами,
fl W = 1, /2 (х) = V6 (г — 1/2) т = /V = 2- Воспользовавшись теоремой 4.1,
укажите несмещенный план. Проверьте его несмещенность. С какими вероят-
ностями должны выбирайся пары точек?
190
5. Пусть функция т} принадлежит конечномерному пространству, поро-
жденному заданными функциями фь ...» ф™ из L2(X, g). Какие упрощения
условий несмещенности возможны в этом случае? Рассмотрите подробно
случаи т = 2, т = 3.
6. Пусть X = [0, 1]. w (х) = 1, f{ (х) = 1, f2k (х) = sin 2л£х, /2Jfe+1 (х) =
= cos 2nkx (k — 1, 2, ...), ST — {т) 11| 0£- (t|)|| < Lk^ для i — 2k и i = 2k 4- 1} .
где L < oo и a > 1 — некоторые константы.
а) Вычислите систематическую и случайную погрешности при равномер
ной плотности q(x) и способе проекционного оценивания, определенном оцен-
ками (4.46). Выберите m(N) из условия равенства V и В max и покажите, что
порядок сходимости к нулю квадрата суммарной погрешности равен №1 + 1
б) Пусть xi, ..., xN — равноотстоящие точки интервала [0, 1]: X/ = j/N
(j == 0, 1, W—1), и пусть методом оценивания коэффициентов Фурье
0/(т]) является метод наименьших квадратов. Покажите, что систематическая
погрешность проекционной оценки та же, что и в случае а), а случайная
погрешность меньше. Выведите отсюда, что получающийся способ проекцион-
ного оценивания является асимптотически оптимальным
Глава 5
АНАЛИЗ И ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА
ДЛЯ НЕЛИНЕЙНЫХ РЕГРЕССИОННЫХ МОДЕЛЕЙ
В предыдущих главах рассматривались схемы регрессион-
ного эксперимента, в которых функция регрессии линейна по не-
известным параметрам. Если эти параметры входят в функцию
регрессии нелинейно, то методы регрессионного анализа и пла-
нирования регрессионного эксперимента отличаются от рас-
смотренных выше. В данной главе изложены простейшие из
этих методов.
§ 1. Нелинейный регрессионный анализ
1.1. Нелинейные регрессионные модели. Рассмотрим следую-
щую схему, которая является обобщением линейных схем, изу-
ченных в предыдущих главах. Ее также называют схемой рег-
рессионного эксперимента. Пусть в точках X/ (/ = 1, ..., Af) из
множества планирования X наблюдаются значения случайных
величин (// = y(Xj), представимых в виде
К/= П (^/» 0) + е/, Л\ (1.1)
где т|(х, 0)— функция на ХХ^, называемая функцией регрессии
и заданная с точностью до неизвестных параметров 0=(0Ь ...
..., 0т)г из некоторого параметрического множества Q a Rm,
е/ — случайные ошибки измерений. Как обычно, будем предпола-
гать, что ошибки измерений е/ центрированы (Ев,- — 0) и некор-
релированы (Efyez = 0 при j i), а измерения равноточны
(De, = Ее^ = о2), причем значение а2 может быть неизвестным.
В случае, когда функция регрессии т)(х, 0) линейно зависит
от неизвестных параметров 0, т. е.
П(х,0) = 07(Д (1.2)
где f(x) = (/i(x), ..., fm(x))T—вектор известных (базисных)
функций, схема регрессионного эксперимента является схемой
линейной регрессии.
Если функция регрессии т)(х, 0) нелинейна по параметрам 0,
то она называется нелинейной, а схема регрессионного экспери-
мента (1.1) называется нелинейной регрессионной моделью.
192
Несмотря на то, что задача оценивания неизвестных пара-
метров нелинейных регрессионных моделей значительно сложнее
аналогичной задачи для линейных моделей, нелинейные регрес-
сионные задачи на практике встречаются довольно часто. Это
происходит по следующим причинам: а) нелинейность исходит
из сущности явления, для описания которого предназначена мо-
дель; б) дополнительная информация об истинном характере за-
висимости часто позволяет выбрать достаточно точную (т. е.
имеющую малую систематическую ошибку) нелинейную модель
с числом параметров, значительно меньшим, чем для аналогич-
ной линейной модели; в) линеаризация модели часто приносит
значительно больше потерь, чем выгод (см. п. 1.2). Примерами
нелинейных функций регрессии, широко распространенных в
практике экспериментальных исследований (в частности, в фи-
зике, химии, биологии), могут служить следующие.
Пример 1.1. Функция регрессии
в)= Eezexp{— Qi+mx} (1.3)
Z = 1 .
возникает в результате решения систем линейных дифференци-
альных уравнений и широко применяется при исследовании, в
частности, кинетических задач.
Пример 1.2. Функции регрессии
т
Т) (х, 0) = Е 0z/[(x- 0z+m)2 + 0z+2m]
г = 1
описывают резонансные явления и используются при обработке
результатов спектрального анализа. В этих же задачах исполь-
зуются и функции регрессии, имеющие вид
т
П (х, 6) = £ 0г ехр {— 0z+m (х — 0z+2m)2}.
z=i
Пример 1.3. Функции регрессии
т] (х, 0) = arctg [(Xj — 01)/(х2 — 02)], х = (xIt х2)г,
используются в задачах слежения за движущимися объектами.
Пример 1.4. Если известно, что функция регрессии унимо-
дальная (т. е. имеет один локальный максимум), достаточно
гладкая и существует такое 0Ь что т|(х)=0 при х 01 и
lim т|(х) = 0, но неизвестен механизм процессов, приводящих к
Х-><»
изучаемой зависимости, то в качестве функции регрессии можно
выбирать
П (х, 0) = 02 (X - 0О9 ехр {- 04 (х - 0^},
х>0;, 0f>O, Z = 2, 3, 4, 5.
Метод наименьших квадратов — один из наиболее распро-
страненных методов оценивания параметров нелинейных регрес-
сионных моделей.
7 С. М. Ермаков, А. А. Жиглявский
193
Оценкой МНК неизвестных параметров 0 в схеме регрессион-
ного эксперимента (1.1) называется оценка вида
0 = 0„ = arg min £ — rj (х,, 0))2. (1.4)
8 GE Q / = 1
Ясно, что (1.4) является обобщением МНК-оценки (1.1) из гл. 1
на случай нелинейной функции регрессии.
Оценивание по МНК не единственно возможный способ оце-
нивания неизвестных параметров. Пусть, например, ошибки
е7 взаимно независимы и имеют одинаковое известное с точностью
до о распределение вероятностей с плотностью Тогда для
оценивания био можно использовать оценки максимального
правдоподобия
(0, д) = arg max L (0, <т, уь ..., yN),
0 GE Q,
О> О
где функция правдоподобия L равна
N
L (0, о, yi, ..., yN) = П ра (yt — п (X/, 0)).
Если pa(i)—плотность нормального распределения
то, как легко показать (покажите!), оценки максимального
правдоподобия параметров 0 совпадают с МНК-оценками. Си-
туация аналогична ситуации для линейного случая, рассмотрен-
ной в § 1 гл. 1.
1.2. Возможные последствия линеаризации модели. Предположим, что по
результатам измерений (1.1) требуется оценить параметры нелинейной функ-
ции регрессии т) (лг, 0), которая после некоторого преобразования Ф: R->R
становится линейной по параметрам. В этом случае для оценивания парамет-
ров 0 регрессии т](х, 0) можно использовать два подхода, основанных на
принципе наименьших квадратов. Первый подход — прямое построение МНК-
оценок (1.4) для схемы измерений (1 1), т. е. минимизация по 0 функции
N
Q (6) = £ (У1 - Я (Xi, в))2. (1.5)
Второй подход основан на линеаризации схемы измерений (1.1), т. е. на рас-
смотрении вместо нее схемы
г/ = Ф(г//) = Ф(п(^/, е)) + б/, /=1. .... АГ, (1.6)
с последующей оценкой по МНК получившейся линейной регрессионной мо-
дели. Здесь 6/= Ф(г/У)—QTf (X/)—некоррелированные случайные величины,
распределение которых зависит от распределения 8/, от Ф и т|.
На очень простом, но типичном примере покажем, что, несмотря на зна-
чительный выигрыш в простоте, проигрыш в точности получаемых во втором
подходе оценок может быть столь существенным, что делает линеаризацию
модели нежелательной. В качестве исходной рассмотрим схему измерений
У/ = V-V/4-0 + 8/, /=1.....(V, ' (1.7)
194
где случайные ошибки е/ независимы и нормально распределены с нулевым
средним и дисперсией о2 *, число измерений W достаточно велико, а точки из-
мерений Xj (х}‘ —0) выбраны согласно некоторому непрерывному плану
эксперимента %(dx) на [—0, оо) с плотностью р(х). ____
В данном случае функция регрессии имеет вид т) (х, 0) = Vх + 0- После
возведения в квадрат получаем
ц2 (х, 0) = х + 0.
Эта функция линейна как функция от неизвестного параметра. Величины zh
di в данном случае равны
z/=у/=(Vх/+0+8 /)2>
б/ = (Vх; + 0 + 8/)2 ~ (х/ + 0) = е/ + 2Ву Vх/ + е-
Оценку, полученную по формуле (1.4), будем далее называть нелинейной
и обозначать 0л/ (н):
N
Оуу (н) = arg min S (fy ~ Vх/ + О)2- (1.8)
е /-1 j
МНК-оценку, построенную по схеме измерений
+ G + /=1, N, (1.9)
в предположении центрированности, некоррелированности и равноточности
случайных величин б/, назовем линеаризованной и будем обозначать 0,у(л).
Эта оценка определяется по формуле
N
f)N (л) = arg min У, (z — (9 + х,))2
6 /=1
и равна, как нетрудно проверить (проверьте!),
N
= “ДГ X
/=1
Вычислим асимптотические (при N-+eo) характеристики оценок 0 (н) и
0(л). Сначала воспользуемся общей теоремой 1.1 из п. 1.3 об асимптотиче-
ском распределении нелинейных оценок наименьших квадратов. Согласно этой
теореме, в случае одного параметра (т = 1) и проведения измерений по не-
прерывному плану с плотностью р(х) асимптотическое (при Af-> оо) распре-
деление МНК-оценок является нормальным с нулевым средним и дисперсией
X
В рассматриваемом случае
дц (х, 0) __ д л/х + 0 _ 1
Э9 ~ дв ~ 2УГ+ё ’
2 °2 f 1 / . .
a"=-4AFJT+0-₽(X)dX-
поэтому
(1.10)
7*
195
Изучим теперь свойства линеаризованной оценки 0л(л). Для этого сна-
чала вычислим характеристики независимых случайных величин 67:
Еду = Е [в/+ 28/ z^/x/ + в] = De;. = (j2,
DSZ = Е [ej + 28/ д/Х/ + О]2 — ст4 =
= Ее4 + 4 [Ее®] д/х/4-0 + 4Ее^ (х; + 0) — а4 =
= За’ + 4а2 (х. + 0) - <т« = 2<т4 + 4<т2 (ху + 0)
Следовательно, при любом N
N N
еМд) в v £Е (z/_ */)="г S(ff2+0)=а2+°
i=i t=i
(т* е. оценка (л) смещена),
N N
Df^ (л) — -^2- D (zj — ху) = D6/ =
/-1 /=1
[N -I
2^ + 4о2£(х/ + 0) .
/=1 J
При ЛГ оо
D0W (л) = (а2 + 20 +12 J хр (х) dx) + o(N~1). (1.11)
Итак, оценки 9w(h) являются асимптотически несмещенными, а оценки
0л;(л) смещены. Асимптотические дисперсии оценок выражаются по формулам
(1.10) и (1.11). Оценив а2, смещение оценки 0^(л) можно (в пределе при
N оо) устранить, рассмотрев вместо нее оценку ^(л)—а2. Дисперсии же
их по-прежнему будут различаться; для разумных планов эксперимента g
lim AfDO (н) < lim #О0..(л).
7 ДГ->оо N
Пусть, например, а = 1, 0 — 0,
f 1, 1 < х<2,
р (х) = <
( 0 в противном случае;
тогда из (1.10) и (1.11) следует, что
WD0^ (н)-> (In 2)/4 « 0,17, У->оо.
ЬЗ. Состоятельность и асимптотическая нормальность МНК-оценок.
В данном пункте без доказательства сформулировано утверждение об асимп-
тотических свойствах МНК-оценок.
Сначала напомним, что планом эксперимента называется произвольная
вероятностная мера g = g(dx) на (X, — о-алгебра борелевских под-
множеств множества X) Если
^-Е»-{до,до} <1Л2>
(т. е. g(A) = AT“1 У*, 1 для любого где Xi, ..., xN не обяза-
xt е A J
тельно различные точки множества X, которым приписаны равные веса, то,
согласно этому плану, измерения =» у (х;) проводятся в точках х*, ..., Хдг.
196
Пусть функция т) (х, 9) определена для всех х (= X и 9 <= Q и нелинейна
по параметрам 9, а случайные ошибки 8, одинаково распределены. Введем
следующие ограничения:
а) функция ц(х, 9) непрерывна на X X X —компакт в R*, Q — ком-
пакт в
б) последовательность планов слабо сходится к плану £, т. е. для
любой непрерывной функции g(x) на X при Af->oo имеет место
J g (х) (dx) -> g (х) £ (dx);
X х
в) квадратичная форма
ft (х, 9) — т> (х, 9')]2 (dx)
X
равна нулю только при 9 = 9';
г) производные
дт\/д&., д2т\/д&. дВг I, / = 1, ..т,
существуют и непрерывны на X X Q;
д) 9И — внутренняя точка Q и матрица
М (еи> g) = (f (х, 0И) f (х, 0и) § (dx) (1.13)
невырожденная. Здесь 9И — истинные значения неизвестных параметров,
Л(,,в)_(*!М.................................................. (,.14)
\ СЮ1 ovm /
Теорема 1.1. Пусть имеется схема регрессионного эксперимента (1.1).
Если выполнены предположения а) — в), то последовательность МНК-оценок
9jv, определенная по (1.4), сильно состоятельна. Если дополнительно выпол-
нены предположения г) ,_д), то при N оо последовательность распределений
случайных векторов у N (9# — 9И) сходится к нормальному с нулевым век-
тором средних и дисперсионной матрицей а2М“1(9ч. |), где матрица М(9И, £)
определяется по формуле (1.13).
Схему нелинейной регрессии (1.1) иногда называют схемой накопления.
Для другой возможной схемы нелинейной регрессии (схемы серий) условия,
достаточные для состоятельности и асимптотической нормальности МНК-оце-
нок, несколько более ограничительны [11].
1.4. Численные методы поиска МНК-оценок. Если функция
регрессии нелинейна по параметрам, то система нормальных
уравнений
3Q (9) Л .
-^ = 0’ /И.
также нелинейна. Для ее решения могут быть использованы
стандартные численные процедуры. Все же сводить задачу по-
иска оценок МНК (1.4) к задаче решения системы нормальных
уравнений обычно невыгодно по следующим причинам: если
й =/= Rm, то в точке минимума Q(0) условие VQ(0) = O может
не выполняться; множество решений системы нормальных урав-
нений может быть более широким, чем множество точек ло-
кальных минимумов функции Q-
197
Для поиска минимума функции Q(0) могут быть использо-
ваны как методы поиска глобального экстремума (если нет уве-
ренности в том, что локальный минимум у функции Q один),
так и стандартные методы поиска локального экстремума. Раз-
работаны также специальные методы локальной минимизации,
учитывающие специфику функции Q(0). Эти методы кратко рас-
смотрены ниже.
Сначала рассмотрим методы, в которых используются произ-
водные дт|(х, 0)/<90z (/=1, /и). Принцип построения этих
методов тот же. что и общих методов локальной оптимизации.
Большая их часть записывается в виде
0«+1) = е«) _ Y/ (0(0) F (0<'>) + atA]-1 FT (0«>) У (0<«). (1-15)
где ft > 0, at 0, 9(()ей (/=0,1, ...), А — неотрицательно
определенная матрица, 9(0)еЙ — начальное приближение,
У (6) = (1/1 — П (X), 0).yN — т| (xN, 0))г,
F (0*°) =
(х{. 0)
e-e*o|z_j....n
i—1....m
Если at >• 0 (/ = 0,1, ...), то (1.15) называется методом
Марквардта; если at = 0, у« = arg min Q (0(<+1>) — методом
v
Хартли; если a< = 0, y« = 1 — методом Гаусса — Ньютона
(иногда методом Гаусса — Ньютона называют метод (1.15)
с at = 0 и с другими способами выбора у/).
Суть метода Гаусса — Ньютона состоит в том, что функция
г|(х, 0) аппроксимируется функцией, линейной по параметрам в
окрестности точки 0И:
П (х, 0) ~ г| (х, 0И) + (0 - 0„)г V П (х, 0и). (1.16)
Оценки МНК для линеаризованной модели вычисляются по
стандартной формуле, в данном случае имеющей вид
0 - 0и = (FT (0И) F (0И))~1 FT (0Й) Y (0И). (1.17)
Поскольку 0Й неизвестно; то на t-м шаге в приведенной формуле
0И заменяется на 0(Г).
Если матрицы FT(0(f))F(0(о) плохо обусловлены, то метод
Гаусса — Ньютона может сходиться очень медленно или даже
расходиться. В указанной ситуации лучше работает метод Марк-
вардта, суть которого в наиболее часто используемом случае
А = /т состоит в том, что на каждом шаге этого метода после
линеаризации (1.16) и замены 0И на 0(/> вместо МНК-оценки
(1.17) вычисляется гребневая оценка (см. п. 1.9 гл. 1).
Если вычисление (или оценивание с помощью конечных разностей) про-
изводных функции т](х, 0) трудоемко, то более экономичными могут ока-
заться методы, не требующие вычисления производных. Аналог метода Гаус-
са — Ньютона (DUD-жетоЭ) имеет вид
е(,+1) > 0'*’ + Yt (0* — 0W),
198
где
г N -|-1 V
»•->«, к->(«< в™)].
U-i J z=i
(0(,) — 0(Л)Л
/-о
xti = Z «>„ (0(П - 0(О) [п (х, 0ш) - n (х„ 0<*>) ].
'=1
На практике весовые множители ®/< (^ = 0, 1, ...; / = 0, ..., t)
обычно выбираются следующим образом:
г
w.t =
О,
1</<т, 1</</,
t т, — т — 1,
/ < t — т — 1
Суть DUD-метода состоит в том, что в окрестности точки 0(О функция
т)(х, 0) аппроксимируется линейной по параметрам:
Ч (х, 9) ~ ч (х, 0(<)) + (0 — 9( л)г У/ (х).
где
yt (х) == arg min У [4 (х, 9(/)) — ч (х, 9(0) — у (9(Л — 9U))]2.
V>0 /=о
Напомним, что в методе Гаусса — Ньютона
Yf (х) = дч\ (г, 0)/д0|я=0(п.
Утверждения о сходимости всех рассмотренных алгоритмов
легко формулируются на основе общих теорем о сходимости ме-
тодов поиска локального экстремума. Все эти алгоритмы имеют
недостаток, присущий большинству общих методов локального
поиска и заключающийся в том, что для их сходимости требует-
ся хорошее начальное приближение 0<О).
Упражнения.
1. Предположим, что функция регрессии имеет вид
И (х, 0) = 0| ехр {— 62х},
N = 3, точки проведения измерений: xi = 0, Х2 = 1, хз — 2, а результаты
измерений в этих точках равны у\ = 3, уг = 2, уз — 1. Вычислить МНК
оценку (1.4) и линеаризованную МНК-оценку, основанную на рассмотрении
схемы измерений вида (1.6).
2. Пусть в условиях предыдущего упражнения заданы начальные значе-
ния неизвестных параметров О^^З, 0^0,5. Провести по две итерации
методов Хартли и Гаусса — Ньютона. Сравнить с результатами упраж-
нения 1.
3. Проделать то же, что и в упражнении 2, но с начальными значениями
параметров 1, Сравнить с результатами упражнения 2 по зна-
чениям функции (1.5) для полученных оценок. Объяснить, чем вызвана суще
ственная разница вычисленных значений функции (1.5).
109
§ 2. Планирование эксперимента по оцениванию параметров
нелинейной регрессии
2.1. Постановка задачи. Теория гл. 3, 4 развита в предполо-
жении, что функция регрессии т|(х, 0) линейна по неизвестным
параметрам. По причинам, указанным в начале § 1, эксперимен-
татору часто приходится иметь дело с нелинейными регрессион-
ными моделями. Рассмотрим возможные постановки задач пла-
нирования эксперимента по оцениванию параметров нелиней-
ной регрессии.
Будем рассматривать модель (1.1), т. е. предполагать, что
результаты измерений в точках хь ..., xN записываются в виде
У1 = У (х,) = n (Xf, 9) + ер (2.1)-
где
X/ е X, 9 е й cz Rw, Ев/ = 0, Ее^ = 0 (i =#= /), Ее2 = а2,
г| (х, 0)— функция, нелинейно зависящая от 0 и достаточно глад-
кая по 0.
В качестве метода оценивания неизвестных параметров бу-
дем рассматривать МНК (см. § 1): для модели (2.1) оценкой
МНК вектора параметров является
n
9 = arg min £ (yt — т] (хг, 9))2. (2.2)
0e=Q i = l
Поскольку оценки МНК сильно состоятельные (см. п. 1.3),
с вероятностью единица при достаточно больших N величина 0
находится в достаточно малой окрестности 0И — истинного зна-
чения неизвестных параметров. В этой окрестности представим
т] (х, 0) в виде
Т) (х, 9) Т] (х, 9И) + 9rV0T] (х, 9Н),
т. е. линеаризуем модель. Подставляя это выражение в (2.2) и
вычисляя МНК-оценки получившейся линейной регрессионной
модели, имеем
Q^(FTF)~1FTY, (2.3)
где
Г = (//,...yN)T, F=IF(W-
f(x) = f(x, 9И) = V9ti (х, 9И). (2.4)
Дисперсионная матрица оценки, записанной в правой части при-
ближенного равенства (2.3), равна
D [(FTF)~l ГГГ] = a2 (FTF)~l. (2.5)
Аналогично § 1 гл. 3 можно определить информационные
матрицы, непрерывные планы и нормированные информационные
200
матрицы планов. Дисперсионная матрица плана £ равна
еи) = Л4-1й, еи), (2.6)
где
м & 0И) = \f (%, еи) г (%, еи) g (dx) (2.7)
X
есть информационная матрица плана g. Аналогично § 1 гл. 3,
если план £ = £лг дискретный и имеет вид (1.12), то дисперсион-
ная матрица (2.6) этого плана с точностью до множителя o2/N
совпадает с матрицей (2.5).
Таким образом (см. также теорему 1.1), матрица (2.6) до-
статочно полно характеризует качество МНК-оценки (2.1) для
нелинейной регрессионной модели. Так же как и в гл. 3, каче-
ство плана будем определять с помощью выпуклого функционала
Ф[Я(£> би)], (2.8)
заданного на множестве дисперсионных матриц. В отличие от ли-
нейного случая здесь дисперсионная матрица плана и функцио-
нал (2.8) зависят от истинного значения неизвестных парамет-
ров 0И. Поэтому результаты предыдущей главы не могут быть
использованы непосредственно.
Для поиска оптимальных планов по оцениванию параметров
нелинейной регрессии используются три основных подхода: по-
следовательный, байесовский и минимаксный.
Суть последовательного подхода (которому посвящен § 3)
состоит в том, что вместо критерия (2.8) используются критерии
ф[Р(1.0)].
где 0 обозначает текущее (построенное по результатам предше-
ствующих измерений) значение МНК-оценки. Таким образом,
по мере проведения новых измерений уточняется не только
МНК-оценка, но и сам критерий для выбора следующих точек
измерений. Подход называется последовательным, так как для
выбора точек измерений используются результаты предыдущих
измерений.
В двух других подходах на основе использования априорной
информации о неизвестных параметрах функции регрессии кри-
терий оптимальности формулируется таким образом, что он не
зависит от 0и.
В принципе при каждом фиксированном 0 eQ функционал
Ф[£>(В, 0)] может рассматриваться в качестве критерия опти-
мальности, поэтому задача оптимального планирования может
рассматриваться как многокритериальная; в этой задаче могут
быть определены компромиссные критерии, для которых опти-
мальный план уже не зависит от 0. Наиболее распространен-
ными из компромиссных критериев являются байесовские и ми-
нимаксные.
201
2.2. Байесовские планы и их свойства. Предположим, что
экспериментатор обладает априорной информацией о неизвест-
ных параметрах в виде априорного распределения P(dQ), задан-
ного на о-алгебре подмножеств множества Й. В этом случае
можно определить план
ёд — arg min Е {Ф[Р(|, 9)]}, (2.9)
который будем называть байесовским оптимальным (или про-
сто байесовским).
В выражении (2.9) и в остальной части этого параграфа при-
нято обозначение:
Е{...}= $ ... P(dQ). (2.10)
В
Из неравенства Йенсена следует, что если функционал Ф
выпуклый, то выпуклый и байесовский критерий оптимальности
Фв(£)-Е{Ф [D& 6)]}.
Еще проще проверяется дифференцируемость последнего в слу-
чае дифференцируемости Ф, а также существование по крайней
мере одного байесовского оптимального плана (2.9).
Из указанных фактов и теоремы 2.2 гл. 3 вытекает (про-
верьте! ) следующее утверждение
Теорема 2.1. Пусть Ф — выпуклый дифференцируемый
функционал и существует Ф-оптимальный план при P-почти всех
ОеЙ. Тогда множество байесовских оптимальных, планов вы-
пукло, а необходимым и достаточным условием байесовской
оптимальности плана ^является выполнение для всех xt=X
неравенства
<Рв (X. Гв) С Е {tr йФ (D) |D_0 (Vb е)}, (2.11)
где <рв (х, £) = Е {Г(х, 0) йФ (D) D (х, 0)}. При этом, если
для некоторого А е &
.4
то найдется такая точка х^А, для которой в (2.11) имеет ме-
сто равенство.
В отличие от линейного случая результат теоремы для ана-
литического построения оптимальных планов, за исключением
тривиальных случаев, не используется, так как подсчет соответ-
ствующих интегралов (существование которых подразумевается)
в явном виде чаще всего невозможен.
В приведенном утверждении отсутствует пункт о количестве
точек р оптимальных планах. Дело в том, что Фв(1) невозможно
представить как функцию, зависящую лишь от элементов иц-
202
формационной матрицы, как это было в линейном случае. Но
именно последнее лежит в основе доказательства существова-
ния оптимального плана, имеющего не более чем т(т + 1)/2
точек.
2.3. Численное построение байесовских оптимальных планов.
Так же как и в линейном случае, нетрудно привести алгоритмы
построения байесовских оптимальных планов, аналогичные ал-
горитмам из § 4 гл. 3 с заменой ф(х, £) на фВ(х, £).С практиче-
ской точки зрения такая процедура бесполезна, если не удается
отыскать экономного способа подсчета интегралов вида (2.10).
В то же время экстремальная задача (2.9) может быть истол-
кована как задача планирования экстремального эксперимента
(этим задачам посвящена гл. 6). Численные методы экстремаль-
ного планирования развиты в основном для конечномерных
пространств. В (2.9) оптимальную точку приходится отыскивать
среди вероятностных мер, определенных на множестве плани-
рования X. Возможным путем упрощения исходной задачи яв-
ляются переход к мерам, определенным лишь на дискретном на-
боре точек Xi^X (i = 1, ..., п), и замена (2.9) на конечномер-
ную экстремальную задачу
g; = arginfOB(g„),
р
где
pT=(pi......рп)> iPl=^ pi>o,
При достаточно большом п и подходящем расположении то-
чек xt план g* может рассматриваться как приближенное ре-
шение (2.9).
Одним из методов отыскания плана может служить сле-
дующий. Пусть имеется план определяемый вектором ps.
С помощью датчика случайных чисел в соответствии с распреде-
лением P(dQ) выбирается 0$. Формируется новый вектор
Ps+i==Jl[Ps-as+i<P(0s> ВД’ (2.12)
где л(р) означает проекцию вектора р на множество допусти-
мых значений (pz^0, ^pi— I
\ i = 1
Фг(е, 1) = (ф(хь е, g),ф(х„, о, g)),
ф (х, 0, I) = г (х, 0) £)Ф (D) D \DssD &}f(x, 0),
{a6}— некоторая последовательность положительных чисел.
Исследование сходимости алгоритма (2.12) может быть про-
ведено методами, приведенными в § 1 гл. 6.
203
2.4. Минимаксные планы. Пусть априори известно, что истинные зна-
чения параметров принадлежат множеству Q. Тогда можно определить план
= arg inf { sup Ф [D (£, 0)]}, (2 13)
g е s q
который называется минимаксным.
Численное построение минимаксных планов — довольно трудная задача.
Простых методов построения непрерывных минимаксных планов не сущест-
вует, а верхнюю границу для минимального числа точек непрерывного мини-
максного плана построить не удается (по тем же причинам, что и для байе-
совских планов) Поэтому минимаксные планы естественно строить в множе-
ствах планов Stf и 2 (я) (см. § 1 гл. 3). Для построения таких планов следует
использовать один из общих методов решения минимаксных задач.
Упражнения.
1. Пусть функция регрессии имеет вид
т) (х, 0) = 0j ехр {— 02х}, х > О,
а параметрическое множество Q состоит из четырех точек: £2 = {(1, 1)Г, (1, 2)т
(2, 1)^, (2, 2)г} Построить байесовский (для равномерного на Q априор-
ного распределения) и минимаксный D-оптимальные планы.
2. Вывести теорему 2.1 из теоремы 2.2 гл. 3.
§ 3. Последовательное планирование
3.1. Суть последовательного планирования. В гл. 3, 4 и в § 2
этой главы рассматривались оптимальные планы регрессион-
ного эксперимента и методы их построения в рамках стати-
ческого планирования, когда условия эксперимента предполага-
лись неменяющимися, а оптимальный план представлял собой
план проведения всех измерений, отведенных на эксперимент.
Такое планирование, однако, не всегда возможно (в частности,
иногда со временем меняются условия эксперимента). Чаще ста-
тическое планирование в принципе возможно, но правильно по-
строенные последовательные планы позволяют получать суще-
ственный выигрыш по сравнению с любыми статическими пла-
нами. Типичной является ситуация, возникающая при рассмат-
риваемом в этом параграфе планировании эксперимента по оце-
ниванию параметров нелинейной регрессии: по мере получения
результатов измерений изменяется критерий оптимальности вы-
бора условий проведения новых измерений.
Идея последовательного планирования состоит в следующем.
Общее число измерений, отведенное на эксперимент, разбивается
на несколько частей, а сам эксперимент разбивается на не-
сколько этапов. На каждом этапе: планируется соответствую-
щая часть измерений; проводятся измерения; полученные ре-
зультаты и сведения, поступающие извне, анализируются. На
схеме процесс эксперимента имеет вид
204
При статическом планировании обратная связь (обозначенная
на схеме стрелкой от блока «анализ» до блока «эксперимент»)
отсутствует.
Последовательно спланированный эксперимент прекращает-
ся, если заданная характеристика точности достигает необходи-
мого значения либо если прекращаются ресурсы, отведенные на
эксперимент.
3.2. Линейная регрессия. Для линейной по параметрам рег-
рессии сравнительно просто реализуется описанное ниже после-
довательное планирование, основанное на следующем принципе:
на каждом шаге — наибольшее уточнение оценок параметров в
смысле выбранного критерия. В рассматриваемом случае после-
довательное планирование не имеет преимуществ перед стати-
ческим по точности получаемых оценок, однако обладает сле-
дующим очень важным качеством: при последовательном плани-
ровании легко может быть проконтролирована точность оценок,
и поэтому имеется естественный критерий остановки — дости-
жение заданной точности.
По форме алгоритм последовательного планирования для
Ф-критерия совпадает с алгоритмом 4.1 из гл. 3 для случая,
когда.
и ys — l/(s + М) + 1) (« 4- #о есть число точек плана £s, вхо-
дящих в него с равными весами).
При использовании этого алгоритма для рекуррентного вы-
числения МНК-оценок следует пользоваться формулой
= (&S+1) [ s + jV0 + 1 (£$) 0 (6s) + 5 д/0 4. 1 ys+N9+J (Х^о+1)],
которая вытекает из вида этих оценок, и формулой (4.11) гл. 3
для вычисления D(gs+i). Асимптотическая оптимальность ука-
занной последовательности планов вытекает из результатов,
сформулированных в § 4 гл. 3.
Вернемся к схеме нелинейной регрессии.
3.3. Нелинейная регрессия. Локально оптимальные планы.
Поскольку матрица (2.6), характеризующая точность МНК-
оценки (2.2), зависит от неизвестных параметров 0, построить
статический план, минимизирующий Ф[£)(0, £)] сразу при всех
О, вообще говоря, невозможно. Тем не менее статические планы
= arg inf Ф [D (0, £)], (3.1)
I
зависящие от неизвестных параметров 0, имеют, как показано
ниже, большое значение при построении оптимальных последо-
вательных планов по оцениванию неизвестных параметров схе-
мы нелинейного регрессионного эксперимента (1.1).
205
По определению план (3.1) при 0 = 0И называется локально
оптимальным. В частности, план
= arg inf det D (0и, g) = arg sup det M (0И, g)
и s
называется локально D-оптимальным.
Иногда локально оптимальные планы удается построить в
явном виде. Приведем ряд примеров.
Пример 3A.m — k — I,
т) (х, 0) = 0х/(с + 0х), х > О, 0 > 0, с = const > 0. (3.2)
Поскольку m= 1, то m(zn + 1 )/2 — 1. Поэтому, используя тео-
рему 1.4 из гл. 3, получаем, что существует оптимальный план,
сосредоточенный в одной точке х*. Кроме того, ясно, что Ф-оп-
тимальные планы совпадают для любого выпуклого критерия Ф.
Для функции регрессии (3.2)
/(X>0) = ^0L= СХ
А1 (0, £) = f2(x, 0)
(с + 0х)2 ’
(сх)2
(с + Ох)4 ’
Далее, х* является решением уравнения
д Г (сх)2 1
дх L (с 4- 0х)4 J
X
>0.
Отсюда получаем, что х* = с0~1. Подставляя это значение в
(3.2), получаем, что наилучшим будет тот план, в котором на-
блюдение проводится в момент, когда функция регрессии дости-
гает значения, равного половине
Если указанное значение удается
ображений, то задача построения
таким образом легко решается.
Пример 3.2. m = 2, k = 1,
от максимально возможного,
оценить из эвристических со-
локально оптимального плана
т) (х, 0) = 0хх/(г + 02х), х > 0, с = const > 0. (3.3)
Эта функция регрессии иногда используется для описания кине-
тических процессов. Соответствующая математическая модель
называется моделью Михаэлиса — Ментен.
Пусть известно, что х Ь. Покажем, что план
( Ьс
'2С + 602
( 1/2 1/2
(3.4)
206
является локально D-оптимальным. Действительно, для плана
(3.4)
f <х- 0) = (dnje,’e) ’ -ПМг8) У = (х/{с + ~
М(6. Г)==£^(х„0)Г(Хо0) =
i-i
_ b2 II 20 (c + 602)2 —18 (c + 602) 0i&
32 (c + 602)4 j -18 (с + 602) 0(6 170?b2
D(Q 2(c+fr92)2|| - 170(62 180l6(c + &O2)||
tfb4 II 180,6 (c 4-*02) 20 (с + 602)2 I’
d (x, 0, D = — +b^2)2 yy+y (W2 + a2x + Оз),
где
a, = 20c2 + 4bc + a2 = — 2bc (18c + 602),
a3 = 17b2c2.
Функция d(x, 0, £*) принимает максимальное значение, равное 2
в точках плана (3.4), и поэтому в силу теоремы эквивалентности
Кифера—Вольфовица план (3.4) локально D-оптимален.
Заметим, что в модель (3.3) параметр 01 входит линейно, а
локально оптимальный план не зависит от тех параметров, по
которым функция регрессии линейна. Можно показать (пока-
жите!), что это справедливо и для любых других функций рег-
рессий.
Пример 3.3. Пусть т = 2, k = 1,
т](х, 0) = 1/(01 +02*); 0Ь 02>О. (3.5)
Положим 0з = 01/02- Покажем, что локально D-оптимальным
для функции регрессии (3.5) является план
t* ( 2a + 0з) /п
g =11/2, 1/2 Г (3'6)
Для этого плана
f (X, 0) = (- (0, + 02х)-2, - X (0 + 02х)-2)г,
тИ(0. Г) = —+----------п-1 17 18“ + 0э II
а4(~ 1 )4||18a + 03 20a2 + 4а03 + 021
20a2 + 4a03 + 02 - (18a + 03) I
- (18a+ 03) 17 |
3204 (a + 03)4
D(0, Г) = 204 (а + 03)4
d (х, 0, Г) = 117x2 ~ 2х (18а + ез) + 20«2 + 4а0з + 0з]-
Локальная D-оптимальность плана определяемого по
(3.6), следует из того, что максимум функции d(xt 0, £*) равен 2
и достигается в точках этого плана.
207
3.4. Последовательное планирование для нелинейной регрес-
сии. Ниже приведены две стратегии последовательного планиро-
вания. В основе первой стратегии (алгоритм 3.1 и некоторые его
модификации) лежит та же идея, что и при последовательном
планировании для линейной регрессии (п. 3.2)—максимальное
уточнение оценок параметров на каждом шаге. Эта стратегия
может быть использована, когда имеется возможность анализа
данных в режиме реального времени.
Алгоритм 3.1.
1) Выбираем такой план
Е =f •••> |
W« Ъ/ЛГо.....1/tfoJ’
что матрица М(0, ^0) невырождена при всех 8sQ. Полагаем
/ = 0.
2) Вычисляем оценки МНК
Ni
Qn = arg min £ (у (xj — rj (xz, 0))2 (3.7)
1 0sQ / = 1
и матрицу
rN‘ T*
D $N/, Ц) = f (хь Ц) fT (xz, Ц) j (3.8)
(вели для вычисления оценок (3.7) используется метод Гаусса —
Ньютона, то в процессе вычислений определяется и матрица
(3.8)).
3) Отыскиваем точку
^/+i = argm^ax<p(x, (Ц, Ц),
где
ф(х, 0, g)-fr(x, 0)D-g-p| f(x, 0).
ои IO-D(0,y
4) Если отведенные на эксперимент ресурсы кончились, то в
качестве искомой оценки параметров 0 выбираем 0лгг В про-
тивном случае проводим наблюдение y(xNj+i). Полагаем
^/+i= 0 ~ V/+ 1 ) Ц + л7+тЧх*/+1)’
Nj+t = W/-j- 1, заменяем /на / + 1 и переходим к шагу 2).
Вместо алгоритма 3.1 нередко используют его модификации,
более удобные в вычислительном или экспериментальном ас-
пекте. Например, на каждой итерации отыскивают сразу не-
сколько точек x.v/+I...XN^q, повторяя шаги 3), 4) с одними
и теми же значениями оценок .
Возможна и другая стратегия последовательного планирова-
ния. Согласно этой стратегии, эксперимент проводится в два
этапа. На первом этане, согласно заданному статическому плану,
208
проводится некоторое число a{N) измерений, по результатам
которых строится МНК-оценка 0О неизвестных параметров. На
втором этапе оставшаяся часть измерений W— a(N) проводится
согласно статическому плану
£*==argmin<I>P(£, 0О)]. (3.9)
Если a(Af) достаточно велико, то в качестве оценки неизвестных
параметров может быть выбрана МНК-оценка для схемы линей-
ной регрессии
е0) + вР /=1.........n.
Если, кроме того, число a(N) мало по сравнению с N, то боль-
шая часть измерений проводится по плану (3.9), который бли-
зок к локально оптимальному.
Упражнения.
1. Постройте локально оптимальный план для функции регрессии
Ч (х, 0) = ехр {— 0х}, х > 0, 0 > 0.
Проведите пять итераций алгоритма 3.1, выбирая значения случайных ошибок
из табл. 4 приложения 2 и положив 0Н — 1.
2. Постройте локально D- и 4-оптимальные планы для функции регрессии
Ч (х, 0) = 01 ехр {— 02х}, х > 0, 01 > 0. 02 > 0.
3. Постройте локально D-оптимальный план для функции регрессии
Ч (х? х2, 0) = 01Xj2X2^02, KXj<2, 1<х2<2, 0х > 0» 0 < 02 < 1.
Глава 6
ПЛАНИРОВАНИЕ ЭКСТРЕМАЛЬНОГО ЭКСПЕРИМЕНТА
Экстремальным экспериментом называют эксперимент, на-
правленный на отыскание экстремума функции регрессии.
При выборе метода экстремального планирования решаю-
щим фактором является стоимость экспериментов. Если стои-
мость экспериментов высока и их допустимое количество неве-
лико, то наиболее целесообразным может являться статический
план, согласно которому измерения проводятся в точках некото-
рой сетки в заданной подобласти факторного пространства. Ча-
сто в качестве планов проведения эксперимента используют по-
следовательные планы, описанные в настоящей главе. При не-
которых предположениях эти планы обладают асимптотическим
свойством сходимости подучаемой последовательности точек к
точке локального экстремума функции регрессии.
§ 1. Сходимость псевдоградиентных алгоритмов
1.1. Постановка задачи. Пусть X=Rn, т]— измеримая функ-
ция на X. Предположим, что в любой точке х^Х мы можем
вычислять (измерять) реализацию случайной величины у(х) =
= т)(х)4-е(х), где случайные ошибки е(х) центрированы
(Ее(х) = 0) и взаимно независимы при любых хь х2, ... из X.
Согласно терминологии предыдущих глав, т)(х)—функция рег-
рессии, часто называемая также функцией отклика.
Задача планирования экстремального эксперимента состоит
в построении последовательности точек {xjfe}~=sOcz X, сходящейся
к точке
х* = аг§шахц(х)
х е X
(в предположении существования максимума) или такой, что
rj (хJ-> sup n (х), k-+<x>.
х е X
Смысл сходимости уточняется ниже.
Задачи планирования экстремального эксперимента обычно
формулируются как задачи максимизации. Если стой г задача
210
минимизации некоторой функции ц (х) по результатам вычисле-
ния j/(x)=fj(x)+e (х), то, положив
т](х) = — fj (х), е(х) = —ё(х), у(х)~ — у(х),
приходим к сформулированной выше задаче максимизации.
Иногда при решении задач экстремального планирования
удается осуществить измерение (со случайными ошибками) гра-
диента Vr, функции т] в точке х:
Z(x)=vBW+EW, VnW=(-£$...................-gay,
где z(x) и £(х)—реализации случайных векторов размерности
/г, Е£(х) = 0, при любых xi, хг, ... из X случайные векторы
£(xi), £(*2), ••• взаимно независимы.
Если при построении последовательности {xfe}~=0 исполь-
зуется хотя бы одна реализация случайного вектора z или из-
мерения (со случайной ошибкой) старших производных функ-
ции регрессии, то алгоритм экстремального планирования назы-
вается регулярным. Если при построении xk используются толь-
ко значения случайной функции у и значение k, но не исполь-
зуются измерения производных функции г], то алгоритм экстре-
мального планирования называется поисковым.
В данной главе рассматриваются последовательные алго-
ритмы экстремального планирования, представимые в следую-
щем виде:
**+i = *fe + Yfc+1Sft> (Ы)
где k 0 — номер итерации, xft е X, уь 0 — детерминирован-
ный множитель, Sj е X — реализация случайного вектора, кото-
рый, вообще говоря, зависит от
k, х0, хи .... xk„ з0, «1.«й-i (1-2)
и реализаций у или z в специальным образом определенном на-
боре точек из X. Вектор часто называют направлением дви-
жения, а величину v*+t — длиной шага. Поскольку ||s*|| в боль-
шинстве методов отличается от единицы, необходимо иметь
в виду, что истинная длина шага в направлении s* равна
Tfe+ills*l|.
Формула (1.1) является наиболее общей формой записи по-
следовательных алгоритмов экстремального планирования в
случае, когда эксперименты направлены на отыскание локаль-
ного экстремума функции т|.
Пример 1.1. Пусть исходный алгоритм имеет вид
^+i = ^ + rfez(xj, (1.3)
где Гд»: Х-^Х — оператор, зависящий от k и
х0, ...» х*, г(х0), ..., z(xk).
21 I
Для того чтобы привести (1.3) к виду (1.1), достаточно поло-
жить
s* = v4ir*2(O-
где у1, у2, ••• — последовательность положительных чисел, вы-
бранная произвольным образом.
Пример 1.2. Если исходный алгоритм имеет вид (1.1), но
— случайные величины, то, положив sk = skyk и,%+п где уь
у2, • ... — произвольные положительные числа, приходим к
алгоритму вида (1.1) с детерминированными длинами шагов.
При достаточно общих предположениях о функции т] и над-
лежащих способах выбора параметров Sk обычно удается-
доказать сходимость алгоритма (1.1). Это, однако, не означает,
что любая предельная точка последовательности (1.1) является
точкой локального (а тем более глобального) максимума функ-
ции т). Как правило, о предельных точках можно сказать лишь
то, что они являются стационарными точками функции т), т. е.
такими точками х*, в которых Vr](x*)=O. Впрочем, иногда
удается доказать, что предельные точки с вероятностью еди-
ница не могут быть точками локальных минимумов функ-
ции Т|.
L2. Теорема о сходимости алгоритма (1.1). Доказанная ниже
теорема, во-первых, позволяет обосновать сходимость широкого
класса алгоритмов экстремального планирования, представимых
в виде (1.1), во-вторых, отличается среди похожих теорем от-
носительной простотой предположений, и, в-третьих, метод до-
казательства этой теоремы довольно типичен, что позволяет без
труда доказывать похожие утверждения. Сначала сформулируем
используемые предположения.
Предположим, что при фиксированном наборе (1.2) суще-
ствуют условные математические ожидания Sk и ||s*||2, которые
мы будем обозначать соответственно
E{sft|<| и Е{||зЛ||2Ш
(где SSk — ст-алгебра, порожденная случайными векторами $0,
Si, .... sa-i) или просто ESfe и ЕII sk ||2.
Пусть на множестве X задана функция q, которая ограничена
сверху, дифференцируема, а ее градиент удовлетворяет усло-
вию Липшица с некоторой константой L <_ оо:
r)(x)<T]' = sup т](х) < °°> (1-4)
|| Vn (х) - Vn (z) || < L || x - z ||. (1.5)
Алгоритм (1.1) называется псевдоградиентным, если для
всех k = О, 1, ...
[Vn(xft)rEsft>0. (1.6)
Псевдоградиентность алгоритма (1.1) означает, что при всех
k = О, 1, ... случайный вектор Sk в среднем направлен под
212
острым углом к градиенту функции т] в точке хк или что направ-
ление Sk в среднем — направление возрастания функции ц.
Теперь наложим два условия на длины шагов в алгоритме
(1.1). Пусть для некоторых Ki <= R, К2 > 0 и для последова-
тельности чисел выполнено
ЕII sk IP < Kk - Л, г) (х*) + К, [Vn Es*. (1.7)
Это условие означает, что Е || sk |р как функция от k растет не бы-
стрее, чем последовательность {X*} (возможно, А,* оо при
/>->-оо), а как функция от х — хк— не быстрее, чем (—ц(х))
или [Vr)(x)]rEs*. Пусть также для последовательностей чисел
{у*}, {М выполняются условия
Ya>0, Ду* = оо, (1.8)
Ду1Ч-1<°°- М
Теорема 1.1. Пусть .X = R", и пусть выполнены условия
(1.4)—(1.9) и любое из условий
Ду|<оо, (1.10)
%* = 0 (6=0, 1, ...), к1 = 0, ПЖ у* < 2/(/л2). (1.11)
£->ОО
Тогда при любом хоеХ последовательность (1.1) такова, что
для нее с вероятностью единица существует предел г| (х*) (k -> 00)
и
liminf[vn(x*)]rE{s*|$*} = 0 п. н. (1.12)
k ->оо
Прежде чем доказывать теорему, дадим определение и докажем вспомо-
гательную лемму.
Неотрицательным квазисупермартингалом будем называть такую последо-
вательность неотрицательных случайных величин Vo, Vi.что Evo < оо
и при всех k = 0, 1, ..
Е К+11 vo...v4<(I + Mvft + ₽k-
где {а/) и {£/} — сходящиеся к нулю последовательности неотрицательных
чисел. Если все а* и равны нулю, то последовательность Vo, Vi, ... называ-
ется неотрицательным супермартингалом.
Лемма 1.1 (о сходимости квазисупермартингалов). Если для опреде-
ленного выше неотрицательного квазисупермартингала Vo, Vf, ... выполнены
условия
оо оо
£ < 0°, £ 0, < ОО,
i-0 i-0
то величины Ev& равномерно ограничены и существует такая случайная вели-
чина v, что E-v < оо, Vfc -> v (& -> 00) с вероятностью единица.
213
Доказательство леммы. Покажем, что из условия X af < °°
z=o
оо
следует, что у о < оо, где Yo^ JJ (1 + az). Действительно,
i==6
Vo = П (l + ai) < П exp {<м = exp IXa J < °°-
i-0 /«0 M=0 )
Следовательно, произведения
Yft = g(l+«<)
ограничены и образуют монотонно невозрастающую последовательность.
Положим
“’A = Yfevft + vft+i Z Pi-
i=k
Оценим условное математическое ожидание ДО*-н относительно Доо, ..., до*:
Е {^+11 ®о.....wk} = Е К+11V • - - v*} =
= EbA+1Yft+1 + Yfe+2 £ Pz|v0........vj =
l /-Л+1 )
= Ya+ie{v*+1|v0......vfe) + Yft+2 £ Pi<
i~k+l
<Ya+i (1 + <»a) va + Y*+iP* + Yfe+2 £
i=fe+i
= YaV* + Y*+iPa + Yft+i £ Pz + (Yfe+2 — Y*+i) £ Pz<
i=fe+l Z-ft+l
<УЛ + Yfe+iP* + Yft+1 E Pz = Y*v* +Yfe+i £ 3,-,=wk.
i-k+i i-t
Следовательно, последовательность wQ, доь ... образует супермартингал и
E^z^Ew0<oo (z = 1, 2,...). Эта последовательность неотрицательна (в
силу неотрицательности vz), т. е. ограничена снизу нулем, и поэтому к ней
можно примеьщть теорему Дуба о сходимости супермартингалов (см. [45]).
Из этой теоремы следует, что последовательность {до*}» а значит, и последо-
вательность {v*} сходятся с вероятностью единица к некоторой случайной
величине. Равномерная ограниченность Ev^ следует из равномерной ограни-
ченности Лемма доказана.
Доказательство теоремы 1.1. Из (1.5) и формулы Тейлора вы-
текает, что для любых х, г е X имеет место неравенство
| t] (х + z) — t)W-ZVrjfx) |<-у llzll2. (113)
214
Подставляя в это неравенство xk вместо xt a x*+i вместо х + z и используя
(1.1), получаем
I п (*«+1) - n (*4 - Yft+XVll (х«) I <“2 vl+i II sk II2.
откуда
П (XA+I) > Г) (хк) + V*+1s*Vti(хк) - у YA-цIIMl2-
Это неравенство запишем в виде
Vfe+1 < v* - V*+is*Vtl (х4 + ~2 Y*+1 II sk II2’
где Vk — Л* ” т1(**) (^ == О, 1, ...). Возьмем условные математические ожи^
дания от обеих частей последнего неравенства и воспользуемся (1.7):
Е N+! I *4 < - Yft+1 pl (Х«)]Г Е Ь 1*4+4 V*+>E <11s* II21 <
< Vk (1 + Yi+1) + Yft+i Fn (x«)f E Ь | *4 Y*+1 - 1) +
+4 Yi+л*Y*+‘n* (1,14)
Из (1.10) и (1.11) при всех достаточно больших k(k^k*) имеем
К 1
——yI-m С 1; следовательно, учитывая условие псевдоградиентиости (1.6),
второе слагаемое в правой части (1.14) неположительно, и поэтому из (1.14)
следует неравенство
Е {va+11 *4 < v* (i + y1+i) + 4 vl+Л* - -^у- yI+in‘. k > k.
(1.15)
Из (1.15) следует, что последовательность {v/} (t k*) образует квазисупер-
мартингал (при выполнении (1.10)) или супермартингал (при выполнении
(1.11)). Применяя лемму 1.1 (в случае выполнения (1.11) а* — рл = 0, а в
случае выполнения (1.10)
Л, А 2 о L L 2 KiL 9 *|\
Pft = max|0, — — Y^+i1!
получаем, что почти
мерно ограничены:
наверное существует lim v. и величины Ev. равно-
&->оо * R
Evft<a<oo, fe = 0, 1, ... (ив)
Теперь перейдем в неравенстве (1.14) к безусловным математическим
ожиданиям:
Ev,.+1 (1 +-^ Yft+i) - yft+I (1 - Yft+1) X
X Е {рП (хк)]т Е {s, | Як}} + А у^+ {Ьк - у*+1П‘
Перенесем Evfe из правой части этого неравенства в левую, а
мируем получившиеся неравенства по k от нуля до некоторого
Получим
Хо (Ю X* (Л) - {N) -UV),
затем просум-
числа N < оо.
(1.17)
215
где
20 — ^vat+ i Ev0,
2i(Af) = S
k^O
N
22 (N) = X V*+1 (1 - Yft+1) E {pl (xft)f E {s* | <Bk}]
fe=O
N
23w=4E y*+>%*’
Ы
24(Ю = -^П*£ Y2ft+I.
M
Из (1.16) следует, что величина |So(W)| равномерно ограничена по N. Рав-
номерная ограниченность |2з(Л0|, |24(ЛГ)| и |Si(AT)| вытекает соответствен-
но из (1.9); (1.10) или (1.11); (1.11) или (1.16), (1.10). Отсюда и из (1.17)
следует, что
оо
22 (оо) = Е Vft+1 (* - Yft+') Е 1 Е I ^*}} < °° <Ll8)
k~0
(в противном случае получилось бы, что —оо больше константы).
При выполнении как (1.10), так и (1.11) существует такое е > 0, что
при всех достаточно больших k выполняется неравенство
и поэтому из (1.18) следует
Д Yft+1E {pl (**)f Е Ь I (Ь19)
Но
£>л+1 = °°- E{p(xft)fE{Sft|^}}>0, * = 0,1...........
fc=0
и поэтому из (1.19) вытекает, что
lim inf Е {[Vr, (хА)]г Е {s* | <Sk}} = 0,
Л->оо
т. е. найдется такая подпоследовательность {&/}, что предел
существует и равен нулю. Отсюда и из соотношений между сходимостями в
среднем, почти наверное и по вероятности (см. [45]) получаем следующее:
существует такая подпоследовательность что
[^(ч,)]ГЕ!%!%}-“
почти наверное при /->оо. С учетом (1.6) это дает (1.12). Теорема доказана.
216
1.3. Некоторые следствия теоремы 1.1. Сделанные в теореме 1.1 пред-
положения не позволяют утверждать, что н(х*)-*л* (k-+<x>) почти навер-
ное. Например, все условия теоремы выполняются при s* = 0. Однако если
в условии псевдоградиентпости потребовать строгое неравенство для всех Xk,
отличных от точек максимума, то можно получить более сильные утвержде-
ния. В частности, справедливо
Следствие 1. 1. Пусть в дополнение к условиям теоремы 1.1 для всех
0, 8 > 0 справедливо неравенство
(ха)]Г Esfe >с (е) > 0 пРи —8 (1.20)
Тогда т] (х*) -> 1]* п. н. при k -> оо.
Следствие 1.2. Пусть в дополнение к условиям теоремы 1.1 множе-
ство X* точек локальных максимумов функций т) непусто и
sup п(х)<'П* при*) р(х, Х*)>е>0, (1.21)
X
[Vt) (xfe)]r > с (е) > 0 при р (х, X*) в > 0. Тогда с вероятностью единица
р(х*’ (*->«>)•
Доказательства следствий просты и предоставляются читателям
Почти тривиальным является утверждение о том, что если функция
т) (х) имеет единственную точку максимума х* (т] (х*) = т)*) и выполнено
(1.21), то из сходимости т](хй)->т)* почти наверное следует сходимость
х*->х* почти наверное. Этим фактом можно дополнить следствие 1.2.
Особенность теоремы 1.1 и ее следствий состоит в том, что они справед-
ливы и тогда, когда X является сепарабельным гильбертовым пространством.
Задачи оптимизации в функциональных пространствах возникают, напри-
мер, при отыскании оптимальных управлений для объектов, изменение со-
стояний которых описывается дифференциальными или интегральными урав-
нениями. При этом оптимизируемый функционал более или менее однозначно
определяется существом решаемой задачи, а функциональное пространство,
элементами которого являются допустимые управления, может выбираться в
довольно широких пределах, и обычно множество допустимых управлений
вкладывается в функциональное пространство, в котором отыскание оптималь-
ного управления было бы наиболее удобным. Как правило, таким простран-
ством является сепарабельное гильбертово (например, £г(А), А cz R"). Для
поиска экстремума функционала, заданного на этом пространстве, может быть
использован алгоритм (1.1).
1.4. Градиентный алгоритм. В качестве простого примера
использования утверждения теоремы 1.1 приведем задачу на-
хождения достаточных условий для сходимости градиентного ал-
горитма
xft+l = xft + yft+Iz(xfe), (1.22)
называемого также многомерным алгоритмом стохастической
аппроксимации Роббинса — Монро.
Для обоснования сходимости этого алгоритма можно вос-
пользоваться теоремой 1.1. При этом условие (1.6) (и (1.20) из
следствия 1.1) выполняется автоматически:
[Vn (rf Es, = || Vn (xj ||2.
Кроме того, поскольку
E||sJp = ||Vr1(xjfe)||2 + E||Ux,)||2,
*) р (х, А) = min р (х, г) — расстояние от точки х до множества А.
z(=A
217
то из условия Е If t (х) ||2 о2 < оо следует (1.7) с Х* = о2, /<! = (),
К?=1.
Непосредственным обобщением градиентного алгоритма
(1.22) является алгоритм
^+i=^ + Yfe+i^(xfe), (1.23)
где Г — положительно определенная матрица. Наличие Г в (1.23)
эквивалентно изменению метрики исходного пространства.
Алгоритм (1.23) называется обобщенным градиентным.
Условия, достаточные для его сходимости, совпадают, оче-
видно, с условиями, достаточными для сходимости алгоритма
(1.22).
Упражнения.
1. Покажите, что если последовательность {XJ положительна и ограни-
чена, то (1.9) совпадает с (1.10).
2. Пусть помехи при вычислении направления движения отсутствуют,
т. е. Хл — 0 (Л* = 0, 1, ...), Ki — 0. Используя доказательство теоремы 1.1,
показать, что если выполнены условия (1.4), (1.5), (1.7), (1.8) и при всех k
справедливы неравенства
0<81<Yft<2(l-81)/(LK2),
Fn (хь)]т Ч > « II (*fe) II2. к>о,
то с вероятностью единица ч (х*) -> я* (&->оо) со скоростью геометрической
прогрессии.
3. Пусть %* — точка локального максимума унимодальной функции т).
Покажите, что при выполнении предположений, сформулированных в упраж-
нении 2, с вероятностью единица Xk х* (£->оо) со скоростью геометриче-
ской прогрессии.
4. Докажите утверждения следствий 1.1 и 1.2.
$ 2. Методы планирования экстремального эксперимента
при наличии ограничений
2.1. Задачи условной оптимизации. Если X — подмножество
R", заданное с помощью некоторых ограничений, то задачу оп-
тимизации на X называют задачей условной оптимизации. Для
решения таких задач могут быть использованы различные мо-
дификации алгоритма (1.1). Выбор той или иной модификации
зависит от способа задания множества X, используемого алго-
ритма и априорной информации о функции т).
Если X имеет простую структуру (например, гиперпаралле-
лепипед), то удобно использовать операцию проектирования
(п. 2.2). Если структура X сложна, но количество ограничений
невелико, а ц и функции, задающие ограничения, обладают свой-,
ствами выпуклости, то часто используется метод множителей
Лагранжа (п. 2.4). Трудоемкость методов штрафных функций
(п. 2.3) почти не зависит от числа ограничений и их сложности,
поэтому эти методы в практических вычислениях используются
очень часто.
218
Структура некоторых видов алгоритма (1.1) такова, что учет
ограничений затруднений не представляет. В первую очередь
это относится к методам случайного поиска, в которых точки,
не попадающие в множество X, просто «выбрасываются» (т. е.
измерения в них не проводятся), а вместо них генерируются
новые случайные точки. Отметим, что сказанное во многом от-
носится и к задачам оптимизации при отсутствии случайных
ошибок измерений и наличии ограничений, т. е. к детерминиро-
ванным задачам условной оптимизации, при решении которых
методы учета ограничений во многом те же, что и рассматри-
ваемые в этом параграфе.
Задачи условной оптимизации удобно рассматривать как за-
дачи минимизации, поэтому будем предполагать, что решается
задача минимизации функции У(х) (например, можно положить
V(x)=—tj(x)), вычисляемой, возможно, со случайной ошибкой.
2.2. Использование операции проектирования. Обозначим че-
рез лх(х) проекцию точки хеИл на множество X, т. е. точку
лх (х) = arg min || х — z ||.
г е X
Если X — замкнутое выпуклое множество, то оператор лх опре-
деляется однозначно. В частности, если
Х = {х — (Х1, хп)т |аг<хг^&г (/=1.и)},
то
( а„
x{^ah
пх (х) — (Л] (х), ..., л„ (х))Г, nt (х) = х{, at< х(< Ь{,
bit
x^fbi.
В тех случаях, когда операция проектирования на X легко
осуществима, для поиска максимума функции т] часто исполь-
зуется алгоритм
Xfe+i = «x(Xfe + Yfc+lSfe)- (2.1)
Это модификация алгоритма (1.1), которая обосновывается сле-
дующим утверждением.
Теорема 2.1. Утверждение теоремы 1.1 относительно алго-
ритма (1.1) справедливо и для алгоритма (2.1).
Доказательство. Из определения оператора проектирования ju
следует, что для всех k = 0, 1, ...
= (**))• (2.2)
Доказательство теоремы 1.1 было построено с использованием оценок вида
Е К - Ч (xk+1)1 < Е К - п (**)] < • (2,3)
Для алгоритма (2.1) выполняется (2.2). Поэтому из (2.3) получаем
Е {пх К - П (xk+1)]} Е К - П (*ft+0} < • • •
Следовательно, теорема 1.1 верна для алгоритма (2.1). Теорема доказана.
219
2.3. Методы штрафных функций. Методы штрафных функции
являются одними из наиболее простых и широко применяемых
методов решения экстремальных задач с ограничениями. Суть
метода внешних штрафных функций заключается в сведении
исходной задачи поиска инфимума функции У(х) на множестве
X к последовательности задач поиска инфимума некоторых
функций Vj(x) (/=1,2, ...) на множестве XqidX, а вспомога-
тельные функции Vj(x) подбираются так, чтобы с ростом но-
мера / они мало отличались от исходной функции V(x) на мно-
жестве X и быстро возрастали на множестве Х0\Х. Естественно 1
ожидать, что быстрый рост функции Vj(x) вне X приведет к $
тому, что при больших / нижняя грань этой функции на Хо будет
достигаться в точках, близких к множеству X, и решение вспо-
могательной задачи будет приближаться к решению исходной.
Пусть фиксированы некоторое множество Хо, содержащее X,
и последовательность функций {Рj (x))/ti, заданных на Хо-Пред-
полагая, что функция V(x) задана на множестве Хо, положим
V j(x) — V (х) +Р^х). (2.4)
Последовательность функций (Р/(х)}л=1’ определенных и неотри-
цательных на множестве Хо X, называется последователь-
ностью внешних штрафных функций множества X на множестве
Хо, если
( 0, х е X, Л „
НтР/(х)=ч Ye=v\Y (2-6)
Методом внешних штрафных функций называется алгоритм
вида (1.1), где (для всех k = 0,1, ...) y*+i > 0, х*еХ0, вь —
направление на локальный (глобальный) минимум функции
14 (х) или направление псевдоградиента для функции Vt(x),
определенной по (2.4).
При теоретическом исследовании детерминированных мето-
дов условной локальной минимизации обычно считают, что в ме-
тодах штрафных функций при всех k = О, 1, ... точка Хь+\ —
точка ближайшего локального минимума функции Vft(x), т. е.
Sk — направление на локальный минимум функции Vk, а у/ж—
расстояние от Х& до точки локального минимума (так опреде-
ляемое направление sk псевдоградиентно для функции 14). Ме-
тод штрафных функций в этих случаях представляет собой по-
следовательность алгоритмов минимизации функций (2.4). Ис-
следование таким образом определенных методов штрафных
функций с принципиальной точки зрения несложно и сводится
к нахождению условий, при которых последовательность точек
минимума функций (2.4) сходится к точке минимума функции
V(x).
При планировании экстремального эксперимента нереально
считать, что на k-м шаге метода штрафных функций хотя бы
приближенно достигается локальный экстремум функции рег-
220
рессии Vfe(x): сложность основной задачи (минимизации V(x)
при достаточно просто устроенных множествах X) соизмерима
со сложностью задач минимизации любой из функций КДх).
Этого делать и не нужно. Достаточно на й-й итерации метода
штрафных функций делать лишь один шаг в направлении псевдо-
градиента функции У^(х). Отметим, что условия сходимости
определяемого таким образом метода штрафных функций почти
не отличаются от условий сходимости алгоритма (1.1). Это сле-
дует из того, что при достаточно быстрой сходимости в (2.5)
при k настолько больших, что Vk почти совпадает с V, итерации
метода штрафных функций почти совпадают с итерациями алго-
ритма (2.1), в котором роль X играет Хо.
Для любого множества X cz Rrt существует и может быть по-
строено бесконечно большое число штрафных функций. Напри-
мер, если X замкнуто, то можно положить
pf(x) —Ар(х, X), xsRft = X0, /=1, 2, ...,
где {Л/}—некоторая последовательность положительных чисел,
А/ —> оо(/-> оо).
Как правило, при решении конкретных задач оптимизации
множество X имеет вид
Х = {х(= Rn|xeX0; &(х)<0, z = l, Z; gi(x) = Q9
i = l+ 1, zn}, (2.6)
где Хо cz R"— множество простой структуры (возможно, X = R"),
ХсХ0, функции gi(x) (z = l, ...» tn) определены на Хо. В ка-
честве последовательности штрафных функций для определен-
ного таким образом множества X можно выбрать
Ру(х) = А;Р(х), Ау>0, /=1, 2, ..., А/—>оо, /—>оо,
I т
р W = £ (шах {0, gt (х)}У ч- £ | g{ (х) |г, (2.7)
i = 1 i “Z+l
где х е Хо, г 1 — фиксированное число. Очевидно, что если
функции gi(x) непрерывно дифференцируемы t раз на множе-
стве Хо, то при любом г > t функция Р(х) также t раз непре-
рывно дифференцируема на Хй.
В отличие от внешних штрафных функций внутренние штраф-
ные функции определены только на множестве X.
Пусть множество X замкнуто, имеет внутренние точки и су-
ществует такая точка z е X, что множество
{х «= X | V (х)< V (г)}
компактно. Последовательность непрерывных функций
q{: IntX-^R, 1=1, 2, ... ,
называется последовательностью внутренних штрафных функ-
ций для множества X, если выполнены условия:
221
a) 0 < qt+\ (x) < q{(x) для всех xelntX (Z=l, 2, ...);
6) q^x)-*-® при /-*oo для всех xelntX;
в) 9i(xy)->oo при /->oo для любой такой последова-
тельности {xJcIntX, что lim x,eX'\IntX.
/-> ОО
Образно говоря, при использовании внешних штрафных функ-
ций «штраф платится» при нарушении условия хеХ, а при
использовании внутренних штрафных функций — при приближе-
нии к границе множества X.
Метод внутренних штрафных функций определяется по по-
следовательности {qt так же, как метод внешних штраф-
ных функций по последовательности {Р1(х)}^=г
2.4. Метод множителей Лагранжа. Рассмотрим задачу по-
иска минимума функции V(x) на множестве (2.6), где функции
V, gi (/=1, ..., m) заданы на Функцией Лагранжа для
рассматриваемой задачи минимизации называется
т
L (х, А) = V (х) + g ligi (х) = V (х) 4- KTg (х), (2.8)
где хеХ0, g(x) = (gi(x).....gm(x))T,
АеЛ0 = {А = (А1......Ьт)Т е= Rm | Л, > 0...Ат>0}.
Седловой точкой функции Лагранжа (2.8) называется (в случае
существования) такая пара (х*. А*) <= Хо X Ло, что при всех
х s Хо, А Ло
L(x\ A)<L(x*( A*)<L(x, А*). (2.9)
Соотношение (2.9) записывается также следующим образом:
L (х*. А*) = min max L (х, А) = max min L (x, A).
X s Xo A €x Ao К €s Ao X GE Xo
Покажем, что задачу поиска минимума выпуклой функции
V (х) в случае I = т всегда можно свести к задаче поиска сед-
ловой точки фукции Лагранжа (2.8).
Теорема 2.2. Пусть множество X имеет вид (2.6), функ-
ция V выпукла, 1 = пг и (х*, А*) является седловой точкой функ-
ции Лагранжа (2.8) на множестве ХоХЛо. Тогда х*—
— arg min V (х).
х ее X
Доказательство. Из (2.8) и (2.9) получаем
V (х‘) + Arg (х‘) С V (х*) + (AT g (*’) < V (х) + (А*)г g (х),
хеХ0, АеЛ0. (2.10)
Левое неравенство перепишем в виде
0<(Х' -X)rg(x*). (2.11)
Поскольку (2.11) справедливо для всех X > 0 (в частности,
для тех X > X*, у которых все координаты, кроме одной, совпа-
дают с координатами X*), то т. е. При
222
X = 0 из (2.11) получаем (K*)Tg(x*) > 0. Но V 5? 0, a g(x*)sC 0;
следовательно,
(Г)^(х‘) = 0. (2.12)
По условию для всех х е X имеем g(x) 0, и поэтому
(Пг^(х)<0. (2.13)
Из правого неравенства в (2.10) с учетом (2.12) и (2.13) по-
лучаем, что для всех хе X имеет место неравенство
У(х’)< Г(х) + (Г)7§(х)<Т(х).
Поэтому х* — arg inin V (х). Теорема доказана.
хе X
При решении детерминированных задач минимизации под
методом множителей Лагранжа обычно понимают следующий
метод:
^+i = arg min L(x, Хк),
хе X
Xk+l = n^,[Xk-}-akg(xk)], k = 0, 1......
где {afe}—некоторая последовательность неотрицательных чи-
сел.
При решении стохастических задач методом множителей Лаг-
ранжа, так же как и при решении их методами штрафных
функций, на k-й итерации (k — 0, 1, ...) делается лишь один
шаг псевдоградиентного метода в направлении убывания функ-
ции L(x, %k)-
Сходимость методов множителей Лагранжа обычно можно
гарантировать лишь в тех случаях, когда стационарная точка
функции Лагранжа является седловой точкой этой функции.
Здесь под стационарной точкой понимается такая упорядочен-
ная пара (х*, V), что
dL (х, %) [ =() dL (х, %) I
дх |(х, К)=(х„ Л*) ’ дк |(х, К)=(х*, Л#)
Упражнения.
1. Приведите примеры последовательностей внешних и внутренних штраф-
ных функций для случая, когда X — единичный гиперкуб.
2. Покажите, что если в (2.6) множество Хо выпукло, функции gi(x)
(i = 1, ..., Z) выпуклы, а функции gi(x) (i — I + 1, . ., т} линейны, то
функция (2.7) выпукла.
3 Решить методом множителей Лагранжа экстремальную задачу мини-
мизации квадратичной формы хТАх(х^ R", А > 0) при ограничениях атх — b
(а <= Rn, b е R).
§ 3. Поисковые алгоритмы
3.1. Сходимость поисковых алгоритмов. В данном пункте при-
веден результат, основанный на теореме 1.1, который позволяет
обосновать сходимость большого числа поисковых алгоритмов
экстремального планирования. Предполагается, как п в § 1, что
X R*.
223
Согласно п. 1.1, поисковыми называются алгоритмы вида
(1.1), в которых для вычисления направления движения Sk
кроме значений величин (1.2) используются только реализа-
ции случайных величин y(zi) (i= 1, /4-1) для некоторых
специальным образом выбранных точек zi, ..., Z/+i- Число то-
чек /4-1, используемых для вычисления может зависеть от й.
Рассмотрим общий алгоритм, которых охватывает большин-
ство известных поисковых алгоритмов. На й-м шаге этого алго-
ритма случайным или детерминированным образом выбирается
/ векторов qk\, qki н в /4-1 точках xk 4" •••
..., Xk + Uk+\qki вычисляются значения случайной величины у,
после чего полагается
i
Xk+i = xk + Yft+ I«fe+1 E {у (xk + ak+lqki) — у(xft)] qkt. (3.1)
1=1
Очевидно, что (3.1)—частный случай (1.1).
Теорема 3.1. Пусть выполнены условия (1.4), (1.5), (1.8), (1.10), и
пусть для любых х е X
*-0,1,... (3.2)
Е^Е (Аи)2}>М*112. *>0, (3.3)
I
< 00 /= t 2, , 6, (3.4)
^ki == 0’ ^kt^ki = 0’ ЕЙ* «С а2 < оо, (3.5)
Ц/ = У (Xk + ak+l^ki) ~~11 (Xk ^k+l^ki)* = У (Xk) “ (Xk)-
Тогда для алгоритма (3.1) с вероятностью единица выполняется равенство
lim inf || Vt) (xk) || = 0.
&->oo
Прежде чем доказывать теорему, поясним условия (3.2) — (3.5).
Условие (3.2) означает, что «длины пробных шагов» а* должны стре-
миться к нулю (а*->0, &->оо), причем быстрее, чем «длины рабочих ша-
гов» у*-
Условие (3.3) означает, что векторы Цы (i = 1, ..., /) имеют такое рас-
пределение, что для любого вектора х единичной длины (|| х || = 1) средний
квадрат проекции х хотя бы на один вектор ды отличен от нуля. Если век-
торы qki детерминированные, то условие (3 3) соответствует требованию пол-
ноты набора векторов р/ль ..., qki}, откуда следует, что / п, где п — раз-
мерность пространства X.
Условие (3.4) является чисто техническим условием конечности первых
шести моментов распределений случайных величин || qki II. Ясно, что всегда
можно обеспечить выполнение этого требования.
Условие (3.5) — это не требующее комментариев условие центрированно-
сти и ограниченности дисперсий ошибок измерений, а также некоррелирован-
ности Iki, qkt.
Из приводимого ниже доказательства теоремы следует, что алгоритм
(3.1), вообще говоря, не является псевдоградиентным, т. е. условие псевдо-
224
градиентности на некоторых шагах (в тех точках, в которых а* не мало по
сравнению с II Vt) (xk) II) может нарушаться. Тем не менее, при достаточно
больших k условие псевдоградиснтности выполняется, что позволяет приме-
нять для исследования этого алгоритма теорему 1.1.
Заметим также, что к теореме 3.1 легко могут быть сформулированы
следствия, аналогичные следствиям 1.1, 1.2 (сформулируйте!) теоремы 1.1.
Доказательство теоремы 3.1. Используя (3.3) — (3.5), (1.13) и
вид алгоритма (3.1), имеем
{/ ч
Е h (хк + %+№) - (хЛ Hi Н
1=1 )
= Е { Е I ((^ (**)/ + «Л+1 h (xk + %-м^) -
- Ч (xk) - “fe+i [Vti J (Vr> (xk))T ? J} > 4 Vt> wii2 -
z
- 4 Lak+1 e EI o711 (xk»T qki i и qM ii2 > ii (xj ii x
Z = 1
X (^ || Vn (XJ || 2~La3afe+l)’
Из полученной оценки видно, что в тех случаях, когда а* мало по срав-
нению с II Vr) (xk) II, выполняется условие псевдоградиентности (1.6). Далее,
ЕII ч ii2 < a*+iЕ { Е [(п (ч + %+ ^ki) - ’i (xJ)2 + И ii ii2} <
/ \
+ 2a’a^, E У || qk. |p I < 2a41| Vi, (xfe) |p + -L a6l?al+1 + 2аЧаГ+1 -
Z = 1 /
Рассмотрим те реализации алгоритма (3.1), для которых
II Vr) (х^ II 8 > 0 при всех k — 0, 1, ... (3.6)
При k настолько больших, что
afe < min {в,
имеет место неравенство
Iwjf е ч > и (ха) и (ч (xft) и - 4Хв)> 4х ii 1^
поэтому для рассматриваемых реализаций при достаточно больших k
е IIМ2 < 2<T4afe+i + (2a4 + 4 a6£2) IFn (xk) II2-
Следовательно, для этих реализации выполняются (3.6) и (1.7) с
A,ft=2<T2a2/a* + l. К,=0. К2 = (4а4 + 2-2а6)/Л.
Очевидно, что из (3.2) следует (1.9).
Таким образом, для тех реализаций алгоритма (1.1), для которых вы-
полнено (3.6), можно использовать теорему 1.1, из которой получаем, что
8 с. М. Ермаков, А. А. Жиглявский 225
при условии (3.6) с вероятностью единица выполняется равенство
Но по доказанному выше
II *»(**) ||<(2/Х) [Vn(xft)lrESfe,
т. е. при выполнении (3.6) с вероятностью единица выполняется равенство
»minf|pn (4) 11 = °-
Следовательно, (3.6) выполняется с вероятностью нуль. Это эквивалентно
утверждению теоремы. Теорема доказана.
3.2. Примеры поисковых алгоритмов. Рассмотрим некоторые
частные случаи алгоритма (3.1).
Пример 3.1. Несимметричный вариант алгоритма Кифе-
ра — Вольфовица: I = п, ды — (i = I, •.., n)— орты, т. e. ко-
ординатные векторы ef=(0,0, ..., 0,1,0, ..., 0)г.
Пример 3.2. Симметричный вариант алгоритма Кифера —
Вольфовица: / — 2п, qki = et (/ = 1, ...,n), qkt =—et (i —
= n + l, ..., 2n). При реализации несимметричного варианта
алгоритма Кифера — Вольфовица требуется приблизительно в
два раза меньше значений случайных величин у(х) на каждом
шаге, чем при реализации симметричного варианта, но оценка
градиента, получаемая на каждом шаге последнего, точнее.
Пример 3.3. Случайный поиск с односторонней пробой:
1= 1, случайный вектор qki равномерно распределен на единич-
ной сфере.
Пример 3.4. Случайный поиск с парной пробой: I = 2, слу-
чайный вектор qk\ равномерно распределен на единичной сфере
qk2 — —qk\-
Пример 3.5. Алгоритм стохастического /-градиента: 1
/ ^ n, qki — случайные ортонормированные векторы; которые
обычно получают с помощью процедуры ортогонализации не-
зависимых, равномерно распределенных на единичной сфере
случайных векторов. Достоинства алгоритма стохастического
/-градиента при малых / наиболее ярко проявляются в тех зада-
чах, в которых п велико.
Пример 3.6. Случайный покоординатный подъем: I = 1,
qk\ = et с вероятностью pki > 0 I i = 1, ... , п, У pki = 1 ).
X t = l /
Рассмотренные алгоритмы могут быть подвергнуты некото-
рым преобразованиям. Так, вектор, определяющий направление
движения, можно умножить на произвольную положительно оп-
ределенную матрицу единичной нормы. Нетрудно понять, что
условия сходимости преобразованного указанным образом алго-
ритма не меняются.
Можно также осуществлять изменение лишь в том случае,
когда значение y(xk+\) больше, чем вновь измеренное y(xk), т. е.
осуществлять случайный поиск с возвратом при неудачном шаге.
226
Можно из векторов qkb ..., qki выбирать только тот, для кото-
рого величина
y(xk + ak+iqki) — y(xk)
максимальна, т. е. проводить случайный поиск с наилучшей про-
бой. Можно вместо разности
y(xk + ak+lqkl)~ У(хк)
учитывать только ее знак.
. 3.3. Рандомизованные алгоритмы планирования экстремаль-
ных экспериментов для недифференцируемой функции регрессии.
Если функция т|(х) недифференцируема (и, возможно, разрыв-
на), то большая часть алгоритмов поиска ее максимума, рас-
смотренных в настоящей главе, не обязана сходиться.
Ниже рассмотрен основанный на сглаживании исходной функ-
ции способ построения алгоритмов поиска ее максимума. Для
сходимости некоторых из этих алгоритмов предположение о
дифференцируемости функции г] не является обязательным.
Пусть имеется заданная на X = R" функция г| (х), и пусть
h(x)—непрерывно дифференцируемая плотность распределения
на R", удовлетворяющая условию || х || h (х) dx < оо. Сглажен-
ной будем называть функцию
г) (х, р) = ^(хЭМх — f>x')dx', (3.7)
где р > 0 — фиксированное число, называемое параметром сгла-
живания.
Замена переменных в (3.7) позволяет записать f|(x, Р) в виде
т)(х, р) = р-"$/г(-^р-)т](гМ2. _ (3.8)
Rn
Из (3.8) следует, что функция fj (х, р) дифференцируема пох:
Vxf|(x, p) = -A-fj(x, р) =~- р~" -^-h ( х ~ ) rj (z) dz =
Rrt
= р- (п+n v/z (-£=*-) т] (z) dz = J V/г (г) (х — pz) dz. (3.9)
Rn R*
Легко понять, что функция fj(x, Р) не менее гладкая, чем Л(х).
При малых р функция fj (%, Р) хорошо приближает ц(х), а
функция Vxfj(x, Р) — градиент этой функции Vt](*).3to следует
из двух лемм, приведенных нцже.
Лемма 3.1. Если с{ = ft(z)||z|]dz < оо, функция т] не-
r"
прерывна в точке х и растет из нее не быстрее линейной (т. е.
I ц (х) — т] (г) | L || х — z || для всех z <= X, где L < оо), то
|f)(x, P)-nWI = O(P)> Р-0. (3.10)
а*
227
Доказательство.
| f| (х, P) — T] (x) | =
h (z) [r] (x — 0z) — r) (x)] dx <
IA (z) 11 я (X — pz) — T) (x) | dz < h (z) L || 0z If dz =
r" R"
= £0 J/i(z)||z||dz = CiLp = O(p), p->0.
r"
Лемма доказана.
Из утверждения леммы вытекает, в частности, что если функ-
ция я удовлетворяет условию Липшица на множестве X и
Ci < оо, то (3.10) имеет место для всех точек хе X.
Лемма 3.2. Если Cj < оо, функция я дифференцируема и
ее градиент удовлетворяет условию Липшица, то
НУхШ р)-Уя(х)||=О(р), р->0.
Доказательство. Дифференцируя обе части (3.7) по х,
получаем
V* Я (х, р) = р-1 VA (z) я (х — 0z) dz = ( h (z) ?я (* — Pz) dz.
r"
Утверждение леммы доказывается повторением выкладки, про-
веденной при доказательстве предыдущей леммы, с заменой
я(х) на Уя(х). Лемма доказана.
Тот факт, что в точках дифференцируемости т] (х) имеет место соотношение
(х, 0)-> ?я (х). ₽-*0.
справедлив и без предположения о дифференцируемости функции п на всем
множестве X. Действительно, одно из свойств обобщенных функций состоит
в том, что если функция f(x, р) зависит от параметра р и стремится при
Р —> 0 к некоторой обобщенной функции а(х), то производная от нее по х
(т. е. df(x, р)/дх) при р->0 стремится к производной от о(х).
В нашем случае эго означает, что если
я (X, Р)-»я(х), (3.11)
т. е. lim Р“"Л ( —-5—) = б (х — г) (б — дельта-функция), то
₽->о \ р /
г V Р ' дб(х-х)
Р дх дх ’
По определению производной от дельта-функции для любой дифферен-
цируемой в точке х функции f имеем
Ь (г) дЬ(Хд~21
J их
Поэтому P)-*Vt)(x) при р->о в точках дифференцируемости nW
в случае выполнения (3 11).
Заметим, что из леммы 3.1 следует, что (3.11) выполняется при весьма
неограничительных условиях.
228
Пусть р > 0 фиксировано. Легко построить поисковый алго-
ритм отыскания стационарных точек функции f| (х, р), т. е. таких
точек Хр, в которых Р) = 0- Действительно, несмещен-
ной оценкой градиента Vxf) (х, Р) является
s(х, Р, N) = (х - рх/),
где N 1, X/ (/ = 1, ..., W)—независимые реализации слу-
чайного вектора, имеющего распределение с плотностью р(х),
которая положительна во всех точках х^Х или только в тех,
в которых ||V/i(x)||¥= 0.
Используя это, алгоритм отыскания точек хр можно построить
следующим образом:
Xh+i — Xk + 'Vk+iStXk’ Р> Ю- (ЗЛ2)
Для обоснования сходимости этого алгоритма к одной из точек
хр можно применять теоремы 1.1, 3.1. Отметим, что из указан-
ных выше свойств сглаженных функций вытекает, что при ма-
лых р точка хр близка к одной из стационарных точек функ-
ции ip
Если вместо алгоритма (3.12) рассматривать
xk+i = xk + yk+is(xk, рА, N), (3.13)
где р* -> 0 (£—>-оо), то легко понять, что (3.13)—типичный по-
исковый алгоритм отыскания стационарной точки функции т|, и
для его исследования можно использовать теорему 3.1. При
этом для обеспечения сходимости алгоритма (3.13) придется на-
лагать условия гладкости на функцию т).
3.4. Симплексный метод. Хотя формально симплексный ме-
тод является типичным поисковым алгоритмом, он заслуживает
отдельного рассмотрения по двум причинам: во-первых, наряду
с методом крутого восхождения он является одним из наиболее
широко используемых методов экспериментальной оптимизации
и, во-вторых, представляет собой яркий пример метода, сходи-
мость которого обосновать не удается.
Суть метода состоит в том, что движение к максимуму функ-
ции т), заданной на X — Rn, осуществляется последовательным
отражением вершин симплекса.
По определению n-мерный симплекс представляет собой мно-
гогранник, образованный п+1 точками (вершинами), кото-
рые не принадлежат одновременно ни одному подпространству
меньшей размерности. Симплекс называется регулярным, если
расстояния между его вершинами равны.
Наиболее простым вариантом симплексного метода является
так называемый последовательный симплексный метод, предло-
женный в начале 60-х годов ц использующий зеркальное отра-
229
жение регулярных симплексов относительно граней, противопо-
ложных вершинам, в которых значение случайной величины у
наименьшее. Многократное отражение симплекса приводит к
шаговому движению центра симплекса к цели по траектории не-
которой ломаной линии.
Введем матрицу размера п Х(/г + 1):
го о
Рп Яп
Яп Рп
о -
Яп
Яп
_Яп Яп ••• Рп _
Здесь
’•=7?F(V'‘+1-1)| +"-1)-
Координаты Zij (i = 1, ..., п\ j = 1, ..., п + 1) вершин
Zj (/= 1, ..., n + 1) регулярного симплекса с длиной ребра
L = 1 определяются строками матрицы А. При этом вершина zi
будет в начале координат, а векторы, соответствующие верши-
нам г2, ..., 2п+ь составят одинаковые углы с координатными
осями.
Координаты вершин регулярного симплекса с длиной ребра
L = 1 и центром в начале координат определяются строками
матрицы
— Г1 — г 2 — Гз ... — t'n — l — ГП~ Rl —Г2 —Г3 ... —Г —гп 0 R.2 — Гз ... fn—l — Гп 0 0 0 ... 0
где
rz = (2t(Z+ I))"1'2, Ri = ixli(2{i+ 1)Г1/2, Z=l, ...,п.
Величины п и Rt (i=l, .п) представляют собой радиусы
вписанной и описанной сфер для /-мерного регулярного симп-
лекса с длиной ребра L = 1.
Если требуется построить регулярный симплекс с длиной
ребра L =# 1 и центром (вершиной) в точке х0, отличной от на-
чала координат, то координаты вершин одного из двух указан-
ных симплексов подвергаются очевидному линейному преобра-
зованию: сначала к ним прибавляются соответствующие коор-
динаты точки хо, а затем полученные величины умножаются наЛ.
Алгоритм последовательного симплексного поиска состоит
в следующем.
Алгоритм 3.1.
1) Строим регулярный симплекс So, полагаем k = l.
2) Проводим измерения в вершинах симплекса So.
3) Выбираем наименьшую величину у/ из результатов изме-
рений yi, ..., уп+\ в вершинах симплекса S^-i.
230 ‘
4) Строим симплекс S* путем замены точки zi, в которой
было получено значение yi, новой точкой z'r координаты кото-
рой равны
«+1
= -f-2/i~1)z.p 1=1, . ..,п+1
(точка z'i с координатами z'a является зеркальным отражением
точки zi относительно противоположной грани симплекса
5) Проводим измерение в точке г', получаем у\.
6) Если у\< yt (Z = 1, ... , I — 1, I + 1, ... , n + 1), то в
качестве zi выбираем вершину симплекса S*_i, соответствующую
второму по величине значению из набора {7/1, yn+i}, и пере-
ходим к шагу 4).
7) Если & > n + 1 и на предыдущих и + 1 итерациях наи-
большее значение в наборе {у\, ..., yn+i} оставалось одним и
тем же, то повторяем измерение в точке, соответствующей наи-
большему значению.
8) Заменяем k на k + 1, yt на у\ и переходим к шагу 3).
Очевидно, приведенный метод не сходится к точке макси-
мума функции т). Тем не менее богатый практический опыт по
использованию этого метода для поиска максимума одноэкстре-
мальных функций показывает, что с его помощью удается доста-
точно быстро отыскивать область максимума (и отслеживать
ее, если функция г] нестационарна) при решении многих задач,
в которых измерение контролируемых переменных х^Х может
проводиться с ошибкой, а случайные величины у, вычисленные
в разных точках х, могут быть зависимы между собой и зави-
сеть от времени.
Отметим, что ограничения типа неравенств при проведении
симплексного поиска учитываются очень просто: вершины, не
удовлетворяющие ограничениям, отбрасываются.
Постоянный размер симплекса не обеспечивает одновременно
высокую скорость движения симплекса в начале поиска и точ-
ность отыскания экстремума в его конце. Поэтому обычно раз-
меры симплекса уменьшают с ростом номера шага.
Приведем одну из типичных модификаций последовательного
симплексного метода, в которой размер симплекса на каждом
шаге уменьшается.
После отражения симплекса на каждом шаге выбирается
вершина, в которой случайная величина у приняла наибольшее
значение, начало координат переносится в эту точку, после чего
координаты остальных вершин преобразуются по формуле
z'z = Lkzti, j — 1, ... , п + 1,
где k — номер шага, {Lk}—последовательность чисел, опреде-
ляющая закон изменения длин ребер симплексов. Поскольку
обычно выбирают 1 и предполагают, что функция т] до-
статочно медленно меняется, значения случайной величины у
231
для вершин нового симплекса не вычисляют, а используют зна-
чения этой случайной величины в соответствующих вершинах
старого. Исключение составляют те вершины нового симплекса,
в которых (или им соответствующих) в течение п + I предыду-
щих шагов значения у не вычислялись; в этих вершинах вычис-
ляются значения у. Таким образом, на каждом шаге, кроме ну-
левого, требуется в среднем лишь немногим более одного вы-
числения значений у. Последовательность {Lk} и цлипа ребра
начального симплекса выбираются из априорных соображений
о желательной скорости движения симплекса на начальном и
конечном этапах поиска.
Симплексный поиск обладает тем свойством, что изменение
длины шага в направлении псевдоградиента однозначно свя-
зано с изменением интервала варьирования, или «длины проб-
ного шага» а*. Отсюда следует, что условие (3.2) не выполняет-
ся, и поэтому теорема 3.1 неприменима. Более того, неприме-
нима и любая другая из известных теорем о сходимости поис-
ковых алгоритмов в достаточно общих постановках задачи
экстремального планирования (легко понять, что экстремальную
задачу можно сузить настолько, что любой метод оптимизации
будет сходиться). По-видимому, при наличии случайных оши-
бок измерений и при достаточно общих предположениях о функ-
ции регрессии симплексный метод не обладает гарантированным
свойством сходимости.
3.5. Метод крутого восхождения. Этот метод разрабатывался
и применялся для решения задач оптимизации реальных объек-
тов и процессов, и поэтому имеет специфические особенности,
хотя и может быть рассмотрен с общих позиций (см. п. 3.1).
Суть метода крутого восхождения состоите следующем. Последо-
вательно проводятся небольшие серии измерений (вычисляются
значения случайной величины у в специальным образом опреде-
ленных точках факторного пространства X). Серии, в каждой
из которых по определенным правилам варьируются все фак-
торы (контролируемые переменные), организуются таким обра-
зом, чтобы по результатам проведенных измерений можно было
легко оценить градиент в некоторой точке. В направлении оцен-
ки градиента проводится еще несколько измерений, после чего
выбираются условия проведения следующей серии эксперимен-
тов. Так последовательно достигается область экстремума, в ко-
торой серия обычно планируется таким образом,- чтобы можно
было оценить коэффициенты квадратичной модели истинной за-
висимости т| в окрестности точки экстремума.
Предположим, что мы хотим по результатам серии измере-
ний в точках х', ... , x'N случайной функции у(х) оценить гра-
диент Vr)(xo) функции регрессии т)(х) = Е#(х) в некоторой точке
х0 е X = R". Пусть Af > п и точки х', ... , x'N таковы, что они
не лежат в линейном подпространстве R" размерности п— 1 или
меньше. Кроме того, пусть эти точки находятся в настолько ма-
232
лой окрестности S точки х0, что в ней можно предполагать ли-
нейную зависимость функции т|(х) от х:
я(х) ~ il(xo) + [Vn(xo)]rU —*о), xeS.
Положим Ху == Ху —х0 (/= 1.......N). Координаты точек х/
обозначим через x/(t) (< = 1, ..., п).
Тогда для результатов измерений *// = «/(*/ +*о) прибли-
женно справедлива линейная регрессионная модель
У! = b0 -F £ btxt («) + е/( /=1, ...,N, (3.14)
где Ееу = О, *0 = 'п(х0), (Ьи .... bn)T = Vn(х0), b0, Ь{.bn
— неизвестные параметры регрессии.
Положим
-1 *1(1) ... xt(n)'
р__ 1 *2 (1) ... х2(п)
-1 X (1) ... XN(n).
'У (*1) '
У (х2)
-//(*„)-
Из результатов § 1 гл. 1 вытекает, что МНК-оценка £=(й0,
йр .... Ьп)т параметров b = (6о, • • •, Ьп)т является наилучшей в
множестве линейных несмещенных оценок. Исходя из этого, гра-
диент Vr](xo) = (6i, •••> Ъп)т в стандартных вариантах метода
крутого восхождения оценивается вектором (Ь\, .... &„)г.
Как правило, в методе крутого восхождения план проведе-
ния серии измерений выбирается таким образом, чтобы он был
симметричен относительно центра проведения измерений, т. е.
У, х, (/) = 0, i = 1, ... , п,
/-1
и ортогонален, т. е.
У, х, (t) х, (l) = Q, i^=l, i, 1=1, 2, ... , n,
/-I
Если план |={xi.........xw} выбран в таком виде, то матрица
FTF диагональна, и вычисление вектора Ь не представляет за-
труднений, что важно в тех случаях, когда вычисления прово-
дятся без помощи ЭВМ. Более подробно вопросы планирования
эксперимента по оцениванию параметров линейных регрессион-
ных моделей вида (3.14) рассмотрены в § 1 гл. 4.
Если все переменные х(1), ..., х(п) варьировать на двух
уровнях: x(i)=±a( (ai > 0 выбираются, исходя из априорных
соображений), то в силу симметричности плана g, его ортого-
нальности и того, что .£ [xz(i)j2 — (i=l, , п), полу-
233
чаем очень простые формулы для оценок:
N N
йо = Лг“1 Е i/U/), bi — N~' Е *=1»
/=1 /-1
В качестве плана проведения серии измерений часто выбирают
либо полный факторный эксперимент (это означает, что изме-
рения проводятся в 2п точках (±аь ±а^ ..., ±аи)г), либо
дробные реплики от него (см. гл. 2). В этих случаях метод
крутого восхождения называют также методом Бокса — Уилсона.
Для того чтобы определить центр проведения новой серии
измерений, обычно (см. также п. 4.1) в направлении оценки гра-
диента Vt](xo) выбирается последовательность точек vi е X (i =
= 1, 2, ...), расположенных на равном расстоянии друг от
друга, и вычисляются y(vt) (i=l, 2, ...) до тех пор, пока не
выполнится y(v}) < Точку u/-i принимают за центр но-
вой серии экспериментов.
Если норма оценки градиента функции регрессии на каком-
то шаге мала или если после проверки гипотезы о значимости
каждого коэффициента bi (i = l, ...» п) регрессионной модели
(3.14) при помощи критерия из п. 1.5 гл. 1 оказывается, что все
они незначимы, то считается, что достигнута область экстре-
мума. После достижения области экстремума план первого по-
рядка обычно достраивается до плана второго порядка, оцени-
ваются коэффициенты квадратичной модели и экстремум функ-
ции регрессии аппроксимируется экстремумом указанной мо-
дели. При необходимости квадратичная модель строится не один
раз, а несколько—каждая следующая в более узкой области.
Таким образом, специфическими чертами, отличающими ме-
тод крутого восхождения от других поисковых алгоритмов, яв-
ляются: а) проведение статистического анализа получаемых
экспериментальных данных (в том числе линейного регрессион-
ного анализа для построения линейной или квадратичной мо-
дели функции регрессии); б) специфический выбор плана экспе-
римента на каждом шаге (критериями выбора плана могут быть
ортогональность, ротатабельность, простота построения, бли-
зость плана к насыщенному, оптимальность); в) выбор направ-
ления движения в соответствии с построенными регрессионными
моделями (в частности, в качестве направления движения часто
выбирается оценка градиента функции регрессии в заданной
точке); г) выбор длины шага как случайной величины (по пра-
вилам, описанным выше и в § 4).
Рассмотрим теперь вопрос о сходимости метода крутого вос-
хождения. Предположим, что метод состоит в том, что на каж-
дом шаге движение происходит в направлении оценки градиента
функции регрессии, а длина шага выбирается следующим обра-
зом. Фиксируется некоторая последовательность положительных
чисел {у*} и целое число Af > 0. Пусть Sk — направление движе-
ния на k-м шаге, ||sj|= 1, xk — центр k-й серии измерений. Вна-
234
правлении s* из точки xk проводится не более W измерений в
точках
xk + Nk+iSk’ xk + 2yk+isk, , xk + jyk+isk
до тех пор, пока не выполнится неравенство
y(xk + {i + 1) Yfc+isfc) < y(xk + *Yfe+i5fc)> (3.15)
где 1 i N, y(xk+(N + 1)тан-1$£) = —00, и центр новой се-
рии измерений переносится в точку
xk+\ = xk + iNk+iSk. (3.16)
Спецификой метода крутого восхождения является, в ча-
стности, то, что длины шагов — случайные величины. Поэтому
теорема 3.1 прямо неприменима. Запишем метод крутого вос-
хождения в виде (3.16) или, что то же самое, в виде (1.1) с за-
меной Sk на isk- Заметим, что 0 < а ^||$&||^ А < оо (я=1,
A = N) с вероятностью единица и что в этом случае условия
сходимости алгоритма (1.1) полностью идентичны условиям схо-
димости алгоритма
xk+\ = xk + Vk+ iM sk II.
Отсюда следует, что условия сходимости метода (3.16) те же,
что и метода
xk+i = xk + Yfc+iSb
сходимость которого можно обосновать с помощью теоремы 3.1.
Упражнения.
1. Выпишите условия сходимости описанного в п. 3.4 стандартного ва-
рианта метода крутого восхождения.
2. Пусть номер шага k и точка Xk в алгоритме (3.1) фиксированы. Сфор-
мулируйте план эксперимента, используемый на k-м шаге несимметричного
варианта алгоритма Кифера — Вольфовица. Покажите, что при условии аде-
кватности линейной модели для функции регрессии в кубе (шаре) с центром
в точке Xk этот план не является непрерывным D-, А- и Q-оптимальным. По-
стройте алгоритмы вида (3.1), в которых на каждом шаге используются пла-
ны эксперимента, оптимальные в указанных смыслах.
§ 4. Выбор длины шага и направления движения
в методе крутого восхождения
4.1. Выбор длины шага. Предположим, что проведена серия
измерений в окрестности некоторой точки х/г (без ограничения
общности считаем xfe = 0) и выбрано направление дальнейшего
подъема. Полупрямую, на которой будет выбираться центр но-
вой серии экспериментов, запишем в параметрическом виде:
х = М, где
;>о, л = (х1( ..., х„)г, ||М1=1.
Если движение происходит в направлении оценки градиента $ =
= (6i, . ..,ЪЛ)Г функции т) в точке нуль, то X/ = НМ"1; t —
расстояние о г х до точки нуль.
235
Пусть задана некоторая возрастающая последовательность
чисел /2.......зависящая, возможно, от номера серии экспе-
риментов. Примем обозначения: y(i) = y(Xti), л(0 = Л(М<) (i =
= 1,2, ...).
Самое простое и наиболее распространенное при расчетах на
ЭВМ правило выбора нового центра экспериментов x = xk+i со-
стоит в том, что полагают х = ХЛ (см. § 1—3). При использо-
вании метода крутого восхождения обычно используют другое
правило: вычисляют y(i) (i— 1, 2, ...) до тех пор, пока не вы-
полнится условие
y(i+l)<y(j), (4.1)
и полагают х =
Описываемое ниже правило выбора длины шага (или, что
то же самое, нового центра проведения экспериментов) состоит
в следующем. Вычисляется y(i) (/=1, 2, ...) до первого вы-
полнения неравенства (4.1), после чего проводится еще не-
сколько измерений г/(/ + 2), #(/ + 3), ... до тех пор, пока при
некотором / ^5 2 не выполнится неравенство либо #(/ + /)^
^y(j)— а> либо y(j + /)^ //(/) + а. В первом из указанных
случаев полагаем х = М}-, во втором продолжаем измерять у
в точках Xti до тех пор, пока снова не выполнится (4.1), после
чего поступаем аналогично.
Приведенный способ выбора длины шага основан на по-
следовательной проверке статистических гипотез с целью опре-
деления такой точки вида /Д, что при t>ti функция ф(/) =
= т)(/Л) убывает. Опишем этот способ более формально. Поло-
жим
ia = ®> im = mrn{i = im-i+ 1, im-i + 2, ... |z/(z + 1)< y(t)},
m^l.
Построим статистическую процедуру проверки двух гипотез:
Нт' Л (^) Л (4п)» @т’ Т] (ZA.) < Т) (zm),
где t > tim, t близко к tim.
Проверка этих гипотез проводится с целью выяснения, про-
изошло ли уменьшение вычисленного значения у вследствии
того, что л(ьп + 1 )< лО'т), или благодаря случайной ошибке.
Для дискриминации указанных гипотез в точках tik (i >
> im + 1) проводится еще несколько вычислений у. Положим
(т 1 фиксировано)
Ui=*y(im + i) — y(lm), i=l, 2, ...
При каждом i = 2, 3, ... принимается гипотеза Нт, если
Ui а\ принимается Gm, если щ —а; проводится новое на^
блюдение в точке Ktim+i+i, если —а < щ < а. Здесь а 0 обо-
значает число, значение которого определено ниже.
236
Если гипотеза Нт отвергается, то полагаем Yfe+i —Если
эта гипотеза принимается, то считаем, что выполнение неравен-
ства y(lm + 1)< y(im) произошло благодаря случайной ошибке,
а функция регрессии в выбранном направлении пока увеличи-
вается. Поэтому продолжаем наблюдать y(i) до момента /т+ь
после чего проделываем аналогичную процедуру.
Последовательная проверка гипотез и проведение измерений
в выбранном направлении продолжается до тех пор, пока при
некотором т = 1, 2, ... не будет отвергнута гипотеза Нт.
Будем предполагать, что функция регрессии т](х) унимо-
дальна, а ошибки измерений &i = y(i)—ц(/)—взаимно незави-
симые случайные величины, имеющие одинаковое симметричное
распределение Р(ах) с непрерывной функцией распределения
F(t).
Оценим сначала вероятность ошибки первого рода при про-
верке гипотез Нт.
Лемма 4.1. Для приведенной процедуры проверки гипотезы
Нт для вероятности ошибки первого рода ат (отвергнуть гипо-
тезу, когда она верна) справедливо неравенство
am<a= 1 + F (z - а) -I(z + а)
причем ат = а при т] (х) = const.
Доказательство. Положим
Ai = {— а < и{ < a}, Bi = {ut^, — a}.
Тогда
ОО р-1
= Р {отвергнуть Hm | Нт} = Д Р | Д Л Bt I Н,п| <
ОО /J—i Ч
< Д Р|П2ЛЛв/|Ят, Т) (х) = const? =
оо оо х г—2 2—а
= £ Ц $ p(d«>) $ P(dt)P(dz) =
i=2 —оо \z—а ' —оо
F(z-a)P(dz)
x_[F(z + a)-F(z-a)] a‘
Лемма доказана.
Лемма 4.2. Пусть Nt — число наблюдений, требуемых для
проверки i-й гипотезы (t = 1,2, ...), т — число гипотез, требуе-
т
мых для того, чтобы впервые отвергнуть Hb У = АД — об-
щее число наблюдений, проводимых до того момента, когда
237
будет впервые отвергнута Нт. Тогда
оо
ЕI Л' | „ (х) - const) = I + $ •
— ОО
Доказательство.
( х 1
Е {W11) (х) = const} = Е ) Ni | ii (х) = const г “
М = 1 )
= Е {т | г| (х) = const} Е {ЛГ11 т) (х) = const}
(последнее равенство следует из того, что всеЕ {N{ | rj (х) = const}
равны). Используя определение а, имеем
Е {т | к) (х) = const} = У, i (1 — а)*"1 а = 1/а.
i-i
Далее
Е {Ni | т) (х) = const} =
= Д1 [Р {—a<Uj< a (j = 2........г — 1), | щ | > а}] =
оо xf—1 \ 00 оо .2+а \ i—2
= АЛ/ПЛг1 = Уг U P(du)] [1 — Р (At)]dF (z) =
i=2 L/=2 ) i~2 -oo\z-a /
OO oo
= £> $ [Р(2 + а)-Р(г-а)]1~2[1-Р(г + а) + Р(г-а)]Х
—oo
00 / 00 \
X^(z)=l + J <£z[F(z + a)-F(z-a)]‘-4x
-00 M = 1 '
oo
x[l_F(2 + <I) + F(2_aW(x)=l+ J —
— OO
Лечима доказана.
Положим
t(a) = E<JV П HA,
Ф (a) = E
суть средние числа измерений при условиях, что функция регрес-
сии не убывает и не возрастает. Очевидно, что ф(а) и ср (а) воз-
растают с ростом а, а в случае т](х) = const достигают экстре-
мальных значений (соответственно максимального и минималь-
ного).
Если величина а мала, то будет мало значение ф(а), что
обычно нежелательно; если же а велико, то велико и значение
<р(а), что плохо.
238
Если в качестве критерия для выбора а использовать сред-
нее число измерений вдоль выбранного направления, то, учиты-
вая сказанное, естественно а задавать из условия
Е {АП т) (х) = const} = у, (4.2)
где у — заданное число, являющееся минимальным (по возмож-
ным функциям регрессии) средним числом наблюдений при ус-
ловии, что функция регрессии не убывает.
Для любой функции регрессии выполнено неравенство
ф(а) у ф(а), и, следовательно, задание величины а через
соотношение (4.2)—это задание нижней границы для ф(а) и
верхней для ф(а).
При решении практических задач наиболее естественный вы-
бор у — от 5 до 20. Конечно, этот выбор должен быть согласо-
ван с трудоемкостью алгоритма вычисления направления движе-
ния: средние числа вычислений функции регрессии, требуемые
для определения Sk и у^, должны быть примерно одинаковыми
(во всяком случае, иметь один порядок).
Задача определения а из условия (4.2) сводится к решению
относительно а уравнения
dF (z)
1 - F (z ч- a) + p (z - a)
F(z-a) dF (z)
1 - F (z + a) + F (z - a) I — Y‘
(4-3)
Это уравнение можно аналитически решить лишь для про-
стейших видов функции распределений F (см. пример 4.1).
В остальных случаях нужно использовать ЭВМ или выбирать а,
руководствуясь только интуитивными соображениями.
Пример 4.1. Пусть у> 4 и F{t}
промежутке [—Ь, 6], т. е
имеет равномерное распределение на
(°,
dF (z) = 4 1/(26),
(о,
Отсюда
( 0,
F(z) = < (z + b)/(2b),
( I
( °’
F(z-a) = -{ (z - a + b)/(2b).
I L
( 0,
F(z4-a)=J (z 4- a + 6)/(26),
l I»
b — а
239
Предположим, что у > 4. Тогда из (4.2) следует, что а < Ь. Числитель
в левой части (4.2) равен
1 +
(26)“‘ dz
I - (z + а 4- Ь)/(2Ь)
Ъ-а
С (26)"1 dz
} 1 - (Z 4- а + b)/(2b) + (2-а + Ь)/(2Ь)
а—Ъ
b а-Ь
Г (2b)~l dz _ ] I С dz ।
J 1 - 1 + \z - a + b)/(2b) “ 1 + J (b-a)-z +
b—a — b
dz
2 (b — a)
b
dz -2 12 dZ ’ =
z-\-(b — a) J z 4“ (b — a)
b—a
n f . . . 2b — a
-2l + П 2(b-a
Аналогично вычисляя знаменатель в левой части (4.3), получаем, что он ра-
вен 1/2.
' Таким образом, уравнение (4.3) принимает вид
, 2Ь — а \
Ч1 + 1П2(^))=У-
Решая его, получаем
а = 2Ь [1 - - 1)].
4.2. Оптимальный выбор направления движения. В алгорит-
мах вида (1.1) в качестве s = Sk часто выбирают направление,
совпадающее с оценкой (если возможно, то несмещенной) гра-
диента 0 = Vr](x*) функции rj в точке xk (далее считаем xk =0,
||s||=l). Это обосновано тем обстоятельством, что при соот-
ветствующих условиях гладкости на т] в направлении $ = 0/||0||
(где 0 — несмещенная оценка градиента 0 =Vr](x/e)) средняя
скорость возрастания функции регрессии т) максимальна. Од-
нако за счет того, что направление движения s — случайный век-
тор, функция регрессии в направлении s с некоторой вероят-
ностью может убывать, что с практической точки зрения крайне
нежелательно.
Условие возрастания функции г] в направлении s может быть
записано следующим образом:
-g- (Х<*>) = [Vr) (х(*>)]т s==0rs> 0.
Поэтому вероятность возрастания т) в направлении s равна
p{4r(x(ft))>o} = p{sr0>°} (4.4)
и представляет собой естественный критерий оптимального вы-
бора направления движения, который следует максимизировать
no s при 0 — 0И — истинном значении 0 (или, если возможно,
при всех 0 =/= 0).
Далее предполагается, что в N 2=г 1 точках z\...zw, при-
надлежащих некоторой достаточно малой окрестности нуля и
имеющих координаты z/(i) (/ = 1, •••> N, t = 1...п), вычис-
лены случайные величины
y(z,)==0o + 0rz,-j-ep (4.5)
где 8/ — взаимно независимые, одинаково распределенные слу-
чайные величины (Ее/ = 0, De/ = o2), а направление движения
s выбирается в виде
' я = $(4) = 4У, (4.6)
где
^ = (Z/(zi)...y(zN))T,
st' — множество матриц порядка n\N. Для простоты положим
0о = О.
Условие (4.5) означает, что постулируется линейная модель
регрессии, а (4.6)—что направление движения s выбирается
в множестве линейных статистик.
Если N>n и A = BFT, где Г = ||*/(0
гN 11
В = const £ Z/Z/| (4.7)
L/-1 J
(т. е. матрица В пропорциональна дисперсионной матрице оце-
нок параметров 0 линейной регрессионной модели (4.5)), то на-
правление движения, определяемое по (4.6), совпадает с на-
правлением вдоль оценки градиента, получаемой по методу наи-
меньших квадратов (такой выбор направления стандартен для
метода крутого восхождения).
Таким образом, рассматриваемая задача состоит в нахожде-
нии статистики
s* = arg max Р {sr0 > 0} (4.8)
seS
для всех 8 g R" при условиях EK = F0, DK = o2IN, где S — мно-
жество статистик, записываемых в виде (4.6).
Отметим, что вероятность (4.4) не зависит от ||$|| и ||0||, и
требование ||s||= 1 налагается только для обеспечения един-
ственности оптимального направления.
Положим
/ (Д) = / (Д, 0) = 0rs (Д), % (Д) = X (Д, 0) =
= [/(д)-е/(Д)]/7БЩ).
Тогда вероятность (4.4) представляется в виде
Р 0 (Д) > 0} = Р {х И) > - Е/ (Д)/VW)}- (4.9)
241
Случайная величина %(Д,0) представляет собой линейную
комбинацию случайных величин вь ..., 8я, имеет нулевое сред-
нее и дисперсию, равную единице. Если распределение е/ нор-
мальное, то таким же является и распределение хИ, 0); поэтому
вероятность (4.9) полностью характеризуется величиной
х (Л) = х (А, 0) = EZ (Л)/д/ОЩ).
максимум которой по /1 Erf нужно найти. Если распределение
случайных величин & в (4.5) не нормальное, но W велико, то
в силу центральной предельной теоремы распределение ц(Л,0)
приближенно нормальное (для любых А е 0 е R"), и снова
вероятность (4.9) можно характеризовать величиной х{Д).
В общем случае распределение случайной величины хИ,6)
зависит от А, 0; поэтому величина и (Л) характеризует вероят-
ность (4.9) лишь приближенно. Как принято говорить в подоб-
ных ситуациях, решение задачи максимизации х(А) по Aerf
дает субоптимальное (квазиоптимальное) решение исходной
экстремальной задачи (4.8).
Итак, заменяем экстремальную задачу (4.8) на экстремаль-
ную задачу нахождения матрицы
А* = arg max х (A), EK = F0, DY = q2In, 0#=О. (4.10)
А е Л
При решении задач поиска экстремума функций, зависящих
от параметров (в данном случае 0), обычно оказывается, что
точка экстремума функции также зависит от параметров. Важ-
ной особенностью экстремальной задачи (4.10) является то, что
удается найти такую точку (т. е. матрицу Я*), в которой дости-
гается максимум функционала х(А)=х(А,0) сразу при всех
0 =/= 0. Докажем это утверждение.
Теорема 4.1. При всех 0 =#0 выполнено
max х (Л) = a"1 (QTFTF8)112, (4.11)
А^Л
причем указанный максимум достигается, в частности, на мат-
рицах А* вида
A* = cFT, с > 0. (4.12)
Доказательство. Имеем
Е/(А) = Е0гАУ = 0гАГ0,
D/ (А) = D0' AY = 0ГАОУ (0ГА)Г = а20/’ААг0.
Обозначим через 7(A) функционал
/ (А) = о2х2 (А) = (0гАЯЭ)2/0гААг0,
а через Е произвольную п X W-матрицу. Учитывая тождество
0гЕА70 = 0ГА£Г0, вычислим производную функционала J в точке
А по направлению Е:
д1^ = lim <х~* [7 (Л + аЕ) - J (Л)] =
а->0
_.. _]Г (0^4F0)2 + 2a6r4F00f£F0 + a2(Q^fFO)2 (0ГЯ£0)2 1
a™" L 0гЛЛг0 + 2а0г£Лг0 + а^££г0 0гЛЛг0 J
=2 / 8г^?^2 10Г£ (^б0гллге - лгееглге) ].
(омдго)2 /J
Опишем все матрицы Л, при которых приведенная производ-
ная равна нулю при всех В. Выполнение соотношения
dJ (А)/дЕ = 0 для всех Е эквивалентно тому, что выполнено
одно из двух равенств:
егл^е=о, (4.13)
F00r44r0 = лг00глге. (4.14)
Если выполнено (4.13), то 1(Д)=0, и, следовательно, функ-
ционал / принимает минимальное значение (равное нулю). По-
этому будем считать, что (4.13) не выполнено, т. е. 0MF0#=O.
Соотношение (4.14) эквивалентно тому, что Дг0 = cFQ, где с =
— QTAATQ/QTAFG— действительное число. Подставляя в выра-
жение для /(Л) вместо Лг0 значение cFQ, получаем, что если
для некоторых Л, 0 выполнено (4.14), то
J(A) = QTFrFe.
Отсюда следует (4.11) и то, что все матрицы Л, для кото-
рых при некотором 0=7^0 выполнено (4.14), являются точками
(матрицами) максимума- функции х(Л,0) при том же самом 0.
Утверждение о том, что максимум функции х(Л) достигается на
матрицах вида (4.12), следует из (4.14). Теорема доказана.
Отметим, что из доказательства теоремы следует, что при
любом фиксированном 0 можно найти такую матрицу Л, кото-
рая не представима в виде (4.12), но для которой справедливы
(4.14) и, следовательно, (4.11). Матрицы же (4.12) являются
единственными матрицами, для которых (4.14) и (4.11) выпол-
няются сразу для всех 0 =/= 0.
Утверждение теоремы 4.1 состоит в том, что с точки зрения
критерия оптимальности х(Л) оптимальным направлением дви-
жения в классе направлений S является
s’ = Fry/||Fry||, (4.15)
которое по сравнению со стандартным вариантом выбора на-
правления в методе крутого восхождения (получающегося из
(4.6), (4.7)) обладает двумя очевидными дополнительными пре-
имуществами: простотой вычисления и возможностью использо-
вания при /V п. Кроме того, выбор направления движения
(4.15) минимально чувствителен к нарушению основного пред-
положения о линейности регрессионной модели. Действительно,
243
(4.15) с точностью до скалярного множителя совпадает с век-
тором стандартных оценок метода Монте-Карло (см. гл. 8) век-
тора xf (х) tin (dx), который при стремлении функции f(x) к ли-
нейной 0о + сходится к 0 = Vf(xW).
4.3. Планирование эксперимента при использовании направ-
ления движения (4.15). Из утверждения теоремы 4.1 следует,
что если направление движения s = sfe в алгоритме (1.1) выби-
рать по формуле (4.15), то на каждом шаге нужно таким обра-
зом планировать эксперимент (т. е. выбирать точки наблюде-
ний zi, ..., zn), чтобы величина QTFTFB была по возможности
наибольшей.
Сформулируем задачу планирования в стандартном для тео-
рии планирования регрессионного эксперимента виде. Пусть
В—произвольный непрерывный план на множестве планирова-
ния X,
М(В)= \xxTl(dx) (4.16)
х
есть нормированная информационная матрица плана В- Для Ди-
скретного плана
£ _ f ’ ZN I
U/M ...» 1/ЛП ’
соответствующего проведению измерений в точках zb ..., zN,
матрица (4.16) имеет вид
/=1
Рассматривая задачу планирования в множестве непрерыв-
ных планов, имеем набор критериев
Фе (М (В)) = QTM (В) 6,
зависящих от неизвестного параметра 0. Поскольку истинное
значение 0 неизвестно, то неизвестен и функционал Фе, который
должен быть максимизирован. Как обычно в подобных ситуа-
циях, построим компромиссный критерий и его максимизируем.
Двумя наиболее распространенными компромиссными крите-
риями являются байесовский
фв (М О = J QTM (g) 0v (d&) = tr М (g) j 00rv (de) (4.17)
Q Q
и минимаксный
Фм (М (В)) = mln 0ТМ (В) 0, (4.18)
где Q — множество, которому априори принадлежит неизвест-
ный параметр 0, v(d0)—вероятностная мера на множестве Q,
отражающая априорные сведения о неизвестном параметре.
244 *
Поскольку норма градиента (т. е. ||0||) нас не интересует
(оцениваем только направление), то можно считать, что
Q с S = {0 eRn |||0||=1}.
При полном (или почти полном) отсутствии априорной инфор-
мации о 0 естественно выбирать S в качестве Q и равномерную
вероятностную меру на Q в качестве v(d0).
Если Q = S, то в силу одного из основных свойств экстре-
мального собственного чцсла неотрицательно определенной мат-
рицы (см. теорему 1.9 из приложения 1) выражение (4.18) со-
впадает с минимальным собственным числом матрицы A4(g),
а минимаксный критерий Фм — с хорошо известным в класси-
ческой теории регрессионного планирования критерием Е-опти-
мальности, который состоит в максимизации минимального соб-
ственного числа информационной матрицы плана.
Для байесовского критерия (4.17) с точки зрения способа
построения оптимального плана вид матрицы
L = Jo8Tv(dO)>O
Q
значения не имеет. Структура непрерывных байесовских опти-
мальных планов легко может быть определена, если для этого
использовать классическую теорему эквивалентности, разрабо-
танную в теории планирования регрессионного эксперимента
для выпуклых дифференцируемых критериев оптимальности об-
щего вида. Специфика задачи проявляется лишь в частном виде
(4.17) критерия оптимальности.
Теорема 4.2. Множество непрерывных байесовских опти-
мальных (т. е. Фв-оптимальных) планов
V — arg max trLM (g) (4.19)
совпадает с множеством вероятностных мер, заданных на мно-
жестве
X* = (arg max xTLx\. (4.20)
I xe x f
Доказательство. Воспользуемся теоремой эквивалент-
ности (теоремой 2.1 из гл. 3) для байесовского критерия опти-
мальности
Ф [М (g)J = - Фв (g) = - tr LM (g).
В рассмотренном случае функция ф(х, g) равна
ф (х, g) = хгФ (М (g)) х = - xTLx
(так как по формуле (3.10) приложения 1 дtr LM/dM = L). Из
теоремы эквивалентности вытекает, что в точках х* плана
(4.19) должно выполняться равенство
ф (х*, g*) = min ф (х, g*) = — max xrLx = tr M (g*)4T (M (g*) =
x e X x e X
----tr LM®,
245
откуда следует, что все точки плана (4.19) принадлежат мно-
жеству (4.20). Теперь покажем, что любая вероятностная мера
X(dx), сосредоточенная на множестве (4.20), является Фв-опти-
мальным планом. Действительно,
М (X) = J ххтк (dx),
х*
tr LM (X) = tr L J xxTK (dx) =
x*
= (tr LxxT) Л (dx) = J xTLxX (dx) = max tr LM (£),
поскольку в силу доказанного выше во всех точках хевы-
полнено равенство xrLx==maxtrZJVf(g). Теорема доказана.
Упражнения.
1. Сформулируйте условия, достаточные для сходимости алгоритма (1.1),
в котором последовательность чисел {у*} выбирается согласно процедуре, опи-
санной в п. 4.1, а направления движений Sk — по формуле (4.15).
2. Решите уравнение (4.3) для случая, когда распределение ошибок из-
мерений имеет плотность — е"1 xl, xeR
3. Пусть 0 = (1, 0, ..., 0)г, FTF = 1п. Найдите такую матрицу Д, кото-
рая не представляется в виде (4.12), но для которой выполнено равенство
(4.14). Покажите, что для найденной матрицы Д при других значениях 0 со-
отношение (4.14) может не выполняться.
4. Пусть й = {0 е R"| ||0|| = 1}, v(d0) — равномерная вероятностная
мера на й. Вычислите 00г v (d0). Постройте оптимальный байесовский план
= аг^тДфв
для множеств планирования X — й, X = [—1, 1]Х*--Х[—I, 1]. Здесь кри-
терий Фв определяется по формуле (4.17).
Глава 7
ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА
ПО ПРОВЕРКЕ ГИПОТЕЗ
В гл. 3—5 рассматривались задачи планирования экспери-
мента в ситуации, когда регрессионная модель задана и тре-
буется наилучшим образом оценить неизвестные параметры этой
модели. На практике уровень априорных знаний часто недоста-
точен для того, чтобы точно сформулировать модель, и прихо-
дится проводить дополнительный эксперимент, предназначенный
для проверки гипотез о виде модели. В настоящей главе приве-
дены некоторые результаты, касающиеся двух наиболее изучен-
ных постановок задач планирования по проверке гипотез — пла-
нирования дискриминирующих и отсеивающих экспериментов.
Дискриминирующий эксперимент проводится с целью выявления
из нескольких заданных регрессионных моделей истинной, а от-
сеивающий— для выявления из большого числа факторов за-
данной модели тех нескольких, которые почти полностью опре-
деляют изучаемую зависимость.
§ 1. Планирование дискриминирующих экспериментов
1.1. Постановка задачи. Предположим, что результаты из-
мерений описываются регрессионной моделью.
У1 = Пи М + 8Z, 1=1......N,
где Xi — точки (не обязательно различные) проведения измере-
ний; е< (i = 1..АГ)— взаимно независимые нормально рас-
пределенные случайные величины, Ее{ = 0, De< = a2(i=I, ...
.Af); т)и (истинная функция регрессии) совпадает с одной из
двух функций
П1(*. 0(1)). 1)2 = (*, 0(2)).
заданных с точностью до неизвестных параметров
9(/) = (0/1.0/m/eQp /=1, 2,
gi Rm‘ и Rw? — параметрические множества.
Для определенности предположим, что верна первая модель
(т. е. т)и(*)= т)1 (я, 0И), би — истинные значения неизвестных па-
раметров первой модели).
Пусть эксперимент проведен по плану g. Тогда мерой уда-
ленности второй модели от первой (истинной) может служить
247
величина
Д12 (Ю = J 1 Пн (X) - П2 (X, g)]2 g (dx), (1.1)
X
где fjy (х, g) = т|/ (х, 0(/)), ё(/) = ё(/) (|) (/ = 1, 2) — МНК-оценка,
построенная по плану £ в предположении, что верна /-я мо-
дель. Если план g имеет вид
£ = ^“{l/JV, .... 1/Лг}*
то
V
= arg min £ — П/ (х{, 0(л)]2,
в(/)е0/ /”1
N
Au (In) = X I11" ~ 1,2 (Х{’ 0(2)^2,
Z-1
Величина (1.1) называется параметром нецентральности и пока-
зывает, насколько велика сумма квадратов отклонений истин-
ной модели от конкурирующей.
Приведем хорошо известный факт математической стати-
стики, показывающий, что параметр нецентральности можно
выбрать в качестве критерия оптимальности плана эксперимента.
Обозначим через L — L(g) отношение правдоподобия первой
и второй моделей. Пусть план g = gw имеет вид (1.2), а ошибки
измерений в, нормально распределены. Имеем
L = ехр | ^5- (у{ — fj2 (xit g))2 — J* (yt — f)। (х, g))2^j |.
Проведем элементарные преобразования. Пусть оценки 0(d и
0(2) фиксированы. Тогда имеем
Е (У{ ~ П/ (х{, 0(/)))2 = Е (Пи (*<) - П/ (xit 0(Л) - г)и (х,) 4- у{)2 =
= (Пи (xi) - П, (х{, 0(Л))2 + Е(^ - пи (х,))2;
Dtf N “I
S (», - Ч, (х,, ё(!>))= - s (у, - ч, (х,, «,„))>] -
N N
- £ Е (у, - Ч, (X,. ёе,))! - L Е (у, - п, (х„ ё,„)у -
N
= S (Пн (х{-) - Т)2 (Х{, 0(2)))2 + Е Е (yt - Т)и (Х{))2 -
A N
~ Ё (пи (xj - П! (х{, 0(О))2 - Ё Е (yt - Пн (X,))2 =
N
= «МУ(М*J - Мх,. 0„>))2.
24Э
Используя теорему об асимптотической нормальности МНК-
оценок (теорему 1.1 из гл. 5), получаем, что при выполнении
ряда естественных условий последовательность величин
лг
%))2
при Af->oo по вероятности сходится к константе и поэтому сто-
хастически ограничена. Таким образом,
Е1п£~-^5-Д12(^), ЛГ-*оо.
Следовательно, при больших W (а этот случай и рассматри-
вается в дальнейшем), максимизируя по плану g параметр не-
центральное™ (1.1), мы в среднем максимизируем (или почти
максимизируем) логарифм отношения правдоподобия первой
модели относительно второй. По логарифму же отношения прав-
доподобия строится оптимальная процедура проверки двух про-
стых статистических гипотез.
План
g* = arg тахЛ12(|) (1.3)
будем называть ^^-оптимальным. В качестве множества допу-
стимых планов в (1.3) выбрано S — множество всех непрерыв-
ных планов.
Так как минимизируемый функционал (1.1) зависит от того,
какая модель верна и каковы истинные значения входящих в
нее параметров, то и характеристики 7\2-оптимальных планов
зависят от указанных факторов. Поэтому априорное построение
Т12-оптимальных планов невозможно. Эти планы играют в рас-
сматриваемом случае такую же роль, какую играют локально
оптимальные планы при оценивании неизвестных параметров не-
линейной регрессии.
1.2. Теорема эквивалентности. С помощью приведенной ниже
теоремы в ряде случаев удается изучить свойства /^-оптималь-
ных планов.
Теорема 1.1. Предположим, что X, Qb Q2 — компакты, т)/
(/=1,2) непрерывны на и непрерывный план (1.3)
единственный. Тогда необходимым и достаточным условием Лг-
оптимальности непрерывного плана %* является выполнение при
всех х ^Х неравенства
Ф12(х, И<Л,2(Г),
(1.4)
849
где
<Р12 (X, I) = (t)„ (x) - T)2 (x, 6(2) (I)))2. (1-5)
При этом в точках плана £* неравенство (1.4) превращается
в равенство.
Доказательство теоремы аналогично доказательству теоре-
мы 2.2 из гл. 3 и предоставляется читателям.
Основной эвристический смысл теоремы 1.1 состоит в том,
что эксперименты по выбору между моделями rji и т]2 следует
проводить в тех точках х е X, в которых функции гц и г)2 мак-
симально различаются при наиболее подходящих значениях не-
известных параметров.
1.3. Построение непрерывных Т12-оптимальных планов. Для
численного построения непрерывных Т 12-оптимальных планов
можно использовать аналоги алгоритмов 4.1—4.3 из гл. 3, един-
ственным изменением в которых будет вид функции <р. Аналог
алгоритма 4.1 из гл. 3 имеет следующий вид.
Алгоритм 1.1.
1) Имеем план gs. Отыскиваем точку
x(S) = argmax(pl2(x, ^).
2) Строим план
S,+1e(l-Y,)Ss + v3(^))
и переходим к шагу 1) с заменой s на s + 1.
Последовательность {?<,} выбирается по тем же правилам,
что и в § 4 гл. 3. Сходимость алгоритма 1.1 и его модифика-
ций обосновывается так же, как и сходимость алгоритма 4.1 из
гл. 3.
Приведем пример аналитического построения Т]2- и Тггоп-
тимальных планов.
Пример 1.1.
Л1(х)=у, х=[-1,1], о(2)=(0,, е2, е3)г,
т|2(х)=о1 + е2х + е3х2, Q2 = {0(2)|02 + 0i> 1, е2>0, 03>О},
Д12 (В) = ' min ( [у - (0, + 02х + 03х2)]2 g (dx).
0(2) €=Q2 J
Ясно, что указанный минимум для любого плана g достигается
При 02 Ч" 03 = 1 •
Построим Лг-оптимальный план в классе планов вида
(Р) { р/2 1 - р
250
(т. е. выберем оптимальное р), а затем с помощью теоремы 1.1
убедимся в его оптимальности. Имеем
Д1г(£(р)) = min_______[yp(Y — 9i + 62 — 0з)2 +
0,. 03=Vl-e2
+ (I - р) (у -01)2 + 4р (Y -01 -02-е3)2]==
= min Г-тр(у — 01 + 02 — V1 — 01)2 +
е„ Ie2i<i L2
+ (I - р) (Y - е,)2 + |p(y - 01 - 02 - V1 - 02 )2] =
= min [р(у — 01 — л/1—02)2 + р02 + (1 — р)(у — 01)2]-
01. | в; К 1
Дифференцируя выражение под знаком минимума по 01 и 02 и
приравнивая производные нулю, получаем, что минимум равен
Д1г(£(р))= р(1—р) и достигается в единственной точке
0i = Y — Р> 02 — 0, 0з — 1.
Таким образом, оптимальное значение р равно 1/2, и 0<2) —
= (у-1/2, 0, If.
Теперь проверим, что план
6 11/4 1/2 1/4 J
Т12-оптимален. Действительно,
ч>12 <*. Г. «,„) = (v - (ё, + ёл + М)’ -
«-1Ч-
Следовательно, неравенство (1.4) выполняется, и план яв-
ляется Лг-оптимальным.
Теперь построим Т^гоптимальный план:
Д21 (I) = min Uy — 01 — № — 63+) 5 (dx) = ( (02x + 03x2)2 g (dx) =
v J J
= 02 { U + 6x2)2 g (dx) — [§ (x + 6x2) g (dx)]2 ],
где б = 0з/02» 0(d = y = 0i- Далее,
<P21(x, £) = 0|{ $(x + 6x2)g(dx) + > + dx2}2.
В соответствии с утверждением теоремы 1.1 точки Тггопти-
мального плана должны совпадать с точками, в которых функ-
ция Ф21 достигает максимума. Такими точками являются = 1,
*2 = 1/(46). Теперь на основании теоремы 1.1 убеждаемся, что
веса этих точек в оптимальном плане равны 1/2.
251
1.4. Последовательное планирование. Поскольку заранее
неизвестны ни номер истинной модели, ни истинные значения
соответствующих параметров, априорное построение Лз-опти-
мальных планов невозможно (неясно даже, какой из критериев
оптимальности Ti2 или Т21 нужно использовать). Поэтому целе-
сообразно использовать последовательные планы, которые (так
же как и планы для нелинейной регрессии) можно строить с
помощью двух различных стратегий. Аналог алгоритма 3.1 из
гл. 5 имеет следующий вид.
Алгоритм 1.2.
1) Имеется эксперимент из N наблюдений, проведенных в
соответствии с планом вида (1.2). Находим оценки 0(1)(^) и
0(2) (Itf) по формуле
n
% (М = arg ™ Е (у, - П/ (Хр 0(/)))2, /=1,2.
в(/>еИ/ /“1
2) Отыскиваем точку
xn+i = arg max [тц (х, 0(1) (^)) - П2 (х, б( (^))]2.
хе л
3) Проводим (N + 1 )-е наблюдение в точке xN+i.
4) Переходим к шагу 1) с заменой N на N + 1.
Начальный план следует выбирать так, чтобы оценки
0(/» (^ ) определялись единственным образом.
Соображения, лежащие в основе алгоритма 1.2, просты и
наглядны: наблюдения проводятся там, где функции г|/(х, 0(/))
максимально различаются.
1.5. Линейная параметризация. Предположим, что конкури-
рующие модели линейны по параметрам, т. е.
11(Л (х, 0(/)) = 0(rnf(Л (х), j — 1, 2.
Предположим также, что экспериментатор располагает априор-
ными распределениями Fj(dQ(j)) неизвестных параметров 0(/) и
априорными вероятностями л/ истинности моделей (/ = 1, 2).
В этом случае оптимальным будем считать план
= arg max 6 (g), (1.6)
где
2
= A/HI)F/(d0(/))» k=l,2.
/=1
План (1.6) называется байесовским дискриминирующим.
Для линейного случая при отсутствии ограничений на пара-
метры 0(/) параметр нецентральности Д/* в предположении вер-
ности /-й модели имеет вид
Д/*®)=0иА*)«)0и>, (1-7)
252
где
M{k) (g) == Мп (£) - MlkM^ ® Mkl (&
Из (1.7) следует, что
2
6 © = Z tr M(ft) (fc) [D, + Oo/Ojz], (1.8)
где k = 3 — j (t. e. £=/=/, k — 1, 2),
6°/ = 0</)^ (rfe</))» Di — (0</) ~ 0o/) (6(/) ““ 0о/)Г FI (^0(/))-
Ql Qj
Экстремальная задача (1.6), (1.8) может быть рассмотрена
в рамках подхода гл. 3. Для этого достаточно ввести матрицу
Д/f /§\_ Г ^11 (£) ^12 (£) 1
— 1Л121(6) M22(g)J
и рассматривать (1.8) как выпуклую функцию от Л1(|).
Упражнения.
1. Постройте Т12- и Т2i-оптимальные планы для функций регрессии
T]i(x) = Y, т|2 (х) = 91 + 02х, хе [—1,1], 02>1.
2. Сформулируйте теорему эквивалентности для линейных по неизвест-
ным параметрам функций регрессии щ и т)2-
3. Покажите, что функционал Д12(ё) является выпуклым на множестве
непрерывных планов S.
4. Докажите справедливость формулы
м,г ((1 ll + а|а) I = (х' ы ь(rfx) - <₽'2 (х> &*> (dJC)t
0а |a=»0 J J
где функция (pt2 (x, g) определяется по формуле (1.5).
5. Используя результаты упражнений 3, 4 и необходимое и достаточное
условие оптимальности на с. 105, докажите теорему 1.1.
6. Сформулируйте и докажите теорему эквивалентности для критерия
оптимальности (1.8).
§ 2. Планирование отсеивающих экспериментов
2.1. Основные понятия. Для многих явлений, зависящих от
большого числа факторов, естественно предположить существо-
вание небольшого числа значимых факторов (эффектов), кото-
рые управляют явлением, а влияние остальных факторов счи-
тать не превосходящим ошибку эксперимента. Эксперименты
по поиску значимых факторов называются отсеивающими, а
теория их планирования — теорией отсеивающих экспериментов.
Одна из постановок задачи отсеивающего эксперимента та-
кова Имеется функция отклика (регрессии) п(х, 0), зависящая
от управляемых переменных (факторов) х = (х(1), x(t))T
253
и неизвестных параметров 0=(0i, 0т)г. Предполагается,
что функция отклика зависит от $ < t значимых факторов
х(А,(), 1 X,t, kt^kj при i ¥= / (t,/ = 1, s) т. е. суще-
ствует такая функция fj(x(%i), x(A.s),0), что справедливо
равенство
г) (х, 0) = fj (х (М)> • • •, х (М, 0).
С помощью как можно меньшего числа N вычислений функции
т) (возможно, со случайной ошибкой) в точках .... xN нужно
найти номера значимых факторов. Если последние найдены
правильно, то обычно не представляет труда найти хорошие
оценки для 0. Целью отсеивающего эксперимента является по-
лучение решения об истинности одной из большого числа обычно
равноправных гипотез и о номерах значимых параметров.
Как правило, не имеет смысла говорить о близости найден-
ных номеров значимых параметров к истинным: представляется
необходимым точно определить номера значимых факторов. По-
этому цель теории отсеивающих экспериментов отличается от
цели теории планирования экспериментов по оцениванию пара-
метров, где нужно определять приближенные оценки истинных
параметров.
Если N и Xi (i= 1, ..., N) зависят от результатов предше-
ствующих экспериментов, то планирование называется последо-
вательным. Если ..., xN заданы до начала проведения экспе-
риментов, то планирование называется статическим. Несмотря
на большее число необходимых экспериментов, статическое пла-
нирование часто предпочтительнее с точки зрения приложений,
поскольку оно позволяет, например, проводить эксперименты
параллельно. ,
Планы, в соответствии с которыми требуется проводить чис-
ло измерений меньшее чем общее число факторов /, назы-
ваются сверхнасыщенными. Сущностью теории отсеивающего
эксперимента является изучение возможностей создания и само
создание таких стратегий планирования для широкого класса
практически важных моделей, которые для отсеивания несуще-
ственных факторов требуют существенно меньшего, чем /, чис-
ла измерений. Оказывается (соответствующие общие результаты
приведены в [16]), что при достаточно общих предположениях
о виде модели существуют такие планы, которые требуют для
отсеивания незначимых факторов всего лишь C(s)lnf (£->оо)
измерений, где C(s)—константа, не зависящая от t.
Иллюстрацией последовательного планирования отсеиваю-
щих экспериментов является следующая процедура, широко ис-
пользуемая в медицинской практике.
Пример 2.1. Вместо индивидуального обследования крови
большой группы доноров для выявления редкого заболевания
исследуются небольшие группы. Проверка позволяет обнару-
жить наличие или отсутствие больных в группе. Полному обсле-
дованию далее подвергается только кровь доноров из тех групп,
254
в которых было обнаружено заболевание. Во многих случаях
указанная процедура требует значительно меньшего числа ана-
лизов, чем процедура полного индивидуального обследования.
Формальная схема примера 2.1 выглядит следующим обра-
зом. Занумеруем доноров числами от 1 до эксперименты (со-
стоящие в проверке при наличии заболевания крови некоторой
группы доноров)—числами от 1 до Л/; будем говорить, что z-й
эксперимент дал результат гр = 1, если замечено наличие ин-
фекции в гй группе, *и тр = 0 в противном случае.
В данном примере статический план эксперимента опреде-
ляется матрицей размера N X t, состоящей из элементов
Xi (/) (i = 1, ..., АГ; j = 1, ..., t), где Xi (/) — 1, если в i-м экспе-
рименте проверялась кровь /-го донора, Xi(j) = O в противном
случае.
Пусть число больных доноров равно s (s < t), а их номера
есть
Х = (ХЬ X./, Xf< ... <XS;
совокупность всевозможных номеров X обозначим Л($, t). Ре-
зультат эксперимента (вычисляемый без случайной ошибки) тр
есть функция от Xi(X) = (x/(Xj), ..., х/(Х$)), а именно логиче-
ская сумма (дизъюнкция) величин Xi(Xi), ..., xf(X$):
f 0, если xz(Xz) = 0 для всех /=1, s,
ть — <
(1 в противном случае.
По указанной причине рассмотренная модель называется
дизъюнктивной. Планирование для дизъюнктивной модели рас-
сматривается в п. 2.5.
Приведенная схема может быть обобщена в трех направле-
ниях: а) возможна другая зависимость тр от хг(Х); б) суще-
ствуют случайные погрешности при измерении гр, которые неза-
висимы при различных измерениях и определяются некоторыми
распределениями вероятностей; в) исследуютря планы, обеспе-
чивающие восстановление X с достаточно большой вероят-
ностью.
Общая модель отсеивающего эксперимента такова. Пусть
имеется s существенных факторов из общего их количества t\
номера существенных факторов Xi, ...» Xs переводятся планом,
т. е. N X /-матрицей с элементами
В = {0, 1}, N, /=1,
в s-набор столбцов
а (1) = х (ХО, ..., a (s) — х (Xs)
плана и затем в столбец значений функции отклика тр =
= л(cii(1), ..., a/(s)). Распределение измерений yi е У опре-
деляется переходными вероятностями
Ps {dyt | Т],) = Ps (dyt I Xi (M).Xi (As)).
255
Ошибка происходит, если набор значимых факторов восста-
новлен неверно. Эта ошибка зависит от плана, неизвестного на-
бора значимых факторов и решающей функции, т. е. отобра-
жения
d: BNt XY»-+ [Z]s,
где BNt = ВЫх* — множество (N X 0 -планов,[/]s — [/] X • • • X И>
т
[/]={1,2, ..., /}. При фиксированном плане и заданном s ре-
шением, для которого вероятность ошибки минимальна, являет-
ся решение максимальной апостериорной вероятности
d = arg max Ps(y |х (М, ..x(Xs)). (2.1)
U[i]s
Для того чтобы точно определить (2.1), необходимо сравнить
вероятности Ps(# |х(Х)) для всех К е [/р, что требует числа опе-
раций не менее, чем порядка ts In t.
При вполне реальных для приложений величинах 104,
s^lO имеем ts 1040, а такое количество операций современ-
ным ЭВМ недоступно. Поэтому на практике целесообразно ис-
пользовать либо приближенные решения экстремальной задачи
(2.1), либо упрощенные процедуры построения решений. При
этом, естественно, при фиксированном числе измерений несколь-
ко возрастает вероятность ошибки. Примером упрощенной про-
цедуры построения решения является пофакторный анализ, суть
которого состоит в том, что для каждого фактора в отдельности
проверяется гипотеза о его значимости, при этом действие дру-
гих значимых факторов считается «случайным фоном».
Одной из наиболее распространенных постановок задач опти-
мального планирования в теории отсеивающего эксперимента
является следующая. Предположим, что на множестве
t
= и И* всех возможных комбинаций для значимых факто-
ров задано априорное распределение Q и фиксирована процеду-
ра построения решения. План, позволяющий выделить все зна-
чимые факторы со средней по распределению Q вероятностью
ошибки, не превосходящей у, называется у-разделяющим при
у > 0 и сильно разделяющим при -у = 0. В данном случае оп-
тимальным планом отсеивания называется у-разделяющий план
минимальной длины. Экстремальная задача нахождения такого
плана вполне определена, но она, вообще говоря, настолько
сложна, что общие численные методы для ее решения даже не
использовались (это связано также с тем, что общие численные
методы поиска глобального экстремума на дискретных множе-
ствах, подобных 2R, развиты слабо). Для этой и подобных ей по-
становок задач отсеивающего эксперимента в достаточно общих
случаях неконструктивными методами получены верхние и ниж-
ние оценки границ минимальных длин статических и последова-
тельных планов (в простейших случаях эти границы выведены
256
в п. п. 2.3, 2.4)'. Что касается конкретных оптимальных или близ-
ких к оптимальным планов, то эти планы построены только для
некоторых частных (но практически важных) моделей и крите-
риев оптимальности. Несколько подобных планов изучено ниже.
2.2. Комбинаторная модель поиска А. Реньи. Опишем сна-
чала общую логическую задачу, которая называется (дискрет-
ным) поиском. Пусть дано конечное множество
X={x{i ..., хп} (2.2)
с некоторым фиксированным, но неизвестным элементом х/ = 0,
который нужно найти. Для поиска элемента 0 проводится серия
из N экспериментов (проверок), каждый из которых состоит
в следующем: выбирается подмножество Ai cr X (Z=l, ..., N)
и проверяется, принадлежит 0 множеству Д- или нет. Проверки
должны быть организованы таким образом, чтобы по результа-
там этих проверок (т. е. по двоичной последовательности длины
W ответов «да», «нет») можно было бы однозначно найти неиз-
вестный элемент 0.
Примерами реальных процедур поиска, сводящихся к опи-
санной, являются дискретные варианты большинства алгорит-
мов, поиска локального экстремума одномерных функций и кор-
ня уравнения, а также поиск нужной карточки в каталоге биб-
лиотеки, радиолокационный поиск, поиск неисправности в при-
боре.
В рамках общей постановки задачи планирования отсеиваю-
щих экспериментов, рассмотренной в п. 2.1, эта постановка за-
дачи соответствует ситуации, когда У —{0, 1}, модель дизъюнк-
тивная, ошибки измерений отсутствуют, имеется только один
значимый фактор, возможны некоторые ограничения на выбор
плана, а рассматриваемые стратегии поиска должны быть силь-
но разделяющими. К данной постановке может быть сведена
задача поиска нескольких значимых факторов (за счет значи-
тельного увеличения п), если известно их число или известна
верхняя граница для этого числа.
Рассматриваемая постановка является, таким образом, од-
ной из простейших постановок задач планирования отсеивающих
экспериментов. Тем не менее методы получения верхних и ниж-
них границ для длин оптимальных стратегий планирования
(поиска) в данной постановке типичны для всей теории и по-
этому ниже (п. п. 2.3, 2.4) подробно изучены.
Если все множества Ai (i = 1, ...» N) в приведенной стра-
тегии поиска выбираются независимо от результатов предыду-
щих i — 1 проверок, то стратегия называется статической, в про-
тивном случае — последовательной. Часто удобно использовать
случайные (рандомизованные) стратегии поиска, в которых
выбор всех или части проверок определяется посредством реа-
лизации некоторого дополнительного случайного эксперимента.
В классе стратегий поиска, приводящих к однозначному вос-
становлению неизвестного элемента 0, лучше та стратегия, дли-
9 С. М. Ермаков, А. А. Жиглявсквй 257
на N которой меньше. При этом последовательные стратегии
в отличие от статических имеют две характеристики длитель-
ности: максимальное Nmax и среднее по априорному распределе-
нию Я число экспериментов плана.
Следуя работам А. Реньи, формализуем задачу планирова-
ния экспериментов по поиску неизвестного элемента 0.
Модель А. Реньи задается классом функций, определяе-
мых на множестве (2.2) и принимающих два значения: 0 и 1.
Каждой из N групповых проверок соответствует функция f <=
причем результат этой проверки есть f(0), где единице соответ-
ствует «да», а нулю — «нет». Ясно, что & состоит из конечного
множества функций, т. е.
& = {AW.......ffe(x)}, хеХ,
а каждая функция (t=l, k) из этого класса есть
характеристическая функция некоторого множества А,- а: X:
( 1, * если х е А{,
fi (*) | qj если х
Приведем два основных класса функций iF, используемых
в дальнейшем.
Пример 2.2. (Г = — совокупность всевозможных ха-
рактеристических функций наборов из элементов множества
X = {xi, ..., хп} длины s. Здесь k = Csn.
Пример 2.3. Полный класс функций ST = $Гп — совокуп-
ность всех k = 2" функций на множестве (2.2).
Функции из класса часто удобно отождествлять с двоич-
ными n-мерными векторами
Л(х)^Л = (Л1.......fin)T, ‘=1........k,
где
( 1, если xf^A{,
fii ft (*/) | qj если
В этой терминологии —некоторое подмножество,,-множе-
ства всех n-мерных двоичных векторов. В частности, любой век-
тор из ^~п содержит ровно s единиц и п — s нулей.
Если в i-м эксперименте проверяется множество Аь. cz X,
то результаты проверок представляют собой двоичный Af-набор
П(9) = (П1(0). М9)).
где
n;(e) = ffti(O), i=l,...,N, ^е{1, .... k},
а стратегия поиска однозначно определяется набором чисел
k\, ..., kN (причем для последовательных стратегий N может
зависеть от 0).
Требование однозначного восстановления для стратегии по-
иска выглядит следующим образом: для любых 0, 0 е X выпол-
нено ц(0)=И= т|(0).
258
По определению класс функций SF называется разделяющим
на множестве (2.2), если для любых xi, х, е X суще-
ствует такая функция f е что J(xt)^ f(xj).
Очевидно, что в классе функций тогда и только тогда су-
ществует стратегия поиска, удовлетворяющая условию одно-
значного восстановления, когда этот класс функций разделяю-
щий.
Свойство разделяемости системы функций 5Г можно сфор-
мулировать так. Образуем k X «-матрицу F ={fr/}, строки кото-
рой соответствуют функциям класса Свойство разделяе-
мости означает, что все столбцы матрицы F различны.
Построение статической стратегии для проведения N изме-
рений, обладающей свойством однозначного восстановления,
эквивалентно построению такой WX «-матрицы А, составленной
из строк матрицы F, что все ее столбцы различны (это следует
из того, что в /-м столбце матрицы А содержатся результаты
проверок в предположении 0 = х/). Матрица-А называется мат-
рицей плана.
Длиной оптимальной статической стратегии поиска в классе
функций называется величина Mmin OF) — минимально воз-
можное число строк, которое можно выбрать из матрицы F =
= {fi/} таким образом, чтобы в составленной из этих строк мат-
рице все столбцы были различны.
Аналогично определяется — длина оптимальной
(в минимаксном смысле) последовательной стратегии в классе^”.
Очевидно, что всегда МшОГ)<Мшп (F').
2.3. Нижние границы длины оптимальной стратегии поиска '
в модели А. Реньи. В этом пункте приведены способы получе-
ния нижних границ длин оптимальных стратегий поиска для мо-
дели из п. 2.2. Эти способы могут быть обобщены и использо-
ваны для получения подобных результатов в более общих по-
становках задач планирования отсеивающих экспериментов.
Для вывода упомянутых границ нам понадобятся простей-
шие свойства энтропии — одного из фундаментальных понятий
математической теории информации.
Пусть на множестве X={xi, .... х„} задано распределение
вероятностей Q(dx):
п
^ = Q{x = xJ>0, Е<7<=1-
i = \
Энтропией Шеннона (двоичной) распределения Q называется
величина
п
H(Q) = — EPzlogiPi,
где выражения типа 0 log2 0 следует считать равными нулю.
Очевидно, что для любого распределения вероятностей Q вы-
полняется неравенство /7(Q)^0a и равенство достигается в том
9* 259
и только том случае, когда распределение вероятностей Q со-
средоточено в одной точке.
Лемма 2.1. Для всех распределений Q, заданных на мно-
жестве Х = {х\....х„}, выполняется неравенство H(Q)^
log2 п и равенство достигается тогда и только тогда, когда.
qi = l/n (i = 1, ..., п), т. е. при равномерном распределении Q.
Доказательство. Рассмотрим разность
п п ' п
Н (Q) - log2 п = — £ qI log2 qt + £ qt log2 7 == £ log2 — .
/=1 i-i /=i 1
При всех t ~> 0, t 1 справедливо строгое неравенство In t <
< t— 1. Поэтому
где равенство имеет место только при qi= 1/п; следовательно,
п п
In 2 (Я (Q) - log2 п) < 21 q, - 0,
£-1 £-1
откуда и вытекает утверждение леммы. Лемма доказана.
Пусть теперь множество X является произведением двух мно-
жеств: Х1 = {х<1), . ...х^} и Х2 = {х<2>, .... х^2*}. Распределение
вероятностей Q на X = Xt X Х2 определяется вероятностями
^/ = QW)»42»}, Z=l, .... ni, j=l.......n2.
Положим
пг в,
= ^=Lqit.
Обозначим через Qi и Q2 распределения вероятностей на Х\ и
Х2, определяемые соответственно вероятностями («=1, ...
..., п^ и q{f} (/= 1...п2). Распределения Qi и Q2 называют-
ся маргинальными.
Лемма 2.2. Пусть X = Х\У(Х2. Тогда в приведенных обо-
значениях выполнено неравенство H(Q2), при-
чем равенство достигается тогда и только тогда, когда распре-
деления Qi и Q2 определяют независимые случайные величины
на Х\ и Х2, т. е. когда р{1 = pV'p}2’ для всех 1.....«ь
/ = 1, ..., п2.
Доказательство. Имеем
Mi пг
= Тлц iog2^,
rtl П? «2
и (Q.) = - S £ «„ log, ?',o, H (<?,) -s L g„ log,
260
Отсюда
«2 (J) (2)
Н (Q) - (Н (Q.) + Н (Q2)) = £ £
«-1 /-1 11
Применяя неравенство In t t—1, получаем, что для всех i =
= 1,,.., rti, / = 1, ..., «2 имеет место неравенство
. Л2> rw
^'П— <<Ц—
- 1) = <7?’С -qit,
где равенство достигается лишь в случае = qi}.
Отсюда следует, что
In 2 [Я «?) - (Н (Q.) +Я((У)] • - У + У =
= -1 + 1=0.
Лемма доказана.
Следствие 2.1 (свойство субаддитивности энтропии Шен-
нона). Пусть X = Xi X ... У,Хц, распределение Q задано на
X, и пусть Qi (t — I, N)—маргинальные распределения, за-
данные на Xi. Тогда
н
HlQXZtHQi),
i=l
причем равенство достигается тогда и только тогда, когда рас-
пределения Qi, ..., Qtf определяют взаимно независимые слу-
чайные величины.
Утверждение следствия вытекает из леммы 2.2.
Перейдем к выводу нижних границ длин оптимальных стра-
тегий поиска.
Учитывая лишь требование однозначного восстановления,
имеем, что для длины W любой стратегии, удовлетворяющей
этому требованию, справедливо неравенство 2У п, поскольку
число исходов такой стратегии не может быть меньше числа ги-
потез. Отсюда вытекает следующее неравенство, справедливое
для любого класса функций £Г:
Л (&-) > Mmln (^) > rlog2 nl, (2.3)
где Г а ] — наименьшее целое, большее или равное а.
Очевидно, что, чем шире класс функций iF, тем точнее ниж-
няя граница (2.3). Покажем, что для полного класса функций
= в (2.3) достигается равенство. Для доказательства
этого достаточно предъявить такую матрицу плана А размера
riog2nlXtt> составленную из строк матрицы F, чтобы ее столбцы
были различны. Для полного класса функций такой матрицей
является матрица А, столбцы которой, занумерованные в по-
рядке. возрастания, являются двоичными разложениями чисел
261
Теперь покажем, как для вывода нижних границ величин
ATminOF) могут быть использованы идеи теории информации.
Предположим, что на множестве X задано распределение
Q(dQ) для неизвестных значений 0:
?i = Q{6 = *J>0, z=l.........п,
В такой интерпретации 0 можно рассматривать как случайную
величину на X, а для любой результат проверки /(0) —
как случайную величину на множестве У = {0,1}.
Пусть
Н (Q) = — Е qt log2 qt
f=l
есть энтропия Шеннона распределения Q. В частности, если
Q = Qo — равномерное распределение, т. е.
Q(xz) = 9^= 1/и, z=l.......п> (2.4)
то
п
и = — l°g2 (l/n) = 10g2 tl.
i-l
Для всех f e примем обозначение a (f) = P {f (0) = 1}. Тогда
h (f (0)) = ~a(f) log2 a (ft - (1 - a (ft) log2 [1 - a (ft]
есть энтропия случайной величины f(0). Примем обозначение
/?(Q, ^-) = maxA(f(0)).
f G
Теорема 2.1. Для любого класса функций справедливо
неравенство
GF) > Н (Q)/R (Q, &"), (2.5)
где Q — произвольное распределение на X.
Доказательство. Пусть статическая стратегия, опреде-
ляемая набором функций fki (я), ..fkN(x) из обладает свой-
ством однозначного восстановления. Столбцы N X и-матрицы
плана A — {fki(xf)} можно рассматривать как случайные вели-
чины fki (0), а саму матрицу А — как случайный вектор
g = (ffcj (0), ..., fkN (0))г, принимающий значения на множестве
YN. Поскольку значение 0 однозначно связано со значением век-
тора £, то и соответствующие энтропии равны: Н(0) = #(£).
В силу свойства субаддитивности энтропии (см. следствие 2.1)
имеем
v
н ft) = н (fkl (0), ..., hN (0)) < £ Н (Jkj (0)) < NR (Q, ^).
откуда следует (2.5). Теорема доказана.
262
Поскольку H(Q) максимальна для распределения (2.4), то и
в (2.5) обычно рассматривают равномерное распределение Qo:
неравенство принимает вид
(^)> (log2«)/* (Qo> П (2-6)
Для класса = ^sn выполняется равенство
/?(^о>згО=А(й* <2-7>
где h (х) = — х log2 х — (1 — х) log2 (1 — х) есть энтропия Шеннона
случайного эксперимента с двумя исходами, имеющими вероят-
ности хи 1—х. Поэтому для —^п неравенство (2.6) при-
нимает вид
№(О> (log, п-)/НЫп). (2.8)
Поскольку при О < X < 1/2 справедливо условие 0 < Л(х) <
< 1, то при 0 < s < п/2 оценка (2.8) точнее для класса
оценки (2.3).
В следующем утверждении показано, что для класса ^"п с
помощью комбинаторных рассуждений может быть построена
оценка, которая для малых $ еще более точна, чем (2.8).
Теорема 2.2. Для любых п u s имеет место неравенство
(2.9)
Доказательство. Для плана, определяемого N%n-
матрицей А, общее число единиц в этой матрице равно Ns.
Пусть ci (i = 0, 1, .... N)— число столбцов матрицы А, содер-
жащих i единиц. Имеем
N N
Ns = £ ic{ ct + 2 2 с, + 2 (п — с0 — q),
i=0 1=2
Н
поскольку ^jCi = n. Так как все столбцы в А должны быть
i=0
различны, со 1, Ci N. Поэтому Ns 2(п— 1)—N, откуда и
следует (2.9). Теорема доказана.
2.4. Метод случайного планирования в модели А. Реньи.
Для классов функций которые удовлетворяют введенному
ниже условию однородности, А. Реньи получил верхние оценки
длин оптимальных статических стратегий поиска для модели
из п. 2.2. Разработанный им метод получил название метода слу-
чайного планирования. В дальнейшем этот метод был суще-
ственно обобщен, в результате чего были получены верхние гра-
ницы длин оптимальных статических стратегий планирования
отсеивающих экспериментов в достаточно общих постановках.
Соответствующие утверждения получили название теорем суще-
ствования, поскольку в них доказывается существование плана
263
с некоторой длиной, но не указывается способ построения такого
плана.
По определению класс функций
^={Л(х), .... fft(x)}
называется однородным, если для любых х(-, (i =/=/’) чис-
ло k\ функций / е таких, что f(x<) = f(x/), не зависит от i,
j (i,!= 1...п).
Примерами однородных классов функций являются и
(покажите!).
Рассмотрим схему статического случайного планирования:
в t-м эксперименте функция (х) s S’ выбирается случайно
и равновероятно, т. е.
P{*t = /}=!/*, /=1,
причем случайные величины k\, kN взаимно независимы.
Ясно, что при любом N по набору fkl (0).fkN (0) не всегда
возможно однозначно восстановить 0. Обозначим через Р(га, N,^)
вероятность неоднозначного восстановления 0 при указанном
выборе функций fk{.
Теорема 2.3. Если класс функций однороден и 4,
то
Р (га, N, < С2п (*1/*Л (2.10)
Доказательство. Рассмотрим МХ^-матрицу А —
=||а,7||,где
ail=.fkSxi^
Столбцы a<'> = (ai/, ..., aNl)T этой матрицы представляют собой
значения случайно выбранных функций в экспериментах при ус-
ловии, что их аргумент х = х/. По определению Р(га, N, —
вероятность того, что хотя бы одна пара таких столбцов совпа-
дает между собой. Поскольку общее число пар столбцов равно
С2„ и
P{a'« = a<z>) = (fe1/^, j^l,
то, оценивая вероятность суммы событий суммой их вероятно-
стей, получаем нестрогое неравенство, соответствующее (2.10);
Строгое неравенство в (2.10) следует из того, что события
{m(/) = /n(Z)} (/ =^= I) при га 4 не являются попарно непересе-
кающимися. Это легко заметить при рассмотрении элементар-
ного события, соответствующего случаю, когда во всех провер-
ках участвует одна и та же функция. Теорема доказана.
Следствие 2.2. При га ^4 для однородного класса функ-
ций SF справедливо неравенство
N(Sn (Р) < [ 1п (k*ki} ] • (2.11)
264
Доказательство. Если в методе случайного планирова-
ния выбрать такое Nq 1, что
CUkJkf^l, (2.12)
то в силу теоремы 2.3 для рассматриваемого класса функций
Р(и> No, < 1. Следовательно, существует по крайней мере
одна матрица А с числом строк не более Nt и определяющая
статическую стратегию поиска, обладающую свойством одно-
значного восстановления. Неравенство (2.11) следует из (2.12).
Следствие доказано.
Пример 2.4. Полный класс функций =&"п (см. пример 2.2).
Для этого класса функций, как показано в п. 2.3, ЛГ^ (^”„) =
= [log2n]. Число функций f^g~n таких, что f(x<)= f(x/) = O, и
таких, что f(x;)= f(х/)= 1, одинаково и равно 2П-2. Поэтому
3~п— однородный класс функций, для которого k\ = 2"-1, а не-
равенство (2.11) принимает вид
Правая часть этого неравенства асимптотически (при п->оо)
равна 21og2n (1 +о(1)); поэтому для полного класса функций
метод случайного планирования дает оценку для ко-
торая при больших п завышена примерно в два раза.
Пример 2.5. Класс функций = У Этот класс функций
однородный, причем
^=т(й-) + (1-й(1-^4т). *=с“-
Неравенство (2.11) при п->оо, s = Fnpl для любого 0 < р <Z
< 1 /2 превращается в асимптотическое неравенство
Л ^^-(1+о(1)),
л(р)
где
£ (р) = — 10g2 гр2 + (1 — р)2! < л (р) =
= — Р log2 р — (1 — р) log2 (1 — р).
Учитывая (2.8), при оо, s = Г пр] получаем
(1 + о (1)) < УЙЙ (<Г’) < (1+о(1)).
2.5. Планирование эксперимента для дизъюнктивной моде-
ли. Описываемые ниже алгоритмы планирования отсеивающих
экспериментов для дизъюнктивной модели широко используются
на практике, в частности при поиске нескольких дефектных эле-
ментов из большого их числа и в схеме примера 2.1.
Предположим, что задана дизъюнктивная модель и известно,
что число значимых факторов не превосходит s (s <C /). Задачи
265
оценки верхних и нижних границ оптимальных стратегий можно
решить с помощью результатов п. п. 2.3, 2.4. Действительно,
дизъюнктивную модель можно рассматривать как модель
А. Реньи, в которой п=Ус{, а неизвестный элемент 0 — под-
множество целых чисел от 1 до /, содержащее не более s эле-
ментов. Класс функций ST при этом содержит, как следует из
определения дизъюнктивной модели, k = 2* функций, что суще-
ственно меньше, чем 2п (число функций полного класса).
Сначала опишем алгоритм последовательного планирования
при условии, что число значимых факторов известно и равно
s > 1.
В первом эксперименте для проверки выбираются первые 2*
факторов, где i определяется из неравенства
2*<//s- 1 <2z+4 (2.13)
Если такого i нет (в случае /<2$), то полагается / = 0.
Если результат эксперимента равен нулю, то среди первых
факторов нет значимых, и эти факторы из рассмотрения исклю-
чаются. Если результат эксперимента — единица, то среди пер-
вых 2‘ факторов есть по крайней мере один значимый; выделим
его i проверками методом деления пополам.
Вторая группа экспериментов аналогична первой, только
ищется либо s значимых факторов среди t—2* факторов, либо
s— 1 значимых факторов среди t— 1 факторов. Остальные груп-
пы экспериментов проводятся аналогично.
Легко доказать (докажите!), что если$=1, то максималь-
ное число экспериментов #(/,$), необходимое для определения
значимого фактора с помощью приведенной стратегии, равно
ПоёгЛ, и поэтому при s=l стратегия является оптимальной.
Можно показать также, что при s > I максимальное число
экспериментов лишь на небольшое (зависящее от s) число от-
личается от нижней границы №*(/,$) для максимального числа
произвольной стратегии, которую легко вычислить с помощью
рассуждений, аналогичных рассуждениям п. 2.3.
Лемма 2.2. Для приведенного алгоритма
S
N* (/, s) = Z log2 (t — s + Z) — log2 $!.
i-1
Доказательство. Всего существует Ct способов вы-
бора s значимых факторов из t — общего их числа. Множество
возможных исходов произвольных N экспериментов равно 2W,
и это число в силу требования однозначного восстановления не
меньше С?:
2w>Ci = (Z-s+ l)(/-s4-2) ... (I—
266
откуда
Af>log2U(/— 1) ••• (i — s+ 1)] — log2s! =
s
= L log2 (t — s + i) — log2 $!.
t=l
Лемма доказана.
2.6. Линейная регрессионная модель. Рассмотрим задачу
планирования эксперимента по отсеиванию факторов в схеме
линейной регрессии. Эта задача является одной из тех задач
отсеивающего эксперимента, которые наиболее часто встречают-
ся на практике.
Предположим, что функция регрессии имеет вид
П(х)=ео + 01Х(1)+ ... + 0<х(/), (2.14)
где х = (х(1), ..., а результат измерения в точке Х/ —
= (х/(1), ...,х/(/))г— случайная величина *// = ?](*/)+е/, гДе
Ee/ = 0, De/ = a2 и ошибки измерений ei, 82, ••• некоррелиро-
ваны. Значимым называется такой фактор х(г), для которого
отличен от нуля соответствующий ему коэффициент 0«.
В задачах отсеивающего эксперимента обычно достаточно
предполагать, что факторы варьируются только на двух уров-
нях, т. е. ху(/)е{—1, 1}.
Задача планирования отсеивающего эксперимента состоит в
таком выборе точек х/ (/= 1, ..., Af), по результатам измере-
ний yj в которых можно было бы с наибольшей точностью выде-
лить значимые факторы.
Если общее число факторов t невелико, то для отсеивания
незначимых факторов функции регрессии (2.14) можно исполь-
зовать стратегию, согласно которой строится невырожденный
статический план для проведения N > t измерений и с по-
мощью, например, /-критерия (см. п. 1.6 гл. 1) проверяется ги-
потеза о значимости каждого фактора в отдельности. В качестве
плана gjv обычно выбирают либо дробную реплику полного фак-
торного эксперимента (см. гл. 2), либо один из так называемых
планов Плэкета — Бермана. Планы Плэкета—Бермана по свой-
ствам аналогичны дробным репликам, но могут быть построены
почти для любых N < 100, кратных 4, а не только для Af вида
2*. Каталог планов Плэкета — Бермана имеется в [19].
Отметим, что для того, чтобы указанная стратегия была ма-
тематически строго обоснованной, необходимо после отсеивания
каждого из факторов пересчитывать все используемые стати-
стики (в том числе и МНК-оценки); в противном случае стати-
стики не будут соответствовать моделям.
Если число факторов t велико, а число N измерений четно
и мало, то относительно хорошие результаты получаются при
использовании случайных планов и проверки с помощью /-кри-
терия гипотезы о значимости каждого фактора в отдельности,
считая действия всех других факторов входящими в случайный
267
фон. Указанный способ проверки гипотезы о значимости факто-
ров называется пофакторным анализом. При построении слу-
чайных планов в рассмотренной стратегии необходимо учиты-
вать, что значения различных факторов x(i) выбираются неза-
висимо друг от друга; каждый фактор принимает N/2 раз зна-
чение + 1 и N/2 раз значение —1; значения каждого фактора
перемешаны случайно. Другими словами, значения каждого
фактора в случайном плане находятся путем случайного выбора
без возвращения из N/2 чисел +1 и N/2 чисел —1. Сформули-
рованный метод построения случайных планов называется ме-
тодом случайного баланса.
МНК-оценка параметра 0Z (i = 1, ..., /), получающаяся при
игнорировании всех факторов, кроме x(i), равна
0, = (^-y_z)/2. (2.15)
где y+i и у-i — средние арифметические результатов измерений у/
в N/2 точках, где фактор x(i) принимает значения +1 и —1
соответственно. Положим
Xi = (*! (О...XN (0)г, i = 1, .... t.
Тогда WX /-матрица плана X записывается в виде Х = (Хь ...
..., Xt). Пусть матрица плана X.фиксирована. Тогда легко счи-
таются среднее, дисперсия и среднеквадратичная ошибка оце-
нок (2.15):
Е (0JX) = 0Z + №’ Е ^XTiXb (2.16)
D (б,1X) = Е (011X) - E2 (0, | X) = o*/N, (2.17)
E [(0/ - 0г)21 X] = <т2/ЛГ + ( 0/XTX/)7№. (2.18)
Ортогональность столбцов Xi и X/ матрицы плана X =
= (Xi, ..., Xt) означает, что выполнено равенство
ХГХ/ = О, /=/=/. (2.19)
Если бы все столбцы матрицы плана X были ортогональны, то
оценка (2.15) была бы несмещенной и обладала наименьшей
среднеквадратичной ошибкой для всех i=l, ..., t. В случае
N <Zt этого достичь невозможно.
Степень неортогональности плана обозначим величиной
maxlx[X/l (2.20)
Для случайных планов степень их ортогональности (2.20) мо-
жет быть большой — с ненулевой вероятностью даже равной Af.
Если для проверки гипотез о значимости факторов использовать
пофакторный анализ, то в силу сказанного выше критерием
оптимальности плана является степень его неортогональности,
268
которую следует минимизировать. Сверхнасыщенные планы, для
которых степень неортогональности (2.20) минимальна, назы-
ваются планами Буса — Кокса. Эти планы могут быть построены
только численно; таблица таких планов содержится в [19].
Рассмотренные планы отсеивания являются статическими.
Для отсеивания незначимых факторов линейной регрессионной
модели (2.14) могут быть использованы и последовательные
планы. Наиболее распространенной последовательной страте-
гией является стратегия двухстадийного группового отсеивания,
которая состоит в следующем.
Сначала все факторы (каждый из которых принимает значе-
ния только на двух уровнях) делятся на некоторое число групп.
Эти группы принимаются за новые факторы и называются груп-
повыми факторами. Считается, что групповой фактор принимает
значение на верхнем (нижнем) уровне, если все входящие в эту
группу факторы принимают значения на том же уровне. Пер-
вая стадия состоит в отсеивании незначимых групповых факто-
ров, а вторая — в отсеивании незначимых факторов из тех групп,
соответствующие которым групповые факторы оказались зна-
чимыми. На обеих стадиях обычно используют упомянутые выше
планы Плэкета — Бермана.
Делить факторы на группы следует таким образом, чтобы
априорная вероятность их значимости была небольшой и при-
близительно одинаковой.
Рассмотренная стратегия двухстадийного группового отсеи-
вания имеет два основных недостатка. Первый состоит в том,
что общее число измерений N, требуемое для отсеивания всех
незначимых факторов, случайно. Второй заключается в том, что
групповой фактор может оказаться незначимым, хотя некоторые
из входящих в него одиночных факторов значимы; например,
пусть в группу входят два значимых фактора x(i) и х(/), коэф-
фициенты перед которыми 0, и 0/ по модулю равны, но по знаку
противоположны. Второй недостаток можно устранить, если
знать предположительные знаки • параметров 0/ (i = l, ..., /)'
и в одну группу включать факторы, которые не взаимодействуют
и знаки параметров 0/ которых одинаковы.
Упражнения.
1. Сформулируйте задачу поиска карточки в каталоге библиотеки как
задачу поиска в комбинаторной модели А. Реньи.
2. Предположим, что имеется одномерная функция f, константа Липшица
которой известна, и требуется с точностью е > 0 найти корень уравнения
f(x) = 0. Предложите такой алгоритм решения этой задачи, который можно
было бы рассматривать как алгоритм поиска в комбинаторной модели
А. Реньи.
3. Докажите, что классы функцийи описанные в примерах 2.2 и
2.3, являются однородными.
4. Исследуйте метод случайного планирования для классов функций
и ^5п в случае, когда случайный выбор функций производится без воз-
вращения (таким способом получаются верхние границы минимальных длин
последовательных стратегий).
269
5. Докажите, используя результат предыдущего упражнения, что для по-
следовательных стратегий в классе функций при всех s п/2 справед-
ливо равенство
^mln (^п) = т + Г102г (« - sm)l
где tn = [n/s] — 2.
6. Пусть &~sn — класс индикаторов подмножеств множества X = {xi, ...
..., хп}, содержащих не более s элементов. Докажите, что при всех s п/2
выполнено равенство
Указание. Для доказательства необходимо показать следующее. Если
в Л’ X «-матрице, состоящей из нулей и единиц, все п столбцов различны, а
в некоторой ее строке число единиц равно s' < $, то в этой строке всегда
можно найти s — s' нулей, после замены которых на единицы все столбцы
новой N X «-матрицы оказываются различными.
7. Докажите, что если число значимых факторов дизъюнктивной модели
равно единице, то максимальное число экспериментов, необходимое для опре-
деления значимого фактора с помощью приведенной в п. 2.5 стратегии поиска,
равно [log2 П-вследствие чего стратегия является оптимальной.
8. Пусть для приведенной в п. 2.5 стратегии поиска значимых факторов
вместо неравенства (2.13) используется неравенство 21 С + О/s — 1 <
Докажите, что максимальное число экспериментов N*(t, s) в получающейся
процедуре групповых проверок равно s), где №*(/, s) определено
в формулировке леммы 2.1.
9. Предположим, что функция регрессии т) имеет вид (2.14), где а2 = 1,
t = 6, 91 — 02 == 1, а остальные параметры 0/ равны нулю. Постройте дроб-
ную реплику 26~3 полного факторного эксперимента, из таблицы нормально
распределенных случайных чисел (приложение 2) выберите восемь чисел, счи-
тая их случайными ошибками измерений. Постройте МНК-оценки парамет-
ров 0/ и с помощью /-критерия проверьте гипотезы о значимости этих пара-
метров.
10. Пусть схема измерений та же, что и в предыдущем примере. По-
стройте случайный план для проведения W = 6 измерений и проведите по-
факторный анализ.
Указание. Для построения случайного плана можно воспользовать-
ся таблицей нормально распределенных чисел следующим образом. Для каж-
дого фактора значения уровней определяются по знаку последовательно вы-
бранного из таблицы нормально распределенного случайного числа. В тот
момент, когда в число уровней фактора войдет N/2 плюс или минус единиц,
остальные уровни выбираются однозначно из условия равенства коли-
честв + 1 и —1.
11. Для схемы измерений, рассмотренной в предыдущем упражнении, по-
стройте пять случайных планов и выберете среди них тот, степень неортого-
нальности которого меньше. Проведите по нему пофакторный анализ с теми
же ошибками измерений, что и в предыдущем примере, и сравните получен-
ные результаты.
12. Проверьте справедливость формул (2.16) — (2.18), не используя ре-
зультаты гл. 1.
13. Пусть план X случайный, т. е. получен по методу случайного балан-
са. Докажите, используя формулы (2.16) — (2.18) и независимость X от слу-
чайных ошибок измерений, что
Е0, = 0ь
DO,- = (N - I)"1 £ 6/ + ^/N< ’’ = 1...
где 0/ —оценки (2.15),
Глава 8
ПЛАНИРОВАНИЕ ИМИТАЦИОННОГО
ЭКСПЕРИМЕНТА
Данная глава посвящена теории планирования имитацион-
ного эксперимента. В § 1 определяется имитационный экспери-
мент и приводятся примеры имитационных моделей. Поскольку
при имитации наибольший интерес представляют средние значе-
ния (математические ожидания) некоторых характеристик мо-
делей, то при планировании эксперимента используются в основ-
ном те же средства, что и при оптимизации процедур статисти-
ческого моделирования. Последние подробно описаны в руковод-
ствах по статистическому моделированию, и здесь мы ограничи-
лись лишь простейшими из известных методов. Задача оцени-
вания нескольких математических ожиданий рассмотрена в § 2.
Оказывается, что при оценивании многих характеристик модели,
задача выбора оптимальной плотности требует для своего реше-
ния тех же средств, что и задачи гл. 3.
§ 1. Имитационный эксперимент
1.1. Понятие «имитационный эксперимент». Появление
быстродействующих вычислительных машин позволило создать
и развить новую отрасль экспериментирования — вычислитель-
ный эксперимент. Понятие «вычислительный эксперимент» как
новая область применения ЭВМ впервые было сформулировано
Дж. фон Нейманом в 1945 г. в связи с моделированием (вычис-
лением) траекторий нейтронов. В дальнейшем вычислительный
эксперимент неоднократно переоткрывался по мере внедрения
ЭВМ в различные области науки и техники. При этом выдели-
лись два наиболее четко определенных класса экспериментов.
Эксперименты, использующие описание исследуемого объекта с
помощью уравнений, и эксперименты, использующие непосред-
ственное (формальное) описание объекта. Первый класс в ко-
нечном счете сводится ко второму. Так, например, решать урав-
нение теплопроводности можно, моделируя (имитируя) броунов-
ское движение молекул, т. е. вычисляя последовательно место-
положение этих молекул.
Мы далее будем исходить из предположения, что вычисли-
тельный эксперимент проводится с объектами, имеющими наи-
271
более детальное возможное описание. Такой эксперимент мы
будем называть имитационным.
Во всех случаях описание объекта полагается в основу про-
граммы для ЭВМ, которая по заданным исходным данным вы-
числяет характеристики исследуемой системы. Эти характери-
стики (наборы чисел) и являются результатом одиночного экс-
перимента. Они могут содержать случайную погрешность или
только погрешность, обусловленную процедурой округления
чисел.
Проведение имитационного эксперимента с помощью ЭВМ
слагается из следующих этапов.
1. Описание явления или процесса, подлежащего моделиро-
ванию.
2. Определение количественных характеристик, доступных
наблюдению или измерению.
3. Проведение необходимых упрощений, выбор типа модели
(т. е. создание собственно математической модели).
4. Перевод модели на язык ЭВМ — выбор языка программи-
рования и создание программы.
5. Анализ результатов расчета. Сравнение с результатами
натурного эксперимента или косвенными данными, имеющимися
в распоряжении исследователя.
Таким образом, имитационный эксперимент—это воспроизве-
дение с помощью ЭВМ модели функционирования некоторой ре-
альной системы. Модели, изучение которых проводится с по-
мощью имитационного эксперимента, отличаются от других мо-
делей (например, моделей, допускающих аналитическое исследо-
вание) возможностью наиболее полного учета всех факторов,
связанных с данным явлением.
Моделирование с помощью ЭВМ получило в настоящее вре-
мя широкое распространение и используется в самых разнооб-
разных отраслях науки и производства.
Модели принято подразделять на детерминированные и ве-
роятностные.
Пример 1.1. Простейшим примером детерминированной
модели может служить модель системы, описываемой диффе-
ренциальным уравнением или системой таких уравнений. Так,
малые колебания маятника (точка массой гп находится на кон-
це стержня длиной /, другой конец которого закреплен так, что
маятник в целом может отклоняться на угол 0) описываются
дифференциальным уравнением
d2b । Л
m/2 -^2- + mglQ = О,
где t — время, g— ускорение силы тяжести.
Примером такого же типа является широко известное описа-
ние распространения тепла в стержне с помощью уравнения
теплопроводности
дТ (t, х) _ 2 д2Т (t, х)
dt ~а дх2 ’
272
где Т — температура, х — координата точки стержня, а — кон-
станта, определяемая свойствами материала.
Детерминированные модели описанного выше типа иссле-
дуются аналитически, если они достаточно просты, и с исполь-
зованием ЭВМ, если вместо одного уравнения в описании мо-
дели фигурируют, например, системы большого числа уравне-
ний и искомые функции зависят от большого числа перемен-
ных. Имитационный эксперимент с помощью ЭВМ состоит для
таких моделей в численном решении соответствующих уравне-
ний. При этом, как правило, требуется замена исходной системы
уравнений разностной системой или другая дискретизация, что
вносит дополнительную погрешность, обусловленную не суще-
ством задачи, а выбором численного метода.
Примерами вероятностных моделей могут служить в первую
очередь системы массового обслуживания (СМО). Такие системы
часто невозможно исследовать другими способами, кроме имита-
ционного моделирования. Простейшие СМО характеризуются:
а) Случайным потоком заявок. Заявки поступают в слу-
чайные моменты времени (которые образуют скачкообразный
процесс).
б) Случайным временем обслуживания. Каждая заявка либо
застает обслуживающее устройство свободным и немедленно на-
чинает обслуживаться, либо становится в очередь. Либо время
обслуживания, либо интервалы между поступлениями заявок
могут быть детерминированы, но, когда детерминированы и вре-
мя, и интервалы, задача не представляет интереса.
Современные ЭВМ снабжены датчиками случайных чисел.
Мы будем считать далее, что датчик, — это программа, которая
при обращении к ней присваивает указанной переменной зна-
чение, равное реализации равномерно распределенной на [0, 1]
случайной величины (с точностью, определяемой разрядностью
ЭВМ). Далее с помощью известных приемов, описанных в ру-
ководствах по статистическому моделированию, по одной или
некоторому множеству реализаций равномерно распределенной
случайной величины могут быть получены реализации случай-
ной величины или случайного вектора с заданными законами
распределения.
Все это позволяет строить имитационную модель случайного
процесса, протекающего в СМО, наблюдая изменения ее состоя-
ний во времени.
Пример 1.2. Имитационная модель размещения туристов
в гостинице. При проектировании современных туристических
комплексов важно заранее предвидеть узкие места в обслужи-
вании. С этой целью предварительно моделируют процесс об-
служивания. При моделировании размещения туристов в реаль-
ной или проектируемой гостинице необходимо задать:
1. Закон, по которому прибывают туристы, и интервалы вре-
мени между прибытием отдельных туристов или групп. Обычно
такой закон задают, исходя из статистической обработки реаль-
273
ных потоков туристов. Он зависит от вида транспорта и распи-
сания прибытия поездов, самолетов и т. п.
2. Распределение вероятностей категорий туристов (иностран-
ные туристы, правительственные делегации, крупные группы
и т.п.)
3. Количество свободных мест в гостинице в начальный мо-
мент времени. *
4. Время оформления туриста, которое зависит от категории
туриста и ряда других факторов.
Модель может быть более или менее подробной. Обычно в
ЭВМ хранятся сведения о туристах, размещенных и находя-
щихся в процессе размещения в определенные моменты вре-
мени (например, каждые 20 мин.). Каждую количественную ха-
рактеристику модели можно рассматривать как случайный про-
цесс и применять для обработки данных методы, разработанные
в статистике случайных процессов. Моделирование, подобное
описанному, применяется для решения вопросов о числе мест
в проектируемой гостинице, числе лифтов, размере холла, чис-
ленности персонала и т. п.
Пример 1.3. Более прозрачным является пример модели-
рования прохождения частиц (у-квантов, нейтронов и т. п.) че-
рез вещество. Здесь тоже могут быть модели разного уровня
сложности. Простейшая из них может быть описана следующим
образом.
Каждая частица характеризуется моментом времени t, про-
странственными координатами г = (х, у, г), направлением движе-
ния Q=(«, v, w)—единичным вектором (и2 -j- ц2^ w2 = 1) и
энергией Е (или модулем скорости).
Обычно частица движется в веществе, занимающем объем V
с границей S, которое мы для простоты считаем однородным на-
бором атомов. Экспериментально устанавливается распределе-
ние длины свободного (без столкновений с атомами вещества)
пробега I частицы. Обычно это экспоненциальное распределение
с плотностью вероятностей S(Z:)exp{—/S(f)}, где 2(£)—за-
данная (полученная экспериментально) функция энергии.
Если частица взаимодействовала с атомом вещества (столк-
нулась), то она либо поглощается (погибает), либо меняет свою
энергию Е, направление полета Q и движется далее по тем же
законам, что и раньше. Для полного представления о модели
такого рода опишем подробно алгоритм моделирования в гипо-
тетическом простейшем случае. Обозначим через а<, а,-, / (i, j —
= 1, 2, ...) равномерно распределенные случайные числа.
Алгоритм строится следующим образом.
1) Полагают t = 0, а г, Е и Q находят, моделируя их со-
вместное распределение. В простейшем случае может быть
г = г0, Q = Q0, Е = Е0— точечный (в точке го) мононаправлен-
ный (в направлении Qo), моноэнергетический (с энергией Ео)
источник. Полагают также т = 0 (т — номер столкновения),
п =.0 (п — общее число просмотренных историй частиц).
274
2) Находят пробег до столкновения 1т, моделируя плот-
ность S (£m) e-s (Вт) Ч т. е. lm = (— In а<^>). Полагают
гт-ц = rm-l-lm+lQm, 1т делится на модуль скорости движения
частицы |о|. Находим tm+l = lm + /m|f I-1.
3) Если rm+i находится внутри объема V, то переходим к
шагу 4); в противном случае добавляем единицу к счетчику
частиц, покинувших объем, и переходим к шагу 7.
4) С вероятностью p(£m)= Sn(£m)/S(£m) частица погло-
щается, а с вероятностью 1 — р(Ет) рассеивается (здесь р и
Sn — заданные функции). Если происходит поглощение, то пере-
ходим к шагу 7), если рассеиванйе — к шагу 5).
5) Подсчитываем Em+i = а1гЕт (такой закон изменения энер-
гии выбран для примера) и Qm+i. Величина Qm+i строится (в на-
шем примере) независимо от г, Е, t, a Qm — как изотропное на-
правление:
и = cos 2ла, sin 2ла,,
v = cos 2ла/з cos 2ла/г
w = sin 2шхд.
6) Заменяем т на т + 1 и переходим к шагу 2).
7) Увеличиваем на единицу счетчик общего числа про-
смотренных частиц, проверяем, не превзошло ли его содержи-
мое заданного числа N. Если нет, то переходим к шагу 1), если
да, то прекращаем расчет.
В результате моделирования можно оценить следующие, вы-
бранные нами, характеристики: вероятность поглощения при-
мерно равна k\/N и вероятность выхода из системы примерно
равна 1 —k\/N, где k\ — число поглотившихся частиц. В соответ-
ствии с законом больших чисел k\/N при Af->oo сходится к со-
ответствующей вероятности.
Большое количество примеров детерминированных математи-
ческих моделей можно найти в учебниках по физике, механике
жидкости и газа и т. п. Примеры статистических моделей содер-
жатся в курсах теории вероятностей и статистического модели-
рования. И те и другие модели широко используются в физике,
химии, биологии, медицине, социологии и других областях науки
и техники.
Рассмотренный нами пример 1.3, как легко видеть, пред-
ставляет собой пример моделирования марковского процесса.
Состояние частицы в момент времени tm+i зависит только от
состояния в предшествующий момент tm> В этом случае сравни-
тельно легко записать в явном виде переходную плотность.
Значительно труднее классифицировать случайный процесс
примера 1.2. Модели такого типа обычно состоят из блоков,
взаимодействующих между собой. Каждый из таких блоков мо-
жет быть удобным образом описан случайным процессом опре-
деленного типа или детерминированным образом (в виде конеч-
275
ного автомата). Обычно блоки подсистемы, на которые разби-
ваются сложные системы массового обслуживания, описывают-
ся скачкообразными марковскими процессами, вероятностными
или конечными автоматами.
Н. П. Бусленко ввел достаточно общее понятие «агрегат»,
которое в частных случаях описывает каждую из перечислен-
ных выше подсистем. Системы, которые состоят из подсистем,
являющихся агрегатами, называют агрегативными системами.
Вопросы описания таких систем и автоматизации составления
программ для их моделирования достаточно хорошо изучены
(см. учебники по статистическому моделированию [14, 17, 29]).
Существенно менее разработанной является теория планиро-
вания имитационного эксперимента. Заметим предварительно,
что имитационный эксперимент доставляет, вообще говоря,
больше возможностей для планирования, чем натурный, так как
при имитационном эксперименте распределения случайных ве-
личин находятся в распоряжении экспериментатора, а при на-
турном даются природой.
Отсюда следует прежде всего, что все методы планирования
эксперимента, разработанные для натурного эксперимента мо-
гут быть использованы и в имитационном эксперименте.
Другие методы планирования подразделяются на общие ме-
тоды и методы, специфические для марковских моделей.
Как и в общем случае, непосредственной целью планирова-
ния имитационного эксперимента является минимизация затрат.
Если результатом экспериментирования является одно число —
оценка математического ожидания моделируемой случайной ве-
личины Цо У ее независимым реализациям, то затраты на про-
ведение имитационного эксперимента (трудоемкость) опреде-
ляются величиной где t — среднее время ЭВМ, необходи-
мое для получения одной реализации g.
Далее рассматриваются наиболее простые и распространен-
ные методы планирования имитационных экспериментов.
1.2. Простейшие методы планирования имитационных экспе-
риментов. А. Метод зависимых испытаний. Пусть мо-
дель зависит от некоторого числового параметра х, а в резуль-
тате моделирования на ЭВМ мы получаем реализацию случай-
ного процесса |(х, со), где <о = со(аь ..., а^ ); через он, as, ...
здесь и далее обозначены псевдослучайные числа, получаемые
последовательно с помощью программного датчика. При изуче-
нии зависимости модели от параметра х планирование состоит
в том, что моделирование при разных значениях х производится
по одной и той же последовательности случайных чисел.
Так, вычисления g(x0, <о) и £(хо + А,<о) по одной и той же
последовательности случайных чисел со дают возможность оце-
нить разность Е[£(хо + Л, <в)— £(*о,ю)] с большей точностью,
чем при вычислении &(%о + Л, <в) и |(хо, со')> гДе ® и <о' незави-
симы. Это необходимо иметь в виду при проведении имитацион-
ных- экспериментов с целью оптимизации.
276
Б. Метод противоположной переменной. Как
правило, целью моделирования является оценка некоторых сред-
них характеристик модели. Отображение co = (o(ai, ..., ан{)
сводит (по крайней мере теоретически) задачу к задаче оцени-
вания интеграла по единичному гиперкубу. Размерность гипер-
куба заранее неизвестна. Тем не менее можно применять квад-
ратурные формулы со случайными узлами, которые нечувстви-
тельны к размерности интеграла.
Так, например, наряду с реализацией случайного процесса
g («ь ..., адг) можно использовать g (1 — аь 1 — а2, ..., 1 — aN).
Процесс [£ (аь ..., — аь ..., 1 — a.N)] будет иметь те
же средние характеристики, но с меньшими дисперсиями. Изве-
стны более сложные квадратурные формулы, применяемые для
аналогичных целей.
В. Расщепление и рулетка. Этот общий прием уме-
стно пояснить на простейшем примере системы массового обслу-
живания с одним прибором. Пусть в систему через случайные
промежутки времени поступают заявки, которые ставятся в оче-
редь, если имеются заявки, уже находящиеся в очереди или
в процессе обслуживания. Если очереди нет и прибор свободен,
то заявка немедленно поступает на обслуживание. Состояние
системы обычно характеризуют числом п заявок, находящихся
в системе в данный момент. Моделирование состоит в просле-
живании изменений числа п. Интерес представляют вероятности
pn(t) того, что в системе в момент времени t находится п требо-
ваний. Если для системы существует стационарный режим, то
существует предел рп — lim рп (/).’ Если заявки поступают редко
/->©0
и обслуживаются быстро, то рп при большом п — величина ма-
лая, и оценить ее трудно (большого числа заявок в системе
практически не бывает).
В этих случаях можно поступать так. Разделим время функ-
ционирования системы на отрезки длины Т и зададимся некото-
рыми п — N и т. Если &0— первое значение такое, что по исте-
чении времени kQT число требований в системе превзойдет Af, та
с этого момента времени будем рассматривать m идентичных
систем, снабжая все характеристики «весом» по 1/ги каждую.
Некоторый момент времени k{T окажется опять таким, что чис-
ло требований, хотя бы в одной из систем, будет 2Af (^ >k).
Эту систему мы опять делим на m (или какое-нибудь другое
число тх) систем, домножая ее характеристики на 1/ги. Этот
прием и носит название «расщепление». При этом выделяются
перспективные для нас системы.
Очевидно, что при таком расщеплении накапливается с тече-
нием времени много систем, для нас неперспективных. Среди
них проводится «лотерея». «Выигравшая» система сохраняется,
и ей приписывается вес, равный суммарному весу всех участво-
вавших в лотерее систем. Это и есть «рулетка».
277
Методика выбора параметров расщепления и рулетки и со-
ставляет задачу планирования эксперимента, которая изучена
недостаточно.
Перечисленные методы применимы при моделировании широ-
кого класса систем. Во всяком случае все агрегативные системы
могут моделироваться с их использованием.
1.3. Методы существенной выборки. Предположим, что моде-
лируемая система может находиться в некотором множестве
состояний X. Поведение системы во времени x(t) можно рас-
сматривать как реализацию случайного процесса. Прослеживая
это поведение на временном промежутке [О, Г] от начала функ-
ционирования системы до времени Т, можно оценивать средние
характеристики системы по этому промежутку. Иными словами,
«прослеживание» траекторий есть осуществление их случайного
выбора в соответствии с мерой ц, определенной на этих траек-
ториях алгоритмом моделирования. Если f(x) —характеристика
системы, то f (х) р. (dx) — средняя характеристика системы. Не-
смотря на прозрачность такой трактовки, задание в явном алго-
ритмическом виде функции f и меры р в реальных задачах свя-
зано со значительными трудностями.
Рассмотрим подробно более конкретную задачу. Будем рас-
сматривать системы с множеством состояний X, которые слу-
чайно изменяют свое состояние в дискретные моменты времени.
Последовательность состояний хб -> Xi ... -*• x* (х(- е X),
в которых система находится в процессе своего функциониро-
вания, принято называть ее траекторией.
Имеются два случая, требующих различных методов иссле-
дования.
Случай 1. В X' имеется особое состояние {а} (поглощаю-
щее). Попав в это состояние, система (частица) более из него
не выходит (поглощается, погибает). На языке теории надеж-
ности попадание в (а) означает выход системы из строя. В рас-
сматриваемом случае предполагается, что с вероятностью еди-
ница каждая траектория Xi-*-x2-*- ... -*-Xk обрывается при не-
котором k.
Случай 2. Поглощающее состояние отсутствует. Траектория
системы бесконечна, однако, при достаточно большом Т можно
считать, что x(t) для t > Т является стационарным процессом.
Рассмотрим подробно случай 1. Предположим, что на X =
— Х'\{а} заданы вероятностная мера р и траектория длины
k: xi->-X2-»- ... х^ которой соответствует плотность вероят-
ности <7*(хо, ..., Xk), заданная по отношению к мере
p(dx0)<2>.-..® p.(dxft)=dp(Sft),rfle 3* = (х0.xk), так что ряд
ОО
^(S*w+l
ft-0
сходится и его сумма равна единице.
278
Тем самым определен скачкообразный случайный процесс,
который будем обозначать {^}.
Имитационный эксперимент заключается в вычислении тра-
екторий процесса и изучении поведения некоторого функцио-
нала на этих траекториях. В частности, могут быть исследо-
ваны средняя стоимость функционирования системы, средняя
прибыль, которую эта система дает, вероятность выхода ее из
строя и др.
Функционал, который мы обозначим g, зависит, вообще го-
воря, от бесконечного числа переменных g = g(x0, Xi, ....
..., хЛ, ...). Если траектория обрывается в точке Xk, то пола-
гаем g(x0,.хк, а, а, ...) = f(A)(S*).
В этих обозначениях выражение для математического ожи-
дания случайного функционала Eg имеет вид
оо
Eg = £$dpA+7w(Sft)<7k(3k). (1.1)
fe-c J
В случае существования второго момента
оо
Eg2 = £ $ (f(fe> W qk (Sft). (1-2)
fe-0
Если совокупность функций определяет другой процесс,
траектории которого обрываются вас вероятностью единица
и при всех k выполняются условия
<7fe(aft)>0» если <7(а*)>°> (1-3>
то могут быть определены функции
Функцию г траекторий Sk, которая принимает на Sk значение
r<*)(Sk), называют производной Радона — Никодима меры, ин-
дуцированной случайным процессом {qk} по мере, индуцирован-
ной процессом {<4}.
Очевидно, что Eg = Eg', где = r(A> (3fe) f<А) (Sft),
оо
J (з.) f<‘> (в*) ?; (а,).
й-0
Это означает, что нужную нам характеристику Eg мы можем
вычислить также, моделируя процесс {q'k} и вычисляя на его
траекториях 3* функционал {g*}.
Вообще говоря, Eg2 Eg'2, что позволяет планировать ими-
тационный эксперимент методом введения «фиктивной модели».
Фиктивная модель описывается случайным процессом {q'k}. Она
связана с исходной только условиями (1.3), которые можно
трактовать как условия подобия моделей.
279
С помощью использования фиктивной модели можно, на-
пример, при изучении аварий высоконадежных систем получать
аварийные ситуации значительно чаще, чем при использовании
исходной модели. При оценивании малых вероятностей непо-
средственное моделирование может быть связано с неоправдан-
но большими затратами машинного времени (событие, вероят-
ность которого очень мала, нужно ждать очень долго).
Что касается выбора оптимальной фиктивной модели при
оценивании Eg, то соответствующий результат следует из об-
щей теории метода Монте-Карло.
Пусть |х — вероятностная мера на X и f—ц-интегрируе-
мая' функция. Рассмотрим задачу оценивания интеграла
/ = f (х) n(dx) = f (х) (х) v (dx), где v — вероятностная
мера, абсолютно непрерывная по отношению к ц, a dfi/dv яв-
ляется производной Радона — Никодима меры ц по мере v. Его
несмещенными оценками будут среднеарифметические оценки
вида
N
j=l
где yi независимы и распределены по закону v.
Теорема 1.1. Дисперсия случайной величины xv достигает
своего наименьшего значения при v = v0, где
v0(dx) = \f(x)\n(dx)-7~l, (1.4)
$ I f (х) | ц (dx),
и равна
DxVe = | f | p (dx))2 — ( J | f (x) | и (dx))2.
Доказательство. Из неравенства Коши — Буняковского
следует неравенство
5 /2 W w)2 v > (5 If W 1 -57 (X) v (dx))2 =
= ($lf(x)|g(dx)) .
С другой стороны, Е«2 = f2 (х) (х))2 v (dx), и при v = v0
Exv,= ($ I f I И • ТеоРема доказана.
Если теперь мы применим полученные результаты к задаче
вычисления интеграла Eg' с помощью среднеарифметического
реализаций 5', то оптимальная плотность траекторий должна
.выражаться следующим образом:
= ....П.5)
:280
где J = Е111. При таком выборе плотностей дисперсия оценки
для неотрицательных fk равна нулю. Обычно используются плот-
ности, близкие к (1.5)» что дает возможность сокращать время
моделирования.
Особый интерес может представлять случай, когда система
описывается в множестве состояний X цепью Маркова. В этом
случае процесс определяется плотностью начального распреде-
ления ро(х) и переходной плотностью р(х-+у), для которой
выполнено. J р (х у) dy = 1 — g (х), где g(x)— вероятность об-
рыва траектории и
qk (х0, .... хк) = р0 (х0) р (xt -> х2) ... р (хк_ 1 -> хк) g (хк).
Если при этом
fk(Xo, Xk) = fo(Xo)f(X0, Xj) ... f(xk_lt xk)fdxk),
т. e. fk имеет марковскую структуру, то оптимальный случайный
процесс также будет марковским. Соответствующие результаты
можно найти в руководствах по методу Монте-Карло.
Рассмотрим случай, когда траектории процесса не обры-
ваются, но существует стационарное распределение вероятно-
стей, и моделируемый процесс является марковским.
Распределение начального состояния предполагается произ-
вольным. В течение некоторого промежутка времени [0, 71] про-
цесс находится в переходном режиме, а затем при достаточно
большом Т распределение его вероятностей можно4 считать ста-
ционарным. Характеристики стационарного режима, вычисляе-
мые в процессе моделирования, имеют, таким образом, погреш-
ности двух сортов: систематическую (она убывает для широкого
класса процессов как о(1/Г)) и случайную (порядка о(1/д/7Г))-
О величине систематической погрешности можно судить, моде-
лируя на [О, Т] по крайней мере две независимые траектории
процесса.
Случайная погрешность играет в большинстве случаев основ-
ную роль при анализе погрешности. Ее уменьшения можно до-
стичь за счет применения случайных квадратурных формул (в
частности, метода противоположной переменной), расщепления
и рулетки, которые очень просто реализуются, а также других
приемов. Последние при вычислении характеристик .стационар-
ного распределения могут иметь специфические особенности.
Особенностями такого рода, например, обладает метод суще-
ственной выборки, Этому методу для стационарного случая по-
священа обширная специальная литература. Далее рассматри-
вается один из его вариантов для случайного процесса, имею-
щего возвратные состояния. Процессы такого типа, описываю-
щие многие задачи теории массового обслуживания, носят на-
звание процессы регенерации.
Процессы регенерации, начиная свою траекторию из некото-
рого фиксированного состояния, возвращаются в это состояние
281
через случайные промежутки времени, которые называют эта-
пами. На каждом этапе начинается как бы новый процесс, ко-
торый не зависит от процессов на предыдущих этапах.
Если (£(/))—функционал на траекториях процесса то при
т
сделанных предположениях среднее Г-1 J w (I(0) dt при Т->оо
0
будет стремиться к J w (х) р. (dx), где р— стационарное распре-
деление состояний
Пусть 7'о = 0, Ti (i = l,2, ...)—моменты времени, когда
процесс попадает в некоторое фиксированное (возвратное) со-
Ti
стояние. Предполагаем, что величины w$>(t))dt могут быть
Ti^
непосредственно вычислены в процессе моделирования.
Тогда
Tm z т Ti \ /( т \
т~тх j W(I(0)dt=(£ J w(g(/))dtjj (£(t(- J.
Правая часть этого равенства представима в виде
т / т
(1.6)
' i=l / i=l
где Xt и Yi— случайные величины, Xi независимы в совокуп-
ности и Yt также. Если числитель и знаменатель (1.6) умножить
на т~1, то получим отношение двух средних арифметических не-
зависимых, одинаково распределенных случайных величин.
В курсах математической статистики (см. также [17, с. 142])
доказывается, что такое отношение является асимптотически
несмещенной оценкой для w (х) p (dx) и имеет асимптотически
по т нормальное распределение с дисперсией
, 1 г DX{ о EXt „„/v ОГг(ЕХ/)21 /,
а ~ т [ (ЕУ/)2 2 (ЕУ<)3 COV^Z’ (ЁуЛ* Г ( ‘7)
Опуская индекс i и полагая X = f(<a), Y = g(a>), где со — слу-
чайная величина, распределенная по закону P(dco), получаем
о2 = —Арр- [(ЕУ)2 $ (f (со) - EX)2 Р (Ао) -
- 2ЕХЕУ j (f (со) - EX) (g (co) - ЕУ) P (Ao) +
+ (ЕХ)2$&(со)-ЕУ)2Р(Ао)] =
=тгщгу $(/ (t0) EY~g (<d) Ex)2 P (йМ*
582
Теперь предположим, что применяется существенная выбор-
ка, т. е. вместо меры Р выбрана мера Q, абсолютно непрерыв-
ная по отношению к Р. Тогда
г т / т *1
lira
г fn / т *1
= ±.Е |£ '-йг «'>е ы £ К|)]
Асимптотическая дисперсия <j2q отношения средних f
/X 8 вычисляется в соответствии с (1.7). Простые вы-
кладки дают
ff2Q “ Н ЕГ - S (®) EX)2 -g- (®) Q (<М-
Нетрудно убедиться, что оптимальная в смысле величины дис-
персии мера Qo(dco) дается формулой
Qo (d<o) = С | f (со) EY - g (<о) EX | Р (Жо), (1.8>
где С — константа нормировки.
Приведенные рассуждения показывают принципиальную воз-
можность планирования имитационного эксперимента при вы-
числении характеристик стационарного распределения случай-
ного процесса.
Как и в случае марковского процесса, желательно, чтобы
мера Qo соответствовала некоторому марковскому процессу.
Этого, однако, не всегда можно добиться. Соответствующие ис-
следования для некоторых случаев содержатся в специальной
литературе по методу Монте-Карло.
Упражнения.
1. Пусть <7ft(Bft) = P0(x0)p(xI->x2) ... p(xft_l-»xft)g(xft), т. е. {qJ
определяют марковскую цепь с поглощением.
При каких условиях функционал
f = {&}• d = [?* (аА)1 '* fl (*о) f (Ъ xi) • • • f (Xk -1. xk) fo (Xk) (1.9)
является несмещенной оценкой для Е£?
2. Пусть интегральное уравнение
Ф W = I f (х< у) | р (х -+ у) <р (у) ц (dy) + | f i (х) | g (х) (1.10)
имеет итерационное решение ф(х).
Покажите, что при положительных fo, f и fr.
а) функции ро (х) = [о (х) Ро (х) ф (х)/ф (х) f0 (х) р0 (х) ц (dx) и р (х-»у) =
= Нх> У) Р У) ф (У)МХ) могут быть выбраны в качестве плотности на-
чального распределе'ния и переходной плотности соответственно для марков-
ского процесса;
283-
б) для выбранных таким образом плотностей дисперсия функционала
<1.9) обращается в нуль;
в) получите аналогичные а) и б) факты для функционала (1.9), если
₽0 (х) — /1 (х) Ро (X) Ф* (х)/^ ф* (х) ft (х) ро (X) ц (dx),
Р (х -> у) = f (у, х)1р (у -+ х) ф‘ (у)/ф* (х),
тде <р*(х) является итерационным решением уравнения
Ф* (X) = f (у, х) р (у -> х) Ф* (у) ц (dy) + fo (X) g (х),
«сопряженного» к (1.10).
§ 2. Метод существенной выборки
при одновременном оценивании нескольких интегралов
2.1. Постановка задачи. Пусть X cz R", & — о-алгебра боре-
левских подмножеств множества X, v — некоторая ст-конечная
мера на
gi<=L2(X, v), i=l........т,
= Д«Цх)>о|.
Ят — множество неотрицательно определенных т X т-матриц,
Л’т — множество положительно определенных т X ги-матриц.
Очевидно, что X, е т. е. X» — измеримое множество.
Пусть выбрана вероятностная мера P(dx)=*= p(x)v(dx) на
(X, $1), где p — dP/dv— плотность распределения по мере v, и
получены N независимых реализаций xi, xN случайного век-
тора с этим распределением. Интегралы
gi (х) v (dx), i — 1, ..., т,
оцениваются по формуле
N
Ji = N~lZgi(xl)/p(xl), (2.1)
что соответствует подсчету интегралов по методу Монте-Карло.
Положим
g (х) = (§! (х), ..., gm (х))Т, J = (Ji.Jm)T,
7 = (Л.....4У-
д>—множество таких плотностей распределений р(х) на X, что
р (х) > 0 при v почти всех х е X», т. е.
284
Очевидно, что &— выпуклое множество. Действительно, для
любых plt р2 е & и а <= [О, I] имеем
Ра (х) = api (х) + (1 — а) р2 (х) > О,
Ра (х) > 0 (mod v)>
( ра (х) v (dx) = а ( pi (х) v (dx) + (1 — а) р2 (х) v (dy) — 1,
хх х
т. е. ра <= Я
Далее, не оговаривая особо, считаем, что v (X,) > 0.
Лемма 2.1. Если р<=Ф, то EJ = J (т.е. оценки (2.1) не-
смещенные), а дисперсионная матрица оценок (2.1) равна
D/= Е (7 - J) (J — J)T = АГ* Г ( -8(Х)п^— v (dx) - JJT 1. (2.2)
Lx J
Доказательство. Аналогично доказательству леммы4.2
гл. 4
N
^1р= Еlgi (Х1^ =
/-1
= $ [& (х)/р (х)] р (х) v (dx) = gi (х) v (dx) = Jt,
X. х
Е (Ц - Ji) (Jt - Ji) = Е7Л - JiJi,
N
EJiJi = N~2 £ E{^i(x/)^(xJ]/[p(x/)p(xft)]} =
= N"'2b (N - 1) JiJ, + J (x) gt (x)]/p (x)} v (dx) 1 =
I X J
= (! “t) JiJt + IF J 8‘ Wl/P(x^v (dx)-
X
Полученные формулы эквивалентны приведенным в утвержде-
нии леммы. Лемма доказана.
От дисперсионной матрицы оценок (2.2) перейдем к норми-
рованной дисперсионной матрице D(p)^NDJt которая уже не
зависит от N, а зависит только от р. Матрица
D (р) = J [g (х) gT (х)/р (х)] v (dx) - JI* == || du (p) ||“/=1 (2.3)
определяет качество оценок (2.2) в зависимости от плотности
распределения р. Аналогично классической теории планирова-
ния эксперимента по оцениванию параметров линейных регрес-
сионных моделей (см. гл. 3) ниже будет рассматриваться за-
дача минимизации функционалов от матриц (2.3).
285
Из свойств дисперсионных матриц следует, что D (р) е
для всех р е Ф.
Пусть Ф — некоторый функционал, заданный на За-
дачей оптимального выбора плотности распределения элемен-
тов выборки X], ..., xN будем считать экстремальную задачу
нахождения плотности
р* = arg min Ф [Р (р)]. (2.4)
р е &
Плотность р* в случае ее существования будем называть опти-
мальной.
Сначала рассмотрим вопрос о том, какие критерии опти-
мальности могут быть использованы для выбора оптимальных
плотностей.
2.2. О критериях оптимальности. Задача выбора критерия
оптимальности мало чем отличается от соответствующей задачи
в классической теории планирования эксперимента. В принципе
в качестве Ф может быть выбран любой выпуклый функционал
на множестве Достаточно полный перечень используемых
в теории планирования эксперимента критериев содержится в
гл. 3. Напомним несколько из них.
Критерий D-оптимальности:
O[D] = lndetD. (2.5)
Критерий линейной оптимальности (или L-оптимальности):
O[D] = trLD, (2.6)
где L — произвольная матрица из Л% Частным случаем кри-
терия (2.6) является критерий
m
Ф [D] = (a, <=R), (2.7)
соответствующий случаю диагональной матрицы L.
Укажем также критерии Е-оптимальности
Ф [О] = Xmax (D) (2.8)
(здесь Xmax(D)—максимальное собственное число матрицы О)
и МУ-оптимальности
Ф [D] = max dti. (2.9)
i-l,.... m
Плотность, оптимальную в смысле одного из указанных кри-
териев, будем называть соответственно D-, L-, Е- или MV-опти-
мальной плотностью.
Задача выбора критерия оптимальности может быть слож-
ной и плохо формализованной. Но в некоторых постановках за-
дачи нахождения оптимальной плотности способ выбора Ф
однозначен. Так, если при оценивании коэффициентов Фурье
функции регрессии погрешность оценки регрессии определять
286
через норму пространства L2, то приходим к Л-критерию (2.6)
(см. § 4 гл. 4). Другой пример — при оптимизации векторных
алгоритмов метода Монте-Карло оценивания функционалов от
решений систем линейных интегральных уравнений естественно
возникает Л4К-критерий [29].
2.3. Ограничения на критерий оптимальности. Ниже пере-
числены встречающиеся в данной главе ограничения на крите-
рий оптимальности Ф:
а) если А, В е и А В, то Ф (А) Ф (В) (монотонность)»
б) если A, В^Лт и А > В, то Ф(А)>Ф(В) (строгая мо-
нотонность);
в) если А, В Лт и ае(0, 1), то
Ф [аД + (1 - а) В] < аФ (А) + (1 - а) Ф (В) (2.10)
(выпуклость на множестве Л^)~,
г) в (2.10) для А #=В имеет место строгое неравенство (стро-
гая выпуклость);
д) существует такая плотность что Ф[£>(р)] < оо;
е) для AeJm выполнено Ф(А)<оо, если и только если
II л II < оо;
ж) Ф(А) дифференцируем по элементам матрицы А (глад-
кость).
Условия а)—г), ж) в теории планирования регрессионного
эксперимента стандартны, а условия д) и е) специфичны для
данной постановки. Условие е) накладывается в тех случаях,
когда необходимо оценить все т интегралов Jt. При невыполне-
нии условия е) может оказаться, что некоторые из дисперсий
diAp*), соответствующих оптимальной плотности, бесконечны;
если же условие е) выполнено и оптимальная плотность р* су-
ществует, то при ее использовании дисперсии d«(p*) всех оценок
(2.1) конечны. При невыполнении условия д) экстремальная
задача (2.4) тривиальна: ее решением является любая плот-
ность рей2’, при этом все решения одинаково плохи. Условие д)
выполнено, например, если выполнено условие е), мера v ко-
нечна и gt^Lz(X, v) (i = 1.....m); в этом случае в качестве
р можно взять константу, т. е. равномерную плотность р(х)=
= [v(X.)]-1.
Из выписанных критериев (2.5)—(2.9) условиям а)—г), е),
ж) удовлетворяют критерии (2.5), (2.7) и (2.6) при L > 0. Кри-
терии (2.8) и (2.9) удовлетворяют условиям а)—в), е). Если
то для критерия (2.6) не выполняется г); если,
кроме того, в матрице L имеется нулевая строка, то для крите-
рия (2.6) не выполняется также е). Все эти факты либо хорошо
известны (см. гл. 3), либо легко проверяемы.
2.4. Существование и единственность оптимальных плотно-
стей. Кроме приведенных условий а)—ж) на критерий опти-
мальности ниже будут использованы следующие два условия на
функции ..., gm:
287
з) функции gi(x).....gm(x) линейно независимы на любом
таком измеримом подмножестве Y множества X*, что у(У)>0
(условие v-регулярностинабора функций {gi, £от},см. [14]);
и) функции gi(x), gtn (х) линейно независимы на любом
таком измеримом подмножестве У множества X*, что v(Y) —
= v(XJ.
Прежде чем формулировать утверждения о существовании
и единственности оптимальных плотностей, докажем несколько
вспомогательных лемм о свойствах дисперсионных матриц, функ-
ционалов Ф и оптимальных плотностей.
Для любых pi, р2 е Ф и а е (0, 1) положим
D (а, pt, р2) = ай (р,) + (1 — а) D (р2) — D [ctpj + (1 — а) р2]. (2.11)
Лемма 2.2. Для любых pi, р2 е ф и а е (0, 1) имеет место
D (а, pi, р2) = $ v (х) g (х) gT (х) v (dx), (2.12)
х
где
v (х) = а (1 — а) [pi (х) — р2 (х)]2 {р{ (х) р2 (х) [api (х) +
+ (1 - а)р2(х)] }-‘>0,
и, кроме того, матрица D(a, рьр2) неотрицательно определена.
Доказательство. Проводим элементарные алгебраиче-
ские преобразования:
D (a, pi, р2) = J g (х) gT (х) v (dx) +
X
+ $ ё (X) gT (х) v (dx) — J {§• (х) gT (x)/[api (х) +
X 2 X
+ (1 - а) р2 (х)] } v (dx) = J g (х) gT (х) -
X
- арАх) + (1-а}Р2 Дд] v = j v W ёт (х) V (dx).
В результате мы получили (2.12). Неотрицательная определен-
ность матрицы (2.12) следует из определения: для любого а =
= (ai, ...» am)T Rm имеет место
т
aTD (a, pi, р2)а= £ v (х) g, (х) gj (х) v (dx) =
i, x
m
= \v(x) £ a{g{ (x) ajgj (x) V (dx) =
X Z, /“1
Г m -.2
= $v(x) Xa^;(x) v(rfx)>0.
x L=i J
Лемма доказана.
288
Лемма 2.3. Пусть выполнено условие з), р\ =/=
#=p2(modv), ае(0, 1). Тогда D(a, рь р2)(=
Доказательство. Матрица (2.12) записывается в виде
D (a, pl9 p2)=^v (х) g (х) gT (х) v (dx),
z
где Z &— такое подмножество множества X, на котором
р(х)>0. В силу того что pi Ф p2(modv) и яе(0, 1), имеем
v(Z)>0.
По условию функции gi(x), gm(x) линейно независимы
на любом подмножестве У множества Z ненулевой меры v. По-
этому и функции
hi (х) = д/v (х) gi (я), i = 1, ..., m,
обладают тем же свойством. Действительно, выражение
§ ciht (х) = Vo(x) £ Ctgt (х)
J=1 z=l
при всех хе У равно нулю в том и только том случае, когда
Ci = с2 = ... :=:: ст = 0.
Теперь покажем, что D(a, рь р2) > 0. Для любого
a==(ait ат)т <= Rm \ {0}
имеем
т
aTD(a, pi, р2)а = У hi (x)hj (х) v (dx) =
i, 1 = 1 Z
== j I 2j a^1 ) v (^x) >
_ Z \i=l /
Обозначим через ф замыкание множества состоящее из
заданных на X» неотрицательных обобщенных функций q(x),
для которых
^q (х) v (dx) 1.
х.
Пусть q* е ф— решение задачи минимизации Ф[О(р)] на мно-
жестве которое всегда существует.
Две следующие леммы показывают, что при малоограничи-
тельных условиях q*^^, откуда, в частности, вытекает кор-
ректность определения экстремальной задачи (2.4).
Лемма 2.4. Если выполнено условие и), q е &и ||Z)(^) ||< оо,
то D(q)+ 1Г А
Для доказательства нужно записать D(q)-\-JJT в виде (2.12)
с заменой v(x) на \/q(x) и повторить доказательство леммы2.3.
Ю С. М. Ермаков, А. А' Жиглявский 289
Лемма 2.5. Пусть выполнены условия б), д), е), и). Тогда
р' = arg min^ Ф [D (р)] е 3*.
ре#
Доказательство. Нужно показать, что вероятностная
мера P*(dx) = p*(x)v(dx) абсолютно непрерывна относительно
меры v и Р*(Х») = 1. Предположим противное, т. е. что р*^&.
Тогда существует такое У <= X», что q = Р*(Х»\У) < 1, но
у(УПХ»)=0. В силу условия д) и определения р* имеем
<7>0.
Положим
( q-'p’(х) при хеХ \ У,
р (х) = I 1 v
(. 1 при хеУ.
Имеем р е
D (/>•) - D (р) = D (р) - [<? (D (/) + /Л) - /Л]=(1 -q) Р (Ю+/П
По лемме 2.4 эта матрица положительно определена. Из усло-
вия б) получаем
Ф[Р(Р)]<Ф[1)(Р)].
Это неравенство противоречит тому, что р*— оптимальная плот-
ность. Лемма доказана.
Далее будем вместо Ф[£>(р)] писать Ф(р), а символом Ф
обозначать не только функционал, заданный на Л^ но и инду-
цированный им функционал на множестве Ф.
Лемма 2.6. Если выполнены условия а), в), д), то ф — вы-
пуклый функционал на Если, кроме того, выполнены либо
г), либо б) из), го Ф — строго выпуклый функционал на
Доказательство. По лемме 2.2 для любых р{, р2^&,
p1^=p2(modv) и любого а е (0, 1) имеем
аЩрЛ + П — а)О(р2)>О(ар1 + (1 — а)р2), (2.13)
откуда, используя условие а), получаем
Ф [а£> (рО + (1 — a) D (р2)] > Ф (apj + (1 — а) р2). (2.14)
В силу предположения в) имеем
аФ (Pi) + (1 - а) Ф (р2) > Ф [аО (р.) + (1 - а) D (р2)]. (2.15)
Из неравенств (2.14) и (2.15) вытекает
аФ (Pi) + (1 — а) Ф (р2) > Ф (api + (1 — а) р2). (2.16)
Последнее неравенство означает, что функционал Ф на множе-
стве & выпуклый. Строгая выпуклость Ф эквивалентна стро-
гому неравенству в (2.16), которое следует либо из строгого не-
равенства в (2.13) и (2.14) (следствие предположений б), з) и
леммы 2.1), либо из строгого неравенства в (2.15) (следствие
предположения г)). Лемма доказана.
Сравнивая полученные результаты с результатами оптималь-
ного планирования эксперимента по оцениванию параметров ли-
290
нейной регрессии (см. гл. 3), отметим несколько существенных
различий.
Во-первых, в силу леммы 2.5 оптимальную плотность следует
искать в множестве измеримых функций, поэтому в отличие от
классической задачи оптимального регрессионного планирова-
ния дискретность мер не только не является желательным свой-
ством, но и вообще недопустима.
Во-вторых, в силу леммы 2.6 при выполнении условий б), д),
з) нестрого выпуклый функционал Ф на превращается в
строго выпуклый на Ф. Это весьма существенно при изучении
таких критериев, как (2.8), (2.9) и (2.6) при L е \ Ж^.
В-третьих, для того чтобы гарантировать существование оп-
тимальной плотности р*, приходится налагать дополнительные
условия — д) и е). Разумеется, оптимальные плотности могут
существовать и при невыполнении условия е) (см. ниже при-
мер 2.1). Все же условия д) и е) удобны — они просты и мало-
ограничительны. Конечно, при их невыполнении оптимальная
плотность в множестве SP может не существовать (это также
иллюстрируется примером 2.1).
В-четвертых, поскольку дисперсионная матрица (2.2) (а сле-
довательно, и (2.3)) зависит от неизвестных параметров 7, то
от них зависит и оптимальная плотность р*. В этом смысле из-
учаемая задача аналогична задаче планирования эксперимента
по оцениванию параметров нелинейной регрессии, а оптималь-
ная плотность (2.4) соответствует локально оптимальному плану.
Для нахождения оптимальной плотности, соответствующей ис-
тинным значениям параметров 7, необходимо применять после-
довательный подход, заключающийся в том, что по мере уточ-
нения оценок неизвестных параметров ? видоизменяется и кри-
терий выбора оптимальной плотности, записываемый в виде
Ф [ [g W gr W/p (*)] v (^) — j ?] •
Техника здесь стандартная, и мы не будем на ней останавли-
ваться. Кроме последовательного подхода возможны также байе-
сов и минимаксный. Постановка задач и характер получаемых
результатов будут аналогичны результатам классической теории
планирования эксперимента (см. гл. 5).
Пример 2.1. Пусть критерий оптимальности имеет вид
(2.7) при а\ = 1, й2 = ... = ат = 0, т. е.
Ф[О(р)] = </п(р).
Для этого критерия не выполняется условие е). Оптимальная
плотность в силу утверждения из п. 2.6 имеет вид
Р* W = I gi (х) l/J I gi (z) | v (dz).
Если gi(x) обращается в нуль на множестве ненулевой меры
V, а функция gj(x) для некоторого /е{2,3, ..., т} на этом
ю* 0)1
множестве в нуль не обращается, то р*^^, а оценка 7/ интег-
рала 7/ смещена. В го же время, если gi(x) в нуль не обра-
щается, то р* е
2.5. Необходимые и достаточные условия оптимальности для
дифференцируемых критериев.
Теорема 2.1. Пусть выполнены условия а)—в), д), е), и).
Тогда оптимальная плотность р*^& существует и множество
Ф* оптимальных плотностей выпукло, а если дополнительно вы-
полнено либо г), либо з), то состоит из единственной по мо-
дулю v плотности. Если, кроме того, выполнено ж), iо необхо-
димым и достаточным условием оптимальности плотности, р* яв-
ляется выполнение для v-почти всех хе X равенства
ф(х. P*) = tr-g-(D + JniZ)_Z)(p.), ' (2.17)
где ф(х, ₽) = [ггМ^|й_о(р)?(х)]//>2И. (2.18)
Доказательство. Из утверждений лемм 2.5 и 2.6 вы-
текает первая часть утверждения теоремы. Используя теперь не-
обходимые и достаточные условия экстремума для выпуклого
дифференцируемого по всем допустимым направлениям функ-
ционала на выпуклом множестве (см. сноску на с. 105), полу-
чаем, что нам осталось вычислить производную
П(р. Л) = ^Ф[(1-а)р + аЛ]|в_0+ (2.19)
и определить, при каких ре^1 для произвольной плотности
распределения h(x) на X будет выполнено неравенство П(р, й)^
25= 0. Имеем
П(р ft) = tr^-| + I =
Щр’ ’ М lD=D(P) да |о=0+
дФ I f ( \ т/ \ д Г 1 II _____
= tr ~dD |D_O(P) J S W W da L (1 -a)p (x) + ah (x) | |o_0+ ~
= tr I \s(x)gT (x) p~2 (x) [p (x) - h (x)] v (dx) =
ou ID—Dip) J
- f 4s-'° + -
— tr4zrl
= tr (° + //Г) Id-d (p) — $ ф (x> p)h м V (dx).
Таким образом, П(р, ft)^0 для всех ft тогда и только тогда,
когда для v-почти всех хеХ выполнено неравенство
<р (х, р) < tr [D 4- //г) |п_D w.
Утверждение теоремы вытекает из того, что для любой плот-
ности р выполнено
$ Ф (х, р) р (х) V (dx) = tr (D + Лт) |D_D (w (2.20)
Теорема доказана.
Доказанная теорема — аналог теоремы эквивалентности (тео-
ремы 2.2 из гл. 3), играющей центральную роль в теории пла-
нирования регрессионного эксперимента.
2.6. Оптимальные плотности для линейных критериев. Если
критерий оптимальности Ф линеен, т. е. имеет вид (2.6), то из
(2.17) и из равенства dlr LD/dD = L следует выражение для
оптимальной плотности
Р’ (X) = [gr (X) Lg (х)]1'2 J (z) Lg (z)]1/2 V (dz). (2.21)
Это выражение может быть получено и элементарным образом.
Отметим также, что формула (2.21) определяет L-оптимальную
плотность даже в том случае, когда не выполнены одно или оба
из условий д), е). Единственность (по модулю v) L-оптималь-
ной плотности (2.21) вытекает из того, что для L-критерия со-
отношение (2.21) эквивалентно необходимому и достаточному
условию оптимальности (2.17).
2.7. Алгоритмы построения оптимальных плотностей для диф-
ференцируемых критериев. Если критерий оптимальности Ф
дифференцируем (т. е. выполняется условие ж)), но его вид от-
личен от (2.6), то оптимальная плотность р* в случае ее суще-
ствования, так же как и для L-критерия, имеет вид (2.21), хотя
матрица
L = с I , с = const > 0, (2.22)
'D=D(p*)
заранее и неизвестна. Задача построения оптимальной плотности
эквивалентна в этом случае задаче оптимального выбора эле-
ментов матрицы L Указанная задача, которая может решаться
с помощью общих методов поиска глобального экстремума, в си-
туациях, когда функционал Ф зависит только от диагональных
элементов матрицы D, имеет не слишком сложный вид, по-
скольку матрица L диагональна. В тех случаях, когда m велико,
а X дискретно-или имеет малую размерность, более эффектив-
ными методами построения оптимальных плотностей могут ока-
заться методы, описанные ниже и существенно использующие
специфику задачи. Эти методы аналогичны методам построения
оптимальных планов для регрессионных экспериментов, основы-
ваются на выведенном в доказательстве теоремы 2.1 выражении
для производной П(р, /г) и являются псевдоградиентными в
множестве
Общий вид методов таков:
Рк+1 (х) = (1 - ак) Pk (х) + akhk (х). (2.23)
293
Здесь ро<^Ф—начальная плотность, выбираемая так, чтобы
Ф(ро)<о° (например,ро—равномерная плотность); ao.ai,...—
последовательность неотрицательных чисел, выбор которой мо-
жет производиться в полном соответствии с рекомендациями § 4
гл. 3. В качестве hk можно выбирать любую плотность, для ко-
торой П (р*. hk) < 0, например плотность, пропорциональную
индикатору множества положительности функции
<р (х, pk) - tr (D + /Л fy | + (2.24)
dD \D-D(Pk)
где efe>0, 8ft~>0 (£->оо).
Выбирая ро и hk ограниченными, получаем, что р*е L?(X,v)
для всех fe=0, 1, ... ; в силу теоремы 2.1 оптимальная плот-
ность р* также принадлежит L2(X,v). Поэтому для обоснова-
ния сходимости алгоритма (2.23) можно использовать, напри-
мер, результаты, приведенные в § 1 гл. 6.
Как и в теории планирования регрессионного эксперимента,
имеет смысл рассматривать алгоритм (2.23), в котором а* < О
при некоторых k = 0,1, ... Если < 0, то должно выполняться
неравенство
I а* К {sup [hk (х)/рк (х)] - 1 }-1,
которое эквивалентно неотрицательности функции р^+1(х). При
этом для обеспечения псевдоградиентности алгоритма (2.23) не-
обходимо требование П(р&,/ife)> О, которому удовлетворяет, в
частности, плотность hk, пропорциональная индикатору отрица-
тельности функции (2.24) с ел 0. Принципы построения алго-
ритмов типа (2.23) с afes(—1,1) изложены в § 4 гл. 3 для
задачи построения оптимальных планов регрессионных экспе-
риментов. Эти принципы остаются без изменений.
2.8. Минимаксные критерии. Подавляющее большинство встречающихся
на практике недифференцируемых критериев оптимальности Ф относится к
классу минимаксных, т. е. представимых в виде
Ф [£>] = max Фм [DJ, (2.25)
уеГ 7
где Г — некоторое компактное множество, а все функционалы Фу (у Г) вы-
пуклы и дифференцируемы. В следующей теореме приведены необходимые и
достаточные условия оптимальности для минимаксных критериев. Доказа-
тельство теоремы, по сути, совпадает с доказательством аналогичного утвер-
ждения из теории оптимального регрессионного планирования (см. п. 2.5 из
гл. 3).
Теорема 2.2. Пусть критерий Ф имеет вид (2.25), где Г — компакт,
все функционалы Фу (уеГ) удовлетворяют условиям а), в), д), ж) и при
любой фиксированной матрице D е функция Фу [Р] непрерывна по у.
Тогда необходимым и достаточным условием того, что р* — оптимальная плот-
ность для критерия (2.25), является выполнение для некоторого у^Г(р*)
неравенства
дФ„ / Тч t
*sup^ фу (х, р*) < tr (D + JJT) |PsbD (₽#), (2.26)
294
где <pv определяется по формуле (2.18) с заменой Ф на Фу.
Г (р*) = {у* €= Г |у = arg max Фу [D (р*)] }.
1 уег '
Доказательство. Согласно общей теории экстремальных задач (см.
с 105, 113), необходимым и достаточным условием оптимальности плотности
р* является выполнение неравенства
inf sup IIV (р*. h) 0, (2.27)
h уе=Г(р*)
где Пу определяется по формуле (2.19) с заменой Ф на Фу, а инфимум
берется по всем плотностям распределений на X. Выражение для производ-
ной П было получено при доказательстве теоремы 2.1. Имеем
дФм , . f
nv (р*, Л) = tr (D + /Г ) |D_D(р.( — j <₽v <х- р"> h № v <rfx)-
С учетом этого выражения неравенство (2.27) может выполняться в том и
только том случае, когда для некоторого уеГ(р*) выполнено (2.26). Тео-
рема доказана.
Условия существования и единственности оптимальных плотностей для
минимаксных критериев в теореме 2.2 не приведены, поскольку они содер-
жатся в формулировке теоремы 2.1. Отметим также, что условие (2.26) в
отличие от (2.17) неконструктивно и не может служить основой для построе-
ния оптимальных плотностей — оно может быть использовано лишь при про-
верке плотности на оптимальность.
Для широкого класса недифференцируемых критериев оптимальности яв-
ный вид оптимальных плотностей может быть определен с помощью следую-
щего утверждения.
Теорема 2.3 Предположим, что оптимальная плотность р* для крите-
рия ф единственна по модулю v и существует такая последовательность
j Функционалов на Л^, удовлетворяющих условиям б), г) — ж), что
для всех А е Л^ выполнено
Ф| (Л)< Ф2 (Л)< ... < Q>i (Л)< ... < Ф (Л),
lim Ф£(Л) = Ф(Л).
<->оо
Тогда плотность р* имеет вид (2.21).
Доказательство. Поскольку критерии Ф/ дифференцируемы, то со-
ответствующие им оптимальные плотности pz в силу (2.21), (2.22) имеют
вид
Р/ М = [gr(x) (X)]1 '2/^ [Z (г) LiS (г)]1/2 v (dz), (2.28)
где Lt (i = 1, 2, ...)—некоторые неотрицательно определенные матрицы,
причем можно считать, что ||М = 1.
Из леммы 2.5 следует, что
P*i e arg min Ф (р) = arg min Ф (р),
р<=~&
где Ф — компакт. Используя теперь строгую выпуклость критериев Ф, и их
монотонную сходимость К Ф, применяем лемму 1.11 из [42] и получаем сла-
бую сходимость последовательности плотностей р*(х) к р (х) Отсюда сле-
дует, в частности, что последовательность матриц {D (р/)} сходится при
со к D(p*).
295
Выберем из последовательности матриц {L,} сходящуюся к некоторой
матрице L подпоследовательность и отметим, чтс L и ||L|I — 1.
Определим плотность р* по формуле (2.21). Поскольку последовательность
матриц D^pi^ сходится при /->оо как к D(p*), так и к D(p*), то D(p*) =
= D(p*), и, следовательно, плотность р* оптимальна. Наконец, в силу един-
ственности р* предел последовательности {LJ существует и равен L. Теоре-
ма доказана.
Из доказанной теоремы вытекает, что для широкого класса недифферен-
цируемых строго выпуклых на множестве Ф критериев оптимальности Ф опти-
мальная плотность р* имеет вид (2.21), а задача ее построения сводится к
задаче оптимального выбора элементов матрицы L в указанном представ-
лении.
2.9. Критерий Е-оптимальности. Определим последователь-
ность строго выпуклых дифференцируемых критериев Ф, по фор-
муле
Ф, (Л) = (tr Л')1" (2.29)
для всех А е Покажем, что таким образом определенная
последовательность функционалов Ф, монотонно сходится к
функционалу (2.8).
В силу теоремы 1.11 из приложения 1 для любой матрицы
А е Лт и всех < = 1,2, ... имеет место равенство trXz =
/-1
где ..., — собственные числа матрицы А. Монотонность
сходимости последовательности (2.29) к Ф(Л)= шах Ь вы-
I </<пг
текает из неравенства
/ т \1/р / т \Mq
(2.30)
которое является следствием неравенства Гёльдера (теорема 2.1
из приложения 1) (в неравенстве (2.30) а\, ..., ат — произ-
вольные неотрицательные числа).
Применяя лемму 2.6 и теорему 2.3, получаем, что при вы-
полнении условия з) оптимальная плотность для критерия Е-оп-
тимальности единственна по модулю v и имеет вид (2.21).
2.10. Критерий MV-оптимальности. Сначала упростим для
MV-критерия (2.9) формулировку теоремы 2.2. Для этого ука-
жем, что в представлении (2.25) для критерия MV-оптималь-
ности
Г = {1, 2, ..., т}9 Фу (D) = tr Еу£>,
где у-й диагональный элемент матрицы Еу равен единице, а ос-
тальные элементы Еу— нули. Все условия теоремы 2.2 для MV-
критерия (2.9) выполнены, и поэтому необходимым и достаточ-
ным условием MV-оптимальносги плотности р* является выпол-
нение для некоторого у е Г(р*) неравенства
sup {g; (х) [/ (х)] с Ug* (z)/p* (z)] V (dz),
296
которое вытекает из (2.26) в силу того, что
d®y(D) _ dtr£YD
dD — dD ”
дФ Г
tr ~di V + 7/Г> b-D(P) = dyy (P) + /^ J (Z)/P (г)| V (dz),
<₽Y (x, p) = gT (x) 'Eyg (x)/p2 (x) = §2 (x)/p2 (x).
Рассмотрим последовательность критериев Ф,, определяемых
по формуле
/ т \\/i
OHD) = [tr(D©/j']1,' = (S<Z'') • (2-31)
\/=1 /
где ® — поэлементное произведение матриц, 1т — единичная
m X ^-матрица. Строгая выпуклость критериев (2.31) сле-
дует из неравенства Минковского, а их дифференцируемость
очевидна. Факт монотонной сходимости последовательности
Ф/(Л) к Ф(Л) для всех Ле вытекает из неравенства (2.30).
Если выполнено условие з), то критерий МУ-оптимальности (2.9)
в силу леммы 2.6 является строго выпуклым на множестве SP и
поэтому имеет единственную по модулю v плотность р*. Приме-
няя теорему 2.3, получаем, что при выполнении условия з) MV-
оптимальная плотность р* выражается по формуле (2.21). Из
доказательства теоремы 2.3 вытекает также, что матрица L в
представлении (2.27) для AfV-оптимальной плотности диаго-
нальна (действительно, все матрицы Li из формул (2.28) диа-
гональны, a L — lim L^).
Как следствие теоремы 2.3 мы получили результат Г. А. Ми-
хайлова [29] о том, что MV-оптимальная плотность р* имеет вид
т -11/2 т - 1/2
p*w= /J v<d2)’
Lz=i J x J
где
tn
%г>0, SAf=l, z = l..............m.
i-t
Упражнения.
1. Приведите пример критерия оптимальности, который является выпук-
лым, но не строго выпуклым.
2. Выпишите в явном виде оптимальную плотность для рассмотренных в
§ 2 гл. 3 критериев Q-оптимальности и оптимальности для экстраполяции
в точку.
3. Упростите формулировку теоремы 2.2 для случаев, когда критерий
оптимальности Ф является: а) критерием f-оптимальности; б) G-оптимально-
сти (см. § 2 гл. 3).
4. Упростите формулировку теоремы 2.3 для случая, когда критерий оп-
тимальности Ф является критерием G-оптимальиости.
ПРИЛОЖЕНИЕ 1
СВЕДЕНИЯ ИЗ ТЕОРИИ МАТРИЦ
§ 1. Матричная алгебра
1.1. Определения и обозначения. Приведем определения и обозначения,
используемые в данном приложении
Л тХп— множество вещественных т X «-матриц, имеющих т строк и п _ '
столбцов;
= Л п х
flz/ (i •= 1, ..., т, j = 1, ..., п) — элементы матрицы А е ЛпХп> А «=
= II йц II тХп>
0^ЛтХп— матрица, состоящая из нулей; I
1п е Лп — единичная матрица (ее диагональные элементы равны единице,
а внедиагональные — нулю);
11(B), Хп(В)—собственные числа матрицы В еЛПу т.е. корни ха-
рактеристического уравнения
det (В-!/„) = О
Xmin = m/n Xmax (В) = т;ах МВ>:
1^ = 1^ (у4), i = 1, ,.., «, Ле Л।
Квадратная матрица называется верхней треугольной, если все ее элемен- *
ты ниже главной диагонали равны нулю.
Следом квадратной матрицы А е Лп называется сумма ее диагональных |
« *
элементов tr А = / j а[Г "
Рангом произвольной матрицы называется размерность линейного про-
странства, порожденного столбцами этой матрицы. 1
Матрица А е Лп называется невырожденной, если det Д =/= 0.
Обратной для невырожденной матрицы А е Л п называется такая мат-
рица А~‘ что Д~1Д = АА~1 = 1п.
Обобщенной обратной матрицей для А&ЛтХп называется такая мат-
рица А - е что для любого b s Rw, при котором система уравнений
Ах = b совместна, вектор х = А~Ь является ее решением.
Квадратная матрица А называется симметричной, если А = Ат.
Симметричная матрица А е Лп называется положительно (неотрицатель-
но) определенной, если для любого fleR"\{0) выполнено атАа > 0 (соот- |
ветственно, атАа 0). ?
Л^ — множество неотрицательно определенных п X «-матриц.
Л> — множество положительно определенных п X «-матриц.
Для любых матриц 4, В е= Л^ запись А > В (Д В) означает, что |
А — В е Л> (соответственно, А — В е
К
Ж
Матрицы называются согласованными относительно некоторой операции,
если эта операция определена.
1.2. Симметричные, положительно и неотрицательно определенные мат-
рицы.
Теорема 1.1 (теорема о спектральном разложении). Если А— симмет-
ричная п X п-матрица, то выполнено
РТАР = А. А = РА.РТ, (1.1)
где Р — ортогональная п\ п-матрица (т.е. РТР = РРГ = 1п), столбцами ко-
торой являются ортонормированные собственные векторы матрицы А, Л —
матрица, на главной диагонали которой стоят Xi, ..., Хп (собственные числа
матрицы А), а внедиагональные элементы равны нулю.
Доказательство имеется в [5, 9, 35].
Теорема 1.2. Матрица А^Лп неотрицательно определена тогда и
только тогда, когда существует матрица F <= Лп, такая, что А — FTF.
Теорема 1.3. Матрица А^Лп положительно определена тогда и
только тогда, когда существует невырожденная матрица F Лп такая, что
А = FTF.
В теоремах 1.2 и 1.3 необходимость вытекает из теоремы 1.1, а достаточ-
ность — из определения неотрицательной (положительной) определенности.
Теорема 1.4. Любую матрицу А^Л> можно представить в виде
А — FTF, где матрица F ^Лп невырождена и является верхней треугольной
Доказательство имеется в [9].
Теорема 1.5. Если А е Л^, то
ч
0, ац >0, det А = JJ Хр
/=1
“0<(“н+М2- (Е2>
где I, j = 1, ..., п.
Если Ле Л>, то
Х; > 0, аа > 0, det А > 0, aif < (ац Д- а^)12,* j,
Теорема 1.6. Если А е Л>, В е Л^9 то А + В е Л>.
Теорема 1.7. Если А то Д~* е Л>.
Теорема 1.8. Пусть А^Л^, В^ЛпХт, rangB = /n<n. Тогда
ВтАВ е Л^. В частности, ВтВ е Л^.
Доказательства теорем 1.5—1.8 вытекают из определений неотрицатель-
ной и положительной определенности матриц и теорем 1.1—1.3. Комментария
требует только вывод формулы (1.2). Эта формула следует из того, что
(ez - ejf A (et — ej) = eTlAei + - 2е/Ле/ = ац + a,, - 2ai{ > 0,
где ei e R" — вектор, все компоненты которого равны нулю кроме i-й, равной
единице.
Теорема 1.9. Пусть матрица А^Лп симметрична, X] > Кп—ее
собственные числа и Р\, ..., Рп— соответствующие им ортонормированные
собственные векторы. Тогда
sup
aeRn\|0)
„ sup атАа =
II а 11 = 1
(1.3)
inf f аТАа )
ae=Rn\{0}l аТа J
It inf aTAa = x
Ila 11 = 1
причем экстремумы достигаются соответственно на Pi и Рп
(1-4)
299
Доказательство Формулу (1.1) перепишем в виде:
i =• I t = l
В силу того, что — базис в R" любой вектор а е R” представим
в виде
а = t cipt
i = 1
Поэтому
Ф п , п ч-1
Очевидно, что супремум и инфимум этого выражения относительно век-
торов (ci, ..., спу равны соответственно и Хя, причем супремум дости-
гается при а = Pi, а инфимум — при а = Рп. Теорема доказана.
1.3. След.
Теорема 1.10. а) Если A s Лп, с е R то tr А = tr Ат, tr сА = с tr А;
б) если А, В Лп, то
tr (Д + В) = tr Д + tr В; (1.5)
в) если А<=Лп*т, ВеЛпу,п, ТО
tr АВ = tr ВА; (1.6)
г) если a, b е RT то
tr abT — атЬ;
д) если А е Лп, b Rn, то
tr (AbbT) = tr (bbTA) = bTAb;
e) если A, P s Mn, PTP — ln, to
tr PAPT = tr A. (1.7)
Все утверждения теоремы легко следуют из определения операции trace
(след).
Теорема 1.11. Если А — симметричная матрица из Лп, то
tr4=£%f (1.8)
/ = 1
tr/ = £ ? = — 1, 0, 1, 2, ...
Z = 1
Доказательство следует из теоремы 1.1 и формулы (1.7) с учетом того,
что при РР1 == 1п выполнено (PTAP)S = PTASP.
Теорема 1.12. Пусть А — симметричная п X п-матрица Необходимым
и достаточным условием ее неотрицательной определенности является выпол-
нение для всех В s неравенства tr АВ 0.
Доказательство По теореме 1.1 имеем
А = РЛР = £
1=1
300
где Pi — ортонормированные собственные векторы матрицы А, соответствую-
щие собственным числам X/. Отсюда следует:
п п
it АВ = tr £ KfP(PT{B^ £ brfBP{.
Поскольку 5g величины P^BPi (/ = 1, ..., n) неотрицательны.
Если A e то по теореме 1.5 Л/^0, поэтому tr AB>0. С другой
стороны, если tr АВ О для всех В^О. то это справедливо и для матрицы
В = PiP^. Следовательно,
tr APtPTt = tr PtPTi = %< > О
Отсюда с учетом теоремы 1.1 следует, что А 0. Теорема доказана.
1.4. Ранг.
Теорема 1.13. Для любых согласованных матриц А* В выполнено
a) rang АВ < min (rang A, rang В);
б) rang (Д + В) rang А + rang В.
Доказательство, а) Столбцы матрицы АВ являются линейными
комбинациями столбцов матрицы А, поэтому число линейно независимых
столбцов в матрице АВ не больше, чем в матрице А Следовательно,
rangЛB rang А. Аналогично rang АВ rang В.
б) Пусть матрицы А и В имеют размер p^q. Обозначим через ai, ..., aq
и bi, ..., bQ столбцы матриц А и В соответственно, и пусть
D = (А, В) = (аъ ..., aq, Ьь ..., bq)
есть блочная матрица, составленная из матриц А и В.
Запишем матрицу А + В в виде
А + В = (at + Ьъ ..aq + bq).
Поскольку размерность пространства, порожденного набором векторов
{«1, ..., aq, bi, ..., не меньше, чем размерность пространства для век-
торов + bit ..., aq + bq}, то rang (А + В) rang D.
Покажем теперь, что rang D rang А Д- rang В. Для этого удалим из на-
бора {tii, aq, bi, ..., bq} все векторы 6/, линейно зависящие от векторов
a, (j = 1, ..., q). Матрицу, составленную из оставшихся векторов Ь,-, обо-
значим через В*. Имеем:
rang D = rang А Д- rang В*,
rang В* rang В,
откуда и вытекает требуемое Теорема доказана.
Теорема 1.14. Пусть В^Л„, С^Лт, det В 0,
1 Ilf Ш 91 991
det С 0. Тогда
rang ВАС » rang А.
Доказательство. В силу предыдущей теоремы
rang А > rang AC rang АСС~1 = rang А.
Поэтому rang А = rang АС. Аналогично rang А = rang ВАС. Теорема дока-
зана.
Теорема 1.15. Если матрица симметрична, то ее ранг равен числу не-
нулевых ее собственных значений.
Доказательство следует из теорем 1.1 и 1.14.
1.5. Обратные матрицы. Теорема 1.16 (формула Фробениуса). Пусть
матрица А разбита на блоки'
где В и Е — квадратные матрицы. Тогда, если существую! В 1 и F где
301
nW' Г1'" 11ЦШ^1ШХ^Ше^^иЦЦХ11Ц_И1.ииЦ1Г.;ии-1и!>!1!иии111;1!.И11111.
т
Й
F = Е - DB~lC, то
Г В-1 + B-'CF-]DB~l -B~'CF~l 1
А 1 = < , , । I >
t —F~lDB~' f-' J
.а если существуют E-1 и G~l. где G = В — CE~' D, to
Л-1Г G-1 -G~lCE~' I
~ L- E~l DG~l E~l + E~l DG~'CE~l J
Доказательство следует из определения обратной матрицы.
Теорема 1.17. Если А(=Лп, В^ЛпХт, С^Лт, D Л тХп и все
написанные ниже обратные матрицы существуют, то
(Л + BCD)~l = Л-1 — Л“'в (С-1 + ОЛ-1В)_| DA"1. (1.9)
Доказательство. Умножим правую часть (1.9) справа на
(Л + BCD):
А~' (Л + BCD) - А~1В (С-1 + DA~lB)~l DA~l (Л + BCD) =
= ln + A~lBCD - Л-1ВС (lm + ОЛ-1ВС)-1 D (ln + A~'BCD) =
= /„ + A~lBCD- А~'ВС (lm + DA~ lBC)~' (D + DA~XBCD) =
= ln-\-A~lBCD — A~1BC(lm + DA~lBC)~'(lm + DA~lBC)D= ,
= I n-\-A~x BCD — A~x BCD = I n-
Аналогичный результат получается, если правую часть (1.9) умножить на
(А + BCD) слева. Теорема доказана.
Теорема 1.18. В предположении, что все написанные ниже обратные
матрицы существуют, справедливо:
а) (/„ + ЛВ)"1 = /„-Л(/т + ВЛ)-’В (1.10)
для А е Мп Хи1 ® mх «’ *
б) (Л + а6г)-1 = Л_| — (1 +/>гЛ-|а)_| Л-|а6гЛ-1 ' \
для А е Лп, a, b R”;
в) [(1 - а) А + а6Ьг]“1 =
= (1 -а)-1 [Л-1 - аЛ“‘б6гЛ-1/(1 — а + а&тЛ-1б)] 'll!) V
для А е Мп, b е R", ае (0, 1);
г) det (Л + ВВТ) = det Л det (fm + ВтА~'в) (1.12)
для А е Мп, Be MnXm. ’
Все формулы легко получить из (1.9).
Теорема 1.19. Если А^Л^, то tr А-1 > n2/tr А.
Доказательство. Пусть В е Л^ и X. (В) (/=1, ..., tn) — соб- <
ственные числа матрицы В. Из утверждения теоремы 1.5 вытекает, что
п
det В = JJ Х; (В).
Согласно (1.8) имеем
, ив=£Л/(В). \
i — 1
^02
Используя эти соотношения, неравенство
/ п \1>п п
П^св)) <— £>(В)
М—i / п
между средним арифметическим и средним геометрическим перепишем в виде
tr В> п (det B)I/n.
Применяя это неравенство к матрицам В Л-1 и В = А, получаем
tr Л"”1 > п [det (Л-1)]1/л = п (det Л)“1/л > п [(tr А)/п]~1 = n2/tr Л.
Теорема доказана.
1.6. Обобщенные обратные матрицы. Можно показать, что обобщенная
обратная матрица всегда существует, но вообще говоря, неединственна. Если
т = п и у матрицы Л существует обратная Л”1, то, очевидно, Л~ — Л-‘.
Теорема 1.20. Матрица Л~— обобщенная обратная для А тогда и
только тогда, когда
ЛЛ“Л = Л. (1.13)
Доказательство. Пусть Л"— обобщенная обратная матрица. Вы-
берем в качестве b i-fi столбец at матрицы Л. Система Ах = at, очевидно,
совместна, а х = A~ai — ее решение, т. е. ЛЛ~а/ ® ai для всех i = 1, ..., п.
Но это и эквивалентно тому, что выполнено (1.13).
Пусть теперь выполнено (1.13) и х— какое-либо решение уравнения
Ах = Ь. Тогда имеем:
АА-Ь = ЛЛ“ (Ах) = Ах = Ь,
т. е. Л~6 — решение уравнения Ах = Ь. Теорема доказана.
Следствие 1.1. Пусть Л~— обобщенная обратная матрицы Ле/тХгь
ге R"- произвольный вектор. Тогда
a~A-b + (A-A-In)z
есть решение совместной системы уравнений А а = Ь.
Доказательство.
Ай — АА~Ь 4- (ЛЛ~Л — A)z == АА~Ь + (Л — A)z =« АА~Ь ~ АА~Аа = Аа = Ь.
Следствие доказано.
Рассмотрим один из способов построения обобщенной обратной Л~ для
матрицы Л е Лт^п ранга Ге Переставив, если это необходимо, строки и
столбцы матрицы Л, запишем А в виде блочной матрицы
л=[о 3’ пл4)
где В — невырожденная г X г-матрица. Тогда, как нетрудно проверить по
формуле (1.13), обобщенными обратными для матрицы (1.14) являются
ГВ“* —К 1
L о '„-J
где матрица К такова, что ВК = С и DK = Е.
1.7. Лемма о произведении определителей. Пусть р— некоторая о-конеч-
ная мера на (X, <8). Для двух заданных на множестве X измеримых функ-
ций f, g обозначим
(A g) в $ / W g W р (dx).
803
Теорема 1.21 (лемма о произведении определителей). Пусть {ф/}^
{*ФО?=1 &ea набора таких функций на X, что (ф<, ф/) < оо для всех i,
j = 1, ...» п. Тогда имеет место тождество
1= det || <pz (ху) det || (х,) р. (dx,) ... ц (dxn) =
хп
= «!det||(<pi, 4>fe)ll" fe=1. (1.16)
Доказательство. Разложим определитель det || <pf (х/) \\”i==[ (j —
номер строки) по элементам первого столбца, обозначая через Л/ соответ-
ствующий минор:
ф2 (Х1) фз (х,) • • фп (Х|)
Ф2(Х/-1) t3(x/-i) • • Фп(Х/-1)
Ф2(Х/+1) Фз(х/+1) • • ' • *₽п(Х/+1)
Ф2 (Xrt) Фз (Хп) • • Фп (Хп)
Получим
п
' = J У (-1)/+1 A/q>1(x/)det||tA(x/)||2tZ_1|*(dxI) ... g(dxn) =
Хп /-1
- Е $(-1)/ Л/ Г Sф*(Х/) det" **(Х/) /=| и и
/=1 xn-l Lx J
•••H(dx/-1)li(dx/+1) ••• l*(rfxn).
Домножим строку определителя det || ф^ (xz) ||£ ;=1 с номером / на ф1(х;) и
проинтегрируем элементы этой строки по х/. Перестановка проинтегрирован-
ной строки на первое место вызовет появление множителя (—I)/-1.
Изменим теперь нумерацию первых j — 1 переменных интегрирования,
обозначая Хг вместо xi, хз вместо хг, ..., х/ вместо х/-ь Получим
I = п
P(dx2) ... И (dx„) det || (хрц^ i=2 x
Хп~
(ф1. tl) (фъ Ч>2)
ti (х2) М>2 (х2)
(фь tn)
tn (х2)
ti (хп) Ч>2 (х«)
tn (Хп)
Таким образом, мы понизили на единицу порядок одного из определителей и
проинтегрировали строку второго. Повторение этой операции еще п — 1 раз
приводит, очевидно, к (1.16). Теорема доказана.
Следствие 1.2. Пусть ц— дискретная мера, сосредоточенная в точках
Xi, ..., Хы с весами р, > 0 (/ = 1, ...» N). Тогда
II п Пп
S р/ф*(х/)'Мх«) =
I i = l ||А,/“1
-X I”44)II*.(4)6.-г (1л7>
304
Доказательство. В рассматриваемом случае тождество (1.16) за-
писывается в виде
/ = n! det | g pt<fk (xj (x;) -
N N
= E ••• Zpi, ••• 4det||^(s)ll^=1 detIIM4)ll^->-
llel ln = 1
Поскольку при совпадении значений ip (р = 1.п) определители в пра-
вой части выписанного тождества обращаются в нуль, то
£ Pi, - Pindet|,₽4s<P-l detP*(4)IL-r
Перестановка одних и тех же столбцов (строк) в определителях, стоящих
под знаком суммы, не меняет их произведения, поэтому
Z Pi, ••• 4detl,p4%)l^-1detP/(\)lL-r
Полученное тождество эквивалентно (1.17)? Следствие доказано.
В случае pi = 1 (Z = 1, ..., Af) формула (1.17) называется формулой
Бине — Коши.
§ 2. Неравенства выпуклости
2.1. Неравенства общего характера.
Теорема 2.1 (неравенство Гельдера). Пусть р 1, = р/(р— I),
v — о-конечная мера на измеримом пространстве (X, £), f и g — неотрица-
тельные функции на X, f^Lp(X, v), g^Lq(X, v). Тогда справедливо нера-
венство
f (X) g (х) v (dx) <
fp (x) v (dx)
gq (x) V (dx)
l/«
(2.1)
причем равенство достигается тогда и только тогда, когда при v-почти всех
х е X выполнено
fP (z) v (dz) = g« (x) H g? (z) v (dz).
I X
Доказательство имеется в [2, 5].
Следствие 2.1. Для любых Ф О, bi 0, 1=1,
неравенство
п / п \1/р / п \1/<7
Safii(s ) >
f=l \i«l / /
л, выполнено
(2.2)
где p 1, q — p/(p— 1).
Неравенство (2.2) получается из (2.1) для случая, когда мера v сосре-
доточена в п точках с единичными весами.
Следствие 2.2 (неравенство Коши). Для любых векторов a, b е R1
справедливо
(aTb)2< (ата) (brb), (2.3)
причем равенство имеет место тогда и только тогда, когда векторы а и b ли-
нейно зависимы.
305
Неравенство (2.3) — частный случай неравенства (2.2) при р == q = 2.
Приведем другие формы неравенства (2.3).
Следствие 2.3. Для любых a, b е Rn выполнено
(aTAb)2 < (arAa) (bTAb).
Доказательство следует из (2.3) и теоремы 1.2.
Следствие 2.4. Для любых a, b е R , А е справедливо
(ah)2<(aTAa)(bTA^b)t
причем равенство достигается тогда и только тогда, когда векторы а и А-Ч>
линейно зависимы.
Доказательство следует из следствия 2.2 и теоремы 1.3.
Следствие 2.5. Для любых А е b е R имеет место
причем верхняя грань в (2.4) достигается на векторе
а = Л—*&/|| А~1Ь ||.
2.2. Неравенства выпуклости.
Теорема 2.2. Пусть A, ае(0, 1). Тогда справедливо не-
равенство
det (аЛ + (1 - а) В) > (det Л)“ (det В)1-®, (2.5)
причем равенство имеет место только при А =*= В.
Прежде чем доказывать теорему, докажем лемму.
Лемма 2.1. Если А е то выполнено
I •» ... ехр {—хтАх} dxt ... dxn = ла/2 (det Д)"'1/2.
— оо — оо
Доказательство. Пусть Р — ортогональная матрица, приводящая
матрицу А к диагональному виду: РТАР = А. Сделаем замену переменных
х = Ру в интеграле 1. Тогда
хтАх = (Ру)т АРу =• утАу = £ Kjfi.
Далее,
dX' ... dxn^dyt ... dyn,
поскольку якобиан преобразования х Ру равен |detP| = 1. Имеем:
-f-оо ч 4-со ( п \
7= 5 5 ех₽ I “ I Лу' аУп’=‘
—оо —оо '
п оо
•=П J exp{-Kiy2t}dy(’-nnn (X, ... Х„)_,/2.
1-1 “СО
п
Учитывая то. что det А =» X/ (см. теорему 1.5), получаем угвержде-
^-1
ние леммы. Лемма доказана.
306
Заметим, что утверждение леммы хорошо известно специалистам по тео-
рии вероятностей и математической статистике: дело в том, что в общем
виде плотность многомерного нормального распределения записывается в
виде ехр { — (х — а)т А (х — а)}, где а е R".
Доказательство теоремы 2.2. В силу леммы 2.1 имеем:
. оо пп12 С det (аЛ + О — «) В) J — оо оо .. ехр {—ахтАх — (1 — а) хтВх} dxx ... dxn — оо
Используем неравенство Гельдера (2.1) с р = 1/а. t/ = l/(l- а), f (х) =-
= ехр {—ахгЛх}, g (х) = ехр {—(1 — а) хтВх}:
яп{2________
[det (аЛ + (1-а) В]1/2
оо
ехр {—хтАх} dxi
—оо
\ 1-а
ехр {—хтВх} dxx ... dxn I
яна/2яп(1-а)/2
(det Л)а/2(бе1 В)(,“а)/2
Отсюда и следует (2.5). Теорема доказана.
Следствие 2.6 (логарифмическая вогнутость определителя). Пусть
Л, В е ае (0, 1), Л =/; В. Тогда справедливо
In det [аЛ 4- (1 — а) В] > а In det Л 4- (1 — а) In det В. (2.6)
Неравенство (2.6) получается путем логарифмирования обеих частей не-
равенства (2.5).
Теорема 2.3. Пусть Л, Ве/^, а е [О, 1]. Тогда выполнены нера-
венства
Д'тах [0 а) Л + аВ] (1 а) X;nax (Л) + сектах (Я), .
[(1 - а) Л + аВ] > (1 - а) 71т1п (Л) + аХтщ (В). ( }
Доказательство следует из (1.3), (1.4) и того, что для любого с > 0 и
для любых функций f, g, заданных на одном и том же множестве, выполнено
sup (f + gX sup f + sup g, inf (f + g) > inf f + inf g, (2.8)
sup cf = c sup f, inf cf = c inf g.
Теорема 2.4. Пусть Л, В е ае(0, 1). Тогда
а/Г1 + (1 - а) В-1 > [аЛ + (1 - а) В]”1, (2.9)
причем, равенство достигается только при А = В.
Для доказательства теоремы потребуется следующая лемма.
Лемма 2.2. Если А е то А 4- Л'1 > 21 , причем равенство имеет
место только при А = 1п.
Доказательство леммы. Используя теорему 1.3, представим ма-
трицу Л в виде Л = FTFt где det В =/= 0. Тогда
А + Л-1 - 2/„ = FTF + F~' (Fr)-1 - 21 „ = (FT - F"1) (F - (FT)~') =
= (FT - F~l) (F - (F~')r) = (F - (F~l)T)T(F -
По теореме 1.2 Л + Л-1 — 21 п 0, причем знак равенства имеет место в том
случае, когда В — (В-1)7 = 0, т. е. FT = В-1, что эквивалентно тому, что
А = Лемма доказана.
307
Доказательство теоремы 2.4. Неравенство (2.9) эквивалентно
следующему:
(аД 4- (1 — а) В) (аД'1 + (1 — а) В-1) > 1п
Запишем цепочку неравенств, эквивалентных приведенному:
а2/Л 4- а (1 — а) ДВ-1 4- а (1— а) ВА~ 1 4- (1 — а)2/п > /п,
а (1 — а) [ЛВ-1 + ВЛ~*] + /„ - 2а/„ + 2а2/„ > /„.
а (1 - а) [ЛВ-1 + ВЛ-1 - 2/J > О,
ЛВ“‘ + ВЛ“1-2/п>0.
Применяя утверждение леммы 2.1 к матрице ДВ“\ получаем требуемое.
Теорема доказана.
§ 3. Матричный анализ
3.1. Дифференцирование и интегрирование матриц по параметру. Пусть
элементы матрицы А е Л п^т зависят от некоторого параметра t Положим
дА (/) ~ дай dt . . . daim ’ dt
dt dant . dt • » . ^anm dt
(для скалярного параметра /),
J A (t)
dt =
au(t) dt
ant (/) dt
\alm(t) dt
J anm (t) dt
Теорема 3.1. Для любых согласованных прямоугольных матриц А, В
выполняются равенства
+ |3”
Для квадратной невырожденной матрицы А е Лп выполняются равенства
(3-3)
tr Л (о dt =- tr Л (/) dt, (3.4)
^Д-^.Л-^ЛЧ (35)
In det Л = tr Л-1 4т-. (3.6)
4-det Л = det ЛигЛ-14т-. <3.7)
Доказательство. Формулы (3.1)—(3.4) следуют из определения.
Формула (3.5) следует из того, что
п dln дАА~{ дА 1 дЛ~*
°“ dt ~ dt dt А +Л dt '
308
Формула (3.6) следует из (3.7), а последняя формула будет доказана позд-
нее — при доказательстве теоремы 3.4.
3.2. Матричное дифференцирование. Пусть имеется функционал
Ф: Лп R, X = ||Xi/1| е Лп и существуют непрерывные частные производные
<7Ф(Х)/дХ1/ (| j = 1, .., п) по элементам матрицы X, где элементы хц рас-
сматриваются как независимые параметры. Производной функционала Ф по
матрице X называется матрица дФ/дХ, составленная из этих частных произ-
водных:
дФ
дХ
~ <ЭФ
дФ
- дхп1
дФ
dxin
дФ
дхпп
(3.8)
При сформулированных предположениях функционал Ф имеет производ-
ную Фреше*), которая сопоставляет матрице А^Лп число tr (А.
Это вытекает из того, что при А е Лп, || Л || —► 0 выполнено
Ф (X + Л) = Ф (X) + tr Л 4- о (IIЛII).
\ ол /
Теорема 3.2 (производная сложной функции). Пусть t — вещественный
параметр, X = X(t) е Лп — матрица, зависящая от t. Тогда
дФ (X (/)) V1 <*Ф(Х) бхц
dt ~ ~~dx7i
i. /=1
что записывается также в виде
дФ(Х(1)) ( дФ V дХ
dt \ дХ ) dt
(3.9)
Доказательство следует из определения и обычного правила дифферен-
цирования сложной функции.
Рассмотрим, как вычисляются производные функционалов типа trace.
Теорема 3.3. Пусть А, В, X е Лп, a, b R". Тогда справедливы ра-
венства
- = Ат, (3.10)
ол
-£v-aTXb = abT, (3.11)
tr ХТАХ ^(А+А1) X, (3.12)
ОЛ
tr ХАХТ = X (Л + Лг), (3.13 >
-Дг tr ХТАХТ = ХТА + АХТ, (3.14)
ОЛ
4г tr ХАХ = ХТАТ + АТХТ, (3.15)
Ол
ЬХТАХВ = (А + Лг) ХВ. (3.16)
♦) Исходя из вида производной Фреше, правильнее было бы производной
функционала Ф по X называть не матрицу (3.8), а матрицу, транспониро-
ванную к правой части (3.8).
309
Если матрица X невырождена, то выполнено
tr АХ~1 = - (Х“’ЛХ_,)Г.
дХ
Доказательство. Сначала докажем (3.10). Ясно, что
п
trAX= хцац
(3.17)
и, следовательно,
dir АХ
дхц а}1‘
Отсюда и из (3.8) вытекает (3.10).
Формула (3.11) является очевидным следствием (3.10).
Докажем (3.12). Из определения следует:
дХ дХт
дхц *il~ дхц ,{’
где Eif — матрица, все элементы которой равны нулю, кроме элемента,
стоящего на пересечении f-й строки и /-го столбца, равного единице. Отсюда,
используя (3.1),
Из (3.3) и (1.5)
dttXTAX
дхц
= tr
получаем:
=ЕцАХ + ХтАЕц.
ил}]
теперь имеем:
dXJx^ = tr [EfiAX + XTAEi /] =
= tr ЕцАХ + tr ХтАЕц = (АХ)ц + {ХтА)ц = (АХ)ц + {АтХ)ц.
выражение равно (i, /)-му элементу матрицы (4+4г)Х. Отсюда и
(3.12).
т. е. это
следует
Формулы (3.13) — (3.16) доказываются аналогично.
Докажем теперь (3 17). Из (3.5) получаем:
4г~—= -X-1 Х~х = -Х~1ЕцХ~\
дхц дхц 4
Следовательно,
dtr AX = tr Л 4^-!- = - tr АХ~1ЕцХ~х =
дхц дхц 4
= - tr Х~'АХ"'Ец = - (Х^АХ"1)^
Отсюда и вытекает (3.17). Теорема доказана.
Остановимся, наконец, на вычислении производных от функционалов,
выражающихся через определитель.
Теорема 3.4. Если существуют выписанные обратные матрицы, то для
любых А, X е Лп\
д
дХ
= (det X) (хТ1. (3.18)
4y~ I" detX = (xr)~l, дл (3.19)
In det XTX = 2X (XTX)-1, dX (3.20)
In det XTAX = AX (XTATX)~l + ATX (XTAX)~x. (3.21)
310
Доказательство. Сначала докажем (3.18). Для того чтобы со-
считать д det Х/дхц, разложим det X по элементам i-й строки:
п
det X = (-1)1+1хцХц.
/-1
Здесь Xij — алгебраическое дополнение элемента Хц матрицы X. Следователь-
но, д det Х1дхц = (—\)i+iXth а ’формула (3.18) вытекает из того, что эле-
менты хц обратной к X матрицы X-1 определяются по формуле:
х1' = (-l),+^/</detX
Из (3.18) сразу следует (3.19). Кроме того, из (3.18) и (3.9) вытекает недо-
казанная в теореме 3.1 формула (3.7).
Докажем теперь (3.21). Имеем:
Используя (3.18), получаем:
-Д- In det Хг АХ = tr (ХГДГХ)-1 [ЕНАХ + ХГАЕ{/] =
дхц
= tr [(ЛГДГХ)-1 Ец + tr АХ (ХТАТХ)~1 Е/t =
= [АТХ (ХтАХ\~' 4- АХ (XTATX)~l]tl.
Отсюда и следует (3.21). Формула (3.20)—очевидное следствие (3.21). Тео-
рема доказана.
ПРИЛОЖЕНИЕ 2
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И РАСПРЕДЕЛЕНИЯ,
СВЯЗАННЫЕ С НИМ
Случайный вектор У = (уи yN)T имеет невырожденное нормальное
распределение, если его плотность распределения равна
Р (У) = ехр ~ Л (У ~ и)}- (1)
или в краткой записи: У ~ АГ(ц, оМ-1). При этом ЕУ = ц, ОУ = a2A-1.
Случайная величина g имеет (центральное) ^-распределение с k степе-
нями свободы, если
k
(2)
f=l
где (0, 1), yi независимы, или в краткой записи: £ ~ X2W- Плот-
ностью распределения случайной величины £ ~ Х2(£) является
Pk (х) = [2ft/2 Г (fe/2)] “1 xft/2~ le~xl2, x > 0. (3)
Из (1) и (2) следует, что если У ~ АГ(|х, о2А-1), то
(Y-rfAtY-M-^x2 (АГ), (4)
где W — размерность вектора У.
Теорема 1. Пусть У ~ Af (0, Лг), А — симметричная N X П-матрица.
Для того чтобы квадратичная форма YTAY имела %2-распределение, необхо-
димо и достаточно, чтобы было выполнено А2 = А. При этом число степеней
свободы ^-распределения равно tr А.
Доказательство имеется в [35].
Распределением Стьюдента (или t-распределением) с k степенями сво-
боды называется распределение случайной величины t — yl^fyk, где случай-
ные величины у и g независимы, у ~ М(0, 1), £ ~ %2(£).
Случайная величина F имеет распределение Фишера с k и k2 степенями
свободы (F ~ F(klt k2)), если F = где gj ~ х2 (&|)> Ь ~ %2 (£2) и
случайные величины gi и £2 независимы. Из определения следует, что если
случайная величина t имеет распределение Стьюдента с k степенями свободы,
то t2 ~ F(l, k).
Ниже приведены четыре таблицы. В таблице 1 содержатся значения
na — модуля a/2-квантиля стандартного нормального распределения. Число
^удовлетворяет соотношениям *
~оо
a/2= ‘ С e-PI2dt------1 С e-i42dt'
V2n J V2n J
-oo na
na
312
В таблице 2 приведены значения ta (k) — модуля а/2-квантиля /-распре-
деления Стьюдента с k степенями свободы Если — случайная величина
с указанным распределением, то выполнено
а/2 = Р < ~ta (*)} = Р {tW > ta (fe)}.
1-а = Р{|
В таблице 3 приведены значения Fa (k, п) — (1—а)-квантиля распре-
деления Фишера с k и п степенями свободы. Если F ~ F(k, л), то
P{F>Fa(k, гг)} = а
В таблице 4 приведено 350 нормально распределенных случайных чисел
(т. е. независимых реализаций случайной величины, имеющей нормальное рас-
пределение с нулевым средним и дисперсией, равной единиц^)
Таблица 1. Значени i пп
а 0,2 0,1 0,05 0,02 0,01 0,002 0,001
"а 1,28 1,64 1,95 2,33 2.56 3 09 3,29
Таблица 2. Значения t„ (k]
а k
i 2 3 4 5 6 7 8 9 10 оо
0,1 0,05 0,01 0,001 6,31 12,71 63,66 636,67 2,92 4,30 9,93 31,60 2,35 3,18 5,84 12,92 2,13 2,78 4,60 8,61 2,02 2,57 4,03 6,87 1,94 2,45 3,71 5,96 1,90 2,37 3,50 5,44 1,86 2,31 3,36 5,04 1,83 2,26 3,25 4,78 1.81 2.23 3,17 4,59 1,64 1,96 2,56 3,29
Таблица 3. Значения Fa (k, л)
а = 0,05
k
п 1 2 3 4 5 7 8 9 10 оо
1 161 200 216 225 230 234 237 239 241 242 254
2 18,5 19,0 19,2 19,2 19,3 19,3 19,4 19.4 19,4 19,4 19,5
3 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8.81 8,79 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,37
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3.79 3.73 3,68 3,64 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 2,93
9 5,12 4,26 3,83 3,63 3 48 3,37 3,29 2,23 3,18 3.14 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2.98 2,54
оо 3,84 3,00 2.60 2.37 2.21 2,10 2.01 1,94 1,88 1,83 1.00
313
a—0,01
h
п 1 2 3 4 5 6 7 8 9 10 со
1 4052 4999 5403 5625 5764 5859 5928 5981 6023 6056 6366
2 98,5 99,0 99,2 99,2 99,3 99,3 99,4 99,4 99,4 99,4 99,5
3 34,1 30,8 29,4 28,7 28,2 27,9 27,7 27,5 27,3 27,2 26,1
4 21,2 18,0 16,7 16,0 15,5 15,2 15,0 14,8 14,7 14,5 13,5
5 16,3 13,3 12,1 11,4 11,0 10,7 10,5 10,3 10,2 10,1 9,02
6 13,7 10,9 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 6,88
7 12,2 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 5,65
8 11,3 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 4,86
9 10,6 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 4,31
10 10,0 7,56 6.55 5,89 5,64 5,39 5,20 5,06 4,94 4,85 3,91
оо 6,63 4,61 3,78 3 32 3,02 2,80 2,64 2,51 2,41 2,32 1,00
Таблица 4. Нормально распределенные случайные числа
0,46 0.14 2,45 —0,32 -0,07 0.30 -0,29 1,30 0,24 -0,96
0,06 —2,53 —0,53 -0,19 0,54 -1,56 0,19 -1,19 0,02 0.52
1,47 —0,35 —0,63 0,70 0,93 1.37 0,79 -0,96 -0,85 -1,86
1.02 —0,47 1,28 3,52 0,57 -1.85 0,19 1,19 -0,50 -0,27
1,39 —0.55 0,05 0,32 2,94 1,97 -0,26 0,41 0,44 -0,03
0,91 -0,51 —0,52 0,60 0,88 —0,93 1,58 0,16 -1,88 037
1,18 -1,05 0,01 0,77 0,97 0,71 109 -0,63 -0,25 -0,70
— 1,50 —0,49 —0.16 —0,14 1,03 0,20 0 45 0,75 -0,42 -0.43
—0,69 0,76 — 1,62 -0,34 -0,51 —2,05 -0,46 -0,22 0,86 -0,46
1,37 0,22 0 38 0 76 0.18 —0,74 0 96 -1.53 —0,26 0,12
—0.48 1,68 —0,06 — 1,23 —0,49 0,86 —0.49 -1 98 -2,83 -0,24
-1,38 —0,15 1 36 -0 56 -0.26 —0,21 0,22 0.78 0,95 -0,87
-1,01 0,60 —0,92 1.60 0,06 0,41 -0,17 0 31 -0.97 -1,02
-0,01 -0,90 0,01 -0,72 1.15 -0,12 1,10 0,48 -1,69 0,42
1,39 -1,16 -0 91 1 23 -0 20 —0.25 1.24 -2.57 -0,56 0,06
-1,79 -0,26 1,24 1,05 -0,51 -1,63 -0,15 -0 39 -0,63 0 56
—0,10 -0.38 — 1,38 0,36 -0.99 -0,12 -1,70 -2.83 -1,11 -2,36
-1,34 1,83 —0.96 0,42 0.97 -1,14 -1,04 0,36 -1.73 1,96
1,04 0,53 0,73 1,38 0,98 — 1.33 1,62 — 1,04 0,52 —0,28
0,28 -2,06 0,72 -0,87 -1.10 — 1,40 1,05 0,08 —0.57 0,93
-1,80 -2,01 — 1,63 0,54 0,25 —0,17 0,03 0,08 0 47 -103
-1.19 1,18 1.11 0,88 1,26 -0.20 0,15 —0,38 -0,31 0,48
0,66 -1,14 1,15 -1,21 -0,93 0,42 0,29 -0,90 0,61 2,71
-0,44 0,36 — 1,94 0.89 -0,23 0,60 0,87 —0,44 -0.22 —0,06
-1,40 -0,23 0,38 -0,65 -0,58 0,24 -0,29 0,51 0,74 -0,30
0,20 0,21 —1,08 -0.22 -0.29 1,22 1,12 0,00 —2,02 -0,59
0,16 0,27 -0,31 0,08 -2,83 —0 44 -0,79 -1.27 —0,62 -1,05
2,27 061 0.61 -0,75 0.25 1,29 0,06 — 1 79 -0,70 -1.35
0,04 -0,31 0,12 0,79 -0,58 -0,54 0,48 -0,10 0,48 0 10
-1,13 -2,10 0,92 0.14 0,45 — 1,66 1.04 -1.36 -0.59 -1,02
0.77 0.08 — 1 47 0,03 -2,13 0,66 0,08 -0.88 -0,58 0.55
0,37 -1.66 —0,85 0,23 -0,66 0.34 -0.09 —0.16 -0,12 0,42
-0,51 -0,34 0,21 -0.74 1,04 0,01 0,43 -0,83 0.19 0,07
0.29 -0,52 1,27 -1,21 -0.90 0,11 -0.53 -0.81 0,07 0,52
1,03 2.99 -0.57 -0 49 -1 11 1,30 -1 43 -1.34 -3 00 0,48
СПИСОК ЛИТЕРАТУРЫ
1. Адлер Ю. П., Маркова Е. В., Грановский Ю. В. Планирование
эксперимента при поиске оптимальных условий. — М.: Наука, 1976.
2. Алексеев В. М., Тихомиров В. М., Фомин С. В. Оптимальное
управление. —М.: Наука, 1979.
3. Аса тур ян В. И. Теория планирования эксперимента. — М.: Радио и
связь, 1983.
4. Б е ж а е в а 3. И., М а л ю т о в М. Б. Введение в теорию планирования
регрессионных экспериментов: Учебное пособие. — М.: МИЭМ, 1983.
5. Беллман Р. Введение в теорию матриц. — М.: Наука, 1976.
6. Беляев Ю. К., Чепурин Е. В. Основы математической статистики. —
' М.: МГУ, 1982—1983.
7. Боровков А. А. Математическая статистика. — М.: Наука, 1984.
8. Бродский В. 3. Введение в факторное планирование эксперимента. —
М.: Наука, 1976.
9. Гантмахер Ф. Р. Теория матриц. — М.: Наука, 1967.
10. Горский В. Г., Адлер Ю. П. Планирование промышленных экспери-
ментов.— М: Металлургия, 1974.
11. Демиденко Е. 3. Линейная и нелинейная регрессия. — М.: Финансы и
статистика, 1981.
12. Д е н и с о в В. И. Математическое обеспечение системы ЭВМ — экспери-
ментатор.— М.: Наука, 1976.
13. Дюге Д. Теоретическая и прикладная статистика. — М.: Наука, 1972.
14. Ермаков С. М. Метод Монте-Карло и смежные вопросы. — М.: Наука,
1975.
15 Ермаков С. М. Об оптимальных несмещенных планах регрессионных
экспериментов//Труды МИАН СССР. Вып. III.— 1970. — С. 252—257.
16. Ермаков С. М., Бродский В. 3., Ж и г л я в с к и й А. А. и др. Ма-
тематическая теория планирования эксперимента. — М.: Наука, 1983.
17. Ермаков С. М., Михайлов Г. А. Статистическое моделирование.—
М.: Наука, 1982.
18. Жиглявский А А. Математическая теория глобального случайного
поиска. — Л.: ЛГУ, 1985.
19. Клейнен Дж. Статистические методы в имитационном моделирова-
нии. — М.: Статистика, 1978.
20. К о л м о г о р о в А. Н. Основные понятия теории вероятностей. —
М.: Наука, 1974.
21. Крамер Г. Математические методы статистики. — М: Мир, 1975.
22. Красовский Г. И., Филаретов Г. Ф. Планирование эксперимен-
та.— Минск: БГУ, 1982.
23. Круг Г. К., С о с у л и н Ю. А., Ф а т у е в В. А. Планирование экспери-
мента в задачах идентификации и экстраполяции. — М.: Наука, 1977.
24. М а л ю т о в М. Б. Нижние границы для средней длительности последова-
тельно планируемого эксперимента//Известия вузов: Математика. — 1983.—
№ 11. —С. 19—40.
25. М а л ю т о в М. Б. Планирование и анализ в линейной регрессионной мо-
дели//Планирование оптимальных экспериментов. — М.; МГУ. 1975.—
С. 9-50.
315
26. Маркова Е. В., Лисенков А. Н. Комбинаторные планы в задачах
многофакторного эксперимента. — М.: Наука, 1979
27. Марчук Г. И. Методы вычислительной математики. — М.: Наука, 1980.
28. Марчук Г. И., Ермаков С. ДА. О некоторых проблемах теории пла-
нирования эксперимента//Математические методы планирования экспери-
мента. — Новосибирск: Наука, 1981. — С. 3—17.
29. Михайлов Г. А. Оптимизация весовых методов Монте-Карло. — М.:
Наука, 1986.
30. М о с т е л л е р Ф., Т ь ю к и Дж. Анализ данных и регрессия. — М.: Фи-
нансы и статистика, 1982.
31. Налимов В. В., Голикова Т. И. Логические основания планирова-
ния эксперимента. — М.: Металлургия, 1981.
32. Н а л и м о в В. В., Чернова Н. А. Статистические методы планирова-
ния экстремальных экспериментов. — М.: Наука, 1965.
33. Поляк Б. Т. Введение в оптимизацию. — М.: Наука, 1983.
34. П ш е н и ч н ы й Б. Н. Необходимые условия экстремума. — М.: Наука,
1982.
35. Рао С. Р. Линейные статистические методы й их применения. — М.: Нау-
ка, 1968.
36. Себер Дж. Линейный регрессионный анализ. — М.: Мир, 1980.
37. Сеге Г. Ортогональные полиномы. — М.: Физматгиз, 1952.
38. Статистические методы в инженерных исследованиях (лабораторный
практикум): Учебное пособие/Под ред. Г. К. Круга. — М.: Высшая школа,
1983.
39. Тараканов В. Е. Комбинаторные задачи и (0, 1)-матрицы. — М.: Нау-
ка, 1985.
40. У с п е н с к и й А. Б., Федоров В. В. Вычислительные аспекты метода
наименьших квадратов при анализе и планировании регрессионных экспе-
риментов. — М.: МГУ, 1975.
41. Федоров В. В. Теория оптимального эксперимента. — М.: Наука, 1971.
42. Федоров В. В. Численные методы максимина. — М.: Наука, 1979.
43. Холл М. Комбинаторика. — М.: Мир, 1970.
44. Шеффе Г. Дисперсионный анализ. — М.: Наука, 1980.
45. Ш и р я е в А. Н. Вероятность. — М.: Наука, 1980.
46. A t k i n s о n А. С. Developments in the design of experiments//Interna-
tional Statistical Review. — 1982. — V. 50. — P. 161—177.
47. В a n d e m e r H., N a t h e r W. Theorie und Anwendung der optimalen Ver-
suchsplanung II, Handbuch fur die Anwendung. — Berlin: Akademie-Verlag,
1980.
48. В a n d e m e r H. et al. Theorie und Anwendung der optimalen Versuchs-
planung I, Handbuch zur Theorie. — Berlin: Akademie-Verlag, 1977.
49. F i s h e r R. A. The design of experiments. — London: Olyver and Boyd,
1935
50. Silvey S. D. Optimal design. — New York: Chapman & Hall, 1980.
51. Steinberg D. M, Hunter W. G. Experimental designs: review and
comment//Technometrics. — 1984. — V. 26, № 1. — P. 71—130.
52. T о u t e n b u r g H. Prior information in linear models. — Chichester: J.
Wiley & Sons, 1984.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
Алгоритм градиентный 217 — обобщенный градиентный 218 — поисковый 211, 222 — псевдоградиентный 212 — регулярный 211 — стохастического /-градиента 226 — стохастической аппроксимации Кифера — Вольфовица 226 Роббинса — Монро 217 — экстремального планирования 211 Анализ дисперсионный 8, 50 однофакторный 51 — матричный 308 — пофакторный 268 — регрессионный 8 линейный 13 нелинейный 192 Имитация эксперимента с помощью ЭВМ 12 Информация о параметрах априорная 41 Квадрат греко-латинский 66 — латинский 62 Квадраты латинские ортогональные 66 Квазисупермартингал неотрицательный 213 Класс функций однородный 264 полный 258 Комбинация выпуклая 92 Критерий байесовский 11, 178, 244 — компромиссный 11 — линейный 100 — минимаксный ИЗ, 244, 294 — оптимальности 95, 286 — А 100 — D 95 обобщенный 99
Блок 70 Блок-схема двумерная 70 — правильная 71 — равноповторная 71 — сбалансированная 71 — симметричная 71 — частично сбалансированная 71 - Ds 99 — Е 102 - G 102 - L 100 — MV 102 — Q 101 - Т 249 Куб латинский 69
Вектор базисных функций 84 — неизвестных параметров 84 — результатов измерений 14 — случайных ошибок 19 Вогнутость определителя логарифмическая 307 Лемма о произведении определителей 304 Матрица Адамара 147 — верхняя треугольная 298 — данных 14, 18 — дисперсионная 24
Геометрия проективная 77 Гипотеза значимости 29 — о параметрах линейной регрессии 29, 47 — информационная (Фишера) 86 — невырожденная 298 — неотрицательно определенная 298 — обобщенная обратная 298 — обратная 298
Датчик случайных чисел 273 Дисперсионного анализа таблица 50 Дисперсия обобщенная 102 — оценки поверхности отклика 101 нормированная 101 Дифференцирование матричное 309 Длина оптимальной последовательной стра- тегии 259 статической стратегии 259 — шага 211 — ортогональная 299 — плана 14, 18, 259 дисперсионная 87, 201 нормированная 87 информационная 87, 201 байесовская 162 нормированная 87 — положительно определенная 29$ — симметричная 298 Метод Бокса — Уилсона 234 — Гаусса — Ньютона 198 — зависимых испытаний 276
Задача дисперсионного анализа 50 — непараметрического оценивания 172 — несмещенного планирования 176 — оптимального взвешивания 143 — оптимального планирования 95 — оценивания регрессии 172 — планирования устойчивая (робастная) 172 — условной оптимизации 218 — крутого восхождения 232 — Марквардта 198 — множителей Лагранжа 223 — противоположной переменной 277 — симплексный 229 — случайного баланса 268 планирования 263 — существенной выборки 278, 284 — факторного планирования 53 — Хартли 198
317
Метод штрафных функций 220
------внешних 220
------ внутренних 221
— DUD 198
Множество выпуклое 90
— дискретных планов 84
— информационных матриц 90
— непрерывных планов 86
— параметрическое 41
— планирования 83, 149
Модель вероятностная 272
— детерминированная 272
~ дизъюнктивная 255
— Михаэлиса — Ментен 206
— регрессионная линейная 18
------классическая 24, 84
------неполного ранга 34
------обобщенная 30
------смешанная 43
--- нелинейная 192
— Реньи 267
— факторная 53
— фиктивная 279
Набор функций v-регулярный 288
Направление движения 211
Неравенства выпуклости 306
Неравенство Гельдера 305
— Коши 305
— Фишера 77
Образец 70
Общее среднее 54, 72
Оператор проектирования 219
— сопряженный 166
Оценка байесовская 44
— гребневая 39
— Джеймса — Стейна 39
— линейная 20
--- однородная 20
— максимального правдоподобия 28, 194
— минимаксная 42
- МНК 16, 194
--- линеаризованная 195
--- нелинейная 195
---обобщенная 31
--- стандартная 21
---эмпирическая 16
— несмещенная 20
- НЛН 21
— проекционная 186
---асимптотически оптимальная 188
— сжимающая 39
— ядерного типа 184
Ошибка случайная 18, 84
--- некоррелированная 84
--- равноточная 84
--- центрированная 84
Параметр регрессии 15, 18, 192
— сглаживания 227
План байесовский оптимальный 202, 245
— Буса — Кокса 269
— глобально оптимальный 155
— дискретный 84
— латинский 63
— линейно оптимальный 100
— локально оптимальный 206
---D-оптимальный 206
— минимаксный 204
— насыщенный 145, 254
-- невырожденный 87
— неполноблочный сбалансированный
(BIB) 74
--- частично сбалансированный (PBIB)
75
— непрерывный 85, 86
— несмещенный 179» 180
План обобщенно D-оптимальный 99
— оптимальный 95
---для экстраполяции в точку 101
— ортогональный 104
— отсеивания оптимальный 256
— первого порядка 139
— Плэкета — Бермана 267
— робастный 172, 179
— ротатабельный 104
— сверхнасыщенный 254
— сильно разделяющий 256
— симметричный 55
— точный 84
— факторный 54
двухуровневый 55
дробный 54
полный 54
— эксперимента 84, 149
— А -оптимальный 100
— D-оптимальный 97, 150
— D^-оптимальный 99
— ^-оптимальный 102
— G-оптимальный 102, 150
— D-оптимальный 100
— М V-оптимальный 102
— Q-оптимальный 101
— Г-оптимальный 249
— Ф-оптимальпый 95
— ^-оптимальный 97
— у-разделяющий 256
Планирование эксперимента 11
---дискриминирующего 8, 247
---имитационного 8, 276
---несмещенное 180
---отсеивающего 253
---последовательное 204, 252, 254
---регрессионного 8, 83, 192
--- статическое 254
---факторного 8, 53
---экстремального 8, 210
Плотность оптимальная 286
Погрешность систематическая 10, 174
— случайная 10, 174
— суммарная 174
Подход байесовский 201
— минимаксный 201
— последовательный 201
Подъем случайный покоординатный 226
Поиск дискретный 257
— случайный с односторонней пробой 226
--- с парной пробой 226
Полуреплика 57
Последовательность планов асимптотически
оптимальная 156, 221
— штрафных функций внешних 220
------ внутренних 221
Производная функционала по матрице 309
Пространство гильбертово с воспроизводя-
щим ядром 154
Процедура Федорова — Уинна 128
Процесс регенерации 281
Прямоугольник латинский 68
Разрешающая способность плана 60
Ранг матрицы 298
Распределение маргинальное 261
— нормальное 28, 312
— Стьюдента 30, 312
— Фишера 48, 312
— %2 312
Расщепление и рулетка 277
Регрессия линейная 15, 19, 84, 149, 267
— нелинейная 15, 192
— описательная 13
— полиномиальная 114
— тригонометрическая 122
— эмпирическая 15
Реплика дробная 55
318
Симплекс-план 146
Симплекс регулярный 229
Система латинских квадратов полная 67
— массового обслуживания (СМО) 273
— нормальных уравнений 16
След матрицы 296
Соотношение генерирующее 58
— определяющее 57, 59
Способ обработки 70
Стратегия двухстадийного группового от-
сеивания 269
— поиска оптимальная 259
--- последовательная 257
--- статическая 257
Структура инцидентная 70
Сумма квадратов остаточная 45
---отклонений взвешенная 31
Супермартингал неотрицательный 213
Схема линейной регрессии 18
— накопления 196
— регрессионного эксперимента 192
Теорема Аткинсона — Федорова 249
— Бокса 142
— Гаусса — Маркова 24
— Ермакова — Золотухина 183
- Жиглявского 187, 242, 292, 295
— Каратеодори 93
— Кифера — Вольфовица 109
— Кукса — Ольмана 42
— Малютова 153
— Нейтера 160
— Поляка — Цыпкина 213, 224
— Реньи 262, 264
— Сакса — Илвисэйкера 156
— Федорова 129, 202
— Хелли 91
— эквивалентности 106, 108, 109, 160, 164
249, 293
Теория возмущений линейная 167
— матриц 8, 298
— отсеивающих экспериментов 253
Точка крайняя 92
— седловая функции Лагранжа 222
— стационарная 212
Уровень фактора 50, 53, 55
Условие Липшица 212
Условие несмещенности 20
Условия проведения измерений 83
Фактор 50, 53
— групповой 269
— значимый 267
Формула Бине - Коши 305
— малых возмущений 167
— Фробениуса 301
Функционал выпуклый 95
— дифференцируемый 106, 309
— монотонный 95
— однородный 95
Функция базисная 84
— Лагранжа 222
— отклика 210
— параметрическая 37, 45
---- векторная 37
----оцениваемая 37, 45
— правдоподобия 28. 194
— регрессии 19, 192
---- квадратичная 54
----линейная 19, 54. 84, 149, 267
---- нелинейная 192
---- неполная квадратичная 54
---- полиномиальная 114
---- тригонометрическая 122
— сглаженная 227
Число собственное 298
Эксперимент 9
— активный 10
— дискриминирующий 247
— имитационный 272
— классический 53
— отсеивающий 253
— пассивный II
— регрессионный 83. 192
— факторный полный 54
Элемент 70
Эллипсоид рассеяния 98
Энтропия Шеннона 259
Эффект блока 72
— взаимодействий 54
— главный 54
— образца 72
— столбца 72
— элемента 72
Сергей Михайлович Ермаков,
Анатолий Александрович Жиглявский
МАТЕМАТИЧЕСКАЯ ТЕОРИЯ
ОПТИМАЛЬНОГО ЭКСПЕРИМЕНТА
Редактор Т. В. Шароватова
Художественный редактор Т. Н Кольченко
Технический редактор Л. В. Лихачева
Корректоры Т. С. Вайсберг, Л» С Сомова
И Б № 12744
Сдано в набор 24.04.86. Подписано к печати 11.12.86.
Формат 60X90Vie« Бумага тип. № 2. Гарнитура литературная.
Печать высокая. Усл. печ i.2U. Усл. кр.-отт. 20. Уч.-изд. л. 21,44.
Тираж 2о600 экз. Заказ 91, Цена 1 р.
Ордена Трудового Красного Знамени издательство «Наука»
Главная редакция физико-математической литературы
117071 Л4осква В-71, Ленинский проспект. 15
Отпечатано с матриц Ленинградской типографии № 2 го-
ловного предприятия ордена Трудового Красного Знамени
Ленинградского объединения «Техническая книга» им. Ев-
гении Соколовой Союзполиграфпрома при Государствен-
ном комитете СССР по делам издательств, полиграфии
и книжной торговли 198052, Ленинград, Л-52, Измайлов-
ский проспект. 29 в Ленинградской типографии № 4 ор-
дена Трудового Красного Знамени Ленинградского обьеди-
нения «Техническая книга» им. Евгении Соколовой Союз-
полиграфпрома при Государственном комитете СССР по
делам издательств, полиграфии и книжной торговли.
191126, Ленинград, Социалистическая ул., 14.